Il y a quelques temps, en Février, j’ai échangé avec un collègue sur Twitter sur les conditions qui font qu’un résultat scientifique peut-être crédible. Sa position était que, pour avoir confiance en un résultat d’étude scientifique, il fallait que celui-ci soit répliqué, la mienne était/est plutôt que pour avoir confiance en un résultat scientifique, celui-ci doit être soutenu par une théorie suffisamment solide1.

Il y a quelques jours, Berna Devezer, spécialiste de ces questions méta-scientifiques, postait une synthèse de ce qu’elle et son équipe ont appris, en travaillant sur ces questions de réplication. Pourquoi la réplicabilité ne peut-elle pas être un indicateur nécessaire et suffisant de la qualité d’une recherche scientifique, notamment en sciences humaines et sociales, comme la psychologie ?

La réplicabilité est un critère important pour estimer la qualité d’une recherche scientifique, mais, pour moi, elle ne peut pas être un critère nécessaire et suffisant. La réplicabilité permet certes de vérifier la validité des résultats obtenus par une étude, en s’assurant qu’ils ne sont pas dus au hasard, à des erreurs de mesure, à des biais de publication ou à des manipulations frauduleuses. Cependant, la réplicabilité n’est pas toujours possible, ni suffisante, ni même souhaitable pour évaluer la qualité d’une recherche scientifique.

Tout d’abord, la réplication n’est pas toujours possible. Le critère de réplicabilité ne peut pas être inconditionnel et indépendant des spécificités du domaine scientifique. Dans les recherches en histoire, archéologie, ou en sciences humaines, il peut être difficile voire impossible, de reproduire les conditions exactes d’observations ou d’expérimentations de l’étude originales. En psychologie sociale, la tentative de réplication par Doyen et collaborateurs (2012) de l’expérience de Bargh, Chen & Burrows (1996, Etude 2) sur les effets comportementaux de l’amorçage d’un stéréotype, en est un bon exemple. La théorie de Bargh et al. (1996) est que l’activation d’un stéréotype devrait augmenter la probabilité que les participants se comportent inconsciemment et automatiquement de façon conforme à ce stéréotype. Une hypothèse empirique découlant de cette théorie, et qui est testée dans cette étude, est que l’activation du stéréotype des personnes âgées (qui inclut le trait de lenteur) amènera les participants, des étudiants, à marcher plus lentement après cette activation, en comparaison à une situation dans laquelle le stéréotype n’est pas activé. Les résultats des 2 études sont conformes à cette hypothèse : Les participants de la condition « Personnes Agées » mettent plus de temps pour parcourir la distance de 9.75m entre la porte de la salle d’expérimentation et un indicateur au sol, que les participants de la condition contrôle. Cependant, cet effet repose sur un certain nombre d’hypothèses auxiliaires, qui ne font pas partie de la théorie elle-même, mais qui en déterminent les conditions d’application, et qui devront être satisfaites pour que l’effet puisse être répliqué. Le stéréotype des personnes âgées, chez des étudiants francophones, en Belgique, en 2010, est-il le même que le stéréotype des personnes âgées chez des étudiants anglophones, à New York, dans les années 1990 ? La traduction en français des adjectifs utilisés par Bargh et al. (1996) porte-t-elle le même sens et la même force que les adjectifs en langue anglaise ? Contrevenir à l’une de ces hypothèses auxiliaires peut amener à un échec de réplication de l’effet, sans pour autant que cela n’affecte, ni n’invalide, la théorie sous-jacente. Comme le disent van Bavel et al. (2016), même après avoir ajusté pour les autres variables méthodologiques, les facteurs contextuels restent associés à la reproductibilité. Tenter une réplication à un moment ou un lieu différent ou avec un échantillon différent peut modifier les résultats de ce qui est autrement considéré comme des « réplications directes ». Deplus, au delà de ces hypothèses auxiliaires, qui restent parfois impensées par les chercheurs, d’autres critères, comme la qualité de l’opérationnalisation, la qualité des outils de mesures, etc., peuvent rendre difficile la réplication de certaines études, sans pour autant remettre en question ou falsifier les théories sous-jacentes. Si la réplication n’est toujours pas possible, elle ne peut être un critère nécessaire, du moins, pour les sciences humaines.

Ensuite, la réplicabilité n’est pas suffisante. La réplication à elle seule ne garantit pas que les résultats soient vrais, utiles ou intéressants. En effet, il ne suffit pas qu’une étude soit répliquée pour qu’elle soit correcte sur le plan théorique, méthodologique ou éthique. Il est tout à fait possible qu’un effet soit répliqué, même en l’absence d’une théorie vraie. Un exemple fréquemment cité en épistémologie (Chalmers, 1987) et repris par Trafimow et Earp (2016), est celui de la théorie du phlogistique. Avant Lavoisier, il était admis que la combustion s’expliquait par l’existence d’un élément nommé « phlogistique », sans pour autant que cette relation soit précisément articulée. Cependant, malgré ce manque de précision dans la théorie, les chercheurs ont été en mesure de démontrer et de répliquer l’existence de l’oxygène, de l’azote, et d’autres éléments majeurs. Finalement, Lavoisier a infirmé la théorie du phlogistique sur la base de mesures de plus en plus précises (par exemple, certains objets avaient pris du poids après avoir prétendument perdu du phlogistique) et a suggéré une meilleure théorie. En ce sens, la réplication souffre des mêmes problèmes que ceux de l’inductivisme soulevés par Popper. Tout comme ce n’est pas parce que j’ai vu un nombre important de corbeaux noirs, que cela « confirme » ma théorie selon laquelle tous les corbeaux sont noirs, ce n’est pas parce qu’un effet a été répliqué un certain nombre de fois que la théorie qui le sous-tend est pour autant vraie.

Finalement, la réplicabilité n’est pas toujours souhaitable. Le risque soulevé par Devezer est qu’une trop grande importance apportée à la réplication peut induire une uniformisation de la science et une perte de diversité épistémologique. En effet, si la réplicabilité devient le critère principal pour juger de la qualité d’une recherche scientifique, cela risque de favoriser les approches quantitatives, et expérimentales, au détriment des approches plus qualitatives et écologiques. Si la réplication devient une condition sine qua non pour la crédibilité ou la validité d’une théorie, beaucoup d’efforts et d’énergie vont être dévoués à tenter de répliquer exactement des effets passés, au détriment de la génération de nouvelles idées et théories, et de risquer la dégénérescence de nos programmes de recherche au sens de Lakatos. Par ailleurs, l’absence de réplication d’un effet risque d’amener les chercheurs à abandonner complètement cette ligne de recherche, plutôt que de se poser davantage de questions sur les raisons, épistémologiques, théoriques, ou méthodologiques, de cette absence de réplication.

En résumé, la réplicabilité est un critère important mais ni nécessaire, ni suffisant, pour estimer la qualité d’une recherche scientifique. Une recherche scientifique doit accumuler un ensemble d’indicateurs suffisant et suffisamment divers, consistant avec la théorie, pour être crédible. Le travail du chercheur ne réside pas dans la confirmation perpétuelle d’hypothèse ou de théories, mais au contraire dans la falsification/réfutation de celles-ci pour permettre le progrès. Malheureusement, une absence de réplication, pour les raisons évoquées ci-dessus, n’est pas une réfutation.

Pour conclure, j’aimerais revenir sur le dernier point soulevé par Devezer. Je suis assez d’accord avec elle sur l’impact des incitations dont les chercheurs font l’objet sur le développement de la science. Alors que la science est une entreprise de longue haleine, la pression à la publication et à la citation qui conditionnent l’évolution de carrière des chercheurs peuvent amener ces derniers vers des recherches « faciles », « innovantes », mettant l’accent sur la découverte d’effet nouveaux (et réplicables ?), plutôt que sur le développement de théories permettant la compréhension du monde qui nous entoure. Parce que comprendre le monde prend du temps.

Références

Bargh, J. A., Chen, M., & Burrows, L. (1996). Automaticity of Social Behavior: Direct Effects of Trait Construct and Stereotype Activation on Action. Journal of Personality and Social Psychology, 71(2), 230–244. https://doi.org/10.1037/0022-3514.71.2.230

Doyen, S., Klein, O., Pichon, C.-L., & Cleeremans, A. (2012). Behavioral Priming: It’s All in the Mind, but Whose Mind? PLoS ONE7(1), e29081. https://doi.org/10.1371/journal.pone.0029081

Trafimow, D., & Earp, B. D. (2016). Badly specified theories are not responsible for the replication crisis in social psychology : Comment on Klein. Theory & Psychology26(4), 540‑548. https://doi.org/10.1177/0959354316637136

Van Bavel, J. J., Mende-Siedlecki, P., Brady, W. J., & Reinero, D. A. (2016). Contextual sensitivity in scientific reproducibility. Proceedings of the National Academy of Sciences, 113(23), 6454‑6459. https://doi.org/10.1073/pnas.1521897113

  1. Je reviendrai probablement sur ce point plus tard, sous forme de blog. ↩︎
Posted in

Laisser un commentaire