How Many Replicators Does It Take to Achieve Reliability? Investigating Researcher Variability in a Crowdsourced Replication

Nate Breznau, Eike Mark Rinke, Alexander Wuttke, Hung H. V. Nguyen, Muna Adem, Jule Adriaans, Esra Akdeniz, Amalia Alvarez-benjumea, Henrik Andersen, Daniel Auer, Flavio Azevedo, Oke Bahnsen, Ling Bai, Dave Balzer, Paul C. Bauer, Gerrit Bauer, Markus Baumann, Sharon Baute, Verena Benoit, Julian Bernauer, Carl Berning, Anna Berthold, Felix S. Bethke, Thomas Biegert, Katharina Blinzler, Johannes N. Blumenberg, Licia Bobzien, Andrea Bohman, Thijs Bol, Amie Bostic, Zuzanna Brzozowska, Katharina Burgdorf, Kaspar Burger, Kathrin Busch, Juan Castillo, Nathan Chan, Pablo Christmann, Roxanne Connelly, Christian Czymara, Elena Damian, Eline De Rooij, Alejandro Ecker, Achim Edelmann, Christine Eder, Maureen A. Eger, Simon Ellerbrock, Anna Forke, Andrea Forster, Danilo Freire, Chris Gaasendam, Konstantin Gavras, Vernon Gayle, Theresa Gessler, Timo Gnambs, Amélie Godefroidt, Max Grömping, Martin Groß, Stefan Gruber, Tobias Gummer, Andreas Hadjar, Verena Halbherr, Jan Paul Heisig, Sebastian Hellmeier, Stefanie Heyne, Magdalena Hirsch, Mikael Hjerm, Oshrat Hochman, Jan H. Höffler, Andreas Hövermann, Sophia Hunger, Christian Hunkler, Nora Huth, Zsofia Ignacz, Sabine Israel, Laura Jacobs, Jannes Jacobsen, Bastian Jaeger, Sebastian Jungkunz, Nils Jungmann, Jennifer Kanjana, Mathias Kauff, Sayak Khatua, Manuel Kleinert, Julia Klinger, Jan-philipp Kolb, Marta Kołczyńska, John Kuk, Katharina Kunißen, Salman Khan, Dafina Kurti, Alexander Langenkamp, Robin Lee, David Liu, Philipp M. Lersch, Lea-maria Löbel, Philipp Lutscher, Matthias Mader, Joan Madia, Natalia Malancu, Luis Maldonado, Helge Marahrens, Nicole Martin, Paul Martinez, Jochen Mayerl, Oscar J. Mayorga, Robert Mcdonnell, Patricia Mcmanus, Kyle Mcwagner, Cecil Meeusen, Daniel Meierrieks, Jonathan Mellon, Friedolin Merhout, Samuel Merk, Daniel Meyer, Jonathan Mijs, Cristobal Moya, Marcel Neunhoeffer, Daniel Nüst, Olav Nygård, Fabian Ochsenfeld, Gunnar Otte, Anna Pechenkina, Mark Pickup, Christopher Prosser, Louis Raes, Kevin Ralston, Miguel Ramos, Frank Reichert, Leticia Rettore Micheli, Arne Roets, Jonathan Rogers, Guido Ropers, Robin Samuel, Gregor Sand, Constanza Sanhueza Petrarca, Ariela Schachter, Merlin Schaeffer, David Schieferdecker, Elmar Schlueter, Katja Schmidt, Regine Schmidt, Alexander Schmidt-catran, Claudia Schmiedeberg, Jürgen Schneider, Martijn Schoonvelde, Julia Schulte- Cloos, Sandy Schumann, Reinhard Schunck, Jürgen Schupp, Julian Seuring, Henning Silber, Willem Sleegers, Nico Sonntag, Alexander Staudt, Nadia Steiber, Nils Steiner, Sebastian Sternberg, Dieter Stiers, Dragana Stojmenovska, Nora Storz, Erich Striessnig, Anne-kathrin Stroppe, Jordan W. Suchow, Janna Teltemann, Andrey Tibajev, Brian Tung, Giacomo Vagni, Jasper Van Assche, Meta Van Der Linden, Jolanda Van Der Noll, Arno Van Hootegem, Stefan Vogtenhuber, Bogdan Voicu, Fieke Wagemans, Nadja Wehl, Hannah Werner, Brenton Wiernik, Fabian Winter, Christof Wolf, Cary Wu, Yuki Yamada, Nan Zhang, Conrad Ziller, Björn Zakula, Stefan Zins, Tomasz Żółtak, coautores

OSF

El artículo reporta los hallazgos de una replicación colaborativa. Ochenta y cuatro equipos de replicación intentaron verificar los resultados de un estudio original ejecutando los mismos modelos con los mismos datos. La replicación incluyó una condición experimental en la que un grupo “transparente” recibió el estudio original y el código, mientras que un grupo “opaco” recibió únicamente la sección metodológica y la descripción de los coeficientes de regresión, sin acceso al código.

El grupo transparente logró verificar en gran medida los resultados originales (95,5%), mientras que el grupo opaco tuvo menor éxito (89,4%). El análisis cualitativo de los flujos de trabajo de los replicadores identificó múltiples causas de no verificación, clasificadas en errores rutinarios y no rutinarios.

Tras corregir los errores no rutinarios para reflejar estándares de calidad esperados en la investigación real, las tasas de verificación aumentaron a 96,1% en el grupo transparente y 92,4% en el grupo opaco. Estos resultados sugieren que serían necesarios al menos tres replicadores por estudio para alcanzar una confiabilidad de replicación de al menos 95% bajo condiciones controladas.

Asimismo, se concluye que la replicación, como cualquier tipo de investigación científica, es propensa a errores derivados de acciones rutinarias no deliberadas, lo que resalta la importancia de la transparencia y la adecuada documentación de los procesos de investigación.