32.4: Prácticas de investigación cuestionables
- Page ID
- 150657
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\(\newcommand{\avec}{\mathbf a}\) \(\newcommand{\bvec}{\mathbf b}\) \(\newcommand{\cvec}{\mathbf c}\) \(\newcommand{\dvec}{\mathbf d}\) \(\newcommand{\dtil}{\widetilde{\mathbf d}}\) \(\newcommand{\evec}{\mathbf e}\) \(\newcommand{\fvec}{\mathbf f}\) \(\newcommand{\nvec}{\mathbf n}\) \(\newcommand{\pvec}{\mathbf p}\) \(\newcommand{\qvec}{\mathbf q}\) \(\newcommand{\svec}{\mathbf s}\) \(\newcommand{\tvec}{\mathbf t}\) \(\newcommand{\uvec}{\mathbf u}\) \(\newcommand{\vvec}{\mathbf v}\) \(\newcommand{\wvec}{\mathbf w}\) \(\newcommand{\xvec}{\mathbf x}\) \(\newcommand{\yvec}{\mathbf y}\) \(\newcommand{\zvec}{\mathbf z}\) \(\newcommand{\rvec}{\mathbf r}\) \(\newcommand{\mvec}{\mathbf m}\) \(\newcommand{\zerovec}{\mathbf 0}\) \(\newcommand{\onevec}{\mathbf 1}\) \(\newcommand{\real}{\mathbb R}\) \(\newcommand{\twovec}[2]{\left[\begin{array}{r}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\ctwovec}[2]{\left[\begin{array}{c}#1 \\ #2 \end{array}\right]}\) \(\newcommand{\threevec}[3]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\cthreevec}[3]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \end{array}\right]}\) \(\newcommand{\fourvec}[4]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\cfourvec}[4]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \end{array}\right]}\) \(\newcommand{\fivevec}[5]{\left[\begin{array}{r}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\cfivevec}[5]{\left[\begin{array}{c}#1 \\ #2 \\ #3 \\ #4 \\ #5 \\ \end{array}\right]}\) \(\newcommand{\mattwo}[4]{\left[\begin{array}{rr}#1 \amp #2 \\ #3 \amp #4 \\ \end{array}\right]}\) \(\newcommand{\laspan}[1]{\text{Span}\{#1\}}\) \(\newcommand{\bcal}{\cal B}\) \(\newcommand{\ccal}{\cal C}\) \(\newcommand{\scal}{\cal S}\) \(\newcommand{\wcal}{\cal W}\) \(\newcommand{\ecal}{\cal E}\) \(\newcommand{\coords}[2]{\left\{#1\right\}_{#2}}\) \(\newcommand{\gray}[1]{\color{gray}{#1}}\) \(\newcommand{\lgray}[1]{\color{lightgray}{#1}}\) \(\newcommand{\rank}{\operatorname{rank}}\) \(\newcommand{\row}{\text{Row}}\) \(\newcommand{\col}{\text{Col}}\) \(\renewcommand{\row}{\text{Row}}\) \(\newcommand{\nul}{\text{Nul}}\) \(\newcommand{\var}{\text{Var}}\) \(\newcommand{\corr}{\text{corr}}\) \(\newcommand{\len}[1]{\left|#1\right|}\) \(\newcommand{\bbar}{\overline{\bvec}}\) \(\newcommand{\bhat}{\widehat{\bvec}}\) \(\newcommand{\bperp}{\bvec^\perp}\) \(\newcommand{\xhat}{\widehat{\xvec}}\) \(\newcommand{\vhat}{\widehat{\vvec}}\) \(\newcommand{\uhat}{\widehat{\uvec}}\) \(\newcommand{\what}{\widehat{\wvec}}\) \(\newcommand{\Sighat}{\widehat{\Sigma}}\) \(\newcommand{\lt}{<}\) \(\newcommand{\gt}{>}\) \(\newcommand{\amp}{&}\) \(\definecolor{fillinmathshade}{gray}{0.9}\)Un libro popular titulado “The Compleat Academic: A Career Guide”, publicado por la American Psychological Association (Darley, Zanna y Roediger 2004), tiene como objetivo proporcionar orientación a los aspirantes a investigadores sobre cómo construir una carrera. En un capítulo del conocido psicólogo social Daryl Bem titulado “Escribir el artículo de revista empírica”, Bem proporciona algunas sugerencias sobre cómo escribir un artículo de investigación. Desafortunadamente, las prácticas que sugiere son profundamente problemáticas, y han llegado a conocerse como prácticas de investigación cuestionables (QRP).
¿Qué artículo deberías escribir? Hay dos posibles artículos que puedes escribir: (1) el artículo que planeaste escribir cuando diseñaste tu estudio o (2) el artículo que tiene más sentido ahora que has visto los resultados. Rara vez son los mismos, y la respuesta correcta es (2).
Lo que Bem sugiere aquí se conoce como HarKing (Hypothesizing After the Results are Knowledge) (Kerr 1998). Esto puede parecer inocuo, pero problemático porque permite que la investigación vuelva a enmarcar una conclusión post-hoc (que deberíamos tomar con un grano de sal) como una predicción a priori (en la que tendríamos una fe más fuerte). En esencia, permite al investigador reescribir su teoría basada en los hechos, más bien que usar la teoría para hacer predicciones y luego probarlas —similar a mover el poste de la portería para que termine por donde vaya la pelota. Así se vuelve muy difícil desconfirmar ideas incorrectas, ya que el poste de la portería siempre se puede mover para que coincida con los datos. Bem continúa:
Analizando datos Examina desde todos los ángulos. Analizar los sexos por separado. Conformar nuevos índices compuestos. Si un dato sugiere una nueva hipótesis, intente encontrar más evidencia para ello en otra parte de los datos. Si ves rastros tenues de patrones interesantes, trata de reorganizar los datos para llevarlos a un relieve más audaz. Si hay participantes que no te gustan, o ensayos, observadores o entrevistadores que te dieron resultados anómalos, déjalos caer (temporalmente). Ve a una expedición de pesca por algo —cualquier cosa— interesante. No, esto no es inmoral.
Lo que Bem sugiere aquí se conoce como p-hacking, que se refiere a probar muchos análisis diferentes hasta que uno encuentra un resultado significativo. Bem es correcto que si uno reportara cada análisis realizado sobre los datos entonces este enfoque no sería “inmoral”. Sin embargo, es raro que un artículo discuta todos los análisis que se realizaron en un conjunto de datos; más bien, los artículos a menudo solo presentan los análisis que funcionaron, lo que generalmente significa que encontraron un resultado estadísticamente significativo. Hay muchas formas diferentes en las que uno podría piratear:
- Analizar datos después de cada tema y dejar de recopilar datos una vez p<.05
- Analizar muchas variables diferentes, pero solo reportar aquellas con p<.05
- Recoge muchas condiciones experimentales diferentes, pero solo reportan aquellas con p<.05
- Excluir participantes para obtener p<.05
- Transformar los datos para obtener p<.05
Un conocido artículo de Simmons, Nelson y Simonsohn (2011) mostró que el uso de este tipo de estrategias de p-hacking podría aumentar en gran medida la tasa real de falsos positivos, resultando en un alto número de resultados falsos positivos.
32.4.1 ¿ESP o QRP?
En 2011, Daryl Bem publicó un artículo (Bem 2011) que afirmaba haber encontrado evidencia científica para la percepción extrasensorial. El artículo establece:
Este artículo reporta 9 experimentos, en los que participaron más de 1,000 participantes, que prueban la influencia retroactiva por efectos psicológicos bien establecidos de “inversión del tiempo” para que las respuestas del individuo se obtengan antes de que ocurran los eventos de estímulo putativamente causales. ... El tamaño medio del efecto (d) en el rendimiento de psi en los 9 experimentos fue de 0.22, y todos menos uno de los experimentos arrojaron resultados estadísticamente significativos.
A medida que los investigadores comenzaron a examinar el artículo de Bem, quedó claro que se había involucrado en todos los QRP que había recomendado en el capítulo discutido anteriormente. Como señaló Tal Yarkoni en una entrada de blog que examinó el artículo:
- Los tamaños de las muestras variaron entre estudios
- Diferentes estudios parecen haber sido agrupados o divididos
- Los estudios permiten muchas hipótesis diferentes, y no está claro cuáles se planearon de antemano
- Bem usó pruebas de una cola incluso cuando no está claro que hubo una predicción direccional (entonces alfa es realmente 0.1)
- La mayoría de los valores p están muy cerca de 0.05
- No está claro cuántos otros estudios se realizaron pero no se reportaron