2.7: Confunde, Artefactos y Otras Amenazas a la Validez

Última actualización
Guardar como PDF

Page ID: 151386

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Si miramos el tema de la validez de la manera más general, las dos mayores preocupaciones que tenemos son los confundidos y el artefacto. Estos dos términos se definen de la siguiente manera:

Confundir: Un error es una variable ¹⁰ adicional, a menudo no medida, que resulta estar relacionada tanto con los predictores como con los resultados. La existencia de confundidos amenaza la validez interna del estudio porque no se puede decir si el predictor causa el desenlace, o si la variable de confusión lo causa, etc.
Artefacto: Se dice que un resultado es “artefacto” si solo se sostiene en la situación especial que pasó a probar en su estudio. La posibilidad de que tu resultado sea un artefacto describe una amenaza a tu validez externa, porque plantea la posibilidad de que no puedas generalizar tus resultados a la población real que te importa.

Como regla general, los confundidos son una preocupación mayor para los estudios no experimentales, precisamente porque no son experimentos adecuados: por definición, estás dejando muchas cosas descontroladas, así que hay mucho margen para que los confundidos se abran camino en tu estudio. La investigación experimental tiende a ser mucho menos vulnerable a los confundidos: cuanto más control tengas sobre lo que sucede durante el estudio, más podrás evitar que aparezcan confundidos.

Sin embargo, siempre hay columpios y rotondas, y cuando empezamos a pensar en artefactos en lugar de confundir, el zapato queda muy firme en el otro pie. En su mayor parte, los resultados artifácticos tienden a ser una preocupación para los estudios experimentales que para los estudios no experimentales. Para ver esto, ayuda a darse cuenta de que la razón por la que muchos estudios son no experimentales es precisamente porque lo que intenta hacer el investigador es examinar el comportamiento humano en un contexto más naturalista. Al trabajar en un contexto más real, pierdes el control experimental (haciéndote vulnerable a los confundidos) pero debido a que tiendes a estudiar psicología humana “en la naturaleza” disminuyes las posibilidades de obtener un resultado artefacto. O, para decirlo de otra manera, cuando sacas la psicología de la naturaleza y la traes al laboratorio (lo que generalmente tenemos que hacer para obtener nuestro control experimental), siempre corres el riesgo de estudiar accidentalmente algo diferente de lo que querías estudiar: que es más o menos la definición de un artefacto.

Sin embargo, ten cuidado: lo anterior es solo una guía aproximada. Es absolutamente posible tener confundidos en un experimento, y obtener resultados artifácticos con estudios no experimentales. Esto puede suceder por todo tipo de razones, entre las cuales no menos importante es el error del investigador. En la práctica, es muy difícil pensarlo todo con anticipación, e incluso muy buenos investigadores cometen errores. Pero otras veces es inevitable, simplemente porque el investigador tiene ética (e.g., ver “desgaste diferencial”).

Bien. Hay un sentido en el que casi cualquier amenaza a la validez puede caracterizarse como un confundido o un artefacto: son conceptos bastante vagos. Entonces echemos un vistazo a algunos de los ejemplos más comunes...

Efectos de la historia

Los efectos históricos se refieren a la posibilidad de que ocurran eventos específicos durante el estudio mismo que puedan influir en los resultados. Por ejemplo, algo podría suceder entre una prueba previa y una post-prueba. O bien, entre las pruebas participante 23 y participante 24. Alternativamente, podría ser que estés viendo un estudio más antiguo, que era perfectamente válido para su época, pero el mundo ha cambiado lo suficiente desde entonces como para que las conclusiones ya no sean confiables. Ejemplos de cosas que contarían como efectos históricos:

Te interesa cómo piensa la gente sobre el riesgo y la incertidumbre. Empezaste tu recolección de datos en diciembre de 2010. Pero encontrar participantes y recopilar datos lleva tiempo, así que todavía estás encontrando gente nueva en febrero de 2011. Desafortunadamente para usted (y aún más desafortunadamente para otros), las inundaciones de Queensland ocurrieron en enero de 2011, causando miles de millones de dólares de daños y matando a mucha gente. No es sorprendente que las personas evaluadas en febrero de 2011 expresen creencias bastante diferentes sobre el manejo del riesgo que las personas evaluadas en diciembre de 2010. ¿Cuál (si alguna) de estas refleja las creencias “verdaderas” de los participantes? Creo que la respuesta es probablemente ambas: las inundaciones de Queensland cambiaron genuinamente las creencias del público australiano, aunque posiblemente solo temporalmente. Lo clave aquí es que la “historia” de las personas probadas en febrero es bastante diferente a la de las personas evaluadas en diciembre.
Estás probando los efectos psicológicos de un nuevo medicamento contra la ansiedad. Entonces, lo que haces es medir la ansiedad antes de administrar el medicamento (por ejemplo, por autoreporte, y tomando medidas fisiológicas, digamos), luego administras el medicamento, y luego tomas las mismas medidas después. En el medio, sin embargo, debido a que sus laboratorios están en Los Ángeles, hay un terremoto, lo que aumenta la ansiedad de los participantes.

Efectos de maduración

Al igual que con los efectos de la historia, los efectos de maduración son fundamentalmente sobre el cambio con el tiempo Sin embargo, los efectos de maduración no son en respuesta a eventos específicos. Más bien, se relacionan con cómo las personas cambian por su cuenta a lo largo del tiempo: envejecemos, nos cansamos, nos aburrimos, etc. Algunos ejemplos de efectos de maduración:

Al hacer una investigación en psicología del desarrollo, debe ser consciente de que los niños crecen bastante rápido. Entonces, supongamos que quieres saber si algún truco educativo ayuda con el tamaño del vocabulario entre los niños de 3 años. Una cosa que debes tener en cuenta es que el tamaño del vocabulario de los niños de esa edad está creciendo a un ritmo increíble (varias palabras por día), todo por sí solo. Si diseñas tu estudio sin tener en cuenta este efecto maduracional, entonces no podrás saber si tu truco educativo funciona.
Al realizar un experimento muy largo en el laboratorio (digamos, algo que dura 3 horas), es muy probable que la gente empiece a aburrirse y cansarse, y que este efecto maduracional haga que el rendimiento disminuya, independientemente de cualquier otra cosa que ocurra en el experimento

Efectos repetidos de las pruebas

Un tipo importante de efecto histórico es el efecto de pruebas repetidas. Supongamos que quiero tomar dos medidas de algún constructo psicológico (por ejemplo, ansiedad). Una cosa que podría preocuparme es si la primera medición tiene un efecto en la segunda medición. En otras palabras, este es un efecto histórico en el que el “evento” que influye en la segunda medición es ¡la primera medición en sí misma! Esto no es nada raro. Ejemplos de esto incluyen:

Aprendizaje y práctica: e.g., “inteligencia” en el tiempo 2 podría parecer subir en relación con el tiempo 1 porque los participantes aprendieron las reglas generales de cómo resolver preguntas de “estilo de prueba de inteligencia” durante la primera sesión de prueba.
Familiaridad con la situación de las pruebas: por ejemplo, si la gente está nerviosa en el momento 1, esto podría hacer que el rendimiento baje; después de pasar por la primera situación de prueba, podrían calmarse mucho precisamente porque han visto cómo se ve la prueba.
Cambios auxiliares causados por las pruebas: e.g., si un cuestionario que evalúa el estado de ánimo es aburrido, entonces el estado de ánimo en la medición en el tiempo 2 es más probable que se “aburra”, precisamente por la aburrida medición realizada en el tiempo 1.

Sesgo de selección

El sesgo de selección es un término bastante amplio. Supongamos que estás realizando un experimento con dos grupos de participantes, donde cada grupo recibe un “tratamiento” diferente, y quieres ver si los diferentes tratamientos conducen a resultados diferentes. No obstante, supongamos que, a pesar de tus mejores esfuerzos, has terminado con un desequilibrio de género entre grupos (digamos, el grupo A tiene 80% mujeres y el grupo B tiene 50% mujeres). Puede sonar como que esto nunca podría suceder, pero créeme, puede. Este es un ejemplo de un sesgo de selección, en el que las personas “seleccionadas en” los dos grupos tienen características diferentes. Si alguna de esas características resulta ser relevante (digamos, tu tratamiento funciona mejor en las mujeres que en los machos) entonces estás en muchos problemas.

Atrición diferencial

Un peligro bastante sutil a tener en cuenta se llama desgaste diferencial, que es una especie de sesgo de selección que es causado por el propio estudio. Supongamos que, por primera vez en la historia de la psicología, logre encontrar la muestra de personas perfectamente equilibrada y representativa. Empiezo a correr “El experimento increíblemente largo y tedioso de Dan” en mi muestra perfecta, pero luego, debido a que mi estudio es increíblemente largo y tedioso, mucha gente empieza a abandonar los estudios. No puedo parar esto: como discutiremos más adelante en el capítulo sobre ética de la investigación, los participantes tienen absolutamente derecho a dejar de hacer cualquier experimento, en cualquier momento, por la razón que quieran, y como investigadores estamos obligados moral (y profesionalmente) a recordarle a las personas que sí tienen este derecho. Entonces, supongamos que “el experimento increíblemente largo y tedioso de Dan” tiene una tasa de deserción muy alta. ¿Cuáles crees que las probabilidades son de que esta deserción sea aleatoria? Respuesta: cero. Casi con certeza, las personas que quedan son más concienzudas, más tolerantes al aburrimiento etc que las que se van. En la medida en que (digamos) la escrupulosidad sea relevante para el fenómeno psicológico que me importa, este desgaste puede disminuir la validez de mis resultados.

Al pensar en los efectos del desgaste diferencial, a veces es útil distinguir entre dos tipos diferentes. El primero es el desgaste homogéneo, en el que el efecto de desgaste es el mismo para todos los grupos, tratamientos o afecciones. En el ejemplo que di anteriormente, el desgaste diferencial sería homogéneo si (y sólo si) los participantes fácilmente aburridos están abandonando todas las condiciones en mi experimento aproximadamente al mismo ritmo. En general, es probable que el principal efecto del desgaste homogéneo sea que haga que su muestra no sea representativa. Como tal, la mayor preocupación que tendrás es que la generalización de los resultados disminuye: en otras palabras, pierdes validez externa.

El segundo tipo de desgaste diferencial es el desgaste heterogéneo, en el que el efecto de desgaste es diferente para diferentes grupos. Este es un problema mucho mayor: no solo tienes que preocuparte por tu validez externa, también tienes que preocuparte por tu validez interna también. Para ver por qué es así, consideremos un estudio muy tonto en el que quiero ver si insultar a la gente los hace actuar de una manera más obediente. Por qué alguien realmente querría estudiar que no sé, pero supongamos que realmente, me importaba profundamente esto. Entonces, diseño mi experimento con dos condiciones. En la condición de “tratamiento”, el experimentador insulta al participante y luego le da un cuestionario diseñado para medir la obediencia. En la condición de “control”, el experimentador se involucra en una plática inútil y luego les da el cuestionario. Dejando de lado los cuestionables méritos científicos y la dudosa ética de tal estudio, pensemos en lo que podría salir mal aquí. Por regla general, cuando alguien me insulta a la cara, tiendo a ponerme mucho menos cooperativo. Entonces, hay una muy buena posibilidad de que mucha más gente vaya a abandonar la condición de tratamiento que la condición de control. Y esta deserción no va a ser aleatoria. Las personas con más probabilidades de abandonar los estudios probablemente serían las personas a las que no les importa tanto la importancia de sentarse obedientemente a través del experimento. Dado que las personas más sangrientas y desobedientes abandonaron el grupo de tratamiento pero no el grupo control, hemos introducido un confundido: las personas que realmente tomaron el cuestionario en el grupo de tratamiento ya tenían más probabilidades de ser obedientes y obedientes que las personas en el grupo de control. En definitiva, en este estudio insultar a la gente no los hace más obedientes: ¡hace que la gente más desobediente deje el experimento! La validez interna de este experimento está completamente filmada.

Sesgo de falta de respuesta

El sesgo de no respuesta está estrechamente relacionado con el sesgo de selección y con el desgaste diferencial. La versión más simple del problema va así. Usted envía una encuesta por correo a 1000 personas, y sólo 300 de ellas responden. Es casi seguro que las 300 personas que respondieron no son una submuestra aleatoria. Las personas que responden a encuestas son sistemáticamente diferentes a las personas que no lo hacen, esto introduce un problema a la hora de intentar generalizar desde esas 300 personas que respondieron, hasta la población en general; ya que ahora se tiene una muestra muy no aleatoria. Sin embargo, el tema del sesgo de falta de respuesta es más general que esto. Entre las (digamos) 300 personas que sí respondieron a la encuesta, es posible que encuentres que no todos responden a todas las preguntas. Si (digamos) 80 personas optaron por no responder a una de tus preguntas, ¿esto introduce problemas? Como siempre, la respuesta es quizá. Si la pregunta que no fue respondida estaba en la última página del cuestionario, y esas 80 encuestas se devolvieron con la última página faltante, es muy probable que los datos faltantes no sean gran cosa: probablemente las páginas simplemente se cayeron. No obstante, si la pregunta que 80 personas no respondieron era la pregunta personal más confrontativa o invasiva del cuestionario, entonces casi seguro que tienes un problema. En esencia, a lo que te enfrentas aquí es lo que se llama el problema de la falta de datos. Si los datos que faltan se “perdieron” aleatoriamente, entonces no es un gran problema. Si falta sistemáticamente, entonces puede ser un gran problema.

Regresión a la media

La regresión a la media es una curiosa variación del sesgo de selección. Se refiere a cualquier situación en la que se seleccionan datos basados en un valor extremo en alguna medida. Debido a que la medida tiene variación natural, casi con certeza significa que cuando se toma una medición posterior, esa medición posterior será menos extrema que la primera, puramente por casualidad.

He aquí un ejemplo. Supongamos que me interesa si una educación en psicología tiene un efecto adverso en niños muy inteligentes. Para ello, encuentro a los 20 alumnos de psique I con las mejores calificaciones de secundaria y miro lo bien que les va en la universidad. Resulta que lo están haciendo mucho mejor que la media, pero no están encabezando la clase en la universidad, a pesar de que sí superaron sus clases en la secundaria. ¿Qué está pasando? El primer pensamiento natural es que esto debe significar que las clases de psicología deben estar teniendo un efecto adverso en esos estudiantes. Sin embargo, si bien esa podría ser la explicación, es más probable que lo que estás viendo sea un ejemplo de “regresión a la media”. Para ver cómo funciona, tomemos un momento para pensar en qué se requiere para obtener la mejor nota en una clase, independientemente de que esa clase sea en la secundaria o en la universidad. Cuando tienes una clase grande, va a haber mucha gente muy inteligente inscrita. Para obtener la mejor marca hay que ser muy inteligente, trabajar muy duro y tener un poco de suerte. El examen tiene que hacer las preguntas correctas para tus habilidades idiosincrásicas, y tienes que no cometer ningún error tonto (todos hacemos eso a veces) al responderlas. Y esa es la cosa: la inteligencia y el trabajo duro son transferibles de una clase a otra. La suerte no lo es La gente que tuvo suerte en la secundaria no será la misma que la gente que tiene suerte en la universidad. Esa es la definición misma de “suerte”. La consecuencia de esto es que, cuando seleccionas personas en los valores muy extremos de una medición (los 20 mejores estudiantes), estás seleccionando por trabajo duro, habilidad y suerte. Pero debido a que la suerte no pasa a la segunda medida (solo la habilidad y el trabajo), se esperará que todas estas personas bajen un poco cuando las midas por segunda vez (en la universidad). Entonces sus puntajes retroceden un poco, hacia todos los demás. Esto es regresión a la media.

La regresión a la media es sorprendentemente común. Por ejemplo, si dos personas muy altas tienen hijos, sus hijos tenderán a ser más altos que el promedio, pero no tan altos como los padres. Lo contrario ocurre con padres muy cortos: dos padres muy bajos tenderán a tener hijos bajos, pero sin embargo esos niños tenderán a ser más altos que los padres. También puede ser extremadamente sutil. Por ejemplo, se han realizado estudios que sugirieron que las personas aprenden mejor de la retroalimentación negativa que de la retroalimentación positiva. No obstante, la forma en que la gente trató de mostrar esto era darle a la gente un refuerzo positivo cada vez que hacía el bien, y un refuerzo negativo cuando lo hacían mal. Y lo que ves es que después del refuerzo positivo, la gente tendía a hacerlo peor; pero después del refuerzo negativo tendieron a hacerlo mejor. ¡Pero! Observe que aquí hay un sesgo de selección: cuando a la gente le va muy bien, estás seleccionando valores “altos”, y así debes esperar (por regresión a la media) que el desempeño en el próximo juicio sea peor, independientemente de si se da refuerzo. De igual manera, después de un mal juicio, la gente tenderá a mejorar por su cuenta. La aparente superioridad de la retroalimentación negativa es un artefacto causado por la regresión a la media (ver Kahneman y Tversky 1973 para discusión).

Sesgo del experimentador

El sesgo del experimentador puede venir en múltiples formas. La idea básica es que el experimentador, a pesar de las mejores intenciones, accidentalmente puede terminar influyendo en los resultados del experimento comunicando sutilmente la “respuesta correcta” o el “comportamiento deseado” a los participantes. Por lo general, esto ocurre porque el experimentador tiene un conocimiento especial que el participante no tiene, ya sea la respuesta correcta a las preguntas que se hacen, o conocimiento del patrón esperado de desempeño para la condición en la que se encuentra el participante, y así sucesivamente. El ejemplo clásico de esto es el estudio de caso de “Clever Hans”, que se remonta a 1907 (Pfungst 1911; Hothersall 2004). Clever Hans era un caballo que al parecer era capaz de leer y contar, y realizar otras hazañas humanas como de inteligencia. Después de que Clever Hans se hizo famoso, los psicólogos comenzaron a examinar más de cerca su Resultó que —no es sorprendente— Hans no sabía hacer matemáticas. Más bien, Hans estaba respondiendo a los observadores humanos que lo rodeaban. Porque sí sabían contar, y el caballo había aprendido a cambiar su comportamiento cuando la gente cambiaba el suyo.

La solución general al problema del sesgo experimentador es realizar estudios de doble ciego, donde ni el experimentador ni el participante saben en qué condición se encuentra el participante, ni saben cuál es el comportamiento deseado. Esto proporciona una muy buena solución al problema, pero es importante reconocer que no es del todo ideal, y difícil de lograr perfectamente. Por ejemplo, la manera obvia en la que podría intentar construir un estudio doble ciego es que uno de mis estudiantes de doctorado (uno que no sabe nada del experimento) dirija el estudio. Eso parece que debería ser suficiente. El único (yo) que conoce todos los detalles (por ejemplo, respuestas correctas a las preguntas, asignaciones de los participantes a condiciones) no tiene interacción con los participantes, y la persona que habla con la gente (el doctorando) no sabe nada. Excepto, esa última parte es muy poco probable que sea cierta. Para que el estudiante de doctorado pueda dirigir el estudio de manera efectiva, necesitan haber sido informados por mí, el investigador. Y, como sucede, el estudiante de doctorado también me conoce, y sabe un poco sobre mis creencias generales sobre las personas y la psicología (por ejemplo, tiendo a pensar que los humanos son mucho más inteligentes de lo que los psicólogos les dan crédito). Como resultado de todo esto, es casi imposible para el experimentador evitar saber un poco sobre qué expectativas tengo. E incluso un poco de conocimiento puede tener un efecto: supongamos que el experimentador transmite accidentalmente el hecho de que se espera que a los participantes les vaya bien en esta tarea. Bueno, hay una cosa que se llama el “efecto Pigmalión”: si esperas grandes cosas de la gente, estarán a la altura de las circunstancias; pero si esperas que fracasen, ellos también lo harán. Es decir, las expectativas se convierten en una profecía autocumplida.

Efectos de demanda y reactividad

Cuando se habla de sesgo experimentador, la preocupación es que el conocimiento o los deseos del experimentador por el experimento se comuniquen a los participantes, y que estos afectan el comportamiento de las personas (Rosenthal 1966). No obstante, aunque logres evitar que esto suceda, es casi imposible impedir que la gente sepa que forma parte de un estudio psicológico. Y el mero hecho de saber que alguien te está viendo o estudiando puede tener un efecto bastante grande en el comportamiento. Esto generalmente se conoce como reactividad o efectos de demanda. La idea básica es captada por el efecto Hawthorne: las personas alteran su desempeño debido a la atención que el estudio les centra. El efecto toma su nombre de una fábrica de “Hawthorne Works” fuera de Chicago (ver Adair 1984). Un estudio realizado en la década de 1920 que analizaba los efectos de la iluminación en la productividad de los trabajadores en la fábrica resultó ser un efecto del hecho de que los trabajadores sabían que estaban siendo estudiados, más que la iluminación.

Para ser un poco más específico sobre algunas de las formas en que el mero hecho de estar en un estudio puede cambiar la forma en que se comportan las personas, ayuda pensar como psicóloga social y mirar algunos de los roles que las personas podrían adoptar durante un experimento, pero tal vez no adoptar si los correspondientes eventos ocurrieron en el mundo real:

El buen participante trata de ser demasiado útil para el investigador: busca averiguar las hipótesis del experimentador y confirmarlas.
El participante negativo hace exactamente lo contrario del buen participante: busca romper o destruir el estudio o la hipótesis de alguna manera.
El fiel participante es antinaturalmente obediente: busca seguir las instrucciones a la perfección, independientemente de lo que pudiera haber sucedido en un escenario más realista.
El aprensivo participante se pone nervioso por ser probado o estudiado, tanto es así que su comportamiento se vuelve altamente antinatural, o demasiado deseable socialmente.

Efectos del placebo

El efecto placebo es un tipo específico de efecto de demanda del que nos preocupa mucho. Se refiere a la situación en la que el mero hecho de ser atendido provoca una mejoría en los resultados. El ejemplo clásico viene de los ensayos clínicos: si le das a las personas un medicamento completamente inerte químicamente y les dices que es una cura para una enfermedad, tenderán a mejorar más rápido que las personas que no son tratadas en absoluto. En otras palabras, es la creencia de la gente de que están siendo atendidos lo que causa los mejores resultados, no el medicamento.

Situación, medición y efectos de la subpoblación

En algunos aspectos, estos términos son un término general para “todas las demás amenazas a la validez externa”. Se refieren al hecho de que la elección de la subpoblación de la que dibujas a tus participantes, la ubicación, el momento y la manera en que ejecutas tu estudio (incluyendo quién recopila los datos) y las herramientas que usas para realizar tus mediciones podrían estar influyendo en los resultados. Específicamente, la preocupación es que estas cosas puedan estar influyendo en los resultados de tal manera que los resultados no se generalicen a una gama más amplia de personas, lugares y medidas.

Fraude, engaño y autoengaño

Es difícil conseguir que un hombre entienda algo, cuando su salario depende de que no lo entienda.

— Upton Sinclair

Una última cosa que siento que debo mencionar. Al leer lo que suelen decir los libros de texto sobre la evaluación de la validez del estudio, no pude evitar notar que parecen hacer la suposición de que el investigador es honesto. Esto me parece hilarante. Si bien la gran mayoría de los científicos son honestos, en mi experiencia al menos, algunos no lo son. ¹¹ No sólo eso, como mencioné anteriormente, los científicos no son inmunes al sesgo de creencias —es fácil para un investigador terminar engañándose a sí mismo para que crea algo equivocado, y esto puede llevarlos a realizar investigaciones sutilmente defectuosas, y luego ocultar esos defectos cuando lo escriben. Por lo tanto, debe considerar no solo la posibilidad (probablemente poco probable) de fraude absoluto, sino también la posibilidad (probablemente bastante común) de que la investigación sea involuntariamente “inclinada”. Abrí algunos libros de texto estándar y no encontré mucha discusión sobre este problema, así que aquí está mi propio intento de enumerar algunas formas en las que pueden surgir estos temas son:

Fabricación de datos. A veces, la gente simplemente compone los datos. Esto se hace ocasionalmente con “buenas” intenciones. Por ejemplo, el investigador cree que los datos fabricados reflejan la verdad, y en realidad pueden reflejar versiones “ligeramente limpiadas” de los datos reales. En otras ocasiones, el fraude es deliberado y malicioso. Algunos ejemplos de alto perfil donde se ha alegado o mostrado la fabricación de datos incluyen a Cyril Burt (un psicólogo que se cree que fabricó algunos de sus datos), Andrew Wakefield (quien ha sido acusado de fabricar sus datos conectando la vacuna MMR con el autismo) y Hwang Woo-suk (quien falsificó gran parte de sus datos sobre investigación con células madre).
Engaños. Los engaños comparten muchas similitudes con la fabricación de datos, pero difieren en el propósito previsto. Un engaño suele ser una broma, y muchos de ellos están destinados a ser (eventualmente) descubiertos. A menudo, el objetivo de un engaño es desacreditar a alguien o algún campo. Hay bastantes engaños científicos bien conocidos que han ocurrido a lo largo de los años (por ejemplo, el hombre de Piltdown), algunos de ellos fueron intentos deliberados de desacreditar campos de investigación particulares (por ejemplo, el asunto Sokal).
tergiversación de datos. Si bien el fraude recibe la mayoría de los titulares, en mi experiencia es mucho más común ver que los datos se tergiversen. Cuando digo esto, no me refiero a que los periódicos se equivoquen (cosa que hacen, casi siempre). Me refiero al hecho de que a menudo, los datos en realidad no dicen lo que los investigadores piensan que dicen. Mi conjetura es que, casi siempre, esto no es el resultado de una deshonestidad deliberada, se debe a la falta de sofisticación en los análisis de datos. Por ejemplo, piense en el ejemplo de la paradoja de Simpson que discutí al principio de estas notas. Es muy común ver a las personas presentar datos “agregados” de algún tipo; y a veces, cuando profundizas y encuentras los datos brutos tú mismo, encuentras que los datos agregados cuentan una historia diferente a los datos desagregados. Alternativamente, puede encontrar que algún aspecto de los datos se está ocultando, porque cuenta una historia incómoda (por ejemplo, el investigador podría optar por no referirse a una variable en particular). Hay muchas variantes en esto; muchas de las cuales son muy difíciles de detectar.
Estudiar “mal diseño”. Bien, esta es sutil. Básicamente, el tema aquí es que un investigador diseña un estudio que tiene fallas incorporadas, y esas fallas nunca se reportan en el artículo. Los datos que se reportan son completamente reales, y se analizan correctamente, pero son producidos por un estudio que en realidad está mal elaborado. El investigador realmente quiere encontrar un efecto particular, por lo que el estudio se configura de tal manera que sea “fácil” observar (de manera artificial) ese efecto. Una forma furtiva de hacer esto —en caso de que tengas ganas de incursionar en un poco de fraude tú mismo— es diseñar un experimento en el que sea obvio para los participantes lo que se “supone” que deben hacer, y luego dejar que la reactividad haga su magia por ti. Si quieres, puedes agregar todos los adornos de la experimentación doble ciego etc. no va a hacer la diferencia, ya que los propios materiales de estudio están diciendo sutilmente a la gente lo que quieres que hagan. Cuando escribes los resultados, el fraude no será obvio para el lector: lo que es obvio para el participante cuando está en el contexto experimental no siempre es obvio para la persona que lee el artículo. Por supuesto, la forma en que he descrito esto hace que parezca que siempre es fraude: probablemente haya casos en los que esto se haga deliberadamente, pero en mi experiencia la mayor preocupación ha sido el mal diseño involuntario. El investigador cree... y así el estudio simplemente pasa a terminar con un defecto incorporado, y ese defecto luego se borra mágicamente cuando el estudio se redacta para su publicación.
Minería de datos y hipótesis post hoc. Otra forma en la que los autores de un estudio pueden mentir más o menos sobre lo que encontraron es participando en lo que se conoce como “minería de datos”. Como discutiremos más adelante en la clase, si sigues tratando de analizar tus datos de muchas maneras diferentes, eventualmente encontrarás algo que “parece” un efecto real pero no lo es, esto se conoce como “minería de datos”. Solía ser bastante raro porque el análisis de datos solía llevar semanas, pero ahora que todos tienen software estadístico muy potente en sus computadoras, se está volviendo muy común. La minería de datos per se no está “equivocada”, pero cuanto más lo haces, mayor es el riesgo que estás tomando. Lo que está mal, y sospecho que es muy común, es la minería de datos no reconocida. Es decir, el investigador ejecuta todos los análisis posibles conocidos por la humanidad, encuentra el que funciona, y luego finge que este fue el único análisis que realizaron alguna vez. Peor aún, a menudo “inventan” una hipótesis después de mirar los datos, para encubrir la minería de datos. Para ser claros: no está mal cambiar tus creencias después de mirar los datos, y reanalizar tus datos usando tus nuevas hipótesis “post hoc”. Lo que está mal (y, sospecho, común) es no reconocer que lo has hecho. Si reconoces que lo hiciste, entonces otros investigadores son capaces de tomar en cuenta tu comportamiento. Si no lo haces, entonces ellos no pueden Y eso hace que tu comportamiento sea engañoso. ¡Malo!
Sesgo de publicación y autocensura. Finalmente, un sesgo generalizado es “no informar” de resultados negativos. Esto es casi imposible de prevenir. Las revistas no publican todos los artículos que se les envían: prefieren publicar artículos que encuentren “algo”. Entonces, si 20 personas realizan un experimento mirando si leer Finnegans Wake causa locura en los humanos, y 19 de ellos encuentran que no lo hace, ¿cuál crees que va a ser publicado? Obviamente, es el único estudio que sí encontró que Finnegans Wake causa locura. ¹² Este es un ejemplo de sesgo de publicación: como nadie publicó nunca los 19 estudios que no encontraron efecto, un lector ingenuo nunca sabría que existían. Peor aún, la mayoría de los investigadores “internalizan” este sesgo, y terminan autocensurando sus investigaciones. Sabiendo que los resultados negativos no van a ser aceptados para su publicación, nunca intentan denunciarlos. Como dice un amigo mío “por cada experimento que te publiquen, también tienes 10 fracasos”. Y ella tiene razón. El problema es, mientras que algunos (tal vez la mayoría) de esos estudios son fracasos por razones aburridas (por ejemplo, rellenaste algo) otros podrían ser resultados genuinos “nulos” que deberías reconocer cuando escribes el experimento “bueno”. Y decir cuál es lo que a menudo es difícil de hacer. Un buen lugar para comenzar es un artículo de Ioannidis (2005) con el deprimente título “Por qué la mayoría de los hallazgos de investigación publicados son falsos”. También sugeriría echar un vistazo al trabajo de Kühberger, Fritz y Scherndl (2014) presentando evidencia estadística de que esto realmente sucede en psicología.

Probablemente haya muchos más temas como este en los que pensar, pero eso servirá para empezar. Lo que realmente quiero señalar es la verdad ciegamente obvia de que la ciencia del mundo real es conducida por humanos reales, y solo la gente más crédula asume automáticamente que todos los demás son honestos e imparciales. Los científicos reales no suelen ser tan ingenuos, pero por alguna razón al mundo le gusta fingir que lo somos, y los libros de texto que solemos escribir parecen reforzar ese estereotipo.