13.6: Estadística Inferencial (Resumen)

Última actualización
Guardar como PDF

Page ID: 144601

Rajiv S. Jhangiani, I-Chant A. Chiang, Carrie Cuttler, & Dana C. Leighton
Kwantlen Polytechnic U., Washington State U., & Texas A&M U.—Texarkana

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

Principales conclusiones

La prueba de hipótesis nula es un enfoque formal para decidir si una relación estadística en una muestra refleja una relación real en la población o es solo por casualidad.
La lógica de la prueba de hipótesis nula implica asumir que la hipótesis nula es verdadera, encontrar qué tan probable sería el resultado de la muestra si esta suposición fuera correcta, y luego tomar una decisión. Si el resultado de la muestra sería poco probable si la hipótesis nula fuera cierta, entonces se rechaza a favor de la hipótesis alternativa. Si no fuera poco probable, entonces se conserva la hipótesis nula.
La probabilidad de obtener el resultado de la muestra si la hipótesis nula fuera verdadera (el valor p) se basa en dos consideraciones: fuerza de relación y tamaño de la muestra. Los juicios razonables sobre si una relación muestral es estadísticamente significativa a menudo se pueden hacer considerando rápidamente estos dos factores.
La significancia estadística no es lo mismo que la fuerza o importancia de la relación. Incluso las relaciones débiles pueden ser estadísticamente significativas si el tamaño de la muestra es lo suficientemente grande. Es importante considerar la fuerza de la relación y la significación práctica de un resultado además de su significancia estadística.
Para comparar dos medias, la prueba de hipótesis nula más común es la prueba t-. La prueba t de una muestra se utiliza para comparar una media muestral con una hipotética media poblacional de interés, la prueba t- de muestras dependientes se utiliza para comparar dos medias en un diseño dentro de sujetos, y la prueba t- de muestras independientes se utiliza para comparar dos medias en un -asignaturas de diseño.
Para comparar más de dos medias, la prueba de hipótesis nula más común es el análisis de varianza (ANOVA). El ANOVA unidireccional se utiliza para diseños entre sujetos con una variable independiente, el ANOVA de medidas repetidas se utiliza para diseños dentro de sujetos y el ANOVA factorial se utiliza para diseños factoriales.
Se utiliza una prueba de hipótesis nula de r de Pearson para comparar un valor muestral de r de Pearson con un valor hipotético de población de 0.
No se garantiza que la decisión de rechazar o retener la hipótesis nula sea correcta. Un error Tipo I ocurre cuando uno rechaza la hipótesis nula cuando es verdadera. Un error Tipo II ocurre cuando uno no rechaza la hipótesis nula cuando es falsa.
El poder estadístico de un diseño de investigación es la probabilidad de rechazar la hipótesis nula dada la fuerza esperada de la relación en la población y el tamaño de la muestra. Los investigadores deben asegurarse de que sus estudios tengan el poder estadístico adecuado antes de realizarlos.
Las pruebas de hipótesis nulas han sido criticadas con el argumento de que los investigadores la malinterpretan, que es ilógico y que no es informativo. Otros argumentan que tiene un propósito importante, especialmente cuando se usa con medidas de tamaño de efecto, intervalos de confianza y otras técnicas. Sigue siendo el enfoque dominante de la estadística inferencial en psicología.
En los últimos años, la psicología ha lidiado con un fracaso para replicar los hallazgos de la investigación. Algunos han interpretado esto como un aspecto normal de la ciencia, pero otros han sugerido que se destacan problemas derivados de prácticas de investigación cuestionables.
Una respuesta a esta “crisis de replicabilidad” ha sido el surgimiento de prácticas de ciencia abierta, que incrementan la transparencia y apertura del proceso de investigación. Estas prácticas abiertas incluyen insignias digitales para fomentar el preregistro de hipótesis y el intercambio de datos brutos y materiales de investigación.

Referencias

Aarts, A. A., Anderson, C. J., Anderson, J., van Assen, M. A. L. M., Attridge, P. R., Attwood, A. S.,... Zuni, K. (2015, 21 de septiembre). Proyecto de Reproducibilidad: Psicología. Recuperado de osf.io/ezcuj

Abelson, R. P. (1995). La estadística como argumento de principios. Mahwah, NJ: Erlbaum.

Aschwanden, C. (2015, 19 de agosto). La ciencia no está quebrada: Es simplemente mucho más difícil de lo que le damos crédito. Recuperado a partir de http://fivethirtyeight.com/features/science-isnt-broken/

Brandt, M. J., IJzerman, H., Dijksterhuis, A., Farach, F. J., Geller, J., Giner-Sorolla, R.,... can't Veer, A. (2014). La receta de replicación: ¿Qué hace que la replicación sea convincente? Revista de Psicología Social Experimental, 50, 217-224. doi:10.1016/j.jesp.2013.10.005

Cohen, J. (1994). El mundo es redondo: p < .05. Psicólogo Americano, 49, 997—1003.

Frank, M. (2015, 31 de agosto). Las formas más lentas y difíciles de aumentar la reproducibilidad. Recuperado a partir de http://babieslearninglanguage.blogspot.ie/2015/08/the-slower-harder-ways-to-increase.html

Jefe M. L., Holman, L., Lanfear, R., Kahn, A. T., & Jennions, M. D. (2015). El alcance y las consecuencias del p-hacking en la ciencia. PLoS Biología, 13 (3): e1002106. doi:10.1371/journal.pbio.1002106

Hyde, J. S. (2007). Nuevas direcciones en el estudio de las similitudes y diferencias de género. Direcciones Actuales en Ciencia Psicológica, 16, 259—263.

Kanner, A. D., Coyne, J. C., Schaefer, C., & Lázaro, R. S. (1981). Comparación de dos modos de medición del estrés: molestias diarias y levantamientos versus eventos importantes de la vida. Revista de Medicina del Comportamiento, 4, 1—39.

Kerr, N. L. (1998). HarKing: Hipótesis después de que se conozcan los resultados. Revisión de Personalidad y Psicología Social, 2 (3), 196-217. doi:10.1207/s15327957pspr0203_4

Lakens, D. (2017, 25 de diciembre). Acerca de los valores p: Comprender los conceptos erróneos comunes. [Entrada de blog] Recuperado de https://correlaid.org/en/blog/understand-p-values/

Mehl, M. R., Vazire, S., Ramirez-Esparza, N., Slatcher, R. B., & Pennebaker, J. W. (2007). ¿Las mujeres son realmente más habladoras que los hombres? Ciencia, 317, 82.

Nosek, B. A., Alter, G., Bancos, G. C., Borsboom, D., Bowman, S. D., Breckler, S. J.,... Yarkoni, T. (2015). Promover una cultura abierta de investigación. Ciencia, 348 (6242), 1422-1425. doi: 10.1126/ciencia.aab2374

Oakes, M. (1986). Inferencia estadística: Un comentario para las ciencias sociales y del comportamiento. Chichester, Reino Unido: Wiley.

Pashler, H., & Harris, C. R. (2012). ¿La crisis de replicabilidad es exagerada? Tres argumentos explicados. Perspectivas sobre la Ciencia Psicológica, 7 (6), 531-536. doi:10.1177/1745691612463401

Rosenthal, R. (1979). El problema del cajón de archivos y la tolerancia para resultados nulos. Boletín Psicológico, 83, 638—641.

Scherer, L. (2015, septiembre). Post invitado por Laura Scherer. Recuperado a partir de http://sometimesimwrong.typepad.com/wrong/2015/09/guest-post-by-laura-scherer.html

Schnall, S., Benton, J., & Harvey, S. (2008). Con la conciencia limpia: La limpieza reduce la severidad de los juicios morales. Ciencia Psicológica, 19 (12), 1219-1222. doi: 10.1111/j.1467-9280.2008.02227.x

Simonsohn U., Nelson L. D., & Simmons J. P. (2014). P -Curva: una llave para el cajón de archivos. Revista de Psicología Experimental: General, 143 (2), 534—547. doi: 10.1037/a0033242

Tramimow, D. & Marks, M. (2015). Editorial. Psicología Social Básica y Aplicada, 37, 1—2. https://dx.doi.org/10.1080/01973533.2015.1012991

Wilkinson, L., & Task Force on Statistical Inference. (1999). Métodos estadísticos en revistas de psicología: Guías y explicaciones. Psicólogo Americano, 54, 594—604.

Yong, E. (27 de agosto de 2015). ¿Qué tan confiables son los estudios de psicología? Recuperado a partir de http://www.theatlantic.com/science/archive/2015/08/psychology-studies-reliability-reproducability-nosek/402466/

Ejercicios

Discusión: Imagínese un estudio que muestre que las personas que comen más brócoli tienden a ser más felices. Explique para alguien que no sabe nada de estadística por qué los investigadores realizarían una prueba de hipótesis nula.
Práctica: Utilice la Tabla 13.1 para decidir si cada uno de los siguientes resultados es estadísticamente significativo.
- La correlación entre dos variables es r = −.78 con base en un tamaño muestral de 137.
- La puntuación media en una característica psicológica para las mujeres es 25 (DE = 5) y la puntuación media para los hombres es 24 (DE = 5). En este estudio hubo 12 mujeres y 10 hombres.
- En un experimento de memoria, el número medio de ítems recordados por los 40 participantes en la Condición A fue 0.50 desviaciones estándar mayores que el número medio recordado por los 40 participantes en la Condición B.
- En otro experimento de memoria, ¡las puntuaciones medias para los participantes en la Condición A y la Condición B salieron exactamente iguales!
- Un estudiante encuentra una correlación de r = .04 entre el número de unidades que están tomando los estudiantes en su clase de métodos de investigación y el nivel de estrés de los estudiantes.
Práctica: Utilice una de las herramientas en línea, Excel o SPSS para reproducir la prueba t de una muestra, la prueba t de muestras dependientes, la prueba t de muestras independientes y el ANOVA unidireccional para los cuatro conjuntos de datos de estimación de calorías presentados en esta sección.
Práctica: Una muestra de 25 estudiantes universitarios calificó su amabilidad en una escala de 1 (Mucho menor que la media) a 7 (Mucho más alta que la media). Su valoración media fue de 5.30 con una desviación estándar de 1.50. Realizar una prueba t- de una muestra comparando su calificación media con una calificación media hipotética de 4 (Promedio). La pregunta es si los universitarios tienen una tendencia a calificarse como más amigables que la media.
Práctica: Decidir si cada uno de los siguientes valores r de Pearson es estadísticamente significativo tanto para una prueba de una cola como una de dos colas.
- La correlación entre la altura y el coeficiente intelectual es de +.13 en una muestra de 35.
- Para una muestra de 88 universitarios, la correlación entre lo disgustados que se sentían y la dureza de sus juicios morales fue +.23.
- La correlación entre el número de molestias diarias y el estado de ánimo positivo es de −.43 para una muestra de 30 adultos de mediana edad.
Discusión: Un investigador compara la efectividad de dos formas de psicoterapia para la fobia social mediante una prueba de t- muestras independientes.
- Explique lo que significaría para el investigador cometer un error Tipo I.
- Explique qué significaría para el investigador cometer un error Tipo II.
Discusión: Imagínese que realiza una prueba t y el valor p es .02. ¿Cómo podrías explicar lo que significa este valor p para alguien que no esté ya familiarizado con las pruebas de hipótesis nulas? Asegúrese de evitar las malinterpretaciones comunes del valor p.
Para una práctica adicional con errores Tipo I y Tipo II, pruebe estos problemas de la Iniciativa de Aprendizaje Abierto de Carnegie Mellon.
Discusión: ¿Cuáles crees que son algunos de los beneficios clave de la adopción de prácticas de ciencia abierta como el preregistro y el intercambio de datos brutos y materiales de investigación? ¿Se puede identificar algún inconveniente de estas prácticas?
Práctica: Lee el artículo en línea “La ciencia no está quebrada: Es muchísimo más difícil de lo que le damos crédito” y usa la herramienta interactiva titulada “Hackea tu camino hacia la gloria científica” para entender mejor la mala praxis de datos de “p-hacking”.