1.5: Una nota sobre estadísticas y datos de redes sociales

Última actualización
Guardar como PDF

Page ID: 115231

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

El análisis de redes sociales es más una rama de la sociología “matemática” que del “análisis estadístico o cuantitativo”, aunque los analistas de redes sociales lo más seguro es que practiquen ambos enfoques. La distinción entre los dos enfoques no es clara. Los enfoques matemáticos para el análisis de redes tienden a tratar los datos como “deterministas”. Es decir, tienden a considerar las relaciones medidas y fortalezas de las relaciones como reflejando con precisión el estado “real” o “final” o “equilibrio” de la red. Los tipos matemáticos también tienden a suponer que las observaciones no son una “muestra” de alguna población mayor de posibles observaciones; más bien, las observaciones suelen considerarse como la población de interés. Los analistas estadísticos tienden a considerar las puntuaciones particulares en las fortalezas de las relaciones como realizaciones estocásticas o probabilísticas de una tendencia real subyacente o distribución de probabilidad de fortalezas de relación. Los analistas estadísticos también tienden a pensar en un conjunto particular de datos de red como una “muestra” de una clase más grande o población de tales redes o elementos de red —y tienen una preocupación por los resultados del estudio actual que se reproducirían en el “siguiente” estudio de muestras similares.

En los capítulos que siguen en este texto, nos ocuparemos principalmente del lado “matemático” más que del “estadístico” de la red análisis (nuevamente, es importante recordar que estoy sobredibujando las diferencias en esta discusión). Antes de pasar a esto, debemos señalar un par de puntos principales sobre la relación entre el material que aquí estudiarás, y los principales enfoques estadísticos en sociología. En el capítulo 18, exploraremos algunas de las formas básicas en las que se han adaptado las herramientas estadísticas para estudiar los datos de las redes sociales.

De una manera, hay poca diferencia aparente entre los enfoques estadísticos convencionales y los enfoques de red. Las herramientas estadísticas descriptivas univariadas, bivariables e incluso muchas multivariadas se utilizan comúnmente en la descripción, exploración y modelado de datos de redes sociales. Los datos de redes sociales son, como hemos señalado, fácilmente representados como matrices de números — al igual que otros tipos de datos sociológicos. Como resultado, se pueden realizar los mismos tipos de operaciones en datos de red que en otros tipos de datos. Los algoritmos de las estadísticas se utilizan comúnmente para describir características de observaciones individuales (por ejemplo, la mediana de fuerza de vinculación del actor X con todos los demás actores de la red) y la red en su conjunto (por ejemplo, la media de todas las fortalezas de empate entre todos los actores de la red). Los algoritmos estadísticos son muy utilizados para evaluar el grado de similitud entre actores, y si se encuentran patrones en los datos de la red (por ejemplo, análisis factorial, análisis de conglomerados, escalado multidimensional). Incluso las herramientas de modelado predictivo se aplican comúnmente a los datos de la red (por ejemplo, correlación y regresión).

Las herramientas estadísticas descriptivas son realmente solo algoritmos para resumir características de las distribuciones de puntajes. Es decir, son operaciones matemáticas. Donde las estadísticas realmente se vuelven “estadísticas” está en el lado inferencial. Es decir, cuando nuestra atención se dirige a evaluar la reproducibilidad o probabilidad del patrón que hemos descrito. Las estadísticas inferenciales pueden ser, y son, aplicadas al análisis de los datos de la red. Pero, existen algunas diferencias bastante importantes entre los sabores de las estadísticas inferenciales que se utilizan con los datos de red, y los que más comúnmente se imparten en cursos básicos de análisis estadístico en sociología.

Probablemente el énfasis más común en la aplicación de la estadística inferencial a los datos de las ciencias sociales es responder preguntas sobre la estabilidad, reproducibilidad o generalizabilidad de los resultados observados en una sola muestra. La pregunta principal es: si repitiera el estudio sobre una muestra diferente (dibujada por el mismo método), ¿qué tan probable es que obtuviera la misma respuesta sobre lo que está pasando en toda la población de la que saqué ambas muestras? Esta es una pregunta realmente importante —porque nos ayuda a evaluar la confianza (o la falta de ella) que debemos tener para evaluar nuestras teorías y dar consejos.

En la medida en que las observaciones utilizadas en un análisis de red son dibujadas por métodos de muestreo probabilístico de alguna población identificable de actores y /o lazos, se aplica el mismo tipo de pregunta sobre la generalizabilidad de los resultados de la muestra. A menudo este tipo de pregunta inferencial es de poco interés para los investigadores de redes sociales. En muchos casos, están estudiando una red o conjunto de redes en particular, y no tienen interés en generalizar a una población mayor de tales redes (ya sea porque no existe tal población, o no nos importa generalizarla de ninguna manera probabilística). En algunos otros casos podemos tener interés en generalizar, pero nuestra muestra no fue dibujada por métodos de probabilidad. El análisis de redes a menudo se basa en artefactos, observación directa, experimentos de laboratorio y documentos como fuentes de datos, y generalmente no hay formas plausibles de identificar poblaciones y extraer muestras por métodos de probabilidad.

El otro uso importante de la estadística inferencial en las ciencias sociales es para probar hipótesis. En muchos casos, se utilizan herramientas iguales o estrechamente relacionadas para cuestiones de evaluación de generalizabilidad y para pruebas de hipótesis. La lógica básica de las pruebas de hipótesis es comparar un resultado observado en una muestra con algún valor de hipótesis nulo, relativo a la variabilidad muestral del resultado bajo el supuesto de que la hipótesis nula es verdadera. Si el resultado de la muestra difiere mucho de lo que probablemente se hubiera observado bajo el supuesto de que la hipótesis nula es verdadera, entonces la hipótesis nula probablemente no sea cierta.

El eslabón clave en la cadena inferencial de pruebas de hipótesis es la estimación de los errores estándar de la estadística. Es decir, estimar la cantidad esperada que el valor a un estadístico “saltaría” de una muestra a la siguiente simplemente como resultado de accidentes de muestreo. Rara vez, por supuesto, podemos observar o calcular directamente tales errores estándar —porque no tenemos replicaciones. En cambio, la información de nuestra muestra se utiliza para estimar la variabilidad del muestreo.

Con muchos procedimientos estadísticos comunes, es posible estimar errores estándar mediante aproximaciones bien validadas (por ejemplo, el error estándar de un la media suele estimarse por la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra). Estas aproximaciones, sin embargo, se mantienen cuando las observaciones son dibujadas por muestreo aleatorio independiente. Las observaciones de la red casi siempre son no independientes, por definición. En consecuencia, las fórmulas inferenciales convencionales no se aplican a los datos de red (aunque pueden aplicarse fórmulas desarrolladas para otros tipos de muestreo dependiente). Es particularmente peligroso asumir que tales fórmulas sí se aplican, porque la falta de independencia de las observaciones de la red generalmente dará como resultado subestimaciones de la verdadera variabilidad del muestreo y, por lo tanto, demasiada confianza en nuestros resultados.

El enfoque de la mayoría de los analistas de redes interesados en la inferencia estadística para probar hipótesis sobre las propiedades de la red es elaborar distribuciones de probabilidad para estadísticas directamente. Este enfoque se utiliza porque: 1) nadie ha desarrollado aproximaciones para las distribuciones de muestreo de la mayoría de las estadísticas descriptivas utilizadas por los analistas de red y 2) el interés a menudo se centra en la probabilidad de un parámetro relativo a alguna línea base teórica (generalmente aleatoriedad) en lugar de en el probabilidad de que una red dada sea típica de la población de todas las redes.

Supongamos, por ejemplo, que me interesara la proporción de actores de una red que fueran miembros de camarillas (o de cualquier otra red estadística o parámetro). La noción de camarilla implica estructura, conexiones no aleatorias entre actores. Tengo datos sobre una red de diez nodos, en los que hay 20 lazos simétricos entre actores, y observo que hay una camarilla que contiene cuatro actores. La pregunta inferencial podría plantearse como: ¿qué tan probable es, si los vínculos entre actores fueran eventos puramente aleatorios, que una red compuesta por diez nodos y 20 lazos simétricos mostrara una o más camarillas de tamaño cuatro o más? Si resulta que las camarillas de talla cuatro o más en redes aleatorias de este tamaño y grado son bastante comunes, debería ser muy cauteloso al concluir que he descubierto “estructura” o no aleatoriedad. Si resulta que tales camarillas (o las más numerosas o más inclusivas) son muy improbables bajo el supuesto de que los lazos son puramente aleatorios, entonces es muy plausible llegar a la conclusión de que existe una estructura social presente.

Pero, ¿cómo puedo determinar esta probabilidad? El método utilizado es uno de simulación —y, como la mayoría de las simulaciones, a menudo son necesarios muchos recursos informáticos y algunas habilidades de programación. En el caso actual, podría usar una tabla de números aleatorios para distribuir 20 lazos entre 10 actores, y luego buscar en la red resultante camarillas de tamaño cuatro o más. Si no se encuentra camarilla, grabo un cero para el juicio; si se encuentra una camarilla, grabo uno. El resto es sencillo. Basta con repetir el experimento varios miles de veces y sumar qué proporción de los “ensayos” resultan en “éxitos”. La probabilidad de éxito a través de estos experimentos de simulación es un buen estimador de la probabilidad de que pueda encontrar una red de este tamaño y densidad para tener una camarilla de este tamaño “solo por accidente” cuando los mecanismos causales no aleatorios que creo que causan camarillas no están, de hecho, operando.

Esto puede sonar extraño, y sin duda es mucho trabajo (la mayoría del cual, por suerte, se puede hacer por computadoras). Pero, de hecho, no es realmente diferente de la lógica de probar hipótesis con datos que no son de red. Los datos de redes sociales tienden a diferir de los datos de encuestas más “convencionales” en algunas formas clave: los datos de la red a menudo no son muestras de probabilidad y las observaciones de los nodos individuales no son independientes. Estas diferencias son bastante consecuentes tanto para las cuestiones de generalización de los hallazgos como para la mecánica de las pruebas de hipótesis. No hay, sin embargo, nada fundamentalmente diferente en la lógica del uso de estadísticas descriptivas e inferenciales con datos de redes sociales.

La aplicación de la estadística a los datos de las redes sociales es un área interesante, y que se encuentra, al momento de escribir este artículo, a una “vanguardia” de investigación en el área. Dado que este texto se centra en usos más básicos y comunes del análisis de redes, no tendremos mucho más que decir sobre las estadísticas más allá de este punto. Se puede pensar en gran parte de lo que sigue aquí como tratar el lado “descriptivo” de la estadística (desarrollar números de índice para describir ciertos aspectos de la distribución de vínculos relacionales entre actores en redes). Para aquellos con interés en el lado inferencial, un buen lugar para comenzar es con la segunda mitad del excelente libro de texto Wasserman y Fausto.