Saltar al contenido principal
LibreTexts Español

3.3: Categorización y Representaciones Distribuidas

  • Page ID
    122893
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    \( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

    ( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\id}{\mathrm{id}}\)

    \( \newcommand{\Span}{\mathrm{span}}\)

    \( \newcommand{\kernel}{\mathrm{null}\,}\)

    \( \newcommand{\range}{\mathrm{range}\,}\)

    \( \newcommand{\RealPart}{\mathrm{Re}}\)

    \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

    \( \newcommand{\Argument}{\mathrm{Arg}}\)

    \( \newcommand{\norm}[1]{\| #1 \|}\)

    \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

    \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    \( \newcommand{\vectorA}[1]{\vec{#1}}      % arrow\)

    \( \newcommand{\vectorAt}[1]{\vec{\text{#1}}}      % arrow\)

    \( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vectorC}[1]{\textbf{#1}} \)

    \( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

    \( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

    \( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

    \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

    \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

    1200px-fig_category_hierarch_dist_reps.png
    Figura\(3.7\): Esquema de una secuencia jerárquica de representaciones categóricas procesando un estímulo de entrada facial. Las representaciones se distribuyen en cada nivel (múltiples detectores neuronales activos). En el nivel más bajo, hay detectores de características elementales (bordes orientados). A continuación, estos se combinan en cruces de líneas, seguidos de características visuales más complejas. Los rostros individuales se reconocen en el siguiente nivel (incluso aquí múltiples unidades faciales están activas en proporción graduada a cómo se ven las personas similares). Por último, al más alto nivel se encuentran importantes categorías funcionales “semánticas” que sirven como una buena base para las acciones que uno podría tomar; poder desarrollar categorías de tan alto nivel es fundamental para el comportamiento inteligente.

    Como se explica en la introducción a este capítulo, el proceso de formación de representaciones categóricas de entradas que llegan a una red permite que el sistema se comporte de una manera mucho más potente e “inteligente” (Figura 3.7). Filosóficamente, es una pregunta interesante sobre de dónde provienen nuestras categorías mentales: ¿hay algo objetivamente real subyacente a nuestras categorías mentales, o son simplemente ilusiones que imponemos sobre la realidad? ¿Existe realmente la noción de “silla” en el mundo real, o es simplemente algo que nuestros cerebros construyen para que podamos sobrevivir (y descansar nuestras piernas cansadas)? Este tema ha sido contemplado desde los albores de la filosofía, e.g., por Platón con su noción de que vivimos en una cueva percibiendo solo sombras en la pared de la verdadera realidad más allá de la cueva. Parece plausible que haya algo “objetivo” en las sillas que nos permita categorizarlas como tales (es decir, no son puramente una alucinación colectiva), pero proporcionar una definición rigurosa y exacta de las mismas parece ser un esfuerzo notablemente desafiante (¡pruébalo! no olvides la caja de cartón, o el bulto de nieve, o la silla en miniatura en una casa de muñecas, o la del museo en la que nadie se sentó nunca..). No parece que la mayoría de nuestros conceptos probablemente sean verdaderos “tipos naturales” que tienen una base muy precisa en la naturaleza. Cosas como las leyes de la física de Newton, que parecerían tener una base objetiva fuerte, probablemente se ven empequeñecidas por cosas cotidianas como sillas que no están tan bien definidas (y la comprensión “ingenua” de la física a menudo tampoco es correcta en muchos casos).

    El desordenado estado ontológico de las categorías conceptuales no nos molesta mucho. Como vimos en el capítulo anterior, las neuronas son detectores muy capaces que pueden integrar muchos miles de señales de entrada diferentes, y con ello pueden lidiar con categorías complejas y amorfas. Además, veremos que el aprendizaje puede dar forma a estas representaciones de categorías para recoger cosas que son relevantes para el comportamiento, sin requerir ninguna formalidad o rigor en la definición de cuáles podrían ser estas cosas. En definitiva, nuestras categorías mentales se desarrollan porque nos son útiles de alguna manera u otra, y el mundo exterior produce suficientes señales confiables para que nuestros detectores capten estas cosas. Es importante destacar que un factor importante para el aprendizaje de estas categorías es la interacción social y lingüística, que permite aprender y compartir cosas muy complejas y oscuras; las cosas más extrañas se pueden aprender a través de interacciones sociales (por ejemplo, ahora sabes que el considerable espacio extra en una bolsa de papas fritas es llamado el “snackmosphere”, cortesía de Rich Hall). Así, nuestro medio cultural juega un papel crítico en la conformación de nuestras representaciones mentales, y es claramente una fuerza importante en lo que nos permite ser tan inteligentes como somos (ocasionalmente recogemos algunas ideas útiles junto con cosas como “snackmosphere”). Si quieres profundizar en las cuestiones filosóficas de la verdad y el relativismo que surgen de esta perspectiva laxa sobre las categorías mentales, consulta Filosofía de Categorías.

    Una manera intuitiva de entender la importancia de tener las categorías correctas (y elegirlas adecuadamente para la situación dada) proviene de los problemas de perspicacia. Estos problemas suelen estar diseñados de manera que nuestra forma normal predeterminada de categorizar la situación nos lleve en la dirección equivocada, y es necesario volver a representar el problema de una manera nueva (“pensar fuera de la caja”), para resolverlo. Por ejemplo, consideremos este problema de “acertijo”: “dos hombres están muertos en una cabaña en el bosque. ¿Qué pasó?” — luego procedes a hacer un montón de preguntas verdaderas/falsas y eventualmente te das cuenta de que necesitas seleccionar una forma diferente de categorizar la palabra “cabina” para resolver el rompecabezas. Aquí hay una lista de algunos de estos tipos de acertijos: http://www.angelfire.com/oh/abnorm/ (ADVERTENCIA: haga clic a riesgo propio para enlaces externos — parece bien pero aparece un anuncio o dos, parece).

    Para los programadores informáticos, una de las lecciones más importantes que uno aprende es que elegir la representación correcta es el paso más importante para resolver un problema dado. Como ejemplo sencillo, el uso de la noción de “montón” permite una solución particularmente elegante al problema de clasificación. Los árboles binarios también son una forma de representación ampliamente utilizada que a menudo reduce en gran medida el tiempo computacional de varios problemas. En general, simplemente quieres encontrar una representación que te facilite hacer las cosas que necesitas hacer. Esto es exactamente lo que hace el cerebro.

    Un ejemplo predominante de la propensión del cerebro a desarrollar codificaciones categóricas de las cosas son los estereotipos. Un estereotipo es realmente solo una categoría mental aplicada a un grupo de personas. El hecho de que todos parezcan tenerlos es una fuerte evidencia de que así es fundamentalmente como funciona el cerebro. No podemos dejar de pensar en términos de categorías abstractas como esta, y como hemos argumentado anteriormente, las categorías en general son esenciales para permitirnos lidiar con el mundo de manera inteligente. Pero los problemas obvios con el pensamiento estereotipado también indican que estas categorías también pueden ser problemáticas (para los estereotipos específicamente y el pensamiento categórico de manera más general), y limitar nuestra capacidad para representar con precisión los detalles de cualquier individuo o situación dada. Como discutimos a continuación, tener muchas representaciones categóricas diferentes activas al mismo tiempo puede ayudar potencialmente a mitigar estos problemas. La capacidad de entretener múltiples categorías potenciales de este tipo al mismo tiempo puede ser una variable de diferencia individual asociada a cosas como creencias políticas y religiosas (todo: encontrar citas). ¡Estas cosas pueden ponerse interesantes!

    Representaciones Distribuidas

    Además de que nuestras categorías mentales son algo amorfas, también son altamente polimorfas: cualquier entrada dada puede ser categorizada de muchas maneras diferentes al mismo tiempo —no existe tal cosa como el nivel apropiado de categorización para cualquier cosa dada. Una silla también puede ser muebles, arte, basura, leña, tope de puerta, plástico y cualquier cantidad de otras cosas similares. Tanto la naturaleza amorfa como la polimorfa de las categorías están muy bien acomodadas por la noción de representación distribuida. Las representaciones distribuidas están compuestas por muchas neuronas individuales como detectores, cada una de las cuales está detectando algo diferente. El patrón agregado de actividad de salida (“alarmas de detección”) a través de esta población de detectores puede capturar la amorfa de una categoría mental, porque no es solo un solo factor discreto el que entra en ella. Hay muchos factores, cada uno de los cuales juega un papel. Las sillas tienen superficies para sentarse y, a veces, tienen respaldo y, por lo general, tienen una forma similar a una silla, pero sus formas también pueden ser muy variables y extrañas. A menudo están hechas de madera o plástico o metal, pero también pueden estar hechas de cartón o incluso de vidrio. Todos estos diferentes factores pueden ser capturados por toda la población de neuronas disparando para codificar estas y muchas otras características (por ejemplo, incluyendo el contexto circundante, historia de acciones y actividades que involucran al objeto en cuestión).

    Lo mismo ocurre con el carácter polimorfo de las categorías. Un conjunto de neuronas puede estar detectando aspectos similares a sillas de una silla, mientras que otras se están activando en base a todas las diferentes cosas que podría representar (material, categorías más amplias, apariencia, estilo, etc.). Todos estos diferentes significados posibles de la entrada de silla pueden estar activos simultáneamente, lo cual es bien capturado por una representación distribuida con neuronas detectando todas estas diferentes categorías al mismo tiempo.

    1200px-fig_dist_rep_vis_bio.png
    Figura\(3.8\): Respuesta graduada en función de la similitud. Este es un aspecto de las representaciones distribuidas, que se muestran aquí en una neurona en la corteza visual de un mono, esta neurona responde de manera graduada a diferentes estímulos de entrada, en proporción a lo similares que son a lo que responde más activamente (hasta donde se sabe por presentar una muestra amplia de diferentes imágenes de entrada). Con tales respuestas graduadas ubicuas en la corteza, se deduce que cualquier entrada dada activará muchos detectores de neuronas diferentes. Reproducido de Tanaka (1996).
    fig_tanaka03_topo_maps.png
    Figura\(3.9\): Representaciones distribuidas de diferentes formas mapeadas a través de regiones de la corteza inferotemporal (IT) en el mono. Cada forma activa un gran número de neuronas diferentes distribuidas a través de la corteza de TI, y estas neuronas se superponen parcialmente en algunos lugares. Reproducido de Tanaka (2003).

    Algunos datos del mundo real sobre representaciones distribuidas se muestran en la Figura 3.8 y la Figura 3.9. Estos muestran que las neuronas individuales responden de manera graduada en función de la similitud con las entradas relativas a lo óptimo que las activa (vimos esta misma propiedad en la exploración del detector del Capítulo de Neuronas, cuando bajamos el nivel de fuga para que respondería a múltiples entradas). La Figura 3.10 muestra un mapa resumido global de la topología de representaciones de forma en la corteza inferotemporal (IT) de mono, donde cada área tiene un estímulo óptimo dado que la activa, mientras que las áreas vecinas tienen estímulos similares pero distintos tales óptimos. Por lo tanto, cualquier entrada de forma dada se codificará como un patrón distribuido a través de todas estas áreas en la medida en que tenga características que sean lo suficientemente similares para activar los diferentes detectores.

    fig_tanaka03_topo.png
    Figura\(3.10\): Diagrama esquemático de representaciones de formas organizadas topográficamente en corteza IT de mono, de Tanaka (2003) — cada área pequeña de TI responde óptimamente a una forma de estímulo diferente, y las áreas vecinas tienden a tener representaciones similares pero no idénticas.

    Otra demostración de representaciones distribuidas proviene de un estudio histórico realizado por Haxby y colegas (2001), utilizando imágenes por resonancia magnética funcional (fMRI) del cerebro humano, mientras se ven diferentes estímulos visuales (Figura 3.11). Demostraron que contrariamente a afirmaciones anteriores de que el sistema visual estaba organizado de manera estrictamente modular, con áreas completamente distintas para rostros vs. otras categorías visuales, por ejemplo, existe de hecho un alto nivel de superposición en la activación sobre una amplia región del sistema visual para estos diferentes visuales entradas. Mostraron que se puede distinguir qué objeto está siendo visto por la persona en la máquina fMRI en base a estos patrones de actividad distribuidos, con un alto nivel de precisión. Críticamente, este nivel de precisión no baja apreciablemente cuando se excluye el área que exhibe la respuesta máxima para ese objeto. Estudios previos “modularistas” solo habían reportado la existencia de estas áreas de máxima respuesta. Pero como sabemos por los datos de los monos, las neuronas responderán de manera graduada aunque el estímulo no se ajuste perfectamente a su entrada de activación máxima, y Haxby et al. mostraron que estas respuestas graduadas transmiten mucha información sobre la naturaleza del estímulo de entrada.

    509px-fig_haxbyetal01_obj_maps.jpg
    Figura\(3.11\): Mapas de la actividad neuronal en el cerebro humano en respuesta a diferentes estímulos visuales de entrada (como se muestra — rostros, casas, sillas, zapatos), registrados mediante resonancia magnética funcional (fMRI). Existe un alto nivel de superposición en la actividad neuronal a través de estos diferentes estímulos, además de cierto nivel de especialización. Este es el sello distintivo de una representación distribuida. Reproducido de Haxby et al. (2001).

    Ver Más Representaciones Distribuidas Ejemplos para obtener datos empíricos más interesantes sobre representaciones distribuidas en la corteza.

    Codificación Gruesa

    fig_coarse_coding.png
    Figura\(3.12\): Codificación gruesa, que es una instancia de una representación distribuida con neuronas que responden de manera graduada. Este ejemplo se basa en la codificación de color en el ojo, que utiliza sólo 3 fotorreceptores diferentes sintonizados a diferentes frecuencias de luz (rojo, verde azul) para cubrir todo el espectro visible. Esta es una representación muy eficiente en comparación con tener muchos más receptores sintonizados de manera más estrecha y discreta a diferentes frecuencias a lo largo del espectro.

    La Figura 3.12 ilustra un caso específico importante de una representación distribuida conocida como codificación gruesa. Esto no es realmente diferente de lo que hemos descrito anteriormente, pero el ejemplo particular de cómo el ojo utiliza solo 3 fotorreceptores para capturar todo el espectro visible de la luz es un ejemplo particularmente bueno del poder de las representaciones distribuidas. Cada frecuencia individual de luz se codifica de manera única en términos del equilibrio relativo de la actividad graduada a través de los diferentes detectores. Por ejemplo, un color entre rojo y verde (por ejemplo, un tono particular de amarillo) se codifica como actividad parcial de las unidades rojo y verde, con la fuerza relativa de rojo vs verde determinando cuánto se ve más naranja vs chartreuse. En resumen, la codificación gruesa es muy importante para codificar eficientemente la información usando relativamente pocas neuronas.

    Representaciones localistas

    Lo opuesto a una representación distribuida es una representación localista, donde una sola neurona está activa para codificar una categoría dada de información. Aunque no creemos que las representaciones localistas sean características del cerebro real, sin embargo son bastante convenientes de usar para modelos computacionales, especialmente para patrones de entrada y salida para presentar a una red. A menudo es bastante difícil construir un patrón de actividad distribuido adecuado para capturar de manera realista las similitudes entre diferentes entradas, por lo que a menudo recurrimos a un patrón de entrada localista con una única neurona de entrada activa para cada tipo diferente de entrada, y simplemente dejamos que la red desarrolle su propio representaciones distribuidas a partir de ahí.

    1200px-fig_halle_berry_neuron.jpg
    Figura\(3.13\): El famoso caso de una neurona Halle Berry registrado de una persona con epilepsia a la que se le implantaron electrodos en el cerebro. La neurona parece sensible a muchas presentaciones diferentes de Halle Berry (incluyendo solo ver su nombre en el texto), pero no a personas de otra manera potencialmente similares. Si bien esto parecería sugerir la presencia de “células de abuela” localistas, de hecho hay muchas otras neuronas distribuidas activadas por cualquier entrada dada como esta dentro de la misma área, e incluso esta neurona sí exhibe algún nivel de disparo a casos similares de distractores. Reproducido de Quian Quiroga et al. (2005).

    La Figura 3.13 muestra el famoso caso de una neurona “Halle Berry”, registrada de una persona con epilepsia a la que se le implantaron electrodos en el cerebro. Esto parecería ser evidencia de una forma extrema de representación localista, conocida como célula de la abuela (término aparentemente acuñado por Jerry Lettvin en 1969), que denota una neurona tan específica pero abstracta que solo responde a la abuela de uno, basada en cualquier tipo de aporte, pero no a ninguna otra personas o cosas. La gente se había burlado durante mucho tiempo de la noción de tales celdas de abuela. A pesar de que la evidencia para ellos es fascinante (incluyendo también otras neuronas para Bill Clinton y Jennifer Aniston), poco hace para cambiar nuestra comprensión básica de cómo responden la gran mayoría de las neuronas en la corteza. Claramente, cuando se ve una imagen de Halle Berry, una gran cantidad de neuronas en todos los niveles de la corteza responderán, por lo que la representación general aún está altamente distribuida. Pero sí parece que, entre todas las diferentes formas de categorizar tales insumos, ¡hay algunas neuronas “abuelas” altamente selectivas! Otra pregunta pendiente es hasta qué punto estas neuronas realmente muestran respuestas graduadas a otras entradas; hay algún indicio de esto en la figura, y se requerirían más datos para probar realmente esto de manera más extensa.

    Exploraciones

    Consulte Categorización de rostros (solo la Parte I) para una exploración de cómo las imágenes faciales se pueden categorizar de diferentes maneras (emoción, género, identidad), cada una de las cuales enfatiza algún aspecto de los estímulos de entrada y colapsa entre otros.


    This page titled 3.3: Categorización y Representaciones Distribuidas is shared under a CC BY-SA license and was authored, remixed, and/or curated by O'Reilly, Munakata, Hazy & Frank.