6.2: Biología de la Precepción
- Page ID
- 123007
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)
( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\id}{\mathrm{id}}\)
\( \newcommand{\Span}{\mathrm{span}}\)
\( \newcommand{\kernel}{\mathrm{null}\,}\)
\( \newcommand{\range}{\mathrm{range}\,}\)
\( \newcommand{\RealPart}{\mathrm{Re}}\)
\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)
\( \newcommand{\Argument}{\mathrm{Arg}}\)
\( \newcommand{\norm}[1]{\| #1 \|}\)
\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)
\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)
\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)
\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)
\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vectorC}[1]{\textbf{#1}} \)
\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)
\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)
\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)
\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)
\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)
Nuestro objetivo en esta sección es comprender lo suficiente sobre la biología para tener una idea general de cómo fluye la información a través del sistema visual, y los datos básicos sobre cómo operan las diferentes partes del sistema. Esto servirá para situar los modelos que vienen después, los cuales proporcionan una imagen mucho más completa de cada paso del procesamiento de la información.
La Figura 6.1 muestra la óptica básica y las vías de transmisión de las señales visuales, que ingresan a través de la retina, y progresan hacia el núcleo geniculado lateral del tálamo (LGN), y luego a la corteza visual primaria (V1). Los principios organizativos primarios que se desarrollan aquí, y en otras modalidades perceptuales y áreas perceptuales de manera más general, son:
- Transducción de información diferente: en la retina, los fotorreceptores son sensibles a diferentes longitudes de onda de la luz (rojo = longitudes de onda largas, verde = longitudes de onda medias y azul = longitudes de onda cortas), lo que nos da visión de color, pero las señales retinianas también difieren en su frecuencia espacial (cuán gruesa o fina de una característica detectan — los fotorreceptores en la región central de la fóvea pueden tener alta frecuencia espacial = resolución fina, mientras que los de la periferia son de menor resolución), y en su respuesta temporal (respuesta rápida vs. respuesta lenta, incluyendo sensibilidad diferencial al movimiento).
- Organización de la información de manera topográfica —por ejemplo, los campos visuales izquierdo vs. derecho se organizan en los hemisferios contralaterales de la corteza— como muestra la figura, las señales de la parte izquierda del espacio visual se encaminan al hemisferio derecho, y viceversa. La información dentro de LGN y V1 también se organiza topográficamente de diversas maneras. Esta organización generalmente permite contrastar información similar, produciendo una señal mejorada, y también agrupada para simplificar el procesamiento en niveles más altos.
- Extraer señales relevantes, mientras se filtran las irrelevantes — La Figura 6.2 muestra cómo las células retinianas responden solo al contraste, no a la iluminación uniforme, mediante el uso de campos receptivos de envolvente central (por ejemplo, on-center, off-surround o viceversa). Solo cuando una parte de este campo receptivo obtiene diferentes cantidades de luz en comparación con las demás responden estas neuronas. Normalmente esto surge con bordes de contraste, donde las transiciones de iluminación entre la luz y la oscuridad, como se muestra en la figura — estas transiciones son los aspectos más informativos de una imagen, mientras que las regiones de iluminación constante pueden ignorarse con seguridad. La Figura 6.3 muestra cómo estas señales centro-surround (que también están presentes en el LGN) pueden integrarse juntas en celdas simples V1 para detectar la orientación de estos bordes, estos detectores de bordes forman el vocabulario básico para describir imágenes en V1. Debería ser fácil ver cómo se pueden construir formas más complejas a partir de estos elementos básicos de línea/borde. V1 también contiene células complejas que se basan en las respuestas celulares simples (Figura 6.4), proporcionando un vocabulario básico algo más rico. Los siguientes videos muestran cómo sabemos cómo se ven estos campos receptivos:
- Mapeo de campo receptivo clásico Hubel & Wiesel V1 usando estímulos de proyector de la vieja escuela: http://www.youtube.com/watch?v=KE952yueVLA
- Más reciente correlación inversa V1 mapeo de campo receptivo: http://www.youtube.com/watch?v=n31XBMSSSpI
En la vía auditiva, la membrana coclear juega un papel análogo al de la retina, y también tiene una organización topográfica según la frecuencia de los sonidos, produciendo el equivalente aproximado de una transformación de fourier del sonido en un espectrograma. Esta señal sonora básica se procesa luego en vías auditivas para extraer patrones relevantes de sonido a lo largo del tiempo, de la misma manera que ocurre en la visión.
Avanzando más allá de la corteza visual primaria, el sistema perceptual proporciona un excelente ejemplo del poder de las capas jerárquicamente organizadas de detectores neuronales, como se discutió en el Capítulo Redes. La Figura 6.5 muestra los patrones de conectividad anatómica de todas las áreas visuales principales, comenzando desde las células ganglionares retinianas (RGC) hasta LGN a V1 y en adelante. Los patrones específicos de conectividad permiten extraer una estructura jerárquica, como se muestra, aunque también hay muchas interconexiones fuera de una jerarquía estricta.
La Figura 6.6 coloca estas áreas en sus ubicaciones anatómicas, mostrando más claramente una división qué vs dónde (ventral vs dorsal) en el procesamiento visual. Las proyecciones que van en dirección ventral de V1 a V4 a áreas de corteza inferotemporal (IT) (TE, TEO, etiquetadas como PIT para TI posterior en la figura anterior) son importantes para reconocer la identidad (“qué”) de los objetos en la entrada visual, mientras que los que suben a través del extracto de corteza parietal información espacial (“dónde”), incluidas las señales de movimiento en el área MT y MST. Veremos más adelante en este capítulo cómo cada uno de estos flujos visuales de procesamiento puede funcionar independientemente, y también interactuar juntos para resolver importantes problemas computacionales en la percepción.
Aquí hay un resumen rápido del flujo de información hasta el lado de qué lado del camino visual (representado en el lado derecho de la Figura 6.5):
- V1 — corteza visual primaria, que codifica la imagen en términos de detectores de bordes orientados que responden a bordes (transiciones en iluminación) a lo largo de diferentes ángulos de orientación. Veremos en la primera simulación de este capítulo cómo estos detectores de borde se desarrollan a través del aprendizaje autoorganizado, impulsado por las estadísticas confiables de las imágenes naturales.
- V2 — corteza visual secundaria, que codifica combinaciones de detectores de bordes para desarrollar un vocabulario de intersecciones y uniones, junto con muchas otras características visuales básicas (por ejemplo, selectividad de profundidad 3D, texturas básicas, etc.), que proporcionan la base para detectar formas más complejas. Estas neuronas V2 también codifican estas características en un rango más amplio de ubicaciones, iniciando un proceso que termina con las neuronas IT siendo capaces de reconocer un objeto independientemente de dónde aparezca en el campo visual (es decir, reconocimiento de objetos invariantes).
- V4: detecta características de forma más complejas, en un rango aún mayor de ubicaciones (y tamaños, ángulos, etc.).
- IT-Posterior (PIT): detecta formas de objetos completos, en una amplia gama de ubicaciones, tamaños y ángulos. Por ejemplo, hay un área cerca de la circunvolución fusiforme en la superficie inferior del lóbulo temporal, llamada área de la cara fusiforme (FFA), que aparece especialmente sensible a las caras. Como vimos en el Capítulo Redes, sin embargo, los objetos están codificados en representaciones distribuidas en una amplia gama de áreas en TI.
- IT-Anterior (AIT) —aquí es donde la información visual se vuelve extremadamente abstracta y semántica por naturaleza— puede codificar todo tipo de información importante sobre diferentes personas, lugares y cosas.
En contraste, el aspecto donde del procesamiento visual que sube en una dorsal directamente a través de la corteza parietal (áreas MT, VIP, LIP, MST) contiene áreas que son importantes para procesar el movimiento, la profundidad y otras características espaciales.