Saltar al contenido principal
LibreTexts Español

3.1: Sistemas fotosensoriales naturales

  • Page ID
    85621
  • \( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \) \( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)\(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\) \(\newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\) \( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\) \( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\) \( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\) \( \newcommand{\Span}{\mathrm{span}}\)\(\newcommand{\AA}{\unicode[.8,0]{x212B}}\)

    Los sistemas sensoriales biológicos realizan algoritmos eficientes energéticamente y computacionalmente elegantes para realizar tareas como las requeridas en ciertas aplicaciones de ingeniería. Los animales y algunos sistemas diseñados tienen la capacidad de movimiento limitado dentro del ambiente natural en respuesta a estímulos sensoriales. Por ejemplo, considere un buscador frontend en un misil diseñado para buscar y golpear de manera autónoma un objetivo específico. El misil necesita ser guiado hacia un objetivo visto por un buscador con ruido sensorial de fondo; este requisito es como el de una libélula buscando y adquiriendo insectos voladores más pequeños. Las tareas comunes a ambos sistemas incluyen navegar y guiar el sistema dentro del entorno natural, detectar, identificar y rastrear objetos identificados como objetivos, guiar eficientemente el sistema hacia los objetivos y luego interceptarlos.

    Esta parte trata sobre sistemas fotosensoriales, o visión, que implica la conversión de la energía fotónica en señales electrónicas. Estas señales son procesadas posteriormente para extraer información pertinente. El énfasis principal estará en los modelos computacionales de visión basados en el sistema de visión de primates ya que se han realizado muchos estudios en esta área. Comenzamos con algunos principios de visión comunes en muchas especies dentro del reino animal. Luego se investiga la estructura y función de los sistemas de visión naturales, con énfasis en el procesamiento de la información primero dentro de invertebrados (específicamente artrópodos) y luego dentro de vertebrados (específicamente primates). Ejemplos de aplicaciones de ingeniería que aprovechan los conceptos de visión natural siguen.

    3.1 Sistemas fotosensoriales naturales

    Pasivo significa que el sensor observa estímulos naturales que podrían estar disponibles dentro del ambiente, mientras que activo implica que el sensor envía estímulos y observa la respuesta del ambiente. Los sensores físicos en el reino animal incluyen fotosensoriales, como sistemas de visión pasiva que procesan fotones, mecano-sensoriales, como sonar pasivo (audición), sonar activo (murciélagos, delfines, ballenas), compresión pasiva (tacto) y compresión activa (antenas de insectos), y quimio-sensoriales, como la gustación (gusto) y el olfato (olfato). Este capítulo se centrará en los sistemas fotosensoriales pasivos de vison.

    3.1.1 Principios comunes entre los sistemas fotosensoriales naturales

    Un fotón es la unidad onda-partícula de luz con energía E = h, donde h es la constante de Plank y es la frecuencia electromagnética. La energía por tiempo (o espacio) se modela como una ondícula ya que satisface la definición general de tener un contenido de frecuencia inicial y final y único. La información contenida en la frecuencia y el flujo de fotones es información fotónica, la cual se convierte en información electrónica codificada en los potenciales de voltaje iónico neural gradual (o analógico) o en las frecuencias de los potenciales de acción.

    Los sistemas biológicos pueden dividirse en vertebrados, como mamíferos y reptiles, e invertebrados, como insectos. Los animales recopilan y procesan información del ambiente para la determinación de acciones posteriores. Las diversas especies y sistemas sensoriales asociados que existen reflejan la amplia gama de información ambiental disponible, así como la amplia gama de objetivos de tareas biológicas.

    Commonalidad de la fotorrecepción y la quimio-recepción

    La fotorecepción es posible gracias a la química orgánica de los fotopigmentos, que inician el proceso visual capturando fotones de luz. Los fotopigmentos están compuestos por una forma de Vitamina A llamada retinal y una molécula proteica grande llamada opsina. Las opsinas pertenecen a una gran familia de proteínas que incluyen proteínas receptoras olfativas (sentido del olfato). Las moléculas odorizantes y saborizantes se adhirieron a un receptor especial de membrana, causando una secuencia de reacciones moleculares que finalmente resultaron en señalización neuronal. Las moléculas fotopigmentarias son como estos receptores de membrana quimio-sensoriales con la retina sirviendo como el odorante o saborizante ya adherido. El fotón entrante de luz le da a la molécula suficiente energía para iniciar una reacción en cadena como esa en la recepción quimio-sensorial cuando una molécula odorante o saborizante entra en contacto con el receptor. Como resultado, el proceso de fotorecepción es realmente una forma simplificada del proceso de quimio-recepción. Un sistema fotosensorial (o visual) comienza convirtiendo el estímulo fotónico en un estímulo químico (fotopigmentos) y el procesamiento de información restante del sistema visual es el de un sistema quimio-sensorial.

    Curvatura y Reflexión

    Los dos diseños oculares primarios son el ojo vesicular (que contiene una cavidad) que se encuentra en vertebrados y ciertos moluscos y el ojo compuesto que se encuentra en artrópodos. La Figura 3.1-1 muestra la naturaleza cóncava del ojo vesicular y la naturaleza convexa del ojo compuesto. Las imágenes en sistemas biológicos se forman sobre una lámina curva de fotorreceptores, llamada retina. De manera similar, las cámaras forman imágenes sobre una hoja de película fotográfica, donde la película es plana en lugar de curva. El antiguo molusco marino Nautilus tiene la estructura cóncava de la retina con una abertura estenopeica, lo que crea una imagen invertida sin aumento. La mayoría de las retinas cóncavas (vertebrados, etc.) dependen de la refracción de la luz a través de una abertura mayor. La lente sirve para este propósito. Se necesita una apertura más grande para permitir que entre más flujo fotónico en el área de recepción para garantizar que haya suficiente energía disponible para estimular los fotorreceptores, y la refracción a través del cristalino y el líquido del globo ocular (humor vítreo) sirve para compensar la visión borrosa del ambiente como el se incrementa la apertura.

    La primera ilustración muestra la luz que entra en una retina cóncava, y la ilustración de la derecha muestra la luz que se refleja en una retina convexa

    Figura 3.1-1

    a) Retina cóncava del ojo vesicular de muchos vertebrados y moluscos. b) Retina convexa del ojo compuesto artrópodo.

    Las propiedades físicas de la reflexión también se utilizan en los diseños oculares de vieiras y ciertos peces y mamíferos. Se desconocen algunos de los propósitos de los diseños basados en la reflexión (vieiras), pero otros diseños de sistemas de visión explotan la reflexión en condiciones nocturnas (bajo nivel de luz nocturna). Por ejemplo, la caza nocturna por parte de ciertos mamíferos se ve aumentada por el hecho de que un fotón de luz tiene el doble de posibilidades de ser capturado por el mismo fotorreceptor que la luz pasa por una segunda vez después de ser reflejada. Un tejido reflectante especial (tapetum lucidum) detrás de la retina le da esta ventaja en condiciones nocturnas. Este reflejo se puede observar al hacer brillar una luz (linterna, faro) hacia el animal y está mirando hacia atrás.

    Los fotorreceptores son típicamente células largas y cilíndricas que contienen fotopigmentos dispuestos en muchas capas planas en forma de disco. Este diseño da un área de recepción angular pequeña, lo que lleva a una agudeza espacial suficiente, al tiempo que brinda muchas oportunidades para que el fotón entrante sea capturado por el fotopigmento.

    Imperfecciones ópticas

    Hay varias imperfecciones que se tratan en los sistemas de visión natural. Algunos de estos incluyen aberración esférica, aberración cromática y difracción. Los parámetros del sistema de visión natural suelen representar un equilibrio óptimo de los efectos de estas imperfecciones. La aberración esférica es causada por la luz que entra en foco a una distancia más corta cuando viene a través de la periferia de la lente que desde el centro. La aberración cromática es causada por la dependencia de la longitud de onda del índice de refracción: Cuanto más corta es la longitud de onda, mayor es la cantidad de refracción. Esto significa que si la parte azul de la imagen está enfocada, entonces la parte roja de la imagen está ligeramente desenfocada. Las propiedades ópticas del material biológico disponible no permiten una compensación perfecta de estos efectos. Por ejemplo, para corregir la aberración esférica se requiere una disminución constante en el índice de refracción de la córnea con la distancia desde el centro. Dado que la estructura molecular de la córnea es constante, esto no es posible. La forma general, sin embargo, del ojo de primate es ligeramente asférica, lo que minimiza los efectos de la aberración esférica. A medida que el ojo de primate cambia de forma con la edad, estas aberraciones son corregidas por lentes externos (anteojos).

    La tercera imperfección es causada por la difracción. La difracción es un fenómeno de óptica geométrica resultante de los efectos de borde de la abertura. Cuando se combina con aberración esférica y cromática, el resultado es un límite de frecuencia espacial en la imagen que puede mapearse sobre la retina. Este límite está tipificado por la distancia angular a la que se pueden resolver dos fuentes puntuales separadas, llamadas agudeza angular. La agudeza espacial se refiere a la frecuencia espacial más alta que puede ser procesada por el sistema de visión. El desplazamiento entre fotorreceptores en especies altamente evolucionadas es típicamente la distancia representada por la agudeza angular. Cualquier reducción adicional en la distancia no es práctica ya que no habría ninguna ventaja con respecto al contenido de información de la imagen.

    Otra consideración es la sensibilidad al contraste, que es cuán sensibles son dos fotorreceptores separados a diferentes niveles de intensidad de flujo de fotones. En los sistemas biológicos, la información enviada es frecuentemente una diferencia de contraste entre dos fotorreceptores adyacentes. Si los fotorreceptores están muy cerca, entonces la diferencia nunca será lo suficientemente grande como para mostrar un contraste relativo ya que los bordes en la imagen ya están borrosos debido a las imperfecciones antes mencionadas. El espaciamiento de los fotorreceptores en la retina es del orden del intervalo de muestreo espacial de Nyquist para frecuencias limitadas por estas imperfecciones. En la retina humana adulta, esto resulta ser de unos 120 millones de fotorreceptores: alrededor de 100 millones de bastones, que son muy sensibles y se utilizan en condiciones nocturnas, y alrededor de 20 millones de conos, que vienen en tres tipos y proporcionan información de color en condiciones de luz diurna.

    Vías de Información Visual

    Los campos receptivos para los diversos sistemas sensoriales se mapean a regiones superficiales específicas del tejido neuronal (como la retina, el cerebro y otras superficies neuronales). Debido a la conectividad, se suelen observar varias vías. Por ejemplo, un fotorreceptor puede estar representado en varias neuronas que están transmitiendo información fotónica al cerebro. Una neurona puede representar el contraste entre ese fotorreceptor particular y los más adyacentes. Este sería un ejemplo de una neurona de la vía parvocelular (parvo significa pequeña). Otra neurona puede representar el contraste entre un promedio de ese fotorreceptor y los más adyacentes, y un promedio de una región más grande centrada en ese fotorreceptor. Este sería un ejemplo de una neurona de la vía magnocelular (magno significa grande). Resulta que los nombres provienen del tamaño físico relativo de estas neuronas, y sucede que también corresponden al tamaño del campo receptivo que representan. Las vías parvocelulares y magnocelulares son comunes entre muchas especies, por ejemplo, tanto los humanos (y otros mamíferos) como ciertos artrópodos.

    Conectividad y agudeza

    Existe un equilibrio entre la agudeza temporal, que es la capacidad de detectar ligeros cambios en el flujo fotónico en el tiempo, y la agudeza espacial, que es la capacidad de detectar ligeros cambios entre dos objetos adyacentes cuyas imágenes están espacialmente separadas en la retina. Como los receptores están más interconectados, existe una mejor agudeza temporal debido a la mejor capacidad de integración de fotones del agregado. Los receptores que no están altamente interconectados presentan una mejor agudeza espacial.

    Para ilustrar este concepto, considere un flujo fotónico constante representado por 1 fotón por cada 10 fotorreceptores por unidad de tiempo. En promedio, cada fotorreceptor recibiría 1 fotón cada 10 unidades de tiempo. Si esta tasa de fotones entrantes cambiara a 2 fotones por cada 10 fotorreceptores, entonces la salida de un solo fotorreceptor tendría que ser monitoreada por una duración de 10's de unidades de tiempo para detectar un aumento promedio en el flujo de fotones. Si se integrara un agregado de 100 células fotorreceptoras, y si el flujo fotónico se distribuyera uniformemente, entonces la salida total saltaría de 10 fotones a 20 fotones, lo que podría notarse en la siguiente unidad de tiempo. El resultado es que el animal podrá detectar ligeros cambios en el flujo fotónico mucho mejor si las células están altamente conectadas, mientras que la capacidad de distinguir entre dos pequeños objetos adyacentes se deterioraría. Así, una mayor conectividad resulta en agudeza temporal aguda a costa de la agudeza espacial.

    Codificación Gruesa

    La codificación gruesa es la transformación de datos sin procesar usando un pequeño número de filtros ampliamente superpuestos. Estos filtros pueden existir en el tiempo, el espacio, el color u otros dominios de información. Los sistemas sensoriales biológicos tienden a usar codificación gruesa para lograr un alto grado de agudeza en dominios de información sensorial. Por ejemplo, en cada uno de los dominios de información del sistema visual (espacio, tiempo y color, o cromático) encontramos filtros que suelen ser pocos en número y relativamente gruesos (amplios) en el área cubierta (o ancho de banda): En esencia, solo existen cuatro tipos de detectores cromáticos, cuya absorción espectral las respuestas se muestran en la Figura 3.1-2, tres canales temporales y tres canales espaciales. Las neuronas en la retina que reciben información de los fotorreceptores están conectadas de tal manera que podemos observar estos canales de información espacial, temporal y cromática en el nervio óptico.

    La codificación gruesa puede tomar muchas formas diferentes, y un espacio de características codificadas groseramente puede transformarse en otro. Por ejemplo, dentro de los canales de color del sistema de visión encontramos una transformación de banda ancha en cada uno de los tres colores a nivel sensorial a banda ancha en canales de color oponente en el nivel intermedio. Otros ejemplos interesantes de codificación gruesa incluyen las velocidades del viento y el cálculo de dirección mediante sensores de cola de grillo y cálculos de velocidad del objeto con modos de descarga de estallido y reposo de agregados neuronales en el colículo superior del gato.

    Las respuestas de los bastones y conos del sistema de visión deben ser de amplio alcance para cubrir su porción del espacio de datos. Por ejemplo, en condiciones diurnas solo los tres tipos de cono tienen respuestas variables. Como mínimo, cada tipo debe proporcionar alguna respuesta sobre un tercio del espectro visible. Cada tipo de detector responde a mucho más de un tercio del espectro visible. Dado que una sola respuesta de un detector dado puede resultar de una de las muchas combinaciones de color e intensidad, el valor por sí mismo da información ambigua de color local e intensidad. Si la curva de respuesta fuera banda muy estrecha, entonces cualquier respuesta es el resultado de una frecuencia particular, y el valor de la respuesta reflejaría su intensidad. Sin embargo, muchos de estos detectores serían necesarios para lograr la amplia gama (millones) de colores que podemos percibir. No es práctico tener cada uno de los muchos detectores de banda estrecha en cada ubicación espacial. El diseño natural está optimizado para permitir que se detecten muchos colores en cada ubicación mientras se minimizan los requisitos de hardware neuronal (o “wet-ware”).

    Gráfico de curvas de respuesta con cuatro curvas que representan fotopigmentos

    Estas curvas son curvas de respuesta normalizadas por picos de los tres fotopigmentos conocidos en la retina de primates. Las respuestas se superponen considerablemente. Esta cifra se produjo utilizando el ajuste de curva de Matlab a los puntos seleccionados en el tejido biológico medido.

    3.1.2 Conceptos del sistema de visión artrópo

    Aunque hay millones de especies dentro del reino animal, hay relativamente pocos conceptos de diseño de fotorreceptores que hayan resistido la prueba del tiempo, como el ojo compuesto de artrópodos. Existen algunas similitudes interesantes entre los sistemas de visión del filo del insecto y los primates. Por ejemplo, ambos mapean la luz entrante en una matriz de fotorreceptores ubicados en una retina. Ambos exhiben distintas vías neuronales post-retina para lo que parece ser procesamiento espacial y temporal.

    Por supuesto, existen algunas diferencias clave entre los sistemas de visión de insectos y primates. Los insectos tienen ópticas no móviles de enfoque fijo. No son capaces de inferir distancias mediante el uso del enfoque o la alteración de la mirada para la convergencia de objetos. Los ojos están mucho más cerca entre sí, por lo que el paralaje tampoco puede utilizarse para inferir distancias. El tamaño es mucho menor, y la cobertura está en casi todas las direcciones por lo que la agudeza espacial general es mucho peor que la de los primates. Como resultado, la navegación parece hacerse más por el movimiento relativo de la imagen que por cualquier forma de detección y reconocimiento de objetos [Srini02].

    Ojo compuesto de artrópodos

    El ojo compuesto artrópodo es una estructura convexa. El ojo compuesto es una colección de ommatidios individuales, que son una estructura compleja de detección de luz típicamente compuesta por un cristalino corneal, cono cristalino y un grupo de células fotosensibles. Cada ommatidio forma una pieza de la imagen de entrada para que la imagen completa se forme por la integración de todos los ommatidios. Existen tres diseños básicos para integrar ommatidios en una imagen compuesta:

    1. Aposición. Cada ommatidia mapea su señal en un solo fotorreceptor.
    2. Superposición: Varios ommatidios contribuyen a la señal de entrada para cada fotorreceptor
    3. Superposición neural: Las entradas del fotorreceptor no solo son una superposición de varios ommatidios, sino que las neuronas más allá en la cadena de procesamiento también reciben sus entradas de varias salidas de fotorreceptores.

    Los ojos de aposición forman imágenes relativamente precisas del entorno. Este diseño es común entre los insectos diurnos (diurnos). Los ojos de superposición son comunes entre los insectos nocturnos (nocturnos) y crepusculares (crepusculares). En condiciones de bajos niveles de luz, el diseño de superposición permite una mayor sensibilidad ya que la luz de varios ommatidios se enfoca sobre un solo fotorreceptor. La mayor sensibilidad del ojo de superposición viene a un costo de agudeza espacial ya que el detalle de la imagen es compartido por píxeles vecinos. Este es un ejemplo de “mayor conectividad da como resultado agudeza temporal aguda a costa de la agudeza espacial” explicado anteriormente. El ojo de superposición neural se encuentra en la mosca dípteros (de dos alas). Este diseño permite un procesamiento adicional para compensar la pérdida de agudeza espacial, dando como resultado una buena agudeza espacial y sensibilidad.

    El ojo de superposición tiene mayor sensibilidad a los cambios en el flujo fotónico debido al mayor grado de conectividad de la ommatidia a un solo fotorreceptor. De manera similar, el sistema de varillas de primate está altamente interconectado, lo que resulta en un alto grado de sensibilidad temporal. Los fotorreceptores de primate se dividen en bastones y conos, llamados así por la forma del segmento externo que contiene fotopigmento. Algunas celdas cónicas también están altamente interconectadas, lo que brinda una mejor sensibilidad a los cambios temporales.

    Escaneo de ojos

    Algunos moluscos y artrópodos han desarrollado un mecanismo de escaneo para crear una imagen visual del entorno externo. Una estrecha franja de fotorreceptores se mueve hacia adelante y hacia atrás para generar la imagen completa. Ciertos caracoles marinos tienen retinas que tienen de 3 a 6 fotorreceptores de ancho y 400 fotorreceptores de largo. El ojo escanea 90°, tomando aproximadamente un segundo para escanear hacia arriba, y aproximadamente un cuarto de segundo para regresar hacia abajo [Smith00].

    Los camarones Mantis contienen 6 filas de ommatidios agrandados en la región central del ojo compuesto. Los ommatidios más grandes contienen pigmentos visuales de color que pueden usarse para investigar más a fondo un objeto de interés escaneando con estos fotorreceptores centrales. Esto permite que el camarón utilice cualquier información de color en el proceso de decisión [Smith00].

    Ciertas arañas saltarinas contienen retinas de 5 a 7 fotorreceptores de ancho y 50 fotorreceptores de largo. La araña normalmente escanea desde un lado pero puede rotar el ojo para investigar más a fondo un objeto particular de interés. Los ojos laterales (adicionales) de esta araña contienen fotorreceptores altamente interconectados para detectar movimientos ligeros y rápidos. Una vez detectado, la atención del ojo primario puede dirigirse al objeto recién detectado. Este proceso es análogo a la visión de primates, donde más células periféricas están altamente conectadas y el área central (la fóvea que se discutirá más adelante) está más densamente empaquetada y no tan interconectada. Un movimiento brusco en la periferia hace que un primate gire los ojos para fijarse en la fuente del movimiento. Una vez fijado, la agudeza espacial superior del área central puede ser utilizada para discernir la detención espacial del nuevo objeto de interés [Smith00].

    3.1.3 Sistemas de visión de primates

    La visión temprana se puede definir como los procesos que recuperan las propiedades de las superficies de objetos a partir de matrices de intensidad 2D. La visión completa sería el proceso de usar la información de visión temprana para tomar alguna decisión. El enfoque en esta sección se centra en las vías de información de la visión de los vertebrados que comienzan en la retina y terminan en etapas de procesamiento cortical. Cortical proviene de la corteza, que se utiliza para describir la parte del cerebro donde se procesa la información del sistema sensorial. La visión se procesa en la corteza visual primaria, la audición se procesa en la corteza auditiva y el tacto se procesa en la corteza somatosensorial. Muchos de estos conceptos también son comunes en la visión de insectos.

    La Figura 3.1-3 muestra las partes relevantes del ojo de primate. La energía fotónica es refractada primero por la córnea y más adelante por el cristalino y el humor vítreo, que llena la cámara óptica. La retina cubre la mayor parte de la porción interna del ojo y sirve como la primera etapa de procesamiento de la visión. Aproximadamente 120 millones de fotorreceptores se codifican en aproximadamente 1 millón de axones que componen el nervio óptico.

    En la Figura 3.1-4 se muestran los otros componentes básicos del sistema de visión de primates. Una proyección del entorno 3D se mapea sobre la lámina 2D de tejido neuronal llamada retina. La retina de primate está compuesta por varias capas de neuronas, incluyendo capas de células fotorreceptoras, horizontales, bipolares, amacrinas y ganglionares para ser discutidas con más detalle más adelante. La información es graduada, lo que básicamente significa analógica a los ingenieros eléctricos, hasta que alcanza el axón (salida) de la capa celular ganglionar. La señalización de potencial graduado es reemplazada por señalización de potencial de acción a través del nervio óptico. Al llegar al quiasma óptico, el lado derecho de ambas retinas (que representa el lado izquierdo del campo visual) se mapea al lado derecho del cerebro, y el lado izquierdo de ambas retinas (lado derecho del campo visual) al lado izquierdo del cerebro.

    Un simple dibujo lineal del ojo con etiquetas para la córnea, pupila, cristalino, humor vítreo, retina y nervio óptico.
    Figura 3.1-3. Anatomía simplificada del ojo de primate.

    La retina, el núcleo geniculado lateral (LGN) y el cerebro están todos compuestos por capas de neuronas. La Figura 3.1-4 resalta la LGN cuyas 4 capas externas son la terminación de las neuronas ópticas de la Vía Parvocelular (PP) y las 2 capas internas la terminación de las neuronas ópticas de la Vía Magnocelular (MP). Tanto las señales PP como MP son señales de oposición, lo que significa que los niveles de señal corresponden al contraste entre un campo receptivo central (RF) y una RF circundante más grande que incluiría respuestas de neuronas no representadas por la RF central. Parvo (pequeño) y magno (grande) fueron nombres dados por anatomistas que basaban los nombres en el tamaño de los cuerpos celulares. Convenientemente, más tarde se supo que el PP corresponde a RFs más pequeños (RF central podría ser una celda) y MP a RF más grandes (RF central sería un agregado mayor de celdas). En ambos casos la RF circundante sería mayor que la RF central. Hay dualidad en las señales de contraste centro-surround en que algunas representan la señal central menos la envolvente (señales “ON”) mientras que otras representan la señal surround menos la central (señales “OFF”).

    El PP contiene información de color ya que la respuesta de cono de una sola señal central tendrá una respuesta espectral diferente de la respuesta promedio de las neuronas circundantes. Algunos investigadores anteriores usarían r, g, b para designar los tres receptores de cono. Pero dado que las curvas de absorción espectral se superponen ampliamente a gran parte del espectro visible (como se muestra en la Figura 3.1-2) una mejor notación es l, m, s para los tipos de cono de longitud de onda larga, media y corta [DeV88]. Adoptamos esa convención en este libro.

    Ilustración a color del cerebro con anatomía de la visión etiquetada

    Figura 3.1-4. Componentes Básicos de Primates Vision.

    Descargado agosto 2020 de www.ncbi.nlm.nih.gov/libros/nbk541137/, CC BY

    Planos de Procesamiento Espacio-Temporal

    La retina puede considerarse una “parte” del cerebro, como sugiere el subtítulo del libro de John Dowling La retina: una parte accesible del cerebro [Dowl87]. La retina es una región multicapa de tejido neuronal que recubre la superficie interior del ojo, como se muestra en la Figura 3.1-3. En las primeras etapas del desarrollo embrionario del sistema nervioso central (SNC) de los primates, un solo tubo neural desarrolla dos vesículas ópticas con copas ópticas que eventualmente se convierten en retinas para cada ojo. La fisiología (o funcionamiento) de las capas de neuronas son similares, ya sea localizadas periféricamente en la retina (aproximadamente 5 capas), en la LGN (aproximadamente 6 capas), o en la corteza visual (aproximadamente 10-12 capas). Si podemos entender mejor el procesamiento espacio-temporal-cromático de la señal que existe en la retina, comprenderá mejor lo que también está sucediendo en la LGN y en los centros de procesamiento superiores de la corteza visual.

    La mecánica del procesamiento de la visión se puede visualizar mejor como una serie de planos de procesamiento paralelo, cada uno representando una de las capas neuronales en la retina o en el cerebro, como se muestra en la Figura 3.1-5. Los fotones entrantes paralelos son recibidos por los segmentos externos de los fotorreceptores dando como resultado señales que se propagan a la corteza visual en el cerebro. Cada plano de procesamiento neuronal actúa sobre la imagen en serie. Sin embargo, el mecanismo de procesamiento no puede describirse simplemente como simples filtros de imagen que actúan en cada plano separado. A medida que la energía se propaga a través de las capas neuronales, la carga iónica se extiende lateralmente por cada plano de procesamiento. Como resultado, la salida de cada plano de procesamiento es una combinación de las entradas actuales e históricas de las celdas en la ruta, así como la entrada histórica de las celdas adyacentes.

    Para modelar adecuadamente los efectos espaciales y temporales de las interconexiones neuronales, cada célula en cada plano de procesamiento neuronal debe considerar los efectos de mediación de las células vecinas, así como los efectos temporales de la degradación de la señal en el tiempo. Una forma de modelar ambos efectos es aplicar un filtro espacial 2D a cada plano de imagen y seguir el filtro con un integrador con fugas, que permite efectos de equilibrio iónico temporal.

    Codificación de información

    Los sistemas de visión natural extraen información de espacio (espacial), tiempo (temporal) y color (cromática) para tomar alguna decisión. La información a menudo se codifica para su transmisión, por ejemplo, de la retina a la LGN. La Figura 3.1-6a muestra los bloques básicos de información en el sistema de visión. La Figura 3.1-6b ilustra los elementos globales de procesamiento numérico en cada una de las distintas etapas de procesamiento de visión. Hay una compresión de aproximadamente 100:1 de los fotorreceptores de la retina a las señales del nervio óptico, pero una expansión de 1:1000 señales del nervio óptico a las neuronas de la corteza visual. Esta expansión se conoce como radiación óptica. Combinando la compresión y expansión hay una expansión general de aproximadamente 1:10 fotorreceptores retinianos a las neuronas de la corteza visual. Como es típico en biología, la compresión y expansión es bastante poco uniforme, ya que hay alrededor de 2 neuronas del nervio óptico por fotorreceptor en la fóvea de la retina (parte muy central de la visión), pero solo 1 neurona del nervio óptico por aproximadamente cada 400 fotorreceptores en la parte periférica de la retina. Este desequilibrio es consecuencia de la importancia de la información en el centro de mirada.

    Los fotones entrantes pasan a través de varias capas de células y fotorreceptores de la retina

    Figura 3.1-5. Dualidad planar/serial de procesamiento de visión.

    La información en forma de potenciales iónicos celulares se filtra espacialmente a medida que se propaga a través de las diversas capas del sistema de visión. Se muestran en detalle las capas de la retina; las capas en la LGN y la corteza visual continúan el procesamiento espacio-temporal.

    Ilustración del proceso de fotones que pasan por la anatomía de la visión para producir una imagen
    (a)
    Codificación de señal para fotones que pasan por un proceso para producir una acción en el cerebro
    b)
    Figura 3.1-6. Bloques de Visión Funcional (a) y Codificación de Señal (b).

    El filtrado natural de la visión comienza con la refracción fotónica a través de la córnea y el cristalino (Figura 3.1-3). La Figura 3.1-7 representa las diversas capas celulares dentro de la retina y una aproximación aproximada de la función matemática realizada por cada capa en las imágenes entrantes. Luego, la luz entrante pasa a través del humor vítreo y el tejido celular retiniano y se enfoca sobre una superficie de mosaico fotorreceptor. El flujo dentro de la región receptiva de un fotorreceptor de la retina se promedia a una única salida en la sinapsis de la tríada (en la raíz del fotorreceptor). Como resultado, la información se puede visualizar como un mosaico, donde cada pieza representa la salida de un solo fotorreceptor.

    La energía fotónica se convierte en carga electrónica en los discos fotopigmentarios de los fotorreceptores (bastones y conos). Se cree que la tasa de transferencia de información es proporcional al logaritmo de la intensidad entrante. Los fotorreceptores, con la ayuda de una capa de células horizontales, propagan la carga en el espacio y el tiempo dentro de un vecindario local de otros receptores. Dicha dispersión de carga puede ser modelada por filtros gaussianos espacio-temporales. Se requieren dos varianzas separadas (horizontal y vertical) para el filtro 2D espacial y otra para cómo la señal se degrada en el tiempo.

    La carga extendida y la carga original del fotorreceptor, ambas pueden modelarse como una versión filtrada gaussiana de las imágenes entrantes, están disponibles en la raíz del fotorreceptor, en la sinapsis de la tríada. Las células bipolares se conectan a las sinapsis de la tríada y presumiblemente activan señales proporcionales a la diferencia entre la entrada del fotorreceptor y la entrada de la célula horizontal. Por lo tanto, la salida de celda bipolar representa la diferencia de versión gaussiana de la imagen original.

    Los bordes espaciales son detectados por dos tipos de células bipolares, bipolares encendidos y bipolares apagados, que responden a la luz y la oscuridad, respectivamente. El bipolar activado responde si el campo receptivo central excede el campo receptivo circundante, mientras que las células no bipolares responden si el campo receptivo circundante excede el campo receptivo central. Los bordes temporales (cambios rápidos en los niveles de flujo fotónico) son detectados por células bipolares encendido-apagadas y apagadas, que responden a rápidos decrementos o incrementos en el flujo fotónico, respectivamente. Las células ganglionares correspondientes (activadas, apagadas, encendido-apagadas y apagadas) propagan respuestas mediadas por células de amacrina a estas células bipolares.

    Ilustración de las células de la retina y su función correspondiente
    Figura 3.1-7. Un modelo genérico de las capas celulares de la retina y la funcionalidad correspondiente

    La señal de diferencia propagada por las células bipolares es consecuencia de la inhibición lateral causada por la conectividad de fotorreceptores y células horizontales. Las células horizontales se conectan horizontalmente a numerosos fotorreceptores en la sinapsis de la tríada. Las células horizontales solo tienen dendritas, que para otras neuronas normalmente servirían como canales de entrada. Las dendritas (entradas) para estas células pasan iones en ambas direcciones, dependiendo de cómo se distribuya la carga iónica. El efecto neto es que los fotorreceptores adyacentes tienen su información parcialmente compartida por esta actividad de mediación de las células horizontales.

    Las uniones de hueco entre fotorreceptores adyacentes influyen en la carga de los fotorreceptores. La respuesta de un agregado fotorreceptor se puede modelar como un gaussiano espacio-temporal con una pequeña varianza. La entrada del agregado vecino de celdas horizontales se puede modelar con un gaussiano similar con una varianza mayor. La función de diferenciación da como resultado la operación del filtro Diferencia-de-Gaussiana (DOG), dando como resultado un perfil de campo receptivo antagónico de entorno central. Las funciones DOG y las funciones de la segunda derivada de Gaussiana, llamadas Laplaciano-de-Gaussiano (LOG), se han utilizado para modelar la salida celular bipolar.

    La información de carga analógica en la retina se canaliza hacia vías de información a medida que se canaliza desde el plano del mosaico hasta el nervio óptico. Estos canales de información se originan en la retina y se mantienen a través del nervio óptico y a partes del cerebro. Estos incluyen el canal de varilla, iniciado por bipolares de varilla, la vía parvocelular (PP) y la vía magnocelular (MP), las dos últimas iniciadas por bipolares cónicos. Tanto el PP como el MP presentan campos receptivos antagónicos envolventes centrales. Los conos PP están estrechamente conectados, respondiendo a pequeños campos receptivos, mientras que los conos MP están conectados más flojamente (junto con entradas de varilla), respondiendo a grandes campos receptivos.

    El MP y el PP realizan un filtrado de paso de banda espacial separado, proporcionan información de color e intensidad, y proporcionan canales de respuesta temporal, como se ilustra en la Figura 3.1-8. Se logra un grado relativamente alto de agudeza en cada dominio (espacio, tiempo y color, o cromático) a partir de estos pocos filtros. El MP es sensible a bajas frecuencias espaciales y amplias intensidades de color, que proporcionan información básica de los objetos en la imagen. Se sabe que el PP es sensible a frecuencias espaciales más altas y diferencias cromáticas, lo que agrega detalle y resolución. En el dominio del color, el PP proporciona oponencia de color y, por lo tanto, especificidad espectral, y el MP proporciona no oponencia de color y, por lo tanto, intensidad general. En el dominio del tiempo, el PP proporciona dinámicas que varían lentamente, mientras que el MP proporciona respuestas transitorias a la dinámica de la imagen.

    Tres canales de información de imagen diferentes que incluyen la vía magnocelular (MP) no oponente, la vía parvocelular (PP) de color oponente y la ruta del sistema de varilla altamente conectada

    Figura 3.1-8. Canales de Información de Visión Natural.

    El oponente de color PP responde al detalle espacial, la dinámica de la imagen que varía lentamente y el detalle cromático. El MP de color no oponente responde a promedios espaciales, transitorios rápidos y variaciones de intensidad. La trayectoria del sistema de varillas ayuda a la luminancia general y proporciona respuestas temporales rápidas en la periferia.

    Procesamiento de Potencial Calificado

    La información retiniana está principalmente en forma de potenciales graduados a medida que se mueve desde la capa de células fotorreceptoras (PC) a través de la retina hasta las capas de células amacrinas (AC) y células ganglionares (GC). Los axones de salida GC conforman el nervio óptico, transportando picos a la LGN. Las señales axonales ganglionares comienzan la transmisión del nervio óptico de información de color, tiempo y espacio a los órganos neuronales restantes en la vía de visión. Es típico que el procesamiento localizado se gradúe, como un nivel de voltaje analógico en un circuito RLC, pero es pulsado a través de potenciales de acción cuando se recorren distancias, como de la retina a la LGN, y de ahí al colículo superior y a la corteza visual.

    La Figura 3.1-9 muestra las funciones de procesamiento de señal e imagen en las diversas etapas de la retina. La Figura 3.1-10 muestra mayor detalle de la región inferior izquierda de la Figura 3.1-9. La característica de filtrado espacio-temporal se debe a la conectividad de las tres primeras capas de neuronas: fotorreceptores, células horizontales y células bipolares.

    Codificación gruesa en el dominio de la frecuencia de la señal

    Extendemos el uso de la codificación gruesa al dominio de la frecuencia de la señal considerando curvas gaussianas que simulan filtros de procesamiento de señales. Se eligieron filtros gaussianos debido a la naturaleza gaussiana de varias etapas del procesamiento neuronal en sistemas de visión, así como la facilidad de implementación de filtros gaussianos en sistemas electrónicos.

    Los filtros Gaussianos con diferentes varianzas y sus espectros de potencia se muestran en la Figura 3.1-11. Las curvas gaussianas G1 a G4 tienen varianzas crecientes. Cada curva se normaliza para que el pico esté en la misma ubicación. De esta manera, se puede observar la forma de la curva. En aplicaciones prácticas, las curvas se normalizarían para el área de unidad para que el filtrado cambie la señal sin sumar o quitar energía.

    El espectro de estos filtros gaussianos es gaussiano con varianzas decrecientes. Una curva con una varianza pequeña, como G1, pasará componentes de baja y media frecuencia y atenuará los altos, mientras que una con una varianza mayor, como G4, solo pasará componentes de muy baja frecuencia. La sustracción de estos filtros nos da la diferencia de filtros gaussianos (DOG) mostrados. Para las varianzas seleccionadas, el DoG G1-G2 sirve como filtro de paso alto, mientras que los otros sirven más como filtros de paso de banda.

    Tenga en cuenta que la frecuencia aquí implica frecuencia de señal. La señal podría contener variaciones en la energía distribuida espacialmente (frecuencia espacial), variaciones de intensidad con el tiempo en una sola ubicación (frecuencia temporal, o variaciones de color con respecto al tiempo o al espacio (frecuencia cromática).

    Modelo detallado de procesamiento de señal del sistema de visión categorizado por tipo de señal y función de procesamiento

    El papel general (línea superior) es procesar información fotónica y tomar alguna decisión como resultado. Esta figura ilustra verticalmente la física, la naturaleza de la señal y la funcionalidad de procesamiento con respecto a las diversas etapas orgánicas a medida que la información se mueve horizontalmente (hacia la derecha).

    Modelo de línea con etiquetas del sistema oculomotor

    Figura 3.10. Detalle Funcional Observado en la Retina.

    El sistema Oculomotor controla la dirección de la mirada; parte de él es automático y parte es controlada conscientemente. La mejora espacio-temporal de la característica dG es una consecuencia de la respuesta fotorreceptora y la conectividad celular horizontal y bipolar.

    Se pueden seleccionar pares de filtros para descomponer una señal en componentes de frecuencia especificados seleccionados. Por ejemplo, si se desea medir la intensidad de una señal a alrededor del 10% de la frecuencia de muestreo (eje horizontal en la Figura 3.1-11), entonces se utilizaría la diferencia entre los gaussianos G3 y G4 para filtrar la señal. Debido a la linealidad de la Transformada de Fourier, las respuestas espectrales (gráfica media en la Figura 3.11) pueden manipularse por suma o resta para obtener la respuesta espectral deseada del filtro (gráfica inferior). Esto simplemente se traduce en la misma manipulación en el dominio de la señal (gráfica superior).

    Tres parcelas de filtros gaussianos y dOG

    Todas las curvas se normalizan a un valor de pico de unidad. La gráfica superior muestra los filtros gaussianos trazados contra muestras de datos. Las gráficas medias e inferiores muestran los espectros de potencia de los filtros gaussianos y los filtros DoG (respectivamente), trazados frente a la frecuencia de muestreo.

    Mosaico de fotorreceptores

    Estos conceptos de filtrado se extienden fácilmente a dos dimensiones para su uso con el comportamiento de procesamiento plano de los modelos de sistemas de visión. Para apreciar plenamente la naturaleza del filtro de imagen, es esencial entender que los píxeles no están distribuidos uniformemente en tamaño o tipo. La imagen de entrada proviene de un mosaico fotorreceptor compuesto por conos S, M y L y Varillas.

    La Figura 3.1-12 muestra una gran simplificación del mosaico de fotorreceptores. La región central se llama fóvea y representa una proyección circular de aproximadamente 1 o vista cónica del entorno. En esta región sólo hay dos tipos de fotorreceptores: las células M y L. Dos tipos de cono permiten la discriminación de color en la fóvea, y la falta de celdas bastoncillos permite un alto grado de agudeza espacial. La rápida disminución de la agudeza espacial con excentricidad, o la cantidad de separación del centro, se puede demostrar claramente mirando un libro en una estantería. Manteniendo los ojos fijos, se vuelve difícil leer títulos que todavía están relativamente cerca del punto de fijación.

    La falta de células bastonciformes en la fóvea explica la desaparición de una tenue estrella cuando la miramos directamente. Las celdas de varilla son mucho más sensibles, por lo que responden en condiciones de iluminación tenue durante la noche. Sin embargo, si los conos no son estimulados, no hay discriminación de color ya que una señal fuerte a una frecuencia con respuesta débil es lo mismo que una señal débil a una frecuencia con respuesta fuerte.

    Mosaico tricolor de conos y varillas

    Tres tipos de cono y celdas de varilla se muestran en distribución representativa con excentricidad. La relación L:M es de aproximadamente 2:1 en la fóvea sin celdas bastonciformes, pero en general las células bastoneras superan en número a las celdas cónicas Los tamaños de las celdas cónicas aumentan ligeramente con la excentricidad.

    La Figura 3.1-13 muestra un mapeo representativo de células L y M de fóvea en las vías parvo- (PP) y magnocelular (MP). Las celdas PP son físicamente más pequeñas, pero también llevan información perteneciente a campos receptivos más pequeños. En la figura, las relaciones L y M en el MP se mantienen casi constantes (2:1) para que la única respuesta sea incrementada o disminuida la intensidad (luminancia). Las celdas envolventes PP, sin embargo, están sesgadas hacia la celda no en el centro. En otras palabras, en general, existe una relación 2:1 de células L:M. El campo envolvente en la conexión superior izquierda es 1:1, lo que favorece la contribución de la celda M cuando la celda L es el centro. El otro ejemplo (arriba a la derecha), el surround es puramente L, lo que favorece a L sobre la relación 2:1 cuando M está en el centro. El entorno, por lo tanto, se encuentra a una concentración celular ligeramente diferente que ayuda a favorecer el contraste local entre los dos tipos de cono espectralmente diferentes, permitiendo una agudeza más fuerte en el dominio cromático.

    3.1.4 Modelos de procesamiento de visión de color

    Existen varias formas de designar los tres tipos de cono mostrados por sus respuestas espectrales en la Figura 3.1-2. Algunos investigadores utilizan B, G y R para representar picos azules, verdes y rojos en las curvas de absorción de fotones, aunque los picos no están en esos colores precisos. Otros prefieren usar S, M y L para denotar las respuestas de longitud de onda corta, longitud de onda media y longitud de onda larga, respectivamente. Esta última designación es más apropiada ya que se cambia la notación en el modelo de Boynton para mantener la consistencia entre los tres modelos presentados en las siguientes secciones. Los tres describen canales de luminancia y cromáticos separados de información dentro del procesamiento de visión de color.

    Los puntos rojos y amarillos representan respuestas de longitud de onda media y larga

    “On” y “Off” implican polaridad de la diferencia entre el centro y el envolvente. Las líneas oscuras que conectan los centros celulares representan la conectividad de señal en el área. Cada área (centro o envolvente) está representada por un único valor integrado. Las células MP contrastan campos receptivos concéntricos más grandes, mientras que las células PP contrastan celdas individuales con celdas adyacentes.

    Modelo de Color Guth [Guth91]

    Un modelo propuesto por Guth incluyó luminancia y canales cromáticos, como se muestra en la Figura 3.1-14. La respuesta del canal de luminancia se puede resumir como L+M, mientras que la respuesta del canal cromático puede describirse como L - S. Una variación de este modelo mezcla canales cromáticos y de luminancia con control automático de ganancia en una red neuronal artificial entrenada por datos psicofísicos. El control de ganancia localizada simula las características espacio-temporales de la red celular fotorreceptor-horizontal. Existen numerosos esfuerzos de investigación que han utilizado diversos métodos de emulación de la inhibición lateral para la extracción de características espacio-temporales inherentes a la red celular fotorreceptor-horizontal.

    La primera etapa del modelo Guth es la suma de ruido de receptor simulado enviado a cada cono seguido de un control de ganancia no lineal autoadaptable en estado estacionario. La segunda etapa son combinaciones lineales de señales divididas en dos conjuntos de tres canales cada uno. La tercera etapa es una compresión no lineal de los canales de la segunda etapa. Un conjunto incluye dos canales de oponente y un canal no oponente comprimido para proporcionar discriminaciones visuales y brillo aparente. El otro conjunto incluye tres canales comprimidos para proporcionar las apariencias de luz en términos de blancura, enrojecimiento o verdor, y azulamiento o amarillez [Guth91, Guth96].

    Este modelo ha sido criticado por ser una mala emulación de la estructura retiniana ya que no se prevén proporciones de cono, la naturaleza de las conexiones anatómicas y la estructura de campo receptivo de neuronas ganglionares y geniculadas (LGN). Además, parece ser una red neuronal artificial, sin base fisiológica, que está entrenada para adaptarse a datos psicofísicos [DeV96]. Sin embargo, la división del procesamiento de color en canales de luminancia y color es una parte integral del modelo, y el punto aquí es que varios de estos modelos incluyen arreglos similares de tipos de cono para estos canales de visión.

    Modelo de color de Boynton [Boyn60]

    Un modelo clásico de Boynton también divide las vías de visión del color en luminancia y canales cromáticos. El canal de luminancia en su modelo se describe como L + M. Los canales cromáticos se describen como L - M y (L + M) - S. Señala la similitud en muchos otros. Los canales cromáticos del oponente son conocidos a partir de grabaciones en la capa celular horizontal. Las células horizontales se conectan a los fotorreceptores y realizan mezcla de señales fotorreceptoras espaciales y temporales. Se cree que las células bipolares propagan señales de diferencia en las vías opositoras [Boyn60].

    Modelo a Color de DevLois [DeV88]

    Un modelo posterior propuesto por Devalois (Figura 3.1-14) entra en más detalle al considerar las concentraciones relativas de células en cuenta. Se observa que la concentración de las diversas celdas cónicas es función de la excentricidad, o la distancia desde el centro. En el centro, la foveola, solo hay células L y M en una proporción respectiva de aproximadamente 2:1. Los conos S se hacen más evidentes en la parafovea y regiones más periféricas de la retina. Existe una presunta relación general de células L:M:S de 10:5:1. La respuesta normalizada de un vecindario con estas concentraciones da:

    Dev_lms = 0.625 L + 0.3125 M + 0.0625 S.

    La variable Dev_LMS representa la respuesta de una vecindad típica de fotorreceptores con densidades de población celular representativas. El modelo de color Devalois consta de 4 canales envolventes antagónicos centrales, 3 que representan canales PP y uno que representa un canal MP. Cada uno de los 4 canales existe en dos polaridades para un total de 8 canales. Los 6 canales cromáticos modelan las respuestas de los canales PP como

    PP L = (+/-) (L - Dev_LMS)

    PP M = (+/-) (M - Dev_LMS)

    PP S = (+/-) (S - Dev_LMS)

    mientras que los canales de luminancia modelan las respuestas del canal MP como

    MP = (+/-) ((L + M) - Dev_LMS)

    El concepto general para el modelo de visión de color Guth y Devalois se ilustra en la Figura 3.14.

    Modelo Genérico Color-Opositor

    Los modelos Boynton y Devalois junto con los modelos de Martinez-Uriegas [Mart94] y Chittka [Chittka96] se comparan en la Figura 3.1-15. Todos estos (así como Guth) tienen algún tipo de sinergia de células L y M para codificar luminancia y antagonismo celular para codificar color. (N y W en el modelo Martínez-Uriegas son para áreas de campo receptivas estrechas y amplias. S en los otros modelos son para conos de longitud de onda pequeña). A partir de estos modelos populares, un modelo de color simple podría incluir un campo receptivo central contrastado con su vecindario local. El campo receptivo central se modela como un solo elemento de imagen, o píxel. Las proporciones del píxel central con la vecindad local representan la respuesta color-oponente. Los modelos presentaron diferencias de uso, pero las proporciones están en este modelo genérico. Esto es plausible ya que muchas neuronas responden logarítmicamente con estímulo, y las proporciones se convierten en diferencias después de una transformación logarítmica. Las respuestas reales de las células bipolares se presumen sustractivas, pero pueden considerarse divisivas ya que la resta sigue a la respuesta logarítmica de los fotorreceptores.

    El gráfico compara el modelo de visión de color Guth y el modelo de visión de color Devalois basado en la respuesta LMS

    Estos modelos y otros generalmente incluyen la respuesta aditiva L y M para la luminancia y la respuesta sustractiva L, M o S con la vecindad circundante para el color.

    Tabla comparando varios modelos de color con columnas para canal cromático y canal de luminancia

    Común entre estos modelos es un contraste local entre las respuestas L y M para la información cromática y una amplia integración de las respuestas L y M para la información de intensidad.

    Se cree que las respuestas de los fotorreceptores son logarítmicas, mientras que se cree que las respuestas de las células bipolares son sustractivas. Debido a la naturaleza logarítmica de la respuesta fotorreceptora, la señal de diferencia bipolar refleja realmente una relación de contraste del fotorreceptor con la señal mediada por células horizontales (que es una señal promedio espacio-temporal localizada). Esto se debe a que una transformación logarítmica de la relación reduce una multiplicación a una suma. Por ejemplo, si un detector M responde con un valor de salida de M o y un detector L responde con un valor de salida de L o, entonces el logaritmo de la relación es el mismo que una resta de la celda individual transformada por logaritmo respuestas. Es decir,

    ln (M o/L o) = ln (M o) — ln (L o).

    3.1.5 Extracción de color de la vía parvocelular color-oponente

    La Figura 3.1-13 muestra las vías parvocelulares dentro y fuera de ellas como una diferencia entre una sola célula fotorreceptora en el centro y una vecindad local de unos pocos fotorreceptores adyacentes. En la Figura 3.1-2 se muestra una curva de absorción de fotones representativa para cada receptor (S, M, L y Rod). Si los receptores vecinos se promedian juntos, la respuesta promedio será diferente de la respuesta de la célula central porque en promedio la respuesta del campo central es diferente de la del barrio. Para ilustrar este concepto, considere este ejemplo:

    Ejemplo 3.1, Procesamiento de Opositor Centro-Surround

    Dadas las curvas de respuesta espectral de los fotorreceptores en la Figura 3.1-2 y un estímulo monocromático de intensidad unitaria determinan la salida de un antagonista de entorno central. Supongamos que la entrada envolvente está hecha de una relación de conos de longitud de onda larga (L) a longitud de onda media (M) a longitud de onda corta (S) de L:M:S = 10:5:1. Supongamos que el campo central es solo una celda (L, M o S). Determinar la salida para una célula central de cada tipo de célula (S, M y L) para un estímulo cuya longitud de onda es

    1. 450 nm

    2. 500 nm

    3. 550 nm

    4. 600 nm

    Solución:

    Usando la Figura 3.1-2 necesitamos estimar la respuesta de cada estímulo que se espera de cada uno de los tres tipos celulares. Al observar los valores normalizados a 450 nm, la respuesta del cono S es de aproximadamente 0.6, el cono M de aproximadamente 0.3 y el cono L de aproximadamente 0.1. Las mediciones estimadas se muestran en la Figura 3.1-16. Si la celda central es una celda de cono S, el valor central es 0.6. El vecindario circundante se calcula como un promedio ponderado de las diferentes respuestas. Para L:M:S = 10:5:1 entonces el promedio ponderado sería

    surround =\( \frac{1}{16}(10(0.1)+5(0.3)+(0.6))=\frac{3.1}{16}=0.194 \)

    y la respuesta envolvente central de células S sería

    Celda S: center_response — surround _response = 0.6 — 0.194 = 0.406

    Del mismo modo, a 450 nm,

    Celda M: center_response — surround _response = 0.3 — 0.194 = 0.106

    Celda L: center_response — surround _response = 0.1 — 0.194 = -0.094

    Entonces lo mismo se puede hacer a 500, 550 y 600 nm. La siguiente figura muestra una respuesta medida estimada para los tres tipos de células en cada una de las 4 longitudes de onda:

    Gráfica de cuatro curvas que representan conos largos, medianos y cortos y longitudes de onda de varilla

    Ver Ejemplo 3.1

    Usando el promedio ponderado como antes, el resultado para cada uno de los tres tipos de celdas para cada una de las cuatro longitudes de onda son:

    Longitud de
    onda de estímulo
    Respuesta del oponente de centro envolvente
    Celda S Celda M Célula L
    450 nm 0.41 0.11 -0.09
    500 nm -0.53 0.22 -0.06
    550 nm -0.89 0.07 0.06
    600 nm -0.61 -0.31 0.21

    Al observar los resultados de este ejemplo vemos respuestas positivas en la diagonal hacia adelante y respuestas negativas alejadas de ella. Esto tiene sentido ya que las longitudes de onda de entrada utilizadas para este ejemplo están aumentando incrementalmente al igual que las longitudes de onda de respuesta pico que van de S a M a L celda. Cuando el estímulo de entrada está cerca de la respuesta pico de la célula central, entonces el promedio ponderado de la vecindad local es menor ya que está influenciado por células que no responden tan fuertemente. Por supuesto, este contraste es mucho más significativo en el canal PP que en el canal MP ya que el campo central PP es típicamente una sola celda en lugar de un agregado de celdas en un canal MP típico. El contraste causado por el color es por lo tanto mucho más fuerte en el canal PP que en el canal MP, razón por la cual el color se atribuye al canal PP en la Figura 3.1-8.

    Este ejemplo supone que un objeto emite (o refleja) energía a una sola frecuencia monocromática, pero la mayoría de los objetos naturales emiten una amplia distribución de frecuencias a través del espectro visible. Independientemente de la distribución cromática de frecuencias, el algoritmo da como resultado una única respuesta específica para cada entrada que el procesamiento cerebral superior puede usar para percibir un color específico. La diferencia de color de un objeto contra su fondo se amplifica por este contraste, lo que beneficia a una especie dependiente de la percepción del color para su supervivencia.

    3.1.6 Filtros gaussianos

    Uno de los modelos originales para la capa plexiforme externa (capa de interconexión de células fotorreceptor-horizontal-bipolar) es el filtro Laplaciano-de-Gaussiano (LoG). Para una función gaussiana, G, definida en términos de un radio desde el centro, r, de manera que r 2 = x 2 + y 2 para las coordenadas cartesianas x e y, luego G se define en términos de la varianza, σ, como

    \( G=e^{\frac{-\left(x^{2}+y^{2}\right)}{2 \pi \sigma^{2}}}=e^{\frac{-r^{2}}{2 \pi \sigma^{2}}} \)

    Filtro Gaussiano

    El filtro LoG se define como la segunda derivada de G:

    \( \nabla^{2} G(r)=\frac{-1}{\pi \sigma^{2}}\left(1-\frac{r^{2}}{\pi \sigma^{2}}\right) e^{\frac{-r^{2}}{2 \pi \sigma^{2}}} \)

    Filtro Lapaciano-de-Gaussiano (LoG)

    La diferencia de gaussianos (dG) para dos gaussianos con varianzas σ 1 y σ 2, es

    \( G_{1}-G_{2}=e^{\frac{-r^{2}}{2 \pi \sigma_{1}{ }^{2}}}-e^{\frac{-r^{2}}{2 \pi \sigma_{2}^{2}}} \)

    Filtro de diferencia de Gaussiano (DOG)

    Bajo ciertas condiciones, el filtro DoG puede coincidir muy estrechamente con el filtro LoG [Marr82]. El filtro DoG permite mayor flexibilidad ya que se pueden modificar dos varianzas, por lo que hay dos grados de libertad. El filtro LoG solo usa una varianza, por lo tanto solo un grado de libertad.

    El espectro de un gaussiano es también un gaussiano:

    \( e^{-t^{2} / 2 \sigma^{2}} \Leftrightarrow \sigma \sqrt{2 \pi} e^{-\sigma^{2} \omega^{2} / 2} \)

    Obsérvese que la varianza, σ 2, está en el denominador del exponente en el dominio del tiempo y en el numerador del exponente en el dominio de la frecuencia. Esto se muestra gráficamente en la Figura 3.1-11 ya que los gaussianos amplios (gran varianza) dan como resultado respuestas espectrales agudas, pasando solo frecuencias muy bajas. Los gaussianos estrechos (pequeña varianza) pasan más de las frecuencias bajas y medias. Los límites son un gaussiano de varianza cero, que, cuando se normaliza al área de unidad, se convierte en la función de impulso, y un gaussiano de varianza infinita, que se convierte en una constante. Una función de impulso pasa todas las frecuencias, y una constante solo pasa el componente DC de la señal, que, en el dominio de la frecuencia, se representa como un impulso a ω = 0 (repetido cada 2π incremento de ω debido a la periodicidad de la Transformada de Fourier:

    \(\delta(t) \Leftrightarrow 1 \)Límite gaussiano de varianza cero

    \(1 \Leftrightarrow 2 \pi \delta(t)\)Límite gaussiano de varianza infinita

    3.1.7 Bancos de filtros de ondículas y vías de visión

    Las dos vías de visión primarias son la vía magnocelular (MP) y la vía parvocelular (PP). Cada respuesta neuronal en el MP representa un promedio local sobre un gran campo receptivo. Cada respuesta neuronal en el PP representa el detalle local en un campo receptivo más pequeño. Así, el MP y el PP descomponen la imagen de entrada natural en componentes de promedio local y detalle local, respectivamente.

    Del mismo modo, las imágenes digitales también se pueden descomponer en un conjunto de promedios y otro conjunto de detalles usando el filtrado espejo en cuadratura (QMF). Este método de análisis de imágenes (separación de imágenes en componentes) y síntesis (reconstrucción de imágenes a partir de los componentes) da como resultado una serie de componentes promediados y otra serie de componentes de detalle [Strang96]. QMF es un caso especial de codificación de sub-banda, donde los componentes filtrados representan las mitades de frecuencia inferior y superior del ancho de banda de la señal original. Si los coeficientes de filtro de análisis son simétricos, entonces los componentes de síntesis se reflejan con respecto al valor de media banda, de ahí el término espejo de cuadratura. La estructura de dicho analizador y sintetizador de ondículas se muestra en la Figura 3.1-17. El filtro paso bajo (LPF) y el filtro paso alto (HPF) son similares en funcionalidad al MP y PP en los dominios de tiempo, espacio y color. Una variedad de aplicaciones han surgido de la QMF.

    Modelo estilo diagrama de flujo de filtrado de espejo en cuadratura

    QMF requiere filtros de paso bajo y paso alto cuyos espectros cruzan a un cuarto de la frecuencia de muestreo y se reflejan entre sí en respuesta espectral. Cada LPF y HPF en la ruta de análisis incluye un muestreador descendente, mientras que cada LPF y HPF contiguos en la ruta de síntesis incluye un muestreador ascendente (o interpolador).

    Para ilustrar QMF el siguiente ejemplo y ejercicio descompone una secuencia en sus promedios (después de LPF) y detalles (después de HPF). La secuencia es submuestreada después de cada paso por el LPF; todos los LPF son iguales y todos los HPF son iguales (técnicamente, los filtros de reconstrucción son filtros anexos, pero son los mismos para coeficientes de valor real).

    Para ilustrar QMF el siguiente ejemplo y ejercicio descompone una secuencia en sus promedios (después de LPF) y detalles (después de HPF). La secuencia es submuestreada después de cada paso por el LPF; todos los LPF son iguales y todos los HPF son iguales (técnicamente, los filtros de reconstrucción son filtros anexos, pero son los mismos para coeficientes de valor real).

    Ejemplo 3.2, Análisis y Síntesis de QMF 1D

    1. Usando las ondículas discretas de Harr [0.5 0.5] y [0.5 -0.5] para LPF y HPF respectivamente, muestran cómo descomponer la siguiente secuencia en un valor promedio y un conjunto de valores detallados.

    2. Reconstruir la secuencia original a partir de los componentes calculados para verificar la descomposición correcta.

    3. Comparar la energía de la secuencia original con la energía de los componentes.

    x [n] = {12 16 8 10 10 18 13 17}

    Solución:

    La Figura 3.1-18 muestra la simetría QMF del PSD para el LPF y el HPF dados.

    Gráfica que muestra curvas de respuesta LP y HP

    Figura 3.1-18 Densidad espectral de potencia de Harr LPF y HPF mostrando simetría QMF.

    El eje horizontal es la frecuencia de muestreo. Ver Ejemplo 3.2

    Parte a:

    Ahora filtramos la secuencia de entrada con el LPF y el HPF (y nos detenemos una vez que tenemos el mismo número de valores, descartando así el último valor). Usando el método gráfico de convolución, volteando el LPF (que es simétrico) y pasando por debajo de x [n], tomando producto punto, y cambiando da como resultado

    x [n]: 12 16 8 10 10 18 13 17

    LPF [-n]: 0.5 0.5 = 6

    0.5 0.5 = 14

    0.5 0.5 = 12

    0.5 0.5 = 9

    0.5 0.5 = 10

    0.5 0.5 = 14

    0.5 = 15.5

    0.5 = 15

    El primer resultado de LPF es {6 14 12 9 10 14 15.5 15}

    Los resultados de LPF de muestreo descendente dan {14 9 14 15}, que serán la entrada a la siguiente etapa de LPF.

    De manera similar, utilizando el método gráfico de convolución, volteando el HPF y pasando por debajo de x [n], tomando producto punto, y cambiando da como resultado

    x [n]: 12 16 8 10 10 18 13 17

    HPF [-n]: -0.5 0.5 = 6

    -0.5 0.5 = 2

    -0.5 0.5 = -4

    -0.5 0.5 = 1

    -0.5 0.5 = 0

    -0.5 0.5 = 4

    -0.5 0.5 = -2.5

    -0.5 0.5 = 2

    El primer resultado de HPF es {6 2 -4 1 0 4 -2.5 2}

    Los resultados de HPF de muestreo descendente dan {2 1 4 2}, que se guardarán como componentes detallados.

    Para determinar los resultados de la segunda etapa repetimos el LPF y el HPF en los resultados de LPF muestreados a baja de la primera etapa:

    Resultados de LPF de primera etapa muestreados a la baja: 14 9 14 15

    LPF [-n]: 0.5 0.5 = 7

    0.5 = 11.5

    0.5 = 11.5

    0.5 = 14.5

    El segundo resultado de LPF es {7 11.5 11.5 14.5}

    El muestreo descendente da {11.5 14.5}, que será la entrada a la siguiente etapa LPF.

    Resultados de LPF de primera etapa muestreados a la baja: 14 9 14 15

    HPF [-n]: -0.5 0.5 = 7

    -0.5 0.5 = -2.5

    -0.5 0.5 = 2.5

    -0.5 0.5 =0.5

    El segundo resultado de HPF es {7 -2.5 2.5 0.5}

    El muestreo descendente da {-2.5 0.5}, que se guardará como componentes detallados

    Para determinar los resultados de la tercera etapa repetimos el LPF y HPF en los resultados de LPF muestreados a la baja de la segunda etapa. Los resultados subsiguientes de muestreo descendente en un valor con se guardarán:

    Resultados de LPF de segunda etapa muestreados a la baja: 11.5 14.5

    LPF [-n]: 0.5 0.5 = 5.75

    0.5 0.5 = 13

    El tercer resultado de LPF es {5.75 13}

    El muestreo descendente da el valor 13. Este valor representa el promedio de la secuencia.

    Resultados de LPF de segunda etapa muestreados a la baja: 11.5 14.5

    HPF [-n]: -0.5 0.5 = 5.75

    -0.5 0.5 = 1.5

    El tercer resultado de HPF es {5.75 1.5}

    El muestreo descendente da el valor 1.5, y el análisis es completo.

    Aquí se enumera un resumen de las salidas del filtro, y el valor después del muestreo descendente está subrayado:

    Primer resultado LPF: {6 14 12 9 10 14 15.5 15}

    Primer resultado HPF: {6 2 -4 1 0 4 -2.5 2}

    Segundo resultado de LPF: {7 11.5 11.5 14.5}

    Segundo resultado HPF: {7 -2.5 2.5 0.5}

    Tercer resultado LPF: {5.75 13}

    Tercer resultado HPF: {5.75 1.5}

    Los componentes QMF en x [n] son los resultados de HPF muestreados a la baja y el promedio final, que es la secuencia {2 1 4 2 -2.5 0.5 1.5 13}, donde el último valor es el promedio de secuencia.

    Parte b:

    Para los efectos de este texto, que es ilustrar la reconstrucción a partir de los componentes, simplemente restaremos el detalle del promedio y luego agregaremos el detalle a la media para mostrar que la secuencia original puede ser reconstruida. El detalle final, 1.5 se restará del promedio final, 13, para dar 11.5, y luego se sumarán los mismos dos valores para dar 14.5:

    Reconstruyendo la segunda etapa: {(13-1.5) (13+1.5)}

    = {11.5 14.5}

    Luego se utilizará el detalle muestreado a la baja de la segunda etapa, la secuencia {-2.5 0.5} para restar y sumar a la segunda etapa valores promedio recién determinados anteriormente:

    Reconstruyendo la primera etapa: {(11.5- (-2.5)) (11.5+ (-2.5)) (14.5-0.5) (14.5+0.5)}

    = {14 9 14 15}

    y la secuencia original determinada a partir de esos valores menos luego más los detalles de la primera etapa muestreados a la baja:

    x [n] = {14-2 14+2 9-1 9+1 14-4 14+4 15-2 15+2}

    = {12 16 8 10 10 18 13 17}

    Parte c:

    Uno de los beneficios de la descomposición es la gran reducción en la energía de la señal. La energía total es la suma del cuadrado de cada uno de los componentes, lo que da como resultado

    Potencia en x [n]: 12 2 + 16 2 + 8 2 + 10 2 + 10 2 + 18 2 +13 2 + 17 2 = 1446

    Energía en componentes QMF de x [n]: 2 2 + 1 2 + 4 2 + 2 + (-2.5) 2 + 0.5 2 + 1.5 2 + 13 2 = 202.8

    A medida que las secuencias se hacen más grandes y las señales se vuelven multidimensionales (como imágenes o secuencias de imágenes) la comparación puede ser mucho más dramática (órdenes de magnitud).

    Ejercicio 3.1, Análisis y Síntesis de QMF 1D

    Usando las ondículas discretas de Harr [0.5 0.5] y [0.5 -0.5] para LPF y HPF respectivamente, muestran cómo descomponer la siguiente secuencia en un valor promedio y un conjunto de valores detallados.

    x [n] = {2 22 4 12 0 16 0 4}

    Respuesta: QMF Componentes de x [n]: {10 4 8 2 -2 -3 -2.5 7.5},
    donde el último valor es el promedio de secuencia.

    Por lo tanto, las vías de visión (MP y PP) y los bancos de filtros QMF dividen la señal de imagen de entrada en componentes de alta y baja frecuencia. El MP y el PP se incrementan aún más por la vía del sistema de barras. Las células de bastón están altamente interconectadas y aunque las varillas en sí mismas están básicamente saturadas en condiciones de luz diurna; las células bipolares de bastón están mediadas por células El efecto general es un filtro espacial de paso bajo de la imagen de mosaico.

    Un modelo del filtro del sistema de barras de baja frecuencia se puede combinar con un modelo del PP para crear un par de filtros cuya respuesta espectral cruza a un cuarto de la frecuencia de muestreo, o la mitad de la frecuencia limitada de Nyquist. Un par cuidadosamente elegido puede dar un parecido sorprendente con los pares de filtros típicos elegidos para aplicaciones QMF. Un modelo del MP puede ser sustituido por el filtro de baja frecuencia, pero la respuesta espectral disminuirá con frecuencias muy bajas.

    3.1.8 Codificación Gruesa y Uso Eficiente de Funciones Fundamentales

    Los sistemas de visión natural procesan la información en los dominios del espacio, el tiempo y el color. En cada uno de estos dominios encontramos filtros que suelen ser pocos y relativamente gruesos en ancho de banda. Básicamente, solo hay cuatro tipos de detectores cromáticos, tres canales temporales y tres canales espaciales. Las respuestas de estos elementos deben ser de amplio alcance para cubrir su porción del espacio de datos. Por ejemplo, en condiciones diurnas solo tres tipos de detectores tienen respuestas variables. Como mínimo, cada tipo debe cubrir un tercio del espectro visible.

    La codificación gruesa se asemeja a las aplicaciones ondículas más comunes tipificadas por filtros complementarios de paso bajo y paso alto gruesos. La capacidad de reconstrucción de señal QMF es una demostración práctica de extraer detalles espectrales específicos de solo dos filtros de banda ancha. Un corolario interesante de esta línea de investigación es que el comportamiento de tales aplicaciones sintéticas puede conducir a una comprensión más profunda de los fenómenos naturales de procesamiento de información.

    3.1.9 No ortogonalidad e incompletitud en el procesamiento de la visión

    Los conjuntos de ondículas se pueden subdividir en categorías ortogonales o no ortogonales y completas o no completas. Un conjunto de funciones es ortogonal si el producto interno de cualquiera de dos funciones diferentes es cero, y completo si ninguna función distinta de cero en el espacio es ortogonal a cada vector en el conjunto. La ortogonalidad proporciona comodidad computacional para aplicaciones de análisis y síntesis de señales. La integridad asegura la existencia de una representación en serie de cada función dentro del espacio dado. La ortogonalidad y la integridad son propiedades deseadas para bases de ondículas en aplicaciones de compresión.

    Sin embargo, los sistemas biológicos no están preocupados por el almacenamiento de información para una reconstrucción perfecta. Cualquier aplicación de visión artificial que requiera tomar alguna acción basada en la comprensión del contenido de la imagen también se ajustará a esta descripción general. De hecho, muchos procesos biológicos pueden ser modelados por conjuntos de funciones que no son ortogonales [Daug88]. La tarea es procesar la información para tomar alguna acción, no procesar la información para su posterior reconstrucción. El uso de filtros no ortogonales conduce a una redundancia de información para cubrir el lapso de información. La redundancia de los filtros de visión se equilibra con la necesidad de eficiencia, simplicidad y robustez. La redundancia de información da como resultado hardware e interconexiones innecesarias, pero a menudo se puede requerir redundancia para abarcar suficientemente el espacio de información inherente al entorno. El costo de soportar la redundancia puede ser menos significativo que el beneficio de usar elementos de procesamiento más simples que se degradan con gracia. Dado que existe una cercanía entre los filtros basados en gaussianos y los filtros más matemáticamente elegantes (como los Laplacianos) hay una buena retención de información pertinente (aunque no perfecta).


    This page titled 3.1: Sistemas fotosensoriales naturales is shared under a CC BY-NC-SA 4.0 license and was authored, remixed, and/or curated by Geoffrey Brooks (Florida State Open Publishing) via source content that was edited to the style and standards of the LibreTexts platform; a detailed edit history is available upon request.