7.5: Categorías de implementación

Última actualización
Guardar como PDF

Page ID: 98028

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

$ \newcommand{\id}{\mathrm{id}}$ $ \newcommand{\Span}{\mathrm{span}}$

( \newcommand{\kernel}{\mathrm{null}\,}\) $ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$ $ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$ $ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\id}{\mathrm{id}}$

$ \newcommand{\Span}{\mathrm{span}}$

$ \newcommand{\kernel}{\mathrm{null}\,}$

$ \newcommand{\range}{\mathrm{range}\,}$

$ \newcommand{\RealPart}{\mathrm{Re}}$

$ \newcommand{\ImaginaryPart}{\mathrm{Im}}$

$ \newcommand{\Argument}{\mathrm{Arg}}$

$ \newcommand{\norm}[1]{\| #1 \|}$

$ \newcommand{\inner}[2]{\langle #1, #2 \rangle}$

$ \newcommand{\Span}{\mathrm{span}}$ $ \newcommand{\AA}{\unicode[.8,0]{x212B}}$

$ \newcommand{\vectorA}[1]{\vec{#1}} % arrow$

$ \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow$

$ \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vectorC}[1]{\textbf{#1}} $

$ \newcommand{\vectorD}[1]{\overrightarrow{#1}} $

$ \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} $

$ \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} $

$ \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } $

$ \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} $

Las categorías son constructos conceptuales que utilizamos de una manera mayormente invisible cuando hablamos o pensamos en ellas. Cuando organizamos nuestras cocinas, armarios o archivadores usando estantes, cajones y carpetas, estas ubicaciones físicas y contenedores son implementaciones visibles de nuestro sistema de categorías personales, pero no son las categorías. Esta distinción entre diseño e implementación de categorías es obvia cuando seguimos señales y etiquetas en bibliotecas o tiendas de abarrotes para encontrar cosas, buscar un catálogo de productos o directorio de personal de la empresa, o analizar un conjunto de datos económicos ensamblados por el gobierno a partir de formularios de impuestos sobre la renta. Estas categorías institucionales fueron diseñadas por personas previas a la asignación de recursos a ellas.

Esta separación entre la creación de categorías y la implementación de categorías nos impulsa a preguntarnos cómo se puede implementar un sistema de categorías. No discutiremos la implementación de categorías en el sentido literal de construir sistemas físicos o de software que organicen los recursos. En cambio, tomaremos una perspectiva de nivel superior que analice el problema de implementación a resolver para los diferentes tipos de categorías discutidas en “Principios para la creación de categorías”, para luego explicar la lógica seguida para asignarles recursos correctamente.

Implementación de Categorías Enumeradas

Las categorías definidas por enumeración son fáciles de implementar. Los miembros o valores legales en un conjunto definen la categoría, y probar un ítem para ser miembro significa buscarlo en el conjunto. Las definiciones de categoría enumeradas son familiares en los menús desplegables y en el llenado de formularios. Te desplazas por una lista de todos los países del mundo para buscar el que deseas en una dirección de envío, y lo que sea que selecciones será un nombre de país válido, porque la lista se fija hasta que nazca un nuevo país. Las categorías enumeradas también se pueden implementar con matrices asociativas (también conocidas como tablas hash o diccionarios). Con estas estructuras de datos, una prueba de pertenencia a conjuntos es incluso más eficiente que la búsqueda, ya que toma el mismo tiempo para conjuntos de cualquier tamaño (ver “Tipos de estructuras”).

Implementación de Categorías Definidas por Propiedades

La implementación más conceptualmente simple y directa de categorías definidas por propiedades adopta la visión clásica de categorías basadas en características necesarias y suficientes. Debido a que tales categorías son prescriptivas con límites explícitos y claros, clasificar los ítems en las categorías es objetiva y determinista, y apoya una noción bien definida de validación para determinar inequívocamente si alguna instancia es miembro de la categoría. Los artículos se clasifican probándolos para determinar si tienen las propiedades y valores de propiedad requeridos. Las pruebas se pueden expresar como reglas:

Si la instancia X tiene propiedad P, entonces X está en la categoría Y.
Si un préstamo hipotecario para vivienda en San Francisco supera los $625,000, entonces es clasificado como un préstamo “jumbo” por la Oficina Federal de Supervisión de Vivienda de Estados Unidos.
Para que un número se clasifique como primo debe cumplir dos reglas: Debe ser mayor que 1, y no tener divisores positivos que no sean 1 y sí mismo.

Esto no significa que la prueba de propiedad sea siempre fácil; la validación puede requerir equipos o cálculos especiales, y las pruebas para la propiedad pueden diferir en su costo o eficiencia. Pero dados los resultados de las pruebas, la respuesta es inequívoca. El artículo es miembro de la categoría o no lo es. ^[1]

Un sistema de categorías jerárquicas se define por una secuencia de pruebas de propiedad en un orden particular. La forma más natural de implementar sistemas de categorías multinivel es con árboles de decisión. Un árbol de decisión simple es un algoritmo para determinar una decisión mediante la toma de una secuencia de pruebas lógicas o de propiedad. Supongamos que un banco utilizó un enfoque secuencial basado en reglas para decidir si darle a alguien un préstamo hipotecario.

Si el ingreso anual de un solicitante supera los $100,000, y si el pago mensual del préstamo es inferior al 25% del ingreso mensual, apruebe la solicitud de hipoteca.
De lo contrario, denegar la solicitud de préstamo.

Este simple árbol de decisiones se representa en la Figura: Árbol de decisiones basado en reglas. Las reglas utilizadas por el banco para clasificar las solicitudes de préstamo como “Aprobadas” o “Denegadas” tienen una representación clara en el árbol. La fácil interpretación de los árboles de decisión los convierte en un formalismo común para implementar modelos de clasificación.

Árbol de decisiones basado en reglas

El diagrama de flujo muestra los puntos de decisión. Denegar préstamo si los ingresos son inferiores a $100k; de lo contrario, denegar si el pago del préstamo es superior al 25% del ingreso mensual; de lo contrario

En este simple árbol de decisiones, una secuencia de dos pruebas para el ingreso anual del prestatario y el porcentaje de ingresos mensuales requeridos para realizar el pago del préstamo clasifican a los aspirantes en las categorías “denegar” y “aprobar”.

Sin embargo, cualquier implementación de una categoría solo es interpretable en la medida en que se puedan entender las propiedades y pruebas que utiliza en su definición e implementación. Debido a que el lenguaje natural es intrínsecamente ambiguo, no es el formato de representación óptimo para categorías institucionales formalmente definidas. Las categorías definidas usando lenguaje natural pueden ser incompletas, inconsistentes o ambiguas porque las palabras a menudo tienen múltiples significados. Esta implementación del procedimiento del banco para evaluar los préstamos sería difícil de interpretar de manera confiable:

Si el solicitante es rico, y luego si el pago mensual es una cantidad que el solicitante puede reembolsar fácilmente, entonces el solicitante es aprobado.

Para garantizar su interpretabilidad, los árboles de decisión a veces se especifican utilizando los vocabularios controlados y la sintaxis restringida de los sistemas de “escritura simplificada” o “regla de negocio”.

Los lenguajes artificiales son una forma más ambiciosa de permitir una especificación precisa de categorías basadas en propiedades. Un lenguaje artificial expresa ideas de manera concisa introduciendo nuevos términos o símbolos que representan ideas complejas junto con mecanismos sintácticos para combinarlas y operarlas. Notación matemática, lenguajes de programación, lenguajes de esquemas que definen instancias de documentos válidos (consulte “Especificación de Vocabularios y Esquemas”) y expresiones regulares que definen patrones de búsqueda y selección (consulte “Control de Valores”) son ejemplos familiares de lenguajes artificiales. Ciertamente es más fácil explicar y entender el Teorema de Pitágoras cuando se expresa eficientemente como “H ² = A ² + B ²” que con una expresión de lenguaje natural más detallada: “En todos los triángulos con un ángulo tal que los lados que forman el ángulo son perpendiculares, el producto de la longitud del lado opuesto al ángulo tal que los lados que forman el ángulo son perpendiculares consigo mismo es igual a la suma de los productos de las longitudes de los otros dos lados, cada uno consigo mismo. ” ^[2]

Los lenguajes artificiales para definir categorías tienen una larga historia en filosofía y ciencia. (Ver la barra lateral, Lenguajes artificiales para Descripción y Clasificación). No obstante, la gran mayoría de los sistemas de categorías institucionales siguen siendo especificados con lenguaje natural, a pesar de sus ambigüedades porque las personas suelen entender las lenguas que aprendieron naturalmente mejor que las artificiales. En ocasiones esto es incluso intencional para permitir que las categorías institucionales plasmadas en las leyes evolucionen en los tribunales y se acomoden a los avances tecnológicos ^[3]

John Wilkins fue uno de los fundadores de la British Royal Society. En 1668 publicó Un ensayo hacia un personaje real y un lenguaje filosófico en el que propuso un lenguaje artificial para describir una taxonomía universal del conocimiento que utilizaba la composición de símbolos para especificar una ubicación en la jerarquía de categorías. Hubo cuarenta categorías de género de nivel superior, las cuales se subdividieron en diferencias dentro del género, las cuales luego se subdividieron en especies. Cada género fue monosilable de dos letras; cada diferencia agregó una consonante y cada especie agregó una vocal.

Este lenguaje artificial transmite el significado de categorías directamente a partir de la composición del nombre de categoría. Por ejemplo, zi indica el género de las bestias, el zit sería “bestias rapaces del tipo perro” mientras que zid sería “bestia de patas hendidas. ” Agregar para el cuarto carácter una a para especies, indicando la segunda especie en la diferencia, daría zita para perro y zida para oveja.

En El lenguaje analítico de John Wilkins, Jorge Luis Borges señala que Wilkins tiene muchas “ambigüedades, despidos y deficiencias” en el lenguaje y presenta como florete y parodia un imaginado “Imperio Celestial de Benevolencia Conocimientos. ”

En sus páginas remotas se escribe que los animales se dividen en: (a) pertenecientes al emperador, (b) embalsamados, (c) domesticados, (d) cerdos chupadores, (e) sirenas, (f) fabulosos, (g) perros callejeros, (h) incluidos en la clasificación actual, (i) frenéticos, (j) innumerables, (k) dibujados con un pincel de pelo de camello muy fino, (l) et cetera, (m) acabando de romper la jarra de agua, (n) que desde muy lejos parecen moscas.

Borges felicita a Wilkins por inventar nombres que podrían significar en sí mismos algún significado para quienes conocen el sistema, pero señala que “está claro que no hay clasificación del Universo no siendo arbitraria y llena de conjeturas. ” ^[4]

Los esquemas de datos que especifican entidades de datos, elementos, identificadores, atributos y relaciones en bases de datos y “Dominio de recursos”) son implementaciones de las categorías necesarias para el diseño, desarrollo y mantenimiento de sistemas de organización de la información. Los esquemas de datos tienden a definir rígidamente las categorías de recursos. ^[5]

En lenguajes de programación orientados a objetos, las clases son esquemas que sirven como plantillas para la creación de objetos. Una clase en un lenguaje de programación es análoga a un esquema de base de datos que especifica la estructura de sus instancias miembros, en que la definición de clase especifica cómo se construyen las instancias de la clase en términos de tipos de datos y posibles valores. Las clases de programación también pueden especificar si se puede acceder a los datos de un objeto miembro y, de ser así, cómo. ^[6]

A diferencia de los tipos de documentos transaccionales, que pueden definirse prescriptivamente como categorías clásicas porque a menudo son producidos y consumidos por procesos automatizados, los tipos de documentos narrativos suelen ser de carácter descriptivo. No clasificamos algo como novela porque tiene algún conjunto específico de propiedades y tipos de contenido. En cambio, tenemos una noción de novelas típicas y sus propiedades características, y algunas cosas que se consideran novelas distan mucho de ser típicas en su estructura y contenido. ^[7]

Sin embargo, categorías como los tipos de documentos narrativos a veces se pueden implementar usando esquemas de documentos que imponen solo algunas restricciones a la estructura y el contenido. Un esquema para una orden de compra es altamente prescriptivo; utiliza expresiones regulares, contenido fuertemente escrito de datos y listas de códigos enumerados para validar el valor de los elementos requeridos que deben ocurrir en un orden particular. En contraste, un esquema para un tipo de documento narrativo tendría mucha opcionalidad, sería flexible sobre el orden, y esperaría solo texto en sus secciones, párrafos y encabezamientos. Incluso los esquemas de documentos muy laxos pueden ser útiles para hacer que la administración de contenido, la reutilización y el formateo sean más eficientes.

Implementación de categorías definidas por probabilidad y similitud

Muchas categorías no pueden definirse en términos de propiedades requeridas, y en su lugar deben definirse probabilísticamente, donde la pertenencia a categorías está determinada por propiedades que los recursos probablemente compartan. Considera la categoría “amigo. ” Probablemente consideres que muchas personas son tus amigos, pero tienes amigos de toda la vida, amigos de la escuela, amigos del lugar de trabajo, amigos que solo ves en el gimnasio y amigos de tus padres. Cada uno de estos tipos de amigos representa un cúmulo diferente de propiedades comunes. Si te describen a alguien como un posible amigo o cita, ¿con qué precisión puedes predecir que la persona se convertirá en amiga? (Ver la barra lateral, Encontrar amigos y fechas: Categorías de lecciones para aprender)

Online dating or casamentero sites use many of the same features to describe a las personas, pero también tienen características adicionales para hacer coincidencias más precisas para sus usuarios objetivo. A medida que crece el número de entidades, hay exponencialmente más combinaciones de propiedades compartidas. Por ejemplo, el sitio de emparejamiento eHarmony emplea 29 “Dimensiones de compatibilidad” y más de 200 preguntas para crear un perfil de usuario. Incluso si las 29 dimensiones fueran booleanas (¿te describirías a ti mismo como x?) esto produce 2 ²⁹ o más de 500,000,000 combinaciones diferentes. El uso de estas complejas descripciones de recursos para predecir la probabilidad de una buena coincidencia requiere que los sitios de emparejamiento utilicen algoritmos de aprendizaje automático patentados para proponer coincidencias, que se clasifican con medidas y precisión inexplicables (¿qué significa una coincidencia del 80%?). No es sorprendente que muchas personas que prueben las citas en línea se rindan después de menos éxito del que esperaban.

Con una cantidad tan grande de características en los perfiles de usuario, cualquier algoritmo de coincidencia confronta lo que el aprendizaje automático llama la maldición de la dimensionalidad. Con datos de alta dimensión, nunca puede haber suficientes instancias para aprender qué características son realmente las más importantes. Ni tú ni el online dating algorithm will ever meet enough different kinds of people to predict confiablemente the result of a possible match.

Pero no todo es desesperanza. Los programas de aprendizaje automático atacan la maldición de la dimensionalidad utilizando técnicas estadísticas que utilizan correlaciones entre características para combinarlas o ajustar los pesos dados a las entidades para reflejar su valor en la realización de predicciones o clasificaciones. Por ejemplo, OkCupid pide a las personas que califiquen cuánta importancia asignan a las preguntas coincidentes. Quizás prefieras los gatos a los perros, y quizás nunca consideres salir con un amante de los perros o puede que no te importe en absoluto.

Otra forma de reducir el número de características necesarias para clasificar con precisión es reducir el alcance de la categoría que se está aprendiendo. El modelo de emparejamiento para sitios que se dirigen a personas con profesiones, religiones o puntos de vista políticos particulares sería menos complejo que el de eHarmony, porque el primero tendrá menos características relevantes y, por lo tanto, menos correlaciones aleatorias y ruido que socavarán su precisión. Siendo iguales todas las demás cosas, cuanto menor sea la variabilidad en un conjunto de ejemplos, mejor funcionará un modelo que aprenda de esos datos.

Las categorías probabilísticas pueden ser desafiantes de definir y usar porque puede ser difícil tener en cuenta las complejas correlaciones de características y probabilidades que exhiben diferentes clústeres de instancias de algún dominio. Además, cuando la categoría que se aprende es amplia con un gran número de miembros, la muestra de la que aprendes da forma fuertemente a lo que aprendes. Por ejemplo, las personas que crecen en zonas urbanas de alta densidad y diversas pueden tener ideas menos predecibles de cómo es una fecha potencial aceptable que alguien en una zona rural remota con una población más homogénea.

De manera más general, si estás organizando un dominio donde los recursos están activos, cambian su estado, o son medidas de propiedades que varían y co-ocurren probabilísticamente, la muestra que elijas afecta fuertemente la precisión de los modelos para clasificación o predicción. En La señal y el ruido, el estadístico Nate Silver explica cuántas predicciones notables fallaron debido a las malas técnicas de muestreo. Un error común de muestreo es usar una ventana histórica demasiado corta para ensamblar el conjunto de datos de capacitación; esto suele ser el corolario de un segundo error, una dependencia excesiva de datos recientes porque está más disponible. Por ejemplo, el colapso de los precios de la vivienda y la crisis financiera resultante de 2008 se pueden explicar en parte porque los modelos que utilizaron los prestamistas para predecir las ejecuciones hipotecarias se basaron en datos de 1980-2005, cuando los precios de las viviendas tendían a crecer al alza. En consecuencia, cuando las ejecuciones hipotecarias aumentaron rápidamente, los resultados estaban “fuera de muestra” e inicialmente fueron malinterpretados, retrasando las respuestas a la crisis.

Muestras de dominios dinámicos y probabilísticos dan como resultado modelos que capturan esta variabilidad. Desafortunadamente, debido a que muchos pronosticadores quieren parecer autoritarios, y muchas personas no entienden la probabilidad, las clasificaciones o predicciones que son inherentemente imprecisas a menudo se presentan con certeza y exactitud a pesar de que son probabilísticas con una gama de resultados. Silver cuenta la historia de una desastrosa inundación de 1997 causada cuando el Río Rojo coronó a 54 pies cuando los diques que protegían el pueblo de Grand Forks estaban a 51 pies. El servicio meteorológico había pronosticado una cresta entre 40 y 58 pies, pero enfatizó el punto medio del rango, que era de 49 pies. Desafortunadamente, la mayoría de la gente interpretó esta predicción probabilística como si se tratara de una clasificación binaria, “inundación” versus “no inundación”, ignoró el rango del pronóstico, y no logró prepararse para una inundación que tenía aproximadamente un 35% de probabilidad de ocurrir. ^[8]

Árboles de decisión probabilística

En “Implementación de Categorías Definidas por Propiedades”, mostramos cómo un árbol de decisiones basado en reglas podría ser utilizado para implementar una estricta clasificación basada en propiedades en la que un banco utiliza pruebas para las propiedades de “ingreso anual” y “pago mensual de préstamo” para clasificar a los solicitantes como aprobados o denegada. Podemos adaptar ese ejemplo para ilustrar árboles de decisión probabilísticos, que son más adecuados para implementar categorías en las que la pertenencia a categorías es probabilística en lugar de absoluta.

Los bancos que son más flexibles en cuanto a hacer préstamos pueden ser más rentables porque pueden hacer préstamos a personas que un banco más estricto rechazaría pero que aún pueden hacer pagos de préstamos. En lugar de imponer límites conservadores y fijos en los ingresos y pagos mensuales, estos bancos consideran más propiedades y miran las aplicaciones de una manera más probabilística. Estos bancos reconocen que no todos los solicitantes de préstamo que probablemente reembolsen el préstamo se ven exactamente iguales; los “ingresos anuales” y el “pago mensual del préstamo” siguen siendo propiedades importantes, pero otros factores también pueden ser predictores útiles, y hay más de una configuración de valores que un solicitante podría satisfacer para ser aprobado para un préstamo.

¿Qué propiedades de los aspirantes predicen mejor si pagarán el préstamo o impago? Una propiedad que predice cada uno al 50% no es útil porque el banco también podría voltear una moneda, pero una propiedad que divide a los solicitantes en dos conjuntos, cada uno con probabilidades muy diferentes de reembolso e impago, es muy útil para tomar una decisión de préstamo.

Un banco basado en datos se basa en datos históricos sobre el reembolso de préstamos y los incumplimientos para entrenar algoritmos que crean árboles de decisión dividiendo repetidamente a los solicitantes en subconjuntos que son más diferentes en sus predicciones. Se aprobarían subconjuntos de solicitantes con alta probabilidad de reembolso, y a aquellos con alta probabilidad de incumplimiento se les negaría un préstamo. Un método para seleccionar la prueba de propiedad para hacer cada división es calcular la “ganancia de información” (ver la barra lateral Uso de “Teoría de la información” para cuantificar la organización). Esta medida captura el grado en que cada subconjunto contiene un grupo “puro” en el que cada solicitante es clasificado igual, como probables repayers o probables morosos.

Por ejemplo, considere el gráfico en la Figura: Datos históricos: Reembolso de Préstamo Basado en Tasa de Interés que es una representación simplificada de los datos históricos del banco sobre incumplimientos de préstamos con base en la tasa de interés inicial. El gráfico representa los préstamos que se pagaron con “o” y los que incumplieron con “x”. ¿Hay una tasa de interés que los divida en conjuntos “puros”, uno que contenga sólo préstamos “o” y el otro que contenga sólo “x” préstamos?

Datos Históricos: Reintegro de Préstamo Basado en Tasa de Interés

Gráfico de diagrama de dispersión.

El símbolo “o” representa los préstamos que fueron pagados por el prestatario; “x” representa los préstamos en los que el prestatario incumplió. Una tasa del 6% (línea vertical más oscura) mejor divide los préstamos en subconjuntos que difieren en el resultado del pago.

Se puede ver que ninguna tasa de interés los divide en conjuntos puros. Entonces lo mejor que se puede hacer es encontrar la tasa de interés que los divide para que las proporciones de morosos sean más diferentes a cada lado de la línea. ^[9]

Esta línea divisoria a la tasa de interés del 6% mejor divide a quienes incumplieron de los que pagaron su préstamo. La mayoría de las personas que tomaron prestado al 6% o más pagaron el préstamo, mientras que las que tomaron préstamos a una tasa más baja tenían más probabilidades de impago. Esto puede parecer contrario a la intuición hasta que se entere de que los préstamos con tasas de interés más bajas tenían tasas ajustables que aumentaron después de algunos años, lo que provocó que los pagos mensuales aumentaran sustancialmente. Los prestatarios más prudentes estaban dispuestos a pagar tasas de interés más altas que se fijaban en lugar de ajustables para evitar aumentos radicales en sus pagos mensuales.

Árbol de decisiones probabilísticas

Diagrama de flujo. Denegar préstamo si el ingreso anual es inferior a $82k; denegar préstamo si el pago del préstamo es superior al 27% del ingreso mensual; denegar préstamo si tasa de interés inferior al 6%; de lo contrario aprobar préstamo.

En este árbol de decisiones probabilístico, la secuencia de pruebas de propiedad y los valores umbral en cada prueba dividen a los solicitantes de préstamo en categorías que difieren en la probabilidad de que sean de reembolsar el préstamo.

Este cálculo se realiza para cada uno de los atributos del conjunto de datos históricos para identificar el que mejor divide a los aspirantes en las categorías reembolsados y morosos. Los atributos y el valor que define la regla de decisión se pueden ordenar entonces para crear un árbol de decisión similar al basado en reglas que vimos en “Implementación de Categorías Definidas por Propiedades”. En nuestro caso hipotético, resulta que el mejor orden para probar los inmuebles es Ingresos, Pago Mensual y Tasa de Interés, como se muestra en la Figura: Árbol de Decisiones Probabilísticas. El resultado final sigue siendo un conjunto de reglas, pero detrás de cada decisión en el árbol hay probabilidades basadas en datos históricos que pueden predecir con mayor precisión si un solicitante pagará o fallará. Así, en lugar de los cortes arbitrarios de 100.000 dólares en ingresos y 25% para el pago mensual, el banco puede ofrecer préstamos a personas con menores ingresos y seguir siendo rentables haciéndolo, porque sabe por datos históricos que $82,000 y 27% son los puntos de decisión óptimos. Usar la tasa de interés en su proceso de decisión es una prueba adicional para garantizar que las personas puedan permitirse hacer pagos de préstamos incluso si las tasas de interés suben. ^[10]

Debido a que los árboles de decisión especifican una secuencia de reglas que hacen que las pruebas de propiedad, son altamente interpretables, lo que los convierte en una opción muy popular para los científicos de datos que construyen modelos mucho más complejos que el simple ejemplo de préstamo aquí. Pero asumen que cada clase es una conjunción de todas las propiedades utilizadas para definirlas. Esto los hace susceptibles al sobreajuste porque si crecen muy profundo con muchas conjunciones de propiedades, capturan exactamente las propiedades que describen a cada miembro del conjunto de entrenamiento, memorizando efectivamente los datos de entrenamiento. Es decir, capturan tanto lo que generalmente es cierto más allá del set como lo que es particular del conjunto de entrenamiento solamente, cuando el objetivo es construir un modelo que capture sólo lo que generalmente es cierto. El sobreajuste en los árboles de decisión se puede prevenir podando el árbol después de que haya clasificado perfectamente el conjunto de entrenamiento, o limitando la profundidad del árbol por adelantado, esencialmente pre-podarlo.

Clasificadores Bayes Naïve

Otro enfoque comúnmente utilizado para implementar un clasificador para categorías probabilísticas se llama Naïve Bayes. Emplea el Teorema de Bayes para aprender la importancia de una propiedad particular para la clasificación correcta. Hay algunas ideas de sentido común que se plasman en el teorema de Bayes:

Cuando tienes una hipótesis o creencia previa sobre la relación entre una propiedad y una clasificación, nuevas evidencias consistentes con esa creencia deberían aumentar tu confianza.
La evidencia contradictoria debería reducir la confianza en tu creencia.
Si la tasa base para algún tipo de evento es baja, no olvide que cuando realice una predicción o clasificación para una nueva instancia específica. Es fácil estar demasiado influenciado por la información reciente.

Ahora podemos traducir estas ideas en cálculos sobre cómo se lleva a cabo el aprendizaje. Para la propiedad A y la clasificación B, el Teorema de Bayes dice:

P (A | B) = P (B|A) P (A)/P (B)

El lado izquierdo de la ecuación, P (A | B), es lo que queremos estimar pero no podemos medir directamente: la probabilidad de que A sea la clasificación correcta para un ítem u observación que tenga propiedad B. Esto se denomina probabilidad condicional o posterior porque se estima después de ver la evidencia de propiedad B.

P (B | A) es la probabilidad de que cualquier ítem correctamente clasificado como A tenga la propiedad B. Esto se llama la función de verosimilitud.

P (A) y P (B) son las probabilidades independientes o previas de A y B; ¿qué proporción de los ítems se clasifican como A? ¿Con qué frecuencia ocurre la propiedad B en algún conjunto de artículos?

Su biblioteca personal contiene 60% libros de ficción y 40% de no ficción. Todos los libros de ficción están en formato ebook, y la mitad de los libros de no ficción son libros electrónicos y la mitad están en formato impreso. Si eliges un libro al azar y está en formato ebook, ¿cuál es la probabilidad de que sea de no ficción?

El teorema de Bayes nos dice que:

P (no ficción | libro electrónico) = P (ebook |no ficción) x P (no ficción)/P (libro electrónico).

Sabemos: P (ebook | no ficción) = .5 y P (no ficción) = .4

Calculamos P (ebook) usando la ley de probabilidad total para calcular la probabilidad combinada de todas las formas independientes en las que un ebook podría ser muestreado. En este ejemplo hay dos formas:

P (ebook) = P (ebook | no ficción) x P (no ficción)
+ P (ebook | ficción) x P (ficción)
= (.5 x .4) + (1 x .6) = .8

Por lo tanto: P (no ficción | ebook) = (.5 x .4)/.8 = .25

Ahora vamos a aplicar el Teorema de Bayes para implementar el filtrado de correo no deseado. Los mensajes se clasifican como SPAM o HAM (es decir, Non-SPAM); los primeros se envían a una carpeta SPAM, mientras que los segundos se dirigen a su bandeja de entrada.

Seleccione Propiedades. Comenzamos con un conjunto de propiedades, algunas de los metadatos del mensaje como la dirección de correo electrónico del remitente o el número de destinatarios, y algunas del contenido del mensaje. Cada palabra que aparece en los mensajes puede tratarse como una propiedad separada ^[11]
Ensamblar Datos de Capacitación. Ensamblamos un conjunto de mensajes de correo electrónico que han sido asignados correctamente a las categorías SPAM y HAM. Estas instancias etiquetadas conforman el conjunto de entrenamiento.
Analizar los Datos de Capacitación. Para cada mensaje, ¿contiene una propiedad en particular? Para cada mensaje, ¿se clasifica como SPAM? Si un mensaje se clasifica como SPAM, ¿contiene una propiedad en particular? (Estas son las tres probabilidades en el lado derecho de la ecuación de Bayes).
Aprende. Se recalcula la probabilidad condicional (el lado izquierdo de la ecuación de Bayes), ajustando el valor predictivo de cada propiedad. En conjunto, todas las propiedades ahora pueden asignar correctamente (la mayoría de) los mensajes a las categorías a las que pertenecían en el conjunto de entrenamiento.
Clasificar. El clasificador entrenado ya está listo para clasificar los mensajes sin categorizar a las categorías SPAM o HAM.
Mejorar. El clasificador puede mejorar su precisión si el usuario le da retroalimentación al reclasificar los mensajes SPAM como HAM o viceversa. El aprendizaje más eficiente ocurre cuando un algoritmo utiliza técnicas de “aprendizaje activo” para elegir sus propios datos de entrenamiento solicitando comentarios de los usuarios solo cuando no se sabe cómo clasificar un mensaje. Por ejemplo, el algoritmo podría estar seguro de que un mensaje con “Medicamentos baratos” en la línea de asunto es SPAM, pero si el mensaje proviene de un corresponsal desde hace mucho tiempo, el algoritmo podría pedirle al usuario que confirme esa clasificación. ^[12]

Categorías creadas por Clustering

En las dos secciones anteriores, discutimos cómo los árboles de decisión probabilísticos y los clasificadores Bayes ingenuos implementan categorías que se definen por propiedades típicamente compartidas y similitud. Ambos son ejemplos de aprendizaje supervisado porque necesitan ejemplos correctamente clasificados como datos de capacitación, y aprenden las categorías que se les imparten.

En contraste, las técnicas de clustering no son supervisadas; analizan una colección de recursos no categorizados para descubrir regularidades estadísticas o estructura entre los ítems, creando un conjunto de categorías sin ningún dato de entrenamiento etiquetado.

Las técnicas de agrupamiento comparten el objetivo de crear categorías significativas a partir de una colección de artículos cuyas propiedades son difíciles de percibir y evaluar directamente, lo que implica que la pertenencia a categorías no se puede reducir fácilmente a pruebas de propiedad específicas y en su lugar debe basarse en la similitud. Por ejemplo, con grandes conjuntos de documentos o datos de comportamiento, las técnicas de agrupamiento pueden encontrar categorías de documentos con los mismos temas, género o sentimiento, o categorías de personas con hábitos y preferencias similares.

Debido a que las técnicas de clustering no son supervisadas, crean categorías basadas en cálculos de similitud entre recursos, maximizando la similitud de recursos dentro de una categoría y maximizando las diferencias entre ellos. Estas categorías aprendidas estadísticamente no siempre son significativas que pueden ser nombradas y utilizadas por las personas, y la elección de propiedades y métodos para calcular la similitud puede resultar en números y tipos de categorías muy diferentes. Algunas técnicas de agrupamiento para recursos de texto sugieren nombres para los clústeres basados en las palabras importantes en los documentos en el centro de cada clúster. Sin embargo, a menos que haya un conjunto etiquetado de recursos del mismo dominio que pueda usarse como cheque para ver si el clustering descubrió las mismas categorías, le corresponde al analista de datos o al científico de la información darle sentido a los clústeres o temas descubiertos.

Existen muchas técnicas diferentes de clustering basadas en la distancia, pero comparten tres métodos básicos.

El primer método compartido es que las técnicas de agrupamiento comienzan con un conjunto inicialmente no categorizado de elementos o documentos que se representan de manera que permiten calcular medidas de similitud entre elementos. Esta representación suele ser un vector de valores de propiedad o las probabilidades de diferentes propiedades para que los ítems puedan ser representados en un espacio multidimensional y la similitud calculada usando una función de distancia como las descritas en “Modelos geométricos de similitud”. ^[13]
El segundo método compartido es que las categorías se crean poniendo los elementos que son más similares en la misma categoría. Los enfoques jerárquicos de agrupamiento comienzan con cada ítem en su propia categoría. Otros enfoques, en particular uno llamado “agrupación de medias K”, comienzan con un número fijo de categorías K inicializadas con un elemento o documento elegido aleatoriamente del conjunto completo.
El tercer método compartido es refinar el sistema de categorías mediante un recálculo iterativo de similitud cada vez que se agrega un elemento a una categoría. Los enfoques que comienzan con cada ítem en su propia categoría crean un sistema jerárquico de categorías fusionando las dos categorías más similares, recalculando la similitud entre la nueva categoría y las restantes, y repitiendo este proceso hasta que todas las categorías se fusionen en una sola categoría en el raíz de un árbol de categoría. Las técnicas que comienzan con un número fijo de categorías no crean otras nuevas sino que recalculan repetidamente el “centroide” de la categoría ajustando su representación de propiedad al promedio de todos sus miembros después de agregar un nuevo miembro. ^[14]

Tiene sentido que los algoritmos que crean clústeres o categorías de elementos similares puedan usarse posteriormente como clasificadores mediante el uso de las mismas medidas de similitud para comparar los elementos no clasificados con los elementos etiquetados por categoría. Hay diferentes opciones sobre qué ítems comparar con el no clasificado:

El centroide: un ítem prototípico o promedio calculado sobre las propiedades de todos los miembros de la categoría. Sin embargo, el centroide podría no corresponder a ningún miembro real (ver la barra lateral Mediana versus Promedio), y esto puede dificultar la interpretación de la clasificación.
Elementos que realmente existen: Debido a que los ítems en categorías definidas por similitud no son igualmente típicos o buenos miembros, es más robusto probar contra más de un ejemplar. Los clasificadores que utilizan este enfoque se denominan técnicas de vecino más cercano, y esencialmente votan entre ellos y se asigna la categoría mayoritaria al nuevo ítem.
Los casos de borde: Se trata de instancias que están más cerca del límite entre dos categorías, por lo que es necesario que haya al menos dos de ellas, una en cada categoría. Debido a que no son miembros típicos de la categoría, son los más difíciles de clasificar inicialmente, pero utilizarlos en clasificadores enfatiza las propiedades que son las más discriminatorias. Este es el enfoque adoptado por las máquinas de vectores de soporte, que no son algoritmos de clustering sino que son algo así como algoritmos de vecino más cercano en el sentido de que calculan la similitud de un ítem no clasificado con estos casos de borde. Su nombre tiene más sentido si piensas en los vectores que representan los “casos de borde” que se utilizan para “soportar” el límite de categoría, que cae entre ellos.

Redes neuronales

Entre los clasificadores de mejor desempeño para categorizar por similitud y membresía probabilística se encuentran los implementados mediante redes neuronales, y especialmente aquellos que emplean técnicas de aprendizaje profundo. Los algoritmos de aprendizaje profundo pueden aprender categorías a partir de datos de entrenamiento etiquetados o mediante el uso de autocodificación, una técnica de aprendizaje no supervisada que entrena una red neuronal para reconstruir sus datos de entrada. Sin embargo, en lugar de utilizar las propiedades que se definen en los datos, los algoritmos de aprendizaje profundo idean un número muy grande de entidades en capas jerárquicas ocultas, lo que las hace ininterpretables por las personas. La idea clave que hizo posible el aprendizaje profundo es el uso de la “retropropagación” para ajustar los pesos en las entidades trabajando hacia atrás desde la salida (la clasificación de objetos producida por la red) hasta la entrada. El uso del aprendizaje profundo para clasificar imágenes se mencionó en “Describiendo imágenes”. ^[15]

Implementación de Categorías Basadas en Objetivos

Las categorías basadas en objetivos son altamente individualizadas y, a menudo, se usan solo una vez en un contexto muy específico. Sin embargo, es útil considerar que podríamos implementar categorías derivadas de objetivos modelo como árboles de decisión basados en reglas ordenando las decisiones para asegurar que cualquier sub-meta se satisfaga de acuerdo a su prioridad. Podríamos entender la categoría “Cosas para llevar de una casa en llamas” haciendo primero la pregunta “¿Hay seres vivos en la casa? ” porque ese podría ser el subogol más importante. Si la respuesta a esa pregunta es “sí”, podríamos proceder por un camino diferente al de si la respuesta es “no”. ” De igual manera, podríamos darle mayor prioridad a las cosas que no pueden ser reemplazadas (fotos de la abuela) que a las que pueden (pasaporte).

Implementación de categorías basadas en teoría

Las categorías basadas en teoría surgen en dominios en los que los ítems a clasificar se caracterizan por relaciones abstractas o complejas con sus características y entre sí. Con este modelo una entidad no necesita ser entendida como poseedora inherentemente de características compartidas en común con otra entidad. Más bien, las personas proyectan características de una cosa a otra en una búsqueda de congruencias entre cosas, tanto como los receptores de pistas en la segunda ronda del juego Pyramid buscan congruencias entre ejemplos proporcionados por el dador de pistas para adivinar la categoría objetivo. Por ejemplo, una pista como “bebé gritando” puede sugerir muchas categorías, al igual que “parquímetro. ” Pero la probable intersección de las interacciones que uno puede tener con los bebés y los parquímetros es que ambos son “Cosas que necesitas alimentar. ”

Las categorías basadas en la teoría se crean como constructos cognitivos cuando usamos analogías y clasificamos porque las cosas unidas por analogía tienen similitud abstracta en lugar de literal. El modelo más influyente de procesamiento analógico es Structure Mapping, cuyo desarrollo y aplicación han sido guiados por Dedre Gentner durante más de tres décadas.

La visión clave en Structure Mapping es que una analogía “a T es como B” se crea haciendo coincidir estructuras relacionales y no propiedades entre el dominio base B y un dominio objetivo T. Tomamos dos cosas cualesquiera, analizamos las estructuras relacionales que contienen y las alineamos para encontrar correspondencias entre ellos. Las propiedades de los objetos en los dos dominios no necesitan coincidir, y de hecho, si demasiadas propiedades coinciden con la analogía desaparece y tenemos similitud literal:

Analogía: El átomo de hidrógeno es como nuestro sistema solar
Similitud literal: El sistema estelar X12 en la galaxia de Andrómeda es como nuestro sistema solar

La teoría de Structure Mapping se implementó en el Structure-Mapping Engine (SME), que formalizó la teoría y ofreció un algoritmo computacionalmente manejable para llevar a cabo el proceso de mapeo de estructuras y dibujar inferencias. ^[16]

Por ejemplo, puedes probar si un número es primo dividiéndolo por cada número menor que su raíz cuadrada, pero este algoritmo es ridículamente poco práctico para cualquier aplicación útil. Muchos sistemas criptográficos multiplican los números primos para crear claves de cifrado, contando con la dificultad de factorizarlas para proteger las claves; así, demostrar que números cada vez mayores son primos es muy importante. Ver (Crandall y Pomerance 2006).

Si te preguntas por qué los números primos no se consideran una categoría enumerativa dado que cada número que es primo ya existe, es porque aún no los hemos encontrado todos, y necesitamos probarlos hasta el infinito.
Este ejemplo proviene de (Perlman 1984), quien introdujo la idea de “lenguajes artificiales naturales” como aquellos diseñados para ser fáciles de aprender y usar porque emplean símbolos mnemónicos, nombres sugestivos y sintaxis consistente.
Cuando el Congreso de Estados Unidos revisó la ley de derechos de autor en 1976, codificó una disposición de “uso justo” para permitir algunos usos limitados de obras protegidas por derechos de autor, pero el uso justo en la era digital es muy diferente hoy en día; el almacenamiento en caché de sitios web para mejorar el rendimiento y enlaces que devuelven miniaturas las versiones de las imágenes son usos justos que no eran concebibles cuando se redactó la ley. Una ley que definiera con precisión los usos justos utilizando la tecnología contemporánea se habría vuelto rápidamente obsoleta, pero una escrita de manera más cualitativa para permitir la interpretación por parte de los tribunales ha permanecido viable. Ver (Samuelson 2009).
(Wilkins 1668) y (Borges 1952)
“Rígido” puede sonar negativo, pero también se define con precisión un recurso rígidamente definido. La definición precisa es esencial a la hora de crear, capturar y recuperar datos y cuando es necesario combinar o comparar información sobre recursos en diferentes sistemas de organización. Por ejemplo, en una base de datos relacional tradicional, cada tabla contiene un campo, o combinación de campos, conocido como clave primaria, que se utiliza para definir y restringir la pertenencia a la tabla. Una tabla de mensajes de correo electrónico en una base de datos podría definir un mensaje de correo electrónico como una combinación única de dirección del remitente, dirección del destinatario y fecha/hora en que se envió el mensaje, aplicando una clave primaria en una combinación de estos campos. Similar a la membresía de categoría basada en un solo conjunto monotético de propiedades, la membresía en esta tabla de mensajes de correo electrónico se basa en un solo conjunto de criterios requeridos. Un artículo sin dirección de destinatario no puede ser admitido en la mesa. En términos de categorización, el ítem no es miembro de la clase “email message” porque no tiene todas las propiedades necesarias para ser miembro.
Al igual que los esquemas de datos, las clases de programación especifican y hacen cumplir reglas en la construcción y manipulación de datos. Sin embargo, las clases de programación, al igual que otras implementaciones que se caracterizan por la especificidad y la aplicación de reglas, pueden variar ampliamente en el grado en que se especifican y aplican las reglas. Si bien algunas definiciones de clase son muy rígidas, otras son más flexibles. Algunos lenguajes tienen tipos abstractos que no tienen instancias pero sirven para proporcionar un ancestro común para tipos implementados específicos.
La existencia de capítulos podría sugerir que un ítem es una novela; sin embargo, la falta de capítulos no necesita indicar automáticamente que un ítem no es una novela. Algunas novelas son hipertextos que animan a los lectores a tomar caminos alternativos. Muchos de los escritos de James Joyce y Samuel Beckett son obras de “corriente de conciencia” que carecen de una trama coherente, sin embargo, son ampliamente consideradas como novelas.
Ver (Plata 2012). Sobre la dependencia de datos que están fácilmente disponibles es una heurística de toma de decisiones propuesta por (Tversky y Kahneman 1974), quienes desarrollaron las bases psicológicas para la economía del comportamiento. (Ver la barra lateral, Economía del Comportamiento.)
Para ser precisos, este cálculo de “diferencia de proporciones” utiliza un algoritmo que también utiliza el logaritmo de las proporciones para calcular la entropía, una medida de la incertidumbre en una distribución de probabilidad. Una entropía de cero significa que el resultado puede predecirse perfectamente y la entropía aumenta a medida que los resultados son menos predecibles. La ganancia de información para un atributo es cuánto reduce la entropía después de que se use para subdividir un conjunto de datos.
Desafortunadamente, este proceso racional basado en datos para clasificar las solicitudes de préstamos como “Aprobado” o “Denegado” fue abandonado durante la “burbuja inmobiliaria” de principios de la década de 2000. Debido a que los bancos prestamistas podían vender rápidamente sus hipotecas a bancos de inversión que los agrupaban en valores respaldados por hipotecas, los solicitantes fueron aprobados sin ninguna verificación de ingresos para préstamos “subprime” que inicialmente tenían tasas de interés ajustables muy bajas. Por supuesto, cuando las tasas aumentaron sustancialmente unos años después, los impagos y las ejecuciones hipotecarias se dispararon. Esta triste historia se cuenta de manera informativa, entretenida, pero deprimente en “The Big Short” (Lewis, 2010) y en una película del 2015 con el mismo nombre.
Los algoritmos de aprendizaje automático difieren en qué propiedades utilizan en la forma en que los seleccionan. Un método sencillo es ejecutar los algoritmos usando diferentes conjuntos de propiedades y seleccionar el conjunto que produzca el mejor resultado. Sin embargo, puede ser muy costoso desde el punto de vista computacional ejecutar algoritmos varias veces, especialmente cuando el número de propiedades es grande. Una alternativa más rápida es seleccionar o filtrar entidades en función de qué tan bien predicen la clasificación. El cálculo de ganancia de información discutido en “Árboles de decisión probabilísticos” es un ejemplo de un método de filtro.

Los clasificadores ingenuos de Bayes hacen la suposición simplificadora de que las propiedades son independientes, una suposición que rara vez es correcta, razón por la cual el enfoque se llama ingenuo. Por ejemplo, un documento que contiene la palabra “seguro” también es probable que contenga “beneficiario”, por lo que su presencia en los mensajes no es independiente.

Sin embargo, aunque el supuesto de independencia suele ser violado, los clasificadores Naive Bayes suelen desempeñarse muy bien. Además, tratar las propiedades como independientes significa que el clasificador necesita muchos menos datos para entrenar que si tuviéramos que calcular las probabilidades condicionales de todas las combinaciones de propiedades. En cambio, solo tenemos que contar por separado el número de veces que ocurre cada propiedad con cada uno de los dos resultados de clasificación.
Ver (Blanzieri y Bryl 2009) para una revisión del problema del spam y los métodos de política y tecnología para combatirlo. (Upsana y Chakravarty 2010) es algo más reciente y se centra más estrictamente en las técnicas de clasificación de textos.

Una introducción muy completa pero altamente legible al aprendizaje activo es (Setles 2012).
En particular, los documentos suelen representarse como vectores de términos ponderados en frecuencia. Otros enfoques comienzan más directamente con la medida de similitud, obtenida ya sea por juicios directos de la similitud de cada par de ítems o por medidas indirectas como la precisión en decidir si dos sonidos, colores o imágenes son iguales o diferentes. El supuesto es que la confusabilidad de dos ítems refleja lo similares que son.
A diferencia de los métodos de agrupamiento jerárquico que tienen una regla de detención clara cuando crean la categoría raíz, los métodos de clustering k-means se ejecutan hasta que los centroides de la categorización se estabilizan. Además, debido a que el algoritmo k-means es básicamente solo escalada, y los elementos iniciales de la categoría “semilla” son aleatorios, puede quedar atascado fácilmente en un óptimo local. Por lo tanto, es deseable probar muchas configuraciones de inicio diferentes para diferentes opciones de K.
Además, las complejas representaciones de características de las redes neuronales computan mediciones de similitud muy precisas, que permiten búsquedas de imágenes específicas o que encuentran duplicadas.
La teoría de Structure Mapping se propuso en (Gentner 1983), y el Structure Mapping Engine siguió algunos años después (Falkenhainer et al 1989). El SME fue criticado por apoyarse en representaciones del conocimiento codificadas a mano, una limitación superada por (Turney 2008), quien utilizó técnicas de procesamiento de texto para extraer las relaciones semánticas utilizadas por Structure Mapping.

Search

Text Color

Text Size

Margin Size

Font Type

Árboles de decisión probabilística

Clasificadores Bayes Naïve

Categorías creadas por Clustering

Redes neuronales