8.6: Clasificación Computacional

Última actualización
Guardar como PDF

Page ID: 98060

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

\( \newcommand{\id}{\mathrm{id}}\) \( \newcommand{\Span}{\mathrm{span}}\)

( \newcommand{\kernel}{\mathrm{null}\,}\) \( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\) \( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\) \( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\id}{\mathrm{id}}\)

\( \newcommand{\Span}{\mathrm{span}}\)

\( \newcommand{\kernel}{\mathrm{null}\,}\)

\( \newcommand{\range}{\mathrm{range}\,}\)

\( \newcommand{\RealPart}{\mathrm{Re}}\)

\( \newcommand{\ImaginaryPart}{\mathrm{Im}}\)

\( \newcommand{\Argument}{\mathrm{Arg}}\)

\( \newcommand{\norm}[1]{\| #1 \|}\)

\( \newcommand{\inner}[2]{\langle #1, #2 \rangle}\)

\( \newcommand{\Span}{\mathrm{span}}\) \( \newcommand{\AA}{\unicode[.8,0]{x212B}}\)

\( \newcommand{\vectorA}[1]{\vec{#1}} % arrow\)

\( \newcommand{\vectorAt}[1]{\vec{\text{#1}}} % arrow\)

\( \newcommand{\vectorB}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vectorC}[1]{\textbf{#1}} \)

\( \newcommand{\vectorD}[1]{\overrightarrow{#1}} \)

\( \newcommand{\vectorDt}[1]{\overrightarrow{\text{#1}}} \)

\( \newcommand{\vectE}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash{\mathbf {#1}}}} \)

\( \newcommand{\vecs}[1]{\overset { \scriptstyle \rightharpoonup} {\mathbf{#1}} } \)

\( \newcommand{\vecd}[1]{\overset{-\!-\!\rightharpoonup}{\vphantom{a}\smash {#1}}} \)

Por su importancia, ubicuidad y facilidad de procesamiento por parte de las computadoras, no debería sorprender que muchos problemas de clasificación computacional involucren texto. Algunos de estos problemas son relativamente simples, como identificar el lenguaje en el que se escribe un texto, lo cual se resuelve comparando la probabilidad de una, dos y tres cadenas contiguas de carácter largo en el texto con sus probabilidades en diferentes idiomas. Por ejemplo, en inglés las cadenas más probables son “the”, “and”, “to”, “of”, “a”, “in”, y así sucesivamente. Pero si las cadenas más probables son “der”, “die”, “und” y “den” el texto es alemán y si son “de”, “la”, “que”, “el” y “en” el texto es español.

Los problemas de clasificación de texto más desafiantes surgen cuando se requieren más entidades para describir cada instancia que se clasifica y donde las entidades son menos predecibles. El autor desconocido de un documento a veces puede ser identificado analizando otros documentos conocidos por haber sido escritos por él para identificar un conjunto de características como la frecuencia de palabras, la estructura de la frase y la longitud de la oración que crean una “escritura impresa” análoga a una huella digital que lo identifica de manera única. Este tipo de análisis se utilizó en 2013 para determinar que el autor de Harry Potter, J. K. Rowling, había escrito una novela de ficción criminal titulada El llamado del cuco bajo el seudónimo de Robert Galbraith . ^[1]

Otro problema desafiante de clasificación de textos es el análisis de sentimientos, que determina si un texto tiene una opinión positiva o negativa sobre algún tema. Se han realizado muchas investigaciones académicas y comerciales para comprender el sentimiento de los tweets de Twitter, las publicaciones de Facebook, el correo electrónico enviado a aplicaciones de atención al cliente y otros contextos similares. El análisis de sentimientos es difícil porque los mensajes suelen ser cortos, por lo que no hay mucho que analizar, y porque y porque el sarcasmo, la jerga, los clichés y las normas culturales oscurecen el contenido necesario para hacer la clasificación.

Una consideración crucial cuando se utiliza el aprendizaje supervisado para entrenar a un clasificador es asegurar que el conjunto de entrenamiento sea apropiado. Si estuviéramos entrenando a un clasificador para detectar mensajes spam usando el correo electrónico del año 2000, los temas de los correos electrónicos, las palabras que contienen, y quizás incluso el idioma en el que están escritos serían sustancialmente diferentes a los mensajes de este año. Los datos de entrenamiento actualizados son especialmente importantes para los algoritmos de clasificación utilizados por Twitter, Facebook, YouTube y sitios sociales similares que clasifican y recomiendan contenido en función de las tendencias de popularidad.

Cuando los datos de entrenamiento relevantes cambian constantemente y hay una gran parte de ellos, existe el riesgo de que para cuando un modelo pueda aprender a clasificar correctamente ya esté desactualizado. Este desafío ha llevado al desarrollo de algoritmos de streaming que operan sobre los datos a medida que entran, utilizándolos como una fuente de datos en vivo en lugar de como un conjunto de entrenamiento estático. Los algoritmos de streaming son esenciales para abordar conjuntos de datos que son demasiado grandes para almacenar o para modelos que deben operar bajo una intensa presión de tiempo. Los enfoques de transmisión complementan en lugar de reemplazar aquellos que funcionan con conjuntos de datos históricos porque hacen diferentes compensaciones entre precisión y velocidad. El sistema de transmisión puede proporcionar alertas y recomendaciones en tiempo real, mientras que los análisis históricos se realizan en el sistema orientado por lotes que funciona con toda la recopilación de datos. ^[2]

A veces, un mensaje de texto puede parecer complementario, pero realmente no lo es. ¿Está contento el cliente si tuitea “Buen trabajo, Unidos. Esta vez sólo perdiste una de mis maletas. ” Piensa en algunos otros mensajes cortos donde el sarcasmo o la jerga dificultan el análisis de sentimientos. ¿Cómo escribirías una reseña de producto o servicio que sea inequívocamente positiva, negativa o neutral? ¿Cómo escribirías una reseña cuyo sentimiento es difícil de determinar?

La forma en que un clasificador computacional “aprende” depende del algoritmo específico de aprendizaje automático. Árboles de decisión, Naive Bayes, máquinas de vectores de soporte y enfoques de redes neuronales se describieron brevemente en “Categorías de implementación”.

(SeeLi, Zheng y Chen 2006), (Julio 2014), (Rowling 1997-2007), (Rowling como “Galbraith” 2013),
(Ellis 2014). Una demostración convincente de la necesidad de muestrear flujos de big data para asegurar contra el sesgo es (Morstatter et al 2013).

Search

Text Color

Text Size

Margin Size

Font Type