Clasificación de textos

Aprendizaje Bayesiano

Funciona muy bien para clasificación de textos:

Sirve para asignar un tópico o categoría de forma automática a cualquier extracto de un texto
Entradas: un documento $d$ y un conjunto prefijado de clases $C$
Salidas: una clase $c$ perteneciente a $C$

Reglas de clasificación:

Se podría determinar por ejemplo, que un mail es spam usando reglas escritas a mano del tipo “pattern matching”. La precisión puede ser muy alta, pero construir y mantener las reglas puede ser costoso
Aprendizaje automático supervisado: necesito también un conjunto de documentos clasificados y como salida voy a obtener un clasificador entrenado

Tipos de clasificadores:

NaÏve Bayes

Enfoque probabilístico: ¿Cuál es la probabilidad de que el documento $d$ pertenezca a la clase $c$? → probabilidad condicional:

Dado el documento d, ¿cuál es la probabilidad de que pertenezca a c? $P(c | d)$

Si tengo un ****conjunto $C$ de clases, según Bayes un documento $d$, pertenecerá a aquella clase que maximice su probabilidad condicional.

Cmap es la clase candidata (map = máximo a posteriori)

¿Cómo calculamos las probabilidades?
- $P(c) = \frac{\#d_c}{\#d}$ pero la cantidad de documentos que pueden haber no la sabemos por lo que la estimamos usando el set de entrenamiento $T$ → $P(c) = \frac{\#d_c(T)}{\#d(T)}$
- Bag of words:
  
  Un documento para bayes será una bolsa de palabras (o características) $X_1, X_2,...,X_n$. Para esto asumimos que el orden no importa y que las probabilidades de cada característica, dada una clase $c$ P(xi |c j) son independientes entre sí ← traen problemas es muy “ingenuo”. Cada palabra puede repetirse.
  
  Se convierten los textos en vectores de números. Cada palabra tendrá un número en el bag of word acorde a la cantidad de veces que aparece en el texto siguiendo el orden en el que definí el vocabulario.
  
  El vocabulario es el conjunto de palabras sin repetición.
  
  Podemos usar solo algunas palabras en lugar de todas ← filtramos las palabras.
  
  Para obtener las palabras, primero debemos tokenizar el texto:
  
  Lo que originalmente es para nosotros una gran cadena de caracteres, la tenemos que partir en cadenas más pequeñas o tokens, coinciden aproximadamente con lo que nosotros llamamos coloquialmente: palabra.
  
  La forma habitual de Tokenización ****es separando los caracteres alfabéticos de los demás (a veces también los numéricos), utilizando como caracteres de corte o separación, el espacio, los signos de puntuación, de exclamación e interrogación.
  
  fórmula que se usa!!!
- Para calcular la probabilidad condicional vamos a hacer lo mismo que para la probabilidad de $c$, estimamos con $T$: $P(w_i|c)=\frac{\#{w_c}_i(T)}{\#w_c(T)}$ donde $w_i$ es cada palabra en el documento a clasificar.
  
  Problemas: Puede que el denominador sea 0 para toda clase → usamos una técnica que se llama Laplace smoothing: Sumamos 1 a cada cantidad($w_i|c_j$) calculada, y normalizamos agregando uno también por cada $w$ ****∈ $V$, o lo que es lo mismo sumamos en el denominador la cantidad de palabras en el vocabulario:
  
  obs: cuando aparece una palabra nueva se suma |V+1| y el numerador queda 1
Redes Bayesianas

Es un modelado de un clasificador de bayes naïve mediante un grafo acíclico dirigido en donde:
- Los nodos representan variables
- Las aristas representan dependencias condicionales
Las redes bayesianas tienen asociada una tabla con probabilidades condicionales por cada nodo.

Los eventos que no tienen entradas, solo poseen una probabilidad de ocurrencia (no condicional)

Si bien las redes bayesianas permiten inferencias mucho más precisas que las versión simplificada que construye Bayes Naive, son más complejas de construir y de mantener.
Naïve Bayes multinomial binarizada (o booleana)

Antes de comenzar a calcular las probabilidades de las clases y a contar las palabras vamos a recorrer uno por uno todos los documentos en el conjunto de entrenamiento y prueba y a eliminar las palabras duplicadas.

En términos generales esta variante del algoritmo da mejores resultados que la versión tradicional que cuenta todas las ocurrencias de las palabras.

Análisis de sentimientos

Son clasificadores que se encargan de estimar la confianza del consumidor basado en opiniones.