<aside> 📢 Visualización de datos en una dimensión menor (2D o 3D), preservando características importantes de estos como distancias, correlaciones, etc.

</aside>

Usos:

Visualización de datos para entender su distribución o detectar patrones invisibles a simple vista
Reducción del ruido
Aceleración de los tiempos de entrenamiento de un modelo
Compresión de la información
Presentación de resultados a interesados (quienes no siempre conocen de ciencia de datos)

Algoritmos

PCA

Usos:

Identificar si hay agrupamiento de datos en el espacio de entrada
Identificar correlaciones o bien entender cuán dispersos están los datos y sobre todo, sobre qué ejes o variables. PCA preserva las correlaciones!
Es útil especialmente cuando no podemos representar el espacio de entrada sobre un eje cartesiano
Las nuevas variables (componentes) se obtiene a partir de combinaciones lineales de las variables originales

Ejemplo con 2 variables:

Calculamos el valor promedio para cada feature y calculamos el centroide
Centramos el conjunto de datos de manera que el centroide quede en el origen
Trazamos una recta aleatoria que pase por el origen y la rotamos hasta que ajuste bien a los datos

Procedimiento:

En la línea aleatoria proyectamos cada punto y buscamos minimizar la distancia de la proyección a la observación o bien maximizar la distancia de la proyección al origen de coordenadas lo cual resulta equivalente por pitágoras.

PCA maximiza la suma de distancias cuadradas llamadas autovalores.

La recta ajustada es la componente principal 1 PC1.
Calculamos los autovectores:
1. Vemos cómo es la pendiente $m$ de PC1:
  
  En este caso:
  
  Podemos identificar cómo se dispersan los datos.
2. Para obtener el autovector normalizamos los datos escalando la hipotenusa $a$ a 1, por lo que dividimos todo por $a$.
  
  Las proporciones de cada eje se llaman Loading Scores. En este caso 0.97 árboles y 0.242 RNA. El vector negro sobre la hipotenusa es el autovector.
  
  <aside> 📢 Antes de ejecutar un algoritmo de PCA se deben normalizar los atributos (por ejemplo con min-max o standar scaler)
  
  </aside>
Calculamos la siguiente componente.

Debe ser una recta que pase por el origen, sea ortogonal a PC1, y tenga el mejor ajuste, según se vio, maximizando su autovector.
Graficamos. Primero proyectamos cada punto sobre el eje PC1 Y PC2.
Rotamos los ejes de manera que PC1 quede horizontal y coincida con los ejes originales. Reubicamos los puntos.

¿Con cuántas PC nos quedamos?

Para determinar esto debemos calcular la varianza explicada, es decir una magnitud que nos diga qué tanta variabilidad de los datos representa cada componente. Nos quedamos con aquellas que sumadas me representen un buen porcentaje.

La variación centrada en el origen podemos calcularla como:

$Variacion PCi=\frac{autovalor PCi}{n-1}$

En el ejemplo anterior:

Imaginemos que la variación de PC1 es 15, y la de PC2 es 3.

La variación total es 15+3 = 18.

Quiere decir que PC1 acumula el 83 % de la variación total. (15/18 = 0.83) y PC2, el 17% (3/18 = 0.17).

Untitled

MDS: Multi-Dimensional Scaling o PCoA

Idea:

Preservar las distancias entre puntos

Untitled

Ubicar los puntos en una dimensión menor tal que las distancias se parezcan lo más posible

Fortalezas:

Soporta varios tipos de distancias
Permite transformaciones no lineales

Debilidades:

Optimización iterativa con mínimos locales
Difícil determinar qué distancia a usar es la mejor

Ejemplo:

Calculamos las distancias (puede ser cualquiera) entre cada columna (todas con todas)
Crear una matriz de distancias
Encontrar una nueva matriz $M$ con la misma cantidad de columnas (es decir observaciones) pero menos filas, 2 (según las dimensiones que quiera visualizar, es un hiper-parámetro)

Buscamos las distancias de manera que se preserven las originales. (Los cuadraditos blancos después de las raíces son símbolo de = )

Definimos una función llamada Stress. Nuestro objetivo será minimizarla

Para encontrar los valores que minimicen la función de Stress hay varios algoritmos matemáticos, como:
- Método de descenso empinado de Kruskal: un método de descenso por gradiente
- Método iterativo de mayorización de De Leeuw también llamado SMACOF
Estos métodos son iterativos, que a veces dan resultados diferentes ←desventaja!

Relación con PCA:

Obtuvimos los mismos resultados que PCA porque trata de formar clusters con la técnica de minimizar las distancias lineales (euclídea) entre los puntos, es exactamente lo mismo que maximizar la correlación lineal.

Pero siempre podemos utilizar otras medidas de distancias:

También podría ser Mahalanobis o cualquier fórmula apropiada al problema a resolver para medir cuán “cerca” o “lejos” están dos variables.

Tanto PCA como MDS utilizan descomposición en autovectores y autovalores.

t-SNE

Objetivo: