<aside> 📢 Visualización de datos en una dimensión menor (2D o 3D), preservando características importantes de estos como distancias, correlaciones, etc.

</aside>

Usos:

Algoritmos


PCA

Usos:

Ejemplo con 2 variables:

  1. Calculamos el valor promedio para cada feature y calculamos el centroide

    Untitled

    Untitled

  2. Centramos el conjunto de datos de manera que el centroide quede en el origen

    Untitled

  3. Trazamos una recta aleatoria que pase por el origen y la rotamos hasta que ajuste bien a los datos

    Untitled

    Procedimiento:

    En la línea aleatoria proyectamos cada punto y buscamos minimizar la distancia de la proyección a la observación o bien maximizar la distancia de la proyección al origen de coordenadas lo cual resulta equivalente por pitágoras.

    Untitled

    Untitled

    PCA maximiza la suma de distancias cuadradas llamadas autovalores.

    Untitled

    La recta ajustada es la componente principal 1 PC1.

  4. Calculamos los autovectores:

    1. Vemos cómo es la pendiente $m$ de PC1:

      En este caso:

      Podemos identificar cómo se dispersan los datos.

      Podemos identificar cómo se dispersan los datos.

    2. Para obtener el autovector normalizamos los datos escalando la hipotenusa $a$ a 1, por lo que dividimos todo por $a$.

      Las proporciones de cada eje se llaman Loading Scores. En este caso 0.97 árboles y 0.242 RNA. El vector negro sobre la hipotenusa es el autovector.

      Las proporciones de cada eje se llaman Loading Scores. En este caso 0.97 árboles y 0.242 RNA. El vector negro sobre la hipotenusa es el autovector.

      <aside> 📢 Antes de ejecutar un algoritmo de PCA se deben normalizar los atributos (por ejemplo con min-max o standar scaler)

      </aside>

  5. Calculamos la siguiente componente.

    Debe ser una recta que pase por el origen, sea ortogonal a PC1, y tenga el mejor ajuste, según se vio, maximizando su autovector.

    Untitled

  6. Graficamos. Primero proyectamos cada punto sobre el eje PC1 Y PC2.

    Untitled

  7. Rotamos los ejes de manera que PC1 quede horizontal y coincida con los ejes originales. Reubicamos los puntos.

    Untitled

¿Con cuántas PC nos quedamos?

Para determinar esto debemos calcular la varianza explicada, es decir una magnitud que nos diga qué tanta variabilidad de los datos representa cada componente. Nos quedamos con aquellas que sumadas me representen un buen porcentaje.

La variación centrada en el origen podemos calcularla como:

$Variacion PCi=\frac{autovalor PCi}{n-1}$

En el ejemplo anterior:

Imaginemos que la variación de PC1 es 15, y la de PC2 es 3.

La variación total es 15+3 = 18.

Quiere decir que PC1 acumula el 83 % de la variación total. (15/18 = 0.83) y PC2, el 17% (3/18 = 0.17).

Untitled

Untitled

MDS: Multi-Dimensional Scaling o PCoA

Idea:

Untitled

Fortalezas:

Debilidades:

Ejemplo:

  1. Calculamos las distancias (puede ser cualquiera) entre cada columna (todas con todas)

    Untitled

  2. Crear una matriz de distancias

    Untitled

  3. Encontrar una nueva matriz $M$ con la misma cantidad de columnas (es decir observaciones) pero menos filas, 2 (según las dimensiones que quiera visualizar, es un hiper-parámetro)

    Untitled

    Untitled

    Buscamos las distancias de manera que se preserven las originales. (Los cuadraditos blancos después de las raíces son símbolo de = )

    Untitled

    Definimos una función llamada Stress. Nuestro objetivo será minimizarla

    Untitled

    Para encontrar los valores que minimicen la función de Stress hay varios algoritmos matemáticos, como:

    Estos métodos son iterativos, que a veces dan resultados diferentes ←desventaja!

    Untitled

    Relación con PCA:

    Obtuvimos los mismos resultados que PCA porque trata de formar clusters con la técnica de minimizar las distancias lineales (euclídea) entre los puntos, es exactamente lo mismo que maximizar la correlación lineal.

    Pero siempre podemos utilizar otras medidas de distancias:

    También podría ser Mahalanobis o cualquier fórmula apropiada al problema a resolver para medir cuán “cerca” o “lejos” están dos variables.

    También podría ser Mahalanobis o cualquier fórmula apropiada al problema a resolver para medir cuán “cerca” o “lejos” están dos variables.

    Tanto PCA como MDS utilizan descomposición en autovectores y autovalores.

    Untitled

t-SNE

Objetivo: