<aside> 📢 Visualización de datos en una dimensión menor (2D o 3D), preservando características importantes de estos como distancias, correlaciones, etc.
</aside>
Usos:
Usos:
Ejemplo con 2 variables:
Calculamos el valor promedio para cada feature y calculamos el centroide


Centramos el conjunto de datos de manera que el centroide quede en el origen

Trazamos una recta aleatoria que pase por el origen y la rotamos hasta que ajuste bien a los datos

Procedimiento:
En la línea aleatoria proyectamos cada punto y buscamos minimizar la distancia de la proyección a la observación o bien maximizar la distancia de la proyección al origen de coordenadas lo cual resulta equivalente por pitágoras.


PCA maximiza la suma de distancias cuadradas llamadas autovalores.

La recta ajustada es la componente principal 1 PC1.
Calculamos los autovectores:
Vemos cómo es la pendiente $m$ de PC1:
En este caso:

Podemos identificar cómo se dispersan los datos.
Para obtener el autovector normalizamos los datos escalando la hipotenusa $a$ a 1, por lo que dividimos todo por $a$.

Las proporciones de cada eje se llaman Loading Scores. En este caso 0.97 árboles y 0.242 RNA. El vector negro sobre la hipotenusa es el autovector.
<aside> 📢 Antes de ejecutar un algoritmo de PCA se deben normalizar los atributos (por ejemplo con min-max o standar scaler)
</aside>
Calculamos la siguiente componente.
Debe ser una recta que pase por el origen, sea ortogonal a PC1, y tenga el mejor ajuste, según se vio, maximizando su autovector.

Graficamos. Primero proyectamos cada punto sobre el eje PC1 Y PC2.

Rotamos los ejes de manera que PC1 quede horizontal y coincida con los ejes originales. Reubicamos los puntos.

¿Con cuántas PC nos quedamos?
Para determinar esto debemos calcular la varianza explicada, es decir una magnitud que nos diga qué tanta variabilidad de los datos representa cada componente. Nos quedamos con aquellas que sumadas me representen un buen porcentaje.
La variación centrada en el origen podemos calcularla como:
$Variacion PCi=\frac{autovalor PCi}{n-1}$
En el ejemplo anterior:
Imaginemos que la variación de PC1 es 15, y la de PC2 es 3.
La variación total es 15+3 = 18.
Quiere decir que PC1 acumula el 83 % de la variación total. (15/18 = 0.83) y PC2, el 17% (3/18 = 0.17).


Idea:

Fortalezas:
Debilidades:
Ejemplo:
Calculamos las distancias (puede ser cualquiera) entre cada columna (todas con todas)

Crear una matriz de distancias

Encontrar una nueva matriz $M$ con la misma cantidad de columnas (es decir observaciones) pero menos filas, 2 (según las dimensiones que quiera visualizar, es un hiper-parámetro)


Buscamos las distancias de manera que se preserven las originales. (Los cuadraditos blancos después de las raíces son símbolo de = )

Definimos una función llamada Stress. Nuestro objetivo será minimizarla

Para encontrar los valores que minimicen la función de Stress hay varios algoritmos matemáticos, como:
Estos métodos son iterativos, que a veces dan resultados diferentes ←desventaja!

Relación con PCA:
Obtuvimos los mismos resultados que PCA porque trata de formar clusters con la técnica de minimizar las distancias lineales (euclídea) entre los puntos, es exactamente lo mismo que maximizar la correlación lineal.
Pero siempre podemos utilizar otras medidas de distancias:

También podría ser Mahalanobis o cualquier fórmula apropiada al problema a resolver para medir cuán “cerca” o “lejos” están dos variables.
Tanto PCA como MDS utilizan descomposición en autovectores y autovalores.

Objetivo: