<aside> 📢 En este tipo de problemas se trata de agrupar los datos. Agruparlos de tal forma que queden definidos $N$ conjuntos distinguibles, aunque no necesariamente se sepa qué signifiquen esos conjuntos. El agrupamiento siempre será por características similares.

</aside>

Cómo determinar la tendencia al agrupamiento

Estadística de Hopkings

Se utiliza para evaluar la tendencia de agrupación de un conjunto de datos midiendo la probabilidad de que un conjunto de datos dado sea generado por una distribución de datos uniforme. En otras palabras, prueba la aleatoriedad espacial de los datos. La idea es comparar una muestra cualquiera con una muestra uniforme (creada de forma aleatoria) y ver cómo se distribuyen los ejemplos (los puntos) en dicho espacio.

Funcionamiento: Sea D un conjunto de datos reales:
- PASO 1: Tomar una muestra uniformemente de n puntos $(p_1,..., p_n)$ de D
- PASO 2: Calcular la distancia $x_i$ de cada punto real a cada vecino más cercano
- PASO 3: Generar un conjunto de datos simulados (randomD) extraído de una distribución uniforme aleatoria con n puntos $(q_1,...,q_n)$ y la misma variación que el conjunto de datos reales original D
- PASO 4: Calcular la distancia $y_i$ desde cada punto artificial hasta el punto de datos real más cercano
- PASO 5: Calcular la estadística de Hopkins (H) como: la distancia media del vecino más cercano en el conjunto de datos aleatorios dividida por la suma de las distancias medias del vecino más cercano en el conjunto de datos real y simulado.
-Si los datos están distribuidos de forma uniforme, entonces H sería aproximadamente 1⁄2 (0.5). -Pero si hay clústeres , las distancias de los puntos artificiales serían mucho más grandes que las distancias de los puntos reales y por lo tanto H sería mayor que 0.5. -Un valor de H superior a 0,75 indica una tendencia a la agrupación en un nivel de confianza del 90%.

Modelos de agrupamiento

K-Means
- PASO 1: Elegir la cantidad de clusters $k$ ( Cuántos clusters elegir)
- PASO 2: Elige al azar un centroide para cada clúster (no necesariamente un punto del data set)
- PASO 3: El algoritmo asigna cada punto al centroide más cercano para obtener clústeres iniciales
- PASO 4: Para cada clúster, el algoritmo recalcula el centroide mediante el promedio de todos los puntos del clúster
- PASO 5: K-Means vuelve a reasignar los puntos usando los nuevos centroides. Calcula nuevos grupos
- PASO 6: El algoritmo repite el cálculo de los centroides y la asignación de puntos hasta que estos dejen de cambiar de clúster

Cuántos clusters elegir

Las métricas mas extendidas en clustering son el método de Elbow y el Índice de Silueta.

Elbow:

Consiste básicamente en verificar la evolución de la suma de los cuadrados del error (SSE) para varias cantidades de clusters y verificar cual es el que brinda un mejor agrupamiento. En donde el gráfico presenta un "codo" (se quiebra la pendiente) es la cantidad de clusters adecuada.
Coeficiente de Silhouette: Cada punto en el conjunto de datos tiene un coeficiente de Silhouette. Para calcular este coeficiente necesitamos calcular a(i) y b(i):

a(i) es la distancia promedio del punto i a cada uno de los puntos de su cluster. b(i) es la distancia promedio del punto i a cada uno de los puntos del cluster más cercano a su propio cluster.

-si a(i) > b(i), i está posiblemente mal clasificado. -s(i) = b(i) - a(i) / El mayor de (b(i) o a(i))
```
  *-s(i) ≈ 1, la observación i está bien asignada a su cluster
  -s(i) ≈ 0, la observación i está entre dos cluster
  -En el peor de los casos s(i) es -1. Cuanto más grande y positivo sea, mejor.*
```
Se determinará un coeficiente de silhouette promedio para los k clusters y en base a eso se compara con otros de diferente k