<aside> 📢 En este tipo de problemas se trata de agrupar los datos. Agruparlos de tal forma que queden definidos $N$ conjuntos distinguibles, aunque no necesariamente se sepa qué signifiquen esos conjuntos. El agrupamiento siempre será por características similares.
</aside>
Estadística de Hopkings
Se utiliza para evaluar la tendencia de agrupación de un conjunto de datos midiendo la probabilidad de que un conjunto de datos dado sea generado por una distribución de datos uniforme. En otras palabras, prueba la aleatoriedad espacial de los datos. La idea es comparar una muestra cualquiera con una muestra uniforme (creada de forma aleatoria) y ver cómo se distribuyen los ejemplos (los puntos) en dicho espacio.
Funcionamiento: Sea D un conjunto de datos reales:
-Si los datos están distribuidos de forma uniforme, entonces H sería aproximadamente 1⁄2 (0.5). -Pero si hay clústeres , las distancias de los puntos artificiales serían mucho más grandes que las distancias de los puntos reales y por lo tanto H sería mayor que 0.5. -Un valor de H superior a 0,75 indica una tendencia a la agrupación en un nivel de confianza del 90%.
PASO 1: Elegir la cantidad de clusters $k$ ( Cuántos clusters elegir)
PASO 2: Elige al azar un centroide para cada clúster (no necesariamente un punto del data set)

PASO 3: El algoritmo asigna cada punto al centroide más cercano para obtener clústeres iniciales


PASO 4: Para cada clúster, el algoritmo recalcula el centroide mediante el promedio de todos los puntos del clúster

PASO 5: K-Means vuelve a reasignar los puntos usando los nuevos centroides. Calcula nuevos grupos

PASO 6: El algoritmo repite el cálculo de los centroides y la asignación de puntos hasta que estos dejen de cambiar de clúster

Las métricas mas extendidas en clustering son el método de Elbow y el Índice de Silueta.
Elbow:
Consiste básicamente en verificar la evolución de la suma de los cuadrados del error (SSE) para varias cantidades de clusters y verificar cual es el que brinda un mejor agrupamiento. En donde el gráfico presenta un "codo" (se quiebra la pendiente) es la cantidad de clusters adecuada.
Coeficiente de Silhouette: Cada punto en el conjunto de datos tiene un coeficiente de Silhouette. Para calcular este coeficiente necesitamos calcular a(i) y b(i):
a(i) es la distancia promedio del punto i a cada uno de los puntos de su cluster. b(i) es la distancia promedio del punto i a cada uno de los puntos del cluster más cercano a su propio cluster.
-si a(i) > b(i), i está posiblemente mal clasificado. -s(i) = b(i) - a(i) / El mayor de (b(i) o a(i))
*-s(i) ≈ 1, la observación i está bien asignada a su cluster
-s(i) ≈ 0, la observación i está entre dos cluster
-En el peor de los casos s(i) es -1. Cuanto más grande y positivo sea, mejor.*

Se determinará un coeficiente de silhouette promedio para los k clusters y en base a eso se compara con otros de diferente k