CLASIFICACIÓN: ANÁLISIS DE CLUSTERS

Por: María Esther Ruilova Rojas

El análisis de clusters es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características.

Los clusters deben ser hallados in información previa y serán sugeridos únicamente por la propia esencia de los datos.

Existen dos métodos de bloques de clustering: los jerárquicos y los no jerárquicos o particionales.

Métodos Jerárquicos: La pertenencia a un grupo o cluster en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior

Métodos Particionales: obtienen una única partición de los datos mediante la optimización de alguna función adecuada. También conocidos como métodos de optimización.

DISTANCIAS Y SIMILARIDADES

Definen proximidad, no Covariación, y su elección (tipos) viene determinada por la escala de medida de las variables: binaria u ordinal o de intervalo/razón.

Medidas de distancia para escalas ordinales, de intervalo o razón; amplia variedad
Medidas de similitud para variables nominales binarias: reciben el nombre de medidas de asociación

Es necesario medir las similitudes o distancias que hay entre los casos.

Para esto debe cumplir las siguientes propiedades:

Las distancias deben ser no negativas.
Cada caso no puede distar de sí mismo
Se establece la simetría.

En general, cuanto mayor sean la distancia, más diferente entre sí serán los casos.

Si además de las tres propiedades cumple la desigualdad triangular, se dice que la distancia es métrica y que forma un espacio métrico.

El concepto dual ala distancia es la similaridad. Se dice que en algunos casos es más práctico calcular similaridades que distancias.

Propiedades de la Similaridad

La similaridad debe ser no negativa y establece una escala.
Cada caso se parece a sí mismo más que a cualquier otro caso.
Establece la simetría.

DISTANCIAS PARA VARIABLES CONTINUA

EUCLÍDEA (para “t” variables)

Distancia de Mahalanobis

Ventajas

Se consigue mitigar el problema de las unidades en la medida en que cada variable entra en el cálculo de distancia corregida por su variabilidad (función del tamaño)
Se elimina la información redundante. La más correcta en caso de elevada multi – colinealidad.

Distancia de Manhatan

ETAPAS DE UN CLUSTER

selección de la muestra de datos
selección y transformación de variables a utilizar
selección de concepto de distancia o similitud y medición de las mismas
selección y aplicación del criterio de agrupación
determinación de la estructura correcta.

BIBLIOGRAFÍA

PEARSON. Aprendizaje Automático: conceptos básicos y avanzados.
http://www.uam.es/personal_pdi/economicas/rmc/documentos/cluster.PDF

Techi Ruilova

Investigación NS2

CLASIFICACIÓN: ANÁLISIS DE CLUSTERS

Leave a comment Cancel reply

Share this:

Related

Leave a comment Cancel reply