CLASIFICACIÓN: ANÁLISIS DE CLUSTERS

Por: María Esther Ruilova Rojas

El análisis de clusters es una colección de métodos estadísticos que permiten agrupar casos sobre los cuales se miden diferentes variables o características.

Los clusters deben ser hallados in información previa y serán sugeridos únicamente por la propia esencia de los datos.

Existen dos métodos de bloques de clustering: los jerárquicos y los no jerárquicos o particionales.

  • Métodos Jerárquicos: La pertenencia a un grupo o cluster en un nivel de la jerarquía condiciona la pertenencia a grupos de un nivel superior
  • Métodos Particionales: obtienen una única partición de los datos mediante la optimización de alguna función adecuada. También conocidos como métodos de optimización.

DISTANCIAS Y SIMILARIDADES

Definen proximidad, no Covariación, y su elección (tipos) viene determinada por la escala de medida de las variables: binaria u ordinal o de intervalo/razón.

  • Medidas de distancia para escalas ordinales, de intervalo o razón; amplia variedad
  • Medidas de similitud para variables nominales binarias: reciben el nombre de medidas de asociación

Es necesario medir las similitudes o distancias que hay entre los casos.

Para esto debe cumplir las siguientes propiedades:

  1. Las distancias deben ser no negativas.
  2. Cada caso no puede distar de sí mismo
  3. Se establece la simetría.

En general, cuanto mayor sean la distancia, más diferente entre sí serán los casos.

Si además de las tres propiedades cumple la desigualdad triangular, se dice que la distancia es métrica y que forma un espacio métrico.

El concepto dual ala distancia es la similaridad. Se dice que en algunos casos es más práctico calcular similaridades que distancias.

Propiedades de la Similaridad

  1. La similaridad debe ser no negativa y establece una escala.
  2. Cada caso se parece a sí mismo más que a cualquier otro caso.
  3. Establece la simetría.

DISTANCIAS PARA VARIABLES CONTINUA

  • EUCLÍDEA (para “t” variables)

  • Distancia de Mahalanobis

Ventajas

  1. Se consigue mitigar el problema de las unidades en la medida en que cada variable entra en el cálculo de distancia corregida por su variabilidad (función del tamaño)
  2. Se elimina la información redundante. La más correcta en caso de elevada multi – colinealidad.
  • Distancia de Manhatan

ETAPAS DE UN CLUSTER

  1. selección de la muestra de datos
  2. selección y transformación de variables a utilizar
  3. selección de concepto de distancia o similitud y medición de las mismas
  4. selección y aplicación del criterio de agrupación
  5. determinación de la estructura correcta.

BIBLIOGRAFÍA

Leave a comment