Techita

Just another WordPress.com weblog

ANÁLISIS COMPARATIVO ENTRE ÁRBOLES DE CLASIFICACIÓN

Posted by techi322 on April 16, 2008

ÁRBOLES DE CLASIFICACIÓN

Su principal objetivo es identificar cuál nodo va en la raíz.

 

  • Entran dentro de los métodos de clasificación supervisada.
  • Su construcción  se realiza mediante un proceso de inducción.

Todo árbol de clasificación comienza con un nodo al que pertenecen todos los casos de la muestra a clasificar (nodo raíz), el resto de nodos se dividen en nodos intermedios o no terminales y nodos hojas o nodos terminales.

 

  • Al número de nodos hoja que tiene un árbol se le denomina complejidad de árbol.
  • Para su construcción se  debe definir tres procedimientos:
    • ¿Cómo se realiza la selección de las divisiones?
    • ¿Cómo se toma la decisión de declarar un nodo como intermedio u hoja?
    • ¿Cómo se asigna la pertenencia de cada nodo hoja a las posibles clases?

Algoritmos más conocidos

La familia de algoritmos TDIDT abarca desde algoritmos ya clásicos de IA como CLS

[Concept Learning System], ID3, C4.5 o CART [Classificaction and Regression Trees]  hasta algoritmos optimizados como SLIQ o SPRINT, dos algoritmos desarrollados en el IBM Almaden Research Center que se usan en Data Mining.

Los algoritmos TDIDT suelen presuponer que no existe ruido en los datos de entrada e intentan alcanzar una descripción perfecta de los mismos. Esto suele ser contraproducente en problemas reales, donde se necesitan métodos capaces de manejar información con ruido y mecanismos que eviten el sobreaprendizaje [overfitting]. Sin embargo, las técnicas de poda (como las empleadas en ASSISTANT o C4.5) han demostrado ser muy útiles en este sentido. Una vez construido el árbol de decisión completo que se adapta perfectamente a los datos del conjunto de entrenamiento, se podan aquellas ramas del árbol con menor capacidad predictiva.

 

REGLAS DE DECISIÓN

Características de los árboles de decisión

  • Estructura para clasificación de vectores de atributos.
  • Establece en qué orden testar los atributos para conseguir la clasificación del vector de entrada.
  • Para componer dicho orden se eligen primero aquellos atributos que mejor ganancia de información prometen a efectos de descubrir la clase del vector de entrada.
  • Es interesante aprenderlos a partir de un conjunto de vectores

 

En sí, las reglas de decisión consisten en:

  1. Escoger la regla
  2. Eliminar datos para el siguiente análisis.

 

La sintaxis de la regla corresponde a una condición, simple o compleja, que se ha de cumplir para que la regla se dispare y consecuentemente, se seleccione al concepto al que representa.

Las condiciones se encuentran en dos formas:

 

  • Conjunción de selectores
  • Conjunción de literales  correspondientes a predicados de primer orden

 

ANÁLISIS

Para inferir el árbol, el algoritmo realiza particiones binarias sucesivas en el espacio de las variables explicativas, de forma que en cada partición se escoge la variable que aporta más información en función de una medida de entropía o cantidad de información.

 

Las reglas de decisión se construyen en base a condiciones que se generan a través de hipótesis; definen las características que más diferencian a las distintas clases establecidas inicialmente.

 

Fuentes bibliográficas

http://supervisadaextraccionrecuperacioninformacion.iespana.es/arboles.html

http://elvex.ugr.es/etexts/spanish/proyecto/cap5.pdf

 

Leave a Reply

XHTML: You can use these tags: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <pre> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>