Árboles de decisión "in a nutshell"

Una técnica muy utilizada en la clasificación que requiere una pequeña mención aparte es la utilización de los llamados árboles de decisión. Esta técnica es de una simpleza extrema, pero a la vez de una gran eficacia en una gran cantidad de problemas.

Los árboles de decisión recordemos que entran dentro de las técnicas de clasificación, y por lo tanto quieren hallar una respuesta a partir de unos datos previos. De este modo, un árbol de clasificación parte de un nodo raíz, que no posee ninguna entrada, pero tiene salidas. En este nodo raíz se formula una pregunta, y según la respuesta que obtenga se irán desarrollando caminos.

En cada uno de estos caminos se plantarán nodos, donde se seguirán haciendo preguntas, y seguirán bifurcándose por cada respuesta hasta que sea capaz de llegar a una decisión final en cada camino. Estos nodos que se han ido formando a base de preguntas a partir del raíz serán denominados nodos intermedios, y las respuestas finales se denominarán como hojas, de las que por supuesto no saldrá ningún camino. Por cada nodo por el que pasen los datos, se va haciendo una criba, de tal manera que al final de cada rama, en las hojas, solo queda un pequeño grupo de datos que poseen numerosas características en común.

La construcción de los árboles de decisión, como se puede apreciar, no es demasiado sencilla a simple vista, debido a que se deben hacer las preguntas adecuadas en el momento adecuado, y en un dataset de alta dimensionalidad el gran número de preguntas que se pueden hacer hace que el número de árboles construibles tienda a infinito. Por ello, se han creado algunos algoritmos que construyen árboles de decisión dentro de un espacio óptimo en tiempos razonables, como el de Hunt.

Y... ¿Qué pregunta se debe hacer? ¿Y cuándo se debe de parar?

En la construcción del árbol se plantean algunos interrogantes, como la elección de la pregunta adecuada o la condición de parada del algoritmo.

Respecto a la primera, el algoritmo que se use deberá de tener un sistema implementado para la evaluación de la bonanza de cada pregunta hacia el propio algoritmo, de cara a aprender si la pregunta ha sido buena o no.

Respecto a la condición de parada del algoritmo, es obvio que es algo obligatorio ya que, en caso contrario, el algoritmo seguiría ejecutándose hasta que se acabaran las dimensiones sobre las que preguntar, y eso no siempre es algo positivo de cara al resultado final. Normalmente se usan criterios tales como que todos los elementos restantes tras las preguntas tengan el mismo valor, y ese valor será el que se utilizará como hoja final de esa rama y como condición de parada al mismo tiempo.

A continuación se puede leer una explicación de cómo se puede controlar y solucionar el overfitting, puesto que es el problema más común, de tal manera que se puedan mejorar estos árboles de clasificación y obtener resultados más certeros.

  1. Método de la Pre-poda

En el caso de usar este método, el algoritmo que hace crecer el árbol para antes de formar el árbol completo que encajaría perfectamente con todos los datos de entrenamiento.

Para hacer esto, se debe de poner una condición muy restrictiva para dar por finalizado el algoritmo, como el aumento de una cierta impureza o esencialmente en el error de la generalización.

El problema de esta solución es que, si la restricción es demasiado restrictiva, el modelo quedará en underfitting y por lo tanto será poco certero, mientras que si la restricción es demasiado liviana el modelo caerá en overfitting y por lo tanto generalizará también mal.

  1. Método de la Post-poda

En caso de decantarse por este método, el primer paso es dejar al algoritmo crecer hasta su máxima extensión, y tras la finalización del algoritmo comienza la poda. Esta se suele hacer obteniendo subárboles, y cambiando estos subárboles por una hoja final perteneciente al grupo que tiene a la mayoría de los individuos en ese subárbol.

Este método es el más utilizado debido a que da mejores resultados, fruto de una poda posterior donde las decisiones de donde recortar vienen dadas de un árbol completamente formado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Si sigue navegando por esta página daremos por hecho que acepta nuestra política de cookies.    Ver Política de cookies