¿Qué es el Data Mining?

Los orígenes del data mining vienen de la dificultad de poder manejar diferentes tipos de datos con las herramientas existentes. De este trabajo se acabó derivando en ideas que se tomaron prestadas de otros campos, como la estimación o el muestreo tomados de la estadística, o los algoritmos y las técnicas de aprendizaje provenientes de la inteligencia artificial. También otras áreas tienen un papel esencial en todo lo que rodea al data mining, como es el área de visualización, de bases de datos o de computación.

Así, con data mining, o minería de datos, hacemos referencia al proceso de descubrir información que pueda ser útil, a través del análisis de grandes repositorios de datos. De este modo, con la minería de datos se intenta encontrar patrones y soluciones de preguntas que, de otro modo, estarían ocultas entre los datos.

Es importante distinguir entre data mining y la recogida de información. Mientras que data mining usa técnicas estadísticas y matemáticas para la obtención de información dentro de un dataset, la recogida de información consistiría en, por ejemplo, una búsqueda en una base de datos para un sujeto concreto. A pesar de centrarse los dos en los datos, son elementos y técnicas distintas y, por lo tanto, deberán de mantenerse por separado.

El descubrimiento de conocimiento es la última meta de la minería de datos. Conocido en la comunidad anglosajona como KDD (Knowledge Discovery in Databases), el descubrimiento de conocimiento podríamos decir que es el proceso total de convertir los datos puros de la base de datos en una información útil. Es decir, el descubrimiento de conocimiento es el concepto por el que, mediante el uso de data mining, obtenemos información útil de una gran cantidad de datos que, a priori, no nos da ninguna información a simple vista.

Proceso KDD Detallado

Fases del Data Mining

Este descubrimiento de información consiste en una serie de pasos, que van desde un pre-procesamiento de los datos para su preparación, hasta un post-procesamiento para su posterior obtención de información. Observemos este proceso con más detenimiento:

  • Pre-procesamiento de los datos:

El pre-procesamiento de los datos es un paso esencial en data mining, debido a que los datos pueden estar guardados en una gran cantidad de formatos y formas, o incluso estar distribuidos en diferentes repositorios.

Una vez importado el dataset, o el conjunto de datasets con los que se va a trabajar, se debe de hacer este pre-procesamiento de los datos para prepararlos de cara al data mining. De esta manera, acciones como la unión de tablas, la reducción de la cantidad de variables (también conocido como reducción de la dimensionalidad), o la obtención de subgrupos de datos, serán pasos muy importantes de cara a preparar los datos para los próximos pasos.

Normalmente, este pre-procesamiento suele ser la parte que más tiempo consume en el proceso de la minería de datos, debido a que es muy manual y laboriosa.

  • Data Mining:

En este paso, usaremos las numerosas técnicas estadísticas y matemáticas que conforman el data mining, como pueden ser la unión por grupos, el estudio de la variabilidad, el estudio de las relaciones entre las observaciones o el estudio de la frecuencia entre muchas otras. Este conjunto de tareas recibe el nombre de “tareas descriptivas”, ya que el objetivo de las mismas es obtener patrones que resuman las relaciones que haya por debajo en los datos.

Además, junto con las tareas descriptivas podremos hacer un análisis predictivo para poder predecir ciertas características de futuras observaciones.

  • Post-Procesamiento de los datos:

Con el post-procesamiento de los datos, se da referencia esencialmente a la quizás necesaria trasformación final de los datos de cara a la siempre necesaria visualización. Fuera de data mining, junto con esta visualización, siempre se debe hacer un análisis e interpretación de los datos obtenidos, de cara a la aclaración de los mismos y la finalización del proceso, obteniendo información útil.

También, otro post-procesamiento muy usado es la unión de los resultados obtenidos de data mining a otras herramientas, como pueden ser las de marketing, de tal manera que estos datos se puedan usar en otros ámbitos. Este proceso es conocido como “closing the loop”, que se puede traducir por “cierre del círculo”.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Si sigue navegando por esta página daremos por hecho que acepta nuestra política de cookies.    Ver Política de cookies