Minería de Datos para grandes empresas

Hoy en día, son muchas las grandes empresas que manejan gran cantidad de datos. Aquellas como Mercadona o Ikea, realizan un riguroso estudio de las estadísticas de sus ventas. Cualquier información es de vital importancia para el futuro de estas grandes marcas. Es aquí donde entra el estudio de la Minería de datos para grandes empresas. 

Qué es la minería de datos

La minería de datos (Data Mining) trata de la extracción no-trivial de la información. Esta se encuentra de manera implícita en el banco de datos de nuestra empresa. Siendo previamente desconocida, pero muy útil en algún proceso futuro dentro de nuestra empresa.

Dicho de otro modo, la Minería de Datos para grandes empresas consiste en preparar, sondear y explorar los datos para extraer información que se encuentra oculta. Para un responsable encargado del sistema, los datos en sí no es lo más relevante. Es la información que se encierra en las relaciones, fluctuaciones y dependencias de estos.

Finalidades principales

Dentro de un proceso de Minería de Datos para grandes empresas existen dos principales finalidades:

  • Predicción: En ella, intentamos descubrir distintos modelos de comportamiento de los datos de nuestra empresa. Las técnicas de estadísticas son habituales para llevar a cabo una predicción. Este tipo de estudio se conoce como Minería Predictiva. Ejemplo: El análisis de tendencias encontradas en los precios durante el mes de enero.
  • Extracción de conocimiento: En este caso, la idea principal es la de buscar patrones de comportamiento. Esta información se encuentra oculta tanto en los datos como en las reglas de hechos y sus asociaciones. También podemos usarla para encontrar posibles anomalías de comportamiento. Este tipo de estudio es conocido como Minería Descriptiva. Ejemplo: A la hora de descubrir reglas de compra en un supermercado: Quien compra guacamole también compra nachos. Quien compra bases de pizza también compra tomate y queso.

Frecuencia del uso de la Minería de Datos para grandes empresas

Ya sabemos qué es la minería de datos y sus finalidades. Sin embargo, dependiendo del tipo de datos, realizaremos más o menos veces el estudio. A continuación, mostramos los tres tipos de estudios que, dependiendo de nuestra empresa, pondremos nuestros esfuerzo en uno de ellos:

  • Minería episódica: Se realiza de forma puntual con una breve duración. Es posible que no tenga continuidad. Por ejemplo una campaña de marketing.
  • Minería estratégica: Recurriremos a ella cuando trabajemos sobre grandes volúmenes de datos. Es la encargada de extraer conocimientos de tipo estratégicos. Por ejemplo detectar los puntos débiles de otras empresas.
  • Minería continua: Los datos se analizan de forma constante. Su misión es encontrar tendencias o algún tipo de anomalía fuera de lo común. Por ejemplo a la hora de monitorizar sistemas de control.

Etapas que cumplir en el proceso de Minería de Datos para grandes empresas

Definición de nuestro problema

En ella necesitamos describir lo más exactamente posible el problema de nuestra empresa, así como la posibilidad de usar Minería de Datos.

Recolección y formato de datos

Decidiremos sobre qué datos vamos a trabajar en función del problema que pretendemos abordar. Pasamos a recolectarlos, así como adecuar el formato de éstos para que sea entendible por el sistema. Ejemplo, los productos del supermercado identificados por códigos.

Preprocesamiento de datos

En esta etapa nos centraremos en facilitar las relaciones entre los datos, así como la integridad y calidad. Ejemplo, si tenemos datos de personas por edad y queremos realizar un estudio por «Niño, Adulto, Anciano». Se simplificará la edad a tres posibilidades.

Selección del algoritmo a seguir

Dentro de las herramientas de Minería de Datos encontramos un gran número de algoritmos que se encargan del estudio. Los más conocidos son: Redes Neuronales, Árboles de decisión, clustering, etc.

Selección de parámetros del algoritmo

Ahora es el momento de decidir qué parámetros son los que queremos estudiar, así como las dependencias entre ellos. Por ejemplo, el rango de edad de los clientes de todos los concesionarios SEAT y el tipo de coche que compran.

Entrenamiento

Es el momento de aplicar nuestro algoritmo configurado. Extraeremos los primeros resultados. En los modelos de tendencia examinaremos sus líneas de tendencia. En el caso de los descriptivos evaluaremos los patrones encontrado.

Evaluación final

Es el momento de evaluar toda la información conjunta. De este modo podemos tomar decisiones que puedan ser beneficiosas para nuestra empresa.

Ejemplo de datos finales:
  • Las personas mayores se decantan por el Seat Exeo, mientras que los más jóvenes se centran en el Seat León y el Seat Ibiza. En países más ricos como Alemania es más popular el Seat León mientras que en España se decantan por un Seat Ibiza.
  • Las personas que compran guacamole también compran nachos. Sin embargo, no suelen comprar la fruta del mango. Por tanto, no sería una buena idea sacar una salsa de mango para nachos.
  • Existe una gran cantidad de clientes que compran bases de pizza sin gluten y queso rallado. La pizza 4 quesos se encuentra entre las más vendidas. Sería buena idea traer pizzas 4 quesos sin gluten.

Herramientas para el proceso de Minería

Orange

Orange

Se usa para la Minería de Datos y el aprendizaje automático. Tiene un fácil uso, así como potente y rápido. Contiene una gran cantidad de herramientas de preprocesamiento de datos y técnicas de exploración.

RapidMiner

RapidMiner

Se utiliza en datos de investigación y del mundo real. Sus experimentos se componen de un gran número de operadores anidados de forma arbitraria.

WEKA

WEKA

Esta herramienta soporta tareas de preprocesamiento, agrupamiento, clasificación y visualización de datos. Sus técnicas se basan en datos hipotéticos. Permite el acceso a base de datos SQL y mostrar el resultado como tal.

jHepWork

JHepWork

Herramienta destinada a la rama científica así como a ingeniería. Utiliza una interfaz de lo más amigable apoyada por paquetes de datos de software libre.

KNIME

Minería de datos KNIME

KNIME

Esta herramienta nos ofrece una gran capacidad en la creación de flujos y tuberías de datos. Es posible mostrar toda la información de forma visual y estudiar tanto los resultados como los modelos y las imágenes.

Dejar un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *