Llegamos a ustedes gracias a:



Reportajes y análisis

¿Qué es la minería de datos?

Encontrando patrones y tendencias en los datos

[29/11/2021] La minería de datos, a veces utilizada como sinónimo de "descubrimiento de conocimiento, es el proceso de examinar grandes volúmenes de datos en busca de correlaciones, patrones y tendencias. Es un subconjunto de la ciencia de datos que utiliza técnicas estadísticas y matemáticas junto con el aprendizaje automático y los sistemas de bases de datos. La Association for Computing Machinery's Special Interest Group on Knowledge Discovery and Data Mining (SigKDD) de la Association for Computing Machinery lo define como la ciencia de extraer conocimiento útil de los enormes repositorios de datos digitales creados por tecnologías informáticas.

[Reciba lo último de CIO Perú suscribiéndose a nuestro newsletter semanal]

La idea de extraer patrones de datos no es nueva, pero el concepto moderno de minería de datos comenzó a tomar forma en las décadas de los años 80 y 90, con el uso de técnicas de gestión de bases de datos y aprendizaje automático para aumentar los procesos manuales.

Minería de datos vs. Analítica de datos

Los términos analítica de datos y minería de datos a menudo se combinan, pero la analítica de datos puede entenderse como un subconjunto de la minería de datos.

La minería de datos se centra en limpiar datos sin procesar, encontrar patrones, crear modelos y luego probar esos modelos, según Tableau, proveedor de analítica. La analítica de datos, por otro lado, es la parte de la minería de datos centrada en extraer información de los datos. Su objetivo es aplicar análisis estadísticos y tecnologías en los datos para encontrar tendencias y resolver problemas.

El valor de negocio de la minería de datos

La minería de datos se utiliza en empresas de una amplia gama de industrias para examinar sus datos a fin de comprender las tendencias y tomar mejores decisiones comerciales. Las empresas de medios y telecomunicaciones utilizan los datos de sus clientes para comprender mejor su comportamiento. Las compañías de seguros utilizan la minería de datos para fijar el precio de sus productos de manera más eficaz y para crear nuevos productos. Los educadores ahora están utilizando minería de datos para descubrir patrones en el desempeño de los estudiantes, e identificar áreas problemáticas en las que podrían necesitar atención especial. Los minoristas están utilizando la minería de datos para comprender mejor a sus clientes y crear campañas altamente específicas.

Los casos de uso de minería de datos incluyen los siguientes:

  • Catholic Relief Services (CRS) está utilizando la recopilación de datos y el aprendizaje automático para ayudar a brindar ayuda humanitaria en todo el mundo. Ha desarrollado Measurement Indicators for Resilience Analysis (MIRA), un protocolo de recopilación de datos de alta frecuencia que recopila información sobre los "shocks relacionados con el clima en las comunidades del sudeste de África. Introduce los datos en algoritmos de aprendizaje automático para determinar qué hogares estarán en riesgo de escasez de alimentos debido a esos shocks.
  • Bank of America está utilizando la minería de datos, el aprendizaje automático y la inteligencia artificial para identificar con mayor precisión a los inversores para las ofertas públicas iniciales (OPI). Ha creado Predictive Intelligence Analytics Machine (PRIAM), un sistema de predicción de acuerdos de inteligencia artificial que utiliza una red de algoritmos de aprendizaje automático supervisado para comprender las tendencias de las relaciones entre los banqueros e inversores de los mercados de capital accionario (ECM, por sus siglas en inglés).
  • El procesador de hipotecas, Ellie Mae, está utilizando la minería de datos en ataques de ransomware para identificar indicadores de compromiso (IOC, por sus siglas en inglés). Esos IOC se combinan con inteligencia de amenazas, analítica predictiva e inteligencia artificial para impulsar el proyecto Autonomous Threat Hunting para Advanced Persistent Threats.

Técnicas de minería de datos

La minería de datos utiliza una variedad de herramientas y técnicas. Según Talend, el especialista en integración e integridad de datos, las funciones más utilizadas incluyen:

  • Limpieza y preparación de datos. Antes de que los datos puedan analizarse y procesarse, debe identificar y eliminar errores, y también identificar los datos que faltan.
  • La minería de datos con frecuencia aprovecha la inteligencia artificial para tareas asociadas con la planificación, el aprendizaje, el razonamiento y la resolución de problemas.
  • Aprendizaje de reglas de asociación. También conocido como analítica de la cesta de la compra, estas herramientas se utilizan para buscar relaciones entre variables en un conjunto de datos. Un minorista podría utilizarlos para determinar qué productos se compran normalmente juntos.
  • La agrupación en clústeresse utiliza con el fin de dividir un conjunto de datos en subclases significativas para comprender la estructura de los datos.
  • Analítica de datos. La analítica de datos es el proceso de extraer información de los datos.
  • Almacenamiento de datos. Un almacén de datos es una colección de datos de negocio. Es la base de la mayoría de la minería de datos.
  • Aprendizaje automático. El aprendizaje automático ayuda a automatizar el proceso de búsqueda de patrones en sus datos. Esta técnica se utiliza con un conjunto de datos en particular para predecir valores como ventas, temperaturas o precios de las acciones.

Proceso de minería de datos

El proceso estándar de la industria cruzada para la minería de datos (CRISP-DM) es un modelo de proceso de seis pasos que se publicó en 1999 para estandarizar los procesos de minería de datos en todas las industrias. Las seis fases de CRISP-DM son: comprensión empresarial, comprensión de datos, preparación de datos, modelado, evaluación e implementación.

  • Entendimiento del negocio: Esta fase trata sobre la comprensión de los objetivos, requisitos y alcance del proyecto. Consta de cuatro tareas: determinar los objetivos de negocio mediante la comprensión de lo que quieren lograr las partes interesadas del negocio; evaluar la situación para determinar la disponibilidad de recursos, los requisitos del proyecto, los riesgos y las contingencias; determinar cómo se ve el éxito desde una perspectiva técnica; y definir planes detallados para las herramientas de cada proyecto junto con la selección de tecnologías y herramientas.
  • Entendimiento de los datos: La siguiente fase implica identificar, recopilar y analizar los conjuntos de datos necesarios para lograr los objetivos del proyecto. También comprende cuatro tareas: recopilar datos iniciales, describir los datos, explorar los datos y verificar la calidad de los datos.
  • Preparación de datos: Esta suele ser la parte más importante de cualquier proyecto y consta de cinco tareas: seleccionar los conjuntos de datos y documentar el motivo de la inclusión/exclusión, limpiar los datos, construir datos derivando nuevos atributos de los datos existentes, integrar datos de varias fuentes y formatear los datos.
  • Modelado: La construcción de modelos a partir de datos tiene cuatro tareas: seleccionar técnicas de modelado, generar diseños de prueba, construir modelos y evaluar modelos.
  • Evaluación: Si bien la fase de modelado incluye la evaluación del modelo técnico, esta fase se trata de determinar qué modelo satisface mejor las necesidades comerciales. Implica tres tareas: evaluar los resultados, revisar el proceso y determinar los próximos pasos.
  • Implementación: La fase final consiste en poner el modelo en funcionamiento. Incluye cuatro tareas: desarrollar y documentar un plan para implementar el modelo, desarrollar un plan de monitoreo y mantenimiento, producir un informe final y revisar el proyecto.

ASUM-DM

En el 2015, IBM publicó una extensión de CRISP-DM llamada Analytics Solutions Unified Method for Data Mining (ASUM-DM). Toma CRISP-DM como base, pero construye la fase de implementación para incluir colaboración, control de versiones, seguridad y cumplimiento.

Software y herramientas de minería de datos

Las empresas utilizan una variedad de software y herramientas de minería de datos para soportar sus esfuerzos. Algunas de las herramientas y software más populares incluyen:

  • H20. Esta plataforma de aprendizaje automático de código abierto se puede integrar a través de una API, y utiliza computación distribuida en memoria para analizar conjuntos de datos masivos.
  • IBM SPSS Modeler. La solución de aprendizaje automático y ciencia de datos visuales de IBM se puede utilizar para la preparación, el descubrimiento, la analítica predictiva, la gestión de modelos y la implementación de datos.
  • Knime. La plataforma de código abierto Knime tiene como objetivo la analítica, el reporte y la integración de datos.
  • Oracle Data Mining (ODM). ODM es parte de Oracle Database Enterprise Edition, que ofrece minería de datos y algoritmos de analítica de datos para clasificación, predicción, regresión, asociaciones, selección de características, detección de anomalías, extracción de características y analítica especializada.
  • Orange Data Mining. Orange es un conjunto de herramientas de visualización de datos, aprendizaje automático y minería de datos de código abierto.
  • R. Este lenguaje de programación de código abierto y ambiente de software libre es ampliamente utilizado por los mineros de datos. Fundada por Revolution Analytics, R también tiene soporte comercial y extensiones. Microsoft adquirió Revolution Analytics en el 2015 y ha integrado R con sus ofertas de SQL Server, Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server y Visual Studio 2017. Oracle, IBM y Tibco también soportan a R en sus ofertas.
  • RapidMiner. Diseñada para equipos, la plataforma de ciencia de datos RapidMiner soporta la preparación de datos, el aprendizaje automático y la implementación de modelos predictivos.
  • SAS Enterprise Miner. SAS Enterprise Miner tiene como objetivo crear modelos predictivos y descriptivos sobre grandes volúmenes de datos de fuentes en toda la organización.
  • Sisense. El stack de BI de Sisense cubre todo, desde la base de datos a través de ETL y analítica hasta la visualización.

Puede ver también: