Glosario

Minería de datos

Descubre cómo la minería de datos transforma los datos brutos en información procesable, impulsando la IA, el ML y las aplicaciones del mundo real en la sanidad, el comercio minorista y ¡mucho más!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La minería de datos es el proceso de descubrir patrones, tendencias y conocimientos valiosos ocultos en grandes conjuntos de datos. Emplea una combinación de métodos estadísticos, algoritmos de aprendizaje automático y sistemas de bases de datos para transformar los datos brutos en información comprensible y procesable. Este proceso es fundamental para la inteligencia artificial (IA), ya que constituye la base para crear modelos predictivos y permitir la toma de decisiones basada en datos en diversos campos. Una minería de datos eficaz ayuda a las organizaciones a optimizar los procesos, comprender el comportamiento de los clientes e identificar nuevas oportunidades, descubriendo relaciones que podrían no ser obvias mediante un simple análisis de datos.

Técnicas clave en la minería de datos

La minería de datos utiliza diversas técnicas para extraer distintos tipos de información:

  • Clasificación: Asignación de elementos de una colección a categorías o clases objetivo. El objetivo es predecir con exactitud la clase objetivo para cada caso de los datos (por ejemplo, predecir la pérdida de clientes). Esto suele implicar métodos de aprendizaje supervisado.
  • Agrupación: Agrupar puntos de datos similares sin conocimiento previo de los grupos. Algoritmos como K-Means o DBSCAN ayudan a identificar agrupaciones naturales en los datos, un ejemplo de aprendizaje no supervisado.
  • Regresión: Predecir un valor continuo (por ejemplo, predecir el precio de la vivienda basándose en características como el tamaño y la ubicación). Modela la relación entre variables.
  • Minería de Reglas de Asociación: Descubrimiento de relaciones entre variables en grandes bases de datos, a menudo utilizado para el análisis de la cesta de la compra (por ejemplo, descubrir que los clientes que compran pan también suelen comprar leche).
  • Detección de anomalías: Identificación de puntos de datos o eventos que se desvían significativamente de la norma, crucial para aplicaciones como la detección de fraudes o la identificación de defectos en la fabricación.

Minería de datos frente a términos relacionados

Aunque está relacionada, la minería de datos difiere de otras disciplinas centradas en los datos:

  • Análisis de datos: Se centra más en la estadística descriptiva, la elaboración de informes y la visualización de datos para comprender el rendimiento pasado y las tendencias actuales. La minería de datos suele ir más allá, haciendo hincapié en el modelado predictivo y el descubrimiento de patrones.
  • Aprendizaje Automático (AM): Proporciona los algoritmos y herramientas utilizados dentro de la minería de datos para encontrar patrones y construir modelos. La minería de datos es el proceso más amplio de aplicar estos (y otros) métodos para extraer conocimientos de los datos. Muchas tareas de ML, como la clasificación de imágenes, son aplicaciones habilitadas por los principios de la minería de datos aplicados a los datos visuales.
  • Grandes Datos: Se refiere a conjuntos de datos extremadamente grandes que requieren herramientas y técnicas especializadas para su procesamiento. Las técnicas de minería de datos suelen aplicarse a los Grandes Datos para extraer ideas, pero la minería de datos en sí puede realizarse en conjuntos de datos de cualquier tamaño. La metodología CRISP-DM proporciona un modelo de proceso estándar para los proyectos de minería de datos.

Aplicaciones reales de la minería de datos

Las técnicas de minería de datos impulsan la innovación y la eficacia en numerosos sectores. He aquí dos ejemplos:

  1. Análisis de la cesta de la compra: Los supermercados utilizan la minería de reglas de asociación en los datos de transacciones para comprender los hábitos de compra. Descubrir que los clientes compran con frecuencia patatas fritas y refrescos juntos puede llevar a colocar estos artículos cerca unos de otros o a ofrecer promociones combinadas, como se explica en las estrategias para la IA en el comercio minorista.
  2. Diagnóstico Predictivo Sanitario: Los hospitales y los investigadores aplican técnicas de clasificación y agrupación a los datos de los pacientes (síntomas, historial, resultados de pruebas) para predecir la probabilidad de enfermedades como la diabetes o afecciones cardiacas. Esto ayuda a la detección precoz y a los planes de tratamiento personalizados, un aspecto clave de la IA en la sanidad. Por ejemplo, técnicas similares a las utilizadas en la detección de tumores en la imagen médica se basan en gran medida en patrones extraídos de vastos conjuntos de datos médicos.

Minería de datos y Ultralytics

En Ultralytics, los principios de la minería de datos sustentan muchos aspectos del desarrollo y despliegue de modelos de visión por ordenador (CV) de última generación como Ultralytics YOLO. El entrenamiento de modelos robustos para tareas como la detección de objetos o la segmentación de imágenes requiere datos de alta calidad y bien comprendidos. Las técnicas de minería de datos son esenciales durante el preprocesamiento de datos y la recogida y anotación de datos para limpiar los datos, identificar los sesgos(sesgo del conjunto de datos) y seleccionar las características relevantes, mejorando en última instancia la precisión del modelo.

Además, Ultralytics HUB proporciona una plataforma en la que los usuarios pueden gestionar conjuntos de datos y entrenar modelos. Las herramientas del ecosistema HUB facilitan la exploración y comprensión de los conjuntos de datos, permitiendo a los usuarios aplicar conceptos de minería de datos para optimizar sus propios flujos de trabajo de ML y aprovechar eficazmente técnicas como el aumento de datos. Comprender los datos a través de la minería es crucial antes de emprender pasos como el ajuste de hiperparámetros. Puedes obtener más información sobre el papel del aprendizaje automático y la minería de datos en la visión por ordenador en nuestro blog.

Leer todo