Glosario

Limpieza de datos

Domina la limpieza de datos para proyectos de IA y ML. Aprende técnicas para corregir errores, mejorar la calidad de los datos e impulsar el rendimiento de los modelos de forma eficaz.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La limpieza de datos es un paso crucial en la fase de preprocesamiento de datos de cualquier proyecto de aprendizaje automático (AM) o inteligencia artificial (IA). Consiste en identificar y corregir errores, incoherencias e imprecisiones en los datos brutos para garantizar que el conjunto de datos utilizado para el entrenamiento o el análisis sea de alta calidad, fiable y adecuado para el fin previsto. Este proceso es esencial porque el rendimiento de los modelos de ML depende en gran medida de la calidad de los datos de entrada. Unos datos inexactos o incoherentes pueden dar lugar a resultados engañosos, un rendimiento deficiente del modelo y conclusiones incorrectas.

Importancia de la limpieza de datos en IA y ML

En el ámbito de la IA y el ML, los datos son el combustible que impulsa algoritmos y modelos. Los datos de alta calidad permiten a los modelos aprender eficazmente, hacer predicciones precisas y generalizar bien a datos nuevos y desconocidos. La limpieza de datos desempeña un papel fundamental para lograrlo, al garantizar que los datos que se introducen en los modelos son precisos, coherentes y pertinentes. Sin una limpieza de datos adecuada, los modelos pueden sufrir problemas como el sobreajuste, en el que el modelo funciona bien con los datos de entrenamiento pero mal con los nuevos, o el infraajuste, en el que el modelo no capta los patrones subyacentes en los datos.

Técnicas habituales de limpieza de datos

En la limpieza de datos se emplean varias técnicas, según la naturaleza de los datos y los problemas específicos que presenten. Algunas de las técnicas más comunes son

  • Tratamiento de los valores omitidos: Los datos perdidos pueden tratarse eliminando las entradas de datos con valores perdidos o imputándolos. Los métodos de imputación incluyen sustituir los valores perdidos por la media, la mediana o la moda de la característica, o utilizar técnicas más avanzadas como la imputación por regresión.
  • Detección y tratamiento de valores atípicos: Los valores atípicos, o puntos de datos que se desvían significativamente del resto del conjunto de datos, pueden sesgar los resultados del análisis. Pueden utilizarse técnicas como el método IQR (rango intercuartílico) o la puntuación Z para identificar los valores atípicos, que luego pueden eliminarse o transformarse.
  • Eliminación de duplicados: Las entradas de datos duplicadas pueden dar lugar a una representación excesiva de ciertos patrones en los datos. Identificar y eliminar los duplicados garantiza que el conjunto de datos refleje con precisión la distribución subyacente.
  • Transformación de datos: Consiste en convertir los datos a un formato adecuado para el análisis. Las transformaciones habituales incluyen la normalización, que escala los datos a un rango específico, y la estandarización, que transforma los datos para que tengan una media de 0 y una desviación típica de 1. Más información sobre la normalización en el aprendizaje automático.
  • Reducción de datos: Esta técnica tiene como objetivo reducir el tamaño del conjunto de datos conservando sus características esenciales. Para reducir la dimensionalidad pueden utilizarse técnicas como el Análisis de Componentes Principales (ACP ).
  • Discretización de datos: Consiste en convertir los datos continuos en intervalos o categorías discretas, que pueden ser útiles para determinados tipos de análisis o algoritmos.

Limpieza de datos frente a otros pasos del preprocesamiento de datos

Aunque la limpieza de datos es un componente fundamental del preprocesamiento de datos, es distinta de otros pasos del preprocesamiento. La limpieza de datos se centra específicamente en identificar y corregir errores e incoherencias en los datos. En cambio, la transformación de datos implica modificar el formato o la estructura de los datos, y la reducción de datos pretende disminuir el tamaño del conjunto de datos conservando su información esencial. El aumento de datos consiste en crear nuevos puntos de datos a partir de los existentes para aumentar el tamaño del conjunto de datos. Cada uno de estos pasos desempeña un papel único en la preparación de los datos para el análisis y el modelado.

Ejemplos de limpieza de datos en aplicaciones reales

  1. Sanidad: En el análisis de imágenes médicas, la limpieza de datos puede implicar la eliminación de imágenes con artefactos, garantizar una calidad de imagen uniforme y estandarizar los formatos de imagen. Por ejemplo, al entrenar un modelo de análisis de imágenes médicas para detectar tumores, es crucial eliminar las imágenes con mala resolución o etiquetado incorrecto.
  2. Vehículos autónomos: Para entrenar vehículos autónomos, la limpieza de datos es esencial para garantizar la precisión de los sistemas de detección y seguimiento de objetos. Esto puede implicar la eliminación de los datos recogidos durante el mal funcionamiento de los sensores, la corrección de los objetos mal etiquetados y el tratamiento de los datos incoherentes procedentes de diferentes sensores.

La limpieza de datos es un paso indispensable en el ciclo de vida de los proyectos de IA y ML. Al garantizar la calidad y coherencia de los datos, permite el desarrollo de modelos más precisos, fiables y sólidos. Esto, a su vez, conduce a una mejor toma de decisiones, un mejor rendimiento y más información valiosa derivada de los datos. Es importante tener en cuenta que la limpieza de datos es un proceso iterativo, y a menudo es necesario revisar y perfeccionar los pasos de la limpieza a medida que avanza el proyecto y se obtienen nuevos conocimientos.

Leer todo