Glosario

Preprocesamiento de datos

Domina el preprocesamiento de datos para el aprendizaje automático. Aprende técnicas como la limpieza, el escalado y la codificación para aumentar la precisión y el rendimiento del modelo.

El preprocesamiento de datos implica las técnicas esenciales utilizadas para limpiar, transformar y organizar los datos brutos en un formato estructurado y adecuado antes de utilizarlos para entrenar modelos de Aprendizaje Automático (AM). Los datos brutos recogidos de diversas fuentes suelen estar desordenados, y contienen valores que faltan, incoherencias, ruido o errores. El preprocesamiento aborda estos problemas, mejorando la calidad de los datos, lo que se traduce directamente en una mejora del rendimiento, la precisión y la fiabilidad de los modelos de ML. Este paso es fundamental en cualquier proyecto basado en datos, incluidos los de Inteligencia Artificial (IA) y Visión por Computador (VC).

¿Por qué es importante el preprocesamiento de datos?

El principio "basura dentro, basura fuera" se aplica firmemente al aprendizaje automático. Los modelos aprenden patrones directamente de los datos con los que se entrenan. Si los datos de entrada son defectuosos, el modelo aprenderá patrones incorrectos o irrelevantes, lo que dará lugar a predicciones deficientes y resultados poco fiables. Unos datos de alta calidad y bien preparados son cruciales para construir modelos eficaces, como los de Ultralytics YOLO para tareas exigentes como la detección de objetos. Un preprocesamiento adecuado de los datos contribuye significativamente mediante:

Mejora de la precisión del modelo: Los datos limpios y bien estructurados ayudan al modelo a aprender patrones significativos con mayor eficacia.
Mejora de la eficacia: El preprocesamiento puede reducir los recursos informáticos necesarios para el entrenamiento simplificando los datos o reduciendo su dimensionalidad.
Reducir el sobreajuste: Abordar el ruido y los valores atípicos puede impedir que el modelo aprenda estos detalles irrelevantes, mejorando su capacidad de generalización a nuevos datos y evitando el sobreajuste.
Garantizar la fiabilidad: Un formato coherente de los datos conduce a un comportamiento más estable y fiable del modelo, tanto durante el entrenamiento como durante la inferencia.

Técnicas comunes de preprocesamiento de datos

Durante el preprocesamiento de datos se aplican varias técnicas, a menudo combinadas, según el tipo de datos y la tarea específica de ML. Las técnicas clave incluyen:

Limpieza de datos: Esto implica identificar y corregir errores, tratar los valores que faltan (por ejemplo, mediante imputación o eliminación), y tratar los valores atípicos o los puntos de datos ruidosos. Herramientas como Pandas se utilizan habitualmente para esto en Python.
Transformación de datos: Este paso modifica los datos a un formato más adecuado.
- Escalado: Técnicas como la Normalización (escalar los datos a un rango, normalmente de 0 a 1) o la Estandarización (escalar los datos para que tengan media cero y varianza unidad) ayudan a los algoritmos que son sensibles a las escalas de las características, como los modelos basados en el descenso de gradiente. Obtén más información sobre las técnicas de escalado en la documentación sobre preprocesamiento de Scikit-learn.
- Codificación: Conversión de rasgos categóricos (como etiquetas de texto) en representaciones numéricas (p. ej., codificación de un punto) que los modelos puedan procesar.
Ingeniería de rasgos: Creación de nuevas características, potencialmente más informativas, a partir de las existentes, para mejorar el rendimiento del modelo. Esto requiere conocimiento del dominio y creatividad.
Extracción de características: Obtención automática de un conjunto más pequeño de características a partir de los datos originales, conservando la información esencial. Suele hacerse mediante técnicas como el Análisis de Componentes Principales (ACP).
Reducción de la dimensionalidad: Reducir el número de características de entrada para simplificar el modelo, disminuir el tiempo de entrenamiento y mitigar el riesgo de sobreajuste, especialmente importante para Big Data.
Preprocesamiento específico de la imagen: Para las tareas de visión por ordenador, los pasos habituales incluyen cambiar el tamaño de las imágenes a una dimensión coherente, convertir los espacios de color (por ejemplo, BGR a RGB), ajustar el brillo o el contraste y aplicar filtros para reducir el ruido utilizando bibliotecas como OpenCV. Ultralytics proporciona orientación sobre el preprocesamiento de datos anotados para modelos YOLO .

Aplicaciones en el mundo real

El preprocesamiento de datos es fundamental en innumerables aplicaciones de IA/ML:

Análisis de imágenes médicas: Antes de que un modelo de IA pueda analizar resonancias magnéticas o tomografías en busca de anomalías como tumores(ejemplo del conjunto de datos sobre tumores cerebrales), las imágenes deben ser preprocesadas. Esto suele incluir la reducción del ruido mediante filtros, la normalización de la intensidad para estandarizar los niveles de brillo en diferentes exploraciones y máquinas, y el registro de imágenes para alinear varias exploraciones. Estos pasos garantizan que el modelo reciba datos coherentes, mejorando su capacidad para detectar anomalías sutiles con precisión. Esto es vital para las aplicaciones de la IA en la asistencia sanitaria.
Vehículos autónomos: Los coches autónomos se basan en sensores como cámaras y LiDAR. Los datos brutos de estos sensores necesitan un preprocesamiento exhaustivo. Las imágenes de las cámaras pueden requerir un cambio de tamaño, corrección de color y ajustes de brillo para adaptarse a las distintas condiciones de iluminación. Los datos de la nube de puntos LiDAR pueden necesitar un filtrado para eliminar el ruido o los puntos de tierra. Este preprocesamiento garantiza que los sistemas de detección y seguimiento de objetos reciban datos limpios y estandarizados para identificar peatones, vehículos y obstáculos de forma fiable, algo crucial para la seguridad en las aplicaciones de IA en Automoción.