Explora las causas del sesgo en los conjuntos de datos de IA y aprende a mitigarlo. Descubre cómo utilizar la Ultralytics y Ultralytics para mejorar la imparcialidad.
El sesgo de los conjuntos de datos se produce cuando la información utilizada para entrenar los modelos de aprendizaje automático (ML) contiene errores sistemáticos o distribuciones sesgadas, lo que lleva al sistema de IA resultante a favorecer ciertos resultados sobre otros. Dado que los modelos funcionan como motores de reconocimiento de patrones, dependen totalmente de sus entradas; si los datos de entrenamiento no reflejan con precisión la diversidad del entorno del mundo real, el modelo heredará estos puntos ciegos. Este fenómeno suele dar lugar a una generalización deficiente, en la que una IA puede obtener puntuaciones altas durante las pruebas, pero falla significativamente cuando se implementa para la inferencia en tiempo real en escenarios diversos o inesperados .
El sesgo puede infiltrarse en un conjunto de datos en varias etapas del ciclo de vida del desarrollo, a menudo como resultado de decisiones humanas durante la recopilación o anotación.
El impacto del sesgo de los conjuntos de datos es significativo en diversas industrias, especialmente cuando los sistemas automatizados toman decisiones de alto riesgo o interactúan con el mundo físico.
En la industria automovilística, la IA en automoción se basa en cámaras para identificar peatones y obstáculos. Si un coche autónomo se entrena principalmente con datos recopilados en climas soleados y secos, puede mostrar una degradación del rendimiento cuando funciona con nieve o lluvia intensa. Este es un ejemplo clásico de que la distribución del entrenamiento no coincide con la distribución operativa, lo que conlleva riesgos para la seguridad.
Del mismo modo, en el análisis de imágenes médicas, los modelos de diagnóstico suelen entrenarse con datos históricos de pacientes. Si un modelo diseñado para detect afecciones detect se entrena con un conjunto de datos en el que predominan los tonos de piel más claros, puede mostrar una precisión significativamente menor a la hora de diagnosticar a pacientes con piel más oscura. Para abordar esta cuestión es necesario un esfuerzo concertado para seleccionar conjuntos de datos diversos que garanticen la equidad de la IA en todos los grupos demográficos.
Los desarrolladores pueden reducir el sesgo de los conjuntos de datos mediante la aplicación de rigurosas estrategias de auditoría y formación avanzada. Técnicas como el aumento de datos ayudan a equilibrar los conjuntos de datos mediante la creación artificial de variaciones de ejemplos infrarrepresentados (por ejemplo, volteando, rotando o ajustando el brillo). Además, la generación de datos sintéticos puede llenar los vacíos donde los datos del mundo real son escasos o difíciles de recopilar.
Es fundamental gestionar estos conjuntos de datos de forma eficaz. Ultralytics permite a los equipos visualizar las distribuciones de clases e identificar desequilibrios antes de que comience el entrenamiento. Además, el cumplimiento de directrices como el Marco de Gestión de Riesgos de IA del NIST ayuda a las organizaciones a estructurar su enfoque para identificar y mitigar estos riesgos de forma sistemática.
Es útil distinguir el sesgo del conjunto de datos de términos similares para comprender dónde se origina el error:
El siguiente ejemplo muestra cómo aplicar el aumento de datos durante el entrenamiento con YOLO26. Al aumentar las ampliaciones geométricas, el modelo aprende a generalizar mejor, lo que reduce potencialmente el sesgo hacia orientaciones o posiciones específicas de objetos que se encuentran en el conjunto de entrenamiento.
from ultralytics import YOLO
# Load YOLO26n, a high-efficiency model ideal for edge deployment
model = YOLO("yolo26n.pt")
# Train with increased augmentation to improve generalization
# 'fliplr' (flip left-right) and 'scale' help the model see diverse variations
results = model.train(
data="coco8.yaml",
epochs=50,
fliplr=0.5, # 50% probability of horizontal flip
scale=0.5, # +/- 50% image scaling
)