El sesgo del conjunto de datos es un problema crítico en el aprendizaje automático (AM), en el que los datos utilizados para entrenar un modelo no representan sistemáticamente la diversidad y complejidad del entorno del mundo real en el que se desplegará el modelo. Esta discrepancia surge de fallos en los procesos de recopilación, muestreo o anotación de datos. En consecuencia, los modelos entrenados en conjuntos de datos sesgados pueden obtener buenos resultados en las métricas de evaluación utilizando datos similares, pero mostrar una generalización deficiente, inexactitud e injusticia cuando se aplican a datos nuevos, no vistos, o a grupos demográficos diferentes. Abordar el sesgo de los conjuntos de datos es esencial para construir sistemas de IA fiables, eficaces y equitativos, como se destaca en los debates en torno al Sesgo en la IA.
Tipos de sesgo del conjunto de datos
Hay varias formas de sesgo que pueden infiltrarse en los conjuntos de datos, provocando resultados sesgados en los modelos. Comprender estos tipos es el primer paso para mitigarlos:
- Sesgo de selección: Se produce cuando el proceso de recogida de datos favorece a determinados subconjuntos de datos en detrimento de otros, lo que da lugar a una muestra no representativa. Por ejemplo, si sólo se recogen datos de tráfico durante unas horas determinadas, pueden perderse patrones de otras horas.
- Sesgo de muestreo: Un tipo específico de sesgo de selección en el que la muestra recogida no refleja con exactitud las proporciones de la población objetivo. El uso de métodos de muestreo no aleatorios puede provocarlo a menudo.
- Sesgo de medición: Surge de imprecisiones o incoherencias durante la medición de datos o la fase de anotación. Puede tratarse de sensores defectuosos o de incoherencias subjetivas en el etiquetado de datos realizado por diferentes anotadores.
- Sesgo deetiqueta: Se produce cuando las etiquetas asignadas a los puntos de datos son subjetivas, incoherentes o reflejan sesgos implícitos de los anotadores, potencialmente influidos por factores como la explicación del Sesgo de Confirmación.
- Sesgo de representación: Ocurre cuando el conjunto de datos subrepresenta determinados grupos o atributos presentes en el mundo real, lo que hace que el modelo obtenga malos resultados para esos grupos.
Ejemplos reales de sesgo del conjunto de datos
El sesgo de los conjuntos de datos puede tener importantes consecuencias en el mundo real en diversas aplicaciones:
- Sistemas de Reconocimiento Facial: Muchos de los primeros sistemas de glosario de Reconocimiento Facial se entrenaron con conjuntos de datos en los que predominaban los rostros masculinos de piel más clara. Como resultado, estos sistemas solían mostrar una precisión significativamente menor al identificar individuos con tonos de piel más oscuros o rostros femeninos, como se documenta en el estudio del NIST sobre los efectos demográficos en el reconocimiento facial.
- Análisis de imágenes médicas: Un modelo de IA diseñado para detectar el cáncer de piel podría entrenarse principalmente con imágenes de individuos de piel clara. Si se aplica en una población diversa, podría no detectar con precisión tumores malignos en individuos con tonos de piel más oscuros debido a la falta de imágenes representativas en los datos de entrenamiento, lo que pondría de relieve los problemas de parcialidad en la investigación de la IA médica y afectaría a la eficacia de la IA en la asistencia sanitaria.
Identificar y mitigar el sesgo del conjunto de datos
Detectar el sesgo del conjunto de datos implica un análisis cuidadoso de la fuente de datos, los métodos de recopilación y la distribución de características y etiquetas. Las técnicas incluyen el análisis exploratorio de datos, las pruebas estadísticas que comparan el rendimiento de los subgrupos y la visualización de datos para detectar desequilibrios.
Una vez identificadas, las estrategias de mitigación incluyen
- Recoger datos más representativos: Ampliando los esfuerzos de recogida de datos para incluir a grupos y escenarios infrarrepresentados.
- Aumento de datos: Aplicar técnicas como la rotación de imágenes, el recorte o los cambios de color mediante herramientas integradas en modelos como Ultralytics YOLO puede ayudar a aumentar la diversidad de los datos, como se detalla en el glosario de Aumento de datos.
- Técnicas de remuestreo: Ajuste del conjunto de datos mediante sobremuestreo de clases minoritarias o submuestreo de clases mayoritarias.
- Técnicas Algorítmicas de Equidad: Implementación de algoritmos diseñados para promover la equidad durante el entrenamiento del modelo o el post-procesamiento. Herramientas como AI Fairness 360 Toolkit (IBM Research) ofrecen recursos para ello.
- Utilizar conjuntos de datos de referencia diversos: Evaluar los modelos en Conjuntos de Datos de Referencia normalizados, conocidos por su diversidad.
Conceptos relacionados
El sesgo del conjunto de datos está estrechamente relacionado con otros conceptos importantes de la IA:
- Sesgo algorítmico: Mientras que el sesgo del conjunto de datos procede de los datos, el sesgo algorítmico se origina en el diseño del modelo o en el proceso de aprendizaje, que puede amplificar los sesgos existentes o introducir otros nuevos.
- Equidad en la IA: Este campo se centra en el desarrollo de sistemas de IA que traten a los individuos y a los grupos de forma equitativa, lo que a menudo implica la medición y mitigación de los sesgos del conjunto de datos y de los algoritmos.
- Ética de la IA: El sesgo de los conjuntos de datos es una preocupación ética importante, ya que los modelos sesgados pueden perpetuar la discriminación y el daño. Unos marcos éticos más amplios guían el desarrollo responsable de la IA, defendidos por organizaciones como la Asociación sobre IA (PAI).
- IA explicable (XAI): Las técnicas que hacen más transparentes las predicciones de los modelos pueden ayudar a identificar si los sesgos del conjunto de datos están influyendo en los resultados.
Comprender y abordar de forma proactiva el sesgo de los conjuntos de datos, como se expone en recursos como el blog Understanding AI Bias (Comprender el sesgo de la IA) y las Prácticas Responsables de IA deGoogle, es crucial para crear sistemas de IA dignos de confianza. La investigación y los recursos de entidades como Microsoft Responsible AI Resources y la ACM Conference on Fairness, Accountability, and Transparency (FAccT) siguen avanzando en los métodos para abordar este reto.