Conjuntos de datos de CV: Los datos de alta calidad importan

A partir de 2019, la adopción de inteligencia artificial (IA) empresarial había aumentado un 270% en los cuatro años anteriores. Este crecimiento ha impulsado la rápida integración de aplicaciones de visión artificial (CV), sistemas de IA que permiten a las máquinas interpretar y analizar datos visuales del mundo que les rodea. Estas aplicaciones impulsan una amplia gama de tecnologías, desde la detección de enfermedades en imágenes médicas y la habilitación de vehículos autónomos hasta la optimización del flujo de tráfico en el transporte y la mejora de la vigilancia en los sistemas de seguridad.

La notable precisión y el inigualable rendimiento de modelos de visión por ordenador de última generación como Ultralytics YOLO11 han impulsado en gran medida este crecimiento exponencial. Sin embargo, el rendimiento de estos modelos depende en gran medida de la calidad y la cantidad de los datos utilizados para entrenar, validar y probar los modelos.

Sin suficientes datos de alta calidad, los modelos de visión artificial pueden ser difíciles de entrenar y ajustar eficazmente para cumplir con los estándares de la industria. En este artículo, exploraremos el papel vital de los datos en la creación de modelos de visión artificial y por qué los datos de alta calidad son tan importantes en la visión artificial. También repasaremos algunos consejos para ayudarle a crear conjuntos de datos de alta calidad mientras trabaja en el entrenamiento de modelos de visión artificial personalizados. ¡Empecemos!

El papel de los datos en la construcción de modelos de visión artificial

Los modelos de visión artificial se pueden entrenar con grandes conjuntos de datos de imágenes y vídeos para reconocer patrones y hacer predicciones precisas. Por ejemplo, se puede entrenar un modelo de detección de objetos con cientos, o incluso miles, de imágenes y vídeos etiquetados para identificar objetos con precisión.

La calidad y la cantidad de estos datos de entrenamiento influyen en el rendimiento del modelo.

Dado que los modelos de visión artificial solo pueden aprender de los datos a los que están expuestos, es crucial proporcionar datos de alta calidad y ejemplos diversos para su éxito. Sin conjuntos de datos suficientes y diversos, estos modelos pueden no analizar con precisión los escenarios del mundo real y podrían producir resultados sesgados o inexactos.

Por eso es importante entender claramente el papel de los datos en el entrenamiento de modelos. Antes de repasar las características de los datos de alta calidad, vamos a entender los tipos de conjuntos de datos que puede encontrar al entrenar modelos de visión artificial.

Tipos de conjuntos de datos de visión artificial

En visión artificial, los datos utilizados en el proceso de entrenamiento se clasifican en tres tipos, cada uno con un propósito específico. Aquí tienes un vistazo rápido a cada tipo:

Datos de entrenamiento: Este es el conjunto de datos principal utilizado para entrenar el modelo desde cero. Consiste en imágenes y vídeos con etiquetas predefinidas, lo que permite al modelo aprender patrones y reconocer objetos.
‍
Datos de validación: Este es un conjunto de datos que se utiliza para comprobar el rendimiento de un modelo mientras se está entrenando. Ayuda a garantizar que el modelo funcione correctamente con datos nuevos no vistos.
‍
Datos de prueba: Un conjunto de datos separado que se utiliza para evaluar el rendimiento final de un modelo entrenado. Comprueba qué tan bien el modelo puede hacer predicciones sobre datos completamente nuevos y no vistos.

__wf_reserved_inherit — Fig. 1. Cómo se categorizan los datos en la visión artificial.

‍

Las 5 principales características de los conjuntos de datos de visión artificial de alta calidad

Independientemente del tipo de dataset, los datos de alta calidad son esenciales para construir modelos de visión artificial exitosos. Estas son algunas de las características clave que hacen que un dataset sea de alta calidad:

Precisión: Idealmente, los datos deben reflejar fielmente situaciones del mundo real e incluir etiquetas correctas. Por ejemplo, cuando se trata de IA de visión en el sector salud, las imágenes de radiografías o escaneos deben estar etiquetadas con precisión para ayudar al modelo a aprender correctamente.
‍
Diversidad: Un buen conjunto de datos incluye una variedad de ejemplos para ayudar al modelo a funcionar bien en diferentes situaciones. Por ejemplo, si un modelo está aprendiendo a detect coches, el conjunto de datos debe incluir coches de diferentes formas, tamaños y colores en varios escenarios (día, noche, lluvia, etc.).
‍
Consistencia: Los conjuntos de datos de alta calidad siguen un formato uniforme y unos estándares de calidad. Por ejemplo, las imágenes deben tener resoluciones similares (no algunas borrosas y otras nítidas) y pasar por los mismos pasos de preprocesamiento, como el cambio de tamaño o los ajustes de color, para que el modelo aprenda de información consistente.
‍
Puntualidad: Los conjuntos de datos que se actualizan periódicamente pueden seguir el ritmo de los cambios del mundo real. Supongamos que se está entrenando un modelo para detect todo tipo de vehículos. Si se introducen otros nuevos, como los patinetes eléctricos, deben añadirse al conjunto de datos para asegurarse de que el modelo sigue siendo preciso y está actualizado.
‍
Privacidad: Si un conjunto de datos incluye información confidencial, como fotos de personas, debe cumplir con las normas de privacidad. Técnicas como la anonimización (eliminar detalles identificables) y el enmascaramiento de datos (ocultar partes confidenciales) pueden proteger la privacidad y, al mismo tiempo, permitir el uso seguro de los datos.

Desafíos causados por datos de baja calidad

Si bien es importante comprender las características de los datos de alta calidad, es igual de vital considerar cómo los datos de baja calidad pueden afectar a sus modelos de visión artificial.

Problemas como el sobreajuste (overfitting) y el subajuste (underfitting) pueden afectar gravemente el rendimiento del modelo. El sobreajuste ocurre cuando un modelo funciona bien con los datos de entrenamiento, pero tiene dificultades con datos nuevos o no vistos, a menudo porque el dataset carece de variedad. El subajuste, por otro lado, ocurre cuando el dataset no proporciona suficientes ejemplos o calidad para que el modelo aprenda patrones significativos. Para evitar estos problemas, es esencial mantener datasets diversos, imparciales y de alta calidad, garantizando un rendimiento fiable tanto en el entrenamiento como en las aplicaciones del mundo real.

‍

Los datos de baja calidad también pueden dificultar que los modelos extraigan y aprendan patrones significativos de los datos brutos, un proceso conocido como extracción de características. Si el conjunto de datos está incompleto, es irrelevante o carece de diversidad, el modelo puede tener dificultades para funcionar eficazmente.

A veces, los datos de baja calidad pueden ser el resultado de la simplificación de los datos. La simplificación de los datos puede ayudar a ahorrar espacio de almacenamiento y reducir los costes de procesamiento, pero la simplificación excesiva puede eliminar detalles importantes que el modelo necesita para funcionar bien. Por eso es tan importante mantener datos de alta calidad durante todo el proceso de visión artificial, desde la recopilación hasta la implementación. Como regla general, los conjuntos de datos deben incluir características esenciales, a la vez que siguen siendo diversos y precisos para garantizar predicciones fiables del modelo.

‍

Consejos para mantener la calidad de su conjunto de datos de visión artificial

Ahora que hemos comprendido la importancia de los datos de alta calidad y el impacto de los datos de baja calidad, exploremos cómo asegurarnos de que su conjunto de datos cumpla con los altos estándares.

Todo comienza con una recopilación de datos fiable. El uso de diversas fuentes, como el crowdsourcing, datos de variadas regiones geográficas y la generación de datos sintéticos, reduce el sesgo y ayuda a los modelos a manejar escenarios del mundo real. Una vez que se recopilan los datos, el preprocesamiento es fundamental. Técnicas como la normalización, que escala los valores de los píxeles a un rango consistente, y la aumentación, que aplica transformaciones como la rotación, el volteo y el zoom, mejoran el dataset. Estos pasos ayudan a que tu modelo se generalice mejor y se vuelva más robusto, reduciendo el riesgo de sobreajuste.

Dividir correctamente los conjuntos de datos es otro paso clave. Un enfoque común es asignar el 70% de los datos para el entrenamiento, el 15% para la validación y el 15% para las pruebas. Comprobar que no haya superposición entre estos conjuntos evita la fuga de datos y garantiza una evaluación precisa del modelo.

‍

También puede utilizar modelos preentrenados como YOLO11 para ahorrar tiempo y recursos informáticos. YOLO11, entrenado en grandes conjuntos de datos y diseñado para diversas tareas de visión por ordenador, puede ajustarse en su conjunto de datos específico para satisfacer sus necesidades. Al ajustar el modelo a sus datos, puede evitar el sobreajuste y mantener un rendimiento sólido.

El camino a seguir para los conjuntos de datos de visión artificial

La comunidad de la IA se ha centrado tradicionalmente en mejorar el rendimiento mediante la construcción de modelos más profundos con más capas. Sin embargo, a medida que la IA continúa evolucionando, el enfoque está cambiando de la optimización de modelos a la mejora de la calidad de los conjuntos de datos. Andrew Ng, a menudo denominado el "padre de la IA", cree que "el cambio más importante que el mundo de la IA debe experimentar en esta década será un cambio hacia la IA centrada en los datos".

Este enfoque enfatiza el refinamiento de los conjuntos de datos mediante la mejora de la precisión de las etiquetas, la eliminación de ejemplos ruidosos y la garantía de la diversidad. Para la visión artificial, estos principios son fundamentales para abordar problemas como el sesgo y los datos de baja calidad, lo que permite que los modelos funcionen de manera fiable en escenarios del mundo real.

De cara al futuro, el avance de la visión artificial dependerá de la creación de conjuntos de datos más pequeños y de alta calidad en lugar de recopilar grandes cantidades de datos. Según Andrew Ng, "Mejorar los datos no es un paso de preprocesamiento único; es una parte fundamental del proceso iterativo de desarrollo de modelos de aprendizaje automático". Al centrarse en los principios centrados en los datos, la visión artificial seguirá siendo más accesible, eficiente e impactante en diversas industrias.

Conclusiones clave

Los datos desempeñan un papel fundamental a lo largo del ciclo de vida de un modelo de visión. Desde la recopilación hasta el preprocesamiento, el entrenamiento, la validación y las pruebas, la calidad de los datos influye directamente en el rendimiento y la fiabilidad del modelo. Al priorizar los datos de alta calidad y el etiquetado preciso, podemos construir modelos de visión artificial robustos que ofrezcan resultados fiables y precisos.

A medida que avanzamos hacia un futuro impulsado por datos, es esencial abordar las consideraciones éticas para mitigar los riesgos relacionados con el sesgo y las regulaciones de privacidad. En última instancia, garantizar la integridad y la equidad de los datos es clave para desbloquear todo el potencial de las tecnologías de visión artificial.

Únase a nuestra comunidad y consulte nuestro repositorio de GitHub para obtener más información sobre la IA. Consulte nuestras páginas de soluciones para explorar más aplicaciones de la IA en sectores como la agricultura y la fabricación.

La importancia de los conjuntos de datos de visión artificial de alta calidad

El papel de los datos en la construcción de modelos de visión artificial

Tipos de conjuntos de datos de visión artificial

Las 5 principales características de los conjuntos de datos de visión artificial de alta calidad

Desafíos causados por datos de baja calidad

Consejos para mantener la calidad de su conjunto de datos de visión artificial

El camino a seguir para los conjuntos de datos de visión artificial

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro
de la IA!

La importancia de los conjuntos de datos de visión artificial de alta calidad

El papel de los datos en la construcción de modelos de visión artificial

Tipos de conjuntos de datos de visión artificial

Las 5 principales características de los conjuntos de datos de visión artificial de alta calidad

Desafíos causados por datos de baja calidad

Consejos para mantener la calidad de su conjunto de datos de visión artificial

El camino a seguir para los conjuntos de datos de visión artificial

Conclusiones clave

Leer más en esta categoría

12 casos de uso de imágenes aéreas impulsados por la visión artificial

Herramientas de visión artificial para el diagnóstico sanitario

De los datos a las decisiones: uso de la IA visual para la estrategia empresarial

¡Construyamos juntos el futuro de la IA!

¡Construyamos juntos el futuro
de la IA!