Acompáñanos en nuestro análisis de los mejores conjuntos de datos de visión por ordenador de 2025. Aprende cómo unos conjuntos de datos diversos y de alta calidad impulsan soluciones de IA de visión más inteligentes.
¿Sabías que los datos intervienen en casi todo lo que haces a diario? Ver un vídeo, hacer una foto o consultar Google Maps contribuye al flujo constante de información captada por más de 75.000 millones de dispositivos conectados. Estos datos constituyen la base de la inteligencia artificial (IA). De hecho, los modelos avanzados de visión por ordenador como Ultralytics YOLO11 se basan en datos visuales para identificar patrones, interpretar imágenes y dar sentido al mundo que nos rodea.
Curiosamente, el valor de los datos no es sólo la cantidad. Es más importante lo bien que estén organizados y preparados. Si un conjunto de datos está desordenado o incompleto, puede dar lugar a errores. Sin embargo, cuando los conjuntos de datos están limpios y son diversos, ayudan a que los modelos de visión artificial funcionen mejor, tanto si se trata de reconocer objetos en una multitud como de analizar imágenes complejas. Los conjuntos de datos de alta calidad marcan la diferencia.
En este artículo, exploraremos los mejores conjuntos de datos de visión por ordenador de 2025 y veremos cómo contribuyen a construir modelos de visión por ordenador más precisos y eficientes. ¡Empecemos ya!
Un conjunto de datos de visión por ordenador es una colección de imágenes o vídeos que ayudan a los sistemas de visión por ordenador a aprender a comprender y reconocer la información visual. Estos conjuntos de datos vienen con etiquetas o anotaciones que ayudan a los modelos a reconocer objetos, personas, escenas y patrones dentro de los datos.
Pueden utilizarse para entrenar modelos de visión por ordenador, ayudándoles a mejorar tareas como la identificación de caras, la detección de objetos o el análisis de escenas. Cuanto mejor sea el conjunto de datos -bien organizado, diverso y preciso-, mejor funcionará el modelo de IA de visión, lo que conducirá a una tecnología más inteligente y útil en la vida cotidiana.
Crear un conjunto de datos de visión por ordenador es como preparar apuntes de estudio para enseñar a alguien a ver y comprender el mundo. Todo comienza con la recopilación de imágenes y vídeos que se ajusten a la aplicación específica que estás desarrollando.
Un conjunto de datos ideal incluye diversos ejemplos de los objetos de interés, capturados desde distintos ángulos, bajo diversas condiciones de iluminación y a través de múltiples fondos y entornos. Esta variedad garantiza que el modelo de visión por ordenador aprenda a reconocer patrones con precisión y funcione con fiabilidad en escenarios del mundo real.
Tras recopilar imágenes y vídeos relevantes, el siguiente paso es el etiquetado de los datos. Este proceso consiste en añadir etiquetas, anotaciones o descripciones a los datos para que la IA pueda entender qué contiene cada imagen o vídeo.
Las etiquetas pueden incluir nombres de objetos, ubicaciones, límites u otros detalles relevantes que ayuden a entrenar el modelo para que reconozca e interprete la información visual con precisión. El etiquetado de datos transforma una simple colección de imágenes en un conjunto de datos estructurado que puede utilizarse para entrenar un modelo de visión por ordenador.
Quizá te preguntes qué hace que un conjunto de datos sea de alta calidad. Hay muchos factores implicados, como el etiquetado preciso, la diversidad y la coherencia. Por ejemplo, si varios anotadores etiquetan un conjunto de datos de detección de objetos para identificar orejas de gato, uno podría etiquetarlas como parte de la cabeza mientras que otro las etiqueta por separado como orejas. Esta incoherencia puede confundir al modelo y afectar a su capacidad de aprender correctamente.
He aquí un rápido resumen de las cualidades de un conjunto de datos de visión por ordenador ideal:
Los modelosYOLO Ultralytics , como YOLO11, están construidos para trabajar con conjuntos de datos en un formato de archivo YOLO específico. Aunque es fácil convertir tus propios datos a este formato, también ofrecemos una opción sin complicaciones para quienes quieran empezar a experimentar de inmediato.
El paquetePython Ultralytics es compatible con una amplia gama de conjuntos de datos de visión por ordenador, lo que te permite sumergirte en proyectos con tareas como la detección de objetos, la segmentación de instancias o la estimación de poses sin ninguna configuración adicional.
Los usuarios pueden acceder fácilmente a conjuntos de datos listos para usar, como COCO, DOTA-v2.0, Open Images V7 e ImageNet, especificando el nombre del conjunto de datos como uno de los parámetros de la función de entrenamiento. Al hacerlo, el conjunto de datos se descarga automáticamente y se preconfigura, para que puedas centrarte en construir y perfeccionar tus modelos.
Los avances en la IA de visión se basan en diversos conjuntos de datos a gran escala que impulsan la innovación y permiten grandes avances. Echemos un vistazo a algunos de los conjuntos de datos más importantes, respaldados por Ultralytics, que están influyendo en los modelos de visión por ordenador.
ImageNet, creada por Fei-Fei Li y su equipo de la Universidad de Princeton en 2007 y presentada en 2009, es un gran conjunto de datos con más de 14 millones de imágenes etiquetadas. Se utiliza ampliamente para entrenar sistemas que reconozcan y categoricen diferentes objetos. Su diseño estructurado lo hace especialmente útil para enseñar a los modelos a clasificar imágenes con precisión. Aunque está bien documentado, se centra principalmente en la clasificación de imágenes y carece de anotaciones detalladas para tareas como la detección de objetos.
He aquí algunos de los puntos fuertes de ImageNet:
Sin embargo, como cualquier conjunto de datos, tiene sus limitaciones. He aquí algunos de los retos a tener en cuenta:
El conjunto de datos DOTA-v2.0, donde DOTA significa Conjunto de Datos para la Detección de Objetos en Imágenes Aéreas, es una amplia colección de imágenes aéreas creadas especialmente para la detección de objetos mediante cuadros delimitadores orientados (OBB). En la detección OBB, se utilizan cuadros delimitadores rotados para alinearlos con mayor precisión con la orientación real de los objetos de la imagen. Este método funciona especialmente bien en las imágenes aéreas, donde los objetos suelen aparecer en varios ángulos, lo que permite una localización más precisa y una mejor detección en general.
Este conjunto de datos consta de más de 11.000 imágenes y más de 1,7 millones de cuadros delimitadores orientados de 18 categorías de objetos. Las imágenes oscilan entre 800×800 y 20.000×20.000 píxeles, e incluyen objetos como aviones, barcos y edificios.
Gracias a sus detalladas anotaciones, DOTA-v2.0 se ha convertido en una elección popular para proyectos de teledetección y vigilancia aérea. Estas son algunas de las principales características de DOTA-v2.0:
Aunque DOTA-v2 tiene muchos puntos fuertes, he aquí algunas limitaciones que los usuarios deben tener en cuenta:
El conjunto de datos Roboflow 100 (RF100) fue creado por Roboflow con el apoyo de Intel. Puede utilizarse para probar y comparar la eficacia de los modelos de detección de objetos. Este conjunto de datos de referencia incluye 100 conjuntos de datos diferentes elegidos entre más de 90.000 conjuntos de datos públicos. Tiene más de 224.000 imágenes y 800 clases de objetos de ámbitos como la sanidad, las vistas aéreas y los juegos.
Éstas son algunas de las principales ventajas de utilizar RF100:
A pesar de sus puntos fuertes, la RF100 también tiene ciertos inconvenientes que debes tener en cuenta:
El conjunto de datos COCO es uno de los conjuntos de datos de visión por ordenador más utilizados, ya que ofrece más de 330.000 imágenes con anotaciones de imagen detalladas. Está diseñado para la detección de objetos, la segmentación y la rotulación de imágenes, lo que lo convierte en un recurso valioso para muchos proyectos. Sus etiquetas detalladas, que incluyen cuadros delimitadores y máscaras de segmentación, ayudan a los sistemas a aprender a analizar imágenes con precisión.
Este conjunto de datos es conocido por su flexibilidad y resulta útil para diversas tareas, desde proyectos sencillos a complejos. Se ha convertido en un estándar en el campo de la IA de Visión, utilizado frecuentemente en retos y concursos para evaluar el rendimiento de los modelos.
Algunos de sus puntos fuertes son:
Aquí tienes también algunos factores limitantes que debes tener en cuenta:
Open Images V7 es un enorme conjunto de datos de código abierto comisariado por Google, que contiene más de 9 millones de imágenes con anotaciones para 600 categorías de objetos. Incluye diversos tipos de anotaciones y es ideal para abordar tareas complejas de visión por ordenador. Su escala y profundidad proporcionan un recurso completo para entrenar y probar modelos de visión por ordenador.
Además, la popularidad del conjunto de datos Open Images V7 en la investigación proporciona muchos recursos y ejemplos de los que los usuarios pueden aprender. Sin embargo, su enorme tamaño puede hacer que la descarga y el procesamiento lleven mucho tiempo, especialmente para los equipos más pequeños. Otro problema es que algunas anotaciones pueden ser incoherentes, lo que requiere un esfuerzo adicional para limpiar los datos, y la integración no siempre es perfecta, lo que significa que puede ser necesaria una preparación adicional.
Elegir el conjunto de datos adecuado es una parte importante del éxito de tu proyecto de visión por ordenador. La mejor elección depende de tu tarea específica: encontrar una buena combinación ayuda a tu modelo a aprender las habilidades adecuadas. También debe integrarse fácilmente con tus herramientas, para que puedas centrarte más en la construcción de tu modelo y menos en la resolución de problemas.
Los conjuntos de datos de alta calidad son la columna vertebral de cualquier modelo de visión por ordenador, ya que ayudan a los sistemas a aprender a interpretar las imágenes con precisión. Los conjuntos de datos diversos y bien anotados son especialmente importantes, ya que permiten que los modelos funcionen con fiabilidad en situaciones reales y reducen los errores causados por datos limitados o de mala calidad.
Ultralytics simplifica el proceso de acceder y trabajar con conjuntos de datos de visión por ordenador, facilitando la búsqueda de los datos adecuados para tu proyecto. Elegir el conjunto de datos adecuado es un paso crucial para construir un modelo de alto rendimiento, que conduzca a resultados más precisos e impactantes.
Únete a nuestra comunidad y explora nuestro repositorio de GitHub para aprender más sobre IA. Descubre avances como la visión por ordenador para la sanidad y la IA en los coches autoconducidos en nuestras páginas de soluciones. Echa un vistazo a nuestras opciones de licencia y da el primer paso para empezar hoy mismo con la visión computerizada.
Comienza tu viaje con el futuro del aprendizaje automático