Contrôle vert
Lien copié dans le presse-papiers

Explorer les meilleurs ensembles de données de vision par ordinateur en 2025

Rejoins-nous pour examiner de plus près les meilleurs ensembles de données de vision par ordinateur de 2025. Apprends comment des ensembles de données diversifiés et de haute qualité favorisent des solutions d'IA de vision plus intelligentes.

Savais-tu que les données jouent un rôle dans presque tout ce que tu fais quotidiennement ? Regarder une vidéo, prendre une photo ou consulter Google Maps contribue au flux constant d'informations capturées par plus de 75 milliards d' appareils connectés. Ces éléments de données constituent le fondement de l'intelligence artificielle (IA). En fait, les modèles avancés de vision par ordinateur comme Ultralytics YOLO11 s'appuient sur les données visuelles pour identifier des modèles, interpréter des images et donner un sens au monde qui nous entoure.

Il est intéressant de noter que la valeur des données n'est pas seulement une question de quantité. Il est plus important de savoir comment elles sont organisées et préparées. Si un ensemble de données est désordonné ou incomplet, il peut entraîner des erreurs. En revanche, lorsque les ensembles de données sont propres et diversifiés, ils permettent aux modèles de vision par ordinateur d'être plus performants, qu'il s'agisse de reconnaître des objets dans une foule ou d'analyser des visuels complexes. Les ensembles de données de haute qualité font toute la différence.

Dans cet article, nous allons explorer les meilleurs ensembles de données de vision par ordinateur de 2025 et voir comment ils contribuent à construire des modèles de vision par ordinateur plus précis et plus efficaces. Commençons !

Que sont les ensembles de données de vision par ordinateur ?

Un ensemble de données de vision par ordinateur est une collection d'images ou de vidéos qui aident les systèmes de vision par ordinateur à apprendre à comprendre et à reconnaître les informations visuelles. Ces ensembles de données sont accompagnés d'étiquettes ou d'annotations qui aident les modèles à reconnaître des objets, des personnes, des scènes et des modèles dans les données.

Ils peuvent être utilisés pour entraîner les modèles de vision artificielle, ce qui les aide à améliorer des tâches telles que l'identification de visages, la détection d'objets ou l'analyse de scènes. Plus l'ensemble de données est de qualité - bien organisé, diversifié et précis - plus le modèle d'IA de vision est performant, ce qui permet d'obtenir une technologie plus intelligente et plus utile dans la vie de tous les jours.

Comment construire un ensemble de données de vision par ordinateur

Construire un ensemble de données de vision par ordinateur, c'est comme préparer des notes d'étude pour enseigner à quelqu'un comment voir et comprendre le monde. Tout commence par la collecte d'images et de vidéos qui correspondent à l'application spécifique que tu es en train de développer. 

Un ensemble de données idéal comprend divers exemples d'objets intéressants, capturés sous différents angles, dans diverses conditions d'éclairage et sur plusieurs arrière-plans et environnements. Cette variété permet de s'assurer que le modèle de vision par ordinateur apprend à reconnaître les modèles avec précision et qu'il fonctionne de manière fiable dans des scénarios réels.

Fig 1. Construction de l'ensemble de données de vision parfait. Image par l'auteur.

Après avoir rassemblé des images et des vidéos pertinentes, l'étape suivante est l'étiquetage des données. Ce processus consiste à ajouter des étiquettes, des annotations ou des descriptions aux données afin que l'IA puisse comprendre ce que contient chaque image ou vidéo. 

Les étiquettes peuvent inclure des noms d'objets, des emplacements, des limites ou d'autres détails pertinents qui aident à former le modèle à reconnaître et à interpréter les informations visuelles avec précision. L'étiquetage des données transforme une simple collection d'images en un ensemble de données structuré qui peut être utilisé pour former un modèle de vision par ordinateur.

L'entraînement des modèles nécessite des données de haute qualité

Tu te demandes peut-être ce qui fait la qualité d'un ensemble de données. De nombreux facteurs entrent en jeu, comme l'exactitude de l'étiquetage, la diversité et la cohérence. Par exemple, si plusieurs annotateurs étiquettent un ensemble de données de détection d'objets pour identifier les oreilles de chat, l'un d'entre eux peut les étiqueter comme faisant partie de la tête tandis qu'un autre les étiquette séparément comme étant des oreilles. Cette incohérence peut perturber le modèle et affecter sa capacité à apprendre correctement.

Voici un aperçu rapide des qualités d'un ensemble de données de vision par ordinateur idéal :

  • Des étiquettes claires: Chaque image est annotée avec précision par des étiquettes cohérentes et précises.
  • Données diverses: Le jeu de données comprend différents objets, arrière-plans, conditions d'éclairage et angles pour aider le modèle à bien fonctionner dans diverses situations.
  • Images à haute résolution: Les images nettes et détaillées facilitent l'apprentissage et la reconnaissance des caractéristiques par le modèle.

Ultralytics prend en charge différents ensembles de données

Les modèlesYOLO Ultralytics , comme YOLO11, sont conçus pour fonctionner avec des ensembles de données dans un format de fichier YOLO spécifique. Bien qu'il soit facile de convertir tes propres données dans ce format, nous proposons également une option sans tracas pour ceux qui veulent commencer à expérimenter tout de suite. 

Le packageUltralytics Python prend en charge un large éventail d'ensembles de données de vision par ordinateur, ce qui te permet de te plonger dans des projets utilisant des tâches telles que la détection d'objets, la segmentation d'instances ou l'estimation de la pose sans aucune configuration supplémentaire.  

Les utilisateurs peuvent facilement accéder à des ensembles de données prêts à l'emploi tels que COCO, DOTA-v2.0, Open Images V7 et ImageNet en spécifiant le nom de l'ensemble de données comme l'un des paramètres de la fonction d'apprentissage. L'ensemble de données est alors automatiquement téléchargé et préconfiguré, ce qui te permet de te concentrer sur la construction et l'affinement de tes modèles.

Les 5 meilleurs ensembles de données de vision par ordinateur en 2025

Les avancées en matière d'IA de vision reposent sur des ensembles de données diversifiés et à grande échelle qui stimulent l'innovation et permettent des percées. Jetons un coup d'œil à certains des ensembles de données les plus importants, pris en charge par Ultralytics, qui influencent les modèles de vision artificielle.

Ensemble de données ImageNet 

ImageNet, créé par Fei-Fei Li et son équipe à l'université de Princeton en 2007 et présenté en 2009, est un vaste ensemble de données comprenant plus de 14 millions d'images étiquetées. Il est largement utilisé pour former des systèmes à la reconnaissance et à la catégorisation de différents objets. Sa conception structurée le rend particulièrement utile pour apprendre aux modèles à classer les images avec précision. Bien que bien documenté, il se concentre principalement sur la classification des images et manque d'annotations détaillées pour des tâches telles que la détection d'objets. 

Voici un aperçu des principaux atouts d'ImageNet :

  • Diversité : Avec des images couvrant plus de 20 000 catégories, ImageNet offre un ensemble de données vaste et varié qui améliore la formation et la généralisation des modèles.
  • Organisation structurée : Les images sont méticuleusement classées à l'aide de la hiérarchie WordNet, ce qui facilite l'extraction efficace des données et l'entraînement systématique des modèles. 
  • Une documentation complète: Des recherches approfondies et des années d'études rendent ImageNet accessible aux débutants comme aux experts, et fournissent des indications et des conseils précieux pour les projets de vision par ordinateur.

Cependant, comme tout ensemble de données, il a ses limites. Voici quelques-uns des défis à relever :

  • Exigences informatiques : Sa taille massive peut poser des problèmes aux petites équipes dont les ressources informatiques sont limitées.
  • Manque de données temporelles : Comme il ne contient que des images statiques, il peut ne pas répondre aux besoins des applications nécessitant des données vidéo ou temporelles.
  • Images périmées : Certaines images du jeu de données sont plus anciennes et peuvent ne pas refléter les objets, les styles ou les environnements actuels, ce qui réduit potentiellement la pertinence pour les applications modernes.

Ensemble de données DOTA-v2.0

Le jeu de données DOTA-v2.0, où DOTA signifie Dataset for Object Detection in Aerial Images (jeu de données pour la détection d'objets dans les images aériennes), est une vaste collection d'images aériennes créées spécialement pour la détection d'objets par boîtes de délimitation orientées (OBB). Dans la détection OBB, les boîtes de délimitation tournées sont utilisées pour s'aligner plus précisément sur l'orientation réelle des objets dans l'image. Cette méthode fonctionne particulièrement bien pour les images aériennes, où les objets apparaissent souvent sous différents angles, ce qui permet une localisation plus précise et une meilleure détection en général.

Cet ensemble de données comprend plus de 11 000 images et plus de 1,7 million de boîtes de délimitation orientées dans 18 catégories d'objets. Les images vont de 800×800 à 20 000×20 000 pixels et comprennent des objets tels que des avions, des bateaux et des bâtiments. 

Fig 2. Exemples d'images et d'annotations de l'ensemble de données DOTA-v2.0. Image par l'auteur.

Grâce à ses annotations détaillées, DOTA-v2.0 est devenu un choix populaire pour les projets de télédétection et de surveillance aérienne. Voici quelques-unes des principales caractéristiques de DOTA-v2.0 :

  • Diverses catégories d'objets : Il couvre de nombreux types d'objets différents, tels que des véhicules, des ports et des réservoirs de stockage, ce qui permet aux modèles d'être exposés à divers objets du monde réel.
  • Annotations de haute qualité : Des annotateurs experts ont fourni des boîtes de délimitation orientées avec précision qui montrent clairement les formes et les directions des objets.
  • Images multi-échelles : L'ensemble de données comprend des images de différentes tailles, ce qui aide les modèles à apprendre à détecter des objets à la fois à petite et à grande échelle.

Bien que DOTA-v2 présente de nombreux atouts, voici quelques limites que les utilisateurs doivent garder à l'esprit :

  • Etapes de téléchargement supplémentaires : En raison de la façon dont l'ensemble de données DOTA est maintenu, DOTA-v2.0 nécessite une étape d'installation supplémentaire. Tu dois d'abord télécharger les images de DOTA-v1.0, puis ajouter les images supplémentaires et les annotations mises à jour pour DOTA-v2.0 afin de compléter l'ensemble de données.
  • Annotations complexes : Les boîtes de délimitation orientées peuvent nécessiter un effort supplémentaire pour être traitées pendant la formation du modèle.
  • Portée limitée : DOTA-v2 est conçu pour les images aériennes, ce qui le rend moins utile pour les tâches générales de détection d'objets en dehors de ce domaine.

Ensemble de données Roboflow 100 

L'ensemble de données Roboflow 100 (RF100) a été créé par Roboflow avec le soutien d'Intel. Il peut être utilisé pour tester et étalonner le fonctionnement des modèles de détection d'objets. Cet ensemble de données de référence comprend 100 ensembles de données différents choisis parmi plus de 90 000 ensembles de données publiques. Il contient plus de 224 000 images et 800 classes d'objets dans des domaines tels que les soins de santé, les vues aériennes et les jeux. 

Voici quelques-uns des principaux avantages de l'utilisation du RF100 :

  • Large couverture des domaines : Il comprend des ensembles de données provenant de sept domaines, tels que l'imagerie médicale, les vues aériennes et l'exploration sous-marine. 
  • Encourage l'amélioration des modèles : La variabilité et les défis spécifiques au domaine de la RF100 révèlent les lacunes des modèles actuels, ce qui pousse la recherche vers des solutions de détection d'objets plus adaptables et plus robustes.
  • Format d'image cohérent : Toutes les images sont redimensionnées à 640x640 pixels. Cela permet aux utilisateurs de former des modèles sans avoir à ajuster la taille des images.

Malgré ses atouts, le RF100 présente aussi certains inconvénients qu'il faut garder à l'esprit :

  • Limité en termes de tâches : Le RF100 est conçu pour la détection d'objets, il ne peut donc pas s'adapter à des tâches comme la segmentation ou la classification.
  • Objectif centré sur l'analyse comparative : Le RF100 est principalement conçu comme un outil d'analyse comparative plutôt que pour former des modèles pour des applications réelles, de sorte que ses résultats peuvent ne pas se traduire entièrement par des scénarios de déploiement pratiques.
  • Variabilité des annotations: Étant donné que RF100 agrège des ensembles de données provenant de la foule, il peut y avoir des incohérences dans la qualité des annotations et les pratiques d'étiquetage, ce qui peut avoir un impact sur l'évaluation et la mise au point des modèles.

Jeu de données COCO (Common objects in context)

L'ensemble de données COCO est l'un des ensembles de données de vision par ordinateur les plus utilisés, offrant plus de 330 000 images avec des annotations d'images détaillées. Il est conçu pour la détection d'objets, la segmentation et le sous-titrage d'images, ce qui en fait une ressource précieuse pour de nombreux projets. Ses étiquettes détaillées, y compris les boîtes de délimitation et les masques de segmentation, aident les systèmes à apprendre à analyser les images avec précision.

Cet ensemble de données est connu pour sa flexibilité et est utile pour diverses tâches, des projets simples aux projets complexes. Il est devenu un standard dans le domaine de l'IA de la vision, fréquemment utilisé dans les défis et les concours pour évaluer les performances des modèles.

Voici quelques-uns de ses points forts :

  • Des données diverses et réalistes: L'ensemble de données comprend des images issues de scénarios réels avec plusieurs objets, des occlusions et des conditions d'éclairage variées.
  • Forte adoption par la communauté et la recherche: Utilisé dans les principaux concours d'apprentissage automatique et dans la recherche, l'ensemble de données COCO dispose d'une documentation complète, de modèles pré-entraînés et d'un soutien actif de la part de la communauté.
  • Annotations riches et détaillées: Le jeu de données COCO fournit des annotations très détaillées, y compris la segmentation des objets, les points clés et les légendes, ce qui le rend idéal pour les projets qui nécessitent une compréhension visuelle précise.

Voici également quelques facteurs limitatifs dont il faut tenir compte :

  • Exigences élevées en matière de calcul: En raison de sa taille et de sa complexité, l'entraînement des modèles sur COCO peut nécessiter d'importantes ressources informatiques, ce qui constitue un défi pour les équipes disposant d'un matériel limité.
  • Déséquilibre des données: Certaines catégories d'objets ont beaucoup plus d'images que d'autres, ce qui peut entraîner un biais dans l'apprentissage du modèle.
  • Structure d'annotation complexe: Les annotations détaillées de l'ensemble de données, bien que précieuses, peuvent être écrasantes pour les débutants ou les petites équipes qui manquent d'expérience dans le travail avec des ensembles de données Vision AI structurés.

Jeu de données Open Images V7

Open Images V7 est un énorme ensemble de données en libre accès créé par Google, qui comprend plus de 9 millions d'images avec des annotations pour 600 catégories d'objets. Il comprend une variété de types d'annotations et est idéal pour s'attaquer à des tâches complexes de vision par ordinateur. Son échelle et sa profondeur constituent une ressource complète pour la formation et le test des modèles de vision par ordinateur.

Fig 3. Un aperçu de l'ensemble de données Open Images V7. Image par l'auteur.

De plus, la popularité du jeu de données Open Images V7 dans le domaine de la recherche fournit de nombreuses ressources et exemples dont les utilisateurs peuvent s'inspirer. Cependant, sa taille massive peut rendre le téléchargement et le traitement fastidieux, en particulier pour les petites équipes. Un autre problème est que certaines annotations peuvent être incohérentes, ce qui nécessite un effort supplémentaire pour nettoyer les données, et que l'intégration n'est pas toujours transparente, ce qui signifie qu'une préparation supplémentaire peut être nécessaire. 

Choisir le bon ensemble de données 

Le choix du bon ensemble de données est un élément important de la réussite de ton projet de vision par ordinateur. Le meilleur choix dépend de ta tâche spécifique - trouver une bonne correspondance aide ton modèle à acquérir les bonnes compétences. Il doit également s'intégrer facilement à tes outils, afin que tu puisses te concentrer davantage sur la construction de ton modèle et moins sur le dépannage.

Fig 4. Facteurs permettant de choisir le bon ensemble de données. Image par l'auteur.

Principaux enseignements

Les ensembles de données de haute qualité constituent l'épine dorsale de tout modèle de vision par ordinateur, car ils aident les systèmes à apprendre à interpréter les images avec précision. Les ensembles de données diversifiés et bien annotés sont particulièrement importants, car ils permettent aux modèles de fonctionner de manière fiable dans des scénarios réels et de réduire les erreurs causées par des données limitées ou de mauvaise qualité.

Ultralytics simplifie le processus d'accès et de travail avec les ensembles de données de vision par ordinateur, ce qui permet de trouver plus facilement les bonnes données pour ton projet. Le choix du bon ensemble de données est une étape cruciale dans la construction d'un modèle performant, ce qui permet d'obtenir des résultats plus précis et plus percutants.

Rejoins notre communauté et explore notre dépôt GitHub pour en savoir plus sur l'IA. Découvre des avancées comme la vision par ordinateur pour les soins de santé et l'IA dans les voitures auto-conduites sur nos pages de solutions. Vérifie nos options de licence et fais le premier pas pour te lancer dans la vision par ordinateur dès aujourd'hui !

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.