Découvre des idées intéressantes tirées d'une table ronde à l'occasion de YOLO Vision 2024. Explore comment l'IA générative dessine la route à suivre pour les modèles d'IA de Vision en temps réel.
L'IA générative est une branche de l'intelligence artificielle (IA) qui crée de nouveaux contenus, tels que des images, du texte ou du son, en apprenant des modèles à partir de données existantes. Grâce à de récentes avancées, elle peut désormais être utilisée pour produire des contenus très réalistes qui imitent souvent la créativité humaine.
Cependant, l'impact de l'IA générative va au-delà de la simple création de contenu. Alors que les modèles de vision par ordinateur en temps réel tels que les modèlesYOLO Ultralytics continuent d'évoluer, l'IA générative redéfinit également la façon dont les données visuelles sont traitées et augmentées, ouvrant ainsi la voie à des applications innovantes dans des scénarios du monde réel.
Ce nouveau virage technologique a été un sujet de conversation intéressant lors de YOLO Vision 2024 (YV24), un événement hybride annuel organisé par Ultralytics. YV24 a vu des passionnés d'IA et des leaders de l'industrie se réunir pour discuter des dernières avancées en matière de vision par ordinateur. L'événement s'est concentré sur l'innovation, l'efficacité et l'avenir des solutions d'IA en temps réel.
L'un des principaux points forts de l'événement a été une table ronde sur le thème YOLO à l'ère de l'IA générative. Cette table ronde réunissait Glenn Jocher, fondateur et PDG d'Ultralytics, Jing Qiu, ingénieur principal en apprentissage automatique chez Ultralytics, et Ao Wang de l'université de Tsinghua. Ils ont exploré la façon dont l'IA générative influence la vision par ordinateur et les défis liés à la construction de modèles d'IA pratiques.
Dans cet article, nous allons revenir sur les points clés de leur discussion et examiner de plus près la façon dont l'IA générative transforme l'IA visionnaire.
Aux côtés de Glenn Jocher, de nombreux ingénieurs compétents ont joué un rôle essentiel dans le développement des modèlesYOLO d'Ultralytics . L'un d'entre eux, Jing Qiu, a raconté ses débuts inattendus avec YOLO. Il a expliqué que sa passion pour l'IA a commencé pendant ses années d'université. Il a passé beaucoup de temps à explorer et à se renseigner sur ce domaine. Jing Qiu a rappelé comment il s'est connecté avec Glenn Jocher sur GitHub et s'est impliqué dans divers projets d'IA.
Pour compléter les propos de Jing Qiu, Glenn Jocher a décrit GitHub comme "un moyen incroyable de partager - où des personnes que vous n'avez jamais rencontrées se réunissent pour s'entraider, en contribuant au travail des uns et des autres. C'est une communauté formidable et une façon vraiment géniale de se lancer dans l'IA."
L'intérêt de Jing Qiu pour l'IA et son travail sur les Ultralytics YOLOv5 ont permis d'affiner le modèle. Plus tard, il a joué un rôle clé dans le développement de Ultralytics YOLOv8qui a apporté d'autres améliorations. Il a décrit cette expérience comme un voyage incroyable. Aujourd'hui, Jing Qiu continue d'améliorer et de travailler sur des modèles comme Ultralytics YOLO11.
Rejoignant la table ronde à distance depuis la Chine, Ao Wang s'est présenté comme un étudiant en doctorat. Au départ, il a étudié le génie logiciel, mais sa passion pour l'IA l'a amené à s'orienter vers la vision par ordinateur et l'apprentissage profond.
Il a rencontré pour la première fois le célèbre modèle YOLO alors qu'il expérimentait diverses techniques et modèles d'intelligence artificielle. Il a été impressionné par sa vitesse et sa précision, ce qui l'a incité à se plonger plus profondément dans les tâches de vision par ordinateur comme la détection d'objets. Récemment, Ao Wang a contribué à YOLOv10, une version récente du modèle YOLO . Ses recherches ont porté sur l'optimisation du modèle afin qu'il soit plus rapide et plus précis.
Ensuite, le groupe a commencé à discuter de l'IA générative, et Jing Qiu a souligné que l'IA générative et l'IA de vision ont des objectifs très différents. L'IA générative crée ou génère des choses comme du texte, des images et des vidéos, tandis que l'IA de vision analyse ce qui existe déjà, principalement des images.
Glenn Jocher a souligné que la taille est également une grande différence. Les modèles d'IA générative sont massifs et contiennent souvent des milliards de paramètres - des réglages internes qui aident le modèle à apprendre à partir des données. Les modèles de vision par ordinateur sont beaucoup plus petits. Il a déclaré : "Le plus petit modèle YOLO dont nous disposons est environ mille fois plus petit que le plus petit LLM [Large Language Model]. Donc, 3 millions de paramètres contre 3 milliards."
Jing Qiu a ajouté que les processus de formation et de déploiement de l'IA générative et de la vision par ordinateur sont également très différents. L'IA générative a besoin d'énormes serveurs puissants pour fonctionner. Les modèles comme YOLO, en revanche, sont conçus pour être efficaces et peuvent être formés et déployés sur du matériel standard. Cela rend les modèlesYOLO d'Ultralytics plus pratiques pour une utilisation dans le monde réel.
Même s'ils sont différents, ces deux domaines commencent à s'entremêler. Glenn Jocher a précisé que l'IA générative apporte de nouvelles avancées à l'IA de vision, en rendant les modèles plus intelligents et plus efficaces.
L'IA générative a progressé rapidement, et ces percées influencent de nombreux autres domaines de l'intelligence artificielle, notamment la vision par ordinateur. Ensuite, parcourons quelques idées fascinantes du groupe d'experts à ce sujet.
Au début du panel, Glenn Jocher a expliqué que les idées d'apprentissage automatique existaient depuis longtemps, mais que les ordinateurs n'étaient pas assez puissants pour les faire fonctionner. Les idées d'IA avaient besoin d'un matériel plus puissant pour devenir réalité.
L'essor des GPU (unités de traitement graphique) au cours des 20 dernières années, avec leurs capacités de traitement parallèle, a tout changé. Ils ont rendu l'entraînement des modèles d'IA beaucoup plus rapide et efficace, ce qui a permis à l'apprentissage profond de se développer à un rythme rapide.
De nos jours, les puces d'IA comme les TPU (Tensor Processing Units) et les GPU optimisés consomment moins d'énergie tout en gérant des modèles plus grands et plus complexes. Cela a rendu l'IA plus accessible et plus utile dans les applications du monde réel.
À chaque nouvelle amélioration du matériel, les applications d'IA générative et de vision par ordinateur deviennent plus puissantes. Ces progrès rendent l'IA en temps réel plus rapide, plus efficace et prête à être utilisée dans davantage d'industries.
Une autre idée clé dont le panel a discuté est la façon dont l'IA générative et l'IA de vision pourraient s'associer pour construire des modèles plus performants. Glenn Jocher a expliqué que si ces deux approches ont des atouts différents, les combiner pourrait ouvrir de nouvelles possibilités.
Par exemple, les modèles d'IA de vision comme YOLO décomposent souvent une image en une grille pour identifier les objets. Cette méthode basée sur les grilles pourrait aider les modèles de langage à améliorer leur capacité à repérer les détails et à les décrire - un défi auquel de nombreux modèles de langage sont confrontés aujourd'hui. En substance, la fusion de ces techniques pourrait conduire à des systèmes capables de détecter avec précision et d'expliquer clairement ce qu'ils voient.
L'IA générative et la vision par ordinateur progressent ensemble. Si l'IA générative crée des images et des vidéos, elle améliore également l'analyse des images et des vidéos en apportant de nouvelles idées innovantes qui pourraient rendre les modèles d'IA de vision plus précis et plus efficaces.
Lors de cette table ronde YV24 très instructive, Glenn Jocher, Jing Qiu et Ao Wang ont partagé leurs réflexions sur la façon dont ces technologies façonnent l'avenir. Avec un meilleur matériel d'IA, l'IA générative et l'IA de vision continueront d'évoluer, ce qui conduira à des innovations encore plus importantes. Ces deux domaines travaillent ensemble pour créer une IA plus intelligente, plus rapide et plus utile au quotidien.
Rejoins notre communauté et explore notre dépôt GitHub pour en savoir plus sur la vision artificielle. Découvre nos options de licence pour donner un coup de fouet à tes projets de vision par ordinateur. Tu es intéressé par des innovations telles que l'IA dans la fabrication ou la vision par ordinateur dans la conduite autonome? Visite nos pages de solutions pour en découvrir davantage.
Commence ton voyage avec le futur de l'apprentissage automatique.
Comment l'IA générative façonne les modèles de détection d'objets.
Lorsqu'on lui demande comment l'IA générative influence la vision par ordinateur, Jing Qiu répond que les transformateurs - des modèles qui aident l'IA à se concentrer sur les parties les plus importantes d'une image - ont changé la façon dont l'IA comprend et traite les images. La première grande étape a été DETR (Detection Transformer), qui a utilisé cette nouvelle approche pour la détection d'objets. Il a amélioré la précision mais avait des problèmes de performance qui le rendaient plus lent dans certains cas.
Pour résoudre ce problème, les chercheurs ont créé des modèles hybrides comme RT-DETR. Ces modèles combinent des réseaux neuronaux convolutifs (CNN, qui sont des modèles d'apprentissage profond qui apprennent et extraient automatiquement des caractéristiques des images) et des transformateurs, ce qui permet d'équilibrer la vitesse et la précision. Cette approche permet de tirer parti des avantages des transformateurs tout en rendant la détection des objets plus rapide.
Il est intéressant de noter que YOLOv10 utilise des couches d'attention basées sur des transformateurs (des parties du modèle qui agissent comme un projecteur pour mettre en évidence les zones les plus importantes d'une image tout en ignorant les détails moins pertinents) pour augmenter ses performances.
Ao Wang a également mentionné comment l'IA générative change la façon dont les modèles sont formés. Des techniques telles que la modélisation d'images masquées aident l'IA à apprendre à partir d'images plus efficacement, réduisant ainsi le besoin de grands ensembles de données étiquetés manuellement. La formation à la vision par ordinateur est ainsi plus rapide et moins gourmande en ressources.