Contrôle vert
Lien copié dans le presse-papiers

2024 commence par une vague d’IA générative

Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous aborderons des percées comme l'IA Sora d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

La communauté de l’IA semble faire les gros titres presque quotidiennement. Les premiers mois de 2024 ont été passionnants et remplis de nouvelles innovations en matière d’IA. Des nouveaux grands modèles de langage puissants aux implants cérébraux humains, 2024 s’annonce incroyable.

Nous voyons l’IA transformer les industries, rendre l’information plus accessible et même faire les premiers pas vers la fusion de nos esprits avec les machines. Revenons en arrière sur le premier trimestre 2024 et regardons de plus près les progrès réalisés dans le domaine de l’IA en quelques mois seulement.

Les LLM ont le vent en poupe

Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain sur la base de grandes quantités de données textuelles, ont occupé le devant de la scène au premier trimestre 2024. De nombreuses grandes entreprises technologiques ont lancé leurs propres modèles de LLM, chacun avec des capacités uniques. L’incroyable succès des LLM précédents comme GPT-3 a inspiré cette tendance. Voici quelques-unes des versions LLM les plus notables du début de l’année 2024.

Anthropicde Claude 3

Anthropic a sorti Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune desservant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet équilibre la vitesse avec l’intelligence et s’adresse aux applications d’entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéale pour les tâches complexes et l’atteinte des meilleurs benchmarks.

Claude 3 bénéficie de nombreuses fonctionnalités avancées et améliorations :

  • Conversations multilingues améliorées : Capacités améliorées dans des langues telles que l’espagnol, le japonais et le français.
  • Fonctionnalités de vision avancées : Capable de gérer divers formats visuels
  • Refus minimisés : montre plus de compréhension avec moins de refus inutiles, ce qui indique une meilleure compréhension du contexte.
  • Fenêtre contextuelle étendue : elle offre une fenêtre contextuelle de 200 Ko, mais est capable de traiter des entrées de plus de 1 million de jetons en fonction des besoins des clients.
Ill. 1. Claude 3 est plus sensible au contexte que les versions précédentes.

DBRX de Databricks

Databricks DBRX est un LLM ouvert et polyvalent publié par Databricks le 27 mars 2024. DBRX se débrouille très bien dans divers benchmarks, y compris la compréhension du langage, la programmation et les mathématiques. Il surpasse les autres modèles établis tout en étant environ 40 % plus petit que les modèles similaires.

Ill. 2. Comparaison de DBRX avec d’autres modèles.

DBRX a été entraîné à l’aide de la prédiction du jeton suivant avec une architecture MoE (Mixture-of-Experts) à grain fin, et c’est pourquoi nous pouvons constater des améliorations significatives dans les performances d’entraînement et d’inférence. Son architecture permet au modèle de prédire plus précisément le mot suivant dans une séquence en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont efficaces pour gérer différents types d’informations ou de tâches.

GoogleGemini 1.5

Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace sur le plan informatique qui peut analyser de nombreuses données textuelles, vidéo et audio, le 15 février 2024. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de façon constante. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.

Ill. 3. Comparaison des longueurs de contexte des LLM populaires

Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :

  • Amélioration de la gestion des données : permet de télécharger directement des fichiers PDF volumineux, des référentiels de code ou de longues vidéos sous forme d’invites. Le modèle peut raisonner à travers les modalités et le texte de sortie.
  • Téléchargements et requêtes de fichiers multiples : les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
  • Peut être utilisé pour différentes tâches : il est optimisé pour s’adapter à diverses tâches et montre des améliorations dans des domaines tels que les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension vidéo et le code

Des visuels époustouflants grâce à l’IA

Le premier trimestre 2024 a dévoilé des modèles d’IA générative capables de créer des visuels si réels qu’ils ont suscité des débats sur l’avenir des médias sociaux et les progrès de l’IA. Plongeons dans les modèles qui suscitent la conversation.

Sora d’OpenAI 

OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d’apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte en vidéo capable de générer des vidéos d’une minute avec une haute qualité visuelle basée sur des invites textuelles de l’utilisateur. 

Par exemple, jetez un coup d’œil à l’invite suivante. 

« Un monde en papier magnifiquement rendu d’un récif corallien, truffé de poissons colorés et de créatures marines. » 

Et, voici une image de la vidéo de sortie. 

Ill. 4. Une image d’une vidéo générée par Sora.

L’architecture de Sora rend cela possible en mélangeant des modèles de diffusion pour la génération de textures et des modèles de transformateurs pour la cohérence structurelle. Jusqu’à présent, l’accès à Sora a été donné aux membres de l’équipe rouge et à un groupe restreint d’artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d’obtenir des commentaires. 

Stability AIde Diffusion stable 3 

Stability AI a annoncé l’arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle combine l’architecture du transformateur de diffusion et l’adaptation du débit. Ils n’ont pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.

La fig. 5. L’image de sortie est basée sur l’invite : « Illustration d’anime épique d’un sorcier au sommet d’une montagne la nuit jetant un sort cosmique dans le ciel sombre qui dit « Diffusion stable 3 » faite d’énergie colorée »

Le dernier modèle de diffusion stable offre des performances, une qualité d’image et une précision améliorées dans la création d’images avec plusieurs sujets. Stable Diffusion 3 proposera également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Il permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d’évolutivité et de détails.

GoogleLumiere 

Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion texte-vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Elle permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Ce faisant, il peut générer des vidéos fluides et réalistes.

Ill. 6. Une image d’une vidéo générée à partir de l’invite : « Panda joue du ukulélé à la maison ».

Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes en matière de qualité vidéo dans le domaine de l’IA. Voici quelques-unes des caractéristiques de Lumière :

  • Image-to-Video : À partir d’une image et d’une invite, Lumiere peut animer des images en vidéos.
  • Génération stylisée : Lumière peut créer des vidéos dans des styles spécifiques à l’aide d’une seule image de référence.
  • Cinémagraphes : Lumière peut animer des régions spécifiques d’une image pour créer des scènes dynamiques, telles qu’un objet particulier qui se déplace alors que le reste de la scène reste statique.
  • Inpainting vidéo : il peut modifier certaines parties d’une vidéo, par exemple en changeant la tenue vestimentaire des personnes qui s’y trouvent ou en modifiant les détails de l’arrière-plan.

L’avenir semble être là

Le début de l’année 2024 a également apporté de nombreuses innovations en matière d’IA qui semblent tout droit sorties d’un film de science-fiction. Des choses que nous aurions auparavant considérées comme impossibles sont maintenant en cours d’élaboration. L’avenir ne semble pas si lointain avec les découvertes suivantes.

Neuralink d’Elon Musk

Neuralink d’Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s’agit d’un grand pas vers la connexion du cerveau humain aux ordinateurs. Elon Musk a partagé que le premier produit de Neuralink, nommé « Telepathy », est en préparation. 

Ill. 7. L’implant Neuralink

L’objectif est de permettre aux utilisateurs, en particulier à ceux qui ont perdu la fonctionnalité d’un membre, de contrôler les appareils sans effort grâce à leurs pensées. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.

Sol HoloTile de Disney 

Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le sol HoloTile. Il a été surnommé le premier tapis roulant omnidirectionnel multi-personnes au monde. 

La fig. 8. Lanny Smoot, l’Imagineer de Disney, pose sur sa dernière innovation, le sol HoloTile.

Il peut se déplacer sous n’importe quelle personne ou objet comme la télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n’importe quelle direction et éviter les collisions lorsque vous y êtes. Le sol HoloTile de Disney peut également être planté sur des scènes de théâtre pour danser et bouger de manière créative.

Vision Pro d’Apple

Le 2 février 2024, le très attendu casque Vision Pro d’Apple est arrivé sur le marché. Il dispose d’un éventail de fonctionnalités et d’applications conçues pour redéfinir l’expérience de réalité virtuelle et augmentée. Le casque Vision Pro s’adresse à un public diversifié en mélangeant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux services de jeux et de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.

Devin de Cognition

Le 12 mars 2024, Cognition a publié un assistant d’ingénierie logicielle appelé Devin. Devin est la première tentative au monde d’un ingénieur logiciel d’IA autonome. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, de la conception initiale à la réalisation. 

Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bogues, entraîner ses propres modèles, contribuer à des bases de code open source et de production, et même prendre en charge de véritables tâches de développement sur des sites comme Upwork. 

La fig. 9. Comparaison de Devin avec d’autres modèles.

Devin a été évalué sur SWE-bench, un benchmark exigeant qui demande aux agents de résoudre des problèmes GitHub réels rencontrés dans des projets open source tels que Django et scikit-learn. Il a correctement résolu 13,86 % des problèmes de bout en bout, contre 1,96 % auparavant.

Mentions honorables

Il s’est passé tellement de choses qu’il n’est pas possible de tout couvrir dans cet article. Mais, voici quelques mentions plus honorables. 

  • NVIDIALATTE3D, annoncé le 21 mars 2024, est un modèle d'IA text-to-3D qui crée instantanément des représentations 3D à partir d'invites textuelles.
  • Le nouveau générateur de texte en vidéo de Midjourney, présenté par le PDG David Holz, a commencé la formation en janvier et devrait être lancé prochainement.
  • Faisant progresser la révolution des PC IA, Lenovo a lancé le ThinkBook 13x avec la technologie E Ink Prism et des ordinateurs portables IA hautes performances le 8 janvier 2024.

Restez à jour sur les tendances de l’IA avec nous !

Le début de l’année 2024 a été marqué par des avancées révolutionnaires en matière d’IA et de nombreuses étapes technologiques majeures. Mais ce n’est que le début de ce que l’IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements de l’IA, Ultralytics a ce qu’il vous faut.

Consultez notre référentiel GitHub pour découvrir nos dernières contributions en matière de vision par ordinateur et d’IA. Vous pouvez également consulter nos pages de solutions pour voir comment l’IA est utilisée dans des secteurs tels que la fabrication et les soins de santé

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.