Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous aborderons des percées comme l'IA Sora d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.
La communauté de l’IA semble faire les gros titres presque quotidiennement. Les premiers mois de 2024 ont été passionnants et remplis de nouvelles innovations en matière d’IA. Des nouveaux grands modèles de langage puissants aux implants cérébraux humains, 2024 s’annonce incroyable.
Nous voyons l’IA transformer les industries, rendre l’information plus accessible et même faire les premiers pas vers la fusion de nos esprits avec les machines. Revenons en arrière sur le premier trimestre 2024 et regardons de plus près les progrès réalisés dans le domaine de l’IA en quelques mois seulement.
Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain sur la base de grandes quantités de données textuelles, ont occupé le devant de la scène au premier trimestre 2024. De nombreuses grandes entreprises technologiques ont lancé leurs propres modèles de LLM, chacun avec des capacités uniques. L’incroyable succès des LLM précédents comme GPT-3 a inspiré cette tendance. Voici quelques-unes des versions LLM les plus notables du début de l’année 2024.
Anthropic a sorti Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune desservant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet équilibre la vitesse avec l’intelligence et s’adresse aux applications d’entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéale pour les tâches complexes et l’atteinte des meilleurs benchmarks.
Claude 3 bénéficie de nombreuses fonctionnalités avancées et améliorations :
Databricks DBRX est un LLM ouvert et polyvalent publié par Databricks le 27 mars 2024. DBRX se débrouille très bien dans divers benchmarks, y compris la compréhension du langage, la programmation et les mathématiques. Il surpasse les autres modèles établis tout en étant environ 40 % plus petit que les modèles similaires.
DBRX a été entraîné à l’aide de la prédiction du jeton suivant avec une architecture MoE (Mixture-of-Experts) à grain fin, et c’est pourquoi nous pouvons constater des améliorations significatives dans les performances d’entraînement et d’inférence. Son architecture permet au modèle de prédire plus précisément le mot suivant dans une séquence en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont efficaces pour gérer différents types d’informations ou de tâches.
Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace sur le plan informatique qui peut analyser de nombreuses données textuelles, vidéo et audio, le 15 février 2024. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de façon constante. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.
Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :
Le premier trimestre 2024 a dévoilé des modèles d’IA générative capables de créer des visuels si réels qu’ils ont suscité des débats sur l’avenir des médias sociaux et les progrès de l’IA. Plongeons dans les modèles qui suscitent la conversation.
OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d’apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte en vidéo capable de générer des vidéos d’une minute avec une haute qualité visuelle basée sur des invites textuelles de l’utilisateur.
Par exemple, jetez un coup d’œil à l’invite suivante.
« Un monde en papier magnifiquement rendu d’un récif corallien, truffé de poissons colorés et de créatures marines. »
Et, voici une image de la vidéo de sortie.
L’architecture de Sora rend cela possible en mélangeant des modèles de diffusion pour la génération de textures et des modèles de transformateurs pour la cohérence structurelle. Jusqu’à présent, l’accès à Sora a été donné aux membres de l’équipe rouge et à un groupe restreint d’artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d’obtenir des commentaires.
Stability AI a annoncé l’arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle combine l’architecture du transformateur de diffusion et l’adaptation du débit. Ils n’ont pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.
Le dernier modèle de diffusion stable offre des performances, une qualité d’image et une précision améliorées dans la création d’images avec plusieurs sujets. Stable Diffusion 3 proposera également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Il permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d’évolutivité et de détails.
Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion texte-vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Elle permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Ce faisant, il peut générer des vidéos fluides et réalistes.
Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes en matière de qualité vidéo dans le domaine de l’IA. Voici quelques-unes des caractéristiques de Lumière :
Le début de l’année 2024 a également apporté de nombreuses innovations en matière d’IA qui semblent tout droit sorties d’un film de science-fiction. Des choses que nous aurions auparavant considérées comme impossibles sont maintenant en cours d’élaboration. L’avenir ne semble pas si lointain avec les découvertes suivantes.
Neuralink d’Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s’agit d’un grand pas vers la connexion du cerveau humain aux ordinateurs. Elon Musk a partagé que le premier produit de Neuralink, nommé « Telepathy », est en préparation.
L’objectif est de permettre aux utilisateurs, en particulier à ceux qui ont perdu la fonctionnalité d’un membre, de contrôler les appareils sans effort grâce à leurs pensées. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.
Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le sol HoloTile. Il a été surnommé le premier tapis roulant omnidirectionnel multi-personnes au monde.
Il peut se déplacer sous n’importe quelle personne ou objet comme la télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n’importe quelle direction et éviter les collisions lorsque vous y êtes. Le sol HoloTile de Disney peut également être planté sur des scènes de théâtre pour danser et bouger de manière créative.
Le 2 février 2024, le très attendu casque Vision Pro d’Apple est arrivé sur le marché. Il dispose d’un éventail de fonctionnalités et d’applications conçues pour redéfinir l’expérience de réalité virtuelle et augmentée. Le casque Vision Pro s’adresse à un public diversifié en mélangeant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux services de jeux et de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.
Le 12 mars 2024, Cognition a publié un assistant d’ingénierie logicielle appelé Devin. Devin est la première tentative au monde d’un ingénieur logiciel d’IA autonome. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, de la conception initiale à la réalisation.
Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bogues, entraîner ses propres modèles, contribuer à des bases de code open source et de production, et même prendre en charge de véritables tâches de développement sur des sites comme Upwork.
Devin a été évalué sur SWE-bench, un benchmark exigeant qui demande aux agents de résoudre des problèmes GitHub réels rencontrés dans des projets open source tels que Django et scikit-learn. Il a correctement résolu 13,86 % des problèmes de bout en bout, contre 1,96 % auparavant.
Il s’est passé tellement de choses qu’il n’est pas possible de tout couvrir dans cet article. Mais, voici quelques mentions plus honorables.
Le début de l’année 2024 a été marqué par des avancées révolutionnaires en matière d’IA et de nombreuses étapes technologiques majeures. Mais ce n’est que le début de ce que l’IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements de l’IA, Ultralytics a ce qu’il vous faut.
Consultez notre référentiel GitHub pour découvrir nos dernières contributions en matière de vision par ordinateur et d’IA. Vous pouvez également consulter nos pages de solutions pour voir comment l’IA est utilisée dans des secteurs tels que la fabrication et les soins de santé.
Commence ton voyage avec le futur de l'apprentissage automatique.