2024 commence par une vague d'IA générative

Un regard sur les innovations passionnantes en matière d'IA du premier trimestre 2024. Nous aborderons des percées comme l'IA Sora d'OpenAI, la puce cérébrale de Neuralink et les derniers LLM.

Écrit par

Abirami Vina

min lire

Avr 12, 2024

13 avril 2025

Les LLM ont le vent en poupe

Anthropicde Claude 3

DBRX de Databricks

GoogleGemini 1.5

Des images époustouflantes grâce à l'IA

Sora d’OpenAI

Stability AIde Diffusion stable 3

GoogleLumiere

L'avenir semble être là

Neuralink d’Elon Musk

Sol HoloTile de Disney

Vision Pro d’Apple

Devin de Cognition

Mentions honorables

Reste au courant des tendances en matière d'IA avec nous !

La communauté de l’IA semble faire les gros titres presque quotidiennement. Les premiers mois de 2024 ont été passionnants et remplis de nouvelles innovations en matière d’IA. Des nouveaux grands modèles de langage puissants aux implants cérébraux humains, 2024 s’annonce incroyable.

Nous voyons l’IA transformer les industries, rendre l’information plus accessible et même faire les premiers pas vers la fusion de nos esprits avec les machines. Revenons en arrière sur le premier trimestre 2024 et regardons de plus près les progrès réalisés dans le domaine de l’IA en quelques mois seulement.

Les LLM ont le vent en poupe

Les grands modèles de langage (LLM), conçus pour comprendre, générer et manipuler le langage humain sur la base de grandes quantités de données textuelles, ont occupé le devant de la scène au premier trimestre 2024. De nombreuses grandes entreprises technologiques ont lancé leurs propres modèles de LLM, chacun avec des capacités uniques. L’incroyable succès des LLM précédents comme GPT-3 a inspiré cette tendance. Voici quelques-unes des versions LLM les plus notables du début de l’année 2024.

Anthropicde Claude 3

Anthropic a sorti Claude 3 le 14 mars 2024. Le modèle Claude 3 se décline en trois versions : Opus, Sonnet et Haiku, chacune desservant des marchés et des objectifs différents. Haiku, le modèle le plus rapide, est optimisé pour des réponses rapides et basiques. Sonnet équilibre la vitesse avec l’intelligence et s’adresse aux applications d’entreprise. Opus, la version la plus avancée, offre une intelligence et un raisonnement inégalés et est idéale pour les tâches complexes et l’atteinte des meilleurs benchmarks.

Claude 3 bénéficie de nombreuses fonctionnalités avancées et améliorations :

Conversations multilingues améliorées : Amélioration des capacités dans des langues telles que l'espagnol, le japonais et le français.
‍
Fonctionnalités avancées en matière de vision : Capable de traiter différents formats visuels.
‍
Refus minimisés : Montre une meilleure compréhension avec moins de refus inutiles, ce qui indique une meilleure compréhension du contexte.
‍
Fenêtre contextuelle étendue : elle offre une fenêtre contextuelle de 200 Ko, mais est capable de traiter des entrées de plus de 1 million de jetons en fonction des besoins des clients.

__wf_reserved_inherit — Ill. 1. Claude 3 est plus sensible au contexte que les versions précédentes.

‍

DBRX de Databricks

Databricks DBRX est un LLM ouvert et polyvalent publié par Databricks le 27 mars 2024. DBRX se débrouille très bien dans divers benchmarks, y compris la compréhension du langage, la programmation et les mathématiques. Il surpasse les autres modèles établis tout en étant environ 40 % plus petit que les modèles similaires.

‍

DBRX a été entraîné à l’aide de la prédiction du jeton suivant avec une architecture MoE (Mixture-of-Experts) à grain fin, et c’est pourquoi nous pouvons constater des améliorations significatives dans les performances d’entraînement et d’inférence. Son architecture permet au modèle de prédire plus précisément le mot suivant dans une séquence en consultant un ensemble diversifié de sous-modèles spécialisés (les « experts »). Ces sous-modèles sont efficaces pour gérer différents types d’informations ou de tâches.

GoogleGemini 1.5

Google a présenté Gemini 1.5, un modèle d'IA multimodale efficace sur le plan informatique qui peut analyser de nombreuses données textuelles, vidéo et audio, le 15 février 2024. Le dernier modèle est plus avancé en termes de performances, d'efficacité et de capacités. L'une des principales caractéristiques de Gemini 1.5 est sa percée dans la compréhension des contextes longs. Le modèle est capable de traiter jusqu'à 1 million de jetons de façon constante. Les capacités de Gemini 1.5 sont également dues à une nouvelle architecture basée sur le MoE.

‍

Voici quelques-unes des fonctionnalités les plus intéressantes de Gemini 1.5 :

Amélioration de la gestion des données : Permet de télécharger directement des PDF volumineux, des référentiels de code ou de longues vidéos en guise d'invites. Le modèle peut raisonner à travers les modalités et produire du texte en sortie.
‍
Téléchargements de fichiers multiples et questions : Les développeurs peuvent désormais télécharger plusieurs fichiers et poser des questions.
‍
Peut être utilisé pour différentes tâches : il est optimisé pour s’adapter à diverses tâches et montre des améliorations dans des domaines tels que les mathématiques, les sciences, le raisonnement, le multilinguisme, la compréhension vidéo et le code

Des images époustouflantes grâce à l'IA

Le premier trimestre 2024 a dévoilé des modèles d’IA générative capables de créer des visuels si réels qu’ils ont suscité des débats sur l’avenir des médias sociaux et les progrès de l’IA. Plongeons dans les modèles qui suscitent la conversation.

Sora d’OpenAI

OpenAI, le créateur de ChatGPT, a annoncé le 15 février 2024 un modèle d’apprentissage profond texte-vidéo de pointe appelé Sora. Sora est un générateur de texte en vidéo capable de générer des vidéos d’une minute avec une haute qualité visuelle basée sur des invites textuelles de l’utilisateur.

Par exemple, jetez un coup d’œil à l’invite suivante.

« Un monde en papier magnifiquement rendu d’un récif corallien, truffé de poissons colorés et de créatures marines. »

Et, voici une image de la vidéo de sortie.

‍

L’architecture de Sora rend cela possible en mélangeant des modèles de diffusion pour la génération de textures et des modèles de transformateurs pour la cohérence structurelle. Jusqu’à présent, l’accès à Sora a été donné aux membres de l’équipe rouge et à un groupe restreint d’artistes visuels, de concepteurs et de cinéastes afin de comprendre les risques et d’obtenir des commentaires.

Stability AIde Diffusion stable 3

Stability AI a annoncé l’arrivée de Stable Diffusion 3, un modèle de génération de texte en image, le 22 février 2024. Le modèle combine l’architecture du transformateur de diffusion et l’adaptation du débit. Ils n’ont pas encore publié de document technique, mais il y a quelques caractéristiques clés à surveiller.

‍

Le dernier modèle de diffusion stable offre des performances, une qualité d’image et une précision améliorées dans la création d’images avec plusieurs sujets. Stable Diffusion 3 proposera également une variété de modèles allant de 800 millions à 8 milliards de paramètres. Il permettra aux utilisateurs de choisir en fonction de leurs besoins spécifiques en matière d’évolutivité et de détails.

GoogleLumiere

Le 23 janvier 2024, Google a lancé Lumiere, un modèle de diffusion texte-vidéo. Lumiere utilise une architecture appelée Space-Time-U-Net, ou STUNet en abrégé. Elle permet à Lumiere de comprendre où se trouvent les choses et comment elles se déplacent dans une vidéo. Ce faisant, il peut générer des vidéos fluides et réalistes.

‍

Avec la capacité de générer 80 images par vidéo, Lumiere repousse les limites et établit de nouvelles normes en matière de qualité vidéo dans le domaine de l’IA. Voici quelques-unes des caractéristiques de Lumière :

Image-to-Video : À partir d'une image et d'une invite, Lumiere peut animer des images en vidéos.
‍
Génération stylisée : Lumiere peut créer des vidéos dans des styles spécifiques en utilisant une seule image de référence.
‍
Cinémagraphes : Lumiere peut animer des régions spécifiques d'une image pour créer des scènes dynamiques, par exemple un objet particulier qui bouge alors que le reste de la scène reste statique.
‍
Inpainting vidéo : il peut modifier certaines parties d’une vidéo, par exemple en changeant la tenue vestimentaire des personnes qui s’y trouvent ou en modifiant les détails de l’arrière-plan.

L'avenir semble être là

Le début de l’année 2024 a également apporté de nombreuses innovations en matière d’IA qui semblent tout droit sorties d’un film de science-fiction. Des choses que nous aurions auparavant considérées comme impossibles sont maintenant en cours d’élaboration. L’avenir ne semble pas si lointain avec les découvertes suivantes.

Neuralink d’Elon Musk

Neuralink d’Elon Musk a implanté avec succès sa puce cérébrale sans fil chez un humain le 29 janvier 2024. Il s’agit d’un grand pas vers la connexion du cerveau humain aux ordinateurs. Elon Musk a partagé que le premier produit de Neuralink, nommé « Telepathy », est en préparation.

‍

L’objectif est de permettre aux utilisateurs, en particulier à ceux qui ont perdu la fonctionnalité d’un membre, de contrôler les appareils sans effort grâce à leurs pensées. Les applications potentielles vont au-delà de la commodité. Elon Musk imagine un avenir où les personnes paralysées pourront communiquer facilement.

Sol HoloTile de Disney

Le 18 janvier 2024, Walt Disney Imagineering a dévoilé le sol HoloTile. Il a été surnommé le premier tapis roulant omnidirectionnel multi-personnes au monde.

‍

Il peut se déplacer sous n’importe quelle personne ou objet comme la télékinésie pour une expérience immersive de réalité virtuelle et augmentée. Vous pouvez marcher dans n’importe quelle direction et éviter les collisions lorsque vous y êtes. Le sol HoloTile de Disney peut également être planté sur des scènes de théâtre pour danser et bouger de manière créative.

Vision Pro d’Apple

Le 2 février 2024, le très attendu casque Vision Pro d’Apple est arrivé sur le marché. Il dispose d’un éventail de fonctionnalités et d’applications conçues pour redéfinir l’expérience de réalité virtuelle et augmentée. Le casque Vision Pro s’adresse à un public diversifié en mélangeant divertissement, productivité et informatique spatiale. Apple a fièrement annoncé que plus de 600 applications, allant des outils de productivité aux services de jeux et de divertissement, ont été optimisées pour le Vision Pro lors de son lancement.

Devin de Cognition

Le 12 mars 2024, Cognition a publié un assistant d’ingénierie logicielle appelé Devin. Devin est la première tentative au monde d’un ingénieur logiciel d’IA autonome. Contrairement aux assistants de codage traditionnels qui offrent des suggestions ou effectuent des tâches spécifiques, Devin est conçu pour gérer des projets de développement logiciel entiers, de la conception initiale à la réalisation.

Il peut apprendre de nouvelles technologies, créer et déployer des applications complètes, trouver et corriger des bogues, entraîner ses propres modèles, contribuer à des bases de code open source et de production, et même prendre en charge de véritables tâches de développement sur des sites comme Upwork.

‍

Devin a été évalué sur SWE-bench, un benchmark exigeant qui demande aux agents de résoudre des problèmes GitHub réels rencontrés dans des projets open source tels que Django et scikit-learn. Il a correctement résolu 13,86 % des problèmes de bout en bout, contre 1,96 % auparavant.

Mentions honorables

Il s’est passé tellement de choses qu’il n’est pas possible de tout couvrir dans cet article. Mais, voici quelques mentions plus honorables.

LATTE3D de NVIDIA, annoncé le 21 mars 2024, est un modèle d'IA text-to-3D qui crée instantanément des représentations 3D à partir d'invites textuelles.
‍
Le nouveau générateur de texte-vidéo de Midjourney, teasé par le PDG David Holz, a commencé à se former en janvier et devrait être lancé prochainement.
‍
Faisant progresser la révolution des PC IA, Lenovo a lancé le ThinkBook 13x avec la technologie E Ink Prism et des ordinateurs portables IA hautes performances le 8 janvier 2024.

Reste au courant des tendances en matière d'IA avec nous !

Le début de l’année 2024 a été marqué par des avancées révolutionnaires en matière d’IA et de nombreuses étapes technologiques majeures. Mais ce n’est que le début de ce que l’IA peut faire. Si vous souhaitez en savoir plus sur les derniers développements de l’IA, Ultralytics a ce qu’il vous faut.

Consultez notre référentiel GitHub pour découvrir nos dernières contributions en matière de vision par ordinateur et d’IA. Vous pouvez également consulter nos pages de solutions pour voir comment l’IA est utilisée dans des secteurs tels que la fabrication et les soins de santé.

2024 commence par une vague d'IA générative