Contrôle vert
Lien copié dans le presse-papiers

Les dernières mises à jour d'OpenAI : Canvas, amélioration de la vision, et plus encore

Rejoins-nous pour examiner de plus près les récentes mises à jour de ChatGPT publiées par OpenAI. Nous explorerons Canvas, la mise au point des capacités de vision et la dernière fonction de recherche.

Après avoir examiné les modèles o1 d'OpenAI en septembre (conçus pour améliorer le raisonnement), de nombreuses fonctionnalités nouvelles et intéressantes ont été ajoutées à ChatGPT. Certaines de ces versions sont destinées aux développeurs, d'autres sont conçues pour affiner l'expérience des utilisateurs. Dans l'ensemble, chaque mise à jour contribue à rendre les interactions avec ChatGPT plus intuitives et plus efficaces.

Des mises à jour comme Canvas, conçu pour l'écriture et le codage collaboratifs, et le réglage fin des capacités de vision qui améliore la façon dont ChatGPT fonctionne avec les images, ont suscité beaucoup d'intérêt, encourageant les utilisateurs à explorer davantage de possibilités créatives. Parallèlement, les mises à jour techniques, comme les nouvelles API et les rapports de tests d'équité, abordent des aspects tels que l'intégration des modèles et les pratiques éthiques en matière d'IA . Plongeons dans le vif du sujet et comprenons mieux les dernières fonctionnalités de ChatGPT d'OpenAI !

Aperçu de la fonction Canvas d'OpenAI

Canvas est la première mise à jour majeure de l'interface utilisateur (UI) de ChatGPTdepuis sa sortie. Il s'agit d'une nouvelle interface avec une disposition en deux écrans, des invites sur la barre latérale gauche et des réponses dans la fenêtre latérale droite. La nouvelle interface utilisateur élimine le flux de travail habituel d'une structure à écran unique de type chat et passe à une disposition à deux écrans qui convient à des fins multitâches pour stimuler la productivité.

Fig 1. Canvas apporte des mises à jour de l'interface utilisateur à ChatGPT.

Avant l'introduction de Canvas, travailler avec des documents longs sur ChatGPT nécessitait de faire défiler l'écran de haut en bas. Dans la nouvelle présentation, les invites sont affichées dans la barre latérale gauche, et le document texte ou l'extrait de code occupe la majeure partie de l'écran. Si nécessaire, tu peux même personnaliser la taille de la barre latérale gauche et de l'écran de sortie. Tu peux aussi sélectionner une partie du texte ou une section du code et modifier la section spécifique sans modifier le document entier.

Fig 2. Modifier des sections spécifiques de texte à l'aide de Canvas.

Si tu utilises Canvas, tu remarqueras qu'il n'y a pas de bouton spécifique ou de bascule pour l'ouvrir sur l'interface ChatGPT . Au lieu de cela, lorsque tu travailles avec le modèle GPT-4o, Canvas s'ouvre automatiquement s'il détecte que tu es en train d'éditer, d'écrire ou de coder. Pour les invites plus simples, il reste inactif. Si tu veux l'ouvrir manuellement, tu peux utiliser des invites comme "Ouvrir le Canvas" ou "Obtiens-moi la disposition du Canvas".

Actuellement, Canvas est en version bêta et n'est disponible qu'avec GPT-4o. Cependant, OpenAI a mentionné que Canvas sera disponible pour tous les utilisateurs gratuits lorsqu'il sortira de la version bêta.

ChatGPTMises à jour de l'API

OpenAI a publié trois nouvelles mises à jour de l'API ChatGPT visant à améliorer l'efficacité, l'évolutivité et la polyvalence. Examinons de plus près chacune de ces mises à jour.

Modèle Distillation

En utilisant la fonction de distillation de modèles via les API OpenAI, les développeurs peuvent utiliser les résultats de modèles avancés comme GPT-4o ou o1-preview pour améliorer les performances de modèles plus petits et rentables comme GPT-4o mini. La distillation de modèles est un processus qui consiste à entraîner des modèles plus petits à imiter le comportement de modèles plus avancés, ce qui les rend plus efficaces pour des tâches spécifiques.

Avant l'introduction de cette fonction, les développeurs devaient coordonner manuellement toute une série de tâches à l'aide de différents outils. Ces tâches comprenaient la génération d'ensembles de données, la mesure des performances du modèle et l'ajustement des modèles, ce qui rendait souvent le processus complexe et sujet aux erreurs. La mise à jour de Model Distillation permet aux développeurs d'utiliser Stored Completions, un outil qui leur permet de générer automatiquement des ensembles de données en capturant et en stockant les paires d'entrées-sorties produites par les modèles avancés par l'intermédiaire de l'API.

Une autre fonctionnalité de Model Distillation, Evals (actuellement en version bêta), permet de mesurer les performances d' un modèle pour des tâches spécifiques, sans avoir à créer des scripts d'évaluation personnalisés ou à utiliser des outils distincts. En utilisant des ensembles de données générés avec Stored Completions et en évaluant les performances avec Evals, les développeurs peuvent affiner leurs propres modèles GPT personnalisés.

Fig 3. Tu peux utiliser les Evals pour mesurer les performances du modèle.

Mise en cache des messages

Souvent, lors de la création d'applications d'IA, en particulier de chatbots, le même contexte (les informations de base ou l'historique des conversations précédentes nécessaires pour comprendre la demande actuelle) sera utilisé à plusieurs reprises pour de multiples appels d'API. La mise en cache des invites permet aux développeurs de réutiliser les jetons d'entrée récemment utilisés (segments de texte que le modèle traite pour comprendre l'invite et générer une réponse), ce qui contribue à réduire les coûts et la latence.

Depuis le 1er octobre, OpenAI applique automatiquement la mise en cache des invites à ses modèles tels que GPT-4o, GPT-4o mini, o1-preview et o1-mini. Cela signifie que lorsque les développeurs utilisent l'API pour interagir avec un modèle comportant une longue invite (plus de 1 024 tokens), le système enregistre les parties qu'il a déjà traitées. 

De cette façon, si les mêmes messages ou des messages similaires sont utilisés à nouveau, le système peut éviter de recalculer ces parties. Le système met automatiquement en cache la partie la plus longue de l'invite qu'il a déjà rencontrée, en commençant par 1 024 tokens et en ajoutant des morceaux de 128 tokens au fur et à mesure que l'invite s'allonge.

API en temps réel

La création d'un assistant vocal implique généralement la nécessité de transcrire l'audio en texte, de traiter le texte, puis de le reconvertir en audio pour jouer la réponse. L'API Realtime d'OpenAI vise à gérer l'ensemble de ce processus avec une seule demande d'API. En simplifiant le processus, l'API permet des conversations en temps réel avec l'IA. 

Par exemple, un assistant vocal intégré à l'API Realtime peut effectuer des actions spécifiques, comme passer une commande ou trouver des informations, en fonction des demandes de l'utilisateur. L'API rend l'assistant vocal plus réactif et capable de s'adapter rapidement aux besoins des utilisateurs. L'API Realtime est devenue disponible en version bêta publique le 1er octobre, avec six voix. Le 30 octobre, cinq voix supplémentaires ont été ajoutées, ce qui fait un total de onze voix disponibles.

Fig 4. Un exemple d'utilisation de l'API en temps réel pour s'entraîner aux conversations dans une nouvelle langue.

Affiner ChatGPT pour les tâches de vision

À l'origine, le modèle de langage de vision GPT-4o ne pouvait être affiné et personnalisé qu'à l'aide d'ensembles de données textuelles. Désormais, avec la sortie de l'API de réglage fin de la vision, les développeurs peuvent former et personnaliser GPT-4o à l'aide d'ensembles de données d'images. Depuis sa sortie, le réglage fin de la vision est devenu un sujet d'intérêt majeur pour les développeurs et les ingénieurs en vision par ordinateur.

Pour affiner les capacités de vision de GPT-4o, les développeurs peuvent utiliser des ensembles de données d'images allant de 100 images à 50 000 images. Après s'être assuré que l'ensemble de données correspond au format requis par OpenAI, il peut être téléchargé sur la plateforme Openai, et le modèle peut être affiné pour des applications spécifiques. 

Par exemple, Automat, une entreprise d'automatisation, a utilisé un ensemble de données de captures d'écran pour former GPT-4o à être capable d'identifier les éléments de l'interface utilisateur sur un écran à partir d'une description. Cela permet de rationaliser l'automatisation des processus robotiques (RPA) en facilitant l'interaction des robots avec les interfaces utilisateur. Au lieu de s'appuyer sur des coordonnées fixes ou des règles de sélection complexes, le modèle peut identifier les éléments de l'interface utilisateur en se basant sur de simples descriptions, ce qui rend les configurations d'automatisation plus adaptables et plus faciles à maintenir lorsque les interfaces changent.

Fig 5. Utilisation d'une version affinée du modèle GPT-4o pour détecter les éléments de l'interface utilisateur.

ChatGPT Équité et détection des préjugés

Les préoccupations éthiques entourant les applications de l'IA sont un sujet de conversation important à mesure que l'IA devient de plus en plus avancée. Comme les réponses de ChatGPTsont basées sur des messages-guides fournis par l'utilisateur et des données disponibles sur Internet, il peut être difficile d'affiner son langage pour qu'il soit toujours responsable. Des rapports indiquent que les réponses deChatGPTsont biaisées en ce qui concerne le nom, le sexe et la race. Pour résoudre ce problème, l'équipe interne d'OpenAI a effectué un test d'équité à la première personne.

Les noms sont souvent porteurs d'indices subtils sur notre culture et nos facteurs géographiques. Dans la plupart des cas, ChatGPT ignore les indices subtils contenus dans les noms. Cependant, dans certains cas, les noms qui reflètent la race ou la culture entraînent des réponses différentes de la part de ChatGPT, dont environ 1 % reflètent un langage préjudiciable. L'élimination des préjugés et du langage préjudiciable est une tâche difficile pour un modèle de langage. Cependant, en partageant ces résultats publiquement et en reconnaissant les limites du modèle, OpenAI aide les utilisateurs à affiner leurs messages-guides pour obtenir des réponses plus neutres et impartiales. 

Fig 6. Exemple de réponses différentes en fonction du nom de l'utilisateur.

Comprendre la recherche sur ChatGPT

Lorsque ChatGPT a été lancé pour la première fois, des discussions ont eu lieu au sein de la communauté de l'IA pour savoir s'il pouvait remplacer la navigation traditionnelle sur le Web. Aujourd'hui, de nombreux utilisateurs utilisent ChatGPT au lieu de Google Search

La nouvelle mise à jour d'OpenAI, la fonction de recherche, va encore plus loin. Avec Search, ChatGPT génère des réponses actualisées et inclut des liens vers des sources pertinentes. Depuis le 31 octobre, la fonction de recherche est disponible pour tous les utilisateurs de ChatGPT Plus et Team, ce qui permet à ChatGPT de fonctionner davantage comme un moteur de recherche alimenté par l'IA.

Fig 7. Exemple d'utilisation de la nouvelle fonction de recherche de ChatGPT.

Le chemin à parcourir

ChatGPTLes récentes mises à jour de l'IA visent à la rendre plus utile, plus flexible et plus juste. La nouvelle fonction Canvas aide les utilisateurs à travailler plus efficacement, tandis que le réglage fin de la vision permet aux développeurs de personnaliser les modèles pour mieux gérer les tâches visuelles. La prise en compte de l'équité et la réduction des préjugés sont également des priorités essentielles, qui permettent de s'assurer que l'IA fonctionne bien pour tout le monde, quelle que soit l'identité de chacun. Que tu sois un développeur qui peaufine ses modèles ou que tu utilises simplement les dernières fonctionnalités, ChatGPT évolue pour répondre à un large éventail de besoins. Avec des capacités en temps réel, une intégration visuelle et un accent mis sur l'utilisation responsable, ces mises à jour construisent une expérience de l'IA plus digne de confiance et plus fiable pour tout le monde.

Explore davantage l'IA en visitant notre dépôt GitHub et en rejoignant notre communauté. En savoir plus sur les applications de l'IA dans les domaines de la conduite autonome et de la santé.

Logo FacebookLogo de TwitterLogo LinkedInSymbole du lien de copie

Lire la suite dans cette catégorie

Construisons ensemble le futur
de l'IA !

Commence ton voyage avec le futur de l'apprentissage automatique.