Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Prompting en chaîne de pensée

Découvrez la méthode Chain-of-Thought (CoT) pour améliorer le raisonnement de l'IA. Découvrez comment la division des tâches en étapes logiques améliore la génération de code pour Ultralytics .

La technique Chain-of-Thought (CoT) est une technique avancée d'ingénierie des invites qui permet aux grands modèles linguistiques (LLM) de résoudre des tâches de raisonnement complexes en les décomposant en étapes logiques intermédiaires. Plutôt que de demander à un modèle de fournir une réponse finale immédiate, la technique CoT encourage le système à générer un « enchaînement de pensées » qui imite la résolution de problèmes par l'être humain. Ce raisonnement étape par étape améliore considérablement les performances dans les tâches impliquant l' arithmétique, la logique symbolique et le raisonnement de bon sens, transformant ainsi notre interaction avec les systèmes d'intelligence artificielle (IA).

Le mécanisme du raisonnement

Les modèles linguistiques standard ont souvent du mal à traiter les problèmes en plusieurs étapes, car ils tentent de faire correspondre directement l'entrée à la sortie en un seul passage. Cette approche de type « boîte noire » peut entraîner des erreurs, en particulier lorsque le saut logique est trop important. La méthode Chain-of-Thought résout ce problème en insérant des étapes de raisonnement entre la question d'entrée et la sortie finale.

Ce processus fonctionne généralement de deux manières :

  • Zero-Shot CoT : l'utilisateur ajoute une simple phrase déclencheuse telle que « Réfléchissons étape par étape » à l'invite. Cela active les capacités de raisonnement latentes du modèle sans nécessiter d'exemples spécifiques.
  • Few-Shot CoT : La invite comprend quelques exemples (modèles) de questions accompagnées de leurs solutions étape par étape. Cela permet de tirer parti de l' apprentissage en quelques essais pour montrer au modèle comment structurer sa logique avant de s'attaquer à un nouveau problème.

En générant explicitement un raisonnement intermédiaire, le modèle a plus d'occasions de se corriger et offre une transparence sur la manière dont il est parvenu à une conclusion. Cela est crucial pour réduire les hallucinations dans les LLM, où les modèles pourraient sinon affirmer avec certitude des faits incorrects.

Applications concrètes

Bien qu'initialement développé pour la logique textuelle, le prompting Chain-of-Thought a de puissantes applications lorsqu'il est combiné à d'autres domaines de l'IA, tels que la vision par ordinateur et la génération de code.

1. Amélioration de la génération de code pour la vision par ordinateur

Les développeurs utilisent le CoT pour guider les LLM dans la rédaction de scripts logiciels complexes pour des tâches telles que la détection d'objets. Au lieu d'une demande vague telle que « écrire un code pour trouver des voitures », une invite CoT pourrait structurer la demande : « Tout d'abord, importez les bibliothèques nécessaires . Ensuite, chargez le modèle pré-entraîné. Troisièmement, définissez la source de l'image. Enfin, exécutez la boucle de prédiction. » Cette approche structurée garantit que le code généré pour des modèles tels que YOLO26 est syntaxiquement correct et logiquement cohérent.

2. Prise de décision autonome

Dans le domaine des véhicules autonomes, les systèmes doivent traiter des données visuelles et prendre des décisions cruciales pour la sécurité. Une approche de type « chaîne de pensée » permet au système d' articuler sa logique : « Je detect piéton près du passage piéton. Le piéton fait face à la route. Le feu est vert pour moi, mais le piéton pourrait s'engager. Par conséquent, je vais ralentir et me préparer à m'arrêter. » Cela rend les décisions de l'IA interprétables et s'aligne sur les principes de l'IA explicable (XAI).

La chaîne de pensée en action

Bien que le CoT soit principalement une technique de langage naturel, il peut être mis en œuvre par programmation afin de garantir des interactions cohérentes avec les modèles de vision. Python suivant montre comment un développeur peut structurer une invite afin de guider un LLM (simulé ici) dans la génération d'un code d'inférence valide pour Ultralytics .

# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script

cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.

Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.

Based on these steps, generate the Python code below:
"""

# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")

Distinguer les concepts apparentés

Il est important de différencier la chaîne de pensée des termes similaires utilisés dans le domaine de l'apprentissage automatique (ML):

  • Enchaînement des invites: cela consiste à relier plusieurs appels de modèles distincts, où la sortie d'une étape devient l'entrée de la suivante. Le CoT se produit au sein d'une seule invite pour susciter un raisonnement interne, tandis que l'enchaînement des invites orchestre un flux de travail à travers plusieurs interactions.
  • Génération augmentée par la récupération (RAG): La RAG se concentre sur la récupération de données externes (telles que des documents ou des bases de données) afin d'étayer les connaissances du modèle. La CoT se concentre sur le processus de raisonnement lui-même. Souvent, ces deux approches sont combinées : la RAG est utilisée pour obtenir les faits et la CoT pour les analyser .
  • Prompt Tuning: Il s'agit d'une méthode de réglage fin efficace en termes de paramètres qui optimise les invites souples continues (vecteurs) pendant l'entraînement. Le CoT est une stratégie discrète en langage naturel appliquée à l' inférence en temps réel sans modifier les pondérations du modèle.

Perspectives d'avenir

À mesure que les modèles de base continuent d'évoluer, l'invite Chain-of-Thought devient une pratique standard pour exploiter pleinement leur potentiel. Les recherches menées par des groupes tels que Google DeepMind suggèrent que plus les modèles gagnent en taille, plus leur capacité à effectuer un raisonnement CoT s'améliore considérablement. Cette évolution ouvre la voie à des agents autonomes plus fiables, capables de gérer des flux de travail complexes dans des secteurs allant des soins de santé à la fabrication intelligente.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant