Découvrez la méthode Chain-of-Thought (CoT) pour améliorer le raisonnement de l'IA. Découvrez comment la division des tâches en étapes logiques améliore la génération de code pour Ultralytics .
La technique Chain-of-Thought (CoT) est une technique avancée d'ingénierie des invites qui permet aux grands modèles linguistiques (LLM) de résoudre des tâches de raisonnement complexes en les décomposant en étapes logiques intermédiaires. Plutôt que de demander à un modèle de fournir une réponse finale immédiate, la technique CoT encourage le système à générer un « enchaînement de pensées » qui imite la résolution de problèmes par l'être humain. Ce raisonnement étape par étape améliore considérablement les performances dans les tâches impliquant l' arithmétique, la logique symbolique et le raisonnement de bon sens, transformant ainsi notre interaction avec les systèmes d'intelligence artificielle (IA).
Les modèles linguistiques standard ont souvent du mal à traiter les problèmes en plusieurs étapes, car ils tentent de faire correspondre directement l'entrée à la sortie en un seul passage. Cette approche de type « boîte noire » peut entraîner des erreurs, en particulier lorsque le saut logique est trop important. La méthode Chain-of-Thought résout ce problème en insérant des étapes de raisonnement entre la question d'entrée et la sortie finale.
Ce processus fonctionne généralement de deux manières :
En générant explicitement un raisonnement intermédiaire, le modèle a plus d'occasions de se corriger et offre une transparence sur la manière dont il est parvenu à une conclusion. Cela est crucial pour réduire les hallucinations dans les LLM, où les modèles pourraient sinon affirmer avec certitude des faits incorrects.
Bien qu'initialement développé pour la logique textuelle, le prompting Chain-of-Thought a de puissantes applications lorsqu'il est combiné à d'autres domaines de l'IA, tels que la vision par ordinateur et la génération de code.
Les développeurs utilisent le CoT pour guider les LLM dans la rédaction de scripts logiciels complexes pour des tâches telles que la détection d'objets. Au lieu d'une demande vague telle que « écrire un code pour trouver des voitures », une invite CoT pourrait structurer la demande : « Tout d'abord, importez les bibliothèques nécessaires . Ensuite, chargez le modèle pré-entraîné. Troisièmement, définissez la source de l'image. Enfin, exécutez la boucle de prédiction. » Cette approche structurée garantit que le code généré pour des modèles tels que YOLO26 est syntaxiquement correct et logiquement cohérent.
Dans le domaine des véhicules autonomes, les systèmes doivent traiter des données visuelles et prendre des décisions cruciales pour la sécurité. Une approche de type « chaîne de pensée » permet au système d' articuler sa logique : « Je detect piéton près du passage piéton. Le piéton fait face à la route. Le feu est vert pour moi, mais le piéton pourrait s'engager. Par conséquent, je vais ralentir et me préparer à m'arrêter. » Cela rend les décisions de l'IA interprétables et s'aligne sur les principes de l'IA explicable (XAI).
Bien que le CoT soit principalement une technique de langage naturel, il peut être mis en œuvre par programmation afin de garantir des interactions cohérentes avec les modèles de vision. Python suivant montre comment un développeur peut structurer une invite afin de guider un LLM (simulé ici) dans la génération d'un code d'inférence valide pour Ultralytics .
# Example of structuring a Chain-of-Thought prompt for an LLM
# This prompt guides the model to write a valid YOLO26 inference script
cot_prompt = """
Task: Write a Python script to detect objects using YOLO26.
Chain of Thought:
1. Import the YOLO class from the 'ultralytics' library.
2. Load the 'yolo26n.pt' model weights (the latest nano model).
3. Load a sample image using a URL or local path.
4. Run the predict() function and save the results.
Based on these steps, generate the Python code below:
"""
# In a real application, you would send 'cot_prompt' to an LLM API
print(f"Structured Prompt for LLM:\n{cot_prompt}")
Il est important de différencier la chaîne de pensée des termes similaires utilisés dans le domaine de l'apprentissage automatique (ML):
À mesure que les modèles de base continuent d'évoluer, l'invite Chain-of-Thought devient une pratique standard pour exploiter pleinement leur potentiel. Les recherches menées par des groupes tels que Google DeepMind suggèrent que plus les modèles gagnent en taille, plus leur capacité à effectuer un raisonnement CoT s'améliore considérablement. Cette évolution ouvre la voie à des agents autonomes plus fiables, capables de gérer des flux de travail complexes dans des secteurs allant des soins de santé à la fabrication intelligente.