Yolo Vision Shenzhen
Shenzhen
Rejoindre maintenant
Glossaire

Réglage d'invite

Découvrez le réglage rapide des invites pour adapter efficacement les modèles de base sans avoir à les réentraîner entièrement. Découvrez comment les invites souples réduisent la latence et le stockage pour les tâches d'IA telles que YOLO26.

Le réglage rapide est une technique économe en ressources utilisée pour adapter des modèles de base pré-entraînés à des tâches spécifiques en aval sans avoir à réentraîner l'ensemble du réseau, ce qui est très coûteux en termes de calcul. Contrairement au réglage fin traditionnel, qui met à jour la totalité ou la plupart des paramètres d'un modèle , le réglage rapide gèle les poids du modèle pré-entraîné et optimise uniquement un petit ensemble de vecteurs apprenables, appelés « prompts souples », qui sont ajoutés en tête des données d'entrée. Cette approche permet à une seule infrastructure massive de servir simultanément plusieurs applications spécialisées , ce qui réduit considérablement les besoins en stockage et les coûts de commutation liés à la latence d'inférence.

Les mécanismes du réglage rapide

Dans les workflows standard d'apprentissage automatique (ML), les entrées telles que le texte ou les images sont converties en représentations numériques appelées « embeddings ». Le réglage rapide insère des vecteurs d'embedding supplémentaires et entraînables dans cette séquence d'entrée. Pendant la phase d'entraînement, le système utilise la rétropropagation pour calculer les gradients, mais l' algorithme d'optimisation ne met à jour que les valeurs des invites souples, laissant intacte la structure massive du modèle.

Cette méthode est une forme de réglage fin efficace des paramètres (PEFT). En apprenant ces vecteurs continus, le modèle est « orienté » vers le résultat souhaité. Bien que ce concept trouve son origine dans le traitement du langage naturel (NLP), il a été adapté avec succès aux tâches de vision par ordinateur (CV), souvent appelées réglage visuel (VPT).

Distinguer les concepts apparentés

Pour comprendre l'utilité du prompt tuning, il est essentiel de le différencier des termes similaires dans le domaine de l'IA :

  • Ingénierie des invites: cela implique la création manuelle d'instructions textuelles lisibles par l'homme (invites fixes) pour guider un modèle d'IA générative. Cela ne nécessite aucun codage ni formation. Le réglage des invites, en revanche, utilise l'apprentissage supervisé automatisé pour trouver des intégrations numériques optimales qui peuvent ne pas correspondre à des mots en langage naturel.
  • Réglage fin complet : les méthodes traditionnelles mettent à jour l'ensemble du réseau neuronal, ce qui conduit souvent à un « oubli catastrophique » de l'apprentissage initial. Le réglage rapide préserve les capacités initiales du modèle, ce qui facilite l'exploitation du transfert d'apprentissage entre des tâches disjointes.
  • Apprentissage en quelques essais: cela fait généralement référence à la fourniture de quelques exemples dans la fenêtre contextuelle d'un LLM. Le réglage des invites est différent, car il apprend en permanence les paramètres qui sont enregistrés et réutilisés, plutôt que de fournir simplement un contexte temporaire.

Applications concrètes

Le réglage rapide permet un déploiement évolutif de l'IA dans des environnements aux ressources limitées, une philosophie fondamentale partagée par la Ultralytics pour la gestion des modèles.

  1. Assistance client multilingue : une entreprise internationale peut utiliser un modèle linguistique centralisé et figé. En formant des invites logicielles légères pour l'espagnol, le japonais et l'allemand, le système peut changer de langue instantanément. Cela évite le coût énorme lié à l'hébergement de trois modèles distincts de plusieurs gigaoctets, en s'appuyant plutôt sur des fichiers d'invites de quelques kilo-octets .
  2. L'IA dans le domaine de la santé: l'imagerie médicale souffre souvent d'une pénurie de données. Les chercheurs peuvent utiliser une infrastructure de vision polyvalente (comme un Vision Transformer) et recourir au prompt tuning pour l'adapter à la détection d'anomalies spécifiques, telles que les maladies rétiniennes ou les tumeurs. Cela permet de préserver la confidentialité des données des patients et de s'adapter rapidement aux nouveaux équipements médicaux sans avoir à réentraîner entièrement le modèle.

Exemple de mise en œuvre

Ce qui suit PyTorch illustre le concept mécanique de base : geler les couches principales d'un modèle et créer un paramètre distinct et entraînable (le « soft prompt ») optimisé pour influencer la sortie.

import torch
import torch.nn as nn

# 1. Define a dummy backbone (e.g., a pre-trained layer)
backbone = nn.Linear(10, 5)

# 2. Freeze the backbone weights (crucial for prompt tuning)
for param in backbone.parameters():
    param.requires_grad = False

# 3. Create a 'soft prompt' vector that IS trainable
# This represents the learnable embeddings prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 10), requires_grad=True)

# 4. Initialize an optimizer that targets ONLY the soft prompt
optimizer = torch.optim.SGD([soft_prompt], lr=0.1)

# Verify that only the prompt is being trained
trainable_params = sum(p.numel() for p in [soft_prompt] if p.requires_grad)
print(f"Optimizing {trainable_params} parameters (Soft Prompt only)")

Pertinence pour l'IA moderne de pointe

À mesure que les modèles deviennent plus volumineux, la capacité à les adapter à moindre coût devient essentielle. Si des architectures telles que YOLO26 sont déjà hautement optimisées en termes d'efficacité, les principes de gel des backbones et d'adaptation efficace sont fondamentaux pour l'avenir de l' IA en périphérie. Des techniques similaires au prompt tuning permettent aux appareils disposant d'une mémoire limitée d'effectuer diverses tâches, de la détection d'objets à la segmentation, en échangeant simplement de petits fichiers de configuration plutôt que de recharger des réseaux neuronaux volumineux.

Pour les développeurs qui cherchent à se former et à déployer efficacement, l'utilisation d'outils tels que Ultralytics garantit que les modèles sont optimisés pour leurs cibles matérielles spécifiques, en tirant parti des meilleures pratiques des MLOps modernes.

Rejoindre la communauté Ultralytics

Rejoignez le futur de l'IA. Connectez-vous, collaborez et évoluez avec des innovateurs mondiaux.

Rejoindre maintenant