Glossaire

Moteur d'inférence

Découvre comment les moteurs d'inférence alimentent l'IA en fournissant des prédictions en temps réel, en optimisant les modèles et en permettant un déploiement multiplateforme.

Entraîne les modèles YOLO simplement
avec Ultralytics HUB

En savoir plus

Dans le domaine de l'intelligence artificielle et de l'apprentissage automatique, un moteur d'inférence est le composant chargé de déployer des modèles entraînés pour faire des prédictions sur de nouvelles données inédites. Il prend un modèle entraîné et l'applique à des données du monde réel pour effectuer des tâches telles que la détection d'objets, la classification d'images ou le traitement du langage naturel. Il s'agit essentiellement du moteur qui pilote l'étape d'"inférence" de l'apprentissage automatique, où les modèles appris sont utilisés pour analyser et interpréter de nouvelles entrées, ce qui permet aux systèmes d'IA de résoudre des problèmes et de prendre des décisions en temps réel.

Comment fonctionnent les moteurs de déduction

Les moteurs d'inférence fonctionnent à l'aide de modèles pré-entraînés qui ont déjà subi un entraînement intensif sur de grands ensembles de données. Ces modèles, souvent développés à l'aide d'outils tels que PyTorchcontiennent les connaissances apprises nécessaires à l'exécution de tâches spécifiques. Lorsque de nouvelles données, telles qu'une image ou un texte, sont introduites dans le moteur d'inférence, celui-ci traite ces données à l'aide du modèle pré-entraîné. Ce processus génère une sortie, qui peut être une boîte de délimitation de détection d'objet, une étiquette de classification ou un sentiment prédit. Ultralytics YOLO Les modèles d'analyse d'images, par exemple, s'appuient sur des moteurs d'inférence pour effectuer la détection, la segmentation et la classification d'objets en temps réel sur diverses plateformes, qu'il s'agisse d'appareils en périphérie aux ressources limitées ou de puissants serveurs dans le nuage. L'efficacité d'un moteur d'inférence est cruciale pour les applications du monde réel, car elle a un impact à la fois sur la vitesse et la précision des prédictions.

Caractéristiques principales des moteurs d'inférence

  • Inférence en temps réel: Les moteurs d'inférence sont conçus pour la vitesse, permettant une inférence en temps réel pour une prise de décision immédiate dans des environnements dynamiques.
  • Déploiement multiplateforme: Ils prennent en charge le déploiement sur différents matériels, depuis les appareils périphériques comme NVIDIA Jetson jusqu'à l'infrastructure en nuage, ce qui garantit la polyvalence et l'évolutivité.
  • Optimisation des modèles: Les moteurs d'inférence intègrent souvent des techniques d'optimisation telles que la quantification et l'élagage des modèles afin d'améliorer les performances et de réduire les exigences informatiques.
  • Intégration avec les accélérateurs matériels: Ils sont conçus pour tirer parti des accélérateurs matériels tels que TensorRT et OpenVINO pour optimiser les performances sur des architectures matérielles spécifiques.
  • Prise en charge de plusieurs formats de modèles: La compatibilité avec les formats de modèles standard tels que ONNX permet une intégration transparente des modèles formés dans différents cadres.

Applications des moteurs d'inférence

1. La conduite autonome

Dans les voitures auto-conduites, les moteurs d'inférence sont au cœur du système de perception. Ils traitent les données en temps réel provenant de capteurs tels que les caméras et le LiDAR pour détecter les objets, les piétons et les marquages de voie, ce qui permet au véhicule de naviguer en toute sécurité. Ultralytics YOLO Lorsqu'ils sont déployés à l'aide de moteurs d'inférence efficaces, les modèles d'inférence garantissent une détection rapide et précise des objets, ce qui est essentiel pour la sécurité et la réactivité des véhicules autonomes.

2. Analyse d'images médicales

Dans le domaine de la santé, les moteurs d'inférence révolutionnent les diagnostics. Par exemple, dans l'analyse d'images médicales, des modèles entraînés à détecter des anomalies dans des images médicales telles que des IRM ou des tomodensitogrammes peuvent être déployés sur des moteurs d'inférence pour aider les radiologues. Ces moteurs peuvent rapidement analyser les images et mettre en évidence les zones potentiellement préoccupantes, améliorant ainsi la rapidité et la précision du diagnostic, et favorisant une détection plus précoce de maladies telles que les tumeurs cérébrales.

Techniques d'optimisation

Pour s'assurer que les moteurs d'inférence fonctionnent de manière optimale, diverses techniques d'optimisation sont employées. La quantification du modèle réduit la précision numérique des poids du modèle, ce qui diminue la taille du modèle et accélère le calcul. L'élagage du modèle élimine les connexions moins importantes dans le réseau neuronal, ce qui simplifie le modèle et améliore la vitesse sans perte significative de précision. Les optimisations spécifiques au matériel, telles que l'utilisation de NVIDIA TensorRT sur les GPU NVIDIA , améliorent encore la vitesse d'inférence en adaptant l'exécution du modèle à l'architecture matérielle.

Différencier les moteurs d'inférence des concepts connexes

Bien que les moteurs d'inférence soient cruciaux pour le déploiement des modèles d'IA, ils se distinguent des cadres de formation tels que. PyTorchLes moteurs d'inférence se concentrent uniquement sur le déploiement et l'exécution de modèles déjà formés. Les moteurs d'inférence se concentrent uniquement sur le déploiement et l'exécution de modèles déjà formés. Ils sont également différents des pratiques de déploiement de modèles, qui englobent les stratégies et méthodologies plus larges permettant de rendre les modèles accessibles et opérationnels dans des environnements réels.

Conclusion

Les moteurs d'inférence sont indispensables pour faire passer les modèles d'IA et d'apprentissage automatique du laboratoire aux applications du monde réel. Leur capacité à fournir des prédictions rapides et précises dans divers environnements en fait une pierre angulaire de l'infrastructure moderne de l'IA. Pour ceux qui cherchent à rationaliser le déploiement de l'IA, des plateformes comme Ultralytics HUB offrent des outils et des ressources pour déployer et gérer efficacement les modèles d'IA alimentés par des moteurs d'inférence robustes.

Tout lire