Glossário

Motor de inferência

Descobre como os motores de inferência potenciam a IA, fornecendo previsões em tempo real, optimizando modelos e permitindo a implementação entre plataformas.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

No domínio da inteligência artificial (IA) e da aprendizagem automática (ML), um motor de inferência é um componente crucial de software ou hardware responsável pela execução de modelos treinados para fazer previsões sobre dados novos e não vistos. Depois de um modelo ter aprendido padrões durante a fase de treino, o motor de inferência pega nesse modelo treinado e aplica-o a dados do mundo real. Este processo, conhecido como inferência, permite que os sistemas de IA executem tarefas como a deteção de objectos, a classificação de imagens ou o processamento de linguagem natural (PNL) em aplicações práticas. É essencialmente o coração operacional de um modelo de IA implementado, traduzindo o conhecimento aprendido em resultados acionáveis de forma eficiente.

Como funcionam os motores de inferência

Um mecanismo de inferência utiliza um modelo pré-treinado, muitas vezes desenvolvido usando estruturas de aprendizagem profunda (DL) como PyTorch ou TensorFlowque encapsula o conhecimento necessário para uma tarefa específica. Quando novos dados (por exemplo, uma imagem, um clip de áudio ou uma frase de texto) são fornecidos como entrada, o motor de inferência processa-os através da estrutura computacional do modelo (frequentemente uma rede neural). Isto gera um resultado, como a identificação de objectos com caixas delimitadoras numa imagem, a transcrição de voz ou a classificação de sentimentos. Ultralytics YOLO da Ultralytics, por exemplo, dependem de motores de inferência eficientes para conseguir a deteção e segmentação de objectos em tempo real em várias plataformas, desde poderosos servidores na nuvem a dispositivos de ponta com recursos limitados. O desempenho do motor de inferência tem um impacto direto na velocidade e na capacidade de resposta da aplicação, muitas vezes medida pela latência e pela taxa de transferência da inferência.

Optimizações e caraterísticas principais

Um papel fundamental dos motores de inferência modernos é a otimização. A execução direta de um modelo de aprendizagem profunda grande e treinado pode ser computacionalmente dispendiosa e lenta. Os mecanismos de inferência empregam várias técnicas para tornar os modelos mais rápidos e eficientes, permitindo a implantação em diversos hardwares. As estratégias comuns de otimização de modelos incluem:

  • Quantização de modelos: Reduzir a precisão dos pesos do modelo (por exemplo, de ponto flutuante de 32 bits para inteiros de 8 bits) para diminuir o tamanho do modelo e acelerar o cálculo, muitas vezes com um impacto mínimo na precisão.
  • Poda do modelo: Remove conexões redundantes ou sem importância (pesos) dentro da rede neural para criar um modelo menor e mais rápido.
  • Otimização de gráficos: Fusão de camadas ou reorganização de operações no gráfico computacional do modelo para melhorar a eficiência da execução em hardware específico.
  • Aceleração de hardware: Aproveita processadores especializados como GPUs, TPUs ou aceleradores de IA dedicados encontrados em dispositivos como o Google Edge TPU ou o NVIDIA Jetson.

Muitos mecanismos de inferência também suportam formatos de modelos padronizados, como o ONNX (Open Neural Network Exchange), que permite que modelos treinados em uma estrutura (como PyTorch) sejam executados usando um mecanismo ou plataforma diferente. Os mecanismos de inferência populares incluem NVIDIA TensorRTdaIntel, o OpenVINO daIntel e TensorFlow Lite. Os modelos Ultralytics suportam a exportação para vários formatos compatíveis com estes motores, detalhados no guia Opções de implementação de modelos.

Motor de inferência vs. Estrutura de treino

É importante distinguir os motores de inferência das estruturas de formação.

  • Estruturas de treino (por exemplo, PyTorch, TensorFlow, Keras): Estas são bibliotecas abrangentes utilizadas para construir, treinar e validar modelos de aprendizagem automática. Fornecem ferramentas para definir arquitecturas de rede, implementar a retropropagação, gerir conjuntos de dados e calcular funções de perda. O foco está na flexibilidade e no processo de aprendizagem.
  • Motores de inferência (por exemplo, TensorRT, OpenVINO, ONNX Runtime): São ferramentas especializadas projetadas para executar modelos pré-treinados de forma eficiente para tarefas de previsão(implantação de modelo). O seu principal objetivo é otimizar a velocidade(baixa latência), a utilização de pouca memória e a compatibilidade com o hardware de destino. Muitas vezes, eles pegam modelos treinados usando frameworks e os convertem em um formato otimizado.

Aplicações no mundo real

Os motores de inferência são essenciais para a aplicação da IA em cenários práticos:

  1. Veículos autónomos: Os carros autónomos(como os desenvolvidos pela Waymo) dependem fortemente de motores de inferência eficientes executados em hardware incorporado(como as plataformas NVIDIA Jetson) para processar dados de sensores (câmaras, LiDAR) em tempo real. Os motores optimizam modelos complexos de visão por computador, como o YOLO , para tarefas como a deteção de objectos (detetar carros, peões, sinais) e a segmentação semântica (compreender o traçado da estrada) com um atraso mínimo, o que é crucial para a segurança. Explora mais sobre a IA em soluções automóveis.
  2. Análise de imagens médicas: Os mecanismos de inferência aceleram a análise de exames médicos (raios X, tomografia computadorizada, ressonância magnética) para tarefas como deteção de tumores(consulte Conjunto de dados de tumores cerebrais) ou anomalias. Os modelos optimizados implementados através de motores de inferência podem ser executados rapidamente em servidores hospitalares ou dispositivos médicos especializados, ajudando os radiologistas(leia sobre IA em Radiologia) ao fornecer diagnósticos mais rápidos ou segundas opiniões. Verifica as soluções de IA nos cuidados de saúde.

Essencialmente, os motores de inferência colmatam a lacuna entre os modelos de IA treinados e a sua aplicação prática, garantindo que as capacidades sofisticadas de IA podem ser fornecidas de forma eficiente e eficaz numa vasta gama de dispositivos e plataformas, incluindo a gestão de modelos através de plataformas como o Ultralytics HUB.

Lê tudo