Glossário

Motor de inferência

Descobre como os motores de inferência potenciam a IA, fornecendo previsões em tempo real, optimizando modelos e permitindo a implementação entre plataformas.

No domínio da inteligência artificial (IA) e da aprendizagem automática (ML), um motor de inferência é um componente crucial de software ou hardware responsável pela execução de modelos treinados para fazer previsões sobre dados novos e não vistos. Depois de um modelo ter aprendido padrões durante a fase de treino, o motor de inferência pega nesse modelo treinado e aplica-o a dados do mundo real. Este processo, conhecido como inferência, permite que os sistemas de IA executem tarefas como a deteção de objectos, a classificação de imagens ou o processamento de linguagem natural (PNL) em aplicações práticas. É essencialmente o coração operacional de um modelo de IA implementado, traduzindo o conhecimento aprendido em resultados acionáveis de forma eficiente.

Como funcionam os motores de inferência

Um mecanismo de inferência utiliza um modelo pré-treinado, muitas vezes desenvolvido usando estruturas de aprendizagem profunda (DL) como PyTorch ou TensorFlowque encapsula o conhecimento necessário para uma tarefa específica. Quando novos dados (por exemplo, uma imagem, um clip de áudio ou uma frase de texto) são fornecidos como entrada, o motor de inferência processa-os através da estrutura computacional do modelo (frequentemente uma rede neural). Isto gera um resultado, como a identificação de objectos com caixas delimitadoras numa imagem, a transcrição de voz ou a classificação de sentimentos. Ultralytics YOLO da Ultralytics, por exemplo, dependem de motores de inferência eficientes para conseguir a deteção e segmentação de objectos em tempo real em várias plataformas, desde poderosos servidores na nuvem a dispositivos de ponta com recursos limitados. O desempenho do motor de inferência tem um impacto direto na velocidade e na capacidade de resposta da aplicação, muitas vezes medida pela latência e pela taxa de transferência da inferência.

Optimizações e caraterísticas principais

Um papel fundamental dos motores de inferência modernos é a otimização. A execução direta de um modelo de aprendizagem profunda grande e treinado pode ser computacionalmente dispendiosa e lenta. Os mecanismos de inferência empregam várias técnicas para tornar os modelos mais rápidos e eficientes, permitindo a implantação em diversos hardwares. As estratégias comuns de otimização de modelos incluem:

Quantização de modelos: Reduzir a precisão dos pesos do modelo (por exemplo, de ponto flutuante de 32 bits para inteiros de 8 bits) para diminuir o tamanho do modelo e acelerar o cálculo, muitas vezes com um impacto mínimo na precisão.
Poda do modelo: Remove conexões redundantes ou sem importância (pesos) dentro da rede neural para criar um modelo menor e mais rápido.
Otimização de gráficos: Fusão de camadas ou reorganização de operações no gráfico computacional do modelo para melhorar a eficiência da execução em hardware específico.
Aceleração de hardware: Aproveita processadores especializados como GPUs, TPUs ou aceleradores de IA dedicados encontrados em dispositivos como o Google Edge TPU ou o NVIDIA Jetson.

Muitos mecanismos de inferência também suportam formatos de modelos padronizados, como o ONNX (Open Neural Network Exchange), que permite que modelos treinados em uma estrutura (como PyTorch) sejam executados usando um mecanismo ou plataforma diferente. Os mecanismos de inferência populares incluem NVIDIA TensorRT daIntel, o OpenVINO daIntel e TensorFlow Lite. Os modelos Ultralytics suportam a exportação para vários formatos compatíveis com estes motores, detalhados no guia Opções de implementação de modelos.