Glossário

Modelo de serviço

Aprende os fundamentos do serviço de modelos - implementa modelos de IA para previsões em tempo real, escalabilidade e integração perfeita em aplicações.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

Depois de um modelo de Aprendizagem Automática (ML) ser treinado e validado, o próximo passo crítico é torná-lo disponível para gerar previsões em novos dados. Este processo é conhecido como Model Serving. Envolve a implementação de um modelo treinado num ambiente de produção, normalmente atrás de um ponto de extremidade de API, permitindo que aplicações ou outros sistemas solicitem previsões em tempo real. O serviço de modelos funciona como uma ponte entre o modelo desenvolvido e a sua aplicação prática, transformando-o de um ficheiro estático num serviço ativo e gerador de valor no âmbito do ciclo de vida mais vasto da aprendizagem automática.

Importância do serviço de modelos

O serviço de modelos é fundamental para operacionalizar os modelos de ML. Sem ele, mesmo os modelos mais precisos, como os mais avançados Ultralytics YOLO do Ultralytics, permanecem isolados em ambientes de desenvolvimento, incapazes de afetar os processos do mundo real. A disponibilização eficaz de modelos garante:

Aplicações no mundo real

O serviço de modelos permite inúmeras funcionalidades baseadas em IA com as quais interagimos diariamente. Eis dois exemplos:

  1. Recomendações de produtos para comércio eletrónico: Quando navega numa loja online, um modelo que serve de backend alimenta o sistema de recomendação. Toma o seu histórico de navegação ou perfil de utilizador como entrada e devolve sugestões de produtos personalizados em tempo real.
  2. Assistência ao diagnóstico médico: Nos cuidados de saúde, os modelos treinados para análise de imagens médicas podem ser fornecidos através de uma API. Os médicos podem carregar exames de pacientes (como raios X ou ressonâncias magnéticas) para o serviço, que então retorna possíveis anomalias ou insights de diagnóstico, auxiliando na tomada de decisões clínicas. Plataformas como o Ultralytics HUB facilitam a implantação desses modelos especializados.

Componentes principais do serviço de modelos

A implementação de um sistema robusto de fornecimento de modelos envolve vários componentes:

  • Formato do modelo: O modelo treinado precisa de ser guardado num formato adequado para a implementação, como por exemplo ONNXTensorFlow SavedModel, ou formatos optimizados como TensorRT.
  • Estrutura de serviço: Softwares como TensorFlow Serving, TorchServe ou NVIDIA Triton Inference Server gerenciam o ciclo de vida do modelo, lidam com solicitações e realizam inferência.
  • Ponto de extremidade da API: Uma interface (frequentemente gerida por um API Gateway) expõe as capacidades de previsão do modelo a aplicações cliente.
  • Infraestrutura: O ambiente de hardware e software subjacente, que pode ser constituído por servidores no local, instâncias de computação em nuvem ou mesmo dispositivos especializados de computação de ponta.
  • Monitorização: As ferramentas e os processos de monitorização do modelo acompanham o desempenho, a latência, os erros e os potenciais desvios de dados para garantir que o modelo servido se mantém eficaz ao longo do tempo.

Implantação de modelo Vs. Serviço de modelo

Embora os termos Implantação de modelo e Serviço de modelo estejam frequentemente relacionados, eles não são idênticos. A implantação de modelos é o conceito mais amplo de tornar um modelo treinado disponível para uso. Isso pode abranger várias estratégias, incluindo a incorporação de modelos diretamente em aplicativos, implantando-os em dispositivos de borda para inferência offline ou configurando pipelines de processamento em lote que executam previsões periodicamente. Podes explorar diferentes opções de implementação de modelos, dependendo das tuas necessidades.

O serviço de modelos refere-se especificamente à implementação de um modelo como um serviço de rede, normalmente acessível através de uma API, concebido para processar pedidos de previsão a pedido, frequentemente em tempo real. É um tipo específico de implantação de modelo focado em fornecer recursos de inferência contínua com considerações de escalabilidade e baixa latência. Para muitas aplicações interactivas que requerem previsões imediatas, o serviço de modelos é o método de implementação preferido.

Lê tudo