Glossário

Modelo de serviço

Aprende os fundamentos do serviço de modelos - implementa modelos de IA para previsões em tempo real, escalabilidade e integração perfeita em aplicações.

Treina os modelos YOLO simplesmente
com Ultralytics HUB

Aprende mais

No domínio da Inteligência Artificial e da Aprendizagem Automática, quando um modelo é treinado, o seu percurso está longe de estar terminado. Para que estes modelos sejam úteis na prática, têm de estar acessíveis para fazer previsões sobre dados novos e não vistos. É aqui que entra em jogo o serviço de modelos. O serviço de modelos é o processo de implementação de um modelo de aprendizagem automática treinado num ambiente de produção, onde pode ser acedido por aplicações ou sistemas para efetuar inferências. Essencialmente, faz a ponte entre o desenvolvimento do modelo e a aplicação no mundo real, permitindo que as empresas e os utilizadores aproveitem o poder dos modelos de IA.

Importância do serviço de modelos

O serviço de modelos é crucial porque transforma um modelo estático e treinado num serviço dinâmico e operacional. Sem o serviço de modelos, os modelos de aprendizagem automática permaneceriam confinados a ambientes de desenvolvimento, incapazes de fornecer valor em cenários do mundo real. O fornecimento eficiente de modelos garante:

  • Previsões em tempo real: Permite que as aplicações façam previsões imediatas, essenciais para tarefas sensíveis ao tempo, como a deteção de fraudes ou a condução autónoma. A inferência em tempo real é vital em muitas aplicações modernas de IA.
  • Escalabilidade e fiabilidade: Os ambientes de produção exigem escalabilidade para lidar com cargas variáveis e fiabilidade para garantir um funcionamento contínuo. A infraestrutura de serviço de modelos foi concebida para satisfazer estas exigências, dimensionando os recursos conforme necessário e mantendo uma elevada disponibilidade.
  • Acessibilidade e integração: Fornece uma forma normalizada de aceder a modelos através de APIs, facilitando a integração de capacidades de IA em diversas aplicações, desde serviços Web a aplicações móveis. Isso facilita a incorporação da visão computacional ou do processamento de linguagem natural (PNL) em sistemas mais amplos.
  • Gestão e controlo de versões de modelos: Facilita a gestão de diferentes versões de modelos, permitindo actualizações e retrocessos contínuos. Isto é crucial para manter a precisão do modelo e adaptar-se à evolução dos dados. Ultralytics O HUB oferece ferramentas para uma gestão eficiente dos modelos.

Aplicações no mundo real

O serviço de modelos potencia uma vasta gama de aplicações de IA em todos os sectores. Eis alguns exemplos concretos:

  • Recomendações de produtos para comércio eletrónico: As plataformas de comércio eletrónico utilizam o serviço de modelos para fornecer recomendações de produtos personalizadas em tempo real. Um modelo de sistema de recomendação treinado é servido através de uma API. Quando um utilizador navega no sítio Web, a aplicação envia os dados do utilizador para o ponto de extremidade de fornecimento de modelos, que devolve as recomendações de produtos previstas para serem apresentadas ao utilizador, melhorando a experiência do cliente e impulsionando as vendas.
  • Análise de imagens médicas para diagnóstico: Nos cuidados de saúde, os modelos de análise de imagens médicas, como os utilizados para a deteção de tumores, são servidos para ajudar os radiologistas. Quando uma nova imagem médica (como um raio X ou uma ressonância magnética) é adquirida, ela é enviada para o sistema que serve o modelo. O modelo efectua a inferência e devolve informações de diagnóstico, como o destaque de potenciais anomalias, ajudando a efetuar diagnósticos mais rápidos e mais precisos.

Componentes principais do serviço de modelos

Uma arquitetura típica de serviço de modelos inclui vários componentes-chave que funcionam em conjunto:

  • Modelo treinado: O componente central é o próprio modelo de aprendizagem automática treinado, frequentemente guardado em formatos como ONNX ou TensorFlow SavedModel para uma implementação eficiente. Ultralytics YOLO Os modelos podem ser exportados para vários formatos para flexibilidade de implementação, incluindo TensorRT e OpenVINO.
  • Infraestrutura de serviço: Inclui o ambiente de hardware e software onde o modelo é executado. Podem ser plataformas baseadas na nuvem, como o Amazon SageMaker ou oGoogle Cloud AI Platform, ou servidores no local. As opções de computação sem servidor também estão a ganhar popularidade pela sua escalabilidade e eficiência de custos.
  • Servidor de API: Um servidor API (Application Programming Interface) actua como interface entre as aplicações e o modelo servido. Recebe pedidos de previsão, envia-os para o modelo para inferência e devolve as previsões. As estruturas de API comuns incluem REST e gRPC.
  • Balanceador de carga: Para lidar com o tráfego elevado e garantir a escalabilidade, um balanceador de carga distribui os pedidos recebidos por várias instâncias da infraestrutura de serviço, evitando a sobrecarga e mantendo o desempenho.
  • Monitorização e registo: Os sistemas robustos de monitorização e registo são essenciais para acompanhar o desempenho do modelo, detetar problemas e garantir a fiabilidade do sistema de serviço ao longo do tempo. Isto inclui a monitorização da latência da inferência, do rendimento e das taxas de erro, e faz parte da monitorização do modelo.

Implantação de modelos vs. Serviço de modelos

Embora muitas vezes utilizados de forma intercambiável, a implantação de modelos e a disponibilização de modelos têm significados distintos. A implantação de modelos é o processo mais amplo de tornar um modelo disponível para uso, que pode incluir vários métodos além de apenas servir por meio de uma API. As opções de implantação de modelos podem variar desde a incorporação de modelos diretamente em aplicativos, implantação em dispositivos de borda ou configuração de pipelines de inferência em lote.

O serviço de modelo, especificamente, refere-se à configuração de um serviço dedicado, escalável e acessível para inferência em tempo real, normalmente através de uma API. É um tipo específico de implantação focado em recursos de previsão contínuos e sob demanda. A escolha entre os métodos de implantação depende dos requisitos do aplicativo, como necessidades de latência, demandas de escalabilidade e complexidade de integração. Para aplicações que exigem previsões instantâneas e integração perfeita em diversos sistemas, o serviço de modelo é a abordagem ideal.

Lê tudo