Yolo Vision Shenzhen
Shenzhen
Junte-se agora
Glossário

TPU Tensor Unidade de ProcessamentoTensor )

Explore como as Unidades Tensor (TPUs) aceleram o aprendizado de máquina. Aprenda a otimizar Ultralytics para TPUs de ponta e treinamento em nuvem para obter velocidade máxima.

Uma Unidade Tensor (TPU) é um circuito integrado específico para aplicações (ASIC) projetado Google especificamente para acelerar as cargas de trabalho de aprendizagem automática (ML). Ao contrário dos processadores de uso geral que lidam com uma ampla gama de tarefas de computação, as TPUs são projetadas desde o início para otimizar as operações matriciais massivas fundamentais para as redes neurais. Este foco específico permite que elas alcancem um rendimento e uma eficiência energética excepcionalmente altos, tornando-as a pedra angular da moderna infraestrutura de inteligência artificial (IA), particularmente dentro do ecossistemaGoogle . Elas desempenham um papel vital na redução do tempo necessário para treinar modelos complexos e executar inferências em tempo real em escala.

Arquitetura e funcionalidade

A arquitetura de uma TPU significativamente dos processadores tradicionais. Enquanto uma CPU Unidade Central de Processamento) padrão se destaca em tarefas sequenciais e lógica complexa, e uma GPU Unidade de Processamento Gráfico) usa núcleos paralelos para gráficos e computação geral, uma TPU uma arquitetura de matriz sistólica. Esse design permite que os dados fluam por milhares de multiplicadores simultaneamente sem acessar a memória para cada operação. Ao maximizar a densidade computacional e minimizar a latência, as TPUs são especialmente adequadas para a álgebra linear pesada encontrada em aplicações de aprendizagem profunda (DL).

Este hardware especializado é altamente otimizado para frameworks como TensorFlow e cada vez mais suportado pelo PyTorch, permitindo que os desenvolvedores treinem modelos de base massivos ou implementem soluções de ponta eficientes sem reescrever completamente suas bases de código.

Unidades de processamento diferenciadas

Compreender o panorama do hardware é fundamental para otimizar as operações de aprendizagem automática (MLOps).

  • CPU: O «cérebro» de uso geral de um computador, ideal para processamento sequencial, pré-processamento de dados e tratamento de lógica complexa. É frequentemente utilizado para pipelines de aumento de dados, mas é mais lento para cálculos matemáticos matriciais pesados.
  • GPU: Originalmente construídas para renderização de imagens, as GPUs são o padrão da indústria para treinamento de modelos devido à sua versatilidade e enorme paralelismo. Elas são excelentes para treinar modelos flexíveis como o Ultralytics .
  • TPU: Um acelerador desenvolvido especificamente para trocar flexibilidade por velocidade bruta em tensor . Ele foi projetado para maximizar FLOPS (operações de ponto flutuante por segundo) especificamente para cálculos de redes neurais, frequentemente oferecendo desempenho por watt superior para cargas de trabalho específicas em grande escala.

Aplicações no Mundo Real

As TPUs são implementadas em vários ambientes, desde grandes clusters de nuvem até pequenos dispositivos de ponta.

  1. Treinamento de grandes modelos de linguagem: Google vastos clusters interconectados, conhecidos como TPU , para treinar imensos modelos de linguagem (LLMs), como PaLM e Gemini. Esses sistemas podem processar petabytes de dados de treinamento em uma fração do tempo que levaria com hardware tradicional, acelerando os avanços em IA generativa.
  2. IA de ponta e IoT: O Coral Edge TPU traz essa aceleração para dispositivos de baixo consumo de energia. Ele permite aplicações eficientes de visão computacional (CV), como a detecção de objetos em uma linha de produção para identificar defeitos localmente. Isso permite a tomada de decisões imediatas sem depender da conectividade da nuvem, preservando a largura de banda e a privacidade.

Utilizando TPUs com Ultralytics

Os programadores podem aproveitar TPU para Ultralytics , especialmente ao usar a Ultralytics para treinamento em nuvem ou exportação de modelos para implantação de ponta . O Edge TPU, por exemplo, requer que os modelos sejam quantizados e compilados especificamente para sua arquitetura.

O exemplo a seguir demonstra como exportar um modelo YOLO26 para o TFLite , que é uma etapa pré-requisito antes da compilação para um Edge TPU:

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

Depois de exportado, o modelo pode ser compilado para o Edge TPU o Edge TPU , permitindo que ele seja executado com eficiência em dispositivos como o Raspberry Pi com um Coral USB Accelerator. Para obter mais detalhes sobre a implementação, explorar a documentação TFLite pode ser muito útil.

Junte-se à comunidade Ultralytics

Junte-se ao futuro da IA. Conecte-se, colabore e cresça com inovadores globais

Junte-se agora