Explore como as Unidades Tensor (TPUs) aceleram o aprendizado de máquina. Aprenda a otimizar Ultralytics para TPUs de ponta e treinamento em nuvem para obter velocidade máxima.
Uma Unidade Tensor (TPU) é um circuito integrado específico para aplicações (ASIC) projetado Google especificamente para acelerar as cargas de trabalho de aprendizagem automática (ML). Ao contrário dos processadores de uso geral que lidam com uma ampla gama de tarefas de computação, as TPUs são projetadas desde o início para otimizar as operações matriciais massivas fundamentais para as redes neurais. Este foco específico permite que elas alcancem um rendimento e uma eficiência energética excepcionalmente altos, tornando-as a pedra angular da moderna infraestrutura de inteligência artificial (IA), particularmente dentro do ecossistemaGoogle . Elas desempenham um papel vital na redução do tempo necessário para treinar modelos complexos e executar inferências em tempo real em escala.
A arquitetura de uma TPU significativamente dos processadores tradicionais. Enquanto uma CPU Unidade Central de Processamento) padrão se destaca em tarefas sequenciais e lógica complexa, e uma GPU Unidade de Processamento Gráfico) usa núcleos paralelos para gráficos e computação geral, uma TPU uma arquitetura de matriz sistólica. Esse design permite que os dados fluam por milhares de multiplicadores simultaneamente sem acessar a memória para cada operação. Ao maximizar a densidade computacional e minimizar a latência, as TPUs são especialmente adequadas para a álgebra linear pesada encontrada em aplicações de aprendizagem profunda (DL).
Este hardware especializado é altamente otimizado para frameworks como TensorFlow e cada vez mais suportado pelo PyTorch, permitindo que os desenvolvedores treinem modelos de base massivos ou implementem soluções de ponta eficientes sem reescrever completamente suas bases de código.
Compreender o panorama do hardware é fundamental para otimizar as operações de aprendizagem automática (MLOps).
As TPUs são implementadas em vários ambientes, desde grandes clusters de nuvem até pequenos dispositivos de ponta.
Os programadores podem aproveitar TPU para Ultralytics , especialmente ao usar a Ultralytics para treinamento em nuvem ou exportação de modelos para implantação de ponta . O Edge TPU, por exemplo, requer que os modelos sejam quantizados e compilados especificamente para sua arquitetura.
O exemplo a seguir demonstra como exportar um modelo YOLO26 para o TFLite , que é uma etapa pré-requisito antes da compilação para um Edge TPU:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
Depois de exportado, o modelo pode ser compilado para o Edge TPU o Edge TPU , permitindo que ele seja executado com eficiência em dispositivos como o Raspberry Pi com um Coral USB Accelerator. Para obter mais detalhes sobre a implementação, explorar a documentação TFLite pode ser muito útil.