Descubra cómo las unidades Tensor (TPU) aceleran el aprendizaje automático. Aprenda a optimizar Ultralytics para TPU periféricas y formación en la nube para obtener la máxima velocidad.
Una unidad Tensor (TPU) es un circuito integrado específico para aplicaciones (ASIC) diseñado por Google específicamente para acelerar las cargas de trabajo de aprendizaje automático (ML). A diferencia de los procesadores de uso general que manejan una amplia gama de tareas informáticas, las TPU están diseñadas desde cero para optimizar las operaciones matriciales masivas fundamentales para las redes neuronales. Este enfoque específico les permite alcanzar un rendimiento y una eficiencia energética excepcionalmente altos, lo que las convierte en una piedra angular de la moderna infraestructura de inteligencia artificial (IA) , especialmente dentro del ecosistemaGoogle . Desempeñan un papel fundamental en la reducción del tiempo necesario tanto para entrenar modelos complejos como para ejecutar inferencias en tiempo real a gran escala.
La arquitectura de una TPU significativamente de la de los procesadores tradicionales. Mientras que una CPU unidad central de procesamiento) estándar destaca en tareas secuenciales y lógica compleja, y una GPU unidad de procesamiento gráfico) utiliza núcleos paralelos para gráficos y computación general, una TPU una arquitectura de matriz sistólica. Este diseño permite que los datos fluyan a través de miles de multiplicadores simultáneamente sin acceder a la memoria para cada operación. Al maximizar la densidad computacional y minimizar la latencia, las TPU son especialmente adecuadas para el álgebra lineal pesada que se encuentra en las aplicaciones de aprendizaje profundo (DL).
Este hardware especializado está altamente optimizado para marcos como TensorFlow y cada vez más compatible con PyTorch, lo que permite a los desarrolladores entrenar modelos base masivos o implementar soluciones de vanguardia eficientes sin tener que reescribir completamente sus bases de código.
Comprender el panorama del hardware es fundamental para optimizar las operaciones de aprendizaje automático (MLOps).
Las TPU se implementan en diversos entornos, desde grandes clústeres en la nube hasta pequeños dispositivos periféricos.
Los desarrolladores pueden aprovechar TPU para Ultralytics , especialmente cuando utilizan la Ultralytics para el entrenamiento en la nube o la exportación de modelos para su implementación en el borde . La Edge TPU, por ejemplo, requiere que los modelos se cuantifiquen y compilen específicamente para su arquitectura.
El siguiente ejemplo muestra cómo exportar un modelo YOLO26 al TFLite , lo cual es un paso previo necesario antes de compilar para una Edge TPU:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
Una vez exportado, el modelo se puede compilar para Edge TPU el TPU Edge TPU , lo que permite que se ejecute de manera eficiente en dispositivos como Raspberry Pi con un acelerador USB Coral. Para obtener más detalles sobre la implementación, puede resultar muy útil consultar la documentación TFLite .