Yolo Vision Shenzhen
Shenzhen
Únete ahora
Glosario

TPU Tensor Unidad de procesamiento deTensor )

Descubra cómo las unidades Tensor (TPU) aceleran el aprendizaje automático. Aprenda a optimizar Ultralytics para TPU periféricas y formación en la nube para obtener la máxima velocidad.

Una unidad Tensor (TPU) es un circuito integrado específico para aplicaciones (ASIC) diseñado por Google específicamente para acelerar las cargas de trabajo de aprendizaje automático (ML). A diferencia de los procesadores de uso general que manejan una amplia gama de tareas informáticas, las TPU están diseñadas desde cero para optimizar las operaciones matriciales masivas fundamentales para las redes neuronales. Este enfoque específico les permite alcanzar un rendimiento y una eficiencia energética excepcionalmente altos, lo que las convierte en una piedra angular de la moderna infraestructura de inteligencia artificial (IA) , especialmente dentro del ecosistemaGoogle . Desempeñan un papel fundamental en la reducción del tiempo necesario tanto para entrenar modelos complejos como para ejecutar inferencias en tiempo real a gran escala.

Arquitectura y funcionalidad

La arquitectura de una TPU significativamente de la de los procesadores tradicionales. Mientras que una CPU unidad central de procesamiento) estándar destaca en tareas secuenciales y lógica compleja, y una GPU unidad de procesamiento gráfico) utiliza núcleos paralelos para gráficos y computación general, una TPU una arquitectura de matriz sistólica. Este diseño permite que los datos fluyan a través de miles de multiplicadores simultáneamente sin acceder a la memoria para cada operación. Al maximizar la densidad computacional y minimizar la latencia, las TPU son especialmente adecuadas para el álgebra lineal pesada que se encuentra en las aplicaciones de aprendizaje profundo (DL).

Este hardware especializado está altamente optimizado para marcos como TensorFlow y cada vez más compatible con PyTorch, lo que permite a los desarrolladores entrenar modelos base masivos o implementar soluciones de vanguardia eficientes sin tener que reescribir completamente sus bases de código.

Unidades de procesamiento distintivas

Comprender el panorama del hardware es fundamental para optimizar las operaciones de aprendizaje automático (MLOps).

  • CPU: El «cerebro» de uso general de un ordenador, ideal para el procesamiento secuencial, el preprocesamiento de datos y el manejo de lógica compleja. Se utiliza a menudo para canales de aumento de datos, pero es más lento para las matemáticas matriciales pesadas.
  • GPU: Originalmente diseñadas para el renderizado de imágenes, las GPU son el estándar del sector para el entrenamiento de modelos debido a su versatilidad y su enorme paralelismo. Son excelentes para entrenar modelos flexibles como Ultralytics .
  • TPU: un acelerador diseñado específicamente que sacrifica la flexibilidad a cambio de velocidad bruta en tensor . Está diseñado para maximizar los FLOPS (operaciones de coma flotante por segundo) específicamente para cálculos de redes neuronales, y a menudo proporciona un rendimiento por vatio superior para cargas de trabajo específicas a gran escala.

Aplicaciones en el mundo real

Las TPU se implementan en diversos entornos, desde grandes clústeres en la nube hasta pequeños dispositivos periféricos.

  1. Entrenamiento de grandes modelos de lenguaje: Google vastos clústeres interconectados, conocidos como TPU , para entrenar inmensos modelos de lenguaje grandes (LLM) como PaLM y Gemini. Estos sistemas pueden procesar petabytes de datos de entrenamiento en una fracción del tiempo que tardaría el hardware tradicional, acelerando los avances en IA generativa.
  2. IA periférica e IoT: Coral Edge TPU lleva esta aceleración a los dispositivos de bajo consumo. Permite aplicaciones eficientes de visión artificial (CV), como la detección de objetos en una línea de fabricación para identificar defectos a nivel local. Esto permite tomar decisiones inmediatas sin depender de la conectividad en la nube, preservando el ancho de banda y la privacidad.

Uso de TPU con Ultralytics

Los desarrolladores pueden aprovechar TPU para Ultralytics , especialmente cuando utilizan la Ultralytics para el entrenamiento en la nube o la exportación de modelos para su implementación en el borde . La Edge TPU, por ejemplo, requiere que los modelos se cuantifiquen y compilen específicamente para su arquitectura.

El siguiente ejemplo muestra cómo exportar un modelo YOLO26 al TFLite , lo cual es un paso previo necesario antes de compilar para una Edge TPU:

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

Una vez exportado, el modelo se puede compilar para Edge TPU el TPU Edge TPU , lo que permite que se ejecute de manera eficiente en dispositivos como Raspberry Pi con un acelerador USB Coral. Para obtener más detalles sobre la implementación, puede resultar muy útil consultar la documentación TFLite .

Únase a la comunidad Ultralytics

Únete al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo

Únete ahora