Tensor 장치(TPU)가 머신 러닝을 가속화하는 방식을 살펴보세요. 최대 속도를 위해 Ultralytics Edge TPU 및 클라우드 훈련에 최적화하는 방법을 알아보세요.
Tensor 장치(TPU)는 Google 머신러닝(ML) 작업 부하 가속화를 위해 특별히 설계한 전용 애플리케이션별 집적 회로(ASIC)입니다. 다양한 컴퓨팅 작업을 처리하는 범용 프로세서와 달리, TPU는 신경망의 핵심인 대규모 행렬 연산을 최적화하기 위해 처음부터 설계되었습니다. 이러한 특화된 설계 덕분에 TPU는 탁월한 처리량과 에너지 효율성을 달성하여, 특히 Google 생태계 내에서 현대 인공지능(AI)인프라의 핵심 요소로 자리매김했습니다. 복잡한 모델 훈련 시간 단축과 대규모 실시간 추론 실행에 중요한 역할을 수행합니다.
TPU 아키텍처는 기존 프로세서와 크게 TPU . 표준 CPU 중앙 처리 장치) 는 순차적 작업과 복잡한 논리에 탁월하고, GPU 그래픽 처리 장치) 는 그래픽 및 일반 컴퓨팅을 위해 병렬 코어를 사용하는 반면, TPU 수축 배열 아키텍처를 TPU . 이 설계는 모든 연산마다 메모리에 접근하지 않고도 수천 개의 배율기를 통해 데이터가 동시에 흐르도록 합니다. 계산 밀도를 극대화하고 지연 시간을 최소화함으로써, TPU는 딥 러닝(DL) 애플리케이션에서 발견되는 중량급 선형 대수 연산에 특히 적합합니다.
이 특수 하드웨어는 TensorFlow와 같은 프레임워크에 대해 극도로 최적화되어 있습니다. TensorFlow 과 같은 프레임워크에 대해 크게 최적화되어 있으며, 점차 PyTorch의 지원이 확대되면서 개발자들은 코드베이스를 완전히 재작성하지 않고도 대규모 파운데이션 모델을 훈련하거나 효율적인 에지 솔루션을 배포할 수 있습니다.
하드웨어 환경을 이해하는 것은 머신 러닝 운영(MLOps)을 최적화하는 데 매우 중요합니다.
TPU는 대규모 클라우드 클러스터부터 소형 엣지 디바이스에 이르기까지 다양한 환경에 배포됩니다.
개발자는 특히 클라우드 훈련을 위한 Ultralytics 사용하거나 에지 배포용 모델을 내보낼 때 Ultralytics TPU 활용할 수 있습니다. 예를 들어 Edge TPU 해당 아키텍처에 맞게 모델을 양자화하고 컴파일해야 합니다.
다음 예제는 YOLO26 모델을 TFLite 내보내는 방법을 보여줍니다. 이는 TPU TPU용 컴파일 전 필수 단계입니다:
from ultralytics import YOLO
# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")
# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)
내보낸 모델은 Edge TPU TPU 추가 컴파일할 수 있으며, 이를 통해 Coral USB 가속기가 장착된 Raspberry Pi와 같은 장치에서 효율적으로 실행할 수 있습니다. 배포에 대한 자세한 내용은 TFLite 문서를 참고하는 것이 매우 유용할 수 있습니다.