Yolo 비전 선전
선전
지금 참여하기
용어집

TPU Tensor 처리 장치)

Tensor 장치(TPU)가 머신 러닝을 가속화하는 방식을 살펴보세요. 최대 속도를 위해 Ultralytics Edge TPU 및 클라우드 훈련에 최적화하는 방법을 알아보세요.

Tensor 장치(TPU)는 Google 머신러닝(ML) 작업 부하 가속화를 위해 특별히 설계한 전용 애플리케이션별 집적 회로(ASIC)입니다. 다양한 컴퓨팅 작업을 처리하는 범용 프로세서와 달리, TPU는 신경망의 핵심인 대규모 행렬 연산을 최적화하기 위해 처음부터 설계되었습니다. 이러한 특화된 설계 덕분에 TPU는 탁월한 처리량과 에너지 효율성을 달성하여, 특히 Google 생태계 내에서 현대 인공지능(AI)인프라의 핵심 요소로 자리매김했습니다. 복잡한 모델 훈련 시간 단축과 대규모 실시간 추론 실행에 중요한 역할을 수행합니다.

아키텍처 및 기능

TPU 아키텍처는 기존 프로세서와 크게 TPU . 표준 CPU 중앙 처리 장치) 는 순차적 작업과 복잡한 논리에 탁월하고, GPU 그래픽 처리 장치) 는 그래픽 및 일반 컴퓨팅을 위해 병렬 코어를 사용하는 반면, TPU 수축 배열 아키텍처를 TPU . 이 설계는 모든 연산마다 메모리에 접근하지 않고도 수천 개의 배율기를 통해 데이터가 동시에 흐르도록 합니다. 계산 밀도를 극대화하고 지연 시간을 최소화함으로써, TPU는 딥 러닝(DL) 애플리케이션에서 발견되는 중량급 선형 대수 연산에 특히 적합합니다.

이 특수 하드웨어는 TensorFlow와 같은 프레임워크에 대해 극도로 최적화되어 있습니다. TensorFlow 과 같은 프레임워크에 대해 크게 최적화되어 있으며, 점차 PyTorch의 지원이 확대되면서 개발자들은 코드베이스를 완전히 재작성하지 않고도 대규모 파운데이션 모델을 훈련하거나 효율적인 에지 솔루션을 배포할 수 있습니다.

구분 처리 장치

하드웨어 환경을 이해하는 것은 머신 러닝 운영(MLOps)을 최적화하는 데 매우 중요합니다.

  • CPU: 컴퓨터의 범용 "두뇌"로, 순차적 처리, 데이터 전처리 및 복잡한 논리 처리에 이상적입니다. 데이터 증강 파이프라인에 자주 사용되지만, 고강도 행렬 연산에는 속도가 느립니다.
  • GPU: 원래 이미지 렌더링을 위해 개발되었으나, 다용도성과 대규모 병렬 처리 능력으로 모델 훈련 분야의 산업 표준이 되었습니다. Ultralytics 같은 유연한 모델 훈련에 탁월합니다.
  • TPU: tensor 유연성을 희생하고 순수 속도를 추구하도록 특별히 설계된 가속기입니다. 이 가속기는 신경망 계산에 특화된 FLOPS(초당 부동소수점 연산 횟수) 를 극대화하도록 설계되어, 특정 대규모 워크로드에서 우수한 와트당 성능을 제공하는 경우가 많습니다.

실제 애플리케이션

TPU는 대규모 클라우드 클러스터부터 소형 엣지 디바이스에 이르기까지 다양한 환경에 배포됩니다.

  1. 대규모 언어 모델 훈련: Google PaLM 및 Gemini와 같은 거대한 대규모 언어 모델(LLM)을 훈련하기 위해 TPU 알려진 방대한 상호 연결 클러스터를 Google . 이러한 시스템은 기존 하드웨어가 소요되는 시간의 극히 일부만으로 페타바이트 규모의 훈련 데이터를 처리할 수 있어 생성형 AI의 발전을 가속화합니다.
  2. 엣지 AI와 IoT: 코랄 엣지 TPU 이러한 가속화를 저전력 기기로 확장합니다. 이는 제조 라인에서 결함 감지를 위한 객체 탐지 실행과 같은 효율적인 컴퓨터 비전(CV) 애플리케이션을 가능하게 합니다. 이를 통해 클라우드 연결에 의존하지 않고도 즉각적인 의사 결정을 내릴 수 있어 대역폭과 프라이버시를 보호합니다.

Ultralytics와 함께 TPU 사용하기

개발자는 특히 클라우드 훈련을 위한 Ultralytics 사용하거나 에지 배포용 모델을 내보낼 때 Ultralytics TPU 활용할 수 있습니다. 예를 들어 Edge TPU 해당 아키텍처에 맞게 모델을 양자화하고 컴파일해야 합니다.

다음 예제는 YOLO26 모델을 TFLite 내보내는 방법을 보여줍니다. 이는 TPU TPU용 컴파일 전 필수 단계입니다:

from ultralytics import YOLO

# Load the latest lightweight YOLO26 nano model
model = YOLO("yolo26n.pt")

# Export the model to TFLite format
# This creates a '.tflite' file suitable for mobile and edge deployment
# Set int8=True for quantization, which is often required for Edge TPU performance
model.export(format="tflite", int8=True)

내보낸 모델은 Edge TPU TPU 추가 컴파일할 수 있으며, 이를 통해 Coral USB 가속기가 장착된 Raspberry Pi와 같은 장치에서 효율적으로 실행할 수 있습니다. 배포에 대한 자세한 내용은 TFLite 문서를 참고하는 것이 매우 유용할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기