용어집

TPU (Tensor 처리 단위)

Tensor 처리 장치(TPU)가 어떻게 훈련, 추론, 객체 감지 등의 머신 러닝 작업을 탁월한 효율성으로 가속화하는지 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

Tensor 처리 장치TPU는 다음에서 개발한 맞춤형 머신 러닝 가속기입니다. Google 특별히 신경망 워크로드를 위해 개발되었습니다. 애플리케이션별 집적 회로(ASIC)의 일종인 이 특수 프로세서는 특히 추론 및 학습 작업에서 머신 러닝 작업의 속도를 획기적으로 높이고 규모를 확장하도록 설계되었습니다. TPU는 인공 지능(AI)과 관련된 복잡한 수학적 연산을 처리하도록 설계되어 특정 유형의 머신 러닝 모델에 대해 중앙 처리 장치(CPU) 및 종종 그래픽 처리 장치(GPU)에 비해 상당한 성능 향상을 제공합니다. 특히 딥 러닝에서 흔히 사용되는 대규모 연산에 효과적입니다.

TPU 무엇인가요?

TPU 처음부터 머신 러닝(ML)의 고유한 요구 사항을 위해 설계되었습니다. 더 광범위한 작업을 처리하는 CPU나 GPU와 같은 범용 프로세서와 달리, TPU는 신경망(NN) 내의 기본 수학적 연산인 tensor 연산에 탁월하도록 특별히 설계되었습니다. 텐서는 ML 모델에서 데이터를 나타내는 다차원 배열로, TPU는 대규모 행렬 곱셈 및 기타 tensor 대수를 빠른 속도와 에너지 효율로 수행하도록 최적화되어 있습니다. 이러한 전문화 덕분에 TPU는 특히 다음과 같은 프레임워크로 작업할 때 CPU보다 훨씬 더 빠르게, 많은 시나리오에서 GPU보다 더 효율적으로 ML 작업을 실행할 수 있습니다. TensorFlow 과 같은 프레임워크로 작업할 때 특히 그렇습니다. 다음과 같은 다른 프레임워크 지원 PyTorch 와 같은 다른 프레임워크도 지원되므로 사용성이 더욱 넓어집니다. 자세한 내용은 Google Cloud TPU 소개에서 확인할 수 있습니다.

TPU의 응용 분야

TPU는 다양한 애플리케이션에서 광범위하게 사용되고 있으며, 특히 Google 서비스에서 제공하는 애플리케이션과 Google Cloud와 같은 플랫폼을 통해 액세스 가능한 광범위한 AI 및 ML 영역에서 점점 더 많이 사용되고 있습니다. 주요 애플리케이션은 다음과 같습니다:

  • 대규모 모델 훈련: TPU는 엄청난 연산 능력과 분산된 훈련 설정이 필요한 대규모 딥 러닝 모델을 훈련하는 데 탁월합니다. 예를 들어, Google 내부적으로 TPU를 사용하여 방대한 데이터 세트와 복잡한 아키텍처를 처리하는 Google 검색 및 Google 번역과 같은 서비스를 위한 정교한 모델을 훈련합니다.
  • 대용량 추론: 대용량 데이터에 대한 빠르고 효율적인 추론이 필요한 애플리케이션의 경우 TPU는 상당한 가속을 제공합니다. 이는 챗봇의 자연어 처리(NLP) 와 같은 실시간 서비스나 Google 포토의 대규모 객체 감지와 같은 컴퓨터 비전(CV) 작업에 매우 중요합니다.
  • 연구 및 개발: 연구원들은 클라우드 플랫폼과 Kaggle 같은 환경을 통해 TPU를 활용하여 실험을 가속화하고 의료 이미지 분석이나 과학 시뮬레이션에 사용되는 것과 같은 최첨단 AI 모델을 개발합니다( Ultralytics Kaggle 통합 가이드 참조).
  • 엣지 컴퓨팅: 에지 TPU라고 하는 더 작은 버전은 ML 추론 기능을 디바이스에 직접 제공하여 짧은 지연 시간과 오프라인 처리를 필요로 하는 IoT 및 로봇 공학 분야의 애플리케이션을 지원합니다. 엣지 컴퓨팅 원리에 대해 자세히 알아보세요.

TPU 대 GPU 대 CPU

TPU, GPU, CPU는 모두 연산을 처리할 수 있지만, 각기 다른 용도로 설계되어 각기 다른 작업에서 뛰어난 성능을 발휘합니다:

  • CPU (중앙 처리 장치): 범용 컴퓨팅 작업을 위해 설계된 표준 컴퓨터의 두뇌입니다. 시스템 작업을 처리하고 프로그램 명령을 순차적으로 실행하며 다양한 워크로드를 관리하지만 딥 러닝에 필요한 대규모 병렬 연산에는 상대적으로 느립니다. CPU GPU 비교에 대해 자세히 알아보세요.
  • GPU (그래픽 처리 장치): 원래 그래픽 렌더링을 위해 설계된 GPU는 병렬 처리에 최적화된 수천 개의 코어를 갖추고 있습니다. 따라서 많은 ML 모델을 훈련하고 실행하는 데 매우 효과적이며, Ultralytics YOLO 모델을 사용한 객체 감지와 같은 다양한 작업에서 성능과 유연성 간의 균형이 잘 잡혀 있습니다. 주요 공급업체는 다음과 같습니다. NVIDIAAMD가 있습니다.
  • TPU (Tensor 처리 장치): 신경망 워크로드를 위한 매트릭스 프로세서로 특별히 설계되었습니다. TPU는 특히 Google 에코시스템 내에서 대규모 tensor 연산을 위한 최고의 성능과 에너지 효율성을 제공합니다(TensorFlow, Google Cloud의PyTorch ). 일반적인 병렬 컴퓨팅에는 GPU보다 유연성이 떨어질 수 있지만, Google Cloud Platform과 같은 플랫폼에서 호스팅되는 특정 대규모 ML 작업에는 상당한 비용 및 속도 이점을 제공할 수 있습니다.

요약하자면, TPU는 최신 머신 러닝의 요구 사항을 위해 특별히 설계된 하드웨어의 중요한 발전으로, 특정 AI 애플리케이션, 특히 대규모 학습 및 추론 작업에 향상된 성능과 효율성을 제공합니다. GPU와 같은 다른 가속기를 보완하며 특정 워크로드, 규모, 소프트웨어 에코시스템에 따라 옵션을 제공합니다. 간소화된 모델 훈련관리 기능을 제공하는 Ultralytics HUB와 같은 플랫폼을 통해 클라우드 리소스를 포함한 훈련 옵션을 살펴볼 수 있습니다. AI 트렌드에 대한 자세한 내용은 Ultralytics 블로그에서 확인하세요.

모두 보기