용어집

음성-텍스트 변환

음성-텍스트 변환 기술이 AI를 사용하여 음성 언어를 텍스트로 변환하여 음성 상호작용, 전사 및 접근성 도구를 가능하게 하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

자동 음성 인식(ASR)으로도 널리 알려진 음성 텍스트 변환(STT)은 컴퓨터가 사람의 음성 언어를 이해하고 문자로 변환할 수 있게 해주는 기술입니다. 이는 광범위한 인공 지능(AI)머신 러닝(ML) 분야에서 인간 상호 작용과 디지털 처리 사이의 중요한 가교 역할을 합니다. STT는 오디오 스트림을 텍스트 데이터로 변환함으로써 기계가 음성 입력을 처리, 분석, 응답하여 다양한 애플리케이션을 구동할 수 있도록 지원합니다.

음성-텍스트 변환 작동 방식

STT의 핵심은 오디오 신호를 분석하는 정교한 알고리즘입니다. 이 프로세스에는 일반적으로 두 가지 주요 구성 요소가 포함됩니다:

  1. 음향 모델: 이 구성 요소는 오디오 입력의 세그먼트를 언어의 기본 소리인 음성 단위로 매핑합니다. 발음, 악센트, 배경 소음의 변화에도 불구하고 서로 다른 소리를 구별하는 방법을 학습합니다. 고급 음향 모델링 기법에는 순환 신경망(RNN) 또는 트랜스포머와 같은 딥 러닝(DL) 아키텍처가 사용되는 경우가 많습니다.
  2. 언어 모델: 이 구성 요소는 음향 모델에서 음성 단위의 순서를 가져와 일관된 단어, 구, 문장으로 변환합니다. 방대한 텍스트 데이터 세트에서 학습한 통계적 확률을 사용하여 가장 가능성이 높은 단어의 순서를 예측함으로써 전사의 정확성과 유창성을 향상시킵니다. 언어 모델링은 자연어 처리(NLP)의 기본 요소입니다.

이러한 모델을 훈련하려면 다양한 말하기 스타일, 언어, 음향 조건을 나타내는 대량의 레이블이 지정된 오디오데이터(훈련 데이터)가 필요합니다.

실제 애플리케이션

STT 기술은 많은 최신 애플리케이션에 필수적인 요소입니다:

  • 가상 비서: 스마트폰 및 스마트 스피커(Siri, Alexa, Google 어시스턴트)와 같은 디바이스에서 음성 명령을 사용하도록 설정합니다. 가상 어시스턴트 용어집을 참조하세요.
  • 트랜스크립션 서비스: 회의, 강의, 인터뷰, 음성 메일을 Otter.ai와 같은 도구를 사용하여 자동으로 텍스트로 변환합니다. 이는 의료 받아쓰기나 법률 문서와 같은 분야에서 특히 중요합니다.
  • 음성 제어 시스템: 자동차 시스템용 AI에서 흔히 볼 수 있는 핸즈프리 기기 작동을 지원합니다.
  • 접근성 도구: 청각 장애인을 위한 실시간 자막을 제공하여 미디어 접근성을 향상시킵니다.
  • 콜센터 분석: 고객 통화를 트랜스크립션하여 감정을 분석하고 트렌드를 파악하며 서비스 품질을 개선합니다.

관련 기술과의 주요 차이점

STT를 유사한 용어와 구별하는 것이 중요합니다:

  • 텍스트 음성 변환(TTS): 서면 텍스트를 음성 오디오로 변환하는 정반대의 기능을 수행합니다.
  • 화자 인식: 말하는 내용을 전사하는 것이 아니라 음성 특성을 기반으로 말하는 사람을 식별하는 데 중점을 둡니다. 화자 인식 시스템은 인증 또는 일기 작성(누가 언제 말했는지 파악)에 사용됩니다.
  • 자연어 이해(NLU): NLP의 하위 분야로, 전사를 넘어 구어 뒤에 숨겨진 의미, 의도, 정서를 해석합니다.

과제 및 향후 방향

상당한 진전에도 불구하고 STT는 억양이 심한 음성, 배경 소음, 겹치는 화자, 문맥이나 언어적 모호성이 있는 음성을 정확하게 전사하는 것과 같은 문제에 직면해 있습니다. 불균형한 훈련 데이터에서 학습된 AI 편향을 완화하는 것도 중요합니다. Google AI 블로그OpenAI 블로그와 같은 플랫폼에서 종종 강조되는 지속적인 연구는 견고성, 실시간 성능 및 다국어 기능을 개선하는 데 중점을 두고 있습니다.

음성-텍스트 변환 및 Ultralytics

Ultralytics 주로 컴퓨터 비전(CV) 에 초점을 맞추고 있지만, 다음과 같이 Ultralytics YOLO 모델이 객체 감지이미지 세분화와 같은 작업에 주로 사용되지만, 음성-텍스트 변환은 시각적 AI 애플리케이션을 보완할 수 있습니다. 예를 들어, 스마트 보안 시스템에서 STT는 마이크로 포착된 음성 위협을 분석하여 YOLO 객체 감지와 함께 작동하여 이벤트를 포괄적으로 이해하고 잠재적으로 컴퓨터 비전 프로젝트 워크플로우를 따를 수 있습니다. Ultralytics HUB는 AI 모델을 관리하고 배포하기 위한 플랫폼을 제공하며, AI가 멀티 모달 모델을 사용하는 멀티 모달 학습으로 이동함에 따라 다음과 같은 프레임워크를 사용하여 구축된 비전 모델과 STT를 통합합니다. PyTorch 와 같은 프레임워크를 사용해 구축한 비전 모델과 STT를 통합하는 것이 점점 더 중요해질 것입니다. Kaldi와 같은 오픈 소스 툴킷과 Mozilla DeepSpeech와 같은 프로젝트는 계속해서 이 분야를 발전시키고 있으며, Ultralytics 문서와 같은 리소스에 문서화된 더 넓은 AI 에코시스템에서 사용할 수 있는 리소스에 기여하고 있습니다.

모두 보기