용어집

음성-텍스트 변환

음성-텍스트 변환 기술이 AI를 사용하여 음성 언어를 텍스트로 변환하여 음성 상호작용, 전사 및 접근성 도구를 가능하게 하는 방법을 알아보세요.

YOLO 모델을 Ultralytics HUB로 간단히
훈련

자세히 알아보기

자동 음성 인식(ASR)으로도 널리 알려진 음성 텍스트 변환(STT)은 음성 언어를 서면 텍스트로 변환하는 기술입니다. 사람의 말과 기계가 읽을 수 있는 텍스트 형식 사이의 간극을 메워주며, 많은 최신 인공지능(AI)머신러닝(ML) 애플리케이션에서 중요한 구성 요소를 형성합니다. STT는 디바이스와 소프트웨어가 음성 명령을 이해하고 이에 응답하며, 오디오 콘텐츠를 전사하고, 음성을 통해 인간과 컴퓨터 간의 상호 작용을 촉진할 수 있게 해줍니다. 기본 기술에는 일반적으로 방대한 양의 오디오 데이터(빅 데이터)로 학습된 복잡한 모델을 사용하여 음성 소리를 해당 텍스트 표현에 정확하게 매핑하는 것이 포함됩니다.

음성-텍스트 변환 작동 방식

음성을 텍스트로 변환하는 과정에는 일반적으로 음향 모델링과 언어 모델링이라는 두 가지 주요 단계가 포함됩니다.

  1. 음향 모델링: 이 단계에서는 입력된 오디오 신호를 일련의 음향 단위, 주로 음소(언어의 기본 소리 단위)로 변환하는 데 중점을 둡니다. 딥러닝(DL) 모델, 특히 순환 신경망(RNN ) 및 트랜스포머와 같은 신경망(NN) 은 이러한 음성 단위와 일치하는 오디오 파형의 패턴을 인식하도록 학습됩니다. 음향 모델링 기법에 대한 자세한 내용은 온라인에서 확인할 수 있습니다.
  2. 언어 모델링: 음향 모델이 음성 표현을 생성하면 언어 모델이 이를 이어받습니다. 특정 언어 내에서 문법, 구문 및 일반적인 단어 사용 패턴을 고려하여 음성 단위의 시퀀스를 분석하여 가장 가능성이 높은 단어의 시퀀스를 결정합니다. 이를 통해 음향 모델의 모호함과 오류를 수정하여 일관된 텍스트 출력을 생성합니다. 언어 모델링 접근 방식에 대해 자세히 알아보세요.

STT 시스템의 정확도는 종종 시스템의 출력 텍스트와 참조 전사 간의 차이를 정량화하는 단어 오류율(WER)과 같은 메트릭을 사용하여 측정합니다.

실제 애플리케이션

음성-텍스트 변환 기술은 다양한 영역에 걸쳐 광범위한 애플리케이션을 지원합니다:

  • 가상 비서: 미리 알림 설정, 음악 재생, 질문에 대한 답변 등의 작업을 위해 Amazon AlexaGoogle Assistant와 같은 장치와 음성으로 상호 작용할 수 있습니다.
  • 트랜스크립션 서비스: 회의, 인터뷰, 강의 또는 미디어 콘텐츠의 오디오를 자동으로 텍스트로 변환하는 서비스: Otter.ai 또는 Rev.
  • 음성 제어 시스템: 소프트웨어, 차량(자율주행차의 AI), 스마트 홈 기기를 핸즈프리로 조작할 수 있습니다.
  • 접근성 도구: 실시간 캡션을 제공하거나 음성 기반 텍스트 입력을 활성화하여 청각 장애 또는 신체 장애가 있는 개인을 지원합니다. W3C 웹 접근성 이니셔티브(WAI) 와 같은 리소스에서는 이러한 기술의 역할을 강조합니다.
  • 고객 서비스: 품질 보증을 위한 콜센터 녹음 분석, 감정 분석 및 주요 정보 추출.

관련 개념

STT를 유사한 용어와 구별하는 것이 중요합니다:

  • 텍스트 음성 변환(TTS): 이는 서면 텍스트를 음성 오디오 출력으로 변환하는 역방향 프로세스입니다.
  • 음성 인식: 종종 STT/ASR과 같은 의미로 사용되지만 화자 식별이나 음성에서 감정 인식과 같은 더 광범위한 작업을 포함할 수도 있습니다. STT는 특히 음성의 내용을 전사하는 데 중점을 둡니다.
  • 자연어 처리(NLP): STT는 종종 NLP 작업을 위한 예비 단계입니다. 음성이 텍스트로 변환되면 NLP 기술을 적용하여 의미를 이해하고, 엔티티를 추출하거나, 번역을 수행할 수 있습니다.

음성-텍스트 변환 및 Ultralytics

Ultralytics 주로 컴퓨터 비전(CV) 에 초점을 맞추고 있지만, 다음과 같이 Ultralytics YOLO 모델이 객체 감지이미지 세분화와 같은 작업에 주로 사용되지만, 음성-텍스트 변환은 시각적 AI 애플리케이션을 보완할 수 있습니다. 예를 들어, 스마트 보안 시스템에서 STT는 마이크로 포착된 음성 위협을 분석하여 YOLO 객체 탐지와 함께 작동하여 이벤트에 대한 포괄적인 이해를 제공할 수 있습니다. Ultralytics HUB는 AI 모델을 관리하고 배포할 수 있는 플랫폼을 제공하며, AI가 다중 모드 학습으로 이동함에 따라 강력한 AI 시스템을 만드는 데 있어 STT와 비전 모델을 통합하는 것이 점점 더 중요해질 것이며, 잠재적으로 대규모 컴퓨터 비전 프로젝트 워크플로우의 일부로 사용될 수 있습니다. Kaldi와 같은 오픈 소스 툴킷과 Mozilla DeepSpeech와 같은 프로젝트는 ASR 분야를 크게 발전시켰습니다.

모두 보기