음성-텍스트 변환 기술이 AI를 사용하여 음성 언어를 텍스트로 변환하여 음성 상호작용, 전사 및 접근성 도구를 가능하게 하는 방법을 알아보세요.
자동 음성 인식(ASR)으로도 널리 알려진 음성 텍스트 변환(STT)은 음성 언어를 서면 텍스트로 변환하는 기술입니다. 사람의 말과 기계가 읽을 수 있는 텍스트 형식 사이의 간극을 메워주며, 많은 최신 인공지능(AI) 및 머신러닝(ML) 애플리케이션에서 중요한 구성 요소를 형성합니다. STT는 디바이스와 소프트웨어가 음성 명령을 이해하고 이에 응답하며, 오디오 콘텐츠를 전사하고, 음성을 통해 인간과 컴퓨터 간의 상호 작용을 촉진할 수 있게 해줍니다. 기본 기술에는 일반적으로 방대한 양의 오디오 데이터(빅 데이터)로 학습된 복잡한 모델을 사용하여 음성 소리를 해당 텍스트 표현에 정확하게 매핑하는 것이 포함됩니다.
음성을 텍스트로 변환하는 과정에는 일반적으로 음향 모델링과 언어 모델링이라는 두 가지 주요 단계가 포함됩니다.
STT 시스템의 정확도는 종종 시스템의 출력 텍스트와 참조 전사 간의 차이를 정량화하는 단어 오류율(WER)과 같은 메트릭을 사용하여 측정합니다.
음성-텍스트 변환 기술은 다양한 영역에 걸쳐 광범위한 애플리케이션을 지원합니다:
STT를 유사한 용어와 구별하는 것이 중요합니다:
Ultralytics 주로 컴퓨터 비전(CV) 에 초점을 맞추고 있지만, 다음과 같이 Ultralytics YOLO 모델이 객체 감지 및 이미지 세분화와 같은 작업에 주로 사용되지만, 음성-텍스트 변환은 시각적 AI 애플리케이션을 보완할 수 있습니다. 예를 들어, 스마트 보안 시스템에서 STT는 마이크로 포착된 음성 위협을 분석하여 YOLO 객체 탐지와 함께 작동하여 이벤트에 대한 포괄적인 이해를 제공할 수 있습니다. Ultralytics HUB는 AI 모델을 관리하고 배포할 수 있는 플랫폼을 제공하며, AI가 다중 모드 학습으로 이동함에 따라 강력한 AI 시스템을 만드는 데 있어 STT와 비전 모델을 통합하는 것이 점점 더 중요해질 것이며, 잠재적으로 대규모 컴퓨터 비전 프로젝트 워크플로우의 일부로 사용될 수 있습니다. Kaldi와 같은 오픈 소스 툴킷과 Mozilla DeepSpeech와 같은 프로젝트는 ASR 분야를 크게 발전시켰습니다.