용어집

음성 인식

음성 인식 기술이 어떻게 오디오를 텍스트로 변환하여 음성 어시스턴트, 트랜스크립션 등의 AI 솔루션을 지원하는지 알아보세요.

자동 음성 인식(ASR) 또는 음성 텍스트 변환이라고도 하는 음성 인식은 컴퓨터가 인간의 음성 언어를 이해하고 이를 서면 텍스트로 변환할 수 있도록 하는 인공지능(AI) 및 컴퓨터 언어학 분야의 기술입니다. 이는 인간과 컴퓨터의 상호 작용을 위한 중요한 인터페이스 역할을 하며, 장치와 애플리케이션이 음성 명령에 응답하고 오디오 입력을 처리할 수 있도록 합니다. 이 분야에서는 높은 수준의 정확도를 달성하고 음성 패턴, 억양, 환경의 변화를 처리하기 위해 머신러닝(ML), 특히 딥러닝(DL)의 원리를 많이 활용합니다.

음성 인식 작동 방식

음성을 텍스트로 변환하는 과정에는 일반적으로 몇 가지 주요 단계가 포함됩니다. 먼저 마이크를 사용하여 오디오를 캡처하고 디지털 신호로 변환합니다. 이 원시 오디오는 노이즈 감소 및 정규화와 같은 전처리 단계를 거칩니다. 다음으로, 시간 경과에 따른 주파수 및 에너지와 같은 특성을 나타내는 음향 특징이 신호에서 추출됩니다. 그런 다음 이러한 특징은 정교한 신경망(NN)인 음향 모델에 의해 처리됩니다. 일반적인 아키텍처에는 순환 신경망(RNN), 장단기 메모리(LSTM) 네트워크, 그리고 최근에는 자기 주의와 같은 메커니즘을 통해 시퀀스 모델링 작업에 효과적인 것으로 알려진 트랜스포머 모델이 포함됩니다. 음향 모델은 음소와 같은 소리의 기본 단위로 특징을 매핑합니다. 마지막으로, 빅데이터 이니셔티브에서 볼 수 있는 것과 같이 광범위한 텍스트 코퍼스를 학습한 언어 모델이 이러한 음성 단위의 시퀀스를 분석하여 문법과 문맥을 고려하여 가장 가능성이 높은 단어와 문장을 결정합니다. Kaldi와 같은 프레임워크와 다음과 같은 플랫폼의 툴킷을 사용합니다. Hugging Face 와 같은 플랫폼의 툴킷은 ASR 시스템 구축에 필요한 리소스를 제공합니다.

주요 차이점

음성 인식과 관련성이 있지만 별개의 기술을 구분하는 것이 중요합니다:

텍스트 음성 변환(TTS): 이 기술은 ASR의 반대 기능을 수행하여 서면 텍스트를 음성 오디오 출력으로 변환합니다. 스크린 리더나 가상 비서의 음성을 생각하면 됩니다.
자연어 처리(NLP): 밀접한 관련이 있지만, NLP는 의미, 의도, 감정을 추출하거나 번역 또는 요약과 같은 작업을 수행하기 위해 언어(텍스트와 전사된 음성 모두)의 이해와 해석에 중점을 둡니다. ASR은 NLP 시스템이 주로 작동하는 텍스트 입력을 제공합니다. 언어 모델링은 ASR과 NLP 모두의 핵심 구성 요소입니다.
화자 인식: 여기에는 말하는 내용이 아니라 말하는 사람을 식별하는 것이 포함됩니다. 생체 인증이나 화자 일기(대화에서 다른 화자를 식별하는 것)에 사용됩니다.

실제 애플리케이션

음성 인식 기술은 다양한 영역의 수많은 애플리케이션에 통합되어 있습니다:

가상 비서: 아마존 알렉사, Google 어시스턴트, 애플의 시리 같은 시스템은 사용자 명령과 쿼리를 이해하기 위해 ASR에 크게 의존합니다.
트랜스크립션 서비스: Otter.ai와 같은 도구는 회의, 인터뷰, 강의를 자동으로 트랜스크립션하여 오디오 콘텐츠를 검색하고 액세스할 수 있게 해줍니다.
음성 제어 시스템: 자율주행 차량 및 최신 자동차에서 내비게이션, 엔터테인먼트, 온도 설정(자율주행 차량의 AI)을 핸즈프리로 제어하기 위해 광범위하게 사용됩니다.
받아쓰기 소프트웨어: 의료(의료 분야의 AI) 및 법률과 같은 분야의 전문가가 메모와 보고서를 디지털 문서로 직접 받아쓰기할 수 있습니다.
접근성 도구: 장애가 있는 개인에게 필수적인 지원을 제공하여 음성을 통해 기술과의 상호 작용을 가능하게 합니다. Mozilla의 Common Voice와 같은 프로젝트는 다양한 목소리에 대한 ASR을 개선하는 것을 목표로 합니다.
고객 서비스: 콜센터의 대화형 음성 응답(IVR) 시스템과 음성 봇을 지원하여 자동화된 지원을 제공합니다.

과제 및 향후 방향

괄목할 만한 발전에도 불구하고 ASR 시스템은 여전히 도전 과제에 직면해 있습니다. 시끄러운 환경에서 음성을 정확하게 전사하고, 다양한 악센트와 방언을 처리하고, 대화에서 화자가 겹치는 부분을 처리하고, 미묘한 의미나 감정 분석을 이해하는 것은 여전히 활발한 연구 분야입니다. 앞으로의 발전은 고급 딥러닝 기술을 통해 견고성을 개선하고, 오디오와 시각 정보( 컴퓨터 비전과 관련된 입술 읽기 등)를 결합하는 다중 모드 모델을 탐색하며, 자가 지도 학습과 같은 기술을 활용하여 라벨이 없는 방대한 데이터 세트에서 모델을 훈련하는 데 중점을 두고 있습니다. Ultralytics 주로 다음과 같은 비전 AI 모델에 중점을 두고 있습니다. Ultralytics YOLO 와 같은 비전 AI 모델에 주로 초점을 맞추고 있지만, 음성 인식과 같은 관련 AI 분야의 발전은 전반적인 지능형 시스템 생태계에 기여하고 있습니다. Ultralytics 설명서에서 비전 모델에 대한 모델 훈련 및 배포 옵션을 살펴보고 Ultralytics HUB를 사용하여 프로젝트를 관리할 수 있습니다.

음성 인식

YOLO 모델을 Ultralytics HUB로 간단히
훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

음성 인식 작동 방식

주요 차이점

실제 애플리케이션

과제 및 향후 방향

블로그 더 보기

Ultralytics 커뮤니티 가입하기

음성 인식

YOLO 모델을 Ultralytics HUB로 간단히훈련

혁신을 지원하는 유연한 엔터프라이즈 라이선싱 솔루션

다음을 사용하여 몇 초 만에 AI 모델을 훈련하세요. Ultralytics YOLO

Ultralytics HUB로 간단히 YOLO 모델 교육

음성 인식 작동 방식

주요 차이점

실제 애플리케이션

과제 및 향후 방향

블로그 더 보기

Ultralytics 커뮤니티 가입하기

YOLO 모델을 Ultralytics HUB로 간단히
훈련