Speech-to-Text (STT), còn được gọi rộng rãi là Automatic Speech Recognition (ASR), là một công nghệ chuyển đổi ngôn ngữ nói thành văn bản viết. Nó thu hẹp khoảng cách giữa lời nói của con người và các định dạng văn bản có thể đọc được bằng máy, tạo thành một thành phần quan trọng trong nhiều ứng dụng Trí tuệ nhân tạo (AI) và Học máy (ML) hiện đại. STT cho phép các thiết bị và phần mềm hiểu và phản hồi các lệnh thoại, phiên âm nội dung âm thanh và tạo điều kiện cho tương tác giữa người và máy tính thông qua giọng nói. Công nghệ cơ bản thường bao gồm các mô hình phức tạp được đào tạo trên một lượng lớn dữ liệu âm thanh ( Big Data ) để ánh xạ chính xác âm thanh giọng nói thành các biểu diễn văn bản tương ứng của chúng.
Cách thức hoạt động của Speech-to-Text
Quá trình chuyển đổi giọng nói thành văn bản thường bao gồm hai giai đoạn chính: mô hình âm thanh và mô hình ngôn ngữ.
- Mô hình hóa âm thanh: Giai đoạn này tập trung vào việc chuyển đổi tín hiệu âm thanh đầu vào thành một chuỗi các đơn vị âm thanh, thường là âm vị (các đơn vị cơ bản của âm thanh trong một ngôn ngữ). Các mô hình Học sâu (DL) , đặc biệt là Mạng nơ-ron (NN) như Mạng nơ-ron hồi quy (RNN) và Bộ biến đổi , được đào tạo để nhận dạng các mẫu trong dạng sóng âm thanh tương ứng với các đơn vị ngữ âm này. Bạn có thể tìm thêm thông tin chi tiết về các kỹ thuật mô hình hóa âm thanh trực tuyến.
- Mô hình hóa ngôn ngữ: Sau khi mô hình âm thanh tạo ra các biểu diễn ngữ âm, mô hình ngôn ngữ sẽ tiếp quản. Nó phân tích các chuỗi đơn vị ngữ âm để xác định chuỗi từ có khả năng xảy ra cao nhất, xem xét ngữ pháp, cú pháp và các mẫu sử dụng từ phổ biến trong một ngôn ngữ cụ thể. Điều này giúp sửa các lỗi và sự mơ hồ từ mô hình âm thanh, tạo ra đầu ra văn bản mạch lạc. Khám phá thêm về các phương pháp tiếp cận mô hình hóa ngôn ngữ .
Độ chính xác của hệ thống STT thường được đo bằng các số liệu như Tỷ lệ lỗi từ (WER) , định lượng sự khác biệt giữa văn bản đầu ra của hệ thống và bản ghi tham chiếu.
Ứng dụng trong thế giới thực
Công nghệ chuyển giọng nói thành văn bản hỗ trợ nhiều ứng dụng trong nhiều lĩnh vực khác nhau:
- Trợ lý ảo: Cho phép tương tác bằng giọng nói với các thiết bị như Amazon Alexa và Google Assistant để thực hiện các tác vụ như đặt lời nhắc, phát nhạc hoặc trả lời câu hỏi.
- Dịch vụ phiên âm: Tự động chuyển đổi âm thanh từ các cuộc họp, phỏng vấn, bài giảng hoặc nội dung phương tiện thành văn bản bằng các dịch vụ như Otter.ai hoặc Rev.
- Hệ thống điều khiển bằng giọng nói: Cho phép vận hành phần mềm, phương tiện ( AI trong xe tự lái ) và thiết bị nhà thông minh mà không cần dùng tay.
- Công cụ trợ năng: Hỗ trợ những người khiếm thính hoặc khuyết tật về thể chất bằng cách cung cấp phụ đề thời gian thực hoặc cho phép nhập văn bản bằng giọng nói. Các nguồn như Sáng kiến trợ năng web W3C (WAI) nêu bật vai trò của các công nghệ như vậy.
- Dịch vụ khách hàng: Phân tích bản ghi âm cuộc gọi để đảm bảo chất lượng, Phân tích tình cảm và trích xuất thông tin quan trọng.
Các khái niệm liên quan
Điều quan trọng là phải phân biệt STT với các thuật ngữ tương tự:
- Chuyển văn bản thành giọng nói (TTS) : Đây là quá trình ngược lại, chuyển đổi văn bản viết thành đầu ra âm thanh nói.
- Nhận dạng giọng nói : Thường được sử dụng thay thế cho STT/ASR, nhưng đôi khi có thể bao gồm các nhiệm vụ rộng hơn như nhận dạng người nói hoặc nhận dạng cảm xúc từ giọng nói. STT tập trung cụ thể vào việc phiên âm nội dung của bài phát biểu.
- Xử lý ngôn ngữ tự nhiên (NLP) : STT thường là bước sơ bộ cho các tác vụ NLP. Sau khi lời nói được chuyển thành văn bản, các kỹ thuật NLP có thể được áp dụng để hiểu ý nghĩa, trích xuất các thực thể hoặc thực hiện dịch thuật.
Chuyển giọng nói thành văn bản và Ultralytics
Trong khi Ultralytics chủ yếu tập trung vào Thị giác máy tính (CV) với các mô hình YOLO Ultralytics cho các tác vụ như Phát hiện đối tượng và Phân đoạn hình ảnh , Chuyển giọng nói thành văn bản có thể bổ sung cho các ứng dụng AI trực quan. Ví dụ, trong một hệ thống an ninh thông minh, STT có thể phân tích các mối đe dọa bằng giọng nói được thu lại bằng micrô, hoạt động cùng với YOLO phát hiện đối tượng để cung cấp hiểu biết toàn diện về một sự kiện. Ultralytics HUB cung cấp một nền tảng để quản lý và triển khai các mô hình AI và khi AI chuyển sang Học tập đa phương thức , việc tích hợp STT với các mô hình thị giác sẽ ngày càng trở nên quan trọng để tạo ra các hệ thống AI mạnh mẽ, có khả năng là một phần của quy trình làm việc của dự án thị giác máy tính lớn hơn. Các bộ công cụ nguồn mở như Kaldi và các dự án như Mozilla DeepSpeech đã thúc đẩy đáng kể lĩnh vực ASR.