Thuật ngữ

Nhận dạng giọng nói

Khám phá cách công nghệ nhận dạng giọng nói chuyển đổi âm thanh thành văn bản, hỗ trợ các giải pháp AI như trợ lý giọng nói, phiên âm, v.v.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Nhận dạng giọng nói, thường được gọi là Nhận dạng giọng nói tự động (ASR) hoặc chuyển giọng nói thành văn bản , là một công nghệ trong Trí tuệ nhân tạo (AI) và ngôn ngữ học tính toán cho phép máy tính hiểu và phiên âm ngôn ngữ nói của con người thành văn bản viết. Nó đóng vai trò là giao diện quan trọng cho tương tác giữa người và máy tính, cho phép các thiết bị và ứng dụng phản hồi lệnh thoại và xử lý đầu vào âm thanh. Lĩnh vực này sử dụng nhiều nguyên tắc từ Học máy (ML) , đặc biệt là Học sâu (DL) , để đạt được mức độ chính xác cao và xử lý các biến thể trong mẫu giọng nói, giọng và môi trường.

Nhận dạng giọng nói hoạt động như thế nào

Quá trình chuyển đổi giọng nói thành văn bản thường bao gồm một số giai đoạn chính. Ban đầu, âm thanh được thu bằng micrô và chuyển thành tín hiệu số. Âm thanh thô này trải qua các bước tiền xử lý như giảm nhiễu và chuẩn hóa. Tiếp theo, các đặc điểm âm thanh, biểu diễn các đặc điểm như tần số và năng lượng theo thời gian, được trích xuất từ tín hiệu. Các đặc điểm này sau đó được xử lý bằng mô hình âm thanh, thường là mạng nơ-ron (NN) phức tạp. Các kiến trúc phổ biến bao gồm Mạng nơ-ron hồi quy (RNN) , mạng Bộ nhớ dài hạn ngắn hạn (LSTM) và gần đây hơn là các mô hình Biến áp , được biết đến với hiệu quả trong các tác vụ mô hình hóa chuỗi thông qua các cơ chế như tự chú ý . Mô hình âm thanh ánh xạ các đặc điểm thành các đơn vị âm thanh cơ bản, như âm vị. Cuối cùng, một mô hình ngôn ngữ, được đào tạo trên các tập đoàn văn bản mở rộng (như những tập đoàn được tìm thấy trong các sáng kiến Dữ liệu lớn ), phân tích trình tự của các đơn vị ngữ âm này để xác định các từ và câu có khả năng xảy ra nhất, có tính đến ngữ pháp và ngữ cảnh. Các khuôn khổ như Kaldi và bộ công cụ từ các nền tảng như Hugging Face cung cấp tài nguyên để xây dựng các hệ thống ASR.

Sự khác biệt chính

Điều quan trọng là phải phân biệt nhận dạng giọng nói với các công nghệ liên quan nhưng khác biệt:

  • Chuyển văn bản thành giọng nói (TTS) : Công nghệ này thực hiện chức năng ngược lại với ASR, chuyển đổi văn bản viết thành đầu ra âm thanh nói. Hãy nghĩ đến trình đọc màn hình hoặc giọng nói của trợ lý ảo .
  • Xử lý ngôn ngữ tự nhiên (NLP) : Mặc dù có liên quan chặt chẽ, NLP tập trung vào việc hiểudiễn giải ngôn ngữ (cả văn bản và lời nói được phiên âm) để trích xuất ý nghĩa, ý định, tình cảm hoặc thực hiện các nhiệm vụ như dịch thuật hoặc tóm tắt. ASR cung cấp đầu vào văn bản mà các hệ thống NLP thường hoạt động. Mô hình hóa ngôn ngữ là thành phần cốt lõi của cả ASR và NLP.
  • Nhận dạng người nói: Điều này liên quan đến việc xác định ai đang nói, thay vì những gì đang được nói. Nó được sử dụng để xác thực sinh trắc học hoặc ghi nhật ký người nói (xác định những người nói khác nhau trong một cuộc trò chuyện).

Ứng dụng trong thế giới thực

Công nghệ nhận dạng giọng nói được tích hợp vào nhiều ứng dụng trên nhiều lĩnh vực khác nhau:

  • Trợ lý ảo : Các hệ thống như Amazon Alexa, Google Trợ lý ảo Assistant và Siri của Apple dựa rất nhiều vào ASR để hiểu các lệnh và truy vấn của người dùng.
  • Dịch vụ phiên âm: Các công cụ như Otter.ai tự động phiên âm các cuộc họp, cuộc phỏng vấn và bài giảng, giúp nội dung âm thanh có thể tìm kiếm và truy cập được.
  • Hệ thống điều khiển bằng giọng nói: Được sử dụng rộng rãi trên xe tự hành và ô tô hiện đại để điều khiển rảnh tay các chức năng dẫn đường, giải trí và điều hòa ( AI trong xe tự lái ).
  • Phần mềm đọc chính tả: Cho phép các chuyên gia trong các lĩnh vực như chăm sóc sức khỏe ( AI trong chăm sóc sức khỏe ) và luật pháp đọc chính tả ghi chú và báo cáo trực tiếp vào tài liệu kỹ thuật số.
  • Công cụ trợ năng: Cung cấp hỗ trợ thiết yếu cho người khuyết tật, cho phép tương tác với công nghệ thông qua giọng nói. Các dự án như Common Voice của Mozilla nhằm mục đích cải thiện ASR cho nhiều giọng nói khác nhau.
  • Dịch vụ khách hàng: Cung cấp hệ thống phản hồi bằng giọng nói tương tác (IVR) và bot thoại trong các trung tâm cuộc gọi để hỗ trợ tự động.

Thách thức và định hướng tương lai

Mặc dù có những tiến bộ đáng kể, các hệ thống ASR vẫn phải đối mặt với những thách thức. Việc phiên âm chính xác giọng nói trong môi trường ồn ào, xử lý nhiều giọng và phương ngữ khác nhau, xử lý tình trạng chồng chéo người nói trong các cuộc trò chuyện và hiểu được ý nghĩa sắc thái hoặc phân tích tình cảm vẫn là những lĩnh vực nghiên cứu tích cực. Những tiến bộ trong tương lai tập trung vào việc cải thiện tính mạnh mẽ thông qua các kỹ thuật học sâu tiên tiến, khám phá các mô hình đa phương thức kết hợp âm thanh với thông tin trực quan (như đọc khẩu hình, liên quan đến thị giác máy tính ) và tận dụng các kỹ thuật như học tự giám sát để đào tạo các mô hình trên các tập dữ liệu lớn không có nhãn. Trong khi Ultralytics tập trung chủ yếu vào các mô hình AI thị giác như Ultralytics YOLO cho các tác vụ như phát hiện đối tượngphân đoạn hình ảnh , tiến trình trong các lĩnh vực AI liên quan như nhận dạng giọng nói góp phần vào hệ sinh thái chung của các hệ thống thông minh. Bạn có thể khám phá các tùy chọn đào tạotriển khai mô hình cho các mô hình thị giác trong tài liệu Ultralytics và quản lý các dự án bằng Ultralytics HUB .

Đọc tất cả