Thuật ngữ

Chuyển văn bản thành giọng nói

Khám phá cách công nghệ Chuyển văn bản thành giọng nói (TTS) tiên tiến chuyển đổi văn bản thành giọng nói chân thực, nâng cao khả năng truy cập, tương tác AI và trải nghiệm của người dùng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chuyển văn bản thành giọng nói (TTS), còn được gọi là tổng hợp giọng nói, là một công nghệ trong lĩnh vực Trí tuệ nhân tạo (AI) chuyển đổi văn bản viết thành giọng nói của con người có thể nghe được. Mục tiêu chính của nó là tự động tạo ra đầu ra giọng nói nghe tự nhiên, giúp nội dung kỹ thuật số có thể truy cập được và cho phép tương tác dựa trên giọng nói. Các hệ thống TTS tận dụng các kỹ thuật từ Xử lý ngôn ngữ tự nhiên (NLP)Học sâu (DL) để hiểu văn bản đầu vào và tổng hợp các dạng sóng âm thanh tương ứng. Khả năng này rất quan trọng để tạo ra các ứng dụng tương tác và công nghệ hỗ trợ.

Cách thức hoạt động của Text-to-Speech

Các hệ thống TTS hiện đại thường tuân theo quy trình nhiều giai đoạn, thường được triển khai bằng các mô hình Học máy (ML) tinh vi:

  1. Tiền xử lý văn bản: Văn bản đầu vào được làm sạch và chuẩn hóa. Điều này bao gồm việc mở rộng các chữ viết tắt, sửa lỗi dấu câu và xác định cấu trúc câu để chuẩn bị văn bản cho phân tích ngôn ngữ. Các kỹ thuật NLP giúp hiểu được sắc thái của văn bản.
  2. Phân tích ngôn ngữ: Hệ thống phân tích văn bản đã xử lý trước để trích xuất các đặc điểm ngôn ngữ, chẳng hạn như âm vị (đơn vị cơ bản của âm thanh), ngữ điệu (nhịp điệu, trọng âm, ngữ điệu) và cách diễn đạt. Bước này xác định văn bản sẽ phát âm như thế nào .
  3. Mô hình hóa âm thanh: Các mô hình học sâu , chẳng hạn như Mạng nơ-ron hồi quy (RNN) , Mạng nơ-ron tích chập (CNN) hoặc Transformer , ánh xạ các đặc điểm ngôn ngữ thành các đặc điểm âm thanh (như phổ mel). Các mô hình này được đào tạo trên các tập dữ liệu lớn gồm văn bản được ghép nối với các bản ghi giọng nói của con người tương ứng.
  4. Vocoding (Tổng hợp dạng sóng): Vocoder chuyển đổi các đặc điểm âm thanh thành dạng sóng âm thanh có thể nghe được. Vocoder ban đầu thường là tham số, nhưng các phương pháp tiếp cận hiện đại như WaveNet ( do DeepMind phát triển ) sử dụng mạng nơ-ron để tạo ra âm thanh có độ trung thực cao, chân thực trực tiếp.

Sự khác biệt chính so với các công nghệ liên quan

TTS khác biệt so với các công nghệ xử lý văn bản và giọng nói dựa trên AI khác:

  • Chuyển giọng nói thành văn bản (STT) : Đây là quá trình ngược lại của TTS. STT, hay Nhận dạng giọng nói , chuyển đổi âm thanh nói thành văn bản viết. TTS tạo ra giọng nói; STT diễn giải giọng nói.
  • Text-to-Image : Công nghệ này tạo ra hình ảnh tĩnh dựa trên mô tả văn bản. Nó hoạt động trong phạm vi hình ảnh, không giống như TTS tập trung vào việc tạo âm thanh. Các mô hình AI tạo ra như DALL-E thuộc loại này.
  • Chuyển văn bản thành video : Mở rộng chuyển văn bản thành hình ảnh, các mô hình này tạo ra chuỗi video từ lời nhắc văn bản, bao gồm động lực và chuyển động theo thời gian, vốn là những tính chất phức tạp không có trong TTS. Sora của OpenAI là một ví dụ.

Ứng dụng trong thế giới thực

Công nghệ TTS có nhiều ứng dụng thực tế, nâng cao trải nghiệm và khả năng truy cập của người dùng:

  • Công cụ trợ năng: Trình đọc màn hình sử dụng TTS để đọc to nội dung kỹ thuật số cho những người khiếm thị, cải thiện khả năng truy cập vào các trang web, tài liệu và ứng dụng, thường được hướng dẫn theo các tiêu chuẩn như Nguyên tắc trợ năng nội dung web (WCAG) .
  • Trợ lý ảo và Chatbot: Trợ lý giọng nói như Amazon Alexa , Google AssistantApple Siri sử dụng TTS để cung cấp phản hồi bằng giọng nói cho các truy vấn của người dùng, cho phép tương tác rảnh tay.
  • Hệ thống dẫn đường: Hệ thống GPS trên xe hơi và ứng dụng dẫn đường di động sử dụng TTS để cung cấp chỉ đường từng chặng bằng giọng nói, rất quan trọng cho các ứng dụng ô tô .
  • E-learning và sáng tạo nội dung: TTS có thể tự động tạo lời tường thuật cho tài liệu giáo dục, bài thuyết trình, sách nói và video lồng tiếng, giúp giảm thời gian và chi phí sản xuất. Các nền tảng như Coursera đôi khi sử dụng giọng nói tổng hợp.
  • Hệ thống thông báo công cộng: Các thông báo tự động tại sân bay, nhà ga xe lửa ( AI trong giao thông vận tải ) và các không gian công cộng khác thường dựa vào TTS.

Tiến bộ công nghệ và công cụ

Chất lượng của TTS đã được cải thiện đáng kể nhờ những tiến bộ trong học sâu . Các hệ thống hiện đại có thể tạo ra giọng nói khó phân biệt với bản ghi âm của con người, nắm bắt được các sắc thái như cảm xúc và phong cách nói. Sao chép giọng nói cho phép các hệ thống bắt chước giọng nói của con người cụ thể sau khi đào tạo trên một lượng âm thanh mẫu tương đối nhỏ.

Một số công cụ và nền tảng hỗ trợ phát triển và triển khai các ứng dụng TTS:

  • Dịch vụ đám mây: Google Cloud Text-to-SpeechAmazon Polly cung cấp các API TTS mạnh mẽ, có khả năng mở rộng với nhiều giọng nói và ngôn ngữ khác nhau.
  • Dự án nguồn mở: Các khuôn khổ như Mozilla TTS và các mô hình nghiên cứu như Tacotron 2 cung cấp các tùy chọn dễ tiếp cận cho các nhà phát triển. Các thư viện như PyTorchTensorFlow thường được sử dụng để xây dựng các mô hình này.

Chuyển văn bản thành giọng nói và Ultralytics

Trong khi Ultralytics chủ yếu tập trung vào Thị giác máy tính (CV) với các mô hình như Ultralytics YOLO cho các tác vụ như Phát hiện đối tượngPhân đoạn hình ảnh , TTS có thể đóng vai trò là công nghệ bổ sung. Ví dụ, một hệ thống CV xác định các đối tượng trong một cảnh có thể sử dụng TTS để mô tả bằng lời các phát hiện của nó. Khi AI phát triển theo hướng Học tập đa phương thức , kết hợp thị giác và ngôn ngữ ( xem bài đăng trên blog về việc kết nối NLP và CV ), việc tích hợp TTS với các mô hình CV sẽ ngày càng có giá trị. Các nền tảng như Ultralytics HUB cung cấp các công cụ để quản lý các mô hình AI và các phát triển trong tương lai có thể thấy sự tích hợp chặt chẽ hơn của nhiều phương thức AI khác nhau, bao gồm TTS, trong một quy trình làm việc của dự án thống nhất.

Đọc tất cả