Thuật ngữ

Chuyển văn bản thành giọng nói

Khám phá cách công nghệ Chuyển văn bản thành giọng nói (TTS) tiên tiến chuyển đổi văn bản thành giọng nói chân thực, nâng cao khả năng truy cập, tương tác AI và trải nghiệm của người dùng.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Chuyển văn bản thành giọng nói (TTS) là một loại công nghệ hỗ trợ và là một lĩnh vực trong Trí tuệ nhân tạo (AI) chuyển đổi văn bản kỹ thuật số thành đầu ra giọng nói. Tận dụng những tiến bộ trong Học máy (ML) , đặc biệt là Học sâu (DL) , các hệ thống TTS hiện đại có thể tạo ra giọng nói có âm thanh rất tự nhiên, bắt chước ngữ điệu và nhịp điệu của con người. Công nghệ này thu hẹp khoảng cách giữa thông tin văn bản và tiêu thụ thính giác, giúp nội dung kỹ thuật số dễ tiếp cận hơn và cho phép các hình thức tương tác mới giữa con người và máy tính.

Cách thức hoạt động của Text-to-Speech

Quá trình chuyển đổi văn bản thành giọng nói thường bao gồm một số giai đoạn, thường được xử lý bởi các kiến trúc Mạng nơ-ron (NN) phức tạp:

  1. Tiền xử lý văn bản: Văn bản đầu vào được làm sạch và chuẩn hóa. Điều này bao gồm việc mở rộng các chữ viết tắt, chuyển đổi số thành từ và xử lý dấu câu để chuẩn bị văn bản cho phân tích ngôn ngữ. Giai đoạn này phụ thuộc nhiều vào các kỹ thuật từ Xử lý ngôn ngữ tự nhiên (NLP) .
  2. Phân tích ngôn ngữ: Hệ thống phân tích văn bản đã chuẩn hóa để hiểu cấu trúc và ý nghĩa của nó. Điều này bao gồm xác định các phần của lời nói và phiên âm ngữ âm, chuyển đổi từ thành âm vị (đơn vị cơ bản của âm thanh).
  3. Tạo Prosody: Hệ thống dự đoán nhịp điệu, cao độ, trọng âm và ngữ điệu (prosody) phù hợp cho bài phát biểu dựa trên phân tích ngôn ngữ. Bước này rất quan trọng để làm cho bài phát biểu tổng hợp nghe tự nhiên hơn là máy móc. Nghiên cứu từ các phòng thí nghiệm như Google AI đã cải thiện đáng kể mô hình hóa prosody.
  4. Tổng hợp dạng sóng: Sử dụng thông tin ngữ âm và ngữ điệu, dạng sóng giọng nói (tín hiệu âm thanh) được tạo ra. Các phương pháp ban đầu liên quan đến việc nối các đoạn giọng nói được ghi âm trước, trong khi các phương pháp tiếp cận hiện đại thường sử dụng bộ mã hóa giọng nói thần kinh như WaveNet để tổng hợp âm thanh trực tiếp, tạo ra giọng nói chất lượng cao hơn và linh hoạt hơn.

Ứng dụng của Text-to-Speech

Công nghệ TTS có nhiều ứng dụng thực tế trong nhiều lĩnh vực khác nhau:

  • Khả năng truy cập: Trình đọc màn hình sử dụng TTS để đọc to nội dung kỹ thuật số, cung cấp khả năng truy cập cần thiết cho những người khiếm thị hoặc những người gặp khó khăn khi đọc, phù hợp với Nguyên tắc về khả năng truy cập web (WCAG) .
  • Trợ lý ảo và Chatbot: Các hệ thống như Amazon Alexa, Google Trợ lý và Siri sử dụng TTS để cung cấp phản hồi bằng giọng nói, cho phép tương tác rảnh tay. Khám phá khái niệm Trợ lý ảo .
  • Hệ thống dẫn đường: Các ứng dụng GPS cung cấp chỉ đường từng chặng bằng giọng nói, tăng cường sự an toàn cho người lái xe cần tập trung nhìn đường. Điều này có liên quan trong các lĩnh vực như AI trong xe tự lái .
  • Học trực tuyến và sách nói: TTS chuyển đổi tài liệu giáo dục và sách sang định dạng âm thanh, cung cấp những cách thức thay thế để học và tiếp thu văn học.
  • Hệ thống thông báo công cộng: Thông báo tự động tại sân bay, nhà ga xe lửa và các không gian công cộng khác thường sử dụng TTS. Xem cách AI được sử dụng trong Quản lý sân bay .
  • Trò chơi và Giải trí: TTS có thể lồng tiếng cho các nhân vật hoặc tường thuật trong trò chơi điện tử và các ứng dụng giải trí khác.

Chuyển văn bản thành giọng nói so với các công nghệ liên quan

Điều quan trọng là phải phân biệt TTS với các khái niệm liên quan:

  • Nhận dạng giọng nói / Chuyển giọng nói thành văn bản: Đây là quá trình ngược lại của TTS. Hệ thống nhận dạng giọng nói chuyển đổi ngôn ngữ nói thành văn bản viết. Xem thêm Chuyển giọng nói thành văn bản .
  • Xử lý ngôn ngữ tự nhiên (NLP): NLP là một lĩnh vực rộng hơn tập trung vào việc cho phép máy tính hiểu, diễn giải và tạo ra ngôn ngữ của con người. TTS là một lĩnh vực ứng dụng trong hoặc có liên quan chặt chẽ đến NLP, tập trung cụ thể vào việc tổng hợp giọng nói từ văn bản. Khám phá thêm về NLP .
  • Tạo văn bản: Trong khi TTS đọc văn bản hiện có thì các mô hình tạo văn bản như GPT-4 lại tạo nội dung văn bản mới.

Trong khi Ultralytics chủ yếu tập trung vào Computer Vision (CV) với các mô hình như Ultralytics YOLO cho các tác vụ như Object Detection , TTS đại diện cho một nhánh quan trọng khác của AI, thường được sử dụng cùng với các hệ thống thị giác trong các ứng dụng như Robotics để cho phép khả năng tương tác toàn diện hơn. Nhiều nhà cung cấp dịch vụ đám mây cung cấp dịch vụ TTS, chẳng hạn như AWS PollyGoogle Cloud TTS , và các giải pháp thay thế nguồn mở như Mozilla TTS cũng khả dụng.

Đọc tất cả