Bảng chú giải thuật ngữ

Chuyển văn bản thành giọng nói

Khám phá cách thức hoạt động của công nghệ chuyển văn bản thành giọng nói (Text-to-Speech - TTS) kết hợp với học sâu (Deep Learning) và xử lý ngôn ngữ tự nhiên (NLP). Tìm hiểu cách tích hợp chúng. Ultralytics YOLO26 tích hợp công nghệ chuyển văn bản thành giọng nói (TTS) cho các ứng dụng chuyển đổi hình ảnh thành giọng nói thời gian thực.

Công nghệ chuyển văn bản thành giọng nói (Text-to-Speech - TTS) là một công nghệ hỗ trợ chuyển đổi văn bản viết thành lời nói. Thường được gọi là công nghệ "đọc to", hệ thống TTS nhận đầu vào văn bản kỹ thuật số—từ tài liệu và trang web đến tin nhắn trò chuyện thời gian thực—và tổng hợp chúng thành giọng nói có thể nghe được. Trong khi các phiên bản ban đầu tạo ra âm thanh robot và không tự nhiên, TTS hiện đại tận dụng các kỹ thuật Học sâu (Deep Learning - DL) tiên tiến để tạo ra giọng nói giống người với ngữ điệu, nhịp điệu và cảm xúc chính xác. Công nghệ này đóng vai trò là giao diện quan trọng cho khả năng tiếp cận, giáo dục và dịch vụ khách hàng tự động, thu hẹp khoảng cách giữa nội dung kỹ thuật số và việc tiếp nhận thông tin bằng thính giác.

Cách Chuyển Văn Bản Thành Giọng Nói Hoạt Động

Về cơ bản, một công cụ chuyển văn bản thành giọng nói (TTS) phải giải quyết hai vấn đề chính: xử lý văn bản thành các biểu diễn ngôn ngữ và chuyển đổi các biểu diễn đó thành dạng sóng âm thanh. Quy trình này thường bao gồm nhiều giai đoạn. Đầu tiên, văn bản được chuẩn hóa để xử lý các từ viết tắt, số và ký tự đặc biệt. Tiếp theo, một mô-đun Xử lý Ngôn ngữ Tự nhiên (NLP) phân tích văn bản để phiên âm ngữ âm và ngữ điệu (trọng âm và nhịp điệu). Cuối cùng, một bộ mã hóa giọng nói hoặc bộ tổng hợp thần kinh sẽ tạo ra âm thanh thực tế.

Những tiến bộ gần đây trong Trí tuệ nhân tạo tạo sinh (Generative AI) đã cách mạng hóa lĩnh vực này. Các mô hình như Tacotron và FastSpeech sử dụng Mạng thần kinh (NN) để học cách ánh xạ phức tạp giữa chuỗi văn bản và phổ âm trực tiếp từ dữ liệu. Cách tiếp cận từ đầu đến cuối này cho phép tổng hợp giọng nói có tính biểu cảm cao, có thể bắt chước giọng nói của người nói cụ thể, một khái niệm được gọi là sao chép giọng nói.

Các ứng dụng trong AI và học máy

Công nghệ chuyển văn bản thành giọng nói (TTS) hiếm khi được sử dụng riêng lẻ trong các hệ sinh thái trí tuệ nhân tạo hiện đại. Nó thường hoạt động như lớp đầu ra cho các hệ thống phức tạp, phối hợp với các công nghệ khác.

Trợ lý ảo và Chatbot: Các tác nhân thông minh như Amazon Alexa hoặc các bot dịch vụ khách hàng được bản địa hóa sử dụng Mô hình Ngôn ngữ Lớn (LLM) để tạo ra các phản hồi bằng văn bản, sau đó được các công cụ TTS chuyển đổi thành giọng nói để tạo ra trải nghiệm hội thoại liền mạch.
Công cụ hỗ trợ tiếp cận: Trình đọc màn hình phụ thuộc rất nhiều vào công nghệ chuyển văn bản thành giọng nói (TTS) để giúp người khiếm thị tiếp cận nội dung hình ảnh. Các hệ điều hành như iOS tích hợp sâu các tính năng hỗ trợ tiếp cận này để giúp người dùng điều hướng ứng dụng và trang web.
Hệ thống dẫn đường: Trong ngành công nghiệp ô tô, các giải pháp AI trong ô tô sử dụng TTS để cung cấp chỉ dẫn từng bước, cho phép người lái xe tập trung nhìn đường trong khi vẫn nhận được thông tin quan trọng.

Tích hợp với Thị giác máy tính

Một trong những ứng dụng mạnh mẽ nhất của TTS xuất hiện khi nó được kết hợp với Thị giác máy tính (CV) . Sự kết hợp này cho phép tạo ra các hệ thống "từ thị giác đến giọng nói" có thể mô tả thế giới vật lý cho người dùng. Ví dụ, một thiết bị đeo được có thể... detect Tìm các vật thể trong phòng và thông báo vị trí của chúng cho người dùng khiếm thị.

Sau đây Python Ví dụ này minh họa cách sử dụng mô hình YOLO26 để phát hiện đối tượng và sau đó sử dụng thư viện TTS đơn giản để chuyển kết quả thành giọng nói.


from gtts import gTTS
from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 model
model = YOLO("yolo26n.pt")

# Perform inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Get the name of the first detected object class
class_name = results[0].names[int(results[0].boxes.cls[0])]

# Generate speech from the detection text
tts = gTTS(text=f"I found a {class_name}", lang="en")
tts.save("detection.mp3")

Đối với các nhà phát triển muốn mở rộng quy mô các ứng dụng như vậy, Nền tảng Ultralytics đơn giản hóa quá trình huấn luyện các mô hình tùy chỉnh trên các tập dữ liệu cụ thể—chẳng hạn như nhận dạng loại tiền tệ cụ thể hoặc đọc các biển báo đường phố khác nhau—trước khi triển khai chúng đến các thiết bị đầu cuối, nơi chúng có thể kích hoạt cảnh báo TTS.

Các Khái Niệm Liên Quan

Việc phân biệt TTS với các thuật ngữ xử lý âm thanh khác sẽ giúp tránh nhầm lẫn:

Chuyển đổi giọng nói thành văn bản (STT) : Đây là quá trình ngược lại của TTS. STT (hay Nhận dạng giọng nói tự động) nhận đầu vào âm thanh và chuyển đổi nó thành văn bản.
Sao chép giọng nói : Trong khi phần mềm chuyển văn bản thành giọng nói (TTS) tiêu chuẩn sử dụng giọng nói được định sẵn, sao chép giọng nói sử dụng máy học để huấn luyện mô hình dựa trên mẫu giọng nói của một người cụ thể nhằm tạo ra giọng nói mới nghe giống hệt họ. Điều này đặt ra những câu hỏi quan trọng liên quan đến đạo đức AI và deepfake.
Học đa phương thức : Điều này đề cập đến việc huấn luyện các mô hình trên nhiều loại dữ liệu (văn bản, hình ảnh, âm thanh) cùng một lúc. Một mô hình đa phương thức có thể xem hình ảnh và tự động xuất ra mô tả bằng giọng nói mà không cần bước chuyển văn bản thành giọng nói riêng biệt.

Định hướng tương lai

Tương lai của chuyển văn bản thành giọng nói (Text-to-Speech) nằm ở khả năng biểu cảm và hiệu suất độ trễ thấp. Các nhà nghiên cứu tại các tổ chức như Google DeepMind đang vượt qua những giới hạn với các mô hình có thể thì thầm, hét lên hoặc truyền đạt sự châm biếm dựa trên ngữ cảnh. Thêm vào đó, khi trí tuệ nhân tạo biên (Edge AI) trở nên phổ biến hơn, các mô hình TTS nhẹ sẽ chạy trực tiếp trên các thiết bị không cần kết nối internet, tăng cường quyền riêng tư và tốc độ cho các ứng dụng thời gian thực.

Chuyển văn bản thành giọng nói

Xe lửa Ultralytics YOLO các mô hình để hợp lý hóa quy trình làm việc trên khắp các ngành công nghiệp

Giải pháp cấp phép doanh nghiệp linh hoạt để thúc đẩy sự đổi mới của bạn

Đào tạo các mô hình AI trong vài giây với Ultralytics YOLO

Cách Chuyển Văn Bản Thành Giọng Nói Hoạt Động

Các ứng dụng trong AI và học máy

Tích hợp với Thị giác máy tính

Các Khái Niệm Liên Quan

Định hướng tương lai

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Ước lượng độ sâu đơn ảnh là gì? Tổng quan

Một cái nhìn về việc sử dụng Ultralytics YOLO các mô hình để phát hiện mối đe dọa AI

Tham gia Ultralytics cộng đồng