Khám phá cách các mô hình trình tự chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, hỗ trợ các tác vụ AI như dịch thuật, chatbot và nhận dạng giọng nói.
Các mô hình Sequence-to-Sequence (Seq2Seq) là một lớp kiến trúc học sâu được thiết kế để chuyển đổi một chuỗi đầu vào thành một chuỗi đầu ra, trong đó độ dài của chuỗi đầu vào và đầu ra có thể khác nhau. Ban đầu được phát triển bằng cách sử dụng Mạng nơ-ron hồi quy (RNN) , các mô hình này tạo thành cơ sở cho nhiều tác vụ liên quan đến dữ liệu tuần tự, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) . Ý tưởng cốt lõi là ánh xạ các chuỗi như câu, đoạn âm thanh hoặc dữ liệu chuỗi thời gian từ miền này sang miền khác.
Mô hình Seq2Seq thường bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã.
Một cải tiến quan trọng giúp cải thiện đáng kể hiệu suất Seq2Seq, đặc biệt là đối với các chuỗi dài hơn, là Cơ chế chú ý . Cơ chế chú ý cho phép bộ giải mã xem lại các phần khác nhau của trạng thái ẩn của chuỗi đầu vào (không chỉ là vectơ ngữ cảnh cuối cùng) khi tạo ra từng phần tử đầu ra, cân nhắc tầm quan trọng của chúng một cách động, như được đề xuất bởi Bahdanau et al.
Các mô hình Seq2Seq đại diện cho một bước đột phá lớn, đặc biệt là đối với các tác vụ có độ dài đầu vào và đầu ra thay đổi và căn chỉnh phức tạp. Chúng cung cấp một khuôn khổ linh hoạt để xử lý các vấn đề chuyển đổi chuỗi đa dạng. Mặc dù mang tính nền tảng, các mô hình Seq2Seq dựa trên RNN ban đầu đã phải đối mặt với những thách thức với các phụ thuộc tầm xa. Điều này dẫn đến sự phát triển của các mô hình Transformer , hoàn toàn dựa vào các cơ chế chú ý và xử lý song song, phần lớn thay thế RNN để có hiệu suất tiên tiến trong nhiều tác vụ chuỗi. Tuy nhiên, khái niệm bộ mã hóa-giải mã cốt lõi vẫn có ảnh hưởng. Các khuôn khổ như PyTorch và TensorFlow cung cấp các công cụ mạnh mẽ để xây dựng cả các mô hình Seq2Seq truyền thống và Transformer hiện đại.
Các mô hình Seq2Seq, bao gồm cả các mô hình kế thừa hiện đại dựa trên Transformer, được sử dụng trong nhiều ứng dụng:
Trong khi các mô hình Seq2Seq chủ yếu liên quan đến NLP, các cơ chế chú ý lấy cảm hứng từ chúng cũng đang được sử dụng trong thị giác máy tính , ví dụ, trong một số thành phần của các mô hình phát hiện như RT-DETR hoặc trong Vision Transformers. Bạn có thể khám phá nhiều mô hình khác nhau trên các nền tảng như Hugging Face .