Thuật ngữ

Mô hình trình tự sang trình tự

Khám phá cách các mô hình trình tự chuyển đổi chuỗi đầu vào thành chuỗi đầu ra, hỗ trợ các tác vụ AI như dịch thuật, chatbot và nhận dạng giọng nói.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Các mô hình Sequence-to-Sequence (Seq2Seq) là một lớp kiến trúc học sâu được thiết kế để chuyển đổi một chuỗi đầu vào thành một chuỗi đầu ra, trong đó độ dài của chuỗi đầu vào và đầu ra có thể khác nhau. Ban đầu được phát triển bằng cách sử dụng Mạng nơ-ron hồi quy (RNN) , các mô hình này tạo thành cơ sở cho nhiều tác vụ liên quan đến dữ liệu tuần tự, đặc biệt là trong Xử lý ngôn ngữ tự nhiên (NLP) . Ý tưởng cốt lõi là ánh xạ các chuỗi như câu, đoạn âm thanh hoặc dữ liệu chuỗi thời gian từ miền này sang miền khác.

Mô hình chuỗi-đến-chuỗi hoạt động như thế nào

Mô hình Seq2Seq thường bao gồm hai thành phần chính: bộ mã hóa và bộ giải mã.

  1. Bộ mã hóa: Phần này xử lý toàn bộ chuỗi đầu vào (ví dụ, một câu tiếng Pháp) từng bước một. Ở mỗi bước, nó cập nhật trạng thái ẩn bên trong của nó. Trạng thái ẩn cuối cùng, thường được gọi là "vectơ ngữ cảnh" hoặc "vectơ suy nghĩ", nhằm mục đích nắm bắt bản tóm tắt hoặc bản chất của chuỗi đầu vào. Các mô hình Seq2Seq ban đầu sử dụng RNN hoặc LSTM cho mục đích này, như được nêu chi tiết trong bài báo gốc Sequence to Sequence Learning .
  2. Bộ giải mã: Thành phần này lấy vectơ ngữ cảnh cuối cùng từ bộ mã hóa và tạo chuỗi đầu ra từng bước (ví dụ: câu đã dịch trong English ). Nó sử dụng vectơ ngữ cảnh làm trạng thái ban đầu và tạo ra một phần tử của chuỗi đầu ra tại mỗi bước thời gian, đồng thời cập nhật trạng thái ẩn của chính nó trong quá trình thực hiện.

Một cải tiến quan trọng giúp cải thiện đáng kể hiệu suất Seq2Seq, đặc biệt là đối với các chuỗi dài hơn, là Cơ chế chú ý . Cơ chế chú ý cho phép bộ giải mã xem lại các phần khác nhau của trạng thái ẩn của chuỗi đầu vào (không chỉ là vectơ ngữ cảnh cuối cùng) khi tạo ra từng phần tử đầu ra, cân nhắc tầm quan trọng của chúng một cách động, như được đề xuất bởi Bahdanau et al.

Sự liên quan và sự tiến hóa

Các mô hình Seq2Seq đại diện cho một bước đột phá lớn, đặc biệt là đối với các tác vụ có độ dài đầu vào và đầu ra thay đổi và căn chỉnh phức tạp. Chúng cung cấp một khuôn khổ linh hoạt để xử lý các vấn đề chuyển đổi chuỗi đa dạng. Mặc dù mang tính nền tảng, các mô hình Seq2Seq dựa trên RNN ban đầu đã phải đối mặt với những thách thức với các phụ thuộc tầm xa. Điều này dẫn đến sự phát triển của các mô hình Transformer , hoàn toàn dựa vào các cơ chế chú ý và xử lý song song, phần lớn thay thế RNN để có hiệu suất tiên tiến trong nhiều tác vụ chuỗi. Tuy nhiên, khái niệm bộ mã hóa-giải mã cốt lõi vẫn có ảnh hưởng. Các khuôn khổ như PyTorchTensorFlow cung cấp các công cụ mạnh mẽ để xây dựng cả các mô hình Seq2Seq truyền thống và Transformer hiện đại.

Ứng dụng trong AI và ML

Các mô hình Seq2Seq, bao gồm cả các mô hình kế thừa hiện đại dựa trên Transformer, được sử dụng trong nhiều ứng dụng:

  • Dịch máy : Dịch văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích (ví dụ: cung cấp năng lượng cho các dịch vụ như Google Dịch ).
  • Tóm tắt văn bản : Tạo bản tóm tắt ngắn hơn từ các bài viết hoặc tài liệu dài.
  • Chatbot và Trả lời câu hỏi: Tạo phản hồi hoặc câu trả lời hội thoại dựa trên văn bản đầu vào hoặc câu hỏi. Nhiều chatbot hiện đại tận dụng kiến trúc Transformer tiên tiến như GPT-4 .
  • Nhận dạng giọng nói : Chuyển đổi chuỗi các tính năng âm thanh thành chuỗi văn bản (phiên âm).
  • Chú thích hình ảnh: Tạo mô tả văn bản (chuỗi từ) cho hình ảnh đầu vào. Mặc dù khác với các tác vụ phát hiện đối tượng do các mô hình như Ultralytics YOLO thực hiện, nhưng nó liên quan đến việc ánh xạ đầu vào trực quan thành đầu ra tuần tự. Nghiên cứu tại các tổ chức như Stanford NLP Group thường khám phá các lĩnh vực này.

Trong khi các mô hình Seq2Seq chủ yếu liên quan đến NLP, các cơ chế chú ý lấy cảm hứng từ chúng cũng đang được sử dụng trong thị giác máy tính , ví dụ, trong một số thành phần của các mô hình phát hiện như RT-DETR hoặc trong Vision Transformers. Bạn có thể khám phá nhiều mô hình khác nhau trên các nền tảng như Hugging Face .

Đọc tất cả