Thuật ngữ

Học tăng cường từ phản hồi của con người (RLHF)

Khám phá cách Học tăng cường từ phản hồi của con người (RLHF) cải thiện hiệu suất AI bằng cách liên kết các mô hình với các giá trị của con người để có AI an toàn hơn và thông minh hơn.

Xe lửa YOLO mô hình đơn giản
với Ultralytics TRUNG TÂM

Tìm hiểu thêm

Học tăng cường từ phản hồi của con người (RLHF) là một phương pháp tiếp cận sáng tạo để đào tạo các mô hình AI kết hợp đầu vào trực tiếp của con người để tinh chỉnh và cải thiện hiệu suất của mô hình. Bằng cách vượt ra ngoài các hàm phần thưởng truyền thống, RLHF cho phép các hệ thống AI phù hợp hơn với các giá trị, sở thích và ý định của con người, đặc biệt là trong các nhiệm vụ phức tạp, nơi việc xác định phần thưởng rõ ràng là một thách thức. Phương pháp này thu hẹp khoảng cách giữa máy học và sự hiểu biết của con người, dẫn đến các ứng dụng AI trực quan và thân thiện với người dùng hơn.

RLHF hoạt động như thế nào

RLHF xây dựng dựa trên các nguyên tắc của học tăng cường, trong đó một tác nhân học cách đưa ra quyết định bằng cách tương tác với môi trường và nhận phản hồi dưới dạng phần thưởng hoặc hình phạt. Trong RLHF, vòng phản hồi này được tăng cường bằng cách kết hợp các nhà đánh giá con người. Quy trình điển hình bao gồm các bước sau:

  1. Mô hình tạo ra đầu ra : Mô hình AI tạo ra một loạt đầu ra cho một nhiệm vụ nhất định, chẳng hạn như tạo văn bản, trả lời câu hỏi hoặc đưa ra quyết định trong môi trường mô phỏng.
  2. Phản hồi của con người : Người đánh giá con người xem xét các đầu ra này và cung cấp phản hồi dựa trên sở thích của họ hoặc một bộ hướng dẫn. Phản hồi này thường ở dạng xếp hạng hoặc đánh giá, cho biết đầu ra nào tốt hơn theo đánh giá của con người.
  3. Đào tạo mô hình phần thưởng : Mô hình phần thưởng được đào tạo để học từ phản hồi của con người. Mô hình này nhằm mục đích dự đoán điểm số sở thích của con người đối với các đầu ra khác nhau, học hiệu quả những gì con người coi là "tốt" hoặc "xấu" trong bối cảnh của nhiệm vụ.
  4. Tối ưu hóa chính sách : Chính sách của mô hình AI ban đầu sau đó được tối ưu hóa bằng thuật toán học tăng cường, được hướng dẫn bởi mô hình phần thưởng. Mục tiêu là tạo ra các đầu ra tối đa hóa phần thưởng như mô hình phần thưởng dự đoán, do đó điều chỉnh hành vi của AI theo sở thích của con người.
  5. Tinh chỉnh lặp lại : Quá trình này là lặp đi lặp lại, với mô hình liên tục tạo ra đầu ra, nhận phản hồi của con người, cập nhật mô hình phần thưởng và tinh chỉnh chính sách của nó. Vòng lặp lặp lại này cho phép AI cải thiện dần dần và đáp ứng tốt hơn kỳ vọng của con người theo thời gian.

Quá trình lặp đi lặp lại này đảm bảo rằng mô hình phát triển để đáp ứng tốt hơn kỳ vọng của con người theo thời gian. Bạn có thể tìm hiểu thêm về nền tảng của việc học tăng cường để hiểu bối cảnh rộng hơn của RLHF.

Các ứng dụng chính của RLHF

RLHF đã chứng minh được giá trị đặc biệt trong các ứng dụng mà việc điều chỉnh hành vi AI với sở thích tinh tế của con người là rất quan trọng. Các lĩnh vực chính bao gồm:

  • Mô hình ngôn ngữ lớn (LLM) : RLHF đóng vai trò quan trọng trong việc tinh chỉnh các LLM như GPT-4 để tạo ra các đầu ra văn bản mạch lạc, phù hợp và an toàn hơn. Nó giúp điều chỉnh các mô hình này theo các chuẩn mực giao tiếp của con người và các cân nhắc về đạo đức, cải thiện tương tác chatbot và chất lượng tạo văn bản.
  • Hệ thống đề xuất : RLHF có thể nâng cao hiểu biết về hệ thống đề xuất bằng cách kết hợp phản hồi của người dùng để cung cấp các đề xuất được cá nhân hóa và thỏa mãn hơn. Thay vì chỉ dựa vào dữ liệu lịch sử, sở thích trực tiếp của con người có thể hướng dẫn hệ thống hiểu rõ hơn về sở thích của người dùng.
  • Robot và Hệ thống tự động : Trong lĩnh vực robot, đặc biệt là trong môi trường phức tạp, RLHF có thể hướng dẫn robot thực hiện các nhiệm vụ theo cách trực quan và thoải mái đối với con người. Ví dụ, trong xe tự hành, việc kết hợp phản hồi của con người có thể giúp tinh chỉnh hành vi lái xe để an toàn hơn và giống con người hơn.

Ví dụ thực tế

Căn chỉnh Chatbot

OpenAI đã sử dụng RLHF để tinh chỉnh các mô hình AI đàm thoại của mình, chẳng hạn như ChatGPT . Người đánh giá con người xếp hạng các phản hồi do mô hình tạo ra, cho phép hệ thống tạo ra các đầu ra an toàn hơn, mạch lạc hơn và thân thiện với người dùng hơn. Cách tiếp cận này làm giảm đáng kể các rủi ro như phản hồi thiên vị hoặc có hại, phù hợp với các nguyên tắc đạo đức AI và làm cho chatbot đáng tin cậy và hữu ích hơn trong các tương tác trong thế giới thực.

Hệ thống tự động

Trong quá trình phát triển AI trong xe tự lái , RLHF cho phép các nhà phát triển kết hợp phản hồi của người lái xe vào các mô hình AI. Ví dụ, người lái xe có thể đánh giá quá trình ra quyết định của xe trong nhiều tình huống mô phỏng khác nhau. Phản hồi này giúp hệ thống tự hành học cách đưa ra quyết định không chỉ an toàn mà còn phù hợp với các chuẩn mực và kỳ vọng lái xe của con người, dẫn đến các phương tiện tự hành thoải mái và đáng tin cậy hơn.

Lợi ích của RLHF

RLHF mang lại một số lợi ích chính:

  • Cải thiện sự phù hợp với các giá trị của con người : Bằng cách kết hợp trực tiếp phản hồi của con người, RLHF đảm bảo rằng các hệ thống AI được đào tạo để phản ánh sở thích của con người và các cân nhắc về mặt đạo đức, dẫn đến AI có trách nhiệm hơn.
  • Hiệu suất nâng cao trong các nhiệm vụ phức tạp : RLHF đặc biệt hiệu quả trong các nhiệm vụ mà việc xác định hàm phần thưởng tự động rõ ràng là khó khăn. Phản hồi của con người cung cấp tín hiệu phong phú, sắc thái có thể hướng dẫn việc học trong các tình huống phức tạp này.
  • Tăng sự hài lòng của người dùng : Các mô hình AI được đào tạo bằng RLHF có xu hướng thân thiện và trực quan hơn với người dùng, dẫn đến sự hài lòng và tin tưởng cao hơn của người dùng vào hệ thống AI.

Thách thức và định hướng tương lai

Bên cạnh những ưu điểm, RLHF cũng có những thách thức:

  • Khả năng mở rộng phản hồi của con người : Việc thu thập và xử lý phản hồi của con người có thể tốn thời gian và tốn kém, đặc biệt là đối với các mô hình lớn và phức tạp. Khả năng mở rộng vẫn là một thách thức chính.
  • Những thành kiến tiềm ẩn trong phản hồi của con người : Người đánh giá con người có thể đưa ra những thành kiến của riêng họ, điều này vô tình có thể định hình mô hình AI theo những cách không mong muốn. Đảm bảo phản hồi đa dạng và mang tính đại diện là rất quan trọng.
  • Tính nhất quán và độ tin cậy : Duy trì tính nhất quán trong phản hồi của con người và đảm bảo độ tin cậy của mô hình phần thưởng là các lĩnh vực nghiên cứu đang được tiến hành.

Các hướng nghiên cứu trong tương lai bao gồm phát triển các phương pháp hiệu quả hơn để thu thập và sử dụng phản hồi của con người, giảm thiểu sự thiên vị và cải thiện tính mạnh mẽ của RLHF trong nhiều ứng dụng khác nhau. Các nền tảng như Ultralytics HUB có thể hợp lý hóa quá trình phát triển và triển khai các mô hình được tăng cường RLHF, cung cấp các công cụ để quản lý tập dữ liệu, đào tạo mô hình và lặp lại dựa trên phản hồi. Hơn nữa, việc tích hợp RLHF với các công cụ mạnh mẽ như Ultralytics YOLO có thể dẫn đến những tiến bộ trong các ứng dụng thời gian thực đòi hỏi phải có quyết định AI phù hợp với con người. Khi RLHF tiếp tục phát triển, nó hứa hẹn đáng kể trong việc tạo ra các hệ thống AI không chỉ thông minh mà còn thực sự phù hợp với nhu cầu và giá trị của con người.

Đọc tất cả