OpenAI o1: Mô hình suy luận AI mới - Cái nhìn sâu sắc

Cộng đồng AI đang xôn xao bàn tán về bước tiếp theo của các mô hình GPT của OpenAI , với nhiều người gọi nó là "Dự án Dâu tây". Lý do đằng sau điều này là nếu bạn hỏi GPT-4o có bao nhiêu chữ R trong từ "dâu tây", nó sẽ trả lời rằng có hai chữ R trong từ " dâu tây ". Điều này có vẻ kỳ lạ, xét đến sức mạnh của GPT-4o. Tuy nhiên, mô hình được xây dựng để xử lý ẩn ý, chứ không phải chính xác từng từ. Có tin đồn rằng mô hình tiếp theo sẽ hướng đến việc giải quyết vấn đề này. Sam Altman tiếp tục thổi bùng những tin đồn này bằng cách đăng tải hình ảnh dâu tây lên tài khoản X (trước đây gọi là Twitter) của mình.

Với thông báo mới nhất của OpenAI vào Thứ Năm, ngày 12 tháng 9, cuối cùng chúng ta đã có câu trả lời cho những đồn đoán! OpenAI o1, một loạt các mô hình AI mới được thiết kế để chậm lại và suy nghĩ trước khi trả lời, đã được phát hành. Điều thú vị là, OpenAI o1 có thể lý luận tốt hơn và trả lời chính xác câu hỏi về dâu tây! Trong bài viết này, chúng ta sẽ thảo luận về OpenAI o1 là gì, nó hoạt động như thế nào, nó có thể được sử dụng ở đâu và ý nghĩa của nó đối với tương lai của AI. Hãy bắt đầu nào!

__wf_reserved_inherit — Hình 1. Một ví dụ về việc nhắc OpenAI o1 về dâu tây.

‍

Những tiến bộ mới trong AI của OpenAI

Vào tháng 7 năm 2024, các giám đốc điều hành của OpenAI đã chia sẻ rằng nghiên cứu của OpenAI đang tiến gần đến mức độ giải quyết vấn đề của con người, được gọi là cấp độ 2 của AI. Rõ ràng là cấp độ này tập trung vào lý luận, vì OpenAI giới thiệu dòng mô hình mới của mình, OpenAI o1, như suy nghĩ trước khi trả lời. OpenAI o1 là một LLM (mô hình ngôn ngữ lớn) mới, một mô hình AI hiểu và tạo ra văn bản giống như con người bằng cách học các mẫu từ lượng lớn dữ liệu ngôn ngữ. Nó được thiết kế để xử lý các vấn đề phức tạp đòi hỏi lý luận chuyên sâu.

‍

Mô hình đã được huấn luyện bằng cách sử dụng học tăng cường, một kỹ thuật trong đó mô hình học cách đưa ra quyết định tốt hơn thông qua thử và sai bằng cách nhận phần thưởng hoặc hình phạt cho các hành động của mình. Thuật toán học tăng cường giúp mô hình suy nghĩ hiệu quả hơn bằng cách tuân theo một chuỗi suy luận. OpenAI cũng chia sẻ rằng hiệu suất của o1 tiếp tục được cải thiện với nhiều học tăng cường hơn trong quá trình huấn luyện và với nhiều thời gian hơn để "suy nghĩ" trong quá trình giải quyết vấn đề, cho thấy rằng cả huấn luyện mở rộng và xử lý chu đáo đều giúp tăng cường khả năng của mô hình.

Mặc dù OpenAI o1 là một tiến bộ đáng kể cho lý luận phức tạp, nhưng nó vẫn là một mô hình ban đầu và thiếu một số tính năng tạo nên ChatGPT hữu ích, chẳng hạn như duyệt web hoặc tải lên tệp và hình ảnh. Đối với nhiều tác vụ thông thường, GPT-4o có thể vẫn còn hiệu quả hơn hiện tại. Tuy nhiên, OpenAI o1 đánh dấu một bước tiến lớn trong khả năng xử lý suy luận phức tạp của AI, đó là lý do tại sao OpenAI đang bắt đầu một loạt bài mới và gọi nó là OpenAI o1.

Cách các mô hình OpenAI mới tăng cường khả năng suy luận của AI

OpenAI o1 có thể được sử dụng cho các tác vụ như giải mã mật mã, giải các thử thách lập trình, trả lời các bài toán, giải ô chữ và thậm chí xử lý các chủ đề phức tạp trong khoa học, an toàn và chăm sóc sức khỏe. Trong một gật đầu thú vị với tên mã của dự án, OpenAI đã thể hiện kỹ năng lý luận của mô hình bằng cách bẻ khóa một mật mã tiết lộ thông điệp "THERE ARE THREE R’S IN STRAWBERRY."

Ngoài việc giải mật mã, OpenAI o1 còn thành thạo trong việc viết code. Nó thể hiện tốt trong các thử thách lập trình cạnh tranh như trên Codeforces, một nền tảng nơi các lập trình viên giải quyết các vấn đề viết code phức tạp trong điều kiện thời gian có hạn. Trong những thử thách này, mô hình đạt được xếp hạng Elo cao (một hệ thống tính điểm đo lường trình độ kỹ năng dựa trên hiệu suất so với những người cạnh tranh khác) và vượt trội hơn các mô hình trước đó. Nó cũng vượt trội trong môn toán và thể hiện tốt trong các kỳ thi như Kỳ thi Toán học Invitational Hoa Kỳ (AIME).

‍

Những cải tiến này định vị OpenAI o1 như một bản nâng cấp đáng kể so với các mô hình trước đó như GPT-4o. Nó mở ra những khả năng mới cho AI trong các lĩnh vực như kinh doanh, phát triển, nghiên cứu và chăm sóc sức khỏe. Ví dụ: trong nghiên cứu di truyền, OpenAI o1 có thể nhanh chóng xem qua một số lượng lớn các bài báo nghiên cứu, chọn ra những phát hiện và kết nối quan trọng giữa các dấu ấn di truyền và bệnh tật. Nó hiểu ngôn ngữ khoa học phức tạp và có thể tóm tắt các điểm quan trọng, giúp các nhà nghiên cứu tập trung vào thông tin phù hợp nhất.

Xem xét kỹ hơn về chuỗi suy luận

Chúng ta đã thấy trước đó rằng OpenAI o1 giới thiệu quy trình suy luận "Chuỗi Tư duy" (Chain of Thought). Nó cho phép mô hình giải quyết các vấn đề phức tạp theo cách tương tự như các chiến lược nhận thức của con người. Mô hình có thể chia nhỏ các thách thức thành các bước nhỏ hơn, dễ quản lý và liên tục tinh chỉnh phương pháp của mình. Không giống như các mô hình trước đây dựa vào nhận dạng mẫu tức thời, o1 tối ưu hóa việc ra quyết định bằng cách khám phá nhiều đường dẫn suy luận, học hỏi từ cả thành công và sai lầm thông qua học tăng cường.

OpenAI đã quyết định giữ kín các chuỗi suy nghĩ thô này đối với người dùng, thay vào đó cung cấp các bản tóm tắt cung cấp thông tin chi tiết về lý luận của mô hình mà không tiết lộ mọi bước. Quyết định này giúp ngăn chặn việc lạm dụng quy trình suy nghĩ của mô hình, đồng thời cho phép các nhà phát triển theo dõi và tinh chỉnh sự an toàn và phù hợp của AI. Bằng cách quan sát các chuỗi ẩn bên trong, các nhà phát triển có thể đảm bảo rằng o1 tuân thủ các nguyên tắc đạo đức và tránh các hành vi có hại.

Đánh giá hiệu năng OpenAI o1

OpenAI o1 cho thấy những cải tiến lớn so với GPT-4o trong một số điểm chuẩn kiểm tra khả năng lý luận và giải quyết vấn đề. Trong Kỳ thi Toán học Invitational Hoa Kỳ (AIME) 2024, một kỳ thi toán học đầy thách thức dành cho những học sinh trung học hàng đầu, o1 đạt được tỷ lệ chính xác 74% chỉ với một mẫu cho mỗi bài toán, so với 12% của GPT-4o. Với sự đồng thuận trên 64 mẫu, độ chính xác của nó tăng lên 83% và bằng cách sử dụng phương pháp xếp hạng lại tinh chỉnh với 1.000 mẫu, nó đạt 93%, đưa nó vào top 500 học sinh trên toàn quốc.

Ngoài toán học, o1 cũng hoạt động đặc biệt tốt trên các tiêu chuẩn kiểm tra kiến thức khoa học, như GPQA Diamond, bao gồm các câu hỏi cấp tiến sĩ về hóa học, vật lý và sinh học. Đáng chú ý, o1 đã vượt trội hơn các chuyên gia là tiến sĩ về bài kiểm tra này, khiến nó trở thành mô hình AI đầu tiên làm được điều đó. Nó cũng vượt trội hơn GPT-4o ở 54 trên 57 hạng mục trong chuẩn MMLU, kiểm tra sự hiểu biết trên một tập hợp đa dạng các môn học, bao gồm lịch sử, luật và khoa học.

‍

Thực hành với OpenAI o1

OpenAI đã giới thiệu hai mô hình AI mới trong dòng o1: o1-preview và o1-mini. Mô hình o1-preview được thiết kế để suy nghĩ sâu sắc hơn trước khi phản hồi, vượt trội trong các tác vụ lý luận phức tạp trong khoa học, viết mã và toán học. Nó cung cấp khả năng giải quyết vấn đề nâng cao cho người dùng giải quyết các dự án đầy thách thức. Ngược lại, o1-mini là một mô hình nhỏ hơn, nhanh hơn và tiết kiệm chi phí hơn, được tối ưu hóa đặc biệt cho lý luận STEM, đặc biệt là toán học và viết mã. Mặc dù nó có thể có kiến thức thế giới rộng hơn, nhưng o1-mini gần như phù hợp với hiệu suất của o1-preview trong các đánh giá quan trọng như cuộc thi toán AIME và các thử thách viết mã Codeforces, tất cả đều với chi phí thấp hơn 80%.

‍

Bạn có thể thử nghiệm các mô hình này thông qua nhiều nền tảng OpenAI khác nhau. ChatGPT Người dùng Plus và Team có thể truy cập cả o1-preview và o1-mini thông qua trình chọn mô hình, trải nghiệm khả năng suy luận nâng cao trực tiếp trong ChatGPT Các nhà phát triển có quyền sử dụng API cấp độ 5 có thể bắt đầu tạo nguyên mẫu với các mô hình này, mặc dù một số tính năng nâng cao vẫn đang được phát triển. OpenAI cũng có kế hoạch cung cấp o1-mini cho tất cả mọi người. ChatGPT Sẽ sớm có người dùng miễn phí. Bằng cách khám phá các mô hình này, bạn có thể trực tiếp trải nghiệm những tiến bộ trong suy luận AI và chọn ra mô hình phù hợp nhất với nhu cầu của mình.

Các cân nhắc về AI đạo đức được đưa ra bởi OpenAI

OpenAI đã tập trung vào đạo đức và an toàn trong khi phát triển dòng mô hình o1. Trước khi phát hành các mô hình o1-preview và o1-mini, họ đã tiến hành đánh giá kỹ lưỡng, bao gồm các thử nghiệm bên ngoài và kiểm tra nội bộ về các rủi ro như nội dung bị cấm, ảo giác và thành kiến. Các mô hình được thiết kế với khả năng lý luận nâng cao để hiểu rõ hơn và tuân theo các quy tắc an toàn.

OpenAI cũng đã triển khai các biện pháp bảo vệ như danh sách chặn và bộ phân loại an toàn để quản lý rủi ro. Mô hình o1 có xếp hạng rủi ro tổng thể ở mức trung bình. Nó có rủi ro thấp trong các lĩnh vực như an ninh mạng và quyền tự chủ của mô hình, và rủi ro trung bình trong các lĩnh vực như nội dung CBRN (Hóa học, Sinh học, Phóng xạ và Hạt nhân) và khả năng thuyết phục. Nhóm Cố vấn An toàn và Hội đồng quản trị của OpenAI đã xem xét các biện pháp an toàn này để đảm bảo mô hình an toàn và đạo đức khi sử dụng.

‍

Từ tin đồn đến thực tế: OpenAI o1 ra mắt

OpenAI o1 là một bước tiến lớn trong tư duy AI, biến một số tin đồn ban đầu thành hiện thực. Không giống như GPT-4o, dòng sản phẩm o1 suy nghĩ sâu sắc hơn bằng cách sử dụng phương pháp "Chuỗi Tư duy", chia nhỏ các vấn đề phức tạp thành các bước nhỏ hơn để có phản hồi tốt hơn. Hiện có sẵn dưới dạng bản xem trước sớm trong ChatGPT và API, OpenAI dự định bổ sung các tính năng như duyệt web, tải tệp và hình ảnh. OpenAI cũng chia sẻ rằng họ dự định tiếp tục phát triển và phát hành các mô hình trong dòng GPT, cùng với dòng OpenAI o1 mới. Khi AI tiếp tục phát triển, những tiến bộ như thế này đang mở đường cho các hệ thống AI mạnh mẽ, trực quan và linh hoạt hơn, có thể hỗ trợ và hiểu rõ hơn nhu cầu của con người.

Luôn cập nhật những thông tin mới nhất về AI bằng cách tham gia cộng đồng của chúng tôi! Truy cập kho lưu trữ GitHub của chúng tôi để xem cách chúng tôi tiên phong các giải pháp AI trong các lĩnh vực như sản xuất và chăm sóc sức khỏe. 🚀

OpenAI o1: Một loạt các mô hình OpenAI mới cho suy luận AI

Những tiến bộ mới trong AI của OpenAI

Cách các mô hình OpenAI mới tăng cường khả năng suy luận của AI

Xem xét kỹ hơn về chuỗi suy luận

Đánh giá hiệu năng OpenAI o1

Thực hành với OpenAI o1

Các cân nhắc về AI đạo đức được đưa ra bởi OpenAI

Từ tin đồn đến thực tế: OpenAI o1 ra mắt

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai
của AI!

OpenAI o1: Một loạt các mô hình OpenAI mới cho suy luận AI

Những tiến bộ mới trong AI của OpenAI

Cách các mô hình OpenAI mới tăng cường khả năng suy luận của AI

Xem xét kỹ hơn về chuỗi suy luận

Đánh giá hiệu năng OpenAI o1

Thực hành với OpenAI o1

Các cân nhắc về AI đạo đức được đưa ra bởi OpenAI

Từ tin đồn đến thực tế: OpenAI o1 ra mắt

Đọc thêm trong danh mục này

12 trường hợp sử dụng ảnh chụp từ trên không được hỗ trợ bởi thị giác máy tính

Công cụ AI thị giác cho chẩn đoán y tế

Từ dữ liệu đến quyết định: Sử dụng trí tuệ nhân tạo thị giác cho chiến lược doanh nghiệp

Hãy cùng nhau xây dựng tương lai của AI!

Hãy cùng nhau xây dựng tương lai
của AI!