AI theo Hiến pháp hướng đến việc liên kết các mô hình AI với các giá trị của con người

Tìm hiểu cách AI theo hiến pháp giúp các mô hình tuân theo các quy tắc đạo đức, đưa ra quyết định an toàn hơn và hỗ trợ tính công bằng trong các hệ thống ngôn ngữ và thị giác máy tính.

Viết bởi

Abirami Vina

phút đọc

Ngày 8 tháng 4 năm 2025

Ngày 13 tháng 4 năm 2025

AI theo hiến pháp là gì?

AI theo hiến pháp hoạt động như thế nào?

Các nguyên tắc cốt lõi của thiết kế AI có đạo đức

Ví dụ về AI hiến pháp trong các mô hình ngôn ngữ lớn

Cách tiếp cận AI theo hiến pháp của OpenAI

Anthropic Các mô hình AI đạo đức của

Áp dụng AI hiến pháp vào tầm nhìn máy tính

Những điểm chính

Trí tuệ nhân tạo (AI) đang nhanh chóng trở thành một phần quan trọng trong cuộc sống hàng ngày của chúng ta. Nó đang được tích hợp vào các công cụ được sử dụng trong các lĩnh vực như chăm sóc sức khỏe, tuyển dụng, tài chính và an toàn công cộng. Khi các hệ thống này mở rộng, mối quan tâm về đạo đức và độ tin cậy của chúng cũng đang được lên tiếng.

Ví dụ, đôi khi các hệ thống AI được xây dựng mà không cân nhắc đến tính công bằng hoặc an toàn có thể tạo ra kết quả thiên vị hoặc không đáng tin cậy. Điều này là do nhiều mô hình vẫn chưa có cách rõ ràng để phản ánh và phù hợp với các giá trị của con người.

Để giải quyết những thách thức này, các nhà nghiên cứu hiện đang khám phá một phương pháp tiếp cận được gọi là AI theo hiến pháp . Nói một cách đơn giản, nó đưa một bộ nguyên tắc được viết vào quy trình đào tạo của mô hình. Những nguyên tắc này giúp mô hình đánh giá hành vi của chính nó, ít phụ thuộc vào phản hồi của con người hơn và làm cho phản hồi an toàn hơn và dễ hiểu hơn.

Cho đến nay, cách tiếp cận này chủ yếu được sử dụng đối với các mô hình ngôn ngữ lớn (LLM) . Tuy nhiên, cùng một cấu trúc có thể giúp hướng dẫn các hệ thống thị giác máy tính đưa ra quyết định có đạo đức trong khi phân tích dữ liệu trực quan.

Trong bài viết này, chúng ta sẽ khám phá cách thức hoạt động của AI theo hiến pháp, xem xét các ví dụ thực tế và thảo luận về các ứng dụng tiềm năng của nó trong các hệ thống thị giác máy tính.

__wf_reserved_thừa kế — Hình 1. Đặc điểm của AI theo hiến pháp. Hình ảnh của tác giả.

‍

AI theo hiến pháp là gì?

Constitutional AI là phương pháp đào tạo mô hình hướng dẫn cách các mô hình AI hoạt động bằng cách cung cấp một bộ quy tắc đạo đức rõ ràng. Các quy tắc này hoạt động như một bộ quy tắc ứng xử. Thay vì dựa vào mô hình để suy ra điều gì là chấp nhận được, nó tuân theo một bộ nguyên tắc được viết ra để định hình phản ứng của nó trong quá trình đào tạo .

Khái niệm này được giới thiệu bởi Anthropic , một công ty nghiên cứu tập trung vào an toàn AI, đã phát triển chương trình LLM Claude như một phương pháp giúp các hệ thống AI tự giám sát tốt hơn trong quá trình ra quyết định.

Thay vì chỉ dựa vào phản hồi của con người, mô hình học cách phê bình và tinh chỉnh phản hồi của chính nó dựa trên một tập hợp các nguyên tắc được xác định trước. Cách tiếp cận này tương tự như hệ thống pháp luật, nơi thẩm phán tham khảo hiến pháp trước khi đưa ra phán quyết.

Trong trường hợp này, mô hình vừa là thẩm phán vừa là học viên, sử dụng cùng một bộ quy tắc để xem xét và tinh chỉnh hành vi của chính nó. Quá trình này củng cố sự liên kết của mô hình AI và hỗ trợ phát triển các hệ thống AI an toàn, có trách nhiệm .

AI theo hiến pháp hoạt động như thế nào?

Mục tiêu của AI theo hiến pháp là dạy mô hình AI cách đưa ra quyết định an toàn và công bằng bằng cách tuân theo một bộ quy tắc rõ ràng được viết ra. Sau đây là một phân tích đơn giản về cách thức hoạt động của quy trình này:

Xác định hiến pháp: Một danh sách các nguyên tắc đạo đức mà mô hình phải tuân theo được tạo ra. Hiến pháp nêu rõ những gì AI nên tránh và những giá trị mà AI nên phản ánh.
Đào tạo với các ví dụ có giám sát : Mô hình được hiển thị các phản hồi mẫu tuân theo hiến pháp. Những ví dụ này giúp AI hiểu được hành vi chấp nhận được trông như thế nào.
Nhận biết và áp dụng các mẫu: Theo thời gian, mô hình bắt đầu nhận ra các mẫu này. Nó học cách áp dụng các giá trị tương tự khi trả lời các câu hỏi mới hoặc xử lý các tình huống mới.
Phê bình và tinh chỉnh đầu ra: Mô hình xem xét các phản hồi của chính nó và điều chỉnh chúng dựa trên cấu tạo. Giai đoạn tự đánh giá này giúp cải thiện mà không chỉ dựa vào phản hồi của con người.
Tạo ra các phản hồi phù hợp và an toàn hơn: Mô hình học hỏi từ các quy tắc nhất quán, giúp giảm sự thiên vị và cải thiện độ tin cậy khi sử dụng trong thế giới thực. Cách tiếp cận này giúp mô hình phù hợp hơn với các giá trị của con người và dễ quản lý hơn.

‍

Các nguyên tắc cốt lõi của thiết kế AI có đạo đức

Để một mô hình AI tuân theo các quy tắc đạo đức , trước tiên các quy tắc đó cần được xác định rõ ràng. Khi nói đến AI theo hiến pháp, các quy tắc này dựa trên một bộ nguyên tắc cốt lõi.

Ví dụ, sau đây là bốn nguyên tắc tạo nên nền tảng của một cơ cấu AI hiệu quả:

Minh bạch : Cần dễ hiểu cách mô hình đưa ra câu trả lời. Nếu phản hồi dựa trên sự kiện, ước tính hoặc mẫu, thì phản hồi đó sẽ minh bạch với người dùng. Điều này tạo dựng lòng tin và giúp mọi người đánh giá xem họ có thể dựa vào kết quả của mô hình hay không.
Bình đẳng: Phản hồi phải nhất quán giữa những người dùng khác nhau. Mô hình không được thay đổi đầu ra dựa trên tên, lý lịch hoặc vị trí của một người. Bình đẳng giúp ngăn ngừa sự thiên vị và thúc đẩy sự đối xử bình đẳng.
Trách nhiệm giải trình: Cần có cách để theo dõi cách một mô hình được đào tạo và những gì ảnh hưởng đến hành vi của nó. Khi có sự cố xảy ra, các nhóm phải có thể xác định nguyên nhân và cải thiện nguyên nhân. Điều này hỗ trợ tính minh bạch và trách nhiệm giải trình lâu dài.
An toàn: Các mô hình cần tránh tạo ra nội dung có thể gây hại. Nếu một yêu cầu dẫn đến đầu ra rủi ro hoặc không an toàn, hệ thống phải nhận ra điều đó và dừng lại. Điều này bảo vệ cả người dùng và tính toàn vẹn của hệ thống.

Ví dụ về AI hiến pháp trong các mô hình ngôn ngữ lớn

AI theo hiến pháp đã chuyển từ lý thuyết sang thực hành và hiện đang dần được sử dụng trong các mô hình lớn tương tác với hàng triệu người dùng. Hai ví dụ phổ biến nhất là LLM từ OpenAI và Anthropic .

Mặc dù cả hai tổ chức đều có những cách tiếp cận khác nhau để tạo ra các hệ thống AI đạo đức hơn, nhưng họ có chung một ý tưởng: dạy mô hình tuân theo một bộ nguyên tắc hướng dẫn được viết sẵn. Hãy cùng xem xét kỹ hơn các ví dụ này.

Cách tiếp cận AI theo hiến pháp của OpenAI

OpenAI đã giới thiệu một tài liệu có tên là Model Spec như một phần của quá trình đào tạo cho ChatGPT mô hình. Tài liệu này hoạt động như một bản hiến pháp. Nó phác thảo những gì mô hình nên hướng tới trong các phản hồi của mình, bao gồm các giá trị như sự hữu ích, trung thực và an toàn. Nó cũng xác định những gì được coi là đầu ra có hại hoặc gây hiểu lầm.

Khung này đã được sử dụng để tinh chỉnh các mô hình của OpenAI bằng cách xếp hạng các phản hồi theo mức độ phù hợp của chúng với các quy tắc. Theo thời gian, điều này đã giúp định hình ChatGPT để tạo ra ít đầu ra có hại hơn và phù hợp hơn với những gì người dùng thực sự muốn.

‍

Anthropic Các mô hình AI đạo đức của

Hiến pháp đó Anthropic Mô hình của Claude, dựa trên các nguyên tắc đạo đức từ các nguồn như Tuyên ngôn Quốc tế Nhân quyền, các hướng dẫn nền tảng như điều khoản dịch vụ của Apple và nghiên cứu từ các phòng thí nghiệm AI khác. Các nguyên tắc này giúp đảm bảo rằng các phản hồi của Claude là an toàn, công bằng và phù hợp với các giá trị quan trọng của con người.

Claude cũng sử dụng Reinforcement Learning from AI Feedback (RLAIF), trong đó nó xem xét và điều chỉnh các phản hồi của riêng mình dựa trên các nguyên tắc đạo đức này, thay vì dựa vào phản hồi của con người . Quá trình này cho phép Claude cải thiện theo thời gian, giúp nó có khả năng mở rộng hơn và cung cấp các câu trả lời hữu ích, có đạo đức và không gây hại tốt hơn, ngay cả trong những tình huống khó khăn.

‍

Áp dụng AI hiến pháp vào tầm nhìn máy tính

Vì AI theo hiến pháp đang ảnh hưởng tích cực đến cách các mô hình ngôn ngữ hoạt động, nên điều này tự nhiên dẫn đến câu hỏi: Liệu một cách tiếp cận tương tự có thể giúp các hệ thống dựa trên tầm nhìn phản ứng công bằng và an toàn hơn không?

Trong khi các mô hình thị giác máy tính hoạt động với hình ảnh thay vì văn bản, nhu cầu hướng dẫn về đạo đức cũng quan trọng không kém. Ví dụ, tính công bằng và thiên vị là những yếu tố chính cần xem xét, vì các hệ thống này cần được đào tạo để đối xử với mọi người bình đẳng và tránh những kết quả có hại hoặc không công bằng khi phân tích dữ liệu trực quan.

‍

Hiện tại, việc sử dụng các phương pháp AI theo hiến pháp trong thị giác máy tính vẫn đang được khám phá và đang trong giai đoạn đầu, với các nghiên cứu đang được tiến hành trong lĩnh vực này.

Ví dụ, Meta gần đây đã giới thiệu CLUE , một khuôn khổ áp dụng lý luận giống như hiến pháp vào các nhiệm vụ an toàn hình ảnh. Nó biến các quy tắc an toàn chung thành các bước chính xác mà AI đa phương thức (hệ thống AI xử lý và hiểu nhiều loại dữ liệu) có thể tuân theo. Điều này giúp hệ thống lý luận rõ ràng hơn và giảm thiểu các kết quả có hại.

Ngoài ra, CLUE giúp đánh giá an toàn hình ảnh hiệu quả hơn bằng cách đơn giản hóa các quy tắc phức tạp, cho phép các mô hình AI hoạt động nhanh chóng và chính xác mà không cần sự can thiệp sâu rộng của con người. Bằng cách sử dụng một bộ nguyên tắc hướng dẫn, CLUE giúp các hệ thống kiểm duyệt hình ảnh có khả năng mở rộng hơn trong khi vẫn đảm bảo kết quả chất lượng cao.

Những điểm chính

Khi các hệ thống AI đảm nhiệm nhiều trách nhiệm hơn, trọng tâm đang chuyển từ những gì chúng có thể làm sang những gì chúng nên làm. Sự thay đổi này là chìa khóa vì các hệ thống này được sử dụng trong các lĩnh vực tác động trực tiếp đến cuộc sống của con người, chẳng hạn như chăm sóc sức khỏe, thực thi pháp luật và giáo dục.

Để đảm bảo các hệ thống AI hoạt động phù hợp và có đạo đức, chúng cần một nền tảng vững chắc và nhất quán. Nền tảng này phải ưu tiên sự công bằng, an toàn và tin cậy.

Một bản hiến pháp viết có thể cung cấp nền tảng đó trong quá trình đào tạo, hướng dẫn quá trình ra quyết định của hệ thống. Nó cũng có thể cung cấp cho các nhà phát triển một khuôn khổ để xem xét và điều chỉnh hành vi của hệ thống sau khi triển khai, đảm bảo hệ thống tiếp tục phù hợp với các giá trị mà nó được thiết kế để duy trì và giúp dễ dàng thích ứng hơn khi có những thách thức mới phát sinh.

Tham gia cộng đồng đang phát triển của chúng tôi ngay hôm nay! Khám phá sâu hơn về AI bằng cách khám phá kho lưu trữ GitHub của chúng tôi. Bạn đang muốn xây dựng các dự án thị giác máy tính của riêng mình? Khám phá các tùy chọn cấp phép của chúng tôi. Tìm hiểu cách thị giác máy tính trong chăm sóc sức khỏe đang cải thiện hiệu quả và khám phá tác động của AI trong sản xuất bằng cách truy cập các trang giải pháp của chúng tôi!

AI theo Hiến pháp hướng đến việc liên kết các mô hình AI với các giá trị của con người

AI theo hiến pháp là gì?

AI theo hiến pháp hoạt động như thế nào?

Các nguyên tắc cốt lõi của thiết kế AI có đạo đức

Ví dụ về AI hiến pháp trong các mô hình ngôn ngữ lớn

Cách tiếp cận AI theo hiến pháp của OpenAI

Anthropic Các mô hình AI đạo đức của

Áp dụng AI hiến pháp vào tầm nhìn máy tính

Những điểm chính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai
của AI cùng nhau!

AI theo Hiến pháp hướng đến việc liên kết các mô hình AI với các giá trị của con người

AI theo hiến pháp là gì?

AI theo hiến pháp hoạt động như thế nào?

Các nguyên tắc cốt lõi của thiết kế AI có đạo đức

Ví dụ về AI hiến pháp trong các mô hình ngôn ngữ lớn

Cách tiếp cận AI theo hiến pháp của OpenAI

Anthropic Các mô hình AI đạo đức của

Áp dụng AI hiến pháp vào tầm nhìn máy tính

Những điểm chính

Đọc thêm trong danh mục này

Hãy xây dựng tương lai của AI cùng nhau!

Hãy xây dựng tương lai
của AI cùng nhau!