녹색 확인
링크가 클립보드에 복사됨

헌법적 AI는 AI 모델을 인간의 가치에 맞추는 것을 목표로 합니다.

헌법 AI가 모델이 윤리적 규칙을 따르고, 더 안전한 결정을 내리고, 언어 및 컴퓨터 비전 시스템에서 공정성을 지원하는 데 어떻게 도움이 되는지 알아보세요.

인공지능(AI)은 빠르게 일상 생활의 핵심 요소로 자리 잡고 있습니다. 의료, 채용, 금융, 공공 안전과 같은 분야에서 사용되는 도구에 통합되고 있습니다. 이러한 시스템이 확장됨에 따라 윤리와 신뢰성에 대한 우려의 목소리도 커지고 있습니다.

예를 들어, 공정성이나 안전성을 고려하지 않고 구축된 AI 시스템은 편향되거나 신뢰할 수 없는 결과를 도출할 수 있습니다. 이는 많은 모델이 여전히 인간의 가치를 반영하고 일치시킬 수 있는 명확한 방법을 가지고 있지 않기 때문입니다.

이러한 문제를 해결하기 위해 연구자들은 현재 구성적 AI라는 접근 방식을 모색하고 있습니다. 간단히 말해, 이 접근 방식은 모델의 학습 과정에 일련의 원칙을 도입하는 것입니다. 이러한 원칙은 모델이 스스로 행동을 판단하고, 사람의 피드백에 덜 의존하며, 더 안전하고 이해하기 쉬운 응답을 할 수 있도록 도와줍니다.

지금까지 이 접근 방식은 주로 대규모 언어 모델(LLM)과 관련하여 사용되었습니다. 그러나 동일한 구조는 컴퓨터 비전 시스템이 시각 데이터를 분석하는 동안 윤리적 결정을 내리는 데 도움이 될 수 있습니다. 

이 글에서는 구성적 AI가 어떻게 작동하는지 살펴보고, 실제 사례를 살펴보고, 컴퓨터 비전 시스템에서의 잠재적 적용 가능성에 대해 논의합니다.

__wf_reserved_inherit
그림 1. 체질적 AI의 특징. 작성자 이미지.

헌법적 AI란 무엇인가요?

헌법적 AI는 명확한 윤리 규칙을 제공하여 AI 모델의 행동 방식을 안내하는 모델 학습 방법입니다. 이러한 규칙은 행동 강령과 같은 역할을 합니다. 모델에 의존하여 무엇이 허용되는지 추론하는 대신, 훈련 중에 응답을 형성하는 서면 원칙을 따릅니다.

이 개념은 다음에서 도입되었습니다. Anthropic에서 도입한 개념으로, AI 시스템이 의사 결정에서 더 많은 자율 감독을 받도록 하기 위한 방법으로 Claude LLM 제품군을 개발한 AI 안전 중심 연구 회사입니다. 

이 모델은 사람의 피드백에만 의존하는 것이 아니라 미리 정의된 원칙에 따라 스스로 응답을 비판하고 개선하는 방법을 학습합니다. 이 접근 방식은 판사가 판결을 내리기 전에 헌법을 참조하는 법률 시스템과 유사합니다.

이 경우 모델은 판사이자 학생이 되어 동일한 규칙을 사용하여 자신의 행동을 검토하고 개선합니다. 이 프로세스는 AI 모델 조정을 강화하고 안전하고 책임감 있는 AI 시스템 개발을 지원합니다.

헌법 AI는 어떻게 작동하나요?

헌법적 AI의 목표는 명확한 서면 규칙에 따라 안전하고 공정한 결정을 내리는 방법을 AI 모델에 가르치는 것입니다. 다음은 이 프로세스가 어떻게 작동하는지에 대한 간단한 분석입니다:

  • 헌장 정의하기: 모델이 따라야 할 윤리적 원칙의 서면 목록이 작성됩니다. 이 헌장에는 AI가 피해야 할 것과 반영해야 할 가치가 요약되어 있습니다.

  • 교육 감독 예제: 모델에 구성을 따르는 샘플 응답이 표시됩니다. 이러한 예는 AI가 허용 가능한 행동이 어떤 것인지 이해하는 데 도움이 됩니다.

  • 패턴 인식 및 적용: 시간이 지남에 따라 모델은 이러한 패턴을 인식하기 시작합니다. 새로운 질문에 답하거나 새로운 상황을 처리할 때 동일한 값을 적용하는 방법을 학습합니다.

  • 결과물 비판 및 다듬기: 모델은 자체 응답을 검토하고 체질에 따라 조정합니다. 이 자체 검토 단계는 사람의 피드백에만 의존하지 않고 개선하는 데 도움이 됩니다.

  • 일관되고 안전한 응답을 생성합니다: 이 모델은 일관된 규칙을 통해 학습하므로 실제 사용 시 편견을 줄이고 신뢰성을 향상시키는 데 도움이 됩니다. 이러한 접근 방식은 인간의 가치에 더 부합하고 관리하기 쉽습니다.
__wf_reserved_inherit
그림 2. 체질 AI를 사용하여 모델을 학습하는 방법의 개요.

윤리적 AI 설계의 핵심 원칙

AI 모델이 윤리적 규칙을 따르기 위해서는 먼저 해당 규칙을 명확하게 정의해야 합니다. 헌법적 AI의 경우, 이러한 규칙은 일련의 핵심 원칙을 기반으로 합니다. 

효과적인 AI 체질의 기초를 구성하는 네 가지 원칙은 다음과 같습니다:

  • 투명성: 모델이 어떻게 답변에 도달했는지 쉽게 이해할 수 있어야 합니다. 답변이 사실, 추정치 또는 패턴에 기반한 것이라면 사용자에게 투명하게 공개됩니다. 이는 신뢰를 구축하고 사람들이 모델의 결과를 신뢰할 수 있는지 판단하는 데 도움이 됩니다.

  • 평등: 응답은 여러 사용자에 걸쳐 일관성을 유지해야 합니다. 모델은 사용자의 이름, 배경 또는 위치에 따라 출력을 변경해서는 안 됩니다. 평등은 편견을 방지하고 동등한 대우를 촉진하는 데 도움이 됩니다.

  • 책임성: 모델이 어떻게 학습되었는지, 무엇이 모델의 행동에 영향을 미쳤는지 추적할 수 있는 방법이 있어야 합니다. 문제가 발생하면 팀에서 원인을 파악하고 개선할 수 있어야 합니다. 이는 투명성과 장기적인 책임을 지원합니다.

  • 안전: 모델은 해를 끼칠 수 있는 콘텐츠를 제작하지 않아야 합니다. 요청이 위험하거나 안전하지 않은 출력으로 이어지는 경우 시스템은 이를 인식하고 중지해야 합니다. 이는 사용자와 시스템의 무결성을 모두 보호합니다.

대규모 언어 모델에서 구성 AI의 예시

구성적 AI는 이론에서 실무로 옮겨갔으며, 이제 수백만 명의 사용자와 상호작용하는 대규모 모델에서 서서히 사용되고 있습니다. 가장 일반적인 두 가지 예는 OpenAI와 Anthropic LLM입니다. 

두 조직은 보다 윤리적인 AI 시스템을 만들기 위해 서로 다른 접근 방식을 취했지만, 모델이 일련의 서면 지침 원칙을 따르도록 교육한다는 공통된 아이디어를 공유하고 있습니다. 이 두 사례를 자세히 살펴보겠습니다.

OpenAI의 헌법적 AI 접근 방식

OpenAI는 ChatGPT 모델 학습 과정의 일부로 모델 사양이라는 문서를 도입했습니다. 이 문서는 헌법과 같은 역할을 합니다. 여기에는 유용성, 정직성, 안전성과 같은 가치를 포함하여 모델이 응답에서 목표로 삼아야 하는 것이 무엇인지 설명되어 있습니다. 또한 무엇이 유해하거나 오해의 소지가 있는 출력으로 간주되는지도 정의합니다. 

이 프레임워크는 응답이 규칙과 얼마나 잘 일치하는지에 따라 응답을 평가하여 OpenAI의 모델을 미세 조정하는 데 사용되었습니다. 시간이 지남에 따라 이 프레임워크는 ChatGPT 가 유해한 결과를 더 적게 생성하고 사용자가 실제로 원하는 것과 더 잘 일치하도록 하는 데 도움이 되었습니다. 

__wf_reserved_inherit
그림 3. OpenAI의 모델 사양을 사용하여 응답하는 ChatGPT 예시.

Anthropic윤리적 AI 모델

Anthropic모델인 Claude가 따르는 헌법은 세계 인권 선언과 같은 출처의 윤리적 원칙, Apple의 서비스 약관 같은 플랫폼 가이드라인, 다른 AI 연구소의 연구 결과를 기반으로 합니다. 이러한 원칙은 클로드의 응답이 안전하고 공정하며 인간의 중요한 가치에 부합하도록 보장하는 데 도움이 됩니다.

또한 Claude는 사람의 피드백에 의존하지 않고 이러한 윤리적 가이드라인에 따라 자체적으로 답변을 검토하고 조정하는 강화 학습(RLAIF: Reinforcement Learning from AI Feedback)을 사용합니다. 이 프로세스를 통해 Claude는 시간이 지남에 따라 개선되어 확장성을 높이고 까다로운 상황에서도 유용하고 윤리적이며 해롭지 않은 답변을 더 잘 제공할 수 있게 됩니다.

__wf_reserved_inherit
그림 4. Anthropic구성적 AI 접근 방식에 대한 이해.

컴퓨터 비전에 구성적 AI 적용

구성적 AI가 언어 모델의 작동 방식에 긍정적인 영향을 미치고 있기 때문에 자연스럽게 질문으로 이어집니다: 유사한 접근 방식을 사용하면 비전 기반 시스템이 더 공정하고 안전하게 응답하는 데 도움이 될 수 있을까요? 

컴퓨터 비전 모델은 텍스트 대신 이미지로 작동하지만, 윤리적 지침의 필요성도 그에 못지않게 중요합니다. 예를 들어, 시각적 데이터를 분석할 때 모든 사람을 동등하게 대우하고 유해하거나 불공정한 결과를 피하도록 시스템을 훈련시켜야 하므로 공정성과 편견은 고려해야 할 핵심 요소입니다.

__wf_reserved_inherit
그림 5. 컴퓨터 비전과 관련된 윤리적 문제. 작성자 이미지.

현재 컴퓨터 비전에서 구성적 AI 방법을 사용하는 것은 아직 탐색 중이며 이 분야에 대한 연구가 계속 진행 중인 초기 단계에 있습니다.

예를 들어, Meta는 최근 이미지 안전 작업에 헌법과 같은 추론을 적용하는 프레임워크인 CLUE를 도입했습니다. 이 프레임워크는 광범위한 안전 규칙을 멀티모달 AI(여러 유형의 데이터를 처리하고 이해하는 AI 시스템)가 따를 수 있는 정밀한 단계로 전환합니다. 이를 통해 시스템이 보다 명확하게 추론하고 유해한 결과를 줄일 수 있습니다. 

또한, CLUE는 복잡한 규칙을 단순화하여 이미지 안전 판단을 더욱 효율적으로 수행함으로써 AI 모델이 광범위한 사람의 입력 없이도 신속하고 정확하게 작동할 수 있도록 합니다. CLUE는 일련의 기본 원칙을 사용하여 이미지 검토 시스템의 확장성을 높이는 동시에 고품질의 결과를 보장합니다.

주요 요점

인공지능 시스템이 더 많은 책임을 맡게 되면서, 인공지능이 할 수 있는 일에서 해야 하는 일로 초점이 옮겨가고 있습니다. 이러한 변화는 의료, 법 집행, 교육 등 사람들의 삶에 직접적인 영향을 미치는 영역에서 사용되기 때문에 매우 중요합니다. 

AI 시스템이 적절하고 윤리적으로 작동하려면 견고하고 일관된 기반이 필요합니다. 이러한 기반은 공정성, 안전, 신뢰에 우선순위를 두어야 합니다. 

문서화된 헌법은 교육 중에 이러한 토대를 제공하여 시스템의 의사 결정 과정을 안내할 수 있습니다. 또한 개발자에게 배포 후 시스템의 동작을 검토하고 조정할 수 있는 프레임워크를 제공하여 시스템이 설계 당시의 가치에 계속 부합하도록 하고 새로운 문제가 발생했을 때 쉽게 적응할 수 있도록 합니다.

지금 바로 성장하는 커뮤니티에 참여하세요! GitHub 리포지토리를 살펴보고 AI에 대해 더 자세히 알아보세요. 나만의 컴퓨터 비전 프로젝트를 구축하고 싶으신가요? 라이선스 옵션을 살펴보세요. 의료 분야에서 컴퓨터 비전이 어떻게 효율성을 개선하고 있는지 알아보고, 솔루션 페이지를 방문하여 제조 분야에서 AI가 미치는 영향을 살펴보세요!

LinkedIn 로고트위터 로고Facebook 로고복사 링크 기호

이 카테고리에서 자세히 보기

인공지능의 미래
를 함께 만들어 갑시다!

머신 러닝의 미래와 함께하는 여정 시작하기