Yolo 비전 선전
선전
지금 참여하기
용어집

헌법적 AI

윤리적 원칙을 활용하여 헌법적 AI가 모델을 인간 가치와 어떻게 조화시키는지 탐구하세요. Ultralytics 통해 컴퓨터 비전에서 안전 점검을 구현하는 방법을 배우세요.

헌법적 인공지능(Constitutional AI)은 개별 출력에 대한 방대한 인간 피드백에만 의존하기보다, 고수준 원칙 집합—즉 "헌법"—을 제공함으로써 인공지능 시스템이 인간 가치와 부합하도록 훈련하는 방법이다. 이 접근법은 본질적으로 "도움이 되라", "해가 되지 말라", "차별을 피하라"와 같은 사전 정의된 규칙 집합에 기반해 AI 모델이 스스로의 행동을 비판하고 수정하도록 가르친다. 이러한 윤리적 지침을 훈련 과정에 직접 내재시킴으로써 개발자는 수동적 인간 피드백 기반 강화학습(RLHF)에 의존하는 시스템보다 더 안전하고 투명하며 확장성이 용이한 시스템을 구축할 수 있다. 이러한 윤리적 지침을 훈련 과정에 직접 내재화함으로써 개발자는 수동적인 인간 피드백 기반 강화 학습(RLHF)에 의존하는 시스템보다 더 안전하고 투명하며 확장성이 뛰어난 시스템을 구축할 수 있습니다.

헌법적 인공지능의 작동 원리

헌법적 AI의 핵심 혁신은 모델 정렬을 자동화하는 2단계 훈련 과정에 있습니다. 기존의 감독 학습에서는 인간이 모든 정답에 라벨을 부여해야 하지만, 헌법적 AI는 모델 자체를 활용해 훈련 데이터를 생성합니다.

  1. 지도 학습 단계: 모델은 프롬프트에 대한 응답을 생성한 후, 헌법적 원칙에 기반하여 자체 출력을 평가합니다. 규칙에 더 부합하도록 응답을 수정합니다. 이렇게 정제된 데이터셋은 모델을 미세 조정하는 데 사용되며, 이를 통해 모델이 본질적으로 가이드라인을 따르도록 학습시킵니다.
  2. 강화 학습 단계: 이 단계는 흔히 인공지능 피드백 기반 강화 학습(RLAIF)이라 불리며, 인간 라벨러를 대체합니다. 인공지능은 응답 쌍을 생성하고 헌법에 가장 부합하는 응답을 선택합니다. 이러한 선호도 데이터는 보상 모델을 훈련시키며, 이 모델은 표준 강화 학습 기법을 통해 원하는 행동을 강화합니다.

컴퓨터 비전과의 관련성

헌법적 인공지능은 대규모 언어 모델(LLM) 의 맥락에서 비롯되었으며, 이러한 모델은 Anthropic과 같은 기관에서 개발한 대규모 언어 모델 (LLM)의 맥락에서 비롯되었지만, 그 원칙은 컴퓨터 비전(CV)을 포함한 더 광범위한 기계 학습 작업에 점점 더 관련성이 높아지고 있습니다.

  • 윤리적 이미지 생성: 이미지 생성용 생성형 AI 도구는 폭력적, 혐오적 또는 저작권이 있는 이미지를 생성하는 프롬프트를 거부하도록 "본질적으로" 훈련될 수 있습니다. 이를 통해 모델 가중치 자체에 안전 제약 조건이 내재되어 유해한 시각적 콘텐츠 생성을 방지합니다.
  • 안전 핵심 비전 시스템: 자율주행 차량에서 "헌법적" 접근법은 의사결정을 위한 계층적 규칙을 정의할 수 있습니다. 예를 들어, "인간 안전이 교통 효율성보다 우선한다"는 규칙은 복잡한 도로 장면을 분석할 때 모델을 안내하여 물체 탐지 결과가 안전을 최우선으로 해석되도록 보장합니다.

비전 AI에서 정책 검증 구현하기

완전한 헌법적 AI 훈련에는 복잡한 피드백 루프가 수반되지만, 개발자는 추론 과정에서 "헌법적 검증" 개념을 적용하여 안전 정책에 기반해 출력을 필터링할 수 있습니다. 다음 예시는 YOLO26을 사용해 detect 신뢰도 낮은 탐지 결과를 필터링하는 안전 규칙을 적용하는 방식으로, 신뢰성 헌법을 모방한 사례를 보여줍니다.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

헌법적 AI 대 기존 RLHF

헌법적 인공지능(Constitutional AI)과 표준적인 인간 피드백 기반 강화 학습(RLHF)을 구분하는 것이 중요하다.

  • 확장성: RLHF는 모델 출력 평가에 막대한 인력이 필요하여 비용이 많이 들고 속도가 느립니다. 헌법적 AI는 AI 에이전트로 이를 자동화하여 높은 확장성을 제공합니다.
  • 투명성: RLHF에서는 모델이 불투명한 "보상 신호"(점수)로부터 학습하므로, 어떤 행동이 선호되었는지 그 이유를 파악하기 어렵습니다. 헌법적 AI에서는 비판 단계에서 사용되는 사고 과정 프롬프트가 추론을 명시적으로 만들고 특정 서면 원칙으로 추적 가능하게 합니다.
  • 일관성: 인간 평가자는 일관성이 없거나 편향될 수 있다. 서면 헌법은 AI 윤리를 위한 안정적인 기준을 제공하여 정렬 과정에서의 주관성을 줄인다.

정렬의 미래

모델이 다음과 같은 방향으로 진화함에 따라 인공 일반 지능(AGI)으로 진화함에 따라 헌법 AI와 같은 강력한 정렬 전략의 중요성이 커지고 있습니다. 이러한 방법은 다음과 같은 경우에 필수적입니다. 다음과 같은 기관의 새로운 표준을 준수하는 데 필수적입니다. NIST AI 안전 연구소.

Ultralytics 데이터 거버넌스 및 모델 모니터링 관리 도구를 제공하여 책임 있는 AI 시스템 구축을 지원합니다. 데이터 수집부터 모델 배포에이르는 AI 개발 라이프사이클 전반에 이러한 윤리적 고려 사항을 통합함으로써, 조직은 위험을 완화하고 자사 기술이 사회에 긍정적으로 기여하도록 보장할 수 있습니다.

Ultralytics 커뮤니티 가입

AI의 미래에 동참하세요. 글로벌 혁신가들과 연결하고, 협력하고, 성장하세요.

지금 참여하기