Yolo Vision Shenzhen
Шэньчжэнь
Присоединиться сейчас
Глоссарий

Конституционный ИИ

Узнайте, как Constitutional AI согласовывает модели с человеческими ценностями, используя этические принципы. Научитесь внедрять проверки безопасности в компьютерном зрении с помощью Ultralytics .

Конституционный ИИ — это метод обучения систем искусственного интеллекта в соответствии с человеческими ценностями путем предоставления им набора высокоуровневых принципов — «конституции» — вместо того, чтобы полагаться исключительно на обширную обратную связь от человека по отдельным результатам. Этот подход по сути учит модель ИИ критиковать и пересматривать свое собственное поведение на основе заранее определенного набора правил, таких как «быть полезным», «быть безвредным» и «избегать дискриминации». Встраивая эти этические принципы непосредственно в процесс обучения, разработчики могут создавать системы, которые являются более безопасными, прозрачными и легко масштабируемыми, чем те, которые зависят от ручного обучения с помощью обратной связи от человека (RLHF).

Механизм конституционного ИИ

Основная инновация Constitutional AI заключается в двухэтапном процессе обучения, который автоматизирует согласование моделей. В отличие от традиционного контролируемого обучения, где люди должны маркировать каждый правильный ответ, Constitutional AI использует саму модель для генерации обучающих данных.

  1. Этап контролируемого обучения: модель генерирует ответы на запросы, а затем критически оценивает свои собственные результаты на основе конституционных принципов. Она корректирует ответы, чтобы они лучше соответствовали правилам. Этот уточненный набор данных затем используется для тонкой настройки модели, обучая ее следовать руководящим принципам.
  2. Этап обучения с подкреплением: этот этап, часто называемый обучением с подкреплением на основе обратной связи от ИИ (RLAIF), заменяет человека- маркировщика. ИИ генерирует пары ответов и выбирает тот, который лучше всего соответствует конституции. Эти данные о предпочтениях обучают модель вознаграждения, которая затем усиливает желаемое поведение с помощью стандартных методов обучения с подкреплением.

Актуальность для компьютерного зрения

Хотя конституционный ИИ возник в контексте крупных языковых моделей (LLM), разработанных такими организациями, как Anthropic, его принципы становятся все более актуальными для более широких задач машинного обучения, включая компьютерное зрение (CV).

  • Создание этичных изображений: Генеративные инструменты ИИ для создания изображений могут быть «конституционно» обучены отклонять запросы, которые привели бы к созданию изображений, содержащих насилие, ненависть или защищенных авторским правом. Это гарантирует, что сами веса модели кодируют ограничения безопасности, предотвращая создание вредного визуального контента.
  • Системы технического зрения, критичные с точки зрения безопасности: в автономных транспортных средствах «конституционный» подход может определять иерархические правила принятия решений. Например, правило, гласящее, что «безопасность человека превыше всего», может служить ориентиром для модели при анализе сложных дорожных ситуаций, гарантируя, что результаты обнаружения объектов интерпретируются с приоритетом безопасности.

Реализация проверок политики в Vision AI

Хотя полное обучение ИИ по конституционному подходу включает в себя сложные циклы обратной связи, разработчики могут применять концепцию «конституционных проверок» во время вывода, чтобы фильтровать результаты на основе политик безопасности . Следующий пример демонстрирует использование YOLO26 для detect и применение правила безопасности для фильтрации обнаружений с низкой степенью достоверности, имитируя конституцию надежности.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'

Конституционный ИИ против традиционного RLHF

Важно отличать конституционный ИИ от стандартного обучения с подкреплением на основе обратной связи от человека (RLHF).

  • Масштабируемость: RLHF требует огромных затрат человеческого труда для оценки результатов модели, что является дорогостоящим и медленным процессом. Конституционный ИИ автоматизирует этот процесс с помощью ИИ-агентов, что делает его высокомасштабируемым.
  • Прозрачность: в RLHF модель учится на основе непрозрачного «сигнала вознаграждения» (оценки), что затрудняет понимание, почему было предпочтено то или иное поведение. В конституционном ИИ цепочка мыслительных подсказок, используемая на этапе критики, делает рассуждения явными и прослеживаемыми до конкретных письменных принципов.
  • Последовательность: люди-оценщики могут быть непоследовательными или предвзятыми. Письменная конституция обеспечивает стабильную основу для этики ИИ, снижая субъективность в процессе согласования.

Будущее выравнивания

По мере того как модели развиваются в направлении искусственного общего интеллекта (ИОИ), возрастает важность надежных стратегий выравнивания, таких как конституционный ИИ. Эти методы необходимы для соответствия новым стандартам, разработанным такими организациями, как NIST AI Safety Institute.

Ultralytics предлагает инструменты для управления данными и мониторинга моделей, облегчая создание ответственных систем искусственного интеллекта. Интегрируя эти этические соображения в жизненный цикл разработки искусственного интеллекта — от сбора данных до развертывания моделей— организации могут снизить риски и обеспечить положительный вклад своих технологий в развитие общества.

Присоединяйтесь к сообществу Ultralytics

Присоединяйтесь к будущему ИИ. Общайтесь, сотрудничайте и развивайтесь вместе с мировыми новаторами

Присоединиться сейчас