Glossário

IA Constitucional

Explore como a IA constitucional alinha modelos com valores humanos usando princípios éticos. Aprenda a implementar verificações de segurança em visão computacional com Ultralytics .

A IA constitucional é um método para treinar sistemas de inteligência artificial para se alinharem com os valores humanos, fornecendo-lhes um conjunto de princípios de alto nível — uma «constituição» — em vez de depender exclusivamente de um feedback humano extenso sobre resultados individuais. Esta abordagem ensina essencialmente o modelo de IA a criticar e rever o seu próprio comportamento com base num conjunto predefinido de regras, tais como «ser útil», «ser inofensivo» e «evitar a discriminação". Ao incorporar essas diretrizes éticas diretamente no processo de treinamento, os desenvolvedores podem criar sistemas mais seguros, mais transparentes e mais fáceis de escalar do que aqueles que dependem do aprendizado por reforço a partir do feedback humano (RLHF).

O mecanismo da IA constitucional

A principal inovação da IA Constitucional reside no seu processo de treino em duas fases, que automatiza o alinhamento dos modelos. Ao contrário da aprendizagem supervisionada tradicional, em que os humanos têm de rotular todas as respostas corretas, a IA Constitucional utiliza o próprio modelo para gerar dados de treino.

Fase de aprendizagem supervisionada: O modelo gera respostas a prompts e, em seguida, critica a sua própria produção com base nos princípios constitucionais. Ele revê a resposta para melhor se alinhar com as regras. Esse conjunto de dados refinado é então usado para ajustar o modelo, ensinando-o a seguir inerentemente as diretrizes.
Fase de aprendizagem por reforço: esta fase, frequentemente chamada de aprendizagem por reforço a partir do feedback da IA (RLAIF), substitui o rotulador humano . A IA gera pares de respostas e seleciona aquela que melhor se adequa à constituição. Esses dados de preferência treinam um modelo de recompensa, que então reforça os comportamentos desejados por meio de técnicas padrão de aprendizagem por reforço.

Relevância para a visão computacional

Embora a IA constitucional tenha surgido no contexto dos Grandes Modelos de Linguagem (LLM) desenvolvidos por organizações como Anthropic, os seus princípios são cada vez mais relevantes para tarefas mais amplas de aprendizagem automática, incluindo Visão Computacional (CV).

Geração ética de imagens: As ferramentas de IA generativa para a criação de imagens podem ser treinadas "constitucionalmente" para recusar prompts que gerariam imagens violentas, odiosas ou protegidas por direitos autorais. Isso garante que os próprios pesos do modelo codifiquem restrições de segurança, impedindo a criação de conteúdo visual prejudicial.
Sistemas de visão críticos para a segurança: Em veículos autónomos, uma abordagem «constitucional» pode definir regras hierárquicas para a tomada de decisões. Por exemplo, uma regra que estabeleça que «a segurança humana se sobrepõe à eficiência do tráfego» pode orientar o modelo na análise de cenários rodoviários complexos, garantindo que os resultados da deteção de objetos sejam interpretados com a segurança como prioridade.

Implementação de verificações de políticas na IA de visão

Embora o treinamento completo da IA constitucional envolva ciclos de feedback complexos, os desenvolvedores podem aplicar o conceito de "verificações constitucionais" durante a inferência para filtrar os resultados com base em políticas de segurança . O exemplo a seguir demonstra o uso do YOLO26 para detect e aplicar uma regra de segurança para filtrar detecções de baixa confiança, imitando uma constituição de confiabilidade.

from ultralytics import YOLO

# Load the YOLO26 model (latest stable Ultralytics release)
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Apply a "constitutional" safety check: Only accept high-confidence detections
for result in results:
    # Filter boxes with confidence > 0.5 to ensure reliability
    safe_boxes = [box for box in result.boxes if box.conf > 0.5]

    print(f"Safety Check Passed: {len(safe_boxes)} reliable objects detected.")
    # Further processing would only use 'safe_boxes'