A Aprendizagem por Reforço a partir do Feedback Humano (RLHF) é uma técnica avançada de aprendizagem automática (ML) concebida para alinhar os modelos de IA, em particular os modelos de linguagem de grande dimensão (LLMs) e outros sistemas generativos, de forma mais próxima das intenções e preferências humanas. Aperfeiçoa o paradigma padrão da Aprendizagem por Reforço (RL) ao incorporar o feedback humano diretamente no ciclo de formação, orientando a Inteligência Artificial (IA) para aprender comportamentos que são úteis, inofensivos e honestos, mesmo quando estas qualidades são difíceis de especificar através de funções de recompensa tradicionais. Esta abordagem é crucial para o desenvolvimento de sistemas de IA mais seguros e mais úteis, indo além das simples métricas de precisão para um desempenho matizado alinhado com os valores humanos.
Como funciona a RLHF
A RLHF envolve normalmente um processo de várias etapas que integra o julgamento humano para treinar um modelo de recompensa, que depois orienta o ajuste fino do modelo primário de IA:
- Pré-treino de um modelo: Um modelo inicial (por exemplo, um LLM) é treinado utilizando métodos padrão, muitas vezes aprendizagem supervisionada, num grande conjunto de dados. Este modelo pode gerar conteúdo relevante, mas pode não ter um alinhamento específico.
- Recolha de feedback humano: O modelo pré-treinado gera vários resultados para vários avisos. Os avaliadores humanos classificam estes resultados com base na qualidade, utilidade, inocuidade ou outros critérios desejados. Este feedback comparativo é frequentemente mais fiável e mais fácil de fornecer do que as pontuações absolutas. Estes dados formam um conjunto de dados de preferências.
- Treina um modelo de recompensa: Um modelo separado, conhecido como modelo de recompensa, é treinado com base nos dados de preferência humana. O seu objetivo é prever qual a saída que um humano preferiria, aprendendo essencialmente a imitar o julgamento humano e a atribuir um sinal de recompensa escalar.
- Afinação com Aprendizagem por Reforço: O modelo original de IA é então ajustado usando RL (especificamente, algoritmos como Proximal Policy Optimization (PPO)). O modelo de recompensa fornece o sinal de recompensa durante esta fase. O modelo de IA explora diferentes resultados, e aqueles favorecidos pelo modelo de recompensa são reforçados, orientando o comportamento do modelo para as preferências humanas. Os conceitos fundamentais da RL são detalhados em recursos como a introdução de Sutton & Barto.
Este ciclo iterativo ajuda o modelo de IA a aprender objectivos complexos e subjectivos que são difíceis de definir de forma programática, melhorando aspectos como a ética da IA e reduzindo o enviesamento algorítmico.
RLHF vs. conceitos relacionados
- Aprendizagem por Reforço (RL) padrão: A RL tradicional baseia-se em funções de recompensa explicitamente programadas com base em estados e acções ambientais. A RLHF substitui ou complementa isto com um modelo de recompensa aprendido com base nas preferências humanas, permitindo-lhe captar objectivos mais matizados ou subjectivos. Explora a aprendizagem por reforço profundo para técnicas de RL mais avançadas.
- IA Constitucional (CAI): Desenvolvido por AnthropicA CAI é uma técnica de alinhamento alternativa. Enquanto o RLHF utiliza o feedback humano para treinar o modelo de recompensa tanto para a utilidade como para a inocuidade, o CAI utiliza o feedback da IA guiado por uma "constituição" predefinida (um conjunto de regras ou princípios) para supervisionar o modelo para a inocuidade, muitas vezes ainda utilizando o feedback humano para a utilidade. Lê mais sobre a CAI na investigação daAnthropic.
Principais aplicações do RLHF
A RLHF tem-se tornado cada vez mais importante em aplicações em que o comportamento da IA tem de se alinhar estreitamente com os valores e expectativas humanos:
- Melhorar os Chatbots e os Assistentes Virtuais: Tornar a IA de conversação mais envolvente, útil e menos propensa a gerar respostas prejudiciais, tendenciosas ou sem sentido. Isto envolve o ajuste fino de modelos como o GPT-4.
- Geração de conteúdos: Refinação de modelos para tarefas como a sumarização de texto ou a geração de texto para produzir resultados que correspondam melhor aos estilos ou padrões de qualidade desejados.
- Personalização dos sistemas de recomendação: Ajustar os motores de recomendação para sugerir conteúdos que os utilizadores realmente consideram interessantes ou úteis, para além das simples taxas de cliques.
- Desenvolvimento de veículos autónomos mais seguros: Incorporar as preferências humanas sobre o estilo de condução (por exemplo, suavidade, assertividade) juntamente com as regras de segurança.
Exemplos do mundo real
Alinhamento do chatbot
Empresas como a OpenAI e a Anthropic utilizam extensivamente o RLHF para treinar os seus modelos de linguagem de grande dimensão (por exemplo, ChatGPT, Claude). Ao fazer com que os humanos classifiquem as diferentes respostas geradas pela IA com base na utilidade e na inocuidade, treinam modelos de recompensa que orientam os LLMs para produzirem textos mais seguros, mais éticos e mais úteis. Isto ajuda a mitigar os riscos associados a resultados prejudiciais ou tendenciosos e adere aos princípios do desenvolvimento responsável da IA.
Preferências de condução autónoma
Ao desenvolver a IA para automóveis autónomos, a RLHF pode incorporar o feedback dos condutores ou passageiros sobre comportamentos de condução simulados (por exemplo, conforto durante as mudanças de faixa, suavidade da aceleração, tomada de decisões em situações ambíguas). Isto ajuda a IA a aprender estilos de condução que não só são seguros de acordo com métricas objectivas como a distância ou os limites de velocidade, mas que também são confortáveis e intuitivos para os humanos, aumentando a confiança e a aceitação do utilizador. Isto complementa as tarefas tradicionais de visão por computador, como a deteção de objectos realizada por modelos como o Ultralytics YOLO.
Vantagens da RLHF
- Alinhamento melhorado: Incorpora diretamente as preferências humanas, conduzindo a sistemas de IA que correspondem melhor às intenções e valores dos utilizadores.
- Lida com a subjetividade: Eficaz para tarefas em que a qualidade é subjectiva e difícil de definir com uma métrica simples (por exemplo, criatividade, educação, segurança).
- Segurança melhorada: Ajuda a reduzir a probabilidade de a IA gerar conteúdo prejudicial, antiético ou tendencioso, aprendendo com os julgamentos humanos sobre resultados indesejáveis.
- Adaptabilidade: Permite que os modelos sejam ajustados para domínios específicos ou grupos de utilizadores com base em feedback direcionado.
Desafios e direcções futuras
Apesar dos seus pontos fortes, a RLHF enfrenta desafios:
- Escalabilidade e custo: A recolha de feedback humano de alta qualidade pode ser dispendiosa e demorada.
- Qualidade e enviesamento do feedback: As preferências humanas podem ser inconsistentes, enviesadas ou carecer de conhecimentos especializados, o que pode levar ao enviesamento do conjunto de dados no modelo de recompensa. Garantir um feedback diversificado e representativo é crucial.
- Hackeamento de recompensas: A IA pode encontrar formas de maximizar a recompensa prevista pelo modelo de recompensa sem satisfazer efetivamente a preferência humana pretendida (conhecido como pirataria de recompensas ou jogo de especificação).
- Complexidade: A implementação de todo o pipeline RLHF requer conhecimentos em várias áreas do ML, incluindo a aprendizagem supervisionada, a aprendizagem por reforço e a gestão da formação de modelos em grande escala.
A investigação futura centra-se em métodos de feedback mais eficientes (por exemplo, utilizando assistência de IA para rotular), atenuando o enviesamento, melhorando a robustez dos modelos de recompensa e aplicando o RLHF a uma gama mais vasta de tarefas de IA. Ferramentas como a biblioteca TRL daHugging Face facilitam a implementação do RLHF. Plataformas como o Ultralytics HUB fornecem infra-estruturas para a gestão de conjuntos de dados e modelos de treino, que podem potencialmente integrar mecanismos de feedback humano no futuro para tarefas de alinhamento especializadas em áreas como a visão computacional. Para mais informações sobre como começar a utilizar essas plataformas, consulta o guia de início rápido doUltralytics HUB. Compreender a RLHF é cada vez mais importante para operações eficazes de aprendizagem automática (MLOps) e para garantir a transparência na IA.