Aprende cómo la IA constitucional ayuda a los modelos a seguir normas éticas, tomar decisiones más seguras y apoyar la equidad en los sistemas de lenguaje y visión por ordenador.
La inteligencia artificial (IA) se está convirtiendo rápidamente en una parte clave de nuestra vida cotidiana. Se está integrando en herramientas utilizadas en ámbitos como la sanidad, la contratación, las finanzas y la seguridad pública. A medida que estos sistemas se expanden, también surgen preocupaciones sobre su ética y fiabilidad.
Por ejemplo, a veces los sistemas de IA que se construyen sin tener en cuenta la equidad o la seguridad pueden producir resultados sesgados o poco fiables. Esto se debe a que muchos modelos aún no tienen una forma clara de reflejar y alinearse con los valores humanos.
Para hacer frente a estos retos, los investigadores están explorando ahora un enfoque conocido como IA constitucional. En pocas palabras, introduce un conjunto escrito de principios en el proceso de entrenamiento del modelo. Estos principios ayudan al modelo a juzgar su propio comportamiento, a depender menos de la retroalimentación humana y a hacer que las respuestas sean más seguras y fáciles de entender.
Hasta ahora, este enfoque se ha utilizado sobre todo en relación con los grandes modelos lingüísticos (LLM). Sin embargo, la misma estructura podría ayudar a guiar los sistemas de visión por ordenador para tomar decisiones éticas al analizar datos visuales.
En este artículo exploraremos cómo funciona la IA constitucional, veremos ejemplos de la vida real y discutiremos sus posibles aplicaciones en los sistemas de visión por ordenador.
La IA constitucional es un método de entrenamiento de modelos que orienta el comportamiento de los modelos de IA mediante un conjunto claro de normas éticas. Estas normas actúan como un código de conducta. En lugar de confiar en que el modelo deduzca lo que es aceptable, sigue un conjunto escrito de principios que dan forma a sus respuestas durante el entrenamiento.
Este concepto fue introducido por Anthropicuna empresa de investigación centrada en la seguridad de la IA que desarrolló la familia Claude LLM como método para hacer que los sistemas de IA sean más autosupervisados en su toma de decisiones.
En lugar de depender únicamente de la respuesta humana, el modelo aprende a criticar y perfeccionar sus propias respuestas basándose en un conjunto predefinido de principios. Este enfoque es similar al de un sistema jurídico, en el que un juez se remite a una constitución antes de dictar sentencia.
En este caso, el modelo se convierte tanto en juez como en alumno, utilizando el mismo conjunto de reglas para revisar y refinar su propio comportamiento. Este proceso refuerza la alineación de los modelos de IA y favorece el desarrollo de sistemas de IA seguros y responsables.
El objetivo de la IA constitucional es enseñar a un modelo de IA a tomar decisiones seguras y justas siguiendo un conjunto claro de reglas escritas. He aquí un sencillo desglose de cómo funciona este proceso:
Para que un modelo de IA siga unas normas éticas, primero hay que definir claramente esas normas. Cuando se trata de IA constitucional, estas normas se basan en un conjunto de principios fundamentales.
Por ejemplo, he aquí cuatro principios que constituyen la base de una constitución eficaz de la IA:
La IA constitucional ha pasado de la teoría a la práctica y ahora se utiliza lentamente en grandes modelos que interactúan con millones de usuarios. Dos de los ejemplos más comunes son los LLM de OpenAI y Anthropic.
Aunque ambas organizaciones han adoptado enfoques diferentes para crear sistemas de IA más éticos, comparten una idea común: enseñar al modelo a seguir un conjunto de principios rectores escritos. Veamos más detenidamente estos ejemplos.
OpenAI introdujo un documento llamado Model Spec como parte del proceso de entrenamiento de sus modelos ChatGPT . Este documento actúa como una constitución. Esboza lo que el modelo debe perseguir en sus respuestas, incluyendo valores como la utilidad, la honestidad y la seguridad. También define lo que se considera una respuesta perjudicial o engañosa.
Este marco se ha utilizado para afinar los modelos de OpenAI clasificando las respuestas según su adecuación a las reglas. Con el tiempo, esto ha ayudado a dar forma a ChatGPT para que produzca menos resultados perjudiciales y se ajuste mejor a lo que quieren realmente los usuarios.
La constitución que sigue el modelo de Anthropic, Claude, se basa en principios éticos de fuentes como la Declaración Universal de los Derechos Humanos, directrices de plataformas como las condiciones de servicio de Apple, e investigaciones de otros laboratorios de IA. Estos principios ayudan a garantizar que las respuestas de Claude sean seguras, justas y acordes con importantes valores humanos.
Claude también utiliza el Aprendizaje por Refuerzo a partir de la Retroalimentación de la IA (RLAIF), en el que revisa y ajusta sus propias respuestas basándose en estas directrices éticas, en lugar de depender de la retroalimentación humana. Este proceso permite a Claude mejorar con el tiempo, lo que la hace más escalable y mejor a la hora de ofrecer respuestas útiles, éticas y no perjudiciales, incluso en situaciones complicadas.
Puesto que la IA constitucional está influyendo positivamente en cómo se comportan los modelos lingüísticos, esto nos lleva naturalmente a la pregunta: ¿Podría un enfoque similar ayudar a los sistemas basados en la visión a responder de forma más justa y segura?
Aunque los modelos de visión computerizada trabajan con imágenes en lugar de texto, la necesidad de una orientación ética es igual de importante. Por ejemplo, la imparcialidad y la parcialidad son factores clave a tener en cuenta, ya que estos sistemas deben entrenarse para tratar a todos por igual y evitar resultados perjudiciales o injustos al analizar datos visuales.
Por el momento, el uso de métodos constitucionales de IA en la visión por ordenador aún se está explorando y se encuentra en sus primeras fases, con investigaciones en curso en este ámbito.
Por ejemplo, Meta presentó recientemente CLUE, un marco que aplica el razonamiento de tipo constitucional a las tareas de seguridad de las imágenes. Convierte amplias reglas de seguridad en pasos precisos que la IA multimodal (sistemas de IA que procesan y comprenden múltiples tipos de datos) puede seguir. Esto ayuda al sistema a razonar con mayor claridad y a reducir los resultados perjudiciales.
Además, CLUE hace que los juicios sobre la seguridad de las imágenes sean más eficientes al simplificar reglas complejas, permitiendo que los modelos de IA actúen con rapidez y precisión sin necesidad de una gran aportación humana. Al utilizar un conjunto de principios rectores, CLUE hace que los sistemas de moderación de imágenes sean más escalables, garantizando al mismo tiempo resultados de alta calidad.
A medida que los sistemas de IA asumen más responsabilidades, la atención se está desplazando de lo que pueden hacer a lo que deberían hacer. Este cambio es clave, ya que estos sistemas se utilizan en áreas que afectan directamente a la vida de las personas, como la sanidad, la aplicación de la ley y la educación.
Para garantizar que los sistemas de IA actúan de forma adecuada y ética, necesitan una base sólida y coherente. Esta base debe dar prioridad a la equidad, la seguridad y la confianza.
Una constitución escrita puede proporcionar esa base durante la formación, guiando el proceso de toma de decisiones del sistema. También puede proporcionar a los desarrolladores un marco para revisar y ajustar el comportamiento del sistema después de su despliegue, garantizando que sigue alineado con los valores para los que fue diseñado y facilitando su adaptación a medida que surgen nuevos retos.
¡Únete hoy mismo a nuestra creciente comunidad! Profundiza en la IA explorando nuestro repositorio de GitHub. ¿Quieres crear tus propios proyectos de visión por ordenador? Explora nuestras opciones de licencia. Descubre cómo la visión por ordenador está mejorando la eficiencia en la sanidad y explora el impacto de la IA en la fabricación visitando nuestras páginas de soluciones.
Comienza tu viaje con el futuro del aprendizaje automático