Glosario

Ajuste fino eficiente de parámetros (PEFT)

Descubre el Ajuste Fino Eficaz de Parámetros (PEFT) para adaptar grandes modelos de IA con recursos mínimos. Ahorra costes, evita el sobreajuste y optimiza el despliegue.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El ajuste fino eficiente de parámetros (PEFT) describe un conjunto de técnicas utilizadas en el aprendizaje automático (AM) para adaptar grandes modelos preentrenados (como los modelos básicos) a tareas posteriores específicas sin necesidad de actualizar todos los parámetros del modelo. En su lugar, los métodos PEFT se centran en modificar sólo un pequeño subconjunto de parámetros o en añadir un pequeño número de parámetros nuevos. Este enfoque reduce drásticamente los costes computacionales y de almacenamiento asociados al ajuste fino de modelos masivos, como los grandes modelos lingüísticos (LLM) o los modelos de visión a gran escala utilizados en la visión por ordenador (CV), haciendo que la personalización sea más accesible y eficiente.

Relevancia y beneficios

El aumento de modelos preentrenados extremadamente grandes, que a menudo contienen miles de millones de parámetros, ha hecho que los métodos tradicionales de ajuste fino consuman muchos recursos. El ajuste fino completo de tales modelos requiere una potencia de cálculo significativa (a menudo múltiples GPU de gama alta), grandes cantidades de memoria y un espacio de almacenamiento considerable para cada modelo adaptado. PEFT aborda estos retos ofreciendo varias ventajas clave:

  • Coste computacional reducido: Entrenar sólo una pequeña fracción de parámetros disminuye significativamente la necesidad de hardware caro y reduce el tiempo de entrenamiento. Plataformas como Ultralytics HUB Cloud Training pueden agilizar aún más este proceso.
  • Menores requisitos de almacenamiento: Dado que el gran modelo original permanece inalterado, sólo es necesario almacenar el pequeño conjunto de parámetros modificados o añadidos para cada tarea, lo que supone un ahorro sustancial de almacenamiento.
  • Mitigación del Olvido Catastrófico: Al congelar la mayoría de los pesos del modelo preentrenado, PEFT ayuda a evitar que el modelo pierda el conocimiento general que adquirió durante el preentrenamiento cuando aprende una nueva tarea. Más información sobre la superación del olvido catastrófico.
  • Generalización mejorada en regímenes con pocos datos: A veces, afinar menos parámetros puede conducir a un mejor rendimiento en tareas con datos limitados, ya que reduce el riesgo de sobreajuste al pequeño conjunto de datos.
  • Despliegue más fácil: Los conjuntos de parámetros específicos de tareas más pequeños simplifican el despliegue del modelo, especialmente en entornos con recursos limitados como los dispositivos de IA de borde.

Conceptos y técnicas clave

La PEFT se basa en el concepto de aprendizaje por transferencia, en el que los conocimientos de un modelo base se aplican a una nueva tarea. Mientras que el ajuste fino estándar ajusta muchas (o todas) las capas, el PEFT emplea métodos especializados. Algunas técnicas populares de PEFT son:

  • Adaptadores: Pequeños módulos de red neuronal insertados entre las capas existentes del modelo preentrenado. Sólo se entrenan los parámetros de estas nuevas capas adaptadoras. Para más detalles, consulta el artículo de investigación original sobre los Adaptadores.
  • LoRA (Adaptación de bajo rango): Inyecta matrices entrenables de bajo rango en las capas de la arquitectura del transformador, aproximando las actualizaciones de peso y reduciendo drásticamente el número de parámetros entrenables.
  • Ajuste de prefijos: Añade un pequeño conjunto de vectores prefijo entrenables a la entrada de las capas transformadoras, influyendo en el mecanismo de atención del modelo sin modificar los pesos originales. Lee el artículo sobre el Ajuste de prefijos.
  • Ajuste de indicaciones: Aprende indicaciones suaves (incrustaciones vectoriales continuas) añadidas a la secuencia de entrada, guiando el comportamiento del modelo congelado para la tarea específica.

Bibliotecas como la biblioteca PEFTHugging Face proporcionan implementaciones de varios métodos PEFT.

Distinción de conceptos afines

Es importante distinguir la PEFT de otras técnicas de adaptación y optimización de modelos:

  • Ajuste fino completo: Actualiza todos o gran parte de los parámetros del modelo preentrenado. Es costoso computacionalmente, pero puede alcanzar un alto rendimiento si se dispone de datos y recursos suficientes.
  • Poda de modelos: Pretende reducir el tamaño del modelo y la latencia de la inferencia eliminando los parámetros redundantes o sin importancia (pesos o conexiones) de un modelo entrenado. A diferencia de PEFT, la poda se centra en la compresión más que en la adaptación a la tarea.
  • Destilación del conocimiento: Consiste en entrenar un modelo "alumno" más pequeño para que imite la salida o el comportamiento de un modelo "maestro" más grande. El objetivo es transferir conocimientos para mejorar el rendimiento del modelo más pequeño, mientras que PEFT adapta directamente el modelo grande con cambios mínimos.
  • Ajuste de hiperparámetros: Se centra en encontrar los ajustes de configuración óptimos (como la velocidad de aprendizaje o el tamaño del lote) para el proceso de entrenamiento, en lugar de modificar directamente los parámetros del modelo para la adaptación de la tarea.

Aplicaciones en el mundo real

PEFT permite la aplicación práctica de grandes modelos en diversos ámbitos:

  1. Procesamiento del Lenguaje Natural (PLN): Adaptación de modelos básicos como GPT-4 o BERT para tareas específicas, como la creación de chatbots especializados para atención al cliente, la realización de análisis de sentimientos específicos para estudios de mercado, o el resumen de documentos específicos de un dominio (por ejemplo, textos jurídicos o médicos). Hay muchos recursos disponibles en grupos como el Stanford NLP Group.
  2. Visión por ordenador: Personalización de potentes modelos de visión, incluyendo Ultralytics YOLO de Ultralytics, para tareas especializadas de detección de objetos o segmentación de imágenes. Los ejemplos incluyen la identificación de tipos específicos de defectos en una línea de montaje de fabricación utilizando un modelo entrenado inicialmente en conjuntos de datos generales como COCO, o la adaptación de modelos para el análisis preciso de imágenes médicas o el seguimiento de especies en peligro de extinción en la conservación de la vida salvaje.

En esencia, el Ajuste Fino Eficaz de Parámetros hace que los modelos de IA más avanzados, como los modelosYOLO Ultralytics , sean más versátiles y rentables de adaptar a una amplia gama de aplicaciones específicas, democratizando el acceso a las potentes capacidades de la IA.

Leer todo