Glosario

Ajuste fino eficiente de parámetros (PEFT)

Descubre el Ajuste Fino Eficaz de Parámetros (PEFT) para adaptar grandes modelos de IA con recursos mínimos. Ahorra costes, evita el sobreajuste y optimiza el despliegue.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

El ajuste fino eficiente de parámetros (PEFT) describe un conjunto de técnicas utilizadas en el aprendizaje automático (AM) para adaptar grandes modelos preentrenados (como los modelos básicos) a tareas posteriores específicas sin necesidad de actualizar todos los parámetros del modelo. En su lugar, los métodos PEFT se centran en modificar sólo un pequeño subconjunto de parámetros o en añadir un pequeño número de parámetros nuevos. Este enfoque reduce drásticamente los costes computacionales y de almacenamiento asociados al ajuste fino de modelos masivos, como los grandes modelos lingüísticos (LLM) o los modelos de visión a gran escala utilizados en la visión por ordenador (VC), haciendo que la personalización sea más accesible y eficiente.

Relevancia y beneficios

El aumento de modelos preentrenados extremadamente grandes, que a menudo contienen miles de millones de parámetros, ha hecho que los métodos tradicionales de ajuste fino consuman muchos recursos. El ajuste fino completo de tales modelos requiere una potencia de cálculo significativa (a menudo múltiples GPU de gama alta), grandes cantidades de memoria y un espacio de almacenamiento considerable para cada modelo adaptado. PEFT aborda estos retos ofreciendo varias ventajas clave:

  • Menor coste computacional: Entrenar sólo una pequeña fracción de parámetros requiere mucha menos potencia de cálculo y tiempo, lo que permite una iteración y experimentación más rápidas, utilizando potencialmente plataformas como Ultralytics HUB Cloud Training.
  • Menores requisitos de memoria: Un menor número de parámetros activos significa que se necesita menos memoria durante el entrenamiento y la inferencia, lo que hace factible el ajuste fino de grandes modelos en hardware de consumo o dispositivos periféricos.
  • Menor huella de almacenamiento: En lugar de guardar una copia completa del modelo ajustado para cada tarea, PEFT a menudo sólo requiere almacenar el pequeño conjunto de parámetros modificados o añadidos, lo que supone un ahorro sustancial de almacenamiento.
  • Mitigación del sobreajuste: Al limitar el número de parámetros entrenables, PEFT puede reducir el riesgo de sobreajuste, especialmente cuando se realiza un ajuste fino en conjuntos de datos más pequeños.
  • Prevención del olvido catastrófico: Los métodos PEFT, al mantener congelados la mayoría de los parámetros del modelo base, ayudan a conservar los conocimientos generales aprendidos durante el preentrenamiento, superando el olvido catastrófico en el que un modelo pierde las capacidades anteriores al aprender nuevas tareas.
  • Despliegue eficiente del modelo: El menor tamaño de los parámetros específicos de la tarea simplifica el despliegue del modelo, especialmente en entornos con recursos limitados como la IA de borde.

Conceptos y técnicas clave

La PEFT se basa en el concepto de aprendizaje por transferencia, en el que los conocimientos de un modelo base se aplican a una nueva tarea. Mientras que el ajuste fino estándar ajusta muchas (o todas) las capas, el PEFT emplea métodos especializados. Algunas técnicas populares de PEFT son:

  • Adaptadores: Pequeños módulos de red neuronal insertados entre las capas de un modelo preentrenado. Sólo se entrenan los parámetros de estos módulos adaptadores durante el ajuste fino, mientras que los pesos del modelo original permanecen congelados.
  • LoRA (Adaptación de bajo rango): Esta técnica inyecta matrices entrenables de bajo rango en las capas (a menudo capas Transformadoras ) de un modelo grande. Su hipótesis es que el cambio necesario para adaptar el modelo tiene un "rango intrínseco" bajo y puede representarse eficazmente. Lee el artículo de investigación original de LoRA para obtener más detalles.
  • Ajuste por prefijos: Antepone a la entrada una secuencia de vectores continuos específicos de la tarea (prefijos), manteniendo congelados los parámetros LLM de base. Sólo se aprenden los parámetros del prefijo.
  • Sintonización de indicaciones: Similar al Prefijo-Tuning, pero lo simplifica añadiendo "indicaciones suaves" entrenables (incrustaciones) a la secuencia de entrada, que se optimizan directamente mediante retropropagación.

Bibliotecas como la bibliotecaHugging Face PEFT proporcionan implementaciones de varios métodos PEFT, lo que facilita su integración en los flujos de trabajo habituales de ML.

Distinción de conceptos afines

Es importante distinguir la PEFT de otras técnicas de adaptación y optimización de modelos:

  • Ajuste fino: El ajuste fino estándar suele actualizar todos o una parte importante de los parámetros del modelo preentrenado en un nuevo conjunto de datos. PEFT, en cambio, modifica sólo una fracción muy pequeña de parámetros o añade unos pocos nuevos.
  • Poda de modelos: Esta técnica consiste en eliminar los parámetros redundantes o sin importancia (pesos o conexiones) de un modelo entrenado para reducir su tamaño y coste computacional, a menudo tras el entrenamiento o el ajuste completo. PEFT se centra en la adaptación eficiente limitando lo que se entrena inicialmente.
  • Destilación del conocimiento: Consiste en entrenar un modelo "alumno" más pequeño para que imite el comportamiento de un modelo "maestro" más grande y preentrenado. PEFT adapta directamente el modelo grande, aunque de forma eficiente.
  • Ajuste de hiperparámetros: Este proceso se centra en encontrar los ajustes de configuración óptimos para el proceso de entrenamiento (p. ej, ritmo de aprendizaje, tamaño del lote) en lugar de adaptar los parámetros aprendidos del modelo para una nueva tarea. Herramientas como el Ultralytics Tuner clase facilita esto.

Aplicaciones en el mundo real

PEFT permite la aplicación práctica de grandes modelos en diversos ámbitos:

En esencia, el Ajuste Fino Eficaz de Parámetros hace que los modelos de IA más avanzados, como los modelosYOLO Ultralytics , sean más versátiles y rentables de adaptar a una amplia gama de aplicaciones específicas, democratizando el acceso a las potentes capacidades de la IA.

Leer todo