Glosario

Ajuste fino eficiente de parámetros (PEFT)

Descubra Parameter-Efficient Fine-Tuning (PEFT) para adaptar grandes modelos de IA con recursos mínimos. Ahorre costes, evite el sobreajuste y optimice el despliegue.

El ajuste fino eficiente de parámetros (PEFT) es un conjunto de técnicas utilizadas en el aprendizaje automático para adaptar grandes modelos preentrenados a tareas nuevas y específicas sin necesidad de volver a entrenar todo el modelo. A medida que los modelos básicos en campos como el Procesamiento del Lenguaje Natural (PLN ) y la Visión por Computador (VC ) crecen hasta alcanzar miles de millones de parámetros, el ajuste fino completo resulta caro desde el punto de vista informático y requiere un almacenamiento de datos significativo para cada nueva tarea. PEFT soluciona este problema congelando la gran mayoría de los pesos del modelo preentrenado y entrenando sólo un pequeño número de parámetros adicionales o existentes. Este planteamiento reduce drásticamente los costes computacionales y de almacenamiento, disminuye el riesgo de olvido catastrófico (cuando un modelo olvida sus capacidades originales) y hace factible personalizar un único modelo de gran tamaño para muchas aplicaciones diferentes.

¿Cómo funciona el PEFT?

El principio básico de PEFT es introducir cambios mínimos y específicos en un modelo preentrenado. En lugar de actualizar todos los parámetros, los métodos PEFT introducen un pequeño conjunto de parámetros entrenables o seleccionan un pequeño subconjunto de los existentes para actualizarlos durante el entrenamiento. Se trata de una forma de aprendizaje por transferencia que optimiza la eficiencia. Existen varios métodos PEFT populares, cada uno con una estrategia diferente:

  • LoRA (Adaptación de bajo rango): Esta técnica inyecta pequeñas matrices de bajo rango entrenables en las capas del modelo preentrenado, a menudo dentro del mecanismo de atención. Estas matrices "adaptadoras" son significativamente más pequeñas que las matrices de pesos originales, lo que hace que el entrenamiento sea rápido y eficaz. El artículo de investigación original de LoRA ofrece más detalles técnicos.
  • Ajuste de indicaciones: En lugar de modificar la arquitectura del modelo, este método mantiene el modelo totalmente congelado y aprende un conjunto de "indicaciones suaves" o vectores de incrustación entrenables. Estos vectores se añaden a la secuencia de entrada para guiar la salida del modelo para una tarea específica, como se detalla en su artículo fundacional.
  • Adaptación: Este método consiste en insertar pequeños módulos de red neuronal totalmente conectados, conocidos como "adaptadores", entre las capas del modelo preentrenado. Sólo se entrenan los parámetros de estos nuevos adaptadores.

Estos y otros métodos son ampliamente accesibles a través de marcos como la biblioteca Hugging Face PEFT, que simplifica su aplicación.

PEFT frente a conceptos afines

Es importante diferenciar el PEFT de otras estrategias de adaptación de modelos:

  • Ajuste fino completo: A diferencia de PEFT, el ajuste fino completo actualiza todos los pesos de un modelo preentrenado. Esto consume muchos recursos, ya que requiere una GPU potente y un gran espacio de almacenamiento para cada versión del modelo ajustado.
  • Ingeniería de avisos: Esta técnica consiste en diseñar manualmente mensajes de texto eficaces para guiar el comportamiento de un modelo. No implica formación ni actualización de parámetros, sino que se trata únicamente de diseñar la entrada para obtener el resultado deseado de un modelo congelado.
  • Destilación de conocimientos: Consiste en entrenar un modelo "alumno" más pequeño para que imite el comportamiento de un modelo "maestro" más grande y previamente entrenado. Aunque crea un modelo más pequeño, el proceso en sí puede seguir siendo intensivo desde el punto de vista computacional.

Aplicaciones reales

PEFT permite la aplicación práctica de grandes modelos en diversos ámbitos:

En esencia, el ajuste fino eficiente de parámetros hace que los modelos de IA más avanzados sean más versátiles y rentables de adaptar, democratizando el acceso a potentes capacidades de IA para una amplia gama de aplicaciones específicas.

Únase a la comunidad Ultralytics

Únase al futuro de la IA. Conecta, colabora y crece con innovadores de todo el mundo.

Únete ahora
Enlace copiado en el portapapeles