Glosario

Ajuste fino eficiente de parámetros (PEFT)

Descubra Parameter-Efficient Fine-Tuning (PEFT) para adaptar grandes modelos de IA con recursos mínimos. Ahorre costes, evite el sobreajuste y optimice el despliegue.

El ajuste fino eficiente de parámetros (PEFT) es un conjunto de técnicas utilizadas en el aprendizaje automático para adaptar grandes modelos preentrenados a tareas nuevas y específicas sin necesidad de volver a entrenar todo el modelo. A medida que los modelos básicos en campos como el Procesamiento del Lenguaje Natural (PLN ) y la Visión por Computador (VC ) crecen hasta alcanzar miles de millones de parámetros, el ajuste fino completo resulta caro desde el punto de vista informático y requiere un almacenamiento de datos significativo para cada nueva tarea. PEFT soluciona este problema congelando la gran mayoría de los pesos del modelo preentrenado y entrenando sólo un pequeño número de parámetros adicionales o existentes. Este planteamiento reduce drásticamente los costes computacionales y de almacenamiento, disminuye el riesgo de olvido catastrófico (cuando un modelo olvida sus capacidades originales) y hace factible personalizar un único modelo de gran tamaño para muchas aplicaciones diferentes.

¿Cómo funciona el PEFT?

El principio básico de PEFT es introducir cambios mínimos y específicos en un modelo preentrenado. En lugar de actualizar todos los parámetros, los métodos PEFT introducen un pequeño conjunto de parámetros entrenables o seleccionan un pequeño subconjunto de los existentes para actualizarlos durante el entrenamiento. Se trata de una forma de aprendizaje por transferencia que optimiza la eficiencia. Existen varios métodos PEFT populares, cada uno con una estrategia diferente:

LoRA (Adaptación de bajo rango): Esta técnica inyecta pequeñas matrices de bajo rango entrenables en las capas del modelo preentrenado, a menudo dentro del mecanismo de atención. Estas matrices "adaptadoras" son significativamente más pequeñas que las matrices de pesos originales, lo que hace que el entrenamiento sea rápido y eficaz. El artículo de investigación original de LoRA ofrece más detalles técnicos.
Ajuste de indicaciones: En lugar de modificar la arquitectura del modelo, este método mantiene el modelo totalmente congelado y aprende un conjunto de "indicaciones suaves" o vectores de incrustación entrenables. Estos vectores se añaden a la secuencia de entrada para guiar la salida del modelo para una tarea específica, como se detalla en su artículo fundacional.
Adaptación: Este método consiste en insertar pequeños módulos de red neuronal totalmente conectados, conocidos como "adaptadores", entre las capas del modelo preentrenado. Sólo se entrenan los parámetros de estos nuevos adaptadores.

Estos y otros métodos son ampliamente accesibles a través de marcos como la biblioteca Hugging Face PEFT, que simplifica su aplicación.

PEFT frente a conceptos afines

Es importante diferenciar el PEFT de otras estrategias de adaptación de modelos:

Ajuste fino completo: A diferencia de PEFT, el ajuste fino completo actualiza todos los pesos de un modelo preentrenado. Esto consume muchos recursos, ya que requiere una GPU potente y un gran espacio de almacenamiento para cada versión del modelo ajustado.
Ingeniería de avisos: Esta técnica consiste en diseñar manualmente mensajes de texto eficaces para guiar el comportamiento de un modelo. No implica formación ni actualización de parámetros, sino que se trata únicamente de diseñar la entrada para obtener el resultado deseado de un modelo congelado.
Destilación de conocimientos: Consiste en entrenar un modelo "alumno" más pequeño para que imite el comportamiento de un modelo "maestro" más grande y previamente entrenado. Aunque crea un modelo más pequeño, el proceso en sí puede seguir siendo intensivo desde el punto de vista computacional.

Aplicaciones reales

PEFT permite la aplicación práctica de grandes modelos en diversos ámbitos:

Procesamiento del lenguaje natural (PLN): Una empresa puede utilizar PEFT para adaptar un modelo de propósito general como GPT-4 o BERT para crear un chatbot especializado para su base de conocimientos interna. En lugar de un costoso reciclaje completo, pueden utilizar un método como LoRA para enseñar al modelo la terminología y los procedimientos específicos de la empresa, lo que se traduce en respuestas más precisas para el servicio al cliente o la asistencia interna. Grupos de investigación como el Stanford NLP Group exploran este tipo de aplicaciones.
Visión por ordenador (CV): PEFT puede personalizar grandes modelos de visión como Vision Transformers (ViT) o los modelos YOLO de Ultralytics para tareas específicas de reconocimiento visual. Por ejemplo, un modelo preentrenado en el amplio conjunto de datos COCO puede adaptarse mediante PEFT para la detección precisa de objetos con defectos únicos en el control de calidad de la fabricación, la realización de segmentación de imágenes especializada para el análisis de imágenes médicas o la identificación de determinadas especies animales en cámaras trampa para la conservación de la fauna. Plataformas como Ultralytics HUB pueden ayudar a gestionar estos modelos y experimentos adaptados.

En esencia, el ajuste fino eficiente de parámetros hace que los modelos de IA más avanzados sean más versátiles y rentables de adaptar, democratizando el acceso a potentes capacidades de IA para una amplia gama de aplicaciones específicas.

Ajuste fino eficiente de parámetros (PEFT)

Solución flexible de licencias empresariales para impulsar su innovación

Entrene modelos de IA en segundos con Ultralytics YOLO

Entrene modelos YOLO de forma sencilla con Ultralytics HUB

¿Cómo funciona el PEFT?

PEFT frente a conceptos afines

Aplicaciones reales

Leer más en esta categoría

Comprender la fabricación aditiva: Tecnología y casos de uso

Supervisión de las operaciones aeroportuarias en tierra con Ultralytics YOLO11

Evolución y futuro de la robótica en la fabricación

Únase a la comunidad Ultralytics