Explora el ajuste rápido para adaptar de manera eficiente los modelos básicos sin necesidad de volver a entrenarlos por completo. Descubre cómo las indicaciones suaves reducen la latencia y el almacenamiento para tareas de IA como YOLO26.
El ajuste rápido es una técnica eficiente en cuanto a recursos que se utiliza para adaptar modelos básicos preentrenados a tareas específicas posteriores sin el gasto computacional que supone volver a entrenar toda la red. A diferencia del ajuste fino tradicional , que actualiza todos o la mayoría de los parámetros de un modelo , el ajuste rápido congela los pesos del modelo preentrenado y optimiza solo un pequeño conjunto de vectores aprendibles, llamados «prompts suaves», que se anteponen a los datos de entrada. Este enfoque permite que una única infraestructura masiva sirva a múltiples aplicaciones especializadas simultáneamente, lo que reduce significativamente los requisitos de almacenamiento y los costes de conmutación de la latencia de inferencia.
En los flujos de trabajo estándar de aprendizaje automático (ML), las entradas, como texto o imágenes, se convierten en representaciones numéricas conocidas como incrustaciones. El ajuste rápido inserta vectores de incrustación adicionales y entrenables en esta secuencia de entrada. Durante la fase de entrenamiento, el sistema utiliza la retropropagación para calcular los gradientes, pero el algoritmo de optimización solo actualiza los valores de las indicaciones suaves, dejando intacta la estructura masiva del modelo.
Este método es una forma de ajuste fino eficiente de parámetros (PEFT). Al aprender estos vectores continuos, el modelo se «dirige» hacia el resultado deseado. Aunque este concepto se originó en el procesamiento del lenguaje natural (NLP), se ha adaptado con éxito a tareas de visión artificial (CV), a menudo denominadas ajuste visual rápido (VPT).
Para comprender la utilidad del ajuste rápido, es esencial diferenciarlo de términos similares en el panorama de la IA :
El ajuste rápido permite una implementación escalable de la IA en entornos con recursos limitados, una filosofía central compartida por la Ultralytics para la gestión de modelos.
Lo siguiente PyTorch ejemplo de PyTorch muestra el concepto mecánico básico: congelar las capas principales de un modelo y crear un parámetro independiente y entrenable (el «soft prompt») que está optimizado para influir en la salida.
import torch
import torch.nn as nn
# 1. Define a dummy backbone (e.g., a pre-trained layer)
backbone = nn.Linear(10, 5)
# 2. Freeze the backbone weights (crucial for prompt tuning)
for param in backbone.parameters():
param.requires_grad = False
# 3. Create a 'soft prompt' vector that IS trainable
# This represents the learnable embeddings prepended to inputs
soft_prompt = nn.Parameter(torch.randn(1, 10), requires_grad=True)
# 4. Initialize an optimizer that targets ONLY the soft prompt
optimizer = torch.optim.SGD([soft_prompt], lr=0.1)
# Verify that only the prompt is being trained
trainable_params = sum(p.numel() for p in [soft_prompt] if p.requires_grad)
print(f"Optimizing {trainable_params} parameters (Soft Prompt only)")
A medida que los modelos se hacen más grandes, la capacidad de adaptarlos de forma económica se vuelve fundamental. Aunque arquitecturas como YOLO26 ya están muy optimizadas en cuanto a eficiencia, los principios de congelación de las estructuras básicas y la adaptación eficiente son fundamentales para el futuro de la IA en el borde. Técnicas similares al ajuste rápido permiten a los dispositivos con memoria limitada realizar diversas tareas, desde la detección de objetos hasta la segmentación, simplemente intercambiando pequeños archivos de configuración en lugar de recargar enormes redes neuronales.
Para los desarrolladores que buscan entrenar e implementar de manera eficiente, el uso de herramientas como la Ultralytics garantiza que los modelos se optimicen para sus objetivos de hardware específicos, aprovechando las mejores prácticas de las modernas MLOps.