Glosario

Modelo de cimentación

Descubre cómo los modelos básicos revolucionan la IA con arquitecturas escalables, un amplio preentrenamiento y adaptabilidad para diversas aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Un Modelo de Base es un modelo de Inteligencia Artificial (IA) a gran escala preentrenado en grandes cantidades de datos amplios y sin etiquetar, diseñado para ser adaptado o afinado para una amplia gama de tareas posteriores. Estos modelos, a menudo basados en arquitecturas como el Transformador, aprenden patrones, estructuras y representaciones generales a partir de los datos, formando una base versátil para diversas aplicaciones especializadas sin necesidad de entrenarlos desde cero para tareas específicas. El desarrollo de modelos de base representa un importante cambio de paradigma en el Aprendizaje Automático (AM), que avanza hacia la construcción de modelos de propósito general que pueden especializarse de forma eficiente.

Características principales

Los modelos de cimentación se definen por varios atributos básicos:

  • Escala: Suelen ser muy grandes, con miles de millones o incluso billones de parámetros, y se entrenan con conjuntos de datos masivos, a menudo extraídos de Internet o de otras fuentes extensas(Big Data).
  • Preentrenamiento: Se someten a una fase intensiva de preentrenamiento, normalmente con métodos de aprendizaje autosupervisado o no supervisado, en los que el modelo aprende de la estructura inherente a los propios datos sin etiquetas explícitas.
  • Adaptabilidad: Una ventaja clave es su adaptabilidad. Una vez preentrenados, se pueden afinar con cantidades relativamente pequeñas de datos etiquetados para tareas específicas como el análisis de sentimientos, el reconocimiento de imágenes o la detección de objetos, aprovechando los conocimientos generales adquiridos durante el preentrenamiento. Este proceso es una forma de aprendizaje por transferencia.
  • Homogeneización: Tienden a consolidar capacidades que antes requerían múltiples modelos especializados en un marco único y adaptable, simplificando potencialmente las MLOps.

Cómo funcionan los modelos de cimentación

La creación y el uso de modelos de cimentación suelen implicar dos etapas:

  1. Entrenamiento previo: El modelo se entrena en un conjunto de datos masivo y diverso. Para los modelos lingüísticos como el GPT-3, esto implica predecir la siguiente palabra de una frase. Para los modelos de visión, puede implicar la reconstrucción de parches de imágenes enmascaradas o el aprendizaje de asociaciones entre imágenes y texto(CLIP). Esta etapa requiere importantes recursos informáticos (GPU, TPU).
  2. Ajuste/Adaptación: El modelo preentrenado se adapta a una tarea específica utilizando un conjunto de datos etiquetados más pequeño y específico para la tarea. Las técnicas como el ajuste fino ajustan las ponderaciones del modelo, mientras que los métodos como la ingeniería rápida guían la salida del modelo sin cambiar sus ponderaciones, especialmente relevantes para los Modelos de Lenguaje Grande (LLM).

Ejemplos y aplicaciones

Los modelos de fundación abarcan varios ámbitos:

Modelos de cimentación frente a otros modelos

  • Modelos para tareas específicas: A diferencia de los modelos fundacionales, el ML tradicional a menudo implica entrenar modelos desde cero en conjuntos de datos específicos para tareas concretas (por ejemplo, entrenar un Ultralytics YOLO sólo para detectar objetos en imágenes aéreas). Aunque eficaz, esto requiere una cantidad significativa de datos etiquetados y esfuerzo para cada nueva tarea. Los modelos de base pretenden reducirlo mediante el aprendizaje por transferencia.
  • Grandes modelos lingüísticos (LLM): Los LLM son un tipo destacado de modelo base diseñado específicamente para tareas lingüísticas. El término "modelo base" es más amplio e incluye modelos de visión, audio y otras modalidades.
  • Modelos CV: Mientras que algunos grandes modelos de visión como ViT o SAM se consideran modelos fundacionales, muchos modelos CV, incluidas versiones específicas de YOLOv8 o YOLO11 entrenados para aplicaciones concretas(IA en agricultura, IA en automoción), suelen afinarse o entrenarse específicamente para esas tareas de visión en lugar de ser modelos base de uso general en sí mismos. Sin embargo, la tendencia a utilizar modelos base preentrenados comparte la idea central de aprovechar las características generales.

Formación y recursos

El preentrenamiento de los modelos básicos es caro desde el punto de vista computacional, y a menudo requiere clusters masivos de GPUs o TPUs y un importante esfuerzo de ingeniería, normalmente realizado por grandes laboratorios de investigación o corporaciones como GoogleMeta AI y OpenAI. Sin embargo, una vez preentrenados, estos modelos pueden adaptarse de forma más eficiente. Plataformas comoUltralytics HUB proporcionan herramientas para entrenar modelos personalizados, gestionar conjuntos de datosUltralytics Datasets) y desplegar soluciones(Model Deployment Options), a menudo aprovechando pesos preentrenados que incorporan conocimientos fundacionales. Una adaptación eficaz sigue requiriendo un cuidadoso ajuste de los hiperparámetros y, potencialmente, un aumento de los datos.

Importancia y futuro

Los modelos de base están cambiando el panorama de la IARoboflow sobre los modelos de base). Aceleran el desarrollo, permiten nuevas aplicaciones y plantean importantes consideraciones en torno a la ética de la IA, la parcialidad y el acceso computacional. Instituciones de investigación como el Centro de Investigación sobre Modelos de Fundación (CRFM) de Stanford se dedican a estudiar sus capacidades e impacto social. Es probable que el futuro implique modelos de cimentación más potentes, eficientes y potencialmente multimodales que impulsen la innovación en la ciencia, la industria y la vida cotidiana(Casos de uso de la IA).

Leer todo