Glosario

Modelo de cimentación

Descubre cómo los modelos básicos revolucionan la IA con arquitecturas escalables, un amplio preentrenamiento y adaptabilidad para diversas aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos de base representan un importante cambio de paradigma en la Inteligencia Artificial (IA), caracterizados por su escala masiva y su entrenamiento en conjuntos de datos amplios y diversos. A diferencia de los modelos tradicionales de aprendizaje automático (ML) diseñados para tareas específicas, los modelos de base se entrenan previamente con datos amplios, lo que permite adaptarlos -o afinarlos- parauna amplia gama de aplicaciones posteriores con relativamente pocos datos específicos de la tarea. Este enfoque, que a menudo aprovecha el aprendizaje por transferencia, acelera el desarrollo de la IA y hace más accesibles sus potentes capacidades. El término fue popularizado por el Instituto Stanford de Inteligencia Artificial Centrada en el Ser Humano (HAI).

Características básicas de los modelos de cimentación

Los modelos de base se definen por tres características principales: escala, generalidad y adaptabilidad.

  1. Escala: Se entrenan en conjuntos de datos a escala web que contienen texto, imágenes, código y otros tipos de datos, a menudo con miles de millones o billones de puntos de datos. Normalmente poseen miles de millones de parámetros, lo que requiere importantes recursos informáticos (GPU) para el entrenamiento.
  2. Generalidad: El amplio preentrenamiento imbuye a estos modelos de una amplia comprensión de los patrones, la sintaxis, la semántica y el contexto dentro de sus datos de entrenamiento. Esto les permite obtener buenos resultados en tareas para las que no fueron entrenados explícitamente, a veces mediante el aprendizaje sin disparos o con pocos disparos.
  3. Adaptabilidad: Su principal fuerza reside en su capacidad de adaptarse a tareas específicas mediante un ajuste fino. Esto implica un entrenamiento adicional en un conjunto de datos más pequeño y específico de la tarea, lo que reduce significativamente los datos y el tiempo necesarios en comparación con el entrenamiento de un modelo desde cero. Las arquitecturas como el Transformador, conocidas por manejar datos secuenciales y captar dependencias de largo alcance, se utilizan habitualmente, sobre todo en el Procesamiento del Lenguaje Natural (PLN ) y, cada vez más, en la Visión por Computador (VC).

Aplicaciones y ejemplos

La versatilidad de los modelos de cimentación impulsa la innovación en numerosos campos.

  • Procesamiento del Lenguaje Natural: Los modelos como GPT-4 y BERT destacan en tareas como la generación de texto, la traducción, el resumen y la alimentación de sofisticados chatbots. Por ejemplo, una empresa de atención al cliente podría perfeccionar un modelo lingüístico preentrenado como BERT en sus tickets de asistencia para crear un sistema interno de respuesta a preguntas de gran precisión.
  • Visión por ordenador: Los modelos básicos de visión como CLIP (Contrastive Language-Image Pre-training) y el Segment Anything Model (SAM) se encargan de tareas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes. Por ejemplo, una empresa de tecnología agrícola podría adaptar SAM afinándolo en imágenes de drones para segmentar con precisión distintos tipos de cultivos o identificar zonas afectadas por enfermedades, lo que requeriría muchos menos datos etiquetados que los enfoques tradicionales de aprendizaje supervisado.
  • Aplicaciones multimodales: Los modelos se entrenan cada vez más con múltiples tipos de datos (por ejemplo, texto e imágenes), lo que permite realizar tareas como generar imágenes a partir de descripciones de texto(texto-a-imagen) o responder a preguntas sobre imágenes.

Modelos de cimentación frente a modelos tradicionales

La principal diferencia radica en el alcance y la reutilización. Los modelos tradicionales de ML suelen entrenarse para una única tarea específica utilizando un conjunto de datos a medida. Si surge una nueva tarea, a menudo hay que construir y entrenar un nuevo modelo desde cero. Los modelos de base, sin embargo, proporcionan una base reutilizable. Su amplio preentrenamiento captura el conocimiento general, que luego puede especializarse eficazmente.

Este paradigma ofrece ventajas como la reducción de la necesidad de una amplia recopilación y anotación de datos para cada nueva tarea y un despliegue potencialmente más rápido del modelo. Sin embargo, los retos incluyen el inmenso coste computacional y la energía necesarios para el preentrenamiento, el riesgo de heredar y amplificar los sesgos presentes en los datos de entrenamiento, y consideraciones éticas significativas respecto a su potencial mal uso e impacto social. Plataformas como Ultralytics HUB pretenden agilizar el proceso de acceso, entrenamiento y despliegue de modelos avanzados de IA, ayudando a los usuarios a aprovechar eficazmente estas potentes tecnologías.

Leer todo