Glosario

Modelo de cimentación

Descubre cómo los modelos básicos revolucionan la IA con arquitecturas escalables, un amplio preentrenamiento y adaptabilidad para diversas aplicaciones.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos de base representan un cambio significativo en el panorama de la Inteligencia Artificial (IA). Estos potentes modelos, entrenados en grandes cantidades de datos, están diseñados para adaptarse a una amplia gama de tareas posteriores. A diferencia de los modelos tradicionales de aprendizaje automático, que suelen construirse para un fin específico, los modelos básicos se entrenan previamente en amplios conjuntos de datos y pueden ajustarse o adaptarse para realizar diversas tareas con un mínimo de datos de entrenamiento específicos de la tarea. Esta capacidad reduce drásticamente la necesidad de una amplia recopilación de datos y entrenamiento desde cero para cada nueva aplicación, haciendo que la IA sea más eficiente y accesible.

Características básicas de los modelos de cimentación

Los modelos de cimentación se caracterizan por su escala, generalidad y adaptabilidad.

  • Escala: Estos modelos se entrenan en conjuntos de datos excepcionalmente grandes, que a menudo abarcan diversos tipos de datos, como texto, imágenes y audio. Esta escala masiva permite al modelo aprender ricas representaciones del mundo.
  • Generalidad: Una característica clave de los modelos de fundamentos es su amplia aplicabilidad. No están diseñados para una única tarea, sino que son capaces de comprender y generar diversos tipos de datos, lo que los convierte en herramientas versátiles para diversas aplicaciones.
  • Adaptabilidad: Los modelos de base pueden adaptarse o ajustarse eficientemente para tareas posteriores específicas. Esto se consigue a menudo mediante técnicas como el aprendizaje por transferencia, en el que los conocimientos del modelo preentrenado se aprovechan para resolver problemas nuevos y relacionados con muchos menos datos y esfuerzo computacional. Esto es similar a cómo los modelos Ultralytics YOLO pueden ajustarse en conjuntos de datos personalizados para tareas específicas de detección de objetos.

Los modelos de base suelen utilizar arquitecturas de aprendizaje profundo, en particular transformadores, conocidos por su capacidad para procesar datos secuenciales y captar dependencias de largo alcance. Estos modelos aprenden patrones y relaciones complejas dentro de los datos, lo que les permite realizar tareas que van desde el procesamiento del lenguaje natural (PLN) a la visión por ordenador (VC) y más allá.

Aplicaciones de los modelos de cimentación

La versatilidad de los modelos de cimentación ha llevado a su rápida adopción en numerosos campos. He aquí un par de ejemplos:

  • Generación de textos y chatbots: Los grandes modelos lingüísticos (LLM) como el GPT-4 son ejemplos excelentes de modelos básicos en PNL. Se entrenan en conjuntos de datos de texto masivos y pueden generar texto de calidad humana, traducir idiomas y alimentar sofisticados chatbots. Estos modelos sustentan aplicaciones que van desde la creación de contenidos y la atención al cliente hasta las herramientas avanzadas de generación de texto.
  • Comprensión y generación de imágenes: En visión por ordenador, los modelos básicos pueden utilizarse para diversas tareas, como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes. Modelos como el Segment Anything Model (SAM ) de Meta AI, que puede realizar la segmentación de imágenes a partir de indicaciones, demuestran el poder de los modelos básicos para comprender y manipular datos visuales. Del mismo modo, los modelos de difusión son modelos básicos capaces de generar imágenes de alta calidad a partir de mensajes de texto, lo que abre nuevas posibilidades en las industrias creativas y más allá.

Además, se están explorando modelos de base en áreas como la automatización de procesos robóticos (RPA) para automatizar flujos de trabajo complejos, el análisis de imágenes médicas para mejorar la precisión de los diagnósticos, e incluso en la investigación científica para tareas como el descubrimiento de fármacos y la ciencia de materiales.

Modelos de cimentación frente a modelos tradicionales

La distinción clave entre los modelos de base y los modelos tradicionales de aprendizaje automático radica en su alcance y reutilización. Los modelos tradicionales suelen entrenarse para una tarea y un conjunto de datos concretos, lo que limita su aplicabilidad a otros problemas. En cambio, los modelos básicos están diseñados para ser ampliamente aplicables y adaptables. Este cambio de paradigma ofrece varias ventajas:

  • Menor tiempo y coste de desarrollo: Al aprovechar los modelos básicos preentrenados, los desarrolladores pueden reducir significativamente el tiempo y los recursos necesarios para crear aplicaciones de IA. Afinar un modelo básico suele ser más rápido y barato que entrenar un modelo desde cero.
  • Rendimiento mejorado con datos limitados: Los modelos de base suelen mostrar un gran rendimiento incluso cuando se ajustan con pequeños conjuntos de datos, lo que los hace muy valiosos en situaciones en las que los datos son escasos.
  • Capacidades emergentes: Debido a su escala y entrenamiento, los modelos fundacionales pueden mostrar capacidades emergentes, lo que significa que pueden realizar tareas para las que no fueron entrenados explícitamente, sorprendiendo a los investigadores y ampliando el alcance de las aplicaciones de la IA.

Sin embargo, también es importante reconocer los retos asociados a los modelos de base. Entre ellos se incluyen sus demandas computacionales para el entrenamiento y el despliegue, los posibles sesgos aprendidos de los vastos conjuntos de datos y las consideraciones éticas en torno a sus amplias capacidades y su posible uso indebido. A medida que evoluciona el campo, la investigación en curso se centra en abordar estos retos y liberar aún más el potencial de los modelos de fundamentos para democratizar la IA e impulsar la innovación en diversos ámbitos. Plataformas como Ultralytics HUB están diseñadas para hacer más accesibles estos modelos avanzados, permitiendo a los usuarios aprovechar el poder de la IA en sus proyectos y flujos de trabajo.

Leer todo