Glosario

Modelo de Lenguaje Grande (LLM)

Descubre cómo los Grandes Modelos de Lenguaje (LLM) revolucionan la IA con PNL avanzada, potenciando los chatbots, la creación de contenidos y mucho más. ¡Aprende los conceptos clave!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Grandes Modelos Lingüísticos (LLM) representan un avance significativo en el campo de la Inteligencia Artificial (IA), sobre todo dentro del Procesamiento del Lenguaje Natural (PLN). Estos modelos se caracterizan por su inmensa escala, que a menudo contiene miles de millones de parámetros, y se entrenan en vastos conjuntos de datos que comprenden texto y código. Este amplio entrenamiento permite a los LLM comprender el contexto, generar textos coherentes y similares a los humanos, traducir idiomas, responder preguntas y realizar una amplia gama de tareas basadas en el lenguaje con notable destreza. Son un tipo específico de modelo de Aprendizaje Profundo (AD ), que impulsa la innovación en numerosas aplicaciones y constituye una piedra angular de la IA Generativa moderna.

Definición

Un Gran Modelo Lingüístico es fundamentalmente una sofisticada red neuronal (NN), basada normalmente en la arquitectura Transformer, introducida en el influyente artículo"Attention Is All You Need"(La atención es todo lo que necesitas). El "grande" en LLM se refiere al enorme número de parámetros -variablesajustadas durante el entrenamiento-, que puede oscilar entre miles de millones e incluso billones. Generalmente, un mayor número de parámetros permite al modelo aprender patrones más complejos de los datos.

Los LLM aprenden estos patrones mediante el aprendizaje no supervisado de corpus de texto masivos recopilados de Internet, libros y otras fuentes, a menudo denominados Big Data. Este proceso les ayuda a captar la gramática, los hechos, la capacidad de razonamiento e incluso matices como el tono y el estilo, aunque también puede llevarles a aprender sesgos presentes en los datos de entrenamiento. Una capacidad fundamental desarrollada durante el entrenamiento es la predicción de las palabras siguientes de una frase. Esta capacidad de predicción constituye la base de tareas más complejas como la generación de textos, el modelado del lenguaje y la respuesta a preguntas.

Algunos ejemplos conocidos son la serie GPT de OpenAI (como GPT-4), los modelos Llama de Meta AI, como Llama 3, Gemini de Google DeepMind y Claude de Anthropic.

Aplicaciones

La versatilidad de los LLM permite su aplicación en diversos ámbitos. He aquí dos ejemplos concretos:

  • IA conversacional: Los LLM son los motores de muchos chatbots y asistentes virtuales avanzados. Permiten que estos sistemas comprendan las consultas de los usuarios, mantengan el contexto de las conversaciones y generen respuestas naturales. Un ejemplo excelente es el ChatGPT de OpenAI, que utiliza LLM para entablar diálogos detallados, responder a preguntas de seguimiento e incluso admitir errores.
  • Creación y resumen de contenidos: Los LLM pueden ayudar a los humanos a generar diversas formas de contenido escrito, como artículos, correos electrónicos, textos de marketing y escritura creativa. También son expertos en Resumir Textos, condensando documentos largos en resúmenes concisos, lo que ayuda a combatir la sobrecarga de información. Herramientas como Jasper y Microsoft Copilot aprovechan los LLM para estos fines.

Conceptos clave

Comprender los LLM implica familiarizarse con varios conceptos relacionados:

  • Modelos de fundación: Los LLM suelen considerarse modelos básicos porque se entrenan con datos amplios y pueden adaptarse (o afinarse) para una amplia gama de tareas posteriores sin necesidad de entrenarlos desde cero.
  • Mecanismos de atención: Especialmente la autoatención, estos mecanismos permiten al modelo sopesar la importancia de las distintas palabras (tokens) de la secuencia de entrada al procesar una palabra concreta. Esto es crucial para comprender el contexto y las relaciones dentro del texto.
  • Prompt Ingeniería: Se refiere al arte y la ciencia de diseñar instrucciones de entrada eficaces para guiar a un LLM hacia la generación del resultado deseado. La calidad del estímulo influye significativamente en la precisión y relevancia de la respuesta. Las técnicas como el estímulo de cadena de pensamiento ayudan a mejorar el razonamiento en tareas complejas.
  • Tokenización: Antes de procesar el texto, los LLM lo descomponen en unidades más pequeñas llamadas tokens. Estos tokens pueden ser palabras, subpalabras o caracteres. La tokenización convierte el texto en bruto en un formato numérico que el modelo pueda entender. Plataformas como Hugging Face proporcionan herramientas e información sobre diferentes estrategias de tokenización.

LLMs vs. Modelos de Visión Artificial

Aunque los LLM destacan en las tareas lingüísticas, difieren significativamente de los modelos diseñados principalmente para la Visión por Computador (CV). Los modelos CV, como Ultralytics YOLO de Ultralytics (por ejemplo YOLOv8, YOLOv9, YOLOv10 y YOLO11), están especializados en interpretar la información visual de imágenes o vídeos. Sus tareas incluyen la detección de objetos, la clasificación de imágenes y la segmentación de instancias.

Sin embargo, la frontera se está difuminando con el auge de los Modelos Multimodales y los Modelos de Lenguaje Visual (VLM). Estos modelos, como el GPT-4o de OpenAI o el Gemini de Google, integran la comprensión a través de diferentes modalidades (por ejemplo, texto e imágenes), permitiendo tareas como describir imágenes o responder a preguntas sobre contenido visual.

Plataformas como Ultralytics HUB proporcionan herramientas e infraestructura para entrenar y desplegar diversos modelos de IA, incluidos los destinados a tareas de visión, facilitando el desarrollo de diversas aplicaciones de IA. A medida que los LLM y otros modelos de IA se hacen más potentes, las consideraciones en torno a la Ética de la IA, el sesgo algorítmico y la privacidad de los datos cobran cada vez más importancia. Para más información sobre conceptos de IA y comparaciones de modelos, explora las páginas de documentación y comparación de modelos Ultralytics .

Leer todo