Glosario

Modelo de Lenguaje Grande (LLM)

Descubre cómo los Grandes Modelos de Lenguaje (LLM) revolucionan la IA con PNL avanzada, potenciando los chatbots, la creación de contenidos y mucho más. ¡Aprende los conceptos clave!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Grandes Modelos Lingüísticos (LLM) representan un avance significativo en el campo de la Inteligencia Artificial (IA), sobre todo dentro del Procesamiento del Lenguaje Natural (PLN). Estos modelos se caracterizan por su inmensa escala, que a menudo contiene miles de millones de parámetros, y se entrenan en vastos conjuntos de datos que comprenden texto y código. Este amplio entrenamiento permite a los LLM comprender el contexto, generar textos coherentes y similares a los humanos, traducir idiomas, responder preguntas y realizar una amplia gama de tareas basadas en el lenguaje con notable destreza. Son un tipo específico de modelo de Aprendizaje Profundo (AD ), que impulsa la innovación en numerosas aplicaciones.

Definición

Un Modelo de Lenguaje Grande es fundamentalmente una sofisticada red neuronal (NN), basada normalmente en la arquitectura Transformer. El "grande" en LLM se refiere al enorme número de parámetros -variables que se ajustan durante el entrenamiento-, que puede oscilar entre miles de millones y billones. Un mayor número de parámetros suele permitir al modelo aprender patrones más complejos a partir de los datos. Los LLM aprenden estos patrones mediante el aprendizaje no supervisado de corpus de texto masivos recopilados de Internet, libros y otras fuentes. Este proceso les ayuda a captar la gramática, los hechos, las capacidades de razonamiento e incluso los sesgos presentes en los datos. Entre sus capacidades básicas se incluye la predicción de las palabras siguientes de una frase, que constituye la base de tareas como la generación de textos y la respuesta a preguntas. Algunos ejemplos conocidos son la serie GPT de OpenAI, como GPT-4, los modelos Llama de Meta AI, como Llama 3, Gemini de Google DeepMind y Claude de Anthropic.

Aplicaciones

La versatilidad de los LLM permite su aplicación en diversos ámbitos. He aquí dos ejemplos concretos:

  • IA conversacional: Los LLM impulsan sofisticados chatbots y asistentes virtuales como ChatGPT y Google Assistant, que permiten interacciones más naturales y conscientes del contexto en comparación con los antiguos sistemas basados en reglas. Pueden gestionar consultas de atención al cliente, proporcionar información y entablar diálogos complejos.
  • Creación y resumen de contenidos: Las empresas y los particulares utilizan los LLM para generar textos de marketing, escribir artículos, crear fragmentos de código y resumir documentos extensos(Resumir texto). Herramientas como Microsoft Copilot integran LLM para ayudar a los usuarios en diversas tareas de escritura y codificación.

Conceptos clave

Comprender los LLM implica familiarizarse con varios conceptos relacionados:

  • Modelos de fundación: Los LLM se consideran un tipo de modelo base, lo que significa que son grandes modelos entrenados con datos amplios que pueden adaptarse(afinarse) para diversas tareas posteriores.
  • Mecanismos de atención: Crucial para la arquitectura del Transformador, la atención permite al modelo sopesar la importancia de las distintas palabras de la secuencia de entrada al generar la salida, lo que permite manejar mejor las dependencias de largo alcance y el contexto. El artículo seminal que introduce esto es"Attention Is All You Need".
  • Prompt Ingeniería: Es la práctica de diseñar entradas eficaces (prompts) para guiar al LLM hacia la generación del resultado deseado. La calidad de la instrucción influye significativamente en la respuesta del modelo.
  • Tokenización: Los LLM procesan el texto dividiéndolo en unidades más pequeñas llamadas tokens (palabras, subpalabras o caracteres). La forma de tokenizar el texto afecta al rendimiento del modelo y al coste computacional.

Aunque los LLM destacan en tareas lingüísticas, difieren de los modelos diseñados principalmente para la Visión por Computador (VC), como los modelosYOLO Ultralytics utilizados para la detección de objetos. Sin embargo, el auge de los Modelos Multimodales y los Modelos de Lenguaje de Visión está salvando esta distancia, combinando la comprensión del lenguaje con el procesamiento visual. Plataformas como Ultralytics HUB facilitan el entrenamiento y despliegue de diversos modelos de IA, incluidos los destinados a tareas de visión.

Leer todo