Explora los fundamentos de los modelos de lenguaje grandes (LLM). Aprende sobre la arquitectura Transformer, la tokenización y cómo combinar los LLM con Ultralytics .
Un modelo de lenguaje grande (LLM) es un tipo sofisticado de inteligencia artificial (IA) entrenado con conjuntos de datos masivos para comprender, generar y manipular el lenguaje humano. Estos modelos representan una importante evolución en el aprendizaje profundo (DL), ya que utilizan redes neuronales con miles de millones de parámetros para captar patrones lingüísticos complejos, gramática y relaciones semánticas. En su esencia, la mayoría de los LLM modernos se basan en la arquitectura Transformer, que les permite procesar secuencias de datos en paralelo en lugar de secuencialmente. Esta arquitectura emplea un mecanismo de autoatención, lo que permite al modelo ponderar la importancia de las diferentes palabras de una frase en relación entre sí, independientemente de su distancia en el texto.
La funcionalidad de un LLM comienza con la tokenización, un proceso en el que el texto sin procesar se divide en unidades más pequeñas llamadas tokens (palabras o subpalabras). Durante la fase de entrenamiento del modelo, el sistema analiza petabytes de texto de Internet, libros y artículos. Se dedica al aprendizaje no supervisado para predecir el siguiente token de una secuencia, aprendiendo de forma eficaz la estructura estadística del lenguaje.
Tras esta formación inicial, los desarrolladores suelen aplicar ajustes para especializar el modelo en tareas concretas, como el análisis médico o la asistencia en la codificación. Esta adaptabilidad es la razón por la que organizaciones como el Centro de Investigación de Modelos Fundamentales de Stanford classify como «modelos fundamentales», bases amplias sobre las que se construyen aplicaciones específicas.
Los LLM han pasado de la investigación teórica a aplicaciones prácticas de gran impacto en diversos sectores:
Mientras que los LLM estándar procesan texto, la industria está cambiando hacia la IA multimodal. El siguiente ejemplo muestra cómo las indicaciones lingüísticas pueden controlar las tareas de visión por ordenador utilizando YOLO, un modelo que entiende los descriptores de texto para la detección de vocabulario abierto.
from ultralytics import YOLOWorld
# Load a model capable of understanding natural language prompts
model = YOLOWorld("yolov8s-world.pt")
# Define custom classes using text descriptions rather than fixed labels
model.set_classes(["person wearing a red helmet", "blue industrial machine"])
# Run inference to detect these specific text-defined objects
results = model.predict("https://ultralytics.com/images/bus.jpg")
# Show results
results[0].show()
Es importante diferenciar los LLM de términos más amplios o paralelos:
A pesar de sus capacidades, los LLM se enfrentan a retos relacionados con el sesgo en la IA, ya que pueden reproducir inadvertidamente los prejuicios que se encuentran en sus datos de entrenamiento. Además, la enorme potencia computacional necesaria para entrenar modelos como GPT-4 o Google suscita preocupaciones sobre el consumo de energía. La investigación se centra actualmente en la cuantificación de modelos para que estos sistemas sean lo suficientemente eficientes como para funcionar en hardware periférico.
Para obtener información técnica más detallada, el artículo original Attention Is All You Need proporciona la teoría fundamental de Transformers. También puede explorar cómo NVIDIA está optimizando el hardware para estas enormes cargas de trabajo.