Glosario

GPT (Transformador Generativo Preentrenado)

Descubre el poder de los modelos GPT: IA avanzada basada en transformadores para la generación de texto, tareas de PNL, chatbots, codificación y mucho más. ¡Aprende ahora las características clave!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos de Transformador Preentrenado Generativo (GPT) suponen un gran salto en el Procesamiento del Lenguaje Natural (PLN), un subcampo de la Inteligencia Artificial (IA) centrado en capacitar a las máquinas para comprender y generar lenguaje humano. Desarrollados principalmente por OpenAI, los GPT son una clase de Grandes Modelos Lingüísticos (LLM ) basados en la arquitectura Transformer. Inicialmente se "preentrenan" en conjuntos de datos masivos de texto y código, aprendiendo gramática, hechos, capacidades de razonamiento y estructuras lingüísticas. Posteriormente, pueden"afinarse" en conjuntos de datos más pequeños y específicos para sobresalir en tareas concretas.

¿Qué es un Transformador Preentrenado Generativo (GPT)?

Un modelo GPT utiliza una arquitectura de red neuronal llamada Transformador, que es especialmente eficaz para procesar datos secuenciales como el texto. Desglosemos el nombre:

  • Generativo: Destaca la principal capacidad del modelo: generar texto nuevo y coherente que imite el estilo y el contenido de los datos con los que se entrenó. A diferencia de los modelos centrados únicamente en el análisis o la clasificación, los GPT crean contenido original.
  • Preentrenado: Se refiere a la fase inicial de entrenamiento, que consume muchos recursos, en la que el modelo aprende la comprensión general del lenguaje a partir de grandes cantidades de datos de texto. Este conocimiento básico hace que el modelo pueda adaptarse posteriormente a diversas tareas específicas.
  • Transformador: Es la arquitectura de red neuronal (NN ) subyacente. Los Transformadores utilizan un mecanismo de atención, que les permite sopesar la importancia de las distintas palabras en la secuencia de entrada, captando eficazmente el contexto y las dependencias de largo alcance en el texto, una mejora significativa respecto a arquitecturas más antiguas como las Redes Neuronales Recurrentes (RNN).

Tras el preentrenamiento, los modelos GPT pueden someterse a un ajuste fino para aplicaciones especializadas como la respuesta a preguntas, el resumen de textos o incluso la generación de código de software.

Características principales de los modelos GPT

Los modelos GPT poseen varias características que contribuyen a su potencia y versatilidad:

  • Escalabilidad: Los modelos GPT vienen en varios tamaños, desde versiones más pequeñas adecuadas para entornos con recursos limitados hasta modelos extremadamente grandes como GPT-3 y GPT-4 que ofrecen un rendimiento de vanguardia. El tamaño del modelo suele estar correlacionado con la capacidad.
  • Versatilidad: Gracias al paradigma de preentrenamiento/ajuste fino, un único GPT preentrenado puede adaptarse a una amplia gama de tareas de PNL sin necesidad de entrenar un nuevo modelo desde cero para cada una de ellas.
  • Aprendizaje de Pocos Ejemplos y Cero Ejemplos: Los modelos GPT más grandes suelen mostrar una impresionante capacidad de aprendizaje de pocos disparos y de cero disparos, lo que significa que pueden realizar tareas para las que no se han ajustado explícitamente, a veces con sólo unos pocos ejemplos o con ninguno en absoluto.
  • Comprensión contextual: La arquitectura del Transformador permite a los GPT mantener y utilizar el contexto en largos pasajes de texto, lo que da lugar a resultados más coherentes y relevantes.

Aplicaciones reales de la GPT

La tecnología GPT impulsa numerosas aplicaciones en diversos ámbitos:

  1. Creación de contenidos: Los modelos GPT se utilizan para la generación de texto, ayudando en la redacción de artículos, textos de marketing, correos electrónicos, escritura creativa y generación de código. Herramientas como GitHub Copilot aprovechan modelos similares a GPT para la asistencia en la codificación.
  2. IA conversacional: Constituyen la columna vertebral de los chatbots y asistentes virtuales avanzados, como ChatGPTcapaces de entablar diálogos complejos, responder preguntas y realizar tareas basadas en instrucciones de lenguaje natural.
  3. Resumir y analizar: Las GPT pueden resumir rápidamente documentos o artículos extensos(resumen de texto) y realizar análisis de sentimiento para calibrar las opiniones expresadas en el texto.

GPT frente a conceptos similares

Es útil diferenciar la GPT de los términos relacionados:

  • GPT vs. AGI: Los modelos GPT son una forma de Inteligencia Artificial Estrecha (IAN), diseñada para tareas específicas relacionadas con el lenguaje. No son Inteligencia Artificial General (IAG), que se refiere a una IA hipotética con capacidades cognitivas similares a las humanas en diversos ámbitos.
  • GPT vs. Ultralytics YOLO: Los modelos GPT están especializados en procesar y generar texto. En cambio, los modelosYOLO de Ultralytics , como YOLOv8son modelos de vanguardia centrados en tareas de visión por ordenador (VC ), como la detección de objetos, la segmentación de imágenes y la estimación de la pose en imágenes y vídeos. Aunque ambos pueden utilizar componentes Transformer (especialmente los modelos CV más recientes), sus dominios primarios (lenguaje frente a visión) y sus resultados (texto frente a cuadros/máscaras delimitadores) son fundamentalmente diferentes. Puedes entrenar y desplegar los modelosYOLO Ultralytics Ultralytics utilizando plataformas como Ultralytics HUB.
Leer todo