Glosario

GPT-3

Descubre las revolucionarias capacidades de PNL de GPT-3: generación de texto, chatbots de IA, asistencia de código y mucho más. ¡Explora ahora sus aplicaciones en el mundo real!

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

GPT-3, siglas de Generative Pre-trained Transformer 3 (Transformador Generativo Preentrenado 3), es un Modelo de Lenguaje Grande (LLM ) muy influyente desarrollado por OpenAI. Lanzado en 2020, supuso un avance significativo en las capacidades de Procesamiento del Lenguaje Natural (PLN ). El GPT-3 está diseñado para comprender y generar texto similar al humano basándose en la entrada que recibe, lo que lo hace versátil para una amplia gama de tareas basadas en el lenguaje dentro del campo de la Inteligencia Artificial (IA).

Arquitectura y Formación

GPT-3 utiliza la arquitectura Transformer, concretamente la parte del descodificador, que se basa en gran medida en mecanismos de autoatención para ponderar la importancia de las distintas palabras (representadas como tokens) en la secuencia de entrada. Su naturaleza "preentrenada" significa que se entrenó en un conjunto de datos masivo compuesto por texto de Internet y libros digitalizados antes de su lanzamiento. Este amplio entrenamiento en datos diversos permite al modelo aprender gramática, hechos, capacidades de razonamiento y diferentes estilos de escritura. La versión más grande del GPT-3 tiene 175.000 millones de parámetros, que son las variables que el modelo aprende durante el entrenamiento. Esta escala no tenía precedentes en el momento de su lanzamiento y contribuyó significativamente a su rendimiento, como se documenta en el documento de investigación original de GPT-3.

Capacidades y aplicaciones

GPT-3 destaca en la generación de texto coherente y contextualmente relevante. Sus capacidades se extienden a varias tareas de PNL, que a menudo requieren un mínimo de ejemplos específicos de la tarea, un concepto conocido como aprendizaje de pocos disparos o incluso aprendizaje de cero disparos. Las aplicaciones clave son:

  • Generación de textos: Creación de artículos, historias, correos electrónicos y otros contenidos escritos.
  • Traducción automática: Traducir texto entre distintas lenguas.
  • Resumir textos: Condensar documentos largos en resúmenes más breves.
  • Respuesta a preguntas: Proporcionar respuestas a preguntas basándose en el contexto de entrada o en sus conocimientos aprendidos.
  • Generación de código: Ayudar a los desarrolladores escribiendo fragmentos de código en varios lenguajes de programación.
  • Chatbots y asistentes virtuales: Potenciación de agentes conversacionales capaces de entablar un diálogo.

Dos ejemplos concretos de la aplicación de GPT-3 incluyen la alimentación de las primeras versiones de IA conversacional como ChatGPT para entablar diálogos atractivos y habilitar herramientas de asistencia al código como GitHub Copilot, que sugiere a los desarrolladores cómo completar el código.

La GPT-3 en su contexto

El GPT-3 forma parte de la serie de Transformadores Preentrenados Generativos (GPT) y sirvió de precursor a modelos como el GPT-4, que generalmente ofrecen capacidades mejoradas y características de aprendizaje potencialmente multimodales. Mientras que los modelos GPT son principalmente generativos, otros LLM como el BERT suelen estar optimizados para tareas que requieren una comprensión bidireccional profunda del lenguaje, como la clasificación o el reconocimiento de entidades.

También es importante distinguir los LLM como el GPT-3, que procesan texto, de los modelos centrados en la Visión por Computador (CV). Los modelos CV, como el Ultralytics YOLO (por ejemplo YOLOv8 o YOLO11), analizan datos visuales como imágenes y vídeos para realizar tareas como la detección de objetos, la clasificación de imágenes o la segmentación de instancias. Aunque son distintas, la PNL y la CV pueden combinarse en sistemas complejos de IA, gestionados y desplegados a través de plataformas como Ultralytics HUB. El GPT-3 sigue siendo un modelo básico de referencia en la evolución del aprendizaje automático.

Leer todo