Glosario

IA Generativa

Descubre cómo la IA generativa crea contenido original como texto, imágenes y audio, transformando industrias con aplicaciones innovadoras.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

La Inteligencia Artificial Generativa (IA) representa una rama importante dentro del campo más amplio de la inteligencia artificial (IA), centrándose específicamente en la creación de sistemas capaces de generar contenidos totalmente nuevos y originales. Este contenido puede abarcar varias modalidades, como texto, imágenes, audio, código e incluso datos sintéticos. A diferencia de los modelos discriminatorios de IA, que se entrenan para clasificar o hacer predicciones basándose en los datos de entrada (como la identificación de objetos en una imagen mediante la detección de objetos), los modelos generativos aprenden los patrones, estructuras y distribuciones de probabilidad subyacentes en un conjunto de datos de entrenamiento. A continuación, utilizan este conocimiento aprendido para producir resultados novedosos que imitan las características de los datos originales. Los avances recientes, impulsados especialmente por arquitecturas como los Transformadores Generativos Preentrenados (GPT) y los modelos de difusión, han permitido crear contenidos notablemente realistas e intrincados, ampliando los límites de la creatividad de las máquinas.

Cómo funciona la IA Generativa

La idea central de la mayoría de los modelos generativos es aprender una representación de la distribución de los datos. Una vez aprendida esta distribución, el modelo puede tomar muestras de ella para generar nuevos puntos de datos que sean estadísticamente similares a los datos con los que se entrenó. Esto implica complejas arquitecturas de redes neuronales (NN ) y sofisticadas técnicas de entrenamiento. Algunas arquitecturas destacadas son:

IA Generativa vs. Visión por Computador

Aunque ambos son subcampos de la IA, la IA Generativa y la Visión por Computador (VC) tienen objetivos fundamentalmente distintos. La VC se centra en capacitar a las máquinas para interpretar y comprender la información visual del mundo, realizando tareas como la clasificación de imágenes, la detección de objetos y la segmentación de instancias. La IA Generativa, por el contrario, se centra en crear nuevos contenidos visuales (o de otro tipo).

Entre las diferencias clave destacadas en debates como los de YOLO Vision 2024 se incluyen:

  1. Tamaño del modelo: Los modelos generativos, especialmente los LLM y los grandes modelos de imagen, suelen contener miles de millones o incluso billones de parámetros. Los modelos CV diseñados para el análisis en tiempo real, como Ultralytics YOLO11suelen ser mucho más pequeños y eficientes, y algunas variantes sólo tienen unos pocos millones de parámetros(comparando los modelos YOLO ).
  2. Recursos computacionales: Entrenar y ejecutar grandes modelos generativos requiere una potencia computacional sustancial, que a menudo implica clusters distribuidos de GPU. Muchos modelos de CV, incluidos los de Ultralytics, están optimizados para ser eficientes y pueden desplegarse en hardware estándar o en dispositivos edge especializados utilizando marcos como ONNX o TensorRT.
  3. Objetivo: la CV analiza los datos existentes; la IA Generativa sintetiza los nuevos datos.

A pesar de estas diferencias, los campos están cada vez más interconectados. La IA Generativa está demostrando ser valiosa para la CV al generar datos sintéticos de alta calidad. Estos datos sintéticos pueden aumentar los conjuntos de datos del mundo real, ayudando a entrenar modelos de CV más robustos y precisos, especialmente para escenarios en los que los datos reales son escasos o difíciles de obtener, como en las simulaciones de conducción autónoma o la obtención de imágenes de afecciones médicas raras(IA en la asistencia sanitaria).

Aplicaciones en el mundo real

La IA generativa está transformando numerosas industrias:

  • Creación de contenidos: Automatización de la generación de artículos, textos de marketing, guiones(GPT-3), creación de imágenes e ilustraciones únicas(Midjourney, DALL-E 3), composición de música y generación de contenidos de vídeo(OpenAI Sora).
  • Generación de Datos Sintéticos: Creación de conjuntos de datos realistas para entrenar modelos de ML en áreas como la robótica, las finanzas(modelos de visión por ordenador en finanzas) y la sanidad, mejorando el rendimiento de los modelos y abordando los problemas de privacidad de los datos. Por ejemplo, generar imágenes médicas sintéticas para entrenar herramientas de diagnóstico sin utilizar datos reales de pacientes.
  • Descubrimiento de fármacos y ciencia de los materiales: Diseño de estructuras moleculares novedosas y predicción de sus propiedades, acelerando la investigación y el desarrollo, como demuestran organizaciones como Google DeepMind.
  • Personalización: Potenciando experiencias de usuario altamente personalizadas mediante la generación dinámica de contenidos en chatbots, asistentes virtuales y motores de recomendación.
  • Desarrollo de software: Ayudar a los desarrolladores generando fragmentos de código, sugiriendo correcciones de errores e incluso creando funciones enteras basadas en descripciones en lenguaje natural(GitHub Copilot).

Retos y consideraciones éticas

El rápido avance de la IA Generativa también conlleva retos. Garantizar el uso ético de estas potentes herramientas es primordial, sobre todo en lo que respecta a las falsificaciones profundas, la desinformación, los derechos de propiedad intelectual y los sesgos inherentes aprendidos de los datos de entrenamiento. Abordar estos problemas requiere un desarrollo cuidadoso del modelo, métodos de detección sólidos y directrices claras esbozadas en los principios de la ética de la IA. Además, los importantes recursos informáticos necesarios plantean problemas medioambientales y de accesibilidad. Plataformas como Ultralytics HUB pretenden agilizar los flujos de trabajo y reducir potencialmente las barreras de entrada para determinadas tareas de IA.

Leer todo