2024 comienza con una ola de IA generativa

Abirami Vina

6 min leer

12 de abril de 2024

Un vistazo a las emocionantes innovaciones en IA del primer trimestre de 2024. Trataremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los últimos LLM.

La comunidad de la IA parece aparecer en los titulares casi a diario. Los primeros meses de 2024 han sido apasionantes y han estado repletos de innovaciones en el campo de la IA. Desde nuevos y potentes modelos lingüísticos de gran tamaño hasta implantes de cerebros humanos, 2024 se perfila como un año asombroso.

Estamos viendo cómo la IA transforma industrias, hace más accesible la información e incluso da los primeros pasos hacia la fusión de nuestras mentes con las máquinas. Rebobinemos hasta el primer trimestre de 2024 y veamos de cerca los avances de la IA en tan solo unos meses.

Los LLM están de moda

Los grandes modelos lingüísticos (LLM), diseñados para comprender, generar y manipular el lenguaje humano a partir de grandes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas grandes empresas tecnológicas lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de LLM anteriores como GPT-3 inspiró esta tendencia. Estos son algunos de los lanzamientos de LLM más destacados de principios de 2024.

Claude 3 de Anthropic

Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 se presenta en tres versiones: Opus, Sonnet y Haiku, cada una de las cuales sirve a diferentes mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas rápidas y básicas. Sonnet equilibra velocidad e inteligencia y está orientado a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento incomparables y es ideal para tareas complejas y para alcanzar los mejores resultados.

Claude 3 cuenta con numerosas funciones avanzadas y mejoras:

  • Conversaciones multilingües mejoradas: Habilidades mejoradas en idiomas como el español, el japonés y el francés.
  • Funciones de visión avanzadas: Capaz de manejar varios formatos visuales.
  • Rechazos minimizados: Muestra una mayor comprensión con menos negativas innecesarias, lo que indica una mejor comprensión contextual.
  • Ventana de contexto ampliada: Ofrece una ventana de contexto de 200K, pero es capaz de procesar entradas de más de 1 millón de tokens en función de las necesidades del cliente.
__wf_reserved_inherit
Fig. 1. Claude 3 es más consciente del contexto que las versiones anteriores.

DBRX de Databricks

Databricks DBRX es un LLM abierto de propósito general lanzado por Databricks el 27 de marzo de 2024. DBRX obtiene muy buenos resultados en varias pruebas comparativas, como comprensión del lenguaje, programación y matemáticas. Supera a otros modelos establecidos siendo aproximadamente un 40% más pequeño que modelos similares.

__wf_reserved_inherit
Fig. 2. Comparación de DBRX con otros modelos.

DBRX se entrenó utilizando la predicción de la siguiente palabra con una arquitectura de mezcla de expertos (MoE) de grano fino, y por eso podemos ver mejoras significativas en el rendimiento del entrenamiento y la inferencia. Su arquitectura permite al modelo predecir con mayor precisión la siguiente palabra de una secuencia consultando a un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos manejando distintos tipos de información o tareas.

Gemini 1.5 de Google

El 15 de febrero de 2024, Google presentó Gemini 1.5, un modelo de IA multimodal y eficiente desde el punto de vista computacional que puede analizar gran cantidad de datos de texto, vídeo y audio. El último modelo es más avanzado en términos de rendimiento, eficiencia y capacidades. Una característica clave de Gemini 1.5 es su gran avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta un millón de tokens de forma consistente. Las capacidades de Gemini 1.5 también se deben a una nueva arquitectura basada en MoE.

__wf_reserved_inherit
Fig. 3. Comparación de las longitudes de contexto de los LLM más populares

Estas son algunas de las características más interesantes de Gemini 1.5:

  • Manejo de datos mejorado: Permite la carga directa de PDF de gran tamaño, repositorios de código o vídeos de larga duración como avisos. El modelo puede razonar a través de modalidades y texto de salida.
  • Carga de múltiples archivos y consultas: Ahora los desarrolladores pueden cargar varios archivos y hacer preguntas.
  • Puede utilizarse para diferentes tareas: Está optimizado para adaptarse a diversas tareas y muestra mejoras en áreas como matemáticas, ciencias, razonamiento, multilingüismo, comprensión de vídeo y código.

Impresionantes efectos visuales de la IA

El primer trimestre de 2024 ha desvelado modelos generativos de IA capaces de crear imágenes tan reales que han suscitado debates sobre el futuro de las redes sociales y el progreso de la IA. Analicemos los modelos que están dando que hablar.

Sora de OpenAI 

OpenAI, creador de ChatGPT, anunció el 15 de febrero de 2024 un modelo de aprendizaje profundo de texto a vídeo de última generación llamado Sora. Sora es un generador de texto a vídeo capaz de generar vídeos de un minuto de duración con gran calidad visual a partir de indicaciones textuales del usuario. 

Por ejemplo, eche un vistazo a la siguiente pregunta. 

"Un precioso mundo de papel de un arrecife de coral, plagado de coloridos peces y criaturas marinas". 

Y aquí tienes un fotograma del vídeo de salida. 

__wf_reserved_inherit
Fig. 4. Fotograma de un vídeo generado por Sora.

La arquitectura de Sora lo hace posible combinando modelos de difusión para la generación de texturas y modelos de transformación para la coherencia estructural. De momento, solo han tenido acceso a Sora los miembros del equipo rojo y un grupo selecto de artistas visuales, diseñadores y cineastas para conocer los riesgos y obtener su opinión. 

Estabilidad Difusión estable de AI 3 

Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo mezcla la arquitectura de transformadores de difusión y el ajuste de flujos. Aún no han publicado un documento técnico, pero hay algunas características clave a tener en cuenta.

__wf_reserved_inherit
Fig. 5. Imagen de salida basada en la pregunta: "Ilustración épica de anime de un mago en lo alto de una montaña por la noche lanzando un hechizo cósmico en el cielo oscuro que dice "Difusión estable 3" hecha de energía colorida".

El último modelo de Stable Diffusion ofrece un mayor rendimiento, calidad de imagen y precisión en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van de 800 millones a 8.000 millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.

Lumiere de Google 

El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Esta arquitectura ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. De este modo, puede generar vídeos fluidos y realistas.

__wf_reserved_inherit
Fig. 6. Fotograma de un vídeo generado a partir de la pregunta: "Panda toca el ukelele en casa".

Con la capacidad de generar 80 fotogramas por vídeo, Lumiere está superando los límites y estableciendo nuevos estándares de calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:

  • De imagen a vídeo: A partir de una imagen y una indicación, Lumiere puede animar imágenes para convertirlas en vídeos.
  • Generación estilizada: Lumiere puede crear vídeos con estilos específicos utilizando una sola imagen de referencia.
  • Cinemagraphs: Lumiere puede animar regiones específicas dentro de una imagen para crear escenas dinámicas, como un objeto concreto que se mueve mientras el resto de la escena permanece estática.
  • Video Inpainting: Puede modificar partes de un vídeo, como cambiar el atuendo de las personas que aparecen en él o alterar detalles del fondo.

El futuro parece estar aquí

El comienzo de 2024 también ha traído consigo muchas innovaciones en IA que parecen sacadas de una película de ciencia ficción. Se está trabajando en cosas que antes habríamos considerado imposibles. El futuro no parece tan lejano con los siguientes descubrimientos.

Suelo HoloTile de Disney 

El 18 de enero de 2024, Walt Disney Imagineering presentó el HoloTile Floor. Ha sido bautizado como el primer suelo multipersona omnidireccional del mundo. 

__wf_reserved_inherit
Figura 8. El Imagineer de Disney Lanny Smoot posa en su última innovación, el suelo HoloTile.

Puede moverse por debajo de cualquier persona u objeto como si fuera telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Se puede caminar en cualquier dirección y evitar colisiones mientras se está sobre él. El HoloTile Floor de Disney también puede colocarse en escenarios teatrales para bailar y moverse de forma creativa.

Visión Pro de Apple

El 2 de febrero de 2024 salieron al mercado los esperados auriculares Vision Pro de Apple. Cuenta con una serie de funciones y aplicaciones diseñadas para redefinir la experiencia de la realidad virtual y aumentada. Los auriculares Vision Pro se dirigen a un público muy diverso y combinan entretenimiento, productividad y computación espacial. Apple anunció con orgullo que más de 600 aplicaciones, desde herramientas de productividad hasta juegos y servicios de entretenimiento, se optimizaron para Vision Pro en su lanzamiento.

Devin de Cognition

El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de crear un ingeniero de software autónomo. A diferencia de los asistentes de codificación tradicionales, que ofrecen sugerencias o completan tareas específicas, Devin está diseñado para gestionar proyectos completos de desarrollo de software, desde el concepto inicial hasta su finalización. 

Puede aprender nuevas tecnologías, crear y desplegar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a bases de código de código abierto y de producción, e incluso aceptar trabajos de desarrollo reales de sitios como Upwork. 

__wf_reserved_inherit
Fig. 9. Comparación de Devin con otros modelos.

Devin fue evaluado en SWE-bench, una exigente prueba que pide a los agentes que resuelvan problemas reales de GitHub encontrados en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de las incidencias de extremo a extremo, frente al 1,96% del estado del arte anterior.

Menciones honoríficas

Han ocurrido tantas cosas que no es posible abarcarlas todas en este artículo. Pero aquí van algunas menciones honoríficas. 

  • LATTE3D de NVIDIA, anunciado el 21 de marzo de 2024, es un modelo de IA de texto a 3D que crea instantáneamente representaciones tridimensionales a partir de mensajes de texto.
  • El nuevo generador de texto a vídeo de Midjourney, del que se burló su Director General, David Holz, empezó a formarse en enero y se espera que se lance pronto.
  • Avanzando en la revolución de los PC con IA, Lenovo lanzó el ThinkBook 13x con tecnología E Ink Prism y portátiles con IA de alto rendimiento el 8 de enero de 2024.

Manténgase al día sobre las tendencias de la IA con nosotros.

A principios de 2024 se produjeron avances revolucionarios en la IA y se alcanzaron muchos hitos tecnológicos importantes. Pero esto es sólo el principio de lo que la IA puede hacer. Si quieres saber más sobre los últimos avances en IA, Ultralytics te lo cuenta todo.

Consulte nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión por ordenador e IA. También puede consultar nuestras páginas de soluciones para ver cómo se utiliza la IA en sectores como la fabricación y la sanidad

¡Construyamos juntos el futuro
de la IA!

Comience su viaje con el futuro del aprendizaje automático

Empezar gratis
Enlace copiado en el portapapeles