Cheque verde
Enlace copiado en el portapapeles

2024 comienza con una ola de IA generativa

Un vistazo a las apasionantes innovaciones en IA del primer trimestre de 2024. Cubriremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los últimos LLM.

La comunidad de IA parece aparecer en los titulares casi a diario. Los primeros meses de 2024 han sido emocionantes y están repletos de nuevas innovaciones en IA. Desde nuevos y potentes modelos de lenguaje de gran tamaño hasta implantes cerebrales humanos, 2024 se perfila como increíble.

Estamos viendo cómo la IA transforma las industrias, hace que la información sea más accesible e incluso da los primeros pasos para fusionar nuestras mentes con las máquinas. Rebobinemos el primer trimestre de 2024 y echemos un vistazo más de cerca a los avances realizados en IA en solo unos meses.

Los LLM son tendencia

Los grandes modelos de lenguaje (LLM), diseñados para comprender, generar y manipular el lenguaje humano a partir de grandes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas de las principales empresas tecnológicas lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de los LLM anteriores como GPT-3 inspiró esta tendencia. Estos son algunos de los lanzamientos de LLM más notables de principios de 2024.

Anthropic's Claude 3

Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 viene en tres versiones: Opus, Sonnet y Haiku, cada una de las cuales sirve a diferentes mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas rápidas y básicas. Sonnet equilibra la velocidad con la inteligencia y está dirigido a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento incomparables y es ideal para tareas complejas y para alcanzar los mejores puntos de referencia.

Claude 3 cuenta con muchas características avanzadas y mejoras:

  • Conversaciones multilingües mejoradas: habilidades mejoradas en idiomas como español, japonés y francés.
  • Funciones avanzadas de visión: Capaz de manejar varios formatos visuales
  • Rechazos minimizados: muestra más comprensión con menos rechazos innecesarios, lo que indica una mejor comprensión contextual
  • Ventana de contexto extendida: Ofrece una ventana de contexto de 200K, pero es capaz de procesar entradas de más de 1 millón de tokens según las necesidades del cliente.
Figura 1. Claude 3 es más consciente del contexto que las versiones anteriores.

DBRX de Databricks

Databricks DBRX es un LLM abierto y de uso general publicado por Databricks el 27 de marzo de 2024. DBRX lo hace muy bien en varios puntos de referencia, incluida la comprensión del lenguaje, la programación y las matemáticas. Supera a otros modelos establecidos y es aproximadamente un 40% más pequeño que modelos similares.

Figura 2. Comparación de DBRX con otros modelos.

DBRX se entrenó mediante la predicción del siguiente token con una arquitectura de mezcla de expertos (MoE) de grano fino, y es por eso que podemos ver mejoras significativas en el rendimiento del entrenamiento y la inferencia. Su arquitectura permite que el modelo prediga la siguiente palabra de una secuencia con mayor precisión consultando un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos para manejar diferentes tipos de información o tareas.

GoogleGéminis 1.5

Google presentó el 15 de febrero de 2024 Gemini 1.5, un modelo de IA multimodal y eficiente desde el punto de vista informático que puede analizar gran cantidad de datos de texto, vídeo y audio. El último modelo es más avanzado en cuanto a rendimiento, eficacia y capacidades. Una característica clave de Géminis 1.5 es su gran avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta 1 millón de tokens de forma coherente. Las capacidades de Gemini 1.5 se deben también a una nueva arquitectura basada en MoE.

Figura 3. Comparación de las longitudes de contexto de los LLM populares

Estas son algunas de las características más interesantes de Gemini 1.5 :

  • Manejo de datos mejorado: Permite cargar directamente archivos PDF grandes, repositorios de código o videos largos como indicaciones. El modelo puede razonar entre modalidades y generar texto.
  • Múltiples cargas de archivos y consultas: los desarrolladores ahora pueden cargar varios archivos y hacer preguntas.
  • Se puede usar para diferentes tareas: está optimizado para escalar a través de diversas tareas y muestra mejoras en áreas como matemáticas, ciencias, razonamiento, multilingüismo, comprensión de video y código

Impresionantes imágenes de la IA

El primer trimestre de 2024 ha presentado modelos de IA generativa que pueden crear imágenes tan reales que han provocado debates sobre el futuro de las redes sociales y el progreso de la IA. Profundicemos en los modelos que agitan la conversación.

Sora de OpenAI 

OpenAI, el creador de ChatGPT, anunció un modelo de aprendizaje profundo de texto a video de última generación llamado Sora el 15 de febrero de 2024. Sora es un generador de texto a vídeo capaz de generar vídeos de un minuto de duración con alta calidad visual basados en indicaciones textuales del usuario. 

Por ejemplo, eche un vistazo al siguiente mensaje. 

"Un mundo de papel magníficamente renderizado de un arrecife de coral, plagado de peces de colores y criaturas marinas". 

Y aquí hay un fotograma del video de salida. 

Figura 4. Fotograma de un vídeo generado por Sora.

La arquitectura de Sora hace esto posible mediante la combinación de modelos de difusión para la generación de texturas y modelos de transformadores para la coherencia estructural. Hasta ahora, se ha dado acceso a Sora a los miembros del equipo rojo y a un grupo selecto de artistas visuales, diseñadores y cineastas para comprender los riesgos y obtener comentarios. 

Stability AIDifusión estable 3 

Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo combina la arquitectura del transformador de difusión y la coincidencia de flujo. Todavía no han publicado un documento técnico, pero hay algunas características clave a tener en cuenta.

Figura 5. La imagen de salida se basa en el mensaje: "Obra de arte épica de anime de un mago en la cima de una montaña por la noche lanzando un hechizo cósmico en el cielo oscuro que dice "Stable Diffusion 3" hecho de energía colorida"

El último modelo de Stable Diffusion ofrece un rendimiento, una calidad de imagen y una precisión mejorados en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van desde los 800 millones hasta los 8.000 millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.

GoogleLumiere 

El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. De este modo, puede generar vídeos fluidos y realistas.

Figura 6. Un fotograma de un vídeo generado a partir del mensaje: "Panda toca el ukelele en casa".

Con la capacidad de generar 80 fotogramas por vídeo, Lumière está superando los límites y estableciendo nuevos estándares de calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:

  • Imagen a vídeo: A partir de una imagen y un mensaje, Lumiere puede animar imágenes en vídeos.
  • Generación estilizada: Lumiere puede crear videos en estilos específicos utilizando una sola imagen de referencia.
  • Cinemagrafías: Lumiere puede animar regiones específicas dentro de una imagen para crear escenas dinámicas, como un objeto en particular que se mueve mientras el resto de la escena permanece estática.
  • Video Inpainting: Puede modificar partes de un video, como cambiar la vestimenta de las personas que aparecen en él o alterar los detalles del fondo.

El futuro parece estar aquí

El comienzo de 2024 también ha traído consigo muchas innovaciones de IA que parecen sacadas de una película de ciencia ficción. Ahora se está trabajando en cosas que antes hubiéramos dicho que eran imposibles. El futuro no parece tan lejano con los siguientes descubrimientos.

Neuralink de Elon Musk

Neuralink de Elon Musk implantó con éxito su chip cerebral inalámbrico en un humano el 29 de enero de 2024. Este es un gran paso hacia la conexión de los cerebros humanos a las computadoras. Elon Musk compartió que el primer producto de Neuralink, llamado 'Telepathy', está en proceso. 

Figura 7. El implante Neuralink

El objetivo es permitir a los usuarios, especialmente a aquellos que han perdido la funcionalidad de las extremidades, controlar los dispositivos sin esfuerzo a través de sus pensamientos. Las aplicaciones potenciales van más allá de la comodidad. Elon Musk imagina un futuro en el que las personas con parálisis puedan comunicarse fácilmente.

Piso HoloTile de Disney 

El 18 de enero de 2024, Walt Disney Imagineering presentó el piso HoloTile. Ha sido apodado el primer terreno de cinta de correr omnidireccional para varias personas del mundo. 

Figura 8. El Imagineer de Disney Lanny Smoot posa sobre su última innovación, el suelo HoloTile.

Puede moverse debajo de cualquier persona u objeto como la telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Puede caminar en cualquier dirección y evitar colisiones mientras está en él. Disney's HoloTile Floor también se puede plantar en escenarios teatrales para bailar y moverse de manera creativa.

Vision Pro de Apple

El 2 de febrero de 2024, los tan esperados auriculares Vision Pro de Apple llegaron al mercado. Tiene una variedad de características y aplicaciones diseñadas para redefinir la experiencia de realidad virtual y aumentada. Los auriculares Vision Pro se dirigen a un público diverso al combinar entretenimiento, productividad y computación espacial. Apple anunció con orgullo que más de 600 aplicaciones, que van desde herramientas de productividad hasta juegos y servicios de entretenimiento, fueron optimizadas para el Vision Pro en su lanzamiento.

Devin de Cognición

El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de crear un ingeniero de software de IA autónomo. A diferencia de los asistentes de codificación tradicionales que ofrecen sugerencias o completan tareas específicas, Devin está diseñado para manejar proyectos completos de desarrollo de software desde el concepto inicial hasta la finalización. 

Puede aprender nuevas tecnologías, crear e implementar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a bases de código abierto y de producción, e incluso asumir trabajos de desarrollo reales de sitios como Upwork. 

Figura 9. Comparando Devin con otros modelos.

Devin fue evaluado en SWE-bench, un punto de referencia desafiante que pide a los agentes que resuelvan problemas de GitHub del mundo real que se encuentran en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de los problemas de principio a fin, en comparación con el estado del arte anterior del 1,96%.

Menciones

Han sucedido tantas cosas que no es posible cubrir todo en este artículo. Pero, aquí hay algunas menciones honoríficas más. 

  • NVIDIA's LATTE3D, anunciado el 21 de marzo de 2024, es un modelo de IA de texto a 3D que crea instantáneamente representaciones en 3D a partir de indicaciones de texto.
  • El nuevo generador de texto a video de Midjourney, anunciado por el CEO David Holz, comenzó a capacitarse en enero y se espera que se lance pronto.
  • Avanzando en la revolución de las PC con IA, Lenovo lanzó el ThinkBook 13x con tecnología E Ink Prism y portátiles con IA de alto rendimiento el 8 de enero de 2024.

¡Manténgase actualizado sobre las tendencias de IA con nosotros!

A principios de 2024 se produjeron avances revolucionarios en la IA y muchos hitos tecnológicos importantes. Pero esto es solo el comienzo de lo que la IA puede hacer. Si desea obtener más información sobre los últimos desarrollos de IA, Ultralytics tiene todo lo que necesitas.

Echa un vistazo a nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión artificial e IA. También puede consultar nuestras páginas de soluciones para ver cómo se utiliza la IA en sectores como la fabricación y la sanidad

Logotipo de FacebookLogotipo de TwitterLogotipo de LinkedInSímbolo de enlace de copia

Leer más en esta categoría

¡Construyamos juntos el futuro
de la IA!

Comienza tu viaje con el futuro del aprendizaje automático