Un vistazo a las emocionantes innovaciones en IA del primer trimestre de 2024. Trataremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los últimos LLM.

Un vistazo a las emocionantes innovaciones en IA del primer trimestre de 2024. Trataremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los últimos LLM.
La comunidad de la IA parece aparecer en los titulares casi a diario. Los primeros meses de 2024 han sido apasionantes y han estado repletos de innovaciones en el campo de la IA. Desde nuevos y potentes modelos lingüísticos de gran tamaño hasta implantes de cerebros humanos, 2024 se perfila como un año asombroso.
Estamos viendo cómo la IA transforma industrias, hace más accesible la información e incluso da los primeros pasos hacia la fusión de nuestras mentes con las máquinas. Rebobinemos hasta el primer trimestre de 2024 y veamos de cerca los avances de la IA en tan solo unos meses.
Los grandes modelos lingüísticos (LLM), diseñados para comprender, generar y manipular el lenguaje humano a partir de grandes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas grandes empresas tecnológicas lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de LLM anteriores como GPT-3 inspiró esta tendencia. Estos son algunos de los lanzamientos de LLM más destacados de principios de 2024.
Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 se presenta en tres versiones: Opus, Sonnet y Haiku, cada una de las cuales sirve a diferentes mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas rápidas y básicas. Sonnet equilibra velocidad e inteligencia y está orientado a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento incomparables y es ideal para tareas complejas y para alcanzar los mejores resultados.
Claude 3 cuenta con numerosas funciones avanzadas y mejoras:
Databricks DBRX es un LLM abierto de propósito general lanzado por Databricks el 27 de marzo de 2024. DBRX obtiene muy buenos resultados en varias pruebas comparativas, como comprensión del lenguaje, programación y matemáticas. Supera a otros modelos establecidos siendo aproximadamente un 40% más pequeño que modelos similares.
DBRX se entrenó utilizando la predicción de la siguiente palabra con una arquitectura de mezcla de expertos (MoE) de grano fino, y por eso podemos ver mejoras significativas en el rendimiento del entrenamiento y la inferencia. Su arquitectura permite al modelo predecir con mayor precisión la siguiente palabra de una secuencia consultando a un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos manejando distintos tipos de información o tareas.
El 15 de febrero de 2024, Google presentó Gemini 1.5, un modelo de IA multimodal y eficiente desde el punto de vista computacional que puede analizar gran cantidad de datos de texto, vídeo y audio. El último modelo es más avanzado en términos de rendimiento, eficiencia y capacidades. Una característica clave de Gemini 1.5 es su gran avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta un millón de tokens de forma consistente. Las capacidades de Gemini 1.5 también se deben a una nueva arquitectura basada en MoE.
Estas son algunas de las características más interesantes de Gemini 1.5:
El primer trimestre de 2024 ha desvelado modelos generativos de IA capaces de crear imágenes tan reales que han suscitado debates sobre el futuro de las redes sociales y el progreso de la IA. Analicemos los modelos que están dando que hablar.
OpenAI, creador de ChatGPT, anunció el 15 de febrero de 2024 un modelo de aprendizaje profundo de texto a vídeo de última generación llamado Sora. Sora es un generador de texto a vídeo capaz de generar vídeos de un minuto de duración con gran calidad visual a partir de indicaciones textuales del usuario.
Por ejemplo, eche un vistazo a la siguiente pregunta.
"Un precioso mundo de papel de un arrecife de coral, plagado de coloridos peces y criaturas marinas".
Y aquí tienes un fotograma del vídeo de salida.
La arquitectura de Sora lo hace posible combinando modelos de difusión para la generación de texturas y modelos de transformación para la coherencia estructural. De momento, solo han tenido acceso a Sora los miembros del equipo rojo y un grupo selecto de artistas visuales, diseñadores y cineastas para conocer los riesgos y obtener su opinión.
Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo mezcla la arquitectura de transformadores de difusión y el ajuste de flujos. Aún no han publicado un documento técnico, pero hay algunas características clave a tener en cuenta.
El último modelo de Stable Diffusion ofrece un mayor rendimiento, calidad de imagen y precisión en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van de 800 millones a 8.000 millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.
El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Esta arquitectura ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. De este modo, puede generar vídeos fluidos y realistas.
Con la capacidad de generar 80 fotogramas por vídeo, Lumiere está superando los límites y estableciendo nuevos estándares de calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:
El comienzo de 2024 también ha traído consigo muchas innovaciones en IA que parecen sacadas de una película de ciencia ficción. Se está trabajando en cosas que antes habríamos considerado imposibles. El futuro no parece tan lejano con los siguientes descubrimientos.
Neuralink, de Elon Musk, implantó con éxito su chip cerebral inalámbrico en un ser humano el 29 de enero de 2024. Se trata de un gran paso hacia la conexión del cerebro humano con los ordenadores. Elon Musk adelantó que el primer producto de Neuralink, llamado "Telepathy", está en fase de desarrollo.
El objetivo es que los usuarios, sobre todo los que han perdido la funcionalidad de sus extremidades, puedan controlar dispositivos sin esfuerzo a través de sus pensamientos. Las aplicaciones potenciales van más allá de la comodidad. Elon Musk imagina un futuro en el que las personas con parálisis puedan comunicarse fácilmente.
El 18 de enero de 2024, Walt Disney Imagineering presentó el HoloTile Floor. Ha sido bautizado como el primer suelo multipersona omnidireccional del mundo.
Puede moverse por debajo de cualquier persona u objeto como si fuera telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Se puede caminar en cualquier dirección y evitar colisiones mientras se está sobre él. El HoloTile Floor de Disney también puede colocarse en escenarios teatrales para bailar y moverse de forma creativa.
El 2 de febrero de 2024 salieron al mercado los esperados auriculares Vision Pro de Apple. Cuenta con una serie de funciones y aplicaciones diseñadas para redefinir la experiencia de la realidad virtual y aumentada. Los auriculares Vision Pro se dirigen a un público muy diverso y combinan entretenimiento, productividad y computación espacial. Apple anunció con orgullo que más de 600 aplicaciones, desde herramientas de productividad hasta juegos y servicios de entretenimiento, se optimizaron para Vision Pro en su lanzamiento.
El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de crear un ingeniero de software autónomo. A diferencia de los asistentes de codificación tradicionales, que ofrecen sugerencias o completan tareas específicas, Devin está diseñado para gestionar proyectos completos de desarrollo de software, desde el concepto inicial hasta su finalización.
Puede aprender nuevas tecnologías, crear y desplegar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a bases de código de código abierto y de producción, e incluso aceptar trabajos de desarrollo reales de sitios como Upwork.
Devin fue evaluado en SWE-bench, una exigente prueba que pide a los agentes que resuelvan problemas reales de GitHub encontrados en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de las incidencias de extremo a extremo, frente al 1,96% del estado del arte anterior.
Han ocurrido tantas cosas que no es posible abarcarlas todas en este artículo. Pero aquí van algunas menciones honoríficas.
A principios de 2024 se produjeron avances revolucionarios en la IA y se alcanzaron muchos hitos tecnológicos importantes. Pero esto es sólo el principio de lo que la IA puede hacer. Si quieres saber más sobre los últimos avances en IA, Ultralytics te lo cuenta todo.
Consulte nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión por ordenador e IA. También puede consultar nuestras páginas de soluciones para ver cómo se utiliza la IA en sectores como la fabricación y la sanidad.