Un vistazo a las apasionantes innovaciones en IA del primer trimestre de 2024. Cubriremos avances como la IA Sora de OpenAI, el chip cerebral de Neuralink y los últimos LLM.
La comunidad de IA parece aparecer en los titulares casi a diario. Los primeros meses de 2024 han sido emocionantes y están repletos de nuevas innovaciones en IA. Desde nuevos y potentes modelos de lenguaje de gran tamaño hasta implantes cerebrales humanos, 2024 se perfila como increíble.
Estamos viendo cómo la IA transforma las industrias, hace que la información sea más accesible e incluso da los primeros pasos para fusionar nuestras mentes con las máquinas. Rebobinemos el primer trimestre de 2024 y echemos un vistazo más de cerca a los avances realizados en IA en solo unos meses.
Los grandes modelos de lenguaje (LLM), diseñados para comprender, generar y manipular el lenguaje humano a partir de grandes cantidades de datos de texto, ocuparon un lugar central en el primer trimestre de 2024. Muchas de las principales empresas tecnológicas lanzaron sus propios modelos LLM, cada uno con capacidades únicas. El increíble éxito de los LLM anteriores como GPT-3 inspiró esta tendencia. Estos son algunos de los lanzamientos de LLM más notables de principios de 2024.
Anthropic lanzó Claude 3 el 14 de marzo de 2024. El modelo Claude 3 viene en tres versiones: Opus, Sonnet y Haiku, cada una de las cuales sirve a diferentes mercados y propósitos. Haiku, el modelo más rápido, está optimizado para respuestas rápidas y básicas. Sonnet equilibra la velocidad con la inteligencia y está dirigido a aplicaciones empresariales. Opus, la versión más avanzada, ofrece una inteligencia y un razonamiento incomparables y es ideal para tareas complejas y para alcanzar los mejores puntos de referencia.
Claude 3 cuenta con muchas características avanzadas y mejoras:
Databricks DBRX es un LLM abierto y de uso general publicado por Databricks el 27 de marzo de 2024. DBRX lo hace muy bien en varios puntos de referencia, incluida la comprensión del lenguaje, la programación y las matemáticas. Supera a otros modelos establecidos y es aproximadamente un 40% más pequeño que modelos similares.
DBRX se entrenó mediante la predicción del siguiente token con una arquitectura de mezcla de expertos (MoE) de grano fino, y es por eso que podemos ver mejoras significativas en el rendimiento del entrenamiento y la inferencia. Su arquitectura permite que el modelo prediga la siguiente palabra de una secuencia con mayor precisión consultando un conjunto diverso de submodelos especializados (los "expertos"). Estos submodelos son buenos para manejar diferentes tipos de información o tareas.
Google presentó el 15 de febrero de 2024 Gemini 1.5, un modelo de IA multimodal y eficiente desde el punto de vista informático que puede analizar gran cantidad de datos de texto, vídeo y audio. El último modelo es más avanzado en cuanto a rendimiento, eficacia y capacidades. Una característica clave de Géminis 1.5 es su gran avance en la comprensión de contextos largos. El modelo es capaz de manejar hasta 1 millón de tokens de forma coherente. Las capacidades de Gemini 1.5 se deben también a una nueva arquitectura basada en MoE.
Estas son algunas de las características más interesantes de Gemini 1.5 :
El primer trimestre de 2024 ha presentado modelos de IA generativa que pueden crear imágenes tan reales que han provocado debates sobre el futuro de las redes sociales y el progreso de la IA. Profundicemos en los modelos que agitan la conversación.
OpenAI, el creador de ChatGPT, anunció un modelo de aprendizaje profundo de texto a video de última generación llamado Sora el 15 de febrero de 2024. Sora es un generador de texto a vídeo capaz de generar vídeos de un minuto de duración con alta calidad visual basados en indicaciones textuales del usuario.
Por ejemplo, eche un vistazo al siguiente mensaje.
"Un mundo de papel magníficamente renderizado de un arrecife de coral, plagado de peces de colores y criaturas marinas".
Y aquí hay un fotograma del video de salida.
La arquitectura de Sora hace esto posible mediante la combinación de modelos de difusión para la generación de texturas y modelos de transformadores para la coherencia estructural. Hasta ahora, se ha dado acceso a Sora a los miembros del equipo rojo y a un grupo selecto de artistas visuales, diseñadores y cineastas para comprender los riesgos y obtener comentarios.
Stability AI anunció la llegada de Stable Diffusion 3, un modelo de generación de texto a imagen, el 22 de febrero de 2024. El modelo combina la arquitectura del transformador de difusión y la coincidencia de flujo. Todavía no han publicado un documento técnico, pero hay algunas características clave a tener en cuenta.
El último modelo de Stable Diffusion ofrece un rendimiento, una calidad de imagen y una precisión mejorados en la creación de imágenes con múltiples sujetos. Stable Diffusion 3 también ofrecerá una variedad de modelos que van desde los 800 millones hasta los 8.000 millones de parámetros. Permitirá a los usuarios elegir en función de sus necesidades específicas de escalabilidad y detalle.
El 23 de enero de 2024, Google lanzó Lumiere, un modelo de difusión de texto a vídeo. Lumiere utiliza una arquitectura llamada Space-Time-U-Net, o STUNet para abreviar. Ayuda a Lumiere a entender dónde están las cosas y cómo se mueven en un vídeo. De este modo, puede generar vídeos fluidos y realistas.
Con la capacidad de generar 80 fotogramas por vídeo, Lumière está superando los límites y estableciendo nuevos estándares de calidad de vídeo en el espacio de la IA. Estas son algunas de las características de Lumiere:
El comienzo de 2024 también ha traído consigo muchas innovaciones de IA que parecen sacadas de una película de ciencia ficción. Ahora se está trabajando en cosas que antes hubiéramos dicho que eran imposibles. El futuro no parece tan lejano con los siguientes descubrimientos.
Neuralink de Elon Musk implantó con éxito su chip cerebral inalámbrico en un humano el 29 de enero de 2024. Este es un gran paso hacia la conexión de los cerebros humanos a las computadoras. Elon Musk compartió que el primer producto de Neuralink, llamado 'Telepathy', está en proceso.
El objetivo es permitir a los usuarios, especialmente a aquellos que han perdido la funcionalidad de las extremidades, controlar los dispositivos sin esfuerzo a través de sus pensamientos. Las aplicaciones potenciales van más allá de la comodidad. Elon Musk imagina un futuro en el que las personas con parálisis puedan comunicarse fácilmente.
El 18 de enero de 2024, Walt Disney Imagineering presentó el piso HoloTile. Ha sido apodado el primer terreno de cinta de correr omnidireccional para varias personas del mundo.
Puede moverse debajo de cualquier persona u objeto como la telequinesis para una experiencia inmersiva de realidad virtual y aumentada. Puede caminar en cualquier dirección y evitar colisiones mientras está en él. Disney's HoloTile Floor también se puede plantar en escenarios teatrales para bailar y moverse de manera creativa.
El 2 de febrero de 2024, los tan esperados auriculares Vision Pro de Apple llegaron al mercado. Tiene una variedad de características y aplicaciones diseñadas para redefinir la experiencia de realidad virtual y aumentada. Los auriculares Vision Pro se dirigen a un público diverso al combinar entretenimiento, productividad y computación espacial. Apple anunció con orgullo que más de 600 aplicaciones, que van desde herramientas de productividad hasta juegos y servicios de entretenimiento, fueron optimizadas para el Vision Pro en su lanzamiento.
El 12 de marzo de 2024, Cognition lanzó un asistente de ingeniería de software llamado Devin. Devin es el primer intento del mundo de crear un ingeniero de software de IA autónomo. A diferencia de los asistentes de codificación tradicionales que ofrecen sugerencias o completan tareas específicas, Devin está diseñado para manejar proyectos completos de desarrollo de software desde el concepto inicial hasta la finalización.
Puede aprender nuevas tecnologías, crear e implementar aplicaciones completas, encontrar y corregir errores, entrenar sus propios modelos, contribuir a bases de código abierto y de producción, e incluso asumir trabajos de desarrollo reales de sitios como Upwork.
Devin fue evaluado en SWE-bench, un punto de referencia desafiante que pide a los agentes que resuelvan problemas de GitHub del mundo real que se encuentran en proyectos de código abierto como Django y scikit-learn. Resolvió correctamente el 13,86% de los problemas de principio a fin, en comparación con el estado del arte anterior del 1,96%.
Han sucedido tantas cosas que no es posible cubrir todo en este artículo. Pero, aquí hay algunas menciones honoríficas más.
A principios de 2024 se produjeron avances revolucionarios en la IA y muchos hitos tecnológicos importantes. Pero esto es solo el comienzo de lo que la IA puede hacer. Si desea obtener más información sobre los últimos desarrollos de IA, Ultralytics tiene todo lo que necesitas.
Echa un vistazo a nuestro repositorio de GitHub para ver nuestras últimas contribuciones en visión artificial e IA. También puede consultar nuestras páginas de soluciones para ver cómo se utiliza la IA en sectores como la fabricación y la sanidad.
Comienza tu viaje con el futuro del aprendizaje automático