Explora los últimos modelos de IA de Meta FAIR, SAM 2.1 y CoTracker3, que ofrecen capacidades avanzadas de segmentación y seguimiento para diversas aplicaciones del mundo real.
La inteligencia artificial (IA) es un campo de investigación que últimamente bulle de entusiasmo y energía, con nuevas innovaciones y avances que aparecen más rápido que nunca. En las últimas semanas, el equipo de Investigación Fundamental de la IA (FAIR) de Meta ha dado a conocer un conjunto de herramientas y modelos destinados a abordar retos en diferentes áreas de la IA. Estos lanzamientos incluyen actualizaciones que podrían repercutir en campos tan diversos como la sanidad, la robótica y la realidad aumentada.
Por ejemplo, el modelo actualizado SAM 2.1 mejora la segmentación de objetos, facilitando la identificación y separación precisas de objetos en imágenes y vídeos. Mientras tanto, CoTracker3 se centra en el seguimiento de puntos, ayudando a mantener el rastro de los puntos en los fotogramas de vídeo incluso cuando los objetos se mueven o se bloquean parcialmente.
Meta también ha introducido versiones más ligeras y rápidas de su modelo de lenguaje Llama para un uso eficiente en el dispositivo, junto con una nueva tecnología de detección táctil para robótica. En este artículo, desglosaremos estos últimos lanzamientos de Meta FAIR, analizando lo que ofrece cada herramienta. ¡Empecemos ya!
La segmentación de objetos, una tarea clave de la visión por ordenador, permite identificar y separar objetos distintos dentro de una imagen o vídeo, facilitando el análisis de áreas específicas de interés. Desde su lanzamiento, el Segment Anything Model 2 de Meta (SAM 2 ) se ha utilizado para la segmentación de objetos en distintos campos, como la imagen médica y la meteorología. Basándose en los comentarios de la comunidad, Meta ha introducido ahora SAM 2.1, una versión mejorada diseñada para abordar algunos de los retos encontrados con el modelo original y ofrecer un mayor rendimiento en general.
SAM 2.1 incluye actualizaciones para manejar mejor objetos visualmente similares y más pequeños, gracias a nuevas técnicas de aumento de datos. También mejora la forma en que el modelo trata la oclusión (cuando partes de un objeto quedan ocultas a la vista), entrenándolo con secuencias de vídeo más largas, lo que le permite "recordar" y reconocer objetos a lo largo del tiempo, aunque estén temporalmente bloqueados. Por ejemplo, si alguien está grabando un vídeo de una persona que camina detrás de un árbol, SAM 2.1 puede seguir a la persona cuando reaparece al otro lado, utilizando su memoria de la posición y el movimiento del objeto para rellenar huecos cuando la vista se interrumpe brevemente.
Junto a estas actualizaciones, Meta ha lanzado la Suite para Desarrolladores SAM 2, que proporciona código de formación de código abierto e infraestructura de demostración completa para que los desarrolladores puedan perfeccionar SAM 2.1 con sus propios datos e integrarlo en una serie de aplicaciones.
Otra tarea interesante de la visión por ordenador es el seguimiento de puntos. Consiste en seguir puntos o rasgos específicos a lo largo de varios fotogramas de un vídeo. Considera un vídeo de un ciclista circulando por una pista: el seguimiento de puntos permite al modelo seguir la pista de puntos del ciclista, como el casco o las ruedas, aunque estén ocultos por obstáculos durante un momento.
El seguimiento de puntos es esencial para aplicaciones como la reconstrucción 3D, la robótica y la edición de vídeo. Los modelos tradicionales suelen basarse en montajes complejos y grandes conjuntos de datos sintéticos, lo que limita su eficacia cuando se aplican a escenarios del mundo real.
El modelo de seguimiento CoTracker3 de Meta aborda estas limitaciones simplificando la arquitectura del modelo. También introduce unatécnica de pseudoetiquetado que permite al modelo aprender de vídeos reales no anotados, haciendo que CoTracker3 sea más eficiente y escalable para su uso práctico.
Una de las características que hacen destacar a CoTracker3 es que puede manejar bien las oclusiones. Utilizando la atención cruzada, una técnica que permite al modelo compartir información entre varios puntos rastreados, CoTracker3 puede deducir las posiciones de los puntos ocultos haciendo referencia a los visibles. De este modo, CoTracker3 está diseñado para ser muy eficaz en entornos dinámicos, como el seguimiento de una persona en una escena abarrotada.
CoTracker3 también ofrece modos online y offline. El modo online proporciona seguimiento en tiempo real. Mientras que el modo sin conexión puede utilizarse para un seguimiento más exhaustivo de secuencias de vídeo completas, ideal para tareas como la edición de vídeo o la animación.
Mientras que SAM 2.1 y CoTracker3 muestran los últimos avances de Meta en visión por ordenador, también hay emocionantes actualizaciones en otras áreas de la IA, como el procesamiento del lenguaje natural (PLN) y la robótica. Echemos un vistazo a algunos de estos otros avances recientes de Meta FAIR.
Spirit LM de Meta es un nuevo modelo de lenguaje multimodal que combina capacidades de texto y habla , haciendo que las interacciones con la IA resulten más naturales. A diferencia de los modelos tradicionales que sólo manejan texto o sólo habla, Spirit LM puede alternar perfectamente entre ambos.
Spirit LM puede entender y generar lenguaje de forma que parezca más humano. Por ejemplo, puede mejorar los asistentes virtuales que escuchan y responden en lenguaje hablado o escrito, o apoyar las herramientas de accesibilidad que convierten entre habla y texto.
Además, Meta ha desarrollado técnicas para hacer más eficientes los grandes modelos lingüísticos. Una de ellas, llamada Omisión de Capas, ayuda a reducir las necesidades computacionales y los costes de energía activando sólo las capas que son necesarias para una tarea determinada. Esto es especialmente útil para aplicaciones en dispositivos con memoria y potencia limitadas.
Llevando un paso más allá la necesidad de desplegar aplicaciones de IA en tales dispositivos, Meta también ha lanzado versiones cuantizadas de sus modelos Llama. Estos modelos están comprimidos para ejecutarse más rápidamente en dispositivos móviles sin sacrificar la precisión.
A medida que los modelos de IA crecen en tamaño y complejidad, la optimización de su proceso de entrenamiento se ha vuelto crucial. Con respecto a la optimización, Meta ha introducido Meta Lingua, una base de código flexible y eficiente que facilita el entrenamiento de grandes modelos lingüísticos. El diseño modular de Meta Lingua permite a los investigadores personalizar y escalar rápidamente sus experimentos.
Los investigadores pueden dedicar menos tiempo a la configuración técnica y más a la investigación real. El código base también es ligero y fácil de integrar, lo que lo hace adecuado tanto para pequeños experimentos como para proyectos a gran escala. Al eliminar estos obstáculos técnicos, Meta Lingua ayuda a los investigadores a progresar más rápidamente y a probar nuevas ideas con mayor facilidad.
A medida que avanza la tecnología de la computación cuántica, se plantean nuevos retos para la seguridad de los datos. A diferencia de los ordenadores actuales, es probable que los ordenadores cuánticos puedan resolver cálculos complejos mucho más rápido. Esto significa que potencialmente podrían romper los métodos de encriptación utilizados actualmente para proteger la información sensible. Por eso la investigación en este campo es cada vez más importante: desarrollar nuevas formas de proteger los datos es esencial mientras nos preparamos para el futuro de la informática cuántica.
Para hacer frente a esto, Meta ha desarrollado Salsa, una herramienta destinada a reforzar la seguridad criptográfica post-cuántica. Salsa ayuda a los investigadores a probar ataques basados en IA y a identificar posibles puntos débiles, lo que les permite comprender y abordar mejor las vulnerabilidades de los sistemas criptográficos. Al simular escenarios de ataques avanzados, Salsa proporciona valiosos conocimientos que pueden guiar el desarrollo de medidas de seguridad más fuertes y resistentes para la era cuántica.
Los últimos trabajos de Meta en robótica se centran en ayudar a la IA a interactuar de forma más natural con el mundo físico, mejorando la percepción táctil, la destreza y la colaboración con los humanos. En concreto, Meta Digit 360 es un sensor táctil avanzado que dota a los robots de un refinado sentido del tacto. Los sensores ayudan a los robots a detectar detalles como la textura, la presión e incluso las formas de los objetos. A partir de estas percepciones, los robots pueden manipular objetos con mayor precisión, algo crucial en áreas como la sanidad y la fabricación.
Estas son algunas de las principales características que incluye el Meta Digit 360:
Una extensión del Meta Digit 360 es el Meta Digit Plexus, una plataforma que integra varios sensores táctiles en una sola mano robótica. Esta configuración permite a los robots procesar la información táctil de varios puntos a la vez, de forma similar a como las manos humanas recogen los datos sensoriales.
Las últimas actualizaciones de Meta sobre IA, que van desde avances en visión por ordenador con SAM 2.1 y CoTracker3 hasta nuevos desarrollos en modelos lingüísticos y robótica, muestran cómo la IA está pasando de la teoría a soluciones prácticas y de gran impacto.
Estas herramientas están diseñadas para hacer que la IA sea más adaptable y útil en distintos campos, ayudando en todo, desde segmentar imágenes complejas hasta comprender el lenguaje humano e incluso trabajar junto a nosotros en espacios físicos.
Al dar prioridad a la accesibilidad y a la aplicación en el mundo real, Meta FAIR nos acerca a un futuro en el que la IA pueda afrontar los retos del mundo real y mejorar nuestra vida cotidiana de forma significativa.
¿Tienes curiosidad por la IA? Únete a nuestra comunidad para conocer las últimas actualizaciones y perspectivas, y echa un vistazo a nuestro repositorio de GitHub. También puedes explorar cómo se puede utilizar la visión por ordenador en sectores como los coches autónomos y la agricultura.
Comienza tu viaje con el futuro del aprendizaje automático