Glosario

Modelo multimodal

Descubre cómo los Modelos Multimodales de IA integran texto, imágenes y mucho más para crear sistemas robustos y versátiles para aplicaciones del mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los Modelos Multimodales representan un avance significativo en la inteligencia artificial (IA) al procesar e integrar información procedente de múltiples tipos de fuentes de datos, conocidas como modalidades. A diferencia de los modelos tradicionales, que pueden centrarse únicamente en imágenes o texto, los sistemas multimodales combinan entradas como texto, imágenes, audio, vídeo y datos de sensores para lograr una comprensión más holística y similar a la humana de escenarios complejos. Esta integración les permite captar relaciones intrincadas y contextos que los modelos de una sola modalidad podrían pasar por alto, lo que conduce a aplicaciones de IA más robustas y versátiles, exploradas más a fondo en recursos como el BlogUltralytics .

Definición

Un Modelo Multimodal es un sistema de IA diseñado y entrenado para procesar, comprender y relacionar simultáneamente información procedente de dos o más modalidades de datos distintas. Entre las modalidades más comunes están la visual (imágenes, vídeo), la auditiva (habla, sonidos), la textual(procesamiento del lenguaje natural - PLN) y otros datos de sensores (como LiDAR o lecturas de temperatura). La idea central es la fusión de la información: combinar los puntos fuertes de los distintos tipos de datos para lograr una comprensión más profunda. Por ejemplo, la comprensión completa de un vídeo implica procesar los fotogramas visuales, el diálogo hablado (audio) y, potencialmente, los subtítulos de texto. Al aprender las correlaciones y dependencias entre estas modalidades durante el proceso de entrenamiento del aprendizaje automático (ML ), a menudo utilizando técnicas de aprendizaje profundo (DL), estos modelos desarrollan una comprensión más rica y matizada que la que es posible analizando cada modalidad de forma aislada.

Relevancia y aplicaciones

La importancia de los Modelos Multimodales está creciendo rápidamente porque la información del mundo real es intrínsecamente polifacética. Los humanos percibimos el mundo de forma natural utilizando múltiples sentidos; dotar a la IA de capacidades similares permite aplicaciones más sofisticadas y conscientes del contexto. Estos modelos son cruciales cuando la comprensión depende de la integración de diversos flujos de datos, lo que mejora la precisión en tareas complejas.

He aquí algunos ejemplos concretos de su aplicación:

Conceptos clave y distinciones

Comprender los Modelos Multimodales implica familiarizarse con los conceptos relacionados:

  • Aprendizaje Multimodal: Es el subcampo del ML centrado en el desarrollo de los algoritmos y técnicas utilizados para entrenar Modelos Multimodales. Aborda retos como la alineación de datos y las estrategias de fusión, a menudo debatidos en artículos académicos.
  • Modelos de cimentación: Muchos modelos de base modernos, como el GPT-4, son intrínsecamente multimodales, capaces de procesar tanto texto como imágenes. Estos grandes modelos sirven de base que puede afinarse para tareas específicas.
  • Grandes modelos lingüísticos (LLM): Aunque están relacionados, los LLM se centran tradicionalmente en el procesamiento de texto. Los modelos multimodales son más amplios y están diseñados explícitamente para manejar e integrar información de distintos tipos de datos, además del lenguaje. Sin embargo, algunos LLM avanzados han desarrollado capacidades multimodales.
  • Modelos de visión especializados: Los modelos multimodales difieren de los modelos especializados de visión por ordenador (VC ) como Ultralytics YOLO. Mientras que un modelo multimodal como GPT-4 puede describir una imagen ("Hay un gato sentado en una alfombra"), un modelo YOLO destaca en la detección de objetos o la segmentación de instancias, localizando con precisión al gato con un cuadro delimitador o una máscara de píxeles. Estos modelos pueden ser complementarios; YOLO identifica dónde están los objetos, mientras que un modelo multimodal puede interpretar la escena o responder a preguntas sobre ella. Echa un vistazo a las comparaciones entre distintos modelos YOLO .
  • Arquitectura del Transformador: La arquitectura transformadora, introducida en "La atención es todo lo que necesitas", es fundamental para muchos modelos multimodales de éxito, ya que permite procesar e integrar eficazmente diferentes secuencias de datos mediante mecanismos de atención.

El desarrollo y despliegue de estos modelos a menudo implica marcos como PyTorch y TensorFlowy plataformas como Ultralytics HUB pueden ayudar a gestionar conjuntos de datos y flujos de trabajo de entrenamiento de modelos, aunque HUB actualmente se centra más en tareas específicas de visión. La capacidad de unir distintos tipos de datos convierte a los modelos multimodales en un paso hacia una IA más completa, que podría contribuir a la futura Inteligencia Artificial General (IAG).

Leer todo