Glosario

Modelo multimodal

Descubre cómo los Modelos Multimodales de IA integran texto, imágenes y mucho más para crear sistemas robustos y versátiles para aplicaciones del mundo real.

Los Modelos Multimodales representan un avance significativo en la inteligencia artificial (IA) al procesar e integrar información procedente de múltiples tipos de fuentes de datos, conocidas como modalidades. A diferencia de los modelos tradicionales, que pueden centrarse únicamente en imágenes o texto, los sistemas multimodales combinan entradas como texto, imágenes, audio, vídeo y datos de sensores para lograr una comprensión más holística y similar a la humana de escenarios complejos. Esta integración les permite captar relaciones intrincadas y contextos que los modelos de una sola modalidad podrían pasar por alto, lo que conduce a aplicaciones de IA más robustas y versátiles, exploradas más a fondo en recursos como el BlogUltralytics .

Definición

Un Modelo Multimodal es un sistema de IA diseñado y entrenado para procesar, comprender y relacionar simultáneamente información procedente de dos o más modalidades de datos distintas. Entre las modalidades más comunes están la visual (imágenes, vídeo), la auditiva (habla, sonidos), la textual(procesamiento del lenguaje natural - PLN) y otros datos de sensores (como LiDAR o lecturas de temperatura). La idea central es la fusión de la información: combinar los puntos fuertes de los distintos tipos de datos para lograr una comprensión más profunda. Por ejemplo, la comprensión completa de un vídeo implica procesar los fotogramas visuales, el diálogo hablado (audio) y, potencialmente, los subtítulos de texto. Al aprender las correlaciones y dependencias entre estas modalidades durante el proceso de entrenamiento del aprendizaje automático (ML ), a menudo utilizando técnicas de aprendizaje profundo (DL), estos modelos desarrollan una comprensión más rica y matizada que la que es posible analizando cada modalidad de forma aislada.

Relevancia y aplicaciones

La importancia de los Modelos Multimodales está creciendo rápidamente porque la información del mundo real es intrínsecamente polifacética. Los humanos percibimos el mundo de forma natural utilizando múltiples sentidos; dotar a la IA de capacidades similares permite aplicaciones más sofisticadas y conscientes del contexto. Estos modelos son cruciales cuando la comprensión depende de la integración de diversos flujos de datos, lo que mejora la precisión en tareas complejas.

He aquí algunos ejemplos concretos de su aplicación:

Modelos de lenguaje visual (VLM) para la comprensión de imágenes: Modelos como PaliGemma 2 deGoogle, Florence-2 deMicrosoft y CLIP de OpenAI combinan datos de imagen y texto. Pueden realizar tareas como el subtitulado de imágenes (generar descripciones de texto para las imágenes) o la respuesta a preguntas visuales (VQA) (responder a preguntas en lenguaje natural basadas en el contenido de una imagen).
Sistemas de Conducción Autónoma: Empresas como Waymo desarrollan vehículos que dependen en gran medida de entradas multimodales. Fusionan datos de cámaras (visuales), LiDAR (profundidad y forma), radar (distancia y velocidad) y, a veces, sensores de audio para percibir el entorno, predecir los movimientos de los objetos y navegar con seguridad. Esto requiere procesar diversos flujos de datos para realizar inferencias en tiempo real.
Análisis de Sentimiento Mejorado: El análisis del sentimiento puede ser más preciso combinando texto con audio (tono de voz) e indicios visuales (expresiones faciales). La investigación explora el análisis multimodal de sentimientos para aplicaciones en el análisis de opiniones de clientes o la interacción persona-ordenador.
Análisis de imágenes médicas: La combinación de exploraciones médicas (como radiografías o resonancias magnéticas) con historiales médicos electrónicos (texto) puede conducir a diagnósticos más precisos. Más información sobre los avances de la IA y la radiología.

Conceptos clave y distinciones

Comprender los Modelos Multimodales implica familiarizarse con los conceptos relacionados:

Aprendizaje Multimodal: Es el subcampo del ML centrado en el desarrollo de los algoritmos y técnicas utilizados para entrenar Modelos Multimodales. Aborda retos como la alineación de datos y las estrategias de fusión, a menudo debatidos en artículos académicos.
Modelos de cimentación: Muchos modelos de base modernos, como el GPT-4, son intrínsecamente multimodales, capaces de procesar tanto texto como imágenes. Estos grandes modelos sirven de base que puede afinarse para tareas específicas.
Grandes modelos lingüísticos (LLM): Aunque están relacionados, los LLM se centran tradicionalmente en el procesamiento de texto. Los modelos multimodales son más amplios y están diseñados explícitamente para manejar e integrar información de distintos tipos de datos, además del lenguaje. Sin embargo, algunos LLM avanzados han desarrollado capacidades multimodales.
Modelos de visión especializados: Los modelos multimodales difieren de los modelos especializados de visión por ordenador (VC ) como Ultralytics YOLO. Mientras que un modelo multimodal como GPT-4 puede describir una imagen ("Hay un gato sentado en una alfombra"), un modelo YOLO destaca en la detección de objetos o la segmentación de instancias, localizando con precisión al gato con un cuadro delimitador o una máscara de píxeles. Estos modelos pueden ser complementarios; YOLO identifica dónde están los objetos, mientras que un modelo multimodal puede interpretar la escena o responder a preguntas sobre ella. Echa un vistazo a las comparaciones entre distintos modelos YOLO .
Arquitectura del Transformador: La arquitectura transformadora, introducida en "La atención es todo lo que necesitas", es fundamental para muchos modelos multimodales de éxito, ya que permite procesar e integrar eficazmente diferentes secuencias de datos mediante mecanismos de atención.

El desarrollo y despliegue de estos modelos a menudo implica marcos como PyTorch y TensorFlowy plataformas como Ultralytics HUB pueden ayudar a gestionar conjuntos de datos y flujos de trabajo de entrenamiento de modelos, aunque HUB actualmente se centra más en tareas específicas de visión. La capacidad de unir distintos tipos de datos convierte a los modelos multimodales en un paso hacia una IA más completa, que podría contribuir a la futura Inteligencia Artificial General (IAG).

Modelo multimodal

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Definición

Relevancia y aplicaciones

Conceptos clave y distinciones

Leer más blogs

Únete a la comunidad Ultralytics

Modelo multimodal

Entrena los modelos YOLO simplementecon Ultralytics HUB

Solución flexible de licencias empresariales para impulsar tu innovación

Entrena modelos de IA en segundos con Ultralytics YOLO

Entrena modelos YOLO de forma sencilla con Ultralytics HUB

Definición

Relevancia y aplicaciones

Conceptos clave y distinciones

Leer más blogs

Únete a la comunidad Ultralytics

Entrena los modelos YOLO simplemente
con Ultralytics HUB