Glosario

Modelo multimodal

Descubre cómo los modelos multimodales integran texto, imágenes, audio y vídeo para ofrecer perspectivas más ricas, mayor precisión y aplicaciones de IA en el mundo real.

Entrena los modelos YOLO simplemente
con Ultralytics HUB

Saber más

Los modelos multimodales representan un avance significativo en la inteligencia artificial, ya que aprovechan los datos de múltiples modalidades -como texto, imágenes, audio y vídeo- para mejorar la comprensión y la toma de decisiones. Al integrar diversos tipos de datos, estos modelos pueden proporcionar una visión más rica, una mayor precisión y una funcionalidad ampliada en diversas aplicaciones. Son esenciales en escenarios en los que deben combinarse datos de múltiples fuentes o formatos para generar resultados significativos.

Características principales de los modelos multimodales

  • Integración de diversos tipos de datos: Los modelos multimodales combinan entradas como texto, imágenes, audio y vídeo para crear una comprensión unificada. Por ejemplo, un modelo puede analizar secuencias de vídeo junto con el lenguaje hablado para interpretar mejor una conversación o un acontecimiento.
  • Mayor rendimiento: Al utilizar información complementaria de distintas modalidades, estos modelos suelen superar a los sistemas monomodales en tareas que requieren un análisis exhaustivo.
  • Aplicabilidad en el mundo real: Los modelos multimodales destacan en aplicaciones como los vehículos autónomos, las imágenes sanitarias combinadas con historiales de pacientes y el análisis de sentimientos basado en vídeo.

Cómo funcionan los modelos multimodales

En esencia, los modelos multimodales procesan y fusionan datos de distintas modalidades para formar una representación cohesiva. Entre las técnicas habituales se encuentran los mecanismos de atención, que permiten al modelo centrarse en los aspectos más relevantes de cada modalidad, y las incrustaciones, que mapean diversos tipos de datos en un espacio de características compartido para una integración perfecta. Aprende más sobre los mecanismos de atención y las incrustaciones para comprender mejor cómo funcionan estos procesos.

Aplicaciones de los modelos multimodales

1. Vehículos autónomos

En los coches autoconducidos, los modelos multimodales combinan datos de cámaras, LiDAR y radar para interpretar el entorno y tomar decisiones de conducción. Por ejemplo, la visión por ordenador procesa los datos visuales de las cámaras, mientras que el LiDAR proporciona información sobre profundidad y distancia. Este enfoque garantiza una navegación más segura y eficaz en entornos complejos. Explora el papel de la IA de visión en la conducción autónoma para obtener más detalles.

2. Diagnóstico sanitario

Los modelos multimodales están revolucionando el diagnóstico médico por imagen al integrar datos de radiografías, resonancias magnéticas e historias clínicas electrónicas (HCE). Por ejemplo, un modelo que analice las resonancias magnéticas junto con el historial del paciente puede detectar mejor las anomalías y ofrecer recomendaciones de tratamiento personalizadas. Descubre más sobre el impacto del análisis de imágenes médicas en la asistencia sanitaria.

3. Subtitulado y análisis de vídeo

Estos modelos se utilizan ampliamente para generar subtítulos de vídeo combinando datos visuales con audio y texto contextual. Por ejemplo, el sistema de subtitulación automática de YouTube emplea el aprendizaje multimodal para sincronizar las palabras habladas con el contenido visual, mejorando la accesibilidad.

Ejemplos de modelos multimodales

  • CLIP (Preentrenamiento Contrastivo Lenguaje-Imagen): Desarrollado por OpenAI, CLIP tiende un puente entre la comprensión de textos e imágenes, permitiendo tareas como la clasificación de imágenes sin disparos. Empareja datos de imágenes con descripciones textuales para comprender ambas modalidades de forma colectiva. Más información sobre CLIP.
  • Visión GPT-4: El modelo GPT-4 de OpenAI integra entradas textuales y visuales, lo que permite a los usuarios hacer preguntas sobre imágenes. Esta capacidad tiene aplicaciones en el análisis de documentos y en herramientas educativas. Explora GPT-4 para conocer sus capacidades más amplias.

Ventajas sobre los modelos monomodales

  • Robustez: Los modelos multimodales pueden compensar los datos ausentes o ruidosos en una modalidad apoyándose en las demás, lo que garantiza un rendimiento coherente.
  • Comprensión contextual: Estos modelos proporcionan un contexto más rico al integrar diversas fuentes de datos, lo que permite obtener resultados más matizados y precisos.
  • Casos de uso más amplios: Las capacidades multimodales desbloquean aplicaciones que los sistemas monomodales no pueden manejar, como el análisis audiovisual sincronizado para la transcripción en tiempo real.

Retos y orientaciones futuras

A pesar de su potencial, los modelos multimodales se enfrentan a retos, como el coste computacional de procesar diversos tipos de datos y la complejidad de alinear las modalidades. Innovaciones como las técnicas de entrenamiento con parámetros eficientes (por ejemplo, PEFT) y las arquitecturas escalables como los transformadores están abordando estas limitaciones. Explora cómo los transformadores están dando forma a los futuros avances en IA.

Los modelos multimodales están a punto de convertirse en una parte aún más integral de la IA, allanando el camino para sistemas que puedan comprender e interactuar perfectamente con el mundo. Herramientas como Ultralytics HUB permiten a los usuarios desarrollar e implantar estos modelos avanzados, democratizando el acceso a las capacidades más avanzadas de la IA.

Leer todo