La evolución multimodal en la IA: hacia una comprensión integral del mundo

Los seres humanos utilizamos nuestros 5 sentidos para percibir imágenes, olores, sonidos, texturas y sabores, que utilizamos para entender el mundo, actuar y ganar conocimiento del mismo. La IA se utiliza en una amplia gama de aplicaciones prácticas y su principal objetivo es resolver problemas específicos o mejorar la eficiencia en tareas concretas, además de explorar y comprender mejor la inteligencia. Una de las formas a través de la cual la IA alcanza este objetivo es a través de la simulación de ciertos aspectos de la inteligencia humana concentrándose principalmente en imitar y procesar la “percepción” y respuesta humana a través de datos de un solo tipo obtenidos de un solo canal que puede ser visual o auditivo. Esto está cambiando y se están desarrollando modelos más holísticos y acordes con el mundo real, que es multimodal. No tener en cuenta la diversidad de información que recibimos y procesamos simultáneamente es un factor limitante en las aplicaciones a problemas reales. Por el contrario, la capacidad de procesar integradamente datos de diferentes tipos representa un salto cualitativo dentro de la tecnología IA porque la hace adaptable a situaciones diferentes, permite comprender mejor el mundo y ganar conocimiento y porqué se pueden obtener soluciones más ricas y precisas .

Dentro de la IA generativa, en particular, se están realizando esfuerzos en esta dirección y cada vez más se van incorporando datos multimodales a los modelos de aprendizaje. Hoy en día, la IA generativa multimodal se encuentra entre los principales retos tecnológicos de la Inteligencia Artificial para 2024.

Desde una perspectiva histórica, la IA multimodal no es algo nuevo. Ya en 1968 Terry Winograd creó un sistema que podía manipular y razonar dentro de un mundo de blogs siguiendo instrucciones de un usuario. Del mismo modo, Siri (Apple, 2011) puede considerarse un ejemplo de IA multimodal, donde la entrada es la voz humana y la salida puede ser una acción o un texto.

Actualmente la IA multimodal es uno de los focos de las grandes tecnológicas, que se esfuerzan continuamente en conseguir más capacidades para la I Ai situarse al frente de esta tecnología. Así es como Open-AI desarrolló DALL.E , un programa que es capaz de generar imágenes a partir de descripciones de texto y/u órdenes, y lo integró en ChaGPT PLUS a principios de este año, lo que permite a los usuarios generar imágenes utilizando el modelo DALL-E 3 dentro del chatbot ChatGPT PLUS. Más recientemente, Open-AI lanzó GPT-4V que es capaz de interpretar imágenes y ve junto con texto. GPT-4V permite a los usuarios cargar imágenes, hacer preguntas y obtener imágenes visuales.

Meta , otro competidor fuerte en el desarrollo de tecnología IA, creó el modelo multimodal Seamless M4T que tiene la capacidad de traducir y transcribir cerca de 100 idiomas por texto y ve permitiendo la comunicación directa entre dos personas que hablan idiomas distintos.

En la misma idea de combinar texto y voz en múltiples lenguas se ubica WHISPER , un reconocedor de voz de Open-AI , entrenado con 680.000 horas de datos recogidos en la web, que además es capaz de identificar el lenguaje y traducir a varios idiomas.

Google , por su parte, está cercano a lanzar GEMINIO lo que inicialmente sería la competencia de ChatGPT. La apuesta por GEMINI radicaba en su capacidad multimodal, y era capaz de procesar y entender distintos tipos de datos como audio, texto, imágenes y vídeos. Open AI se adelantó y lanzó GPT’4V, pero no hay que olvidar que Google tiene como ventaja el enorme repositorio de imágenes y vídeos recopilados a través de su buscador y de YouTube.

Pero la multimodalidad no debe limitarse sólo a texto, imágenes y voz, y así lo ve Meta , que más allá de Seamless M4T, está desarrollando ImageBind , un sistema multimodal que incorpora texto, imágenes, vídeos, audio, y medidas de temperatura y movimiento. La visión es eventualmente añadir datos sensoriales como tacto y olor entre otros.

Por último, CÓDIGO , de Microsoft , es un modelo de IA generativo que es capaz de procesar simultáneamente distintos tipos de datos y de generar una composición coherente de varios de estos tipos.

Por lo que respecta a las aplicaciones, la IA multimodal abre ampliamente el espectro de posibilidades. Pueden enumerarse infinidad. En los siguientes párrafos se dará una pequeñísima lista de ejemplos para ilustrarlo.

Uno de los dominios más llamados cuando se habla de multimodalidad es la salud , donde la combinación de datos diversos como imágenes médicas, historial del paciente y datos de sensores pueden mejorar tanto el diagnóstico como el tratamiento de enfermedades.

En el sector del automoción , por ejemplo, la IA multimodal mejora la seguridad mediante la fusión de datos provenientes de cámaras, radares, Lidar y otros sensores para tomar decisiones rápidas en entornos de conducción complejos.

En el área del educación personalizada, la IA multimodal puede analizar textos, vídeos de clases y exámenes para adaptar los contenidos y dar feedback.

En el sector del entretenimiento , la IA multimodal se usa para crear experiencias inmersivas en aplicaciones de realidad aumentada combinando elementos visuales, auditivos y táctiles.

En el campo del accesibilidad , la IA multimodal puede ayudar a personas con discapacidad permitiendo una comunicación más natural con los ordenadores, mediante la traducción del lenguaje oral a escrito o viceversa y la manipulación de imágenes y vídeos a través de instrucciones habladas.

En conclusión, la IA multimodal tiene el potencial de llevarnos a un nuevo nivel de inteligencia digital, haciendo que la tecnología sea más inclusiva y eficiente en un amplio espectro de aplicaciones, sin olvidar todas las implicaciones éticas de su puesta en marcha.

Esta disciplina, dentro de la IA apenas comienza. Todavía existe un largo camino por recorrer que van desde solucionar el problema del exponencial crecimiento de requerimiento de recursos computacionales que se genera cada vez que se incorpora una nueva modalidad de datos, pasando por la propia integración de datos diversos que ya es bastante desafiante, hasta la incorporación de nuevas modalidades sensoriales cuya digitalización no están todavía del todo desarrolladas como el .

Al ritmo en el que las grandes empresas tecnológicas van investigando y avanzando en relación con la IA multimodal, es bastante probable que estemos viendo resultados de gran impacto en los próximos meses y años.

Referencias

https://openai.com/research/whisper. (sf).
Beyond GPT-4: What’s New?. Four major trends en Gen AI: LLM tono… | by Luhui Hu | Siete, 2023 | Towards AI
The 10 Biggest Generative AI Trends For 2024 Everyone Must Be Ready For Now (forbes.com)
DALL-E 3 ya está disponible en ChatGPT (hipertextual.com)
GPT-4V: la nueva versión de ChatGPT lanzada por OpenAI – Planeta Chatbot
Multimodal Artificial Intelligence: Revolution in AI Comprehension – Civilsdaily
Breaking cross-modal boundaries in multimodal AI: Introducing CoDi , componible diffusion por año-to-año generación – Microsoft Research

María Eugenia Fuenmayor

Directora científica de Tecnologías Digitales

Eurecat

17 de enero de 2024

Espacios de datos. De la idea a la realidad, el caso de uso Boot-X

Roi Rodríguez de Bernardo

Bruselas, 16 de septiembre de 2020. Ursula Von Der Leyen destacó en el discurso del estado de la Unión que “Industry Data vale su peso […]

17 de abril de 2023

Consideraciones éticas en IA: de una cuestión filosófica a una necesidad de aplicación tangible

Albert Sabater Coll

Durante los últimos años, las consideraciones éticas de la inteligencia artificial (IA) han pasado de ser una cuestión filosófica de alto nivel a convertirse en […]

1 de febrero de 2023

Espacios de experimentación para una IA aceptable: Testbeds, Sandbox y Living Labs como herramientas reguladoras de aprendizaje

Dr. Fernando Vilariño

En junio de 2022, el gobierno español anunció en Bruselas el Sandbox de regulación de IA español. Uno Sandbox regulador es uno mecanismo utilizado por […]