
María Eugenia Fuenmayor
Directora científica de Tecnologies Digitals
Eurecat
Els éssers humans utilitzem els nostres 5 sentits per percebre imatges, olors, sons, textures i sabors, que fem servir per entendre el món, actuar i guanyar coneixement del mateix . La IA s’utilitza en una àmplia gamma d’aplicacions pràctiques i el seu objectiu principal és resoldre problemes específics o millorar l’eficiència en tasques concretes, a més d’explorar i comprendre millor la intel·ligència. Una de les formes a través de la qual la IA aconsegueix aquest objectiu és a través de la simulació de certs aspectes de la intel·ligència humana concentrant-se principalment a imitar i processar la “percepció” i resposta humana a través de dades d’un sol tipus obtinguts de un sol canal que pot ser visual o auditiu. Això està canviant i s’estan desenvolupant models més holístics i d’acord amb el món real, que és multimodal. No tenir en compte la diversitat d’informació que rebem i processem simultàniament és un factor limitant en les aplicacions a problemes reals. Per contra, la capacitat de processar integradament dades de diferents tipus representa un salt qualitatiu dins de la tecnologia IA perquè la fa adaptable a situacions diferents, permet comprendre millor el món i guanyar coneixement i perquè es poden obtenir solucions més riques i precises .
Dins la IA generativa, en particular, s’estan fent esforços en aquesta direcció i cada cop més es van incorporant dades multimodals als models d’aprenentatge. Avui dia, la IA generativa multimodal es troba entre els principals reptes tecnològics de la Intel·ligència Artificial per al 2024.
Des de una perspectiva històrica, la IA multimodal no és una cosa nova. Ja el 1968 Terry Winograd va crear un sistema que podia manipular i raonar dins un món de blocs seguint instruccions d’un usuari. De la mateixa manera, Siri (Apple, 2011) es pot considerar un exemple d’IA multimodal, on l’entrada és la veu humana i la sortida pot ser una acció o un text.
Actualment la IA multimodal és un dels focus de les grans tecnològiques, que s’esforcen contínuament a aconseguir més capacitats per a la I Ai situar-se al capdavant d’aquesta tecnologia. És així com Open-AI va desenvolupar DALL.E , un programa que és capaç de generar imatges a partir de descripcions de text i/o ordres, i el va integrar a ChaGPT PLUS al començament d’aquest any, cosa que permet als usuaris generar imatges utilitzant el model DALL-E 3 dins del chatbot ChatGPT PLUS. Més recentment, Open-AI va llançar GPT-4V que és capaç d’interpretar imatges i veu juntament amb text. GPT-4V permet als usuaris carregar imatges, fer-ne preguntes i obtenir imatges visuals.
Meta , un altre competidor fort en el desenvolupament de tecnologia I A, va crear el model multimodal Seamless M4T que té la capacitat de traduir i transcriure prop de 100 idiomes per text i veu permetent la comunicació directa entre dues persones que parlen idiomes diferents.
En la mateixa idea de combinar text i veu en múltiples llengües se situa WHISPER , un reconeixedor de veu d’ Open-AI , entrenat amb 680.000 hores de dades recollides a la web, que a més és capaç d’identificar el llenguatge i traduir a diversos idiomes .
Google , per la seva banda, està proper a llançar GEMINI el que inicialment seria la competència de ChatGPT . L’aposta per GEMINI radicava en la seva capacitat multimodal, i era capaç de processar i entendre diferents tipus de dades com àudio, text, imatges i vídeos. Open AI es va avançar i va llançar GPT’4V, però cal no oblidar que Google té com a avantatge l’enorme repositori d’imatges i vídeos recopilats a través del seu cercador i de YouTube .
Però la multimodalitat no ha de limitar-se només a text, imatges i veu, i així ho veu Meta , que més enllà de Seamless M4T, està desenvolupant ImageBind , un sistema multimodal que incorpora text, imatges, vídeos, àudio, i mesures de temperatura i moviment. La visió és eventualment afegir dades sensorials com tacte i olor entre d’altres.
Finalment, CoDI , de Microsoft , és un model d’ IA generatiu que és capaç de processar simultàniament diferents tipus de dades i de generar una composició coherent de diversos d’aquests tipus.
Pel que fa a les aplicacions, la IA multimodal obre àmpliament l’espectre de possibilitats. Se’n poden enumerar infinitat. Als paràgrafs següents es donarà una petitíssima llista d’exemples per il·lustrar-ho.
Un dels dominis més anomenats quan es parla de multimodalitat és la salut , on la combinació de dades diverses com imatges mèdiques, historial del pacient i dades de sensors poden millorar tant el diagnòstic com el tractament de malalties.
Al sector de l’ automoció , per exemple, la IA multimodal millora la seguretat mitjançant la fusió de dades provinents de càmeres, radars, Lidar i altres sensors per prendre decisions ràpides en entorns de conducció complexos.
A l’àrea de l’ educació personalitzada, la IA multimodal pot analitzar textos, vídeos de classes i exàmens per adaptar els continguts i donar feedback .
Al sector de l’ entreteniment , la IA multimodal s’usa per crear experiències immersives en aplicacions de realitat augmentada combinant elements visuals, auditius i tàctils.
En el camp de l’ accessibilitat , la IA multimodal pot ajudar persones amb discapacitat permetent una comunicació més natural amb els ordinadors, mitjançant la traducció del llenguatge oral a escrit o viceversa i la manipulació d’imatges i vídeos a través d’instruccions parlades.
En conclusió, la IA multimodal té el potencial de portar-nos a un nou nivell d’intel·ligència digital, fent que la tecnologia sigui més inclusiva i eficient en un ample espectre d’aplicacions , sense oblidar totes les implicacions ètiques de la seva posada en marxa.
Aquesta disciplina, dins de la IA tot just comença. Encara hi ha un llarg camí per recórrer que van des de solucionar el problema de l’exponencial creixement de requeriment de recursos computacionals que es genera cada vegada que s’incorpora una nova modalitat de dades, passant per la pròpia integració de dades diverses que ja és força desafiant, fins a la incorporació de noves modalitats sensorials la digitalització de les quals no estan encara del tot desenvolupades com l’olfacte, el gust i el tacte.
Al ritme en què les grans empreses tecnològiques van investigant i avançant en relació amb la IA multimodal, és força probable que estiguem veient resultats de gran impacte en els propers mesos i anys.
Referències
- https://openai.com/research/whisper. (sf).
- Beyond GPT-4: What’s New?. Four major trends in Gen AI: LLM to… | by Luhui Hu | Set, 2023 | Towards AI
- The 10 Biggest Generative AI Trends For 2024 Everyone Must Be Ready For Now (forbes.com)
- DALL-E 3 ja està disponible a ChatGPT (hipertextual.com)
- GPT-4V: la nova versió de ChatGPT llançada per OpenAI – Planeta Chatbot
- Multimodal Artificial Intelligence: Revolution in AI Comprehension – Civilsdaily
- Breaking cross-modal boundaries in multimodal AI: Introducing CoDi , composable diffusion per any-to-any generation – Microsoft Research