El projecte, liderat per Eurecat en col·laboració amb 3Cat, s’ha embarcat de nou en la fabricació de noves eines cap als assistents periodístics, en aquest cas per la descripció de fotos, explorant les capacitats sense precedents dels models de llenguatge multimodals actuals.
La descripció de fotos en mitjans de comunicació sovint és una tasca rutinària, lluny d’activitats intel·lectuals necessàries en la redacció d’una notícia. Els peus de foto solen atendre criteris editorials, mentre que la descripció de fotografies requereix una descripció en termes purament visuals. Aquestes descripcions, incloses en camps no visibles dels formats digitals, tal com les pàgines web, també anomenats “texts alternatius”, sovint no són presents a causa de diferents factors en fluxos de treball actuals. Això fa que persones amb limitacions d’accessibilitat no es puguin informar de la mateixa manera.
El desenvolupament de noves eines basades en models multimodals d’intel·ligència artificial generativa, optimitzades per a la descripció de fotografies amb finalitats informatives, poden constituir un assistent periodístic que impacti positivament en la qualitat de la informació, tant en la creació de peus de foto, com en descripcions visuals amb finalitat d’accessibilitat.
En aquesta sessió, el CIDAI, en col·laboració amb 3Cat presentarà els resultats i coneixements adquirits durant l’execució d’un dels Projectes d’Alt Impacte on s’han fet servir eines d’IA generativa multimodals.