El proyecto, liderado por Eurecat en colaboración con 3Cat, se ha embarcado de nuevo en la fabricación de nuevas herramientas hacia los asistentes periodísticos, en este caso para la descripción de fotos, explorando las capacidades sin precedentes de los modelos de lenguaje multimodales actuales.
La descripción de fotos en medios de comunicación a menudo es una tarea rutinaria, lejos de actividades intelectuales necesarias en la redacción de una noticia. Los pies de foto suelen atender criterios editoriales, mientras que la descripción de fotografías requiere una descripción en términos puramente visuales. Estas descripciones, incluidas en campos no visibles de los formatos digitales, tal como las páginas web, también llamados “textos alternativos”, a menudo no están presentes a causa de diferentes factores de los flujos de trabajo actuales. Esto hace que personas con limitaciones de accesibilidad no se puedan informar del mismo modo.
El desarrollo de nuevas herramientas basadas en modelos multimodales de inteligencia artificial generativa, optimizadas para la descripción de fotografías con fines informativos, pueden constituir un asistente periodístico que impacte positivamente en la calidad de la información, tanto en la creación de pies de foto, como en descripciones visuales con finalidad de accesibilidad.
En esta sesión, el CIDAI, en colaboración con 3Cat, se presentaron los resultados y conocimientos adquiridos durante la ejecución de uno de los Proyectos de Alto Impacto en el que se han usado herramientas de IA generativa multimodales.