Asistencia inteligente en la descripción contextualizada de fotos para noticias

El proyecto, liderado por Eurecat en colaboración con 3Cat, se ha embarcado de nuevo en la fabricación de nuevas herramientas hacia los asistentes periodísticos, en este caso para la descripción de fotos, explorando las capacidades sin precedentes de los modelos de lenguaje multimodales actuales.

La descripción de fotos en medios de comunicación a menudo es una tarea rutinaria, lejos de actividades intelectuales necesarias en la redacción de una noticia. Los pies de foto suelen atender criterios editoriales, mientras que la descripción de fotografías requiere una descripción en términos puramente visuales. Estas descripciones, incluidas en campos no visibles de los formatos digitales, tal como las páginas web, también llamados “textos alternativos”, a menudo no están presentes a causa de diferentes factores de los flujos de trabajo actuales. Esto hace que personas con limitaciones de accesibilidad no se puedan informar del mismo modo.

El desarrollo de nuevas herramientas basadas en modelos multimodales de inteligencia artificial generativa, optimizadas para la descripción de fotografías con fines informativos, pueden constituir un asistente periodístico que impacte positivamente en la calidad de la información, tanto en la creación de pies de foto, como en descripciones visuales con finalidad de accesibilidad.

En esta sesión, el CIDAI, en colaboración con 3Cat, se presentaron los resultados y conocimientos adquiridos durante la ejecución de uno de los Proyectos de Alto Impacto en el que se han usado herramientas de IA generativa multimodales.

Agenda

Presentación Proyecto de Impacto «Asistencia inteligente en la descripción contextualizada de fotos para noticias»