Compartir

En los últimos diez años, los modelos generativos han pasado de ser una línea prometedora de investigación del aprendizaje automático (ML) a convertirse en una de las tecnologías centrales de la inteligencia artificial (IA). Su evolución ha sido tan rápida que en apenas una década han pasado de generar resultados experimentales a producir texto, imágenes, audio, vídeo y datos sintéticos con un nivel de realismo y utilidad que ya está transformando sectores enteros.

Primero destacaron arquitecturas como autoencoders variacionales (VAE) y las redes antagónicas (GAN), capaces de generar imágenes y datos sintéticos realistas; después ganaron protagonismo los modelos basados en Transformers, que actualmente conforman la arquitectura base de los modelos grandes de lenguaje (LLMs) y, más recientemente, los modelos de difusión, que han mejorado notablemente la calidad, variedad y control sobre los resultados en dominios como el audio y video. Actualmente estas arquitecturas las vemos combinadas de manera innovadora en muchos modelos de IA, en una carrera efervescente por la generación altamente realista de datos sintéticos, que está haciendo la ficción realidad en el desarrollo aplicaciones científico-tecnológicas muy dispares, desde la automatización y simulación industrial, a la salud o la robótica. Aun con la aparición de nuevos retos a afrontar en temas de privacidad, sesgos, transparencia y confianza, no ha evitado la expansión del uso de una tecnología imparable, con un impacto cada vez mayor tanto económico como social.

Y es que, más allá del uso ya cotidiano de los modelos de lenguaje (LLMs) como ChatGPT, la generación de datos sintéticos está permitiendo ampliar la investigación y el desarrollo en ámbitos de alto valor social, por ejemplo, facilitando el intercambio de datos para ciencia, salud o políticas públicas. Así ocurre en casos de preservación de privacidad de datos sensibles, o por ejemplo ayudando a equilibrar la representación de datos de situaciones infrecuentes, emergencias o poblaciones poco observadas para mejorar así el entrenamiento de sistemas que deben funcionar más allá del caso promedio, tal como se viene haciendo en sistemas de conducción autónoma para prevención de accidentes.

Sin embargo, una faceta menos conocida de los modelos generativos es su enorme potencial predictivo. Su capacidad para aprender de forma no supervisada, sin necesidad de anotación, distribuciones extremadamente complejas de los datos, que son difíciles de modelar explícitamente a escala humana, está mostrando su habilidad para predecir situaciones futuras a partir de determinadas condiciones iniciales, una funcionalidad clave en múltiples aplicaciones innovadoras. Veamos algunos ejemplos:

  • Entrenar robots en entornos reales suele ser costoso y lento, no exento de riesgo físico. Los modelos multimodales de visión y lenguaje (LVM), la predicción de video de los llamados WorldModels actualmente en boga o la edición automática “inpainting” está permitiendo entrenar robots para realizar tareas de manipulación con alta destreza, sin necesidad de complejos modelos tridimensionales explícitos. Por ejemplo, un robot industrial o de logística puede aprender a identificar piezas, estimar trayectorias o anticipar colisiones antes de operar en el mundo físico usando exclusivamente una cámara convencional. Aquí el dato sintético no reemplaza del todo al real, pero sí acelera el entrenamiento y mejora la cobertura de situaciones raras.
  • Cuando observamos la atmósfera y el clima vemos que funcionan como un sistema enormemente complejo difícil de predecir, en el que intervienen muchas variables al mismo tiempo y donde pequeños cambios pueden producir resultados muy distintos. En este contexto, los modelos generativos, a menudo tratando los datos climáticos como series estructuradas temporales, están empezando a ser especialmente útiles, porque no solo aprenden a modelar implícitamente cómo se comporta el sistema a partir de grandes cantidades de datos, sino que además pueden generar distintos escenarios posibles a partir de una misma situación inicial. Esto permite anticipar mejor con qué probabilidad podría ocurrir cierto evento climático, algo muy valioso para prepararse ante fenómenos extremos como inundaciones, sequías o cambios bruscos de temperatura.
  • En salud, los modelos generativos están abriendo nuevas posibilidades para anticipar cómo evoluciona una enfermedad a lo largo del tiempo. Más allá de crear historiales clínicos o imágenes sintéticas, su valor está en aprender la trayectoria de un paciente y generar escenarios futuros plausibles a partir de su estado actual, para desarrollar los primeros sistemas capaces de predecir progresión, recaídas, respuesta a tratamientos o aparición de complicaciones. Esta línea de trabajo también se está explorando en iniciativas como PHASE IV AI (Grant Agreement Number 101095384), que desarrolla servicios de datos sanitarios sintéticos que cumplen con la privacidad para apoyar el desarrollo y la validación de una IA fiable en el ámbito de la salud. Trabajos recientes sobre modelos IA para la predicción de la evolución de nódulos pulmonares en tomografías, podrían utilizarse en poco tiempo para anticipar recaídas oncológicas, la progresión de enfermedades neurodegenerativas, o la aparición de complicaciones cardiovasculares, ayudando a identificar antes los casos de mayor riesgo y a apoyar la toma de decisiones clínicas.

 

En los próximos años, el verdadero potencial de los modelos generativos no estará solo en su capacidad para crear datos o contenido cada vez más realista, acelerando así muchos flujos productivos, sino también en su papel como herramientas para explorar lo que todavía no ha ocurrido. Su valor crecerá allí donde sea necesario anticipar escenarios complejos. En ese horizonte, la generación sintética dejará de verse únicamente como una técnica de apoyo al entrenamiento y pasará a convertirse en una infraestructura clave para la simulación, la predicción y la toma de decisiones. El reto será que ese avance vaya acompañado de garantías de calidad, transparencia y control, para que su impacto no sea solo técnicamente impresionante, sino también socialmente valioso.

Rafael Redondo
Responsable de la Línea de Imagen en la Unidad de Tecnologías Multimedia de Eurecat

GPT-3 (acrónimo del inglés Generative Pre-trained Transformer) es un modelo de lenguaje autorregresivo que utiliza aprendizaje profundo para producir texto realista de una calidad propia […]

En este contexto de crecimiento y evolución de los modelos de lenguaje constante, es importante que consideramos adoptar y adaptar pequeños modelos de lenguaje cuando desarrollamos herramientas basadas en modelos de lenguaje natural.

Durante los últimos años, las consideraciones éticas de la inteligencia artificial (IA) han pasado de ser una cuestión filosófica de alto nivel a convertirse en […]

CIDAI