Stable Diffusion: un modelo para generar imágenes a partir de texto

En 2009, Fei-Fei Le presentó ImageNet como una base de datos con 1000 clases, cada una con 1000 imágenes, en la CVPR. Se creó la base de datos para proporcionar a la comunidad de Visión por Computadora un estándar de datos. En 2010, se lanzó la competición ILSVRC, utilizando ImageNet para evaluar modelos y algoritmos. En 2012, una red neuronal, AlexNet, ganó por primera vez esta competición, marcando un hito en la IA. Desde entonces, ha habido notables avances, con ejemplos como ChatGPT y modelos generativos de imágenes como sus máximos exponentes.

En esta ponencia se comentarán las tecnologías y conceptos que han resultado en el modelo de Stable Diffusion que es capaz de generar imágenes a partir de texto y vamos a explorar tanto sus capacidades como sus limitaciones.

Programa

Marco histórico de los modelos generativos de imágenes
Tecnologías y conceptos detrás del modelo de Stable Diffusion
Ventajas e inconvenientes del modelo
Aplicaciones

Masterclass impartida por CVC (core partner de CIDAI)

[descargas tipo="masterclass"]

Impartido por:

Coen Antes

Responsable de la Unidad de Innovación del CVC

Estudió Informática en la Universidad Tecnológica de Eindhoven en Holanda. Para completar su educación, participó en el Programa «Matemáticas para la Industria» en la misma Universidad y para terminar su máster realizó una estancia de seis meses en el Instituto Fraunhofer de Matemáticas para la Industria en Kaiserlautern. Después de la Universidad, trabajó en una compañía de Machine Vision, llamada Beltech, y durante tres años proporcionó soluciones de visión artificial para entornos industriales.
Después de estos años, decidió que necesitaba un cambio y así empezó a trabajar como Ingeniero de Apoyo a la Investigación en el Centro de Visión por Computador en Barcelona. Después de trabajar varios años como ingeniero y programador, es ahora el responsable de la Unidad de Innovación del CVC.