Prof. Cecilio Angulo, Fundador d’IDEAI-UPC i President de l’ACIA.
En un món digitalitzat, les dades són el nou petroli, però només uns pocs disposen d’elles en quantitat i qualitat adients i en temps per a poder utilitzar algorismes d’intel·ligència artificial i ciència de dades que produeixin resultats satisfactoris. Per tant, són cada cop més qui es fabriquen el seu propi petroli de forma efectiva i a un cost molt més reduït. Estem parlant de les dades sintètiques.
La generació de dades sintètiques va néixer com una metodologia per preservar la privacitat de dades personals, en especial aquelles que comporten una component ètica i legal més clara, com a l’entorn clínic i de la salut. Ja sigui per un reemplaçament total a través d’un model de simulació, o bé a través de la imputació de dades com a forma de substitució d’informació del món real, les dades sintètiques permeten evitar l’ús de dades originals sense perdre fiabilitat algorísmica. Seguint aquest fil, també es van començar a utilitzar com una manera d’augmentar la mida de les bases de dades en visió per ordinador, tot modificant les dades originals amb transformacions versemblants de les imatges del món real per mitjà de canvis aleatoris d’il·luminació, color d’objectes, desplaçaments i rotacions, superposició d’imatges.
Ben aviat es va demostrar que aquesta informació anotada generada a partir de simulacions o algorismes era de fet una bona alternativa a les dades del món real. Tot i ser dades generades artificialment, són capaces de superar tests estadístics de comparativa entre funcions de distribució de probabilitat de dades reals i aquella distribució de la informació de les dades sintètiques. Atès que la majoria de sistemes discriminadors o generadors tenen per objectiu arribar només fins aquest grau estadístic de precisió, des de fa uns pocs anys els desenvolupadors de xarxes neurals profundes utilitzen de forma massiva dades sintètiques per tal d’entrenar els models.
De fet, el paradigma actual defensa que només a partir de l’ús de dades sintètiques en l’entrenament dels teus algorismes és possible construir models d’intel·ligència artificial valuosos i d’alta qualitat. L’ús d’aquestes dades sintètiques permet generar informació amb soroll o, fins i tot, explorar regions de dades on no es disposa de dades reals, que ajuden els algorismes a crear models més complets i robustos que aquells que només hagueren estat creats utilitzant dades del món real.
Ja hem comentat algunes formes de creació de dades sintètiques, a partir de models, per mitjà de canvis aleatoris versemblants, utilitzant una base de regles, tots ells sistemes generadors bàsics. Però, rinxolant el rínxol, també es possible generar aquestes dades sintètiques utilitzant uns altres sistemes algorísmics d’intel·ligència artificial generadors, com són les xarxes generatives antagòniques (GANs) o els sistemes d’autocodificació o autoencoders variacionals. En aquest cas, els sistemes generadors de dades sintètiques acaben reduint-se a un vector generador aleatori capaç de sintetitzar informació estadísticament equivalent a aquella que s’està utilitzant com a base real.
Finalment, aquests darrers dos anys la generació de dades sintètiques, completes o per imputació d’una part de la informació, s’està mostrant com un camí vàlid per la generació d’entorns segurs d’aprenentatge federat. Els sistemes d’aprenentatge actuen en local sobre dades pròpies i condicionen el seu entrenament amb dades sintètiques importades d’altres proveïdors de l’espai dades. Es garanteix d’aquesta manera un espai de dades segur i de compartició en funció de les especificacions acordades entre els proveïdors i l’usuari.