Marina Alonso Poal, Senior Data Scientist @ NTT DATA AI Center of Excellence
Adil Moujahid, Technical Manager @ NTT DATA AI Center of Excellence
GPT-3 (acrònim de l’anglès Generative Pre-trained Transformer) és un model de llenguatge autoregressiu que utilitza aprenentatge profund per produir text realista d’una qualitat pròpia a l’escrit per un humà a partir d’un context previ. Va ser creat l’any 2020 per OpenAI, un laboratori d’investigació d’IA fundat amb l’objectiu de promoure i desenvolupar una IA beneficiosa per a la humanitat. El model GPT-3 s’ha entrenat amb quantitats massives de dades rastrejades d’Internet, com per exemple llibres, articles o notícies i té més de 175.000 milions de paràmetres (és dos ordres de magnitud més gran que el seu predecessor, GPT-2).
Algunes de les aplicacions pràctiques que es poden crear amb GPT-3 són: completar un text semblant al que faria un humà, classificar un text, o respondre a preguntes formulades en llenguatge natural. En aquest enllaç podeu trobar un article de La Vanguardia que exemplifica a la perfecció l’impressionant comportament de GPT-3, el qual, havent vist només un paràgraf introductori, és capaç de generar tot un article sobre la IA.
En els últims anys, la popularitat de GPT-3 i OpenAI ha augmentat a causa de l’àmplia cobertura mediàtica que ha rebut el llançament de diversos models que utilitzen GPT-3 com a base com ara Codex i DALL-E. El primer, Codex, és un model entrenat amb milions de repositoris de codi públic de GitHub i és capaç de crear un codi funcional d’una qualitat impressionant en més d’una dotzena de llenguatges de programació. El segon, DALL-E, consisteix en una aplicació que, a partir de descripcions textuals, crea imatges amb un nivell de realitat i abstracció que ha impactat al món sencer.
Uns mesos després de la seva creació, al Novembre de 2021, OpenAI va posar a disposició dels usuaris l’accés als models GPT-3 mitjançant l’alliberament d’una API. Tanmateix, els usuaris finals no tenen accés al model subjacent i OpenAI requereix que les aplicacions API passin per una breu revisió per assegurar-se que compleixin les seves polítiques i requisits de seguretat.
GPT-3 és un model de llenguatge pre-entrenat, el qual significa que entén el llenguatge natural fins a una certa capacitat. Els desenvolupadors poden agafar el model bàsic de GPT-3 i ajustar-lo per resoldre tasques específiques. Justament, la potència de GPT-3 rau en la seva forma d’especialitzar-lo. Els models tradicionals d’aprenentatge automàtic que s’utilitzen en problemes de NLP (de l’anglès Natural Language Processing) requereixen grans quantitats de dades per aconseguir nivells acceptables de precisió. En canvi, les solucions basades en GPT-3 requereixen una petita quantitat de dades per aconseguir una precisió molt alta en moltes tasques de NLP. A més, ajustar un model de GPT-3 és senzill i no requereix coneixements avançats d’aprenentatge automàtic. Això redueix la barrera d’entrada per a desenvolupadors i empreses que volen crear solucions de NLP sofisticades. GPT-3 i altres productes similars s’han convertit en una palanca per al desenvolupament ràpid i fàcil d’una àmplia gamma de solucions d’IA.
A nivell local, mentre que les dades d’entrenament de GPT-2 estaven només en anglès, GPT-3 va ampliar l’abast del seu conjunt de dades d’entrenament per incloure la representació d’altres idiomes, tot i que aquests només representen un 7% del total de dades. Malgrat aquest percentatge limitat de dades no angleses, GPT-3 funciona de manera sorprenent en idiomes no globals com el català, donant resultats destacats com els següents:
- Pregunta a GPT-3: Quin és l’autor de poesia catalana més famós?
- Resposta GPT-3: El poeta català més famós és probablement Salvador Espriu.
Paral·lelament, l’any 2020 la Generalitat de Catalunya va posar en marxa AINA, un projecte de 13,5M€ que té com a objectiu principal la creació i ampliació d’un corpus de la llengua catalana per a poder així obtenir models lingüístics que cobreixin les seves diferents variants i registres.
GPT-3 és sens dubte un assoliment impressionant en tecnologia i enginyeria de software. Tot i així, comporta riscos i limitacions de les que tots hauríem de ser conscients. En primer lloc, GPT-3 és capaç de crear textos tan realistes que podria provocar un augment d’spams i continguts falsos. Probablement hauríem de tenir algun tipus de normativa que obligui als creadors de continguts a indicar si utilitzen aquest tipus de models. En segon lloc, el model GPT-3 és el que s’anomena com un “model de caixa negra” (no es té cap coneixement del perquè dels seus resultats) i hauríem de desenvolupar eines d’explicabilitat per entendre millor com fa les prediccions. En tercer lloc, el cost de l’entrenament GPT-3 des de zero és de l’ordre de milions de dòlars. Això vol dir que poques empreses tenen els mitjans per formar, mantenir i executar aquest tipus de models. Això podria provocar una concentració de capacitats potents d’IA en mans d’unes poques entitats gegants. Finalment, cal tenir en compte que entrenar un GPT-3 o altres grans models de NLP és car a nivell computacional i, per tant, consumeix molts recursos. Segons un estudi recent de Google i la Universitat de Califòrnia a Berkeley, l’entrenament del GPT-3 va produir la mateixa quantitat de tones de diòxid de carboni que el que produirien 120 cotxes de passatgers durant un any. Hem de ser conscients de l’impacte ambiental d’aquests models i assegurar-nos que utilitzem energia verda en el seu entrenament i funcionament.
El llançament públic de GPT-3 com a API es va fer fa només uns mesos i ja s’estan veient desenvolupadors que l’utilitzen en una varietat d’aplicacions impressionants. Estem segurs que les properes generacions de models lingüístics seran encara més impactants i tindran el potencial de transformar els processos empresarials basats en llenguatge natural i augmentar les capacitats humanes.