Possiblement tots recordarem l’impacte que va tenir la presentació de ChatGPT. Era finals de novembre de 2022 i les notícies i reaccions al respecte eren constants. La seva difusió va ser tan extraordinària que els mateixos enginyers d’OpenAI, creadors del model, es van sorprendre per la cobertura i l’atenció que va rebre[1].
ChatGPT va guanyar un milió d’usuaris en cinc dies[2] i 100 milions en dos mesos, convertint-se en l’aplicació d’internet amb el creixement més ràpid de la història[3]. Durant aquell desembre, ChatGPT va ser àmpliament avaluat com a posseïdor d’algunes capacitats innovadores i poderoses sense precedents. El The New York Times el va anomenar “el millor xatbot d’intel·ligència artificial mai llançat al públic en general”[4]. La revista The Atlantic el va mencionar com un dels avenços més importants de l’any, destacant com “l’erupció de la IA generativa pot canviar la nostra forma de pensar sobre com treballem, com raonem i sobre què és la creativitat humana”[5]. El portal Vox apuntava: “ChatGPT és la primera introducció pràctica del públic general a com de poderosa s’ha tornat la IA moderna, resultant en una estupefacció generalitzada”[6]. Paul Graham, cofundador del portal especialitzat en tecnologia Y Combinator va tuitejar: “El més sorprenent de la reacció global a ChatGPT no és només el nombre de persones que estan impressionades, sinó els seus perfils i qui són. Persones que no s’entusiasmen amb qualsevol novetat capdavantera. Està passant alguna cosa realment gran”[7].
ChatGPT és un xatbot d’intel·ligència artificial generativa basat en un gran model de llenguatge (Large Language Model, LLM). ChatGPT pot generar respostes conversacionals semblants a les humanes i permet als usuaris afinar i dirigir una conversa cap a una longitud, format, estil, nivell de detall i llenguatge desitjats[8]. Des de la seva aparició han sorgit altres xatbots basats en LLMs com Gemini, Claude, Llama, Ernie, Grok, DeepSeek i Qwen2.5[9], i bona part de la societat ha integrat aquestes aplicacions en el seu dia a dia, ja sigui per a un ús laboral, domèstic o educatiu. Els usuaris utilitzen els LLMs per a un gran nombre d’aplicacions, sent possiblement la principal obtenir informació ràpida i com a alternativa útil als motors de cerca tradicionals, ja que pot proporcionar respostes instantànies i específiques sense la necessitat de navegar per múltiples enllaços, publicitat i text superflu[10]. Altres usos habituals són l’assistència a la redacció de textos, l’ajuda en la programació, la traducció de textos, el suport educatiu, la generació d’idees, la creació de personatges i diàlegs, la recomanació de contingut o simple acompanyament i entreteniment[11].
L’ús d’LLMs com el de ChatGPT pot presentar limitacions o no resultar òptim en algunes d’aquestes aplicacions per diverses raons. Per una banda, es tracta de models que generen contingut a partir del coneixement que assoleixen durant l’entrenament amb grans volums de dades. Cal considerar, però, les implicacions ètiques i pràctiques d’aquest entrenament. L’ús de dades personals i contingut protegit planteja qüestions de privacitat i propietat intel·lectual[12], mentre que la necessitat de dades d’alta qualitat pot afavorir el monopoli de grans empreses tecnològiques[13]. D’aquesta forma, en demanar una dada concreta aquests models generen la resposta més probable i poden cometre errors coneguts com “al·lucinacions“, on generen informació incorrecta o inventada[14]. Això pot ser especialment problemàtic en àmbits que requereixen precisió, com la investigació acadèmica o la redacció de contingut factual. Per exemple, en un àmbit més domèstic, si demanem una recepta de cuina a partir dels ingredients que tenim a la nevera, les receptes generades poden semblar correctes en teoria, però no funcionar a la pràctica[15]. Per altra banda, els LLMs generalistes s’entrenen a partir d’un ampli i divers rang de contingut de diverses fonts, incloent pàgines web, llibres, literatura científica, premsa, portals com viquipèdia, repositoris de codi, contingut de xarxes socials o documents legals[16]. Per a que els models puguin “recordar” tot aquest coneixement és necessari que les xarxes neuronals que els formen siguin molt grans perquè puguin emmagatzemar la informació en els seus paràmetres, anomenats pesos. Per tant, si volem que un LLM sigui capaç de respondre sobre literatura, cuina o enginyeria i fer-ho en diversos idiomes, el tamany del model serà necessàriament molt gran. S’estima que el model ChatGPT-4 compta amb 1.8 trilions de paràmetres[17], el que implicaria una infraestructura d’unes 3600GB de RAM per desplegar una sola instància del model[18].
Ara bé, si pensem en aplicacions més concretes que requereixin un coneixement expert profund però més limitat, entren en joc els anomenats petits models de llenguatge (Small Language Models, SLMs). Es tracta de models d’intel·ligència artificial dissenyats per processar i generar llenguatge natural amb significativament menys paràmetres en comparació amb els LLMs, els grans models de llenguatge[19]. Els SLMs destaquen en tasques especialitzades amb un rendiment més ràpid i un menor consum d’energia. Els investigadors estan cada vegada més centrats en desenvolupar SLMs més sofisticats que equilibren el rendiment, l’eficiència i les restriccions computacionals, fent-los atractius per a implementacions AI pràctiques i reals[20]. A més, unit a una menor necessitat de recursos computacionals per al seu entrenament i desplegament, la disponibilitat de models oberts permet als desenvolupadors i investigadors adaptar i millorar els models segons necessitats concretes, en contrast amb els models comercials tancats, accessibles només via API, que sovint limiten la capacitat d’adaptació i personalització.
Més enllà de retenir informació, un factor potser encara més rellevant és la capacitat de comprensió i raonament. Aquestes funcionalitats permeten generar agents basats en LLMs (o SLMs) que són capaços d’utilitzar eines per obtenir informació de motors de cerca per a la recuperació d’informació, interaccionar amb APIs per accedir a serveis externs o bases de dades, accedir a sistemes de fitxers per llegir i escriure dades, habilitar operacions matemàtiques complexes o donar accés a models enllaçats[21].
En aquest context de creixement i evolució dels models de llenguatge constant, és important que considerem adoptar i adaptar petits models de llenguatge quan desenvolupem eines basades en models de llenguatge natural. Els SLMs ens ofereixen l’oportunitat de personalitzar solucions amb un menor consum de recursos, permetent-nos desenvolupar aplicacions més eficients i adaptades a les nostres necessitats concretes. Treballar amb aquests models ens obliga a estar atents a l’estat de l’art i noves tendències, però ens proporciona una capacitat d’adaptació que ens dóna una major autonomia i ens permet afegir un valor significatiu a les nostres solucions tecnològiques. En aquest sentit, cal també recordar que el BSC, en el marc del Projecte Aina, ha desenvolupat el model salamandra, de 7 i 2 bilions de paràmetres[22], especialment entrenat amb contingut en llengua catalana. Hem d’impulsar conjuntament aquestes iniciatives per continuar sent autònoms i competitius.
Referències:
[1] https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
[2] https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months
[3] https://www.theguardian.com/technology/2023/feb/02/chatgpt-100-million-users-open-ai-fastest-growing-app
[4] https://www.nytimes.com/2022/12/05/technology/chatgpt-ai-twitter.html
[5] https://www.theatlantic.com/newsletters/archive/2022/12/technology-medicine-law-ai-10-breakthroughs-2022/672390/
[6] https://www.vox.com/future-perfect/2022/12/15/23509014/chatgpt-artificial-intelligence-openai-language-models-ai-risk-google
[7] https://x.com/paulg/status/1598698665337561088
[8] https://en.wikipedia.org/wiki/ChatGPT
[9] https://www.nature.com/articles/s42256-023-00655-z
https://arxiv.org/abs/2412.19437
https://arxiv.org/abs/2412.15115
[10] https://www.pocket-lint.com/ways-people-are-using-chatgpt/
[11] https://www.pocket-lint.com/ways-people-are-using-chatgpt/
[12] https://www.businessinsider.com/meta-ai-chatbot-says-trained-on-youtube-videos
[13] https://www.unite.ai/the-ai-monopoly-how-big-tech-controls-data-and-innovation/
[14] https://www.uoc.edu/ca/news/2024/001-errors-chat-gpt
[15] https://www.ara.cat/media/chatgpt-et-dona-respostes-erronies-aixi-s-d-utilitzar_1_4772087.html
[16] https://oxylabs.io/blog/llm-training-data
[17] https://semianalysis.com/2023/07/10/gpt-4-architecture-infrastructure/
[18] https://blog.spheron.network/how-much-gpu-memory-is-required-to-run-a-large-language-model-find-out-here
[19] https://www.ibm.com/think/topics/small-language-models
[20] https://www.superannotate.com/blog/small-language-models
[21] https://arxiv.org/html/2402.06196v1
https://fabrity.com/blog/llm-agents-the-next-big-thing-for-genai/
[22] https://langtech-bsc.gitbook.io/aina-kit/models/models-de-text
