Posiblemente todos recordemos el impacto que tuvo la presentación de ChatGPT. Era finales de noviembre de 2022 y las noticias y reacciones al respecto eran constantes. Su difusión fue tan extraordinaria que los propios ingenieros de OpenAI, creadores del modelo, se sorprendieron por la cobertura y atención que recibió[1].
ChatGPT ganó un millón de usuarios en cinco días[2] y 100 millones en dos meses, convirtiéndose en la aplicación de internet con el crecimiento más rápido de la historia[3]. Durante ese diciembre, ChatGPT fue ampliamente evaluado como poseedor de algunas capacidades innovadoras y poderosas sin precedentes. El The New York Times le llamó “el mejor chatbot de inteligencia artificial jamás lanzado al público en general”[4]. La revista The Atlantic lo mencionó como uno de los avances más importantes del año, destacando como “la erupción de la IA generativa puede cambiar nuestra forma de pensar sobre cómo trabajamos, cómo razonamos y sobre qué es la creatividad humana”[5]. El portal Vox apuntaba: «ChatGPT es la primera introducción práctica del público general a lo poderosa que se ha vuelto la IA moderna, resultando en una estupefacción generalizada»[6]. Paul Graham, cofundador del portal especializado en tecnología Y Combinator tuiteó: “Lo sorprendente de la reacción global en ChatGPT no es sólo el número de personas que están impresionadas, sino sus perfiles y quiénes son. Personas que no se entusiasman con cualquier novedad líder. Está pasando algo realmente grande”[7].
ChatGPT es un chatbot de inteligencia artificial generativa basado en un gran modelo de lenguaje (Large Language Model, LLM). ChatGPT puede generar respuestas conversacionales similares a las humanas y permite a los usuarios afinar y dirigir una conversación hacia una longitud, formato, estilo, nivel de detalle y lenguaje deseados[8]. Desde su aparición han surgido otros chatbots basados en LLMs como Gemini, Claude, Flama, Ernie, Grok, DeepSeek y Qwen2.5[9], y buena parte de la sociedad ha integrado estas aplicaciones en su día a día, ya sea para uso laboral, doméstico o educativo. Los usuarios utilizan los LLMs para un gran número de aplicaciones, siendo posiblemente la principal obtener información rápida y como alternativa útil a los motores de búsqueda tradicionales, ya que puede proporcionar respuestas instantáneas y específicas sin la necesidad de navegar por múltiples enlaces, publicidad y texto superfluo[10]. Otros usos habituales son la asistencia a la redacción de textos, la ayuda en la programación, la traducción de textos, el soporte educativo, la generación de ideas, la creación de personajes y diálogos, la recomendación de contenido o simple acompañamiento y entretenimiento[11].
El uso de LLMs como el de ChatGPT puede presentar limitaciones o no resultar óptimo en algunas de estas aplicaciones por diversas razones. Por un lado, se trata de modelos que generan contenido a partir del conocimiento que adquieren durante el entrenamiento con grandes volúmenes de datos. Sin embargo, hay que considerar las implicaciones éticas y prácticas de este entrenamiento. El uso de datos personales y contenido protegido plantea cuestiones de privacidad y propiedad intelectual[12], mientras que la necesidad de datos de alta calidad puede favorecer el monopolio de grandes empresas tecnológicas[13]. De esta forma, al pedir un dato concreto estos modelos generan la respuesta más probable y pueden cometer errores conocidos como “alucinaciones“, donde generan información incorrecta o inventada[14]. Esto puede resultar especialmente problemático en ámbitos que requieren precisión, como la investigación académica o la redacción de contenido factual. Por ejemplo, en un ámbito más doméstico, si pedimos una receta de cocina a partir de los ingredientes que tenemos en la nevera, las recetas generadas pueden parecer correctas en teoría, pero no funcionar en la práctica[15]. Por otra parte, los LLMs generalistas se entrenan a partir de un amplio y diverso rango de contenido de diversas fuentes, incluyendo páginas web, libros, literatura científica, prensa, portales como wikipedia, repositorios de código, contenido de redes sociales o documentos legales[16]. Para que los modelos puedan “recordar” todo este conocimiento, es necesario que las redes neuronales que los forman sean muy grandes para que puedan almacenar la información en sus parámetros, llamados pesos. Por tanto, si queremos que un LLM sea capaz de responder sobre literatura, cocina o ingeniería y hacerlo en varios idiomas, el tamaño del modelo será necesariamente muy grande. Se estima que el modelo ChatGPT-4 cuenta con 1.8 trillones de parámetros[17], lo que implicaría una infraestructura de unas 3600GB de RAM para desplegar una sola instancia del modelo[18].
Ahora bien, si pensamos en aplicaciones más concretas que requieran un conocimiento experto profundo pero más limitado, entran en juego los llamados pequeños modelos de lenguaje (Small Language Models, SLMs). Se trata de modelos de inteligencia artificial diseñados para procesar y generar lenguaje natural con significativamente menos parámetros en comparación con los LLMs, los grandes modelos de lenguaje[19]. Los SLMs destacan en tareas especializadas con un rendimiento más rápido y un menor consumo de energía. Los investigadores están cada vez más centrados en desarrollar SLMs más sofisticados que equilibran el rendimiento, la eficiencia y las restricciones computacionales, haciéndoles atractivos para implementaciones AI prácticas y reales[20]. Además, unido a una menor necesidad de recursos computacionales para su entrenamiento y despliegue, la disponibilidad de modelos abiertos permite a los desarrolladores e investigadores adaptar y mejorar los modelos según necesidades concretas, en contraste con los modelos comerciales cerrados, accesibles sólo vía API, que a menudo limitan la capacidad de adaptación y personalización.
Más allá de retener información, un factor quizás aún más relevante es la capacidad de comprensión y razonamiento. Estas funcionalidades permiten generar agentes basados en LLMs (o SLMs) que son capaces de utilizar herramientas para obtener información de motores de búsqueda para la recuperación de información, interaccionar con APIs para acceder a servicios externos o bases de datos, acceder a sistemas de archivos para leer y escribir datos, habilitar operaciones matemáticas complejas o dar acceso a modelos enlaces[21].
En este contexto de crecimiento y evolución de los modelos de lenguaje constante, es importante que consideremos adoptar y adaptar pequeños modelos de lenguaje al desarrollar herramientas basadas en modelos de lenguaje natural. Los SLM nos ofrecen la oportunidad de personalizar soluciones con un menor consumo de recursos, permitiéndonos desarrollar aplicaciones más eficientes y adaptadas a nuestras necesidades concretas. Trabajar con estos modelos nos obliga a estar atentos al estado del arte y nuevas tendencias, pero nos proporciona una capacidad de adaptación que nos da mayor autonomía y nos permite añadir un valor significativo a nuestras soluciones tecnológicas. En este sentido, también hay que recordar que el BSC, en el marco del Proyecto Aina, ha desarrollado el modelo salamandra, de 7 y 2 billones de parámetros[22], especialmente entrenado con contenido en lengua catalana. Debemos impulsar conjuntamente estas iniciativas para seguir siendo autónomos y competitivos.
Referencias:
[1] https://www.technologyreview.com/2023/03/03/1069311/inside-story-oral-history-how-chatgpt-built-openai/
[2] https://www.euronews.com/next/2023/11/30/chatgpt-a-year-on-3-ways-the-ai-chatbot-has-completely-changed-the-world-in-12-months
[3] https://www.theguardian.com/technology/2023/feb/02/chatgpt-100-million-users-open-ai-fastest-growing-app
[4] https://www.nytimes.com/2022/12/05/technology/chatgpt-ai-twitter.html
[5] https://www.theatlantic.com/newsletters/archive/2022/12/technology-medicine-law-ai-10-breakthroughs-2022/672390/
[6] https://www.vox.com/future-perfect/2022/12/15/23509014/chatgpt-artificial-intelligence-openai-language-models-ai-risk-google
[7] https://x.com/paulg/status/1598698665337561088
[8] https://en.wikipedia.org/wiki/ChatGPT
[9] https://www.nature.com/articles/s42256-023-00655-z https://archiv.org/abs/2412.19437 https://archiv.org/abs/2412.15115
[10] https://www.pocket-lint.com/ways-people-are-using-chatgpt/
[11] https://www.pocket-lint.com/ways-people-are-using-chatgpt/
[12] https://www.businessinsider.com/meta-ai-chatbot-says-trained-on-youtube-videos
[13] https://www.unite.ai/the-ai-monopoly-how-big-tech-controls-data-and-innovation/
[14] https://www.uoc.edu/ca/news/2024/001-errors-chat-gpt
[15] https://www.ara.cat/media/chatgpt-et-dona-respostes-erronies-aixi-sd-utilizar_1_4772087.html
[16] https://oxylabs.io/blog/llm-training-data
[17] https://semianalysis.com/2023/07/10/gpt-4-architecture-infrastructure/
[18] https://blog.spheron.network/how-much-gpu-memory-is-required-to-run-a-large-language-model-find-out-here
[19] https://www.ibm.com/think/topics/small-language-models
[20] https://www.superannotate.com/blog/small-language-models
[21] https://archiv.org/html/2402.06196v1 https://fabrity.com/blog/llm-agents-the-next-big-thing-for-genai/
[22] https://langtech-bsc.gitbook.io/aina-kit/models/models-de-text