Eficiencia y entrenamiento de redes neuronales profundas

Durante la pasada década, los esfuerzos de investigación en aprendizaje profundo se han dirigido hacia la creación de redes más complejas, grandes y rápidas. En este contexto, ImageNet se considera una de las primeras redes neuronales convolucionales profundas, que impresionó a la comunidad con su excelente rendimiento en tareas de reconocimiento de imágenes. En su configuración inicial, esta red tenía 60 millones de parámetros y 650.000 neuronas organizadas en cinco capas convolucionales. Para lograr la proeza de entrenar esta arquitectura en 2012, los autores tuvieron que recurrir a neuronas no saturadas y también optimizar al operador de convolución para las GPU. Desde entonces, las redes neuronales convolucionales (CNN) se han vuelto más y más profundas pasando de 100 capas a más de mil en pocos años.

El uso de estas enormes arquitecturas de CNN planteó nuevos retos en la formación de estas redes. Más concretamente, cada vez era más difícil garantizar su convergencia. Esto se debe a que la distribución de las entradas de cada capa cambia durante el entrenamiento a medida que cambian los parámetros de las capas anteriores. Esto ralentiza drásticamente su entrenamiento, puesto que requiere tasas de aprendizaje significativamente más bajas e inicializaciones muy cuidadosas. Esto hace que el entrenamiento sea notoriamente difícil y deba recurrirse a no-linealidades no saturantes. Ésta es la razón por la que los autores de ImageNet utilizaron este tipo de neurona para entrenar su modelo. Por tanto, no se trataba de una decisión de diseño sino de garantizar la convergencia del modelo. Otra forma de mitigar este problema consiste en el uso de ‘batch-normalization’, que permite el uso de tasas de aprendizaje mucho más altas y tener menos cuidado con la inicialización de los parámetros.

Por supuesto, la búsqueda de arquitecturas más profundas no es sólo un esfuerzo frívolo de los científicos de datos. La razón de esta investigación es responder a una pregunta fundamental del aprendizaje profundo: ‘obtener mejores redes es tan fácil como añadir más capas?’ Las ‘Deep Residual Networks (ResNet)’ tuvieron como objetivo responder a esta pregunta y, en el proceso, se convirtieron en una de las arquitecturas más influyentes en el estado del arte. En sus experimentos iniciales, descubrieron que para las arquitecturas de red más típicas, la respuesta a la pregunta era un claro NO. De hecho, en sus experimentos encontraron que una red con 56 capas funcionaba significativamente peor que otra sólo 20. Si la profundidad (es decir, el número de capas) era lo único que importaba para obtener la mejor precisión, una mayor red debería haber funcionado mejor que una red poco profunda y definitivamente no fue así. A pesar de que parezca contra-intuitivo, esta discrepancia se explicaba por la falta de ‘representación’ derivada del problema de optimizar una red neuronal tan grande. ResNet resolvió este problema inyectando conexiones residuales a la arquitectura de la red de forma que toda la optimización de la red mejorara significativamente y los resultados se siguieron (es decir, arquitecturas más profundas dieron mejores resultados).

Otro hecho interesante del entrenamiento de estas redes neuronales, es que parece que sólo una pequeña parte de la red (tanto pesas como neuronas) es la que contribuye de forma significativa a la predicción. De hecho, hay estudios que demuestran que se puede recortar entre el 95 y el 99% de una red neuronal (con criterio) sin apenas penalizar la precisión de la red original. Este hecho se conoce como la ‘hipótesis del billete de lotería’.

Los pesos de una red neuronal comienzan a inicializarse de forma aleatoria. En este punto, existen muchas subredes aleatorias en la red, pero parece que algunas tienen más ‘potencial’ para la predicción. Es decir, el optimizador cree que es matemáticamente mejor actualizar ese conjunto de pesos en detrimento de otros. Al final de este procedimiento, el optimizador ha desarrollado una subred para realizar todo el trabajo mientras las demás partes de la red no sirven para casi nada. Cada subred es un ‘ticket de lotería’, con una inicialización aleatoria y las inicializaciones favorables son los ‘tickets ganadores’ identificados por el optimizador. Por tanto, cuanto más entradas aleatorias haya, más probabilidad tendremos de encontrar un billete ganador. Es por ello que las redes más grandes por lo general funcionan mejor en línea con lo que se ha comentado antes sobre el aprendizaje profundo.

Aunque todavía quedan muchas preguntas abiertas en el área del aprendizaje profundo, la última década de investigación ha aportado algo más de luz sobre el funcionamiento de estas redes neuronales, su comportamiento a la vez que ha abierto nuevas preguntas e hipótesis que deben permitir avanzar el estado del arte en aprendizaje automático.

Dr. Vicent Ribas

Responsable de línea de investigación en Analítica de Datos en Medicina en Eurecat.

8 de septiembre de 2022

¿Ponemos límites a la Inteligencia Artificial?

Cesc Callejas

La inteligencia artificial (IA) se ha integrado en todas las facetas de nuestra vida sin que muchas veces seamos conscientes de ello. Sin embargo, siempre […]

8 de octubre de 2024

El Talento en Inteligencia Artificial en Cataluña

Josep Lladós

El 13 de diciembre de 2023 se celebró un Taller sobre Formación en IA en Cataluña, organizado por CIDAI y AIRA. El taller reunió a […]

4 de abril de 2025

La IA en el patrimonio cultural de 3Cat

Rafael Bermúdez

–