Un equipo conjunto de Google Research y DeepMind ha desarrollado un método de entrenamiento llamado SALT (Small model aided large model training) que reduce el tiempo de entrenamiento en un 28% al tiempo que mejora el rendimiento. ¿La innovación clave? El uso de modelos lingüísticos más pequeños como profesores asistentes.
El proceso se desarrolla en dos etapas. En primer lugar, el modelo más grande aprende de un modelo más pequeño mediante un proceso llamado destilación de conocimientos, en el que un modelo de IA enseña a otro compartiendo tanto sus respuestas como el grado de confianza que tiene en esas respuestas. Aunque la destilación de conocimientos suele implicar que los modelos más grandes enseñan a los más pequeños, el equipo de Google descubrió que podía funcionar al revés, al menos durante algunas partes del entrenamiento. En la segunda etapa, el modelo grande cambia a los métodos de entrenamiento convencionales.
El modelo más pequeño es especialmente útil en áreas en las que ya realiza predicciones sólidas. Para estas tareas más sencillas, el modelo grande aprende más rápido y de forma más fiable, antes de pasar al entrenamiento convencional para retos más complejos.
SALT podría hacer más accesible el entrenamiento de modelos de IA
El equipo probó SALT utilizando un modelo con 1.500 millones de parámetros para entrenar un modelo con 2.800 millones de parámetros. Los resultados fueron impresionantes: el modelo más grande alcanzó sus objetivos de rendimiento en sólo el 70% del tiempo de entrenamiento habitual, y obtuvo mejores resultados en diversas pruebas.
Las mejoras se hicieron realmente evidentes tras el ajuste fino para tareas específicas. Para los problemas de matemáticas, los modelos entrenados con SALT alcanzaron una precisión del 34,87%, frente al 31,84% de los modelos entrenados tradicionalmente. Las puntuaciones en comprensión lectora aumentaron del 63,7% al 67%.
Los investigadores también crearon una versión mejorada llamada SALTDS que selecciona cuidadosamente los datos de entrenamiento, centrándose en los ejemplos en los que el modelo más pequeño obtiene buenos resultados.
Aunque SALT puede ayudar a crear modelos lingüísticos más grandes y potentes, podría ser especialmente valioso para las organizaciones que trabajan con recursos limitados. En lugar de necesitar acceso a los modelos de IA más grandes, las instituciones podrían utilizar SALT para desarrollar modelos lingüísticos de alto rendimiento con una potencia informática más modesta, afirma el equipo.