Hacia la optimización universal de hiperparámetros con transformadores

Uno de los aspectos más importantes en el aprendizaje automático es optimización de hiperparámetroscomo encontrar el derecho hiperparámetros para una tarea de aprendizaje automático puede hacer o deshacer el rendimiento de un modelo. Internamente, usamos regularmente Visir de Google como plataforma predeterminada para la optimización de hiperparámetros. A lo largo de su implementación en los últimos 5 años, Google Vizier se ha utilizado más de 10 millones de veces, en una amplia clase de aplicaciones, incluidas aplicaciones de aprendizaje automático de visión, aprendizaje por refuerzo y lenguaje, pero también aplicaciones científicas como descubrimiento de proteínas y aceleración de hardware. . Dado que Google Vizier puede realizar un seguimiento de los patrones de uso en su base de datos, dichos datos, que generalmente consisten en trayectorias de optimización denominadas estudioscontienen información previa muy valiosa sobre objetivos realistas de ajuste de hiperparámetros y, por lo tanto, son muy atractivos para desarrollar mejores algoritmos.

Si bien ha habido muchos métodos anteriores para meta-aprendizaje sobre tales datos, estos métodos comparten un inconveniente común importante: sus procedimientos de metaaprendizaje dependen en gran medida de restricciones numéricas, como la cantidad de hiperparámetros y sus rangos de valores, y por lo tanto requieren que todas las tareas utilicen exactamente el mismo espacio total de búsqueda de hiperparámetros (es decir, especificaciones de ajuste) . La información textual adicional en el estudio, como su descripción y los nombres de los parámetros, también se usa raramente, pero puede contener información significativa sobre el tipo de tarea que se está optimizando. Tal inconveniente se vuelve más exacerbado para conjuntos de datos más grandes, que a menudo contienen cantidades significativas de información significativa.

Hoy en «Hacia el aprendizaje de optimizadores de hiperparámetros universales con transformadores”, estamos emocionados de presentar el OptFormer, uno de los primeros marcos basados ​​en Transformer para el ajuste de hiperparámetros, aprendido de los datos de optimización a gran escala mediante representaciones flexibles basadas en texto. Si bien numerosos trabajos han demostrado previamente las sólidas habilidades de Transformer en varios dominios, pocos han abordado sus capacidades basadas en la optimización, especialmente en el espacio de texto. Nuestros hallazgos centrales demuestran por primera vez algunas habilidades algorítmicas intrigantes de los transformadores: 1) una sola red de transformadores es capaz de imitar comportamientos altamente complejos de múltiples algoritmos en horizontes extensos; 2) la red es además capaz de predecir valores objetivos con mucha precisión, superando en muchos casos Procesos gaussianosque se utilizan comúnmente en algoritmos como Optimización bayesiana.

Enfoque: representación de los estudios como fichas
En lugar de usar solo datos numéricos como es común con los métodos anteriores, nuestro enfoque novedoso utiliza conceptos del lenguaje natural y representa todos de los datos del estudio como una secuencia de tokens, incluida la información textual de los metadatos iniciales. En la animación a continuación, esto incluye “CIFAR10”, “tasa de aprendizaje”, “tipo de optimizador” y “Precisión”, que informa al OptFormer de una tarea de clasificación de imágenes. El OptFormer luego genera nuevos hiperparámetros para probar la tarea, predice la precisión de la tarea y finalmente recibe la verdadera precisión, que se utilizará para generar los hiperparámetros de la siguiente ronda. Utilizando el Base de código T5Xel OptFormer se entrena de una manera típica de codificador-decodificador usando entrenamiento previo generativo estándar sobre una amplia gama de objetivos de optimización de hiperparámetros, incluidos datos del mundo real recopilados por Google Vizier, así como público hiperparámetro (HPO-B) y Puntos de referencia de optimización de caja negra (BBOB).

El OptFormer puede realizar la optimización de hiperparámetros al estilo codificador-decodificador, utilizando representaciones basadas en tokens. Inicialmente observa los metadatos basados ​​en texto (en el cuadro gris) que contienen información como el título, los nombres de los parámetros del espacio de búsqueda y las métricas para optimizar, y genera repetidamente predicciones de parámetros y valores objetivos.

Imitando Políticas
Como el OptFormer está entrenado sobre trayectorias de optimización por varios algoritmos, ahora puede imitar con precisión dichos algoritmos simultáneamente. Al proporcionar un aviso basado en texto en los metadatos para el algoritmo designado (por ejemplo, «Evolución regularizada»), el OptFormer imitará el comportamiento del algoritmo.

Sobre una función de prueba invisible, el OptFormer produce curvas de optimización casi idénticas al algoritmo original. Se muestran barras de error de media y desviación estándar.

Predicción de valores objetivos
Además, el OptFormer ahora puede predecir el valor objetivo que se está optimizando (por ejemplo, precisión) y proporcionar estimaciones de incertidumbre. Comparamos la predicción de OptFormer con un proceso gaussiano estándar y descubrimos que OptFormer podía hacer predicciones significativamente más precisas. Esto se puede ver a continuación cualitativamente, donde la curva de calibración de OptFormer sigue de cerca la línea diagonal ideal en una prueba de bondad de ajuste, y cuantitativamente a través de métricas agregadas estándar como registro de densidad predictiva.

Combinando Ambos: Optimización Basada en Modelos
Ahora podemos usar la capacidad de predicción de funciones de OptFormer para guiar mejor nuestra política imitada, similar a las técnicas que se encuentran en la optimización bayesiana. Usando Muestreo de Thompson, podemos clasificar las sugerencias de nuestra política imitada y solo seleccionar las mejores de acuerdo con el predictor de funciones. Esto produce una política aumentada capaz de superar nuestro algoritmo de optimización bayesiana de grado industrial en Google Vizier al optimizar los objetivos de referencia sintéticos clásicos y ajustar los hiperparámetros de tasa de aprendizaje de una canalización de capacitación CIFAR-10 estándar.

Izquierda: La mejor curva de optimización hasta ahora sobre un clásico Rosenbrok función. Derecha: La mejor curva de optimización hasta ahora sobre hiperparámetros para entrenar un ResNet-50 en CIFAR-10 vía init2winit. Ambos casos usan 10 semillas por curva y barras de error en los percentiles 25 y 75.

Conclusión
A lo largo de este trabajo, descubrimos algunas capacidades de optimización útiles y previamente desconocidas del Transformador. En el futuro, esperamos allanar el camino para una interfaz universal de optimización de hiperparámetros y caja negra que use datos numéricos y textuales para facilitar la optimización en espacios de búsqueda complejos e integre OptFormer con el resto del ecosistema de Transformer (por ejemplo, lenguaje, visión, código) aprovechando la amplia colección de datos de AutoML sin conexión de Google.

Agradecimientos
Los siguientes miembros de DeepMind y Google Research Brain Team realizaron esta investigación: Yutian Chen, Xingyou Song, Chansoo Lee, Zi Wang, Qiuyi Zhang, David Dohan, Kazuya Kawakami, Greg Kochanski, Arnaud Doucet, Marc’aurelio Ranzato, Sagi Perel, y Nando de Freitas.

También nos gustaría agradecer a Chris Dyer, Luke Metz, Kevin Murphy, Yannis Assael, Frank Hutter y Esteban Real por sus valiosos comentarios, y también a Sebastian Pineda Arango, Christof Angermueller y Zachary Nado por las discusiones técnicas sobre los puntos de referencia. Además, agradecemos a Daniel Golovin, Daiyi Peng, Yingjie Miao, Jack Parker-Holder, Jie Tan, Lucio Dery y Aleksandra Faust por múltiples conversaciones útiles.

Finalmente, agradecemos a Tom Small por diseñar la animación de esta publicación.

¿Que te ha parecido?

Deja un comentario