Cuantificación para un aprendizaje por refuerzo rápido y ambientalmente sostenible

Profundo aprendizaje reforzado (RL) continúa dando grandes pasos para resolver problemas de toma de decisiones secuenciales del mundo real, como la navegación con globos, física nuclear, robótica y juegos. A pesar de su promesa, uno de sus factores limitantes son los largos tiempos de entrenamiento. Si bien el enfoque actual para acelerar el entrenamiento de RL en tareas complejas y difíciles aprovecha entrenamiento distribuido Al escalar hasta cientos o incluso miles de nodos informáticos, aún requiere el uso de recursos de hardware significativos, lo que hace que la capacitación en RL sea costosa, al tiempo que aumenta su impacto ambiental. Sin embargo, trabajos recientes [1, 2] indica que las optimizaciones de rendimiento en el hardware existente pueden reducir la huella de carbono (es decir, total gases de efecto invernadero emisiones) de entrenamiento e inferencia.

RL también puede beneficiarse de técnicas de optimización de sistemas similares que pueden reducir el tiempo de capacitación, mejorar la utilización del hardware y reducir el dióxido de carbono (CO2) emisiones. Una de esas técnicas es la cuantización, un proceso que convierte el punto flotante de precisión total (FP32) números a menor precisión (int8) números y luego realiza el cálculo usando los números de menor precisión. La cuantificación puede ahorrar costos de almacenamiento de memoria y ancho de banda para un cálculo más rápido y con mayor eficiencia energética. La cuantificación se ha aplicado con éxito al aprendizaje supervisado para habilitar implementaciones perimetrales de modelos de aprendizaje automático (ML) y lograr entrenamiento más rápido. Sin embargo, sigue existiendo la oportunidad de aplicar la cuantificación al entrenamiento de RL.

Para ello presentamos “QuaRL: Cuantificación rápida y ambientalmente sostenible
Aprendizaje reforzado”, publicado en el Transacciones de investigación de aprendizaje automático diario, que presenta un nuevo paradigma llamado ActorQ que aplica cuantización para acelerar el entrenamiento de RL en 1.5-5.4x mientras mantiene el rendimiento. Además, demostramos que, en comparación con el entrenamiento en máxima precisión, la huella de carbono también se reduce significativamente en un factor de 1,9-3,8x.

Aplicación de cuantización al entrenamiento de RL

En el entrenamiento tradicional de RL, un aprendiz la política se aplica a un actor, que utiliza la política para explorar el entorno y recopilar muestras de datos. Las muestras recogidas por el actor luego son utilizados por el aprendiz para refinar continuamente la política inicial. Periódicamente, la política entrenada en el lado del alumno se utiliza para actualizar el del actor política. Para aplicar la cuantificación al entrenamiento de RL, desarrollamos el paradigma ActorQ. ActorQ realiza la misma secuencia descrita anteriormente, con una diferencia clave: la actualización de la política del alumno a los actores está cuantificada y el actor explora el entorno utilizando la política cuantificada int8 para recopilar muestras.

La aplicación de la cuantificación al entrenamiento de RL de esta manera tiene dos beneficios clave. Primero, reduce la huella de memoria de la politica Para el mismo ancho de banda máximo, se transfieren menos datos entre los alumnos y los actores, lo que reduce el costo de comunicación para las actualizaciones de políticas de los alumnos a los actores. En segundo lugar, los actores realizan inferencias sobre la política cuantificada para generar acciones para un estado ambiental dado. El proceso de inferencia cuantificada es mucho más rápido en comparación con la realización de inferencias con total precisión.

Cuantificacion para un aprendizaje por refuerzo rapido y ambientalmente sostenible
Una descripción general del entrenamiento tradicional de RL (izquierda) y entrenamiento ActorQ RL (Correcto).

En ActorQ, usamos el CUMBRE marco RL distribuido. El bloque cuantificador realiza una cuantificación uniforme que convierte la política FP32 a int8. El actor realiza la inferencia utilizando cálculos int8 optimizados. Aunque utilizamos la cuantificación uniforme al diseñar el bloque cuantificador, creemos que otros técnicas de cuantificación puede reemplazar la cuantificación uniforme y producir resultados similares. El alumno utiliza las muestras recopiladas por los actores para entrenar una política de red neuronal. Periódicamente, la política aprendida es cuantificada por el bloque cuantificador y transmitida a los actores.

La cuantificación mejora el tiempo y el rendimiento del entrenamiento de RL

Evaluamos ActorQ en una variedad de entornos, incluido el Paquete de control de mente profunda y el Gimnasio OpenAI. Demostramos la aceleración y el rendimiento mejorado de D4PG y DQN. Elegimos D4PG porque era el mejor algoritmo de aprendizaje en CUMBRE para tareas de Deepmind Control Suite, y DQN es un algoritmo RL estándar y ampliamente utilizado.

Observamos una aceleración significativa (entre 1,5x y 5,41x) en la formación de políticas de RL. Más importante aún, el rendimiento se mantiene incluso cuando los actores realizan una inferencia cuantificada int8. Las siguientes figuras demuestran esto para los agentes D4PG y DQN para las tareas de Deepmind Control Suite y OpenAI Gym.

Cuantificacion para un aprendizaje por refuerzo rapido y ambientalmente sostenible
Una comparación del entrenamiento de RL usando la política FP32 (q=32) y la política int8 cuantificada (q=8) para agentes D4PG en varias tareas de Deepmind Control Suite. La cuantización logra aceleraciones de 1,5x a 3,06x.
1664662914 723 Cuantificacion para un aprendizaje por refuerzo rapido y ambientalmente sostenible
Una comparación del entrenamiento de RL con la política FP32 (q=32) y la política int8 cuantificada (q=8) para agentes DQN en el entorno OpenAI Gym. La cuantización logra una aceleración de 2,2x a 5,41x.

La cuantificación reduce las emisiones de carbono

Aplicar cuantización en RL usando ActorQ mejora el tiempo de entrenamiento sin afectar el rendimiento. La consecuencia directa de usar el hardware de manera más eficiente es una menor huella de carbono. Medimos la mejora de la huella de carbono tomando el ratio de emisión de carbono cuando se usa la política FP32 durante el entrenamiento sobre la emisión de carbono cuando se usa la política int8 durante el entrenamiento.

Para medir la emisión de carbono para el experimento de entrenamiento RL, usamos el rastreador de impacto del experimento propuesto en trabajo prioritario. Instrumentamos el sistema ActorQ con API de monitor de carbono para medir la energía y las emisiones de carbono de cada experimento de entrenamiento.

En comparación con la emisión de carbono cuando se ejecuta con precisión completa (FP32), observamos que la cuantificación de las políticas reduce las emisiones de carbono entre 1,9x y 3,76x, según la tarea. Dado que los sistemas RL se escalan para ejecutarse en miles de aceleradores y núcleos de hardware distribuidos, creemos que la reducción absoluta de carbono (medida en kilogramos de CO2) puede ser bastante significativo.

1664662914 732 Cuantificacion para un aprendizaje por refuerzo rapido y ambientalmente sostenible
Comparación de emisiones de carbono entre la formación con política FP32 y política int8. La escala del eje X está normalizada a las emisiones de carbono de la política FP32. Mostrado por las barras rojas mayores que 1, ActorQ reduce las emisiones de carbono.

Conclusión y direcciones futuras

Presentamos ActorQ, un paradigma novedoso que aplica la cuantificación al entrenamiento de RL y logra mejoras de aceleración de 1.5-5.4x mientras mantiene el rendimiento. Además, demostramos que ActorQ puede reducir la huella de carbono del entrenamiento de RL en un factor de 1,9 a 3,8 veces en comparación con el entrenamiento de precisión total sin cuantificación.

ActorQ demuestra que la cuantificación se puede aplicar de manera efectiva a muchos aspectos de RL, desde obtener políticas cuantificadas eficientes y de alta calidad hasta reducir los tiempos de capacitación y las emisiones de carbono. A medida que RL continúa dando grandes pasos para resolver problemas del mundo real, creemos que hacer que la capacitación de RL sea sostenible será fundamental para su adopción. A medida que escalamos el entrenamiento de RL a miles de núcleos y GPU, incluso una mejora del 50 % (como hemos demostrado experimentalmente) generará ahorros significativos en el costo absoluto en dólares, la energía y las emisiones de carbono. Nuestro trabajo es el primer paso hacia la aplicación de la cuantificación al entrenamiento de RL para lograr un entrenamiento eficiente y ambientalmente sostenible.

Si bien nuestro diseño del cuantificador en ActorQ se basó en una cuantificación uniforme simple, creemos que se pueden aplicar otras formas de cuantificación, compresión y dispersión (p. ej., destilación, dispersión, etc.). Esperamos que el trabajo futuro considere la aplicación de métodos de compresión y cuantización más agresivos, lo que puede generar beneficios adicionales para el rendimiento y la compensación de precisión obtenidos por las políticas de RL entrenadas.

Expresiones de gratitud

Nos gustaría agradecer a nuestros coautores Max Lam, Sharad Chitlangia, Zishen Wan y Vijay Janapa Reddi (Universidad de Harvard) y Gabriel Barth-Maron (DeepMind) por su contribución a este trabajo. También agradecemos al equipo de Google Cloud por proporcionar créditos de investigación para iniciar este trabajo.

Fuente del artículo

Deja un comentario