Investigadores de Amazon proponen ‘MiCS’, un sistema de inteligencia artificial (IA) que logra un alto rendimiento de capacitación y una escalabilidad casi lineal en la nube mediante el uso exclusivo del paralelismo de datos

Los modelos gigantes son aquellos modelos que tienen que ser entrenados usando miles de millones o trillones de parámetros. Debido a los importantes gastos generales de comunicación, los marcos de trabajo de propósito general actuales para modelos tan enormes no pueden escalar de manera efectiva en plataformas de nube pública. En su estudio más reciente, investigadores de la Universidad John Hopkins, la Universidad de Pekín y Amazon Web Services sugirieron MiCS. El objetivo principal de este estudio es reducir los gastos generales de comunicación minimizando la escala de comunicación. Este estudio también ofrece pruebas experimentales de que al desarrollar arquitecturas, especialmente para redes neuronales profundas y de gran tamaño entrenadas en la nube pública, es esencial considerar la infraestructura de entrenamiento modelo. El artículo sobre las instancias de GPU AWS V100 y A100 demuestra cómo la distribución desigual de los pesos del modelo reduce la sobrecarga de comunicación entre nodos. Debido a que la mayor parte del intercambio de gradientes ocurre dentro de un nodo, el entrenamiento puede realizarse más rápidamente según el tamaño del modelo. El proyecto es un componente de los esfuerzos actuales para aumentar la eficacia de las sesiones de entrenamiento intensas.

Para redes neuronales profundas, pruebe las escalas de pérdida logarítmicamente con la cantidad de datos de entrada y los parámetros de red. Debido a esto, los esfuerzos de investigación y negocios se han centrado en los últimos años en la creación de redes neuronales de alta capacidad que se pueden utilizar para diversas tareas posteriores, como la sintonización supervisada. La escalabilidad de los cómputos de entrenamiento también aumentó, casi duplicándose cada seis meses, para satisfacer las demandas de entrenamiento de redes tan masivas. Se han sugerido diferentes algoritmos de fragmentación de parámetros, como ZeRO y GShard, para entrenar estos modelos a medida que el uso de redes profundas a gran escala se ha generalizado. Las estaciones de GPU locales con primitivas de comunicación de gran ancho de banda suelen ser las preferidas al crear marcos de prueba de concepto. Sin embargo, las aplicaciones industriales normalmente residen en la nube pública en la realidad. Debido a las restricciones y la accesibilidad de los componentes arquitectónicos en la nube, esto plantea obstáculos tecnológicos adicionales.

La nube pública utiliza componentes reutilizables definidos por software que simplifican la gestión de las instancias informáticas. A diferencia del ancho de banda entre nodos entre GPU, como NVIDIA NVLink y NVSwitch, los clústeres de máquinas virtuales en la nube suelen tener un ancho de banda entre nodos que es de 12 a 24 veces más lento. Como resultado, la sincronización de gradiente distribuida se convierte en un cuello de botella de entrenamiento importante para redes profundas extensas. Los parámetros del modelo deben estar lo más cerca posible de las GPU para reducir la comunicación entre nodos, según MiCS. Esto se puede lograr reduciendo el tamaño de la partición del modelo y dando preferencia a las GPU dentro del nodo. Se prefiere el menor número de nodos para dividir los pesos cuando se necesitan varios nodos para cubrir todo el rango de parámetros. Los investigadores también modifican el enfoque de acumulación de gradiente para incorporar una distribución de peso desigual. Como resultado, las discrepancias en la comunicación real se reflejan en el nivel algorítmico.

El informe presenta los resultados de muchos experimentos realizados en entornos de red de 100 Gbps y 400 Gbps. Se utilizan diferentes redes profundas de diferentes tamaños y recuentos de GPU para comparar el rendimiento. MiCS mejora constantemente el rendimiento hasta 2,82 veces para configuraciones de red de 100 Gbps y hasta 2,21 veces para casos de 400 Gbps. Los investigadores de Google Cloud también defendieron una estrategia similar anteriormente en una publicación de blog de GCP.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'MiCS: Near-linear Scaling for Training Gigantic Model on Public Cloud'. All Credit For This Research Goes To Researchers on This Project. Check out the paper, AWS article and reference article.

Please Don't Forget To Join Our ML Subreddit


Khushboo Gupta es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Goa. Le apasionan los campos del aprendizaje automático, el procesamiento del lenguaje natural y el desarrollo web. Le gusta aprender más sobre el campo técnico al participar en varios desafíos.


Fuente del artículo

¿Que te ha parecido?

Deja un comentario