Un nuevo sistema MLOps llamado ALaaS (Active-Learning-as-a-Service) adopta la filosofía de Machine-Learning-as-Service e implementa una arquitectura servidor-cliente

La IA centrada en datos es un tema nuevo que se centra en la ingeniería de datos para crear aplicaciones de IA utilizando modelos de aprendizaje automático (ML) listos para usar. Los esfuerzos anteriores se han centrado principalmente en la IA centrada en el modelo en un contexto estático. En este escenario, 1) se completa la recopilación de datos y la ingeniería, 2) y el objetivo principal es mejorar continuamente los modelos de ML para lograr un rendimiento excelente en los conjuntos de prueba. Sin embargo, las aplicaciones de IA del mundo real se enfrentan a circunstancias cada vez más complejas que la IA centrada en modelos no puede resolver por completo. Por ejemplo, los investigadores deben dedicar una gran cantidad de esfuerzo a la preparación de datos, lo que incluye el etiquetado de datos, la detección de errores, etc.

Mientras tanto, deben monitorear los datos para detectar la desviación de la distribución y actualizar los modelos en tiempo real. Tratar estas dificultades desde el punto de vista del modelo dará como resultado una solución subóptima. Como resultado, muchas iniciativas se centran actualmente en enfoques centrados en datos o fusionan prácticas centradas en modelos y centradas en datos para desarrollar y democratizar los sistemas de IA. Aunque el concepto de IA centrada en datos es nuevo, ya se han ofrecido varios estudios pioneros con contribuciones esenciales a la ingeniería de datos. Una dirección importante es el aprendizaje activo (AL). El objetivo de AL es eliminar el trabajo de etiquetado manual mientras se preserva e incluso mejora el rendimiento de los modelos ML.

Se sabe comúnmente que los modelos ML son extremadamente hambrientos de datos. Como resultado, para lograr un alto rendimiento (por ejemplo, precisión) que cumpla con los criterios de la aplicación, las personas siempre deben etiquetar una gran cantidad de datos durante la recopilación de datos. Este método requiere mucho tiempo y mano de obra, y con frecuencia se convierte en el cuello de botella en el desarrollo de aplicaciones ML. Para abordar el problema, AL emplea técnicas de AL para seleccionar las muestras de capacitación más representativas pero diversas de un extenso conjunto de datos de capacitación. Las piezas seleccionadas se envían luego a un oráculo (p. ej., anotadores humanos) para su etiquetado. Después de eso, solo estos subconjuntos de datos se utilizarán para entrenar modelos ML.

Todavía pueden obtener un modelo ML de rendimiento competitivo mientras reducen significativamente los gastos de etiquetado y capacitación. Sin embargo, el empleo de técnicas AL es una tarea compleja. Aplicar AL al desarrollo de aplicaciones de IA implica buscar, seleccionar e implementar algoritmos de AL. En su lugar, los usuarios deben crear un backend personalizado para ejecutar la canalización AL en su entorno (p. ej., un clúster privado y AWS). En otras palabras, deben realizar trabajos de ingeniería repetitivos con código repetitivo. Además, los usuarios deben considerar consideraciones de eficiencia y costo, ya que AL opera con frecuencia en grandes conjuntos de datos, y algunas técnicas de AL (p. ej., basadas en comités) implican ejecutar muchos modelos de ML para la selección de datos.

Aunque algunas herramientas de AL de código abierto reducen la barrera para implementar AL, son ineficientes. Una planificación inadecuada resultará en un proceso largo y costos adicionales. Proponen crear un backend eficiente para AL para abordar estas dificultades. Su sistema Active-Learning-as-a-Service (ALaaS) (consulte la figura a continuación) puede realizar de manera eficiente métodos AL en conjuntos de datos masivos mediante el empleo de dispositivos múltiples o distribuidos. Para realizar las tareas de AL, utiliza una arquitectura de servidor-cliente. Como resultado, el sistema es fácil de instalar tanto en computadoras portátiles como en nubes públicas.

Fuente: https://arxiv.org/pdf/2207.09109.pdf

La arquitectura de ALaaS. El sistema tiene una arquitectura servidor-cliente que es simple de implementar. También es compatible con una variedad de métodos AL, zoológicos modelo y motores de servicio.

Después de la instalación, los usuarios pueden iniciar el sistema con un archivo de configuración simple creado con sus plantillas. Luego, el sistema ejecutará las tareas de AL de manera eficiente. Mientras tanto, se utilizarán diferentes técnicas de aceleración, como el almacenamiento en caché y el procesamiento por lotes de datos, para acelerar el proceso de AL. Además, su método tiene en cuenta la accesibilidad y la modularidad para que los no expertos puedan aplicar fácilmente las estrategias de AL guardadas en su zoológico de AL, y los expertos puedan ofrecer estrategias de AL más avanzadas para más escenarios. Los experimentos revelan que, en términos de latencia y rendimiento, su ALaaS supera todas las demás líneas de base. Investigaciones de ablación adicionales demuestran la eficacia de su diseño y revelan conocimientos más interesantes. El código, junto con la documentación, está disponible en GitHub.

This Article is written as a research summary article by Marktechpost Staff based on the research paper 'Active-Learning-as-a-Service: An Efficient MLOps System for Data-Centric AI'. All Credit For This Research Goes To Researchers on This Project. Check out the paper and github link.
Please Don't Forget To Join Our ML Subreddit


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.


Fuente del artículo

Deja un comentario