Recuperación subespacial de datos heterogéneos con ruido no isotrópico

*= Contribuciones Iguales

La recuperación de subespacios lineales a partir de datos es una tarea fundamental e importante en estadística y aprendizaje automático. Motivados por la heterogeneidad en los entornos de aprendizaje federado, estudiamos una formulación básica de este problema: el análisis de componentes principales (PCA), con un enfoque en el tratamiento del ruido irregular. Nuestros datos provienen de usuarios con usuario aportando muestras de datos de un -distribución dimensional con media . Nuestro objetivo es recuperar el subespacio lineal compartido por usando los puntos de datos de todos los usuarios, donde cada punto de datos del usuario se forma agregando un vector de ruido medio cero independiente a . Si solo tenemos un punto de datos de cada usuario, la recuperación del subespacio es teóricamente imposible cuando las matrices de covarianza de los vectores de ruido pueden ser no esféricas, lo que requiere suposiciones restrictivas adicionales en trabajos anteriores. Evitamos estas suposiciones aprovechando al menos dos puntos de datos de cada usuario, lo que nos permite diseñar un estimador computable de manera eficiente bajo ruido no esférico y dependiente del usuario. Probamos un límite superior para el error de estimación de nuestro estimador en escenarios generales donde el número de puntos de datos y la cantidad de ruido pueden variar entre usuarios, y probamos un límite inferior de error teórico de la información que no solo coincide con el límite superior hasta una constante factor, pero también es válido incluso para el ruido gaussiano esférico. Esto implica que nuestro estimador no introduce error de estimación adicional (hasta un factor constante) debido a la irregularidad en el ruido. Mostramos resultados adicionales para un problema de regresión lineal en una configuración similar.

Fuente del artículo

Deja un comentario