Generación de registros de salud electrónicos sintéticos de alta fidelidad y preservación de la privacidad – Google AI Blog

Generacion de registros de salud electronicos sinteticos de alta fidelidad

Análisis de Historias Clínicas Electrónicas (EHR) tiene un enorme potencial para mejorar la atención al paciente, medir cuantitativamente el rendimiento de las prácticas clínicas y facilitar la investigación clínica. Los modelos de estimación estadística y aprendizaje automático (ML) entrenados en datos de EHR se pueden usar para predecir la probabilidad de diversas enfermedades (como diabetes), realizar un seguimiento del bienestar del pacientey predecir cómo los pacientes responden a medicamentos específicos. Para tales modelos, los investigadores y los profesionales necesitan acceso a los datos de EHR. Sin embargo, puede ser un desafío aprovechar los datos de EHR mientras se garantiza la privacidad de los datos y se cumple con las normas de confidencialidad del paciente (como HIPAA).

Métodos convencionales para anonimizar datos (p. ej., desidentificación) suelen ser tediosos y costosos. Además, pueden distorsionar características importantes del conjunto de datos original, disminuyendo significativamente la utilidad de los datos; también pueden ser susceptibles a ataques a la privacidad. Alternativamente, un enfoque basado en la generación de datos sintéticos puede mantener tanto las características importantes del conjunto de datos como la privacidad.

Con ese fin, proponemos un marco de modelado generativo novedoso en “EHR-Safe: generación de registros de salud electrónicos sintéticos de alta fidelidad y preservación de la privacidad«. Con la metodología innovadora en EHR-Safe, demostramos que los datos sintéticos pueden satisfacer dos propiedades clave: (i) alta fidelidad (es decir, son útiles para la tarea de interés, como tener un rendimiento posterior similar cuando se utiliza un modelo de diagnóstico capacitados en ellos), (ii) cumplir con ciertas medidas de privacidad (es decir, no revelan la identidad real de ningún paciente). Nuestros resultados de vanguardia provienen de enfoques novedosos para codificar/descodificar características, normalizar distribuciones complejas, condicionar entrenamiento y representación de datos faltantes.

1673157519 651 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Generación de datos sintéticos a partir de los datos originales con EHR-Safe.

Desafíos de generar datos EHR sintéticos realistas

Existen múltiples desafíos fundamentales para generar datos EHR sintéticos. Los datos de EHR contienen características heterogéneas con diferentes características y distribuciones. Puede haber características numéricas (p. ej., presión arterial) y características categóricas con muchas o dos categorías (p. ej., códigos médicos, resultado de mortalidad). Algunos de estos pueden ser estáticos (es decir, no varían durante la ventana de modelado), mientras que otros varían con el tiempo, como las mediciones de laboratorio regulares o esporádicas. Las distribuciones pueden provenir de diferentes familias: las distribuciones categóricas pueden ser muy poco uniformes (p. ej., para grupos subrepresentados) y las distribuciones numéricas pueden ser muy sesgadas (p. ej., una pequeña proporción de valores son muy grandes mientras que la gran mayoría son pequeños). Dependiendo de la condición de un paciente, la cantidad de visitas también puede variar drásticamente: algunos pacientes visitan una clínica solo una vez, mientras que otros lo hacen cientos de veces, lo que genera una variación en la duración de la secuencia que suele ser mucho mayor en comparación con otros datos de series temporales. Puede haber una alta proporción de características faltantes en diferentes pacientes y pasos de tiempo, ya que no se recopilan todas las mediciones de laboratorio u otros datos de entrada.

1673157519 262 Generacion de registros de salud electronicos sinteticos de alta fidelidad
1673157520 795 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Ejemplos de datos reales de EHR: características numéricas temporales (Superior) y rasgos categóricos temporales (más bajo).

EHR-Safe: marco sintético de generación de datos EHR

EHR-Safe consta de codificador-decodificador secuencial arquitectura y redes adversarias generativas (GAN), representado en la siguiente figura. Debido a que los datos de EHR son heterogéneos (como se describió anteriormente), el modelado directo de los datos de EHR sin procesar es un desafío para las GAN. Para eludir esto, proponemos utilizar una arquitectura de codificador-decodificador secuencial, para aprender el mapeo de los datos brutos de EHR a las representaciones latentes, y viceversa.

1673157520 475 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Diagrama de bloques del marco EHR-Safe.

Mientras aprende el mapeo, las distribuciones esotéricas de características numéricas y categóricas plantean un gran desafío. Por ejemplo, algunos valores o rangos numéricos pueden dominar la distribución, pero la capacidad de modelar casos raros es esencial. El mapeo de características propuesto y la normalización estocástica (transformar las distribuciones de características originales en distribuciones uniformes sin pérdida de información) son clave para manejar dichos datos mediante la conversión a distribuciones para las cuales el entrenamiento del codificador-decodificador y GAN es más estable (los detalles se pueden encontrar en el papel). Las representaciones latentes asignadas, generadas por el codificador, se utilizan luego para el entrenamiento de GAN. Después de entrenar tanto el marco del codificador-descodificador como las GAN, EHR-Safe puede generar datos de EHR heterogéneos sintéticos a partir de cualquier entrada, para lo cual alimentamos vectores muestreados aleatoriamente. Tenga en cuenta que solo el generador y los decodificadores capacitados se utilizan para generar datos sintéticos.

conjuntos de datos

Nos enfocamos en dos conjuntos de datos de EHR del mundo real para mostrar el marco EHR-Safe, MIMIC-III y eUCI. Ambos son conjuntos de datos de pacientes hospitalizados que consisten en longitudes variables de secuencias e incluyen múltiples características numéricas y categóricas con componentes faltantes.

Resultados de fidelidad

Las métricas de fidelidad se centran en la calidad de los datos generados sintéticamente al medir la realidad de los datos sintéticos. Una mayor fidelidad implica que es más difícil diferenciar entre datos sintéticos y reales. Evaluamos la fidelidad de los datos sintéticos en términos de múltiples análisis cuantitativos y cualitativos.

Visualización

Tener una cobertura similar y evitar la subrepresentación de ciertos regímenes de datos son importantes para la generación de datos sintéticos. Como el de abajo t-SNE Según muestran los análisis, la cobertura de los datos sintéticos (azul) es muy similar a la de los datos originales (rojo). Con las métricas de inferencia de membresía (se presentarán en la sección de privacidad), también verificamos que EHR-Safe no solo memoriza los datos originales del tren.

1673157521 27 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Análisis t-SNE de datos temporales y estáticos en MIMIC-III (Superior) y eUCI (más bajo) conjuntos de datos.

Similitud estadística

Proporcionamos comparaciones cuantitativas de similitud estadística entre datos originales y sintéticos para cada función. La mayoría de las estadísticas están bien alineadas entre los datos originales y los sintéticos, por ejemplo, una medida de la Estadísticas de KS, es decir,. la diferencia máxima en el función de distribución acumulativa (CDF) entre los datos originales y sintéticos, son en su mayoría inferiores a 0,03. Se pueden encontrar tablas más detalladas en el papel. La siguiente figura ejemplifica los gráficos CDF para datos originales frente a sintéticos para tres características; en general, parecen muy similares en la mayoría de los casos.

1673157521 216 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Gráficos CDF de dos características entre datos EHR originales y sintéticos. Izquierda: Presión media de las vías respiratorias. Derecho: Alarma de volumen por minuto.

Utilidad

Debido a que uno de los casos de uso más importantes de los datos sintéticos es habilitar las innovaciones de ML, nos enfocamos en la métrica de fidelidad que mide la capacidad de los modelos entrenados en datos sintéticos para hacer predicciones precisas en datos reales. Comparamos el rendimiento de dicho modelo con un modelo equivalente entrenado con datos reales. Un rendimiento similar del modelo indicaría que los datos sintéticos capturan el contenido informativo relevante para la tarea. Como uno de los importantes casos de uso potencial de EHR, nos enfocamos en el tarea de predicción de mortalidad. Consideramos cuatro modelos predictivos diferentes: Conjunto de árbol de aumento de gradiente (GBDT), Bosque aleatorio (RF), Regresión logística (LR), Unidades recurrentes cerradas (GRU).

1673157521 713 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Rendimiento de la predicción de mortalidad con el modelo entrenado en datos reales vs sintéticos. Izquierda: MIMIC-III. Derecho: eUCI.

En la figura anterior, vemos que, en la mayoría de los escenarios, el entrenamiento con datos sintéticos y reales es muy similar en términos de Área bajo la curva de características operativas del receptor (AUC). En MIMIC-III, el mejor modelo (GBDT) sobre datos sintéticos es solo un 2,6 % peor que el mejor modelo sobre datos reales; mientras que en eICU, el mejor modelo (RF) en datos sintéticos es solo un 0,9 % peor.

Resultados de privacidad

Consideramos tres ataques de privacidad diferentes para cuantificar la solidez de los datos sintéticos con respecto a la privacidad.

  • Ataque de inferencia de membresía: un adversario predice si un sujeto conocido estaba presente en los datos de entrenamiento utilizados para entrenar el modelo de datos sintéticos.
  • Ataque de reidentificación: El adversario explora el probabilidad de que algunas características se vuelvan a identificar utilizando datos sintéticos y coincidiendo con los datos de entrenamiento.
  • Ataque de inferencia de atributos: El adversario predice el valor de las características sensibles utilizando datos sintéticos.
1673157522 345 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Evaluación del riesgo de privacidad a través de tres métricas de privacidad: inferencia de membresía (arriba a la izquierda), reidentificación (parte superior derecha) e inferencia de atributos (fondo). El valor ideal del riesgo de privacidad para la inferencia de membresía es la suposición aleatoria (0.5). Para la reidentificación, el caso ideal es reemplazar los datos sintéticos con datos originales disjuntos de retención.

La figura anterior resume los resultados junto con el valor ideal alcanzable para cada métrica. Observamos que las métricas de privacidad están muy cerca del ideal en todos los casos. El riesgo de comprender si una muestra de los datos originales es un miembro utilizado para entrenar el modelo está muy cerca de adivinar al azar; también verifica que EHR-Safe no solo memoriza los datos originales del tren. Para el ataque de inferencia de atributos, nos enfocamos en la tarea de predicción de inferir atributos específicos (por ejemplo, género, religión y estado civil) de otros atributos. Comparamos la precisión de la predicción cuando entrenamos un clasificador con datos reales contra el mismo clasificador entrenado con datos sintéticos. Debido a que las barras de EHR-Safe son todas más bajas, los resultados demuestran que el acceso a datos sintéticos no conduce a un mayor rendimiento de predicción en características específicas en comparación con el acceso a los datos originales.

Comparación con métodos alternativos

Comparamos EHR-Safe con alternativas (HoraGAN, RC-GAN, C-RNN-GAN) propuesto para la generación de datos sintéticos de series temporales. Como se muestra a continuación, EHR-Safe supera significativamente a cada uno.

1673157522 998 Generacion de registros de salud electronicos sinteticos de alta fidelidad
Desempeño de tareas posteriores (AUC) en comparación con las alternativas.

Conclusiones

Proponemos un marco de modelado generativo novedoso, EHR-Safe, que puede generar datos EHR sintéticos altamente realistas que son resistentes a los ataques a la privacidad. EHR-Safe se basa en redes antagónicas generativas aplicadas a los datos sin procesar codificados. Introducimos múltiples innovaciones en la arquitectura y los mecanismos de capacitación que están motivados por los desafíos clave de los datos de EHR. Estas innovaciones son clave para nuestros resultados que muestran propiedades casi idénticas con datos reales (cuando se consideran las capacidades posteriores deseadas) con una preservación de la privacidad casi ideal. Una dirección futura importante es la capacidad de modelado generativo para datos multimodales, incluidos texto e imágenes, ya que los datos EHR modernos pueden contener ambos.

Agradecimientos

Agradecemos las contribuciones de Michel Mizrahi, Nahid Farhady Ghalaty, Thomas Jarvinen, Ashwin S. Ravi, Peter Brune, Fanyu Kong, Dave Anderson, George Lee, Arie Meir, Farhana Bandukwala, Elli Kanal y Tomas Pfister.

Fuente del artículo

Deja un comentario