En effectuant des calculs sur des données chiffrées, le chiffrement homomorphe permet de préserver la vie privée des patients

Auteur(s):

  • Francis Dutil
  • Tess Berthier
  • Lisa Di Jorio

L’un des principaux défis de la recherche et du développement dans le domaine de la santé fondés sur l’intelligence artificielle (IA) est la nécessité d’accéder à de vastes quantités de données réelles (RWD) et d’informations de santé personnelles (PHI) – tout en conservant ces informations fortement sécurisées.

Lorsqu’il s’agit de travailler avec des données relatives aux soins de santé, leur préservation et leur sécurité doivent toujours être une priorité, tant pour le patient que pour l’organisation. Il en va de la vie privée du premier et des actifs précieux du second (les données).

En tant qu’écosystème de soins de santé alimenté par l’IA, chez Imagia, nous travaillons sur des projets avec de multiples institutions. Bien qu’il soit possible d’aborder la problématique de recherche décentralisée où chaque fournisseur de données est traité comme des nœuds indépendants les uns des autres, il est de plus en plus évident que la fédération de l’analyse des données et de l’apprentissage entre les institutions offre de meilleures chances de généralisation. (1, 2).

Les défis liés à la protection de la vie privée figurent en tête de nos priorités. Grâce à notre expertise en IA et à nos recherches avancées en protection des données, nous pouvons adopter des stratégies qui nous permettent d’interagir avec les données de santé en toute sécurité. Dernièrement, nous avons examiné les stratégies de chiffrement homomorphe pour leurs capacités à protéger les données tout en facilitant la recherche distribuée et l’apprentissage fédéré.

 

Stratégies communes actuelles pour le partage des données sur les soins de santé

Une stratégie de partage des informations de santé personnelles (PHI) dans le cadre de l’IA consiste à demander aux établissements de recherche d’apporter leur propriété intellectuelle dans les locaux de l’institution. En d’autres termes, l’université ou l’entreprise pharmaceutique apporte son modèle d’apprentissage machine dans l’hôpital ou la clinique où les données sont collectées. Toutefois, cette solution peut compromettre la propriété intellectuelle de l’installation de recherche tout en risquant de compromettre la confidentialité des patients. De plus, dans le cadre de la recherche distribuée ou de l’apprentissage fédéré, il faudrait répéter cette opération dans de nombreuses institutions différentes.

Une autre solution consiste pour les institutions à chiffrer leurs données sur place, puis à les envoyer à un tiers qui les déchiffre dans une enclave sécurisée dans laquelle il travaillera. Après avoir effectué son travail, le tiers chiffre les résultats et les renvoie aux institutions. La transmission des données est protégée par un chiffrement, mais les données non chiffrées se trouvent désormais à deux endroits – l’institution d’origine et le centre de recherche – ce qui double les risques de fuite de données et de violation de la vie privée. Cette approche facilite toutefois l’apprentissage distribué et fédéré pour des résultats plus rapides.

Suivant cette logique, une stratégie sûre consisterait à partager des données chiffrées avec des tiers qui opéreraient alors directement sur des données chiffrées. Le chiffrement homomorphe est une stratégie de chiffrement avancée qui permet exactement cela.

 

Le chiffrement homomorphe résout le problème de la préservation de la vie privée

Le chiffrement homomorphe (CH) est une technologie émergente conçue pour traiter des données qui restent chiffrées. De plus, le résultat du calcul reste chiffré, et seule la partie qui détient la clé de chiffrement originale peut le déchiffrer. Le CH est particulièrement attrayant car il résiste à la plupart des types d’attaques, y compris les attaques quantiques.

 

Fig 1 – À gauche: un hôpital chiffre ses données sur place, puis les envoie à un collaborateur qui les déchiffre dans une enclave sécurisée pour effectuer ses opérations. Après avoir effectué son travail, le collaborateur chiffre les résultats et les retourne à l’hôpital. La transmission des données est protégée par un chiffrement, mais les données non chiffrées se trouvent désormais à deux endroits – l’institution d’origine et le centre de recherche – ce qui double les risques de fuite de données et de violation de la vie privée.
À droite: un hôpital chiffre ses données avant de les partager avec des collaborateurs, qui effectuent leurs calculs sur les données chiffrées. Les résultats chiffrés qui en découlent sont renvoyés à l’hôpital, seul détenteur d’une clé de déchiffrement pour cet ensemble de données.

Mais il y a un hic. Bien que le CH ait donné des résultats prometteurs dans de nombreux domaines (3, 4), il peut être difficile à appliquer avec les dernières avancées en matière d’IA, par exemple les méthodes d’apprentissage profond. En effet, les réseaux neuronaux utilisés en apprentissage profond ont de lourdes exigences en termes de calculs, il y a une limite à la complexité des modèles et opérations utilisées. Dans ce cadre, l’utilisation des approches par CH ajoutent une complexité non négligeable aux entraînements des modèles qui les rendent très vite irréalisables.

Par exemple, les premières techniques proposées utilisant le CH calculent une prédiction sur une image monochrome chiffrée de dimension 28×28 pixels en plus de trois minutes – contre moins d’une fraction de seconde sur la même image non chiffrée.

Néanmoins, en tirant parti de la recherche en protection des données et de son expertise en IA, Imagia a pu appliquer avec succès le CH dans son travail.

 

Deux cas d’applications réussies du chiffrement homomorphe (CH) dans le domaine de l’IA pour les soins de santé

Imagia a réalisé d’importants progrès dans la mise à l’échelle des solutions de CH afin de pouvoir les appliquer à l’imagerie médicale à haute résolution. Nous présentons ici deux de ces cas: un dans la prédiction clinique et un autre dans l’apprentissage fédéré.

 

Utilisation du CH pour l’analyse prédictive en imagerie médicale

Un premier cas d’utilisation d’une solution de protection de la vie privée basée sur le CH est celui d’un test clinique permettant de prédire un diagnostic par imagerie.

Dans ce scénario de prédiction, un hôpital chiffre ses données médicales (radiographie, tomodensitométrie, etc.) et les envoie à un tiers, qui effectue ensuite une prédiction basée sur l’IA grâce à un réseau neuronal convolutif (CNN, un type de réseau neuronal artificiel utilisé en imagerie).

Le tiers, par exemple un service en nuage, utilise son propre algorithme pour déduire un résultat chiffré (par exemple, si le patient est atteint d’une maladie). Le service ne peut pas déchiffrer le résultat et est donc incapable de donner un sens à sa propre prédiction, ce qui empêche toute utilisation secondaire non autorisée des données.

Le résultat chiffré est renvoyé à l’hôpital qui, en tant que partie chiffrante, possède la seule clé de déchiffrement des données et du résultat. De par sa conception, l’hôpital est le seul à pouvoir déchiffrer les données, ce qui les rend sûres même si le serveur est compromis. En outre, le service en nuage reste maître de sa propriété intellectuelle.

 

Fig 2 – À l’aide d’un CH, le centre clinique chiffrera ses images radiologiques avant de les envoyer pour une analyse prédictive. Les données chiffrées sont envoyées au réseau neuronal d’un tiers, où un collaborateur peut appliquer des modèles prédictifs aux données d’imagerie chiffrées, ce qui lui fournira un résultat chiffré. Ce résultat chiffré est renvoyé à l’hôpital, qui détient la clé de déchiffrement des données et de leurs résultats. À aucun moment, les données non chiffrées ne sortent du cadre clinique. À aucun moment, l’IP du collaborateur n’est exposée.

Chez Imagia, nous utilisons notre solution de CH pour prédire les maladies à partir des images de tomographie par cohérence optique (OCT). La cohérence optique (OCT) est une procédure non invasive qui utilise des ondes lumineuses pénétrantes pour prendre une image en coupe de la rétine. Le test mesure et cartographie l’épaisseur de la rétine et produit une image qui aide les ophtalmologistes à diagnostiquer un certain nombre de maladies, comme le glaucome et la dégénérescence maculaire liée à l’âge.

Pour tester notre solution basée sur le CH, nous avons préparé un petit modèle basé sur l’ensemble de données OCTID [REF] qui a été spécifiquement optimisé pour cette tâche.

 

Fig 3 – Chaîne de contrôle des données dans l’analyse des images de tomographie par cohérence optique (OCT) par Imagia. Les images OCT sont converties en données chiffrées, qui sont envoyées au réseau de neurones convolutifs (CNN). Le CNN ingère avec succès les données chiffrées, et les résultats chiffrés sont renvoyés au centre clinique. Dans ce cas, grâce à la modélisation prédictive, le modèle a déterminé la présence potentielle d’un trou maculaire, c’est-à-dire un trou dans la rétine du patient, qui aurait provoqué une vision floue ou déformée chez le patient anonyme. À aucun moment, personne d’autre que l’hôpital n’est au courant du diagnostic prédictif, mais seulement du fait qu’il ait été établi.

Nos expériences ont démontré que nous pouvions obtenir des résultats de prédiction sur une image de taille 112×112 en 20 minutes, ce qui représente un temps d’attente acceptable du point de vue du clinicien. De plus, les expériences ont démontré que nous n’avons pas perdu en précision de prédiction malgré la prédiction sur des données chiffrées.

Ce type de scénario – une tâche clinique qui ne nécessite pas d’évaluation en temps réel – représente un cas d’utilisation idéal pour effectuer des analyses prédictives grâce au CH.

 

Utiliser le chiffrement homomorphe (CH) pour l’apprentissage fédéré

Comme nous l’avons expliqué dans un précédent article, l’apprentissage fédéré (FL) permet aux experts de construire des modèles d’apprentissage machine sans partager les données entre les serveurs. En plus d’être un premier pas important vers la confidentialité des données (les données ne quittent jamais le site, seuls les apprentissages, ou paramètres appris, sont transférés), l’apprentissage fédéré permet des collaborations précieuses pour construire des modèles d’IA plus efficaces, ainsi qu’aider à généraliser et même réduire les biais dans les modèles qu’il entraîne.

En bref, dans un scénario d’apprentissage fédéré, plusieurs hôpitaux peuvent collaborer pour former un modèle à une tâche commune (comme la prédiction d’un résultat clinique spécifique), mais ne partagent aucune donnée. Chaque hôpital entraîne le même modèle sur ses propres données localement, puis envoie ses données (poids entraînés) à un serveur tiers. Le serveur agrège les poids formés, et renvoie les poids mis à jour à chaque hôpital.

Dans cette situation, le chiffrement se produit lorsque chaque client (hôpital) envoie ses paramètres appris (ou poids) au serveur, empêchant toute violation potentielle des données par le modèle. Avec le CH, le serveur est capable de calculer l’agrégation habituelle directement sur les paramètres chiffrés. Enfin, un modèle chiffré est renvoyé à chaque hôpital et, une fois déchiffré, peut être entraîné localement avant le prochain tour de fédération.

Fig 4 – La combinaison de l’apprentissage fédéré et du CH est une formule puissante. L’apprentissage fédéré garantit que les données d’un centre clinique ne sont jamais consultées par une personne autre que le centre de recherche, tandis que le CH garantit que toutes les données et tous les résultats sont chiffrés à tout moment en dehors du centre clinique, préservant ainsi la vie privée des patients tout en protégeant l’algorithme.

Le cas d’utilisation du CH d’Imagia est une expérience d’apprentissage fédérée complète dans laquelle un modèle a été entraîné à localiser des nodules dans des tomodensitométries thoraciques.

Le modèle de cette expérience contient 400 000 paramètres apprenables et a été généré par notre algorithme SELF, qui est notre méthode propriétaire, rapide et peu coûteuse, de conception automatique d’un modèle.

Nos expériences ont démontré que nos modèles pouvaient agréger et apprendre avec succès sur des paramètres chiffrés, et que la couche de sécurité supplémentaire n’avait aucun impact sur la précision. De plus, l’impact sur le temps de formation était négligeable.

En pratique, cela signifie que les modèles d’IA peuvent être entraînés sur des données locales chiffrées, tout en maintenant à la fois les garanties de confidentialité, l’efficacité et la précision.

 

Découvrez comment Imagia peut vous aider à mettre en œuvre des solutions de chiffrement homomorphe (CH) faciles à utiliser

Notre livre blanc Application of Homomorphic Encryption in Medical Imaging, publié à cette date lors de cette conférence, le cas échéant, présente la description de haut niveau de ce qu’est un livre blanc. Cliquez ici pour le télécharger.

Si vous êtes prêt à étudier des solutions, communiquez avec nous pour découvrir EVIDENS™. EVIDENS est facile à mettre en place, facile à exploiter et, surtout, il place la confidentialité des patients au centre de votre travail. Écrivez-nous directement à [email protected] ou remplissez ce formulaire.

Restez à l’écoute, restez connectés!

S’abonner à l’infolettre

 

Références

[1] Qicheng Lao, Xiang Jiang, Mohammad Havaei: Hypothesis Disparity Regularized Mutual Information Maximization. AAAI 2021: 8243-8251

[2] Shi, N., Lai, F., Kontar, R. A., & Chowdhury, M. (2021). Fed-ensemble: Improving Generalization through Model Ensembling in Federated Learning. arXiv preprint arXiv:2107.10663.

[3] Frederik Armknecht, Colin Boyd, Christopher Carr, Kristian Gjøsteen, Angela Jaschke, Christian A Reuter, and Martin Strand. A guide to fully homomorphic encryption. IACR Cryptol. ePrint Arch., 2015:1192, 2015.

[4] Joppe W Bos, Kristin Lauter, and Michael Naehrig. Private predictive analysis on encrypted medical data. Journal of biomedical informatics, 50:234–243, 2014.

 

Related posts

En effectuant des calculs sur des données chiffrées, le chiffrement homomorphe permet de préserver la vie privée des patients

En effectuant des calculs sur des données chiffrées, le chiffrement homomorphe permet de préserver la vie privée des patients

L’un des principaux défis de la recherche et du développement dans le domaine de la santé fondés sur l’intelligence artifici

...
En savoir plus
L'IA dans le secteur des soins de santé - Plateformes ou librairies? Pourquoi pas les deux?

L'IA dans le secteur des soins de santé - Plateformes ou librairies? Pourquoi pas les deux?

La médecine personnalisée est présentée comme le Saint Graal des soins aux patients. En renforçant l’aide à la décision afin qu

...
En savoir plus
L'évolution de la santé numérique

L'évolution de la santé numérique

La santé devient numérique, englobant tout, des dossiers électroniques des patients (DME) à la télémédecine et à la santé mobile &#

...
En savoir plus