Comment nous avons développé une plateforme de recherche pilotée par l’IA qui exploite les données de santé

Auteur:

  • Florent Chandelier, CTO

Il semble évident que la recherche dans le domaine des soins de santé puisse tirer partie de l’utilisation de l’intelligence artificielle pour découvrir de nouvelles  solutions favorisant les soins de santé personalisé directement à partir des données du “monde réel”, c’est à dire à partir de la clinique de routine. Ces découvertes pourraient s’avérer précieuses pour l’optimisation des meilleures pratiques cliniques et pour l’efficacité globale de nos systèmes de soins de santé.

Chez Imagia, nous avons longuement écrit sur le sujet, qu’il s’agisse d’améliorer les pronostics  des patients ou de libérer le pouvoir clinique des données génomiques, par exemple. Mais il n’en reste pas moins que, dans la pratique, personne sur le marché des soins de santé ne semble avoir réussi à produire des découvertes cohérentes et abordables basées sur l’IA. Les défis à chaque étape du processus de découverte sont considérables et le rendent difficile à gérer.

Convaincues de l’énorme potentiel de l’IA dans le domaine des soins de santé, nos équipes d’experts ont analysé l’ensemble du processus de recherche en soins de santé, depuis les données cliniques en direct jusqu’à la découverte, pour le décomposer en phases dans un seul pipeline numérique continu. Cela nous a permis d’identifier, puis d’atténuer ou de résoudre chacun des différents points de friction afin de faciliter les transitions vers la validation et l’utilisation cliniques.

Au cours des cinq dernières années, notre travail de recherche et de conception interdisciplinaire et pratique a débouché sur une plateforme de découverte numérique d’un bout à l’autre, unique sur le marché des soins de santé en IA. Nous disposons d’une solution complète et fonctionnelle pour répondre au besoin urgent d’appliquer l’intelligence artificielle aux soins de santé et à la recherche clinique, en opérant directement sur des données cliniques en direct.

Voici ce que nous avons découvert, et ce que nous avons bâti.

 

Décomposer le processus de découverte clinique piloté par l’IA

À un niveau élevé, nous supposons que toutes les parties prenantes ont le même objectif: développer de manière cohérente des idées et des solutions basées sur l’IA à partir de données réelles.

Nous décomposons ensuite le pipeline de recherche en quatre phases qui s’inscrivent dans un cadre de cybersécurité qui préserve en permanence la confidentialité des patients, protège la propriété intellectuelle et suit l’utilisation des données.

Phase I: Ingestion de données. Il n’y a pas d’apprentissage machine sans données. La bonne nouvelle, c’est qu’il existe de nombreuses preuves cliniques et réelles au sein des organisations de soins de santé (HCO). Cependant, y accéder, les stocker et les traiter – tout en respectant le GDPR, HIPAA et d’autres règles de gouvernance en matière de protection de la vie privée – n’est pas une mince affaire.

Phase II: Gestion des données. Ces données et événements cliniques se présentent sous de nombreuses formes et doivent faire l’objet d’une normalisation et d’une optimisation minutieuses, substantielles et longues pour être prêts pour l’IA.

Phase III: Formation et expérimentation de l’IA. Une fois que ces ensembles de données sont prêts, ils doivent exister dans un cadre qui permet aux scientifiques et aux chercheurs d’exploiter la puissance de l’apprentissage machine pour extraire des connaissances et des enseignements.

Phase IV: Résultat, modèle, ou produit. En fin de compte, un processus de découverte réussi piloté par l’IA devrait aboutir à une conclusion statistiquement fiable et reproductible et, espérons-le, à une solution répondant à un besoin clinique spécifique.

Il devient rapidement évident que chaque phase comporte ses propres technologies et ses propres parties prenantes, avec des compétences, des défis et des objectifs différents, qui peuvent souvent sembler être en concurrence les uns avec les autres. Avec les technologies, il y a la question du « Mais cela fonctionne sur mon ordinateur avec ces données ». Et avec les personnes – eh bien, avez-vous déjà réuni un ingénieur, un clinicien et un scientifique spécialisé dans l’apprentissage machine pour résoudre une tâche? Il y a un peu une barrière linguistique. Cela met en évidence un problème supplémentaire: l’interopérabilité et le transfert des données, des technologies et des résultats ont un impact important sur les activités d’une phase et d’une partie prenante à l’autre.

 

Ce que nous avons construit : Imagia EVIDENSTM, une plateforme qui accélère le processus de découverte des soins de santé d’un bout à l’autre

La plateforme EVIDENSTM est une consolidation unique, orientée microservices, de bout en bout, de tous les outils nécessaires à la découverte de soins de santé numériques axés sur l’IA. Les organisations et l’industrie qui utilisent la plateforme peuvent effectuer des analyses de données sur des ensembles de données hétérogènes et distribués, ainsi que mettre à l’échelle des découvertes prometteuses grâce à l’apprentissage machine, tout en préservant la propriété des données, la confidentialité des patients ainsi que la lignée et la propriété de la propriété intellectuelle.

EVIDENS opère directement sur des données cliniques en direct à travers toutes les phases, tout en facilitant simultanément la collaboration entre trois groupes de parties prenantes: (1) les ingénieurs de données, les équipes DevOps et informatiques des organismes de santé qui possèdent les données, (2) les équipes de recherche clinique et les groupes de R & D de l’industrie, et (3) les biostatisticiens et les scientifiques en apprentissage machine d’Imagia.

Au cours des cinq dernières années, EVIDENS a connu trois évolutions majeures de son architecture, et a servi des cas d’utilisation académiques et industriels au cours des quatre dernières années. Il est devenu la plateforme de facto d’Imagia pour toutes les activités liées aux données. C’est pourquoi nous pouvons affirmer qu’EVIDENS a permis aux parties prenantes de concevoir des solutions qui fonctionnent dans leurs environnements de production respectifs, qui évoluent et qui gèrent de manière fiable les complexités des organisations de soins de santé.

Plongeons dans ce que nous avons construit.

 

1. EVIDENS intègre les preuves réelles et les données cliniques en toute sécurité

Avant toute chose, il y a les données… mais avant les données, il y a les questions de vie privée et de confidentialité.

Par conséquent, EVIDENS tient compte dès le départ des paramètres de maintenance, de sécurité et de confidentialité établis par les groupes informatiques et les bureaux de protection de la vie privée des différentes organisations de soins de santé (HCO) de l’écosystème Imagia qui contribuent à notre centre de données. Cela nous permet de développer un pôle de systèmes de données réelles qui rassemble les dossiers médicaux électroniques (DME), les dossiers de santé électroniques (DSE) et les systèmes d’archivage et de communication des images (PACS).

Une fois que ces données cloisonnées sont en sécurité dans le hub de données EVIDENS, sa mission est de les réconcilier, de dénormaliser systématiquement les données réelles dans un format commun, de fournir une structure plus contextuelle entre les entités de données et de permettre aux parties prenantes d’accéder rapidement aux informations précises dont elles ont besoin sans les manipuler dans leur forme brute.

Parce que nous avons affaire à d’énormes quantités de données qui ne cessent de croître, l’équipe DevOps d’Imagia renouvelle continuellement les stratégies de déploiement afin d’approvisionner automatiquement le stockage à partir de ressources physiques et virtuelles, d’appliquer une communication uniquement sortante adaptée au pare-feu et de tirer parti de l’infrastructure en tant que code pour automatiser tous les aspects de l’exploitation de l’infrastructure du centre de données EVIDENS dans les locaux des HCO.

Cette phase fondamentale du processus de bout en bout d’EVIDENS est le segment sur lequel nous itérons le plus, par exemple lorsque de nouveaux besoins liés à un projet apparaissent.   Nous gérons ces itérations en utilisant des points de terminaison ou des API internes bien conçus (un défi en soi), en masquant la complexité technique et d’ingénierie de la manipulation des données, et en permettant à l’équipe d’Imagia de faire passer rapidement ses solutions de l’expérimentation aux tests en production. Cela nous permet d’améliorer continuellement l’ingénierie sous-jacente de la façon dont nous structurons l’information sans avoir d’impact sur ce qui est réellement fait avec cette information. En d’autres termes, ces opérations sont compatibles avec toutes les activités en aval.

Grâce à cet effort d’itération, notre stratégie de modélisation des données a atteint un niveau de maturité raisonnable, permettant à toutes nos principales parties prenantes d’accéder et d’utiliser les données cliniques réelles gérées par EVIDENS.

 

2. EVIDENS’s data analytics pipeline creates AI-ready datasets quickly and affordably

À ce stade du processus de bout en bout, un changement majeur des parties prenantes a lieu, de l’informatique et de l’ingénierie aux cliniciens. Cela introduit une nouvelle compréhension de la nature des données: d’un objet à récupérer, elles deviennent un objet à étudier. Cette phase permet également au pipeline de se concentrer sur la saisie des associations et des liens entre les informations, formés et enrichis par l’expertise clinique.

Le défi, pour les investigateurs cliniques, est donc de pouvoir effectuer des recherches efficaces dans les volumes toujours plus importants de structures de données non standardisées et diverses générées par les données réelles. Par exemple, dans le domaine de la R&D clinique, il est particulièrement intéressant de découvrir des groupes de patients critiques pour des hypothèses cliniques spécifiques, une tâche écrasante et fastidieuse qui représente jusqu’à 80 % des activités de recherche traditionnelles.

Grâce au solide écosystème de HCOs partenaires d’Imagia, nous avons accès et pouvons tirer parti de l’expertise clinique qui nous a permis de poursuivre le développement d’EVIDENS en fonction des besoins des professionnels de la santé – par exemple, en termes d’analyse des faits cliniques et de structuration des cohortes de patients selon les critères d’inclusion/exclusion traditionnellement utilisés dans la conception des essais cliniques.

C’est au cours de cette partie du processus qu’est générée une description du problème clinique fondée sur les données, qui permettra de transférer le problème des équipes cliniques aux équipes non cliniques contribuant au projet. Plus précisément, un ensemble de données convivial pour l’IA est généré pour que les biostatisticiens puissent évaluer la qualité et la représentativité des données. L’objectif est d’établir une déclaration d’hypothèse statistique primaire et de préparer les divisions de données associées pour l’analyse. Dans l’apprentissage machine, les ensembles de données doivent être divisés en ensembles de formation, de validation et de test, une activité essentielle qui garantit que les erreurs de données ne se propagent pas dans les processus d’analyse et d’apprentissage.

En fait, c’est au cours de cette phase qu’EVIDENS applique les connaissances d’experts en expérience clinique aux ensembles de données afin de les rendre accessibles et prêts pour tout type d’expérimentation d’apprentissage machine (ML), ainsi que pour générer des métadonnées clés sur les ensembles de données. C’est ce type d' »information sur l’information » qui améliore l’efficacité des applications de recherche, comme nous le verrons dans la prochaine phase.

 

3. EVIDENS fournit aux chercheurs et aux scientifiques un cadre dans lequel ils peuvent mener des expériences et entraîner leurs modèles sur des ensembles de données prêts pour l’IA

L’apprentissage machine (ML) est un système qui extrait des connaissances d’un ensemble de données donné pour résoudre une tâche avec l’objectif de généraliser cette solution pour des données hors échantillon réelles. Parmi les exemples de tâches de ML utiles dans la R&D en matière de soins de santé, on peut citer le regroupement (trouver et étiqueter des groupes naturels de données pour en tirer des déductions, ce qui est utile pour les cohortes), la classification (identifier les groupes de données qui correspondent à une catégorie, par exemple si un patient est atteint d’une maladie ou non) et la prédiction (prévoir les résultats probables).

La partie apprentissage machine du processus de découverte des soins de santé numériques relève du domaine de l’ingénierie des données et de l’ingénierie ML, de l’informatique ML et des statistiques, qui respectivement (1) conçoivent des pipelines de données qui produisent de manière fiable des ensembles de données d’entrée de qualité suffisante à partir de données brutes, (2) extraient des connaissances spécifiques à une tâche pour un modèle ML donné (architecture et algorithme), (3) suivent un plan d’étude statistiquement robuste qui garantit la généralisation.

Alors que les deux premières phases d’EVIDENS garantissent que nous avons normalisé chaque élément d’information de manière à ce que l’IA puisse le comprendre et apprendre rapidement, le moteur d’IA d’EVIDENS fournit le flux de travail cohérent qui écrit, exécute et teste les expériences de ML sur ces ensembles de données prêts pour l’IA.

De plus, nous avons choisi de construire ce flux de travail ETL (Extract-Transform-Load) sur mesure, plutôt que d’utiliser Apache Beam par exemple, pour nous assurer qu’il est découplé des technologies sous-jacentes. Nous voulons garantir que toute transformation de données puisse fonctionner indépendamment les unes des autres, afin d’expérimenter rapidement différentes architectures de modèles ML et de comparer les résultats de manière fiable.

C’est cette notion qui permet à EVIDENS de capitaliser sur l’un des projets les plus innovants et propriétaires d’Imagia, son cadre d’apprentissage auto-évolutif (SELF). Grâce à SELF, la plateforme EVIDENS s’engage dans la conception automatique d’une architecture d’intelligence artificielle purement basée sur les données – elle effectue une recherche d’architecture neuronale propriétaire pour découvrir et former automatiquement de nouveaux modèles. En fait, elle échange l’expertise en ML contre du temps de traitement, ce qui permet aux « non-spécialistes de l’IA » de profiter des avantages du ML sans avoir besoin de le comprendre.

 

4. EVIDENS produit des résultats reproductibles, solides et perspicaces

Alors que nos modèles précliniques, issus d’une analyse statistique, d’une planification et d’une conception sur mesure, fonctionnent sur des ensembles de données soigneusement sélectionnés et issus de données réelles, les défis que nous résolvons sont toujours ancrés dans des besoins cliniques spécifiques définis par les cliniciens, et nos processus garantissent toujours une applicabilité future sur des données réelles.

En respectant d’abord des exigences strictes en matière de confidentialité, puis en écoutant attentivement les différents besoins et préférences des experts du secteur, tant en termes de technologies que de résultats, nous avons réussi à créer un pipeline de données et d’IA doté de sa propre lingua franca agnostique sur le plan technologique, ce qui lui permet, en quelque sorte, de fonctionner comme un ambassadeur et un activateur entre ces parties prenantes.

 

EVIDENS est une étape mature et fondamentale dans notre quête d’informations fondées sur l’IA dans le domaine des soins de santé

Le succès est façonné par l’expérience des utilisateurs, notamment en ce qui concerne l’adaptation à leur environnement quotidien. La stratégie de plateforme numérique d’Imagia a prouvé qu’elle répondait à des contraintes particulières et apportait une valeur tangible. EVIDENS élimine la friction des équipes d’ingénierie et de recherche d’Imagia, en fournissant un accès en libre-service de haute qualité à un écosystème standardisé de technologies fondamentales déployées dans les organisations de soins de santé. Il s’agit d’une infrastructure de mise en œuvre, prête à exécuter divers projets de recherche et d’industrie, permettant un modèle d’exploitation qui se concentre sur la génération d’informations exploitables à partir de données cliniques de routine, à appliquer de manière fiable dans des scénarios réels.

Il y a certainement beaucoup de travail à faire pour soutenir davantage de collaborations entre domaines, mais nous sommes confiants dans les résultats que nous observons déjà. Pour rester informé de nos progrès, abonnez-vous à notre infolettre mensuelle!

 

Related posts

Comment nous avons développé une plateforme de recherche pilotée par l'IA qui exploite les données de santé

Comment nous avons développé une plateforme de recherche pilotée par l'IA qui exploite les données de santé

Il semble évident que la recherche dans le domaine des soins de santé puisse tirer partie de l’utilisation de l’intelligence a

...
En savoir plus
L'IA pourrait améliorer le dépistage du cancer du poumon et contribuer à sauver des vies

L'IA pourrait améliorer le dépistage du cancer du poumon et contribuer à sauver des vies

Le cancer du poumon est le cancer le plus meurtrier au Canada – et dans le monde. Chaque année, le cancer du poumon tue plus de 20 00

...
En savoir plus
En effectuant des calculs sur des données chiffrées, le chiffrement homomorphe permet de préserver la vie privée des patients

En effectuant des calculs sur des données chiffrées, le chiffrement homomorphe permet de préserver la vie privée des patients

L’un des principaux défis de la recherche et du développement dans le domaine de la santé fondés sur l’intelligence artifici

...
En savoir plus