Apprentissage Machine – Comprendre les différences entre les données réelles et celles des essais cliniques pour améliorer les résultats des patients.

Jonathan Kanevesky, MD, FRCSC
Directeur – Innovations Cliniques [email protected]
Kam Kafi,
MD, CM
Directeur – Oncologie et Stratégie Clinique [email protected]

 

 

Le volume des données relatives aux soins de santé est monté en flèche. De grands volumes de données sur les patients provenant de diverses sources, allant des dossiers médicaux
électroniques (DME) capturant les événements au sein d'un système de soins de santé aux produits technovestimentaires et aux applications de santé numériques qui fournissent des
informations sur les événements quotidiens, sont disponibles; cependant, le véritable défi consiste à obtenir des informations significatives à partir de ces données. Nous pouvons nous appuyer sur l’intelligence artificielle pour identifier des caractéristiques clés, mais nous devons
veiller à sélectionner les données appropriées pour une tâche d’IA donnée afin qu’elles soient représentatives, tout en tenant compte de leurs limites lors de l’interprétation des résultats.

Real-world evidence (RWE) and randomized clinical trial data (RCT), are both valuable to advance precision medicine. There are three main differences between RWE and RCT with relation to the output of the machine learning algorithms that will be trained by the respective data. There are a variety of machine learning algorithms; the development and selection of an algorithm must account for these differences to provide the desired data that leads to better patient outcomes.

Les preuves réelles (RWE) et les données des essais cliniques randomisés (RCT) sont toutes deux (2) précieuses pour faire progresser la médecine de précision. Il existe trois (3) différences principales entre les preuves réelles et les RCT, en ce qui concerne la sortie des algorithmes d’apprentissage machine qui seront formés par les données respectives. Il existe une grande variété d’algorithmes d’apprentissage machine; le développement et la sélection d’un algorithme doivent tenir compte de ces différences pour fournir les données souhaitées qui conduisent à de meilleurs résultats pour les patients.

En médecine, on entend par RWE les preuves obtenues à partir des données réelles (RWD), qui sont des données d’observation générées par les activités quotidiennes. Il s’agit traditionnellement d’évaluations provenant de la pratique clinique courante, mais aussi de données générées par les patients entre deux (2) épisodes de soins. Elles sont généralement regroupées à partir des DME, mais peuvent provenir de toute source pouvant être stockée et utilisée numériquement. Elles sont de nature diverse et épisodique et peuvent donc contenir certains préjugés. Par exemple, si nous voulons étudier l’impact d’un médicament sur un patient, les RWD pourraient ne pas tenir compte des doses manquées, des effets secondaires légers, des événements indésirables de la vie ou de tout autre élément susceptible d’influencer leur efficacité. Ceux-ci peuvent avoir un impact sur les résultats, mais on considère généralement que les RWE sont basées sur des ensembles de données suffisamment vastes pour que l’impact de ces données “manquantes” soit moins important. Dans l’ensemble, les RWD sont plus faciles et moins coûteuses à acquérir, et l’exécution de requêtes sur les RWE révèle beaucoup d’informations telles que l’efficacité réelle des médicaments, l’identification des populations mal desservies ou les facteurs associés à la prise de décision clinique.

From RWD to RWE

D’autre part, les données des RCT sont spécifiquement conçues pour répondre à un seul critère clinique, un événement ou un résultat qui peut être mesuré objectivement, notamment en excluant les facteurs de confusion potentiels grâce à des exigences et des protocoles rigoureux. Les RCT coûtent beaucoup en temps et en argent, et sont conçus pour suivre les patients de manière standardisée. La charge pécuniaire incombe généralement aux entreprises qui peuvent alors utiliser les données pour que leurs produits (par exemple, un médicament contre le cancer) puissent être approuvés, commercialisés et vendus. Si l’on considère le médicament anticancéreux évoqué plus haut, des RCT doivent prendre en compte ou éliminer les doses manquées, les antécédents de cancer peuvent être une cause d’exclusion d’un ensemble de patients de l’essai, et tous les autres médicaments pris par les patients de l’essai sont documentés et mathématiquement pris en compte dans les résultats. Cet environnement hautement contrôlé et une population très sélective permettent aux statistiques d’appuyer ou de rejeter la question spécifique posée dans l’essai. Pour cette raison, les données des RCT sont souvent considérées comme l’étalon-or (doré mais pas parfait) de la recherche clinique et présentent la plus grande fiabilité.

RCT vs RWD
En ce qui concerne les applications d’IA, les forces et les faiblesses des données RCT vs RWD suivent les mêmes tendances. Les données des RCT étant générées dans des conditions très spécifiques, certains enseignements ne sont pas facilement généralisables à la vie réelle. Par conséquent, un modèle de prédiction de la réponse au traitement fondé sur les données d’un RCT pourrait devoir être affiné en cours de route pour tenir compte de la diversité des populations et des contextes de pratique rencontrés réellement. D’autre part, le suivi méticuleux et le niveau constant des données des RCT les rendent particulièrement pratiques pour les tâches d’IA qui nécessitent beaucoup d’annotations. Une application intéressante de l’IA sur les données des RCT est la génération de jumeaux numériques qui peuvent être utilisés pour accélérer les essais cliniques en réduisant le besoin de patients réels sous placebo.

1. Exactitude des données

La précision des données de RWE est généralement considérée comme inférieure à celle des RCT, car les chercheurs ont moins de contrôle sur la façon dont les données sont produites, collectées et stockées. Dans les RCT, les données sont recueillies dans un cadre expérimental et non dans un cadre réel. Les détails concernant la population de patients, l’exposition au traitement et les résultats peuvent être difficiles à évaluer. Par exemple, les données du DME peuvent comprendre une ordonnance ou un relevé de paiement pour un médicament de traitement du cancer. Les RWE supposeraient que le patient a pris le médicament, même si ce n’est pas forcément le cas. Cette décision peut être prise au niveau du patient, ou ne pas avoir été administrée par un professionnel de la santé. Dans les données des RCT, une attention méticuleuse au traitement est incluse dans les protocoles, et le fait que le patient ait effectivement pris le médicament ou non est documenté électroniquement. En outre, des visites avec protocoles et des questionnaires standardisés sont utilisés dans les RCT, ce qui permet d’obtenir des données plus cohérentes et standardisées. Mais cela conduit à un biais d’échantillonnage et à un ajustement excessif, car il n’inclut que les patients situés dans un certain rayon autour des centres, ayant un impact sur la généralisation des résultats.

Les données réelles sont collectées auprès de plusieurs centres et de plusieurs prestataires de soins, car elle reflète une population. De nature, elles sont incomplètes et parfois peu fiables. Les raisons peuvent être techniques – liées à la manière dont les données sont collectées – ou provenir d’erreurs aléatoires. Il existe des moyens de réduire l’impact des données incomplètes et non fiables. Par exemple, l’arbitrage d’experts est souvent nécessaire pour trier les données réelles de manière à ce qu’elles puissent être utilisées par un algorithme d’apprentissage, qui est un des principaux goulets d’étranglement actuels dans la préparation des données. Il s’agit d’une étape essentielle, mais longue et coûteuse, pour améliorer la qualité et la préparation des données nécessaires au développement du modèle. Toutefois, en incluant des humains dans la boucle d’apprentissage, on peut tirer parti de l’accélération de la préparation des données. Des étapes supplémentaires telles que des études de faisabilité peuvent être nécessaires avant de développer des algorithmes d’apprentissage automatique, si les données ne sont pas fiables.

RWD RCT RWE

2. Préparation des données

Dans le contexte clinique, l’apprentissage machine est souvent utilisé pour prédire les résultats. D’une manière générale, plus il y a de données disponibles, plus les algorithmes d’apprentissage machine seront performants. Les données RWE constituent souvent des ensembles de données plus importants qui peuvent être utilisés pour l’entraînement et la validation des modèles. Les RWE sont bien adaptées aux modèles cliniques prédictifs en raison de la taille plus importante des données, de l’hétérogénéité et de la généralisation des résultats.

Par exemple, l’apprentissage supervisé, lorsqu’il est utilisé en radio-oncologie, nécessite des étiquettes fournies par des experts cliniques pour prédire les résultats des patients ou l’évaluation de la planification. Actuellement, cette technologie utilise les données RWE et peut être utilisée pour la modélisation de la réponse tumorale ou la radiothérapie guidée par l’image. Les chercheurs espèrent que les algorithmes d’apprentissage machine pourront un jour être appliqués pour mieux informer la conception des RCT, ce qui rendra finalement la conception des essais cliniques plus efficiente et plus efficace. Des stratégies telles que l’enrichissement de la population, qui consiste à sélectionner une population d’étude plutôt que de la randomiser, peuvent faciliter le développement de diagnostics compagnons basés sur l’IA pour améliorer la prédiction de traitement.

3. Hétérogéneité des réponses

Les algorithmes d’apprentissage machine peuvent identifier l’hétérogénéité des réponses aux traitements. Par exemple, en utilisant des méthodes d’apprentissage machine, une étude récente a analysé le registre suédois de l’insuffisance cardiaque, un registre national comprenant plus de 44 000 patients, afin de détecter l’hétérogénéité de la réponse au traitement. De manière surprenante, l’étude a observé que les antagonistes de l’aldostérone, qui sont des médicaments couramment prescrits pour l’insuffisance cardiaque, se sont avérés bénéfiques dans les RCT, mais les RWE n’appuient pas ces conclusions.

Dans une autre étude de RWE portant sur des images de tumeurs solides, il a été constaté que l’apprentissage machine peut identifier les caractéristiques utilisées pour la caractérisation et la quantification prédictive, y compris l’hétérogénéité tumorale qui est liée à la réponse au traitement et au résultat global.

Cela montre comment l’extrême standardisation des données recueillies dans les RCT peut occulter l’hétérogénéité qui se produit dans la vie, entraînant des différences imprévues dans la réponse au traitement après l’approbation d’un médicament. D’autre part, les données des RWE incluront un éventail plus large de patients dans des contextes réels, provenant de groupes hétérogènes qui peuvent avoir reçu un traitement de plusieurs praticiens.

Conclusions

Lorsque les organismes de recherche développent des solutions d’IA, ces différences entre les deux (2) types de données doivent être prises en compte dans l’étude et la conception de l’IA. En fonction du résultat escompté et du cas d’utilisation, les algorithmes d’apprentissage machine doivent être formés en conséquence pour générer des informations significatives.

Chez Imagia, notre équipe d’experts a l’habitude de travailler avec des données RCT et RWE, et nous savons comment tirer le meilleur parti de ces deux (2) types de données. Nous aidons les organisations à transformer les données de leurs patients en informations ou connaissances exploitables. Suivez-nous pour en savoir plus sur la manière dont la science des données contribue à améliorer les résultats des patients.

Related posts

La génomique chez Imagia :                                  Comment l'IA peut aider à libérer le pouvoir clinique des données génomiques

La génomique chez Imagia : Comment l'IA peut aider à libérer le pouvoir clinique des données génomiques

Les données génomiques ont le potentiel d’être cliniquement utiles, mais leur utilisation est aujourd’hui très limitée R

...
En savoir plus
Imagia annonce la nomination de Jennifer M. Buechel à son conseil d'administration

Imagia annonce la nomination de Jennifer M. Buechel à son conseil d'administration

Imagia renforce son conseil d’administration par l’arrivée d’une leader expérimentée du secteur de la biotechnologie, d

...
En savoir plus
Apprentissage Machine - Comprendre les différences entre les données réelles et celles des essais cliniques pour améliorer les résultats des patients.

Apprentissage Machine - Comprendre les différences entre les données réelles et celles des essais cliniques pour améliorer les résultats des patients.

La manière dont les données sont collectées et gérées aura un impact sur les découvertes futures en matière d’intelligence arti

...
En savoir plus