Connaître les technologies de l'information et de la communication (TICE) et l'aide à la décision clinique OIC-003-18-A

Version Novembre 2024

Modélisation et informatisation de la prise de décision.

Le processus de prise de décision se conçoit dans un objectif donné, pour une tâche donnée. On peut le décomposer en quatre étapes : (i) la caractérisation d’une situation clinique, c’est-à-dire la documentation de l’ensemble des paramètres d’entrée, (ii) le choix du modèle ou des connaissances à mobiliser pour atteindre l’objectif donné à partir des paramètres d’entrée, (iii) l’exploitation du modèle et la production du résultat du traitement sous la forme d’un ou plusieurs paramètres de sortie pouvant correspondre à des propositions de décisions possibles, (iv) la sélection de la proposition la plus adaptée. Dans le cas de systèmes « d’aide » à la décision (et non de systèmes « décisionnels »), la quatrième étape est laissée à l’appréciation des professionnels de santé qui utilisent le système d'aide à la décision médicale (SADM), celui-ci se bornant à proposer les alternatives décisionnelles possibles.

Caractérisation d’une situation clinique

Pour permettre la mise en œuvre d’un SADM, on représente formellement une situation clinique par un ensemble de données correspondant à des critères ou variables de décision. Pour être exploitable de façon optimale, l'information doit être codée. Le codage peut être numérique, p. ex. l’âge, le cholestérol total, etc. Il peut être de type booléen, c’est-à-dire vrai ou faux, comme par exemple le fait d’être ménopausée. Enfin il peut être catégoriel, comme par exemple le groupe sanguin (A, B, AB, O). Au-delà du codage, il est nécessaire que les données soient structurées et organisées, c'est-à-dire rangées dans des rubriques différentes afin, p.ex., de distinguer le problème courant, des antécédents personnels ou familiaux. De la même manière, on doit distinguer le traitement courant des traitements passés. Chaque donnée doit être datée afin d'être correctement identifiée et n'être utilisée que si cela fait sens, c'est-à-dire si on peut la considérer comme toujours valide.

Il existe plusieurs méthodes pour alimenter en données un SADM. La première est de saisir les données "manuellement", c'est-à-dire que l'entrée des données est réalisée par l’utilisateur (non recommandé du fait d’un risque d’erreur de saisie). La seconde est d'obtenir l’information via un dispositif de production numérique, comme c'est le cas des images digitalisées, des signaux numériques, des mesures obtenues via des capteurs. Par exemple, une balance connectée pourra transmettre automatiquement le poids du patient. Enfin, une autre méthode est de réutiliser des données existantes, par ex. des données stockées dans des dossiers patients informatisées (DPIs), ou dans le système d’information hospitalier. Si le codage des données permet leur traitement par des systèmes d’information, ces données bien que codées ne pourront pas forcément être partagées entre différentes solutions informatiques. En effet, si l'on souhaite échanger, partager des données entre différents systèmes d’information, il est nécessaire que ces différents systèmes puissent communiquer entre eux et se "comprendre", c’est-à-dire, qu’ils soient interopérables.

Modèles de traitement des données caractérisant une situation clinique

Les SADM sont des outils informatiques mettant en œuvre des algorithmes qui permettent l’analyse des caractéristiques d’un patient, et plus globalement d’une situation clinique, afin de produire des propositions personnalisées de prévention, de prise en charge diagnostique, de prise en charge thérapeutique, ou de suivi. Ces algorithmes issus de l’intelligence artificielle (IA) peuvent mettre en œuvre des approches logico-symboliques qui utilisent des connaissances et reproduisent les raisonnements de l’expert humain engagé dans sa démarche décisionnelle (inférences) ou des approches numériques qui se fondent sur un apprentissage « machine » (machine learning) utilisant des données. Plus récemment, Les grands modèles de langue (Large language Models ou LLMs), pré-entraînés sur de vastes corpus de texte afin de comprendre et de générer du langage naturel ont été évalués dans leur capacité à proposer une aide à la décision.

Aide à la décision basée sur les connaissances : raisonner pour décider

Ce type d’approche a été à la base de la construction des premiers systèmes experts en médecine dans les années 70. L’organisation de ces systèmes repose sur l’articulation de trois composants : (i) la base de connaissances qui est une représentation formalisée des connaissances à mobiliser pour l’aide à la décision, (ii) la base de faits qui définit la situation clinique pour laquelle la décision doit être prise, et (iii) le moteur d’inférences qui met en œuvre un raisonnement logique permettant d’articuler les connaissances pour résoudre la situation clinique.

Il existe différents formalismes de représentation des connaissances, notamment les règles de production SI-ALORS avec ou sans coefficient de confiance, par exemple « SI céphalée et raideur de la nuque et nausées/vomissements ALORS syndrome méningé », les arbres de décision, les réseaux sémantiques. Les connaissances peuvent être organisées en cartes d’états reliés par des opérateurs de transition (modèle EON), ou en processus (modèle GLIF).

Les moteurs d’inférences s’appuient sur trois types d’inférences : (i) la déduction ou le modus ponens qui consiste à dériver une conclusion à partir de règles et de faits (Socrate est un homme (fait), les hommes sont mortels (règle), donc Socrate est mortel), (ii) l’induction qui consiste à dériver une règle générale à partir de faits (Socrate est un homme (fait), Socrate est mortel, donc les hommes sont mortels (règle)), (iii) l’abduction qui consiste à formuler des hypothèses à partir de règles et de faits (les hommes sont mortels (règle), Socrate est mortel (fait), donc Socrate est un homme). Seule la déduction permet de propager le vrai dans le raisonnement.

Les moteurs d’inférences peuvent fonctionner :

en chaînage avant : on part des parties SI des règles SI-ALORS à partir desquelles on dérive des parties ALORS qui jouent le rôle de nouvelles parties SI jusqu’à saturer la base de connaissances et on arrive à des conclusions qui correspondent aux propositions de décisions.
en chaînage arrière : on formule une hypothèse et on part des parties ALORS des règles SI-ALORS qui permettent de remonter aux parties SI qui deviennent de nouvelles parties ALORS, on sature la base de connaissances et on arrive à une partie SI qui, si elle est vraie, permet de valider l’hypothèse de départ, sinon on réfute l’hypothèse de départ.
ou en mélangeant le chaînage avant et le chaînage arrière.

Actuellement, les SADM à base de connaissances fonctionnent sur le même principe d’architecture avec une situation clinique caractérisées par des données patient extraites du DPI (si le SADM et le DPI sont interopérables), une base de connaissances qui modélise dans un format structuré le contenu des guides de bonnes pratiques, et un moteur d’inférences. Récemment, des approches mettant en œuvre les principes du Web sémantique ont proposé de représenter les connaissances sous la forme d’ontologies. Une ontologie est une structuration des notions d’un domaine ordonnées selon une relation de généralisation/spécialisation (p. ex. ‘hypertension artérielle’ est_une ‘maladie cardiovasculaire’) permettant un raisonnement par subsomption pour la classification du cas clinique à résoudre dans une classe de cas attachée à la prise en charge recommandée.

2. Aide à la décision basée sur les données : apprendre pour décider

Dans l’approche numérique de l’aide à la décision, on met en œuvre un apprentissage à partir de données (machine learning). On fait la différence entre

l’apprentissage supervisé pour lequel les données d’apprentissage sont résolues au sens où pour chaque situation clinique, on dispose de la décision (pour toutes les mammographies d’apprentissage, on sait s’il y a ou pas une lésion suspecte de cancer du sein) et où l’objectif est de construire l’algorithme qui permettra de prédire la solution pour toute nouvelle observation.
l’apprentissage non supervisé pour lequel on dispose d’observations non résolues et où l’objectif est de construire une taxinomie des observations afin de les regrouper en classes maximisant la comparabilité des observations intra-classe et leur dissemblance inter-classes (classification ou clustering).

Dans l’apprentissage supervisé, on construit un échantillon d’apprentissage constitué de n situations cliniques (taille de l’échantillon) chacune étant caractérisée par p variables. Si les techniques statistiques de modélisation sont optimales lorsque les dimensions (n, p) du problème d’apprentissage à résoudre sont « raisonnables » (i.e. n >> p), et que les hypothèses distributionnelles sont vérifiées (normalité), d’autre algorithmes viennent les concurrencer avantageusement lorsque le volume des données est important (big data) : les arbres de décisions, la méthode des k plus proches voisins, les machines à vecteurs de support (support vector machines ou SVM), les forêts aléatoires (random forests) et les algorithmes d’apprentissage profond (deep learning) basés sur des réseaux de neurones artificiels dont l’usage explose depuis une dizaine d’années. De nombreuses bibliothèques accessibles en libre accès permettent d’utiliser ces différents algorithmes.

Dans tous les cas d’apprentissage supervisé, la méthode est la même : préparation des données de l’échantillon d’analyse en veillant à ce qu’il soit représentatif de la population pour laquelle le SADM sera utilisé, partition aléatoire de l’échantillon (échantillon d’apprentissage et échantillon d’évaluation souvent dans un rapport de 80/20), mise en œuvre des différents algorithmes, comparaison des performances (à l’aide des indicateurs précision, rappel et F1-score) et choix du meilleur. Il est en effet établi qu’il n’y a pas de "meilleure" méthode connue a priori, chacune étant plus ou moins bien adaptée au problème posé et à la nature des données, et qu’il faut en tester plusieurs.

3. Aide à la décision basée sur les grands modèles de langue : chatter pour décider

Les LLMs, tels que, par exemple, GPT (Generative Pre-trained Transformer) développé par OpenAI ou BERT (Bidirectional Encoder Representations from Transformers) développé par Google, sont des modèles d'intelligence artificielle pré-entraînés sur de vastes corpus de texte afin de répondre en langage naturel à des questions posées en langage naturel. Des études récentes ont permis d’analyser la capacité des LLMs pour l’aide à la décision avec des résultats variables allant de 8% à 92% de bonnes propositions (performance plus élevée dans le domaine de l’oncologie médicale). Par ailleurs, les LLMs peuvent aussi présenter des lacunes dans la compréhension du contexte médical ou l’analyse du langage naturel, conduisant à des propositions de décision incomplètes, voire fausses (on parle d’hallucinations). Enfin, il existe des enjeux de confidentialité des données médicales lorsque les cas cliniques sont soumis sans avoir été au préalable anonymisés.

Objectif de connaissance
Identifiant	OIC-003-18-A
Item parent	Le raisonnement et la décision en médecine. La médecine fondée sur les preuves (Evidence Based Medicine, EBM). La décision médicale partagée. La controverse
Rang	A
Intitulé	Connaître les technologies de l'information et de la communication (TICE) et l'aide à la décision clinique
Description	Concepts fondementaux, savoir que la structures de données, algorithmes et règles de programmation influencent la conception des systèmes, processus d'aide à la décision clinique et les stratégies diagnostiques et thérapeutiques
Rubrique	Evaluation
Contributeurs	Jacques Bouaud, Brigitte Seroussi
Ordre	18

Objectif de connaissance
Identifiant	OIC-003-18-A
Item parent	Le raisonnement et la décision en médecine. La médecine fondée sur les preuves (Evidence Based Medicine, EBM). La décision médicale partagée. La controverse
Rang	A
Intitulé	Connaître les technologies de l'information et de la communication (TICE) et l'aide à la décision clinique
Description	Concepts fondementaux, savoir que la structures de données, algorithmes et règles de programmation influencent la conception des systèmes, processus d'aide à la décision clinique et les stratégies diagnostiques et thérapeutiques
Rubrique	Evaluation
Contributeurs	Jacques Bouaud, Brigitte Seroussi
Ordre	18