Intelligence artificielle
L'intelligence humaine plus performante que l'IA... pour longtemps ?
Une étude apporte une contribution méthodologique rigoureuse en proposant un cadre d'évaluation indépendant centré sur la qualité documentaire plutôt que sur la seule réduction du temps. Et à la fin, c'est l'intelligence humaine qui gagne.
- Robert Way/iStock
Jusqu’à présent, tout va bien. La machine n’est pas plus performante qu’une femme ou un homme médecin. Mais jusqu’à quand ?
Une étude publiée dans les Annals of Internal Medicine lien et présentée en séance plénière au congrès annuel de l'American College of Physicians (San Francisco, avril 2026) apporte un éclairage critique sur les outils d'intelligence artificielle ambiante destinés à automatiser la rédaction des comptes rendus de consultation. Ces outils, appelés « ambient AI scribes », captent en temps réel la conversation entre le médecin et le patient, puis génèrent automatiquement une note clinique. Présentée par le Pr Ashok Reddy, de l'Université de Washington et du VA Puget Sound, cette évaluation est l'une des premières à comparer de façon rigoureuse et indépendante la qualité des notes produites par ces systèmes à celle des notes rédigées par des cliniciens humains.
L'étude adopte un protocole reposant sur cinq cas cliniques standardisés représentatifs de la médecine de premier recours : une consultation initiale de nouveau patient, une lombalgie aiguë, une douleur thoracique, une consultation pharmaceutique et une prise en charge par une infirmière coordinatrice. Ces cas ont été enregistrés à partir de jeux de rôle avec des patients standardisés. Les fichiers audio ont ensuite été soumis à onze outils de transcription par IA ainsi qu'à dix-huit cliniciens humains, qui ont chacun produit leurs propres comptes rendus. Trente évaluateurs humains, conduits en aveugle, ont noté l'ensemble de ces notes à l'aide du modified Physician Documentation Quality Instrument (PDQI-9), un outil validé mesurant dix dimensions de la qualité documentaire sur une échelle de Likert à cinq points, pour un score maximal de cinquante points.
Un écart plus marqué dans la lombalgie aiguë
Les résultats sont sans ambiguïté : dans les cinq cas cliniques étudiés, les notes rédigées par des femmes et des hommes obtiennent des scores de qualité globale supérieurs à celles générées par l'IA. L'écart le plus marqué est observé dans le cas de la lombalgie aiguë, où les cliniciens humains atteignent un score moyen de 43,8 points (IC 95 % : 37,4–50,3), contre 20,3 points pour l'IA (IC 95 % : 15,4–25,2), soit une différence de 23,5 points statistiquement significative. Trois des cinq comparaisons atteignent le seuil de significativité statistique. L'analyse poolée par domaine révèle que l'IA se situe en deçà des humains dans chacune des dix dimensions évaluées. Les déficits les plus importants concernent le caractère exhaustif des notes (−1,23 point, IC 95 % : −1,82 à −0,65), leur organisation (−1,06, IC 95 % : −1,65 à −0,47) et leur utilité clinique (−1,03, IC 95 % : −1,61 à −0,44). Ces trois dimensions sont précisément celles qui conditionnent la valeur opérationnelle d'un compte rendu pour la prise en charge du patient et la coordination des soins.
Des cas cliniques simulés et non issus de consultations réelles
Les auteurs soulignent plusieurs limites importantes. Les cas cliniques étaient simulés et non issus de consultations réelles, ce qui exclut les contraintes habituelles de la pratique — interruptions, charge cognitive, pression temporelle — auxquelles les médecins sont soumis en conditions réelles. Il est donc possible que les scores des cliniciens surestiment légèrement leur performance en situation authentique. Par ailleurs, les outils d'IA testés ne sont pas nommés dans la publication, et les performances observées varient d'un système à l'autre, ce qui plaide pour des évaluations spécifiques à chaque outil avant tout déploiement à grande échelle.
Les auteurs concluent que les transcripteurs IA doivent être considérés comme des outils d'aide à la rédaction de brouillons, nécessitant une révision attentive et une validation par le clinicien, et non comme un substitut à la note médicale rédigée par le praticien lui-même. Le Pr Reddy attire l'attention sur le risque de « déqualification » progressive des cliniciens : à l'image des difficultés que rencontrent aujourd'hui certains jeunes médecins à communiquer en situation de crise sans l'appui de la technologie, une dépendance excessive aux transcripteurs IA pourrait éroder la capacité des praticiens à synthétiser cliniquement et à formuler un raisonnement structuré dans leurs évaluations et plans de soins.
Une situation paradoxale
Un éditorial accompagnant la publication insiste sur une dimension encore absente des évaluations actuelles : la perspective du patient. Les auteurs rappellent que jusqu'aux deux tiers des patients consultent leur compte rendu de consultation pour mieux gérer leur santé au quotidien. Si ces documents ne sont pas adaptés au niveau de lecture et aux besoins d'information des patients, une situation paradoxale risque de se produire où chaque partie — médecin et patient — dispose de son propre assistant IA, au détriment de la relation de confiance qui constitue le soin.
En définitive, cette étude apporte une contribution méthodologique rigoureuse en proposant un cadre d'évaluation indépendant centré sur la qualité documentaire plutôt que sur la seule réduction du temps. Elle invite les établissements de santé à exiger des évaluations rigoureuses avant tout déploiement à grande échelle de ces outils, et à ne pas confondre la promesse technologique avec la preuve clinique.











