« La bataille du diagnostic médical : le défi des intelligences artificielles »
Les nouvelles technologies de l’information et de la communication ont révolutionné la vie de tous les jours. Au fil des dernières années, l’intégration des intelligences artificielles (IA) dans les sphères médicales et hospitalières a vu le jour, apportant ainsi une révolution dans l’approche de la médecine. Dans ce contexte, l’Université d’Harvard a réalisé une étude pour évaluer la pertinence des diagnostics médicaux fournis par ces dernières, ainsi que leur efficacité en fonction de différents scénarios.
Au coeur de l’étude se trouve un jeune étudiant en médecine, 24 ans, originaire de Paris, Chloé, qui a des expériences de premier plans avec l’intelligence artificielle pour diagnostic médical. Elle relate que, compte tenu d’un emploi du temps chargé et de difficultés à consulter un généraliste, elle s’est finalement tournée vers l’intelligence artificielle, spécifiquement ChatGPT, pour poser des questions médicales. Elle avoue prendre un certain sérieux à ce genre de discussions, mais aussi que si ses symptômes persistent, elle se tournera vers des professionnels de la santé plutôt que de compter uniquement sur l’IA.
Une étude pilote réalisée par l’École de médecine d’Harvard et publiée dans la revue Nature Médecine a évalué la qualité des conversations médicales entre les patients et les IA. Shreya Johri, chercheuse au Département de biomédecine informatique à l’École de médecine de Harvard et auteure de l’étude, rappelle que ce sont les patients qui sont la priorité. C’est pourquoi il est important de prendre conscience des limites de cette technologie en matière de diagnostic médical.
Les résultats de l’étude montrent que les IA actuelles rencontrent des difficultés à intégrer les informations issues de conversations dynamiques, telles que les dialogues question-réponse. Lorsqu’ils sont résumés et que l’on inclut l’ensemble des symptômes, ainsi que l’historique médical, le diagnostic médical postérieur par l’IA se révèle nettement mieux. Dans le cas de ChatGPT, version 4, la précision des diagnostics médicaux passe de 62,7% à 82,0%. Cela montre clairement que si les IA ont des défauts, mais qu’ils peuvent également apprendre à mieux diagnostiquer les patients si on les informe à partir de détails précis.
Les étudiants de Harvard ont également porté leur attention sur les maladies de peau, notant que ce domaine est extrêmement varié et requiert un raisonnement complexe pour poser un diagnostic exact. Les dermatologues sont donc largement meilleurs que ChatGPT en termes de diagnostics médicaux, avec une précision de 87% contre 53% pour l’IA.
En France, de nombreux efforts sont déjà faits pour évaluer et améliorer les modèles IA, ainsi que pour les développer de manière plus performantes. Michel Dojat, directeur de recherche à l’Inserm et directeur scientifique adjoint à l’Inria, ajoute que la piste d’évaluation de ces modèles est essentielle pour que les IA ne deviennent pas des » robots médicaux » au service des seuls professionnels de la santé.
En guise d’exemple, le modèle de langue CamemBERT-bio, développé par l’équipe ALMAnaCH de l’Inria, va être entraîné pour utiliser des textes médicaux. Cette intelligence artificielle pourra ainsi aider les professionnels de la santé dans leur travail et, en résumé, ce ne sont pas les IA qui décident mais bien les praticiens, gardant la main sur la décision finale.