Mise à jour sur le Dr AI

Blog

MaisonMaison / Blog / Mise à jour sur le Dr AI

Jun 27, 2023

Mise à jour sur le Dr AI

Cela fait six mois que j'ai écrit sur le potentiel de la nouvelle technologie d'IA du transformateur à servir de système médical expert. Depuis, de nombreuses études ont testé la capacité de

Cela fait six mois que j'ai écrit sur le potentiel de la nouvelle technologie d'IA du transformateur à servir de système médical expert. Depuis lors, de nombreuses études ont testé la capacité de ChatGPT et de systèmes similaires à établir des diagnostics ou des décisions cliniques ou à réussir des examens médicaux standardisés. Les résultats ont été pour la plupart positifs. Par exemple, plus tôt cette année, Kung et al. ont publié une étude dans laquelle ils ont découvert que ChatGPT était capable de réussir les trois parties de l'examen de licence médicale des États-Unis (USMLE), avec une note de passage limite de 60 %. Il y a également eu de nombreuses études d'examens spécialisés, avec des résultats mitigés, mais ChatGPT réussissant la plupart d'entre eux.

Une étude récente étend cette recherche en examinant non seulement les connaissances médicales mais aussi la prise de décision médicale. Pour l'étude, ils ont utilisé 36 vignettes cliniques publiées dans le manuel clinique de Merck Sharpe & Dohme (MSD) et ont testé la capacité de ChatGPT à générer un diagnostic différentiel initial, à recommander des décisions de gestion clinique (telles que les études à commander), puis à prendre une décision. diagnostic final à partir de ces informations. Ils ont trouvé:

« ChatGPT a atteint une précision globale de 71,7 % (IC à 95 % 69,3 %-74,1 %) sur l'ensemble des 36 vignettes cliniques. Le LLM a démontré la performance la plus élevée pour établir un diagnostic final avec une précision de 76,9 % (IC à 95 % 67,8 %-86,1 %) et la performance la plus faible pour générer un diagnostic différentiel initial avec une précision de 60,3 % (IC à 95 % 54,2 %- 66,6 %). Par rapport aux réponses à des questions sur les connaissances médicales générales, ChatGPT a démontré des performances inférieures sur les types de questions de diagnostic différentiel (β = – 15,8 % ; P < 0,001) et de gestion clinique (β = – 7,4 % ; P = 0,02).

C'est impressionnant et cela correspond aux recherches antérieures sur les forces et les faiblesses des systèmes de type ChatGPT. Pour examen, ChatGPT est une version open source de ce qu'on appelle un grand modèle de langage (LLM). La technologie de base de l’intelligence artificielle (IA) s’appelle un transformateur – le « GPT » signifie transformateur génératif pré-entraîné. Il est génératif car il ne s’agit pas simplement de copier du texte à partir d’une source, il génère du texte basé sur un modèle prédictif. Il est pré-entraîné sur un vaste corpus de textes provenant d’Internet.

Ces systèmes LLM ne pensent pas et ne sont pas sur la voie d’une IA générale simulant l’intelligence humaine. Ils ont été comparés à un très bon système de saisie semi-automatique : ils fonctionnent en prédisant le segment de mot suivant le plus probable sur la base de milliards d'exemples provenant d'Internet. Et pourtant, leurs résultats peuvent être assez impressionnants. Ils peuvent produire un langage à consonance naturelle et générer une base de connaissances impressionnante.

Mais ils restent fragiles, à l’instar des systèmes d’IA aussi étroits, ce qui signifie que si vous les poussez, ils se briseront. Pour ces LLM, la principale faiblesse est qu'ils sont sensibles à ce qu'on appelle des hallucinations. Cela signifie qu'ils peuvent inventer des choses. N'oubliez pas qu'ils génèrent du texte sur la base de probabilités, et non en vérifiant les faits ou en reflétant des connaissances exactes. Par conséquent, par exemple, si deux éléments sont statistiquement susceptibles d'être mentionnés ensemble, ChatGPT générera un texte donnant l'impression qu'ils sont directement liés. Il peut également constituer des références entièrement plausibles, en générant une structure de type référence et en la remplissant de détails statistiquement déterminés mais faux.

Il s’agit d’un défaut sérieux pour un système expert. Pour mettre en contexte les performances de ChatGPT dans le cadre de la récente étude, elle a à peine réussi avec un niveau de connaissances égal à celui d'un nouveau diplômé moyen en médecine, mais pas à celui d'un clinicien chevronné. On n’est donc pas encore au niveau de pouvoir exercer la médecine. Il y a deux questions : le sera-t-il un jour et peut-il être utile en attendant.

En prenant d'abord la deuxième question, je pense qu'à l'heure actuelle, une application LLM générale comme ChatGPT peut être quelque peu utile en tant que système expert, ce qui signifie qu'elle est utilisée par des experts comme un outil pour les aider à fonctionner. Mais son utilité s’accompagne de quelques mises en garde et mises en garde importantes. Les résultats produits par ChatGPT ne sont pas fiables. Ils ne doivent pas être considérés comme faisant autorité, même s’ils semblent ainsi. Mais ils peuvent être utilisés comme générateur d’idées, pour suggérer des diagnostics possibles auxquels un clinicien n’aurait peut-être pas pensé.