Muligt at skelne mellem diabetes-svar fra ChatGPT og sundhedsprofessionelle

Sygdom og behandling 29. okt 2023 4 min Senior Data Scientist Adam Hulman Skrevet af Kristian Sjøgren

Tiden er endnu ikke klar til, at man skal søge alle svar vedrørende sin sygdom gennem ChatGPT og andre former for kunstig intelligens. Mennesker, som arbejder med diabetes, kan stadig se, om et computerprogram eller et menneske har svaret på et spørgsmål om diabetes, og nogle gange svarer computerprogrammet endda forkert.

Interesseret i Sygdom og behandling? Vi kan holde dig opdateret helt gratis

"Hvor meget frugt må jeg spise om dagen, hvis jeg har diabetes?" og "Hvordan skal jeg opbevare min insulin på lange rejser?"

Det er den slags spørgsmål, som folk med diabetes ofte stiller. Oftest vil de stille spørgsmålet til en læge eller en anden sundhedsprofessionel eller søge efter svar på for eksempel Diabetesforeningens hjemmeside eller hos Videncenter for Diabetes ved Steno Diabetes Center København.

Andre gange vil folk hellere gøre det på den lette måde og spørge for eksempel ChatGPT.

Nu viser et nyt studie, at vi endnu ikke helt er der, hvor det er den bedste idé at spørge ChatGPT. For det første svarer den store sprogmodel ikke altid korrekt på spørgsmål, og for det andet kan mennesker, som arbejder med diabetes, godt skelne mellem svar fra et menneske og svar fra en computer.

"Det er vigtigt, at man er opmærksom på, at modeller som ChatGPT ikke er udviklet til klinisk brug, og at man derfor skal være forsigtig med at tage svarene for gode varer. Til gengæld er der rigtig gode muligheder for at bruge kunstig intelligens på andre måder inden for diabetesområdet, hvor modellerne ikke skal rådgive patienter, men i stedet kan være med til at gøre viden om diabetes mere tilgængelig," forklarer senior data scientist og leder af en forskningsgruppe for kunstig intelligens på Steno Diabetes Center Aarhus, Aarhus Universitetshospital, samt lektor ved Institut for Folkesundhed, Aarhus Universitet, Adam Hulman.

Forskningen er offentliggjort i PLOS ONE.

ChatGPT kan bestå lægeeksamen

I studiet ønskede forskerne at blive klogere på, om store sprogmodeller kan besvare spørgsmål vedrørende diabetes på en måde, så svarene ikke kan skelnes fra dem, som sundhedsprofessionelle ville give. Forskellige undersøgelser og tests af ChatGPTs evner har blandt andet vist, at modellen er god nok til at bestå den amerikanske lægefaglige embedseksamen, som inkluderer spørgsmål med forskellige svarmuligheder. Spørgsmålet, som forskerne ønskede besvaret i det nye studie, var, om ChatGPT også kan besvare patientrelaterede spørgsmål uden svarmuligheder, og om det er muligt for eksperter inden for diabetesområdet at skelne mellem de svar, som ChatGPT kommer med, og de svar, som findes på for eksempel Diabetesforeningens hjemmeside eller hos Videncenter for Diabetes.

I studiet fik forskerne derfor ChatGPT til at besvare 10 hyppigt stillede spørgsmål vedrørende diabetes. Både spørgsmålene og svarene fik forskerne fra netop Diabetesforeningen og Videncenter for Diabetes. Efterfølgende bad forskerne 183 personer, som arbejder med diabetes på Steno Diabetes Center Aarhus, om at gætte, hvilket af de to svar på det samme spørgsmål var fra ChatGPT, og hvilket var fra en sundhedsprofessionel. Deltagerne arbejdede ikke udelukkende direkte med patienter, men kunne også være ikke-klinisk personale på Steno Diabetes Center Aarhus.

Adam Hulman forklarer, at hvis forskernes hypotese, altså at ChatGPT var lige så god til at besvare almindelige spørgsmål vedrørende diabetes som en sundhedsprofessionel, ville forsøgspersonerne svare 50/50 pct. på, om de troede, at en sundhedsprofessionel eller ChatGPT havde afgivet det givne svar på et spørgsmål. 

"Hvis tallet var over 50 pct., ville det betyde, at folk godt kunne identificere svar fra ChatGPT som værende netop svar fra en computermodel," siger han. ChatGPT kan ikke narre eksperterne Resultatet af undersøgelsen viser, at ChatGPT ikke helt er i stand til at narre personer, som arbejder med diabetes, til at tro, at den ved det samme som dem. I 59,5 pct. af tilfældene gættede deltagerne korrekt, at ChatGPT havde svaret på et givent spørgsmål. Det tal steg til 65 pct. blandt deltagere med klinisk kontakt til personer med diabetes og til 70 pct. blandt deltagere, som førhen havde benyttet ChatGPT. Det peger ifølge Adam Hulman på, at ChatGPTs sprog hovedsagelig afslører, at svaret kommer fra den og ikke en sundhedsprofessionel.

ChatGPT giver forkerte svar

Undersøgelsen viste også, at ChatGPT faktisk ramte ved siden af skiven på to spørgsmål, hvilket også er årsagen til, at viden om diabetes stadig skal hentes fra pålidelige kilder og ikke det uendelige internet. 

For det første svarede ChatGPT, at graviditetsdiabetes er en form for type 2-diabetes, hvilket er forkert. For det andet byttede ChatGPT rundt på svarene, da det kom til et spørgsmål angående effekten af langvarig træning og intens træning på blodsukkeret. 

Det første forkerte svar ledte til, at mange af deltagerne gættede, at svaret kom
fra ChatGPT, mens det andet forkerte ikke på samme måde blev opfanget af deltagerne. 

"Men på spørgsmålet vedrørende opbevaring af insulin på lange rejser gættede flest faktisk forkert, for her troede 62 pct., at det korrekte svar stammede fra ChatGPT, og omvendt," siger Adam Hulman.

Udvikler model til at kondensere videnskabelige artikler

Ifølge Adam Hulman er studiet et skridt i retning af en bedre forståelse af, hvad vi for nuværende kan bruge store sprogmodeller til, og hvor deres begrænsninger er. Selvom mange sikkert allerede nu søger svar på diabetesrelaterede spørgsmål ved hjælp af blandt andet ChatGPT, er det ifølge forskeren vigtigt at holde sig for øje, at svaret ikke altid flugter med det, som en sundhedsprofessionel ville have svaret. Omvendt kan store sprogmodeller have en meget værdifuld plads på diabetesområdet inden for emner, der ligger lidt længere fra patienterne.

Forskerne fra Steno Diabetes Center Aarhus og Videncenter for Diabetes samarbejder som eksempel om et digitalt værktøj baseret på store sprogmodeller. Det værktøj skal ikke direkte rådgive patienter, men derimod gøre viden fra videnskabelige studier tilgængelige for helt almindelige mennesker ved simpelthen at ekstrahere de relevante resultater og pointer og skrive en kondensat i et sprog, som de fleste kan forstå. 

"ChatGPT kommer ikke til at blive det første digitale værktøj med kunstig intelligens til at blive taget i brug inden for diabetesområdet, men der er andre muligheder inden for lavrisikoområder, hvor vi allerede i dag kan se, at store sprogmodeller kan skabe stor værdi. Og så handler det også om, at vi skal have implementeret kunstig intelligens i faser, så både klinikere og borgere bliver trygge ved teknologien. Det vil være de første skridt i retning af, at det i fremtiden bliver normalt at spørge kunstig intelligens til råds, når man har nogle specifikke spørgsmål angående sin sygdom," siger Adam Hulman. 

Adam Hulman is an applied mathematician by training, with 10 years of experience in diabetes epidemiology research. The Novo Nordisk Foundation awarde...

Dansk
© All rights reserved, Sciencenews 2020