Værktøjer til kunstig intelligens (AI) i diabetesbehandlingen risikerer at lade nogle mennesker i stikken, hvis værktøjerne trænes på ikke-repræsentative data. En ny undersøgelse viser, at når AI-værktøjer til diabetes hovedsageligt trænes på én befokolkningsgruppe, fungerer de måske ikke så godt for andre og kan dermed være farlige, og undersøgelsen foreslår en enkel løsning, der kan hjælpe AI med at fungere mere retfærdigt for alle. Denne metode kan hjælpe AI med at behandle alle lige - selv når der er få datapunkter at træne den på.
Mennesker med diabetes kan bruge bærbare glukosemålere til løbende at overvåge deres blodsukker. Når de kombineres med insulinpumper, hjælper systemet med at vurdere, hvor meget insulin der skal gives for at undgå farlige udsving. Nogle systemer fungerer som lukkede kredsløb og justerer automatisk insulindoseringen uden behov for konstant brugerinput.
Flere og flere målere bruger kunstig intelligens til at forudsige, hvor en persons blodsukker er på vej hen - om det vil stige eller falde - baseret på nylige tendenser og mønstre fra andre mennesker. Men maskinlæringsmodellerne bag disse enheder samt de data, de er trænet på, betragtes som forretningshemmeligheder, så virksomhederne holder dem hemmelige og forklarer ikke, hvordan de fungerer, eller deler deres data med offentligheden, ifølge Adam Hulman, lektor og diabetesforsker ved Aarhus Universitet og Steno Diabetes Center Aarhus.
Når forskningen glemmer halvdelen af patienterne
Det meste af diabetesforskningen har fokuseret på hvide mennesker, hvilket betyder, at mange AI-modeller er trænet på data, der ikke afspejler alle med diabetes.
"Det meste forskning er lavet på hvide, vestlige befolkninger," siger Hulman. Og da tidligere undersøgelser har vist, at der er raceforskelle i, hvordan mennesker bearbejder og opbevarer glukose, er modeller, der er trænet på data fra hvide mennesker, måske ikke så nøjagtige for mennesker af andre racer.
"Forudsigelsesmodeller fungerer ikke automatisk på samme måde for alle," siger Hulman. Derfor er vi nødt til at teste, hvor godt de fungerer på tværs af grupper.
Hulman og Helene Bei Thomsen, PhD-studerende ved Aarhus Universitet, som forsker i data fra kontinuerlige glukosemålere, forsøgte at finde ud af, hvordan den racemæssige sammensætning af træningsdata påvirkede en maskinlæringsmodels præcision midt i den voksende debat om retfærdig AI, ideen om, at AI bør fungere lige godt for alle uanset deres baggrund.
Forskerne spurgte, om en model, der udelukkende var trænet på data fra hvide mennesker, ville være dårligere til at forudsige blodsukkeret hos sorte mennesker - og om ubalancen kan korrigeres, selv når data er begrænsede.
"Mange siger, at teknologi og kunstig intelligens kan bidrage til at reducere ulighederne på sundhedsområdet," siger Hulman. "Men hvis vi ikke passer på, kan algoritmerne faktisk gøre uligheden værre."
Gamle AI-modeller får nyt liv i diabetesforskning
Da forskere ikke har adgang til de data, der bruges til at træne AI i kommercielt tilgængelige kontinuerlige glukosemålere, vendte Thomsen sig mod en databank, der var blevet indsamlet for at studere raceforskelle i diabetes af T1D Exchange, en nonprofitorganisation i USA.
Til T1D Exchange-undersøgelsen havde forskere på diabetescentre i hele USA indsamlet målinger fra kontinuerlige glukosemålere fra lidt over 200 personer med type 1-diabetes, hvoraf ca. halvdelen var hvide og halvdelen sorte. Apparaterne loggede blodsukkerniveauet hvert 15. minut i 14 uger. Selvom en sådan stikprøvestørrelse er ret lille for epidemiologiske undersøgelser, er den relativt stor inden for forskning i kontinuerlige glukosemålere. "Det er svært at få adgang til store, offentligt tilgængelige datasæt med data fra kontinuerlige glukosemålere", især dem, der indeholder oplysninger om race og etnicitet, siger Hulman.
Dernæst lavede Thomsen og hendes team en række algoritmer kaldet long short-term memory models til at forudsige blodsukkerniveauer 60 minutter i forvejen.
Long short-term memory models blev oprindeligt udviklet til sprogbehandling, men er blevet overhalet indenom af generativ AI som Chat GPT. Modellerne husker tidligere data bedre end ældre modeller, som havde så begrænset korttidshukommelse, at de "glemte" begyndelsen af en sætning, når de nåede slutningen. Ikke desto mindre er long short-term memory models "også rigtig gode til tidsseriedata", som f.eks. en række blodsukkermålinger, siger Thomsen.
For at finde ud af, hvordan den racemæssige sammensætning af træningsdataene påvirkede nøjagtigheden af modellens forudsigelser, lavede Thomsen og hendes team modeller, der var trænet på 11 forskellige proportioner fra 0 % sorte og 100 % hvide til 100 % sorte og 0 % hvide. Derefter vurderede de hver models nøjagtighed for hvide og sorte mennesker med diabetes.
Mere hvide data – mindre retfærdighed
For rigtige mennesker kan en dårlig forudsigelse betyde, at de tager for meget - eller for lidt - insulin. Derfor indså Thomsen og Hulman hurtigt, at deres model ikke var klar til at blive brugt i sundhedsvæsenet. Fordi systemet var trænet på meget begrænsede data, havde det en gennemsnitlig fejl på omkring 2 mmol/L. Til sammenligning ligger normalt blodsukker efter faste omkring 5 mmol/L – så en fejl på 2 er ret meget. "Jeg tror ikke, at det ville være sikkert," siger Thomsen.
Heldigvis havde den samlede fejlprocent ingen betydning for deres formål - forskerne ville se, om modellen klarede sig dårligere, når træningsdataene havde en racemæssig skævhed.
"Vi troede, at når vi øgede andelen af sorte mennesker i træningsdataene, ville modellens forudsigelser for sorte personer blive bedre," siger Hulman.
De var overraskede over, at de ikke fandt bevis for en statistisk signifikant forskel i ydeevne, siger forfatterne og understreger, at større datasæt kan fortælle en anden historie.
"Den overordnede forskel mellem modeller, der kun var trænet på hvide data, og modeller, der kun var trænet på sorte data, var lille," siger Hulman, men vi kan ikke gå ud fra, at det også gælder for større eller mere komplekse datasæt.
Da forskerne sammenlignede fejlprocenterne for hver model, fandt de dog en lille, men pålidelig forskel i, hvordan modellen klarede sig, afhængigt af hvilke personer den var trænet på. Efterhånden som andelen af hvide mennesker i træningsdataene steg, blev "præstationsforskellene til fordel for hvide individer mere udtalte", skriver forfatterne.
Sådan giver man AI et forspring
For at finde ud af, om denne afvigelse kunne korrigeres, tilføjede forskerne et ekstra trin til modellernes træning - transfer learning.
Thomsen forklarer transfer learning gennem sine hobbyer. "Jeg strikker meget, så jeg har en masse viden om garn, om strikkefasthed og om, hvordan man læser strikkeopskrifter," siger Thomsen. "Hvis jeg vil lære at hækle, behøver jeg ikke at starte helt fra bunden, for strikning og hækling deler meget af den samme logik."
Det svarer til at give modellen et forspring. Hvis den allerede har set en bred blanding af blodsukkerdata, kan den lære hurtigere, når den fokuserer på en bestemt gruppe.
"Den kender allerede det grundlæggende, så jeg har ikke brug for så mange data," siger hun.
Forskerne var glade for at opdage, at forskellen i præstation forsvandt efter transfer learning, siger Hulman.
Kan man måle, om AI er retfærdig?
Ifølge Hulman er det vigtigste, man kan tage med sig fra denne undersøgelse, ikke nødvendigvis dens resultater om forudsigelser af kontinuerlige glukosemålere - det er selve processen.
Det virkelige gennembrud er ikke kun inden for diabetes, men hvordan man afgør, om AI inden for sundhed fungerer lige godt for alle, selv når der er begrænsede data til rådighed, siger Hulman.
Til det formål har de offentliggjort koden bag deres algoritmer, så andre forskere kan få adgang til den. "Den kan genbruges, ikke kun til kontinuerlig glukosemåling, men man kan forestille sig at bruge den på alt fra øjenscanninger til medicinske billedanalyser eller overvåge hjerterytmen", forklarer han.
"Vi ønsker at bygge bro mellem datavidenskab og klinisk forskning," siger Hulman. Denne form for arbejde giver kliniske teams værktøjer til at teste retfærdighed - og giver dataforskere et ægte medicinsk problem at arbejde med," konkluderer Hulman.
