Kan kunstig intelligens spotte farlige bakterier, før de gør os syge?

Fremtidens teknologi 31. maj 2026 13 min Data Scientist and Bioinformatician Alfred Ferrer Florensa Skrevet af Morten Busch

Et nyt AI-værktøj kan scanne hele bakteriers arvemasse og stille et vanskeligt spørgsmål: afslører deres samlede proteinmønstre, om de kan gøre mennesker syge? Systemet, PathogenFinder2, er særligt stærkt, når det møder bakteriearter, der ikke ligner noget i eksisterende databaser. Det gør det til et muligt redskab til tidlig overvågning af smitsomme trusler – også dem med pandemisk potentiale.

Interesseret i Fremtidens teknologi? Vi kan holde dig opdateret helt gratis

De fleste bakterier omkring os er harmløse. Nogle er ligefrem gavnlige. Men blandt de enorme mængder bakterier i naturen, hos dyr og i spildevand gemmer der sig også stammer, der kan skade mennesker – ofte først opdaget, når patienter ender i sundhedsvæsenet. Smitsomme sygdomme er fortsat en af de største dødsårsager globalt, og i takt med at klimaforandringer og globalisering bringer os i kontakt med nye mikrobielle miljøer, vokser behovet for at opdage trusler tidligere.

Med PathogenFinder2 forsøger forskere fra Danmarks Tekniske Universitet og internationale samarbejdspartnere at besvare et centralt spørgsmål: Kan man genkende en ukendt bakterie som potentielt farlig, før den har gjort nogen syg?

Værktøjet vurderer, om en bakterie har patogen kapacitet – altså det genetiske potentiale til at skade mennesker – ud fra dens genom.

”PathogenFinder 1 blev udviklet i 2013, og siden da har både mængden af genomdata og maskinlæringsmetoderne ændret sig enormt. Så spørgsmålet var: kan vi gøre det bedre nu?” forklarer Alfred Ferrer Florensa, dataforsker og bioinformatiker ved Danmarks Tekniske Universitet.

I stedet for at lede efter kendte faresignaler eller nære slægtninge blandt allerede beskrevne patogener bruger PathogenFinder2 såkaldte proteinsprogmodeller. De oversætter hvert protein i bakterien til en matematisk repræsentation, så modellen kan genkende funktionelle mønstre på tværs af hele proteomet – også når sekvenserne i sig selv er forskellige. En afgørende styrke er, at den virker selv på bakterier, der ikke ligner noget kendt.

”Ingen model, der kun ser på bakteriers genomer, kan forudsige, om en infektion vil lykkes i en bestemt person. Det afhænger også af værten. Derfor ændrede vi spørgsmålet: har denne bakterie evnen til at være patogen for mennesker?” siger Alfred Ferrer Florensa.

Det er netop dét spørgsmål, overvågning må stille – fordi man ikke kan vente på at kende alle detaljer om værten.

”Hvis man finder bakterier med patogen kapacitet i havvand, spildevand eller kanaler, kan man måske handle, før nogen bliver smittet,” siger han.

For at teste modellen trænede forskerne den på titusindvis af bakterielle genomer fra offentlige databaser og anvendte den derefter på virkelige prøver, blandt andet fra spildevand, for at se, hvordan den klarer sig med bakterier, den aldrig har set før.

”Alle data kommer fra offentlige databaser. Hvis man kun træner på sine egne data, risikerer man at skævvride modellen mod bestemte regioner eller datasæt.”

For at udfordre modellen yderligere testede forskerne den på helt nye arter, nyligt tilføjede genomer og såkaldte metagenom-samlede genomer fra spildevand – situationer, hvor mange bakterier er dårligt kendte eller helt ukendte, og hvor behovet for at opdage potentielle trusler er størst.

Hvornår er en bakterie farlig? Grænsen er langt fra klar

At afgøre, om en bakterie er farlig, er stadig en af de mest grundlæggende – og mest frustrerende – udfordringer i mikrobiologi. Spørgsmålet rækker tilbage til de første forsøg på at forstå sygdomsårsager, fra Kochs postulater til nutidens modeller, hvor sygdom opstår i samspillet mellem mikrobe og vært.

Traditionelt har forskere forsøgt at identificere sygdomsfremkaldende bakterier ved at se, om de deler gener eller egenskaber med kendte patogener. Men den tilgang rammer hurtigt en grænse.

”Problemet er, at naturen ikke organiserer bakterier efter vores kategorier. To bakterier kan være meget tæt beslægtede, og alligevel kan den ene gøre os syge, mens den anden ikke kan.”

I nogle tilfælde kan ganske få mutationer – eller optag af mobile genetiske elementer – være nok til at forvandle en harmløs bakterie til en sygdomsfremkaldende. Samtidig er selve begrebet “patogen” blevet mere flydende: den samme bakterie kan være harmløs i én situation og skadelig i en anden, afhængigt af værten og miljøet.

”Det er ikke en sort-hvid verden. Mange bakterier er opportunistiske. De forårsager kun sygdom under bestemte betingelser.”

Samtidig er mængden af bakteriedata vokset eksplosivt.

”Da PathogenFinder 1 blev udviklet, fandtes der lidt over 1.000 genomer. Til PathogenFinder 2 kunne vi samle omkring 20.000 – og det tal vil stige markant de kommende år.”

Tusindvis af nye bakterier bliver i dag sekventeret fra jord, hav og spildevand – ofte uden at man ved, om de udgør en risiko for mennesker.

”Vi har enorme mængder data, men mangler gode måder at fortolke dem på.”

De klassiske metoder har også klare begrænsninger. Dyreforsøg er langsomme og svære at overføre til mennesker, og databaser fungerer kun, hvis bakterien ligner noget, man allerede kender – netop det, der bryder sammen, når noget helt nyt dukker op.

Evnen til at give sygdom ligger i hele genomet – ikke i enkelte gener

Det står stadig tydeligere, at en bakteries evne til at forårsage sygdom ikke kan forklares med ét enkelt gen, men med samspillet mellem mange proteiner og funktioner på tværs af hele genomet.

”Paradokset er, at mange af de genetiske elementer, vi forbinder med sygdom, også findes i harmløse bakterier. Det handler ikke om enkelte gener, men om hvordan de er kombineret. Patogenkapacitet er et mønster på tværs af hele genomet – en kombination af funktioner, der tilsammen gør det muligt for bakterien at overleve, sprede sig og forårsage skade.”

Patogenkapacitet er dermed ikke én egenskab, men en samlet fænotype, der opstår gennem mange geners samspil. PathogenFinder2 er udviklet til netop at opfange denne kompleksitet ved at genkende mønstre, der går igen på tværs af meget forskellige bakterier.

”Vi forsøger at bevæge os væk fra ideen om enkelte ‘farlige gener’ og hen imod en mere helhedsorienteret forståelse af, hvad der gør en bakterie i stand til at skade mennesker.”

Når AI lærer at læse proteiner som mønstre

For at komme videre end eksisterende metoder har forskerne designet PathogenFinder2 til at se bakterien ikke som en liste over kendte risikofaktorer, men som et komplekst system kodet i hele genomet. Kernen er at lade modellen lære direkte fra proteinsekvenser – uden at være afhængig af foruddefinerede databaser eller sekvenssammenligninger.

”I stedet for at spørge, om en bakterie har et bestemt virulensgen, lader vi modellen se på hele proteomet og lære, hvilke mønstre der hænger sammen med patogen kapacitet.”

Mange eksisterende metoder bygger på at matche sekvenser med kendte proteinfamilier. Det fungerer, når der findes gode referencepunkter – men bryder sammen, når biologien er ukendt. Det trin springer PathogenFinder2 over.

”Vi starter med bakteriens genom og oversætter det til dens fulde sæt af forudsagte proteiner,” forklarer Alfred Ferrer Florensa.

Proteiner er de funktionelle byggesten, som genomet koder for, og de giver derfor modellen en konkret måde at aflæse, hvad bakterien potentielt kan. Fordi hele genomer er for omfattende til at analysere direkte, bliver hvert protein omdannet til en numerisk repræsentation, som modellen kan bruge til at genkende mønstre på tværs af genomet.

Sådan læser modellen en bakterie

Disse proteinrepræsentationer samles til et struktureret input, der afspejler hele genomet. I modsætning til mange tidligere metoder bevarer modellen overblikket over hele sættet af proteiner og deres indbyrdes relationer. Det gør det muligt at identificere mønstre, der strækker sig på tværs af genomet – ikke kun i enkelte dele.

”Patogenkapaciteten er fordelt over hele genomet. Hvis man reducerer den til nogle få træk, mister man vigtig information.”

PathogenFinder2 behandler derefter informationen i flere lag. Ét lag leder efter lokale mønstre – for eksempel grupper af gener, der ofte optræder sammen, såsom operoner og mobile genetiske elementer. Et andet lag vægter de proteiner højere, som ser ud til at være særligt informative for forudsigelsen.

”PathogenFinder 2 laver ikke bare en forudsigelse, men viser også, hvilke proteiner den lagde mest vægt på.”

I modsætning til mange black box-modeller efterlader PathogenFinder2 derfor et spor: både en samlet vurdering og en rangeret liste over de proteiner, der har haft størst betydning. De kan efterfølgende kobles til kendte databaser for at undersøge deres mulige biologiske funktioner.

”For forskere, der arbejder med en ny bakteriestamme, kan det være en måde at pege på, hvilke proteiner der kan spille en rolle i patogenicitet.”

En anden vigtig egenskab er, at modellen er taksonomi-agnostisk. Den er ikke afhængig af at finde en kendt slægtning til bakterien.

”Hvis man allerede ved, hvad man har med at gøre, har man ofte svaret. Udfordringen opstår, når man ikke gør det.”

Trænet til at finde potentiale – ikke faste kategorier

For at sikre, at modellen også kan bruges på ukendte bakterier, blev nært beslægtede genomer holdt adskilt mellem trænings- og testdata.

”Vi sørgede for, at testsættet indeholdt arter, der ikke fandtes i træningssættet. Derfor kan vi sige, at PathogenFinder 2 kan forudsige noget om helt nye arter,” siger Alfred Ferrer Florensa.

I stedet for at definere skarpe kategorier som ”patogen” og ”ikke-patogen” valgte forskerne en mere praktisk tilgang: bakterier blev mærket ud fra, om de nogensinde var blevet observeret at forårsage infektion hos mennesker – uanset hvor alvorlig infektionen var.

”Når vi beregner patogenkapacitet, behøver vi ikke at afgøre, om der er tale om en sjælden infektion. Hvis det er sket én gang, er der potentiale.”

Det viste sig langt sværere at definere den modsatte kategori.

”Man kan ikke bare sige: ‘Vi har aldrig set denne bakterie forårsage sygdom.’ Derfor brugte vi bakterier, der enten ikke kan leve i menneskekroppen, eller som gentagne gange er i kontakt med mennesker uden at give sygdom.”

Resultatet er en model, der er trænet til at genkende patogen kapacitet som en bred egenskab – også hos bakterier, der kun giver sygdom under særlige betingelser. Det indebærer samtidig, at der uundgåeligt er en vis usikkerhed i mærkningerne, fordi offentlige databaser ikke altid indeholder hele konteksten omkring en infektion. For at mindske effekten af dette kombinerer systemet flere neurale netværk i et ensemble, så det ikke er afhængigt af én enkelt model.

Den afgørende test: helt ukendte bakterier

Da forskerne testede PathogenFinder2 på helt nye bakteriearter – organismer, der ikke indgik i træningsdataene – gjorde modellen netop det, den var designet til: den klarede sig bedre end eksisterende metoder.

”Den nøjagtighed, vi viser, er baseret på arter, som modellen ikke havde set under træningen.”

Det er en afgørende test, fordi de vigtigste situationer i praksis netop er dem, hvor der ikke findes nogen tæt reference.

På disse ukendte arter var modellen både mere præcis samlet set og bedre til at ramme den svære balance: at identificere bakterier med patogen kapacitet uden at udløse for mange falske alarmer. Nogle eksisterende metoder havde høj følsomhed, men markerede alt for mange harmløse bakterier som farlige, mens andre var for forsigtige.

”Vi ser, at nogle modeller er meget gode til ikke at overse patogener, men de klassificerer næsten alt som farligt. Det er ikke brugbart i praksis – man har brug for en balance.”

PathogenFinder2 skilte sig ud ved både at opretholde høj følsomhed og høj specificitet, samtidig med at antallet af falske positiver blev holdt relativt lavt. Samtidig var modellen velkalibreret, så dens sandsynlighedsscorer i højere grad afspejlede den reelle risiko.

”Det handler ikke kun om at lave en forudsigelse, men om hvor meget man kan stole på den.”

Modellen præsterer især godt i situationer uden tætte matches i databaser – netop dér, hvor traditionelle metoder har sværest ved at levere, og hvor nye trusler typisk opstår. Artsbaserede metoder faldt markant i præcision i disse tilfælde.

”Hvis din metode er afhængig af at finde noget lignende i en database, vil den fejle præcis dér, hvor du har mest brug for den – når en ny type bakterie dukker op.”

Hvad modellen faktisk ser bag sin forudsigelse

Ud over rene præstationsmål gav modellen også biologisk indsigt. Ved at analysere, hvilke proteiner der fik de højeste opmærksomhedsscorer, fandt forskerne, at PathogenFinder2 konsekvent fremhævede proteiner, der er kendt fra klassiske virulensmekanismer – som toksiner, adhæsionsfaktorer, sekretionssystemer og biofilmdannelse.

”Vi så, at modellen fokuserede på kendte faktorer, såsom toksiner og andre proteiner relateret til patogenicitet. Men den fremhævede også mange proteiner, der var hypotetiske eller ikke tidligere karakteriseret.”

Modellen pegede desuden på mindre oplagte træk, herunder metaboliske processer, systemer til jernoptagelse og proteiner involveret i genetisk mobilitet – faktorer, som indirekte kan understøtte en infektion.

”Det interessante er, at den ikke kun fremhæver de klassiske virulensfaktorer. Den opfanger også de understøttende systemer, der hjælper bakterier med at overleve og tilpasse sig i værten.”

Fra laboratoriet til virkelige prøver

I nogle tilfælde fremhævede modellen proteiner, der endnu ikke er velbeskrevne.

”For en forsker, der arbejder med en ny bakteriestamme, kan det være en måde at undersøge, hvilke proteiner der kan spille en rolle i patogenicitet,” siger Alfred Ferrer Florensa. ”Det er her, det bliver virkelig interessant. Vi kan begynde at formulere hypoteser om proteiner, der ikke tidligere er blevet koblet til patogenicitet.”

For at teste den praktiske anvendelighed anvendte forskerne PathogenFinder2 på 2.739 bakterielle genomer rekonstrueret fra globale spildevandsprøver – hvoraf mange er dårligt karakteriserede eller helt ukendte.

De fleste blev vurderet til ikke at have patogen kapacitet: 1.839 genomer. Men 370 blev udpeget som bakterier, der potentielt kan inficere mennesker under bestemte betingelser, og yderligere 530 faldt i en gråzone, hvor modellen ikke kunne give et entydigt svar. De udpegede genomer dannede klynger, som kan repræsentere hidtil ukendte risikogrupper.

”I miljøprøver har man typisk en blanding af kendte og ukendte bakterier, og man har brug for en måde at prioritere, hvad man skal kigge nærmere på.”

Når bakterier ikke passer i ja eller nej

Denne ”usikre” kategori afspejler en vigtig pointe: ikke alle forudsigelser kan – eller bør – reduceres til et simpelt ja eller nej. I stedet fremhæver modellen de tilfælde, hvor der er grund til at se nærmere.

Nogle af de bakterier, der blev udpeget som potentielt patogene, tilhørte grupper, der ikke tidligere har været anerkendt som sygdomsfremkaldende hos mennesker. Det peger på modellens evne til at gå ud over eksisterende viden.

”Vi siger ikke, at disse bakterier nødvendigvis vil forårsage sygdom. Men vi kan pege på dem som relevante at undersøge nærmere.”

Samtidig understreger forskerne en vigtig begrænsning: modellen forudsiger kapacitet – ikke faktiske sygdomsudfald.

”Om en infektion opstår, afhænger både af bakterien og værten. Vi modellerer kun den ene side af den interaktion.”

Mere tid til at opdage nye trusler

At kunne vurdere helt ukendte bakterier ændrer selve timingen i overvågningen af smitsomme sygdomme. I stedet for først at reagere, når et udbrud er i gang, kan værktøjer som PathogenFinder2 flytte fokus mod tidligere opdagelse og prioritering – før infektionerne begynder at sprede sig.

”Målet er at give os flere værktøjer til epidemiske hændelser. Jeg ved ikke, om vi kan stoppe dem, men vi kan være bedre rustet og mere forberedte, når de opstår,” siger Alfred Ferrer Florensa.

”Hvis man kan identificere potentielt farlige bakterier, før de forårsager infektioner, får man en helt anden reaktionstid.”

Modellen er derfor mindre et diagnostisk værktøj og mere et tidligt varslingssystem.

En oplagt anvendelse er storstilet overvågning af miljøprøver – som spildevand, jord eller dyr – hvor tusindvis af bakterielle genomer kan analyseres parallelt. Her er udfordringen ikke længere at finde bakterierne, men at afgøre, hvilke der er relevante.

”Vi bevæger os ind i en situation, hvor sekventering ikke længere er flaskehalsen. Flaskehalsen er fortolkningen – at forstå, hvilke organismer der er relevante for menneskers sundhed.”

Hvilke bakterier skal vi tage alvorligt?

Ved at rangordne bakterier efter deres forventede patogene kapacitet kan modellen hjælpe med at styre opmærksomheden mod de organismer, der er værd at undersøge nærmere.

”Det handler om at sætte prioriteter. Man kan ikke analysere alt i detaljer, så man har brug for en måde at afgøre, hvor indsatsen skal lægges.”

Det gør værktøjet særligt nyttigt i situationer, hvor forskerne står med ukendt materiale.

”Det er ikke et værktøj, man nødvendigvis bruger hver dag, for ofte ved man allerede, hvad man har med at gøre.”

Samtidig ændrer modellen, hvordan bakterier kan sammenlignes. Ved at placere genomer i et fælles matematisk rum kan forskerne begynde at kortlægge bakterier ikke kun efter slægtskab, men efter hvordan de interagerer med værter.

I dette landskab kan fjernt beslægtede bakterier ligge tæt på hinanden, hvis de deler strategier for at overleve i menneskekroppen – og dermed afsløre mønstre, som traditionel taksonomi ikke fanger.

”Vi begyndte at se på patogener mere globalt og ikke kun én art ad gangen.”

Kortlægning af bakterier efter funktion – og deres begrænsninger

På længere sigt kan denne tilgang få betydning i de tidlige faser af udvikling af lægemidler og vacciner. Hvis bestemte proteiner eller signalveje gentagne gange fremhæves på tværs af bakterier, kan de pege på fælles sårbarheder, som kan udnyttes bredt.

”Hvis vi begynder at se tilbagevendende mønstre på tværs af mange patogener, kan det pege på fælles sårbarheder, som vi kan udnytte.”

Alfred Ferrer Florensa understreger dog, at modellen først og fremmest er et undersøgelsesværktøj – ikke et endeligt svar. Den kan pege på proteiner, der er informative for forudsigelsen, men den dokumenterer ikke, at de direkte forårsager sygdom.

”Vi skal passe på med ikke at overfortolke signalerne. Modellen fortæller os, hvad der er informativt for forudsigelser – ikke nødvendigvis, hvad der er årsagen.”

Samtidig beskriver modellen kun den ene side af biologien. Om en infektion opstår – og hvor alvorlig den bliver – afhænger i høj grad af værten.

”En bakterie kan have evnen til at forårsage sygdom, men om den faktisk gør det, afhænger af værten.”

Netop denne begrænsning peger også på, hvad modellen realistisk kan bruges til i praksis.

”Hvis man vil lave overvågning, kan man ikke sammenligne alle genomer fra alle mennesker i en population.”

At forstå bakterier, før de gør skade

Den skelnen er særlig vigtig for opportunistiske patogener og bakterier i vores normale mikrobiom, hvor grænsen mellem harmløst og skadeligt afhænger af konteksten.

”Den samme bakterie kan være helt harmløs i én situation og problematisk i en anden. Derfor bruger vi begrebet ‘patogen kapacitet’.”

Samlet peger arbejdet på en bredere ændring i, hvordan biologiske data kan aflæses. Ved at anvende proteinsprogmodeller på hele genomer begynder forskerne at finde mønstre, som tidligere var svære at få øje på.

”Jeg vil sige, at dette er blandt de første studier, hvor biologiske sprogmodeller bruges på hele bakterielle genomer.”

Tilgangen kan i princippet udvides til andre organismer og til egenskaber, der opstår gennem samspillet mellem mange gener.

”Det åbner for mere komplekse modeller, der kan besvare flere spørgsmål end blot, om en bakterie har patogen kapacitet.”

Næste skridt: hvor og hvornår er risikoen størst?

Det næste skridt er ikke kun at afgøre, om en bakterie kan give sygdom, men også hvor – og under hvilke betingelser – risikoen er størst.

”Infektionsstedet kunne være et oplagt næste skridt, og måske også en udvidelse til andre arter.”

I sidste ende er ambitionen ikke at erstatte eksperimentel biologi, men at guide den – ved at indsnævre det enorme felt af mulige hypoteser og mål.

”Målet er at generere bedre hypoteser. I stedet for at lede i blinde kan vi tage udgangspunkt i et mere oplyst grundlag.”

I takt med at mængden af genomdata fortsætter med at vokse, er udfordringen ikke længere at indsamle mere information – men at forstå, hvad den allerede rummer.

”Dataene er der allerede. Spørgsmålet er, om vi kan lære at fortolke dem i tide.”

Alfred Ferrer Florensa is a data scientist and bioinformatician at the Technical University of Denmark, working in the Research Group for Genomic Epid...

Udforsk emner

Spændende emner

Dansk
© All rights reserved, Sciencenews 2020