Kunstig intelligens afslører proteiner, som dit DNA ikke kan

Fremtidens teknologi 31. mar 2025 9 min Associate Professor Timothy Jenkins Skrevet af Morten Busch

Proteiner er kroppens budbringere i realtid og afslører, hvad der foregår under overfladen – ofte før symptomerne viser sig. Men det har længe været en udfordring at aflæse dem. Nu har forskere udviklet en metode baseret på kunstig intelligens (AI), som kan læse proteiner hurtigere, mere præcist og uden at bruge en reference. Det er et stort gennembrud, der kan forandre medicin, mikrobiologi – og endda studiet af fortidens liv.

Interesseret i Fremtidens teknologi? Vi kan holde dig opdateret helt gratis

Når vi bliver syge, fokuserer vi som regel på symptomerne. Men under overfladen er bittesmå proteiner allerede i gang med at signalere, hvad der er galt – ofte før vi selv mærker noget.

Proteinerne står for næsten alt i kroppen: De bekæmper infektioner, hjælper med at hele sår og sørger for, at vores systemer fungerer. Læger og forskere er afhængige af dem for at forstå, hvad der egentlig sker – især når DNA’et ikke fortæller hele historien.

Men det har længe været en stor udfordring at læse proteiner – særligt når det gælder komplekse sygdomme som infektioner eller kræft. Derfor satte forskere fra Danmarks Tekniske Universitet og AI-virksomheden InstaDeep sig for at finde en løsning. Ved hjælp af kunstig intelligens har de udviklet en ny metode, der kan læse proteiner langt mere præcist – selv når der ikke er noget DNA til at vise vej.

”Med vores modeller fandt vi omkring 50 % flere af de vigtige proteinstykker i en prøve sammenlignet med den hidtil bedste metode,” fortæller studiets hovedforfatter Timothy Patrick Jenkins, lektor ved Institut for Bioteknologi og Biomedicin, Danmarks Tekniske Universitet i Kongens Lyngby.

”Det her er ikke bare en teknisk opgradering – det betyder, at vi rent faktisk kan se, hvad der sker i kroppen, selv når de sædvanlige værktøjer ikke slår til. Vi nøjes ikke med at matche en database og håbe på det bedste. Vi aflæser det, der faktisk er til stede – også selvom ingen har set det før. Det kan være forskellen på at gætte og at vide – især når det handler om at stille en diagnose, følge en infektion eller finde et nyt behandlingsmål,” tilføjer Timothy Patrick Jenkins.

Derfor er det vigtigt at kunne læse proteiner

Vi hører tit, at DNA er livets kode – men DNA er kun begyndelsen. Det er som en opskrift, ikke den færdige ret. For virkelig at forstå, hvad der sker inde i kroppen, er forskere nødt til at kigge på proteinerne, som udfører det meste af arbejdet i vores celler. DNA og RNA kan hurtigt og præcist sekventeres, men proteiner er meget sværere at aflæse.

”Man har løst DNA-sekventering og RNA-sekventering, men vi er stadig ret dårlige til at sekventere proteiner,” siger Timothy Patrick Jenkins. ”Så teknisk set var det her en virkelig spændende udfordring.”

Men det handler ikke kun om teknik. Proteiner viser, hvad der sker lige nu. DNA fortæller, hvad der kan ske, men proteiner viser, hvad der faktisk sker – inklusive effekten af sygdom, infektion eller behandling. Og de kan opføre sig meget uventet.

”Selv hvis du har DNA’et, er det bare en tegning. Det er ikke det færdige produkt. Og der kan ske rigtig meget med det færdige produkt – proteinet – undervejs.”

Processen bliver endnu langsommere

Nogle gange kan et menneskes DNA se helt normalt ud, men det protein, det producerer, er ændret på små, men essentielle måder. Disse ændringer kan være særligt afgørende ved kræft eller virusinfektioner, hvor proteinet opfører sig anderledes, end DNA’et umiddelbart antyder.

"Man måler kun en slags stedfortræder – et indirekte DNA spor – i stedet for at måle, hvad der rent faktisk er til stede i systemet."

Det er derfor, forskere er så optagede af proteomik – studiet af proteiner i stor skala. Men indtil nu har den primære metode til at aflæse proteiner været at sammenligne dem med enorme digitale databaser. De metoder fungerer fint, når man allerede ved, hvad der er i prøven – men ikke når der er tale om noget ukendt, som ved en kompleks infektion eller en blandet prøve fra tarmen eller et sår.

"Det fungerer, når du ved, hvad du leder efter, men det er ubrugeligt, når det ikke er tifældet. Med mikrobiomer for eksempel – bakterier, virus, det hele – så tager det ugevis."

Og jo flere muligheder man tilføjer databasen for at forsøge at fange det ukendte, desto langsommere og mere besværligt bliver det – og nøjagtigheden falder markant. Over for alle disse begrænsninger så Timothy Patrick Jenkins og hans kollega Konstantinos Kalogeropoulos en mulighed. Hvad nu hvis man helt kunne springe databasen over og i stedet lade en maskinlæringsmodel - en AI - aflæse proteinerne direkte – helt fra bunden?

"Der er virkelig et stort potentiale i den her såkaldte de novo-sekventering, hvor man finder ud af, hvad proteinet er, bare ved at kigge på de rå data – uden at bruge en reference. Der var egentlig aldrig nogen, der havde lavet en rigtig god model til det, selv om der findes masser af data. Det var som at gå og vente på at blive plukket," forklarer Timothy Patrick Jenkins.

Sådan virker AI-modellen

For at løse opgaven slog de sig sammen med det britiske AI-firma InstaDeep – som kunne bidrage med regnekraft og ekspertise inden for maskinlæring, der skulle til for endelig at gøre proteinsekventering hurtigere, smartere og mere tilgængelig.

"For at aflæse proteiner bruger vi normalt en metode, der kaldes database-søgning. Det svarer lidt til at google en sætning og håbe på at finde et præcist match. Det fungerer, hvis man ved, hvad man leder efter."

Men ved ukendte prøver – som ved en mystisk ny infektion – bryder metoden sammen.

Så i stedet for at lede efter matches i en database byggede forskerne noget helt nyt – en kunstig intelligens, der kan aflæse proteinfragmenter direkte fra de rå data uden at kende dem på forhånd. Den type de novo-sekventering har tidligere været for upræcis og langsom til at kunne bruges i praksis.

For at løse det vendte Timothy Patrick Jenkins og hans team sig mod samme slags AI, der driver ChatGPT – en "deep learning" model kaldet en transformer.

"Vi trænede den på det største proteinsæt, der nogensinde var samlet på det tidspunkt."

På den måde kunne modellen lære at genkende mønstre i data fra massespektrometri og med det samme oversætte dem til proteinsekvenser.

"Vi forvandlede database-søgning – som Google-søgning – til en ChatGPT-løsning," siger Timothy Patrick Jenkins. "Vi har trænet en stor model til bare at kigge på et spektrum – den aldrig have set det før – og så ved den, ud fra toppene, hvad sekvensen var, med meget høj præcision."

En slagkraftig kombination

Men de stoppede ikke der. Omtrent samtidig begyndte en ny type AI-model – en såkaldt diffusionsmodel – at skabe opsigt inden for billedgenerering og proteindesign. Timothy Patrick Jenkins og hans samarbejdspartnere så potentialet i også at bruge den til proteinsekventering.

"Vi tænkte, at vi kunne bruge diffusionsmodeller sammen med vores ChatGPT-transformer, så vi både kan oversætte spektrummet direkte til en sekvens og derefter finjustere det – ligesom en forsker ville gøre – trin for trin," forklarer han.

Det er lidt som a skrive et udkast til tekst og så gå tilbage med en rød pen for at redigere og forbedre. Det er det, diffusionsmodellen gør - giver et første bud og forbedrer det lidt efter lidt.

"Med diffusionsmodellen kan vi gå tilbage og spørge: Har vi virkelig fået det hele så godt som muligt? Eller er vi lidt usikre på en bestemt aminosyre i sekvensen? Hvis ja, så kan vi se, om vi kan optimere," bemærker Timothy Patrick Jenkins. "Den forfiner og forbedrer den forudsagte sekvens på en måde, der minder om, hvordan et menneske ville arbejde sig gennem dataene – bare uendeligt hurtigere."

Til sidst kombinerede teamet de to modeller – og kaldte dem InstaNovo og InstaNovo+ – for at skabe en slagkraftig én-to-løsning. Transformeren laver det første, meget præcise bud, og diffusionsmodellen finpudser resultatet.

Om at finde det, andre overså

Sammen gør disse værktøjer ikke bare arbejdet hurtigere – de er også mere præcise, mere fleksible og langt bedre til at opdage ukendte eller sjældne proteiner. Og de bliver allerede brugt inden for alt fra kræftforskning til studier af forhistorisk biologi.

"Da modellerne var bygget, var det store spørgsmål: Ville de også virke i den virkelige verden?"

For at finde svaret satte teamet InstaNovo og InstaNovo+ på prøve. De sammenlignede deres ydeevne med de bedste eksisterende metoder ved hjælp af benchmark-datasæt – herunder nogle af de mest brugte prøver i proteomik-fællesskabet. Forskellen var tydelig.

"Vi fandt 60.000 proteinfragmenter i én af testprøverne – det samme datasæt, hvor den tidligere førende model, Casanovo, fandt 40.000," siger Timothy Patrick Jenkins. "Det er en stigning på 50 %. Og det var ikke bare held. Det skyldtes, at InstaNovo+ kunne gå tilbage og forfine forudsigelsen – som at lave et andet udkast til svaret."

I rene tal opdagede én af modellerne 3.495 nye proteinfragmenter (peptider), som eksisterende værktøjer havde overset. Den mere avancerede InstaNovo+-model fandt over 10.000 yderligere matches – og forudsagde næsten 13.000 nye. For forskere, der leder efter svære sygdomsmarkører, åbner det et helt nyt spillefelt.

"Kombineret viser testene, at disse modeller virkelig kan hjælpe med at forstå, hvad der sker – selv i prøver, hvor vi slet ikke ved, hvad der er i," tilføjer Timothy Patrick Jenkins. "Det er ret stort for biomedicinen."

Kan hjælpe mod meget genstridige sår

Anvendelsen af det nye værktøj er ikke kun begrænset til kræft eller sår. Teamet viste også succes i studier af mikrobiomer, forhistoriske proteiner, antistofudvikling og endda slangegift – hvilket viser, hvor bredt potentialet er. Selv om tallene beviser, at modellerne virker, er det de virkelige anvendelser, der viser, hvor stor betydning gennembruddet kan få.

"Vi ville ikke bare slå den hidtil bedste metode – vi ville skabe noget, der kunne bruges på tværs af felter, fra hospitaler til museer. Vi forudsiger ikke bare – vi identificerer, hvad der faktisk foregår," siger Timothy Patrick Jenkins.

Et stærkt eksempel kom fra klinikken: en gruppe patienter med kroniske venøse bensår – sår, der ikke heler ordentligt og ofte er svære at behandle. Disse infektioner er notorisk svære at diagnosticere, fordi de indeholder meget lidt DNA og en blanding af bakterier. Med deres nye model kunne forskerne læse proteinerne direkte og identificere de skyldige.

"De her sår er virkelig vanskelige – næsten intet DNA og masser af ukendte faktorer," forklarer Timothy Patrick Jenkins. "Med vores metode kunne vi læse proteinerne direkte og identificere to specifikke bakterier, herunder én, der var multiresistent over for antibiotika. Og vi bekræftede det i laboratoriet. Den slags information kan ændre hele behandlingen for de her patienter."

AlphaFold 2.0

Et andet bemærkelsesværdigt eksempel er inden for kræftbehandling. Moderne immunterapi afhænger af at finde specifikke proteinfragmenter på overfladen af kræftceller – fragmenter, der signalerer til immunforsvaret: "angrib her". Men mange af disse mål er usynlige for ældre metoder. Med InstaNovo+ fandt teamet tusindvis af nye mulige angrebspunkter.

"I kræft handler det om at finde det rigtige mål," siger Timothy Patrick Jenkins. "Med vores modeller fandt vi over 50.000 peptider, som standardmetoderne overså – det er syv gange flere potentielle mål. Det betyder, at vi nu kan være med til at designe vacciner eller behandlinger, der er skræddersyet specifikt til patientens kræft og ikke bare en gennemsnits-version."

Ifølge forskerne er det her kun begyndelsen. Teamet arbejder allerede på næste generation af modellen – med målet om at hæve nøjagtigheden fra 70 % til helt op mod 95 %.

"AlphaFold skabte overskrifter, da det lykkedes at finde ud af, hvordan proteiner folder sig i 3D-strukturer – noget man troede, der ville gå 50 år før, vi kunne løse. Nu vil vi skabe det samme gennembrud for, hvordan vi aflæser og identificerer proteiner."

Det nye værktøj skal gøre det muligt for forskere ikke bare at gætte, hvilke proteiner der kunne være til stede – men at vide det med sikkerhed.

"Det her er lidt som AlphaFold 1 for proteinlæsning," siger Timothy Patrick Jenkins. "Vi har løftet nøjagtigheden fra 40 % til 70 %. Nu prøver vi at bygge AlphaFold 2 – og vi har allerede fået EU-finansiering til det."

Indsigt i utilgængelige landskaber

Et vigtigt mål for forskerne er at gøre værktøjet bredt tilgængeligt – ikke kun for AI-eksperter eller top-laboratorier. De har derfor udviklet en brugervenlig grænseflade, som snart udgives, hvor forskere bare kan uploade deres filer og få resultater – helt uden at kode.

"Vi har bygget en grafisk brugerflade. Du lægger bare din massespektrometri-fil ind, og så får du resultaterne ud. Du behøver ikke gøre noget som helst andet," siger Timothy Patrick Jenkins.

Og anvendelsen stopper ikke ved medicin. Fra miljøovervågning til industriel bioteknologi kan evnen til hurtigt og præcist at identificere ukendte proteiner ændre, hvordan vi forstår og håndterer biologiske systemer.

"Med de her værktøjer kan vi forbedre vores forståelse af den biologiske verden som helhed – ikke kun i sundhedssektoren, men også i industrien og forskningen," siger Timothy Patrick Jenkins. "Inden for alle felter, der bruger proteomik – uanset om det er planteforskning, veterinærvidenskab, industriel bioteknologi, miljøovervågning eller arkæologi – kan vi få indsigt i proteinlandskaber, som tidligere var utilgængelige," afslutter Timothy Patrick Jenkins.

Dr. Timothy Patrick Jenkins is an Associate Professor in Digital Biotechnology and Head of Data Science at the Department of Biotechnology and Biomedi...

Udforsk emner

Spændende emner

Dansk
© All rights reserved, Sciencenews 2020