EN / DA
Krop og sind

Banebrydende forskning lukker huller i det genomiske puslespil

I dag kan man for under 4000 kr. få kortlagt sit genom og få et bud på, hvordan de små ændringer i ens genom påvirker risikoen for forskellige sygdomme. Den måde, computerprogrammer sammenligner genomerne på, har primært været med fokus på små genomiske ændringer, mens store ændringer ofte er blevet helt overset. Nu har danske forskere udviklet en ny algoritme, der finder de ofte oversete brikker i det store genomiske puslespil. Den nye metode forventes at finde vigtige anvendelser indenfor fremtidens personlige medicin.

Når man skal bestemme sekvensen af et menneskes genom, er det lidt ligesom et puslespil. Den nuværende teknologi kan nemlig ikke aflæse genomet i dets helhed. I stedet opstår et gigantisk puslespil bestående af milliarder af små brikker, som avancerede algoritmer skal stykke sammen, før arvemassen kan fortolkes.

”Når man skal analysere genomsekventeringsdata, lægger man hver enkelt brik oven på de brikker, man allerede kender, også kendt som et referencegenom. Derfor kan man nemt overse nye brikker, som for eksempel store genomiske indsættelser, da man har svært ved at placere dem korrekt på referencegenomet. Vi har udviklet en ny computeralgoritme, der skaber denne genomiske reference i 3D, så man kan sammenligne med de millioner af ændringer, man allerede kender. Dette giver os mulighed for i højere grad at finde ofte oversete komplekse genomiske ændringer og derved give et mere klart billede af det genomiske landskab,” forklarer en af hovedforfatterne, Jonas Andreas Sibbesen fra Section for Computational and RNA Biology på Biologisk Institut ved Københavns Universitet.

Svært at håndtere de ekstra brikker

Genomsekventering er i dag næsten allemandseje. For få tusind kroner kan man få sekventeret hele sit genom og dermed få oplysninger om genetiske ændringer i genomet, samt hvad det kan have af konsekvenser for ens risiko for at få forskellige sygdomme som fx kræft eller metaboliske sygdomme.

”For at kunne give de svar er man dog nødt til at have avancerede computeralgoritmer, der kan samle og sammenligne genomerne med et standard-genom. Paradoksalt nok har algoritmerne indtil nu primært fundet mindre genetiske variationer i genomet, hvorimod større variationer - som fx genomiske indsættelser - er forblevet i forskernes blinde vinkel.”

De tidligere metoder til at samle det genomiske puslespil har enten bestået i at samle puslespillet fra bunden uden på forhånd at vide, hvilket motiv der var puslespillet. Med milliarder af brikker er dette en utrolig tidskrævende og besværlig opgave. Derfor er ”assembly”-metoden ikke ofte benyttet. Med alternativet ”mapping” forankrer man i stedet de små brikker ovenpå et allerede kendt puslespil – et referencegenom. Dette gør analysen en del nemmere, men i regioner, hvor individet og referencen er meget forskellige, kan denne fremgangsmåde resultere i, at varianter bliver overset.

”Vi ved, at der fx er mange variationer i den såkaldte HLA-region, som koder for gener, som er helt centrale i vores immunsystem. Her kan brikkerne være så forskellige fra referencegenomet, at det næsten kan være umuligt at forankre dem, med det resultat at man bliver blind for mange af varianterne i denne region.”

Forskernes nye algoritme anvender en ny tilgang, hvor man i stedet for at nøjes med ét tilfældigt udvalgt referencegenom kan bruge genetiske varianter fra mange individer på en gang.

”Dette trick giver mulighed for i langt højere grad at bruge genetiske varianter kendt fra tidligere studier i analyserne af nye individer, hvilket øger følsomheden for mere komplekse former for genetisk variation. Man kan sige, at i frem for at forankre brikkerne i et enkelt individ forankrer vi dem i tusinder af individer på en gang.”

Mørke pletter frem i lyset

Genomsekventeringsdata har allerede og vil i stigende omfang revolutionere forskeres og lægers muligheder for at undersøge det menneskelige genom. I Danmark har GenomeDenmark-projektet stået for kortlægningen af det danske referencegenom, og det er i den forbindelse, at forskergruppen fra Sektion for Bioinformatik & RNA Biologi ved Biologisk Institut har udviklet den nye og banebrydende algoritme.

”Ved at bruge vores algoritme var vi i GenomeDenmark-projektet i stand til markant at udvide spektrummet af genetiske varianter, som kan identificeres fra sådanne data. Dette gjaldt især de mere komplekse variationer såsom store sletninger og indsættelser i genomet, hvor vi fandt mange nye, som ikke havde været set før.”

Evnen til bedre at kunne belyse de indtil nu mørke pletter på det genetiske landkort forventes at have vigtige anvendelser indenfor personlig medicin, hvor kortlægning af det enkelte individs arvemasse skal indgå i valget af behandling.

”I takt med at flere og flere lande i verden lancerer de her store nationale genomprojekter, bliver det stadigt mere essentielt at have algoritmer, som kan give lægen et mere komplet genetisk billede. Målet er derfor hele tiden at blive dygtigere til at finde nye variationer i vores genomer, for her ligger sandsynligvis en del svar på, hvorfor vi bliver syge, og hvordan vi skal behandles.”

Artiklen ”Accurate genotyping across variant classes and lengths using variant graphs” er udgivet i tidsskriftet Nature Genetics. Medforfattere er Lasse Maretty og Anders Krogh fra The Bioinformatics Centre på Biologisk Institut på Københavns Universitet. Projektet er finansieret af Innovationsfonden og Novo Nordisk Fonden.

Jonas Andreas Sibbesen
Postdoc
Current methods for genotyping structural variation, from high-throughput sequencing data, are generally based on comparing the reads to a linear reference genome. However, this approach is biased towards the reference, since regions which differ markedly between the individual sequenced and the reference are harder to infer, compared to regions which are more identical. Hence, prediction of structural variants is generally much harder compared to simpler SNVs. This problem can be mitigated by comparing the reads to a genome graph that contain not only the linear reference, but also the millions of variants already known. The aim of our research is to develop a method that improves discovery and genotyping of structural variation, by reducing the reference-bias using genome graphs.