Det Googleejede DeepMind, der udvikler kunstig intelligens (AI), præsenterede i december 2020 et stort gennembrud indenfor proteinfoldning. Det kan på sigt bruges som et værktøj til at designe molekyler og dermed være med til at revolutionere medicin. DeepMinds AI-forskningsmetode kan dog vise sig at have endnu større effekt på selve den måde, vi forsker på, og spørgsmålet er, om forskningens verden er klar til at forløse det potentiale.
Proteinfoldning dækker over dét at kunne forudsige et proteins tredimensionelle struktur ud fra en simpel aminosyresekvens. Det anses som værende en af biologiens mange hellige graler. Proteiners form og struktur er afgørende for de fleste af menneskekroppens processer, men proteinstrukturer er ikke kun afgørende for at forstå biologiske fænomener. Det bruges også i udviklingen af industrielle enzymer til fødevareproduktion, miljøoprensning og til udvikling af ny medicin, hvor det er afgørende at forstå, hvordan medicinske molekyler binder til kroppens proteiner.
Siden 1994 har konkurrencen CASP (Critical Assessment of Structure Prediction) hvert andet år taget temperaturen på forskeres formåen til at folde proteiner via en computer. Selvom det siden da er gået jævnt fremad, var der indtil 2018 stadig lang vej til noget der tilnærmelsesvis kunne kaldes for en løsning.
I 2018 deltog DeepMind så for første gang i konkurrencen med deres såkaldte AlphaFold-metode, som præsenterede et fremskridt svarende til, hvad der normalt kunne forventes på 10 år. I 2020 blev det, som mange af os havde forventet, endnu vildere, da DeepMind nu præsenterede deres AlphaFold 2, som ifølge CASPs målestok kan siges at have løst proteinfoldningsproblemet.
Men hvorfor er det ikke en velrenommeret forskningsinstitution, men derimod et Googleejet firma, der for alvor knækker dette biologiske problem? Svaret er såre simpelt: Fordi netop Google har de rette forudsætninger til at løse det, og forudsætninger som forskningsverdenen ikke besidder – i hvert fald ikke i tilstrækkelig grad – endnu. Det kan ikke udelukkes, at Google kan genbruge indsigterne indenfor deres kerneforretningsområder som søgning, men når Google bruger penge på det her, er det i høj grad for hæderen og respekten, der følger med dette videnskabelige gennembrud.
Også et spørgsmål om data
Hvad er det, som er så interessant og nyskabende i Google og DeepMinds tilgang? Den første forudsætning er at vide, hvornår det giver mening at bruge den kunstige intelligens (AI).
De første skridt blev taget, efter at DeepMinds AI til brætspillet Go, AlphaGo, i 2016 slog verdensmesteren Lee Sedol. Når det gælder proteinfoldning, har biologer sværget til den tidligere Nobelpristager Christian Anfinsens hypotese om, at sekvensen af proteinets byggeblokke – aminosyrerne – stort set bestemmer proteinets tredimensionelle struktur. Er det sandt, giver det mening at lave en statistisk model, der forudsiger struktur ud fra sekvens.
Så regel nummer et er at gå efter de problemer, der har et veldefineret læringsproblem, men et problem, som er egnet til at blive løst ved hjælp af kunstig intelligens, skal have endnu et karakteristika: Adgang til masser af træningsdata.
I spil kan man samle data ved at lade AI spille mod AI. I proteinfoldningen har vi strukturdatabaser med masser af træningsdata, fordi biologer og kemikere gennem de sidste 50 år eksperimentelt har bestemt proteinstrukturer ved hjælp af fx krystallografi.
Med det veldefinerede læringsproblem og masser af data kan man udnytte de sidste 10 års store gennembrud indenfor computerberegningskraft og fleksible statistiske modeller – dyb læring – nok bedre kendt som det engelske deep learning.
Hvad er en god deep learner?
DeepMinds løsning af proteinfoldningen har været 4 år undervejs dirigeret af en usædvanlig visionær leder, Demis Hassabis, med et stærkt blik for, hvilke problemer der er modne nok til at blive løst ved hjælp af kunstig intelligens. Det er bare ikke nok at vide, hvornår man kan bruge den kunstige intelligens. Spørgsmålet om hvordan er mindst ligeså vigtigt.
Hver gang, DeepMind går ind i et nyt område, starter de med et mindre hold, der laver et pilotstudie. Hvis dette viser lovende resultater, bliver der efterfølgende lavet en multidisciplinært hold, der kan dedikere sig til problemet. Arbejdet har været udført af en kerne af anslået 15 forskere, og omtrent lige så mange har assisteret undervejs. Ligesom i eksperimentel videnskab er processen dikteret af vores forudgående viden og resultaterne undervejs.
Gode ”deep learners” er systematiske eksperimentalister med en intuitiv forståelse for, hvilke knapper man skal skrue på. I stedet for at eksperimentet foregår i et traditionelt laboratorium, så er det statistiske modeller med millioner af parametre, der bliver trænet på store datasæt i datacentre med tusindvis af GPU-computere.
Natur- og sundhedsvidenskaben er heldigvis smækfyldt med veldefinerede læringsproblemer, og i Danmark svømmer vi i sundhedsdata og mange andre typer af AI-egnede data, så hvis vi også kan lære af DeepMinds samarbejdsmetoder, kan forskningsverdenen måske selv skabe det næste store AI-gennembrud.
Måske andre løber med det hele
Der er ingen tvivl om, at AI vil accelerere fremskridtet indenfor mange områder. For nylig fik jeg sammen med fem andre forskere en stor bevilling til at lave metodeforskning i maskinlæring. Samarbejdet mellem forskere indenfor maskinlæring, biologi, fysik og modellering giver os vigtig inspiration til, hvor vi skal hen. Vi håber, at vores metodebidrag kan skabe nye gennembrud indenfor brugen af kunstig intelligens.
En sygdom som brystkræft kan genomisk set være meget forskellig fra patient til patient. Modellering af store datamængder kan få stor betydning, hvis vi skal designe mere præcise individuelle behandlinger, der virker. Data kan også hjælpe os til en bedre karakteristik af for eksempel kræft og koble denne karakteristik med diagnostik og behandling. En hindring for fremskridt har indtil nu været, at vi har været overvældet af den naturlige genomiske variation, som gør det svært at pege på de forandringer, der fører til sygdom. Vi vil udvikle mere præcise modeller, der kan lære på tværs af datakilder og ikke kun kommer med forudsigelser, men også kan vurdere usikkerheden på forudsigelser.
Udviklingen går dog hurtigt, og konkurrencen om at lave de bedste metoder er hård. AlphaFold-eksemplet, hvor Google løb med den foreløbige sejr, viser, at forståelsen for, hvor potentialet er, og hvordan man arbejder med AI, er vigtigt for, om man får succes eller ej. Derfor kan jeg godt være bekymret om, at forskningsverdenen bredt set er klar nok til AI, eller om vi vil se nogle få AI-stærke organisationer så at sige løbe med det hele.
Det er slet ikke alle problemer, der er AI-egnede, og der er mange grene af videnskaben, hvor man ikke kan erstatte forskeres dybe viden med en gruppe eksperter i dyb læring. Ligesom eksperimentelle teknologier såsom gensekvensering i dag har sat rammen for både grundforskning og corona-testning, vil AI i højere og højere grad påvirke måden, vi forsker på. Så tiden er nu moden til, at andre eksperimentelle videnskaber begynder at se AI som et supplement til deres teknologiske værktøjskasse.