Ny forskning viser, at vi læser AI-skrevne passager på en anden måde end menneskeskrevne. Med øjenkameraer har forskere dokumenteret, at AI-tekst ganske vist er nemmere at skimme – men samtidig har sværere ved at fastholde vores opmærksomhed og engagement.
AI er glimrende til at hjælpe med en e-mail eller til at polere sproget i en rapport. Men ny forskning peger på, at teksten ikke rammer læserne på samme måde som menneskeskrevne ord. Øjenbevægelsesforsøg viser, at AI-tekst ganske vist er nemmere at skimme – men langt dårligere til at fastholde opmærksomheden. En vigtig påmindelse til alle, der bruger AI til at overbevise, imponere eller inspirere.
For at teste forskellen bad forskere Microsofts Copilot om at efterligne stilen hos tre ikoniske danske forfattere og sammenlignede derefter læsernes reaktioner med de originale tekster ved hjælp af øjenbevægelsesmålinger. Resultatet var klart: læserne koncentrerede sig anderledes om de menneskeskrevne ord end om de AI-genererede. De kunstige tekster krævede mindre mental indsats, hvilket tyder på, at de også engagerede mindre. Holdet præsenterede deres resultater på Symposium on Eye Tracking Research and Applications i Tokyo i maj.
Forskellene kan hænge sammen med, hvordan AI-modeller i det hele taget arbejder, forklarer medforfatter Per Bækgaard, lektor ved Danmarks Tekniske Universitet (DTU), hvor han forsker i samspillet mellem mennesker og computere. Generative sprogmodeller bygger sætninger op ved hele tiden at forudsige det »næste mest sandsynlige ord«.
”Vi er nødt til at tænke over, hvor meget vi faktisk bruger AI i hverdagen til at generere den tekst, vi skriver,” tilføjer medforfatter Sofie Beier, adjunkt ved Det Kongelige Danske Kunstakademi. ”Mange af os lader store sprogmodeller korrekturlæse eller forbedre sproget for os. Det, vi finder her, er, at det rent faktisk kan have en effekt på læseren.”
Tilpasningsdygtige skærme – og behovet for meget tekst
I 2024 satte et hold fra DTU og Det Kongelige Danske Kunstakademi gang i projektet Reading the Reader – et initiativ, der skal udvikle »tilpasningsdygtige skærme« til mennesker med nedsat syn.
”Forestil dig en skærm, der – ved at følge dine øjne, mens du læser – registrerer, at du har svært ved at følge med, og derefter justerer teksten: gør bogstaverne lidt bredere, øger linjeafstanden og dermed gør det lettere at læse,” siger Sofie Beier, der er uddannet grafisk designer og leder af Center for Visibility Design ved RDA.
For at træne sådanne skærme kræves enorme mængder teksteksempler, som testpersoner kan læse, mens deres øjne spores, forklarer Per Bækgaard. ”Men hvis vi lader dem læse tekst, de allerede kender – for eksempel en populær bog – risikerer vi bias,” siger han. Derfor overvejede forskerne, om generativ AI kunne levere det nødvendige indhold med tilstrækkelig nyhedsværdi og variation.
Men først, understreger Per Bækgaard, »måtte vi undersøge, om der overhovedet er en forskel i, hvordan mennesker behandler AI-genereret tekst sammenlignet med almindelige tekster.«
Øjnene afslører det: hvordan vi læser AI-tekst kontra menneskeskrevet tekst
Aqdus Ilyas, computerforsker ved DTU, der studerer samspil mellem mennesker og robotter, bad Microsofts AI-værktøj Copilot om at skrive 600 ord lange passager i stil med tre danske forfattere: H.C. Andersen – den 19. århundredes mester i eventyr som Den lille havfrue og Den grimme ælling; Karen Blixen – 1900-tallets fortæller af romantik og eventyr, blandt andet Afrikas skygge; og Søren Kierkegaard – den eksistentialistiske filosof fra 1800-tallet.
Forskerne valgte de tre som pejlemærker for henholdsvis ’let’, ’middel’ og ’svært’ læsestof. ”Andersen skrev for børn, Blixen for voksne og Kierkegaard for akademikere,” forklarer Aqdus Ilyas.
Inden den endelige prompt var på plads, måtte han dog igennem omkring 60 iterationer. ”Vi sendte nogle af de AI-genererede passager til en professor i engelsk litteratur ved Cambridge University, som gav os feedback på, hvilke udgaver der lå tættest på originalforfatternes stil,” siger han.
Derefter læste 12 voksne hver seks korte tekster på en stor skærm, mens deres øjenbevægelser blev registreret 90 gange i sekundet – nogle tekster var af de originale forfattere, andre skabt af AI. Efterfølgende besvarede deltagerne spørgsmål om læseforståelsen. Et avanceret kamera oven på skærmen sporede øjnenes mindste bevægelser.
”De mikrobevægelser, vi laver med øjnene, mens vi læser, giver et direkte indblik i, hvordan hjernen bearbejder tekst,” forklarer Per Bækgaard. Holdet målte fire parametre: hvor længe øjnene hvilede på et ord, hvor ofte de standsede, hvor langt de sprang mellem pauser, og hvor meget pupillerne udvidede sig. Lange fikseringer tyder typisk på, at læseren skal anstrenge sig mere, mens korte pauser indikerer, at teksten er lettere at afkode.
En ’sakkade’ er det korte spring, øjnene foretager fra ét ord til det næste, supplerer medforfatter Ashkan Tashk, dataforsker ved DTU. Kortere sakkader kan være et tegn på, at læseren kæmper mere med teksten og derfor dvæler ved enkelte ord, mens længere sakkader forbindes med hurtigere læsning og bedre forståelse.
Også pupillerne røber noget: en lille udvidelse signalerer, at hjernen er ekstra opmærksom eller arbejder hårdere. ”Jo mere du investerer i det, du læser, jo mere udvider pupillen sig,” forklarer Ashkan Tashk.
Litteratur, forenklet af AI
Forskerne opdagede, at når Copilot blev sat til at efterligne forskellige forfatteres stil, fungerede det nærmest som en ”lysdæmper” på tekstens kompleksitet. Øjenbevægelsesmålingerne bekræftede, at pseudo-Kierkegaard var markant sværere at læse end pseudo-H.C. Andersen.
”Vi ser dog en statistisk signifikant forskel mellem de AI-genererede versioner og de menneskeskrevne tekster,” fortæller Per Bækgaard.
Generelt oplevede deltagerne de AI-genererede tekster som mindre krævende at læse end originalerne. Deres øjenbevægelser afslørede kortere fikseringer og hyppigere stop – tegn på en læsestrategi, der minder mere om skimming end fordybelse. ”Måske bruger de simpelthen lidt mindre tid på at forstå det,” siger Per Bækgaard. På en læsbarhedsskala scorede AI-teksterne da også lavere, fordi de typisk indeholdt kortere sætninger og færre lange ord end de originale forfattere.
”Men vi ser også nogle interessante mønstre, som får os til at tænke, at der måske er en anden strategi i spil, når folk læser AI-tekster,” tilføjer han. Blandt andet viste analyserne små, men statistisk sikre forskelle i pupiludvidelse: Pupillerne var større ved læsning af AI-versionerne af H.C. Andersen og Blixen end ved de menneskeskrevne tekster – noget, der normalt forbindes med en højere kognitiv belastning.
Ingen antagelser, når det kommer til AI
Generativ AI udvikler sig så hurtigt, at forskerne knap nok kan følge med, fortæller Sofie Beier. ”Vi tester en version i dag, og i morgen kan den allerede være erstattet af noget nyt,” forklarer hun. ”Det betyder, at vores resultater kan blive forældede næsten øjeblikkeligt – og netop derfor er det så vigtigt at dokumentere, hvad der sker her og nu.”
”Men det betyder ikke, at vi skal lade være,” tilføjer hun.
Forskergruppen håber, at deres resultater med Copilot kan fungere som en advarsel til andre: Man bør ikke antage, at AI-genereret tekst kan erstatte menneskelig skrivning én til én. Før man integrerer AI-tekst i projekter som Reading the Reader, er det afgørende at forstå forskellene i, hvordan vi læser og tolker sådanne tekster – hvad enten det gælder læsehastighed, forståelse eller andre mål for engagement.
Samtidig understreger forskerne, at der ingen garanti er for, at de mønstre, de har identificeret i øjenbevægelser, også vil gælde for tekst genereret af andre AI-modeller – eller endda for senere versioner af Copilot.
Det overordnede mønster kan dog vise sig at være robust, fordi alle store sprogmodeller fungerer efter samme princip: at forudsige det ’næste mest sandsynlige ord’. ”Der kan være nogle ting, der kan generaliseres, når det gælder AI’ernes måde at konstruere tekst på – netop fordi forudsigeligheden af ordene kan adskille sig fra normal tekst,” forklarer Per Bækgaard.
Men hvad betyder disse forskelle, når vi bruger generativ AI uden for laboratoriet – i helt almindelige sammenhænge?
Ifølge forskerne afhænger det af formålet. I situationer, hvor læsbarhed og enkel formidling er i centrum – fx i offentlige meddelelser eller samlevejledninger – kan en lavere kognitiv belastning være en fordel. Men når teksten skal fange og fastholde opmærksomheden – i et følgebrev til en jobansøgning, i iøjnefaldende marketing eller i historier, der skal vække følelser – kan menneskelig originalitet stadig være svær at overgå.
