Vi gir altså ikke en detaljert innføring i hvordan bruke generative språkmodeller som assistent i undersøkende journalistikk. Men vi ønsker å si noe mer overordnet om aktuelle bruksområder og mulige fallgruver som kan oppstå. Vi vil behandle dette skjematisk og trinnvis i fire faser:
Fremstillingen i hver fase vil basere seg på eksisterende forskning og observasjoner vi har gjort av aktuelle undersøkende prosjekter i mediebransjen, både i Norge og internasjonalt. Som nevnt en rekke ganger; avanserte former for undersøkende datajournalistikk er et felt i konstant bevegelse der det stadig gjøres nye fremskritt og oppdagelser. Fremstillingen som følger er derfor ikke på noen måte uttømmende, men snarere et øyeblikksbilde av hvordan ulike former for kunstig intelligens brukes i gravejournalistikk akkurat nå (2024/2025).
Kunstig intelligens kan brukes til idéutvikling i undersøkende journalistikk. I en eldre forskningsartikkel fra 2015 beskriver den amerikanske datajournalisten og akademikeren Meredith Broussard (2015) hvordan hun bygget et såkalt ekspertsystem som skulle hjelpe med å finne ideer til undersøkende nyhetssaker som hadde offentlighetens interesse innenfor utdanningssektoren. Ekspertsystemer hører til innenfor symbolsk AI og kjennetegnes av logiske regelbaserte og endelige algoritmer designet av mennesker. Kort fortalt designet Broussard et system der hun forhåndsdefinerte hvordan ulike former for avvik og systemsvikt innenfor utdanningssektoren ville se ut. Dette systemet ble så brukt til å analysere store mengder offentlig utdanningsdata. Ved hjelp av spørringer levert gjennom en nettside kunne både journalister og publikum få tilgang til analyser og sammenstillinger som pekte i retning av distrikter og skoler der det kunne finnes mulige kritikkverdig forhold. Systemet leverte altså ikke ferdig journalistiske ideer, men ansporinger til ideer. Når man leser Broussards artikkel med dagens KI-briller, fremstår et slikt håndkodet ekspertsystem litt komplisert og tungrodd. I 2025 virker det dessuten ganske usannsynlig at én nyhetsorganisasjon skal bruke så mye tid og ressurser på å utvikle et statisk system som bare kan resultere i undersøkende journalistikk.
Da er det kanskje mer hensiktsmessig å bruke en stor språkmodell som assistent i idearbeidet. Store språkmodeller, som har en datadrevet tilnærming til resonering og kunnskapsrepresentasjon, er mer dynamiske og tilpasningsdyktige enn ekspertsystemer og kan brukes som assistenter til å finne nyhetspoenger, mønstre og avvik i større mengder ustrukturerte skriftlige data. En typisk øvelse mange norske journalister gjør, er at de laster opp offentlig rapporter og utredninger og spør ChatGPT om den kan oppsummere og foreslå aktuelle saker og nyhetspoenger. Resultatene fra slike spørringer kan ofte være av varierende kvalitet, men som regel finner man i hvert fall ansporinger til saker som kan utvikles videre.
Sammen med forskere fra Universitetet i Bergen og NLA høgskolen, samt utviklere og journalister fra iTromsø, Bergens Tidene og NRK, har SUJO laget Demokratibasen, et KI-verktøy som på flere nivåer kan automatisere, systematisere og oppskalere den manuelle prosessen skissert over. Kort fortalt laster Demokratibasen automatisk ned (skraper) alle politiske møtedokumenter og vedlegg fra et utvalg norske kommuner. Deretter blir dokumentene oppsummert og gitt nyttig metadata, før de lagres i en søkbar database. Dokumentbehandlingen skjer ved at systemet sender forespørsler til OpenAIs API. Det er altså i bunn og grunn en tilpasset GPT som er «hjernen» i Demokratibasen og gjør den til et potensielt kraftfullt journalistisk ideutviklingsverktøy.
Akkurat som at ekspertsystemet til Broussard var forhåndsprogrammert til å identifisere hva som kjennetegner et avvik, kan man også manuelt instruere og konfigurere generative språkmodeller før man bruker dem. En veldig nyttig forhåndsinstruksjon handler om å tydeliggjøre konteksten for spørringene man ønsker å gjøre. Dette innebærer for eksempel at man beskriver hvem man er (som journalist), og hva slags saker man er ute etter. I gratisversjonen av ChatGPT må dette gjøres i form av prompts hver eneste gang, men i betalingsversjonen kan man legge inn disse preferansene som en del av en fast forhåndskonfigurasjon. Skriver man for eksempel at man jobber i en lokalavis og definerer eksplisitt at man jobber med undersøkende journalistikk (og beskriver hva man legger i begrepet), så vil modellen returnere andre og forhåpentligvis mer spissede svar enn om dette ikke er spesifisert.
Generelt kan vi si at det å bruke en generativ språkmodell som kreativ sparringspartner og idéassistent i undersøkende journalistikk krever både prøving og feiling. Delvis handler det om at man som journalist gjør seg kjent med modellens virkemåter og begrensninger, men kanskje vel så viktig er det at modellen må bli kjent med deg som journalist.
Overgangen fra utforskende idéutvikling til målrettet research og informasjonsinnhenting er gjerne flytende og vanskelig å få øye på i undersøkende journalistikk. Hvis man jobber med menneskelige kilder og offentlige fysiske dokumenter så er kanskje heller ikke overgangen så viktig å definere eksplisitt. Jobber man derimot med generative språkmodeller som arbeidsverktøy, så er det helt avgjørende å være bevisst på når man beveger seg fra utforskende idéutvikling til en aktiv og målrettet researchfase. Grunnen til det, er at språkmodeller er notorisk upålitelig som faktakilder fordi alt de frembringer av tekst er basert på avansert sannsynlighetsberegning. I motsetning til det mange tror, så er store språkmodeller altså ingen sannhetsteknologi. Chatboter «slår» ikke opp i leksikon eller i andre faktabaserte kilder, de reproduserer språklig mønstre og remikser tekstdata som de er trent på. KI-forskerne Arvind Narayanan og Sayash Kapoor setter ord på dette fenomenet slik:
Chatbots er lurendreiere. De er opplært til å produsere troverdig tekst, ikke sanne utsagn. ChatGPT er sjokkerende god til å virke overbevisende om alle tenkelige emner. Men det finnes ingen kilde til sannhet under trening. Selv om AI-utviklere på en eller annen måte skulle klare den ytterst usannsynlige oppgaven med å filtrere treningsdatasettet slik at det bare inneholder sanne utsagn, ville det ikke spille noen rolle. Modellen kan ikke huske alle disse faktaene; den kan bare lære seg mønstrene og blande dem på nytt når den genererer tekst (Narayanan & Kapoor, 2024, s. 139).
Det betyr at selv om en språkmodell trenes på data som utelukkende inneholder sanne og faktabaserte påstander, så vil modellen likevel av og til generere utsagn som ikke stemmer overens med virkeligheten. Tanken om at språkmodeller blir sannhetsagenter bare de trenes utelukkende på kvalitetssikret journalistikk og fagfellevurdert forskning, er med andre ord ikke helt riktig. Sannsynligheten for at modellen genererer svar som er sant øker selvsagt statistisk sett med bedre treningsdata, men det forandrer ikke det faktum at modellen hele tiden vil forsøke å tilpasse seg omgivelsene og inputen den får. Noen KI-forskere hevder at såkalt hallusinering er helt naturlig fordi chatboter er programmerte til å forsøke å emulere menneskelig intelligens. Og som alle vet, så er ikke menneskelig intelligens alltid ensbetydende med å snakke sant.
Likevel mener vi at generative språkmodeller kan spille en rådgivende rolle i researchfasen i undersøkende journalistikk. Men dette fordrer ansvarlig og gjennomtenkt bruk. Egentlig er det ikke så vanskelig. De fleste journalister vil for eksempel mene at Wikipedia og enkle Google-søk er utilstrekkelig som kilder i undersøkende journalistikk. Undersøkende journalister bruker riktignok disse tjenestene hele tiden, men da først og fremst for å skaffe seg oversikt og finne retning i researchfasen. Prinsippet er at man alltid må gjøre selvstendig journalistiske undersøkelser i tillegg.
I undersøkende journalistikk blir spørsmålet om hvordan journalister vet det de vet ekstra prekært siden påstandene som fremsettes ofte er omstridte og kan få betydelige konsekvenser for de omtalte. Er det faktafeil i noe av underlagsmaterialet fordi man har satt bort researchen til en språkmodell, har man selvsagt et gigantisk problem. Vi anbefaler derfor at man istedenfor å bruke generative språkmodeller til å gjøre reell reserarch, heller bruker dem til å strukturere og planlegge research-prosessen. Språkmodeller har som nevnt ikke fakta-maskiner med en forståelse av hva som er sant eller ikke, men de er gode kilder til å tenke med. Sagt på en annen måte: selv om språkmodeller gir upålitelige svar, gir de ofte gode råd. For å demonstrere hva vi mener med dette gir vi ChatGPT denne spørringen:
Jeg er en undersøkende journalist som jobber i en lokalavis. Jeg vil forsøke å avdekke korrupsjon i kommunen her jeg bor. Kommunen heter [navn]. Foreløpig har jeg ingen menneskelige kilder. Men jeg har tilgang på postlister og offentlig dokumenter. Hvordan bør jeg gå frem for å researche om det kan finnes korrupsjon i kommunen?
Modellen svarer:
Rådene som modellen gir er kanskje litt generelle og overfladiske, men det er ikke tvil om at researchprosessen som skisseres både har en retning og en inndeling som kan bygges videre på. Ønsker man et høyere detaljnivå kan et mulig neste steg være å gi modellen nye spørringer der man ber den om å utbrodere hvordan man helt konkret kan løse de fem ulike researchstrategiene den foreslår. Kort oppsummert handler det om å kunne bryte store journalistiske problemstillinger ned i mindre arbeidsoppgaver ved hjelp av presise spørringer.
Avslutningsvis i dette delkapitlet føler vi behov for å presisere at andre datajournalistiske verktøy enn store språkmodeller også kan spille en viktig rolle i researchfasen. SKUP og Data-SKUP databasen er full av oppskrifter og beskrivelser på hvordan man kan bruke ulike script og dataprogrammer for å automatisere, systematisere og oppskalere informasjonsinnhenting i undersøkende datajournalistikk.
I en empirisk studie av hvordan koding og programmering fremstilles i SKUP-sammenheng fant Espen Sørmo Strømme (2024) at norske redaksjoner regelmessig bruker såkalte webskrapere (skrevet i programmeringsspråket Python) for å samle inn store digitale datamengder. Men mens man for tre år siden trengte en viss kode- og programmeringskompetanse for å bygge og bruke slike skrapere, kan man i dag ved å bruke en generativ språkmodell som programmeringsassistent få god hjelp til dette. Generative språkmodeller kan altså ikke brukes til å skrape nettsider, men de kan skrive koden du trenger for å eventuelt gjøre det selv. Igjen, dette illustrerer budskapet vi ønsker å formidle i dette delkapitlet: KI er ressurs som kan mobiliseres for å styrke og effektivisere den journalistiske researchfasen. Men det krever at man har en grunnleggende forståelse av teknologiens virkemåter og begrensninger.
Hvis man karikerer den journalistiske arbeidsprosessen i fire instrumentelle faser, så følger analysefasen etter researchfasen. Hvilken rolle kan kunstig intelligens spille her? En veldig stor og viktig rolle, skal man tro ekspertene. En utbredt oppfatning i den offentlige samtalen er at kunstig intelligens kan finne mønstre og forbindelser som ligger utenfor menneskers hjernekapasitet og fatteevne. Hvorvidt det stemmer eller ei skal vi ikke ta stilling til her. Viktigere er det å understreke at de iboende problemene ved KI-teknologier, som vi allerede har skissert (som hallusinering, dårlig treningsdata og dynamiske algoritmer), blir mer presserende i analysefasen, og vanskeligere å håndtere jo nærmere man kommer publisering og ferdigstilling.
Før vi utdyper den påstanden, er det viktig å presisere at det er etablert en rekke prinsipper og prosedyrer for kildekritikk i undersøkende datajournalistikk som ikke bruker kunstig intelligens. Hensikten er selvfølgelig at alle påstander og beregninger skal være riktige (Parasie, 2022). Dels handler den datajournalistiske kildekritikken om å sikre kvaliteten på dataene før analysen begynner, dels handler det om at alle formler og algoritmer som blir brukt i analysen er åpne og transparente slik at andre kan rekonstruere hvordan svarene og beregningene har kommet i stand. Har man studert kvantitativ metode på universitetet, så vet man at kvantitative data skal analyseres på en systematisk og reproduserbar måte (Østbye et al., 2023). Dette gjelder også i datajournalistikk.
Problemområdene i undersøkende datajournalistikk før kunstig intelligens ble populært, handler om datatilgjenglighet, datakvalitet og såkalt svartboksing og kan grovt skisseres på denne måten:
Datatilgjenglighet
Datakvalitet
Svartboksing av databaser og algoritmer
Disse problemene har på ingen måte forsvunnet, men snarere blitt forsterket og komplisert av kunstig intelligens. I symbolske AI-systemer er det riktignok mulig å gjenskape og forklare resultater og beslutninger systemet gjør, siden alle algoritmene er regelbaserte og skrevet av mennesker. I datadrevne AI-systemer derimot, som bruker dynamiske og adaptive algoritmer (maskinlæring), er det nær sagt umulig å rekonstruere og forklare beregningsprosessene som ligger til grunn for «svarene» modellen gir (dette er forklart mer detaljert under 4.2.1.1 Maskinlæring).
Forskere og datajournalister SUJO har snakket med fraråder derfor å bruke maskinlæring og generative språkmodeller til å gjøre kvantitative statistiske dataanalyser. Generative modeller er gode på bilder og språk, ikke på tall, er budskapet deres. Det man imidlertid kan bruke språkmodeller til, er å skrive kode og algoritmer som kan brukes i kvantitative analyser. Igjen handler det om å forstå og kjenne mulighetene og begrensningene i teknologien. Oppsummert: språkmodeller kan ikke gjøre dataanalyser som er sikre nok til å kunne brukes direkte i undersøkende journalistikk, men de kan gi verktøyer og strategier som gjør deg i stand til å gjøre det selv.
Vi avslutter med et lite forbehold som motsier noe av det vi tidligere har sagt, nemlig at chatbots og språkmodeller ikke egner seg særlig godt til kvantitativ dataanalyse. Forskere ved Universitetene i Utrecht i Nederland og Northwestern i USA har nemlig nylig laget en prototype på det de kaller en «Agentic AI workflow». Kort fortalt har forskerne laget et system der tre ulike KI-agenter eller chatbots jobber sammen i et team for å finne saker i store datasett. Akkurat som Demokratibasen bruker systemet OpenAIs API til å utføre ulike datajournalistiske oppgaver. I systemet til disse forskerne har hver agent blitt tildelt både rolle-spesifikke og oppgave-spesifikke instruksjoner. De rollespesifikke instruksjonene fungerer som stillingsbeskrivelser. Agentene skal opptre som dataanalytiker, journalist og redaktør. I tillegg har de fått oppgavespesifikke instruksjoner som veileder hver enkelt agent gjennom arbeidsoppgavene de er satt til å utføre. Det som skiller dette systemet fra for eksempel Demokratibasen, er at agentene samhandler og gir hverandre feedback underveis i prosessen. Ifølge forskerne kan en dataanalyse gå frem og tilbake mellom agentene flere ganger før den blir «godkjent» av redaktør-agenten. En lengre teknisk rapport fra prosjektet kan leses her. Det samme forskningsteamet har også utarbeidet en guide for hvordan man kan bruke generative språkmodeller til å vaske og organisere ustrukturert tekstdata. Guiden forklarer i detalj hvordan man kan nyttiggjøre språkmodeller til å hente ut informasjon fra PDFer og organisere de i en database ved hjelp av såkalte strukturerte outputs.
Begge disse nye forslagene til KI-arbeidsflyt understreker hvor vanskelig det er å si noe bastant og endelig om generativ kunstig intelligens i dagens medielandskap. Det eneste som er sikkert er at modellene ikke kan levere fiks ferdig publiserbare analyser. Vi avslutter derfor med følgende påstand: språkmodeller kan være fantastiske analyse-assistenter i undersøkende journalistikk, men du må vite hva du driver med.
Hvis vi nå forsøker å sammenstille det vi tidligere har sagt om gangen i et undersøkende prosjekt (Se 2.0 Gjennomføring av graving) med de mulighetene og begrensningene som finnes i maskinlæring og generative språkmodeller, ser vi at det fort kan oppstå uløselig problemer i linje-for-linje sjekken i sluttverkstedet, hvis man har brukt KI på en uforsvarlig og lite gjennomtenkt måte.
Det er verdt å minne om at den sannhetssøkende innsatsen i undersøkende journalistikk handler om å bevise eller sannsynliggjøre et faktum eller at noe har skjedd. Hvis man ikke kan dokumentere og gjøre rede for hvordan en sentral påstand eller saksopplysning har kommet til, kan egentlig ikke saken publiseres. Alle teknologiske operasjoner må med andre ord underlegges den samme kildekritikken og faktasjekken som menneskelig og analoge kilder. Det kildekritiske utgangspunktet er egentlig ganske enkelt: hvis en påstand om verden er generert fra en teknologisk artefakt som en chatbot eller en database, er det helt nødvendig å kjenne datagrunnlaget og hvordan dataene har blitt prosessert og analysert.
En måte å verifisere at dataene stemmer overens med virkeligheten, er selvsagt å kontrollere dataene manuelt ved å gå ut i verden og observere fenomenet dataene representerer (Parasie, 2015). Hvis ikke dette er mulig må man i det minste sørge for at analysen er reproduserbar slik at an annen person kan kjøre koden på samme datasett og få samme resultat (Bounegru & Gray, 2021). Som vi har nevnt allerede en rekke ganger, så er dette et vanskelig prinsipp å etterfølge i maskinlæring, nettopp fordi det er svært krevende å rekonstruere hvordan modellen har gjort sine analyser. En løsning kan være å gjøre et betydelig antall manuelle stikkprøver, for deretter å gjennomføre statistiske beregninger av modellens feilrater. Men dette er ekstremt tid- og ressurskrevende og krever spesial-kompetanse på KI.
Kongstanken bak KI-teknologier er at de kan effektivisere, utvide og automatisere deler av den den journalistiske arbeidsprosessen. Men når KI-teknologier brukes i undersøkende journalistikk har de en tendens til å skape uforutsette problemer. Disse problemene kan være så ressurskrevende å løse, at den tiden man eventuelt trodde man skulle spare i den innledende fasen av arbeidet blir nullet ut. Eller enda verre, at man i sum faktisk bruker mer tid og mer ressurser enn det som hadde vært tilfellet om man hadde hatt en mer tradisjonell datajournalistisk tilnærming til saken.
En måte å forhindre slik unødvendig ressursbruk, er å tenke nøye gjennom hvorfor man skal bruke KI. Som nevnt tidligere (1.0 Kom i gang med graving) blir resultatet sjelden bra i undersøkende journalistikk hvis man begynner med metoden. Metodevalget må komme som en konsekvens av saken, ikke omvendt. Hvis en journalist eller redaksjonell leder foreslår å lage «noe med KI som verktøy», bør varsellampene blinke. Et minimumskrav bør være at man har en klar formening om hva saken er, samt noen konkrete arbeidshypoteser som er forankret i virkeligheten. Uten forhåndskunnskap fra berørte aktører og ekspertkilder som kan gi en bred og empirisk forankret forståelse av hva som kan være mulig forklaringsmodeller for et samfunnsproblem, risikerer man å jobbe i blinde eller på feil premisser. Dette kan i verste fall få store konsekvenser:
Vi innledet et samarbeid med noen KI-forskere for å få analysert [datamaterialet]. Og det resulterte i tre setninger på trykk. Grunnen til det var selvfølgelig at resultatet var motsatt av vår arbeidshypotese (...) Hadde vi testet den hypotesen mot noen som jobber i sektoren og vet litt åssen det er der, før vi gikk i gang med prosjektet, kunne det spart oss for mange års arbeid (redaksjonell leder).
KI-drevet undersøkende journalistikk er fremdeles på et tidlig utviklingsstadium. Både forskningslitteraturen og aktører i mediebransjen forteller om store fallgruver og uforutsette utfordringer, spesielt når det gjelder datamengder og datakvalitet. Men det største problemet er kanskje hvordan man kan operasjonalisere nyhetsverdier og «gode undersøkende saker» i maskinlæring (Fridman et al., 2023). For oss er det tydelig at det ikke finnes noen enkle løsninger på disse utfordringene. Det viktigste man kan gjøre for å håndtere disse problemene på en best mulig måte, er at man ikke glemmer grunnprinsippene i undersøkende journalistikk. Nemlig at god forhåndskunnskap om temaet man skal grave i, er en forutsetning for å kunne legge ned den kritiske og sannhetssøkende innsatsen som kreves for å komme til bunns i noe. Vårt råd er derfor som alltid; begynn enkelt og gjør de «vanlige tingene» først, før man begynner å tenke på KI-drevne metoder. Mange prisbelønte datajournalistikk-prosjekter har startet med noe så enkelt som en telefon til en sentralt plassert kilde.