SUJOs gravebase - en hjelper til undersøkende journalistikk

Bjerknes & Holmelid, 2026
Om Gravebasen

KI i undersøkende journalistikk

Interessen for datajournalistikk har skutt ytterligere fart de siste årene, spesielt med at såkalte generative språkmodeller som ChatGPT, Claude.AI og Gemini er tilgjengeliggjort på det kommersielle markedet. Mange av de mest sentrale arbeidsoppgavene innenfor CAR, datadrevet journalistikk og computational journalism, slik som datavasking, dataanalyse og koding, kan i dag løses, utvides og effektiviseres ved hjelp av ulike former for kunstig intelligens. Vi ser likevel at det kan være lurt å ha en grunnleggende forståelse av kvantitativ metode, noe erfaring fra «tradisjonell» datajournalistikk, samt kjenne til de underliggende prinsippene for algoritmisk tenkning og dataprosessering, for å kunne ta i bruk disse nye verktøyene på en ansvarsfull og etisk forsvarlig måte.

I større redaksjoner settes det gjerne sammen større team bestående av journalister, utviklere og redaksjonelle ledere, for å sikre at KI-bruken blir ansvarlig og hensiktsmessig. Dette er sjelden mulig i mindre redaksjoner der terskelen for å gjøre seg kjent med ny teknologi gjerne er høyere, samtidig som tiden til rådighet for kompetanseheving kan være kortere. Med mindre ressurser og manglende teknologiske ekspertise øker dessverre risikoen for å gjøre alvorlige feil.

For å sikre at den stadig voksende kunnskapen om ulike former for kunstig intelligens i undersøkende journalistikk også når mindre redaksjoner i kvalitetssikret form, presenterer SUJO her en gjennomgang av råd og bruksområder vi mener kan være relevant å tenke gjennom for redaksjoner som ønsker å ta i bruk disse teknologiene. Det er viktig å understreke at ulike former for kunstig intelligens bare er journalistiske verktøy. Det betyr at teknologiene må møtes med den samme skepsisen og kildekritikken som andre tilnærminger i den journalistiske verktøykassen.

Kunstig intelligens er heller ikke nødvendigvis en ressursbesparende snarvei til gravesuksess. Tvert imot krever disse teknologiene gjerne mer kompetanse og mer ressurser enn det som er tilfellet i mer tradisjonelle former for undersøkende datajournalistikk og analoge former for gravejournalistikk. Effektiv og målrettet teknologibruk i undersøkende journalistikk krever at man har inngående kjennskap til hva det vil si å følge en undersøkende metodikk. Det gjør det mye enklere å forestille seg aktuelle bruksområder og identifisere reelle problemområder ved KI. Til slutt må vi presisere at denne delen av Gravebasen ble forfattet i årsskiftet 2024/2025. Mye kan ha skjedd innenfor kunstig intelligens siden. Oversikten vi tilbyr her er derfor bare et øyeblikksbilde hvis innhold må vurderes deretter. Med dette viktige forbeholdet unnagjort, så kan vi gå videre og starte med det mest grunnleggende først: Hva er egentlig kunstig intelligens og hvordan skiller det seg fra annen algoritmebasert dataprosessering?

4.2.1 Hva er kunstig intelligens?

Hvis undersøkende journalistikk og datajournalistikk er omstridte begreper, så er begrepet «kunstig intelligens» enda mer ullent og ubestemmelig, spesielt i måten det brukes i den offentlige samtalen. De siste årene har kunstig intelligens (KI)/“artificial intelligence” (AI) vært buzzord blant journalister, byråkrater og politikere. I dag brukes begrepet KI som en sekkebetegnelse på alt fra selvkjørende biler til ansiktsgjenkjenningssystemer og ChatGPT. Denne tvetydigheten rundt begrepet finnes ikke bare i offentligheten. Innenfor det interdisiplinære forskningsfeltet kunstig intelligens, er det også uenighet om hvordan man skal definere og avgrense KI (Wang, 2019). I en kjent innføringsbok om kunstig intelligens defineres KI som «studiet og utviklingen av intelligente agenter som mottar oppfatninger fra omgivelsene og utfører handlinger» (Russell & Norvig, 2022, s. 7). Agenter referer her til alt fra avanserte missilsystemer til robotstøvsugere og enkle chatbots. De er alle intelligente i den forstand at de kan justere og tilpasse sin egen aktivitet uten å få kontinuerlig instruksjoner fra et menneske. I følge Narayanan and Kapoor (2024, pp. 12-13) er det tre spørsmål man kan stille for å fastslå om et datasystem benytter KI. Vi synes spørsmålene er så gode, at vi gjengir de mer eller mindre ordrett her:

  1. Klarer datasystemet å utføre en oppgave som i utgangspunktet krever menneskelig kreativitet og trening? Da er muligens KI involvert.
  2. Er oppførselen til datasystemet basert på en forhåndsdefinert kode som er spesifisert av mennesker, eller er oppførselen et resultat av læring fra eksempler og mønstre i data? Hvis sistnevnte er tilfellet, så er sjansen stor for at det dreier seg om KI, nærmere bestemt maskinlæring (Se 4.2.1.1).
  3. Hvis datasystemet i tillegg tar egne beslutninger uten menneskelig innblanding, samtidig som systemet aktivt utviser fleksibilitet og tilpasningsevne til omgivelsene, så dreier det høyst sannsynlig om KI.

Ser vi disse tre kontrollspørsmålene i sammenheng, så kan vi si at kunstig intelligens er selvstyrte og selvforbedrende agenter som ved hjelp av inntrykk fra omgivelsene kan løse problemer, utføre oppgaver eller emulere (etterligne) andre kognitive evner, slik som sensorisk oppfatning, læring, resonnering og (simulert) hukommelse. Det betyr at en webscraper eller et enkelt regelbasert dataprogram som bruker såkalt OCR-teknologi til å gjenkjenne og konvertere håndskrevne dokumenter til lesbare PDFer, strengt tatt ikke kan sies å være kunstig intelligens.

Et KI-basert OCR-system derimot, som tillegg til å gjøre den samme gjenkjenningen og konverteringen, også kan oppdage nye mønstre og sammenhenger på tvers av store mengder dokumenter, kan framstå som intelligent. Et «vanlig» dataprogram følger med andre ord faste regler og er statisk, mens intelligente KI-systemer er dynamiske og har som regel en viss form for situasjonsforståelse og læringskapasitet (les mer om forskjellen på regelbaserte algoritmer og dynamiske algoritmer under 4.2.1.1 Maskinlæring).

For å komplisere ting ytterligere, er det verdt å påpeke at KI er et stort forskningsfelt som består av mange ulike underdisipliner og spesialiserte fagfelt, blant annet natural language processing, knowledge representation, automated reasoning, machine learning, computer vision og robotics (Russell & Norvig, 2022). Det blir derfor litt upresist å snakke om kunstig intelligens som om det var én informasjonsteknologi eller én bestemt tilnærming til intelligent emulering. I det følgende vil vi derfor primært forsøke å unngå å bruke sekkebetegnelsen KI, og heller bruke termene maskinlæring og generative språkmodeller, som vi oppfatter som mer nøyaktige. Vi skal kort forklare hva de ulike tilnærmingene til KI innebærer, før vi vender blikket mot hvordan de faktisk kan brukes i undersøkende journalistikk.

4.2.1.1 Hva er maskinlæring?

Maskinlæring og dyplæring er begreper som stadig dukker opp når det snakkes om kunstig intelligens. Men hva er det egentlig? For å forstå det, så kan det lønne seg å zoome litt ut og gå tilbake i historien. Kort fortalt finnes det to hovedretninger innenfor KI-forskning: (1) symbolsk og regelbasert KI (Symbolic AI på engelsk) og (2) subsymbolsk og datadreven KI (Connectionist AI på engelsk). Disse to hovedretningene har eksistert side om side siden KI-forskningens spede begynnelse på 1950-tallet i USA (Narayanan & Kapoor, 2024). I mange år foregikk de største fremskrittene innenfor symbolsk og regelbasert KI, men i 2012 gikk en gruppe Connectionist-forskere ved Universitetet i Toronto til topps i den internasjonale bildegjenkjenningskonkurransen ImageNet. Forskerne brukte en datadreven modell (som de kalte AlexNet) basert på såkalte dype nevrale nettverk og utkonkurrerte de regelbaserte modellene med overlegen margin. Mens den beste regelbaserte modellen hadde en feilrate på hele 26,2%, oppnådde forskerne bak AlexNet en feilrate på 15,3%. Selv om feilraten fortsatt var ganske høy, så innledet dette i følge Narayanan og Kapoor (2024) et paradigmeskifte i KI-forskningen, og siden har det meste handlet om å optimalisere dyplæring og utvikle bedre nevrale nettverk.

Vi skal ikke gå så detaljert inn i hvordan dype nevrale nettverk faktisk fungerer. Men for å få en overordnet forståelse av prinsippene for maskinlæring og subsymbolsk databasert KI kan det være hensiktsmessig å kontrastere tilnærmingen med symbolsk og regelbasert KI eller GOFAI (Good Old-Fashioned Articial Intelligence).

Kontrasteringen er basert på bøkene The Eye of the Master: A Social History of Artificial Intelligence (2023) av Matteo Pasquinelli og AI Snake Oil: What Artificial Intelligence Can Do, What it Can’t, and How to Tell the Difference (2024) av Arvind Narayanan og Sayash Kapoor; to gode bøker som alle journalister som er interessert i KI bør lese.

Regelbasert KI
(Symbolic AI / GOFAI)
Databasert KI
(Connectionist AI)
Eksempler Ekspertsystemer
Planleggingssystemer
Spillsystemer
Bildetolkning
Språkbehandling
Anbefalingssystemer
Kunnskapsrepresentasjon Viten om verden består av representasjoner/symboler (knowing-that) som kan formaliseres til læresetninger og mekaniseres etter en deduktiv logikk Viten om verden består av opplevelser og inntrykk (knowing-how) som kan implementeres i approksimative modeller som konstrueres etter en induktiv logikk
Data Passiv Aktiv
- Datamengde Fungerer på små datamengder Krever store datamengder for å fungere
- Dataprosessering Regelbasert dataprosessering Utforskende dataprosessering
Intelligens Trekkes slutninger basert på regler og logikk Trekkes slutninger basert på statistiske mønstre og sannsynlighet
Algoritmer Algoritmene er endelige og skrevet og kontrollert av mennesker Algoritmene er dynamiske og bare delvis kontrollert av mennesker

En viktig forskjell på regelbaserte algoritmer og maskinlæringsalgoritmer er at mennesker har forhåndsprogrammert alle parameterne og reglene på en statisk måte i førstnevnte, mens maskinlæringsalgoritmer utvikler de regelbaserte beslutningsprosessene selv på en dynamisk måte (Pasquinelli, 2023, s. 47). Maskinlæringsalgoritmer inneholder riktignok også forhåndsdefinerte konfigurasjoner (arkitektur og struktur designet og programmert av mennesker), men de regelbaserte beslutningsprosessene (vektene) utvikles og forbedres videre når algoritmen settes i arbeid på store mengder data. Den samme maskinlæringsalgoritmen (f. eks gradient descent) kan med andre ord utvikle ulike regelbaserte prosedyrer og slutninger basert på ulike typer data. Litt forenklet kan vi si at det er denne delen av prosessen som er «intelligent».

Maskinlæring har blitt sporadisk brukt i undersøkende journalistikk de siste årene, blant annet i forbindelse med Pandora Papers (Mauriello, 2023) og til å dokumentere ulovlig naturinngrep i Norge (Støstad et al., 2024), globale nettverk for ulovlig våpensalg (Fuller & Weizman, 2021)  og Donald Trumps Twitter-aktivitet (Shear et al., 2019). Men det vil være en overdrivelse å hevde at maskinlæring er en særlig utbredt metode i undersøkende journalistikk. En årsak til det er at maskinlæring krever veldig store datamengder for å fungere. Faktum er at nesten ingen undersøkende prosjekter inneholder nok mengder data til at maskinlæring i det hele tatt er et alternativ (Stray, 2019). En annen årsak er at maskinlæring er dyrt og tidkrevende. Modellene må utvikles og trenes. Dette kan ta veldig lang tid og krever enormt med datakraft, spesielt hvis datamengdene er store og modellene komplekse. En tredje årsak til at maskinlæring sjelden benyttes, er at dette tekniske arbeidet krever en form for ekspertise og fagkompetanse som de færreste mindre mediebedrifter har. Å se for seg at en liten avis skal bruke maskinlæring som metode til å finne mønstre og forbindelser i store mengder ustrukturert data uten medarbeidere med inngående kjennskap til programmering og algoritmer, er utenkelig. De siste års økende interesse og allmenngjøring av kunstig intelligens som journalistisk arbeidsverktøy handler derfor primært ikke om maskinlæring per se, men generative språkmodeller som benytter maskinlæring og dype nevrale nettverk som en del av sin underliggende arkitektur.

4.2.1.2 Hva er språkmodeller?

Siden den generative språkmodellen ChatGPT ble lansert høsten 2022 av det amerikanske firmaet OpenAI, har kunstig intelligens vært på alles lepper. KI er som allerede nevnt mye mer enn store språkmodeller, men likevel er det kanskje nettopp språkmodeller folk flest tenker på når de hører ordet kunstig intelligens. Det er ikke så rart siden flere av modellene allerede er tilgjengelige i form av brukervennlige applikasjoner. Det eneste som kreves for å ta i bruk en generativ språkmodell er en brukerkonto og at man kan lese og skrive. Kort fortalt bruker man generative språkmodeller ved å stille de spørsmål og gi dem instruksjoner (såkalt prompting). Modellene kan svare på forespørsler og løse en rekke ulike oppgaver som skriving, oversettelse og ulike former for dataanalyse og koding. Språkmodeller kan også generere tekst, bilder og grafikk basert på kommandoer man gir.

Ingen på SUJO er ekspert på språkmodeller, men vi vet at ulike språkmodeller har ulike bruksområder og dermed også ulike styrker og svakheter. For eksempel hevder mange eksperter at både ChatGPT og DeepSeek er gode på problemløsning, kreativ tenkning og koding, mens Claude.AI egner seg best som skriveassistent. Ifølge andre er Perplexity bedre på research, ettersom modellen er koblet til enkelte sanntidsdata, samtidig som den også inkluderer kildehenvisninger i sine svar (det gjør også den siste modellen til ChatGPT). Andre sverger til Notebook LM for å forstå og organisere større mengder dokumenter og informasjon.

Alle de kommersielle språkmodellene er i bevegelse og utvikling hele tiden. Brukergrensesnitt kan forandre seg, underliggende treningsdata kan endres og viktige funksjoner kan forsvinne bak betalingsmur. Det er derfor vanskelig å være mer spesifikk i hvordan man konkret og teknisk kan bruke disse modellene i en kunnskapsbase som denne. Vi merker oss imidlertid at det alle har til felles, er at de blir bedre og mer presise hvis man betaler en abonnementsavgift fremfor å bruke gratisversjonen. Det beste rådet vi kan gi utover denne generelle beskrivelsen, er derfor rett og slett at man som journalist og/eller leder og mediehus, må sette seg ned med en aktuell journalistisk problemstilling og de ulike modellen og prøve seg fram (Se 4.3 for mer om etiske og kildekritiske problemer som kan oppstå ved bruk av generative språkmodeller).