SUJOs gravebase - en hjelper til undersøkende journalistikk

Bjerknes & Holmelid, 2026
Om Gravebasen

Etikk i teknologidrevet undersøkende journalistikk

Vi kan i denne delen av kunnskapsbasen fremstå som noe polemiske og kritiske til teknologidrevet undersøkende journalistikk. På et nivå stemmer det. Vi har argumentert for at redaksjoner må være bevisste på virkemåtene og manglene til KI-teknologier og stordata hvis de skal brukes ansvarlig i undersøkende journalistikk. Varsomhet er et nøkkelord her.

Samtidig er det viktig å ikke underspille de positive aspektene og alle mulighetene som ligger i disse fremvoksende teknologiene. Når vi likevel velger å legge oss på en noe restriktiv og pessimistisk linje, skyldes det at norske gravejournalister på eget initiativ allerede er veldig utforskende og positiv til ny teknologi (Bjerknes, 2022; Sørmo Strømme, 2024). Sagt på en annen måte: norske journalister trenger ikke at noen ber de om å bruke mer teknologi. Leser man SKUP- og Data-SKUP-rapporter mer systematisk bakover i tid, ser man at norske journalister generelt sett er veldig gode til å ta i bruk nye digitale verktøy og tilpasse dem sine interessefelt. Faktum er at norsk undersøkende datajournalistikk er i verdensklasse. Flere norske redaksjoner har vunnet høythengende bransjepriser i datajournalistikk (Fjellheim, 2023a, 2023b; Henriksen, 2021).

Selv om norske redaksjoner er gode på undersøkende datajournalistikk, mener vi likevel at det er behov for å rette søkelyset mot noen av de etiske problemene som kan oppstå i denne formen for spesialisert graving. Dette er ikke en anklage om at norske datajournalister ikke er bevisste på etikk. Poenget er snarere at etikk i undersøkende datajournalistikkk har en tendens til å reduseres til en instrumentell form for presseetikk, uten at det kobles til større og mer filosofiske spørsmål som har med teknologi og data å gjøre. Hva mener vi med dette? La oss forsøke å forklare.

4.4.1 Teknologi betinger samfunnsoppdraget

Slik vi ser det, er det to typer etiske refleksjoner journalister bør gjøre når de jobber med teknologidrevet undersøkende journalistikk. Det første typen handler om hvordan man kan bruke konkrete teknologier på en etisk forsvarlig måte. Det andre typen refleksjoner handler mer overordnet om de samfunnsmessige konsekvensene som kan oppstå når den undersøkende journalistikk stadig blir mer teknologidrevet. Teknologidreiningen er selvsagt til en viss grad en konsekvens av en mer generell digitalisering og datafisering av samfunnet. På et vis kan man si at journalistikken bare forsøker å holde tritt med omgivelsene.

Men det er samtidig viktig å ta innover seg hva som kan være konsekvensene av en slik dreining på et mer overordnet nivå. For det første: Hvilke deler av samfunnet forsvinner fra pressens granskende lupe når stordata og kunstig intelligens blir blant de viktigste og mest prestisjefylte journalistiske tilnærmingene for å løse samfunnsoppdraget? For det andre: Foregår samfunnet bare på Internett, i de digitale arkivene og i den medierte offentligheten, eller skjer det fremdeles viktige og kritikkverdige forhold ute på gaten, på fysiske arbeidsplasser og bak lukkede dører? Det er viktig å ta innover seg at man ved å prioritere teknologiske løsninger for å gjennomføre journalistiske undersøkelser, også velger en bestemt måte å avgrense og forstå virkeligheten på. Mens enkelte samfunnsproblemer, kilder og potensielle saker vil tre tydeligere frem ved hjelp av stordata og KI, vil andre forsvinne mer i bakgrunnen.

Så vil noen hevde: «Ja, men faktum er jo at det ene ikke utelukker det andre. Det går jo an å være god på teknologidrevne undersøkelser og på det samfunnsmessige, og på det menneskelige, for den saks skyld. De siste års SKUP-vinnere er jo et bevis på at de beste resultatene får man hvis man kombinerer inngående samfunnskunnskap, tradisjonelle metoder og avansert datajournalistikk. Dessuten er jo teknologi en integrert del av hele samfunnet, så motsetningen som fremsettes er falsk».

Vi er selvfølgelig enig i det. Poenget med denne lille provokasjonen er å tydeliggjøre at en viktig etisk dimensjon ved teknologibruk i undersøkende journalistikk ikke handler om bruken i seg selv, men om å reflektere over hvordan teknologi betinger pressens selverklærte vaktbikkjefunksjon. Sagt på en annen og mer generell måte: teknologi kan styrke utførelsen av pressens samfunnsoppdrag i enkelte sammenhenger, og svekke det i andre.

Pressen beskyldes ofte for å løpe i flokk i omstridte enkeltsaker. Det er åpenbart problematisk når det skjer. Men i et mer langsiktig og tillitsskapende perspektiv, er det kanskje enda viktigtigere å ikke tenke i flokk. Poenget vårt er at oppfinnsomhet og innovasjon ikke alltid trenger å være teknologidrevet. Skal pressen løse samfunnsoppdraget på en tilfredsstillende måte som resonnerer hos det brede publikum, er det behov for et mangfoldig vitensyn i den undersøkende journalistikken der det teknologiske ikke får for stor makt over valg av temaer og aktuelle problemstillinger. I alt snakket og hypen rundt KI, så er det med andre ord viktig å ikke glemme å oppsøke kilder og miljøer ute i virkeligheten. Faktum er jo at det fremdeles er mennesker, og ikke maskiner, som både styrer og vanstyrer verden.

4.4.2 Ansvarlig teknologibruk

Mens norske journalister sjelden reflekterer åpent i offentligheten over hvordan teknologi betinger det undersøkende arbeidet på et makronivå, virker de mer bevisst på hvordan teknologibruken deres kan forstås og forsvares i lys av Vær Varsom-plakaten. Som nevnt tidligere (Se 1.7 Etikk og historiefortelling), finnes det ingen egen presseetikk for undersøkende journalistikk, og dermed naturlig nok heller ikke for undersøkende datajournalistikk. Likevel vil vi hevde at det finnes særskilte etiske problemer som kan oppstå i denne spesialiserte formen for undersøkende journalistikk. Disse problemene mener SUJO fortjener å bli løftet frem og beskrevet. De kan grovt skisseres i tre tematiske hovedkategorier:

  1. Digitalt kildevern og datalekkasjer
  2. Digital opphavsrett og skraping
  3. Etikk og kunstig intelligens

Disse temaene fremstår for oss som mest sentrale, både i pågående bransjedebatter og i forskningslitteraturen om undersøkende datajournalistikk. Vi vil behandle hvert problemområde trinnvis.

4.4.3 Digitalt kildevern og datalekkasjer

Kildevernet er absolutt i undersøkende journalistikk. Veldig mange undersøkende prosjekter hadde vært umulig å realisere uten varslere og andre sentralt plassert kilder som er villige til å fortelle journalister om overtramp, maktmisbruk og andre kritikkverdig forhold. Nye digitale teknologier som har tilkommet de siste årene har gjort denne formen for kildekontakt både enklere og sikrere. Men også paradoksalt nok mer komplisert og risikofylt.

På den ene siden har krypterte tjenester som SecureDrop, ProtonMail og Signal gjort det lettere å kommunisere med kilder og utveksle dokumenter. På den andre siden har fremveksten av disse tjenestene initiert og intensivert teknologiske mottrekk fra både statlig etterretningstjenester og den private sikkerhetssektoren (Di Salvo, 2024b). Både publisert forskning og journalistikk viser at ulike aktører kontinuerlig jobber med å forsøke å finne ut hvordan de kan bryte anonymiteten i disse tjenestene for å overvåke kommunikasjonen mellom journalister og kilder (Biscop & Décary-Hétu, 2024; Di Salvo, 2024a). Dette setter selvsagt det digitale kildevernet under et stort og intensivt press, der dagens prosedyrer for å ivareta anonymitet og sikkerhet kan være avleggs i morgen. Hvis man som journalist bruker digitale verktøy til å regelmessig holde kontakt med hemmelige kilder, må man med andre ord holde seg oppdatert på hva som til enhver tid er nødvendige sikkerhetstiltak. Det er i den forbindelse verdt å minne om at kildekontakt alltid har to informasjonsdimensjoner som på ulike vis kan utgjøre en mulig sikkerhetstrussel.

Den første dimensjonen handler om den konkrete informasjonen som blir utvekslet. Får man overlevert bilder og digitale dokumenter fra konfidensielle kilder, må man være oppmerksom på at disse filene kan spores. Både bilder og dokumenter kan inneholde metadata som kan avsløre når filen ble opprettet, hvilken enhet som ble brukt til opprettelse og hvilke programvarer som har blitt brukt til redigering. Bilder inneholder dessuten ofte visuelle elementer som i seg selv kan brukes til å rekonstruere hvor og når bildet er tatt. Refleksjoner, skilt, sol- og skyggeretninger og ulike typer bygningsmasse kan brukes til å gjenskape kontekstuell informasjon som kan geolokalisere bildet, samt peke i retning av hvem som er fotografen (Godulla, 2018; Higgins, 2018). I tillegg kan både bilder og dokumenter inneholde usynlig former for vannmerking som gjør det mulig å identifisere hvem som har håndtert og distribuert dem. Det finnes flere eksempler på at myndighetsinstitusjoner med vilje har distribuert sensitivt materiale med vannmerking for å avsløre hvem som lekker til pressen. Alt dette utfordrer kildevernet på nye måter.

For å komplisere ting ytterligere, så finnes det enda en kritisk informasjonsdimensjon sett fra et digitalt kildevernperspektiv. Denne dimensjonen handler om den såkalte meta-informasjonen som finnes i enhver form for kommunikasjon. Altså ikke informasjon om hva som kommuniseres mellom journalist og kilde, men informasjon om hvem som kommuniserer og når kommunikasjonen foregår. På samme måte som det kan være farlig for en kilde å bli sett fysisk sammen med en journalist, kan det også være farlig hvis utenforstående kan se og dokumentere at det har vært digital kontakt. Får man for eksempel en betrodd kilde til å hente ut et dokument eller bruke en digital database, er det viktig at det ikke foregår digital- eller telefonkontakt mellom kilde og journalist på samme tidspunkt. Hvis kilden skulle bli avslørt kan granskere bruke metadata for å hevde at kildens uetiske handlinger er motivert av journalister. Av samme grunn kan det være lurt å automatisk slette all korrespondanse i kommunikasjonsverktøyer som Signal. Selv om samtalene i seg selv fremstår harmløse og ikke inneholder noen form for vital informasjonsutveksling, kan kontakten i seg selv, hvis den blir avslørt, sette kilden og kildeforholdet i fare.

Både informasjonsutvekslingen i seg selv og metainformasjonen om denne, kan altså brukes av aktører som ønsker å spore opp og avsløre kilder. Hvorvidt krypterte tjenester faktisk utgjør et sikkerhetsnett (Biscop & Décary-Hétu, 2024) eller om de skaper en falsk trygghet og potensiell sikkerhetsrisiko (Di Salvo, 2021), kommer selvsagt an på hvilke aktører som befinner seg på «den andre siden» av de journalistiske undersøkelsene. Forsøker man å avdekke kritikkverdige forhold i en norsk kommune, er nok de overnevnte krypterte tjenestene mer enn sikre nok. Hvis man derimot jobber med journalistiske avsløringer innenfor statlig etterretningen, eller innenfor de mer lyssky delene av næringslivet som også har bindinger til organisert kriminalitet, bør man være mer forsiktig. Flere globale journalistiske prosjekter de siste årene har vist at gravejournalister i mange ulike land systematisk overvåkes både av stater og ikke-statlig aktører. Kanskje mest oppsiktsvekkende er det at private aktører utgjør en stor og voksende sikkerhetstrussel. Journalistikk publisert av det internasjonale gravenettverket Forbidden Stories (2021) viser at aktører innenfor det private næringslivet både har finansielle muskler og vilje til å kjøpe dyre hacketjenester, enten fra den mer lyssky delen av den internasjonale sikkerhetsbransjen eller fra tilbydere på det mørke nettet. Målet med denne kontraovervåkningen er å true journalister og kilder til taushet (Di Salvo, 2024a).

4.4.4 Digital opphavsrett og skraping

Mens mange redaksjoner har utarbeidet et etisk rammeverk og teknologiske løsninger for hvordan håndtere datalekkasjer og gradert informasjon som kommer fra kilder, så virker det som om det er mindre bevissthet om de etiske dimensjonene ved journalisters egen masseinnhenting av informasjon (Fairfield & Shtein, 2014). Som nevnt en rekke ganger allerede, så er en vanlig metode i undersøkende datajournalistikk å skrape nettsider og/eller offentlig registre for store mengder informasjon. Vi skal ikke gå dypt inn i alle etiske implikasjonene ved skraping her. Det er viktig at hver enkelt redaksjon vurderer på selvstendig grunnlag hva som skal skrapes og hvordan det skal gjøres. Men i svært grove trekk så regnes skraping som etisk og juridisk uproblematisk når informasjonen er tilgjengelig uten innlogging eller spesielle restriksjoner. Skraper man derimot innhold som enten er beskyttet av opphavsretten eller som inneholder personopplysninger, så kan det oppstå både etiske og juridiske problemer (Mancosu & Vegetti, 2020). Gråsonene mellom disse to ytterpunktene er selvsagt betydelige, så det er vanskelig å gi noen mer konkrete råd i en tekst som denne.

Ifølge SKUP-databasen ser man at norske journalister regelmessig skraper offentlige registre, nettsider og sosiale medier. Det har imidlertid blitt mye vanskeligere å dataskrape sosiale medier de siste årene fordi tilgangen for både journalister og forskere har blitt kraftig redusert (Bruns, 2019; Freelon, 2018). Tidligere kunne man få tilgang til poster (innlegg), åpen brukerinformasjon, hash tags (emneknagger) og interaksjonsdata fra både Facebook og Twitter (nå X) via deres tilpassede API. Men dette er dessverre umulig i dag.

Det er lite som tyder på at de store amerikanske teknologiselskapene skal bli mer åpne og delingsvillige i årene som kommer. Faktisk virker det heller som det motsatte er tilfellet. Ifølge flere forskere og kommentatorer innenfor fagområdet teknologi og plattformstyring, er vi i ferd med å få et mer lukket og avstengt internett (Jamieson et al., 2022; van der Vlist et al., 2022). Dette innebærer blant annet at store mengder innhold flyttes bak betalingsmur, avstengte APIer og mer aggressive tiltak for å oppdage og blokkere boter, uavhengig av om de har onde hensikter eller ei. Boter kan brukes til å kræsje nettsider, men de brukes også til skraping.

I sum vil dette gjøre det vanskeligere å innhente store digitale datamengder fra internett. Dette vil igjen utfordre journalisters evne til å overvåke og få innsyn i informasjonsflyten på sosiale medier og den digitale offentligheten for øvrig. Hvis mesteparten av internett etter hvert skulle vise seg å bli tilnærmet hermetisk lukket, kun styrt av en håndfull mektige globale teknologiselskaper, vil det være ikke bare være et etisk, men også et demokratisk, problem.

4.4.5 Etikk og kunstig intelligens

Det siste etiske problemområdet i teknologidrevet undersøkende journalistikk handler om kunstig intelligens. På et nivå er KI-etikken uløselig knyttet til både digitalt kildevern og dataskraping, ettersom KI-teknologier brukes som verktøy til både informasjonsinnhenting og dataanalyse. Samtidig kan ikke etikk i kunstig intelligens reduseres til å kun handle om hvorvidt man kan laste opp kildesensitiv informasjon i ChatGPT, eller om KI-drevet dataskraping er en trussel mot opphavsretten. Dette er selvsagt viktige spørsmål å ha et bevisst forhold til fra et journalistisk perspektiv, men de blir ganske trivielle når vi tar innover oss hvordan enkelte KI-teknologier allerede har vidtrekkende implikasjoner for kommersielt næringsliv, offentlig informasjonsflyt og politisk beslutningstaking.

Vi skal løfte blikket mot denne samfunnsmessige delen av KI-etikken etter hvert (Se 4.4 KI som journalistisk dekningsområde), men vi begynner med det konkrete og verktøy-spesifikke som nettopp handler om kildevern og skraping.

4.4.5.1 Generative språkmodeller og kildevern

Kunstig intelligens utfordrer det digitale kildevernet på flere ulike måter i dag. For eksempel bør man aldri bruke en kommersiell generativ språkmodell til å sortere og analysere konfidensielle dokumenter og eksklusive opplysninger man har fått fra en kilde. Grunnen er enkel: i realiteten gir man fra seg upublisert materiale til en ekstern aktør, samtidig som man også i verste fall risikerer å eksponere kilden. Det første er kanskje åpenbart, men det andre er litt vanskeligere å forstå. La oss forklare.

Selv om kommersielle generative KI-modeller er trent på enorme og nesten ufattelige mengder data, så er det en teoretisk mulighet for at de kan lekke informasjon fra treningsdataene og gjengi spesifikke tekstbiter eller bilder. Den mest vanlige årsaken til lekkasjer er overtrening (“memorization”). Dvs. at hvis en KI-modell ser de samme treningsdataene mange nok ganger, så kan den begynne å «memorere» enkeltdata isteden for å forstå statistiske mønstre i helheten. Dette gjelder spesielt for korte og gjentagende tekstbiter som API-nøkler, epostadresser eller sitater fra kjente verk.

En annen form for informasjonslekkasje som kan skje i generative KI-modeller kan fremprovoseres ved såkalt manipulert prompting. Kort fortalt så har KI-forskere klart å rekonstruere helt spesifikke treningsdata - både enkeltsetninger og enkeltbilder - i både store språkmodeller og bildemodeller (Narayanan & Kapoor, 2024). Andre studier har kartlagt hvordan enkelte KI-modeller også tilfeldig kan reprodusere ordrette setninger fra treningsdataene uten noen form for menneskelig forhåndsmanipulasjon (Carlini et al., 2022). At språkmodeller ikke bare remikser tekst, men også reproduserer treningsdata ord for ord, ligger også til grunn for søksmålet som The New York Times har rettet mot OpenAI og Microsoft. Den amerikanske avisen hevder at begge selskapene har brukt opphavsbeskyttet journalistikk til å trene KI-modeller uten å betale for det. Årsaken til at The New York Times kan hevde dette, er at avisens egne analyser viser at modellene «ordrett gjentar Times-innhold».

Ifølge OpenAI er lekkasjer fra treningsdata et minimalt problem. Selskapet hevder dessuten at ChatGPT hverken bruker eller lagrer informasjon fra samtaler til trening, men faktum er at offentligheten vet veldig lite om hva som skjer med interaksjonsdataene og hvordan modellene trenes og fungerer (Burgess & Rogers, 2024; Metz, 2024). Når det finnes en teoretisk mulighet for at treningsdata kan rekonstrueres ved hjelp av manipulert prompting, samtidig som det også er en risiko for at innholdet i en samtale kan bli sett av menneskelig moderatorer i sanntid (Sebastian, 2023). Da sier det seg selv at ChatGPT og lignende kommersielle språkmodeller er et utrygt verktøy å bruke i forbindelse med alle kilderelaterte arbeidsoppgaver i undersøkende journalistikk.

4.4.5.2 Samfunnsmessige konsekvenser av generativ KI

I tillegg til at det er presseetisk problematisk å bruke ChatGPT av kildehensyn, bør norske journalister også ta innover seg at kommersielle generative språkmodeller generelt sett er dypt uetiske teknologier med en rekke problematiske samfunnsmessige konsekvenser (McQuillan, 2023; Weidinger et al., 2021). En ting er at de store globale KI-selskapene ulovlig har skrapt mer eller mindre hele internett for å trene sine modeller (Al-Sibai, 2024; Claburn, 2024; Frenkel & Thompson, 2023). En annen ting er at modellene deres har en tendens til å reprodusere problematiske virkelighetsoppfatninger som både kan være rasistiske og diskriminerende (Abid et al., 2021). At KI-teknologier forsterker sosial diskriminering og ulikhet, understrekes bare ytterligere at mye av finjusteringene og optimalisering av dagens KI-modeller gjøres manuelt av arbeidere fra fattige land i Det globale sør (Perrigo, 2023). Med svært lave lønninger og lange arbeidstider der de manuelt tagger skadelig innhold, gjør disse menneskene det mulig for oss i Vesten å bruke KI til alt fra middagsoppskrifter til komplisert dataprogrammering. Forskere innenfor den kritiske KI-litteraturen mener at dette mikroarbeidet ofte overses: «KI er avhengig av en global ubetalt og underbetalt arbeidsstokk som kan holde på med datarensing, datakategorisering og optimalisering (...) Det finnes ingen KI uten treningsdata og datasenter og etter hvert som datasettene vokser, må de renses, kurateres og forbedres» (Aradau & Bunz, 2022, s. 14). I tillegg til å systematisk bryte både opphavsrett og arbeidslivsrettigheter, bruker også de globale tech-gigantene enorme menger datakraft og energi (Bender et al., 2021; Crawford, 2021). Hver eneste brukerinteraksjon med en KI-modell forbruker både vann og strøm som kunne gått til andre formål (Verma & Tan, 2024).

I sum er det derfor litt paradoksalt at en teknologi som er bygget på systematisk utnytting, moralske overtramp og brudd på opphavsrettigheter, blir omfavnet så ukritisk som arbeidsverktøy av store deler av mediebransjen. Vi sier ikke at journalister ikke bør bruke generativ KI i hverdagen. Men det er viktig at disse teknologiene, og ikke minst menneskene bak, også gjøres til gjenstand for kritiske journalistiske undersøkelser.