Den undersøkende journalistikken har alltid vært et viktig arnested for journalistisk nytenkning og teknologisk innovasjon. Sentralt i denne kontinuerlige reorienteringen står selvsagt datamaskinen. Helt siden fremveksten av såkalt computer-assisted reporting (CAR) i USA på midten av 1960-tallet, har undersøkende journalister brukt datamaskiner og ulike former for kvantitative data til å avdekke skjulte forbindelser og ukjente sammenhenger i samfunnet. I dagens undersøkende journalistikk brukes egenkomponerte datasett, åpne databaser, digitale kart, satellittbilder og sosiale medier som informasjonskilder til å fremsette og underbygge påstander om kontroversielle nettverk og personer som er involvert i omstridte hendelser.
Det er en pågående diskusjon blant forskere og journalister om hvordan man skal definere og forstå begrepet undersøkende journalistikk, og det samme er tilfellet med begrepet datajournalistikk. For hva skal vi egentlig med datajournalistikk-begrepet i en tid der veldig mange former for journalistikk bygger på digitale data og lages med datamaskiner? Ifølge den amerikanske forskeren Mark Coddington (2015) er datajournalistikk en bransjeorient sekkebetegnelse som egentlig inneholder tre ulike historiske tilnærminger til journalistikk som benytter forskjellig typer kvantitative data: computer-assisted reporting (CAR), data-driven journalism og computational journalism. Coddington understreker at det hverken er klare skillelinjer eller vanntette skott mellom de tre tilnærmingene. Ofte kan de opptre i hybride og parallelle former i forskjellige typer undersøkende journalistikk. Gjennomgangen som følger, baserer seg på Coddingtons oversikt og en rekke andre bidrag fra internasjonal forskning på datajournalistikk.
Computer-assisted reporting (CAR) kalles gjerne den “originale” undersøkende datajournalistikken. CAR gikk tidligere under betegnelsen precision journalism (Meyer, [1973] 2002) og oppstod i grenseområdet mellom journalistikk, sosiologi og samfunnsvitenskap i USA på midten av 1960-tallet (Anderson, 2018). Selve precision journalism-begrepet har sitt utspring i miljøet rundt den amerikanske journalisten Philip Meyer som ønsket å ta i bruk samfunnsvitenskapelige kvantitative metoder for å gjøre journalistikken mer presis og sikker i sine påstander. Grunntanken bak CAR var at tilnærmingen skulle fungere som et verktøy som kunne supplere og forsterke tradisjonelle journalistiske metoder. I følge Coddington (2015) er CAR den formen for tallbasert journalistikk som tettest følger den profesjonelle logikken som ligger til grunn for gravejournalistikken. Muntlig kilder, hypoteser og den historien journalisten ønsker å fortelle, legger sterke føringer for både datainnsamling og dataanalyse i CAR.
Til tross for dette slektskapet, var precision journalism/CAR en marginal subdisiplin i amerikansk journalistikk helt frem til slutten av 1980-tallet og begynnelsen av 1990-tallet. Da begynte undersøkende journalister å bruke kvantitative data mer aktivt i sitt arbeid. En av hovedgrunnene til denne gradvise endringen, var naturligvis den personlige datamaskinens inntog i amerikanske nyhetsrom. Med mindre, sterkere og mer brukervennlige datamaskiner kunne journalister gjøre statistiske analyser og databeregninger som tidligere var forbeholdt eksperter og store forskningslabber. I dag er både precision journalism og CAR som begreper mer eller mindre borte, men den kvantitative tilnærmingen til undersøkende journalistikk lever videre i nye former og under andre termer, også i Norge.
Den tallbaserte journalistikken som tidligere gikk under betegnelsen CAR og precision journalism er i dag mer mangefasettert og kalles i bransjen ofte bare for datadrevet journalistikk eller datajournalistikk (Coddington, 2015, s. 336). En viktig forskjell på CAR og data-drevet journalistikk er at sistnevnte ikke nødvendigvis alltid er undersøkende og avslørende. Mens CAR-tilnærmingen hadde en klar reformativ impuls, og etter hvert ble mer eller mindre ensbetydende med kvantitativ undersøkende journalistikk, er mye av dagens datajournalistikk først og fremst informerende og opplysende. I tillegg til å være mindre samfunnskritisk, innebefatter også data-drevet journalistikk i større grad visualiseringer, samarbeid med publikum og åpne datasett enn det man vanligvis finner i CAR-tradisjonen. Den største forskjellen er imidlertid at data-drevet journalistikk ofte begynner med data og/eller datasett på en induktiv og utforskende måte, mens CAR som regel er hypotesedrevet og/eller tar utgangspunkt i en journalistisk historie på forhånd. Sagt på en annen måte: dataene i CAR jobber mer i “bakgrunnen” i samspill med andre muntlige og skriftlige kilder, mens dataene i data-drevet journalistikk ofte både er hovedkilde og sakens kjerne.
Dette gjenspeiles også ofte i presentasjonen av datadrevet undersøkende journalistikk, der datagrunnlaget og analysemetoder løftes mer aktivt frem i historiefortellingen enn tilfellet var og er i CAR. I datadrevet undersøkende journalistikk er som regel også datavolumet større og mindre sample-basert, samtidig som det er mer transparent og innrettet mot publikumsdeltakelse (Gynnild, 2014). Data kan for eksempel tilgjengeliggjøres på nettet slik at leserne kan få innsikt i det fullstendige datagrunnlaget og selv bidra med analyser (Parasie & Dagiral, 2013).
Norske redaksjoner som jobber regelmessig med tallbasert undersøkende journalistikk, jobber ofte i krysningspunktet mellom CAR og moderne datajournalistikk. På den ene siden kan de ta i bruk avanserte visualiseringer, offentlig tilgjengelig data og involvere publikum i tråd med en såkalt åpen-kilde-logikk (Lewis & Usher, 2013) som ligger til grunn for mye moderne datajournalistikk. På den andre siden kan det samme datamaterialet underlegges hypotesedrevne journalistiske undersøkelser, samt systematiseres og analyseres ved hjelp av samfunnsvitenskapelig kvantitativ metode, direkte inspirert av CAR-tradisjonen. Hvis det i tillegg gjøres tekniske operasjoner som krever programmering og/eller andre former for teknologispesifikk tenkning og tiltak, slik som skraping, aggregering, predikering eller klassifisering, kaller vi det gjerne computational journalism.
Ifølge den amerikanske forskeren Nicholas Diakopoulos så er computational journalism “informasjons- og kunnskapsproduksjon med, av og om algoritmer som omfavner journalistiske verdier” (Diakopoulos, 2019, s. 27). Algoritmer kan i denne sammenhengen forstås som oppskrifter som gjør det mulig for en datamaskin å utføre ulike typer automatiserte og standardiserte informasjonsprosesseringsoppgaver som blant annet prioritering, klassifisering, assosiering og filtrering (s. 29 ). Computational journalism forsøker altså å forene journalistiske verdier med de handlingsmulighetene og tenkemåtene som finnes i algoritmisk databehandling. Dette innebærer blant annet et særskilt fokus på mengde, skalering, hurtighet og abstrakt problemløsning som i sum forfekter en kvantifiserbar versjon av virkeligheten (s. 27).
Ifølge den norske forskeren Erik Stavelin (2014) så skiller computational journalism seg fra andre typer datajournalistikk på tre områder. For det første er computational journalism mer plattform- og verktøysorientert enn historiedrevet. Mens CAR og datajournalistikk på ulikt vis vektlegger journalistiske historier, så er målet i computational journalism ofte å utvikle verktøy og applikasjoner som kan integreres i ulike deler av den journalistiske arbeidsprosessen. Utviklingstiden for slike verktøy kan ofte både være lang og ressurskrevende. Det kan derfor være en fordel å tenke nøye gjennom hvordan man kan skape løsninger som kan gjenbrukes på tvers av ulike journalistiske prosjekter. Den andre forskjellen er at computational journalism tar utgangspunkt i programmerbare modeller som baserer seg på forhåndsdefinerte antakelser og definisjoner av verden som kan brukes på forskjellig typer data (ibid). Disse modellene kan bestå av ulike algoritmer og teknologier som gjerne fungerer sammen i en større arkitektur. Historisk sett forbindes begrepet computational journalism først og fremst med journalistikk som tar utgangspunkt i forutsigbare og kontinuerlig datastrømmer som vær- og trafikkmeldinger, eiendomsoverdragelser, kvartalstalls-rapporteringer og sportsresultater (Diakopoulos, 2019). Ulike former for datainput (f. eks eiendomsdata) prosesseres gjennom en algoritme som transformerer dataene til en tekstoutput (f. eks en nyhetsmelding) basert på en forhåndsbestemt oppskrift (f. eks: skriv at person X har solgt eiendom Y til person Z). Siden nyhetsautomatisering har sin opprinnelse i denne formen for registrerende journalistikk har enkelte forskere tidligere argumentert for at tilnærmingen er mindre anvendelig i undersøkende journalistikk. Årsaken til at computational journalism er mindre egnet, er ifølge skeptikerne at undersøkende journalistikk har en iboende uforutsigbarhet som krever menneskelig kontekstuell forståelse for å avdekke avvik, mangler og uregelmessigheter, noe som i utgangspunktet er vanskeligere for en maskin (Stray, 2019).
Det har imidlertid skjedd store fremskritt i datatilgang, datakraft, algoritmisk arkitektur og maskinlæring-teknologi de siste årene. Summen av dette har gjort at computational journalism gradvis har blitt mer vanlig også i undersøkende journalistikk. Tilnærmingen brukes i dag til å løse og effektivisere regelbaserte oppgaver knyttet til informasjonsinnhenting slik som skraping av nettsider og konvertering av filer og dokumenter (Broussard et al., 2019). Men computational journalism, og da spesielt maskinlæring og såkalt datamining, kan også brukes til mer avanserte kunnskapsbaserte oppgaver som å finne ideer til undersøkende prosjekter og til å utvikle sakshypoteser (Broussard, 2015). Maskinlæring har også vist seg å ha potensiale i nye og avanserte former for faktasjekking (Dierickx et al., 2023).
Ifølge Stavelin er den tredje og viktigste hovedforskjellen mellom computational journalism og andre former for datajournalistikk, at førstnevnte innebærer en spesifikk form for tenkning som tar utgangspunkt i datamaskiners evne til å abstrahere informasjon og automatisere prosesser. Vi kan derfor si at computational journalism som regel innebærer mer avanserte datakunnskaper, i form av koding og/eller programmering, enn det CAR og data-drevet journalistikk gjør. En annen viktig forskjell mellom de tre tilnærmingene, er at den presseideologiske logikken er mindre dominerende i computational journalism. Mens CAR er en sammenblanding av samfunnsvitenskapelig metode og undersøkende journalistikk, og datadrevet journalistikk blander publikumsdeltakelse, journalistikk og stordata, så er computational journalism først og fremst tuftet på ideer som har sin opprinnelse utenfor journalistikken, nærmere bestemt i informatikk. Den siste forskjellen vi nevner er at computational journalism ofte er mindre transparent enn de andre tilnærmingene. Selv om tilnærmingen har sine røtter i en pluralistisk internettkultur som vektlegger samarbeid og koordinering på tvers av ulike tekniske miljøer, så er ofte både treningsdataene og de algoritmiske prosedyrene skjult for publikum.
Coddington oppsummerer hovedforskjellene mellom de tre tilnærmingene til datajournalistikk slik: “De tre praksisene er distinkte kvantitative former for journalistikk: CAR er forankret i samfunnsvitenskapelig metoder og journalistikkens samfunnsoppdrag, datadrevet journalistikk kjennetegnes av deltakende åpenhet og tverrfaglighet, mens computational journalism handler først og fremst om abstraksjons- og automatiseringsprosesser innenfor databehandling ” (2015, s. 337). Til tross for noen viktige konseptuelle forskjeller, ser vi altså at alle tilnærmingene også har noen fellestrekk og at de kan opptre i hybride og integrerte former. Dette bare understreker hvordan datajournalistikk som praksisfelt kontinuerlig er i endring og utvikling.