Hjem
Undersøkende journalistikk
Saker

Gode tips for å avsløre falske lydopptak

Illustrasjon: AI Funko Pop

Ekte stemmer som klones av maskinlæringsverktøy manipulerer publikum og er en økende trussel mot demokratiske valg. Her er en trinn-for-trinn-prosess for å analysere potensielle lyd-deepfakes utviklet av GIJN.

Nyere forskning tyder på at omtrent halvparten av offentligheten generelt sett ikke kan se forskjellen mellom ekte og AI-generert bilder, og at velgere ikke pålitelig kan oppdage taledeepfakes - og teknologien har bare blitt bedre siden den gang.

Deepfakes spenner fra subtile bildeendringer ved bruk av syntetiske medier og stemmekloning av digitale opptak til innleide digitale avatarer og sofistikerte "ansiktsbytter" som bruker tilpassede verktøy.

- KI-lydforfalskninger kan utgjøre en betydelig trussel, sier Olga Yurkova, medgründer av StopFake.org, en uavhengig ukrainsk faktasjekkorganisasjon til GIJN.

- De er enklere og billigere å lage enn dypfalske videoer, og det er færre kontekstuelle ledetråder å oppdage med det blotte øye. Dessuten har de et større potensial til å spre seg, for eksempel i WhatsApp-chatter, sier hun og legger til:

- Analyse er mer kompleks, og stemmegenereringsverktøy er mer avanserte enn videogenereringsverktøy. Selv med stemmeprøver og spektralanalyseferdigheter tar det tid, og det er ingen garanti for at resultatet blir nøyaktig. I tillegg er det mange muligheter til å forfalske lyd uten å ty til dypfalsk teknologi.

Gode råd

Journalister gjenkjenner ofte manipuleringer basert på kunnskap om personene, lav kvalitet på opptaket, kontekst og annet - men dette er bare en del av revisjonsarbeidet som må gjøres.

Her er forslag til en trinn-for-trinn-prosess for å avdekke lyddeepfakes:

  • Flagg mistenkelige klipp - og gjør det tidlig. Mange har gode erfaringer med å gjøre det enkelt å melde inn mistanker om falske lyd og robocalls. Brasils klassiske Comprova Project – et samarbeid mellom 24 medieorganisasjoner – viste også visdommen til rivaliserende redaksjoner som publiserer det samme WhatsApp-nummeret og deler resultatene, for å dra full nytte av kollektivet. Samarbeid kan også bidra til å identifisere koordinerte kampanjer av lydforfalskninger.
  • Tradisjonell overvåking av sosiale medier og åpne kommunikasjonskanaler i samarbeid med faktasjekkende organisasjoner og chat-grupper for politiske journalister er nyttig.
  • Nyhetsredaksjoner trenger et tidlig varslingssystem for falske lydopptak. Forekomsten av lydklipp på tvers av flere sosiale medieplattformer er en tidlig indikasjon, mens analyseverktøy som BuzzSumo kan gi deg en indikasjon på hvor utbredt klippet er, og hvordan det forsterkes av aktivistiske krefter.
  • Mistenkelige klipp med feil og stemmeinkonsekvenser fortsatt kan være ekte. Som eksperter bemerker i denne Wired-artikkelen, kan en unaturlig klingende stemme være et resultat av å lese et manus under ekstremt press. I mellomtiden kan mistenkelige feil i video av lav kvalitet like sannsynlig være et resultat av komprimering som bevis på dypfalsk.
Verifikasjonshåndbok, Craig Silverman
Craig Silvermans Verification Handbook er en viktig ressurs for å avsløre deepfake-skapere.
  • Beviskrav. Journalister og faktasjekkere trenger evidensbaserte data for effektivt å bremse spredningen av KI-lydforfalskninger - selv når de ser ut til å være åpenbart falske. Kilder for faktasjekk, språkeksperter, ekspertlag og deteksjonsverktøy er viktig. Tradisjonelle verifiseringsmetoder – som omvendt bildesøk, intervjuer og de mange verktøyene i Craig Silvermans Verification Handbook – kan bidra.
  • Opprinnelsessituasjon. Redaksjoner kan sjelden bevise at en person aldri sa den falske uttalelsen. Da er det viktig å se nærmere på hvordan det er skapt og spredt. Journalister kan, og bør, identifisere og fremheve et verifisert lydklipp av hva personen tidligere har sagt om det samme temaet. Verifiserte utsagn bør prege inngangen på saken.
  • Tillit. Nyhetsmedier må være strenge og etterstrebe en høy standard. Gjerne gjennom å vise til tidligere avsløringer av falske utsagn og manipulering.
  • Eksponering. Avsløringer av manipuleringer bidrar til at lover endres og myndighetene fokuserer på problemet. US Federal Communications Commission har innført forbud mot bruk av KI-verktøy i robotsamtaler , som et direkte svar på trusselen om valgmanipulering dette utgjør.

Rask endring

Datajournalistikk-foreleser Samantha Sunne sier nyhetsredaksjoner trenger 24/7-årvåkenhet i forbindelse med valg. Mange er ikke klar over den relativt lite undersøkte trusselen fra KI-lydforfalskninger. Deepfake-teknologien endrer seg raskt, og det samme gjør deteksjons- og overvåkingsverktøyene.

Lederen av Rapid Response-prosjektet, Shirin Anlen, sier at KI-lydforfalskninger ser ut til å være både de enkleste å lage og de vanskeligste å oppdage - og at de virker skreddersydde for å ramme valg.

- Som et fellesskap fant vi ut at vi ikke er like forberedt på lyd som vi var for video - det er gapet vi ser akkurat nå, sier Anlen. Deres undersøkelser avdekker at allerede i 2023 fant de fire lydforfalskninger i de seks sakene nettverket valgte å undersøke i 2023.

- Lyd ser ut til å bli brukt mer i valg og kriseområder - det er lettere å lage og distribuere, gjennom ulike plattformer, forklarer Anlen.

- Det er også veldig personlig - du trenger ofte virkelig å kjenne personen, måten de snakker på, for å oppdage manipulasjon. Så har du dobbel lyd og bakgrunnsstøy, musikk eller kryssprating – alt dette gjør deteksjonen mer kompleks. For video er det som regel enklere. Ansiktsbevegelsene er ofte nok.

Financial Times skriver at at stemmekloningsverktøy har vært i sving under valg i India, Storbritannia, Nigeria, Sudan og Etiopia. FT-undersøkelsen avdekker at lydforfalskninger er utbredt på grunn av rimelige og kraftige KI-verktøy som ElevenLabs, Resemble AI, Respeecher og Replica Studios.

Tekniske tips

Slik kan mistenkelige lydopptak undersøkes nærmere ved å se på:

Channel 4 kontekstanalyse IDF ga ut lyd av påståtte Hamas-operativer
Faksimile: Channel 4 News
  • Channel 4 News publiserte en påstått samtale mellom Hamas-operatører som innrømmet at Islamsk Jihad var ansvarlig for å bombe et Gaza-sykehus. Opptaket ble publisert av IDF, men journalistene fant en rekke kontekstuelle, dialekt- og toneuoverensstemmelser som resulterte i at redaksjonen konkluderte med at opptaket ikke var troverdig.
  • Metadata og domenehistorikk. Journalister kan bruke nettbaserte verktøy som WHOIS for å spore forfalskningene av den originale kontoen. Verktøy som RiskIQ og Crowdtangle kan også hjelpe til med å spore klippets opprinnelse.
  • Inkonsekvent innhold. - Visuelle inkonsekvenser kan bli synlige med bilde-for-bilde-visning," sier Yurkova. - Vi legger merke til om ansiktsuttrykket samsvarer med de forventede følelsene til en person under ordene han ytrer. Et misforhold mellom verbale og ikke-verbale uttrykk kan bety at innholdet er manipulert.
  • Analyser ordlyd og skrivefeil. I tillegg til tydelige usannheter, banning og oppfordring til vold, bør du også se etter politiske slagord eller narrative kampanjer skjult i bildetekster og tilhørende tekst som kan peke på manipulasjon.

Denne saken basert på erfaringer samlet i artikkelen "How to Identify and Investigate AI Audio Deepfakes, a Major 2024 Election Threat" fra februar 2024