Hva er deepfakes? AI som bedrar

Deepfakes er medier - ofte video, men noen ganger lyd - som ble opprettet, endret eller syntetisert ved hjelp av dyp læring for å prøve å lure noen seere eller lyttere til å tro en falsk hendelse eller falsk melding.

Det opprinnelige eksemplet på en deepfake (av reddit user / u / deepfake) byttet ansiktet til en skuespillerinne ut på kroppen til en pornoutøver i en video - noe som selvfølgelig var helt uetisk, men ikke opprinnelig ulovlig. Andre dype forfalskninger har endret det kjente folk sa, eller språket de snakket.

Deepfakes utvider ideen om å komponere video (eller film), noe som har blitt gjort i flere tiår. Betydelige videoferdigheter, tid og utstyr går inn i videosammensetting; video deepfakes krever mye mindre dyktighet, tid (forutsatt at du har GPUer) og utstyr, selv om de ofte ikke overbeviser for nøye observatører.

Hvordan lage deepfakes

Opprinnelig baserte deepfakes på autokodere, en type ikke-overvåket nevralt nettverk, og mange gjør det fortsatt. Noen mennesker har raffinert den teknikken ved hjelp av GAN (generative adversarial nettverk). Andre maskinlæringsmetoder har også blitt brukt til deepfakes, noen ganger i kombinasjon med ikke-maskinlæringsmetoder, med varierende resultater.

Autokodere

I hovedsak kjører autokodere for dype falske ansikter i bilder en totrinnsprosess. Trinn 1 er å bruke et nevralt nettverk for å trekke ut et ansikt fra et kildebilde og kode det inn i et sett med funksjoner og muligens en maske, vanligvis ved bruk av flere 2D-konvolusjonslag, et par tette lag og et softmax-lag. Trinn to er å bruke et annet nevralt nettverk for å dekode funksjonene, oppskalere det genererte ansiktet, rotere og skalere ansiktet etter behov, og bruke det oppskalerte ansiktet til et annet bilde.

Å trene en autokoder for dypfake ansiktsgenerering krever mange bilder av kilde- og målflater fra flere synsvinkler og i varierte lysforhold. Uten GPU kan trening ta uker. Med GPU-er går det mye raskere.

GANer

Generative motstandernettverk kan foredle resultatene av autokodere, for eksempel ved å sette to nevrale nettverk mot hverandre. Det generative nettverket prøver å lage eksempler som har samme statistikk som originalen, mens det diskriminerende nettverket prøver å oppdage avvik fra den opprinnelige datadistribusjonen.

Trening av GAN er en tidkrevende iterativ teknikk som i stor grad øker kostnadene i beregningstid over autokodere. Foreløpig er GAN mer passende for å generere realistiske enkeltbilderammer av imaginære mennesker (f.eks. StyleGAN) enn for å lage dype falske videoer. Det kan endres når dyp læringsmaskinvare blir raskere.

Hvordan oppdage deepfakes

Tidlig i 2020 bygde et konsortium fra AWS, Facebook, Microsoft, Partnership on AI’s Media Integrity Steering Committee, og akademikere Deepfake Detection Challenge (DFDC), som kjørte på Kaggle i fire måneder.

Konkurransen inkluderte to veldokumenterte prototypeløsninger: en introduksjon og et startpakke. Den vinnende løsningen, av Selim Seferbekov, har også en ganske god skriving.

Detaljene i løsningene får øynene dine til å krysse hvis du ikke er interessert i dype nevrale nettverk og bildebehandling. I hovedsak gjorde den vinnende løsningen ramme-for-ramme ansiktsgjenkjenning og ekstraherte SSIM (Structural Similarity) indeksmasker. Programvaren hentet de oppdagede ansiktene pluss 30 prosent margin, og brukte EfficientNet B7 forhåndsøvd på ImageNet for koding (klassifisering). Løsningen er nå åpen kildekode.

Dessverre, selv den vinnende løsningen kunne bare fange omtrent to tredjedeler av deepfakes i DFDC-testdatabasen.

Deepfake opprettelse og gjenkjenning applikasjoner

En av de beste applikasjonene med å lage dypfakeoppretting i åpen kildekode er for øyeblikket Faceswap, som bygger på den opprinnelige deepfake-algoritmen. Det tok Ars Technica-forfatteren Tim Lee to uker, ved å bruke Faceswap, for å lage en dypfake som byttet ansiktet til løytnantkommandør Data (Brent Spiner) fraStar Trek: The Next Generation inn i en video av Mark Zuckerberg som vitnet før kongressen. Som det er typisk for deepfakes, klarer ikke resultatet sniffetesten for alle med betydelig grafisk raffinement. Så den nyeste teknologien for deepfakes er fortsatt ikke veldig bra, med sjeldne unntak som avhenger mer av "kunstnerens" dyktighet enn teknologien.

Det er litt trøstende, med tanke på at den vinnende DFDC-deteksjonsløsningen ikke er veldig bra heller. I mellomtiden har Microsoft kunngjort, men har ikke gitt ut når dette skrives, Microsoft Video Authenticator. Microsoft sier at Video Authenticator kan analysere et stillbilde eller video for å gi en prosent sjanse, eller tillits score, for at mediene er kunstig manipulert.

Video Authenticator ble testet mot DFDC datasettet; Microsoft har ennå ikke rapportert hvor mye bedre det er enn Seferbekovs vinnende Kaggle-løsning. Det ville være typisk for en AI-konkurransesponsor å bygge videre på og forbedre de vinnende løsningene fra konkurransen.

Facebook lover også en deepfake-detektor, men planlegger å holde kildekoden stengt. Et problem med dypfake-detektorer som Seferbekov, med åpen sourcing, er at dypfake-generasjonsutviklere kan bruke detektoren som diskriminator i en GAN for å garantere at falsken vil passere den detektoren, og til slutt stimulere til et AI-våpenløp mellom dype falske generatorer og dype falske detektorer.

På lydfronten kan Descript Overdub og Adobes demonstrerte, men ennå ikke utgitte VoCo gjøre tekst til tale nær realistisk. Du trener Overdub i omtrent 10 minutter for å lage en syntetisk versjon av din egen stemme; Når du er opplært, kan du redigere dine stemmeoverganger som tekst.

En relatert teknologi er Google WaveNet. WaveNet-syntetiserte stemmer er mer realistiske enn vanlige tekst-til-tale-stemmer, men ikke helt på nivået med naturlige stemmer, ifølge Googles egne tester. Du har hørt WaveNet-stemmer hvis du nylig har brukt stemmeoutput fra Google Assistant, Google Search eller Google Translate.

Deepfakes og ikke-samtykkende pornografi

Som jeg nevnte tidligere, byttet den opprinnelige dypfaken ansiktet til en skuespillerinne på kroppen til en pornoutøver i en video. Reddit har siden utestengt / r / deepfake sub-Reddit som var vert for den og andre pornografiske deepfakes, siden det meste av innholdet var pornografi uten samtykke, som nå er ulovlig, i det minste i noen jurisdiksjoner.

En annen sub-Reddit for ikke-pornografiske deepfakes eksisterer fremdeles på / r / SFWdeepfakes. Mens innbyggerne i den sub-Reddit hevder at de gjør godt arbeid, må du selv bedømme om vi, for eksempel å se Joe Bidens ansikt som er falskt falsket i kroppen til Rod Serling, har noen verdi - og om noen av de dype falskerne der passerer snuseprøven for troverdighet. Etter min mening kommer noen i nærheten av å selge seg selv som ekte; de fleste kan veldedig betegnes som rå.

Banning / r / deepfake eliminerer selvfølgelig ikke pornografi uten samtykke, som kan ha flere motivasjoner, inkludert hevnporno, som i seg selv er en forbrytelse i USA. Andre nettsteder som har utestengt ikke-samtykkende deepfakes inkluderer Gfycat, Twitter, Discord, Google og Pornhub, og til slutt (etter mye fotdraging) Facebook og Instagram.

I California har enkeltpersoner som er målrettet mot seksuelt eksplisitt, dyptfalsket innhold laget uten deres samtykke, en søksmål mot innholdsskaperen. Også i California er det forbudt å distribuere ondsinnede, dype falske lyd- eller visuelle medier rettet mot en kandidat som stiller til et offentlig kontor innen 60 dager etter valget. Kina krever at deepfakes tydelig merkes som sådan.

Deepfakes i politikken

Mange andre jurisdiksjoner mangel på lover mot politiske dypfakes. Det kan være bekymringsfullt, spesielt når dypfakes av høy kvalitet av politiske figurer gjør det til en bred distribusjon. Ville en dypfake av Nancy Pelosi være verre enn den konvensjonelt bremsede videoen av Pelosi manipulert for å få det til å høres ut som om hun slurret ordene sine? Det kan være, hvis det produseres godt. Se for eksempel denne videoen fra CNN, som konsentrerer seg om deepfakes som er relevante for presidentkampanjen i 2020.

Deepfakes som unnskyldninger

"It's a deepfake" er også en mulig unnskyldning for politikere hvis virkelige, pinlige videoer har lekket ut. Det skjedde nylig (eller angivelig skjedd) i Malaysia da et homofil sexbånd ble avskjediget som en dyp forfalskning av økonomiministeren, selv om den andre mannen som ble vist i båndet sverget at det var ekte.

På baksiden var fordelingen av en sannsynlig amatørfalske falske president Ali Bongo i Gabon en medvirkende årsak til et påfølgende militærkupp mot Bongo. Deepfake-videoen tipset militæret om at noe var galt, enda mer enn Bongos utvidede fravær fra media.

Flere dype falske eksempler

En nylig dypfake video av All Star, 1999 Smash Mouth-klassikeren, er et eksempel på å manipulere video (i dette tilfellet en mashup fra populære filmer) for å falske leppesynkronisering. Skaperen, YouTube-bruker ontyj, bemerker at han "ble båret bort med å teste wav2lip og nå eksisterer dette ..." Det er morsomt, men ikke overbevisende. Likevel demonstrerer det hvor mye bedre falsk leppebevegelse har blitt. For noen år siden var unaturlig leppebevegelse vanligvis en død gave av en falsk video.

Det kunne vært verre. Ta en titt på denne dype falske videoen av president Obama som målet og Jordan Peele som sjåfør. Tenk deg nå at det ikke inkluderte noen sammenheng som avslørte det som falskt, og inkluderte en brennende oppfordring til handling.

Er du livredd ennå?