De Harry Potter-serie heeft de wereld laten wennen aan het idee van levende portretten met zijn pratende schilderijen en bewegende foto's. Maar vorige week, toen een door AI gegenereerd 'levend portret' van Mona Lisa van Leonardo da Vinci op het web begon te draaien, schrokken veel mensen toen het beroemde portret haar lippen bewoog en rondkeek.
Het geanimeerde portret van Lisa Gherardini was een van verschillende nieuwe 'pratende kopmodellen' - beter bekend als 'deepfakes' - gemaakt door onderzoekers van Samsung's AI Center in Moskou en het Skolkovo Institute of Science and Technology. Met behulp van slechts een paar referentiekaders of zelfs een enkele afbeelding, maakten de onderzoekers ook deepfakes van beroemdheden zoals Oprah, brachten enkele snapshots van Marilyn Monroe en Albert Einstein tot leven en creëerden nieuwe expressies voor beroemde afbeeldingen zoals Vermeer's Girl with a Pearl Earring .
De onderzoekers plaatsten hun methode, die ze 'weinig shot learning' noemen, op YouTube en in een paper dat nog niet door vakgenoten moet worden beoordeeld op de preprint repository arXiv.org. Hoewel de details behoorlijk technisch worden, meldt Mindy Weisberger van LiveScience dat voor het produceren van de levende portretten een soort kunstmatige intelligentie, een convolutioneel neuraal netwerk genaamd, zichzelf traint door referentiebeelden te analyseren. Vervolgens worden de gezichtsbewegingen van een reeks frames op een statisch beeld toegepast, zoals de Mona Lisa . Hoe meer hoeken en referentiebeelden het heeft, hoe beter het levende portret wordt. Volgens het artikel zou de AI "perfect realisme" kunnen produceren (gemeten door het vermogen van mensen om te onderscheiden welke van de drie beeldsets deepfakes waren) met slechts 32 referentiebeelden.
De Mona Lisa is natuurlijk slechts één afbeelding, dus de drie 'levende portretten' van Leonardo's meesterwerk zijn een beetje verontrustend. Voor de korte animaties observeerde het neurale netwerk drie verschillende trainingsvideo's en de drie versies van Mona Lisa op basis van die frames lijken elk verschillende persoonlijkheden te hebben. Als Leonardo zijn beroemde model vanuit verschillende hoeken had geschilderd, had het systeem een nog realistischer levend portret kunnen produceren.
Terwijl de geanimeerde Mona Lisa vermakelijk is, heeft de opkomst van deepfakes bezorgdheid gewekt dat de door de computer gegenereerde gelijkenissen kunnen worden gebruikt om mensen te belasteren, raciale of politieke spanningen op te wekken en het vertrouwen in online media verder uit te hollen. "[T] hey ondermijnt ons vertrouwen in alle video's, inclusief die echte", schrijft John Villasenor bij The Brookings Institution. "De waarheid zelf wordt ongrijpbaar, omdat we niet langer zeker kunnen zijn van wat echt is en wat niet."
Hoewel AI wordt gebruikt om deepfakes te maken, zegt Villasenor dat het, althans voor nu, ook kan worden gebruikt om deepfakes te identificeren door te zoeken naar inconsistenties die niet zichtbaar zijn voor het menselijk oog.
Tim Hwang, directeur van het Harvard-MIT Ethics and Governance of AI Initiative, vertelt Gregory Barber van Wired dat we nog niet op het punt zijn waar slechte acteurs nog geen geavanceerde deepfakes kunnen maken op hun persoonlijke laptops. "Niets suggereert dat je dit gewoon turnkey kunt gebruiken om thuis deepfakes te genereren, " zegt hij. "Niet op de korte, middellange of zelfs lange termijn."
Dat komt omdat het gebruik van het nieuwe systeem van Samsung duur is en expertise vereist. Maar het artikel van Barber wijst erop dat het niet nodig is een super-geavanceerde fotorealistische video gemaakt door een neuraal netwerk om mensen voor de gek te houden. Vorige week circuleerde een gemanipuleerde video die was vertraagd om de Amerikaanse House Speaker Nancy Pelosi dronken te laten klinken op sociale netwerken.
Uiteindelijk zal de technologie echter goed genoeg zijn zodat slechte acteurs deepfakes kunnen produceren die zo overtuigend zijn dat ze niet kunnen worden gedetecteerd. Als die dag komt, vertelt Hwang aan Wired, dat mensen moeten vertrouwen op feitencontrole en contextuele aanwijzingen om uit te zoeken wat echt is en wat nep is. Als bijvoorbeeld Mona Lisa 's glimlach op haar lippen een toothy grijns wordt en ze je whitening-tandpasta probeert te verkopen, is het zeker een diepe nep.