Een nieuw neuraal netwerk ontwikkeld door onderzoekers van het Massachusetts Institute of Technology is in staat om een ruwe benadering van het gezicht van een individu te construeren, uitsluitend gebaseerd op een fragment van zijn spraak, een paper gepubliceerd in pre-printserver arXiv- rapporten.
Het team trainde de kunstmatige intelligentie-tool - een machine learning-algoritme dat is geprogrammeerd om te denken zoals het menselijk brein - met behulp van miljoenen online clips met meer dan 100.000 verschillende sprekers. Nagesynchroniseerd Speech2Face, het neurale netwerk gebruikte deze dataset om verbanden te bepalen tussen vocale signalen en specifieke gelaatstrekken; zoals de wetenschappers in de studie schrijven, leeftijd, geslacht, de vorm van de mond, lipgrootte, botstructuur, taal, accent, snelheid en uitspraak spelen allemaal een rol in de mechanica van spraak.
Volgens Gizmodo ’s Melanie Ehrenkranz, maakt Speech2Face gebruik van associaties tussen uiterlijk en spraak om fotorealistische weergaven te genereren van vooraanstaande individuen met neutrale uitdrukkingen. Hoewel deze afbeeldingen te generiek zijn om te identificeren als een specifieke persoon, wijzen de meeste nauwkeurig op geslacht, ras en leeftijd van sprekers.
Interessant is dat Jackie Snow voor Fast Company uitlegt dat het nieuwe onderzoek niet alleen voortbouwt op eerder onderzoek naar voorspellingen van leeftijd en geslacht uit spraak, maar ook de schijnwerpers verbanden tussen stem en "craniofaciale kenmerken" zoals neusstructuur.
De auteurs voegen toe: "Dit wordt bereikt zonder voorafgaande informatie of het bestaan van nauwkeurige classificaties voor dit soort fijne geometrische kenmerken."
Toch heeft het algoritme zijn fouten. Mindy Weisberger van Live Science merkt op dat het model problemen heeft met het analyseren van taalvariaties. Bij het afspelen van een audioclip van een Aziatische man die bijvoorbeeld Chinees sprak, produceerde Speech2Face een gezicht met de juiste etniciteit, maar toen dezelfde persoon werd opgenomen terwijl hij Engels sprak, genereerde de AI een afbeelding van een blanke man.
In andere gevallen werden mannen met hoge tonen, inclusief kinderen, ten onrechte geïdentificeerd als vrouwen, wat de geslachtsbias van het model onthulde bij het associëren van lage stemmen met mannen en hoge tonen met vrouwen. Gezien het feit dat de trainingsgegevens grotendeels zijn afgeleid van educatieve video's die op YouTube zijn gepost, wijzen de onderzoekers er verder op dat het algoritme er niet in slaagt om “evenveel de hele wereldbevolking te vertegenwoordigen”.
Volgens Jane C. Hu van Slate is de wettigheid van het gebruik van YouTube-video's voor wetenschappelijk onderzoek vrij duidelijk. Dergelijke clips worden beschouwd als openbaar beschikbare informatie; zelfs als een gebruiker auteursrecht heeft op zijn video's, kunnen wetenschappers het materiaal in hun experimenten opnemen onder een clausule van 'fair use'.
Maar de ethiek van deze praktijk is minder eenvoudig. Nick Sullivan, hoofd cryptografie bij Cloudflare, zei met Hu dat hij verrast was een foto van zichzelf te zien in het onderzoek van het MIT-team, omdat hij nooit een verklaring van afstand had ondertekend of rechtstreeks van de onderzoekers had gehoord. Hoewel Sullivan Hu vertelt dat het 'leuk' zou zijn geweest om op de hoogte te zijn van zijn opname in de database, erkent hij dat het, gezien de enorme omvang van de gegevenspool, voor wetenschappers moeilijk zou zijn om iedereen te bereiken die wordt afgebeeld.
Tegelijkertijd concludeert Sullivan: “Omdat mijn beeld en stem als voorbeeld in het Speech2Face-artikel werden genoemd, in plaats van alleen als gegevenspunt in een statistisch onderzoek te worden gebruikt, zou het beleefd zijn geweest om mij te informeren of om mijn toestemming vragen. '
Een mogelijke real-world applicatie voor Speech2Face is het model gebruiken om "een representatief gezicht te koppelen" aan telefoongesprekken op basis van de stem van een spreker. Snow voegt eraan toe dat spraakherkenningstechnologie al op een aantal gebieden wordt gebruikt, vaak zonder uitdrukkelijke kennis of toestemming van individuen. Vorig jaar lanceerde Chase een "Voice ID" -programma dat leert om creditcardklanten te herkennen die de bank bellen, terwijl correctie-instellingen in het hele land databases aanleggen van "stemgeluiden".