In de afgelopen decennia hebben onderzoekers regelmatig apparaten ontwikkeld die bedoeld zijn om Amerikaanse gebarentaal (ASL) naar het Engels te vertalen, in de hoop de communicatie tussen dove en slechthorende mensen en de horende wereld te vergemakkelijken. Veel van deze technologieën maken gebruik van handschoenen om de beweging van het ondertekenen vast te leggen, wat omvangrijk en lastig kan zijn.
Nu heeft een groep onderzoekers van de Michigan State University (MSU) een apparaat zonder handschoen ontwikkeld ter grootte van een buis Chapstick waarvan ze hopen dat deze de ASL-Engelse vertaling zal verbeteren.
De technologie, genaamd DeepASL, gebruikt een camera-apparaat om handbewegingen vast te leggen en voert vervolgens de gegevens door via een algoritme voor diep leren, dat overeenkomt met tekenen van ASL. In tegenstelling tot veel eerdere apparaten, kan DeepASL hele zinnen vertalen in plaats van afzonderlijke woorden en hoeven gebruikers niet tussen tekens te pauzeren.
"Dit is echt een niet-opdringerige technologie", zegt Mi Zhang, een professor in elektrotechniek en computertechniek die het onderzoek leidt.
Zhang en zijn team hopen dat DeepASL mensen kan helpen die doof en slechthorend zijn door als een realtime vertaler te fungeren. Het kan vooral handig zijn in noodsituaties, zegt Zhang, als het wachten op een vertaler kostbare minuten kan kosten. Het apparaat, dat kan worden geïntegreerd met een telefoon, tablet of computer, kan ook helpen bij het leren van ASL, zegt Zhang. Aangezien meer dan 90 procent van de dove kinderen wordt geboren uit ouders die horen, is er een grote gemeenschap van volwassenen die snel ASL moeten leren. DeepASL zou als een digitale tutor kunnen dienen en feedback geven over of studenten correct ondertekenen.
Zhang heeft een patent aangevraagd en hoopt binnen een jaar een apparaat op de markt te hebben. Omdat het gebaseerd is op betaalbare technologie - het Leap Motion motion capture-systeem is te koop voor $ 78 - zou het breder toegankelijk kunnen zijn dan eerdere inspanningen.
Onderzoekers Biyi Fang en Mi Zhang demonstreren DeepASL. (Michigan State universiteit)Maar Christian Vogler, een professor in communicatiestudies aan de Gallaudet University, een universiteit voor mensen die doof of slechthorend zijn, staat sceptisch tegenover apparaten die zijn ontworpen om ASL te vertalen, en zijn scepsis wordt gedeeld door velen in de Dovengemeenschap.
Apparaten vertalen ASL over het algemeen niet echt, herkennen alleen handtekens en veranderen ze in een Engels woord per teken, zegt Vogler. Dit betekent dat belangrijke grammaticale informatie verloren gaat, informatie over of een zin een vraag is, een ontkenning, een relatieve clausule enzovoort. Hoewel DeepASL volledige zinnen vertaalt, gaan sommige kenmerken van ASL-grammatica verder dan handtekens - gezichtsuitdrukkingen worden vaak gebruikt als modificaties, wenkbrauwen verhogen kan een zin in een vraag veranderen, lichaamspositie kan aangeven wanneer de ASL-gebruiker iemand anders citeert.
Tot nu toe "zijn geen van de systemen zelfs op afstand nuttig geweest voor mensen die ondertekenen", zegt Vogler, eraan toevoegend dat onderzoekers vaak lijken te hebben "zeer weinig contact met de [dove en slechthorende] gemeenschap en zeer weinig idee van hun echte nodig heeft.”
Het team van Zhang testte het apparaat niet op mensen die doof en slechthorend waren, maar op studenten in een vertaalprogramma voor gebarentaal. Zhang benadrukt dat DeepASL is ontworpen om op dit moment alleen basiscommunicatie mogelijk te maken en dat dit slechts een beginpunt is. Hij zegt dat zijn team hoopt de mogelijkheden van DeepASL in de toekomst uit te breiden om ook gezichtsuitdrukkingen vast te leggen.
"Dat is de volgende belangrijke mijlpaal voor ons", zegt hij.
Vogler zegt dat het positief is dat de MSU-technologie diepgaande leermethoden gebruikt, die succes hebben gehad met gesproken taal. Maar ondanks dat er geen handschoen nodig is, heeft het apparaat waarschijnlijk dezelfde valkuilen als elk eerder systeem, omdat het geen gezichts- en lichaamsbewegingen vastlegt.
Vogler vindt dat onderzoekers afstand moeten nemen van het idee dat apparaten voor gebarentaalherkenning echt kunnen voldoen aan persoonlijke communicatiebehoeften.
"We hebben veel opties om persoonlijke communicatie te vergemakkelijken, en totdat we iets hebben dat de taalkundige eigenschappen van gebarentalen en het feitelijke communicatiegedrag van ondertekenaars respecteert, zullen deze inspanningen lang niet in de buurt komen van vervanging of vervanging", zegt hij. "In plaats daarvan moeten mensen werken met echte leden van de gemeenschap en met mensen die de complexiteit van gebarentalen begrijpen."
Vogler zegt dat het nuttig zou zijn voor gebarentaalherkenningstechnologie zoals MSU's om te werken met spraakinterfaces zoals Alexa. De groei van deze interfaces is een uitdaging voor toegankelijkheid voor mensen die doof en slechthorend zijn, zegt hij, net zoals internet - een grotendeels visueel medium - een grote uitdaging is voor mensen die blind zijn door de jaren heen.
"We hebben momenteel geen effectieve en efficiënte manier om met deze spraakinterfaces te communiceren als we onze stem niet kunnen of willen gebruiken, " zegt hij. "Gebarentaalherkenning is een perfecte match voor deze situatie, en een die eigenlijk nuttig zou kunnen zijn en wennen."