Facebook's algoritmen kunnen je gezicht uit een menigte kiezen (of proberen het tenminste), maar het kan nog steeds niet zeggen of je in een familieportret poseert of met vrienden drinkt - het kan je niet vertellen hoe je met anderen omgaat . In de toekomst kunnen computers dat misschien wel. Nu hebben onderzoekers een manier voorgesteld om erachter te komen hoe slimme computers visuele identificatie zijn. Ze noemen hun test een visuele Turing-test, na de test van computerwetenschapper Alan Turing of een computer menselijke intelligentie kan weergeven.
De populaire perceptie van de test is dat het wordt gebruikt om mensen van computers te onderscheiden - en één versie wordt daartoe gebruikt, wanneer u een CAPTCHA uitvoert om u aan te melden voor een nieuwe e-mail. Maar onderzoekers van kunstmatige intelligentie zien de test echt als een manier om te meten hoe geavanceerd computerintelligentie tot nu toe is.
"De afgelopen jaren is er een indrukwekkende vooruitgang geboekt op het gebied van computervisie", zegt Stuart Geman, professor wiskunde aan de Brown University en een van de onderzoekers die de nieuwe evaluatie voorstelt, in een persverklaring. "We vonden dat het misschien tijd werd om de lat hoger te leggen wat betreft de evaluatie en benchmarking van deze systemen."
In plaats van eenvoudigweg te erkennen dat een afbeelding twee mensen laat zien, kijkt de test of computers erachter kunnen komen dat de twee mensen een gesprek of zelfs een argument hebben. Momenteel gebruiken onderzoekers openbaar beschikbare gegevenssets om hun programma's te testen. MIT heeft LableMe, dat crowdsourcing gebruikt om bijvoorbeeld de "auto", "boom" en "gebouw" in afbeeldingen te identificeren. Om dit te verbeteren en een grotere uitdaging aan te bieden, bedachten onderzoekers van Brown een raamwerk voor een gestandaardiseerde visuele Turing-test.
Lee Gomes voor IEEE Spectrum- rapporten:
Hun voorgestelde methode roept menselijke testontwerpers op om een lijst te ontwikkelen met bepaalde attributen die een foto zou kunnen hebben, zoals of een straatbeeld mensen in zich heeft, of dat de mensen iets bij zich dragen of met elkaar praten. Foto's zouden eerst met de hand worden gescoord door mensen op deze criteria; een computer vision-systeem zou dan hetzelfde beeld krijgen, zonder de "antwoorden", om te bepalen of het in staat was om uit te zoeken wat de mensen hadden opgemerkt.
In eerste instantie zouden de vragen rudimentair zijn en zouden ze bijvoorbeeld kunnen vragen of er zich een persoon in een bepaald deel van de foto bevindt. Maar de vragen zouden complexer worden naarmate programma's verfijnder werden; een meer gecompliceerde vraag kan de aard van een interactie tussen verschillende mensen op de foto inhouden.
Het team beschreef de test in Proceedings van de National Academy of Sciences . Vanaf nu zegt Duits dat geen enkel computersysteem zelfs de eenvoudige versies van de nieuwe test kon doorstaan. Maar dat zullen ze in de toekomst wel. Omdat er veel mogelijke attributen zijn voor elke foto, zouden onderzoekers innovatieve manieren moeten bedenken om hun computers te leren foto's te beoordelen.
"Als onderzoekers hebben we de neiging om 'op de proef te stellen', " zegt Geman in de verklaring. “Als er bepaalde wedstrijden zijn waaraan iedereen meedoet en dat zijn de maatstaven voor succes, dan richten we ons daarop. Het kan dus verstandig zijn om de test te wijzigen, zodat deze net buiten het bereik van de huidige vision-systemen komt. "