Een paar weken geleden was ik in een winkelcentrum toen ik een vrouw zag die een geweldige handtas met een touwachtige riem droeg. Omdat ik op zoek ben naar een nieuwe tas, overwoog ik haar te vragen waar ze die vandaan had. Maar voordat ik mijn beweging kon maken, verdween ze om een hoek. Toen ik thuiskwam, probeerde ik de tas te Googlen. Maar ik ben geen fashionista en ik ontdekte dat ik niet de woordenschat had om te beschrijven wat ik had gezien. "Lederen handtas met trekkoord" klopte niet. Noch was "portemonnee met touw handvat" of "tas met koord riem." Uiteindelijk gaf ik het op.
Nu is een nieuwe technologie bedoeld om mensen te helpen zoeken naar dingen die ze niet noodzakelijkerwijs in woorden kunnen beschrijven.
James Hays, een computerwetenschapper aan het Georgia Institute of Technology, heeft een computerprogramma ontwikkeld waarmee handgetekende afbeeldingen aan foto's kunnen worden gekoppeld. Dit kan uiteindelijk leiden tot een programma dat internetafbeeldingsdiensten, zoals Google Afbeeldingen, kan kammen en foto's kan vinden die nauwkeurig overeenkomen met de tekeningen van gebruikers.
"Het doel is om foto's en schetsen in beide richtingen te kunnen relateren of matchen, net als een mens, " zegt Hays. “Een mens kan een slecht getekende schets zien en uitzoeken met welke foto hij overeenkomt. We willen computationeel dezelfde mogelijkheden hebben. ”
Om het programma te maken, heeft Hays bijna 700 werknemers aangenomen van Amazon Mechanical Turk, een crowdsourcing-marktplaats die werknemers koppelt aan mensen die taken moeten uitvoeren. Zijn team liet de arbeiders foto's zien van gewone objecten en dieren, zoals eekhoorns, theepotten en bananen, waardoor ze twee seconden naar het beeld konden kijken. De arbeider zou het object vervolgens uit het geheugen tekenen. Het team verzamelde uiteindelijk meer dan 75.000 schetsen van 12.500 objecten. Ze noemden dit de 'Sketchy-database'.
Het programma analyseerde vervolgens de schetsen en koppelde ze aan de foto waarop ze het meest leken. De technologie identificeerde 37 procent van de tijd de juiste foto. Mensen, in vergelijking, hadden ongeveer 54 procent van de tijd gelijk. Hoewel 37 procent misschien niet indrukwekkend lijkt, is het eigenlijk een hele sprong voor computers.
"Mensen zijn al zo verbluffend goed in visie, we herkennen beelden moeiteloos, " zegt Hays. "Het is eigenlijk verrassend moeilijk computationeel."
Een van de belangrijkste uitdagingen bij het verbeteren van het programma is dat de meeste mensen behoorlijk slechte artiesten zijn. Zoals Hays en zijn team in een artikel over dit onderwerp schreven: “Vormen en schalen zijn vervormd. Objectonderdelen zijn karikaturaal (grote oren op een olifant), geantropomorfiseerd (lachende mond op een spin) of vereenvoudigd (ledematen met stokfiguren). "
Historisch gezien is onderzoek naar het herkennen van schetsen van computers gericht op zaken als de verdeling van lijnen in een tekening, de richting waarin de lijnen gaan of waar de grenzen van de tekening liggen. Maar omdat mensen alleen tekenen wat opvallend is voor mensen (ogen zijn bijvoorbeeld altijd opgenomen in schetsen, hoewel ze relatief klein zijn), is het belangrijk voor een computer om te "leren" hoe schetsen de neiging hebben vergelijkbaar te zijn en hoe ze neigen te lijken anders zijn dan foto's. Hiervoor gebruikt het programma twee afzonderlijke netwerken, een die schetsen evalueert, een die foto's evalueert. Door constante analyse van een grote dataset kan het programma continu 'leren'.
Hays en zijn team zijn van plan het programma te blijven verbeteren door gegevens toe te voegen. Vooruitgang op het gebied van computerleren zou ook moeten bijdragen tot het verbeteren van de match rates. Vanaf nu heeft het programma een vrij hoog matchpercentage bij het vergelijken van schetsen met internetfotodatabases, inclusief Flickr, hoewel het moeilijk te kwantificeren is, zegt Hays.
Naast het zoeken naar afbeeldingen in de handtas dat ik zo hard nodig heb, heeft het programma een aantal minder frivole potentiële toepassingen. De politie kan verdachte schetsen scannen en vergelijken met een database met criminele foto's. Het programma kan worden gebruikt door mensen die in elke taal spreken en schrijven, of helemaal niet kunnen schrijven.
"Een doel van het begrijpen van schetsen is dat ze een enigszins universele taal zijn, " zegt Hays. “Het is niet gebonden aan een bepaalde geschreven taal en het is zelfs helemaal niet aan geletterdheid verbonden. [Een programma als dit kan] toegang tot informatie bieden zonder geschreven taal. "
Het programma zou ook artistiek kunnen worden gebruikt om fotorealistische scènes te maken uit schetsen. Altijd gedacht dat je in een kasteel op de maan woonde? Teken het en het programma zou ooit een foto voor u kunnen maken door stukken van andere afbeeldingen aan elkaar te naaien.
De informatie verzameld door Hays en zijn team kan ook helpen bij het beantwoorden van enkele neurowetenschappelijke en psychologische vragen, zegt Hays.
"Deze schets-foto-paren zeggen iets over de menselijke perceptie, over wat we denken dat saillant is, welke delen van afbeeldingen onze aandacht trekken, " zegt Hays. “In sommige opzichten codeert deze database behoorlijk goed. Daar zou iets uit geplaagd kunnen worden, als je iets over mensen zelf wilt zeggen. '