https://frosthead.com

De Turing-test meet iets, maar het is geen 'intelligentie'

Alan Turing, een van de vaders van het computertijdperk, was een buitengewoon slimme man. Zo slim zelfs, dat hij begreep dat de term "machine-intelligentie" vrijwel betekenisloos was. Beter, redeneerde hij, om te praten over wat een machine daadwerkelijk kan doen: kan het praten? Kan het een gesprek voeren? Dat kunnen we tenminste proberen te bestuderen. Turing stelde uiteindelijk voor wat bekend werd als de 'Turing-test': als een rechter niet kan zien welke van twee verborgen entiteiten een mens is en welke een kunstmatige is, heeft de machine de test 'doorstaan' - en dat is precies wat zou afgelopen zaterdag in Londen zijn gebeurd.

gerelateerde inhoud

  • Silicon Valley dankt zijn succes aan dit technische genie waar je nog nooit van hebt gehoord
  • 60-jarige voorspelling van Alan Turing over patronen in de natuur bewezen waar

"We zijn ... trots om te verklaren dat de test van Alan Turing voor de eerste keer is geslaagd, " zei een van de organisatoren, Kevin Warwick van de Universiteit van Reading, toen de resultaten werden aangekondigd. De winnende chatbot heet 'Eugene Goostman', een computerprogramma dat de persoonlijkheid van een 13-jarige Oekraïense jongen nabootst. "Eugene" slaagde erin om 33 procent van de juryleden ervan te overtuigen dat het menselijk was tijdens het evenement van zaterdag, gehouden in de kantoren van de Royal Society in Londen op de 60e verjaardag van de dood van Turing. (Turing, een homoseksueel, werd in 1952 veroordeeld voor grove onfatsoenlijkheid en kreeg de opdracht om hormonale 'behandeling' te ondergaan als onderdeel van een pleidooiovereenkomst. Twee jaar later stierf hij aan cyanidevergiftiging in een schijnbare zelfmoord.)

Maar een woord van waarschuwing is op zijn plaats. "Intelligentie" is altijd een glad onderwerp geweest, en met name de Turing-test is lang beladen geweest met controverses. Turing beschreef hoe het zou werken in een papier uit 1950 getiteld "Computing machines and intelligence." Hij nam het idee over van een traditioneel Victoriaans gezelschapsspel, waar je probeert te achterhalen of de persoon die achter een gordijn verstopt een man of een vrouw is, gewoon door vragen te stellen. (De antwoorden op de vragen moesten worden opgeschreven, omdat de stem een ​​weggevertje zou zijn.) Zo zou de versie van Turing werken: Je zou een rechter hebben die voor twee gordijnen zit, zonder te weten wat er achter zit . Achter een gordijn zit een mens; achter de ander staat een computer. De rechter kan vragen stellen aan een van de twee verborgen entiteiten. Op basis van de antwoorden probeert de rechter erachter te komen of de verborgen entiteit een mens of een machine is. (Turing zag het gesprek als bemiddeld door teletypemachines; tegenwoordig kunnen we elke vorm van elektronische, op tekst gebaseerde interface gebruiken, zoals het type dat wordt gebruikt in internetchatrooms of instant messaging.)

Turing speculeerde dat tegen het jaar 2000 "een gemiddelde ondervrager niet meer dan 70 procent kans heeft om de juiste identificatie te maken" - dat wil zeggen computerprogramma's zouden de jury 30 procent van de tijd belemmeren - na vijf minuten vragen. De "vijf minuten" is belangrijk. Turing sprak niet over een tijdslimiet als een inherent onderdeel van de test, en men zou kunnen stellen dat een machine, om de test echt te doorstaan, elke hoeveelheid vragen moet kunnen verwerken. Vermoedelijk waren de criteria van vijf minuten een willekeurige maar noodzakelijke limiet. Het jaar 2000 kwam en ging, met chatbots die de voortgang alleen maar stopten. (Op een meer sober moment, in antwoord op een vraag van een BBC-interviewer in 1952, zei Turing dat het 100 jaar zou duren voordat een machine de test zou doorstaan.)

In 2012 was ik rechter in een "Turing-testmarathon", de grootste reeks Turing-tests ooit uitgevoerd; het werd gehouden in Bletchley Park, in Engeland, de locatie van Turing's essentiële codebreekwerk tijdens de laatste jaren van de Tweede Wereldoorlog. (Het werd georganiseerd door hetzelfde team dat het evenement van zaterdag leidde, en een eerdere versie van Eugene was die keer ook de winnaar.) De opzet voor het evenement van zaterdag was hetzelfde als in 2012: de juryleden typten hun vragen op een computer, wachtten vervolgens tot de antwoorden op hun schermen verschenen; de chatbots, samen met de "verborgen mensen", waren in een andere kamer, uit het zicht.

Het eerste waar ik me hyperbewust van werd, is dat wanneer je een rechter bent in een Turing-test, vijf minuten behoorlijk snel voorbijgaan. En hoe korter het gesprek, hoe groter het voordeel van de computer; hoe langer het verhoor, hoe groter de kans dat de computer zichzelf weggeeft. Ik noem dit graag het mannequin-effect: heb je je ooit verontschuldigd bij een etalagepop, in de veronderstelling dat je zojuist een levend mens bent tegengekomen? Als de ontmoeting slechts een fractie van een seconde duurt, terwijl je de andere kant op kijkt, kun je je voorstellen dat je net tegen een mens bent aangelopen. Hoe langer de ontmoeting, hoe duidelijker de mannequin-heid van de mannequin.

Hetzelfde geldt voor chatbots. Een uitwisseling van hello's onthult niets - maar hoe verder je erin komt, hoe meer problemen zich voordoen. Chatbots, vond ik, lijken geneigd om zonder reden van onderwerp te veranderen. Vaak kunnen ze geen eenvoudige vragen beantwoorden. Met het risico vaag te klinken, klinken ze gewoon niet menselijk . In een van mijn gesprekken in 2012 typte ik een simpele grap in - en de entiteit waarmee ik aan het praten was veranderde het onderwerp onmiddellijk in hamburgers. (Computerwetenschapper Scott Aaronson had onlangs een vergelijkbare ervaring toen hij met Eugene praatte via de website van de bot. Aaronson vroeg Eugene hoeveel benen een kameel heeft; het antwoordde: "Iets tussen 2 en 4. Misschien, drie? :-))") Later, toen Aaronson vroeg hoeveel benen een mier heeft, hoestte Eugene exact hetzelfde antwoord, driedubbele smiley en zo.)

Merk ook op dat Eugene geen Engels-sprekende volwassene nabootst; het doet zich voor als een jonge en ietwat slappe Oekraïense tiener, die redelijk goed (maar verre van perfect) Engels spreekt. Zoals Vladimir Veselov, een van de ontwikkelaars van het programma, tegen Mashable.com zei: "We hebben veel tijd besteed aan het ontwikkelen van een personage met een geloofwaardige persoonlijkheid." Hoewel Eugene iedereen over een onderwerp zal aanspreken, maakt zijn leeftijd het volkomen redelijk dat hij dat niet doet. 't weet alles.' Eugene komt er niet meteen uit en kondigt zijn leeftijd en nationaliteit aan; maar hij zal het onthullen indien gevraagd - en het eindresultaat kan een zekere mate van clementie van de juryleden zijn, vooral met betrekking tot Engelse grammatica en woordgebruik. (Ik neem aan dat de meeste juryleden op zaterdag native English-sprekers waren, hoewel ik dit niet zeker weet.) De tafels zouden waarschijnlijk zijn omgedraaid als Eugene ooit een native Oekraïense spreker als rechter zou tegenkomen.

De strijd om een ​​pratende machine te bouwen benadrukt hoe complex taal is. Het is niet alleen een kwestie van praten - je moet ergens over praten, en wat je zegt moet kloppen - en het moet kloppen in de context van wat de ander zojuist heeft gezegd. Voor ons is het gemakkelijk; voor computers, niet zo veel. En dus vertrouwen chatbots op een aantal trucs: het onthouden van megabytes aan ingeblikte reacties of het zoeken naar een dialoog die het gesprek dat ze momenteel in de buurt hebben benadert. Met andere woorden, wat een machine aan intelligentie mist, kan het misschien goedmaken met ruwe rekenkracht. Dit is de reden waarom Google of Siri (de iPhone persoonlijke assistent) ons zo slim lijkt: Siri heeft misschien geen 'geest', maar het heeft toegang tot zo'n enorme database met informatie, het kan doen alsof het dat doet. Het was dezelfde soort brute-force aanpak die IBM's "Watson" in staat stelde om te winnen bij Jeopardy! in 2011.

Dit alles roept een cruciale vraag op: wat meet de Turing-test precies? Sommige critici hebben gesuggereerd dat het bedrog is in plaats van intelligentie. NYU-psycholoog Gary Marcus, die schrijft op NewYorker.com, zegt dat Eugene erin slaagt “door een reeks 'ploys' uit te voeren die zijn ontworpen om de beperkingen van het programma te maskeren.” Steven Harnad, een psycholoog en computerwetenschapper aan de Universiteit van Quebec in Montreal, was nog meer sceptisch, tegen The Guardian dat het "complete onzin" was om te beweren dat Eugene de Turing-test had doorstaan. (Tot zijn eer was Turing zich terdege bewust van dit probleem; hij noemde zijn idee 'het imitatiespel' en sprak slechts spaarzaam over intelligentie.) Nog ongemakkelijker is de computer, anders dan de mens, gedwongen om te misleiden. "De Turing-test is echt een test om een ​​succesvolle leugenaar te zijn, " vertelde Pat Hayes, een computerwetenschapper aan het Institute for Human and Machine Cognition in Pensacola, Florida, me na de Turing-testmarathon van 2012. "Als je iets had dat echt het imitatiespel van Turing kon passeren, zou het een zeer succesvolle 'menselijke nabootsing' zijn."

En 'mens' is het andere belangrijke punt: is het niet mogelijk dat er andere soorten intelligentie in de wereld zijn dan de soort die onze soort vertoont? Een echt intelligente machine zou talloze praktische toepassingen hebben, maar waarom zou u zich richten op het creëren van meer "mensen"? We hebben tenslotte al genoeg mensen. Zoals de taalkundige Noam Chomsky heeft opgemerkt, hoeven we, als we ernaar streven een machine te bouwen die onder water beweegt, niet te "zwemmen" - en een onderzeeër is niet minder een prestatie vanwege het onvermogen om de rugslag te doen.

Ja, Eugene is indrukwekkend, althans in kleine uitbarstingen. En toch stuiten zelfs de beste chatbots op vragen die een kind van de leeftijd van Eugene net als Breezily aankan. Misschien niet verrassend, besteden de meeste AI-onderzoekers weinig tijd aan obsessie voor de Turing-test. Machine-intelligentie gaat in feite vooruit en tamelijk snel. De software voor het vertalen van spraak naar tekst, die slechts enkele jaren geleden behoorlijk pathetisch was, verbetert snel, evenals de vertaalprogramma's voor talen. Amazon heeft vaak een vrij goed idee van wat je wilt kopen, nog voordat je dat doet. En de zelfrijdende auto van Google zou slechts tien jaar geleden fantasie zijn geweest. Maar een gesprek, zoals we steeds opnieuw ontdekken, is echt moeilijk en het is waarschijnlijk niet de grens waarin AI het helderst schijnt. Voor nu, als u op zoek bent naar iemand om mee te chatten, raad ik een echt mens aan.

Dan Falk is een wetenschapsjournalist gevestigd in Toronto.

De Turing-test meet iets, maar het is geen 'intelligentie'