Voor mensen kan schaken een leven lang duren om te beheersen. Maar het nieuwe kunstmatige intelligentieprogramma van Google DeepMind, AlphaZero, kan zichzelf leren het bord binnen enkele uren te veroveren.
Voortbouwend op zijn eerdere succes met de AlphaGo-suite - een reeks computerprogramma's ontworpen om het Chinese bordspel Go te spelen - beweert Google dat zijn nieuwe AlphaZero een niveau van 'bovenmenselijke prestaties' behaalt op niet slechts één bordspel, maar drie: Go, schaken en shogi (in wezen Japans schaken). Het team van computerwetenschappers en ingenieurs, geleid door David Silver van Google, rapporteerde zijn bevindingen onlangs in het tijdschrift Science .
"Daarvoor, met machine learning, kon je een machine precies laten doen wat je wilt - maar alleen dat ding, " zegt Ayanna Howard, een expert in interactief computergebruik en kunstmatige intelligentie aan het Georgia Institute of Technology die niet deelnam aan de Onderzoek. "Maar AlphaZero laat zien dat je een algoritme kunt hebben dat niet zo [specifiek] is en dat het binnen bepaalde parameters kan leren."
De slimme programmering van AlphaZero verhoogt zeker de lat voor gameplay voor zowel mens als machine, maar Google heeft al lang zijn zinnen gezet op iets groters: technische intelligentie.
De onderzoekers letten er niet op dat AlphaZero op het punt staat wereldoverheersing te bereiken (anderen zijn iets sneller over het pistool gesprongen). Toch zijn Silver en de rest van het DeepMind-team al hoopvol dat ze ooit een soortgelijk systeem zullen zien dat wordt toegepast op het ontwerpen van medicijnen of materiaalkunde.
Dus wat maakt AlphaZero zo indrukwekkend?
Gameplay wordt al lang vereerd als een gouden standaard in onderzoek naar kunstmatige intelligentie. Gestructureerde, interactieve spellen zijn vereenvoudigingen van realistische scenario's: er moeten moeilijke beslissingen worden genomen; winsten en verliezen verhogen de inzet; en voorspelling, kritisch denken en strategie zijn de sleutel.
Het is lastig om dit soort vaardigheden te coderen. Oudere AI's voor games - inclusief de eerste prototypes van de originele AlphaGo - zijn traditioneel volgepompt met codes en gegevens om de ervaring na te bootsen die meestal is opgedaan door jaren van natuurlijke, menselijke gameplay (in wezen een passieve, door programmeurs afgeleide kennisdump). Met AlphaGo Zero (de meest recente versie van AlphaGo), en nu AlphaZero, gaven de onderzoekers het programma slechts één input: de regels van de game in kwestie. Toen zakte het systeem ineen en leerde het actief de kneepjes van het vak zelf.
AlphaZero is gebaseerd op AlphaGo Zero, onderdeel van de AlphaGo-suite ontworpen voor het Chinese bordspel Go, hierboven afgebeeld. Vroege iteraties van het oorspronkelijke programma werden gevoed met gegevens van mens-tegen-mens spellen; latere versies bezig met zelfstudie, waarin de software games tegen zichzelf speelde om zijn eigen strategie te leren. (Chad Miller / Flickr / CC BY-SA 2.0)Deze strategie, genaamd self-play-versterkingsleren, is vrijwel precies hoe het klinkt: om te trainen voor de grote competities speelde AlphaZero zichzelf in iteratie na iteratie, waarbij ze haar vaardigheden proefondervindelijk verbeterde. En de brute-force aanpak loonde. In tegenstelling tot AlphaGo Zero speelt AlphaZero niet alleen Go: het kan ook de beste AI's in de branche verslaan bij schaken en shogi. Het leerproces is ook indrukwekkend efficiënt en vereist slechts twee, vier of 30 uur zelfstudie om programma's te verslaan die specifiek zijn afgestemd op respectievelijk shogi, schaken en Go. De auteurs van de studie hebben met name geen melding gemaakt van gevallen waarin AlphaZero het tegen een echte mens zou opnemen, zegt Howard. (De onderzoekers hebben misschien aangenomen dat, gezien het feit dat deze programma's consequent hun menselijke tegenhangers klokken, zo'n matchup zinloos zou zijn geweest.)
AlphaZero was ook in staat Stockfish (de nu niet-geplaatste AI schaakmeester) en Elmo (de voormalige AI shogi-expert) te verslaan, ondanks het evalueren van minder mogelijke volgende zetten bij elke beurt tijdens het spelen. Maar omdat de algoritmen in kwestie inherent verschillend zijn en verschillende hoeveelheden stroom kunnen verbruiken, is het moeilijk om AlphaZero direct te vergelijken met andere, oudere programma's, wijst Joanna Bryson, die kunstmatige intelligentie studeert aan de Universiteit van Bath in het Verenigd Koninkrijk en niet bijdragen aan AlphaZero.
Google houdt veel van de kleine lettertjes op zijn software bij en AlphaZero is geen uitzondering. Hoewel we niet alles weten over het stroomverbruik van het programma, is het duidelijk: AlphaZero moet wat serieuze computationele munitie inpakken. In die weinige uren van training hield het programma zichzelf erg druk, bezig met tien of honderdduizenden oefenrondes om de strategie van het bordspel op peil te krijgen - veel meer dan een menselijke speler nodig zou hebben (of in de meeste gevallen zou kunnen zelfs bereiken) in het nastreven van vaardigheid.
Dit intensieve regime gebruikte ook 5000 van Google's eigen machine learning processors of TPU's, die volgens sommige schattingen ongeveer 200 watt per chip verbruiken. Hoe je het ook snijdt, AlphaZero heeft veel meer energie nodig dan een menselijk brein, dat op ongeveer 20 watt werkt.
Er moet rekening worden gehouden met het absolute energieverbruik van AlphaZero, voegt Bin Yu toe, die werkt op het raakvlak van statistiek, machine learning en kunstmatige intelligentie aan de Universiteit van Californië, Berkeley. AlphaZero is krachtig, maar is misschien niet goed voor het geld - vooral bij het toevoegen van de personuren die zijn besteed aan het maken en uitvoeren ervan.
Energetisch duur of niet, AlphaZero maakt een plons: de meeste AI's zijn hyper-gespecialiseerd in een enkele taak, waardoor dit nieuwe programma - met zijn drievoudige dreiging van het spelen - opmerkelijk flexibel is. "Het is indrukwekkend dat AlphaZero dezelfde architectuur kon gebruiken voor drie verschillende games, " zegt Yu.
Dus ja. De nieuwe AI van Google heeft op verschillende manieren een nieuw stempel gezet. Het is snel. Het is krachtig. Maar maakt dat het slim?
Hier beginnen de definities troebel te worden. "AlphaZero was in staat om vanaf het begin zonder enige menselijke kennis te leren om elk van deze spellen tot bovenmenselijk niveau te spelen, " zei DeepMind's Silver in een verklaring aan de pers.
Zelfs als expertise in bordspellen mentale scherpte vereist, hebben alle proxy's voor de echte wereld hun grenzen. In zijn huidige iteratie maximaliseert AlphaZero door het winnen van door mensen ontworpen games - die misschien niet het mogelijk alarmerende label van 'bovenmenselijk' rechtvaardigen. Bovendien, als AlphaZero verrast wordt met een nieuwe set regels in het midden van de game, kan het flummoxen. Het eigenlijke menselijke brein kan daarentegen veel meer dan drie bordspellen opslaan in zijn repertoire.
Bovendien is het vergelijken van AlphaZero's basislijn met een tabula rasa (schone lei) - zoals de onderzoekers doen - een stuk, zegt Bryson. Programmeurs voeden het nog steeds met een cruciaal hapje menselijke kennis: de spelregels die het gaat spelen. "Het heeft veel minder te doen dan ooit tevoren, " voegt Bryson eraan toe, "maar het meest fundamentele is dat het nog steeds regels krijgt. Die zijn expliciet. "
En die vervelende regels kunnen een belangrijke steun zijn. "Hoewel deze programma's leren hoe ze moeten presteren, hebben ze de verkeersregels nodig, " zegt Howard. "De wereld zit vol met taken die deze regels niet hebben."
Als het erop aankomt, is AlphaZero een upgrade van een al krachtig programma — AlphaGo Zero, legt JoAnn Paul uit, die kunstmatige intelligentie en computationeel dromen bestudeert aan het Virginia Polytechnic Institute en de State University en niet betrokken was bij het nieuwe onderzoek. AlphaZero gebruikt veel van dezelfde bouwstenen en algoritmen als AlphaGo Zero en vormt nog steeds slechts een subset van echte smarts. "Ik dacht dat deze nieuwe ontwikkeling meer evolutionair dan revolutionair was", voegt ze eraan toe. “Geen van deze algoritmen kan creëren . Intelligentie gaat ook over het vertellen van verhalen. Het verbeeldt dingen die er nog niet zijn. We denken niet zo in computers. '
Een deel van het probleem is dat er nog steeds geen consensus bestaat over een echte definitie van 'intelligentie', zegt Yu - en niet alleen op het gebied van technologie. "Het is nog steeds niet duidelijk hoe we kritisch denkende wezens trainen, of hoe we het onbewuste brein gebruiken, " voegt ze eraan toe.
Tot nu toe geloven veel onderzoekers dat er waarschijnlijk meerdere soorten intelligentie zijn. En het aanboren van de ene ver van garandeert de ingrediënten voor de andere. Sommige van de slimste mensen die er zijn, zijn bijvoorbeeld vreselijk in schaken.
Met deze beperkingen brengt Yu's visie op de toekomst van kunstmatige intelligentie mens en machine samen in een soort van co-evolutie. Machines zullen zeker blijven uitblinken in bepaalde taken, legt ze uit, maar menselijke input en toezicht kunnen altijd nodig zijn om de niet-geautomatiseerde te compenseren.
Natuurlijk is het niet te zeggen hoe dingen zullen uitschudden in de AI-arena. In de tussentijd hebben we genoeg om over na te denken. "Deze computers zijn krachtig en kunnen bepaalde dingen beter doen dan een mens, " zegt Paul. "Maar dat schiet nog steeds tekort aan het mysterie van intelligentie."
Dit artikel werd oorspronkelijk gepubliceerd op NOVA.