Als iemand je vroeg om het aantal medailles te voorspellen dat elk land op de Olympische Spelen van dit jaar gaat winnen, zou je waarschijnlijk proberen de favoriete atleten in elk evenement te identificeren, en dan de totale verwachte winsten van elk land optellen om tot een resultaat te komen.
Tim en Dan Graettinger, de broers achter het dataminingbedrijf Discovery Corps, Inc., hebben een nogal andere aanpak. Ze negeren de atleten volledig.
In plaats daarvan kijkt hun model voor de Sochi-spellen naar het geografische gebied van elk land, het BBP per hoofd van de bevolking, de totale waarde van de export en de breedtegraad om te bepalen hoeveel medailles elk land zal winnen. Voor het geval je het je afvraagt, voorspelt het dat de VS bovenaan zal staan, met in totaal 29 medailles.
De Graettingers zijn niet de eersten die dit soort gegevensgestuurde, top-down benadering gebruiken om medailletellingen te voorspellen. Daniel Johnson, hoogleraar economie aan het Colorado College, bouwde vergelijkbare modellen voor de vijf Olympische Spelen tussen 2000 en 2008 - met een algemene nauwkeurigheid van 94 procent bij het voorspellen van het aantal medailles van elk land - maar creëerde geen model voor Sochi.
Dan en Tim zijn nieuwer in het spel. Dan - die doorgaans werkt aan meer conventionele dataminingprojecten, bijvoorbeeld door potentiële klanten van een bedrijf te voorspellen - raakte voor het eerst geïnteresseerd in het gebruik van modellen om wedstrijden te voorspellen vier jaar geleden, tijdens de Olympische Winterspelen in Vancouver. "Ik gebruik gegevens uit het verleden om de toekomst te voorspellen", zegt hij. "Elke avond lieten ze de medailletelling op tv zien en ik begon me af te vragen of we het konden voorspellen."
Hoewel de prestaties van individuele atleten onvoorspelbaar kunnen variëren, redeneerde hij, zou er een algemene relatie kunnen zijn tussen de fundamentele kenmerken van een land (bijvoorbeeld de grootte, het klimaat en de hoeveelheid rijkdom) en het aantal medailles dat het waarschijnlijk mee naar huis zou nemen. Dit soort aanpak zou niet kunnen zeggen welke concurrent een bepaald evenement zou kunnen winnen, maar met voldoende gegevens kan het mogelijk de totale medailletelling voor elk land nauwkeurig voorspellen.
Aanvankelijk gingen hij en zijn broer aan de slag met het ontwikkelen van een voorlopig model voor de spelen van 2012 in Londen. Om te beginnen verzamelden ze een breed scala aan verschillende soorten gegevenssets, van alles over de geografie van een land tot zijn geschiedenis, religie, rijkdom en politieke structuur. Vervolgens gebruikten ze regressieanalyses en andere methoden om gegevens te kraken om te zien welke variabelen het meest in verband stonden met historische gegevens over Olympische medailles.
Ze ontdekten dat voor de zomerspelen een model dat het bruto binnenlands product, de bevolking, de breedtegraad en de algemene economische vrijheid van een land omvatte (zoals gemeten door de index van de Heritage Foundation) het beste correleerde met de medailletellingen van elk land voor de vorige twee Olympische Zomerspelen (2004 en 2008). Maar op dat moment kon hun voorlopige model alleen voorspellen welke landen twee of meer medailles zouden winnen, niet het aantal medailles per land.
Ze besloten om het te verbeteren voor de Sochi-spellen, maar konden niet vertrouwen op hun vorige model, omdat de landen die in de winter succesvol zijn zo sterk verschillen van de zomer. Hun nieuwe Sochi-model pakt het probleem van het voorspellen van medailletellingen in twee stappen aan. Omdat ongeveer 90 procent van de landen nog nooit één medaille op de Olympische Winterspelen heeft gewonnen (geen enkele atleet uit het Midden-Oosten, Zuid-Amerika, Afrika of het Caribisch gebied heeft ooit gewonnen), scheidt het eerst de tien procent die waarschijnlijk ten minste één wint en voorspelt vervolgens hoeveel iedereen zal winnen.
"Sommige trends zijn ongeveer wat je zou verwachten - naarmate de bevolking van een land groter wordt, is de kans groter dat het een medaille zal winnen, " zegt Tim. "Uiteindelijk heb je echter wat krachtigere statistische machines nodig die door veel variabelen kunnen malen en ze rangschikken in termen van de meest voorspellende."
Uiteindelijk kwamen ze op een paar variabelen die de negentig procent van de niet-medaillewinnende landen nauwkeurig scheiden van de tien procent die waarschijnlijk zullen winnen: deze omvatten migratiepercentage, aantal artsen per hoofd van de bevolking, breedtegraad, bruto binnenlands product en of het land had won een medaille in de vorige zomerspelen (geen enkel land had ooit een wintermedaille gewonnen zonder er de vorige zomer een te winnen, deels omdat de pool met zomerwinnaars zoveel groter is dan de winter). Door dit model op de afgelopen twee Olympische Winterspelen te houden, bepaalde dit model welke landen een medaille mee naar huis namen met 96, 5 procent nauwkeurigheid.
Met 90 procent van de geëlimineerde landen, gebruikten de Graettingers vergelijkbare regressieanalyses om een model te maken dat met terugwerkende kracht voorspelde hoeveel medailles elk overgebleven land won. Uit hun analyse bleek dat een iets andere lijst met variabelen het beste past bij de historische medaillegegevens. Deze variabelen samen met voorspellingen voor de Sochi-spellen staan hieronder:
De voorspellingen van het model voor de Sochi-spellen (Graph courtesy Discovery Corps, Inc.)Sommige variabelen die correlatief bleken te zijn, zijn geen grote schok - het is logisch dat landen met een hogere breedtegraad beter presteren bij de evenementen die tijdens de winterspelen worden gespeeld - maar sommige waren meer verrassend.
"We dachten dat de bevolking, niet het landoppervlak, belangrijk zou zijn", zegt Dan. Ze weten niet waarom het geografische gebied beter aansluit bij de historische gegevens, maar het kan zijn omdat een paar landen met een hoge populatie die geen wintermedailles winnen (zoals India en Brazilië) de gegevens weggooien. Door in plaats daarvan landoppervlakte te gebruiken, vermijdt het model de overmaatse invloed van deze landen, maar behoudt het nog steeds een ruwe associatie met de bevolking, omdat landen met grotere gebieden over het algemeen wel grotere populaties hebben.
Natuurlijk is het model niet perfect, zelfs niet bij het matchen van historische gegevens. "Onze aanpak is de 30.000 voet aanpak. Er zijn variabelen die we niet kunnen verklaren, " zegt Tim. Sommige landen hebben herhaaldelijk beter gepresteerd dan de voorspellingen van het model (waaronder Zuid-Korea, dat een onevenredig aantal short-track schaatsevenementen wint), terwijl andere consequent slechter presteren (zoals het Verenigd Koninkrijk, dat veel beter lijkt te doen bij zomerevenementen die worden verwacht, misschien omdat het - ondanks zijn breedtegraad - veel meer regen dan sneeuw krijgt).
Bovendien is een consistente uitzondering die ze hebben gevonden op de voorspellingen van het model dat het gastland meer medailles in de hand heeft dan anders het geval zou zijn, gewoon op basis van de gegevens. Zowel Italië (tijdens de spelen van Turijn 2006) als Canada (tijdens de spelen van Vancouver in 2010) overtroffen het model, met Canada dat zijn record ooit vestigde met het winnen van 14 goud.
Toch zijn de Graettingers op basis van hun statistisch rigoureuze benadering ervan overtuigd dat hun model over het algemeen de uiteindelijke medailletellingen met een relatief hoge nauwkeurigheid zal voorspellen.
Hoe verhouden hun voorspellingen zich tot die van experts die meer conventionele strategieën gebruiken? De experts verschillen niet dramatisch, maar ze hebben wel een paar traditioneel succesvolle landen (Noorwegen, Canada, Rusland) die een hoger aantal medailles winnen, samen met een paar andere (China, Nederland, Australië) die elk een paar minder winnen.
Tot op heden hebben de Graettingers geen weddenschappen op hun voorspellingen neergelegd, maar ze zijn van plan om de output van hun model te vergelijken met de gokkansen vlak voordat de spellen van start gaan. Als ze discrepanties zien die ze willen exploiteren, kunnen ze hun geld uiteindelijk waar ze hun mond houden.