"Pas op voor de Ides van maart." Ja, het is eindelijk weer die tijd van het jaar: wanneer de keizers van universiteitsbasketbal op hun rug moeten letten, anders de lage bodem van de toernooistaking.
Vóór 15 maart vullen miljoenen over de hele wereld hun March Madness-haakjes in. In 2017 ontving ESPN een record van 18, 8 miljoen beugels.
De eerste stap naar een perfecte beugel is het correct kiezen van de eerste ronde. Helaas kunnen de meesten van ons de toekomst niet voorspellen. Vorig jaar waren slechts 164 van de ingediende beugels perfect tijdens de eerste ronde - minder dan 0, 001 procent.
18, 8 miljoen haakjes ingediend.
- ESPN Fantasy Sports (@ESPNFantasy) 18 maart 2017
164 zijn perfect na ronde 1.
Hier is te overtreffen. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW
Veel beugels zijn kapot wanneer een lager geplaatste team het favoriete hogere zaad verstoort. Omdat het veld zich in 1985 uitbreidde naar 64 teams, vinden er gemiddeld elk jaar minimaal acht storingen plaats. Als je je bracketpool wilt winnen, kun je beter ten minste een paar upsets kiezen.
We zijn twee wiskunde Ph.D. kandidaten aan de Ohio State University die een passie hebben voor data science en basketbal. Dit jaar hebben we besloten dat het leuk zou zijn om een computerprogramma te bouwen dat een wiskundige benadering gebruikt om de eerste ronde te voorspellen. Als we gelijk hebben, zou een met ons programma gekozen bracket beter moeten presteren tijdens de eerste ronde dan de gemiddelde bracket.
Feilbare mensen
Het is niet eenvoudig om te bepalen welke van de spellen in de eerste ronde tot een overstuur leidt.
Stel dat je moet kiezen tussen zaad nr. 10 en zaad 7. Het nummer 10 zaad heeft in de afgelopen drie toernooi-optredens overstuur gemaakt, ooit zelfs de laatste vier gehaald. Het nummer 7 zaad is een team dat weinig tot geen landelijke dekking heeft gekregen; de casual fan heeft er waarschijnlijk nog nooit van gehoord. welke zou jij kiezen?
Als je in 2017 het zaad nr. 10 had gekozen, zou je met Virginia Commonwealth University zijn gegaan over Saint Mary's of California - en je zou het mis hebben gehad. Dankzij een beslissingsfout die recency bias wordt genoemd, kunnen mensen worden misleid om hun meest recente observaties te gebruiken om een beslissing te nemen.
Recency bias is slechts één type bias dat iemands pickproces kan infiltreren, maar er zijn er nog veel meer. Misschien ben je bevooroordeeld tegenover je thuisteam, of misschien identificeer je je met een speler en wil je wanhopig dat hij of zij slaagt. Dit alles beïnvloedt je bracket op een mogelijk negatieve manier. Zelfs ervaren professionals vallen in deze valkuilen.
Modellering verstoort
Machine learning kan zich tegen deze valkuilen verdedigen.
In machine learning trainen statistici, wiskundigen en computerwetenschappers een machine om voorspellingen te doen door deze te laten 'leren' van gegevens uit het verleden. Deze aanpak is op veel verschillende gebieden gebruikt, waaronder marketing, medicijnen en sport.
Technieken voor machinaal leren kunnen worden vergeleken met een zwarte doos. Eerst voer je het algoritme uit de vorige gegevens in, waarbij je in wezen de knoppen op de zwarte doos instelt. Nadat de instellingen zijn gekalibreerd, kan het algoritme nieuwe gegevens inlezen, vergelijken met gegevens uit het verleden en vervolgens zijn voorspellingen uitspuwen.
Een black box-weergave van machine learning-algoritmen. (Matthew Osborne, CC BY-SA)Bij machine learning zijn er verschillende black boxes beschikbaar. Voor ons March Madness-project staan degenen die we wilden bekend als classificatie-algoritmen. Deze helpen ons te bepalen of een game al dan niet als overstuur moet worden geclassificeerd, hetzij door de kans op een overstuur te geven, hetzij door een game expliciet als één te classificeren.
Ons programma gebruikt een aantal populaire classificatie-algoritmen, waaronder logistieke regressie, willekeurige bosmodellen en k-naaste buren. Elke methode is als een ander "merk" van dezelfde machine; ze werken net zo anders onder de motorkap als Fords en Toyotas, maar voeren dezelfde classificatieopdracht uit. Elk algoritme of vak heeft zijn eigen voorspellingen over de waarschijnlijkheid van een overstuur.
We hebben de statistieken van alle teams van de eerste ronde van 2001 tot 2017 gebruikt om de wijzerplaten op onze zwarte dozen in te stellen. Toen we een van onze algoritmen testten met de gegevens van de eerste ronde van 2017, had het een slagingspercentage van ongeveer 75 procent. Dit geeft ons vertrouwen dat het analyseren van gegevens uit het verleden, in plaats van alleen op onze darmen te vertrouwen, kan leiden tot meer accurate voorspellingen van verstoringen, en dus tot betere algemene haken.
Welke voordelen hebben deze vakken ten opzichte van menselijke intuïtie? Ten eerste kunnen de machines patronen in alle gegevens van 2001-2017 in enkele seconden identificeren. Wat meer is, omdat de machines alleen op gegevens vertrouwen, is het minder waarschijnlijk dat ze vallen voor menselijke psychologische vooroordelen.
Dat wil niet zeggen dat machine learning ons perfecte haakjes zal geven. Hoewel de doos menselijke vooroordelen omzeilt, is deze niet immuun voor fouten. Resultaten zijn afhankelijk van gegevens uit het verleden. Als bijvoorbeeld een zaad van nummer 1 in de eerste ronde zou verliezen, zou ons model dit waarschijnlijk niet voorspellen, want dat is nog nooit eerder gebeurd.
Bovendien werken algoritmen voor machine learning het beste met duizenden of zelfs miljoenen voorbeelden. Sinds 2001 zijn er slechts 544 March Madness-spellen uit de eerste ronde gespeeld, dus onze algoritmen zullen niet elke overstuur correct oproepen. In navolging van basketbal-expert Jalen Rose, moet onze output worden gebruikt als een hulpmiddel in combinatie met je vakkennis - en geluk! - om de juiste spellen te kiezen.
Machine learning waanzin?
We zijn niet de eerste mensen die machine learning toepassen op March Madness en we zullen niet de laatste zijn. In feite kunnen technieken voor machinaal leren binnenkort nodig zijn om uw beugel concurrerend te maken.
Je hebt geen graad in wiskunde nodig om machine learning te gebruiken - hoewel het ons helpt. Binnenkort is machine learning mogelijk toegankelijker dan ooit. Geïnteresseerden kunnen onze modellen online bekijken. Voel je vrij om onze algoritmen te verkennen en zelfs een betere aanpak te bedenken.
Dit artikel is oorspronkelijk gepubliceerd op The Conversation.
Matthew Osborne, Ph.D Candidate in Mathematics, The Ohio State University
Kevin Nowland, Ph.D Candidate in Mathematics, The Ohio State University