https://frosthead.com

Kas arvutimudel võib ennustada selle aasta märtsi hulluse esimest vooru?

“Hoiduge märtsi ididest.” Jah, lõpuks on jälle see aastaaeg: kui kolledži korvpalli keisrid peavad valvama oma selga, et turniiri madalaimad seemned ei lööks.

Enne 15. märtsi täidavad miljonid inimesed kogu maailmas oma märtsi hullu sulgu. ESPN sai 2017. aastal rekordiliselt 18, 8 miljonit sulgu.

Esimene samm täiusliku sulgu saavutamiseks on esimese ringi õige valimine. Kahjuks ei suuda enamik meist tulevikku ennustada. Eelmisel aastal oli esimese vooru läbimisel täiuslik vaid 164 esitatud sulgudest - alla 0, 001 protsendi.

Esitatud 18, 8 miljonit sulgu.

164 on pärast 1. vooru suurepärased.

Siin tuleb üle saavutada. #perfectbracketwatch pic.twitter.com/TGwZNCzSnW

- ESPN Fantasy Sports (@ESPNFantasy), 18. märts 2017

Paljud sulgud lõhutakse, kui madalama seemnega meeskond pahandab eelistatud kõrgemat seemet. Kuna 1985. aastal laienes väljak 64 meeskonnale, toimub igal aastal keskmiselt vähemalt kaheksa tõusu. Kui soovite võita oma sulgpalli, siis vali parem vähemalt mõni tõus.

Oleme kaks matemaatika doktorikraadi Ohio osariigi ülikooli kandidaadid, kes tunnevad huvi infoteaduse ja korvpalli vastu. Sel aastal otsustasime, et oleks lõbus ehitada arvutiprogramm, mis kasutab matemaatilist lähenemist esimese ringi tõusude ennustamiseks. Kui meil on õigus, peaks meie programmi abil valitud sulg esimese ringi jooksul paremini toimima kui keskmine sulg.

Langevad inimesed

Pole lihtne kindlaks teha, millised esimese ringi mängud häirivad.

Oletame, et peate otsustama nr 10 ja nr 7 seemnete vahel. 10. koha saavutanud turniir on viimases kolmes turniiril häirinud, jõudes korra isegi Final Fouri. Valik nr 7 on meeskond, kellele on antud vähe või üldse mitte riiklikku kajastust; juhuslik fänn pole neist vist kunagi kuulnud. Millise valiksite?

Kui valiksite 2017. aastal seemne nr 10, oleksite läinud Virginia Rahvaste Ühenduse ülikooli Californias Saint Mary's - ja oleksite eksinud. Tänu otsuste tegemise ekslikkusele, mida nimetatakse hiljutise eelarvamuse tekkeks, võib inimesi petta kasutama otsuse tegemisel oma uusimaid tähelepanekuid.

Umbusalduse kallutamine on vaid üks tüüpi eelarvamusi, mis võivad infiltreeruda kellegi valimisprotsessi, kuid neid on palju. Võib-olla olete kallutatud oma kodumeeskonna poole või ehk samastute mängijaga ja soovite meeleheitlikult, et ta õnnestuks. Kõik see mõjutab teie sulgu potentsiaalselt negatiivsel viisil. Nendesse lõksudesse satuvad isegi kogenud spetsialistid.

Häirete modelleerimine

Masinõpe võib nende lõksude vastu kaitsta.

Masinõppes koolitavad statistikud, matemaatikud ja arvutiteadlased masinat prognooside tegemiseks, lastes sellel varasemate andmete põhjal õppida. Seda lähenemisviisi on kasutatud paljudes erinevates valdkondades, sealhulgas turunduses, meditsiinis ja spordis.

Masinõppe tehnikaid saab võrrelda musta kastiga. Esiteks sisestate algoritmi varasemad andmed, määrates sisselogimise valikuliselt mustale kastile. Kui seaded on kalibreeritud, saab algoritm lugeda uusi andmeid, võrrelda neid varasemate andmetega ja seejärel oma ennustused välja sülitada.

Musta kasti vaade masinõppe algoritmidele. Musta kasti vaade masinõppe algoritmidele. (Matthew Osborne, CC BY-SA)

Masinõppes on saadaval mitmesuguseid mustaid kaste. Meie märtsikuu hullu projekti jaoks on need, mida me tahtsime, tuntud kui klassifitseerimise algoritmid. Need aitavad meil otsustada, kas mängu tuleks klassifitseerida ärritunuks, määrates kas häirimise tõenäosuse või klassifitseerides mängu selgesõnaliselt.

Meie programm kasutab mitmeid populaarseid klassifitseerimise algoritme, sealhulgas logistiline regressioon, juhuslikud metsamudelid ja k-lähimad naabrid. Iga meetod on nagu sama masina erinev “kaubamärk”; nad töötavad kapoti all samamoodi nagu Fords ja Toyotas, kuid täidavad sama klassifitseerimistööd. Igal algoritmil või ruudul on oma ennustused ärrituse tõenäosuse kohta.

Kasutasime numbrite valimiseks meie mustade kastide jaoks kõigi 2001. – 2017. Aasta esimese ringi võistkondade statistikat. Kui katsetasime ühte oma algoritmi 2017. aasta esimese ringi andmetega, oli selle õnnestumise määr umbes 75 protsenti. See annab meile kindluse, et varasemate andmete analüüsimine, selle asemel et ainult oma soolestikku usaldada, võib anda häirete täpsemaid prognoose ja seeläbi paremaid üldisi sulgusid.

Mis eeliseid neil kastidel on inimese intuitsiooni ees? Ühe puhul suudavad masinad sekunditega tuvastada kõigi 2001. – 2017. Aasta andmete mustrid. Veelgi enam, kuna masinad sõltuvad ainult andmetest, võib nende langemine inimese psühholoogilisse eelarvamusesse olla väiksem.

See ei tähenda, et masinõpe annab meile täiuslikud sulud. Kuigi kast jätab mööda inimese eelarvamustest, pole see eksimuste suhtes immuunne. Tulemused sõltuvad varasematest andmetest. Näiteks kui nr 1 seeme kaotaks esimeses voorus, siis meie mudel seda tõenäoliselt ei ennustaks, sest seda pole kunagi varem juhtunud.

Lisaks töötavad masinõppe algoritmid kõige paremini tuhandete või isegi miljonite näidetega. Alates 2001. aastast on mängitud vaid 544 esimese ringi märtsi hullusemängu, seega ei kutsu meie algoritmid õigesti kõiki ärritusi esile. Kajav korvpalliekspert Jalen Rose, meie väljundit tuleks kasutada tööriistana koos teie asjatundlike teadmistega - ja õnne! - õigete mängude valimiseks.

Masinõppe hullumeelsus?

Me pole esimesed inimesed, kes rakendavad masinõpet March Madnessil ega jää me viimaseks. Tegelikult võivad sulgi konkurentsivõimeliseks muutmiseks varsti vaja minna masinõppe tehnikaid.

Masinõppe kasutamiseks pole vaja matemaatika kraadi, ehkki see aitab meid. Varsti võib masinõpe olla kättesaadavam kui kunagi varem. Huvilised saavad meie mudeleid heita pilgu veebis. Uurige julgelt meie algoritme ja saate isegi ise parema lähenemisviisi välja mõelda.


See artikkel avaldati algselt lehel The Conversation. Vestlus

Matthew Osborne, PhD doktorant matemaatikas, Ohio Riiklik Ülikool

Kevin Nowland, Ohio Riikliku Ülikooli matemaatikakandidaat

Kas arvutimudel võib ennustada selle aasta märtsi hulluse esimest vooru?