https://frosthead.com

Kas statistiline mudel saab täpselt ennustada olümpiamedali loendamist?

Kui keegi paluks teil ennustada, kui palju medaleid iga riik tänavustel olümpiamängudel võidab, prooviksite tõenäoliselt kindlaks teha igal üritusel soositud sportlased, siis annaks tulemuse saamiseks iga riigi eeldatav võit kokku.

Andmekaevandusettevõtte Discovery Corps, Inc. taga olevad vennad Tim ja Dan Graettinger suhtuvad üsna erinevalt. Nad eiravad sportlasi täielikult.

Selle asemel vaatab nende Sotši mängude mudel iga riigi geograafilist piirkonda, SKT-d elaniku kohta, ekspordi koguväärtust ja laiuskraadi, et määrata, mitu medalit iga riik võidab. Juhul, kui teil on huvi, ennustab USA, et kokku tuleb kõige rohkem 29 medalit.

Graettingersid pole esimesed, kes medalikohtade ennustamiseks kasutavad sellist andmepõhist ülalt-alla lähenemisviisi. Colorado kolledži majandusprofessor Daniel Johnson ehitas sarnased mudelid viieks olümpiamänguks aastatel 2000–2008 - saavutades kõigi riikide medalite arvu ennustamisel 94-protsendise täpsuse -, kuid ei loonud Sotši jaoks mudelit.

Dan ja Tim on mängu uuemad. Dan - kes töötab tavaliselt tavapäraste andmekaeveprojektide kallal, näiteks ennustades ettevõtte potentsiaalsetele klientidele - hakkas esimest korda huvi pakkuma mudelite abil võistluste ennustamiseks neli aastat tagasi, Vancouveri taliolümpiamängude ajal. "Kasutan kogu aeg mineviku andmeid tuleviku ennustamiseks, " ütleb ta. "Igal õhtul näitasid nad teleris medaliarvestust ja ma hakkasin mõtlema, kas me suudaksime seda ennustada."

Ehkki üksikute sportlaste esinemised võivad ettearvamatult varieeruda, võib tema sõnul olla riigi põhijoonte (näiteks riigi suurus, kliima ja rikkuse suurus) ja medalite arvu vahel, mille see tõenäoliselt koju viib, omavahel seotud üldine seos. Sellise lähenemisviisi korral ei saaks öelda, milline konkurent võib antud sündmuse võita, kuid piisavate andmete korral suudab see täpselt ennustada medalite koguarvu iga riigi kohta.

Algselt asusid ta koos oma vennaga tööle 2012. aasta Londoni mängude esialgse mudeli väljatöötamiseks. Alustuseks kogusid nad mitmesuguseid eri tüüpi andmekogumeid, mis käsitlevad kõiki riigi geograafiast ajaloo, religiooni, rikkuse ja poliitilise struktuurini. Seejärel kasutasid nad regressioonianalüüse ja muid andmete krigistamise meetodeid, et näha, millised muutujad olid olümpiamedalite ajalooliste andmetega kõige lähedasemad.

Nad leidsid, et suvemängude jaoks oli riigi sisemajanduse koguprodukti, rahvaarvu, laiuskraadi ja üldise majandusliku vabaduse (mõõdetuna muinsuskaitsefondi indeksi järgi) mudeli korrelatsioon kõige paremini iga riigi kahe eelneva suveolümpiamängude (2004 ja 2008). Kuid sel hetkel võis nende esialgne mudel ainult ennustada, millised riigid võidavad kaks või enam medalit, mitte aga medalite arvu ühe riigi kohta.

Nad otsustasid seda Sotši mängude jaoks täiustada, kuid ei saanud oma eelmisele mudelile tugineda, sest talvel edukad riigid erinevad suvest nii palju. Nende uus Sotši mudel tegeleb medalite arvu ennustamise probleemiga kahes etapis. Kuna umbes 90 protsenti riikidest pole kunagi võitnud ühtegi taliolümpia medalit (ükski Lähis-Ida, Lõuna-Ameerika, Aafrika ega Kariibi mere sportlane pole kunagi võitnud), eraldab see kõigepealt kümme protsenti, kes tõenäoliselt võidavad vähemalt ühe, siis ennustab, kui palju igaüks võidab.

"Mõned suundumused on üsna suured, mida võite oodata - kui riigi elanikkond suureneb, on tõenäosus, et see võidab medali, " ütleb Tim. "Lõpuks vajate siiski mõnda võimsamat statistilist mehhanismi, mis suudaks läbi viia palju muutujaid ja järjestada need selle järgi, mis on kõige ennustatavam."

Lõpuks jõudsid nad mõningate muutujateni, mis eraldavad täpselt üheksakümmend protsenti medaleid mittesaavatest riikidest kümnest protsendist, mis tõenäoliselt võidavad: nende hulka kuulus rände määr, arstide arv elaniku kohta, laiuskraad, sisemajanduse kogutoodang ja kas riigis oli võitis eelmistel suvemängudel medali (mitte ükski riik ei olnud kunagi varem talvemedalit võitnud, eelmisel suvel ühtki võita ei saanud, osaliselt seetõttu, et suvevõitjate kogum on niivõrd palju suurem kui talvine). Jättes seda mudelit kahel eelmisel taliolümpiamängul, määras see mudel, millised riigid viisid medali 96, 5-protsendise täpsusega koju.

Kuna 90 protsenti riikidest kaotati, kasutas Graettingers sarnast regressioonanalüüsi, et luua mudel, mis ennustas tagasiulatuvalt, kui palju medaleid iga ülejäänud riik võitis. Nende analüüs leidis, et pisut erinev muutujate loetelu sobib kõige paremini ajalooliste medaliandmetega. Need muutujad koos Sotši mängude ennustustega on allpool:

Pilt 4 - ennustatud medalitabel 2 - piiridega.png Mudeli ennustused Sotši mängudele (Graafik viisakalt Discovery Corps, Inc.)

Mõned muutujad, mis osutusid korrelatiivseteks, pole suur šokk - on mõistlik, et suurema laiuskraadiga riigid teevad paremini talimängude ajal mängitud üritusi, kuid mõned olid üllatavamad.

"Arvasime, et oluline on rahvaarv, mitte maa-ala, " ütleb Dan. Nad pole kindlad, miks geograafiline piirkond sobib ajalooliste andmetega täpsemalt, kuid see võib juhtuda seetõttu, et mõned suure rahvaarvuga riigid, kes ei võida talvemedaleid (näiteks India ja Brasiilia), viskavad andmed minema. Selle asemel, et kasutada maa-ala, väldib mudel nende riikide liiga suurt mõju, kuid hoiab siiski tihedat seost elanikkonnaga, kuna üldiselt on suurema pindalaga riikides rahvaarv suurem.

Muidugi ei ole mudel täiuslik, isegi ajalooliste andmete sobitamisel. "Meie lähenemisviis on 30 000-suu lähenemine. On muutujaid, mida me ei saa arvesse võtta, " ütleb Tim. Mõned riigid on mudeli ennustusi korduvalt ületanud (sealhulgas Lõuna-Korea, kes võidab ebaproportsionaalselt palju lühiraja kiiruisutamise üritusi), samas kui teised püsivad pidevalt ebaõnnestunumatena (näiteks Ühendkuningriik, mis näib eeldatavate suvesündmuste korral olevat palju parem, võib-olla seetõttu, et - vaatamata laiuskraadidele - sajab palju rohkem vihma kui lund).

Lisaks on järjekindel erand, mille nad mudeli ennustuste põhjal on leidnud, et vastuvõtjariik kotib rohkem medaleid kui muidu, lihtsalt andmete põhjal. Nii Itaalia (2006. aasta Torino mängude ajal) kui ka Kanada (2010. aasta Vancouveri mängude ajal) edestasid mudelit paremini, Kanada püstitas kõigi aegade rekordi, võites 14 kulda.

Oma statistiliselt rangele lähenemisviisile tuginedes on graettingerid siiski kindlad, et üldiselt ennustab nende mudel lõplike medalite arvu suhteliselt suure täpsusega.

Kuidas võrrelda nende ennustusi tavapärasemaid strateegiaid kasutavate ekspertide ennustustega? Eksperdid ei erine dramaatiliselt, kuid neil on mõned traditsiooniliselt edukad riigid (Norra, Kanada, Venemaa), kes võidavad rohkem medaleid, kui ka mõned teised (Hiina, Holland, Austraalia), kes võidavad paar vähem.

Praeguseks pole Graettingers ennustuste osas ühtegi panust pannud, kuid nad plaanivad võrrelda oma mudeli väljundit panustamisvõimalustega vahetult enne mängude algust. Kui nad näevad mingeid lahknevusi, mida nad sooviksid ära kasutada, võivad nad viia oma raha sinna, kus suud on.

Kas statistiline mudel saab täpselt ennustada olümpiamedali loendamist?