https://frosthead.com

Miks ei suuda Google'i gripitrendid grippi jälgida (veel)

2008. aastal kuulutas Google välja intrigeeriva uue teenuse Google Flu Trends. Ettevõtte insenerid olid märganud, et teatud otsingupäringud (näiteks need, mis sisaldavad sõnu "palavik" või köha ") paistsid silma igal gripihooajal. Nende idee oli kasutada nende otsingute sagedust, et arvutada üleriigiline gripi esinemissagedus kiiremini, kui võiks olla. tehakse tavapäraste andmetega (mille kogumine ja analüüs võtab tavaliselt paar nädalat), andes inimestele teada, millal tuleb viiruse leviku vältimiseks võtta täiendavaid ettevaatusabinõusid.

Seotud sisu

  • Kuidas saaks ilmamudelid ja Google aidata gripihooaega prognoosida?
  • Suured andmed või liiga palju teavet?

Meediaväljaanded (sealhulgas see reporter) tormasid Google'i õnnitlema suurandmete sellise mõistliku, uuendusliku ja häiriva kasutamise korral. Ainus probleem? Google'i gripitrendid pole eriti hästi esinenud.

Teenus on gripi esinemissagedust järjepidevalt ületanud, võrreldes CDC poolt hiljem kogutud tavapäraste andmetega, hinnates gripi esinemissageduse kõrgemaks kui see oli tegelikult 100-st 108-st nädalast 2011. aasta augustist kuni septembrini 2013. Jaanuaris 2013, kui riik gripitase oli haripunktil, kuid Google'i gripitrendide hinnang oli tegelikest andmetest kaks korda kõrgem, selle ebatäpsus hakkas lõpuks ajakirjandust kajastama.

Lahknevuse kõige levinum põhjus on see, et Google ei ole arvestanud igal talvel tekkiva meediumipõhise gripihüsteeria tagajärjel tekkivate gripipäringutega seotud grippi. Kuid sel nädalal ajakirjas Science pakub David Lazeri juhitud ühiskonnateadlaste rühm alternatiivse seletuse: süüdi on Google'i enda otsingu algoritmi kohandused.

Kõrvalseisjatel on Google'i gripitrendide analüüsimine ilmselt raske, sest ettevõte ei avalikusta konkreetseid otsingutermineid, mida ta töötlemata andmetena kasutab, ega konkreetset algoritmi, mida ta kasutab nende terminite sageduse muutmiseks gripi hinnanguteks. Kuid teadlased andsid endast parima, et tingimusi järeldada, kasutades teenust Google Correlate - teenus, mis võimaldab teil vaadata konkreetsete otsinguterminite määra aja jooksul.

Kui teadlased tegid seda viimase paari aasta jooksul mitmesuguste gripiga seotud päringute jaoks, leidsid nad, et paar võtmeotsingut (gripiravi ja need, kes küsisid, kuidas grippi külmetusest eristada) jälgisid Google Flu'd tihedamalt. Trendide hinnangud kui tegeliku gripi esinemissageduse korral, eriti kui Google hindas haiguse levimust üle. Need konkreetsed otsingud, näib, võivad olla tohutu osa ebatäpsuse probleemist.

On veel üks hea põhjus kahtlustada, et see võib nii olla. 2011. aastal hakkas Google ühe oma tavapärase otsingu algoritmi muudatuste osana soovitama seotud päringutermineid paljude päringute jaoks (sealhulgas loetlema gripiravi otsingute otsing pärast seda, kui keegi tegi Google'is paljusid gripiga seotud termineid) ja 2012. aastal hakkas ettevõte pakkuma potentsiaalseid diagnoose vastusena otsingus esinevatele sümptomitele (sealhulgas nii gripi kui ka külma ilmnemine pärast otsingut, mis sisaldas näiteks fraasi "kurguvalu", ehk ajendades kasutajat otsima, kuidas neid kahte eristada). Teadlaste väitel tõstsid need parandused kunstlikult üles otsingute määra, mille nad pidasid vastutavaks Google'i ülehindamise eest.

Muidugi, kui see hüpotees vastaks tõele, ei tähendaks see, et Google Flu Trends on paratamatult ebatäpsusele hukule määratud, vaid seda tuleb värskendada, et võtta arvesse otsimootori pidevaid muutusi. Kuid Lazer ja teised otsijad väidavad, et gripi jälgimine suurtest andmetest on eriti keeruline probleem.

Selgub, et tohutu osa otsinguterminitest, mis korreleeruvad CDC andmetega gripi esinemissageduse kohta, ei ole grippi haigestunud, vaid kolmas tegur, mis mõjutab nii otsimisharjumusi kui ka gripi levikut: talv. Tegelikult teatasid Google Flu Trendsi arendajad teatud spetsiifiliste terminite - näiteks keskkooli korvpalliga seotud terminite - kohanemisest, mis olid aja jooksul korduvalt seotud gripi esinemissagedusega, kuid millel polnud selgelt mingit pistmist viirusega.

Aja jooksul eemaldasid Google'i insenerid käsitsi palju termineid, mis korreleeruvad gripiotsingutega, kuid millel pole gripiga mingit pistmist, kuid nende mudel sõltus selgelt endiselt gripivälistest hooajalistest otsingutrendidest - see on üks põhjus, miks Google gripitrendid ei suutnud kajastada 2009. aasta H1N1 epideemia, mis juhtus suvel. Eriti oma varasemates versioonides oli Google Flu Trends "osaliselt gripidetektor, osaliselt talvine detektor", kirjutavad Science paberi autorid.

Kuid see kõik võib olla pigem õppetöö suurandmete kasutamisel sellistes projektides nagu Google Flu Trends, mitte aga üldine süüdistus selles, väidavad teadlased. Kui seda värskendatakse õigesti, et võtta arvesse Google'i enda algoritmi muudatusi, ja seda oleks rangelt analüüsitud puhtalt hooajaliste tegurite eemaldamiseks, võib see olla kasulik üleriigilise gripi esinemissageduse dokumenteerimisel - eriti kui see on ühendatud tavapäraste andmetega.

Testina lõid teadlased mudeli, mis ühendas Google Flu Trendsi andmed (mis on sisuliselt reaalajas, kuid võib-olla ebatäpsed) kahenädalase CDC-andmetega (mis on dateeritud, kuna selle kogumine võtab aega, kuid võiks siiski olla mõnevõrra viitab praegusele gripi määrale). Nende hübriid vastas tegelikele ja praegustele gripiandmetele palju tihedamalt kui ainult Google Flu Trends ja esitasid võimaluse selle teabe saamiseks palju kiiremini kui tavapäraste andmete ootamine kaks nädalat.

"Meie Google Flu analüüs näitab, et parimad tulemused saadakse mõlemast allikast pärit teabe ja tehnikate ühendamisel, " ütles Houstoni ülikooli politoloogiaprofessor ja kaasautor Ryan Kennedy pressiteates. "Selle asemel, et rääkida" suurandmete revolutsioonist ", peaksime arutama" kõigi andmete revolutsiooni "."

Miks ei suuda Google'i gripitrendid grippi jälgida (veel)