https://frosthead.com

Suured andmed said lihtsalt suuremaks, kuna IBM-i Watson vastab elu entsüklopeediale

Pärast 2000 aastat on elu lõplik entsüklopeedia uue andmepõhise ajastu tipus. Riikliku teadusfondi toetus on välja antud elu entsüklopeediale (EOL), IBMile ja Georgia tehnoloogiainstituudile. Toetus võimaldab tohutul hulgal andmeid töödelda ja ristindekseerida viisil, mis võimaldab teha murrangulisi teadusi.

Seotud sisu

  • Kavandatud uus merereservide süsteem pakub nii homaari kui ka homaari kalurile Rosy Outlooki

Aastal 77 pKr hakkas vanem Plinius vanem kirjutama maailma esimest entsüklopeediat Loodusajalugu. See hõlmas kõike astronoomiast botaanikani zooloogiast antropoloogiani ja palju muud. Plinius üritas koondada ühte kirjalikku teosesse kõik, mida ta sai loodusmaailma kohta isiklikult koguda. Viimase 2000 aasta jooksul on Pliniusest inspireeritud teadlaste pikk järjestus järginud sama nägemust.

Plinius sisaldas 36 köites 20 000 teemat, kuid sattus piirangutesse, mida üks inimene suudab inimese eluea jooksul avastada, salvestada ja töödelda. Ta suri Vesuuvi purske ajal, enne kui ta suutis oma magnum opuse lõpliku redigeerimise lõpule viia. Isegi tema enda ajastul polnud ühel inimesel võimalik kõiki raamatuid lugeda, kõiki asju õppida ja kogu maailmale selgitada.

Nagu hilisemad teadlased, toimetajad ja raamatukoguhoidjad avastasid maailmast, mis lisab iga aastaga rohkem kirjalikke teadmisi, isegi kui saaksite kogu maailma raamatuid ja uurimistöid ühes hoones hoida, on kogu asjakohase teabe kättesaadavaks tegemine väljakutsele teadlased oma lühikese inimelu piiratuse ajal.

EOL võib-olla suudab seda muuta, rakendades nüüdisaegset arvutusvõimet bioloogiliste andmete erineva kogumise korral. Projekt on bioloogilise mitmekesisuse faktide, artiklite ja multimeedia tasuta ja avatud digitaalne kogu, mis on üks suurimaid maailmas. EOL, mille peakorter asub Smithsoniani instituudis ning koos 357 partneri ja sisuteenuse pakkujaga, sealhulgas Harvardi ülikool ja Egiptuse Aleksandria uus raamatukogu, on kasvanud 30 000 leheküljelt, kui see 2008. aastal käivitus, enam kui 2 miljonile, 1, 3 miljoni lehekülje teksti, kaartidega, video, heli ja fotod ning toetab 20 keelt.

“Tulin Smithsoniani juurde 2010. aastal tarkvaratööstusest, ” ütleb EOL direktor Bob Corrigan. „Üks avastustest, mille ma siia tulles tegin, on see, et kuigi IT on kõikjal, pole see muuseumimaailma tunginud samamoodi nagu ärimaailma. Eriti bioloogiasse on kõige olulisemad andmed maetud õpikutesse ja arvutustabelitesse. ”

Kuidas saab erinevates vormides sisalduvaid bioloogilisi andmeid kombineerida ja kaevandada, et saada uusi teadmisi Maa elust? Mis siis, kui näiteks Aafrika liblikate bioloogilise mitmekesisuse andmed kümne aasta jooksul ühendatakse põllumajandustavade ja sademete arvuga? Kas saaks midagi uut õppida? Selleks on vaja midagi suuremat kui inimese aju. Midagi sarnast IBMi Watsoni superarvutiga.

"IBM annab oma panuse ja juurdepääsu [Watsoni] versioonile, mis pole avalikult kättesaadav, " ütleb EOL programmidirektor Jennifer Hammock. “Neil on ka plaan, et inimesed töötaksid selle kallal. IBM teeb seda mitterahalise panusena. ”

Watson on superarvuti, mis ei purusta lihtsalt suuri numbreid. See kasutab tehisintellekti, et võimaldada kasutajatel esitada küsimusi lihtsas keeles.

"Ma ütleksin, et kasutaja seisukohast tähendab see, et andmebaas on midagi, kuhu saab minna ja esitada küsimusi, nagu oleksite inimesest, " ütleb Hammock. "Nagu, kas te oskate öelda, kas seda lillat liblikat leidub Aafrikas?"

"Mis tahes keeles lihtsale küsimusele vastamine eeldab, et kulisside taga on palju teadmisi, " ütleb Corrigan. “Isegi [sõna] lilla, eeldab see, et me teame, mis lilla on. Või liblikas, [arvuti] peab mõistma liblika ja koi erinevust. Lisaks on andmekogumitel endal nende erinevate mõistete jaoks erinev viis. Kõiki neid andmeid on olnud raske ilma Rosetta terminikivideta kaevandada. Ja see on osa EOLi võludest. ”

Üks teaduslik küsimus, mille EOL, IBM ja Georgia Tech partnerlus loodab lahendada, on planktoni paradoks.

Hammocki sõnul püüavad arvutisimulatsioonidega töötavad teadlased modelleerida ookeanis toimuvat öeldes, et päike paistab sisse ja vetikad kasvavad. . . sellel on umbkaudne ligikaudne lähenemisviis, kuid nad ei saa [ökosüsteemi arvutimudelit] stabiilseks. Nad lähevad mõneks ajaks minema ja siis nad jooksevad kokku. Sest need on liiga lihtsad. Nad loodavad, et kui nad suudavad oma modelleeritud biosfääris näidata pisut rohkem mitmekesisust, muutuvad nad stabiilsemaks. . . .paradoks on: kuidas ookeani biosfäär eksisteerib? Miks see ei jookse kokku? ”

"Inimesed istuvad andmete peal, " ütleb Corrigan. „Kogu planeedil on uskumatuid bioloogilise mitmekesisuse mõõtmise reservuaare. Saan palju telefonikõnesid inimestelt, kes selle teabe peal istuvad ja soovivad abi selle laiemasse konteksti seadmisel. See on oluline, kuna meil on võistlus seda planeeti uurida ja õppida, kuidas meie areng rõhutab meie väga piiratud ressursse. . . Smithsonian võib mängida rolli kõigi nende allikate teadmiste suurendamisel ja olla tõeline jõud selle levitamiseks. ”

Neljandik miljoni dollari suurusest toetusest antakse Smithsonianile tema osa töö eest, kuid EOL hõlmab palju teisi mängijaid. Mõned arendajad asuvad Egiptuses; haridusrühm asub Harvardist; ja hispaania keele üksus asub Mehhikos.

Kõik EOL-i andmed jäävad kas avalikku omandisse või Creative Commonsi litsentsi alusel. Uuringud ja andmed on mõeldud olema avalikult juurdepääsetavad ja mitte peidetud tasulise seina taha.

"See on väga vana unistus, " ütleb Hammock. “Tõenäoliselt ei suuda üks inimene seda kõike õppida. Raske on panna kõik ühte kohta, kus seda saab teadlikult iseendaga kontrollida. Kuid nüüd on meil arvutid. ”

Plinius oleks kas väga rahul või väga armukade.

Suured andmed said lihtsalt suuremaks, kuna IBM-i Watson vastab elu entsüklopeediale