KUIDAS TEHISINTELLEKT VÕIKS MUUTA ARHIIVIMUUSEUMI UURINGUID REVOLUTSIOONIKS | SEPIKOJA JUURES | SMITHSONIAN - ARTIKLID, SMITHSONIAN, SMITHSONIAN UUS UURIMISTÖÖ, INNOVATSIOON, TEADUS

Kui mõelda tehisintellektile, ei ole botaanika valdkond tõenäoliselt teie arvates kõrgeim. Kui pildistate tipptasemel arvutusliku uurimistöö sätteid, ei pruugi sajandivanused muuseumid edetabelis olla. Ja ometi näitab äsja avaldatud artikkel ajakirjas Biodiversity Data Journal, et masinaõppe kõige põnevam ja pöörasem uuendus leiab aset mitte ühelgi teisel kui Washingtoni Rahvusliku Loodusmuuseumi Riiklikus Herbaariumis.

Paber, mis näitab, et digitaalsed närvivõrgud on võimelised eristama kaht sarnast taimeperekonda, mille täpsusaste on üle 90 protsendi, viitab teadlastele ja akadeemikutele igasuguste suupoolsete jootmisvõimaluste arendamiseks. Uuring tugineb tarkvaral, mis põhineb sügava õppimise algoritmidel, mis võimaldavad arvutiprogrammidel koguda kogemusi samamoodi nagu inimeste eksperdid, suurendades nende mängu iga kord, kui nad käivad. Varsti võimaldab see tehnoloogia võimaldada miljonite eraldiseisvate isendite võrdlevat analüüsi kõigist maailmarurkadest - see oleks väide, mis varem oleks nõudnud inimkonna tööta püsimist.

"See teadusuuringute suund näitab palju lubadusi, " ütleb Stanfordi professor Mark Algee-Hewitt, silmapaistev hääl digitaalse humanitaarteaduste liikumises ja teaduskonna abidirektor ülikooli ruumilise ja tekstilise analüüsi keskuses. "Need meetodid on võimelised andma meile tohutul hulgal teavet selle kohta, mida kogud sisaldavad, " ütleb ta ja "seda tehes muudavad need andmed kättesaadavaks."

Need uued leiud tuginevad Smithsoniani Instituudis aastatepikkusele tööle, et digiteerida süstemaatiliselt kogude akadeemiliseks ja üldsusele veebis kättesaadavaks tegemiseks ning kujutavad endast märkimisväärset interdistsiplinaarset mõttemaailma kohtumist: botaanikud, digiteerimise eksperdid ja andmeteadlased osalesid kõigi nende toomisel. tulemused ilmsiks.

Lugu algab 2015. aasta oktoobris, kui kaamera ja konveierilindi aparaadi paigaldamine loodusmuuseumi alla lihtsustas Smithsoniani botaanilise kollektsiooni digiteerimise jõupingutusi. Selle asemel, et oma hoidlas kõiki käsitsi skannitud lilli ja rohumaid skaneerida, võiksid töötajad nüüd järjekorda panna terveid proovimassiive, lasta vööl võlu kasutada ning need tagaotsast otsida ja uuesti kataloogida. Kolme inimese meeskond on turvavöö üle järelevalvet teinud alates selle debüütist ja nad läbivad igal aastal umbes 750 000 isendit. Varsti on Smithsoniani herbaariumi inventuur, viis miljonit isendit tugev, täielikult veebis.

Igal isendil on põhjalik isikutunnistus, mis sisaldab teavet nii selle päritolu kui ka oluliste statistiliste andmete kohta. Nende kaartide sisu on transkribeeritud ja üles laaditud koos digitaalsete piltidega, pakkudes iga kollektsiooni eset terviklik ülevaade neile, kes kalduvad otsima.

Smithsoniani digiteeritud botaanilises arhiivis on isendite kõrge eraldusvõimega pildid ühendatud neile kinnitatud käepäraste ID-siltide transkriptsioonidega. (Riiklik loodusmuuseum)

"See teeb meie kollektsiooni kättesaadavaks kõigile, kellel on arvuti ja Interneti-ühendus, " ütleb muuseumi botaanika juhataja Laurence Dorr, "mis sobib suurepäraselt teatud küsimustele vastamiseks." Isegi nii leidis Dorr, et ta ei suutnud kasutamata potentsiaali tunnet raputada. . Muidugi oli veebikogukonnale nüüd saadaval tohutul hulgal näidisandmeid, kuid selle koondandmete analüüsimine jäi väljamõeldud. Konkreetsete isendite ja väikeste isendikategooriate otsimine oli piisavalt lihtne, kuid Dorr mõtles, kas on olemas võimalus andmete kogumiseks tuhandete isendite kohta järelduste tegemiseks. “Mida saate nende andmetega teha?” Meenutab ta imestunult. Adam Metallo-nimeline mees esitas peagi kaaluka vastuse.

Metallo, Smithsoniani digiteerimisprogrammi büroo ametnik, osales konverentsil, kus tehnoloogiahiiglane NVIDIA - kõikjal arvutimängurite kallim - tutvustas järgmise põlvkonna graafikatöötlusüksusi ehk GPU-sid. Metallo otsis seal võimalusi Smithsoniani 3D-digitaalse renderdamise võimaluste parendamiseks, kuid see oli suuresti sõltumatu teabe tükike, mis tema tähelepanu köitis ja tema külge kinni jäi. Lisaks dünaamiliste ja ülitäpsete 3D-visuaalide loomisele öeldi, et NVIDIA GPU-d sobivad hästi ka suurandmete analüüsiks. Eelkõige kiirendatud GPU-d olid just intensiivse digitaalse mustri äratundmiseks vajalikud; paljud masinõppe algoritmid olid NVIDIA platvormi jaoks optimeeritud.

Metallo oli hetkega intrigeeritud. See „süvaõppe” tehnoloogia, mida juba kasutatakse nišisektorites nagu isesõitvate autode arendamine ja meditsiiniline radioloogia, omas muuseumide maailmas suurt potentsiaali - mis, nagu Metallo märgib, on „suurim ja vanim andmekogu, millele meil nüüd juurdepääs on kuni. ”

„Mida see tähendab suurte andmestike jaoks, mille me digitaliseerimise teel Smithsoniani juures loome?” Soovis Metallo teada. Tema küsimus peegeldas suurepäraselt Laurence Dorri küsimust ja kui need kaks olid ühendatud, hakkasid sädemed lendama. “Botaanikakollektsioon oli üks suuremaid kollektsioone, kus me viimati töötanud oleme, ” mäletab Metallo. Koostöö soovitas iseennast.

Kui paljud masinõppe vormid nõuavad, et teadlased märgistaksid analüüsitavatel piltidel peamised matemaatilised markerid - see on vaevarikas protsess, mis võrdub arvuti käes hoidmisega -, saavad tänapäevased süvaõppe algoritmid õpetada endale, milliseid markereid töölt otsida, säästes aeg ja ukse avamine suuremahulisteks päringuteks. Sellegipoolest oli Smithsoniani-spetsiifilise süvaõppeprogrammi kirjutamine ja selle kalibreerimine diskreetsete botaaniliste uuringute küsimuste jaoks keeruline äri - Dorr ja Metallo vajasid andmeteadlaste abi, et nende nägemus reaalsuseks muuta.

Andmeteadlased koostavad närvivõrgu jaoks koolituse eksemplare Paul Frandseni mäletamise ajal

Andmeteadlased koostavad närvivõrgu jaoks koolituse eksemplare, mida Paul Frandsen mäletab kui "külma jaanuari päeva". (Riiklik loodusmuuseum)

Üks nende pardale toodud spetsialiste oli Smithsoniani uurimisandmete teadlane Paul Frandsen, kes tunnistas kohe NVIDIA GPU-toitelise närvivõrgu loomisel olevat potentsiaali botaanikakollektsiooni kandmiseks. Frandseni jaoks sümboliseeris see projekt olulist esimest sammu mööda imelist ja uurimata teed. Varsti ütleb ta: „hakkame otsima morfoloogilisi mustreid globaalses mastaabis ja saame vastata neile tõesti suurtele küsimustele, mis traditsiooniliselt oleks võtnud tuhandeid või miljoneid inimtunde kirjanduse ja asjade klassifitseerimine. Me saame algoritme kasutada nende mustrite leidmiseks ja maailma tundmaõppimiseks. ”

Äsja avaldatud leiud on kontseptsiooni silmatorkav tõestus. Uuringu botaanik Eric Schuettpelzi ning andmeteadlaste Paul Frandseni ja Rebecca Dikow juhitud üheksast meeskonnast koosneva uuringu eesmärk on vastata kahele laiaulatuslikule masinõppe ja herbaariumi küsimusele. Esimene on see, kui tõhusalt saab väljaõppinud närvivõrk elavhõbedaga värvitud proovide sorteerimata jääkidest sorteerida. Teine, paberi esiletõstmine, on see, kui tõhus võib selline võrk olla kahe pealiskaudselt sarnase taimeperekonna - nimelt sõnajalaliikide perekondade Lycopodiaceae ja Selaginellaceae - liikmete eristamisel.

Esimene katsetus nõudis, et meeskond läbiks eelnevalt tuhanded isendid, märkides lõplikult, millised neist on nähtavalt elavhõbedaga saastunud (aegunud botaanilise säilitamise tehnika järele). Nad tahtsid olla kindlad, et nad teavad 100-protsendilise kindlusega, mis on peitsitud ja mis mitte - muidu pole programmi täpsuse hindamine võimalik. Meeskond valis kirssidest ligi 8000 pilti puhast proovi ja veel 8000 värvitud proovi, millega arvutit treenida ja testida. Selleks ajaks, kui nad olid närvivõrgu parameetrite täpsustamise lõpetanud ja igasuguse inimese abistamise ära võtnud, liigitas algoritm 90-protsendilise täpsusega eksemplare, mida ta polnud kunagi varem näinud. Kui visati välja kõige kahemõttelisemad isendid - nt need, mille värvumine oli minimaalne ja / või väga nõrk -, tõusis see arv 94 protsendini.

See tulemus tähendab, et süvaõppe tarkvara võib peagi aidata botaanikutel ja teistel teadlastel vältida tüütute sorteerimisülesannete jaoks aja raiskamist. "Probleem pole selles, et inimene ei suuda kindlaks teha, kas isend on elavhõbedaga värvitud või mitte, " selgitab Metallo, vaid pigem: "saastumise olemasolu on keeruline käsitsi läbi sorteerida ja välja selgitada, " ja see pole mõistlik. tehke seda ajahalduse seisukohast. Õnneks võib masinõpe muuta peamise ajavabaduse mõne päeva automaatseks kiireks analüüsiks.

Proovide ühekaupa pesemine nõuab palju energiat ja raskendab suuremahuliste järelduste tegemist. Nüüd pakub suurandmete analüüs muuseumidele uusi võimalusi oma kogudele lähenemiseks. (Arnoldi arboreetum)

Uuringu liigiline diskrimineerimine on veelgi põnevam. Teadlased koolitasid ja testisid närvivõrku umbes 9300 klubmossi ja 9 100 spikemossiprooviga. Nagu värvimiskatse puhul, kasutati esialgseks kalibreerimiseks umbes 70 protsenti neist proovidest, 20 protsenti täpsustamiseks ja viimast 10 protsenti täpsuse ametlikuks hindamiseks. Kui kood oli optimeeritud, oli arvuti edukus kahe perekonna eristamisel 96 protsenti - ja kõige keerukamate proovide tegemata jätmise korral - peaaegu täiuslik 99 protsenti.

Ühel päeval spekuleerib Frandsen, nagu näiteks saaksid sellised programmid käsitleda proovide esialgset kategoriseerimist muuseumides kogu maailmas. "Ma ei usu, et need algoritmid teeksid kuraatorite asendamiseks midagi, " lisab ta kiiresti, "aga arvan, et need aitavad kuraatoritel ja süstemaatikas osalenud inimestel olla produktiivsemad, et nad saaksid oma tööga palju ära teha. kiiremini."

Neuraalvõrgu edu selles uuringus sillutab teed ka teaduslike hüpoteeside kiireks testimiseks massiliste kogude kaudu. Dorr näeb meeskonna leiudes võimalust viia läbi digitaliseeritud proovide ulatuslik morfoloogiline võrdlus - võrdlus, mis võib viia oluliste teaduslike läbimurrani.

See ei tähenda, et sügav õppimine on teadustöö üldine hõbe. Stanfordi Mark Algee-Hewitt juhib tähelepanu sellele, et pärast seda, kui see on konditsioneeritud, on peaaegu võimatu rekonstrueerida, miks ja kuidas närvivõrk oma otsuseid teeb; arvutiprogrammidele jäetud otsused peaksid alati olema lihtsad ja kontrollitavad, et neid usaldada.

"Ilmselt, " ütleb Dorr, autonoomse arvutiprogrammi "ei kavatse testida geneetilisi suhteid, selliseid asju" - vähemalt lähitulevikus. „Kuid võime hakata tundma tunnuste jaotust geograafiliste piirkondade või taksonoomiliste üksuste kaupa. Ja see saab olema tõesti võimas. ”

Rohkem kui midagi muud, on see uurimistöö hüppepunkt. Nüüd on selge, et süvaõppe tehnoloogia on teadlaste ja teiste teadlaste jaoks kogu maailmas, aga ka uudishimuliku üldsuse jaoks, kelle jaoks nad teadmisi loovad, suuri lubadusi. Jääb vaid range järeltöö.

"See on väike samm, " ütleb Frandsen, "kuid see annab meile tõesti teada, et need tehnikad võivad töötada ka digiteeritud muuseumi eksemplaride peal. Ootame põnevusega järgmise paari kuu jooksul veel mitme projekti loomist, et proovida selle piire natuke veel proovile panna. ”