DNA-testide arvu tõus selliste teenuste nagu 23andme kaudu näitab, et perekonna ajaloo jaoks on seal suur turg.
Nüüd on teadlased tuginenud nendele andmetele, avaldades nende arvates maailma suurima sugupuu andmebaasi, mille sugupuu on seotud 13 miljoni inimesega ja ulatub enam kui viie sajandi taha.
Nagu kirjutab Jocelyn Kaiser ajakirjale Science, mõtles Columbia ülikooli arvutusgeneetik Yaniv Erlich projekti välja seitse aastat tagasi pärast seda, kui sai Geni.comi kaudu e-kirja kaugelt sugulasnõult, mis on üks paljudest saitidest, kus peresidemeid otsida.
Gemi.com tehnoloogiajuhi toel laadis Erlich alla saidi avalikud profiilid - neist kümneid miljoneid. Ehkki see ei pakkunud DNA-andmeid, sisaldas teave inimese nime, sugu, sünniaega ja -kohta, surmakuupäeva ja lähisugulasi.
Loodus kirjutas Erlichi projektist selle varases staadiumis juba 2013. aastal ja eelmisel aastal teatas Atlandi ookeani päritolu Sarah Zhang, et teadlased lasid välja massiivse puu eeltrüki. Nüüd kirjutab Kaiser, Erlichi meeskond on avaldanud ajakirjas Science nende töö kohta uuringu. Andmeid kasutades moodustasid nad 5, 3 miljonit puud, millest suurim ühendab umbes 13 miljonit sugulast, peamiselt Euroopa päritolu.
Alates projekti käivitamisest on Erlichist saanud Geni.com-i omava genealoogia- ja DNA-testimisettevõtte MyHeritage teaduse peaspetsialist. Eelmisel reedel tegi ta Redditi küsimust minult, mis puudutab tema leide, parandades väärarusaamu ja selgitades projekti taga olevat metoodikat. Samuti märkis ta, et tema jaoks oli kogemuse kõige huvitavam osa nuputamine, kuidas tõlkida kõik olemasolevad andmed millekski isiklikuks.
Intervjuus National Geographicu Nicole Wetsmanile ütles Erlich, et projekti kõige keerukam osa oli ka nende andmetega töötamise nuputamine. „Genoomilistel andmekogumitel on konkreetsed tööriistad, andmestruktuurid, meetodid, kuid meil polnud selleks ühtegi. Leiutasime ratta nii, nagu läksime, "räägib ta.
Lõppkokkuvõttes kasutasid teadlased teabe korrastamiseks ja kontrollimiseks matemaatilist graafiteooriat, teatas Laura Geggel ajakirjale Live Science . Samuti võrdlesid nad profiile 25-aastase perioodi jooksul umbes 80 000 Vermonti avalikult kättesaadava surmatunnistusega, et veenduda, et tegemist pole ainult Geni.com-i üles laaditud jõukate profiilidega.
Seejärel otsustas meeskond, millist teavet nad andmebaasi testimiseks otsida soovivad, kirjutab Wetsman.
Nad hakkasid uurima mustreid ja leidsid eluea kõikumisi, mida nad olid juba ette näinud. Näiteks nägid nad noormeeste langust kodusõja ning I ja II maailmasõja ajal ja lapsepõlve ellujäämise tõusu 1900. aastatel. Samuti suutsid nad jälgida rännet, näiteks Mayfloweri saabumine 1620. aastal praegusesse Massachusettsi, millele järgnes sündide arvu suurenemine selles piirkonnas.
Teadlased leidsid ka, et pikaealisus on rohkem seotud keskkonna ja käitumisega kui geneetika; Tegelikult on andmetest selgus, et geenid moodustavad eluea vaid 16 protsenti. Bostoni ülikooli rahvatervise kooli biostatistika professor Paola Sebastiani hoiatab siiski Wetsmaniga antud intervjuus nende andmete põhjal järeldusi tegemast. "Pikaealisuse määratlustes on palju segadust, " ütleb ta.
Austraalias Brisbane'is asuva Queenslandi ülikooli geneetik Peter Visscher ütleb Kaiserile, et Erlichi meeskonna poolt täidetud andmed võimaldavad anda ülevaate haiguste geneetika rollist, kui andmed on seotud terviseteabega.
Uurimisrühm on juba hakanud puu ühendama DNA.Landi teabega, mis tõrjub kokku DNA andmeid, mis võib tähendada, et peagi võib tulla veelgi suurem puu. Teadlased ennustavad, et kui andmebaas võiks ulatuda tagasi 65 põlvkonda, saavad nad puu lõpule viia.