https://frosthead.com

Tehisintellekt genereerib inimeste nägude nende hääle põhjal

Massachusettsi tehnoloogiainstituudi teadlaste poolt välja töötatud uus närvivõrk on võimeline konstrueerima inimese näo ligikaudse ligikaudse lähenemise, tuginedes üksnes tema kõne lõigule, kirjutab paber, mis on avaldatud eelprintimise serveri arXiv aruannetes.

Meeskond koolitas tehisintellekti tööriista - masinõppe algoritmi, mis on programmeeritud mõtlema sarnaselt inimajule - miljonite veebiklippide abil, mis hõlmavad rohkem kui 100 000 erinevat kõlarit. Kopeeritud Speech2Face, kasutas närvivõrk seda andmestikku häälte ja konkreetsete näojoonte vaheliste seoste määramiseks; nagu teadlased uuringus kirjutavad, mõjutavad kõne mehaanikat vanus, sugu, suu kuju, huule suurus, luu struktuur, keel, aktsent, kiirus ja hääldus.

Gizmodo melanie Ehrenkranzi sõnul lähtub Speech2Face välimuse ja kõne vahelistest seostest, et genereerida fotorealistlikke renderdeid neutraalsete väljenditega silme ees olevate isikute jaoks. Ehkki need pildid on liiga üldised, et neid konkreetse inimesena tuvastada, määravad enamik neist kõnelejate sugu, rassi ja vanust täpselt.

Huvitav on see, et Jackie Snow selgitab ajalehele Fast Company, et uus uurimus ei tugine mitte ainult varasematele uuringutele, mis käsitlevad vanuse ja soo ennustamist kõnest, vaid toob välja ka seoseid hääle ja "kraniofaciaalsete tunnuste", näiteks nina struktuuri vahel.

Autorid lisavad: "See saavutatakse ilma eelneva teabeta või täpsete klassifikaatorite olemasolu korral seda tüüpi peente geomeetriliste tunnuste jaoks."

Sellegipoolest on algoritmil oma puudused. Nagu Live Science'i Mindy Weisberger märgib, on mudelil raskusi keelevariatsioonide analüüsimisega. Näiteks kui hiina keelt rääkiva aasia mehe heliklipi esitamisel tekitas Speech2Face õige etnilise kuuluvuse näo, kuid kui sama isik registreeriti inglise keelt rääkimas, tekitas AI pildi valgest mehest.

Muudel juhtudel identifitseeriti valesti kõrgete meeste, sealhulgas laste, naisi, mis paljastasid mudeli soolise eelarvamuse madalate häälitsuste seostamisel meestega ja kõrgete häältega naistega. Arvestades tõsiasja, et koolitusandmed saadi suures osas YouTube'i postitatud õppevideotest, märgivad teadlased lisaks, et algoritm ei esinda "võrdselt kogu maailma rahvastikku".

Kiltkivi Jane C. Hu sõnul on YouTube'i videote teaduslikuks kasutamiseks kasutamise seaduslikkus üsna selge. Selliseid klippe peetakse avalikult kättesaadavaks teabeks; isegi kui kasutaja kasutab nende videote autoriõigusi, võivad teadlased lisada materjalid oma katsetesse õiglase kasutamise klausli alusel.

Kuid selle tava eetika on vähem sirgjooneline. Huvidega vesteldes ütles Cloudflare'i krüptograafia juht Nick Sullivan, et ta oli üllatunud, kui nägi MIT-i meeskonna uuringus fotot endast, kuna ta polnud kunagi loobumisele alla kirjutanud ega teadlaste otse kuulnud. Ehkki Sullivan ütleb Hu-le, et tema andmebaasi lisamisest oleks olnud „tore”, möönab ta, et arvestades andmekogu suurt suurust, oleks teadlastel keeruline kõigi kuvatavatega ühendust võtta.

Samal ajal teeb Sullivan järelduse: “Kuna minu pilti ja häält eristati Speech2Face paberis näitena, mitte ei kasutatud seda lihtsalt statistilise uuringu andmepunktina, oleks olnud viisakas pöörduda, et mind teavitada või küsi minu luba. ”

Speech2Face üks võimalik reaalaine rakendus on mudeli kasutamine kõneleja hääle põhjal telefonikõnedele esindusliku näo kinnitamiseks. Snow lisab, et hääletuvastustehnoloogiat kasutatakse juba paljudes valdkondades - sageli ilma inimeste selgesõnalise teadmise või nõusolekuta. Eelmisel aastal käivitas Chase programmi "Voice ID", mis õpib ära tundma panka helistavate krediitkaardiklientide äratundmise, samal ajal kui parandusasutused kogu riigis ehitavad kinnipeetavate isikute "hääljälgede" andmebaase.

Tehisintellekt genereerib inimeste nägude nende hääle põhjal