Obraz govora 2: Kako sestaviti obraze iz glasov

Speech2Face: Učenje obraza za glasom, nevronska mreža se iz glasov uči obraznih asociacij in na koncu lahko gradi slike iz glasovnih posnetkov. Podrobno deluje tako slabo, da ljudi niste mogli prepoznati, vendar algoritem glasovne posnetke izjemno dobro razvrsti glede na barvo kože, spol in starost.

Kitajska že uporablja prepoznavanje obrazov AI za preganjanje muslimanskih manjšin in je seveda začetnica uporabe obsežnih nadzornih ukrepov. Tak algoritem bi lahko kitajske oblasti identificiral Ujgure v telefonskem omrežju, tudi če uporabljajo naprave ali številke, ki jim ne pripadajo. Rekonstrukcija obrazov iz glasov se sprva sliši smešno, toda kategorizacija množic, ki jo podpira AI, z uporabo odrezkov digitalnih ID-jev (na primer glasu, fotografiji ali video posnetku ali slogu pisanja) kot se je že zgodilo) se vse bolj pojavlja kot tehnologija množičnega nadzora. Triki ne bi smeli skrivati dejstva, da imajo te tehnologije vse, kar potrebujejo za ustvarjanje distopije, ki jo Orwellov nadzor s strani resničnih ljudi izgleda kot otroški rojstni dan.

Koliko lahko na podlagi človekovega videza sklepamo o njegovem videzu? V tem prispevku preučujemo nalogo rekonstrukcije podobe obraza osebe iz kratkega zvočnega posnetka te osebe, ki govori. Za izvajanje te naloge oblikujemo in usposobimo globoko nevronsko mrežo, pri čemer uporabljamo milijone naravnih videoposnetkov ljudi, ki govorijo v internetu / YouTubu. Med treningom se naš model nauči korelacije med glasom in obrazom, ki mu omogoča ustvarjanje slik, ki zajemajo različne fizične lastnosti govorcev, kot so starost, spol in narodnost. To se naredi samonadzorovano z uporabo naravnega sočasnega pojavljanja obrazov in govora v internetnih videoposnetkih, ne da bi bilo treba eksplicitno modelirati atribute. Ocenjujemo in numerično kvantificiramo, kako - in na kakšen način - naše rekonstrukcije Speech2Face, pridobljene neposredno iz zvoka, spominjajo na prave slike obraza zvočnikov.

"Dravensove zgodbe iz kripte" že več kot 15 let navdušujejo z neokusno mešanico humorja, resnega novinarstva - za aktualne dogodke in neuravnoteženega poročanja v tiskovni politiki - in zombija, okrašenega z veliko umetnosti, zabave in punk rocka. Draven je svoj hobi spremenil v priljubljeno blagovno znamko, ki je ni mogoče uvrstiti.

Moj blog ni bil nikoli zasnovan za širjenje novic, kaj šele, da bi postal političen, toda glede na aktualne zadeve si preprosto ne morem pomagati, da ne bi tukaj zajemal informacij, ki so sicer cenzurirane na vseh drugih kanalih. Zavedam se, da se stran za oblikovanje marsikomu ne zdi "resna" v tem pogledu, vendar tega ne bom spreminjal, da bi ugodil "mainstreamu". Kdor je odprt za informacije, ki niso v skladu z državno zakonodajo, vidi vsebino in ne embalaže. V zadnjih 2 letih sem se dovolj trudil, da bi ljudem posredoval informacije, a sem hitro opazil, da nikoli ni pomembno, kako so "zapakirane", temveč kakšen je odnos druge osebe do njih. Nočem nikomur liti med v usta, da bi na kakršen koli način izpolnil pričakovanja, zato bom obdržal ta dizajn, ker upam, da bom na neki točki lahko prenehal s temi političnimi izjavami, ker ni moj cilj nadaljevati tako za vedno Vsakemu prepuščam, kako se bo s tem spopadel. Vabljeni, da kopirate in distribuirate vsebino, moj blog je bil vedno pod Licenca WTFPL.

Težko opišem, kaj pravzaprav počnem tukaj, DravensTales je v preteklih letih postal kulturni blog, glasbeni blog, šok blog, tehnološki blog, grozljiv blog, zabavni blog, blog o najdenih predmetih v spletu, o bizarnem internetu, blogu smeti, umetniškem blogu, grelniku vode, blogu zeitgeist , Odstrani blog in zagrabi torbo. Vse, kar je prav ... - pa vendar ne. Glavni poudarek bloga je sodobna umetnost v najširšem pomenu besede.

Za zagotovitev delovanja strani vabljeni na Donirajte s kreditno kartico, Paypal, Google Pay, Apple Pay ali direktno bremenitvijo/bančnim računom. Najlepša hvala vsem bralcem in podpornikom tega bloga!