Speech2Face: Učenje obraza za glasom, nevronska mreža se iz glasov uči obraznih asociacij in na koncu lahko gradi slike iz glasovnih posnetkov. Podrobno deluje tako slabo, da ljudi niste mogli prepoznati, vendar algoritem glasovne posnetke izjemno dobro razvrsti glede na barvo kože, spol in starost.
Kitajska že uporablja prepoznavanje obrazov AI za preganjanje muslimanskih manjšin in je seveda začetnica uporabe obsežnih nadzornih ukrepov. Tak algoritem bi lahko kitajske oblasti identificiral Ujgure v telefonskem omrežju, tudi če uporabljajo naprave ali številke, ki jim ne pripadajo. Rekonstrukcija obrazov iz glasov se sprva sliši smešno, toda kategorizacija množic, ki jo podpira AI, z uporabo odrezkov digitalnih ID-jev (na primer glasu, fotografiji ali video posnetku ali slogu pisanja) kot se je že zgodilo) se vse bolj pojavlja kot tehnologija množičnega nadzora. Triki ne bi smeli skrivati dejstva, da imajo te tehnologije vse, kar potrebujejo za ustvarjanje distopije, ki jo Orwellov nadzor s strani resničnih ljudi izgleda kot otroški rojstni dan.
Koliko lahko na podlagi človekovega videza sklepamo o njegovem videzu? V tem prispevku preučujemo nalogo rekonstrukcije podobe obraza osebe iz kratkega zvočnega posnetka te osebe, ki govori. Za izvajanje te naloge oblikujemo in usposobimo globoko nevronsko mrežo, pri čemer uporabljamo milijone naravnih videoposnetkov ljudi, ki govorijo v internetu / YouTubu. Med treningom se naš model nauči korelacije med glasom in obrazom, ki mu omogoča ustvarjanje slik, ki zajemajo različne fizične lastnosti govorcev, kot so starost, spol in narodnost. To se naredi samonadzorovano z uporabo naravnega sočasnega pojavljanja obrazov in govora v internetnih videoposnetkih, ne da bi bilo treba eksplicitno modelirati atribute. Ocenjujemo in numerično kvantificiramo, kako - in na kakšen način - naše rekonstrukcije Speech2Face, pridobljene neposredno iz zvoka, spominjajo na prave slike obraza zvočnikov.