
V kompleksnih okoljih lahko ljudje razumejo pomen govora bolje kot umetna inteligenca, saj ne uporabljamo le ušes, ampak tudi oči.
Na primer, vidimo, kako se nekomu premikajo usta, in morda intuitivno vemo, da zvok, ki ga slišimo, mora prihajati od te osebe.
Meta AI dela na novem sistemu dialoga z umetno inteligenco, ki naj bi umetno inteligenco naučil prepoznavati tudi subtilne povezave med tem, kar vidi in sliši v pogovoru.
VisualVoice se uči na podoben način kot se ljudje učijo obvladovati nove veščine, saj omogoča avdiovizualno ločevanje govora z učenjem vizualnih in slušnih znakov iz neoznačenih videoposnetkov.
Za stroje to ustvarja boljše zaznavanje, medtem ko se človeško zaznavanje izboljša.
Predstavljajte si, da bi se lahko udeleževali skupinskih srečanj v metaverzumu s kolegi z vsega sveta in se pridružili manjšim skupinskim srečanjem, ko se premikajo po virtualnem prostoru, med katerimi se zvočni odmevi in barve zvoka v prizoru prilagajajo glede na okolje.
To pomeni, da lahko hkrati pridobiva zvočne, video in besedilne informacije ter ima bogatejši model razumevanja okolja, kar uporabnikom omogoča »zelo vau« zvočno izkušnjo.
Čas objave: 20. julij 2022