domenica 19 agosto 2018

Lo Smart Speaker Di Google Riconosce Le Voci Delle Persone

Una funziona abbastanza rivoluzionaria del 2018 è lo Smart Speaker Google Home che è in grado di riconoscere fino a sei voci diverse (in mezzo alla folla), in modo da fornire a ognuno informazioni personalizzate.
Il processo di configurazione è molto semplice: basta connettere più account al dispositivo e poi pronunciare più volte “Ok Google” oppure “Hey Google”.
L’aggiornamento riguarda al momento solo gli USA e il Regno Unito, gli unici due territori nei quali attualmente è possibile acquistare Home.
In seguito all’installazione, ognuno potrà chiedere ad esempio informazioni a proposito degli impegni fissati per la propria giornata, ottenendo una replica puntuale e basata sulle informazioni personali.
Il segreto risiede negli algoritmi di riconoscimento vocale impiegati da Google, capaci di distinguere tra una voce e l’altra, analizzando la forma d’onda del segnale audio (frequenza) alla ricerca di pattern che identifichino i diversi utenti.
Ad esempio se è stata effettuata la prenotazione di un viaggio ed è giunta l’ora di mettersi in auto per raggiungere l’aeroporto, lo speaker avviserà l’utente con un messaggio audio, in modo simile a quanto avviene da tempo con le schede di Google Now e dell’Assistente Google, senza attendere di dover essere interpellato.
Il metodo di Google utilizza un modello audio-visivo ed è incentrato sull’isolamento delle voci nei video.
La tecnologia osserva i movimenti della bocca di una persona per identificare meglio le voci su cui concentrarsi in un dato punto e per creare tracce vocali individuali più accurate.
I ricercatori hanno sviluppato questo modello raccogliendo 100 mila video di “conferenze e discorsi” su YouTube, estraendo quasi 2 mila ore di segmenti da quei video con un discorso senza ostacoli, quindi mixando quell’audio per creare un “Synthetic Cocktail Party” con rumore di sottofondo artificiale aggiunto.
Il sistema è in grado di selezionare quale sorgente audio appartiene a quale faccia in un determinato momento e creare tracce vocali separate per ciascun altoparlante.

Nessun commento:

Posta un commento