Koimano Logo
Aprile 17, 2018
Separare suoni e voci da una singola traccia audio

Condividi questo articolo con i tuoi amici

Separare suoni e voci da una singola traccia audio è ora possibile. Immaginate la scena, una folla di persone che parlano tra loro producendo un suono confuso, Oggi grazie ad una tecnologia sviluppata da Google sarà possibile separare ed ascoltare singolarmente ognuna di quelle voci presenti in quel frastuono. Una volta separata la traccia audio interessate, sara possibile manipolarla a piacere con un qualsiasi software di audio editing. Inutile dire che le implicazioni di tale tecnologia saranno moltissime, lecite e non. Immaginate poi cosa si potrebbe fare se uniamo questa idea alla tecnologia VoCo che ricrea vere e proprie finte conversazioni

Per un uomo non è difficile isolare la singola voce di un interlocutore in mezzo alla folla a meno che non soffra di misofonia, ma per un computer il compito può essere molto più arduo. La prova può essere fatta con uno smartphone, uno speaker o con un qualsiasi assistente digitale: se si parla in due o in tre il computer cattura il comando da ogni mittente, registrando richieste che probabilmente non hanno molto senso. I limiti attuali della tecnologia, tuttavia, possono essere superati e Google sta sviluppando un metodo.

Come separare suoni e voci da una singola traccia audio?

I ricercatori di Big G sono al lavoro su un sistema di machine learning che può recuperare le singole specifiche voci analizzando i movimenti facciali degli interlocutori durante la conversazione. Il team ha “allenato” le proprie reti neurali per riconoscere gli individui che parlano in un contesto visivo, e ha poi ricreato alcuni modelli relativi ai rumori di sottofondo in modo da insegnare all’intelligenza artificiale come isolare le voci, e suddividerle in diverse tracce audio totalmente separate.

La compagnia ha mostrato alcuni esempi all’interno di alcuni video “processati” con la nuova tecnologia, capace di generare singole tracce audio pulite anche quando due o più interlocutori cercano di sovrastare la voce degli altri. Il tutto semplicemente osservando il movimento delle singole persone e alcune azioni che compiono durante le riprese, in un modo non troppo diverso dal modo in cui opera il cervello umano.

Google sta attualmente “esplorando” delle modalità d’uso per la nuova tecnologia, ma ce ne sono alcune particolarmente logiche. Un metodo di riconoscimento così valido può essere di grande impatto su servizi di video-chat, come Hangouts e Duo, soprattutto quando l’interlocutore sta parlando in mezzo ad una folla o in una stanza sovraffollata. Inoltre, la tecnologia può essere usata ad esempio per il miglioramento della voce in una registrazione.

L’IA potrebbe inoltre essere d’aiuto per chi soffre di disabilità uditive, enfatizzando esclusivamente la traccia audio di chi parla sulla base delle scelte dell’utente. Ci sono, ovviamente, anche alcune implicazioni sulla privacy, con utenti malintenzionati che potrebbero utilizzare la tecnologia per intercettazioni di dialoghi che avvengono a distanza.

Nino Grasso

In un futuro non lontanissimo si potrebbe supporre la possibilità di comunicare in modo bidirezionale tra due individui immersi nella folla senza essere ascoltati dagli altri e soprattutto per gli interlocutori sarà possibile azzerare il frastuono ambientale grazie a tecnologie simili a Muzo e IndieGoGo.

 

Video di esempio su come google riesce a separare suoni e voci da una singola traccia audio