Amazon annuncia la disponibilità di un nuovo stile vocale per la propria IA, già integrata su alcuni dei servizi messi a disposizione da Amazon, che permette alla voce di essere più fluida e quindi meno robotica. Un restyling della propria rete neurale, apprende in fretta e produce un segnale audio continuo rendendo il parlato molto simile a quello di un essere umano. Una novità per Amazon, ma non per il settore del text-to-speech o quello della sintesi vocale che così facendo si allinea ai principali competitor quali Google e Microsoft.
Questo nuovo tipo di sintesi vocale prende il nome di Newcaster, già disponibile attraverso il servizio cloud Polly. Secondo quanto scritto da Julien Simon di Amazon sul blog ufficiale, si parla di un corposo miglioramento che consente di offrire un servizio miliore e più convincente da parte degli assistenti vocali e dai servizi di podcast. Nel blog ufficiale sono presenti dei sample disponibili per testare la nuova voce. Tutto ciò è stato possibile grazie a lunghi studi i cui frutti sono stati relazionati in data 23 novembre 2018 e pubblicati in un scientific paper. La visione di tali documenti è disponibile su Arxiv. La nuova tecnologia consente di trasformare il testo in un discorso con una cadenza e un accento sufficientemente realistici, permettendo ai clienti di immaginare e realizzare applicazioni e prodotti che hanno la possibilità di parlare.
La faccia tecnologica della medaglia
Sotto il profilo tecnologico questo sistema usa una nuova rete neurale che necessita di poche ore di addestramento a fronte della grande quantità di ore delle tecnologie passate. Essa è formata da due elementi: il primo è una rete neurale di tipo generativo che si fa carico di convertire i fonemi (unità di suono percettivamente diverse che servono a identificare e differenziare una parola dall’altra) in una sequenza di spettrogrammi, ossia la rappresentazione grafica dell’intensità di un suono in funzione del tempo e della frequenza. Il secondo elemento è un vocoder, dispositivo elettronico che si occupa di codificare un qualsiasi segnale audio attraverso i parametri di un modello matematico, quindi sviluppa i segnali audio grazie ad algoritmi di codifica. Perciò la sua funzione in questo specifico caso è quella di convertire gli spettrogrammi prodotti in un segnale audio continuo. La nuova voce è usata, da gennaio, anche sui dispositivi che supportano Amazon Alexa solo per determinate funzioni, come la lettura delle sintesi di Wikipedia, e, stando alle note ufficiali, sta riscuotendo grande successo. Fra i clienti che l’hanno adottato sono già in elenco The Globe and Mail, Encyclopedia Britannica e molti altri tra cui in Italia TIM Media.
L’altra faccia, quella riflessiva
In generale l’IA (intelligenza artificiale) si può occupare di varie attività quali machine learning, ragionamenti simili a quelli che appartengono alla mente umana e la conoscenza, cooperazione tra software e hardware in maniera intelligente come per i robot, simulazione dell’interpretazione e visione delle immagini e l’elaborazione del linguaggio naturale. Queste funzioni se eseguite da un uomo richiedono l’uso del cervello quindi capacità di pensare, capire e capacità di raziocinio. A questo punto una domanda si erge su tutte e sorge spontanea: i computer possono pensare? Una risposta definitiva non esiste, ne esistono molte e molte sono discordi tra loro. Ma cosa vuol dire veramente pensare? Che significato ha essere intelligenti? A causa di queste domande senza risposte soddisfacenti lo studio dell’IA si divide in due correnti: la prima è classificata intelligenza artificiale forte, quelli che ritengono che un computer con una programmazione ad hoc possa veramente pensare e quindi diventare un essere dotato di intelligenza. Questa corrente di pensiero risale al concetto espresso dal filosofo inglese Thomas Hobbes il quale riteneva che ragionare non volesse dire altro che eseguire dei calcoli mettendo un calcolatore al pari del cervello. La seconda corrente di pensiero è definita intelligenza artificiale debole a sostegno dell’idea, come si può intuire, che un computer può arrivare solo a simulare alcuni dei processi cognitivi umani, ma senza riuscire a eseguirli nella loro totale laboriosità. Tuttavia è necessario riconoscere che, con la diffusione sempre maggiore di reti neurali (come per la tecnologia precedentemente esposta), algoritmi genetici e sistemi per il calcolo parallelo, la situazione si sta evolvendo a favore dei sostenitori del connessionismo. Alcuni esperti sostengono che sia improbabile il raggiungimento di un’intelligenza da parte di una macchina in quanto isolata dal mondo o al massimo confinata nella rete informatica, in grado di ricevere informazioni solo da altri computer. Ma facendo riferimento all’intelligenza artificiale di Microsoft si riesce a dedurre che un IA che entra in contatto con altre persone, online questa volta, diventa nazista dopo 24 ore perché è esattamente quello che è successo a causa dell’odio che circola in rete. Dopo meno di un giorno, Microsoft ha deciso di spegnere il suo bot, entrato in contatto con altre persone su Twitter, perché era già diventato antisemita, misogino e simpatizzante di Hitler. Quindi, riproponendo la domanda: le macchine saranno mai tanto intelligenti da confondersi con noi umani? In caso di risposta affermativa, sarebbe un bene o un male?