Negli anni 70 è stata lanciata l’iconica campagna commerciale “Is it Live or is it Memorex®”, nella quale la “regina del jazz” Ella Fitzgerald cantando mandava in frantumi un bicchiere di vino. Ma la voce era preregistrata con un nastro Memorex o Ella cantava dal vivo? Questo dubbio lasciava intendere che la qualità dei nastri Memorex fosse così alta che nessuno avrebbe saputo distinguere l’originale da una registrazione.

Oggi, l’evolvere della tecnologia ha cambiato il modo in cui i marketer diffondono contenuti: il Text-to-Speech (TtS) o software di sintesi vocale (nel video marketing).

 

La storia dei software di sintesi vocale

I software di sintesi vocale o la riproduzione digitale della voce umana sono meno recenti di quanto ci si aspetterebbe. Infatti, già nel lontano 1780 il medico e fisico Christian Gottlieb Kratzenstein vinse il primo premio all’Accademia di San Pietroburgo per aver riprodotto la voce umana con un “organo vocale” che era in grado di produrre suoni simili alle vocali. Undici anni dopo, basandosi sul lavoro di Kratzenstein, l’autore ed inventore ungherese Wolfgang Von Kempelen aggiunse i suoni delle consonanti e creò una macchina parlante ad azione manuale.

Quasi duecento anni più tardi, nel 1961, gli scienziati John Larry Kelly Jr. e Louis Gerstman che lavoravano presso l’azienda di ricerca scientifica e sviluppo industriale Bell Labs, riuscirono a ricreare la canzone “Daisy Bell” con un software di sintesi vocale IBM 704, chiamato Vocoder (roland.co.uk). Da lì venne l’ispirazione ad Arthur C. Clarke che nel 2001 fece cantare la stessa canzone ad HAL 9000 in Odissea nello spazio.

Negli anni successivi, sono stati sviluppati innumerevoli modelli, tecniche e applicazioni di sintesi vocale, come ad esempio lo Speak and Spell, un piccolo computer portatile in grado di sillabare diverse parole, disponibile dal 1980.

Negli anni si è sempre cercato di riprodurre più o meno fedelmente la voce umana, come testimoniano anche numerosissimi libri e siti web. Se trovi interessante l’argomento, potrebbero esserti utili questi due articoli sui sintetizzatori vocali e sulla loro storia (explainthatstuff.com).

 

I software di sintesi vocale per rendere memorabile la customer experience

La strada per arrivare fin qui è stata lunga ed è giunta l’ora di apprezzare i traguardi raggiunti e sfruttarli al massimo. Dovrebbero farlo soprattutto i marketers di ogni settore per offrire una customer experience memorabile, generare risposte dai clienti e catturare il loro interesse.

Si rimarrebbe sorpresi nel sapere quante voci che quotidianamente ascoltiamo sugli smartphone, nei videogames e nei siti web non sono davvero umane. Oggi, i software di sintesi vocale sono sofisticati a tal punto da ricreare voci maschili e femminili con un’ampia selezione di fonemi, accenti differenti ed intonazioni, come riprodurre il tono di una domanda, aumentare il volume della voce per enfatizzare un concetto oppure fare una pausa ad effetto.

Meno sorprendente, invece, è che tale tecnologia sia stata largamente impiegata per migliorare le condizioni di vita di alcune persone diversamente abili che, grazie ai sintetizzatori vocali, possono facilmente comunicare, cercare assistenza dagli altri e rimanere in contatto con la società. Secondo un report di MarketsandMArkets, nel 2016 il mercato del text-to-speech è stato valutato 1,3 miliardi di USD e dovrebbe facilmente raggiungere i 3,03 miliardi di USD entro il 2022 (con un tasso di crescita annuo del 15,21% tra il 2017 ed il 2022).

Per coloro che operano nel marketing è ideale integrare i software di sintesi vocale con media dinamici e personalizzabili, ma il media con il più grande potenziale è quello che, fino ad ora, non lo è stato: i video. Quando sono ben realizzati, i video sono in grado di stimolare le nostre menti ed influenzare le nostre emozioni. Basti pensare ai film e alla loro capacità di rimanere impressi nella memoria quando sono realizzati con musica adatta, copioni eccellenti e recitazione all’altezza. Ora però, con l’arrivo dei video personalizzati insieme al TtS, l’esperienza è diventata più personale ed interessante.

Perché utilizzare il text-to-speech ed i video personalizzati

Il momento giusto per iniziare a creare e sviluppare video personalizzati con il TtS è adesso. Ecco perché:

  • La tecnologia ha ormai raggiunto livelli tali da riprodurre intonazioni, pause ed accenti praticamente identici alla voce umana;
  • Anche se tutti noi siamo abituati ad ascoltare voci digitali sui GPS o sugli smartphone, utilizzare il text-to-speech nei video è ancora innovativo e potrebbe aiutare a catturare l’attenzione dello spettatore e far sì che guardi il video fino alla fine;
  • Con una narrazione personalizzata composta da immagini e testo specifici per il cliente si ottiene una comunicazione più intima e diretta;
  • Il costo dei software di sintesi vocale è decisamente inferiore rispetto alla voce registrata, soprattutto se si desidera personalizzarla per ciascun ascoltatore;
  • Il TtS è semplice da implementare: basta utilizzare lo script ed aggiungere alcuni codici prima e dopo le parole;
  • Anche se molto sofisticato, il servizio TtS è ora disponibile all’acquisto. Così si potrà disporre di un servizio altamente efficiente, abilitato al cloud separatamente o come parte di un progetto di video personalizzato.

 

Un esempio di sintesi vocale implementato in un video personalizzato

Il comune di Ancona ha deciso di sfruttare le potenzialità dei Doxee Pvideo®, utilizzando un video personalizzato per la riscossione della TARI. Ogni cittadino residente nel comune di Ancona si è visto recapitare un video personalizzato nel quale una voce, realizzata con un software di sintesi vocale, indicava l’importo da pagare, possibili rate, eventuali arretrati ed altre informazioni. Alla fine del video, diverse call-to-action danno la possibilità di cambiare lo stato degli immobili, registrarsi per ricevere comunicazioni digitali o contattare il call-center. Questa campagna di comunicazione è risultata vincente pur essendo a basso costo. Per saperne di più, leggi il nostro articolo a riguardo.

I software di sintesi vocale sono ormai da tempo ampiamente utilizzati. Nel post di Elearning Industry, che nel 2017 ha redatto la top ten dei migliori software TtS, vediamo che al primo posto troviamo “Ivona”, appartenente al gruppo Amazon (elearningindustry.com). Oggi si chiama Amazon Polly ed è la tecnologia alla base di “Alexa”, la quale ti aiuterà a ricordarti di alzare il riscaldamento, accendere la caffettiera, avviare l’auto e tutto ciò che di solito fai nella vita!

Dietro a “Polly” c’è un’intelligenza artificiale molto interessante; è così possibile trovare dozzine di voci realistiche in molte lingue diverse che forniscono la flessibilità necessaria a creare applicazioni destinate a tutti i Paesi. Uno degli aspetti più decisivi per i TtS è la loro capacità di supportare lessici e tag SSML che consentono di controllare aspetti del parlato, come la pronuncia, il volume, l’altezza della voce, la velocità ecc…

La sintesi vocale nei video personalizzati

Perché ti stiamo parlando di Polly? Perché è un servizio efficace da utilizzare con i video personalizzati Doxee per creare una narrazione pertinente ed accattivante.

Immagina di cliccare su un video che ti ricorda di fermarti a fare rifornimento alla tua auto e sentirti dire, nella tua lingua: “Vogliamo ringraziare la famiglia Rossi per essere un nostro grande cliente dal 2016. Sappiamo che vuoi mantenere la tua Mercedes Classe C in perfette condizioni, quindi desideriamo invitarti al tuo giorno di valutazione del cliente, sabato 8 dicembre 2018. Per favore, vieni ad incontrare Marie e riceverai il set gratuito di tappetini nuovi. Per ulteriori informazioni, consulta il sito Web personale all’indirizzo MalibuMercedes.com/Roberts.”

Queste tipologie di narrazioni sono personali a tal punto da risultare estremamente memorabili, soprattutto grazie alla personalizzazione data dalla tipologia di auto e al nome della famiglia. Il risultato è una customer experience senza eguali.

Coloro che si occupano del marketing dovrebbero fare attenzione a questo nuovo trend ed implementare i software di sintesi vocale nelle campagne di video marketing. Se la tecnologia offre l’opportunità di raggiungere i clienti fornendo loro un’esperienza interattiva e memorabile, perché non approfittarne?