Un’azienda statunitense Hume AI, ha prodotto “EVI” acronimo di “Empathic Voice Interface”, un’applicazione “vocale conversazionale basata sull’intelligenza artificiale empatica”. I suoi produttori presentano EVI come l’unica applicazione in grado di misurare “le modulazioni vocali sfumate, guidando la generazione del linguaggio e del parlato”. Quindi, EVI non solo capirebbe le emozioni umane dall’intonazione della voce ma sarebbe anche in grado di riprodurle. “Addestrato su milioni di interazioni umane – scrivono -, il nostro modello empatico di grande linguaggio (eLLM) unisce la modellazione del linguaggio e la sintesi vocale con una migliore prosodia, rilevamento della fine di un discorso, le interruzioni e l’allineamento”. Un dialogo con EVI dovrebbe essere simile a quello che già abbiamo con Siri o Alexa, allo scambio di informazioni pratiche si aggiunge, però, uno scambio “emozionale”. Cioè una volta che EVI ha fornito le informazioni richieste espone al fruitore anche un elenco di espressioni emotive che l’intelligenza artificiale avrebbe rilevato nella voce umana. EVI sarebbe capace di individuare fino a 48 distinte espressioni emotive.
Ma non tutti sono concordi circa la reale capacità interpretativa di EVI. Qualche dubbio sull’efficienza di questa tecnologia lo pone anche Andrew McStay, direttore dell’Emotional AI Lab presso la Bangor University nel Regno Unito. “Non credo che queste tecnologie funzionino così bene come talvolta viene affermato da coloro che le commercializzano”, ha sottolineato Andrew McStay.
Non sempre le ciambelle (o i Donuts) escono con il buco. Lo sa bene Mc Donald’s che ha dovuto fare marcia indietro sull’impiego del sistema automatizzato AOT (acronimo di Automated Order Taking) per prendere gli ordini, perché il risultato non era sempre corrispondente alle richieste dei clienti. Più di un utente ha caricato su Tik Tok video nei quali si vede il sistema aggiungere un topping di bacon su un gelato. Uno dei problemi principali, secondo quanto raccolto dalla CNBC, consisterebbe nella difficoltà di comprendere dialetti e accenti.
Vero è che l’unica strada per avere sistemi di intelligenza artificiale sempre più capaci di dialogare con gli esseri umani in linguaggio naturale è quella degli investimenti. Eppure, la propensione agli investimenti latita o per scetticismo o per scarsa consapevolezza dell’effettivo effort necessario per avere un risultato davvero valido
Per avere un prodotto AI – human voice capace di leggere bene occorre svilupparlo con precisi criteri e mantenerlo. Audioboost si impegna costantemente a migliorare le performance di GIAVA, il programma di Generative Cloning Voice che permette di replicare perfettamente la voce umana e integrarla nello Speakup-Article™ per leggere qualunque contenuto online in tempo reale. La tecnologia di AI che anima Giava consente di utilizzare una voce con l’intonazione corretta in base alla lingua scelta e di leggere correttamente anche dizionari specifici, offrendo garanzie di qualità ed esclusività.
È corretto specificare, però, che una voce artificiale, per quanto intelligente, non è in grado di “interpretare” un testo ma soltanto di leggerlo. Questo è vero oggi ma l’evoluzione dell’intelligenza artificiale ha, e avrà sempre di più, traiettorie di sviluppo rapide che potrebbero sorprenderci