Ha fatto grande scalpore in America, qualche giorno fa, il Deep Fake del Presidente Joe Biden che invitava i suoi elettori a non recarsi a votare per le Primarie Democratiche in New Hampshire. Si è trattato di un breve messaggio vocale, circolato tra fonti anonime, di cui la NBC è entrata in possesso rilanciando subito l’allarme e ottenendo una pioggia di smentite. L’evento ha immediatamente aperto un dibattito sull’impatto che l’Intelligenza Artificiale generativa può avere sulla campagna elettorale se utilizzata in questo modo malevolo. Si definisce “Deep Fake” la perfetta (o quasi) imitazione di una voce umana elaborata dall’Intelligenza Artificiale e normalmente come suggerisce l’espressione stessa è usata con una accezione negativa. Di casi del genere, ce ne sono stati diversi negli ultimi anni perché, grazie soprattutto alla velocità di evoluzione dell’AI Generativa, la barriera all’ingresso per dotarsi di questa tecnologia si è abbassata notevolmente.
In realtà le cose non sono né così semplici, né così economiche come appare.
La maggior parte degli esempi in rete o nei casi proposti sembra partire da pochi secondi di registrazione di una voce qualsiasi, magari anche solo carpita dalla TV, o da un semplice vocale. La sua campionatura sonora, rende possibile, un apparente straordinaria similitudine con la voce di una persona. Non a caso, tuttavia questi esempi si riferiscono a pochi secondi di riproduzione vocale e all’interno di un numero di lingue ristretto tra cui l’italiano non è incluso. Il motivo è che il machine learning usato per queste campionature è addestrato soprattutto su casistiche molto ampie e già rodate. Se tuttavia già proviamo a “stressare” questi modelli su testi più complessi e lunghi, o su lingue diverse dalle principali, i limiti di una basica campionatura della voce emergono rapidamente: modulazioni della voce distorte, pronunce errate, grosse difficoltà a disambiguare numeri, date, metriche, nomi stranieri e così via.
L’avatar vocale è un servizio professionale che tutela prima di tutto chi presta la sua voce.
Ancora una volta, quindi, bisogna affidarsi a professionisti e aziende che hanno sviluppato la tecnologia, hanno testato diverse strategie di cloning e soprattutto che garantiscano alle “voci” clonate la piena tutela dal “Deep Fake” o la perdite del controllo circa l’uso che se ne farà della propria voce “clonata”. Tutto questo implica anche dei costi sia per la generazione di un modello personalizzato, che per il suo addestramento, specie se il modello viene poi usato in modo esclusivo (es. un giornalista che vuole leggere i propri articoli).
I vantaggi di un vero Avatar Vocale.
Nel pieno rispetto della Voce e del processo di generazione che ne deriva, un Avatar Vocale può risolvere molti problemi a chi voglia “firmare” con la propria voce contenuti online. Integrando la propria voce alla tecnologia del Text-to-Speech i vantaggi principali sono:
- Un incremento seriale della produzione di audio contenuti;
- Riduzione significativa dei costi unitari di produzione;
- Abbattimento delle complessità organizzative tipiche della produzione legata alla speakeraggio professionale
- Replace anche solo momentaneo delle proprie prestazioni basati sulla Voce
Per approfondire: https://www.audioboost.it/it/avatar-vocale/