La guerra contro i deepfake audio passa dall’AI

Clonare le voci è sempre più facile, veloce ed economico, e i risultati sono sempre migliori: in molti casi per l’orecchio umano è quasi impossibile distinguere tra una voce reale e una sintetica (ossia una voce generata o alterata con l’intelligenza artificiale).

Lo sentiamo ripetere da mesi: nessuna tecnologia è in assoluto buona o cattiva, dipende dall’uso che se ne fa. È vero, ma è innegabile che nei mesi scorsi sono aumentati parecchio i casi in cui le tecnologie di clonazione vocale sono usate con scopi malevoli, soprattutto per fare truffe finanziarie e diffondere notizie false.

Questo fenomeno risulta ancora più preoccupante in un anno di elezioni come il 2024. Quando sarà concluso, saranno andati alle urne i cittadini di circa 70 Paesi. Tra questi ci sono per esempio gli Stati Uniti, i cui elettori sono già stati presi di mira da innumerevoli deepfake (ossia contenuti digitali che impersonano persone reali) creati con l’obiettivo di influenzare il loro voto alle prossime presidenziali.

Un esempio? Un breve video con un falso voiceover della presidente Usa Kamala Harris che dice che di essere stata selezionata come candidata alla presidenza per il Partito Democratico perché è sia una donna sia una persona di colore: «Quindi se critichi qualunque cosa dica, sei sia sessista sia razzista».

Come fare per individuare i deepfake audio e per farlo nel modo più preciso e tempestivo possibile?

Il video con il voiceover falso di Kamala Harris è stato condiviso anche da Elon Musk (l’imprenditore ha espresso il proprio sostegno a Donald Trump)

Sempre più spesso le strategie per contrastare o arginare le conseguenze di un uso nocivo dell’AI (artificial intelligence) si basano sull’AI stessa.

È anche il caso di VerificAudio, che tra i vari progetti basati sull’intelligenza artificiale e mirati a riconoscere gli audio falsi mi sembra particolarmente interessante perché alle spalle ha una società editoriale ed è stato pensato per un uso giornalistico.

La società editoriale in questione è Prisa Media, che ha messo a punto VerificAudio insieme a Google News Initiative e Minsait. I due modelli di intelligenza artificiale alla base dello strumento servono appunto per rilevare e analizzare l’affidabilità dei file audio con contenuti di interesse giornalistico.

[Prisa Media è la divisione dell’omonimo gruppo spagnolo che ingloba varie realtà dedicate all’informazione, Google News Initiative è un’iniziativa di Google che dal 2018 «aiuta il giornalismo a crescere nell’era digitale», mentre Minsait è una società spagnola che si occupa di consulenza nella trasformazione digitiale e nelle tecnologie al servizio dell’informazione.]

L’idea di VerificAudio è nata a Bogotà, in Colombia, nella sede di Caracol Radio (Caracol, che in spagnolo significa “lumaca”, è l’acronimo di Cadena radial colombiana, come si chiamava la rete radiofonica al momento della sua fondazione nel 1948; Caracol Radio è parte del gruppo Prisa dal 2003). Al momento del suo annuncio nel marzo 2024 VerificAudio era già disponibile anche nelle redazioni radiofoniche di Prisa Media in Messico, Cile e Spagna.

Ne ho parlato con Olalla Novoa, coordinatrice dei progetti di Prisa legati alla voce.

Olalla Novoa Ojea è una giornalista e product manager spagnola con una carriera trentennale nell’informazione (ha lavorato anche al Wall Street Journal e al Mundo). Oggi si occupa di AI audio nell’ambito dei media

Perché avete deciso di creare VerificAudio?
«Prisa Media è il più grande produttore di audio in spagnolo del mondo. In quanto tali, sentiamo la responsabilità di garantire l’integrità dei nostri contenuti audio e di preservare la fiducia che il pubblico ripone nei nostri media. Due anni fa, nel novembre 2022, abbiamo lanciato la nostra prima voce sintetica, “Victoria, la voce del calcio” (creata dall’emittente Cadena SER, è usata nel principale programma sportivo della radio spagnola ed è disponibile anche nei dispositivi con integrazione Alexa, ndr). Da allora abbiamo seguito molto attentamente l’evoluzione in questo campo e il progresso vertiginoso nella clonazione vocale, sempre più accessibile attraverso servizi online a basso costo o open source. Oltre al fatto che il 2024 è un anno fortemente elettorale, in cui più della metà della popolazione mondiale andrà alle urne per eleggere i suoi leader, abbiamo visto chiaramente che avevamo bisogno di uno strumento che aiutasse i nostri giornalisti a verificare quegli audio che potrebbero essere manipolati o generati dall’intelligenza artificiale».

Avevate qualche modello di riferimento?
«No, ma ci era molto chiaro il contesto di utilizzo, perché stavamo iniziando a vedere il potenziale delle voci clonate a fini disinformativi. Anche se i primi esempi che circolavano sui social erano più parodici o umoristici, era solo questione di tempo prima che si iniziasse a usare la clonazione vocale per impersonare figure pubbliche o private con un impatto sullo spettro informativo».

Perché lo sviluppo è avvenuto proprio in Colombia?
«In questo progetto è stato fondamentale l’impulso della Google News Initiative, che in America Latina sta sviluppando un importante programma di lotta contro la disinformazione. La potenza dei nostri marchi di informazione in Colombia, Caracol Radio e W Radio, ha reso il Paese un candidato ideale per sviluppare questo progetto, che si è già espanso nelle redazioni delle nostre stazioni radio in Cile (ADN Radio), Messico (W Radio Messico) e Spagna (Cadena SER)».

Come funziona, esattamente?
«Il progetto è stato sviluppato con l’unità di intelligenza artificiale di Minsait, un’importante azienda tecnologica spagnola. Dopo aver fatto una valutazione su quali fossero i modelli di AI più adatti per l’identificazione delle voci, abbiamo optato per un doppio approccio che ci permettesse di rafforzare la convalida dei risultati. Da un lato, usiamo un modello di reti neurali open source addestrato specificamente per l’identificazione delle voci e adattato allo spagnolo. Dall’altro, abbiamo sviluppato da zero un modello di apprendimento automatico incentrato sul rilevamento di voci sintetiche che funziona anche in spagnolo. Abbiamo creato un dataset specifico con voci in spagnolo sia reali sia sintetiche con cui addestrare i modelli che stavamo convalidando, per poi riqualificarli in modo da migliorare i risultati. In questo momento siamo in una seconda fase, dove continuiamo a riaddestrare i modelli con nuovi dati. È un processo iterativo indispensabile per mantenere i modelli aggiornati, dal momento che le tecnologie di clonazione vocale sono in costante evoluzione».

In che contesto viene usato VerificAudio?
«È uno strumento interno per le redazioni di Prisa Media, e il suo uso è sempre integrato nei protocolli di verifica giornalistica tradizionali. Non vuole sostituire il criterio del giornalista o la metodologia convenzionale che affronta la verifica analizzando il contenuto del messaggio, il suo contesto, le fonti e le vie di diffusione o la ricerca di audio simili che potrebbero essere stati oggetto di manipolazione. È uno strumento di supporto tecnologico che offre informazioni su caratteristiche non distinguibili dall’orecchio umano. Le previsioni dei modelli di intelligenza artificiale sono difficili da spiegare, poiché è una tecnologia tremendamente complessa, e i risultati non hanno un tasso di successo al 100%. Questo vuol dire che la gamma di probabilità dei risultati di VerificAudio deve essere valutata insieme ad altri fattori decisionali».

Finora che tipo di contributi ha apportato?
«L’arrivo di VerificAudio ha attivato nelle nostre radio un approccio trasversale, con un comitato di verifica che condivide quello che impara e costruisce una metodologia per affrontare un tipo di disinformazione inimmaginabile solo fino a poco tempo fa. A volte non si tratta solo di verificare che un audio sia falso, ma anche il contrario: ossia che sia reale. Sempre più spesso le fughe di conversazioni compromettenti, di solito di politici, sono smentite con la scusa che non sono vere ma che sono invece deepfake audio. È possibile che sia così, ma in qualche caso è invece un alibi per non dover dare spiegazioni. Inoltre rispondiamo alle richieste di verifica che arrivano attraverso il nostro sito web, verificaudio.ai, da siti di verifica e media come Politifact (parte di The Poynter Institute), Chequeado, espaja.com, Reuters o Univisión».

State prendendo altre misure per difendervi dal deepfake audio?
«Il criterio e l’esperienza dei giornalisti dei marchi di Prisa Media e l’accesso alle fonti di prima mano delle loro redazioni sono il miglior scudo contro i tentativi di disinformazione. Il tutto ora è completato dal supporto tecnologico di VerificAudio, con il quale Prisa è diventato un gruppo di comunicazione pioniere a livello internazionale nell’applicazione dell’AI per combattere proprio l’uso improprio dell’AI».

Come Prisa, come state impiegando l’AI in ambito audio?
«Il nostro approccio all’intelligenza artificiale ruota intorno a due grandi aree, la distribuzione dei contenuti e la voce. Nel primo caso, stiamo sviluppando un profondo progetto di “datificazione” dell’audio che ci permetta di promuovere i contenuti in modo strutturato, aprendo la porta a nuove forme di scoperta, raccomandazione e personalizzazione della distribuzione degli stessi. Per quanto riguarda la voce, come dicevo abbiamo iniziato due anni fa con la creazione di Victoria, una voce realizzata con AI generativa che è attiva in Alexa (l’assistente vocale di Amazon, ndr), e siamo molto concentrati su VerificAudio, un progetto che ci sembra cruciale per rafforzare la fiducia che il nostro pubblico ha riposto nelle nostre radio per un secolo, nel caso di Cadena SER, e più di 70 anni nel caso di Caracol Radio».

La diffusione di contenuti creati con l’IA sta facendo perdere la fiducia dei cittadini anche verso i contenuti informativi reali. Che ne pensa?
«I nostri media hanno un’ampia diffusione e trasparenza, e sono i migliori validatori della nostra credibilità. È qui che il nostro pubblico può trovare le informazioni rilevanti e comprovate che chiede: nelle nostre radio, nel nostro sito, nella nostra app. In parallelo, dal punto di vista tecnologico stanno emergendo opzioni sul fronte della distribuzione digitale, come il watermarking o le firme crittografiche per includere contenuti nelle catene blockchain. Seguiamo da vicino la loro evoluzione, così da prendere la decisione giusta nel momento in cui queste tecnologie avranno standard efficaci che possano dare un valore aggiunto».

***

Se ti interessa approfondire i principali aspetti legati ai rischi di un utilizzo non etico dell’intelligenza artificiale generativa in ambito audio ti consigliamo anche:

Leave a Reply

Your email address will not be published.