Tutto quello che volevi sapere su VALL-E di Microsoft

Tutto quello che volevi sapere su VALL-E di Microsoft

Microsoft ha sviluppato VALL-E, un modello di intelligenza artificiale di sintesi vocale che imita qualsiasi voce semplicemente ascoltando un campione audio di 3 secondi.

Prima di continuare a leggere, vorrei chiarire che VALL-E è diverso da WALL-E. Anche se alcuni di noi pronuncerebbero entrambe le parole esattamente allo stesso modo, c’è molta differenza tra le due. WALL-E è un'animazione Disney-Pixar pubblicata nel 2008, che includeva un simpatico e amichevole robot AI.

Il fattore AI è infatti una somiglianza tra VALL-E e WALL- E.

Cosa sappiamo di VALL-E?

In termini tecnici, Microsoft chiama VALL-E un "modello linguistico codec neurale". In un linguaggio più semplice, VALL-E è un modello AI in grado di generare audio da input di testo e imitare la voce di qualsiasi campione audio fornito. Ascoltando un campione vocale di soli tre secondi, può imitare qualsiasi voce. VALL-E non è ancora generalmente accessibile al grande pubblico. Non solo può adattarsi alla voce ma anche all'atmosfera e all'acustica dello spazio. Ci sono problemi morali con esso, nonostante possa essere applicato in molti modi vantaggiosi.

Modelli di formazione –

I ricercatori affermano di aver addestrato VALL-E su 60.000 ore di parlanti di lingua inglese, rispetto a oltre 7.000 persone sulla libreria audio LibriLight di Meta. La voce dell'oratore target deve assomigliare molto ai dati di addestramento per poter essere imitata. In questo modo l'IA può utilizzare il suo "addestramento" per tentare di imitare la voce di chi parla.

Imitare le emozioni –

Va sottolineato che il modello Al può simulare l'acustica della stanza così come il tono emotivo di chi parla oltre al tono, al guscio e alla struttura. Pertanto, VALL-E imiterà la voce target come se avesse un disturbo se la voce target ne ha uno.

Secondo il team di ricerca di Microsoft, "I risultati degli esperimenti dimostrano che VALL-E funziona molto meglio in termini di naturalezza del parlato e somiglianza dell'oratore rispetto al più avanzato sistema TTS zero-shot. Inoltre, scopriamo che VALL-E potrebbe mantenere l'emozione di chi parla e il contesto acustico del suggerimento acustico durante la sintesi”.

Minacce –

L'Al il modello può essere applicato alla robotica, alla produzione multimediale e alle applicazioni di sintesi vocale personalizzate. Tuttavia, se utilizzato in modo improprio, potrebbe rappresentare una minaccia. L'azienda ha avvisato che il modello potrebbe essere utilizzato in modo improprio per impersonare o falsificare l'identificazione vocale perché VALL-E potrebbe sintetizzare il parlato mantenendo l'identità del parlante.

VALL-E potrebbe essere utilizzato, ad esempio, per generare chiamate spam che sembrano legittime per truffare la gente. Anche i politici o chiunque abbia una presenza sociale rispettabile sono suscettibili all'imitazione, come dimostrato dalle bufale. Le minacce potrebbero arrivare agli utenti che utilizzano applicazioni che necessitano di comandi vocali o password vocali. Inoltre, i posti di lavoro dei doppiatori possono essere eliminati da VALL-E.

Posizione etica –

Inoltre, l'azienda include una dichiarazione sull'etica che recita: "Le prove in questo lavoro sono state effettuate partendo dal presupposto che l'utente del modello sia il parlante target e sia stato accettato dal parlante". Il protocollo per garantire che l'oratore accetti di eseguire l'alterazione e il sistema per rilevare il discorso modificato dovrebbero essere inclusi nei modelli di editing vocale, si afferma, quando il modello è generalizzato a tutti gli oratori.

Come è VALL -E Diverso da DALL-E?

DALL-E è un modello di apprendimento automatico creato da OpenAI che genera grafica da descrizioni di testo. I prompt vengono utilizzati per descrivere queste descrizioni da testo a immagine. È sufficiente solo una descrizione della scena affinché l'algoritmo produca immagini realistiche. DALL-E è una tecnica di rete neurale che crea immagini precise da brevi parole fornite dall'utente. Apprende la lingua utilizzando descrizioni testuali e dai dati di "apprendimento" che utenti e sviluppatori hanno contribuito ai suoi set di dati.

Cosa ne pensi di VALL-E?

Ci auguriamo che ora tu sappia tutto su VALL-E (testo in suono) rispetto a DALL-E (testo in immagine). Non esiste una data precisa su quando VALL-E sarà disponibile per l'accesso e l'utilizzo da parte del grande pubblico. Per quanto riguarda DALL-E, è già stato reso disponibile a tutti.

Fateci sapere nei commenti qui sotto se avete domande o consigli. Saremo lieti di fornirti una soluzione. Pubblichiamo spesso consigli, trucchi e soluzioni a problemi comuni legati alla tecnologia. Puoi trovarci anche su Facebook, Twitter, YouTube, Instagram, Flipboard e Pinterest.

leggi: 0

yodax