微軟研究人員展示了一種令人印象深刻的新型文本轉語音人工智能模型,名為Vall-E,它可以只聽聲音幾秒鐘,然后模仿聲音——包括情感語調和音響效果——說出你想說的任何話。
這是許多人工智能算法中最新的一種,它們可以利用一個人的聲音錄音,讓它說出這個人從未說過的單詞和句子——而且它只需要一小段音頻就能推斷出整個人類的聲音,這是非常了不起的。例如,2017年蒙特利爾大學的Lyrebird算法需要整整一分鐘的語音來分析,而Vall-E只需要三秒鐘的音頻片段。
人工智能已經接受了大約6萬小時的英語演講訓練——似乎主要是通過有聲讀物解說員,研究人員提供了大量樣本,在這些樣本中,Vall-E試圖操縱一系列人類的聲音。有些人在捕捉聲音的本質和構建聽起來自然的新句子方面做得非常出色——你很難分辨出哪個是真實的聲音,哪個是合成的。在其他情況下,唯一的漏洞是人工智能將重點放在句子中奇怪的地方。
Vall-E在重新創建原始示例的音頻環境方面做得特別好。如果樣本聽起來像通過電話錄制的,那么合成也是如此。它在口音方面也很不錯——至少是美式、英式和一些歐洲口音。
在情感方面,結果就不那么令人印象深刻了。使用憤怒、困倦、有趣或厭惡的語音樣本似乎會讓事情偏離軌道,合成出來的聲音聽起來扭曲得很奇怪。
這類技術的影響非常明顯;從積極的方面來看,將來你在超市里推手推車的時候,可以讓摩根·弗里曼(Morgan Freeman)為你的購物清單念一遍。如果演員在電影中中途死亡,他們可以使用這樣的系統通過深度偽造的視頻和音頻來完成表演。蘋果公司最近推出了一套由人工智能為你朗讀的有聲讀物目錄,很顯然,你很快就能在飛行中切換旁白。
消極的一面是,這對配音演員和敘述者來說并不是什么好消息?;蛘邔β牨妬碚f;人工智能或許能夠快速且廉價地完成敘述,但不要指望它有太多藝術元素。他們不會像史蒂芬·弗萊那樣解讀道格拉斯·亞當斯。
騙子的潛力也非常大。如果一個騙子能讓你在電話上停留三秒鐘,他們就能竊取你的聲音,然后用它給你的奶奶打電話?;蛘呃@過任何語音識別安全設備。這正是終結者機器人打電話時需要的東西。
當然,每個人都還在等待這樣一個時刻:一個政治人物的第一次深度偽造的演講,欺騙了足夠多的人,破壞了相信你的眼睛和耳朵的概念——就好像客觀真理在這個奇怪的時代還沒有受到攻擊一樣。
微軟Vall-E團隊在其演示頁面的末尾附加了一份簡短的道德聲明:“這項工作中的實驗是在假設模型的用戶是目標說話者并已得到說話者的批準的情況下進行的。然而,當模型推廣到看不見的演講者時,相關的組件應該伴隨著語音編輯模型,包括確保演講者同意執行修改的協議和檢測編輯后的語音的系統?!?
像DALL-E、ChatGPT、各種deepfake算法和無數其他創造性人工智能的崛起,感覺在過去幾個月里正處于一個拐點,開始沖出實驗室,進入現實世界。與所有變化一樣,它帶來了機遇和風險。我們真的生活在一個有趣的時代。