科技日?qǐng)?bào)記者 劉霞
許多人仍認(rèn)為人工智能(AI)生成的語音聽起來“機(jī)械感”明顯,但英國(guó)倫敦瑪麗女王大學(xué)研究團(tuán)隊(duì)在新出版的《公共科學(xué)圖書館·綜合》雜志上發(fā)表論文指出,AI語音合成技術(shù)已進(jìn)入新階段,其生成的“克隆語音”或深度偽造聲音,逼真度與真人錄音無異。

研究團(tuán)隊(duì)采用當(dāng)前最先進(jìn)的AI語音合成工具,生成兩類合成語音:一類是基于真人錄音的“克隆”聲音,旨在模仿特定說話者;另一類則由大型語音模型生成,不針對(duì)具體個(gè)人。參與者被要求辨別聲音的真實(shí)性與可信度。
盡管研究未發(fā)現(xiàn)AI聲音存在“超真實(shí)效應(yīng)”(即比真人更像真人),但結(jié)果顯示,“克隆語音”的逼真度已與真人聲音不相上下,令人難以分辨。且部分AI生成的聲音在可信度評(píng)價(jià)中甚至超越了真人錄音。
研究團(tuán)隊(duì)表示,AI語音已滲透日常生活,如Alexa、Siri及各類客服系統(tǒng)。雖然當(dāng)前系統(tǒng)音色仍具機(jī)械特征,但自然度接近人聲的AI語音技術(shù)已然成熟。利用商用軟件僅需幾分鐘真人錄音,即可快速、低成本地生成高質(zhì)量聲音克隆,且?guī)缀鯚o需專業(yè)知識(shí)。
最新研究顯示,公眾對(duì)高仿真語音認(rèn)知機(jī)制的研究迫在眉睫。AI語音技術(shù)的飛速發(fā)展有望給教育、人機(jī)交互等領(lǐng)域帶來創(chuàng)新機(jī)遇——在這些領(lǐng)域,定制的高質(zhì)量合成語音可增強(qiáng)用戶體驗(yàn)。但是,合成語音也對(duì)倫理、版權(quán)和安全構(gòu)成挑戰(zhàn),尤其在虛假信息、詐騙與身份冒用等方面需加強(qiáng)防范。
 
 
             
						 
						 
						 
						 
								 
								 
								 
								 
								 
								 
								 
		 
			 
			 
				