【摘要】無論國內還是國外的企業,都非常重視聲音定制對于觸達用戶、引導成交、樹立企業科技形象的重要價值,但同時聲音、音質是一個難以量化的東西,我們該如何選擇最合適的聲音定制方案呢?
人的聲音是一個很奇妙的東西,一方面我們很難用日常詞語將人聲描述得很具體(相對于人的外貌),但另一方面,我們大腦對人聲的記憶力、分辨力和聯想能力卻非常強,我們能夠“聞聲識人”,通過聲音區分不同人物,通過聲音節奏、音量大小感知對方情緒,甚至了解到對方的性格特點。同一句話,不同的語速、語氣、語調,我們也能敏銳察覺到情感上的細微差異。當聽到清澈、明朗的高音聲音時,我們會很自然地聯想到靈動、單純的小女孩,大腦會瞬間放松戒備,啟動“打開”模式來接收外界信息,即輕快的、使人放松的聲音提高了信息的接受程度。
【資料圖】
聲音定制的應用
前進保險公司(Progressive Insurance)是美國保險業的一股創新力量,他們推出了一款對話機器人Flo,在定制這個機器人聲音的原型時,Progressive Insurance尋找了許多形象,最終選定為Stephanie Courtney在電視廣告中所塑造的、觀眾熟知的銷售人員 Flo,其聲音給人一種俏皮可愛、個性開朗的感覺,一經推出便深受人們喜愛,在Facebook上收獲了上百萬粉絲。Flo的出現,幫助Progressive Insurance觸達用戶、引導成交,在宣傳公司科技形象方面,也起到了無法估量的作用。
在國內,也有企業很早就認識到個性化的聲音對于產品、企業的重要價值,并通過聲音來凸顯產品定位或企業形象、占領用戶心智。在某些行業,定制IP聲音已成為標配,如手機導航軟件、有聲讀物平臺、金融業智能客服等。除了這些我們熟知的,其他的應用場景還包括:定制明星聲音用于品牌傳播及市場營銷;定制動漫IP聲音用于增加互動,提高動漫形象的趣味性;在知識付費領域,定制名師、大V或KOL的聲音以提高內容的受歡迎程度······隨著元宇宙、虛擬人的興起,聲音定制的落地場景也將越來越多。
如何定義一個好方案
聲音、音質是一個難以量化的東西,甚至不同細分場景差異巨大,如何定義一個優秀的聲音定制方案呢?
我們調研了多家已進行或正在進行聲音定制的虛擬人平臺、有聲閱讀平臺和品牌營銷公司,發現他們最看重的是聲音的逼真度,具體可以量化為3個維度及對應的4個指標,3個維度包括系統可懂性、自然度、相似度,(以中文為例)對應的指標包括PER(拼音-不包含聲調-錯誤率,越低越好)、PTER(拼音-包含聲調-錯誤率,越低越好)、MOS(自然度音質,越高越好)、Sim(與真人聲音的相似度,越高越好)。
與智能語音領域專業人士的溝通中,我們了解到,這一賽道的頭部企業國外如谷歌、蘋果,國內如 BAT,因其資本優勢以及先發性的技術沉淀,對該市場有較強的壟斷性,但按聲音定制的實際效果而言,根據關鍵指標、客戶口碑,國內企業已經有一匹黑馬突出重圍——深聲科技(https://www.deepsound.cn),是該領域的絕對權威。
在對深聲科技聲音定制產品的測評過程中,我們發現很多細節,比如還原nl、兒化音的口音習慣,比如還原對短句和長句的語調、語勢處理,這些細節處理可能會使合成的聲音普通話不夠“標準”,但是高度還原了用戶發音特征,富有表現力。“我們更加傾向于還原聲音本身的特征,尊重每一個聲音獨一無二的特質,”深聲科技CEO周俊明說道,“希望能夠真實地還原聲音在現實世界中給人的那種感覺,就像與朋友進行的一場對話,或聆聽或思索,給人一種非常舒適的感受。”
如何選擇方案
我們還了解到,為達到客戶所需的最佳合成效果,深聲科技在各個技術環節都做了大膽的創新和優化,并提供多檔解決方案,以解決不同場景下的客戶需求:
1.極速聲音定制,僅需20句話錄音(約90秒)、1天內即可上線使用,由于音色還原效果好、價格親民,還可先體驗后付費等特點,目前是最受B端客戶歡迎的解決方案;
2.輕量聲音定制,30分鐘音頻、3個工作日左右可完成定制,高度還原發音特點,可用于B端專業級商用;
3.精品聲音定制,2小時音頻,并提供錄音棚、專業設備、錄音文本等內容,主要是高端客戶使用,適用于深度定制的企業、明星IP等場景。
目前,這些方案已經得到了市場的認可,從公開信息我們得知,有很多行業的頭部企業選擇使用深聲科技的聲音定制方案,如手機行業的小米、OPPO,音樂傳媒的網易云音樂、酷我音樂,汽車行業的長城汽車、東風嵐圖等等。
聲音是塑造一個有血有肉的形象的關鍵,在元宇宙、虛擬人的浪潮中,聲音定制將會扮演越來越重要的角色。相信在未來,會有越來越多像深聲科技這樣的科技界黑馬,突破國外老牌企業的重圍,帶來更多更具創造力、想象力的智能語音解決方案。
(進入https://www.deepsound.cn或搜索“深聲科技”可快速體驗聲音定制效果)