【摘要】無論國內(nèi)還是國外的企業(yè),都非常重視聲音定制對于觸達(dá)用戶、引導(dǎo)成交、樹立企業(yè)科技形象的重要價(jià)值,但同時(shí)聲音、音質(zhì)是一個(gè)難以量化的東西,我們該如何選擇最合適的聲音定制方案呢?
人的聲音是一個(gè)很奇妙的東西,一方面我們很難用日常詞語將人聲描述得很具體(相對于人的外貌),但另一方面,我們大腦對人聲的記憶力、分辨力和聯(lián)想能力卻非常強(qiáng),我們能夠“聞聲識人”,通過聲音區(qū)分不同人物,通過聲音節(jié)奏、音量大小感知對方情緒,甚至了解到對方的性格特點(diǎn)。同一句話,不同的語速、語氣、語調(diào),我們也能敏銳察覺到情感上的細(xì)微差異。當(dāng)聽到清澈、明朗的高音聲音時(shí),我們會很自然地聯(lián)想到靈動、單純的小女孩,大腦會瞬間放松戒備,啟動“打開”模式來接收外界信息,即輕快的、使人放松的聲音提高了信息的接受程度。
【資料圖】
聲音定制的應(yīng)用
前進(jìn)保險(xiǎn)公司(Progressive Insurance)是美國保險(xiǎn)業(yè)的一股創(chuàng)新力量,他們推出了一款對話機(jī)器人Flo,在定制這個(gè)機(jī)器人聲音的原型時(shí),Progressive Insurance尋找了許多形象,最終選定為Stephanie Courtney在電視廣告中所塑造的、觀眾熟知的銷售人員 Flo,其聲音給人一種俏皮可愛、個(gè)性開朗的感覺,一經(jīng)推出便深受人們喜愛,在Facebook上收獲了上百萬粉絲。Flo的出現(xiàn),幫助Progressive Insurance觸達(dá)用戶、引導(dǎo)成交,在宣傳公司科技形象方面,也起到了無法估量的作用。
在國內(nèi),也有企業(yè)很早就認(rèn)識到個(gè)性化的聲音對于產(chǎn)品、企業(yè)的重要價(jià)值,并通過聲音來凸顯產(chǎn)品定位或企業(yè)形象、占領(lǐng)用戶心智。在某些行業(yè),定制IP聲音已成為標(biāo)配,如手機(jī)導(dǎo)航軟件、有聲讀物平臺、金融業(yè)智能客服等。除了這些我們熟知的,其他的應(yīng)用場景還包括:定制明星聲音用于品牌傳播及市場營銷;定制動漫IP聲音用于增加互動,提高動漫形象的趣味性;在知識付費(fèi)領(lǐng)域,定制名師、大V或KOL的聲音以提高內(nèi)容的受歡迎程度······隨著元宇宙、虛擬人的興起,聲音定制的落地場景也將越來越多。
如何定義一個(gè)好方案
聲音、音質(zhì)是一個(gè)難以量化的東西,甚至不同細(xì)分場景差異巨大,如何定義一個(gè)優(yōu)秀的聲音定制方案呢?
我們調(diào)研了多家已進(jìn)行或正在進(jìn)行聲音定制的虛擬人平臺、有聲閱讀平臺和品牌營銷公司,發(fā)現(xiàn)他們最看重的是聲音的逼真度,具體可以量化為3個(gè)維度及對應(yīng)的4個(gè)指標(biāo),3個(gè)維度包括系統(tǒng)可懂性、自然度、相似度,(以中文為例)對應(yīng)的指標(biāo)包括PER(拼音-不包含聲調(diào)-錯(cuò)誤率,越低越好)、PTER(拼音-包含聲調(diào)-錯(cuò)誤率,越低越好)、MOS(自然度音質(zhì),越高越好)、Sim(與真人聲音的相似度,越高越好)。
與智能語音領(lǐng)域?qū)I(yè)人士的溝通中,我們了解到,這一賽道的頭部企業(yè)國外如谷歌、蘋果,國內(nèi)如 BAT,因其資本優(yōu)勢以及先發(fā)性的技術(shù)沉淀,對該市場有較強(qiáng)的壟斷性,但按聲音定制的實(shí)際效果而言,根據(jù)關(guān)鍵指標(biāo)、客戶口碑,國內(nèi)企業(yè)已經(jīng)有一匹黑馬突出重圍——深聲科技(https://www.deepsound.cn),是該領(lǐng)域的絕對權(quán)威。
在對深聲科技聲音定制產(chǎn)品的測評過程中,我們發(fā)現(xiàn)很多細(xì)節(jié),比如還原nl、兒化音的口音習(xí)慣,比如還原對短句和長句的語調(diào)、語勢處理,這些細(xì)節(jié)處理可能會使合成的聲音普通話不夠“標(biāo)準(zhǔn)”,但是高度還原了用戶發(fā)音特征,富有表現(xiàn)力。“我們更加傾向于還原聲音本身的特征,尊重每一個(gè)聲音獨(dú)一無二的特質(zhì),”深聲科技CEO周俊明說道,“希望能夠真實(shí)地還原聲音在現(xiàn)實(shí)世界中給人的那種感覺,就像與朋友進(jìn)行的一場對話,或聆聽或思索,給人一種非常舒適的感受。”
如何選擇方案
我們還了解到,為達(dá)到客戶所需的最佳合成效果,深聲科技在各個(gè)技術(shù)環(huán)節(jié)都做了大膽的創(chuàng)新和優(yōu)化,并提供多檔解決方案,以解決不同場景下的客戶需求:
1.極速聲音定制,僅需20句話錄音(約90秒)、1天內(nèi)即可上線使用,由于音色還原效果好、價(jià)格親民,還可先體驗(yàn)后付費(fèi)等特點(diǎn),目前是最受B端客戶歡迎的解決方案;
2.輕量聲音定制,30分鐘音頻、3個(gè)工作日左右可完成定制,高度還原發(fā)音特點(diǎn),可用于B端專業(yè)級商用;
3.精品聲音定制,2小時(shí)音頻,并提供錄音棚、專業(yè)設(shè)備、錄音文本等內(nèi)容,主要是高端客戶使用,適用于深度定制的企業(yè)、明星IP等場景。
目前,這些方案已經(jīng)得到了市場的認(rèn)可,從公開信息我們得知,有很多行業(yè)的頭部企業(yè)選擇使用深聲科技的聲音定制方案,如手機(jī)行業(yè)的小米、OPPO,音樂傳媒的網(wǎng)易云音樂、酷我音樂,汽車行業(yè)的長城汽車、東風(fēng)嵐圖等等。
聲音是塑造一個(gè)有血有肉的形象的關(guān)鍵,在元宇宙、虛擬人的浪潮中,聲音定制將會扮演越來越重要的角色。相信在未來,會有越來越多像深聲科技這樣的科技界黑馬,突破國外老牌企業(yè)的重圍,帶來更多更具創(chuàng)造力、想象力的智能語音解決方案。
(進(jìn)入https://www.deepsound.cn或搜索“深聲科技”可快速體驗(yàn)聲音定制效果)