? 點上方↑“旗魚軟件”走進(jìn)"互聯(lián)網(wǎng)+“軟件全局解決方案.軟件定制,就上“+飛魚”!

 

假如有一天,你發(fā)現(xiàn)機(jī)器人發(fā)出的聲音和你的一模一樣,你是感到驚慌,還是該感到歡喜?這并不是危言聳聽,這是AI技術(shù)中的語音合成技術(shù)在搗鬼。在這個合成圖片肆意蔓延、虛假新聞充斥各大媒體的時代,一個可以讓任何人說任何話的程序,似乎是引發(fā)更多麻煩的催化劑,但是人們對其的研究仍然樂此不疲。本期訊貓軟件將帶您在AI語音合成技術(shù)的浪潮里翻滾。

 

 

什么是語音合成?

 

 

語音合成一般會經(jīng)過文本與韻律分析、聲學(xué)處理與聲音合成三個步驟,分別依賴于文本與韻律分析模型、聲學(xué)模型與聲碼器。其中文本與韻律分析模型一般被稱為“前端”,聲學(xué)模型和聲碼器被稱為“后端”。

 

文本與韻律分析中,首先對文本進(jìn)行分詞和標(biāo)注:分詞會將文本切成一個個詞語,標(biāo)注則會注明每個字的發(fā)音以及哪里是重音、哪里需要停頓等韻律信息;然后根據(jù)分詞和標(biāo)注的結(jié)果提取文本的特征,將文本變成一個個文本特征向量組成的序列。

 

聲學(xué)模型建立了從文本特征向量到聲學(xué)特征向量的映射:一個個文本特征向量經(jīng)過聲學(xué)模型的處理,會變成一個個聲學(xué)特征向量。聲碼器則會將一個個聲學(xué)特征向量通過反變換分別得到相應(yīng)的聲音波形,然后依次進(jìn)行拼接就得到了整個文本的合成語音。

 

聲學(xué)特征反映了聲音信號的一些“關(guān)鍵信息”,反變換則可看作用關(guān)鍵信息還原全量信息。所以在反變換的過程中可以有人為“操作”的空間(如參數(shù)的調(diào)整),從而改變合成語音的語調(diào)、語速等。

 

反變換的過程還可以讓合成的語音具備特定的音色。錄制某個人少量的語音片段,在合成時即可據(jù)此調(diào)整參數(shù),讓合成的語音擁有這個人的音色。老司機(jī)們最愛的“林志玲導(dǎo)航語音包”就是這么來的。

 

 

語音合成的處理過程是怎樣的?

 

 

1

智能客服機(jī)器人

 

 

 

隨著人力成本的增加,客服中心逐漸從企業(yè)的價值中心轉(zhuǎn)變成了成本中心。同時,如何保持客戶人員的服務(wù)質(zhì)量統(tǒng)一,也是企業(yè)面臨的一大難題。智能客服機(jī)器人通過自動識別客戶語音及語義,自動回復(fù)客戶問題,通過語音合成將回復(fù)以語音形式呈現(xiàn),讓人機(jī)交互閉環(huán)。

 

2

電子有聲讀物

 

 

 

有聲讀物的出現(xiàn)讓人們可以在開車、走路等不方便閱讀的時刻也能享受學(xué)習(xí)的快樂。人工合成有聲讀物,耗時費(fèi)力,且準(zhǔn)確率難以保證。語音合成讓有聲讀物的生成變得更簡單,情感合成技術(shù)讓聲音更自然動聽,自定義發(fā)音人支持個性化音色,滿足業(yè)務(wù)多方位合成需求。

 

3

智慧教育

 

 

 

配合智慧教育系統(tǒng),語音合成可以實現(xiàn)中英文音素、單詞、詞組、課文的標(biāo)準(zhǔn)朗讀及帶讀。除公共基礎(chǔ)教育課堂應(yīng)用外,還可以在課外教育培訓(xùn)機(jī)構(gòu)及教輔軟件中廣泛應(yīng)用。中文除普通話外,還可以針對少數(shù)民族語言維語、藏語等進(jìn)行針對性的合成,保留民族特色,促進(jìn)民族文化傳承。

這項技術(shù)在不久的將來還會帶來一系列更加精彩的應(yīng)用,例如:私人助手,用于讀取著名的音頻書籍;各類可聯(lián)網(wǎng)的語音合成設(shè)備,為視覺障礙的殘疾人合成語音,另外,它還可以服務(wù)于電影動畫或者游戲工作室。

 

未來,語音合成技術(shù)的發(fā)展方向就應(yīng)該是讓聲音達(dá)到真人說話的水準(zhǔn),并逐漸加入音色、情感方面的合成,使之更具特色,更加個性化。甭說是林志玲,周杰倫、林俊杰、鄧紫棋等眾多明星的演唱會或許都會被語音合成技術(shù)所取代,他們完全可以不用自己的聲音去歌唱,只要口型對上,人在演唱會的現(xiàn)場,你也不會看出任何的破綻,這就是語音合成的神奇之處。

 

 

和語音識別不同,對語音合成質(zhì)量的評價標(biāo)準(zhǔn)相對主觀。對于一段合成語音,一些人耳中的“發(fā)音錯誤”對其他人來說可能只是“發(fā)音不準(zhǔn)”;同時,什么樣的聲音像人聲,像到什么程度,都很難通過幾個像“準(zhǔn)確率”這樣的簡單指標(biāo)來進(jìn)行評價。

 

伴隨著旗魚軟件的智能人機(jī)交互領(lǐng)域迅猛發(fā)展,旗魚軟件技術(shù)團(tuán)隊正在積極地開發(fā)AI各項前沿技術(shù),隨之而來應(yīng)用的領(lǐng)域也在不斷增多:包含有直播APP,社交APP,電商APP客服系統(tǒng),辦公OA系統(tǒng),小程序開發(fā),物聯(lián)網(wǎng)應(yīng)用開發(fā)等。如果您想在語音交互這一領(lǐng)域有大的發(fā)展,不妨來旗魚軟件,后期我們會搭建好語音合成的云服務(wù)以更好的服務(wù)各大集團(tuán)、企業(yè)的業(yè)務(wù)。聽起來是不是很高大上,有木有很驚喜,那還等什么?旗魚軟件就等著您來約咯!

 

 

 

 

旗魚軟件下一期主題是自然語言處理,關(guān)于自然語言處理你想了解哪些內(nèi)容?想聽的什么?可以留言告訴旗魚冰冰喲!