行業(yè)新聞|2023-08-21|YIPPEE
語音合成是通過機(jī)械和電子方法產(chǎn)生人工語音的技術(shù)。一般來說,語音合成就是讓機(jī)器模仿人類說話。也就是說,輸入一段文字,后輸出一段聲音。
語音合成是一個(gè)將文本轉(zhuǎn)化為語音的過程,類似于人類的嘴巴。目前,語音合成技術(shù)主要應(yīng)用于地圖導(dǎo)航、語音助手、教育、娛樂等軟件應(yīng)用,以及智能揚(yáng)聲器、家用電器、機(jī)器人等硬件設(shè)備。
AI智能語音模塊語音合成系統(tǒng)通常包括兩個(gè)模塊:前端和后端。前端模塊主要分析輸入文本,提取后端模塊所需的語言信息。對(duì)于中文合成系統(tǒng),前端模塊一般包括文本正則化、分詞、詞性預(yù)測(cè)、多音字消歧、節(jié)奏預(yù)測(cè)等子模塊。根據(jù)前端分析結(jié)果,后端模塊通過一定的方法生成語音波形。后端模塊一般分為兩條技術(shù)主線:基于統(tǒng)計(jì)參數(shù)建模的語音合成,基于單元選擇和波形拼接的語音合成。
現(xiàn)階段的語音合成系統(tǒng)可以分為三種類型:1。參數(shù)語音合成系統(tǒng)。2.拼接語音合成系統(tǒng)。3.基于波形的統(tǒng)計(jì)合成系統(tǒng)。其中,參數(shù)語音合成系統(tǒng)和拼接語音合成系統(tǒng)是目前各大公司的主流在線合成系統(tǒng),基于波形的統(tǒng)計(jì)合成系統(tǒng)的方法還處于研究階段,是目前研究的熱點(diǎn)。
1、參數(shù)語音合成系統(tǒng)的特點(diǎn)是,在語音分析階段,語音波形需要通過聲碼器轉(zhuǎn)換為頻譜、基頻、時(shí)長(zhǎng)等語音或節(jié)奏參數(shù)。在建模階段建模語音參數(shù),在語音合成階段,時(shí)域語音信號(hào)由聲碼器預(yù)測(cè)的語音參數(shù)還原。參數(shù)語音合成系統(tǒng)的優(yōu)點(diǎn)是模型尺寸小,模型參數(shù)調(diào)整方便,合成語音相對(duì)穩(wěn)定。
2、拼接語音合成系統(tǒng)的特點(diǎn)是將原始錄音剪切成基本單元存儲(chǔ),而不是參數(shù)化原始錄音。在合成過程中,通過一些算法或模型計(jì)算每個(gè)單元的目標(biāo)成本和連接成本,后通過Viterbi算法和PSOLA或WSOLA等信號(hào)處理方法“拼接”合成語音。因此,拼接語音合成的優(yōu)點(diǎn)是音質(zhì)好,不受語音單元參數(shù)化音質(zhì)的損失。但是,在數(shù)據(jù)庫(kù)小的情況下,合成語音韻需要穩(wěn)定,因?yàn)橛袝r(shí)候選擇不到合適的語音單元。
3、WaveNet波形統(tǒng)計(jì)語音合成的主要單元是卷積神經(jīng)網(wǎng)絡(luò)。該方法的特點(diǎn)是使用神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)合成語音波形的每個(gè)采樣點(diǎn),而不是參數(shù)化語音信號(hào)。優(yōu)點(diǎn)是音質(zhì)比參數(shù)合成系統(tǒng)好,略差于拼接合成,但比拼接合成系統(tǒng)更穩(wěn)定。缺點(diǎn)是合成時(shí)間慢,因?yàn)樾枰A(yù)測(cè)每個(gè)采樣點(diǎn)。