高識(shí)別率、高準(zhǔn)確率的智能語(yǔ)音識(shí)別系統(tǒng)是如何實(shí)現(xiàn)語(yǔ)音識(shí)別的
文章摘要:語(yǔ)音識(shí)別技術(shù)是一種高端技術(shù),它使機(jī)器能夠?qū)⒙曇粜盘?hào)轉(zhuǎn)換成文字,并將其轉(zhuǎn)化為指令。其目標(biāo)是讓機(jī)器具有聽(tīng)覺(jué)特征,能夠理解人類所說(shuō)的話,并做出相應(yīng)的反應(yīng)。在語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音識(shí)別主要包括兩個(gè)模塊:聲學(xué)...
語(yǔ)音識(shí)別技術(shù)是一種高端技術(shù),它使機(jī)器能夠?qū)⒙曇粜盘?hào)轉(zhuǎn)換成文字,并將其轉(zhuǎn)化為指令。其目標(biāo)是讓機(jī)器具有聽(tīng)覺(jué)特征,能夠理解人類所說(shuō)的話,并做出相應(yīng)的反應(yīng)。在語(yǔ)音識(shí)別系統(tǒng)中,語(yǔ)音識(shí)別主要包括兩個(gè)模塊:聲學(xué)識(shí)別模型和語(yǔ)言理解模型,并對(duì)其進(jìn)行語(yǔ)音處理。一個(gè)智能語(yǔ)音識(shí)別系統(tǒng)包括特征提取、聲學(xué)模型、語(yǔ)言模型、解碼等四個(gè)方面。
(1)過(guò)濾——語(yǔ)音輸入的預(yù)處理模塊
對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行處理,過(guò)濾出不必要的信息和背景噪音,然后進(jìn)行語(yǔ)音信號(hào)的端點(diǎn)檢測(cè)(即發(fā)現(xiàn)聲音的始末)、語(yǔ)音分幀(大致上可以把一段聲音看成是一段由若干幀組成的連續(xù)圖像組成的視頻,可以把聲音信號(hào)分割成單獨(dú)的“畫(huà)面”進(jìn)行分析)。
(2)特征提取
在剔除了語(yǔ)音信號(hào)中多余的多余信息之后,將其作為語(yǔ)音的基本特性加以處理,并以特定的形式表達(dá)。即通過(guò)抽取重要的特征參數(shù),使其能夠反映出語(yǔ)音的特點(diǎn),從而形成一系列的特征向量,供以后的處理使用。
(3)聲學(xué)模型訓(xùn)練
聲學(xué)模型就是對(duì)聲音的建模,它可以將聲音的輸入轉(zhuǎn)化為聲學(xué)表達(dá),或者說(shuō),是一個(gè)特定的聲學(xué)符號(hào)。通過(guò)對(duì)語(yǔ)音庫(kù)的特征參數(shù)進(jìn)行訓(xùn)練,得到了語(yǔ)音模型的參數(shù)。在識(shí)別過(guò)程中,通過(guò)對(duì)所述語(yǔ)音的特征參數(shù)與所述聲學(xué)模型進(jìn)行匹配,從而獲得所需的識(shí)別效果。目前,大多數(shù)的語(yǔ)音識(shí)別系統(tǒng)都是基于?HMM的隱馬爾可夫模型來(lái)建立聲學(xué)模型。
(4)語(yǔ)言模型訓(xùn)練
語(yǔ)言模式是用來(lái)對(duì)句子發(fā)生的概率進(jìn)行計(jì)算的,簡(jiǎn)而言之,就是對(duì)一句話的語(yǔ)法正確與否進(jìn)行估計(jì)。由于句子結(jié)構(gòu)有一定的規(guī)則性,在開(kāi)頭的單詞通常會(huì)在后面出現(xiàn)。它主要是用來(lái)判斷哪些單詞順序更有可能,當(dāng)有一些單詞出現(xiàn)時(shí),它會(huì)預(yù)測(cè)下一個(gè)單詞。它可以確定哪個(gè)詞可以跟隨前一個(gè)被確定的字(匹配是一個(gè)連續(xù)的處理程序),從而可以排除某些不可能出現(xiàn)的詞。
該模型可以將漢語(yǔ)的語(yǔ)法和語(yǔ)義知識(shí)有機(jī)地結(jié)合起來(lái),通過(guò)對(duì)詞語(yǔ)間的相互關(guān)系進(jìn)行描述,從而提高了識(shí)別率,降低了檢索距離。通過(guò)語(yǔ)法和語(yǔ)義分析,建立了一個(gè)基于統(tǒng)計(jì)模型的語(yǔ)料模型。
(5)語(yǔ)音解碼和搜索算法
解碼是語(yǔ)音技術(shù)中的一種識(shí)別處理。在此基礎(chǔ)上,利用經(jīng)過(guò)訓(xùn)練的?HMM聲學(xué)模型、語(yǔ)言模型和詞典,在此基礎(chǔ)上構(gòu)建了一種基于?HMM聲學(xué)模型、語(yǔ)言模型和詞典的辨識(shí)網(wǎng)絡(luò),并在此基礎(chǔ)上通過(guò)一種新的搜索算法來(lái)找到最優(yōu)的一條路徑,即一條可以將語(yǔ)音信號(hào)輸出到最大的語(yǔ)段。因此,譯碼運(yùn)算是一種搜索算法,也就是利用譯碼端的檢索技術(shù)來(lái)查找最好的詞組。
連續(xù)語(yǔ)音識(shí)別中的檢索就是通過(guò)對(duì)輸入的語(yǔ)音進(jìn)行一系列的描述,并由此獲得相應(yīng)的譯碼序列。該搜索基于對(duì)語(yǔ)音模式和語(yǔ)音模式評(píng)分的公式。在實(shí)際應(yīng)用中,常常需要根據(jù)經(jīng)驗(yàn)對(duì)語(yǔ)言模型進(jìn)行較高的加權(quán),并設(shè)定一個(gè)較長(zhǎng)的單詞懲罰得分。
語(yǔ)音識(shí)別實(shí)質(zhì)上是模式識(shí)別,將未知的聲音和已知的參考模式逐個(gè)對(duì)比,得到最優(yōu)的參照模式。當(dāng)今語(yǔ)音識(shí)別技術(shù)的主流算法,主要有沃豐科技GaussMind語(yǔ)音識(shí)別技術(shù),基于上下文語(yǔ)義,采用大數(shù)據(jù)分析,對(duì)內(nèi)容實(shí)時(shí)動(dòng)態(tài)糾錯(cuò),自動(dòng)過(guò)濾敏感詞等;提供自定義聲學(xué)以及語(yǔ)言模型優(yōu)化。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來(lái)源:http://www.yzny.net.cn/ucm/faq/19494
ASR語(yǔ)音識(shí)別智能語(yǔ)音識(shí)別語(yǔ)音識(shí)別語(yǔ)音識(shí)別技術(shù)
