語(yǔ)音識(shí)別技術(shù)的發(fā)展歷史
文章摘要:1952年,貝爾學(xué)會(huì)發(fā)明了一種能夠辨認(rèn)10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。但是,在六十年代后期和七十年代早期,真正有了實(shí)質(zhì)性的進(jìn)步,并且把它當(dāng)作一個(gè)主要的主題來(lái)進(jìn)行研究。這主要是由于計(jì)算機(jī)技術(shù)的發(fā)展,使得...
1952年,貝爾學(xué)會(huì)發(fā)明了一種能夠辨認(rèn)10個(gè)英文數(shù)字的語(yǔ)音識(shí)別系統(tǒng)。
但是,在六十年代后期和七十年代早期,真正有了實(shí)質(zhì)性的進(jìn)步,并且把它當(dāng)作一個(gè)主要的主題來(lái)進(jìn)行研究。這主要是由于計(jì)算機(jī)技術(shù)的發(fā)展,使得語(yǔ)音識(shí)別的軟硬件結(jié)合起來(lái),尤其是語(yǔ)音的線性預(yù)測(cè)編碼(LPC)和 DTW (Dynamic Transmission, DTW)技術(shù),可以很好地解決語(yǔ)音信號(hào)的特征抽取和不等長(zhǎng)度的匹配問題。這一階段的語(yǔ)音識(shí)別技術(shù)是以模板匹配為基礎(chǔ),研究范圍僅限于具體人群,單字單字的識(shí)別,并以線性預(yù)測(cè)倒譜和 DTW技術(shù)為基礎(chǔ),建立了一套針對(duì)具體人的單字語(yǔ)音識(shí)別系統(tǒng);同時(shí)給出了 VQ和 HMM (HumanMulti-Multiple Multimechanism, HMM)兩種方法。
由于使用范圍的擴(kuò)展,詞匯表、特定人、孤立詞等都有必要放松對(duì)語(yǔ)音識(shí)別的限制,但同時(shí)也給人們帶來(lái)了一些新的問題:
一、詞表的擴(kuò)展,使模板的選擇和構(gòu)建變得很困難;
二、在連續(xù)語(yǔ)音中,每個(gè)音素、音節(jié)和單詞之間沒有明確的界限,每個(gè)音素單元都有一個(gè)共同的發(fā)音,這是受到語(yǔ)境的強(qiáng)烈影響;
三、在不同的人群中,不同的人說(shuō)著同樣的語(yǔ)言,其音色特點(diǎn)也會(huì)有很大的不同,甚至不同的時(shí)間,不同的生理,不同的心理狀態(tài),不同的人,所說(shuō)的內(nèi)容也會(huì)有很大的不同;
四、語(yǔ)音識(shí)別存在著背景噪音和其它干擾。所以,傳統(tǒng)的模板匹配算法已經(jīng)不能滿足要求。
在實(shí)驗(yàn)室里,語(yǔ)音識(shí)別技術(shù)取得了重大突破:在實(shí)驗(yàn)室里,人們首先打破了詞匯量大、連續(xù)語(yǔ)音和非特定人群三大難題,并首次將三種特征整合到一個(gè)系統(tǒng)中,其中最具代表性的是卡耐基梅隆大學(xué)的 Sphinx系統(tǒng),該系統(tǒng)是首款針對(duì)非特定人群、大詞匯量連續(xù)語(yǔ)音識(shí)別的高性能系統(tǒng)。
在此期間,語(yǔ)音識(shí)別技術(shù)得到了進(jìn)一步的發(fā)展, HMM模式和 ANN技術(shù)的應(yīng)用成為了一個(gè)新的發(fā)展趨勢(shì)。HMM模式的推廣,得益于美國(guó) AT& TBell Labiner等人的努力,他們將 HMM的復(fù)雜的純數(shù)學(xué)模型轉(zhuǎn)化為工程化,讓更多的研究者認(rèn)識(shí)和理解,使得統(tǒng)計(jì)技術(shù)在語(yǔ)音識(shí)別中占據(jù)了主導(dǎo)地位。
統(tǒng)計(jì)分析的視角由微觀到宏觀,沒有刻意去追求精確性,而更傾向于從總體上(統(tǒng)計(jì)學(xué))的觀點(diǎn)來(lái)構(gòu)建最優(yōu)的語(yǔ)音識(shí)別系統(tǒng)。在語(yǔ)音模型上,基于 Markov鏈的語(yǔ)音序列建模技術(shù) HMM (Multi-Markov鏈)能夠較好地克服短時(shí)穩(wěn)定、長(zhǎng)時(shí)變的特點(diǎn),能夠?qū)⒛承┗镜慕挝粯?gòu)建為連續(xù)的語(yǔ)句模型,具有較高的準(zhǔn)確性和靈活性。在語(yǔ)言層次,采用 N元統(tǒng)計(jì)方法,對(duì)實(shí)際大規(guī)模語(yǔ)料庫(kù)中詞語(yǔ)的同現(xiàn)概率進(jìn)行統(tǒng)計(jì),以區(qū)別不同的語(yǔ)音和同音語(yǔ)音。此外,基于語(yǔ)法規(guī)則的人工神經(jīng)網(wǎng)絡(luò)和基于語(yǔ)法規(guī)則的語(yǔ)言加工方法也被廣泛地用于語(yǔ)音識(shí)別。
20世紀(jì)90年代早期, IBM,蘋果, AT& T, NTT等知名公司都投入了大量資金用于實(shí)際應(yīng)用的語(yǔ)音識(shí)別系統(tǒng)。在20世紀(jì)90年代中期和晚期的實(shí)驗(yàn)室研究中,語(yǔ)音識(shí)別技術(shù)具有良好的評(píng)價(jià)機(jī)制。具有代表性的是 IBM公司的 ViaVoice和 DragonSystem的 Nuance語(yǔ)音平臺(tái)、微軟的 Whisper、 Sun的 VoiceTone等。
IBM公司在1997年研發(fā)了漢語(yǔ) ViaVoice語(yǔ)音識(shí)別系統(tǒng),并在第二年推出了ViaVoice'98,該系統(tǒng)具有上海方言,廣東話,四川方言等方言。該詞典包含32,000字的基礎(chǔ)詞匯表,可擴(kuò)充至65,000字。此外,還包含了辦公室常用詞條,并具備“糾錯(cuò)機(jī)制”,平均識(shí)別率可達(dá)95%。本系統(tǒng)是漢語(yǔ)連續(xù)語(yǔ)音識(shí)別的典型代表。我國(guó)的語(yǔ)音識(shí)別技術(shù)是從50年代開始的,但是在最近幾年里卻得到了快速的發(fā)展。從實(shí)驗(yàn)室到實(shí)用化的研究。自1987年實(shí)施863計(jì)劃以來(lái),國(guó)家863智能計(jì)算機(jī)專家小組對(duì)語(yǔ)音識(shí)別技術(shù)進(jìn)行了專項(xiàng)立項(xiàng)。目前,國(guó)內(nèi)的語(yǔ)音識(shí)別技術(shù)已基本趕上國(guó)外,漢語(yǔ)語(yǔ)音識(shí)別技術(shù)也具有自身的特色和優(yōu)越性,處于世界領(lǐng)先地位。中科院自動(dòng)化所,聲學(xué)所,清華大學(xué),北京大學(xué),哈爾濱工業(yè)大學(xué),上海交通大學(xué),中國(guó)科技大學(xué),北京郵電大學(xué),華中科技大學(xué)等科研機(jī)構(gòu),以清華大學(xué)電子工程系和中科院自動(dòng)化研究所模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室為代表。
由清華大學(xué)電子工程系的語(yǔ)音技術(shù)和特殊芯片設(shè)計(jì)團(tuán)隊(duì)研制的漢語(yǔ)數(shù)字串連續(xù)語(yǔ)音識(shí)別系統(tǒng),其識(shí)別準(zhǔn)確率為94.8%,固定長(zhǎng)度字符串為96.8%。當(dāng)拒絕率為5%時(shí),該方法的識(shí)別率為96.9%,定長(zhǎng)字符串為98.7%,其性能已接近實(shí)際應(yīng)用。研制的5000字信封校驗(yàn)非特定人群的連續(xù)語(yǔ)音識(shí)別系統(tǒng),其識(shí)別率分別為98.73%和99.96%;能區(qū)分普通話和四川方言,滿足實(shí)際需要。
中科院自動(dòng)化所及其下屬的模特科公司于2002年發(fā)布了一款“天語(yǔ)”中文語(yǔ)音系統(tǒng),該系列產(chǎn)品是針對(duì)各種計(jì)算平臺(tái)與應(yīng)用而開發(fā)的 PattekASR,終結(jié)了1998年以來(lái)中文語(yǔ)音識(shí)別領(lǐng)域被外國(guó)公司壟斷的局面。
沃豐科技GaussMind語(yǔ)音識(shí)別技術(shù)基于自研原心引擎語(yǔ)音語(yǔ)義融合方案,打通業(yè)務(wù)領(lǐng)域數(shù)據(jù),實(shí)現(xiàn)業(yè)務(wù)定制化的效果體驗(yàn),自然場(chǎng)景識(shí)別率超過(guò)95%,個(gè)性化詞匯識(shí)別超過(guò)97%,同時(shí)為語(yǔ)義模塊提供豐富的識(shí)別結(jié)果輸出,使語(yǔ)義識(shí)別率提升5個(gè)點(diǎn)以上。
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來(lái)源:http://www.yzny.net.cn/ucm/faq/19507
