乱码精品一卡二卡无卡,亚洲欧美综合精品成人网,真人性囗交69视频,天天摸天天碰天天弄天天爽,又色又爽又爽黄的视频免费

沃豐科技AI科普|什么是ASR語音識別?(附ASR技術(shù)應(yīng)用案例)

作者:udesk 2526文章閱讀時(shí)間:8分鐘

文章摘要:在過去的十年里,人工智能驅(qū)動的語音識別系統(tǒng)已經(jīng)慢慢成為我們?nèi)粘I畹囊徊糠?,本篇文章從幾個部分科普一下什么是ASR技術(shù),以及沃豐科技在其中的成功案例。

沃豐科技

在過去的十年里,人工智能驅(qū)動的語音識別系統(tǒng)已經(jīng)慢慢成為我們?nèi)粘I畹囊徊糠?,從語音搜索到客服中心、汽車、醫(yī)院和餐廳里的虛擬助理。許多行業(yè)都在使用自動語音識別(ASR)來提高業(yè)務(wù)生產(chǎn)力、應(yīng)答效率以及在線業(yè)務(wù)滿意度。

接下來,小編通過本篇文章來講述一下這背后的技術(shù)以及流程。

首先什么是ASR技術(shù)?

語音識別技術(shù)是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計(jì)算機(jī)可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。簡單來說,ASR技術(shù)就是將人的語言轉(zhuǎn)化為計(jì)算機(jī)能夠識別的文字的過程。

語音識別過程一般包括三個部分:

????① 聲學(xué)模型:描述在給定詞的情況下,對應(yīng)聲學(xué)信號的概率。

????② 語言模型:描述語言序列關(guān)系的模型,關(guān)注序列產(chǎn)生的概率。

③ 解碼器:根據(jù)聲學(xué)模型和語言模型,搜索出最有可能的詞序列,其本質(zhì)是一個動態(tài)

規(guī)劃算法。

語音識別的一般流程為根據(jù)輸入的語音,提取語音特征,通過解碼器融合訓(xùn)練好的語言模型和聲學(xué)模型,得到最終的詞序列結(jié)果。字典的作用根據(jù)聲學(xué)模型識別出來的音素(漢語中一般為聲韻母),來找到對應(yīng)的漢字(詞)或者單詞,用來在聲學(xué)模型和語言模型建立橋梁,將兩者聯(lián)系起來。

ASR技術(shù)的發(fā)展歷程

語音識別技術(shù)在10年以前是統(tǒng)計(jì)模型;10年到20年,運(yùn)用的模型包括了特征提取、聲學(xué)模型,語言模型等模塊,是一個pipeline的系統(tǒng),而到了20年以后,end-to-end從輸入到輸出只用一個算法模型,輸入是語音信號,輸出就是最終的詞序列的結(jié)果,也叫做端到端技術(shù);另外這一階段也將圖像、翻譯技術(shù)融入到語音識別中,滿足多種場景的需求。

另外模型訓(xùn)練方面,其模型分為通用領(lǐng)域和垂直領(lǐng)域兩種。近年來,根據(jù)語音識別在不同場景中的應(yīng)用效果顯示,通用模型識別準(zhǔn)確率遠(yuǎn)低于垂直模型的識別準(zhǔn)確率,所以許多相關(guān)技術(shù)公司都在轉(zhuǎn)向垂直領(lǐng)域的模型訓(xùn)練。

ASR技術(shù)應(yīng)用中遇到的難點(diǎn)

在自動語音識別應(yīng)用場景中,那句“抱歉,我聽不懂您在說什么”或者“不好意思,請您再重復(fù)一遍”大概是所有使用者以及開發(fā)者的噩夢吧。這兩句話代表的對話的失敗,而導(dǎo)致這種問題出現(xiàn)的原因大概是以下幾個方面,這也是ASR技術(shù)在落地應(yīng)用中需要克服的難點(diǎn)問題。

  • 噪音問題

在實(shí)際應(yīng)用中,用戶在于語音機(jī)器人溝通的過程中,所處的空間是具備多樣性的。比如外賣員、快遞員在送貨的過程中,會有風(fēng)噪聲、喇叭噪聲、行駛聲等,這對于語音識別就會有一定的影響,比如大促期間,顧客在地鐵上、超市中的聲音也會對語音識別構(gòu)成影響。

  • 口音問題

口音問題包含方言以及口音不準(zhǔn)的問題。所謂“十里不同音,百里不同俗”。作為一個幅員遼闊的多民族國家,我國56個民族使用的語言分屬五大語系,共有80種以上語言。其中,漢語的使用人數(shù)最多,分為標(biāo)準(zhǔn)語(普通話)和方言。漢語方言通常分為十大方言,各方言區(qū)內(nèi),又分布著若干次方言和許多種土語。部分方言之間差異很大,無法通話。為了消除語言隔閡,國家在全社會大力推廣普通話。然而,來自天南海北的人們,又賦予普通話五花八門的口音。而對于語音識別來說,這就是一個極其困難的事情。

  • 實(shí)體識別

通俗來說,語音識別模型就是一個概率模型,當(dāng)語音傳入語音識別模型中,輸出為日常生活中常用到的詞語與句子的概率是高于其他稀疏詞的,日常生活中人名、地名、機(jī)構(gòu)名、專有名詞、藥名等,這種在不常用到,所以輸出為它本身的人名、地名的概率比較小,因此對這些詞的識別準(zhǔn)確率是決定該模型識別準(zhǔn)確率高低的關(guān)鍵因素。

?目前應(yīng)用的前沿技術(shù)是什么?(以沃豐科技相關(guān)技術(shù)為例)?

  • 垂直領(lǐng)域數(shù)據(jù)訓(xùn)練

相較于通用數(shù)據(jù),沃豐科技專注于客服領(lǐng)域,已經(jīng)為超過60家世界500強(qiáng)、200家中國500強(qiáng)客戶提供服務(wù),沉淀了大量的可用于模型訓(xùn)練的客服數(shù)據(jù),能夠支撐沃豐科技對模型進(jìn)行深度的優(yōu)化。

  • 端到端技術(shù)方案

與BAT企業(yè)相比,沃豐科技率先完成了從pipeline到端到端到技術(shù)改進(jìn),能將輸入語音直接進(jìn)行轉(zhuǎn)化,而傳統(tǒng)pipeline串聯(lián)過程中會有信息的遺失,信息轉(zhuǎn)化,轉(zhuǎn)化鏈路長。端到端的技術(shù)則轉(zhuǎn)化鏈路短、速度快,目前沃豐科技在這一過程中也實(shí)現(xiàn)了模型深度優(yōu)化。?

  • 語言與聲學(xué)模型結(jié)合

熱詞優(yōu)化方面,行業(yè)內(nèi)對詞語進(jìn)行少量的優(yōu)化的情況下,都會用這個熱詞的方案,比如優(yōu)化姓名、地址、藥名等無實(shí)際意義且不常見的詞,這種詞用傳統(tǒng)的語言模型的方式或者熱詞方式是無法解決的。而沃豐科技通過語言模型與聲學(xué)模型結(jié)合的方式解決了這種問題,準(zhǔn)確率得到大幅提升。

通過上述方式,沃豐科技GaussMind語音識別技術(shù)達(dá)到了行業(yè)先進(jìn)水平,識別率可達(dá)95%。能夠進(jìn)行語音實(shí)時(shí)轉(zhuǎn)寫,邊接收語音,邊返回文字;識別效果優(yōu)化,個性化準(zhǔn)確率提升

 

附錄:

贈送幾個沃豐科技在ASR識別過程中的成功案例,用來佐證其在目前垂直行業(yè)中的高識別準(zhǔn)確率,也為其他企業(yè)相關(guān)場景的識別率提升提供一個解決思路。

  • 96123

96123 是北京地鐵服務(wù)熱線,于2021年3月31日上線試運(yùn)行,業(yè)務(wù)范圍覆蓋北京城市軌道交通全路網(wǎng)范圍內(nèi)的運(yùn)營、票務(wù)和站內(nèi)服務(wù)等相關(guān)信息咨詢等服務(wù),如乘車線路,票價(jià)查詢等日常乘坐軌道交通伴隨的問題。

痛點(diǎn)問題

1.日常咨詢量較大,人工處理工單量大、工單流轉(zhuǎn)效率有待提升

2.環(huán)境噪音、背景噪音及高地鐵站名稱相似度,數(shù)字與漢字并存,給語音識別帶來挑戰(zhàn)

3.北京作為首都,人員范圍廣,五湖四海的人群口音給語音識別帶來難度

4.用戶表達(dá)多樣性高,路線信息語義識別困難

解決方案

全面定制化:自研的GaussMind“原心引擎”進(jìn)行全面定制化識別、理解,快速、高效地打造96123智能語音機(jī)器人

ASR(自動語音識別):“聽清”用戶說的“是什么”,準(zhǔn)確識別來自五湖四海的口音

NLP(自然語言處理):“聽懂”用戶說的是“什么意思”,準(zhǔn)確理解出發(fā)地、目的地

對接業(yè)務(wù)系統(tǒng):為用戶快速提供查詢結(jié)果信息,讓北京地鐵出行查詢更加智能、便捷

 

  • 松果出行

松果出行成立于2017年9月,在全國各縣域運(yùn)營共享電單車(松果電單車)及新能源汽車租賃(松果租車)等業(yè)務(wù),已在全國24個省近千個縣級區(qū)域成功運(yùn)營,成為縣域城市公共交通系統(tǒng)重要組成部分,是下沉市場共享電單車的領(lǐng)航企業(yè)。

痛點(diǎn)問題:

1、面對縣域用戶,需多樣化口音支持:面向全國27個省的縣域城市,主要集中在三四五線城市用戶,各地用戶的普通話往往帶有當(dāng)?shù)乜谝?,需要做到支持口音識別。

2、多系統(tǒng)對接:松果出行自有呼叫中心、短信平臺、訂單管理、車輛管理等系統(tǒng),需要將機(jī)器人與多個系統(tǒng)對接,完成訂單、車輛的自動管理,支持特定業(yè)務(wù)自動生成工單。

3、業(yè)務(wù)問題廣泛且普遍共享電單車在使用過程中遇到的問題比較普遍,涉及問題場景較多,例如車輛問題:車輛故障、停車失??;訂單問題:訂單費(fèi)用、訂單退費(fèi);賬戶押金問題:賬戶余額、押金等。

解決方案

  • 定制化識別:松果出行縣域城市客戶群體規(guī)模大,多數(shù)客戶帶有口音,客戶極其看重ASR識別轉(zhuǎn)寫能力,沃豐科技經(jīng)過ASR模型定制化,識別準(zhǔn)確率遠(yuǎn)高于訊飛等其他供應(yīng)商。
  • 多方系統(tǒng)協(xié)調(diào)對接:基于以往對接其他呼叫中心的豐富經(jīng)驗(yàn),語音機(jī)器人與松果已有呼叫中心通過IP點(diǎn)對點(diǎn)方式直接對接,同時(shí)在機(jī)器人話術(shù)流程中增加查詢訂單、車輛自動關(guān)鎖 、創(chuàng)建工單及發(fā)送短信等外部接口,觸發(fā)某些特定業(yè)務(wù)后自動進(jìn)行,實(shí)現(xiàn)多個系統(tǒng)間的連接。
  • 語音標(biāo)注及聲學(xué)模型訓(xùn)練:打通松果問題話術(shù)、知識庫等行業(yè)歷史數(shù)據(jù),通過原心引擎 ,輸出識別結(jié)果,基于深度學(xué)習(xí)NLU模型,融合ASR輸出最優(yōu)結(jié)果,在對話詳情中嵌入語音標(biāo)注,支持錄音轉(zhuǎn)寫問題標(biāo)注,不斷優(yōu)化原心引擎,使得三線城市帶口音的普通話轉(zhuǎn)寫正確率達(dá)到95 %以上。同時(shí),基于業(yè)務(wù)需求標(biāo)準(zhǔn)化,語音機(jī)器人系統(tǒng)內(nèi)置的變量類型支持實(shí)體識別,對語義進(jìn)行定制化識別,實(shí)現(xiàn)與客戶的良好交互。
  • 想了解ASR技術(shù)應(yīng)用下的語音機(jī)器人可直接戳下方圖片免費(fèi)咨詢

文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://www.yzny.net.cn/ucm/report/20695

AI智能電話機(jī)器人AI機(jī)器人AI聊天機(jī)器人AI語音機(jī)器人ASR

上一篇: 下一篇:

數(shù)字化轉(zhuǎn)型

沃豐科技AI科普|什么是ASR語音識別?(附ASR技術(shù)應(yīng)用案例)的相關(guān)推薦

最新文章推薦

展開更多
?

手機(jī)登錄下載

?

使用手機(jī)登錄賬號,免費(fèi)下載白皮書

?
手機(jī)登錄