ASR語音識別解決人機交互痛點問題
文章摘要:人類通過語言,能夠把對世界的理解,想傳遞的信息,壓縮成一串很短的文字輸入給對方,對方聽完以后,能根據(jù)這些文字,還原事件、圖像,以及情感。鼠標(biāo)/鍵盤本質(zhì)上不是一種交互方式,而是一種輸入設(shè)備,真正的交互方式其實是以語言為載體的“命令”。隨著人工智能技術(shù)的發(fā)展,自然語言交互必定是實現(xiàn)“命令自然化”的關(guān)鍵突破口。語言聲學(xué)技術(shù)為人機交互注入了智能屬性,交互不再是精確的“指令”。
人類通過語言,能夠把對世界的理解,想傳遞的信息,壓縮成一串很短的文字輸入給對方,對方聽完以后,能根據(jù)這些文字,還原事件、圖像,以及情感。鼠標(biāo)/鍵盤本質(zhì)上不是一種交互方式,而是一種輸入設(shè)備,真正的交互方式其實是以語言為載體的“命令”。隨著人工智能技術(shù)的發(fā)展,自然語言交互必定是實現(xiàn)“命令自然化”的關(guān)鍵突破口。語言聲學(xué)技術(shù)為人機交互注入了智能屬性,交互不再是精確的“指令”。
在上世紀(jì)出現(xiàn)Google、百度等搜索引擎的時候,交互還是單向的,但出現(xiàn)智能手機之后我們的交互變成了雙向。比如蘋果的交互史,在剛開始做出來第一代iPhone的時候并沒有語音交互的能力,但經(jīng)過市場調(diào)研之后發(fā)現(xiàn)有75%的用戶都希望有語音控制。
于是,在后面兩代iPhone加入了語音控制,但到后面發(fā)現(xiàn)實際使用的用戶竟然不到5%,蘋果經(jīng)過總結(jié)之后發(fā)現(xiàn)不僅僅是語音,還必須有自然語言交互。
正如我們對自然語言處理技術(shù)的應(yīng)用場景的想象,關(guān)鍵在于足夠自然,人工智能永遠(yuǎn)都在追趕最高的自然智能。信息文明走向智能文明 ,機器需適應(yīng)人類的自然語言體系,然后完成任務(wù)。
語音識別包括:語音輸入、特征提取、特征向量、解碼器和單詞輸出。簡單來說,語音識別器利用算法通過以下步驟將口語轉(zhuǎn)化為文本:
步驟一:系統(tǒng)分析音頻;
步驟二:將音頻分解為多個部分;
步驟三:將音頻數(shù)字化為計算機可讀格式;
步驟四:使用算法將音頻與最合適的文本表示相匹配。
其中步驟四由解碼器完成,解碼器利用聲學(xué)模型、發(fā)音詞典和語言模型來確定適當(dāng)?shù)妮敵觥?/p>
語音識別的質(zhì)量基于轉(zhuǎn)化準(zhǔn)確率來衡量,發(fā)音、口音、音高、音量、背景噪音等因素都有可能增加錯誤率,因此必須添加聲學(xué)和語言模型:
聲學(xué)模型:用以表示語音和音頻信號的語言單位之間的關(guān)系。
語言模型:將語音與單詞序列相匹配,以區(qū)分發(fā)音相似的單詞。
基于自研原心引擎語音語義融合方案,打通業(yè)務(wù)領(lǐng)域數(shù)據(jù),實現(xiàn)業(yè)務(wù)定制化的效果體驗,自然場景識別率超過95%,個性化詞匯識別超過97%,同時為語義模塊提供豐富的識別結(jié)果輸出,使語義識別率提升5個點以上采用國際前沿的端到端語音語義一體化建模算法,將語音快速準(zhǔn)確識別為文字,支持一句話識別、語音內(nèi)容分析、機器人對話、智能質(zhì)檢等多個場景。
》》點擊免費試用asr平臺,優(yōu)勢一試便知
文章為沃豐科技原創(chuàng),轉(zhuǎn)載需注明來源:http://www.yzny.net.cn/ucm/faq/36554
ASR語音識別智能語音識別語音識別技術(shù)優(yōu)勢
