omniture

捷通華聲靈云語音質(zhì)檢系統(tǒng)--深度神經(jīng)網(wǎng)絡(luò)的新應(yīng)用

2014-03-21 14:25

前言:深度神經(jīng)網(wǎng)絡(luò)(DNN)是近幾年在工業(yè)界和學(xué)術(shù)界新型的一個機器學(xué)習(xí)領(lǐng)域的熱點話題。DNN算法成功的將以往的智能識別率提高了一個顯著的檔次,可以極大地提高圖像、語音識別的準(zhǔn)確度,可以更快地推動智能人機交互(HCI)技術(shù)的進步。

  自DNN發(fā)展以來,該技術(shù)已成功應(yīng)用于語音識別技術(shù)領(lǐng)域,并取得很好的效果,在移動互聯(lián)網(wǎng)中已實現(xiàn)廣泛應(yīng)用。近一年來,伴隨語音質(zhì)檢系統(tǒng)在各在呼叫中心得到越來越廣的重視,捷通華聲通過與清華大學(xué)合作,成功將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到靈云語音質(zhì)檢分析系統(tǒng)中,促進語音轉(zhuǎn)寫識別率達到實用化水平,從而使語音質(zhì)檢質(zhì)量與效率得到大幅提升。

  深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)是機器學(xué)習(xí)研究中的一個新的領(lǐng)域,其動機在于建立、模擬人腦進行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),它模仿人腦的機制來解釋數(shù)據(jù),例如圖像,聲音和文本。2010年,微軟雷德蒙研究院發(fā)現(xiàn)深層網(wǎng)絡(luò)可顯著提高語音識別的精度。此后,微軟亞洲研究院在測試中發(fā)現(xiàn)應(yīng)用DNN的語音識別模型識別錯誤率比最低錯誤率降低了33%之多,即絕對識別率提升了6.6%。

  “使結(jié)果發(fā)生翻天覆地變化的是DNN,通過應(yīng)用DNN,在日常對話中,最多可使單詞識別錯誤率比之前降低42%。這意味著,以往10個錯誤,有4個能用這種方法解決。這是自HMM(隱馬爾科夫模型)出現(xiàn)以來,單項技術(shù)使語音識別精確度獲得的最大提升”,微軟亞洲研究院研究員Frank Seide解釋道。

  

  顯然,比起傳統(tǒng)的混合高斯模型(GMM),DNN在識別精度上具有相當(dāng)?shù)膬?yōu)勢。

  在采用了最先進的第4代深度神經(jīng)網(wǎng)絡(luò)算法后,捷通華聲靈云語音識別的通用語音識別率達到93%以上,定制模型的識別率達到97%以上,各項指標(biāo)已經(jīng)達到國內(nèi)最好水準(zhǔn)。然而,在對其他聲源的識別能力上DNN是否會有所突破呢?2013年,捷通華聲與清華大學(xué)合作,開始在靈云語音質(zhì)檢系統(tǒng)上應(yīng)用DNN技術(shù)。該系統(tǒng)以識別“電話通道語音”為核心,將通話錄音中的語音信息提取出來,通過靈云語音識別轉(zhuǎn)換成文本保存在系統(tǒng)中,再通過提取關(guān)鍵詞、靜音檢測、情緒檢測、語速檢測等方式對語音進行篩選分析,從而得出質(zhì)檢結(jié)果。通過靈云語音質(zhì)檢系統(tǒng),可以幫助客戶將客服錄音數(shù)據(jù)進行各種分析,從而針對性地改善呼叫中心的服務(wù)質(zhì)量。其中除對企業(yè)自身呼叫中心質(zhì)檢之外,這套系統(tǒng)還可以為企業(yè)分析客戶的反饋意見,跟蹤廣大用戶的熱點問題,從而對公司的產(chǎn)品和服務(wù)提出優(yōu)化建議,實現(xiàn)更加精準(zhǔn)的市場決策。因此,“電話通道語音”識別的精度越高意味著語音質(zhì)檢的效率越高、客戶體驗越好。在應(yīng)用DNN之后,客戶普遍反映靈云語音質(zhì)檢的質(zhì)量和效率已經(jīng)有明顯的提升,證明了DNN在多聲源識別中的適用能力。

  DNN的火熱雖早已經(jīng)引起語音企業(yè)的重視,而圖像是DNN最早嘗試的應(yīng)用領(lǐng)域--它已經(jīng)使 YouTube的視頻分類提高了70%的準(zhǔn)確率。而恰好圖像識別又是靈云的另一條主打產(chǎn)品線:靈云智能圖像。在語音識別和DNN產(chǎn)生化學(xué)反應(yīng)后,我們有理由期待靈云智能圖像識別&DNN在票證、車牌、人臉等圖像識別領(lǐng)域的更新的表現(xiàn)。

  捷通華聲在語音識別、圖像識別等技術(shù)領(lǐng)域全面應(yīng)用DNN,得到了清華大學(xué)的鼎力支持。2013年,清華大學(xué)產(chǎn)業(yè)基金入資捷通華聲,成為捷通華聲第二大股東,也因此確立了捷通華聲與清華大學(xué)的戰(zhàn)略合作關(guān)系,并得到清華大學(xué)HCI領(lǐng)域中強大科研力量的支持。捷通華聲憑借自身在智能語音、智能圖像、自然語言理解等技術(shù)領(lǐng)域的技術(shù)積累,與清華大學(xué)HCI技術(shù)各領(lǐng)域?qū)嶒炇?、專家教授建立起?lián)合研究機制,為長期發(fā)展HCI技術(shù)奠定了堅實的基礎(chǔ)。

  捷通華聲此次與清華大學(xué)在DDN領(lǐng)域的成功合作,也標(biāo)示清華大學(xué)在HCI技術(shù)領(lǐng)域的雄厚科研力量通過與市場需求的緊密結(jié)合,開始全面服務(wù)社會。未來發(fā)展,捷通華聲將發(fā)揚清華大學(xué)在國家科技進步、國民經(jīng)濟建設(shè)中的強大推動力與影響力,全面推進靈云發(fā)展戰(zhàn)略,促進提升清華大學(xué)HCI技術(shù)在產(chǎn)業(yè)中的影響力,助力清華大學(xué)構(gòu)建“學(xué)術(shù)超前、科研領(lǐng)先、產(chǎn)業(yè)化推廣最強”的領(lǐng)導(dǎo)地位,從而共同實現(xiàn)“靈云科技 源自清華 服務(wù)全球”的戰(zhàn)略發(fā)展規(guī)劃,為中國HCI產(chǎn)業(yè)化發(fā)展做出更大的貢獻。

消息來源:CTI論壇