隨著大數據、云計算、物聯(lián)網等數字服務逐漸深入城鎮(zhèn)居民生活,智能人機交互技術亦嶄露頭角,為人們所熟知和試用。其中作為智能人機交互技術(HCI)里的一支先鋒軍--語音識別(ASR)技術先在國內落地開花,掀起了IT圈乃至各行各業(yè)的智能語音交互風,特別是隨著中國“智慧城市”概念的推進,智能駕駛、LBS大數據服務以及車聯(lián)網等技術解決方案日益成熟,也為智能語音交互提供了生根發(fā)芽的土壤。
在國內,靈云智能語音經過數十年的試煉,已形成獨具一格的“ASR+TTS”完美組合方案,并且提供“云+端”定制化服務,為創(chuàng)建具有漢語言習慣的智能語音交互解決方案提供了可持續(xù)性發(fā)展基礎。
自國際IT巨頭蘋果、谷歌、微軟進軍智能語音領域后,在全球都刮起了一陣智能語音熱潮--蘋果的siri,谷歌的無人駕駛汽車,微軟的智能語音助手Cortana,那么環(huán)視國內,又有哪家技術廠商足以抗衡呢?
靈云智能語音WGDC2014會議上嶄露鋒芒
近日在北京國家會議中心召開的以“融合 開放 智能”為主題的2014地理信息開發(fā)者大會(WGDC2014)上,我國著名智能駕駛專家、中國工程院院士李德毅在開幕演講中談到,智能駕駛在云計算、物聯(lián)網和智慧城市等戰(zhàn)略性新興產業(yè)中處于非常重要的示范地位,而位置服務又是智能駕駛的基礎。他認為大數據是支持路口導航的重要來源,是連接物理世界和虛擬精細地圖的橋梁。
而捷通華聲靈云智能人機交互技術平臺架構師陳明預見性地發(fā)言:“目前智能駕駛基于地圖大數據提供位置服務,而隨著這套數據和架構的日益完善,智能語音交互技術將被提上日程,它(智能語音)的便捷性、人性化、智能化將給予智能駕駛更多的樂趣與體驗。”
這也無怪乎現(xiàn)今世界各大品牌汽車制造商每推出一款新車型,必提及智能語音交互技術,這項智能語音交互體驗已成為高檔汽車爭鋒的必爭之技,但是因為國外技術壁壘的出現(xiàn)以及語言語種的限制,國內大多數汽車制造商并不能完美應用國外的智能語音交互技術。
正是基于這一契機,靈云(hcicloud.com)積極拓展智能語音技術與駕駛系統(tǒng)的對接,如今已可完美嫁接于各類主流車載系統(tǒng)和平臺。
靈云智能語音讓汽車能說會「道」
靈云智能語音技術解決方案不僅提供語音識別(ASR)、語音合成(TTS)、語義理解完整解決方案,而且融合了手寫識別、機器翻譯等多種智能人機交互技術能力,這在國內乃至全球都是不多見的。
靈云語音合成(TTS)技術目前已拓展可支持中、英、法、俄、德、日、韓等十幾國語種和中國部分地區(qū)方言以及名人模仿等定制化聲音服務,無論是現(xiàn)今正在趨于主流的智能駕駛還是將來更加先進的無人駕駛,它從真正意義上實現(xiàn)了機器的人性化、智能化、個性化發(fā)音。
此外,靈云語音識別(ASR)平臺級產品具有功能強大、識別率高、識別速度快、SDK開發(fā)簡單、開發(fā)包資源小等優(yōu)勢,能夠實時、準確地對輸入的語音進行識別。捷通華聲根據不同的用戶需求又將靈云語音識別系列引擎iSpeak劃分為三種:
1.iSpeak Freetalk(自由說引擎):自由說引擎又稱“聽寫機”或“語音轉寫”,基本上不限定用戶說話的范圍、方式和內容。自由說引擎可以對整段或者是分段傳入的音頻進行識別,返回識別后的文本。
2.iSpeak KeywordSpot(關鍵詞檢出引擎):關鍵詞檢出引擎可以在連續(xù)語音流中檢測出是否存在某些感興趣的關鍵詞。在使用時,需要事先給定一個關鍵詞列表,系統(tǒng)則給出識別出的關鍵詞在語音流中出現(xiàn)的位置。
3.iSpeak SpeechAnalysis(語音質檢分析引擎):質檢分析引擎在自由說引擎的基礎上,加入了針對語音質檢分析的一些額外的分析處理能力,包括話者分離、情緒檢測、靜音檢測和語速檢測等等。
靈云語音識別上述三種引擎可以滿足IVR導航系統(tǒng)應用的雙向需求:汽車智能體系既可以通過自助化語音服務進行有效的分流、緩解駕駛人員壓力,也可以通過識別結果挖掘用戶需求、完善地理導航精準性和智能性,從而使汽車駕駛實現(xiàn)“人車合一”的高層境界享受。
靈云智能語音:源自清華 服務全球
捷通華聲作為國內最早提供智能語音技術服務的專業(yè)化廠商,捷通華聲的靈云多語種語音合成(TTS)技術早已在金融、電信、交通、能源及CTI等領域大規(guī)模應用,在高鐵、民航、醫(yī)院等眾多領域……捷通華聲的靈云語音合成技術幾乎無處不在,市場占有率超過50%,服務十三億大眾大十五年之久。有了靈云語音合成技術的雄厚市場基礎,靈云語音識別在國內語音市場異軍突起,“能說會聽”語音交互技術雙劍合璧,為車載導航、智能電視、穿戴式設備等廠商提供了最完整的智能語音解決方案。
十幾年來,捷通華聲始終堅持自主研究語音合成、語音識別等智能人機交互(HCI)技術,并始終在國內智能語音技術領域保持領先者地位,在為智能駕駛、智慧城市等諸多領域提供多方面的智能技術服務支持的同時,也為保證我國智能語音交互技術始終與世界發(fā)展同步做出了重要貢獻。2011年,捷通華聲開創(chuàng)性的推出了全球第一個最大、最全的智能人機交互技術開放平臺 - 靈云,提供語音合成(TTS)、語音識別(ASR)、光學字符識別(OCR)、手寫識別(HWR)、語義理解、機器翻譯等智能人機交互(HCI)技術能力服務,并以“云 + 端”的方式向開發(fā)者全面開放。
捷通華聲在發(fā)展智能語音與靈云平臺的過程中,得到了清華大學的鼎力支持。2013年,清華大學產業(yè)基金入資捷通華聲,也因此確立了捷通華聲與清華大學的戰(zhàn)略合作關系。在清華大學的支持下,捷通華聲開始全面實施“靈云科技 源自清華 服務全球“的戰(zhàn)略規(guī)劃,靈云智能語音識別與靈云語音合成技術產品相輔相成,不僅為智能導航、智能駕駛、信息安全等領域系統(tǒng)應用提供更具中國漢語言特色的智能語音交互全面解決方案,也代表智能語音機交互技術在我國智能駕駛領域應用進入全面普及的階段。