omniture

元腦生態(tài)伙伴馬達(dá)智數(shù)助力信通院打通AI數(shù)據(jù)“任督二脈”

2022-03-29 14:08 3538

北京2022年3月29日 /美通社/ -- 馬達(dá)智數(shù)與浪潮信息通過“元腦生態(tài)”合作,幫助中國信息通信研究院云計算和大數(shù)據(jù)研究所(以下簡稱“信通院云大所”)構(gòu)建了AI數(shù)據(jù)集服務(wù)平臺,實(shí)現(xiàn)AI數(shù)據(jù)的全流程管理與維護(hù),可節(jié)省約80%的數(shù)據(jù)流轉(zhuǎn)時間和60%的資源開銷,使開發(fā)效率提升50%以上,有效降低用戶使用難度,全面服務(wù)AI應(yīng)用創(chuàng)新,助力AI應(yīng)用的產(chǎn)業(yè)化落地。

數(shù)據(jù)之困 AI創(chuàng)新面臨三重難題

信通院云大所希望能夠構(gòu)建一體化AI基礎(chǔ)設(shè)施,解決AI數(shù)據(jù)從收集、整理、存儲歸檔,到調(diào)用的全流程維護(hù)工作。在這一過程中,遇到了三大問題。

首先,要解決數(shù)據(jù)來源的問題。AI模型訓(xùn)練需要海量數(shù)據(jù),以語音識別模型為例,要訓(xùn)練出能應(yīng)對各種場景、語速、口音、口語等復(fù)雜情況的高準(zhǔn)確度語音識別模型,至少需要1000個小時以上的訓(xùn)練數(shù)據(jù),按每條數(shù)據(jù)平均4秒時長計算,數(shù)據(jù)量至少在90萬條以上。文字識別OCR算法訓(xùn)練需要的圖片數(shù)量則達(dá)到百萬級別。如果僅從業(yè)務(wù)過程中獲取數(shù)據(jù),不僅獲取難度很大,而且在數(shù)據(jù)多樣性、數(shù)據(jù)規(guī)模等方面也很難滿足AI訓(xùn)練的基本需求。

其次,如何保證數(shù)據(jù)質(zhì)量。在大多數(shù)AI模型訓(xùn)練任務(wù)中,“垃圾輸入”會帶來“垃圾輸出”。包括深度卷積神經(jīng)網(wǎng)絡(luò)在內(nèi)的監(jiān)督學(xué)習(xí)方法依賴的是經(jīng)過適當(dāng)標(biāo)注的優(yōu)質(zhì)數(shù)據(jù),特別是需要大量專家知識的專業(yè)領(lǐng)域,更是對于大規(guī)模標(biāo)記數(shù)據(jù)的可用性有著極高要求。

最后,如何更有效地存儲和更新數(shù)據(jù)。在AI應(yīng)用中,數(shù)據(jù)的增長是幾何級數(shù)的。使用傳統(tǒng)的集中式存儲和集中式通信模式,往往無法通過一個巨型單點(diǎn)支撐主流AI模型的體量,存儲和通信能力都是瓶頸,而且效率會非常低下。

元腦賦智 打通AI數(shù)據(jù)“任督二脈

馬達(dá)智數(shù)是國內(nèi)最早、最專業(yè)的AI基礎(chǔ)數(shù)據(jù)服務(wù)器商之一,致力于為AI產(chǎn)業(yè)鏈的相關(guān)客戶提供高質(zhì)量、標(biāo)準(zhǔn)化的定制數(shù)據(jù)集服務(wù),助力AI場景化應(yīng)用快速落地,擁有5000+商業(yè)AI數(shù)據(jù)成功案例。2019年,馬達(dá)智數(shù)與浪潮信息達(dá)成了元腦生態(tài)簽約,共享浪潮信息在AI計算、資源與算法方面的全棧能力,共同打造領(lǐng)先的AI數(shù)據(jù)服務(wù)和豐富的AI生態(tài)體系,助力AI應(yīng)用的產(chǎn)業(yè)化落地。

馬達(dá)智數(shù)與浪潮信息在元腦生態(tài)的框架下進(jìn)行了緊密合作。雙方聯(lián)合推出了業(yè)內(nèi)領(lǐng)先的AI數(shù)據(jù)一體機(jī),整合了浪潮AI服務(wù)器、浪潮資源平臺AIStation、馬達(dá)智數(shù)全系列AI數(shù)據(jù)產(chǎn)品與服務(wù),具有高度集成、一鍵部署、配置靈活等特點(diǎn),能夠幫助行業(yè)AI用戶高效地獲取、加工和管理數(shù)據(jù),并開展模型訓(xùn)練,助力用戶快速、低成本地實(shí)現(xiàn)AI技術(shù)導(dǎo)入。

在信通院云大所AI數(shù)據(jù)集服務(wù)平臺項目中,馬達(dá)智數(shù)攜手浪潮信息提供了基于AI數(shù)據(jù)一體機(jī)的一體化解決方案。方案使用高速IO擴(kuò)展、大容量內(nèi)存的浪潮AI服務(wù)器作為硬件平臺,為數(shù)據(jù)收集、存儲、標(biāo)注和管理提供強(qiáng)大的計算力支撐。并集成圖片類、文本類、語音類等常用數(shù)據(jù)集,通過數(shù)據(jù)標(biāo)注平臺提高數(shù)據(jù)質(zhì)量,滿足信通院云大所基礎(chǔ)測試、算法開發(fā)等需求。同時將已有的分散的各項系統(tǒng)數(shù)據(jù)集中于AI數(shù)據(jù)集服務(wù)平臺進(jìn)行統(tǒng)一管理、協(xié)同處理,構(gòu)建智能開發(fā)一體化環(huán)境。

通過對數(shù)據(jù)的統(tǒng)一管理調(diào)度,該方案有效降低了數(shù)據(jù)流轉(zhuǎn)時間和資源開銷,可節(jié)省約80%的數(shù)據(jù)流轉(zhuǎn)時間和60%的網(wǎng)絡(luò)、計算和存儲資源開銷。數(shù)據(jù)收集和標(biāo)注平臺的整合接入,則大大提高了數(shù)據(jù)加工環(huán)節(jié)的效率,用戶可以直接通過數(shù)據(jù)標(biāo)注平臺標(biāo)注數(shù)據(jù),并實(shí)時查看數(shù)據(jù)質(zhì)量。同時,提供穩(wěn)定的人工標(biāo)注服務(wù),可使開發(fā)效率提升50%以上,有力地支持了口罩識別、語音識別等AI模型訓(xùn)練與應(yīng)用。

信通院云大所AI數(shù)據(jù)集服務(wù)平臺是馬達(dá)智數(shù)與浪潮信息在元腦生態(tài)中達(dá)成的重要合作成果。未來,馬達(dá)智數(shù)將繼續(xù)攜手浪潮信息,與更多的元腦生態(tài)合作伙伴一起“走出去”,攜手搭建起直通產(chǎn)業(yè)應(yīng)用場景的“橋梁”,推動AI應(yīng)用在更多場景和行業(yè)落地。

消息來源:浪潮
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection