omniture

檔案大數(shù)據(jù)來襲

2014-04-29 16:18

據(jù)統(tǒng)計,我國“十一五”末館藏檔案已達到39264萬卷(件)。隨著社會活動快速加強、網(wǎng)絡(luò)信息化日益普遍,移動互聯(lián)、社交網(wǎng)絡(luò)、電子商務(wù)大大拓展了網(wǎng)絡(luò)的疆界和應(yīng)用領(lǐng)域,悄無聲息,大數(shù)據(jù)時代已經(jīng)來臨。我國的檔案數(shù)據(jù)廣泛存在于政府、企業(yè)的各行各業(yè)。我們正走向我國的檔案大數(shù)據(jù)時代。

一、什么是檔案大數(shù)據(jù)

檔案大數(shù)據(jù)是在檔案方面涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營決策更積極目的的信息。

我們通常理解為大量非結(jié)構(gòu)化數(shù)據(jù)(包含所有格式的辦公文檔、文本、圖片、圖像和音頻/視頻信息等等)和半結(jié)構(gòu)化數(shù)據(jù)(結(jié)構(gòu)方面缺少統(tǒng)一規(guī)律的數(shù)據(jù)),這些數(shù)據(jù)在獲取并用于分析時會花費過多時間和金錢。

檔案大數(shù)據(jù)技術(shù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù)信息,而在于對這些有較高價值的飽含歷史意義的數(shù)據(jù)進行專業(yè)化處理。如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實現(xiàn)盈利的關(guān)鍵,在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實現(xiàn)數(shù)據(jù)的“增值”。也就是我們不僅要擁有一座礦山,還要通過各種手段發(fā)掘、開采、提煉出高價值的產(chǎn)品。方法和手段不一樣,產(chǎn)出的價值是不同的。

檔案大數(shù)據(jù)的特點:數(shù)據(jù)量巨大、數(shù)據(jù)類型繁多、價值密度低、處理速度快。

數(shù)據(jù)量巨大:以“十一五末”我國的館藏檔案量已達到近4億卷,以每卷3厘米厚度。我國的館藏檔案能把長江從源頭至入海口碼個來回。根據(jù)估算我國檔案正以每5年40%速度遞增。

數(shù)據(jù)類型繁多:檔案涉及政府機關(guān)、集團企業(yè)、金融、通信、建筑、房產(chǎn)、教育、軍工、法院等行業(yè)。這些行業(yè)運行不同的業(yè)務(wù),產(chǎn)生檔案數(shù)據(jù)是各不相同的。如文檔、設(shè)計圖、照片、錄音材料、視頻、GIS信息、水文氣象信息等。這些不同的文檔又存在一定的關(guān)聯(lián)性。比如城市建設(shè)的平面圖、設(shè)計圖可以和GIS數(shù)據(jù)信息關(guān)聯(lián),同時還要關(guān)聯(lián)政府建設(shè)規(guī)劃文件、批復(fù)與施工文件等。這些不同類型的數(shù)據(jù)不同程度上對數(shù)據(jù)的處理能力提出了更高的要求。

價值密度低:價值密度的高低與數(shù)據(jù)總量的大小成反比。如保險檔案,我們會把保險單逐一存檔,但發(fā)生理賠的概率是極低的。如何通過強大的機器算法更迅速地完成數(shù)據(jù)的價值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。

處理速度快:這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。在海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。檔案大數(shù)據(jù)也是如此。

檔案大數(shù)據(jù)與互聯(lián)網(wǎng)大數(shù)據(jù)有著相同的特點,從檔案本身屬性看其特點還表現(xiàn)在一方面可以提供政府企業(yè)運行的依據(jù),支持核心生產(chǎn)力與應(yīng)用,另一方面檔案仍對合規(guī)、電子取證、安全、診斷以及其他支持性應(yīng)用程序有相當大的價值。

二、檔案大數(shù)據(jù)的產(chǎn)生

過去,檔案檢索主要依靠手工著錄、卡片檢索。隨著信息技術(shù)的進步、數(shù)據(jù)庫技術(shù)的發(fā)展,計算機輔助檔案管理使檔案管理變得更為快捷和方便。檔案數(shù)據(jù)主要來源于兩個方面:1、各業(yè)務(wù)部門通過業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)為檔案數(shù)據(jù);2、檔案部門通過人工填寫、錄入、搜集歸類后轉(zhuǎn)為檔案數(shù)據(jù)。

新形勢下業(yè)務(wù)系統(tǒng)產(chǎn)生的檔案數(shù)據(jù)具有及時、廣泛、數(shù)據(jù)量大、內(nèi)容繁雜的特點。較為智能的業(yè)務(wù)系統(tǒng)能夠隨時將業(yè)務(wù)數(shù)據(jù)輸送至檔案部門存檔,如辦公系統(tǒng)、財務(wù)系統(tǒng),當文件辦畢時,數(shù)據(jù)(文件)可立刻轉(zhuǎn)為檔案數(shù)據(jù)。不同職能的業(yè)務(wù)部門產(chǎn)生的檔案更具有廣泛性,如法院卷宗、醫(yī)院病歷、人事檔案等,不同的立檔部門產(chǎn)生不同的業(yè)務(wù)檔案。我們的業(yè)務(wù)系統(tǒng)時刻運行,意味著每時每刻都會產(chǎn)生檔案數(shù)據(jù),因此檔案數(shù)據(jù)量會大得驚人。即便是同一個業(yè)務(wù)部門產(chǎn)生檔案數(shù)據(jù),也會由于檔案門類、信息元不同,形成的檔案數(shù)據(jù)不同。

檔案部門除了采用業(yè)務(wù)系統(tǒng)收集檔案數(shù)據(jù)以外,還采用人工方式生成檔案數(shù)據(jù)。最常見的是將館藏的實體檔案通過數(shù)字化技術(shù)轉(zhuǎn)為檔案數(shù)據(jù),如掃描、拍照等。我國的檔案信息化在未來幾年將得到快速發(fā)展,信息化將呈幾何級增長,形成真正意義上的檔案大數(shù)據(jù)。如圖:

 因此,我們應(yīng)從檔案大數(shù)據(jù)的源頭充分考慮未來的應(yīng)用范圍,把握檔案數(shù)據(jù)“快、廣、大、亂”的特點,把來得“快”的檔案數(shù)據(jù)及時處理,把產(chǎn)生“廣”的檔案數(shù)據(jù)各個擊破,把存量“大”的檔案數(shù)據(jù)化整為零,把內(nèi)容“亂”的檔案數(shù)據(jù)有序歸類。

三、檔案大數(shù)據(jù)的存儲

檔案大數(shù)據(jù)給傳統(tǒng)數(shù)據(jù)倉庫架構(gòu)帶來了一系列的沖擊和挑戰(zhàn),僅從存儲層面來審視,倉儲的構(gòu)建者不得不面對來自兩方面的焦慮:一是數(shù)據(jù)規(guī)模急速增長,現(xiàn)有的共享磁盤架構(gòu)能否適應(yīng)海量數(shù)據(jù)的存儲;二是數(shù)據(jù)結(jié)構(gòu)復(fù)雜多樣,現(xiàn)有的基于結(jié)構(gòu)化數(shù)據(jù)為主體的存儲方案能否兼容無模式的非結(jié)構(gòu)化數(shù)據(jù)。 

面對大數(shù)據(jù)的挑戰(zhàn),在技術(shù)上航星科技將如何解決大數(shù)據(jù)的問題呢?從現(xiàn)有數(shù)據(jù)庫存儲架構(gòu)來和實踐研究看,一個大而全的存儲架構(gòu)似乎不能完美的解決大數(shù)據(jù)的存儲。大部分企業(yè)更應(yīng)該偏向于讓不同種類的數(shù)據(jù)存儲在最適合他們的存儲系統(tǒng)里,再將不同類型的數(shù)據(jù)進行融合,最后在融合的數(shù)據(jù)基礎(chǔ)上做商業(yè)分析。

首先,必須有足夠的空間存儲數(shù)據(jù)。對于大數(shù)據(jù),當企業(yè)在快速增長數(shù)據(jù)的背景下要保持數(shù)據(jù)的一種平衡狀態(tài)并實現(xiàn)易擴展,應(yīng)采用分而治之的思想,即構(gòu)建分布式存儲系統(tǒng),方便增加節(jié)點實現(xiàn)穩(wěn)步處理。

其次,兼有多種結(jié)構(gòu)的存儲引擎。大數(shù)據(jù)的結(jié)構(gòu)復(fù)雜多樣使數(shù)據(jù)倉庫面臨的源數(shù)據(jù)太過繁雜,此時應(yīng)改變目前以結(jié)構(gòu)化為主體的單一存儲方案,對非結(jié)構(gòu)化數(shù)據(jù)采用分布式文件系統(tǒng)進行存儲,對結(jié)構(gòu)松散無模式的半結(jié)構(gòu)化數(shù)據(jù)采用面向文檔的分布式key/value存儲引擎是最適合的解決方案。

最后,航星科技建立連接多種存儲引擎的“連接器”。通過這個“連接”來建立分布式存儲與分布式文件系統(tǒng)之間的關(guān)系。我們存儲多元化的數(shù)據(jù)主要是為了集成分析,而多種結(jié)構(gòu)的孤立存儲顯然不是集成分析的最佳選擇。通過構(gòu)建連接器,使得非結(jié)構(gòu)化數(shù)據(jù)在處理成結(jié)構(gòu)化信息后,能快速融通和分布式數(shù)據(jù)庫中的關(guān)系型數(shù)據(jù),達到對大數(shù)據(jù)敏捷分析。

四、檔案大數(shù)據(jù)的應(yīng)用

傳統(tǒng)的檔案信息管理一直停留于檔案目錄管理、分類、歸檔、存儲及簡單的統(tǒng)計查詢,檔案大數(shù)據(jù)的關(guān)鍵信息需通過一定的技術(shù)方法進行提取,并針對提取出的有效信息根據(jù)一定的規(guī)律進行挖掘。只有滿足不同檔案用戶的信息需求,數(shù)據(jù)挖掘技術(shù)才會發(fā)揮巨大作用。在海量的檔案信息挖掘中主要采用文本數(shù)據(jù)挖掘技術(shù),這相當于文字分析,一般指文本處理過程中產(chǎn)生高質(zhì)量的信息。

文本數(shù)據(jù)挖掘的基礎(chǔ)領(lǐng)域,包括機器學(xué)習(xí)、數(shù)理統(tǒng)計、自然語言處理;在此基礎(chǔ)上是文本數(shù)據(jù)挖掘的基本技術(shù),包括文本信息抽取、文本分類、文本聚類、文本數(shù)據(jù)壓縮、文本數(shù)據(jù)處理;文本挖掘有兩個主要應(yīng)用領(lǐng)域,信息訪問和知識發(fā)現(xiàn),信息訪問包括信息檢索、信息瀏覽、信息過濾、信息報告,知識發(fā)現(xiàn)包括數(shù)據(jù)分析、數(shù)據(jù)預(yù)測。如圖所示:

 總之,我們可以把對文本數(shù)據(jù)的分類、融合、壓縮、摘要以及從文本中抽取發(fā)現(xiàn)知識與信息都看作是文本數(shù)據(jù)挖掘。通過這些技術(shù)使得我們在搜索檔案時從大數(shù)據(jù)范圍變成從小范圍,從而提高其效率和準確度。

在檔案信息化領(lǐng)域,知識管理的發(fā)展主要包括認知、信息積累、知識挖掘、知識運用、規(guī)范化發(fā)展五個步驟。通常結(jié)合信息檢索、分析及挖掘技術(shù),將信息進行適當?shù)姆诸惣俺槿』蛐纬梢唤M問答序列,并將這些信息進行提取,形成解決某一問題域的數(shù)據(jù)集市,挖掘出一定的專門知識,作為決策的依據(jù)。

檔案知識的輸出和評價還需要高效快速的輔助智能檢索技術(shù)。

(1)基于語義檢索。提供計算機可以理解人類語言后的一種搜索模式。

(2)基于音視頻內(nèi)容檢索。可以直接對音視頻內(nèi)容進行檢索,自動識別關(guān)鍵幀,能夠區(qū)分定位出一個視頻中的不同的兩段內(nèi)容,減輕人工打點的工作量,提高視頻處理的能力。

(3)檔案智能化輔助分類。可從歷史分類中智能提取檔案分類,提高用戶整編效率,實現(xiàn)文獻的自動分類;系統(tǒng)可自主根據(jù)已有檔案分類進行學(xué)習(xí),促進以后輔助分類的準確度;支持多維度的動態(tài)分類;支持用戶自定義分類展示。

因此,檔案大數(shù)據(jù)系統(tǒng)平臺總體架構(gòu)應(yīng)按照實際內(nèi)容應(yīng)用的流程實現(xiàn),即從數(shù)據(jù)的采集、智能處理、數(shù)據(jù)挖掘與智能搜索應(yīng)用平臺三個層次實現(xiàn)。通過多類型數(shù)據(jù)采集平臺進行數(shù)據(jù)采集,在智能數(shù)據(jù)處理平臺上對這些非結(jié)構(gòu)化信息、多媒體信息和用戶信息進行分析,最后在應(yīng)用平臺上提供數(shù)據(jù)挖掘結(jié)果的搜索平臺和多媒體自動編研平臺。

管理檔案大數(shù)據(jù)較傳統(tǒng)的檔案數(shù)據(jù),需要去改變管理流程與文化,很多企業(yè)不愿意改變傳統(tǒng)的方式。形勢已經(jīng)來臨,競爭對手可能已捷足先登,保守必將錯失機會。

消息來源:中國計算機報