omniture

FedIPR: 聯(lián)邦學習模型所屬權驗證

2022-09-16 16:22 5249

深圳2022年9月16日 /美通社/ -- 針對聯(lián)邦學習全局模型的版權保護問題,微眾銀行AI團隊聯(lián)合上海交通大學在人工智能學術期刊《IEEE模式分析與機器智能匯刊》(IEEE T-PAMI,IEEE Transactions on Pattern Analysis and Machine Intelligence,涉及人工智能、計算機視覺、模式識別等多個領域)上發(fā)表了題為“FedIPR: 聯(lián)邦深度神經網絡模型的所屬權驗證”(FedIPR: Ownership Verification for Federated Deep Neural Network Models)的論文。該論文從算法、協(xié)議、安全等多個角度出發(fā),就聯(lián)邦學習模型知識產權保護問題,分享了他們對模型知識產權保護的思考和工作,提出了名為“FedIPR”的聯(lián)邦學習模型版權保護框架。

近年來,深度神經網絡(DNN)等機器學習技術在諸多領域取得了巨大成功,許多科技公司都將神經網絡模型部署在商業(yè)產品中,提高效益。訓練先進的神經網絡模型需要大規(guī)模數(shù)據集、龐大的計算資源和設計者的智慧,具體體現(xiàn)在如下三個領域:

一、深度學習模型應用的訓練模型規(guī)模巨大。以 GPT-3 為例,其預訓練所用的數(shù)據量達到 45TB,訓練費用超過 1200 萬美元,有著極高的經濟成本。

二、深度學習模型在訓練部署到工業(yè)應用場景過程中需要引入相關領域的先驗知識。例如,其在智慧金融、智慧醫(yī)療領域的應用,需要引入金融、醫(yī)療等領域專有先驗知識。因此,在模型設計過程,開發(fā)者需要引入專家的知識和經驗來訂制模型,這也體現(xiàn)了人腦力的知識產權。

三、深度學習模型的訓練過程需要特定領域的海量數(shù)據作為訓練資源,而數(shù)據本身具有價值和知識屬性。

以上屬性決定了經過訓練的深度學習模型具有很高的商業(yè)價值和知識屬性,必須將其納入合法所有者(即創(chuàng)建它的一方)的知識產權。因此,從技術層面,行業(yè)也面臨迫切保護深度神經網絡(DNN)模型的知識產權,以防止其被非法復制、重新分發(fā)或濫用。

針對昂貴的模型,攻擊者可以采用技術手段或者非技術手段進行竊取;但要確認盜用且聲明模型所有權,則是完全從人工智能理論方法角度出發(fā),模型的所有權認證技術需要保證不犧牲模型可用性前提下,提供可靠且穩(wěn)健的知識產權保護方法。

相比于中心化場景的模型訓練,聯(lián)邦學習分布式訓練涉及多個參與方,存在參與方被敵手攻擊或者模型搭便車的情況,因此有更大的人工智能模型泄露風險,對聯(lián)邦學習模型的所屬權構成了潛在的侵犯風險。


傳統(tǒng)的深度學習模型知識產權保護方法主要著眼于深度神經網絡水印的算法實踐和穩(wěn)健性挑戰(zhàn),沒有把模型水印實踐到可信聯(lián)邦學習方向的研究。微眾銀行AI團隊提出的FedIPR框架考慮一種不完全信任的聯(lián)邦學習系統(tǒng),假定聯(lián)邦學習各參與方能夠按照聯(lián)邦法則來進行模型更新和協(xié)同訓練,但彼此不泄露私有本地數(shù)據和私密簽名。在這種設定下,F(xiàn)edIPR闡述了一種新穎的聯(lián)合深度神經網絡(FedDNN)所有權驗證方案(圖1[1]),該方案允許嵌入和驗證所有權簽名,以聲明 FedDNN 模型的合法知識產權(IPR),以防模型被非法復制、重新分發(fā)或濫用。

圖1
圖1

微眾銀行AI團隊提出黑盒與白盒兩階段驗證聯(lián)邦學習模型所屬權的框架分為兩個階段(圖2) :

一、黑盒階段,不需要訪問模型參數(shù)和內部結構,只需輸入特定樣本進入模型API, 根據模型輸出判定模型所屬權,為模型所屬權提供初步依據。

二、白盒驗證階段,執(zhí)法機關根據上一階段,打開模型參數(shù)和結構,驗證模型參數(shù)中是否嵌入有實現(xiàn)給定的能證明所屬權的“水印”。

圖2
圖2

針對白盒模型驗證場景,團隊創(chuàng)新地提出了針對 batch normalization 層(圖3)的仿射變換參數(shù),進行水印嵌入,該嵌入方法具有強可用性和穩(wěn)健性。

圖3
圖3

FedIPR 框架創(chuàng)新性地解決了模型所有權驗證在聯(lián)邦學習中的兩大挑戰(zhàn):

一、亟需解決多水印沖突問題。特別是對于基于特征的水印,對于不同的客戶是否可以有一個通用的解決方案來嵌入他們的私人指定水印。如下圖4所示,當不同客戶端希望各自嵌入水印進全局聯(lián)邦學習模型當中,多個水印可能彼此發(fā)生沖突。針對該挑戰(zhàn),F(xiàn)edIPR提出用秘密提取矩陣的方式,解決了多個水印在聯(lián)邦學習模型之中互相沖突的挑戰(zhàn)。

圖4
圖4

二、亟需解決性能問題。水印的穩(wěn)健性表明模型水印是否能在聯(lián)邦學習模型各種訓練策略中適用,以及是否能抵御各種去除水印的攻擊。FedIPR采用客戶端嵌入的方式在差分隱私、魯棒聚合、模型剪枝、微調等多種設定下進行了實驗。

表1
表1

該論文展示了相關實驗結果,闡述了FedIPR在主任務可用性,水印顯著性以及穩(wěn)健性方面的性能,卓越的性能證明了基于后門和特征的水印都能提供良好的聯(lián)邦學習模型所有權驗證。

圖5 FedIPR框架下FedDNN 模型主任務性能
圖5 FedIPR框架下FedDNN 模型主任務性能

 

圖6 FedIPR 框架下的FedDNN 模型的水印檢測率與理論界限的比較
圖6 FedIPR 框架下的FedDNN 模型的水印檢測率與理論界限的比較

Github 代碼鏈接:https://github.com/purp1eHaze/FedIPR 

[1] 文章配圖均來自于論文FedIPR: Ownership Verification for Federated Deep Neural Network Models (https://ieeexplore.ieee.org/document/9847383/)

消息來源:微眾銀行
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網、科技、媒體、通訊企業(yè)的經營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection