ICLR 2020 | 加密算法也可以不那么復(fù)雜:上交大提出面向中層特征隱私保護(hù)的復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)
人工智能頂會(huì) ICLR 2020 將于 4 月 26 日于埃塞俄比亞首都亞的斯亞貝巴舉行。在最終提交的 2594 篇論文中,有 687 篇被接收,接收率為 26.5%。本文介紹了上海交通大學(xué)張拳石團(tuán)隊(duì)的一篇接收論文——《Interpretable Complex-Valued Neural Networks for Privacy Protection》。在本文中,研究者提出了一種面向中層特征的新型隱私保護(hù)機(jī)制。

論文鏈接: https://arxiv.org/abs/1901.09546
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和推斷過程中,往往伴隨著數(shù)據(jù)集信息的泄露。隨著各類機(jī)器學(xué)習(xí)服務(wù)的發(fā)布和推廣,用戶通常只需要在本地對數(shù)據(jù)進(jìn)行預(yù)處理、提取淺層特征后,發(fā)送到第三方平臺(tái)或云端進(jìn)行進(jìn)一步的學(xué)習(xí)。但該過程中,用戶的隱私數(shù)據(jù)面臨著巨大的泄露風(fēng)險(xiǎn):攻擊者可以通過對第三方平臺(tái)所收集到的中層特征進(jìn)行攻擊,恢復(fù)出用戶的輸入數(shù)據(jù),如人臉信息、指紋信息等。因此,研究者希望提出一種新型隱私保護(hù)機(jī)制,使得即使攻擊者知道神經(jīng)網(wǎng)絡(luò)內(nèi)部參數(shù),也無法從中層特征恢復(fù)出輸入數(shù)據(jù)。
該工作的核心在于研究一種中層特征可加密的神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)的中層特征往往包含豐富的信息,在整個(gè)神經(jīng)網(wǎng)絡(luò)中起到承上啟下的作用。對中層特征加密,一方面要求加密后的特征無法泄露用戶的敏感信息(輸入數(shù)據(jù)等),另一方面需要使加密后的特征能夠繼續(xù)通過神經(jīng)網(wǎng)絡(luò),完成下游任務(wù)。這要求在數(shù)據(jù)的隱私性和網(wǎng)絡(luò)模型的精度之間找到一個(gè)平衡點(diǎn)。
在本文中,來自上海交大的研究者提出使用復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)隱私保護(hù),將目標(biāo)隱私信息編碼隱藏到復(fù)值特征的特定相位之中,從而實(shí)現(xiàn)隱私保護(hù)??偟膩碚f,本文提出的算法類似于同態(tài)加密,但是相比于傳統(tǒng)同態(tài)加密算法的極高的計(jì)算復(fù)雜度,該復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)可以非常高效地進(jìn)行運(yùn)算,僅僅將計(jì)算復(fù)雜度提高到傳統(tǒng)網(wǎng)絡(luò)的兩倍,提升了加密算法的應(yīng)用潛力。一般來說,即使攻擊者破解了神經(jīng)網(wǎng)絡(luò)的內(nèi)部參數(shù)和中層特征,也無法破譯隱私信息。
核心算法
研究者提出使用復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)隱私保護(hù),并通過一系列可能的攻擊測試了該網(wǎng)絡(luò)的安全性。具體而言,他們將神經(jīng)網(wǎng)絡(luò)原始的實(shí)數(shù)特征(實(shí)數(shù)表示的中層特征)轉(zhuǎn)化為復(fù)數(shù)特征,搭建了復(fù)數(shù)神經(jīng)網(wǎng)絡(luò),如下圖(a)所示。
該復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)可分為三個(gè)模塊:
本地的編碼模塊。輸入圖片 I 首先通過編碼器 g 提取淺層特征 a=g(I);再旋轉(zhuǎn)一定角度進(jìn)行加密,從而將真實(shí)特征隱藏到復(fù)值特征的特定相位之中:
其中θ為隨機(jī)旋轉(zhuǎn)角度,b 為干擾項(xiàng),不包含任何與 a 有關(guān)的信息;最后將加密結(jié)果 x 發(fā)送到云端。
位于云端的處理模塊。處理器Φ對用戶發(fā)來的加密數(shù)據(jù) x 進(jìn)行處理,獲取深層信息 h=Φ(x),并將處理結(jié)果發(fā)送回本地用戶端。
本地的解碼模塊。收到云端的處理結(jié)果 h 后,先對 h 進(jìn)行逆向旋轉(zhuǎn)解密,再通過解碼器 d 對解密后的信息進(jìn)行解碼,得到最終的輸出:
,其中 R(?) 表示復(fù)數(shù)的實(shí)部。
注意,如果將特征 a+bi 旋轉(zhuǎn)θ角度,其在處理模塊Φ中對應(yīng)的所有特征都應(yīng)該被旋轉(zhuǎn)了相同的角度,這樣才能確保對 h 旋轉(zhuǎn)解密后再解碼,從而得到正確的結(jié)果。因此處理模塊的操作需要滿足下式,其中Φ_j 表示處理模塊的第 j 層,f_j 為第 j 層的輸出。
為確保該式成立,需要調(diào)整神經(jīng)網(wǎng)絡(luò)內(nèi)部各層的實(shí)現(xiàn)細(xì)節(jié)。對于卷積層,需要將偏置項(xiàng) bias 刪去;對于 ReLU 層,使用
作為替代;對于 batch-normalization 層,有
;對于 max-pooling 層,根據(jù)實(shí)部和虛部選擇各個(gè)特征中模長最大的點(diǎn);對于 dropout 層,隨機(jī)選擇一些特征并丟掉。
為了進(jìn)一步提高隱私保護(hù)的能力,使攻擊者無法猜測出真實(shí)的特征 a,研究者利用 GAN 的思想對編碼器 g 進(jìn)行訓(xùn)練。若用 a表示使用隨機(jī)角度θ解密得到的特征,即
,那么理想情況下 a 和 a應(yīng)該服從相同的分布,使攻擊者無法分辨出真實(shí)的特征。因此他們引入一個(gè)辨別器 D,并使其無法分辨 a 和 a?;?WGAN 的編碼器訓(xùn)練時(shí)損失函數(shù)如下:
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的總 Loss 可以寫成下式:
實(shí)驗(yàn)設(shè)計(jì)
研究者基于 ResNet-20/32/44/56/110、LeNet、VGG-16 和 AlexNet 等網(wǎng)絡(luò)結(jié)構(gòu),在 CelebA、CIFAR-10、CUB-200 等數(shù)據(jù)集上開展實(shí)驗(yàn),針對不同的攻擊方式做了測試,結(jié)果證明,本文提出的復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)可以有效抵御各種攻擊,保證了用戶數(shù)據(jù)的安全性,同時(shí)不破壞網(wǎng)絡(luò)的分類能力。
他們設(shè)計(jì)了三種網(wǎng)絡(luò)結(jié)構(gòu)作為 baseline 進(jìn)行比較實(shí)驗(yàn),如上圖 b 所示。Original network 指普通的深度神經(jīng)網(wǎng)絡(luò);With noises 指在原始的網(wǎng)絡(luò)中,通過直接對真實(shí)特征 a 加噪實(shí)現(xiàn)加密,γ為控制噪音振幅的參數(shù);With additional layers 指在原始網(wǎng)絡(luò)中加入 GAN 中所包含的多余層數(shù)。由于在復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)的編碼部分引入了 GAN 的結(jié)構(gòu),為了公平比較,在這里也對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行同樣的修改,但不引入對抗訓(xùn)練。
研究者針對以下幾種攻擊方式設(shè)計(jì)了實(shí)驗(yàn):
基于重建圖像的攻擊
此類攻擊可能直接使用加密后的特征進(jìn)行圖像重建,也可能利用辨別器找到最佳角度θ ?后,用解密后的特征 a^*=dec(R(xe^(-iθ ? ))) 重建圖像。部分重建結(jié)果如下圖所示。
對于利用辨別器找到最佳角度θ ?的攻擊方法,下圖提供了在 CelebA 數(shù)據(jù)集上使用不同角度進(jìn)行解密后的特征重建圖片的結(jié)果,同時(shí),他們統(tǒng)計(jì)了使用辨別器所找出的最佳角度與真實(shí)角度的差值,如下表所示,可以看出,辨別器無法準(zhǔn)確地找出正確的旋轉(zhuǎn)角度。
基于敏感信息的攻擊
輸入圖片中的某些特征可能是敏感信息(如性別,膚色),傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)對敏感特征無法有效地隱藏,導(dǎo)致攻擊者可以利用中層特征訓(xùn)練一個(gè)新的分類器,獲得敏感信息。研究者設(shè)計(jì)了一系列實(shí)驗(yàn)以評測復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)對敏感信息的保護(hù)作用。此類攻擊可以分為以下幾種類型:
使用用戶數(shù)據(jù)集的原始圖片訓(xùn)練分類敏感信息的分類器,通過 dec(a^* ) 重建輸入圖片后,輸入分類器提取敏感信息;
直接使用 a^*訓(xùn)練一個(gè)分類器,并提取敏感信息;
使用 dec(a^*) 重建的圖片訓(xùn)練分類器,并提取敏感信息;
利用 k-NN 算法,為 a^*尋找數(shù)據(jù)集中最接近的 K 個(gè) a,從而提取對應(yīng)的敏感信息。
前三種攻擊類型的實(shí)驗(yàn)曲線如下圖所示
第四種攻擊的結(jié)果見下表,該表中還提供了各個(gè)網(wǎng)絡(luò)的分類錯(cuò)誤率與圖片處理速度??梢钥闯?,盡管引入了少量的計(jì)算量,復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)可以有效地抵抗針對敏感信息推斷的攻擊。
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由財(cái)神資訊-領(lǐng)先的體育資訊互動(dòng)媒體轉(zhuǎn)載發(fā)布,如需刪除請聯(lián)系。