千年殇,欢乐颂第三季

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

人工智能對抗的場景探究

引言

成都創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù)，包含不限于網(wǎng)站制作、網(wǎng)站建設(shè)、崇川網(wǎng)絡(luò)推廣、微信平臺小程序開發(fā)、崇川網(wǎng)絡(luò)營銷、崇川企業(yè)策劃、崇川品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等，從售前售中售后，我們都將竭誠為您服務(wù)，您的肯定，是我們最大的嘉獎；成都創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供崇川建站搭建服務(wù)，24小時服務(wù)熱線：028-86922220，官方網(wǎng)址：www.cdcxhl.com

人工智能技術(shù)已融入到各行各業(yè)，從自動駕駛、人臉識別再到智能語音助手，人工智能就在身邊。人工智能帶來方便的同時，也引發(fā)了一定的安全問題。一方面攻擊者利用低門檻的人工智能技術(shù)實施非法行為，造成安全問題;另一方面，由于人工智能，特別是深度神經(jīng)網(wǎng)絡(luò)本身的技術(shù)不成熟性，使應(yīng)用人工智能技術(shù)的系統(tǒng)很容易受到黑客攻擊。

深度神經(jīng)網(wǎng)絡(luò)的技術(shù)不成熟性主要在于模型的不可解釋性，從模型的訓(xùn)練到測試階段都存在安全問題。訓(xùn)練階段主要是數(shù)據(jù)投毒問題，通過在訓(xùn)練數(shù)據(jù)中添加一些惡意的樣本來誤導(dǎo)模型的訓(xùn)練結(jié)果。測試階段的安全問題主要是對抗樣本，在原始樣本中添加人眼不可察覺的微小擾動就能夠成功騙過分類器造成錯誤分類。

對抗樣本

自2013年起，深度學(xué)習(xí)模型在某些應(yīng)用上已經(jīng)達(dá)到甚至超過了人類水平。特別是人臉識別、手寫數(shù)字識別等任務(wù)上。隨著神經(jīng)網(wǎng)絡(luò)模型的廣泛使用，其不可解釋特性被逐步擴(kuò)大，出現(xiàn)了對抗樣本。類似于人類的「幻覺」，一張人眼看似旋轉(zhuǎn)的風(fēng)車實質(zhì)上是一張靜止的圖像(圖1a)，一張馬和青蛙的圖片(圖1b)。既然「幻覺」可以騙過人的大腦，同樣地，對抗樣本也能騙過神經(jīng)網(wǎng)絡(luò)。

圖1 視覺幻覺圖

2014年，Szegedy等人[1]發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)存在一些反直覺的特性，即對一張圖像添加不可察覺的微小擾動后，就能使分類器誤分類(圖2)，并將這種添加擾動的樣本定義為對抗樣本。理論上來說，使用深度神經(jīng)網(wǎng)絡(luò)的模型，都存在對抗樣本。從此AI對抗開始成為了人工智能的一個熱點研究。

圖2 對抗樣本實例

應(yīng)用場景

自對抗樣本被提出后，神經(jīng)網(wǎng)絡(luò)的安全性問題受到研究人員的格外重視。深度神經(jīng)網(wǎng)絡(luò)已經(jīng)在各個領(lǐng)域取得了令人矚目的成果，如果因神經(jīng)網(wǎng)絡(luò)本身的安全性給應(yīng)用和系統(tǒng)帶來安全威脅，將造成巨大的損失。例如，在自動駕駛領(lǐng)域，車載模型被攻擊后將停車路標(biāo)誤識別為限速標(biāo)志，可能造成人身安全;垃圾郵件檢測模型被攻擊后，垃圾郵件或者惡意郵件將不會被攔截。目前對抗樣本的研究已經(jīng)存在于圖像、文本、音頻、推薦系統(tǒng)等領(lǐng)域。

1.計算機(jī)視覺

(1)圖像分類/識別

Szegedy首次發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)存在對抗樣本是在圖像分類的背景下，對原始圖片添加微小的像素擾動，就能導(dǎo)致圖像分類器誤分類，且該微小擾動對人眼是不可察覺的。目前對抗攻擊在圖像分類領(lǐng)域已較為成熟，不僅提出了針對單一圖像的攻擊算法，還提出針對任意圖像的通用擾動方法，并且針對攻擊的防御方法也大量涌現(xiàn)。

L-BFGS：2013年，Szegedy等人[1]提出了L-BFGS簡單有界約束算法，尋找一個與原始樣本擾動距離最小又能夠使分類器誤分類的對抗樣本。

FGSM(Fast Gradient Sign Method)[2]：該算法是由Goodfellow等人提出的，一種經(jīng)典的對抗樣本生成方法，在預(yù)知模型本身參數(shù)的前提下，在原始圖片的梯度下降方向添加擾動以生成對抗樣本。

JSMA(Jacobian-based saliency map attack)[3]：該算法是由Papernot等人提出的，建立在攻擊者已知模型相關(guān)信息的前提下，根據(jù)分類器的結(jié)果反饋只修改輸入圖片中對輸出影響最大的關(guān)鍵像素，以欺騙神經(jīng)網(wǎng)絡(luò)。

One Pixel Attack[4]：該方法于2017年被提出，只需要修改輸入圖像的一個像素點就能夠成功欺騙深度神經(jīng)網(wǎng)絡(luò)，One Pixel攻擊不僅簡單，而且不需要訪問模型的參數(shù)和梯度信息。

C&W算法[5]：是一種基于優(yōu)化的攻擊方法，生成的對抗樣本和原始樣本之間的距離最短，且攻擊強(qiáng)度最大。算法在迭代過程中，將原始樣本和對抗樣本之間的可區(qū)分性相結(jié)合作為新的優(yōu)化目標(biāo)。

其他的攻擊算法包括DeepFool、UAP、BIM、PGD等，如表1所示。

表1圖像攻擊算法

(2)人臉識別

人臉識別系統(tǒng)越來越廣泛，其應(yīng)用領(lǐng)域多數(shù)涉及隱私，因此人臉識別模型的安全性至關(guān)重要。2018年，Rozsa等人[6]探索了人臉識別中的深度學(xué)習(xí)模型在對抗樣本中的穩(wěn)定性，通過“Fast Flipping Attribute”方法生成的對抗樣本攻擊深度神經(jīng)網(wǎng)絡(luò)分類器，發(fā)現(xiàn)對抗攻擊有效地改變了人臉圖片中目標(biāo)屬性標(biāo)簽。如圖3所示，添加微小擾動的“女性”圖片被人臉識別模型判別為“男性”。

圖3 人臉識別對抗樣本實例

(3)圖像語義分割

圖像語義分割是建立在圖像目標(biāo)分類的基礎(chǔ)上，對目標(biāo)區(qū)域或者像素進(jìn)行分類。語義分割的對抗攻擊考慮是否能夠在一組像素的基礎(chǔ)上優(yōu)化損失函數(shù)，從而生成對抗樣本。Xie等人[11]基于每個目標(biāo)都需要經(jīng)歷一個單獨的分類過程而提出了一種密度對抗生成網(wǎng)絡(luò)DAG，是一種經(jīng)典的語義分割和目標(biāo)檢測的攻擊方法。該方法同時考慮所有目標(biāo)并優(yōu)化整體損失函數(shù)，只需要為每個目標(biāo)指定一個對抗性標(biāo)簽，并迭代執(zhí)行梯度反向傳播獲取累積擾動。

(4)目標(biāo)檢測

目標(biāo)檢測作為計算機(jī)視覺的核心任務(wù)也受到了對抗攻擊[7]-[10]。目前,目標(biāo)檢測模型主要分為兩類：基于提議的和基于回歸的模型，這種機(jī)制使目標(biāo)檢測的對抗攻擊相比于圖像分類更復(fù)雜。文獻(xiàn)[7]提出了一種針對兩種模型可遷移且高效的目標(biāo)檢測的對抗樣本生成方法UEA(圖4)，該方法利用條件GAN來生成對抗樣本，并在其上多加幾個損失函數(shù)來監(jiān)督生成器的生成效果。

圖4 UEA對抗攻擊訓(xùn)練框架

(5)自動駕駛

自動駕駛汽車由多個子系統(tǒng)構(gòu)成，包括負(fù)責(zé)場景識別、根據(jù)場景預(yù)測汽車運動以及控制發(fā)動機(jī)完成汽車駕駛的子系統(tǒng)。而目前，這三方面都逐漸使用深度學(xué)習(xí)模型搭建，給出較優(yōu)決策結(jié)果的同時也引發(fā)了物理場景的對抗攻擊問題。Evtimov等人[21]提出了一種物理場景的對抗攻擊算法RF2，使各種路標(biāo)識別器識別失敗。在原始路標(biāo)圖像上添加涂鴉或黑白塊， “STOP”路標(biāo)就能識別成限速路標(biāo)，右轉(zhuǎn)路標(biāo)誤識別為“STOP”路標(biāo)或添加車道路標(biāo)。

圖5 路標(biāo)對抗樣本

2.自然語言處理

自然語言處理是除計算機(jī)視覺外人工智能應(yīng)用最為廣泛的領(lǐng)域之一，因此人工智能本身的脆弱性也將導(dǎo)致自然語言處理任務(wù)出現(xiàn)安全隱患。但又不同于計算機(jī)視覺中對圖像的攻擊方式，自然語言處理領(lǐng)域操作的是文本序列數(shù)據(jù)，主要難點在于：①圖像是連續(xù)數(shù)據(jù)，通過擾動一些像素仍然能夠維持圖片的完整性，而文本數(shù)據(jù)是離散的，任意添加字符或單詞將導(dǎo)致句子缺失語義信息;②圖像像素的微小擾動對人眼是不可察覺的，而文本的細(xì)微變化很容易引起察覺。目前，自然語言處理在情感分類、垃圾郵件分類、機(jī)器翻譯等領(lǐng)域都發(fā)現(xiàn)了對抗樣本的攻擊[12]-[15]，攻擊方法除了改進(jìn)計算機(jī)視覺中的攻擊算法，還有一部分針對文本領(lǐng)域新提出的攻擊算法。

(1)文本分類

在情感分析任務(wù)中，分類模型根據(jù)每條影評中的詞判別語句是積極或消極。但若在消極語句中擾動某些詞將會使情感分類模型誤分類為積極情感。Papernot等人[13]將計算機(jī)視覺領(lǐng)域的JSMA算法遷移到文本領(lǐng)域，利用計算圖展開技術(shù)來評估與單詞序列的嵌入輸入有關(guān)的前向?qū)?shù)，構(gòu)建雅可比矩陣，并借鑒FGSM的思想計算對抗擾動。

圖6 情感分析任務(wù)中的對抗樣本

在垃圾郵件分類任務(wù)中，如果模型受到對抗樣本的攻擊，垃圾郵件發(fā)布者就可以繞過模型的攔截。文獻(xiàn)[16]提出了一種基于GAN式的對抗樣本生成方法，為了解決GAN不能直接應(yīng)用到離散的文本數(shù)據(jù)上的問題，提出采用增強(qiáng)學(xué)習(xí)任務(wù)(REINFORCE)獎勵能夠同時滿足使目標(biāo)判別器誤分類和具有相似語義的對抗樣本。

圖7 基于增強(qiáng)學(xué)習(xí)的GAN

(2)機(jī)器翻譯/文本摘要

不同于文本分類任務(wù)輸出空間是有限的類別結(jié)果，機(jī)器翻譯任務(wù)的輸出空間是無限的。Cheng等人[15]提出了一種針對seq2seq模型的對抗樣本生成方法，對于離散輸入空間帶來的問題，提出使用一種結(jié)合group lasso和梯度正則化的投影梯度法，針對輸出空間是序列數(shù)據(jù)的問題，設(shè)計了新穎的損失函數(shù)來實現(xiàn)無重疊和目標(biāo)關(guān)鍵詞攻擊。

3.網(wǎng)絡(luò)安全

網(wǎng)絡(luò)安全領(lǐng)域已廣泛使用深度學(xué)習(xí)模型自動檢測威脅情報，如果將對抗攻擊轉(zhuǎn)移到對安全更加敏感的應(yīng)用，如惡意軟件探測方面，這可能在樣本生成上提出重大的挑戰(zhàn)。同時，失敗可能給網(wǎng)絡(luò)遺留嚴(yán)重漏洞。目前，對抗攻擊在惡意軟件檢測、入侵檢測等方向已展開對抗研究[16]-[18]。

(1)惡意軟件檢測

相較于之前的計算機(jī)視覺問題，惡意軟件應(yīng)用場景有如下限制：①輸入不是連續(xù)可微的，而是離散的，且通常是二分?jǐn)?shù)據(jù);②不受約束的視覺不變性需要用同等的函數(shù)替代。Grosse等人[16]驗證了對抗攻擊在惡意軟件識別領(lǐng)域的可行性，將惡意軟件用二進(jìn)制特征向量表示，并借鑒Papernot等人[13]采用的JSMA算法實施攻擊，實驗證明了對抗攻擊在惡意軟件探測領(lǐng)域確實存在。

(2)惡意域名檢測

惡意域名中的DGA家族因頻繁變換和善偽裝等特點，使機(jī)器學(xué)習(xí)模型在識別階段魯棒性不高。Hyrum等人[17]提出了一種基于GAN的惡意域名樣本生成方法DeepDGA，利用生成的惡意域名進(jìn)行對抗性訓(xùn)練來增強(qiáng)機(jī)器模型來提高DGA域名家族的識別準(zhǔn)確度，結(jié)果表明，由GAN生成的惡意域名能夠成功地躲避隨機(jī)森林分類器的識別，并且加入對抗樣本訓(xùn)練后的隨機(jī)森林對DGA家族的識別準(zhǔn)確度明顯高于對抗訓(xùn)練的結(jié)果。

圖8 DeepDGA生成的惡意域名

(3)DDoS攻擊

在DDoS攻擊領(lǐng)域，Peng等人[18]提出了改進(jìn)的邊界攻擊方法生成DDoS攻擊的對抗樣本，通過迭代地修改輸入樣本來逼近目標(biāo)模型的決策邊界。

4.語音識別

目前，語音識別技術(shù)的落地場景較多，如智能音箱、智能語音助手等。雖然語音識別技術(shù)發(fā)展良好，但因深度學(xué)習(xí)模型本身的脆弱性，語音識別系統(tǒng)也不可避免地受到對抗樣本的攻擊。2018年，伯克利人工智能研究員Carlini 和Wagner發(fā)明了一種針對語音識別的新型攻擊方法，該方法也是首次針對語音識別系統(tǒng)的攻擊，通過生成原始音頻的基線失真噪音來構(gòu)造對抗音頻樣本，能夠欺騙語音識別系統(tǒng)使它產(chǎn)生任何攻擊者想要的輸出[19]。

5.推薦系統(tǒng)

在推薦系統(tǒng)領(lǐng)域，如果推薦模型被攻擊，下一個推薦的item將是人為設(shè)定的廣告。基于協(xié)同過濾(CF)的潛在因素模型，由于其良好的性能和推薦因素，在現(xiàn)代推薦系統(tǒng)中得到了廣泛的應(yīng)用。但事實表明，這些方法易受到對抗攻擊的影響，從而導(dǎo)致不可預(yù)測的危害推薦結(jié)果。目前，推薦系統(tǒng)常用的攻擊方法是基于計算機(jī)視覺的攻擊算法FGSM、C&W、GAN等[20]。目前該領(lǐng)域的對抗攻擊仍存在挑戰(zhàn)：①由于推薦系統(tǒng)的預(yù)測是依賴一組實例而非單個實例，導(dǎo)致對抗攻擊可能出現(xiàn)瀑布效應(yīng)，對某個單一用戶的攻擊可能影響到相鄰用戶;②相比于圖像的連續(xù)數(shù)據(jù)，推薦系統(tǒng)的原始數(shù)據(jù)是離散的用戶/項目ID和等級，直接擾動離散的實體將導(dǎo)致輸入數(shù)據(jù)的語義信息發(fā)生改變。并且如何保持推薦系統(tǒng)對抗樣本的視覺不可見性依然有待解決。

小結(jié)

目前該領(lǐng)域的研究方向和攻擊算法眾多，一種攻擊算法被提出后就會出現(xiàn)一種應(yīng)對的防御方法，接著針對該防御方法再提出新的攻擊方法，但在類似的攻防循環(huán)中還缺乏評判攻擊是否有效的評估方法，此外有一些領(lǐng)域存在對抗攻擊的情況但目前仍未被研究和發(fā)現(xiàn)。

當(dāng)前標(biāo)題：人工智能對抗的場景探究
網(wǎng)站網(wǎng)址：http://m.fisionsoft.com.cn/article/cocpgpo.html

新聞中心

其他資訊