新聞中心
本文經(jīng)AI新媒體量子位(公眾號ID:QbitAI)授權(quán)轉(zhuǎn)載,轉(zhuǎn)載請聯(lián)系出處。

創(chuàng)新互聯(lián)建站專業(yè)網(wǎng)站建設(shè),網(wǎng)站制作與網(wǎng)站建設(shè)公司,1800元做網(wǎng)站建設(shè)全包,免費(fèi)贈送網(wǎng)站基礎(chǔ)優(yōu)化服務(wù),讓你的網(wǎng)站變得更有價值,公司擁有完善的專業(yè)的建站公司流程,能夠?yàn)槠髽I(yè)提供建站服務(wù)。使用PHP+MYSQL開發(fā)可交付網(wǎng)站源代碼;符合網(wǎng)站優(yōu)化排名的后臺管理系統(tǒng);網(wǎng)站制作收費(fèi)合理;免費(fèi)進(jìn)行網(wǎng)站備案等企業(yè)網(wǎng)站建設(shè)一條龍服務(wù).
5月4日,谷歌團(tuán)隊(duì)在arXiv上提交了一篇論文“MLP-Mixer: An all-MLP Architecture for Vision”[1],引起了廣大計(jì)算機(jī)視覺的研究人員的熱烈討論:MLP究竟有多大的潛力?
5月5日,清華大學(xué)圖形學(xué)實(shí)驗(yàn)室Jittor團(tuán)隊(duì)在arXiv上提交論文“Beyond Self-attention: External Attention using Two Linear Layers for Visual Tasks”[2], 提出了一種新的注意機(jī)制,稱之為“External Attention”。
基于兩個外部的、小的、可學(xué)習(xí)的和共享的存儲器,只用兩個級聯(lián)的線性層和歸一化層就可以取代了現(xiàn)有流行的學(xué)習(xí)架構(gòu)中的“Self-attention”,揭示了線性層和注意力機(jī)制之間的關(guān)系。
同日,清華大學(xué)軟件學(xué)院丁貴廣團(tuán)隊(duì)在arXiv上提交了論文“RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for Image Recognition”[3],展示了結(jié)合重參數(shù)化技術(shù)的MLP也取得了非常不錯的效果。
5月6日牛津大學(xué)的學(xué)者提交了一篇名為”Do You Even Need Attention? A Stack of Feed-Forward Layers Does Surprisingly Well on ImageNet”的論文[4],也提出了Transformer中的attention是不必要的,僅僅使用Feed forward就可以在ImageNet上實(shí)現(xiàn)非常高的結(jié)果。
從Self-attention到External-attention
自注意力機(jī)制在自然語言處理和計(jì)算機(jī)視覺領(lǐng)域中起到了越來越重要的作用。對于輸入的Nxd維空間的特征向量F,自注意力機(jī)制使用基于自身線性變換的Query,Key和Value特征去計(jì)算自身樣本內(nèi)的注意力,并據(jù)此更新特征:
由于QKV是F的線性變換,簡單起見,我們可以將自注意力計(jì)算公式簡記如下:
這是F對F的注意力,也就是所謂的Self-attention。如果希望注意力機(jī)制可以考慮到來自其他樣本的影響,那么就需要一個所有樣本共享的特征。為此,我們引入一個外部的Sxd維空間的記憶單元M,來刻畫所有樣本最本質(zhì)的特征,并用M來表示輸入特征。
我們稱這種新的注意力機(jī)制為External-attention。我們可以發(fā)現(xiàn),公式(5)(6)中的計(jì)算主要是矩陣乘法,就是常見的線性變換,一個自注意力機(jī)制就這樣被兩層線性層和歸一化層代替了。我們還使用了之前工作[5]中提出的Norm方式來避免某一個特征向量的過大而引起的注意力失效問題。
為了增強(qiáng)External-attention的表達(dá)能力,與自注意力機(jī)制類似,我們采用兩個不同的記憶單元。
下圖形象地展示了External-attention與Self-attention的區(qū)別。
△圖1 Self Attention和External Attention的區(qū)別
為什么兩層線性層可以超越Self-attention?
自注意力機(jī)制一個明顯的缺陷在于計(jì)算量非常大,存在一定的計(jì)算冗余。通過控制記憶單元的大小,External-attention可以輕松實(shí)現(xiàn)線性的復(fù)雜度。
其次,自注意力機(jī)制僅利用了自身樣本內(nèi)的信息,忽略了不同樣本之間的潛在的聯(lián)系,而這種聯(lián)系在計(jì)算機(jī)視覺中是有意義的。打個比方,對于語義分割任務(wù),不同樣本中的相同類別的物體應(yīng)該具有相似的特征。
External-attention通過引入兩個外部記憶單元,隱式地學(xué)習(xí)了整個數(shù)據(jù)集的特征。這種思想同樣在稀疏編碼和字典學(xué)習(xí)中得到了應(yīng)用。
計(jì)圖團(tuán)隊(duì)在Pascal VOC 的Test set上,可視化了注意力圖以及分割的結(jié)果,如圖2所示,可以發(fā)現(xiàn),使用兩層線性層的External attention 的注意力圖是合理的。
△圖2 注意力圖以及分割的結(jié)果的可視化
從實(shí)驗(yàn)看External Attention的效果
為了證明方法的通用性,我們在圖像分類、分割、生成以及點(diǎn)云的分類和分割上均做了實(shí)驗(yàn),證明了方法的有效性,External-attention在大大減少計(jì)算量的同時,可以取得與目前最先進(jìn)方法相當(dāng),甚至更好的結(jié)果。
1、圖像分類
2、圖像語義分割(三個數(shù)據(jù)集上)
3、圖像生成
4、點(diǎn)云分類
5、點(diǎn)云分割
External Attention VS MLP-Mixer
谷歌的工作提出了一種小巧且好用的Mixer-Layer,然后用極其豐富的實(shí)驗(yàn),證明了僅僅通過簡單的圖像分塊和線性層的堆疊就可以實(shí)現(xiàn)非常好的性能,開拓了人們的想象。
清華的External Attention則揭示了線性層和注意力機(jī)制之間的內(nèi)在關(guān)聯(lián),證明了線性變換其實(shí)是一種特殊形式的注意力實(shí)現(xiàn),如下公式所示:
Attention(x)=Linear(Norm(Linear(x)))
計(jì)圖團(tuán)隊(duì)的工作和谷歌團(tuán)隊(duì)的工作都證明了線性層的有效性。值得注意的是,如果將External-attention不斷級聯(lián)堆疊起來,也是MLP的形式,就可以實(shí)現(xiàn)一個純MLP的網(wǎng)絡(luò)結(jié)構(gòu),但External-attention使用不同的歸一化層,其更符合注意力機(jī)制。
這與谷歌團(tuán)隊(duì)的工作有異曲同工之妙。
清華的External Attention的部分計(jì)圖代碼已經(jīng)在Github開源。
后續(xù)將盡快開源全部計(jì)圖代碼。
External Attention的部分計(jì)圖代碼:
https://github.com/MenghaoGuo/-EANet
當(dāng)前題目:只需2層線性層,就能超越自注意力機(jī)制,清華計(jì)圖團(tuán)隊(duì)又有新突破
當(dāng)前URL:http://m.fisionsoft.com.cn/article/djgesoh.html


咨詢
建站咨詢
