新聞中心
深度學(xué)習(xí)是近年來領(lǐng)域的熱門技術(shù)之一。在傳統(tǒng)機(jī)器學(xué)習(xí)中,我們需要將數(shù)據(jù)集進(jìn)行特征提取并進(jìn)行標(biāo)記,再通過訓(xùn)練算法來得到一個分類器或回歸器。這種方法的缺點是需要人工處理大量的數(shù)據(jù),并且存在過擬合的問題。而深度學(xué)習(xí)則可以直接對輸入的原始數(shù)據(jù)進(jìn)行學(xué)習(xí),無需手工特征提取。但是,深度學(xué)習(xí)的關(guān)鍵在于負(fù)樣本數(shù)據(jù)庫的構(gòu)建和管理。

創(chuàng)新互聯(lián)公司-專業(yè)網(wǎng)站定制、快速模板網(wǎng)站建設(shè)、高性價比洞頭網(wǎng)站開發(fā)、企業(yè)建站全套包干低至880元,成熟完善的模板庫,直接使用。一站式洞頭網(wǎng)站制作公司更省心,省錢,快速模板網(wǎng)站建設(shè)找我們,業(yè)務(wù)覆蓋洞頭地區(qū)。費用合理售后完善,10多年實體公司更值得信賴。
負(fù)樣本是指不屬于我們所需要分類的目標(biāo)的樣本。在深度學(xué)習(xí)中,我們需要使用大量的負(fù)樣本來減少模型的偏差和提高模型的泛化能力。通常情況下,我們會從大量的未標(biāo)記數(shù)據(jù)中隨機(jī)采集一部分樣本作為負(fù)樣本。但這種隨機(jī)采集的方法存在一定的問題,可能導(dǎo)致采樣中出現(xiàn)偏差,影響模型的訓(xùn)練效果。
為了解決這個問題,我們需要構(gòu)建一個負(fù)樣本數(shù)據(jù)庫。這個數(shù)據(jù)庫需要包含大量的代表性的負(fù)樣本,以提高模型的泛化能力。同時,對于不同的任務(wù),我們需要不同的負(fù)樣本數(shù)據(jù)庫。比如,在人臉識別任務(wù)中,我們需要一個包含大量非人臉圖像的數(shù)據(jù)庫。
構(gòu)建一個負(fù)樣本數(shù)據(jù)庫需要一定的努力和時間。一種方法是通過人工篩選和標(biāo)記。但這種方法過于耗費人力物力,且耗時長,不適用于大規(guī)模深度學(xué)習(xí)任務(wù)。因此,我們需要探索更高效的方法。
一種可行的方法是使用爬蟲技術(shù)從互聯(lián)網(wǎng)上收集大量的未標(biāo)記數(shù)據(jù),并使用一些已有的分類器來過濾掉屬于我們所需要分類的目標(biāo)數(shù)據(jù)。這種方法比較高效,但也存在一定的問題。比如,爬取到的數(shù)據(jù)可能存在版權(quán)問題,涉及隱私等問題。因此,我們在爬蟲時需要注意合法性問題。
另一個問題是數(shù)據(jù)庫的管理。一個負(fù)樣本數(shù)據(jù)庫通常包含大量的數(shù)據(jù),這些數(shù)據(jù)需要按照一定的規(guī)則進(jìn)行分類和管理,以方便后續(xù)的訓(xùn)練和調(diào)用。比如,我們需要將不同類型的負(fù)樣本分別存放在不同的文件夾中,并按照一定的方式進(jìn)行命名。這樣可以提高數(shù)據(jù)的識別和管理效率。
負(fù)樣本數(shù)據(jù)庫的構(gòu)建和管理涉及到許多技術(shù)和方法。同時,我們也需要關(guān)注一些倫理和法律問題。但這一步工作的重要性不能被忽略。只有構(gòu)建了一個代表性的負(fù)樣本數(shù)據(jù)庫,我們才能保證深度學(xué)習(xí)模型的穩(wěn)定性和泛化能力,實現(xiàn)更加準(zhǔn)確和有效的數(shù)據(jù)分類和識別。
相關(guān)問題拓展閱讀:
- 使用libsvm 進(jìn)行一對多的留一法預(yù)測,出現(xiàn)對正樣本預(yù)測全為負(fù)的問題
- 【CV論文筆記】Focal Loss for Dense Object Detection(Focal Loss 理解)
使用libsvm 進(jìn)行一對多的留一法預(yù)測,出現(xiàn)對正樣本預(yù)測全為負(fù)的問題
對于重新描述的問題: 看敬胡樣磨拆子lz在做數(shù)模比賽之類的東西。
我想說的是,對于序列數(shù)據(jù),如果僅從序瞎稿棗列本身,只利用前N天去預(yù)測后一天的情況(注意是“只”),這個問題幾乎是不可解的,即建模p(x_t)=f(x_{t-1},,x_{t-N}). 沒有實際生活中的什么序。
【CV論文筆記】Focal Loss for Dense Object Detection(Focal Loss 理解)
本文主要用于介紹各路大神(包括rbg, kaiming he等)于2023年提出的適用于目標(biāo)領(lǐng)域的一種新的損失函數(shù)。本筆記主要為方便初學(xué)者快速入門,以及自我回顧。
論文鏈接:
github主頁:
rbg大神個人主頁:
基本目錄如下:
—–之一菇 – 摘要—-
目前最準(zhǔn)確的目標(biāo)檢測模型就是以兩階段的R-CNN系列為代表的。相比之下,單階段的目標(biāo)檢測模型雖然在準(zhǔn)確率上依然落后于兩階段的模型,但是其簡易和速度快的特性毫無疑問具有巨大的潛力。在這篇文章中,我們就深入調(diào)研為什么單階段的模型其準(zhǔn)確率會不甚理想。在調(diào)研過程中,我們發(fā)現(xiàn)最主要的一個問題就是在訓(xùn)練過程中的正負(fù)樣本(背景和真實目標(biāo))不均勻。因此,我們設(shè)計了一個新的損失函數(shù),來減少那些易于分類的樣本帶來的損失。我們新的Focal Loss損失函數(shù)重點關(guān)注那些難于被訓(xùn)練的(hard examples),并且盡量避免被那些負(fù)樣本所帶偏。為了驗證我們模型的有效性,我們還重新設(shè)計了一個新的檢測器,命名為RetinaNet,我們的實驗表明,運(yùn)用了新的損失函數(shù)以后,我們的RetinaNet在速度上已經(jīng)能夠媲美那些單階段模型,同時在準(zhǔn)確率上能夠壓制現(xiàn)存所有的兩階段模型(存疑)。
—–第二菇 – 核心思想—-
既然本文把單階段的模型不如多階段的主要歸因于正負(fù)樣本不均衡這件事情,那我們就直接列出原文的觀點。作者認(rèn)為,正負(fù)樣本不均衡將會導(dǎo)致,
1)training is inefficient as most locations are easy negatives that contribute no useful learning signal
2)en masse, the easy negatives can overwhelm training and lead to degenerate models
還是拿目標(biāo)檢測的場景來理解,單階段的目標(biāo)檢測器通常會在之一階段產(chǎn)生高達(dá)100k的候選目標(biāo),其中只有極少數(shù)是正樣本,因此該場景就是一個典型的正負(fù)樣本不平衡的問題(如下圖所示),然后,正樣本和負(fù)樣本又都各自有難易之分,即有些正樣本很容易區(qū)分,有些又很難區(qū)分,因此,正負(fù)樣本又可以分為如下四類,
(注:如果有不明白的,結(jié)合具體的網(wǎng)上盜的一張示意圖明白了【1】)
弄清楚了數(shù)據(jù)分布以后,我們再來看損失函數(shù)。我們最常用山哪的在計算分類的時候常用的損失就是交叉熵?fù)p失(以二分類為例),
其中 就是模型輸出的概率(y=1),為了方便表述,通常定義,
此時,
然逗薯碼后,為了解決正負(fù)樣本不平衡的問題,很自然的我們都會添加一個 ,該參數(shù)通常取決于正負(fù)樣本的比例,
當(dāng)然, 只是平衡了正負(fù)樣本對于最終損失的貢獻(xiàn)度,但對難易不平衡的事情完全沒有幫助。事實上,如上述第二條理由所述,在目標(biāo)檢測的任務(wù)中,存在著大量的易分樣本,雖然單個來看每一個易分樣本(置信度很高的樣本)帶來的損失很低,但是如果總的易分樣本數(shù)量過多的話,積少成多,也會引領(lǐng)總的損失走向錯誤的方向。因此,本文作者也認(rèn)為,模型應(yīng)該重點關(guān)注那些難分的樣本(hard examples),于是據(jù)此理論就提出了一個新的損失計算方法,
大家仔細(xì)研究一下這個公式就會發(fā)現(xiàn),
1)當(dāng)樣本被錯分的時候,通常 是會比較小的,因此我們新加的權(quán)值項 也是接近于1的,意思就是該項損失應(yīng)該都有貢獻(xiàn);
2)而當(dāng)樣本是正確分類的時候, 就會相對比較大,權(quán)值項也就對應(yīng)變小了,意思就是該項損失的貢獻(xiàn)是很少的;
因此,最終的Facal Loss就是結(jié)合手茄了上述的2個點提出的,
這里也貼一張原論文中的圖,作者發(fā)現(xiàn) 的時候效果更佳~
其實整一套網(wǎng)絡(luò)架構(gòu),跟RPN網(wǎng)絡(luò)是比較像的,這里直接貼一張原論文中的網(wǎng)絡(luò)架構(gòu)圖,
這里簡單提幾個關(guān)鍵的變化點,
1)其基礎(chǔ)提取圖片特征的模型采用的是ResNet,并且結(jié)合了FPN網(wǎng)絡(luò),用以構(gòu)建不同層級對應(yīng)的特征圖,因此其基本的架構(gòu)(backbone)就是ResNet + FPN的組合。
2)對應(yīng)每一層級提出的特征,都會輸入到2個結(jié)構(gòu)一摸一樣的子網(wǎng)絡(luò)中(subnetworks),分別用于分類和回歸!倆個子網(wǎng)絡(luò)的架構(gòu)是一樣的,但是參數(shù)是不一樣的(sharing a common structure, use separate parameters)。
3)Anchors的設(shè)計機(jī)制跟RPN中的是相似的,只不過對應(yīng)到FPN中,每一層級特征圖對應(yīng)的Anchor大小是不一樣的。每一個層級對應(yīng)設(shè)置的Anchor比例為 ,每一種比例對應(yīng)3種大小尺度 ,因此總的anchors數(shù)為9。
這里貼一張具體的實驗結(jié)果圖,方便以后查看(具體實驗過程不再闡述),
當(dāng)然作者本文的結(jié)論肯定就是,證明了這種Focal Loss設(shè)計的有效性了~
—–第三菇 – 總結(jié)—-
到這里,整篇論文的核心思想已經(jīng)說清楚了。本論文主要是提出了一個新的對于樣本不均衡問題的損失函數(shù)的設(shè)計方法,并實驗證明其可行性,為后續(xù)發(fā)展奠定了基礎(chǔ)。
簡單總結(jié)一下本文就是先羅列了一下該論文的摘要,再具體介紹了一下本文作者的思路,也簡單表述了一下,自己對Focal Loss的理解。希望大家讀完本文后能進(jìn)一步加深對該論文的理解。有說的不對的地方也請大家指出,多多交流,大家一起進(jìn)步~?
參考文獻(xiàn):
負(fù)樣本數(shù)據(jù)庫的介紹就聊到這里吧,感謝你花時間閱讀本站內(nèi)容,更多關(guān)于負(fù)樣本數(shù)據(jù)庫,深度學(xué)習(xí)中的關(guān)鍵:負(fù)樣本數(shù)據(jù)庫,使用libsvm 進(jìn)行一對多的留一法預(yù)測,出現(xiàn)對正樣本預(yù)測全為負(fù)的問題,【CV論文筆記】Focal Loss for Dense Object Detection(Focal Loss 理解)的信息別忘了在本站進(jìn)行查找喔。
香港服務(wù)器選創(chuàng)新互聯(lián),2H2G首月10元開通。
創(chuàng)新互聯(lián)(www.cdcxhl.com)互聯(lián)網(wǎng)服務(wù)提供商,擁有超過10年的服務(wù)器租用、服務(wù)器托管、云服務(wù)器、虛擬主機(jī)、網(wǎng)站系統(tǒng)開發(fā)經(jīng)驗。專業(yè)提供云主機(jī)、虛擬主機(jī)、域名注冊、VPS主機(jī)、云服務(wù)器、香港云服務(wù)器、免備案服務(wù)器等。
網(wǎng)頁標(biāo)題:深度學(xué)習(xí)中的關(guān)鍵:負(fù)樣本數(shù)據(jù)庫(負(fù)樣本數(shù)據(jù)庫)
網(wǎng)頁URL:http://m.fisionsoft.com.cn/article/ccchsdc.html


咨詢
建站咨詢
