新聞中心
爬蟲和反爬的對(duì)抗一直在進(jìn)行著… 為了幫助更好的進(jìn)行爬蟲行為以及反爬, 今天就來(lái)介紹一下網(wǎng)頁(yè)開發(fā)者常用的反爬手段。

創(chuàng)新互聯(lián)主營(yíng)馬鞍山網(wǎng)站建設(shè)的網(wǎng)絡(luò)公司,主營(yíng)網(wǎng)站建設(shè)方案,重慶App定制開發(fā),馬鞍山h5重慶小程序開發(fā)搭建,馬鞍山網(wǎng)站營(yíng)銷推廣歡迎馬鞍山等地區(qū)企業(yè)咨詢
1. BAN IP :網(wǎng)頁(yè)的運(yùn)維人員通過(guò)分析日志發(fā)現(xiàn)最近某一個(gè)IP訪問(wèn)量特別特別大,某一段時(shí)間內(nèi)訪問(wèn)了無(wú)數(shù)次的網(wǎng)頁(yè),則運(yùn)維人員判斷此種訪問(wèn)行為并非正常人的行為,于是直接在服務(wù)器上封殺了此人IP。
解決方法:此種方法極其容易誤傷其他正常用戶,因?yàn)槟骋黄瑓^(qū)域的其他用戶可能有著相同的IP,導(dǎo)致服務(wù)器少了許多正常用戶的訪問(wèn),所以一般運(yùn)維人員不會(huì)通過(guò)此種方法來(lái)限制爬蟲。不過(guò)面對(duì)許多大量的訪問(wèn),服務(wù)器還是會(huì)偶爾把該IP放入黑名單,過(guò)一段時(shí)間再將其放出來(lái),但我們可以通過(guò)分布式爬蟲以及購(gòu)買代理IP也能很好的解決,只不過(guò)爬蟲的成本提高了。
2. BAN USERAGENT :很多的爬蟲請(qǐng)求頭就是默認(rèn)的一些很明顯的爬蟲頭python-requests/2.18.4,諸如此類,當(dāng)運(yùn)維人員發(fā)現(xiàn)攜帶有這類headers的數(shù)據(jù)包,直接拒絕訪問(wèn),返回403錯(cuò)誤
解決方法:直接r=requests.get(url,headers={'User-Agent':'Baiduspider'})把爬蟲請(qǐng)求headers偽裝成百度爬蟲或者其他瀏覽器頭就行了。
案例:雪球網(wǎng)
返回的就是
403
403 Forbidden.
Your IP Address: xxx.xxx.xxx.xxx .
但是當(dāng)我們這樣寫:
返回的就是
200
< !DOCTYPE html>
3. BAN COOKIES :服務(wù)器對(duì)每一個(gè)訪問(wèn)網(wǎng)頁(yè)的人都set-cookie,給其一個(gè)cookies,當(dāng)該cookies訪問(wèn)超過(guò)某一個(gè)閥值時(shí)就BAN掉該COOKIE,過(guò)一段時(shí)間再放出來(lái),當(dāng)然一般爬蟲都是不帶COOKIE進(jìn)行訪問(wèn)的,可是網(wǎng)頁(yè)上有一部分內(nèi)容如新浪微博是需要用戶登錄才能查看更多內(nèi)容。
解決辦法:控制訪問(wèn)速度,或者某些需要登錄的如新浪微博,在某寶上買多個(gè)賬號(hào),生成多個(gè)cookies,在每一次訪問(wèn)時(shí)帶上cookies
案例:螞蜂窩
以前因?yàn)槁糜蔚男枨螅韵氲搅巳プヒ稽c(diǎn)游記來(lái)找找哪些地方好玩,于是去了螞蜂窩網(wǎng)站找游記,一篇一篇的看真的很慢,想到不如把所有文章抓過(guò)來(lái)然后統(tǒng)計(jì)每個(gè)詞出現(xiàn)的頻率***,統(tǒng)計(jì)出最熱的一些旅游景點(diǎn),就寫了一個(gè)scrapy爬蟲抓游記,當(dāng)修改了headers后開始爬取,發(fā)現(xiàn)訪問(wèn)過(guò)快服務(wù)器就會(huì)斷開掉我的連接,然后過(guò)一段時(shí)間(幾個(gè)小時(shí))才能繼續(xù)爬。于是放慢速度抓就發(fā)現(xiàn)不會(huì)再被BAN了。
4. 驗(yàn)證碼驗(yàn)證 :當(dāng)某一用戶訪問(wèn)次數(shù)過(guò)多后,就自動(dòng)讓請(qǐng)求跳轉(zhuǎn)到一個(gè)驗(yàn)證碼頁(yè)面,只有在輸入正確的驗(yàn)證碼之后才能繼續(xù)訪問(wèn)網(wǎng)站
解決辦法:python可以通過(guò)一些第三方庫(kù)如(pytesser,PIL)來(lái)對(duì)驗(yàn)證碼進(jìn)行處理,識(shí)別出正確的驗(yàn)證碼,復(fù)雜的驗(yàn)證碼可以通過(guò)機(jī)器學(xué)習(xí)讓爬蟲自動(dòng)識(shí)別復(fù)雜驗(yàn)證碼,讓程序自動(dòng)識(shí)別驗(yàn)證碼并自動(dòng)輸入驗(yàn)證碼繼續(xù)抓取
案例:安全客
當(dāng)訪問(wèn)者對(duì)安全客訪問(wèn)過(guò)快他就會(huì)自動(dòng)蹦出一個(gè)驗(yàn)證碼界面。
如下:
5. javascript渲染 :網(wǎng)頁(yè)開發(fā)者將重要信息放在網(wǎng)頁(yè)中但不寫入html標(biāo)簽中,而瀏覽器會(huì)自動(dòng)渲染


咨詢
建站咨詢