新聞中心
在上一篇教程《pyspider 爬蟲教程 (1):HTML 和 CSS 選擇》中,我們使用 self.crawl API 抓取豆瓣電影的 HTML 內(nèi)容,并使用 CSS 選擇器解析了一些內(nèi)容。不過,現(xiàn)在的網(wǎng)站通過使用 AJAX 等技術(shù),在你與服務(wù)器交互的同時,不用重新加載整個頁面。但是,這些交互手段,讓抓取變得稍微難了一些:你會發(fā)現(xiàn),這些網(wǎng)頁在抓回來后,和瀏覽器中的并不相同。你需要的信息并不在返回 HTML 代碼中。

網(wǎng)站建設(shè)公司,為您提供網(wǎng)站建設(shè),網(wǎng)站制作,網(wǎng)頁設(shè)計及定制網(wǎng)站建設(shè)服務(wù),專注于成都企業(yè)網(wǎng)站建設(shè),高端網(wǎng)頁制作,對OPP膠袋等多個行業(yè)擁有豐富的網(wǎng)站建設(shè)經(jīng)驗的網(wǎng)站建設(shè)公司。專業(yè)網(wǎng)站設(shè)計,網(wǎng)站優(yōu)化推廣哪家好,專業(yè)網(wǎng)站推廣優(yōu)化,H5建站,響應(yīng)式網(wǎng)站。
在這一篇教程中,我們會討論這些技術(shù) 和 抓取他們的方法。
AJAX
AJAX 是 Asynchronous JavaScript and XML(異步的 JavaScript 和 XML)的縮寫。AJAX 通過使用原有的 web 標(biāo)準(zhǔn)組件,實現(xiàn)了在不重新加載整個頁面的情況下,與服務(wù)器進(jìn)行數(shù)據(jù)交互。例如在新浪微博中,你可以展開一條微博的評論,而不需要重新加載,或者打開一個新的頁面。但是這些內(nèi)容并不是一開始就在頁面中的(這樣頁面就太大了),而是在你點擊的時候被加載進(jìn)來的。這就導(dǎo)致了你抓取這個頁面的時候,并不能獲得這些評論信息(因為你沒有『展開』)。
AJAX 的一種常見用法是使用 AJAX 加載 JSON 數(shù)據(jù),然后在瀏覽器端渲染。如果能直接抓取到 JSON 數(shù)據(jù),會比 HTML 更容易解析。
當(dāng)一個網(wǎng)站使用了 AJAX 的時候,除了用 pyspider 抓取到的頁面和瀏覽器看到的不同以外。你在瀏覽器中打開這樣的頁面,或者點擊『展開』的時候,常常會看到『加載中』或者類似的圖標(biāo)/動畫。例如,當(dāng)你嘗試抓?。篽ttp://movie.douban.com/explore
你會發(fā)現(xiàn)電影是『載入中…』
找到真實的請求
由于 AJAX 實際上也是通過 HTTP 傳輸數(shù)據(jù)的,所以我們可以通過 Chrome Developer Tools 找到真實的請求,直接發(fā)起真實請求的抓取就可以獲得數(shù)據(jù)了。
打開一個新窗口
按 Ctrl+Shift+I (在 Mac 上請按 Cmd+Opt+I) 打開開發(fā)者工具。
切換到網(wǎng)絡(luò)( Netwotk 面板)
在窗口中打開 http://movie.douban.com/explore
在頁面加載的過程中,你會在面板中看到所有的資源請求。
[[191089]]
AJAX 一般是通過 XMLHttpRequest 對象接口發(fā)送請求的,XMLHttpRequest 一般被縮寫為 XHR。點擊網(wǎng)絡(luò)面板上漏斗形的過濾按鈕,過濾出 XHR 請求。挨個查看每個請求,通過訪問路徑和預(yù)覽,找到包含信息的請求:http://movie.douban.com/j/searchX61Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0
在豆瓣這個例子中,XHR 請求并不多,可以挨個查看來確認(rèn)。但在 XHR 請求較多的時候,可能需要結(jié)合觸發(fā)動作的時間,請求的路徑等信息幫助在大量的請求中找到包含信息的關(guān)鍵請求。這需要抓取或者前端的相關(guān)經(jīng)驗。所以,有一個我一直在提的觀點,學(xué)習(xí)抓取的***方法是:學(xué)會寫網(wǎng)站。
現(xiàn)在可以在新窗口中打開 http://movie.douban.com/j/searchX67Xsubjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0,你會看到包含電影數(shù)據(jù)的 JSON 原始數(shù)據(jù)。推薦安裝 JSONView(Firfox版)插件,這樣可以看到更好看的 JSON 格式,展開折疊列等功能。然后,我們根據(jù) JSON 數(shù)據(jù),編寫一個提取電影名和評分的腳本:
- class Handler(BaseHandler):
- def on_start(self):
- self.crawl('http://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&sort=recommend&page_limit=20&page_start=0',
- callback=self.json_parser)
- def json_parser(self, response):
- return [{
- "title": x['title'],
- "rate": x['rate'],
- "url": x['url']
- } for x in response.json['subjects']]
你可以使用 response.json 將結(jié)果轉(zhuǎn)為一個 python 的 dict 對象
你可以在 http://demo.pyspider.org/debug/tutorial_douban_explore 獲得完整的代碼,并進(jìn)行調(diào)試。腳本中還有一個使用 PhantomJS 渲染的提取版本,將會在下一篇教程中介紹。
HTTP
HTTP 是用來傳輸網(wǎng)頁內(nèi)容的協(xié)議。在前面的教程中,我們已經(jīng)通過 self.crawl 接口提交了 URL 進(jìn)行了抓取。這些抓取就是通過 HTTP 協(xié)議傳輸?shù)摹?/p>
在抓取過程中,你可能會遇到類似 403 Forbidden,或者需要登錄的情況,這時候你就需要正確的 HTTP 參數(shù)進(jìn)行抓取了。
一個典型的 HTTP 請求包如下,這個請求是發(fā)往 http://example.com/ 的:
- GET / HTTP/1.1
- Host: example.com
- Connection: keep-alive
- Cache-Control: max-age=0
- Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8
- User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/40.0.2214.45 Safari/537.36
- Referer: http://en.wikipedia.org/wiki/Example.com
- Accept-Encoding: gzip, deflate, sdch
- Accept-Language: zh-CN,zh;q=0.8
- If-None-Match: "359670651"
- If-Modified-Since: Fri, 09 Aug 2013 23:54:35 GMT
- 請求的***行包含 method, path 和 HTTP 協(xié)議的版本信息
- 余下的行被稱為 header,是以 key: value 的形式呈現(xiàn)的
- 如果是 POST 請求,在請求結(jié)尾可能還會有 body 內(nèi)容
你可以通過前面用過的 Chrome Developer Tools 工具查看到這些信息:
在大多數(shù)時候,使用正確的 method, path, headers 和 body 總是能抓取到你需要的信息的。
HTTP Method
HTTP Method 告訴服務(wù)器對 URL 資源期望進(jìn)行的操作。例如在打開一個 URL 的時候使用的是 GET 方式,而在提交數(shù)據(jù)的時候一般使用 POST。
TODO: need example here
HTTP Headers
HTTP Headers 是請求所帶的一個參數(shù)列表,你可以在 這里 找到完整的常用 Headers 列表。一些常用的需要注意的有:
User-Agent
UA 是標(biāo)識你使用的瀏覽器,或抓取程序的一段字符串。pyspider 使用的默認(rèn) UA 是 pyspider/VERSION (+http://pyspider.org/)。網(wǎng)站常用這個字符串來區(qū)分用戶的操作系統(tǒng)和瀏覽器,以及判斷對方是否是爬蟲。所以在抓取的時候,常常會對 UA 進(jìn)行偽裝。
在 pyspider 中,你可以通過 self.crawl(URL, headers={'User-Agent': 'pyspider'}),或者是 crawl_config = {'headers': {'User-Agent': 'xxxx'}} 來指定腳本級別的 UA。詳細(xì)請查看 API 文檔。
Referer
Referer 用于告訴服務(wù)器,你訪問的上一個網(wǎng)頁是什么。常常被用于防盜鏈,在抓取圖片的時候可能會用到。
X-Requested-With
當(dāng)使用 XHR 發(fā)送 AJAX 請求時會帶上的 Header,常被用于判斷是不是 AJAX 請求。例如在 北郵人論壇 中,你需要:
- def on_start(self):
- self.crawl('http://bbs.byr.cn/board/Python',
- headers={'X-Requested-With': 'XMLHttpRequest'},
- callback=self.index_page)
帶有 headers={'X-Requested-With': 'XMLHttpRequest'} 才能抓取到內(nèi)容。
HTTP Cookie
雖然 Cookie 只是 HTTP Header 中的一個,但是因為非常重要,但是拿出來說一下。Cookie 被 HTTP 請求用來區(qū)分、追蹤用戶的身份,當(dāng)你在一個網(wǎng)站登錄的時候,就是通過寫入 Cookie 字段來記錄登錄狀態(tài)的。
當(dāng)遇到需要登錄的網(wǎng)站,你需要通過設(shè)置 Cookie 參數(shù),來請求需要登錄的內(nèi)容。Cookie 可以通過開發(fā)者工具的請求面板,或者是資源面板中獲得。在 pyspider 中,你也可以使用 response.cookies 獲得返回的 cookie,并使用 self.crawl(URL, cookie={'key': 'value'}) 來設(shè)置請求的 Cookie 參數(shù)。
分享文章:pyspider爬蟲教程 (2):AJAX和HTTP
分享URL:http://m.fisionsoft.com.cn/article/cocggcc.html


咨詢
建站咨詢
