新聞中心
Cookie是什么?

Cookie,指某些網(wǎng)站為了辨別用戶身份、進行session跟蹤而儲存在用戶本地終端上的數(shù)據(jù)(通常經(jīng)過加密)。在web開發(fā)中,經(jīng)常需要對會話進行跟蹤。因為http請求是無狀態(tài)協(xié)議,也就是說僅僅通過http,服務器無法區(qū)分出不同的客戶端。也就是說你訪問這個頁面之后,在刷新一次,沒有cookie的話,服務器完全不知道現(xiàn)在刷新的和剛才訪問的是同一用戶,它都當作是新的請求來處理,所以這就帶來了一定的不方便。特別是需要登錄的頁面,總不能每個頁面都登錄一次,每刷新一次就要登錄一次吧。也就是說需要某種機制來增強http協(xié)議,使得服務器可以區(qū)分出這是同一個客戶端。而這個機制就是cookie。
cookie如何工作
當你第一次訪問某個網(wǎng)站的時候,服務器會給你頒發(fā)一個特定的cookie,之后你每次訪問這個站點,你發(fā)送的請求頭里都會帶上相應的cookie,這樣服務器便知道這倆請求是同一個客戶發(fā)送的。
相關(guān)推薦:《python教程》
第一次訪問某個網(wǎng)站,服務器會給你個cookie,response headers里有一個set-cookie 字段,就是告訴瀏覽器,把這個cookie放到本地,以后訪問我這個站點的時候,都把這個cookie帶上,我就知道你是誰了。
然后刷新頁面,相當于第二次訪問
會發(fā)現(xiàn),第二次訪問的時候,response headers里邊已經(jīng)沒有這個set cookie字段了,但是request headers 里多了一個cookie字段,而且仔細觀察的話,你會發(fā)現(xiàn)這個值恰恰就是剛剛response headers set cookie字段的值。其實只要你不關(guān)閉瀏覽器,在打開一個窗口你會發(fā)現(xiàn)這個cookie值還是這個,默認情況下,關(guān)掉瀏覽器或者換一個瀏覽器,服務器就認為這是一個新的會話了。而cookie的保存時間是可以設定的,你會發(fā)現(xiàn)知乎,簡書等網(wǎng)站,只要你登陸成功之后,即使關(guān)閉瀏覽器,過幾天之后還是登陸狀態(tài),說明這個cookie是一個持久的cookie,保存時間比較長。
從上述倆張圖,可以發(fā)現(xiàn)cookie是實實在在存在于http請求和響應報頭的。
如何用python實現(xiàn)cookie登陸
既然大概明白了cookie機制,我們就嘗試用cookie進行登陸。以登陸知乎為例,如果你用賬號密碼登陸,驗證碼是個大問題,起碼目前對我來說是這樣,所以你先用瀏覽器手動登陸知乎。右鍵進入開發(fā)者選項,network,選擇www.zhihu.com,查看請求頭信息。
然后把cookie復制下來,可以開始寫代碼了。
import requests
from bs4 import BeautifulSoup
headers={
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.100
Safari/537.36',
'Referer':'https://www.zhihu.com/',
'Cookie':'q_c1=36160dc56c7d4cf3af14559e4ea69ed1|1508646188000|1508646188000; q_c1=e1adb01bc55343c0b61e0d4e08f73344|
1508646188000|1508646188000; _zap=7926df57-02e2-45a7-9244-85ff9156e100; d_c0="ABACCuGPkwyPTgYydZLhc0-YwrldDeOJ3_w=|
1508841150"; r_cap_id="NjE4YWExOTIxM2YwNGVlODhmNjc5ZDE3MGQyNWM0MjM=|1508844066|
4207fbc525684854cb948b64e10a3c693a999056"; cap_id="YzRhYmM5YTJhZWM4NGFiYWExOGYzOTU1ZjczMGMyOGI=|1508844066|
a828518b3a798b99e4ea0cd6a54f25dc31d70c6d"; z_c0=Mi4xTk5WX0FnQUFBQUFBRUFJSzRZLVREQmNBQUFCaEFsVk5zM0RjV2dDWEhfTS16TmV1
dk80dTVZSnpqOGNpX3NpblF3|1508844211|c34b0d4374988f038beedfa2cbcd48e2271a0c66; __utma=51854390.9389312.1508841151.
1508841151.1508843285.2; __utmz=51854390.1508841151.1.1.utmcsr=baidu|utmccn=(organic)|utmcmd=organic; __utmv=51854390.
100-1|2=registration_date=20160120=1^3=entry_date=20160120=1; aliyungf_tc=AQAAAB0uB1XAWQIAE7YKcClINzXafvOI;
_xsrf=3283d7f2-8e92-4b94-9b0e-1105c2d069d0'
}
res=requests.get("https://www.zhihu.com/search?type=content&q=java",headers=headers)
soup=BeautifulSoup(res.text,'html.parser')
n=soup.select(".list")[0].select(".item")可以發(fā)現(xiàn),已經(jīng)抓到了本來需要登陸才能看的頁面,而如果去掉請求頭里的cookie字段,會幫你重定向到登陸頁面。
分享題目:創(chuàng)新互聯(lián)Python教程:Python獲取cookie有什么用
本文鏈接:http://m.fisionsoft.com.cn/article/dpspjjp.html


咨詢
建站咨詢
