好看的课外书,完美世界有声小说

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營銷解決方案

自動評論何須學完爬蟲，只需要掌握Requests庫即可

網(wǎng)絡(luò)庫requests

其實，我們有專門的網(wǎng)絡(luò)庫進行直接的網(wǎng)絡(luò)請求與處理，它就是requests庫。在我們開始講解與使用之前，需要通過如下命令進行安裝：

 
 
 
 
  
  
  
  pip install requests

首先，我們先來看看requests庫可以進行哪些操作：

1.發(fā)送HTTP請求2.上傳文件3.處理Cookie4.支持Session會話5.使用代理6.身份驗證7.打包請求8.SSL證書驗證

下面，我們來一一介紹這些操作具體是如何實現(xiàn)的。

發(fā)送HTTP請求

與urllib與urllib3一樣，HTTP請求常用的是GET請求與POST請求。

GET請求

其中，GET請求使用的方式是requests.get()。它可以設(shè)置參數(shù)params，也可以設(shè)置超時timeout，同時也可以設(shè)置請求頭headers。

示例如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://www.csdn.net/"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'   
  
  
  }   
  
  
  result = requests.get(url=url, timeout=1, headers=headers)   
  
  
  #打印網(wǎng)頁源代碼   
  
  
  print(result.text)   
  
  
  #打印響應狀態(tài)碼   
  
  
  print(result.status_code)   
  
  
  #打印Cookie   
  
  
  print(result.cookies)   
  
  
  #打印result類型   
  
  
  print(type(result))

運行之后，輸出如下：

POST請求

接著，我們來介紹POST請求。這里，我們同樣使用測試網(wǎng)站http://httpbin.org/post，向它發(fā)送一些數(shù)據(jù)。示例如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "http://httpbin.org/post"   
  
  
     
  
  
  data = {   
  
  
     
  
  
  "name": "liyuanjing",   
  
  
     
  
  
  "age": "29"   
  
  
     
  
  
  }   
  
  
     
  
  
  headers = {   
  
  
     
  
  
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'   
  
  
     
  
  
  }   
  
  
     
  
  
  result = requests.post(url=url, timeout=1, headers=headers, data=data)   
  
  
     
  
  
  # 打印網(wǎng)頁源代碼   
  
  
     
  
  
  print(result.text)   
  
  
     
  
  
  # 將其轉(zhuǎn)換為json   
  
  
     
  
  
  print(result.json())

運行之后，效果如下：

抓取二進制圖片

對于文本文件的獲取，我們很簡單地通過text進行處理分析。但是假如我們是獲取的一張圖片顯然text是無法還原真實內(nèi)容。

不僅如此，圖片的text是亂碼。所以，我們需要將獲取到的圖片二進制數(shù)據(jù)通過相應的API保存為文件。示例代碼如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://img1.baidu.com/it/u=954496120,1621506021&fm=26&fmt=auto&gp=0.jpg"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'   
  
  
  }   
  
  
  result = requests.get(url=url, timeout=1, headers=headers)   
  
  
  with open('requests.png', 'wb') as f:   
  
  
      f.write(result.content)

運行之后，就會在程序目錄的統(tǒng)計目錄下生成一張圖片，當然圖片鏈接讀者可以自己去找。這里的鏈接暫時有效。

需要注意的是，response.text是Unicode編碼，而response.content是原始二進制字節(jié)流，這一點要額外注意，如果網(wǎng)頁出現(xiàn)亂碼，可以使用response.encoding=”gbk”進行設(shè)置解析。

上傳文件

與講解urllib3一樣，我們這里上傳文件的服務器端口，由flask編寫。我們先來看看服務器端的代碼：

 
 
 
 
  
  
  
  import flask   
  
  
  import os   
  
  
     
  
  
  UPLOAD_FILE = 'uploads'   
  
  
  app = flask.Flask(__name__)   
  
  
  @app.route('/', methods=['POST'])   
  
  
  def upload_file():   
  
  
      file = flask.request.files['file']   
  
  
      if file:   
  
  
          file.save(os.path.join(UPLOAD_FILE, os.path.basename(file.filename)))   
  
  
          return '文件上傳成功'   
  
  
      else:   
  
  
          return '文件上傳失敗'   
  
  
     
  
  
  if __name__ == '__main__':   
  
  
      app.run()

運行此段代碼，默認會一直運行等待下去。

而使用requests進行文件的上傳，也非常的簡單，因為文件上傳是Post請求，我們只需要設(shè)置file參數(shù)。示例如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "http://127.0.0.1:5000"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'   
  
  
  }   
  
  
  files = {   
  
  
      "file": open('123.png', 'rb')   
  
  
  }   
  
  
  result = requests.post(url=url, files=files)   
  
  
  print(result.text)

運行之后，會在項目文件uploads文件夾下多一個123.png圖片，當然123上傳時的文件必須存在。同時也要事先創(chuàng)建uploads文件夾。

處理Cookie

一般來說，爬蟲分為2個部分：首先是登錄，然后才是爬取。而在登錄時，我們一般使用selenium，進行cookie的返回。

接著使用requests進行爬取網(wǎng)頁的源代碼，因為selenium是一個專門的庫，后面我們會介紹，這里我們先假設(shè)我們獲取到了cookie。

直接將Cookie設(shè)置到請求頭

為了更有意思，我們在chrome按F12之后，用瀏覽器評論一個CSDN帖子，會捕捉到如下圖所示的請求數(shù)據(jù)：

這里，我們可以復制cookie數(shù)據(jù)到我們的headers之中。

同時下面有一個提交表單，其中，content是我們評論CSDN的內(nèi)容，articleId是我們評論CSDN的帖子，讀者可以自己看看CSDN帖子是否有一串數(shù)字。

通過請求頭，評論CSDN

那么，我們可以仿照這個請求連接，通過requests完成CSDN的評論操作，示例代碼如下所示：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://blog.csdn.net/phoenix/web/v1/comment/submit"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',   
  
  
      'cookie': 'CSDN登錄后返回的cookie',   
  
  
  }   
  
  
  data = {   
  
  
      "commentId": "",   
  
  
      "content": "最近正在學習剛好能用上",   
  
  
      "articleId": "118750834",   
  
  
  }   
  
  
  result = requests.post(url=url, data=data, headers=headers)   
  
  
  print(result.status_code)

運行之后，控制臺會輸出200，同時評論帖子下面會多出一條評論數(shù)據(jù)，如下圖所示：

RequestsCookieJar()

除了通過請求頭設(shè)置Cookie進行訪問之外，其實我們的post()方法還有一個專門的cookies參數(shù)，它用于接收RequestsCookieJar對象。

示例如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://blog.csdn.net/phoenix/web/v1/comment/submit"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',   
  
  
  }   
  
  
  cookieStr = 'CSDN登錄后返回的cookie'   
  
  
  data = {   
  
  
      "commentId": "",   
  
  
      "content": "最近正在學習剛好能用上",   
  
  
      "articleId": "118517922",   
  
  
  }   
  
  
     
  
  
  jar = requests.cookies.RequestsCookieJar()   
  
  
  for cookie in cookieStr.split(";"):   
  
  
      key, value = cookie.split('=', 1)   
  
  
      jar.set(key, value)   
  
  
  result = requests.post(url=url, data=data, headers=headers, cookies=jar)   
  
  
  print(result.status_code)

這段代碼與前文運行效果一樣，這里不再輸出運行結(jié)果，僅僅只是cookie使用方式的不同形式。

Session會話

cookie數(shù)據(jù)保存在客戶端，session數(shù)據(jù)保存在服務器端，一個Session代表一個特定的客戶端。那么如何在特定的客戶端與服務器端的Session對象之間建立聯(lián)系呢?

通常就是不斷在客戶端與服務器端之間來回傳遞一個ID，通過這個ID，客戶端就能在服務器端找到對應的Session對象。

在實際的爬蟲項目中，有時候需要使用同一個客戶端來多次抓取頁面，就可以用到Session。示例代碼如下：

 
 
 
 
  
  
  
  result = requests.post(url=url, data=data, headers=headers, cookies=jar)   
  
  
  session = requests.Session()   
  
  
  r2 = session.post(url=url, data=data, headers=headers, cookies=jar)   
  
  
  print(r2.status_code)

這里，我們將上面的Cookie代碼改一改即可。

使用代理

對于requests庫來說，使用代理非常簡單，因為get與post函數(shù)都有一個proxies參數(shù)，用于設(shè)置代理即可。示例如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://www.csdn.net/"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',   
  
  
  }   
  
  
  proxies = {   
  
  
      'http': 'http://183.47.138.80:8888',   
  
  
      'http': 'http://125.78.226.217:8888'   
  
  
  }   
  
  
  result = requests.post(url=url, proxies=proxies)

需要注意的是，這里的代理IP博主測試的時候是有效的，但讀者可能讀到的時候已經(jīng)失效，讀者可以自己去網(wǎng)絡(luò)搜尋免費的代理測試。

除了基本的HTTP代理，Request還支持SOCKS協(xié)議的代理。這是一個可選的功能，若要使用，需要使用下面的命令安裝第三方庫。

 
 
 
 
  
  
  
  pip install requests[socks]

安裝完成之后，替換proxies即可。

 
 
 
 
  
  
  
  proxies = {   
  
  
      'http': 'socks5://user:pass@host:port',   
  
  
      'https': 'socks5://user:pass@host:port'   
  
  
  }

身份驗證

requests庫還提供了身份驗證功能，其中，get與post方法有一個auth參數(shù)專門用于身份驗證，傳入的參數(shù)是HTTPBasicAuth，示例代碼如下：

 
 
 
 
  
  
  
  import requests   
  
  
  from requests.auth import HTTPBasicAuth   
  
  
     
  
  
  url = "https://www.csdn.net/"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',   
  
  
  }   
  
  
     
  
  
  result = requests.post(url=url, auth=HTTPBasicAuth('name', 'password'))   
  
  
  print(result.status_code)

這里，只是給讀者展示如何通過代碼進行身份驗證，如果你自己編寫服務器，可以通過如上代碼進行操作，這里就不編寫了。

打包請求

不管是上面的get請求還是post請求，我們都是通過requests.get或者requests.post進行操作的，但其實我們可以將請求參數(shù)單獨列出來打包。

也就是，俗稱的封裝。示例代碼如下所示：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  url = "https://www.csdn.net/"   
  
  
  headers = {   
  
  
      'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',   
  
  
  }   
  
  
     
  
  
  req = requests.Request('get', url=url, headers=headers)   
  
  
  session = requests.Session()   
  
  
  prepared = session.prepare_request(req)   
  
  
  result = session.send(prepared)   
  
  
  print(result.text)

這里，通過Request進行封裝請求數(shù)據(jù)，然后調(diào)用Session的prepare_request方法處理Request對象，并返回一個requests.models.Response對象。

最后，通過Session.send方法發(fā)送Response對象。

SLL證書驗證

在requests請求中，有一個verify的參數(shù)。訪問HTTPS時，如果需要驗證SSL證書，可以不設(shè)置該數(shù)據(jù)，它默認為True表示驗證證書。

如果不需要驗證證書，可以設(shè)置verify等于False，那么就不會進行驗證。驗證的代碼很簡單，就是什么也不用做即可，代碼如下：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  try:   
  
  
      url = "https://www.csdn.net/"   
  
  
      result = requests.get(url)   
  
  
      print(result.status_code)   
  
  
  except requests.exceptions.SSLError as e:   
  
  
      print(e.args[0])

如果你的網(wǎng)站沒有SLL證書，或者證書未經(jīng)過權(quán)威機構(gòu)認證，則會拋出SSLError異常。

如果你的網(wǎng)站有SLL證書，且經(jīng)過了權(quán)威的認證，那么就不會拋出異常。

而如果你不想驗證證書的話，可以將代碼修改為如下代碼：

 
 
 
 
  
  
  
  import requests   
  
  
     
  
  
  try:   
  
  
      urllib3.disable_warnings()   
  
  
      url = "https://www.csdn.net/"   
  
  
      result = requests.get(url, verify=False)   
  
  
      print(result.status_code)   
  
  
  except requests.exceptions.SSLError as e:   
  
  
      print(e.args[0])

不過，它會報InsecureRequestWarning警告信息，如果需要禁止輸出警告信息，可以使用urllib3.disable_warnings()進行屏蔽。

當前文章：自動評論何須學完爬蟲，只需要掌握Requests庫即可
本文來源：http://m.fisionsoft.com.cn/article/cdcogps.html