玄幻小说完本,手机推荐排行榜

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷(xiāo)解決方案

通用爬蟲(chóng)技術(shù)要點(diǎn)：Dom樹(shù)的重建

這個(gè)問(wèn)題來(lái)自于讀者交流群。原問(wèn)題如下圖所示：

你所需要的網(wǎng)站建設(shè)服務(wù)，我們均能行業(yè)靠前的水平為你提供.標(biāo)準(zhǔn)是產(chǎn)品質(zhì)量的保證，主要從事成都網(wǎng)站設(shè)計(jì)、網(wǎng)站制作、企業(yè)網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站建設(shè)、網(wǎng)頁(yè)設(shè)計(jì)、品牌網(wǎng)站制作、網(wǎng)頁(yè)制作、做網(wǎng)站、建網(wǎng)站。成都創(chuàng)新互聯(lián)擁有實(shí)力堅(jiān)強(qiáng)的技術(shù)研發(fā)團(tuán)隊(duì)及素養(yǎng)的視覺(jué)設(shè)計(jì)專才。

這個(gè)問(wèn)題在通用爬蟲(chóng)的開(kāi)發(fā)過(guò)程中確實(shí)會(huì)涉及到。因?yàn)榫W(wǎng)頁(yè)的HTML 結(jié)構(gòu)千變?nèi)f化，但是，通用爬蟲(chóng)需要在不預(yù)先知道目標(biāo)網(wǎng)頁(yè)結(jié)構(gòu)的情況下對(duì)其中的內(nèi)容進(jìn)行提取。

這種情況下，通用爬蟲(chóng)一般會(huì)分成幾個(gè)不同的部分，如下圖所示：

其中，HTML 源碼改寫(xiě)這一個(gè)組件，會(huì)根據(jù)一定的策略對(duì)網(wǎng)頁(yè)源代碼進(jìn)行修改，剔除無(wú)關(guān)的節(jié)點(diǎn)，合并復(fù)雜但沒(méi)有必要的嵌套節(jié)點(diǎn)……改寫(xiě)以后，輸出相對(duì)標(biāo)準(zhǔn)和統(tǒng)一的 HTML，傳給下游的信息抽取組件進(jìn)行內(nèi)容抽取。

這位同學(xué)的問(wèn)題，就涉及到對(duì)源代碼進(jìn)行改寫(xiě)。實(shí)際上，使用 lxml 在 DOM 樹(shù)中插入一個(gè)節(jié)點(diǎn)，這本來(lái)根本不是什么問(wèn)題。任何一個(gè)會(huì)使用 Google 的同學(xué)，只要搜索lxml html insert element，自然就能找到大量的解決方法，如下圖所示：

但是，這個(gè)問(wèn)題怪就怪在，它需要在文本節(jié)點(diǎn)的前面增加子節(jié)點(diǎn)。干講可能不好描述，我用一個(gè)例子來(lái)說(shuō)明這個(gè)問(wèn)題。

大家先來(lái)看這段代碼：

 
 
 
 
  
  
  
  from lxml.html import fromstring, Element, etree 
  
  
  
  from html import unescape 
  
  
  
  html = ''' 
  
  
  
   
  
  
  
      你好

'''

node = fromstring(html)

p_node = node.find('.//p')

element = Element('span')

element.text = '青南'

p_node.insert(0, element)

new_html = unescape(etree.tostring(node).decode())

print(new_html)

根據(jù)我們使用 Python 列表的經(jīng)驗(yàn)，如果一個(gè)列表a現(xiàn)在是['你好']，當(dāng)我們執(zhí)行a.insert(0, '青南')以后，得到的結(jié)果應(yīng)該是['青南', '你好']。但是我們來(lái)看看上面這段代碼的運(yùn)行效果：

可以看到，青南是在你好后面的。大家再看本文最開(kāi)頭的圖，提問(wèn)者舉出的例子中，他希望把子節(jié)點(diǎn)插入到文本之前。具體到這個(gè)例子中，應(yīng)該是青南你好。

大家可以試一試，你在 Google 上面無(wú)論怎么搜索，都找不到如何把節(jié)點(diǎn)插入到文本前面的方法。

但實(shí)際上，只要回歸官方文檔，你就會(huì)發(fā)現(xiàn)整個(gè)問(wèn)題的解決方法并不困難。我們需要使用的，是lxml.html.builder[1]。

還是上面的例子，如何把 span 標(biāo)簽弄到文本前面呢?我們用 builder來(lái)實(shí)現(xiàn)：

 
 
 
 
  
  
  
  from lxml.html import builder 
  
  
  
  from html import unescape 
  
  
  
   
  
  
  
   
  
  
  
  html = ''' 
  
  
  
  
 
  
  
  
  ''' 
  
  
  
   
  
  
  
  node = fromstring(html) 
  
  
  
  new_node = builder.P(builder.SPAN('青南'), '你好') 
  
  
  
  node.append(new_node) 
  
  
  
  new_html = unescape(etree.tostring(node).decode()) 
  
  
  
  print(new_html)

運(yùn)行效果如下圖所示：

看到這里，可能有同學(xué)會(huì)覺(jué)得我在耍無(wú)賴。這就像是讓我寫(xiě)一個(gè)程序，計(jì)算斐波那契數(shù)列前5項(xiàng)的值，于是我5秒鐘寫(xiě)出了答案print(1, 1, 2, 3, 5)。上面的代碼中，我直接使用builder.P(builder.SPAN('青南'), '你好')，這跟直接寫(xiě)

青南你好

有什么區(qū)別？這不是在作弊嗎？

我知道你很不服氣，但是，這就是真實(shí)的情況。通用爬蟲(chóng)在做 HTML源碼改寫(xiě)的時(shí)候，就是這樣做的。因?yàn)橹苯訉?duì)網(wǎng)頁(yè)的 Dom 樹(shù)進(jìn)行改寫(xiě)是非常麻煩的事情。如果直接修改 Dom 樹(shù)，經(jīng)常會(huì)出現(xiàn)需要找一個(gè)節(jié)點(diǎn)的父節(jié)點(diǎn)，然后再找父節(jié)點(diǎn)的兄弟節(jié)點(diǎn)的子節(jié)點(diǎn)進(jìn)行修改。或者要判斷某個(gè)節(jié)點(diǎn)是否有子節(jié)點(diǎn)，有和沒(méi)有，需要兩種邏輯來(lái)處理，才能防止破壞 Dom 樹(shù)。

所以，我們一般不會(huì)直接修改 Dom 樹(shù)，而是一邊掃描原始的 Dom 樹(shù)，一邊使用 builder 重建一個(gè)新的 Dom 樹(shù)。重建 Dom 樹(shù)的過(guò)程比修改 Dom 樹(shù)的過(guò)程要簡(jiǎn)單很多，畢竟寫(xiě)過(guò)代碼的人都知道，寫(xiě)新代碼比改別人的代碼容易很多。

參考資料

[1]lxml.html.builder: https://lxml.de/api/lxml.html.builder-module.html

本文轉(zhuǎn)載自微信公眾號(hào)「未聞Code」，可以通過(guò)以下二維碼關(guān)注。轉(zhuǎn)載本文請(qǐng)聯(lián)系未聞Code公眾號(hào)。

網(wǎng)頁(yè)題目：通用爬蟲(chóng)技術(shù)要點(diǎn)：Dom樹(shù)的重建
URL網(wǎng)址：http://m.fisionsoft.com.cn/article/cdhhood.html

新聞中心

其他資訊