新聞中心
在做網(wǎng)絡(luò)爬蟲的過程中你是否一些在這方面做的很好的網(wǎng)站,你向知道他是通過哪些相關(guān)的操作做出這么好的網(wǎng)站,以下就是文章的相關(guān)內(nèi)容的具體介紹,希望你瀏覽完下面的內(nèi)容會(huì)有所收獲。Python模擬網(wǎng)頁的javascript加密驗(yàn)證處理

創(chuàng)新互聯(lián)公司長期為超過千家客戶提供的網(wǎng)站建設(shè)服務(wù),團(tuán)隊(duì)從業(yè)經(jīng)驗(yàn)10年,關(guān)注不同地域、不同群體,并針對(duì)不同對(duì)象提供差異化的產(chǎn)品和服務(wù);打造開放共贏平臺(tái),與合作伙伴共同營造健康的互聯(lián)網(wǎng)生態(tài)環(huán)境。為溧陽企業(yè)提供專業(yè)的網(wǎng)站設(shè)計(jì)制作、做網(wǎng)站,溧陽網(wǎng)站改版等技術(shù)服務(wù)。擁有十載豐富建站經(jīng)驗(yàn)和眾多成功案例,為您定制開發(fā)。
在做網(wǎng)絡(luò)爬蟲中很多人都會(huì)遇到,做得比較好的一些企業(yè)級(jí)網(wǎng)站,對(duì)于登陸或者其他操作都會(huì)對(duì)用戶的輸入做一些加密處理后再post到服務(wù)器上去,而加密這部分幾乎都是通過JavaScript來完成的,所以要做爬蟲,需要模擬 這些加密的處理。
我比較喜歡Python來做爬蟲,urllib/urllib2庫用起來真的是很方便,所以很多時(shí)候遇到需要在python中來模擬網(wǎng)站的JavaScript加密過程。暫時(shí)總結(jié)起來有兩種方法:
***種是改寫JavaScript的代碼。這沒什么好說的,不過只適用于比較小而且不復(fù)雜的JavaScript代碼片段。比如人人網(wǎng)上發(fā)站內(nèi)信的頁面有這樣的一個(gè)隱藏post數(shù)據(jù):
在頁面上biz的值為0,但是post的時(shí)候就會(huì)變成類似于941_683291223928232的字串,仔細(xì)看一下頁面的源代碼,就會(huì)發(fā)現(xiàn)這段驗(yàn)證的加密字串是通過一段JavaScript的代碼生成的:這其實(shí)類似一段小型的驗(yàn)證加密,Python模擬網(wǎng)頁的javascript加密驗(yàn)證處理 ,它先隨機(jī)生產(chǎn)一段字
串,復(fù)制給隨機(jī)產(chǎn)生的一個(gè)變量名,再隨機(jī)生成一段運(yùn)算符,復(fù)制給另一個(gè)隨機(jī)生成的變量名,然后對(duì)這兩個(gè)變量進(jìn)行一系列操作和運(yùn)算,生成一個(gè)類似于941_683291223928232的字串。每次刷新頁面這段代碼中產(chǎn)生的字串和變量名都是不一樣的,但是仔細(xì)研究這段代碼,算法都是相同的,只要得到字串和運(yùn)算符串,就可以生成這串驗(yàn)證密鑰了。
所以將這段代碼簡(jiǎn)單的改寫成python代碼,問題得到解決,下面代碼中code就是提取出來的上述JavaScript代碼中的mREOQQ,operator代表VKMHX,而xn則代表ab的初始值,***得到的xn_biz就是我們最終需要的驗(yàn)證密鑰了。以上的文章就是對(duì)Python模擬網(wǎng)頁的實(shí)際應(yīng)用的相關(guān)介紹。
網(wǎng)頁名稱:Python模擬網(wǎng)頁中javascript加密與驗(yàn)證的相關(guān)處理
路徑分享:http://m.fisionsoft.com.cn/article/djhgodj.html


咨詢
建站咨詢
