新聞中心
如果你在做網(wǎng)絡(luò)爬蟲(chóng)時(shí),你是否覺(jué)得自己的“蟲(chóng)”不如別人的?如果你想了解別人的網(wǎng)絡(luò)爬蟲(chóng)到底是怎樣運(yùn)行以及如何對(duì)其進(jìn)行加密,下面的文章就是介紹如何在python中模擬相關(guān)網(wǎng)站的JavaScript加密的實(shí)際步驟等相關(guān)內(nèi)容的介紹。

成都創(chuàng)新互聯(lián)公司從2013年成立,先為攀枝花等服務(wù)建站,攀枝花等地企業(yè),進(jìn)行企業(yè)商務(wù)咨詢服務(wù)。為攀枝花企業(yè)網(wǎng)站制作PC+手機(jī)+微官網(wǎng)三網(wǎng)同步一站式服務(wù)解決您的所有建站問(wèn)題。
在做網(wǎng)絡(luò)爬蟲(chóng)中很多人都會(huì)遇到,做得比較好的一些企業(yè)級(jí)網(wǎng)站,對(duì)于登陸或者其他操作都會(huì)對(duì)用戶的輸入做一些加密處理后再post到服務(wù)器上去,而加密這部分幾乎都是通過(guò)JavaScript來(lái)完成的,所以要做爬蟲(chóng),需要模擬 這些加密的處理。
我比較喜歡Python來(lái)做爬蟲(chóng),urllib/urllib2庫(kù)用起來(lái)真的是很方便,所以很多時(shí)候遇到需要在python中來(lái)模擬網(wǎng)站的JavaScript加密過(guò)程。暫時(shí)總結(jié)起來(lái)有兩種方法:
***種是改寫JavaScript的代碼
這沒(méi)什么好說(shuō)的,不過(guò)只適用于比較小而且不復(fù)雜的JavaScript代碼片段。比如人人網(wǎng)上發(fā)站內(nèi)信的頁(yè)面有這樣的一個(gè)隱藏post數(shù)據(jù):
在頁(yè)面上biz的值為0,但是post的時(shí)候就會(huì)變成類似于941_683291223928232的字串,仔細(xì)看一下頁(yè)面的源代碼,就會(huì)發(fā)現(xiàn)這段驗(yàn)證的加密字串是通過(guò)一段JavaScript的代碼生成的:
這其實(shí)類似一段小型的驗(yàn)證加密,它先隨機(jī)生產(chǎn)一段字串,復(fù)制給隨機(jī)產(chǎn)生的一個(gè)變量名,再隨機(jī)生成一段運(yùn)算符,復(fù)制給另一個(gè)隨機(jī)生成的變量名,然后對(duì)這兩個(gè)變量進(jìn)行一系列操作和運(yùn)算,生成一個(gè)類似于941_683291223928232的字串。每次刷新頁(yè)面這段代碼中產(chǎn)生的字串和變量名都是不一樣的,但是仔細(xì)研究這段代碼,算法都是相同的,只要得到字串和運(yùn)算符串,就可以生成這串驗(yàn)證密鑰了。
所以將這段代碼簡(jiǎn)單的改寫成python代碼,問(wèn)題得到解決,在python模擬網(wǎng)站的JavaScript加密過(guò)程下面代碼中code就是提取出來(lái)的上述JavaScript代碼中的mREOQQ,operator代表VKMHX,而xn則代表ab的初始值,***得到的xn_biz就是我們最終需要的驗(yàn)證密鑰了。
- def __genBizCode(code, operator, xn):
- rXHU = unicode( code )
- yAMKEN = operator
- VCHEN, yEEJ, eLKKIH = (0, 0, ”);
- KFNQH = int( len(yAMKEN)/2 );
- while VCHEN < len(rXHU):
- yEEJ = ord(rXHU[VCHEN])
- VCHEN += 1
- index = yEEJ % len(yAMKEN)
- dDWE = ord( yAMKEN[index] )
- dDWE = chr(dDWE)
- if dDWE==’L':
- dDWE = ‘<<’
- if dDWE==’~':
- eLKKIH += str( ~yEEJ*(-1) )
- else:
- reg = ‘%d%s%d’ % ( yEEJ, dDWE, KFNQH)
- eLKKIH += str( int( eval(reg) ) )
- xnxn_biz = xn + ‘_’
- xn_biz += eLKKIH
- return xn_biz
這種方法沒(méi)有依賴性,但是使用的范圍較窄,一是要求算法簡(jiǎn)單才能改寫,二是要求算法固定,如果每次刷新頁(yè)面算法都不一樣,這種方法就不使用了。下面會(huì)談到一種通用性的方法。
第二種是在python中運(yùn)行js代碼由于QZone和QQ校友登陸的時(shí)候,post的密碼都進(jìn)行了加密,搜索了一下,發(fā)現(xiàn)很多人都研究過(guò)這個(gè)東東。騰訊將用戶的密碼和驗(yàn)證碼一起,通過(guò)一些js代碼進(jìn)行加密,生成一個(gè)32為的密鑰最終post到服務(wù)器上。
對(duì)于這個(gè)加密算法,網(wǎng)上大部分流傳的說(shuō)法是,先將用戶密碼進(jìn)行3次md5的加密,轉(zhuǎn)成大寫的32位字符串,再將驗(yàn)證轉(zhuǎn)換成大寫,與前面的32位md5大寫字符串相加,得到一個(gè)36位的字符串,***對(duì)這個(gè)36位的字串進(jìn)行md5加密并轉(zhuǎn)換成大寫字串,得到最終post的密鑰。
網(wǎng)上很多人說(shuō)用標(biāo)準(zhǔn)的md5加密,但是我用python的hashlib里的md5進(jìn)行上述的加密,得到的結(jié)果卻與標(biāo)準(zhǔn)結(jié)果不同,于是只能尋求其他辦法。后來(lái)在Google的時(shí)候搜到了在python中利用windows的插件Windows ScriptControl運(yùn)行其他腳本語(yǔ)言的方法,不僅適用js,還可以運(yùn)行vbs等。
首先需要安裝Windows ScriptControl插件,可以去微軟的官網(wǎng)上下載。其次還需要安裝python的win32庫(kù),然后就可以簡(jiǎn)單的如下執(zhí)行:
- import win32com.client
- def readJsFile(filename):
- fp = file( filename, ‘r’ )
- lines = ”
- for line in fp:
- lines += line
- return lines
- def driveJsCode(code, func, paras=None):
- js = win32com.client.Dispatch
(’MSScriptControl.ScriptControl’)- js.Language = ‘JavaScript’
- js.AllowUI = False
- js.AddCode( code )
- if paras:
- return js.Run(func, paras[0], paras[1])
- else:
- return js.Run(func)
- if __name__ == ‘__main__’:
- code = readJsFile( ‘comm.js’ )
- p = driveJsCode
( code, ‘myPreProcess’, [password, verfcode] )- print ‘The decoded code is %s’ % p
這種方法通用性強(qiáng),而且即使服務(wù)器改變算法,依然可以得到正確的加密驗(yàn)證碼。以上的相關(guān)內(nèi)容就是對(duì)Python模擬網(wǎng)頁(yè)的javascript加密驗(yàn)證處理的相關(guān)內(nèi)容的介紹。
網(wǎng)站標(biāo)題:用Python模擬網(wǎng)站中對(duì)JavaScript加密需要的兩種方法
文章URL:http://m.fisionsoft.com.cn/article/cdjocji.html


咨詢
建站咨詢
