新聞中心
一. 大數(shù)據(jù)及數(shù)據(jù)挖掘基礎(chǔ)(私信小編007即可獲取大量Python學(xué)習(xí)資料?。?/strong>

成都創(chuàng)新互聯(lián)公司專注為客戶提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站設(shè)計制作、做網(wǎng)站、盈江網(wǎng)絡(luò)推廣、微信平臺小程序開發(fā)、盈江網(wǎng)絡(luò)營銷、盈江企業(yè)策劃、盈江品牌公關(guān)、搜索引擎seo、人物專訪、企業(yè)宣傳片、企業(yè)代運營等,從售前售中售后,我們都將竭誠為您服務(wù),您的肯定,是我們最大的嘉獎;成都創(chuàng)新互聯(lián)公司為所有大學(xué)生創(chuàng)業(yè)者提供盈江建站搭建服務(wù),24小時服務(wù)熱線:18980820575,官方網(wǎng)址:www.cdcxhl.com
***部分主要簡單介紹三個問題:
1、什么是大數(shù)據(jù)?
2、什么是數(shù)據(jù)挖掘?
3、大數(shù)據(jù)和數(shù)據(jù)挖掘的區(qū)別?
1、大數(shù)據(jù)(Big Data)
大數(shù)據(jù)(big data)指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
下圖是大數(shù)據(jù)經(jīng)典的4V特征。
IBM大數(shù)據(jù)庫框架及可視化技術(shù),大數(shù)據(jù)常用:Hadoop、Spark,現(xiàn)在更多的是實時數(shù)據(jù)分析,包括淘寶、京東、附近美食等。
下圖是大數(shù)據(jù)的一些應(yīng)用
說到大數(shù)據(jù),就不得不提Hadoop,而說到Hadoop,又不得不提Map-Reduce。
MapReduce是一個軟件框架由上千個商用機器組成的大集群上,并以一種可靠的,具有容錯能力的方式并行地處理上TB級別的海量數(shù)據(jù)集。MapReduce的思想是“分而治之”。Mapper負責(zé)“分,Reducer負責(zé)對map階段的結(jié)果進行匯總。
2、數(shù)據(jù)挖掘(Data Mining)
數(shù)據(jù)挖掘(Data Mining):數(shù)據(jù)庫、機器學(xué)習(xí)、人工智能、統(tǒng)計學(xué)的交叉學(xué)科。
數(shù)據(jù)挖掘需要發(fā)現(xiàn)有價值的知識,同時最頂端都是具有智慧的去發(fā)現(xiàn)知識及有價值的信息。
因為它主要是針對網(wǎng)頁數(shù)據(jù)進行的大數(shù)據(jù)分析,需要Web Mining分類如下:
Web挖掘主要分為三類:Web日志挖掘、Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘。
3、機器學(xué)習(xí)
講到機器學(xué)習(xí)和數(shù)據(jù)挖掘相關(guān)的知識,通常都會補充兩幅圖片。很形象的表示了計算機智能化與人類傳統(tǒng)知識的類比。
二. 安裝Python及基礎(chǔ)知識
1、安裝Python
在開始使用Python編程之前,需要介紹Python的安裝過程。python解釋器在Linux中可以內(nèi)置使用安裝
步驟如下:
***步:打開Web瀏覽器并訪問官網(wǎng);
第二步:
在官網(wǎng)首頁點擊Download鏈接,進入下載界面,選擇Python軟件的版本,作者選擇下載python 2.7.8,點擊“Download”鏈接。
Python下載地址:
第三步:選擇文件下載地址,并下載文件。
第四步:雙擊下載的“python-2.7.8.msi”軟件,并對軟件進行安裝。
第五步:在Python安裝向?qū)е羞x擇默認設(shè)置,點擊“Next”,選擇安裝路徑,這里設(shè)置為默認的安裝路徑“C:Python27”,點擊“Next”按鈕,如圖所示。
注意1:建議將Python安裝在C盤下,通常路徑為C:Python27,不要存在中文路徑。
在Python安裝向?qū)е羞x擇默認設(shè)置,點擊“Next”,選擇安裝路徑,這里設(shè)置為默認的安裝路徑“C:Python27”,點擊“Next”按鈕。
安裝成功后,如下圖所示:
第六步:假設(shè)安裝一切正常,點擊“開始”,選中“程序”,找到安裝成功的Python軟件,如圖所示:
選中上圖中第三個圖標,即點擊“Python (command line)命令行模式”,運行程序輸入如下代碼:
- print 'hello world'
則python命令行模式的解釋器會打印輸出“hello world”字符串,如下圖所示。
選中圖中的***個圖片,點擊“IDLE (Python GUI)”,即運行Python的集成開發(fā)環(huán)境(Python Integrated Development Environment,IDLE),運行結(jié)果如下圖。
注意2:建議大家使用IDLE寫腳本,完整的代碼而不是通過命令行模式。
2、Python基礎(chǔ)知識
這里簡單入門介紹,主要介紹下條件語句、循環(huán)語句、函數(shù)等基礎(chǔ)知識。
a、函數(shù)及運行
這里舉個簡單的例子。打開IDLE工具->點擊欄"File"->New File新建文件->命名為test.py文件,在test文件里添加代碼如下:
保存文件。并在test.py文件里點擊Run->Run Module,輸出結(jié)果如下圖所示。
b、條件語句
包括單分支、雙分支和多分支語句,if-elif-else。
(1).單分支語句
它的基本格式是:
- if condition:
- statement
- statement
需要注意的是Ptthon中if條件語句條件無需圓括號(),條件后面需要添加冒號,它沒有花括號{}而是使用TAB實現(xiàn)區(qū)分。其中condition條件判斷通常有布爾表達式(True|False 0-假|(zhì)1-真 非0即真)、關(guān)系表達式(>= <= == !=)和邏輯運算表達式(and or not)。
(2).雙分支語句
它的基本格式是:
- if condition:
- statement
- statement
- else:
- statement
- statement
(3).多分支語句
if多分支由if-elif-else組成,其中elif相當于else if,同時它可以使用多個if的嵌套。具體代碼如下所示:
c、while循環(huán)語句
while循環(huán)語句的基本格式如下:
- while condition:
- statement
- statement
- else:
- statement
- statement
其中判斷條件語句condition可以為布爾表達式、關(guān)系表達式和邏輯表達式,else可以省略(此處列出為與C語言等區(qū)別)。舉個例子:
d、for循環(huán)
該循環(huán)語句的基礎(chǔ)格式為:
- for target in sequences:
- statements
target表示變量名,sequences表示序列,常見類型有l(wèi)ist(列表)、tuple(元組)、strings(字符串)和files(文件)。
Python的for沒有體現(xiàn)出循環(huán)的次數(shù),不像C語言的for(i=0;i<10;i++)中i循環(huán)計數(shù),Python的for指每次從序列sequences里面的數(shù)據(jù)項取值放到target里,取完即結(jié)束,取多少次循環(huán)多少次。其中in為成員資格運算符,檢查一個值是否在序列中。同樣可以使用break和continue跳出循環(huán)。
下面是文件循環(huán)遍歷的過程:
e、課堂講解代碼
僅供大家參考:
輸出結(jié)果如下圖所示:
三. 安裝PIP及第三方包
接下來需要詳解介紹爬蟲相關(guān)的知識了,這里主要涉及到下面幾個知識:
爬蟲主要使用Python(字符串|urllib)+Selenium+PhantomJS+BeautifulSoup。
在介紹爬蟲及Urllib下載網(wǎng)頁或圖片之前,先教大家如何使用pip安裝第三方的庫。
PIP
在介紹介紹它們之前,需要安裝PIP軟件。“作為Python愛好者,如果不知道easy_install或者pip中的任何一個的話,那么......”。
easy_insall的作用和perl中的cpan,ruby中的gem類似,都提供了在線一鍵安裝模塊的傻瓜方便方式,而pip是easy_install的改進版,提供更好的提示信息,刪除package等功能。老版本的python中只有easy_install,沒有pip。常見的具體用法如下:
***步:下載PIP軟件
可以在官網(wǎng)http://pypi.python.org/pypi/pip#downloads下載,同時cd切換到PIP目錄,在通過python setup.py install安裝。而我采用的是下載pip-Win_1.7.exe進行安裝
第二步:安裝PIP軟件
當提示"pip and virtualenv installed"表示安裝成功,那怎么測試PIP安裝成功呢?
第三步:配置環(huán)境變量
此時在cmd中輸入pip指令會提示錯誤“不是內(nèi)部或外部命令”。
注意:兩種解決方法,一種是通過cd ..去到Srcipts環(huán)境進行安裝,pip install...
方法二:另一種配置Path路徑。
需要添加path環(huán)境變量。PIP安裝完成后,會在Python安裝目錄下添加pythonScripts目錄,即在python安裝目錄的Scripts目錄下,將此目錄加入環(huán)境變量中即可!過程如下:
第四步:使用PIP命令
下面在CMD中使用PIP命令,“pip list outdate”列舉Python安裝庫的版本信息。
注意:安裝成功后,會在Python環(huán)境中增加Scripts文件夾,包括easy_install和pip。
PIP安裝過程中可能出現(xiàn)各種問題,一種解決方法是去到python路徑,通過python set_up.py install安裝;另一種是配置Path環(huán)境比例。
課堂重點知識:
***節(jié)課主要想讓大家體會下Python網(wǎng)絡(luò)爬蟲的過程及示例。需要安裝的第三方庫主要包括三個:
- pip install httplib2
- pip install urllib
- pip install selenium
在安裝過程中,如果pip install urllib報錯,是因為httplib2包含了,可直接用。
注意:如果pip安裝報錯ascii編碼問題,需要把計算機名稱從中文修改為英文名。
四. Urllib下載網(wǎng)頁及圖片
在使用pip install urllib或pip install urllib2后,下面這段代碼是下載網(wǎng)頁。
首先我們調(diào)用的是urllib2庫里面的urlopen方法,傳入一個URL,這個網(wǎng)址是百度首頁,協(xié)議是HTTP協(xié)議,當然你也可以把HTTP換做FTP、FILE、HTTPS 等等,只是代表了一種訪問控制協(xié)議,urlopen一般接受三個參數(shù),它的參數(shù)如下:
***個參數(shù)url即為URL,第二個參數(shù)data是訪問URL時要傳送的數(shù)據(jù),第三個timeout是設(shè)置超時時間。
第二三個參數(shù)是可以不傳送的,data默認為空None,timeout默認為 socket._GLOBAL_DEFAULT_TIMEOUT。
***個參數(shù)URL是必須要傳送的,在這個例子里面我們傳送了百度的URL,執(zhí)行urlopen方法之后,返回一個response對象,返回信息便保存在這里面。
response對象有一個read方法,可以返回獲取到的網(wǎng)頁內(nèi)容。
獲取的網(wǎng)頁本地保存為"baidu.html",通過瀏覽器打開如下圖所示:
然后是需要下載圖片,這里需要學(xué)會找到圖片的URL,如下圖百度的LOGO,可以通過瀏覽器右鍵"審查元素"或"檢查"來進行定位。
定位URL后,再通過函數(shù)urlretrieve()進行下載。
重點知識:
urllib.urlopen(url[, data[, proxies]]) :創(chuàng)建一個表示遠程url的類文件對象,然后像本地文件一樣操作這個類文件對象來獲取遠程數(shù)據(jù)。
urlretrieve方法直接將遠程數(shù)據(jù)下載到本地。
如果需要顯示進度條,則使用下面這段代碼:
五. HTML網(wǎng)頁基礎(chǔ)知識及審查元素
HTML DOM是HTML Document Object Model(文檔對象模型)的縮寫,HTML DOM則是專門適用于HTML/XHTML的文檔對象模型。熟悉軟件開發(fā)的人員可以將HTML DOM理解為網(wǎng)頁的API。它將網(wǎng)頁中的各個元素都看作一個個對象,從而使網(wǎng)頁中的元素也可以被計算機語言獲取或者編輯。
DOM是以層次結(jié)構(gòu)組織的節(jié)點或信息片斷的集合。這個層次結(jié)構(gòu)允許開發(fā)人員在樹中導(dǎo)航尋找特定信息。分析該結(jié)構(gòu)通常需要加載整個文檔和構(gòu)造層次結(jié)構(gòu),然后才能做任何工作。由于它是基于信息層次的,因而 DOM 被認為是基于樹或基于對象的。
HTML DOM 定義了訪問和操作HTML文檔的標準方法。 HTML DOM 把 HTML 文檔呈現(xiàn)為帶有元素、屬性和文本的樹結(jié)構(gòu)(節(jié)點樹)。它們都是一個節(jié)點(Node),就像公司的組織結(jié)構(gòu)圖一樣。 我們現(xiàn)在從另一個角度來審視源代碼,first.html的源碼如下:
這個例子的***個元素就是元素,在這個元素的起始標簽和終止標簽之間,又有幾個標簽分別起始和閉合,包括
、重點:
在網(wǎng)絡(luò)爬蟲中,通常需要結(jié)合瀏覽器來定位元素,瀏覽器右鍵通常包括兩個重要的功能:查看源代碼和審查或檢查元素。
通過審查元素,可以定位到需要爬取圖片或網(wǎng)頁的HTML源文件,通常是table或div的布局,這些HTML標簽通常是成對出現(xiàn)的,如、
等;同時會包括一些屬性id、name、class來指定該標簽。如:
....
六. 安裝Selenium及網(wǎng)頁簡單爬取
Selenium用于Web應(yīng)用程序測試的工具,模擬瀏覽器用戶操作,通過Locating Elements 定位元素。安裝過程如下圖所示,通過pip install selenium安裝。
注意:需要cd去到Scripts目錄進行安裝。
selenium結(jié)合瀏覽器定位的基本函數(shù)包括:
***個基于Selenium爬蟲的代碼,通過調(diào)用Firefox瀏覽器:
輸出如下圖所示:
網(wǎng)站欄目:一篇非常棒的安裝Python及爬蟲入門博文!
當前網(wǎng)址:http://m.fisionsoft.com.cn/article/djehspg.html


咨詢
建站咨詢
