新聞中心
python開源是一項(xiàng)十分值得開發(fā)的項(xiàng)目,只有開源,才會(huì)使更多的人進(jìn)行相關(guān)的技術(shù)彌補(bǔ),使python開源在開發(fā)的過程中有所不斷的創(chuàng)新使你在開源的項(xiàng)目中發(fā)現(xiàn)更多的信息技術(shù)。

無極網(wǎng)站建設(shè)公司創(chuàng)新互聯(lián),無極網(wǎng)站設(shè)計(jì)制作,有大型網(wǎng)站制作公司豐富經(jīng)驗(yàn)。已為無極數(shù)千家提供企業(yè)網(wǎng)站建設(shè)服務(wù)。企業(yè)網(wǎng)站搭建\成都外貿(mào)網(wǎng)站建設(shè)公司要多少錢,請(qǐng)找那個(gè)售后服務(wù)好的無極做網(wǎng)站的公司定做!
1、用python來做一個(gè)蜘蛛程序抓取網(wǎng)頁,有了urllib庫,真是太簡單了。另外網(wǎng)頁的解析也有相應(yīng)的庫sgmllib可以使用。不過還不知道python的sgmllib有沒有類似 Jtidy 的規(guī)范html代碼的能,或者是有另外的庫來干這事。
比較有名氣的:
Harvest Man------http://code.google.com/p/harvestman-crawler/
HarvestMan is a modular, extensible and flexible web crawler program cum framework written in pure Python. HarvestMan can be used to download files from websites according to a number of customized rules and constraints. It can be used to find information from websites matching keywords or regular expressions.
The final goal of the project is to develop a full-fledged semantic personal data mining platform which can be used to retrieve information from the Internet in a highly customizable manner, so that one can fetch information from the web the way he wants it, when he wants it. For this, HarvestMan project will provide support for Web 2.0 and 3.0 technologies such as RSS, RDF, OWL etc. (這個(gè)目標(biāo)還真是大啊,要是真的可以做到那就真是牛逼。)
另外,還有一些小的項(xiàng)目,用Google code或者 sourceforge.net搜索,就可以找到。
2、對(duì)pdf文件的操作,C++,c#和java都有一些python開源的類庫可以使用。比如:pdflib,itext,pdfclown,pdfbox他們可以實(shí)現(xiàn)pdf文件的解析,并實(shí)現(xiàn)pdf與rtf html xml等格式之間的相互轉(zhuǎn)換。
今天發(fā)現(xiàn)了一個(gè)可以操作pdf的python庫: pdfminer.
不知道有沒有其他的庫。希望高手補(bǔ)充。
3、有了pdf的操作庫,可以輕松實(shí)現(xiàn)對(duì)pdf文件內(nèi)容的有目的的抽取。
關(guān)于Python開源的開放協(xié)作組織,介紹Python語言的技術(shù)知識(shí)和使用,在中國進(jìn)行python 開源的應(yīng)用/推廣/學(xué)習(xí)…,分享Python體驗(yàn)知識(shí),經(jīng)驗(yàn),技巧。
標(biāo)題名稱:對(duì)python開源技術(shù)開發(fā)的相關(guān)了解
網(wǎng)頁URL:http://m.fisionsoft.com.cn/article/cogogcj.html


咨詢
建站咨詢
