新聞中心
ptcms采集小說(shuō)教程:ptcms4.2.8自動(dòng)采集配置教程(ptcms采集規(guī)則教程)

創(chuàng)新互聯(lián)建站專(zhuān)注為客戶(hù)提供全方位的互聯(lián)網(wǎng)綜合服務(wù),包含不限于網(wǎng)站設(shè)計(jì)制作、成都網(wǎng)站設(shè)計(jì)、新巴爾虎右網(wǎng)絡(luò)推廣、小程序定制開(kāi)發(fā)、新巴爾虎右網(wǎng)絡(luò)營(yíng)銷(xiāo)、新巴爾虎右企業(yè)策劃、新巴爾虎右品牌公關(guān)、搜索引擎seo、人物專(zhuān)訪、企業(yè)宣傳片、企業(yè)代運(yùn)營(yíng)等,從售前售中售后,我們都將竭誠(chéng)為您服務(wù),您的肯定,是我們最大的嘉獎(jiǎng);創(chuàng)新互聯(lián)建站為所有大學(xué)生創(chuàng)業(yè)者提供新巴爾虎右建站搭建服務(wù),24小時(shí)服務(wù)熱線:028-86922220,官方網(wǎng)址:www.cdcxhl.com
在當(dāng)今這個(gè)信息爆炸的時(shí)代,網(wǎng)絡(luò)上的小說(shuō)資源琳瑯滿目,吸引了大量的讀者,為了滿足讀者的需求,許多網(wǎng)站開(kāi)始采集小說(shuō)資源,ptcms是一款功能強(qiáng)大的小說(shuō)采集系統(tǒng),可以幫助站長(zhǎng)快速、高效地采集小說(shuō)資源,本文將詳細(xì)介紹ptcms4.2.8版本的自動(dòng)采集配置教程,幫助大家輕松掌握ptcms的使用方法。
一、環(huán)境準(zhǔn)備
1、安裝php環(huán)境:確保服務(wù)器已經(jīng)安裝了php環(huán)境,可以通過(guò)命令行輸入php -v查看是否已經(jīng)安裝。
2、安裝MySQL數(shù)據(jù)庫(kù):ptcms需要使用MySQL數(shù)據(jù)庫(kù)來(lái)存儲(chǔ)采集到的小說(shuō)數(shù)據(jù),所以需要先安裝MySQL數(shù)據(jù)庫(kù)。
3、下載并解壓ptcms:從官方網(wǎng)站下載ptcms4.2.8版本,然后解壓到指定目錄。
二、配置數(shù)據(jù)庫(kù)
1、創(chuàng)建數(shù)據(jù)庫(kù):登錄MySQL數(shù)據(jù)庫(kù),創(chuàng)建一個(gè)名為ptcms的數(shù)據(jù)庫(kù)。
CREATE DATABASE ptcms;
2、導(dǎo)入數(shù)據(jù)庫(kù)結(jié)構(gòu):將ptcms的數(shù)據(jù)庫(kù)結(jié)構(gòu)文件導(dǎo)入到剛剛創(chuàng)建的數(shù)據(jù)庫(kù)中。
mysql -u root -p ptcms < /path/to/your/ptcms/structure.sql
三、配置網(wǎng)站目錄
1、將解壓后的ptcms文件夾中的config文件夾復(fù)制到服務(wù)器的網(wǎng)站根目錄下。
2、修改config文件夾中的app_config.php文件,配置網(wǎng)站目錄,將網(wǎng)站目錄設(shè)置為`/var/www/html/novel`,則需要將以下代碼:
'site_root' => '/var/www/html',
修改為:
'site_root' => '/var/www/html/novel',
四、配置采集規(guī)則
1、在config文件夾中找到app_config.php文件,打開(kāi)并編輯。
2、在文件中找到以下代碼:
$rules = array();
3、在這段代碼下方添加一個(gè)新的數(shù)組,用于存放采集規(guī)則,采集某本小說(shuō)的所有章節(jié),可以添加如下代碼:
$rules['book1'] = array(
'name' => '書(shū)名1', // 需要采集的小說(shuō)名稱(chēng),例如“都市修仙”等
'url' => 'http://www.example.com/{id}', // 小說(shuō)章節(jié)對(duì)應(yīng)的URL模板,其中{id}為章節(jié)ID,例如"http://www.example.com/1"表示第一章節(jié)的URL地址
'list_url' => 'http://www.example.com/{id}/index.html', // 章節(jié)列表頁(yè)面的URL模板,其中{id}為章節(jié)ID,例如"http://www.example.com/1/index.html"表示第一章節(jié)的列表頁(yè)面URL地址
);
4、根據(jù)實(shí)際需求,可以添加更多的采集規(guī)則,每個(gè)規(guī)則包括書(shū)名、URL模板和列表頁(yè)面URL模板三個(gè)部分,URL模板中的{id}為章節(jié)ID,列表頁(yè)面URL模板中的{id}也為章節(jié)ID,章節(jié)ID需要根據(jù)實(shí)際情況進(jìn)行替換。
五、啟動(dòng)自動(dòng)采集程序
if (isset($_GET['start'])) { // 如果請(qǐng)求參數(shù)中有start,則啟動(dòng)自動(dòng)采集程序
3、在這段代碼下方添加以下代碼:
“`php
$pid = pcntl_fork(); // 創(chuàng)建子進(jìn)程,用于自動(dòng)采集小說(shuō)章節(jié)
if ($pid == 0) { // 子進(jìn)程執(zhí)行的代碼塊
$rule = isset($_GET[‘rule’]) ? $_GET[‘rule’] : ‘default’; // 獲取當(dāng)前請(qǐng)求的采集規(guī)則名稱(chēng),如果沒(méi)有則使用默認(rèn)規(guī)則名稱(chēng)“default”
$rule = $rules[$rule]; // 根據(jù)規(guī)則名稱(chēng)獲取具體的規(guī)則信息(書(shū)名、URL模板和列表頁(yè)面URL模板)
$chapter_id = isset($_GET[‘chapter_id’]) ? $_GET[‘chapter_id’] : ”; // 獲取當(dāng)前請(qǐng)求的章節(jié)ID,如果沒(méi)有則為空字符串表示不采集當(dāng)前章節(jié)(通常用于跳過(guò)已閱讀章節(jié))
$content = get_html($rule[‘url’], true); // 通過(guò)get_html函數(shù)獲取章節(jié)內(nèi)容(返回的是dom對(duì)象)
$title = $content->find(‘h1’, 0)->plaintext; // 從dom對(duì)象中提取章節(jié)標(biāo)題(h1標(biāo)簽的內(nèi)容)并去除空格和換行符等無(wú)關(guān)字符(如“《都市修仙》第1章”)
if ($title) { // 如果章節(jié)標(biāo)題存在,則將其保存到數(shù)據(jù)庫(kù)中(具體保存方法請(qǐng)參考ptcms官方文檔)
save_chapter($rule[‘name’], $title, $chapter_id); // 將章節(jié)信息保存到數(shù)據(jù)庫(kù)中(具體保存方法請(qǐng)參考ptcms官方文檔) ### 注意:這里需要實(shí)現(xiàn)save_chapter函數(shù) #########################################################################################################***************************************************************************# ENDOFFILE# file:///usr/local/src/phpstudy/WWW/htdocs/novel/application/controller/IndexController.class.php (line:57) # @see AppControllerIndexController::getChapter() # @source -simple-html-dom#readme L69 -create-a-page-with-a-simple-table -create-a-page-with-a-simple-table # @source # @source -to-parse-the-content-of-a-webpage-in-php # @source -樓下的你夠了 你不懂就別亂說(shuō)好嗎? # @source -permutations/solution/huan-ti-xue-xi-python3-by-yanghuiming–blogspot–2014-07-27 "title":"都市修仙","next":"","pre":"","body":"這里是章節(jié)內(nèi)容","author":"作者","publisher":"出版社","source":"來(lái)源","date":"日期" # @source "title":"都市修仙","next":"" title="都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next=""都市修仙" next="
分享標(biāo)題:ptcms采集規(guī)則編寫(xiě)
當(dāng)前URL:http://m.fisionsoft.com.cn/article/djsseed.html


咨詢(xún)
建站咨詢(xún)
