SupeSite 7.0 采集管理-添加新機(jī)器人說(shuō)明教程_SupeSite教程
初次接觸 SupeSite 的采集器,可能會(huì)感覺(jué)難以上手,本文將帶你熟悉 SupeSite 的采集器,讓您根據(jù)自己的情況做出自己的采集器。
以采集 http://vip.book.sina.com.cn/book/index_40931.html 為例。
一、首先簡(jiǎn)單說(shuō)一下制作采集器的基本原理和思路
1、確定采集頁(yè)面到 “列表頁(yè)面鏈接” 。
2、確定在這些頁(yè)面要采集的內(nèi)容區(qū)域,也就是 “列表區(qū)域識(shí)別規(guī)則” 。
3、確定要采集的文章鏈接,也就是 “文章鏈接 url 識(shí)別規(guī)則” 。
4、現(xiàn)在真正您需要采集的范圍,就是 “文章標(biāo)題識(shí)別規(guī)則” 和 “文章內(nèi)容識(shí)別規(guī)則” 。
5、以上 4 個(gè)步驟已經(jīng)確定了采集的范圍,如果您需要過(guò)濾標(biāo)題和內(nèi)容,請(qǐng)根據(jù)您的要求設(shè)置 “過(guò)濾規(guī)則” 。
以上幾個(gè)步驟確定范圍都是通過(guò)查看頁(yè)面源碼,進(jìn)行設(shè)置的,截取的方法需要一些經(jīng)驗(yàn),建議多點(diǎn)右邊的 “測(cè)試” 看看是否成功。
二、接下來(lái)介紹采集器的基本原理和步驟
1、進(jìn)入后臺(tái) => 采集管理 => 添加新機(jī)器人,如下圖所示:

1)填寫(xiě)基本設(shè)置
“單次采集個(gè)數(shù)”盡量設(shè)置較小的數(shù)字,以免超時(shí)。
2)采集頁(yè)面的 url 地址設(shè)置
采集頁(yè)面的 url 地址有兩種設(shè)置方法:手動(dòng)輸入和自動(dòng)增長(zhǎng)。手動(dòng)輸入需要您自己將所需采集的地址逐行輸入。自動(dòng)增長(zhǎng)只需填入采集頁(yè)面的地址和頁(yè)面頁(yè)碼。用 [page] 代替分頁(yè)變量。以手動(dòng)輸入為例,如下圖所示:

3)采集頁(yè)面編碼
如果采集的頁(yè)面和網(wǎng)站的不一樣,需要填寫(xiě)下編碼,你只需要點(diǎn)擊【程序輔助識(shí)別】,把識(shí)別出來(lái)的填寫(xiě)到下圖位置。如下圖所示:

4)列表區(qū)域識(shí)別規(guī)則
在你要采集的頁(yè)面中點(diǎn)擊鼠標(biāo)右鍵 => 查看源代碼 => 找到文章鏈接URL區(qū)域。
文章鏈接 URL 區(qū)域 用 [list] 表示
左邊 div 或者其他標(biāo)簽一定要選好,這里一定要注意,文章鏈接 URL 區(qū)域一定要在這個(gè) div 內(nèi),而且是最近的,獨(dú)一無(wú)二的。
建議大家用 Dreamweaver 工具查看
右邊是接著左邊的 div 結(jié)束后的標(biāo)簽,比如:

5)文章鏈接 URL 識(shí)別規(guī)則
現(xiàn)在需要的連接,如下圖所示:

鏈接地址用 [url] 表示,比如:
添加文章鏈接 URL 規(guī)則后,發(fā)現(xiàn)有些鏈接是不需要的,所以需要使用“文章鏈接URL剔除規(guī)則”,如下圖所示:

6)文章鏈接 URL 剔除規(guī)則
剔除規(guī)則如果有多個(gè)選擇,請(qǐng)用 | 隔開(kāi),比如:
如下圖所示:

7)文章標(biāo)題識(shí)別規(guī)則
點(diǎn)一個(gè)文章鏈接 => 在新打開(kāi)的頁(yè)面中點(diǎn)擊鼠標(biāo)右鍵 => 查看源代碼 => 找到這篇文章的標(biāo)題左右最近的標(biāo)簽
標(biāo)題用 [subject] 表示,比如:
如下圖所示:

8)文章內(nèi)容識(shí)別規(guī)則
點(diǎn)一個(gè)文章鏈接 => 在新打開(kāi)的頁(yè)面中點(diǎn)擊鼠標(biāo)右鍵 => 查看源代碼 => 找到這篇文章的內(nèi)容左右最近的標(biāo)簽
內(nèi)容用 [message] 表示,比如:
如下圖所示:

2、這樣采集規(guī)則就寫(xiě)好了,點(diǎn)擊提交保存。頁(yè)面跳轉(zhuǎn)后,點(diǎn)擊開(kāi)始采集,如下圖所示:

3、采集的過(guò)程,如下圖所示:

4、采集完畢之后,還需要更新下緩存,如下圖所示:

5、如果您的采集規(guī)則正確,打開(kāi)首頁(yè)就可以看到你剛剛采集到的內(nèi)容,如下圖所示:

查看更多 supesite教程 supesite模板
- SupeSite默認(rèn)焦點(diǎn)輪轉(zhuǎn)圖簡(jiǎn)單美化方法
- SupeSite7.5 讓資訊發(fā)布日期更加個(gè)性化
- SupeSite7.5 讓會(huì)員中心擁有不同的title和提示信息
- SupeSite7.5 benbaHTML生成方案第一版
- SupeSite7.5發(fā)布評(píng)論后直接跳轉(zhuǎn)回到文章頁(yè)面的完美方法
- SupSite7.5單個(gè)頁(yè)面頻道編輯后無(wú)法訪(fǎng)問(wèn)
- SupSite7.5登陸后臺(tái)先驗(yàn)證權(quán)限問(wèn)題解決方案
- SupSite模型無(wú)權(quán)限評(píng)論修改方案
- SupSite模板里經(jīng)常用到以下幾個(gè)標(biāo)簽的說(shuō)明
- SupSite頁(yè)面文件與模塊關(guān)系說(shuō)明
- 升級(jí)SupeSite7.5出現(xiàn)Errno.: 1054的解決方法
- SupeSite7.5 非gbk版本程序,在回復(fù)某帖子時(shí)回復(fù)被截?cái)嘈薷姆桨?/a>
SupeSite教程教程Rss訂閱Cms教程搜索
SupeSite教程推薦
- SupeSite 7.0 水印設(shè)置教程
- SupeSite7.5發(fā)布評(píng)論后直接跳轉(zhuǎn)回到文章頁(yè)面的完美方法
- SupeSite 7.0 系統(tǒng)管理-投票教程
- SupeSite 7.0 后臺(tái) — 個(gè)人中心教程
- SupSite7.5登陸后臺(tái)先驗(yàn)證權(quán)限問(wèn)題解決方案
- SupeSite 7.0 模型管理-模型管理教程
- SupeSite 7.0 創(chuàng)建模塊/模塊管理說(shuō)明教程
- SupeSite7.5 benbaHTML生成方案第一版
- SupeSite 7.0 信息管理-資訊等級(jí)審核教程
- SupeSite 7.0 批量維護(hù)-評(píng)論管理說(shuō)明教程
猜你也喜歡看這些
- 相關(guān)鏈接:
- 教程說(shuō)明:
SupeSite教程-SupeSite 7.0 采集管理-添加新機(jī)器人說(shuō)明教程
。