|
二、采集新目標(biāo)
目標(biāo)地址:
1、http://www.tiansou.NET/Html/Y_CYFW/R_Gzzj/F_Gzjh/index.html
2、http://www.tiansou.NET/Html/Y_CYFW/R_Gzzj/F_Gzjh/2007-2/9/20070209110903558.html
之所以選取兩個(gè)目標(biāo)頁(yè)面,是因?yàn)橐陨系膬蓚€(gè)頁(yè)面一個(gè)有分頁(yè),而另一個(gè)沒(méi)有,并且在分頁(yè)和全文取樣部分有較大的差別。以下的說(shuō)明是在為采集目標(biāo)地址(首頁(yè))全部鏈接的基礎(chǔ)上改動(dòng)的,個(gè)別地方會(huì)顯得蛇足,只為說(shuō)明的方便。
目標(biāo)文字部分頭部代碼1:

目標(biāo)文字部分頭部代碼2:

通過(guò)比較不難發(fā)現(xiàn),兩個(gè)文字部分的開始采集部分能確定下來(lái)為描黑部分,開頭部分好說(shuō),代碼如下:
復(fù)制代碼 代碼如下:
<TR>
<TD height="8"></TD>
</TR>
<TR>
<TD valign="top" class=ConNET><p>
目標(biāo)文尾及分頁(yè)區(qū)域代碼1:

目標(biāo)文尾及分頁(yè)區(qū)域代碼2:

比較一下兩個(gè)結(jié)尾,盡管想把第一個(gè)的結(jié)尾再往前提一點(diǎn),但沒(méi)法子,要考慮到全部鏈接的共同部分,就只好取描黑的部分了,這也給今后確定過(guò)濾規(guī)則添了點(diǎn)麻煩,這是后話。先把結(jié)尾部分確定了吧:
復(fù)制代碼 代碼如下:
</p>
</TD>
</TR>
php技術(shù):dede3.1分頁(yè)文字采集過(guò)濾規(guī)則詳說(shuō)(圖文教程)續(xù)二,轉(zhuǎn)載需保留來(lái)源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。