" /> 黄色一级一毛片,天天干伊人,欧美日韩亚洲国产综合

一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

利用PHP制作簡單的內容采集器的代碼

采集器,通常又叫小偷程序,主要是用來抓取別人網頁內容的。關于采集器的制作,其實并不難,就是遠程打開要采集的網頁,然后用正則表達式將需要的內容匹配出來,只要稍微有點正則表達式的基礎,都能做出自己的采集器來的。 

  前幾天做了個小說連載的程序,因為怕更新麻煩,順帶就寫了個采集器,采集八路中文網的,功能比較簡單,不能自定義規則,不過大概思路都在里面了,自定義規則可以自己來擴展。 

  用php來做采集器主要用到兩個函數:file_get_contents()和preg_match_all(),前一個是遠程讀取網頁內容的,不過只在php5以上的版本才能用,后一個是正則函數,用來提取需要的內容的。 

  下面就一步一步來講功能實現。 

  因為是采集小說,所以首先要將書名、作者、類型這三個提取出來,別的信息可根據需要提取。

  這里以《回到明朝當王爺》為目標,先打開書目頁,鏈接:http://www.86zw.com/Book/3727/Index.ASPx

  多打開幾本書會發現,書名的基本格式是:http://www.86zw.com/Book/書號/Index.ASPx,于是我們可以做一個開始頁,定義一個<input type=text name=number>,用來輸入需要采集的書號,以后就可以通過$_POST[‘number']這種格式來接收需要采集的書號了。接收到書號,下面要做的就是構造書目頁:$url=http://www.86zw.com/Book/$_POST[‘number']/Index.ASPx,當然這里是舉個例子,主要是為了講解方便,實際制作的時候最好檢查一下$_POST[‘number']的合法性。 

  構造好URL以后就可以開始采集書籍信息了。使用file_get_contents() 函數打開書目頁:$content=file_get_contents($url),這樣就能將書目頁的內容都讀取出來了。接下來就是將書名、作者和類型等信息匹配出來了。這里就以書名為例,其他的都一樣。 打開書目頁,查看源文件,找到“<span class="booktitle">《回到明朝當王爺》</span>”,這就是要提取出來的書名了。提取書名的正則表達式:/<span class=/"newstitle/">(.*?)/<//span>/is,使用preg_match_all()函數將書名取出:preg_match_all("/<span class=/"newstitle/">(.*?)/<//span>/is",$contents,$title);這樣$title[0][0]的內容就是我們要的標題了(preg_match_all函數的用法可以去百度查,這里就不詳細說明了)。取出了書籍信息,接下來就是取章節內容了,要取章節內容,首先要做的就是找到每一章的地址,然后遠程打開章節,用正則將內容取出來,入庫或者直接生成html靜態文件。這個是章節列表的地址:http://www.86zw.com/Html/Book/18/3727/List.shtm,可以看出這個和書目頁一樣,是有規律可尋的:http://www.86zw.com/Html/Book/分類號/書號/List.shtm。書號前面已經取得,這里的關鍵是找到分類號,分類號可以在前面的書目頁找到,提取分類號:

  preg_match_all("/Html//Book//[0-9]{1,}//[0-9]{1,}//List/.shtm/is",$contents,$typeid);這樣還不夠,還需要一個切取函數:
php代碼如下:
復制代碼 代碼如下:
function cut($string,$start,$end){ 
$message = explode($start,$string); 
$message = explode($end,$message[1]); return $message[0];}其中$string為要被切取的內容,$start為開始的地方,$end為結束的地方。取出分類號: 

$start = "Html/Book/"; 
$end 
= "List.shtm"; 
$typeid = cut($typeid[0][0],$start,$end); 
$typeid = explode("/",$typeid);[/php]  

  這樣,$typeid[0]就是我們要找的分類號了。接下來就是構造章節列表的地址了:$chapterurl = http://www.86zw.com/Html/Book/.$typeid[0]/$_POST[‘number']/List.shtm。有了這個就能找到每一章節的地址了。方法如下:

復制代碼 代碼如下:
$ustart = "/"";  
$uend 
= "/"";  
//t表示title的縮寫 
$tstart = ">";  
$tend 
= "<";  
//取路徑,例如:123.shtm,2342.shtm,233.shtm 
preg_match_all("http://"[0-9]{1,}/.(shtm)/"/is",$chapterurl,$url);  
//取標題,例如:第一章 九世善人 
preg_match_all("/<a href=/"[0-9]{1,}/.shtm/"(.*?)/<//a>/is",$file,$title);  
$count = count($url[0]); 
for($i=0;$i<=$count;$i++) 

$u = cut($url[0][$i],$ustart,$uend); 
$t = cut($title[0][$i],$tstart,$tend); 
$array[$u] = $t; 
}  


  $array數組就是所有的章節地址了,到這里,采集器就完成一半了,剩下的就是循環打開每個章節地址,讀取,然后將內容匹配出來。這個比較簡單,這里就不詳細敘述了。好了,今天就先寫到這吧,第一次寫這么長的文章,語言組織方面難免有問題,還請大家多包涵!
本篇文章來源于 站長資訊網 原文鏈接:http://webdevelop.chinahtml.com/2/2007/php-119440156516960.shtml

php技術利用PHP制作簡單的內容采集器的代碼,轉載需保留來源!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 深爱综合网 | se94se欧美| 亚洲欧美精品久久 | 久久久99精品免费观看精品 | 91av福利视频 | 免费黄色美女网站 | 四虎4hu | 在线亚洲天堂 | 九一国产精品 | www91在线观看 | 久久国产乱子伦精品免费午夜 | 日本伊人色综合网 | v视界成人影院在线视频 | 亚洲视频一区网站 | 中国美女毛片 | 国产成人福利免费观看 | 午夜国产高清精品一区免费 | 亚洲欧美一级久久精品 | 人人狠狠综合久久亚洲婷婷 | 九色国产在线 | 久久久久久久久久综合情日本 | 伊人久久精品成人网 | 欧美激情视频免费 | 久久久久777777人人人视频 | 亚洲精品亚洲人成毛片不卡 | 成人福利在线视频 | 国内精品久久影院 | 婷婷综合激情五月中文字幕 | 蝴蝶色综合综合成人网 | 中文字幕精品1在线 | 国产成人在线视频网站 | 亚洲第一激情 | 国产精品成人一区二区 | 亚洲精品第一页中文字幕 | 国产成人精品免费视 | 青青草原伊人网 | 91aaa免费免费国产在线观看 | 91视频com| 日韩久久一区二区三区 | 欧美性与交视频在线观看 | 欧美日韩亚洲区久久综合 |