教育行業(yè)A股IPO第一股(股票代碼 003032)

全國咨詢/投訴熱線:400-618-4000

PHP開發(fā)爬蟲

更新時間:2019年01月18日13時48分 來源:傳智播客 瀏覽次數(shù):

爬蟲是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。

我們平常使用搜索引擎瀏覽網(wǎng)頁,有很多和預期的信息不匹配的結(jié)果;并且信息量巨大,有了結(jié)果以后還需要花費很大的精力進行篩選信息。爬蟲應運誕生,我們可以寫一段腳本或程序,讓他根據(jù)我們的需求按照設定的規(guī)則進行抓取網(wǎng)頁信息,并篩選出我們需要的結(jié)果。

首先,在PHP中可以獲取萬維網(wǎng)頁面的函數(shù)有很多,例如:file_get_contents()或者curl擴展,再或者還有獲取緩沖的ob_get_contents()等,最實用也是最常用的就是file_get_contents()了。例:

所以,我們可以利用file_get_contents()來進行爬蟲的開發(fā)。

步驟:

1. 分析url規(guī)則

2. 根據(jù)規(guī)則進行循環(huán)爬取內(nèi)容

3. 根據(jù)需求進行正則匹配需要的內(nèi)容(可以根據(jù)實際要求進行)

4. 整合結(jié)果(寫入文件)

代碼:

結(jié)果:

打開其中前兩頁的效果:

0 分享到:
和我們在線交談!