Python爬蟲(chóng)理解：累計(jì)式爬蟲(chóng)和增量式爬蟲(chóng)

更新時(shí)間:2023年07月10日14時(shí)44分來(lái)源:傳智教育瀏覽次數(shù):

1.累積式爬蟲(chóng)

累積式爬蟲(chóng)是指從某一個(gè)時(shí)間點(diǎn)開(kāi)始，通過(guò)遍歷的方式爬取系統(tǒng)所允許存儲(chǔ)和處理的所有網(wǎng)頁(yè)。在理想的軟硬件環(huán)境下，經(jīng)過(guò)足夠的運(yùn)行時(shí)間，采用累積式爬取的策略可以保證爬取到相當(dāng)規(guī)模的網(wǎng)頁(yè)集合。但由于We小數(shù)據(jù)的動(dòng)態(tài)特性，集合中網(wǎng)頁(yè)的被爬取時(shí)間點(diǎn)是不同的，頁(yè)面被更新的情況也不同，因此累積式爬取到的網(wǎng)頁(yè)集合事實(shí)上并無(wú)法與真實(shí)環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)保持一致。

2.增量式爬蟲(chóng)

增量式爬蟲(chóng)是指在具有一定量規(guī)模的網(wǎng)絡(luò)頁(yè)面集合的基礎(chǔ)上，采用更新數(shù)據(jù)的方式選取已有集合中的過(guò)時(shí)網(wǎng)頁(yè)進(jìn)行爬取，以保證所爬取到的數(shù)據(jù)與真實(shí)網(wǎng)絡(luò)數(shù)據(jù)足夠接近。進(jìn)行增量式爬取的前提是，系統(tǒng)已經(jīng)爬取了足夠數(shù)量的網(wǎng)絡(luò)頁(yè)面，并具有這些頁(yè)面被爬取的時(shí)間信息。

與周期性爬行和刷新頁(yè)面的網(wǎng)絡(luò)爬蟲(chóng)相比，增量式爬蟲(chóng)只會(huì)在需要時(shí)爬行新產(chǎn)生或發(fā)生更新的頁(yè)面，并不重新下載沒(méi)有發(fā)生變化的頁(yè)面，可有效減少數(shù)據(jù)下載量，及時(shí)更新已爬行的網(wǎng)頁(yè)，減小時(shí)間和空間上的耗費(fèi)，但是增加了爬行算法的復(fù)雜度和實(shí)現(xiàn)難度。

面向?qū)嶋H應(yīng)用環(huán)境的網(wǎng)絡(luò)蜘蛛設(shè)計(jì)中，通常既包括累積式爬取，也包括增量式爬取。累積式爬取一般用于數(shù)據(jù)集合的整體建立或大規(guī)模更新階段;而增量式爬取則主要針對(duì)數(shù)據(jù)集合的日常維護(hù)與即時(shí)更新。

上一篇：假如Namenode中沒(méi)有數(shù)據(jù)會(huì)怎么樣? 下一篇：Python怎樣導(dǎo)入和安裝第三方模塊？