為了避免重復(fù)爬行和抓取網(wǎng)址,搜索引擎會(huì)建立一個(gè)地址庫(kù),記錄已經(jīng)被發(fā)現(xiàn)還沒(méi)有抓取的頁(yè)面,以及已經(jīng)被抓取的頁(yè)面地址庫(kù)中的 URL 有幾個(gè)來(lái)源:
(1) 人工錄入的種子網(wǎng)站。
(2) 蜘蛛抓取頁(yè)面后,從 HTML 中解析出新的鏈接 URL 與地址庫(kù)中的數(shù)據(jù)進(jìn)行對(duì)比,如果是地址庫(kù)中沒(méi)有的網(wǎng)址,就存入待訪問(wèn)地址庫(kù)。
(3) 站長(zhǎng)通過(guò)搜索引擎網(wǎng)頁(yè)提交表格提交進(jìn)來(lái)的網(wǎng)址。
蜘蛛按重要性從待訪問(wèn)地址庫(kù)中提取 URL,訪問(wèn)并抓取頁(yè)面,然后把這個(gè) URL,從待訪問(wèn)地址庫(kù)中刪除,放進(jìn)已訪問(wèn)地址庫(kù)中。
大部分主流搜索引擎都提供一個(gè)表格,讓站長(zhǎng)提交網(wǎng)址。不過(guò)這些提交來(lái)的網(wǎng)址都只是存入地址庫(kù)而已,是否收錄還要看頁(yè)面重要性如何。搜索引擎所收錄的絕大部分頁(yè)面是蜘蛛自己跟蹤鏈接得到的??梢哉f(shuō)提交頁(yè)面基本上是毫無(wú)用處的,搜索引擎更喜歡自己沿著鏈接發(fā)現(xiàn)新頁(yè)面。
文件存儲(chǔ)
搜索引擎蜘蛛抓取的數(shù)據(jù)存入原始頁(yè)面蕪湖網(wǎng)站設(shè)計(jì)數(shù)據(jù)庫(kù)。其中的頁(yè)面數(shù)據(jù)與用戶瀏覽器得到的HTML 是完全一樣的,每個(gè)URL都有一個(gè)獨(dú)特的文件編號(hào) 。
本文地址:http://www.islandpacificappraisals.com//article/2725.html