歡迎訪(fǎng)問(wèn)世紀網(wǎng)絡(luò )官網(wǎng),寶雞網(wǎng)站建設SEO優(yōu)化已累計服務(wù)超過(guò)900家企業(yè)!     咨詢(xún)熱線(xiàn):13619273150

15年網(wǎng)站建設優(yōu)化經(jīng)驗,900家客戶(hù)的選擇,值得信賴(lài)!


淺析搜索引擎對頁(yè)面的收錄原理以及收錄方式

作者:本站      發(fā)布時(shí)間:2018-06-19      瀏覽:1378

62.9K


搜索引擎收錄頁(yè)面實(shí)際上就是在互聯(lián)網(wǎng)上進(jìn)行數據采集,這是搜索引擎最基礎的工作,而搜索引擎的內容都來(lái)自后臺的龐大的URL列表,通過(guò)這些URL,不斷的收錄,儲存及維護,而學(xué)習搜索引擎收錄的流程,收錄原理及收錄方式,有效的提高搜索引擎對網(wǎng)站的收錄的數量!

1. 頁(yè)面收錄流程,

在互聯(lián)網(wǎng)中,URL是每個(gè)頁(yè)面的入口地址,"蜘蛛程序"通過(guò)這些URL列表抓取到頁(yè)面的,"蜘蛛"不斷的從這些頁(yè)面中獲取URL資源及存儲頁(yè)面,并加入URL列表,如此不斷的循環(huán),搜索引擎就可以從互聯(lián)網(wǎng)中獲取到足夠的頁(yè)面.

URL是頁(yè)面的入口,則域名則是網(wǎng)站的入口,搜索引擎就是通過(guò)域名進(jìn)入網(wǎng)站,挖掘URL資源,換而言之搜索引擎在互聯(lián)網(wǎng)中抓取頁(yè)面的首要任務(wù)就是要有龐大的域名列表,在不斷的通過(guò)域名,進(jìn)入網(wǎng)站抓取網(wǎng)站中的頁(yè)面,

而對于咱們而言,想搜索引擎收錄,首要條件就是加入搜索引擎的域名列表,常見(jiàn)加入搜索引擎的域名列表的有以下兩種方式

利用搜索引擎提供的網(wǎng)站登錄入口,向搜索引擎提交網(wǎng)站域名,例如百度的:,可在此提交自己的網(wǎng)站域名,不過(guò)用此方法搜索引擎只會(huì )定期進(jìn)行抓取并更新,這種做法比較被動(dòng),從域名提交網(wǎng)站被收錄花費的時(shí)間也比較長(cháng)

通過(guò)與有質(zhì)量的"外鏈",使搜索引擎在抓取"別人"的網(wǎng)站頁(yè)面時(shí)發(fā)現我們的網(wǎng)站,從而實(shí)現對網(wǎng)站的收錄,這種方法主動(dòng)權在我們手上,(只要我們有足夠多的"外鏈")且收錄速度比第一種方法快,根據外部鏈接的數量、質(zhì)量相關(guān)性,一般2-7天就會(huì )被搜索引擎收錄

2.頁(yè)面收錄原理

通過(guò)學(xué)習"頁(yè)面收錄流程"可以掌握加快網(wǎng)站被收錄的方法,接著(zhù)來(lái)學(xué)習頁(yè)面收錄原理,從而提高搜索引擎收錄的數量!

如果把一個(gè)網(wǎng)站頁(yè)面組成的頁(yè)面看做是一個(gè)有向圖,從指定的頁(yè)面出發(fā),沿著(zhù)頁(yè)面中的鏈接,按照某種特定的策略對網(wǎng)站中的頁(yè)面進(jìn)行遍歷.不停地從URL 列表中移出已經(jīng)訪(fǎng)問(wèn)的URL,并存儲原始頁(yè)面,同時(shí)提取原始頁(yè)面中的URL的信息:再將URL分為域名及內部URL兩大類(lèi),同時(shí)判斷URL是否被訪(fǎng)問(wèn)過(guò), 將未訪(fǎng)問(wèn)過(guò)的URL加入URL列表中.遞歸地掃描URL列表,直至耗盡所有URL資源為止.經(jīng)過(guò)這些工作,搜索引擎就可以建立龐大的域名列表、頁(yè)面URL 列表并儲存足夠多的原始頁(yè)面.

3.頁(yè)面收錄方式,

知道了 "頁(yè)面收錄流程"和"頁(yè)面收錄原理" 然而在搜索引擎中要獲取相對重要頁(yè)面,就涉及到了搜索引擎的頁(yè)面收錄方式,

頁(yè)面收錄方式是指搜索引擎抓取頁(yè)面時(shí)所使用的策略,目的是為了能在互聯(lián)網(wǎng)中篩選出相對重要的信息,頁(yè)面收錄的方式的制定取決于搜索引擎對網(wǎng)絡(luò )結構的 理解.如果使用相同的抓取策略,搜索引擎在同樣的時(shí)間內可以在某一網(wǎng)站中抓取到更多的頁(yè)面資源,則會(huì )在該網(wǎng)站停留更長(cháng)的時(shí)間,收錄的頁(yè)面數自然也就多了. 因此,加深對搜索引擎頁(yè)面收錄方式的認識,有利于為網(wǎng)站建立友好的結構,提高被收錄的數量.

搜索引擎搜收錄頁(yè)面的方式主要要有"廣度優(yōu)先"、"深度優(yōu)先"及"用戶(hù)提交"(用戶(hù)提交暫時(shí)不講)三種,認識這三種頁(yè)面收錄方式及各自的優(yōu)缺點(diǎn)!

廣度優(yōu)先

如果把整個(gè)網(wǎng)站看做一棵樹(shù),首頁(yè)就是根,每個(gè)頁(yè)面就是葉子.廣度優(yōu)先是一種橫向的頁(yè)面抓取方式,先從樹(shù)的較淺層開(kāi)始抓取頁(yè)面,直接抓完同層次的所有 頁(yè)面后才進(jìn)入下一層.因此,在對網(wǎng)站進(jìn)行優(yōu)化時(shí),我們應該把網(wǎng)站相對重要的信息展示在層次比較淺的頁(yè)面上(例如:在首頁(yè)推薦一些熱門(mén)的內容).反過(guò)來(lái),通 過(guò)廣度優(yōu)先的抓取方式,搜索引擎就可以首先抓取到網(wǎng)站中相對重要的頁(yè)面.

首先,"蜘蛛"從網(wǎng)站的首頁(yè)出發(fā),抓取首頁(yè)上所有連接指向的頁(yè)面,形成頁(yè)面集合A,并分析出A中所有頁(yè)面中的鏈接:在跟蹤這些鏈接抓取下一層的頁(yè)面,形成頁(yè)面集合B:就這樣遞歸地從淺層頁(yè)面中解析出鏈接,再從深層頁(yè)面,直至滿(mǎn)足某個(gè)設定的條件才停止抓取進(jìn)程

深度優(yōu)先

與廣度優(yōu)先的抓取方式相反,深度優(yōu)先首先跟蹤淺層頁(yè)面中的某一連接后逐步抓取深層頁(yè)面,直至抓完最深層的頁(yè)面才返回淺層頁(yè)面再跟蹤其另一鏈接,繼續 向深層頁(yè)面抓取,這是一種縱向的頁(yè)面抓取方式.使用深度優(yōu)先的抓取方式,搜索引擎可以抓取到網(wǎng)站中較為隱蔽、冷門(mén)的頁(yè)面,這樣就能滿(mǎn)足更多用戶(hù)的需求.

首先,搜索引擎會(huì )抓取網(wǎng)站的首頁(yè),并提取首頁(yè)中的鏈接:再沿著(zhù)其中的一個(gè)連接抓取到頁(yè)面 A-1,同時(shí)獲取A-1中的鏈接并抓取頁(yè)面B-1,獲取B-1中的來(lái)鏈接并抓取頁(yè)面C-1 ,如此不斷的重復,滿(mǎn)足到某個(gè)條件后,再從A-2抓取頁(yè)面及鏈接!

下期將帶大家認識:搜索引擎對頁(yè)面的收錄(二),請關(guān)注中國站長(cháng)站,關(guān)注大敏的blog

內容提要:

4.搜索引擎如何避免重復性收錄

①搜索引擎轉載頁(yè)面的判斷

②搜索引擎鏡像頁(yè)面判斷

5.頁(yè)面維護方式

①定期抓取

②增量抓取

③分類(lèi)定位抓取

6.頁(yè)面儲存



0