歡迎訪(fǎng)問(wèn)世紀網(wǎng)絡(luò )官網(wǎng),寶雞網(wǎng)站建設SEO優(yōu)化已累計服務(wù)超過(guò)900家企業(yè)!     咨詢(xún)熱線(xiàn):13619273150

15年網(wǎng)站建設優(yōu)化經(jīng)驗,900家客戶(hù)的選擇,值得信賴(lài)!


SEO深度解讀之HITS鏈接分析算法

作者:本站      發(fā)布時(shí)間:2017-03-03      瀏覽:1601

62.9K


HITS(Hyperlink - Induced Topic Search)鏈接分析算法誕生在1997年,該算法是由康奈爾大學(xué)中的一位博士提出,并且該算法沿用于全球多個(gè)搜索引擎當中。當然,不同的搜索引擎針對于該算法的側重點(diǎn)和內部公式都有不一的算法結構調整,并且HITS算法也是鏈接分析中最為重要的基礎算法之一。

對于目前國內的整體搜索引擎而言,百度作為國內的搜索引擎領(lǐng)頭羊,我會(huì )帶著(zhù)HITS的公開(kāi)文檔針對百度搜索引擎進(jìn)行多元化的角度和實(shí)驗來(lái)深度解析HITSSEO中的實(shí)戰應用。

首先,我們先來(lái)了解一下什么是HITS算法,包括他的計算公式和算法原理以及他優(yōu)缺點(diǎn)。深刻的理解了這些含義以后,然后我們借助一些特定的實(shí)驗來(lái)驗證HITS的效果和實(shí)用性。

HITS鏈接分析算法當中,闡述最多的兩個(gè)點(diǎn)就是Hub頁(yè)面與Authority頁(yè)面。

一、什么是Authority頁(yè)面(權威頁(yè)面)

簡(jiǎn)單來(lái)說(shuō)Authority頁(yè)面(權威頁(yè)面)是指在某一個(gè)領(lǐng)域范圍內或者某一個(gè)相關(guān)主題范圍內的高質(zhì)量網(wǎng)頁(yè)。比如招聘領(lǐng)域,前程無(wú)憂(yōu)網(wǎng)站的首頁(yè)就是該領(lǐng)域的一個(gè)高質(zhì)量?jì)?yōu)質(zhì)網(wǎng)頁(yè)。比如淘寶首頁(yè)就是電商領(lǐng)域的優(yōu)質(zhì)網(wǎng)頁(yè)。

二、什么是Hub頁(yè)面(樞紐頁(yè)面)

Hub頁(yè)面(樞紐頁(yè)面)通常就是它頁(yè)面本身包含了很多高質(zhì)量的Authority頁(yè)面的鏈接,比如360網(wǎng)址導航首頁(yè)就是一個(gè)非常好的Hub頁(yè)面(樞紐頁(yè)面)。因為在360網(wǎng)址導航的站點(diǎn)頁(yè)面里面聚合了眾多的不同類(lèi)型的權威站點(diǎn)集合,比如新聞板塊聚集了新浪、騰訊等權威站點(diǎn)。視頻板塊聚集了搜狐視頻、優(yōu)酷視頻等權威站點(diǎn)。這個(gè)點(diǎn)和大家經(jīng)常發(fā)布的一些分類(lèi)目錄網(wǎng)站外鏈有點(diǎn)類(lèi)似(所以為何網(wǎng)站目錄外鏈還存在一定的效果,正是因為搜索引擎本身有自己特有的算法才會(huì )影響到你的排名)。

三、HITS算法意義

之所以存在HITS算法,是因為搜索引擎需要在全球所抓取的網(wǎng)頁(yè)文檔集合當中找到與用戶(hù)搜索請求查詢(xún)詞匹配度與之相關(guān)最高的頁(yè)面進(jìn)行符合匹配,而這里的匹配度相關(guān)最高的則是一些高質(zhì)量的“Authority”頁(yè)面和“Hub”頁(yè)面,而不是大家常常理解的站內文章優(yōu)質(zhì)原創(chuàng )等因素。尤其是一些權威頁(yè)面,搜索引擎更加親耐,因為這類(lèi)站點(diǎn)頁(yè)面的內容會(huì )更加滿(mǎn)足用戶(hù)查詢(xún)的內容。

有很多朋友可能會(huì )問(wèn)到一個(gè)問(wèn)題,如何成為權威頁(yè)面或者樞紐頁(yè)面呢?

其實(shí)樞紐頁(yè)面在前面從概念意義上解釋來(lái)說(shuō)已經(jīng)告訴了大家如何去成為樞紐頁(yè)面。比如360導航網(wǎng)站的某一個(gè)站點(diǎn)類(lèi)型的聚合頁(yè)面,再比如網(wǎng)站分類(lèi)目錄站點(diǎn)的某一個(gè)站點(diǎn)類(lèi)型的聚合頁(yè)面,這些都屬于樞紐頁(yè)面,但是樞紐頁(yè)面也會(huì )分為高質(zhì)量樞紐頁(yè)面和一般性樞紐頁(yè)面。比如360導航網(wǎng)站首頁(yè)不僅是樞紐頁(yè)面并且還是導航站點(diǎn)的權威頁(yè)面。

那么又如何成為權威頁(yè)面呢?

這里就會(huì )提到大家想要理解的一個(gè)深層次的東西了,所謂的高權重外鏈其實(shí)可以理解為高權威外鏈,即權重=權威。搜索引擎針對每一個(gè)站點(diǎn)和該站點(diǎn)的每一個(gè)頁(yè)面都有一系列的網(wǎng)頁(yè)評分,而這類(lèi)評分決定著(zhù)頁(yè)面的鏈接是否為有效的信任度。而權威頁(yè)面往往會(huì )有幾個(gè)特點(diǎn):

1、品牌屬性

不管是某一種類(lèi)型的站點(diǎn),一旦要想成為行業(yè)的權威,品牌屬性必定濃厚,這點(diǎn)大家可以從百度搜索引擎的知心算法可以得知。如當用戶(hù)搜索網(wǎng)上商城會(huì )聯(lián)想到京東、天貓;再如當用戶(hù)搜索空調會(huì )聯(lián)想到海爾、格力、美的等知名品牌。正是因為這類(lèi)品牌屬性,可以讓這類(lèi)品牌官網(wǎng)站點(diǎn)在某一個(gè)行業(yè)領(lǐng)域形成獨特的權威度。但是,對于搜索引擎而言,這類(lèi)品牌屬性搜索引擎是感觀(guān)不到的,而用戶(hù)卻可以知曉。因為對于用戶(hù)而言,用戶(hù)可以通過(guò)報刊,電視等多媒體方式了解到這些品牌的循環(huán)曝光,從而積累品牌的印象程度。那么搜索引擎是如何計算出這些品牌屬性的權威程度呢?針對搜索引擎來(lái)說(shuō),搜索引擎會(huì )通過(guò)全網(wǎng)抓取技術(shù)檢索全球所有網(wǎng)頁(yè)集合,根據文檔檢索模型計算出詞頻,而詞頻計算出來(lái)的相關(guān)詞頻次結合度最高的一類(lèi)詞就是一個(gè)主題的符合度。通常情況下,是行業(yè)產(chǎn)品詞+品牌詞檢索。

2、歷史屬性

歷史屬性我們可以稱(chēng)之為信任度屬性,何為信任度屬性,簡(jiǎn)單的理解就是一個(gè)權威的站點(diǎn)必定是本身的頁(yè)面存在一定的真實(shí)性、可靠性的價(jià)值信任信息,就如百度百科的詞條會(huì )有對應的參考資料來(lái)作為參考佐證,從而針對內容進(jìn)行信任度提升。所以即使內容不是原創(chuàng ),如果頁(yè)面滿(mǎn)足了信任度屬性,你的內容一樣非常有價(jià)值,也利于搜索引擎優(yōu)化。信任度屬性除了信息價(jià)值信任之外還有一點(diǎn)就是歷史數據積累,這點(diǎn)在老域名站點(diǎn)體現的非常明顯。越老的站點(diǎn)信任度屬性就體現的越明顯,比如做一些灰色產(chǎn)業(yè)或者做醫療的SEO人員就非常喜歡采用使用過(guò)的并且干凈底子的老域名進(jìn)行優(yōu)化效果最佳。

3、曝光屬性

權威頁(yè)面除了品牌屬性和歷史數據積累等屬性還有一點(diǎn)就是曝光屬性,這類(lèi)曝光屬性會(huì )包含兩個(gè)大類(lèi),其中是站內曝光屬性和站外曝光屬性。站內曝光屬性可以理解為頁(yè)面收錄量,一般情況下,當一個(gè)域名使用了10多年,每天都在充實(shí)著(zhù)一些主題非常一致的優(yōu)質(zhì)樞紐頁(yè)面的時(shí)候,那么自然而然他的曝光也會(huì )放的很大。而站外曝光屬性就是在整個(gè)互聯(lián)網(wǎng)站點(diǎn)文檔集合里面所體現出你品牌屬性的詞頻集合和關(guān)鍵詞主題一致的文檔數量,比如闡述淘寶的網(wǎng)頁(yè)相關(guān)結果數有X億個(gè)網(wǎng)頁(yè)。而X億張網(wǎng)頁(yè)集合里面和淘寶相關(guān)度最密切的是關(guān)于電商、商城、網(wǎng)購等主題行業(yè)詞匯。那么通過(guò)歷史屬性的數據積累,淘寶站點(diǎn)在電商領(lǐng)域歸屬于權威站點(diǎn)。

四、HITS算法缺陷

每個(gè)搜索引擎算法都有自己的優(yōu)勢和缺陷,HITS也不例外,在HITS算法當中,有4個(gè)最常見(jiàn)的缺陷,其中包含了計算效率低、主題漂移、容易作弊和結構不穩定。

由于HITS算法是與之查詢(xún)相關(guān)的算法,所以不能先計算,而必須是用戶(hù)請求了某一個(gè)搜索詞以后才能去計算該詞的一些站點(diǎn)文檔匹配度(鏈接評分板塊),加上HITS算法的計算屬性需要通過(guò)多次的計算迭代才能最終計算出檢索結果的文檔鏈接的推薦度投票,所以導致計算效率比較低下。

而主題漂移問(wèn)題則是大家常??梢钥吹搅艘恍┈F象,即使我交換的鏈接和我站點(diǎn)主題沒(méi)有一條相關(guān),但是也會(huì )促進(jìn)我的頁(yè)面關(guān)鍵詞排名提升。而這種現象正是因為HITS的特殊算法結構才出現了給與這些無(wú)關(guān)網(wǎng)頁(yè)很高的排名。最終導致了搜索結果發(fā)生了主題漂移,而這種現象也稱(chēng)為“緊密鏈接社區現象”。

之所以容易用來(lái)作弊是因為HITS強調的比較多的還是樞紐頁(yè)面和權威頁(yè)面之間的一種相互增強關(guān)系。作弊者可以通過(guò)建立新頁(yè)面的形式,并且在新建立的網(wǎng)頁(yè)中加入了很多高質(zhì)量的權威頁(yè)面鏈接,自身頁(yè)面就會(huì )形成了一個(gè)很好的樞紐頁(yè)面,然后作弊者可以通過(guò)該頁(yè)面的一個(gè)權威樞紐性,再指向作弊網(wǎng)頁(yè)鏈接,從而給與作弊網(wǎng)頁(yè)增加權威頁(yè)面得分。

假設該頁(yè)面是闡述視頻網(wǎng)站排行榜的相關(guān)內容信息,而4個(gè)導出鏈接均包含了不同的4個(gè)獨立的視頻站點(diǎn),其中三個(gè)為已知的權威站點(diǎn),第二個(gè)站點(diǎn)為我們作弊的站點(diǎn)。而此方式可以用來(lái)增加鏈接的投票推薦度。

最后一個(gè)HITS的缺陷在于它的結構不穩定,何為結構不穩定?簡(jiǎn)單來(lái)說(shuō)就是在原來(lái)的網(wǎng)頁(yè)文檔集合里面,如果新增或刪除網(wǎng)頁(yè)鏈接,那么就會(huì )對HITS算法排名有著(zhù)非常大的改變。比如大家都知道交換的鏈接除了相關(guān)性還需要講究穩定性,卻不知道穩定性這個(gè)概念正是因為HITS的缺陷而導致的,如果鏈接一旦不穩定,包括鏈接位置變動(dòng)、鏈接被刪除等都會(huì )影響算法結構的重新計算。從而影響了自身站點(diǎn)的關(guān)鍵詞排名。

五、HITS算法實(shí)戰應用(實(shí)驗)

現在我們到了SEO實(shí)驗階段了,說(shuō)千道萬(wàn)不如實(shí)戰驗證。由于文章的特殊性,所以本文只發(fā)布和分析一個(gè)案例。首先我們來(lái)了解下實(shí)驗步驟!

步驟:

第一步:實(shí)驗假設

假設一:樞紐頁(yè)面與權威頁(yè)面均成立(存在這種現象/說(shuō)法);

假設二:假設一個(gè)網(wǎng)站在不操作任何外鏈、站內更新、站內布局調整的情況通過(guò)HITS算法的邏輯提升排名;

第二步:準備實(shí)驗站點(diǎn)(記錄實(shí)驗時(shí)間和站點(diǎn)快照時(shí)間)

1、首先我們準備了一個(gè)地區SEO詞排名在23位的站點(diǎn),該站點(diǎn)的該詞排名穩定23位超過(guò)1一個(gè)月(因為不排除其他外鏈、內容更新影響排名的下降或者提升),所以該站排名23位空檔穩定一個(gè)月+最好。

2、然后我們記錄好站點(diǎn)的快照時(shí)間以及最后更新文章的時(shí)間節點(diǎn),保證頁(yè)面沒(méi)有被蜘蛛抓取更新過(guò)和頁(yè)面做過(guò)內容變動(dòng)(達到實(shí)驗的最佳效果)。

第三步:HITS算法驗證(記錄實(shí)驗時(shí)間和站點(diǎn)快照時(shí)間)

1、驗證方式:Hub樞紐頁(yè)面驗證

2、驗證詳細步驟:首先我們知道一個(gè)好的樞紐頁(yè)面里面肯定會(huì )包含一些權威頁(yè)面或者包含了一些好的樞紐頁(yè)面,那么我們是不可能去加一些百度、新浪這種鏈接給自己做導出的,因為并不符合相關(guān)性邏輯。那么我們添加的其實(shí)就是排名首頁(yè)的太原SEO站點(diǎn)。

為何我們要添加首頁(yè)的而不是排名第三頁(yè)或者第五頁(yè)的太原SEO的站點(diǎn)。其實(shí)如果大家往回去思考這個(gè)Hits算法就不難發(fā)現hits所強調的hub頁(yè)面在某一個(gè)點(diǎn)(領(lǐng)域)上肯定是有權威性的,并且搜索引擎的目的是為了用戶(hù)需求而產(chǎn)生檢索結果。如果你把排名前10位的站點(diǎn)容納在一個(gè)站點(diǎn)上面,就已經(jīng)告訴了用戶(hù),我的這個(gè)站可以找到你想要的內容。并且我這個(gè)站的主題也是“太原SEO”,那么可以更加符合用戶(hù)檢索結果。

第四步:排名統計(記錄實(shí)驗時(shí)間和站點(diǎn)快照時(shí)間)

我們在來(lái)看一下添加加了Nofollow以后的單向鏈接的快照,如下圖所示:

第五步:效果評估與總結(記錄實(shí)驗時(shí)間)

通過(guò)整個(gè)的算法原理分析、實(shí)驗認證,大家可以很清晰的看到利用一些搜索引擎算法去做到一些事情。當然這里面可能有會(huì )有人提出質(zhì)疑,一個(gè)實(shí)驗會(huì )不會(huì )是巧合,由于類(lèi)似實(shí)驗我操作過(guò)不下數十次,成功率基本上高達90%,所以幾乎不存在所謂的巧合。但是并不是每個(gè)朋友都可以去這么操作,因為里面有很多需要注意的細節。

1、為何我要選擇一個(gè)站點(diǎn)排名在23位去做實(shí)驗,而不是100后的站點(diǎn)?因為從Hits算法本身來(lái)說(shuō),如果你去采用一個(gè)100以后也就是沒(méi)有排名的站點(diǎn)去做實(shí)驗操作明顯是有問(wèn)題的,因為并不滿(mǎn)足Hub的要求。搜索引擎認可一個(gè)站點(diǎn)需要一定的時(shí)間和信任度,在你網(wǎng)站沒(méi)有任何信任度的情況下你去加一些很好的Hub鏈接放到自己的網(wǎng)站上面并不能產(chǎn)生很大的效果。

2、之所以在有排名的情況下去操作是因為這種微調效果非常好,并且記得加上Nofollow,利于防止權重流失。

3、如果你的域名是老域名(使用過(guò)的老域名站點(diǎn)),那么及時(shí)在沒(méi)有排名的情況也可以去進(jìn)行這類(lèi)實(shí)驗操作,因為老域名站點(diǎn)本身就具備一定的信任度,無(wú)需讓搜索引擎長(cháng)時(shí)間的去評定頁(yè)面的質(zhì)量(包含了信任度評分、頁(yè)面價(jià)值評分等)。

總體來(lái)說(shuō),在搜索引擎里面,算法其實(shí)有非常多,包括公開(kāi)的鏈接分析算法就有Hits算法、HillTop算法、SALSA算法、PageRank算法等等,在比如還有文檔檢索模型(包含向量空間模型、概率模型、布爾模型等),在比如還有倒排索引、TF-IDF等,其實(shí)這類(lèi)算法在百度上都可以找到他們對應的透明的計算公式(涉及到高等數學(xué)),如果你能夠前行研讀和深究的話(huà)不難發(fā)現一些SEO排名的奧秘所在。

  以上內容是由寶雞網(wǎng)站建設、寶雞網(wǎng)絡(luò )公司,寶雞世紀網(wǎng)絡(luò )為您編輯整理的“SEO深度解讀之HITS鏈接分析算法 的相關(guān)內容。我公司是在寶雞市工商局注冊的專(zhuān)業(yè)提供網(wǎng)站建設、網(wǎng)站優(yōu)化、網(wǎng)站推廣,軟件開(kāi)發(fā)的網(wǎng)絡(luò )技術(shù)企業(yè),一直致力于面向寶雞地區黨政機關(guān)、企事業(yè)單位提供大中型門(mén)戶(hù)網(wǎng)站解決方案、移動(dòng)互聯(lián)網(wǎng)開(kāi)發(fā)(WAP手機門(mén)戶(hù)網(wǎng)站、微信開(kāi)發(fā)),以及中小型應用軟件開(kāi)發(fā)及其它信息化外包業(yè)務(wù)。目前已承建寶雞地區近760多家黨政機關(guān)及企業(yè)門(mén)戶(hù)網(wǎng)站,是寶雞網(wǎng)站建設行業(yè)有影響力的寶雞網(wǎng)絡(luò )公司。歡迎您來(lái)電咨詢(xún)。

  

  

  



0