seo實戰搜索引擎鏈接算法之:HITS算法解析

作者: admin 分類: SEO優化 發布時間: 2020-10-29 20:48

  seo實戰搜索引擎鏈接算法之:HITS算法解析

  HITS算法也是鏈接剖析中十分根底且重要的算法,目前已被Teoma查找引擎(www.teoma.com)作為鏈接剖析算法在實踐中運用。

  6.4.1 Hub頁面與Authority頁面

  Hub頁面和Authority頁面是HITS算法最根本的兩個界說。所謂“Authority”頁面,是指與某個范疇或許某個論題相關的高質量網頁,比方查找引擎范疇,Google和百度主頁即該范疇的高質量網頁,比方視頻范疇,優酷和土豆主頁即該范疇的高質量網頁。所謂“Hub”頁面,指的是包括了許多指向高質量“Authority”頁面鏈接的網頁,比方hao123主頁能夠認為是一個典型的高質量“Hub”網頁。

  圖6-11給出了一個“Hub”頁面實例,這個網頁是斯坦福大學核算語言學研討組保護的頁面,這個網頁收集了與核算自然語言處理相關的高質量資源,包括一些聞名的開源軟件包及語料庫等,并經過鏈接的方法指向這些資源頁面。這個頁面能夠認為是“自然語言處理”這個范疇的“Hub”頁面,相應的,被這個頁面指向的資源頁面,大部分是高質量的“Authority”頁面。

  HITS算法的目的便是經過一定的技能手段,在海量網頁中找到與用戶查詢主題相關的高質量“Authority”頁面和“Hub”頁面,尤其是“Authority”頁面,由于這些頁面代表了能夠滿意用戶查詢的高質量內容,查找引擎以此作為查找成果回來給用戶。

  6.4.2 彼此增強聯系

  許多算法都是建立在一些假定之上的,HITS算法也不例外。HITS算法隱含并運用了2個根本假定:

  根本假定1:一個好的“Authority”頁面會被許多好的“Hub”頁面指向;

  根本假定2:一個好的“Hub”頁面會指向許多好的“Authority”頁面;

  到目前停止,無論是從“Hub”或許“Authority”頁面的界說也好,仍是從兩個根本假定也好,都能看到一個模糊的描繪,即“高質量”或許“好的”,那么什么是“好的”Hub頁面?什么是“好的”Authority頁面?兩個根本假定給出了所謂“好”的界說。

  根本假定1闡明了什么是“好的”Authority頁面,即被許多好的Hub頁面指向的頁面是好的“Authority”頁面,這里兩個修飾語十分重要:“許多”和“好的”,所謂“許多”,即被越多的Hub頁面指向越好,所謂“好的”,意味著指向本頁面的“Hub”頁面質量越高,則本頁面越好。即歸納了指向本頁面的一切Hub節點的數量和質量要素。

  根本假定2則給出了什么是“好的”Hub頁面的闡明,即指向許多好的Authority頁面的網頁是好的Hub頁面。相同的,“許多”和“好的”兩個修飾語很重要,所謂“許多”,即指向的Authority頁面數量越多越好;所謂“好的”,即指向的Authority頁面質量越高,則本頁面越是好的Hub頁面。也即歸納考慮了該頁面有鏈接指向的一切頁面的數量和質量要素。

  從以上兩個根本假定能夠推導出Hub頁面和Authority頁面之間的彼此增強聯系,即某個網頁的Hub質量越高,則其鏈接指向的頁面的Authority質量越好;反過來也是如此,一個網頁的Authority質量越高,則那些有鏈接指向本網頁的頁面Hub質量越高。經過這種彼此增強聯系不斷迭代核算,即可找出哪些頁面是高質量的Hub頁面,哪些頁面是高質量的Authority頁面。

  6.4.3 HITS算法

  HITS算法與Pagerank算法一個明顯的差異是:HITS算法與用戶輸入的查詢懇求密切相關,而Pagerank是與查詢無關的大局算法。HITS后續核算步驟都是在接收到用戶查詢后打開的,便是與查詢相關的鏈接剖析算法。

  HITS算法接收到了用戶查詢之后,將查詢提交給某個現有的查找引擎(或許是自己構造的檢索系統),并在回來的查找成果中,提取排名靠前的網頁,得到一組與用戶查詢高度相關的初始網頁調集,這個調集被稱作為根集(Root Set)。

  在根集的根底上,HITS算法對網頁調集進行擴大(參閱圖6-13),擴大原則是:凡是與根集內網頁有直接鏈接指向聯系的網頁都被擴大進來,無論是有鏈接指向根集內頁面也好,或許是根集頁面有鏈接指向的頁面也好,都被擴大進入擴展網頁調集。HITS算法在這個擴大網頁調集內尋找好的“Hub”頁面與好的“Authority”頁面。

  關于“擴大網頁調集”來說,我們并不知道哪些頁面是好的“Hub”或許好的“Authority”頁面,每個網頁都有潛在的或許,所以關于每個頁面都建立兩個權值,分別來記載這個頁面是好的Hub或許Authority頁面的或許性。在初始情況下,在沒有更多可運用信息前,每個頁面的這兩個權值都是相同的,能夠都設置為1。

  之后,即可運用上面提到的兩個根本假定,以及彼此增強聯系等原則進行多輪迭代核算,每輪迭代核算更新每個頁面的兩個權值,直到權值安穩不再產生明顯的改動停止。

  圖6-14給出了迭代核算過程中,某個頁面的Hub權值和Authority權值的更新方法。假定以A(i)代表網頁i的Authority權值,以H(i)代表網頁i的Hub權值。在圖6-14的例子中,“擴大網頁調集”有3個網頁有鏈接指向頁面1,同時頁面1有3個鏈接指向其它頁面。那么,網頁1在此輪迭代中的Authority權值即為一切指向網頁1頁面的Hub權值之和;相似的,網頁1的Hub分值即為所指向的頁面的Authority權值之和。

  “擴大網頁調集”內其它頁面也以相似的方法對兩個權值進行更新,當每個頁面的權值都獲得了更新,則完成了一輪迭代核算,此刻HITS算法會評估上一輪迭代核算中的權值和本輪迭代之后權值的差異,假如發現總體來說權值沒有明顯改動,闡明系統已進入安穩狀況,則能夠結束核算。將頁面根據Authority權值得分由高到低排序,取權值最高的若干頁面作為呼運用戶查詢的查找成果輸出。假如比較發現兩輪核算總體權值差異較大,則繼續進入下一輪迭代核算,直到整個系統權值安穩停止。

  6.4.4 HITS算法存在的問題

  HITS算法整體而言是個作用很好的算法,目前不只運用在查找引擎范疇,而且被“自然語言處理”以及“交際剖析”等許多其它核算機范疇學習運用,并取得了很好的運用作用。盡管如此,最初版別的HITS算法依然存在一些問題,而后續許多基于HITS算法的鏈接剖析方法,也是立足于改進HITS算法存在的這些問題而提出的。

  歸納起來,HITS算法主要在以下幾個方面存在不足:

  1.核算功率較低

  由于HITS算法是與查詢相關的算法,所以有必要在接收到用戶查詢后實時進行核算,而HITS算法本身需求進行許多輪迭代核算才能獲得最終成果,這導致其核算功率較低,這是實踐運用時有必要慎重考慮的問題。

  2.主題漂移問題

  假如在擴展網頁調集里包括部分與查詢主題無關的頁面,而且這些頁面之間有較多的彼此鏈接指向,那么運用HITS算法很或許會給予這些無關網頁很高的排名,導致查找成果產生主題漂移,這種現象被稱為“嚴密鏈接社區現象”(Tightly-Knit CommunityEffect)。

  3.易被作弊者操縱成果

  HITS從機制上很簡單被作弊者操縱,比方作弊者能夠建立一個網頁,頁面內容增加許多指向高質量網頁或許聞名網站的網址,這就是一個很好的Hub頁面,之后作弊者再將這個網頁鏈接指向作弊網頁,于是能夠提升作弊網頁的Authority得分。

  4.結構不安穩

  所謂結構不安穩,就是說在原有的“擴大網頁調集”內,假如增加刪除單個網頁或許改動少量鏈接聯系,則HITS算法的排名成果就會有十分大的改動。

  6.4.5 HITS算法與PageRank算法比較

  HITS算法和PageRank算法能夠說是查找引擎鏈接剖析的兩個最根底且最重要的算法。從以上對兩個算法的介紹能夠看出,兩者無論是在根本概念模型仍是核算思路以及技能完成細節都有很大的不同,下面臨兩者之間的差異進行逐一闡明。

  1.HITS算法是與用戶輸入的查詢懇求密切相關的,而PageRank與查詢懇求無關。所以,HITS算法能夠單獨作為相似性核算評價規范,而PageRank有必要結合內容相似性核算才能夠用來對網頁相關性進行評價;

  2.HITS算法由于與用戶查詢密切相關,所以有必要在接收到用戶查詢后實時進行核算,核算功率較低;而PageRank則能夠在爬蟲抓取完成后離線核算,在線直接運用核算成果,核算功率較高;

  3.HITS算法的核算目標數量較少,只需核算擴展調集內網頁之間的鏈接聯系;而PageRank是大局性算法,對一切互聯網頁面節點進行處理;

  4.從兩者的核算功率和處理目標調集大小來比較,PageRank更適合布置在服務器端,而HITS算法更適合布置在客戶端;

  5.HITS算法存在主題泛化問題,所以更適合處理具體化的用戶查詢;而PageRank在處理廣泛的用戶查詢時更有優勢;

  6.HITS算法在核算時,關于每個頁面需求核算兩個分值,而PageRank只需核算一個分值即可;在查找引擎范疇,更注重HITS算法核算出的Authority權值,但是在許多運用HITS算法的其它范疇,Hub分值也有很重要的作用;

  7.從鏈接反作弊的視點來說,PageRank從機制上優于HITS算法,而HITS算法更易遭受鏈接作弊的影響。

  8.HITS算法結構不安穩,當對“擴大網頁調集”內鏈接聯系作出很小改動,則對最終排名有很大影響;而PageRank相對HITS而言體現安穩,其根本原因在于PageRank核算時的“遠程跳轉”。

hd电影_成年人在线电影_haoav第四色在线电影_不用播放器的黄网网 <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>