武漢百度SEO:關于搜索引擎原理之網頁去重原理

發布時間:2017-09-20 15:33:31   次瀏覽

在一般的搜索引擎架構中,網頁去重一般在spider抓取部分就存在了,“去重”步驟在整個搜索引擎架構中實施的越早,越可以節約后續處理系統的資源使用。搜索引擎一般會對已經抓取過的重復頁面進行歸類處理,比如,判斷某個站點是否包含大量的重復頁面,或者該站點是否完全采集其他站點的內容等,以決定以后對該站點的抓取情況或是否直接屏蔽抓取。
去重的工作一般會在分詞之后和索引之前進行,搜索引擎會在頁面已經分出的關鍵詞中,提取部分具有代表性的關鍵詞,然后計算這些關鍵詞的“指紋”。每一個網頁都會有個這樣的特征指紋,當新抓取的網頁的王建辭職文和已索引網頁的關鍵詞指紋有重合時,那么該網頁就可能會被搜索引擎視為重復內容而放棄索引。
在互聯網如此發達的今天,同一資料會在多個網站發布,同一新聞會被大部分媒體網站報道,再加上小站長和武漢百度SEO人員孜孜不倦的網絡采集,造成了網絡上擁有大量的重讀信息。然而當用戶搜索某個關鍵詞時,搜索引擎必定不想呈獻給用戶的搜索結果都是相同的內容。抓取這些重復的網頁,在一定意義上就是對搜索引擎自身資源的浪費,因此去除重復內容的網頁也成了搜索引擎所面臨的一大問題。
 
因此網絡上流星的大部分偽原創工具,不是不能欺騙搜索引擎,就是把內容做的鬼都  讀不通,所以理論上使用普通偽原創工具不能得到搜索引擎的正常收錄和排名。但是由于搜索百度并不是對所有的重復頁面都直接拋棄不索引,而是會根據重復網頁所在網站的權重適當放寬索引標準,這樣使得部分作弊者有機可乘,利用網站的高權重,大量采集其他站點的內容獲取搜索流量。不過經過百度搜索多次升級算法,對采集重復信息,垃圾頁面進行了多次重量級打擊。
 
所以武漢百度SEO在面對網站內容時,不應該再以偽原創的角度去建設,而需要以對用戶游泳的角度去建設,雖然后者的內容不一定全是原創,一般如果網站權重沒有大問題,都會得到健康的發展。
另外,不僅僅是搜索引擎需要“網頁去重”,自己做網站也需要對站內頁面進行去重。比如分類信息、B2B平臺等UGC類的網站,如果不加以限制,用戶所發布的信息必然會有大量的重復,這樣不僅在SEO方面表現不好,站內用戶體驗也會降很多。
又如SEOer在設計流量產品大批量產生頁面時,也需要做一個重復過濾,否則就會大大降低產品質量。seoer所設計的流量產品常見的一般以“聚合”為基礎的索引頁、專題頁或目錄頁,“聚合”就必須有核心詞,不加以過濾,海量核心詞所擴展出來的頁面就可能會有大量重復,從而導致該產品效果不佳,甚至會因此被搜索引擎降權。
 
 
 
實際工作中的搜索引擎,不僅僅使用分詞步驟所分出的有意義的關鍵詞,還會使用連續切割的方式提取關鍵詞,并進行指紋計算。連續切割就是以單個字向后移動的方式進行切詞,比如,“百度開始打擊買賣鏈接”會被切成“百度開”“度開始”“開始打”“始打擊”“打擊買”“擊買賣”“買鏈接”“賣鏈接”。然后從這些詞中提取部分關鍵詞進行指紋計算,參與是否重復內容的對比,具體的可以參考搜索引擎原理之中文分詞技術這篇文章,這只是搜索引擎識別重復網頁的基本算法,還有很多其他對付重復網頁的算法。
 
眾酷服務
  • 全網營銷推廣
  • SEO
  • 網站建設
  • 新媒體推廣
  • 微信運營
在線留言

online message

—————— 我們的工作人員會盡快與您取得聯系 ——————

等待期間需要獲取更多信息,請 广东十一选五100%定一胆聯系我們。
感謝您對眾酷產品及服務的支持。

武漢眾酷網絡科技有限公司

Wuhan Zhongku Netword Technology Co., Ltd

  • 公司座機:400-027-9158
  • 推廣/建站:15342747576(張經理)
  • 技術咨詢:15989566309(周經理)
  • 地址:武漢市洪山區高新二路37號鼎泰大廈502室 (地鐵2號線黃龍山站B出口斜對面80米即到)

站點地圖
Copyright ? 武漢眾酷網絡科技有限公司 版權所有 鄂ICP備16009106號-2