精品三级久久久久电影我网,亚洲色熟女图激情另类图区,打扑克牌免费网站大全

<delect id="qknvr"><option id="qknvr"></option></delect>

      <font id="qknvr"><ol id="qknvr"><video id="qknvr"></video></ol></font>

      <thead id="qknvr"><del id="qknvr"></del></thead>
      <thead id="qknvr"></thead>
      <delect id="qknvr"><rp id="qknvr"><noframes id="qknvr"></noframes></rp></delect>
      <i id="qknvr"><option id="qknvr"></option></i> <delect id="qknvr"><rp id="qknvr"></rp></delect>
      <thead id="qknvr"></thead>

        183-2088-5389

        搜索引擎爬行和抓取

        爬行和抓取是搜索引擎工作的第一步,是為了完成數據收集的任務。

        1.蜘蛛

        搜索引擎用來爬行和訪問頁面的程序被稱為蜘蛛( spider)或機器人(bot)。

        搜索引擎蜘蛛訪問網站貞面的過程與普通用戶使用的瀏覽器的過程相似。蜘蛛程序發出頁面訪問請求后,服務器返回HTML代碼,蜘蛛程序把收到的代碼存入原始頁面數據庫。搜索引擎為了提高爬行和抓取速度,常使用多個蜘蛛并發分布爬行。

        蜘蛛在訪問任何一個網站時,都會先訪問網站根目錄下的robots文件。如果robots文件禁止搜索引擎抓取某些文件或目錄,蜘蛛將遵守協議,不抓取被禁止的網址。

        和瀏覽器一樣,搜索引擎蜘蛛也有標明自己身份的用戶代理( User Agent)名稱,站長可以在日志文件中看到搜索引擎的特定用戶代理,從而辨識搜索引擎蜘蛛。下面列出常見搜索引擎蜘蛛的當前版本。

        1)百度PC蜘蛛

        Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)

        Mozilla/5.0(compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)從名稱看是用于渲染的蜘蛛。

        2)百度移動蜘螃

        Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn) Apple WebKit/534.46 (KHTML,like Gecko)Version/5.1  Mobile Safarl/10600.6.3 (compatible; Baiduspider/2.0;+http://www. Baidu.com/search/spider.html)

        Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) Apple WebKit/601.1.46(KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)

        3)Google PC蜘蛛

        Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

        Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; Googlebot/2.1;+http://www.google.com/bot.html) Chrome/W.X.Y.Z Safari/537.36

        其中W.X.Y.Z是Chrome瀏覽器版本號。Google蜘蛛從2019年開始使用最新版本的Chrome引擎抓取、渲染頁面,所以這個版本號會保持更新。

        4)Google移動蜘蛛

        Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36(KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 (compatible; Googlebot/2.1;+http://www.google.com/bot.html)

        5)BingPC蜘蛛

        Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)

        Mozilla/5.0 AppleWebKit/537.36 (KHTML,like Gecko, compatible; bingbot/2.0;+http://www.bing.com/bingbot.htm) Chrome/W.X.Y.Z Safari/537.36 Edg/W.X.Y.Z

        6)Bing移動蜘蛛

        Mozilla/5.0 (Linux, Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36(KHTML, like Gecko) Chrome/W.X.Y.Z Mobile Safari/537.36 Edg/W.X.Y.Z (compatible;bingbot/2.0; +http://www.bing.com/bingbot.htm)

        其中W.X.Y.Z是Chrome和Edge瀏覽器版本號。和Google一樣,Bing也使用最新版本的Microsoft Edge引擎抓取、渲染頁面。Edge和Chrome一樣,也使用Chromium內核,所以Bing蜘蛛用戶代理字符串里還包含一個Chrome版本號。

        7)搜狗蜘蛛

        Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

        2.跟蹤鏈接

        為了抓取盡量多的頁面,搜索引擎蜘蛛會跟蹤頁面上的鏈接,從一個頁面爬行到下一個頁面,就好像蜘蛛在蜘蛛網上爬行那樣,這也是搜索引擎蜘蛛這個名稱的由來。

        整個互聯網是由相互鏈接的網站及頁面組成的。從理論上說,蜘蛛從任何一個頁面出發,順著鏈接都可以爬行到網上的所有頁面(除了一些與其他網站沒有任何鏈接的孤島頁面)。當然,由于網站及頁面鏈接結構異常復雜,蜘蛛需要采取一定的基于圖論的爬行策略才能遍歷網上所有的頁面。

        最簡單的爬行遍歷策略分為兩種:一種是深度優先,另一種是廣度優先。

        所謂深度優先,指的是蜘蛛沿著發現的鏈接一直向前爬行,直到前面再也沒有其他鏈接,然后返回到第一個頁面,沿著另一個鏈接再一直往前爬行。

        深度優先遍歷策略如圖2-36所示,蜘蛛跟蹤鏈接,從A頁面爬行到A1、A2、A3、A4。爬完A4頁面后,如果已經沒有其他鏈接可以跟蹤,則返回A頁面,順著頁面上的另一個鏈接,爬行到Bl、B2、B3、B4。在深度優先策略中,蜘蛛一直爬到無法再向前,才返回爬行另一條線。

        廣度優先是指蜘蛛在一個頁面上發現多個鏈按時,不是順著一個鏈接一直向前,而是把頁面上所有第一層鏈接都爬行一遍,然后再沿著第二層頁面上發現的鏈接爬向第三層頁面。

        廣度優先遍歷策略如圖2-37所示,蜘蛛從A頁面順著鏈接爬行到A1、B1、C1頁面,直到A頁面上的所有鏈接都爬行完畢,再從A1頁面發現的下一層鏈接,爬行到A2、A3、A4……頁面。

        從理論上說,無論是深度優先還是廣度優先,只要給予蜘蛛足夠的時間,都能爬完整個互聯網。但在實際工作中,蜘蛛的帶寬資源、時間都不是無限的,不可能、也沒必要爬完所有頁面。實際上,最大的搜索引擎也只是爬行和收錄了互聯網的一小部分內容。

        深度優先和廣度優先這兩種遍歷策略通常是混合使用的,這樣既可以照顧到盡量多的網站(廣度優先),也能照顧到一部分網站的內頁(深度優先),同時也會考慮頁面權重、網站規模、外鏈、更新等因素。

        3.吸引蜘蛛

        由此可見,雖然理論上蜘蛛能爬行和抓取所有頁面,但實際上不能、也不會這么做。搜索引擎優化人員要想讓更多自己的頁面被收錄,就要想方設法吸引蜘蛛來抓取。既然不能抓取所有頁面,蜘蛛所要做的就是盡量抓取重要頁面。哪些頁面會被認為比較重要呢?有幾方面影響因素。

        (1)網站和頁面權重。質量高、資格老的網站被認為權重比較高,這種網站上的頁面被爬行的深度也會比較高,所以會有更多內頁被收錄。

        (2)頁面更新度。蜘蛛每次抓取都會把頁面數據存儲起來。如果下一次抓取發現頁面與第一次收錄的完全一樣,說明頁面沒有更新。多次抓取后,蜘蛛會對頁面的更新頻率有所了解,不常更新的頁面,蜘蛛也就沒有必要經常抓取了。如果頁面內容經常更新,蜘蛛就會更加頻繁地訪問這種頁面,頁面上出現的新鏈接,也自然會被蜘蛛更快地跟蹤,抓取新頁面。

        (3)導入鏈接。無論是外部鏈接還是同一個網站的內部鏈接,要被蜘蛛抓取,就必須有能夠進入頁面的導入鏈接,否則蜘蛛根本不知道頁面的存在。高質量的導入鏈接也經常使頁面上的導出鏈接被爬行的深度增加。

        (4)與首頁點擊距離。一般來說,網站上權重最高的是首頁,大部分外部鏈接是指向首頁的,蜘蛛訪問最頻繁的也是首頁。與首頁點擊距離越近,頁面權重越高,被蜘蛛爬行的機會也就越大。

        (5)URL結構。頁面權重是在收錄并進行迭代計算后才知道的,前面提到過,頁面權重越高越有利于被抓取,那么搜索引擎蜘蛛在抓取前怎么知道這個頁面的權重呢?蜘蛛會進行預判,除了鏈接、與首頁距離、歷史數據等因素,短的、層次淺的URL也可能被直觀地認為在網站上的權重相對較高。

        4.地址庫及調度系統

        為了避免重復爬行和抓取網址,搜索引擎會建立地址庫,記錄已經被發現但還有沒有抓取的頁面,以及已經被抓取的頁面。蜘蛛在頁面上發現鏈接后并不是馬上就去訪問,而是將URL存入地址庫,然后統一由調度系統安排抓取。

        地址庫中的URL有以下幾個來源。

        ? 人工錄入的種子網站。

        ? 蜘蛛抓取頁面后,從HTML中解析出新的鏈接URL,與地址庫中的數據進行對比,如果是地址庫中沒有的網址,就存入待訪問地址庫。

        ? 站長主動通過表格提交進來的網址。

        ? 站長通過XML網站地圖、站長平臺提交的網址。

        蜘蛛按重要性從待訪問地址庫中提取URL,訪問并抓取頁面,然后把這個URL從待訪問地址庫中刪除,存放進已訪問地址庫中。

        無論是通過XML網站地圖還是通過表格提交的網址,都只是存入地址庫而己,是否抓取和收錄取決于其頁面的重要性和質量。搜索引擎收錄的絕大部分頁面是蜘蛛自己跟蹤鏈接得到的。對中小網站來說,提交頁面的作用微乎其微,搜索引擎更喜歡自己沿著鏈接發現新頁面。大型網站提交XML網站地圖對收錄有一定幫助。

        5.文件存儲

        搜索引擎蜘蛛抓取的數據存入原始頁面數據庫,其中的頁面數據與用戶瀏覽器得到的HTML是完全一樣的,每個URL都有一個獨特的文件編號。

        6.爬行時的復制內容檢測

        檢測并刪除復制內容通常是在下面介紹的預處理過程中進行的,但現在的蜘蛛在爬行和抓取文件時,也會進行一定程度的復制內容檢測。若發現權重很低的網站上出現大量轉載或抄襲內容,蜘蛛很可能不再繼續爬行。這也是有的站長在日志文件中發現了蜘蛛,但頁面卻從來沒有被真正收錄過的原因之一。

        付款方式
        ×
        精品三级久久久久电影我网,亚洲色熟女图激情另类图区,打扑克牌免费网站大全