精品三级久久久久电影我网,亚洲色熟女图激情另类图区,打扑克牌免费网站大全

<delect id="qknvr"><option id="qknvr"></option></delect>

      <font id="qknvr"><ol id="qknvr"><video id="qknvr"></video></ol></font>

      <thead id="qknvr"><del id="qknvr"></del></thead>
      <thead id="qknvr"></thead>
      <delect id="qknvr"><rp id="qknvr"><noframes id="qknvr"></noframes></rp></delect>
      <i id="qknvr"><option id="qknvr"></option></i> <delect id="qknvr"><rp id="qknvr"></rp></delect>
      <thead id="qknvr"></thead>

        183-2088-5389

        搜索引擎排名

        經過搜索引擎蜘蛛抓取頁面,索引程序計算得到倒排索引后,搜索引擎就己準備好,可以隨時處理用戶搜索了。用戶在搜索框輸入查詢詞后,排名程序就會調用索引庫數據,計算排名并顯示給用戶。排名過程是與用戶直接互動的。

        1. 搜索詞處理

        搜索引擎接收到用戶輸入的搜索詞后,需要對搜索詞做一些處理,才能進入排名過程。搜索詞處理包括如下幾方面。

        1)中文分詞。與頁面索引時一樣,搜索詞也必須進行中文分詞,將查詢字符串轉換為以詞為基礎的關鍵詞組合。其分詞原理與頁面分詞相同。

        2)去停止詞。和頁面索引時一樣,搜索引擎也需要把搜索詞中的停止詞去掉,最大限度地提高排名相關性及排名效率。

        3)指令處理。查詢詞完成分詞后,搜索引擎的默認處理方式是在關鍵詞之間使用“與”邏輯。也就是說,用戶搜索“減肥方法”時,程序分詞為“減肥”和“方法“兩個詞,搜索引擎排序時默認用戶尋找的是既包含“減肥”,又包含“方法”的頁面。只包含“減肥”不包含“方法”,或者只包含“方法”不包含“減肥”的頁面,則被認為是不符合搜索條件的。當然,這種說法只是為了極為簡要地說明原理,實際上們還是會看到只包含一部分關鍵詞的搜索結果。另外,用戶輸入的查詢詞還可能包含一些高級搜索指令,如加號、減號等,搜索引擎都需要進行識別并做出相應處理。

        4)拼寫錯誤矯正。用戶如果輸入了明顯錯誤的字或錯誤的英文單詞拼法,搜索引擎會提示用戶正確的用字或拼法,并進行矯正,如圖所示。

        5)整合搜索觸發。某些搜索詞會觸發整合搜索,比如明星的姓名就經常觸發圖片和視頻內容,當前的熱門話題又容易觸發資訊內容。哪些詞觸發哪些整合搜索,也需要在搜索詞處理階段計算。

        6)搜索框提示。用戶在搜索框輸入查詢詞的過程中,搜索引擎就會根據熱門搜索數據給出多組相關的查詢詞,減少用戶的輸入時間。

        7)理解搜索真實意圖?,F在的搜索算法都會嘗試深入理解用戶的真實搜索意圖,尤其是在查詢詞意義不明或存在歧義時,理解錯誤,自然會返回錯誤的頁面。對查詢意圖的理解無法通過關鍵詞的匹配實現,目前是以人工智能、機器學習方法為主,而且進展快速。

        2. 文件匹配

        搜索詞經過處理后,搜索引擎得到的是以詞為基礎的關鍵詞集合。文件匹配階段就是找出包含所有搜索關鍵詞的所有文件。在索引部分提到的倒排索弓使得文件匹配能夠快速完成,如表所示。

        假設用戶搜索“關鍵詞2”和“關鍵詞7”,排名程序只要在倒排索引中找到“關鍵詞2”和“關鍵詞7”這兩個詞,就能找到分別含有這兩個詞的所有頁面。經過簡單的求交集計算,就能找出既包含“關鍵詞2”,又包含“關鍵詞7”的所有頁面:文件1和文件6。

        3.  初始子集的選擇

        找到包含所有關鍵詞的匹配文件后,還不能進行相關性計算,因為找到的文件通常會有幾十萬、幾百萬,甚至上億個。要對這么多文件實時進行相關性計算,需要很長時間。

        實際上,用戶并不需要知道所有與關鍵詞匹配的幾十萬、幾百萬個頁面,絕大部分用戶只會查看前兩頁的搜索結果,也就是前20個結果。搜索引擎也并不需要計算這么多頁面的相關性,而只要計算最重要的一部分頁面即可。經常使用搜索引擎的人都會注意到,搜索結果頁面通常最多可顯示100個。用戶點擊搜索結果頁面底部的“下一頁”鏈接,最多也只能看到第100頁,也就是1000個搜索結果。

        總之,一次搜索最多顯示1000個搜索結果,所以搜索引擎只需要計算前1000個結果的相關性,就能滿足用戶的搜索要求。

        但問題在于,在還沒有計算相關性時,搜索引擎又怎么知道哪1000個文件是最相關的呢?所以選擇用于最后相關性計算的初始頁面子集時,必須依靠其他特征而不是相關性,其中最主要的就是頁面權重。由于所有匹配文件都已經具備了最基本的相關性(這些文件都包含所有查詢詞),搜索引擎通常會用非相關性的頁面特征選出一個初始子集。初始子集的數目是多少?幾萬個?或許更多,外人并不知道。不過可以肯定的是,當匹配頁面數目巨大時,搜索引擎不會對這么多頁面進行實時計算,而必須選出頁面權重較高的一個子集作為初始子集,再對子集中的頁面進行相關性計算。

        4.  相關性計算

        選出初始子集后,子計算集中的頁面與關鍵詞的相關性。計算相關性是排名過程中最重要的一步,也是搜索引擎算法中最令SEO感興趣的部分。

        最經典的關鍵詞-文件相關性計算方法是TF-IDF公式:

        Wx,y=tfx.y x log(N/dfx)

        Wx,y是文件y與關鍵詞x的相關性。

        tfx,y是關鍵詞x在頁面y上出現的次數,即詞頻(term frequency)。

        dfx是文件頻率(document frequency),也就是包含關鍵詞x的文件總數。

        N是常量,所有文件的總數。

        N除以dfx后取對數,稱為IDF,逆文件頻率(inverse document frequency)。取對數是為了歸一化,使數值范圍按比例縮小。

        所以,TF-IDF所代表的意思就是,相關性等于詞頻乘以逆文件頻率。

        關鍵詞出現的次數越多,詞頻越大,文件與關鍵詞的相關性就越高,這是僅憑直覺就可以想到的。但詞頻作為相關性因子存在幾個問題:一是可以很容易地被人為提高、作弊。二是沒有考慮文件的篇幅,所以真正使用時還應該考慮關鍵詞密度。三是沒有考慮關鍵詞的常用程度,因此引入逆文件頻率。

        逆文件頻率代表了關鍵詞的常用程度。語言中越常見的詞,包含這個詞的文件總數越多,文件頻率也就越高,逆文件頻率越低,關鍵詞與文件的相關性也越低。

        所以逆文件頻率也代表了這個詞的語義重要性及其對相關性的貢獻程度,或者說是區別文件的能力。舉例來說,“的”在幾乎所有文件中都會出現,文件頻率極高,逆文件頻率極低,也就是說,“的”這個詞的語義重要性很低,對文件相關性沒什么貢獻,幾乎無法用來代表和區別文件內容。

        反過來,越不常用的詞對文件相關性的貢獻越大?!八阉饕妗边@個詞只出現在一小部分文件中,逆文件頻率要高得多,對文件內容來說重要性要高得多。舉個極端例子,假如用戶輸入的查詢詞是“作者咎輝”?!白髡摺边@個詞還算常用,在很多頁面上會出現,它對“作者咎輝”這個查詢詞的辨識程度和意義相關度的貢獻就很小。找出那些包含“作者”這個詞的頁面,對搜索排名相關性幾乎沒有什么影響,顯然無法滿足搜索需求。而“咎輝”這個詞的常用程度極低,除了指我本人,大概沒有其他意思,對“作者昝輝”這個查詢詞的意義貢獻要大得多。那些與“咎輝”這個詞相關度高的頁面,才是真正與“作者咎輝”這個查詢詞相關的頁面。

        常用詞的極致就是停止詞,對頁面意義完全沒有影響。

        所以搜索引擎在對搜索詞字符串中的關鍵詞進行處理時并不是一視同仁的,會根據其常用程度進行加權。不常用的詞加權系數高,常用詞加權系數低,排名算法對不常用的詞會給予更多關注。

        我們假設A、B兩個頁面都出現了“作者”及“咎輝”兩個詞。但是“作者”這個詞在A頁面出現于普通文字中,“咎輝”這個詞在A頁面出現于標題標簽中。B頁面正相反,“作者”出現在標題標簽中,而“咎輝”出現在普通文字中。那么針對“作者昝輝”這個查詢,A頁面的相關性將更高。

        TF-IDF是最經典的相關性算法,其思路和公式很簡單,搜索引擎真正使用的算法以此為基礎,但肯定要復雜得多。

        除了TF-IDF,相關性算法還可能考慮:

        1)關鍵詞位置及形式。就像在索引部分中提到的,頁面關鍵詞出現的格式和位置都被記錄在索引庫中。關鍵詞越是出現在比較重要的位置,如頁面標題、黑體、H標簽等,就說明頁面與關鍵詞越相關。這一部分就是頁面搜索引擎優化要解決的問題。

        2)關鍵詞距離。切分后的關鍵詞在頁面上完整匹配地出現,說明此頁面與查詢詞最相關。比如搜索“減肥方法”時,連續完整出現“減肥方法”四個字的頁面是最相關的。如果“減肥”和“方法”兩個詞在頁面上沒有連續匹配出現,但出現的距離較近,此頁面也被搜索引擎認為相關性較大。

        3)鏈接分析及頁面權重。除了頁面本身的因素,頁面之間的鏈接和權重關系也影響其與關鍵詞的相關性,其中最重要的是錨文字。頁面有越多以查詢詞為錨文字的導入鏈接,就說明頁面的相關性越強,鏈接分析還包括了鏈接源頁面本身的主題、錨文字周圍的文字等。

        5.  排名過濾及調整

        選出匹配文件子集、計算相關性后,大體排名就已經確定了。之后搜索引擎可能還有一些過濾算法,對排名進行輕微調整,其中最主要的過濾就是施加懲罰。一些有作弊嫌疑的頁面,雖然按照正常的權重和相關性計算排到前面,但搜索引擎的懲罰算法卻可能在最后一步把這些頁面調到后面。典型的例子是百度的11位算法,Google的負6、負30、負950等算法。

        6.  排名顯示

        所有排名確定后,排名程序調用原始頁面的標題標簽、說明標簽、頁面發布或更新時間、結構化數據等信息顯示就在搜索結果頁面上。如果頁面沒有說明標簽,或說明標簽寫得不好,搜索引擎也會從頁面正文中動態生成頁面說明文字。

        7.  搜索緩存

        用戶搜索的查詢詞有很大一部分是重復的。按照二八定律,20%的搜索詞占到了總搜索次數的80%。按照長尾理論,最常見的搜索詞即便沒有占到80%那么多,通常也有一個比較粗大的頭部,很少一部分搜索詞占到了所有搜索次數的很大部分。尤其是有熱門新聞發生時,每天可能有幾百萬人都在搜索完全相同的詞。

        如果每次搜索都重新處理排名,可以說是很大的浪費。搜索引擎會把最常見的查詢詞及結果存入緩存,用戶搜索時直接從緩存中調用,而不必經過文件匹配和相關性計算,大大提高了排名效率,縮短了搜索反應時間。

        8.  查詢及點擊日志

        搜索用戶的IP地址、搜索詞、搜索時間,以及點擊了哪些結果頁面,搜索引擎都會記錄并形成日志。這些日志文件中的數據對搜索引擎判斷搜索結果質量、調整搜索算法、預期搜索趨勢、開發人工智能算法等都具有重要意義。


        付款方式
        ×
        精品三级久久久久电影我网,亚洲色熟女图激情另类图区,打扑克牌免费网站大全