一種搜索結果的生成方法和裝置與流程

文檔序號：12008325閱讀：377來源：國知局

一種搜索結果的生成方法和裝置【技術領域】本發(fā)明涉及互聯(lián)網應用技術領域，特別涉及一種搜索結果的生成方法和裝置。

背景技術：
隨著信息和網絡技術的不斷發(fā)展，搜索引擎已經成為人們獲取信息的重要途徑。用戶通過在搜索引擎中輸入搜索詞(query)，獲取搜索引擎針對該搜索詞返回的搜索結果。搜索結果通常是根據一系列的評分策略和排序算法而得到的。其中，影響搜索結果排名除了相關性因素以外，主要還有站點(網站)的權威性因素。現(xiàn)有的權威性主要考慮網頁的超鏈接關系、互聯(lián)網用戶的訪問程度、站點本身的權威性等級等客觀因素。這種采用超鏈接等關系來衡量網站/網址權威性的方式通常體現(xiàn)的是知名度，一般只能反映網頁在整個互聯(lián)網上的流行程度，但對于一些小型的網站來說，其自身資源有限，在權威性上落后。例如，用戶的一些尋址搜索請求，目的是能夠找到相應的官方網站，然而一些小型的官方網站，和具有類似內容的門戶網站相比，權威性相差很多，而且在相關性上也并不占優(yōu)，因此在排名上會受到擠壓。使用戶較難找到想要的結果，這樣必然增加了用戶與系統(tǒng)的交互次數，對服務器造成較大壓力。

技術實現(xiàn)要素：
為解決上述，本發(fā)明提供了一種搜索結果的生成方法和裝置，能夠更好地適應用戶的尋址需求，方便用戶更快地找到感興趣的網站，同時提高了用戶和系統(tǒng)的效率，減少交互次數，減輕服務器的壓力。具體技術方案如下：一種搜索結果的生成方法，該方法包括：S1、預先利用網頁的錨文本或標題文本，得到各站點的詞項及各詞項的權值，建立各站點的站點模型；S2、獲取用戶的搜索詞，通過檢索得到與所述搜索詞相匹配的各匹配網頁；S3、利用所述搜索詞與步驟S101建立的站點模型，通過相關性計算，得到所述搜索詞與各匹配網頁所對應站點模型的匹配度；S4、根據所述搜索詞與各匹配網頁所對應站點模型的匹配度，對所述各匹配網頁進行排序，生成搜索結果。根據本發(fā)明一優(yōu)選實施例，所述步驟S1具體包括以下步驟：步驟S1_1、從網頁的錨文本數據中提取錨文本及對應的url，或從網頁的標題文本數據中提取標題文本及對應的url；步驟S1_2、對獲取到的url進行分類，將指向同一站點的url及對應的錨文本或標題文本歸于同一站點下；步驟S1_3、分別對同一站點下的錨文本或標題文本進行分詞，得到對應各站點的詞項；步驟S1_4、分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權值，得到各站點的站點模型。根據本發(fā)明一優(yōu)選實施例，還包括：對所述步驟S1_4計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的錨文本得分或標題文本得分。根據本發(fā)明一優(yōu)選實施例，在進行所述歸一化處理之后，還包括：將同一站點的同一詞項的所述錨文本得分和所述標題文本得分進行線性加權，對各詞項的權值進行調整。根據本發(fā)明一優(yōu)選實施例，還包括對所述站點模型中的各個詞項進行同義詞擴展，并計算擴展得到的同義詞的權值。根據本發(fā)明一優(yōu)選實施例，所述同義詞的權值Ws＝W×Ratio，其中，W是站點中詞項的權值，Ratio是所述同義詞根據同義詞級別確定的系數。根據本發(fā)明一優(yōu)選實施例，所述步驟S2中在獲取用戶的搜索詞之后，還包括：對獲取的搜索詞進行分詞得到搜索詞的詞項，計算各個詞項的權值，得到搜索詞向量；所述步驟S3中利用所述搜索詞向量與步驟S1建立的站點模型進行所述相關性計算。根據本發(fā)明一優(yōu)選實施例，所述步驟S2中基于詞項的倒文檔率計算各個詞項的權值。根據本發(fā)明一優(yōu)選實施例，還包括：對所述步驟S2中，在通過檢索得到與所述搜索詞相匹配的各匹配網頁之前，還包括：對用戶的搜索詞進行尋址需求識別，保留具有尋址需求的結果；在通過檢索得到與所述搜索詞相匹配的各匹配網頁之后，還包括：對匹配網頁進行主頁識別，保留具有主頁特征的結果。根據本發(fā)明一優(yōu)選實施例，所述步驟S4具體包括：根據所述匹配度與各匹配網頁對應站點的基礎相關性值，計算得到各匹配網頁對應站點的修正相關性值；根據各匹配網頁對應的站點的修正相關性值對所述各匹配網頁進行排序，將滿足預設要求的匹配網頁生成搜索結果顯示給用戶。根據本發(fā)明一優(yōu)選實施例，所述滿足預設要求包括：對于修正相關性值最高的網站，若該網站原排名在第N位之外，則將該網站的排名提升至第N位之內，其中N為預設正整數；一種搜索結果的生成裝置，該裝置包括：站點模型建立模塊，用于預先利用網頁的錨文本或標題文本，得到各站點的詞項及各詞項的權值，建立各站點的站點模型；搜索詞獲取模塊，用于獲取用戶的搜索詞，通過檢索得到與所述搜索詞相匹配的各匹配網頁；匹配度計算模塊，用于計算所述搜索詞與所述站點模型建立模塊建立的站點模型，通過相關性計算，得到所述搜索詞與各匹配網頁所對應站點模型的匹配度；搜索結果生成模塊，用于根據所述搜索詞與各匹配網頁所對應站點模型的匹配度，對所述各匹配網頁進行排序，生成搜索結果。根據本發(fā)明一優(yōu)選實施例，所述站點模型建立模塊具體包括：文本獲取單元，用于從網頁的錨文本數據中提取錨文本及對應的url，或從網頁的標題文本數據中提取標題文本及對應的url；分類單元，用于對獲取到的url進行分類，將指向同一站點的url及對應的錨文本或標題文本歸于同一站點下；分詞單元，用于分別對同一站點下的錨文本或標題文本進行分詞，得到對應各站點的詞項；賦值單元，用于分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權值，得到各站點的站點模型。根據本發(fā)明一優(yōu)選實施例，所述站點模型建立模塊還包括歸一化單元，用于對所述賦值單元計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的錨文本得分或標題文本得分。根據本發(fā)明一優(yōu)選實施例，所述站點模型建立模塊還包括合并單元，用于將所述歸一化單元得到的同一站點的同一詞項的所述錨文本得分和所述標題文本得分進行線性加權，對各詞項的權值進行調整。根據本發(fā)明一優(yōu)選實施例，所述站點模型建立模塊還包括同義詞擴展單元，用于對所述站點模型中的各個詞項進行同義詞擴展，并計算擴展得到的同義詞的權值。根據本發(fā)明一優(yōu)選實施例，所述同義詞的權值Ws＝W×Ratio，其中，W是站點中詞項的權值，Ratio是所述同義詞根據同義詞級別確定的系數。根據本發(fā)明一優(yōu)選實施例，所述搜索詞獲取模塊包括搜索詞分詞單元和搜索詞賦值單元，所述搜索詞分詞單元，用于對獲取的搜索詞進行分詞得到搜索詞的詞項；所述搜索詞賦值單元，用于計算所述搜索詞分詞單元得到的各個詞項的權值，得到搜索詞向量，供給所述匹配度計算模塊進行所述相關性計算。根據本發(fā)明一優(yōu)選實施例，所述搜索詞獲取模塊基于詞項的倒文檔率計算各個詞項的權值。根據本發(fā)明一優(yōu)選實施例，所述搜索詞獲取模塊還包括：尋址需求識別單元，用于在通過檢索得到與所述搜索詞相匹配的各匹配網頁之前，對用戶的搜索詞進行尋址需求識別，保留具有尋址需求的結果；主頁識別單元，用于在通過檢索得到與所述搜索詞相匹配的各匹配網頁之后，對匹配網頁進行主頁識別，保留具有主頁特征的結果。根據本發(fā)明一優(yōu)選實施例，所述搜索結果生成模塊包括相關性值確定單元和搜索結果排序單元，所述相關性值確定單元，用于根據所述匹配度與各匹配網頁對應站點的基礎相關性值，計算得到各匹配網頁對應站點的修正相關性值；所述搜索結果排序單元，用于根據各匹配網頁對應的站點的修正相關性值對所述各匹配網頁進行排序，將滿足預設要求的匹配網頁生成搜索結果顯示給用戶。根據本發(fā)明一優(yōu)選實施例，所述滿足預設要求包括：對于修正相關性值最高的網站，若該網站原排名在第N位之外，則將該網站的排名提升至第N位之內，其中N為預設正整數。由以上技術方案可以看出，本發(fā)明提供的搜索結果的生成方法和裝置，利用錨文本和用戶標題文本建立站點模型，由于站點模型同時考慮到了站點內所包含的所有網頁的內容，從而能夠使得官網、個人首頁等網站的相關性值能夠得到提升，提升這些網站的排名，方便搜索用戶迅速找到感興趣的搜索結果，更適應用戶的尋址搜索需求，同時提高了用戶和系統(tǒng)的效率，減少交互次數，減輕服務器的壓力?！靖綀D說明】圖1為本發(fā)明實施例一提供的搜索結果的生成方法流程圖；圖2為本發(fā)明實施例一提供的建立站點模型的方法流程圖；圖3為本發(fā)明實施例二提供的搜索結果的生成裝置結構圖；圖4為本發(fā)明實施例二提供的站點模型建立模塊的結構圖?！揪唧w實施方式】為了使本發(fā)明的目的、技術方案和優(yōu)點更加清楚，下面結合附圖和具體實施例對本發(fā)明進行詳細描述。實施例一、圖1是本實施例提供的搜索結果的生成方法流程圖，如圖1所示，該方法包括：步驟S101、預先利用網頁的錨文本或標題文本，得到各站點的詞項及各詞項的權值，建立各站點的站點模型。一個站點通常包括多個網頁，一個網頁內包括多個錨文本。所述錨文本(超鏈接文本，anchortext)，用以指引注釋其對應的超鏈接(url，統(tǒng)一資源定位符)。從抓取到的網絡資源中，獲取各網頁內的錨文本及其對應的url，作為錨文本數據。另一方面，一個站點通常包括首頁和內頁，都會有標題文本(titletext)來描述，用以概括頁面的主頁內容和出處等。從抓取到的網絡資源中，獲取各網頁的標題文本及其對應的url，作為標題文本數據。利用這些錨文本數據或標題文本數據建立各站點模型。下面結合圖2對站點模型的建立做進一步詳細說明。圖2是本實施例提供的建立站點模型的方法流程圖，如圖2所示，其中，分支S201_1至S205_1為利用錨文本建立站點模型的方法，可以包括以下步驟：步驟S201_1、從網頁的錨文本數據中提取錨文本及對應的url。利用搜索引擎抓取整個網絡資源上的錨文本數據，包括各個站點內的錨文本及其對應的url。從這些錨文本數據中提取錨文本及對應的url。例如，以獲取網頁“www.sunanchn.cn”站點首頁為例，得到的錨文本如表1所示(未全部列出)：表1錨文本錨文本對應的url南京尚安數碼科技有限公司http://www.sunanchn.cn/尚安科技http://www.sunanchn.cn/南京尚安數碼http://www.sunanchn.cn/南京尚安數碼科技有限公司http://www.sunanchn.cn/Main南京尚安數碼科技有限公司http://www.sunanchn.cn/Main/index.aspx南京尚安數碼http://www.sunanchn.cn/Main/index.aspx............步驟S202_1、對獲取到的url進行分類，將指向同一站點的url及對應的錨文本歸于同一站點下。在判斷url是否指向同一個站點時，可以但不限于以“/”作為分隔符，以模板“http://……/”進行判斷，即將網絡協(xié)議“http://”后至第一個“/”之前內容一樣的url作為同一個站點的url。例如，url1為“http://www.xxx.com”，其對應錨文本1。url2為“http://www.xxx.com/1.htm”，其對應錨文本2。由于url1和url2中“http://……/”之間的內容相同，因而，url1和url2都是屬于“www.xxx.com”這個站點下面的url，其對應的錨文本1和錨文本2都是“www.xxx.com”這個站點的錨文本。同理，對“www.sunanchn.cn”站點的錨文本和url進行歸類，得到的結果如表2所示：表2步驟S203_1、分別對同一站點下的錨文本進行分詞，得到對應各站點的詞項。采用現(xiàn)有的分詞方法，例如可以采用正向最大匹配法進行大粒度分詞，同時采用正向最小匹配法進行小粒度分詞，得到詞項。以“南京尚安數碼”為例，分詞結果得到詞項，包括：“南京”、“尚”、“安”、“尚安”、“數碼”。采用現(xiàn)有過濾方法，過濾掉標點符號及停用詞，得到詞項“南京”、“尚”、“安”、“尚安”和“數碼”。對屬于站點“www.sunanchn.cn”下的各個錨文本進行分詞，得到該站點“www.sunanchn.cn”的詞項。步驟S204_1、分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權值。統(tǒng)計各個詞項在同一站點的錨文本中的出現(xiàn)次數(TF)，并與各個詞項的倒文檔率(IDF)計算各個詞項的權值Wt，即Wt＝TF*IDF。其中，詞項的倒文檔率為固定的值，可以通過現(xiàn)有的詞典獲得，表示詞項的表意能力，IDF值越大，表意能力越強。例如，統(tǒng)計詞項“尚安”在站點“www.sunanchn.cn”的錨文本中出現(xiàn)次數為1000，“尚安”的IDF值假設為0.02，則詞項“尚安”的權值是20。步驟S205_1、對步驟S204_1計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的錨文本得分。各個站點所獲得的錨文本數量各異，經過分詞得到的詞項數量或多或少。如果一個詞項在兩個不同站點的錨文本中出現(xiàn)次數相同，那么根據步驟S204_1計算得到的該詞項的權值也就相同，然而該詞項對于兩個不同站點而言，其重要程度可能是不相同的。為了使各個站點中詞項的權值可以體現(xiàn)詞項對于站點的重要程度，有必要對詞項的權值進行歸一化至[0，1]，采用統(tǒng)一的形式表示。在本步驟中，采用歸一化公式：Score_Anchor＝Wt/Wt_max(1)其中，Wt是計算得到的詞項的權值，Wt_max是針對同一站點中的各詞項計算出的Wt的最大值。值得一提的是，Wt_max也可以是一個固定的預估值，根據經驗能夠預估到各詞項的權值不會超過某個數值，可以將該數值作為Wt_max。經過歸一化處理，得到各個詞項在[0，1]內的錨文本得分Score_Anchor。分支S201_1至S205_1為利用標題文本建立站點模型的方法，可以包括以下步驟：步驟S201_2、從標題數據中提取標題文本及對應的url。例如，利用網絡爬蟲下載網頁內容后，提取的網頁標題文本及其對應的url如表3所示：表3步驟S202_2、對獲取到的url進行分類，將指向同一站點的url及對應的標題文本歸于同一站點下。本步驟與步驟S202_1相類似，在判斷url是否指向同一個站點時，可以但不限于以“/”作為分隔符，以模板“http://……/”進行判斷，即將網絡協(xié)議“http://”后至第一個“/”之前內容一樣的url作為同一個站點的url。對表3的內容進行分類，得到結果如表4：表4步驟S203_2、分別對同一站點下的標題文本進行分詞，得到對應各站點的詞項。與步驟S203_1類似，采用現(xiàn)有的分詞方法，例如可以采用正向最大匹配法進行大粒度分詞，同時采用正向最小匹配法進行小粒度分詞，得到詞項。以“尚安安防系統(tǒng)超市”為例，分詞結果得到詞項，包括：“尚安”、“尚”、“安”、“安防”、“系統(tǒng)”和“超市”。采用現(xiàn)有過濾方法，過濾掉標點符號及停用詞，得到詞項“尚安”、“尚”、“安”、“安防”、“系統(tǒng)”和“超市”。步驟S204_2、分別對各個站點基于詞頻-倒文檔率(TF-IDF)計算其中各個詞項的權值。與步驟S204_1相類似，統(tǒng)計各個詞項在指向同一站點的標題文本中的出現(xiàn)次數(TF)，并與各個詞項的倒文檔率(IDF)計算各個詞項的權值Wt，即Wt＝TF*IDF。步驟S205_2、對步驟S204_2計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的標題文本得分。與步驟S205_1相類似，采用歸一化公式：Score_Title＝Wt/Wt_max(2)其中，Wt是計算得到的詞項的權值，Wt_max是針對同一站點中的各詞項計算出的Wt的最大值。同樣地，Wt_max也可以是一個固定的預估值，根據經驗能夠預估到各詞項的權值不會超過某個數值，可以將該數值作為Wt_max。經過歸一化處理，得到各個詞項在[0，1]內的標題文本得分Score_Title。步驟S206-S207是利用錨文本得分和標題文本得分建立站點模型的方法，具體如下步驟S206、將同一站點的同一詞項的錨文本得分和標題文本得分進行線性加權，對各詞項的權值進行調整。采用的線性加權公式為：W＝Score_Anchor×a+Score_Title×(1-a)(3)其中，W是站點中詞項的權值，a是預設的加權因子，0＜a＜1。根據實際應用場景的不同，可設置不同的a，分配詞項的錨文本得分Score_Anchor和標題文本得分Score_Title的比例，對詞項的權值進行調整。可以理解的是，根據本發(fā)明方案，可以使用錨文本或標題文本的其中一種數據來建立站點模型，因而，當僅使用一種數據建立站點模型時，可以不必進行本步驟的線性加權操作。步驟S207、對各站點的各個詞項進行同義詞擴展，并計算擴展得到的同義詞的權值。在本發(fā)明的一種優(yōu)選實施方式中，還可以進一步利用同義詞詞表，對各個詞項進行同義詞擴展。例如，針對“尚安”可以通過同義詞詞表擴展得到“sunanchn”，“科技”可以擴展得到“科學技術”、“科學和技術”、“科學與技術”等等。利用站點中各個詞項的權值以及通過該些詞項擴展得到的同義詞所在的同義詞級別，來計算同義詞的權值Ws，其計算公式為：Ws＝W×Ratio(4)其中，W是站點中詞項的權值，Ratio是所述同義詞根據同義詞級別確定的系數，其值大小處于[0，1]之間。根據同義詞級別確定的系數Ratio可以采用詞項與擴展的同義詞之間的相關性來確定，從而計算得到同義詞的權值。例如，某站點的詞項包括詞A，擴展的同義詞包括詞B，則計算詞B的權值可以但不限于采用以下計算公式：WB＝WA×RAB(5)其中，WB為詞B的權值，WA為詞A的權值，RAB為詞A和詞B的相關性。例如，針對站點“www.sunanchn.cn”，經過步驟S206計算得到“科技”的權值為0.1531，“科技”和“科學技術”之間的相關性為0.8，則可以得到“科學技術”的權值為0.12248。計算詞A與詞B之間的相關性RAB的具體過程包括如下：分別針對詞A和詞B確定特征向量，該特征向量的確定過程為：先將單個詞(如，詞A)作為搜索詞到搜索引擎中進行搜索，得到搜索結果，選取前X個頁面的搜索結果，并對每個頁面的內容進行分詞并計算分詞的TF-IDF作為各個分詞的權值，再選取權重值排在前Y個的分詞作為詞A的特征向量。然后，計算詞A的特征向量和詞B的特征向量之間的相似度作為詞A和詞B的相關性，兩個特征向量之間的相似度可以采用余弦相似度或者內積而得到。經過本步驟對各站點的詞項進行擴展后，將擴展得到的同義詞也作為各個站點的詞項，使得站點模型中的詞項更加全面、準確。當然，本步驟并不是必須的操作。針對站點“www.sunanchn.com”經過上述步驟S201_1/S201_2至步驟S207處理后，建立的站點模型如表5所示(未全部示出)。表5詞項權值尚安0.1735sunanchn0.1588www.sunanchn.cn0.1588尚0.1533科技0.1531安0.1508數碼0.1432南京0.1372公司0.1315科學與技術0.1225科學技術0.1225科學和技術0.1225尚安科技0.0999科技處0.0721............在站點模型中除了站點中的詞項及其權值、擴展得到的同義詞及其權值外，還可以包括站點名稱以及詞項總數量等信息。例如，站點“www.sunanchn.com”包括50個詞項等等信息。值得一提的是，經過步驟S204_1或步驟S204_2計算得到各詞項的權值后即可得到站點模型，站點模型包括站點的詞項以及各詞項的權值。后續(xù)的步驟S205_1、步驟S205_2、步驟S206以及步驟S207是對各詞項的權值進行調整及優(yōu)化處理，使得建立的站點模型更加準確。繼續(xù)參見圖1，步驟S102、獲取用戶的搜索詞，通過檢索得到與所述搜索詞相匹配的各匹配網頁。其中，所述獲取用戶的搜索詞具體包括以下步驟：步驟S102a、對搜索詞進行分詞得到搜索詞的詞項。采用現(xiàn)有的分詞方法，對擴展后的搜索詞進行大粒度和小粒度分詞。例如，采用正向最大匹配法進行大粒度分詞，將搜索詞“南京尚安數碼”分詞為“南京尚安”和“數碼”。采用正向最小匹配法進行小粒度分詞，將搜索詞““南京尚安數碼””分詞為“南京”、“尚安”和“數碼”。步驟S102b、計算步驟S102a得到的各詞項的權值，構成搜索詞向量。詞項的權值計算方法可以但不限于采用基于詞項的倒文檔率(IDF)來計算搜索詞各個詞項的權值。IDF值是詞項的表意能力，用以體現(xiàn)詞項的重要性，IDF值越大，詞項的權值越大。對于擴展的詞項的權值可以利用擴展前的原有搜索詞的詞項的權值乘以擴展得到的搜索詞與原有搜索詞的相關度來計算，與上述計算公式(5)類似。在計算出各詞項的權值后，利用搜索詞的詞項及各詞項的權值構成搜索詞向量。舉個例子，對于搜索詞“南京尚安”，經過分詞等處理后，可以得到搜索詞向量[南京，0.5尚安，0.9]。在本發(fā)明的一種優(yōu)選實施方式中，在S102a之前，還可以用戶的搜索詞首先進行尋址需求識別。尋址query，主要指有搜索特定官網需求的，包括官網首頁、官網頻道、官網專題頁、官網登陸頁、web2.0個人首頁等。query尋址需求識別，目的就是能識別這類query。在本發(fā)明中，對于用戶的搜索可以首先進行尋址需求識別，然后針對具有尋址需求的搜索進一步執(zhí)行后續(xù)步驟。其中，尋址需求識別可以采用現(xiàn)有技術，主要是結合用戶點擊行為和query文本的自然語言處理方法。當然，本發(fā)明對于尋址需求識別的具體實現(xiàn)方式并不需要進行限定。另外，在通過檢索得到與所述搜索詞相匹配的各匹配網頁之后，還可以進一步利用主頁識別技術對網頁匹配結果進行過濾，保留具有主頁特征的結果。主頁，就是指官網首頁、官網頻道、官網專題頁、官網登陸頁、web2.0個人首頁等，而這些頁面具有唯一性和穩(wěn)定性。在本發(fā)明中，通過主頁識別技術對搜索結果進行過濾，可以更好地適應用戶的尋址需求。其中，主頁識別可以采用現(xiàn)有技術，例如是url形式識別、anchor文本分析識別等等。當然，本發(fā)明對于主頁識別的具體實現(xiàn)方式并不需要進行限定。步驟S103、利用所述搜索詞與步驟S101建立的站點模型，通過相關性計算，得到所述搜索詞與各匹配網頁所對應站點模型的匹配度。通過將搜索詞向量和各站點模型做相似度計算，可以但不限于采用內積或余弦定理來計算相似度，得到搜索詞與各站點的匹配度，該匹配度取值范圍是[0，1]。例如，計算搜索詞“南京尚安”與站點“www.sunanchn.com”的相關性，則將搜索詞向量[南京，0.5尚安，0.9]與“www.sunanchn.com”的站點模型(如表5所示)進行內積計算，得到該搜索詞“南京尚安”與站點“www.sunanchn.com”的匹配度＝0.5×0.1372+0.9×0.1735＝0.22475。步驟S104、根據所述搜索詞與各匹配網頁所對應站點模型的匹配度，對所述各匹配網頁進行排序，生成搜索結果。優(yōu)選地，可以將步驟S103計算得到的搜索詞與各匹配網頁對應的站點的匹配度加權到各站點基礎相關性值上，得到各站點的修正相關性值。其中，加權公式可以采用：V＝basic×e(6)其中，V是站點的修正相關性值，basic是站點基礎相關性值，e是經過步驟S103計算得到的搜索詞與站點的匹配度。例如，假設站點“www.sunanchn.com”基礎相關性值＝840，則經過加權后，得到的修正相關性值＝840×(0.22475)＝188.79。根據各匹配網頁對應的站點的修正相關性值對所述各匹配網頁進行排序，將滿足預設要求的匹配網頁生成搜索結果顯示給用戶。所述滿足預設要求可以包括：選取與搜索詞的修正相關性值最高的結果，按照一定的策略排到前N位，例如，將原先排名前10位之外的，提高到前10；將原先排名前3至10的，提高到前3；將原先排名前3的，提高至第1位。一般而言，官方網站會得到較高的修正相關性值，因此根據本發(fā)明的方案，可以讓官方網站的排名得到有效提高。此外，也可以將基礎相關性值與修正相關性值相加，根據相加的結果進行排序，這樣同樣能令修正相關性較高的網頁獲得比較大的排序提升。本發(fā)明提供的搜索結果的生成方法，從識別的網頁集合中，將站點模型與搜索詞匹配度較高的網頁排序結果進行提升，由于站點模型同時考慮到了站點內所包含的所有網頁的內容，使得官網、個人首頁等網站的相關性值能夠得到提升，從而可以讓官網、個人首頁等網站的排序提前，更好地滿足用戶的尋址需求。例如用戶在搜索引擎中輸入“北京青年假日酒店”，在原先的搜索結果排序中，官網的排名很靠后，首頁的首頁錨文本中很少命中“北京青年假日酒店”。而根據本發(fā)明方案建立站點模型后，能夠從官方站點的內頁錨文本數據和和標題文本數據中挖掘文本信息，將“假日”、“青年”、“酒店”等詞條的匹配情況也得到加權，從而改善該官方站點的搜索結果排名。以上是對本發(fā)明所提供的方法進行的詳細描述，下面對本發(fā)明提供的搜索結果的生成裝置進行詳細描述。實施例二、圖3是本實施例提供的搜索結果的生成裝置結構圖，如圖3所示，該裝置包括：站點模型建立模塊10，用于預先利用網頁的錨文本或標題文本，得到各站點的詞項及各詞項的權值，建立各站點的站點模型。所述站點模型至少包括站點的詞項以及各詞項的權值。一個站點通常包括多個網頁，一個網頁內包括多個錨文本。所述錨文本用以指引注釋其對應的url。從抓取到的網絡資源中，獲取各網頁內的錨文本及其對應的url，作為錨文本數據。利用網絡爬蟲下載網頁內容后，可以從中提取網頁標題文本及其對應的標題文本作為網頁的標題文本數據。站點模型建立模塊10利用這些錨文本數據或網頁的標題文本數據建立各站點模型，具體包括：文本獲取單元101，用于從網頁的錨文本數據中提取錨文本及對應的url，或從網頁的標題文本數據中提取標題文本及對應的url。文本獲取單元101利用搜索引擎抓取整個網絡資源上的錨文本數據，包括各個站點內的錨文本及其對應的url?；蛘?，從網絡爬蟲下載的網頁內容中，提取的網頁標題文本及其對應的url。分類單元102，用于對獲取到的url進行分類，將指向同一站點的url及對應的錨文本或標題文本歸于同一站點下。分類單元102在判斷url是否指向同一個站點時，可以但不限于以“/”作為分隔符，以模板“http://……/”進行判斷，即將網絡協(xié)議“http://”后至第一個“/”之前內容一樣的url作為同一個站點的url。分詞單元103，用于分別對同一站點下的錨文本或標題文本進行分詞，得到對應各站點的詞項。采用現(xiàn)有的分詞方法，例如可以采用正向最大匹配法進行大粒度分詞，同時采用正向最小匹配法進行小粒度分詞，得到詞項。賦值單元104，用于分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權值，得到各站點的站點模型。統(tǒng)計各個詞項在同一站點的錨文本或標題文本中的出現(xiàn)次數(TF)，并與各個詞項的倒文檔率(IDF)計算各個詞項的權值Wt，即Wt＝TF*IDF。其中，詞項的倒文檔率為固定的值，可以通過現(xiàn)有的詞典獲得，表示詞項的表意能力，IDF值越大，表意能力越強。歸一化單元105，用于對賦值單元104計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的錨文本得分或標題文本得分。各個站點所獲得的錨文本或標題文本數量各異，經過分詞得到的詞項數量或多或少。如果一個詞項在兩個不同站點的錨文本或標題文本中出現(xiàn)次數相同，那么利用賦值單元104計算得到的該詞項的權值也就相同，然而該詞項對于兩個不同站點而言，其重要程度可能是不相同的。為了使各個站點中詞項的權值可以體現(xiàn)詞項對于站點的重要程度，有必要對詞項的權值進行歸一化至[0，1]，采用統(tǒng)一的形式表示。歸一化單元105采用公式(1)得到各個詞項的錨文本得分Score_Anchor和標題文本得分Score_Title。為了更清楚闡述站點模型建立模塊10，下面結合圖4作進一步詳細說明。圖4為本實施例提供的站點模型建立模塊10的結構圖，如圖4所示，站點模型建立模塊10包括：錨文本獲取單元1011，用于從網頁的錨文本數據中提取網頁內的錨文本及對應的url。錨文本獲取單元1011利用搜索引擎抓取整個網絡資源上的錨文本數據，包括各個站點內的錨文本及其對應的url。從該些錨文本數據中提取錨文本及對應的url。例如，以獲取網頁“www.sunanchn.com”站點首頁為例，得到的錨文本如表1所示。第一分類單元1021，用于對錨文本獲取單元1011獲取到的url進行分類，將指向同一站點的url及對應的錨文本歸于同一站點下。第一分類單元1021在判斷url是否指向同一個站點時，可以但不限于以“/”作為分隔符，以模板“http://……/”進行判斷，即將網絡協(xié)議“http://”后至第一個“/”之前內容一樣的url作為同一個站點的url。例如，對表1中“www.sunanchn.com”站點的錨文本和url進行歸類，得到的結果如表2所示。第一分詞單元1031，用于分別對同一站點下的錨文本進行分詞，得到對應各站點的詞項。例如，對屬于站點“www.sunanchn.com”下的各個錨文本進行分詞，得到該站點“www.sunanchn.com”的詞項。第一賦值單元1041，用于分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權值。統(tǒng)計各個詞項在同一站點的錨文本中的出現(xiàn)次數(TF)，并與各個詞項的倒文檔率(IDF)計算各個詞項的權值Wt，即Wt＝TF*IDF。第一歸一化單元1051，用于對第一賦值單元1041計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的錨文本得分Score_Anchor。采用歸一化公式：Score_Anchor＝Wt/Wt_max其中，Wt是計算得到的詞項的權值，Wt_max是針對同一站點中的各詞項計算出的Wt的最大值。值得一提的是，Wt_max也可以是一個固定的預估值，根據經驗能夠預估到各詞項的權值不會超過某個數值，可以將該數值作為Wt_max。經過歸一化處理，得到各個詞項在[0，1]內的錨文本得分Score_Anchor。標題文本獲取單元1012，用于從網頁的標題文本數據中提取標題文本及對應的url。標題文本獲取單元1012從網絡爬蟲下載的網頁內容中，提取的網頁標題文本及其對應的url。所提取的網頁標題文本及其對應的url如表3所示。第二分類單元1022，用于對標題文本獲取單元1012獲取到的url進行分類，將指向同一站點的url及對應的標題文本歸于同一站點下。第二分類單元1022在判斷url是否指向同一個站點時，可以但不限于以“/”作為分隔符，以模板“http://……/”進行判斷，即將網絡協(xié)議“http://”后至第一個“/”之前內容一樣的url作為同一個站點的url。例如，對表3的內容進行分類，得到結果如表4。第二分詞單元1032，用于分別對同一站點下的標題文本進行分詞，得到對應各站點的詞項。第二賦值單元1042，用于分別對各個站點基于詞頻-倒文檔率(TF-IDF)計算其中各個詞項的權值。第二歸一化單元1052，用于對第二賦值單元1042計算得到的各個詞項的權值進行歸一化處理，得到各個詞項的標題文本得分Score_Title。采用歸一化公式：Score_Title＝Wt/Wt_max其中，Wt是計算得到的詞項的權值，Wt_max是針對同一站點中的各詞項計算出的Wt的最大值。同樣地，Wt_max也可以是一個固定的預估值，根據經驗能夠預估到各詞項的權值不會超過某個數值，可以將該數值作為Wt_max。經過歸一化處理，得到各個詞項在[0，1]內的標題文本得分Score_Title。合并單元106，用于將第一歸一化單元1051和第二歸一化單元1052得到的同一站點的同一詞項的所述錨文本得分和所述標題文本得分進行線性加權，對各詞項的權值進行調整。采用的線性加權公式為公式(3)，根據實際應用場景的不同，可設置不同的a，分配詞項的錨文本得分Score_Anchor和標題文本得分Score_Title的比例，加權得到詞項的權值W。同義詞擴展單元107，用于對所述站點模型中的各個詞項進行同義詞擴展，并計算擴展得到的同義詞的權值。同義詞擴展單元107利用同義詞詞表，對各個詞項進行同義詞擴展。利用站點中各個詞項的權值以及通過該些詞項擴展得到的同義詞所在的同義詞級別，來計算同義詞的權值Ws，其計算公式為：Ws＝W×Ratio其中，W是站點中詞項的權值，Ratio是所述同義詞根據同義詞級別確定的系數，其值大小處于[0，1]之間。根據同義詞級別確定的系數Ratio可以采用詞項與擴展的同義詞之間的相關性來確定，從而計算得到同義詞的權值。例如，某站點的詞項包括詞A，擴展的同義詞包括詞B，則計算詞B的權值可以但不限于采用以下計算公式：WB＝WA×RAB其中，WB為詞B的權值，WA為詞A的權值，RAB為詞A和詞B的相關性。計算詞A與詞B之間的相關性RAB的具體過程包括如下：分別針對詞A和詞B確定特征向量，該特征向量的確定過程為：先將單個詞(如，詞A)作為搜索詞到搜索引擎中進行搜索，得到搜索結果，選取前X個頁面的搜索結果，并對每個頁面的內容進行分詞并計算分詞的TF-IDF作為各個分詞的權值，再選取權重值排在前Y個的分詞作為詞A的特征向量。然后，計算詞A的特征向量和詞B的特征向量之間的相似度作為詞A和詞B的相關性，兩個特征向量之間的相似度可以采用余弦相似度或者內積而得到。利用站點模型建立模塊20建立站點“www.sunanchn.com”的站點模型如表5所示。繼續(xù)參見圖3，搜索詞獲取模塊20，用于獲取用戶的搜索詞，通過檢索得到與所述搜索詞相匹配的各匹配網頁。搜索詞獲取模塊20具體包括：搜索分詞單元201，用于對搜索詞進行分詞得到搜索詞的詞項。采用現(xiàn)有的分詞方法，對擴展后的搜索詞進行大粒度和小粒度分詞。搜索詞賦值單元202，用于計算搜索詞分詞單元201得到的各詞項的權值，構成搜索詞向量，供給所述匹配度計算模塊進行所述相關性計算。詞項的權值計算方法可以但不限于采用基于詞項的倒文檔率(IDF)來計算搜索詞各個詞項的權值。IDF值是詞項的表意能力，用以體現(xiàn)詞項的重要性，IDF值越大，詞項的權值越大。對于擴展的詞項的權值，利用擴展前的原有搜索詞的詞項的權值乘以擴展得到的搜索詞與原有搜索詞的相關度來計算，與上述計算公式(5)類似。搜索詞賦值單元202在計算出各詞項的權值后，利用搜索詞的詞項及各詞項的權值構成搜索詞向量。進一步地，所述搜索詞獲取模塊還可以包括：尋址需求識別單元200，用于在通過檢索得到與所述搜索詞相匹配的各匹配網頁之前，對用戶的搜索詞進行尋址需求識別，保留具有尋址需求的結果；主頁識別單元203，用于在通過檢索得到與所述搜索詞相匹配的各匹配網頁之后，對匹配網頁進行主頁識別，保留具有主頁特征的結果。匹配度計算模塊30，用于計算所述搜索詞與站點模型建立模塊10建立的站點模型，通過相關性計算，得到所述搜索詞與各匹配網頁所對應站點模型的匹配度。通過將搜索詞向量和各站點模型做相似度計算，可以但不限于采用內積或余弦定理來計算相似度，得到搜索詞與各站點的匹配度，該匹配度取值范圍是[0，1]。搜索結果生成模塊40，用于根據所述搜索詞與各匹配網頁所對應站點模型的匹配度，對所述各匹配網頁進行排序，生成搜索結果。搜索結果生成模塊40包括相關性值確定單元401和搜索結果排序單元402。所述相關性值確定單元401，用于根據所述匹配度與各匹配網頁對應站點的基礎相關性值，計算得到各匹配網頁對應站點的修正相關性值；所述搜索結果排序單元402，用于根據各匹配網頁對應的站點的修正相關性值對所述各匹配網頁進行排序，將滿足預設要求的匹配網頁生成搜索結果顯示給用戶。所述滿足預設要求可以包括：對于修正相關性值最高的網站，若該網站原排名在第N位之外，則將該網站的排名提升至第N位之內，其中N為預設正整數。本發(fā)明提供的搜索結果的生成方法和裝置，利用錨文本和用戶標題文本建立站點模型，由于站點模型同時考慮到了站點內所包含的所有網頁的內容，從而能夠使得官網、個人首頁等網站的相關性值能夠得到提升，提升這些網站的排名，方便搜索用戶迅速找到感興趣的搜索結果，更符合用戶需求，同時提高了用戶和系統(tǒng)的效率，減少交互次數，減輕服務器的壓力。以上所述僅為本發(fā)明的較佳實施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內，所做的任何修改、等同替換、改進等，均應包含在本發(fā)明保護的范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2 3