亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種搜索結(jié)果的生成方法和裝置與流程

文檔序號:12008325閱讀:來源:國知局
一種搜索結(jié)果的生成方法和裝置與流程

技術(shù)特征:
1.一種搜索結(jié)果生成方法,其特征在于,包括:S1、預(yù)先利用網(wǎng)頁的錨文本或標(biāo)題文本,得到各站點的詞項及各詞項的權(quán)值,建立各站點的站點模型;S2、獲取用戶的搜索詞,通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁;S3、利用所述搜索詞與所建立的站點模型,通過相關(guān)性計算,得到所述搜索詞與各匹配網(wǎng)頁所對應(yīng)站點模型的匹配度;S4、根據(jù)所述搜索詞與各匹配網(wǎng)頁所對應(yīng)站點模型的匹配度,對所述各匹配網(wǎng)頁進行排序,生成搜索結(jié)果;其中,所述步驟S1具體包括以下步驟:步驟S1_1、從網(wǎng)頁的錨文本數(shù)據(jù)中提取錨文本及對應(yīng)的url,或從網(wǎng)頁的標(biāo)題文本數(shù)據(jù)中提取標(biāo)題文本及對應(yīng)的url;步驟S1_2、對獲取到的url進行分類,將指向同一站點的url及對應(yīng)的錨文本或標(biāo)題文本歸于同一站點下;步驟S1_3、分別對同一站點下的錨文本或標(biāo)題文本進行分詞,得到對應(yīng)各站點的詞項;步驟S1_4、分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權(quán)值,得到各站點的站點模型。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:對所述步驟S1_4計算得到的各個詞項的權(quán)值進行歸一化處理,得到各個詞項的錨文本得分或標(biāo)題文本得分。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在進行所述歸一化處理之后,還包括:將同一站點的同一詞項的所述錨文本得分和所述標(biāo)題文本得分進行線性加權(quán),對各詞項的權(quán)值進行調(diào)整。4.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括對所述站點模型中的各個詞項進行同義詞擴展,并計算擴展得到的同義詞的權(quán)值。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述同義詞的權(quán)值Ws=W×Ratio,其中,W是站點中詞項的權(quán)值,Ratio是所述同義詞根據(jù)同義詞級別確定的系數(shù)。6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中在獲取用戶的搜索詞之后,還包括:對獲取的搜索詞進行分詞得到搜索詞的詞項,計算各個詞項的權(quán)值,得到搜索詞向量;所述步驟S3中利用所述搜索詞向量與步驟S1建立的站點模型進行所述相關(guān)性計算。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述步驟S2中基于詞項的倒文檔率計算各個詞項的權(quán)值。8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中,在通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁之前,還包括:對用戶的搜索詞進行尋址需求識別,保留具有尋址需求的結(jié)果;在通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁之后,還包括:對匹配網(wǎng)頁進行主頁識別,保留具有主頁特征的結(jié)果。9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4具體包括:根據(jù)所述匹配度與各匹配網(wǎng)頁對應(yīng)站點的基礎(chǔ)相關(guān)性值,計算得到各匹配網(wǎng)頁對應(yīng)站點的修正相關(guān)性值;根據(jù)各匹配網(wǎng)頁對應(yīng)的站點的修正相關(guān)性值對所述各匹配網(wǎng)頁進行排序,將滿足預(yù)設(shè)要求的匹配網(wǎng)頁生成搜索結(jié)果顯示給用戶。10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述滿足預(yù)設(shè)要求包括:對于修正相關(guān)性值最高的網(wǎng)站,若該網(wǎng)站原排名在第N位之外,則將該網(wǎng)站的排名提升至第N位之內(nèi),其中N為預(yù)設(shè)正整數(shù)。11.一種搜索結(jié)果的生成裝置,其特征在于,包括:站點模型建立模塊,用于預(yù)先利用網(wǎng)頁的錨文本或標(biāo)題文本,得到各站點的詞項及各詞項的權(quán)值,建立各站點的站點模型;搜索詞獲取模塊,用于獲取用戶的搜索詞,通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁;匹配度計算模塊,用于計算所述搜索詞與所述站點模型建立模塊建立的站點模型,通過相關(guān)性計算,得到所述搜索詞與各匹配網(wǎng)頁所對應(yīng)站點模型的匹配度;搜索結(jié)果生成模塊,用于根據(jù)所述搜索詞與各匹配網(wǎng)頁所對應(yīng)站點模型的匹配度,對所述各匹配網(wǎng)頁進行排序,生成搜索結(jié)果;其中,所述站點模型建立模塊具體包括:文本獲取單元,用于從網(wǎng)頁的錨文本數(shù)據(jù)中提取錨文本及對應(yīng)的url,或從網(wǎng)頁的標(biāo)題文本數(shù)據(jù)中提取標(biāo)題文本及對應(yīng)的url;分類單元,用于對獲取到的url進行分類,將指向同一站點的url及對應(yīng)的錨文本或標(biāo)題文本歸于同一站點下;分詞單元,用于分別對同一站點下的錨文本或標(biāo)題文本進行分詞,得到對應(yīng)各站點的詞項;賦值單元,用于分別對各個站點基于詞頻-倒文檔率計算其中各個詞項的權(quán)值,得到各站點的站點模型。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述站點模型建立模塊還包括歸一化單元,用于對所述賦值單元計算得到的各個詞項的權(quán)值進行歸一化處理,得到各個詞項的錨文本得分或標(biāo)題文本得分。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述站點模型建立模塊還包括合并單元,用于將所述歸一化單元得到的同一站點的同一詞項的所述錨文本得分和所述標(biāo)題文本得分進行線性加權(quán),對各詞項的權(quán)值進行調(diào)整。14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述站點模型建立模塊還包括同義詞擴展單元,用于對所述站點模型中的各個詞項進行同義詞擴展,并計算擴展得到的同義詞的權(quán)值。15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述同義詞的權(quán)值Ws=W×Ratio,其中,W是站點中詞項的權(quán)值,Ratio是所述同義詞根據(jù)同義詞級別確定的系數(shù)。16.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述搜索詞獲取模塊包括搜索詞分詞單元和搜索詞賦值單元,所述搜索詞分詞單元,用于對獲取的搜索詞進行分詞得到搜索詞的詞項;所述搜索詞賦值單元,用于計算所述搜索詞分詞單元得到的各個詞項的權(quán)值,得到搜索詞向量,供給所述匹配度計算模塊進行所述相關(guān)性計算。17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述搜索詞獲取模塊基于詞項的倒文檔率計算各個詞項的權(quán)值。18.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述搜索詞獲取模塊還包括:尋址需求識別單元,用于在通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁之前,對用戶的搜索詞進行尋址需求識別,保留具有尋址需求的結(jié)果;主頁識別單元,用于在通過檢索得到與所述搜索詞相匹配的各匹配網(wǎng)頁之后,對匹配網(wǎng)頁進行主頁識別,保留具有主頁特征的結(jié)果。19.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述搜索結(jié)果生成模塊包括相關(guān)性值確定單元和搜索結(jié)果排序單元,所述相關(guān)性值確定單元,用于根據(jù)所述匹配度與各匹配網(wǎng)頁對應(yīng)站點的基礎(chǔ)相關(guān)性值,計算得到各匹配網(wǎng)頁對應(yīng)站點的修正相關(guān)性值;所述搜索結(jié)果排序單元,用于根據(jù)各匹配網(wǎng)頁對應(yīng)的站點的修正相關(guān)性值對所述各匹配網(wǎng)頁進行排序,將滿足預(yù)設(shè)要求的匹配網(wǎng)頁生成搜索結(jié)果顯示給用戶。20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述滿足預(yù)設(shè)要求包括:對于修正相關(guān)性值最高的網(wǎng)站,若該網(wǎng)站原排名在第N位之外,則將該網(wǎng)站的排名提升至第N位之內(nèi),其中N為預(yù)設(shè)正整數(shù)。
當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1