專利名稱:一種相關(guān)度計算方法和裝置的制作方法
一種相關(guān)度計算方法和裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機技術(shù)領(lǐng)域,特別涉及一種相關(guān)度計算方法和裝置。
背景技術(shù):
隨著計算機技術(shù)的迅速發(fā)展,搜索引擎逐漸成為人們獲取信息的重要工具,用戶向搜索引擎輸入搜索請求(query)后,搜索引擎就能夠?qū)⑴cquery匹配的頁面包含搜索結(jié)果返回給用戶。其中,搜索引擎在對搜索結(jié)果中的頁面進行排序時,是依據(jù)搜索結(jié)果中各頁面與query之間的相關(guān)度進行的,將相關(guān)度越高的排在越前面。在現(xiàn)有技術(shù)中頁面與query之間相關(guān)度的計算僅僅基于文本,即僅僅計算頁面在文本上與query的相關(guān)度,但基于這種相關(guān)度計算方式提供的搜索結(jié)果并不能很好地滿足 用戶需求,搜索效果較差。例如,當用戶輸入的query為“蝸居第三集”,搜索引擎向用戶返回的頁面與query之間相關(guān)度的計算是基于詞頻和位置信息等文本內(nèi)容的,如果在頁面中詞語“蝸居”以及“第三集”的詞頻越高,則該頁面與query的相關(guān)度越高。然而,當用戶輸入的query為“蝸居第三集”時,更可能要獲取視頻類的頁面,但詞語“蝸居”和“第三集”在視頻類頁面中出現(xiàn)的詞頻可能很低,因此視頻類頁面往往不能排在搜索結(jié)果中靠前的位置。
發(fā)明內(nèi)容本發(fā)明提供了一種相關(guān)度計算方法和裝置,以便于充分考量用戶的需求,提高搜索效果。具體技術(shù)方案如下一種相關(guān)度計算方法,該方法包括A、對用戶輸入的搜索請求query進行分詞處理;B、利用分詞處理后得到的各詞語所對應(yīng)的需求類型概率,對所述query進行需求類型的識別;C、分別計算所述query在識別出的各需求類型上與頁面之間的相關(guān)度;D、整合所述query在識別出的各需求類型上與頁面之間的相關(guān)度,得到所述query與所述頁面之間的相關(guān)度。在所述步驟B中,查找預先建立的詞語需求概率模型,來確定所述分詞處理后得到的各詞語對應(yīng)的需求類型概率;其中,所述詞語需求概率模型中包含詞語、詞語對應(yīng)的需求類型、詞語對應(yīng)的需求類型概率。具體地,所述詞語需求概率模型的建立包括SI、根據(jù)搜索日志中各query對應(yīng)的搜索結(jié)果,確定所述各query對應(yīng)的需求類型;S2、對所述各query進行分詞處理,將分詞處理后得到的各詞語映射到所屬query對應(yīng)的需求類型;S3、根據(jù)各詞語映射到各需求類型上的次數(shù),統(tǒng)計各詞語對應(yīng)的需求類型概率。其中,所述步驟SI具體包括根據(jù)搜索日志中各query對應(yīng)的搜索結(jié)果,人工標注所述各query對應(yīng)的需求類型;或者,根據(jù)搜索日志中記錄的用戶對各query對應(yīng)的搜索結(jié)果的行為,從用戶所點擊或瀏覽搜索結(jié)果的頁面類型中確定各query對應(yīng)的需求類型。另外,所述步驟B具體包括針對所述分詞處理后得到的各詞語所對應(yīng)的各需求類型,分別采用公式
權(quán)利要求
1.一種相關(guān)度計算方法,其特征在于,該方法包括 A、對用戶輸入的搜索請求query進行分詞處理; B、利用分詞處理后得到的各詞語所對應(yīng)的需求類型概率,對所述query進行需求類型的識別; C、分別計算所述query在識別出的各需求類型上與頁面之間的相關(guān)度; D、整合所述query在識別出的各需求類型上與頁面之間的相關(guān)度,得到所述query與所述頁面之間的相關(guān)度。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,在所述步驟B中,查找預先建立的詞語需求概率模型,來確定所述分詞處理后得到的各詞語對應(yīng)的需求類型概率; 其中,所述詞語需求概率模型中包含詞語、詞語對應(yīng)的需求類型、詞語對應(yīng)的需求類型概率。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述詞語需求概率模型的建立包括 51、根據(jù)搜索日志中各query對應(yīng)的搜索結(jié)果,確定所述各query對應(yīng)的需求類型; 52、對所述各query進行分詞處理,將分詞處理后得到的各詞語映射到所屬query對應(yīng)的需求類型; 53、根據(jù)各詞語映射到各需求類型上的次數(shù),統(tǒng)計各詞語對應(yīng)的需求類型概率。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述步驟SI具體包括 根據(jù)搜索日志中各query對應(yīng)的搜索結(jié)果,人工標注所述各query對應(yīng)的需求類型;或者, 根據(jù)搜索日志中記錄的用戶對各query對應(yīng)的搜索結(jié)果的行為,從用戶所點擊或瀏覽搜索結(jié)果的頁面類型中確定各query對應(yīng)的需求類型。
5.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B具體包括 針對所述分詞處理后得到的各詞語所對應(yīng)的各需求類型,分別采用公式
6.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟B具體包括 將處于所述query中的預設(shè)位置的詞語所對應(yīng)的需求類型概率中排在前N個的需求類型確定為所述query具有的需求類型,其中N為預設(shè)的正整數(shù)。
7.根據(jù)權(quán)利要求I所述的方法,其特征在于,在所述步驟C中,采用公式
8.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述步驟D具體包括采用公式
9.根據(jù)權(quán)利要求7所述的方法,其特征在于,當所述Ti為文本類需求時,所述p(tj,Ti I d)為所述&在所述頁面d的詞頻-倒文檔率的值; 當所述Ti為非文本類需求時,所述p (\_,Tjd)采用以下參數(shù)構(gòu)成的擬合函數(shù)來計算所述&與所述頁面d的主題的相關(guān)度、所述頁面d的資源類型與Ti 一致的概率。
10.一種相關(guān)度計算裝置,其特征在于,該裝置包括分詞處理單元、需求識別單元、相關(guān)度計算單元和相關(guān)度整合單元; 所述分詞處理單元,用于對用戶輸入的搜索請求query進行分詞處理; 所述需求識別單元,用于利用所述分詞處理單元分詞處理后得到的各詞語所對應(yīng)的需求類型概率,對所述query進行需求類型的識別; 所述相關(guān)度計算單元,用于分別計算所述query在所述需求識別單元識別出的各需求類型上與頁面之間的相關(guān)度; 所述整合處理單元,用于整合所述query在識別出的各需求類型上與頁面之間的相關(guān)度,得到所述query與所述頁面之間的相關(guān)度。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,該裝置還包括詞語需求確定單元,用于查找預先建立的詞語需求概率模型,來確定所述分詞處理后得到的各詞語對應(yīng)的需求類型概率; 其中,所述詞語需求概率模型中包含詞語、詞語對應(yīng)的需求類型、詞語對應(yīng)的需求類型概率。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,該裝置還包括模型建立單元; 所述模型建立單元具體包括query需求確定子單元、分詞處理子單元、需求映射子單元和概率統(tǒng)計子單元; 所述query需求確定子單元,用于根據(jù)搜索日志中各query對應(yīng)的搜索結(jié)果,確定所述各query對應(yīng)的需求類型; 所述分詞處理子單元,用于對所述各query進行分詞處理; 所述需求映射子單元,用于將所述分詞處理子單元進行分詞處理后得到的各詞語映射到所屬query對應(yīng)的需求類型; 所述概率統(tǒng)計子單元,用于根據(jù)各詞語映射到各需求類型上的次數(shù),統(tǒng)計各詞語對應(yīng)的需求類型概率。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述query需求確定子單元,根據(jù)人工標注確定各query對應(yīng)的需求類型,或者,根據(jù)搜索日志中記錄的用戶對各query對應(yīng)的搜索結(jié)果的行為,從用戶所點擊或瀏覽搜索結(jié)果的頁面類型中確定各query對應(yīng)的需求類型。
14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述需求識別單元具體包括概率計算子單元和需求識別子單元;所述概率計算子單元,用于針對所述分詞處理單元分詞處理后得到的各詞語所對應(yīng)的各需求類型,分別采用公式
15.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述需求識別單元具體將所述query中的預設(shè)位置的詞語所對應(yīng)的需求類型概率中排在前N個的需求類型確定為所述query具有的需求類型,其中N為預設(shè)的正整數(shù)。
16.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述相關(guān)度計算單元具體采用公式
17.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述相關(guān)度整合單元具體采用公式
18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,當所述Ti為文本類需求時,所述p(tj,Ti I d)為所述&在所述頁面d的詞頻-倒文檔率的值; 當所述Ti為非文本類需求時,所述p (\_,Tjd)采用以下參數(shù)構(gòu)成的擬合函數(shù)來計算所述&與所述頁面d的主題的相關(guān)度、所述頁面d的資源類型與Ti 一致的概率。
全文摘要
本發(fā)明提供了一種相關(guān)度計算方法和裝置,其中方法包括對用戶輸入的搜索請求(query)進行分詞處理;利用分詞處理后得到的各詞語所對應(yīng)的需求類型概率,對所述query進行需求類型的識別;分別計算所述query在識別出的各需求類型上與頁面之間的相關(guān)度;整合所述query在識別出的各需求類型上與頁面之間的相關(guān)度,得到所述query與所述頁面之間的相關(guān)度。通過本發(fā)明計算的相關(guān)度充分考量了query的需求類型,能夠在至少一個需求維度上計算query與頁面之間的相關(guān)度,使得計算出的相關(guān)度更加準確,應(yīng)用于搜索過程能夠提供更好的搜索效果。
文檔編號G06F17/30GK102737045SQ20111008859
公開日2012年10月17日 申請日期2011年4月8日 優(yōu)先權(quán)日2011年4月8日
發(fā)明者占惠融, 李雙龍 申請人:北京百度網(wǎng)訊科技有限公司