一種搜索詞的提取方法及裝置制造方法
【專利摘要】本發(fā)明涉及一種搜索詞提取方法,其包括:提供待提取搜索詞的文檔Doci;從文檔Doci中提取搜索詞;計(jì)算搜索詞的主題相關(guān)性;以及根據(jù)搜索詞的主題相關(guān)性對(duì)搜索詞進(jìn)行過濾。上述搜索詞提取方法可以解決現(xiàn)有技術(shù)中搜索詞主題漂移、詞義太過寬泛的問題。此外,本發(fā)明還提供一種搜索詞提取裝置。
【專利說明】一種搜索詞的提取方法及裝置
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明涉及網(wǎng)絡(luò)搜索技術(shù),尤其涉及一種搜索詞的提取方法及裝置。
【背景技術(shù)】
[0002]用戶在瀏覽新聞、微博、博客時(shí),在聊天時(shí),在網(wǎng)上購(gòu)物時(shí),都時(shí)刻有搜索的需求。所謂情境搜索,就是理解用戶意圖,挖掘用戶需求,讓搜索更加智能化、生活化。以用戶在瀏覽網(wǎng)頁(yè)為例進(jìn)行說明,如果能直接在網(wǎng)頁(yè)中提供最符合用戶需求的搜索鏈接,用戶可以直接點(diǎn)擊鏈接繼續(xù)瀏覽而無(wú)須手動(dòng)輸入搜索詞進(jìn)行搜索,這無(wú)疑會(huì)極大的提升用戶的瀏覽體驗(yàn)。
[0003]現(xiàn)有技術(shù)中也進(jìn)行了相關(guān)的探索與實(shí)踐,大體上來(lái)說,現(xiàn)有的搜索詞提供方式具有以下三種:
[0004]一、在生成數(shù)據(jù)時(shí),由數(shù)據(jù)生成者手工設(shè)定搜索詞。例如:在blog中,用戶寫完blog后。自己添加一些標(biāo)簽詞,作為搜索詞。在新聞發(fā)布時(shí),由編輯手動(dòng)添加關(guān)鍵詞,作為搜索詞。然而,此種方法中,數(shù)據(jù)生成者配置的關(guān)鍵詞有限,而且很多用戶不配置任何關(guān)鍵詞。另外,數(shù)據(jù)生成者配置的關(guān)鍵詞,并不一定是其他用戶感興趣的搜索詞。
[0005]二、通過一個(gè)固定的詞表,從文章中匹配詞表詞匯,作為搜索詞。例如:參閱圖1,(某門戶新聞網(wǎng)站的“相關(guān)推薦”,就是通過匹配用戶的歷史查詢記錄詞表,作為搜索詞。然而在此種方法中,由于設(shè)定的詞表往往有限,并且單純的基于用戶查詢記錄詞表的方法,往往通過文章中個(gè)別詞匯,直接去記錄中進(jìn)行匹配實(shí)現(xiàn)。這樣,很容易產(chǎn)生主題漂移,即推薦詞匯跟文章主題無(wú)關(guān)。以圖1中為例,簡(jiǎn)歷就完全與文章主題無(wú)關(guān)。
[0006]三、基于詞頻統(tǒng)計(jì)的方法,通過對(duì)文章分詞,提取其中關(guān)鍵詞,作為搜索詞。例如:參閱圖2,某科技欄目網(wǎng)站文章開頭的關(guān)鍵詞就是根據(jù)文章正文采用詞頻統(tǒng)計(jì)的方法得來(lái)。然而,此方法過于簡(jiǎn)單,很容易提取到一些泛詞,出現(xiàn)頻次過高,但是又沒有價(jià)值的詞。并且,提取到的詞匯,往往語(yǔ)義很寬泛,搜索結(jié)果不可控,不適合做搜索詞。以圖2中所示為例,PC、硬盤的含義都太過于廣泛,無(wú)法反應(yīng)文章主題。
[0007]此外,以上三種方法中,同樣的頁(yè)面,對(duì)所有用戶都推薦相同的搜索詞,沒有考慮用戶的差異化和個(gè)體興趣。
【發(fā)明內(nèi)容】
[0008]有鑒于此,有必要提供一種搜索詞的提取方法及裝置,來(lái)解決現(xiàn)有技術(shù)中搜索詞主題漂移、詞義太過寬泛的問題。
[0009]進(jìn)一步地,還有必要提供一種搜索詞的提取方法及裝置,其可以針對(duì)不同用戶、用戶群進(jìn)行個(gè)性化定制,例搜索詞最大程度匹配用戶、用戶群的個(gè)人興趣。
[0010]以上所述的搜索詞的提取方法是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0011]一種搜索詞提取方法,包括:步驟一、提供待提取搜索詞的文檔Doci ;步驟二、從文檔Doci中提取搜索詞(WdDWd2PuJcU ;步驟三、計(jì)算搜索詞的主題相關(guān)性;以及步驟四、根據(jù)搜索詞的主題相關(guān)性對(duì)搜索詞進(jìn)行過濾。
[0012]作為上述搜索詞提取方法的進(jìn)一步改進(jìn),步驟三包括:計(jì)算搜索詞的基本主題相關(guān)性;計(jì)算搜索詞的領(lǐng)域相關(guān)性;以及計(jì)算搜索詞的語(yǔ)義相關(guān)性;主題相關(guān)性由所述基本主題相關(guān)性、領(lǐng)域相關(guān)性及語(yǔ)義相關(guān)性加權(quán)平均計(jì)算得到。
[0013]作為上述搜索詞提取方法的進(jìn)一步改進(jìn),基本主題相關(guān)性是根據(jù)詞頻一反轉(zhuǎn)文件步頁(yè)率(Term Frequency-1nverse Document Frequency, TF-1DF)計(jì)算。
[0014]作為上述搜索詞提取方法的進(jìn)一步改進(jìn),領(lǐng)域相關(guān)性是根據(jù)所述搜索詞屬于某一領(lǐng)域的概率以及所述文檔屬于所述領(lǐng)域的概率共同計(jì)算。
[0015]作為上述搜索詞提取方法的進(jìn)一步改進(jìn),計(jì)算該領(lǐng)域相關(guān)性時(shí)根據(jù)以下公式計(jì)算?
【權(quán)利要求】
1.一種搜索詞提取方法,包括: 提供待提取搜索詞的文檔Doci ; 從文檔Doci中提取搜索詞; 計(jì)算所述搜索詞的主題相關(guān)性; 根據(jù)搜索詞的主題相關(guān)性對(duì)所述搜索詞進(jìn)行過濾。
2.如權(quán)利要求1所述的搜索詞提取方法,其特征在于,步驟三包括: 計(jì)算搜索詞的基本主題相關(guān)性; 計(jì)算搜索詞的領(lǐng)域相關(guān)性;以及 計(jì)算搜索詞的語(yǔ)義相關(guān)性; 所述主題相關(guān)性由所述基本主題相關(guān)性、領(lǐng)域相關(guān)性及語(yǔ)義相關(guān)性加權(quán)平均計(jì)算得到。
3.如權(quán)利要求2所述的搜索詞提取方法,其特征在于,所述基本主題相關(guān)性是根據(jù)詞頻一反轉(zhuǎn)文件頻率(Term Frequency-1nverse Document Frequency, TF-1DF)計(jì)算。
4.如權(quán)利要求2所述的搜索詞提取方法,其特征在于,所述領(lǐng)域相關(guān)性是根據(jù)所述搜索詞屬于某一領(lǐng)域的概率以及所述文檔屬于所述領(lǐng)域的概率共同計(jì)算。
5.如權(quán)利要求4所述的搜索詞提取方法,其特征在于,計(jì)算該領(lǐng)域相關(guān)性時(shí)根據(jù)以下公式計(jì)算:
6.如權(quán)利要求2所述的搜索詞提取方法,其特征在于,所述語(yǔ)義相關(guān)性根據(jù)所述搜索詞的上下文相關(guān)性計(jì)算得到。
7.如權(quán)利要求6所述的搜索詞提取方法,其特征在于,計(jì)算該語(yǔ)義相關(guān)性時(shí)根據(jù)以下公式計(jì)算:
8.如權(quán)利要求1到7任一項(xiàng)所述的搜索詞提取方法,其特征在于,還包括: 對(duì)所述文檔Doci的核心語(yǔ)句進(jìn)行構(gòu)詞和語(yǔ)法分析得到事件型搜索詞以對(duì)所述搜索詞進(jìn)行擴(kuò)展,所述擴(kuò)展的搜索詞描述Doci以下要素中的至少一個(gè):事件詞、主體、受體、發(fā)生地點(diǎn)、事件類型。
9.如權(quán)利要求8所述的搜索詞提取方法,其特征在于,還包括:根據(jù)用戶歷史查詢記錄對(duì)得到的搜索詞進(jìn)行分析得到用戶行為搜索詞以對(duì)所述搜索詞進(jìn)行擴(kuò)展,并根據(jù)所述擴(kuò)展的用戶行為搜索詞與文檔Doci的領(lǐng)域相關(guān)性、語(yǔ)義相關(guān)性對(duì)擴(kuò)展結(jié)果進(jìn)行過濾。
10.如權(quán)利要求9所述的搜索詞提取方法,其特征在于,所述用戶歷史查詢記錄為一個(gè)時(shí)間片段內(nèi)的查詢記錄,且所述查詢記錄內(nèi)包括采用所述搜索詞其中至少之一進(jìn)行查詢的記錄。
11.如權(quán)利要求1到7任一項(xiàng)所述的搜索詞提取方法,其特征在于,還包括根據(jù)用戶對(duì)搜索詞的點(diǎn)擊率以及點(diǎn)擊搜索詞后訪問的文檔與所述文檔Doci的主題相關(guān)性對(duì)所述搜索詞進(jìn)行過濾。
12.如權(quán)利要求11所述的搜索詞提取方法,其特征在于,所述搜索詞的點(diǎn)擊率
13.如權(quán)利要求12所述的搜索詞提取方法,其特征在于,所述點(diǎn)擊搜索詞后訪問的文檔Docx與所述文檔Doci的主題相關(guān)性
14.如權(quán)利要求13所述的搜索詞提取方法,其特征在于,過濾后的搜索詞W4須使得Wdj = arg max (入 *P (CTRZDoci, Wdj) + (1-入)*P (ExperZDoci, Wdj))成立,即使用戶點(diǎn)擊率與文檔相關(guān)性的加權(quán)結(jié)果最大化,其中,特征參數(shù)、是從歷史記錄中學(xué)習(xí)得到。
15.如權(quán)利要求1到7任一項(xiàng)所述的搜索詞提取方法,其特征在于,還包括對(duì)所述搜索詞及用戶進(jìn)行聚類分析,并依據(jù)不同用戶/用戶群的喜好對(duì)所述搜索詞進(jìn)行過濾。
16.一種搜索詞提取裝置,其特征在于,包括: 讀入模塊,用于讀入待提取搜索詞的文檔Doci ; 提取模塊,用于從文檔Doci中提取搜索詞; 計(jì)算模塊,用于計(jì)算所述搜索詞的主題相關(guān)性; 過濾模塊,用于根據(jù)搜索詞的主題相關(guān)性對(duì)所述搜索詞進(jìn)行過濾。
17.如權(quán)利要求16所述的搜索詞提取裝置,其特征在于,計(jì)算模塊包括: 基本主題相關(guān)性計(jì)算單元,用于計(jì)算搜索詞的基本主題相關(guān)性; 領(lǐng)域相關(guān)性計(jì)算單元,用于計(jì)算搜索詞的領(lǐng)域相關(guān)性; 語(yǔ)義相關(guān)性計(jì)算單元,用于計(jì)算搜索詞的語(yǔ)義相關(guān)性;以及 加權(quán)單元,用于根據(jù)基本主題相關(guān)性、領(lǐng)域相關(guān)性及語(yǔ)義相關(guān)性加權(quán)平均計(jì)算得到所述主題相關(guān)性。
18.如權(quán)利要求17所述的搜索詞提取裝置,其特征在于,所述基本主題相關(guān)性計(jì)算單元用于根據(jù)詞頻一反轉(zhuǎn)文件頻率計(jì)算基本主題相關(guān)性。
19.如權(quán)利要求17所述的搜索詞提取裝置,其特征在于,所述領(lǐng)域相關(guān)性計(jì)算單元用于根據(jù)所述搜索詞屬于某一領(lǐng)域的概率以及所述文檔屬于所述領(lǐng)域的概率計(jì)算搜索詞的領(lǐng)域相關(guān)性。
20.如權(quán)利要求17所述的搜索詞提取裝置,其特征在于,所述語(yǔ)義相關(guān)性計(jì)算單元用于根據(jù)所述搜索詞的上下文相關(guān)性計(jì)算所述語(yǔ)義相關(guān)性。
21.如權(quán)利要求16所述的搜索詞提取裝置,其特征在于,還包括:事件擴(kuò)展模塊,用于對(duì)所述文檔Doci的核心語(yǔ)句進(jìn)行構(gòu)詞和語(yǔ)法分析得到事件型搜索詞以對(duì)所述搜索詞進(jìn)行擴(kuò)展,所述擴(kuò)展的搜索詞描述Doci以下要素中的至少一個(gè):事件詞、主體、受體、發(fā)生地點(diǎn)、事件類型。
22.如權(quán)利要求16所述的搜索詞提取裝置,其特征在于,還包括: 用戶行為擴(kuò)展模塊,用于根據(jù)用戶歷史查詢記錄對(duì)得到的搜索詞進(jìn)行分析得到用戶行為搜索詞以對(duì)所述搜索詞進(jìn)行擴(kuò)展,并根據(jù)所述擴(kuò)展的用戶行為搜索詞與文檔Doci的領(lǐng)域相關(guān)性、語(yǔ)義相關(guān)性對(duì)擴(kuò)展結(jié)果進(jìn)行過濾。
23.如權(quán)利要求22所述的搜索詞提取裝置,其特征在于,所述用戶歷史查詢記錄僅為一個(gè)時(shí)間片段內(nèi)的查詢記錄,且所述查詢記錄內(nèi)包括采用所述搜索詞其中至少之一進(jìn)行查詢的記錄。
24.如權(quán)利要求16所述的搜索詞提取裝置,其特征在于,還包括: 聚類分析模塊,用于對(duì)所述搜索詞及用戶進(jìn)行聚類分析,并依據(jù)不同用戶/用戶群的喜好對(duì)所述搜索詞進(jìn)行過濾。
【文檔編號(hào)】G06F17/30GK103455487SQ201210169868
【公開日】2013年12月18日 申請(qǐng)日期:2012年5月29日 優(yōu)先權(quán)日:2012年5月29日
【發(fā)明者】劉懷軍 申請(qǐng)人:騰訊科技(深圳)有限公司