亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎與流程

文檔序號:12802260閱讀:349來源:國知局
基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,特別是涉及一種基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎。



背景技術(shù):

隨著web技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)信息的創(chuàng)建和分享變得越來越容易,信息的極度爆炸使得人們對于需要的信息的尋找變得越來越難,搜索推薦技術(shù)應(yīng)運(yùn)而生,搜索推薦技術(shù)的意義在于引導(dǎo)用戶更快更準(zhǔn)確的找到所需要的信息和資訊。

現(xiàn)有搜索推薦描述,一般都以“相關(guān)xx”其中xx為一些沒有信息量的類別,如“人物”、“影片”等等,而且不同的類別的推薦結(jié)果都混合在一起;例如,在現(xiàn)有搜索引擎中搜索“變形金剛”,搜索引擎將出現(xiàn)推薦“相關(guān)人物”,其中既有電影演員,又有漫畫角色,各維度的推薦結(jié)果混雜在一起,使得用戶難以區(qū)分和查找,用戶體驗(yàn)較差。

不僅如此,現(xiàn)有搜索推薦多基于collaborativefiltering或associationrules,特點(diǎn)是結(jié)果數(shù)量較少,且不夠?qū)W?,?dǎo)致推薦結(jié)果和用戶意圖不符。例如在現(xiàn)有搜索引擎中搜索“九寨溝”,搜索引擎將出現(xiàn)“相關(guān)景點(diǎn)”推薦,基本都是和“九寨溝”關(guān)系不大的一些全國熱門景點(diǎn),這樣的搜索推薦方案不符合用戶的搜索需求,對用戶來說幾乎沒有意義。



技術(shù)實(shí)現(xiàn)要素:

鑒于上述問題,提出了本發(fā)明,提供一種克服上述問題或者至少部分地解決上述問題的移動終端搜索圖片的一種基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎。

本發(fā)明提供了一種基于搜索詞進(jìn)行搜索推薦的方法,包括:

獲取多個候選推薦對象;

獲取每兩個候選推薦對象之間的相似度;

根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;

接收用戶輸入的搜索詞,并從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

可選的,所述根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類,包括:

通過層次聚類算法根據(jù)每兩個候選推薦對象之間的相似度對所述多個候選推薦對象進(jìn)行分類,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相似度閾值。

可選的,還包括,對所述多個聚類進(jìn)行排序。

可選的,通過以下公式獲取每兩個候選推薦對象之間的相似度:

其中,a和b分別表示兩個候選推薦對象的主題模型向量,n為向量維數(shù),ai表示向量a在第i維度上的值,bi表示向量b在第i維度上的值,i為大于等于1且小于等于n的整數(shù)。

可選的,所述接收用戶輸入的搜索詞之后,還包括:

對所述搜索詞進(jìn)行分析,所述分析包括問題類型分析,所述問題類型分析用于判斷所述搜索詞是否屬于適合為用戶推薦對象的搜索詞;

在所述搜索詞屬于適合為用戶推薦對象的搜索詞時,從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

可選的,還包括,對所述推薦結(jié)果進(jìn)行過濾,過濾掉歧義的和屬于垃圾內(nèi)容的推薦結(jié)果。

可選的,根據(jù)知識圖譜,為每個聚類選擇一個恰當(dāng)?shù)拿枋鲎鳛榫垲惖拿Q。

可選的,所述從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果,包括:

根據(jù)隨機(jī)游走算法在所述多個聚類中進(jìn)行隨機(jī)游走,選取出與所述搜索詞最相關(guān)的預(yù)定數(shù)量的推薦結(jié)果。

可選的,還包括,將所述推薦結(jié)果嵌入搜索結(jié)果頁面中輸出。

本發(fā)明還提供了一種基于搜索詞進(jìn)行搜索推薦的裝置,包括:

候選推薦對象獲取模塊,用于獲取多個候選推薦對象;

相似度獲取模塊,用于獲取每兩個候選推薦對象之間的相似度;

聚類模塊,用于根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;

搜索詞接收模塊,用于接收用戶輸入的搜索詞;

提取模塊,用于從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

可選的,所述聚類模塊,還用于:

通過層次聚類算法根據(jù)每兩個候選推薦對象之間的相似度對所述多個候選推薦對象進(jìn)行分類,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相似度閾值。

可選的,所述聚類模塊,還用于:對所述多個聚類進(jìn)行排序。

可選的,所述相似度獲取模塊還用于:通過以下公式獲取每兩個候選推薦對象之間的相似度:

其中,a和b分別表示兩個候選推薦對象的主題模型向量,n為向量維數(shù),ai表示向量a在第i維度上的值,bi表示向量b在第i維度上的值,i為大于等于1且小于等于n的整數(shù)。

可選的,還包括:

分析模塊,用于對所述搜索詞進(jìn)行分析,所述分析包括問題類型分析,所述問題類型分析用于判斷所述搜索詞是否屬于適合為用戶推薦對象的搜索詞;

所述提取模塊,還用于在所述搜索詞屬于適合為用戶推薦對象的搜索詞時,從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

可選的,還包括:

過濾模塊,用于對所述推薦結(jié)果進(jìn)行過濾,過濾掉歧義的和屬于垃圾內(nèi)容的推薦結(jié)果。

可選的,所述聚類模塊還用于:

根據(jù)知識圖譜,為每個聚類選擇一個恰當(dāng)?shù)拿枋鲎鳛榫垲惖拿Q。

可選的,所述提取模塊還用于:

根據(jù)隨機(jī)游走算法在所述多個聚類中進(jìn)行隨機(jī)游走,選取出與所述搜索詞最相關(guān)的預(yù)定數(shù)量的推薦結(jié)果。

可選的,還包括:

輸出模塊,用于將所述推薦結(jié)果嵌入搜索結(jié)果頁面中輸出。

本發(fā)明還提供了一種搜索引擎,其包括上面所述的基于搜索詞進(jìn)行搜索推薦的裝置。

本發(fā)明實(shí)施例提供的一種基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎,包括獲取多個候選推薦對象;獲取每兩個候選推薦對象之間的相似度;根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;接收用戶輸入的搜索詞,并從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。本發(fā)明提供的技術(shù)方案克服了現(xiàn)有技術(shù)中推薦結(jié)果過于泛化的缺點(diǎn),并利用聚類對推薦結(jié)果進(jìn)行劃分,并通過知識圖譜對每個類進(jìn)行準(zhǔn)確的描述,提供有價值的信息,使得選取出的推薦結(jié)果更加符合用戶的搜索習(xí)慣和搜索需求,讓推薦結(jié)果更準(zhǔn)確、更專業(yè),提高了用戶的滿意度。

本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。

附圖說明

本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:

圖1為一個實(shí)施例中一種基于搜索詞進(jìn)行搜索推薦的方法的步驟流程圖;

圖2為另一個實(shí)施例中一種基于搜索詞進(jìn)行搜索推薦的方法的步驟流程圖;

圖3為一個實(shí)施例中一種基于搜索詞進(jìn)行搜索推薦的裝置的結(jié)構(gòu)框圖;

圖4為另一個實(shí)施例中一種基于搜索詞進(jìn)行搜索推薦的裝置的結(jié)構(gòu)框圖;

圖5a為本發(fā)明一個實(shí)施例中搜索結(jié)果頁面的示意圖;

圖5b為本發(fā)明另一個實(shí)施例中搜索結(jié)果頁面的示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非特意聲明,這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進(jìn)一步理解的是,本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件,但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解,當(dāng)我們稱元件被“連接”或“耦接”到另一元件時,它可以直接連接或耦接到 其他元件,或者也可以存在中間元件。此外,這里使用的“連接”或“耦接”可以包括無線連接或無線耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項(xiàng)的全部或任一單元和全部組合。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,除非另外定義,這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語),具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是,諸如通用字典中定義的那些術(shù)語,應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義,并且除非像這里一樣被特定定義,否則不會用理想化或過于正式的含義來解釋。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,這里所使用的“終端”、“終端設(shè)備”既包括無線信號接收器的設(shè)備,其僅具備無發(fā)射能力的無線信號接收器的設(shè)備,又包括接收和發(fā)射硬件的設(shè)備,其具有能夠在雙向通信鏈路上,進(jìn)行雙向通信的接收和發(fā)射硬件的設(shè)備。這種設(shè)備可以包括:蜂窩或其他通信設(shè)備,其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設(shè)備;pcs(personalcommunicationsservice,個人通信系統(tǒng)),其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力;pda(personaldigitalassistant,個人數(shù)字助理),其可以包括射頻接收器、尋呼機(jī)、互聯(lián)網(wǎng)/內(nèi)聯(lián)網(wǎng)訪問、網(wǎng)絡(luò)瀏覽器、記事本、日歷和/或gps(globalpositioningsystem,全球定位系統(tǒng))接收器;常規(guī)膝上型和/或掌上型計(jì)算機(jī)或其他設(shè)備,其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計(jì)算機(jī)或其他設(shè)備。這里所使用的“終端”、“終端設(shè)備”可以是便攜式、可運(yùn)輸、安裝在交通工具(航空、海運(yùn)和/或陸地)中的,或者適合于和/或配置為在本地運(yùn)行,和/或以分布形式,運(yùn)行在地球和/或空間的任何其他位置運(yùn)行。這里所使用的“終端”、“終端設(shè)備”還可以是通信終端、上網(wǎng)終端、音樂/視頻播放終端,例如可以是pda、mid(mobileinternetdevice,移動互聯(lián)網(wǎng)設(shè)備)和/或具有音樂/視頻播放功能的移動電話,也可以是智能電視、機(jī)頂盒等設(shè)備。

在一個實(shí)施例中,如圖1所示,一種基于搜索詞進(jìn)行搜索推薦的方法,包括:

步驟s102,獲取多個候選推薦對象;

具體地,可將現(xiàn)實(shí)世界中的客觀事物稱為對象,例如概念、事物或事件等。具體而言,如周杰倫、宇宙大爆炸理論、九寨溝、變形金剛等。

在本發(fā)明的一個實(shí)施例中,首先獲取多個候選推薦對象。具體地,多個候選推薦對象可以在預(yù)設(shè)對象庫中生成。其中,預(yù)設(shè)對象庫為預(yù)先從網(wǎng)絡(luò)中獲取的對象庫,預(yù)設(shè)對象庫中存儲有多個對象。預(yù)設(shè)對象庫可以存儲在服務(wù)器中或者其它設(shè)備中。此外,還可以對預(yù)設(shè)對象庫進(jìn)行分類,不同的應(yīng)用服務(wù)可以具有不同的預(yù)設(shè)對象庫。

步驟s104,獲取每兩個候選推薦對象之間的相似度;

在本發(fā)明的一個實(shí)施例中,可以采用余弦相似度算法來計(jì)算每兩個候選推薦對象之間的相似度。如果兩個候選推薦對象的主題模型向量分別用n維向量a(a={a1,a2,……,an})和n維向量b((b={b1,b2,……,bn}))表示,則通過以下公式獲取每兩個候選推薦對象之間的相似度similarity:

其中,a和b分別表示兩個候選推薦對象的主題模型向量,n為向量維數(shù),ai表示向量a在第i維度上的值,bi表示向量b在第i維度上的值,i為大于等于1且小于等于n的整數(shù)。

步驟s106,根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;

具體地,通過層次聚類算法根據(jù)每兩個候選推薦對象之間的相似度對所述多個候選推薦對象進(jìn)行分類,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相似度閾值。

在本發(fā)明的一個實(shí)施例中,對于每個候選推薦對象,可采取自下而上的層次聚類算法,合并相似的候選推薦對象,進(jìn)行逐層聚集,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相 似度閾值。例如,有100個待推薦對象,經(jīng)過第一次聚集,變成了50個聚類,每個聚類包含2個候選推薦對象,這就形成了第一層;然后50個聚類經(jīng)過第二次聚集,變成25個聚類,形成了第二層。依此類推,進(jìn)行逐層聚集,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相似度閾值。經(jīng)過多次聚集,可以形成一個自下而上的樹形關(guān)系圖,可以稱之為層次聚類樹。

步驟s108,接收用戶輸入的搜索詞;

步驟s110,并從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

具體地,接收用戶輸入的搜索詞,并根據(jù)搜詞獲取與搜索詞相關(guān)的聚類。例如,接收到的搜索詞為“變形金剛”,則獲取與“變形金剛”相關(guān)的聚類。

可選的,還包括,對步驟s106中生成的多個聚類進(jìn)行排序。

具體的,可以通過一些規(guī)則,如以相關(guān)度或搜索熱度為基準(zhǔn),對多個聚類進(jìn)行排序。例如,用戶輸入的搜索詞為“變形金剛”,候選推薦對象中與其相關(guān)的包括:“威震天”、“墮落金剛”、“梅根·??怂埂?、“變形金剛之銀河之力”、“瑞切爾·泰勒”、“變形金剛之汽車人戰(zhàn)記”等,其中,“威震天”、“墮落金剛”均為變形金剛的角色,“梅根·??怂埂薄ⅰ叭鹎袪枴ぬ├铡本鶠閰⒀荨蹲冃谓饎偂冯娪暗闹餮?,“變形金剛之銀河之力”、“變形金剛之汽車人戰(zhàn)記”均為變形金剛相關(guān)的科幻片,因此,對上述候選推薦對象進(jìn)行分類得到三個聚類:變形金剛的角色、主演《變形金剛》的演員和變形金剛相關(guān)的科幻片。以相關(guān)度和搜索熱度為基準(zhǔn),對這三個排序。

在本發(fā)明的另一實(shí)施例中,如圖2所示,步驟s108,接收用戶輸入的搜索詞之后,還包括:

步驟s109,對所述搜索詞進(jìn)行分析,所述分析包括問題類型分析,所述問題類型分析用于判斷所述搜索詞是否屬于適合為用戶推薦對象的搜索詞。

在所述搜索詞屬于適合為用戶推薦對象的搜索詞時,從所述多個聚類 中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

其中,對搜索詞進(jìn)行分析不僅包括基礎(chǔ)分析,還包括針對問題需求的分析。

基礎(chǔ)分析包括:分詞、詞性標(biāo)注、專名識別、字詞(term)重要性等。

針對問題需求的分析包括:問題類型分析和答案類型分析。

問題類型分析用于目標(biāo)問答對的篩選;答案類型分析用于后續(xù)的對象觀點(diǎn)抽取,以便根據(jù)搜索詞所需要的對象類型抽取相應(yīng)的對象。

問題類型分析可以包括:識別用戶輸入的搜索詞是否屬于適合為用戶推薦對象的搜索詞,當(dāng)用戶輸入的搜索詞屬于適合為用戶推薦對象的搜索詞時再進(jìn)行后續(xù)流程。例如,搜索詞為“孕婦吃什么海產(chǎn)品補(bǔ)鋅”時,由于其答案將是“三文魚”等這些對象答案,因此,可以確定該搜索詞屬于適合為用戶推薦對象的搜索詞,對其進(jìn)行后續(xù)處理。再例如,搜索詞是“孕婦是否應(yīng)該吃海產(chǎn)品”時,由于其答案將是“是”、“否”這些非對象的答案,因此,可以確定該搜索詞不屬于適合為用戶推薦對象的搜索詞,此時對其不再進(jìn)行本發(fā)明實(shí)施例中的后續(xù)處理。

具體的,問題類型分析時可以根據(jù)搜索詞中包含的分詞來確定是否適合進(jìn)行對象推薦,例如,如上所述的,當(dāng)搜索詞包含“什么”這類詞時可以確定為適合對象推薦的,或者,當(dāng)搜索詞包含“是否”這類詞時可以確定為不適合對象推薦的。當(dāng)然,上述的問題類型分析的方式只是一種舉例,可以根據(jù)實(shí)際需要設(shè)定相應(yīng)的規(guī)則。

答案類型分析可以包括:識別需求類型詞(lexicalanswertype,lat),以便根據(jù)需求類型詞找到用戶需要的對象類型。例如,“孕婦吃什么海產(chǎn)品補(bǔ)鋅”中,需求類型詞為“海產(chǎn)品”。

具體的,答案類型分析時可以將與“什么”相關(guān)聯(lián)的詞確定為需求類型詞,如上述的“海產(chǎn)品”。當(dāng)然,上述的答案類型分析的方式只是一種舉例,可以根據(jù)實(shí)際需要設(shè)定相應(yīng)的規(guī)則。

為了保證推薦結(jié)果的純凈性和準(zhǔn)確性,在本發(fā)明的一個實(shí)施例中,還包括,對所述推薦結(jié)果進(jìn)行過濾,過濾掉歧義的和屬于垃圾內(nèi)容的推薦結(jié)果。

可選的,在本發(fā)明另外一個實(shí)施例中,該方法還包括,根據(jù)知識圖譜,為每個聚類選擇一個恰當(dāng)?shù)拿枋鲎鳛榫垲惖拿Q。

不同用戶在對同一種內(nèi)容進(jìn)行搜索時,輸入的搜索詞各不相同,知識圖譜專注于探索這些搜索詞的屬性及彼此之間的連接,將不同搜索詞與同一個搜索內(nèi)容連接起來,因此知識圖譜中體現(xiàn)了一個內(nèi)容的完整知識體系和恰當(dāng)?shù)姆诸惣懊Q。

具體的,在上述用戶搜索“變形金剛”的例子中,根據(jù)知識圖譜,為三個類各選擇一個恰當(dāng)?shù)拿枋鲎鳛轭惖拿Q,分別為:變形金剛角色,《變形金剛》的主演和科幻片。

可選的,所述從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果,包括:

根據(jù)隨機(jī)游走算法在所述多個聚類中進(jìn)行隨機(jī)游走,選取出與所述搜索詞最相關(guān)的預(yù)定數(shù)量的推薦結(jié)果?;蛘?,根據(jù)pagerank、personalizedpagerank、randomwalkwithrestart、或metapath算法從多個聚類中選取出與搜索詞最相關(guān)的預(yù)定數(shù)量的推薦結(jié)果。這里,隨機(jī)游走算法以及pagerank、personalizedpagerank、randomwalkwithrestart和metapath算法均為現(xiàn)有技術(shù),這里不再具體進(jìn)行描述。

可選的,還包括,將所述推薦結(jié)果嵌入搜索結(jié)果頁面中輸出。

圖5a示出了根據(jù)本發(fā)明一個實(shí)施例的搜索結(jié)果頁面的示意圖,如圖5a所示,當(dāng)用戶搜索“變形金剛”時,搜索結(jié)果頁面按照相關(guān)度和搜索熱度排序,示出了上文中得到的三類推薦結(jié)果:變形金剛角色,《變形金剛》的主演和科幻片。將不同類的推薦結(jié)果劃分開,并進(jìn)行有意義的描述,符合不同用戶的搜索需求。

圖5b示出了根據(jù)本發(fā)明另一個實(shí)施例的搜索結(jié)果頁面的示意圖。當(dāng)用戶搜索“九寨溝”時,根據(jù)一定算法從匿名行為網(wǎng)絡(luò)拓?fù)渲羞x取出與“九寨溝”相關(guān)的預(yù)定數(shù)量的推薦結(jié)果,對推薦結(jié)果進(jìn)行過濾和聚類,得到四類推薦結(jié)果:相關(guān)的四川景點(diǎn);相關(guān)的四川城市;相關(guān)的云南景點(diǎn)和云南城市;全國范圍內(nèi)的旅游景點(diǎn)?;谙嚓P(guān)性對類進(jìn)行排序,優(yōu)先推薦相關(guān)的四川景點(diǎn),然后推薦稍微發(fā)散一些的四川城市,接下來是更發(fā)散的附近 的云南的旅游城市,最后是一些其他旅游景點(diǎn)。根據(jù)知識圖譜,為每個類選擇一個恰當(dāng)?shù)拿枋鲎鳛轭惖拿Q,分別為:四川景點(diǎn)、四川城市、云南行政區(qū)劃和旅游景點(diǎn),將最終處理得到的四類推薦結(jié)果嵌入搜索結(jié)果頁面中輸出,如圖5b所示。另外除上述圖5a、5b所示的方式外,上述推薦結(jié)果還可以按照類別僅排布在搜索結(jié)果頁的一側(cè)(比如右側(cè)),頁中另一側(cè)由上到下排列是普通搜索結(jié)果項(xiàng)。

如圖3所示,本發(fā)明還提供了一種基于搜索詞進(jìn)行搜索推薦的裝置,包括:

候選推薦對象獲取模塊102,用于獲取多個候選推薦對象;

相似度獲取模塊104,用于獲取每兩個候選推薦對象之間的相似度;

聚類模塊106,用于根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;

搜索詞接收模塊108,用于接收用戶輸入的搜索詞;

提取模塊110,用于從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

可選的,所述聚類模塊106,還用于:

通過層次聚類算法根據(jù)每兩個候選推薦對象之間的相似度對所述多個候選推薦對象進(jìn)行分類,直至生成的聚類的數(shù)量達(dá)到預(yù)設(shè)數(shù)量閾值或者生成的聚類之間的相似度達(dá)到預(yù)設(shè)相似度閾值。

可選的,所述聚類模塊106,還用于:

對所述多個聚類進(jìn)行排序。

可選的,所述相似度獲取模塊104,還用于:

通過以下公式獲取每兩個候選推薦對象之間的相似度:

其中,a和b分別表示兩個候選推薦對象的主題模型向量,n為向量 維數(shù),ai表示向量a在第i維度上的值,bi表示向量b在第i維度上的值,i為大于等于1且小于等于n的整數(shù)。

在本發(fā)明另外一個實(shí)施例中,如圖4所示,其與上述實(shí)施例的其別僅在于,該裝置還包括:

分析模塊202,用于對所述搜索詞進(jìn)行分析,所述分析包括問題類型分析,所述問題類型分析用于判斷所述搜索詞是否屬于適合為用戶推薦對象的搜索詞;

所述提取模塊110,還用于在所述搜索詞屬于適合為用戶推薦對象的搜索詞時,從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。

在本發(fā)明另外一個實(shí)施例中,該裝置還包括:

過濾模塊204,用于對所述推薦結(jié)果進(jìn)行過濾,過濾掉歧義的和屬于垃圾內(nèi)容的推薦結(jié)果。

可選的,所述聚類模塊106還用于:

根據(jù)知識圖譜,為每個聚類選擇一個恰當(dāng)?shù)拿枋鲎鳛榫垲惖拿Q。

可選的,所述提取模塊110還用于:

根據(jù)隨機(jī)游走算法在所述多個聚類中進(jìn)行隨機(jī)游走,選取出與所述搜索詞最相關(guān)的預(yù)定數(shù)量的推薦結(jié)果。

在本發(fā)明另外一個實(shí)施例中,該裝置可選的,還包括:

輸出模塊206,用于將所述推薦結(jié)果嵌入搜索結(jié)果頁面中輸出。

圖1與圖2為所述裝置所執(zhí)行的過程,上文中以用戶搜索“變形金剛”的情況和用戶搜索“九寨溝”的情況為例,已進(jìn)行詳細(xì)說明,在此不再贅述。

本發(fā)明還提供了一種搜索引擎,其包括上面所述的基于搜索詞進(jìn)行搜索推薦的裝置。

圖5a示出了本發(fā)明一個實(shí)施例中,使用本發(fā)明的搜索引擎的搜索結(jié)果頁面示意圖,如圖5a所示,當(dāng)用戶搜索“變形金剛”時,搜索結(jié)果頁面按照相關(guān)度和搜索熱度排序,示出了上文中得到的三類推薦結(jié)果:變形金剛角色,《變形金剛》的主演和科幻片。將不同類的推薦結(jié)果劃分開, 并進(jìn)行有意義的描述,符合不同用戶的搜索需求。

圖5b示出了本發(fā)明一個實(shí)施例中,使用本發(fā)明的搜索引擎的搜索結(jié)果頁面示意圖,當(dāng)用戶搜索“九寨溝”時,根據(jù)一定算法從匿名行為網(wǎng)絡(luò)拓?fù)渲羞x取出與“九寨溝”相關(guān)的預(yù)定數(shù)量的推薦結(jié)果,對推薦結(jié)果進(jìn)行過濾和聚類,得到四類推薦結(jié)果:相關(guān)的四川景點(diǎn);相關(guān)的四川城市;相關(guān)的云南景點(diǎn)和云南城市;全國范圍內(nèi)的旅游景點(diǎn)?;谙嚓P(guān)性對類進(jìn)行排序,優(yōu)先推薦相關(guān)的四川景點(diǎn),然后推薦稍微發(fā)散一些的四川城市,接下來是更發(fā)散的附近的云南的旅游城市,最后是一些其他旅游景點(diǎn)。根據(jù)知識圖譜,為每個類選擇一個恰當(dāng)?shù)拿枋鲎鳛轭惖拿Q,分別為:四川景點(diǎn)、四川城市、云南行政區(qū)劃和旅游景點(diǎn),將最終處理得到的四類推薦結(jié)果嵌入搜索結(jié)果頁面中輸出,如圖5b所示。另外除上述圖5a、5b所示的方式外,上述推薦結(jié)果還可以按照類別僅排布在搜索結(jié)果頁的一側(cè)(比如右側(cè)),頁中另一側(cè)由上到下排列是普通搜索結(jié)果項(xiàng)。

綜上所述,本發(fā)明實(shí)施例提供的一種基于搜索詞進(jìn)行搜索推薦的方法、裝置和搜索引擎,包括獲取多個候選推薦對象;獲取每兩個候選推薦對象之間的相似度;根據(jù)所述相似度對所述多個候選推薦對象進(jìn)行分類以生成多個聚類;接收用戶輸入的搜索詞,并從所述多個聚類中獲取與所述搜索詞相關(guān)的候選推薦對象作為推薦結(jié)果。本發(fā)明提供的技術(shù)方案克服了現(xiàn)有技術(shù)中推薦結(jié)果過于泛化的缺點(diǎn),并利用聚類對推薦結(jié)果進(jìn)行劃分,并通過知識圖譜對每個類進(jìn)行準(zhǔn)確的描述,提供有價值的信息,使得選取出的推薦結(jié)果更加符合用戶的搜索習(xí)慣和搜索需求,讓推薦結(jié)果更準(zhǔn)確、更專業(yè),提高了用戶的滿意度。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項(xiàng)或多項(xiàng)的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計(jì)和制造,或者也可以包括通用計(jì)算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計(jì)算機(jī)程序,這些計(jì)算機(jī)程序選擇性地激活或重構(gòu)。這樣的計(jì)算機(jī)程序可以被存儲在設(shè)備(例如,計(jì)算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計(jì)算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、cd-rom、和磁光盤)、 rom(read-onlymemory,只讀存儲器)、ram(randomaccessmemory,隨即存儲器)、eprom(erasableprogrammableread-onlymemory,可擦寫可編程只讀存儲器)、eeprom(electricallyerasableprogrammableread-onlymemory,電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計(jì)算機(jī))以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計(jì)算機(jī)程序指令來實(shí)現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以將這些計(jì)算機(jī)程序指令提供給通用計(jì)算機(jī)、專業(yè)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實(shí)現(xiàn),從而通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。

本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。

以上所述僅是本發(fā)明的部分實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1