亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法

文檔序號(hào):6539991閱讀:180來源:國知局
一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法
【專利摘要】本發(fā)明公開了一種基于用戶興趣剖像實(shí)現(xiàn)個(gè)性化搜索的方法,首先,從用戶的瀏覽器頁面緩存中抽取Web頁面,根據(jù)頁面中包含的超鏈接關(guān)系進(jìn)行聚類,獲取的聚類代表用戶的一種興趣,聚類包含的頁面數(shù)量與頁面總數(shù)之比代表興趣的濃厚程度;然后,提出一種新的用戶興趣剖像表示方法,并在用戶興趣頁面聚類中,采用基于忠誠度的加權(quán)關(guān)聯(lián)規(guī)則方法,挖掘聚類中的關(guān)聯(lián)規(guī)則詞條作為用戶興趣剖像的代表;最后,將獲取的用戶興趣剖像推導(dǎo)用戶搜索請求的興趣,通過與用戶交互確認(rèn),擴(kuò)展用戶的搜索請求提交給通用搜索引擎,擴(kuò)展后搜索請求能夠?qū)⑺阉鹘Y(jié)果聚焦在用戶的興趣范圍內(nèi),實(shí)現(xiàn)了用戶的個(gè)性化搜索。該方法可以用于瀏覽互聯(lián)網(wǎng)的瀏覽器,幫助用戶改善搜索體驗(yàn)。
【專利說明】—種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種互聯(lián)網(wǎng)上實(shí)現(xiàn)個(gè)性化搜索的技術(shù),特別是一種挖掘和表示用戶的興趣剖像實(shí)現(xiàn)基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法。
【背景技術(shù)】
[0002]對(duì)于目前基于關(guān)鍵字匹配的搜索引擎,大多數(shù)的用戶缺乏改善搜索結(jié)果的經(jīng)驗(yàn),不能精確的表示自己想要的信息。而且搜索引擎用戶往往只給出相對(duì)較少的查詢詞(據(jù)統(tǒng)計(jì)超過70%的搜索詞只有一個(gè),90%不超過3個(gè)),通過短短的幾個(gè)詞,搜索引擎也無法獲知用戶的具體需求,搜索引擎會(huì)返回的成千上萬的結(jié)果頁面,用戶根本就無法逐一瀏覽,通常只是查看前幾頁的搜索結(jié)果。大量的含有用戶搜索關(guān)鍵字的頁面可能與用戶的興趣毫無關(guān)系。因此對(duì)于用戶來說,找個(gè)適合自己的有用的信息是一件相當(dāng)費(fèi)時(shí)、費(fèi)力的事情。
[0003]如何能夠從用戶方獲取更多的關(guān)于用戶的興趣信息,進(jìn)而改善用戶的搜索是個(gè)性化搜索領(lǐng)域需要解決的課題,其中,用戶興趣數(shù)據(jù)的獲取和用戶興趣剖像的表示是個(gè)性化搜索研究領(lǐng)域中關(guān)鍵的問題。在對(duì)用戶興趣剖像建模方面主要的方法有興趣特征向量,本體結(jié)構(gòu)化等。興趣特征向量將用戶興趣剖像信息表達(dá)為一組帶權(quán)重的術(shù)語集合,權(quán)重大小表示用戶的興趣程度,因?yàn)椴捎孟蛄靠臻g模型表示,這種表達(dá)方式的好處是與目前很多的信息檢索系統(tǒng)可以很好的匹配,在實(shí)現(xiàn)個(gè)性搜索的過程中,二維興趣特征詞條通常用于搜索結(jié)果的過濾和排序,并沒有提高搜索的精度。
[0004]從用戶興趣數(shù)據(jù)來源方式上,主要有(I)用戶瀏覽器的歷史頁面、收藏和Cache的數(shù)據(jù),(2)搜索引擎的日志信息,(3)用戶指定的文檔或興趣,(4)用戶的搜索反饋和評(píng)價(jià)。其中,Cui和Liu等人提出從搜索引擎的搜索日志中挖掘用戶的搜索信息,以獲得普遍用戶的共同偏好。存在的問題是用戶的搜索記錄并不能完全代表個(gè)別用戶的偏好信息。通過與用戶交互的方式,事先要求用戶指定自己的興趣偏好特征,或者用戶指定自己的喜好的頁面,通過挖掘這些頁面得到用戶的偏好特征。
[0005]從用戶興趣剖像表示方面,主要有二維興趣特征詞條、決策樹、興趣生成樹以及本體表示等方法。二維興趣特征詞條將用戶的剖像信息表達(dá)為一組帶權(quán)重的術(shù)語,權(quán)重大小表示用戶的興趣程度,這種表達(dá)方式的好處是與目前很多的信息檢索系統(tǒng)可以很好的匹配,因?yàn)樗鼈兇蟛糠秩匀皇腔谙蛄靠臻g模型,大部分的研究都是基于這種表示方式。本體(ontology)技術(shù)的用戶剖像是最近熱門研究方向的內(nèi)容,本體正是描述語義Web中語義知識(shí)的建模手段,它形式化定義了領(lǐng)域內(nèi)共同認(rèn)可的知識(shí),是語義Web體系中的核心。把本體直接應(yīng)用到目前的檢索方式上,仍然存在如果結(jié)合完全不同的兩種表達(dá)體系的問題。
[0006]基于代理的個(gè)性化搜索,建立專用的個(gè)性化代理系統(tǒng),利用興趣剖像過濾搜索結(jié)果?;赪WW緩沖技術(shù)的實(shí)時(shí)二維興趣模型,通過粗集理論和關(guān)聯(lián)規(guī)則深入挖掘興趣之間的關(guān)聯(lián)關(guān)系,實(shí)時(shí)二維興趣模型充分考慮了用戶興趣之間的遞推關(guān)系。
[0007]Letizia系統(tǒng)是由MIT開發(fā)的,具有智能導(dǎo)航功能。它采用了一種基于行為的用戶興趣建模方法,即通過跟蹤用戶的瀏覽行為推測用戶興趣,建立用戶興趣模型。例如該系統(tǒng)可自動(dòng)從用戶當(dāng)前頁面出發(fā),對(duì)所有超鏈接指向的鏈宿頁面進(jìn)行寬度優(yōu)先搜索,在分析頁面內(nèi)容后與用戶興趣模型比較,進(jìn)而找出用戶可能感興趣的頁面,在單獨(dú)的窗口中顯示推薦給用戶的URL列表。
[0008]LIRA系統(tǒng)是由Stanford開發(fā)的,具有主動(dòng)服務(wù)功能的系統(tǒng)。在用戶網(wǎng)絡(luò)瀏覽過程中選擇與用戶興趣模型相似度高的頁面提交給用戶,并要求用戶給出明確的評(píng)估值,然后根據(jù)用戶提供的相關(guān)反饋結(jié)果修改搜索和選擇策略,調(diào)整用戶興趣模型。該系統(tǒng)的特點(diǎn)在于利用了啟發(fā)式搜索算法,對(duì)搜索規(guī)模進(jìn)行了限制,從而兼顧了效率。
[0009]WebMate系統(tǒng)是一個(gè)幫助用戶有效地瀏覽和搜索Web的代理。從Web信息檢索的多個(gè)方面改善,首先,使用了多個(gè)TFIDF向量跟蹤用戶的興趣領(lǐng)域,這些領(lǐng)域都是WebMate自動(dòng)學(xué)習(xí)的。其次,WebMate使用了 Trigger Pair Model自動(dòng)提取關(guān)鍵詞改善頁面搜索。再次,搜索過程中,用戶可以為搜索提供多個(gè)頁面作為相似/相關(guān)性的引導(dǎo)。
[0010]國內(nèi)目前也有研究個(gè)性化搜索的專利,比如一種基于用戶停留時(shí)間分析的個(gè)性化網(wǎng)頁搜索排序方法(申請?zhí)?01110194078.8)依據(jù)用戶閱讀頁面的時(shí)間推測出感興趣的概念詞,進(jìn)一步基于概念詞來預(yù)測搜索結(jié)果中每個(gè)頁面的個(gè)性化閱讀興趣?;阪溄臃治龅膫€(gè)性化搜索引擎方法(申請?zhí)?00510050198.5)通過知識(shí)網(wǎng)絡(luò)模型描述用戶興趣,建立多態(tài)鏈接網(wǎng)絡(luò)記錄網(wǎng)絡(luò)節(jié)點(diǎn)之間鏈接的不同類別,進(jìn)而在此基礎(chǔ)上展開鏈接分析得到搜索結(jié)果O

【發(fā)明內(nèi)容】

[0011]發(fā)明目的:本發(fā)明所要解決的技術(shù)問題是針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,通過實(shí)時(shí)獲取瀏覽器緩存的頁面,能夠動(dòng)態(tài)反映用戶興趣的變化,利用關(guān)聯(lián)規(guī)則詞條作為用戶興趣特征,將用戶的搜索限定在特定興趣的頁面范圍,達(dá)成更加精確的搜索結(jié)果。
[0012]為了解決上述技術(shù)問題,本發(fā)明提出了一種用戶興趣剖像模型的表達(dá)方法和兩階段策略的個(gè)性化搜索方案。
[0013]本發(fā)明所述的一種用戶興趣剖像模型由三部分組成,第一部分為一組瀏覽頁面的聚類,每一個(gè)聚類代表用戶的一種興趣,稱為興趣聚類,其包含的頁面數(shù)量與頁面總數(shù)之比作為用戶興趣的程度,該值范圍為O?I之間的實(shí)數(shù);第二部分為每一個(gè)興趣聚類中心,用向量表達(dá),每一個(gè)特征項(xiàng)的值為該聚類中詞條特征的詞頻平均值,聚類中心隨著聚類中文本的變化而不斷更新;第三部分為關(guān)聯(lián)特征詞條,從每一個(gè)興趣聚類中獲取,代表用戶的一類興趣。
[0014]本發(fā)明所述的兩階段策略的個(gè)性化搜索方案包括用戶興趣剖像生成階段和個(gè)性化搜索推導(dǎo)階段。
[0015]階段一、用戶興趣剖像生成
[0016]該階段包括兩個(gè)步驟:
[0017]步驟一、對(duì)用戶瀏覽器緩存區(qū)的瀏覽頁面進(jìn)行聚類;
[0018]通過對(duì)用戶瀏覽器緩存區(qū)中的瀏覽頁面實(shí)施基于圖鏈接的聚類,獲得用戶興趣聚類。具體步驟如下所示:
[0019]步驟(11):提取用戶瀏覽器緩存區(qū)中的瀏覽頁面,把每一個(gè)瀏覽頁面P表示成一組詞條的特征向量和其包含的超鏈接頁面集合。
[0020]步驟(12),將用戶的瀏覽器緩存區(qū)中的瀏覽頁面按照其包含的鏈接關(guān)系建立圖模型的表示方式,所述圖模型表示為瀏覽頁面圖HG = {V,E},其中,HG是一個(gè)無向圖,節(jié)點(diǎn)的集合V = {Pi 11 < i < η},V代表瀏覽頁面集合,Pi表示集合V中第i個(gè)瀏覽頁面,η表示集合V的瀏覽頁面總數(shù);Ε是邊的集合,邊表示V中兩個(gè)瀏覽頁面的鏈接關(guān)系,若有e V,當(dāng)P」e P1.L時(shí),貝U有〈Pi,Pj> e E U <Pj, Pi) e E, P1.L表示瀏覽頁面Pi中包含的超鏈接頁面集合;Pj表示集合V中第j個(gè)瀏覽頁面,I≤j≤η。
[0021]步驟(13):根據(jù)頁面鄰居和噪聲頁面,計(jì)算瀏覽頁面圖HG的邊集合E中任意條邊〈Pi,Pj>所對(duì)應(yīng)的兩個(gè)瀏覽頁面是否互為鄰居,如果不互為鄰居,則判定兩個(gè)瀏覽頁面的主題不一致,從瀏覽頁面圖HG中刪除該邊;反之,保留該邊。
[0022]所述頁面鄰居Neighborhood(Pi, ρ」)是指兩個(gè)具有直接鏈接關(guān)系的瀏覽頁面,且它們之間的頁面相似度大于指定值,表示為:
【權(quán)利要求】
1.一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,包括用戶興趣剖像、用戶興趣剖像生成以及個(gè)性化搜索推導(dǎo)三個(gè)部分; 所述用戶興趣剖像包括對(duì)用戶的興趣進(jìn)行描述和建模; 所述用戶興趣剖像生成包括對(duì)用戶瀏覽器中緩存頁面進(jìn)行聚類、關(guān)聯(lián)規(guī)則挖掘,構(gòu)建用戶興趣剖像; 所述個(gè)性化搜索推導(dǎo)包括依據(jù)用戶興趣剖像對(duì)用戶的搜索請求進(jìn)行推理匹配,獲得用戶搜索興趣,利用搜索請求擴(kuò)展方法,實(shí)現(xiàn)個(gè)性化搜索。
2.根據(jù)權(quán)利要求1所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,所述的用戶興趣剖像的組成包括三個(gè)部分: 第一部分為一組瀏覽頁面聚類,每一個(gè)聚類代表用戶的一種興趣,作為興趣聚類,其包含的頁面數(shù)量與頁面總數(shù)之比作為用戶興趣的程度,該比值的范圍為O~I之間的實(shí)數(shù);第二部分為每一個(gè)興趣聚類的中心,用特征向量表達(dá),每一個(gè)特征項(xiàng)的值為該聚類中詞條特征的詞頻平均值,用于搜索時(shí),用戶興趣的推導(dǎo); 第三部分為聚類關(guān)聯(lián)規(guī)則詞條,是與關(guān)聯(lián)規(guī)則對(duì)應(yīng)的詞條組合,代表每一個(gè)興趣聚類的關(guān)鍵特征,在個(gè)性化搜索時(shí),將其作為擴(kuò)展詞進(jìn)行搜索,將搜索內(nèi)容限定在擴(kuò)展詞范圍內(nèi)。
3.根據(jù)權(quán)利要求1所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,所述的用戶興趣剖像生成過程包括兩個(gè)步驟: 步驟1、對(duì)用戶瀏覽器 緩存瀏覽頁面的興趣聚類,生成用戶興趣剖像的第一部分和第二部分; 步驟2、挖掘興趣聚類的關(guān)聯(lián)規(guī)則詞條,生成用戶興趣剖像的第三部分。
4.根據(jù)權(quán)利要求3所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,其中步驟I所述的對(duì)用戶瀏覽器緩存瀏覽頁面的興趣聚類,包括如下步驟: 步驟(11 ),提取用戶的瀏覽器緩存區(qū)中的瀏覽頁面,把每一個(gè)瀏覽頁面P表示成一組詞條的特征向量和瀏覽頁面P包含的超鏈接頁面集合; 步驟(12),將用戶的瀏覽器緩存區(qū)中的瀏覽頁面按照頁面包含的鏈接關(guān)系建立圖模型的表示方式,得到一個(gè)瀏覽頁面圖; 步驟(13):根據(jù)瀏覽頁面圖中頁面之間的鏈接關(guān)系和瀏覽頁面之間的相似度,計(jì)算瀏覽頁面圖的邊集合E中任意條邊所對(duì)應(yīng)的兩個(gè)瀏覽頁面是否互為鄰居,如果不互為鄰居,則判定兩個(gè)瀏覽頁面的主題不一致,從瀏覽頁面圖中刪除該邊;反之,保留該邊; 步驟(14):采用深度優(yōu)先的方式遍歷瀏覽頁面圖,得到瀏覽頁面圖的所有連通分量;步驟(15):將瀏覽頁面圖中的每一個(gè)節(jié)點(diǎn)數(shù)量大于閾值的連通分量都作為一個(gè)用戶的興趣瀏覽頁面聚類,按照聚類相似度合并具有相似主題的聚類; 步驟(16):將剩余的節(jié)點(diǎn)分配到與其相似度最大的聚類中,并重新計(jì)算每一個(gè)聚類的中心。
5.根據(jù)權(quán)利要求3所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,步驟2所述的挖掘興趣聚類的關(guān)聯(lián)規(guī)則詞條,包括如下步驟: 步驟(21),對(duì)于每一個(gè)興趣聚類,將興趣聚類包含的瀏覽頁面中每一個(gè)詞條作為一個(gè)詞條特征;根據(jù)詞條特征在瀏覽頁面中出現(xiàn)與否,如果出現(xiàn)將瀏覽頁面的布爾型特征向量設(shè)為1,如果沒有出現(xiàn)將瀏覽頁面的布爾型特征向量設(shè)為O,每一個(gè)瀏覽頁面表示為一個(gè)布爾型特征向量; 步驟(22),利用加權(quán)關(guān)聯(lián)規(guī)則挖掘算法,獲取聚類的關(guān)聯(lián)規(guī)則詞條。
6.根據(jù)權(quán)利要求5所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,步驟(22)所述的加權(quán)關(guān)聯(lián)規(guī)則挖掘算法,加權(quán)關(guān)聯(lián)規(guī)則為:在一個(gè)聚類中,任意兩個(gè)詞條特征集X與Y,如果存在X的加權(quán)支持率和規(guī)則Y if即由X推出Y,的加權(quán)可信率高于閾值,那么規(guī)則被稱作關(guān)聯(lián)規(guī)則,詞條的合集X U Y稱作關(guān)聯(lián)規(guī)則詞條; 算法中詞條特征集X的加權(quán)支持率計(jì)算公式如下:
7.根據(jù)權(quán)利要求1所述的一種基于用戶興趣的個(gè)性化搜索實(shí)現(xiàn)方法,其特征在于,所述的個(gè)性化搜索推導(dǎo)部分,包括如下步驟: 步驟(31),推導(dǎo)用戶的搜索興趣:計(jì)算用戶輸入的搜索關(guān)鍵詞與用戶每一個(gè)興趣聚類中心的相似度,獲得最佳匹配興趣聚類,將用戶的搜索關(guān)鍵詞映射到該興趣聚類; 步驟(32),獲取興趣聚類的特征并由用戶確認(rèn):顯示最佳匹配興趣聚類對(duì)應(yīng)的關(guān)聯(lián)規(guī)則詞條,并由用戶確認(rèn)興趣聚類; 步驟(33),擴(kuò)展用戶搜索請求:如果步驟(32)用戶確定了興趣聚類,那么將該興趣聚類的關(guān)聯(lián)詞條作為用戶的擴(kuò)展搜索請求,提交給搜索引擎;否則,不擴(kuò)展用戶的搜索關(guān)鍵詞,直接提交給搜索引擎; 步驟(34),結(jié)果返回顯示:把搜索引擎返回的結(jié)果顯示給用戶。
【文檔編號(hào)】G06F17/30GK103853831SQ201410086236
【公開日】2014年6月11日 申請日期:2014年3月10日 優(yōu)先權(quán)日:2014年3月10日
【發(fā)明者】崔自峰, 錢葵東 申請人:中國電子科技集團(tuán)公司第二十八研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1