一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法

文檔序號(hào)：6470886閱讀：175來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：：一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于個(gè)性化服務(wù)領(lǐng)域，具體涉及一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法。
背景技術(shù)：
：Web信息的日益增長(zhǎng)，使人們不得不花費(fèi)大量的時(shí)間搜索和瀏覽自己需要的信息。傳統(tǒng)的搜索引擎比如AltaVista(www.altavista.com)、Yahoo!(www.yahoo.com)和新一代的搜索引擎比如Google(www.google.com)滿(mǎn)足了人們一定的需要，但由于其通用的性質(zhì)，仍不能滿(mǎn)足不同背景、不同目的和不同時(shí)期的個(gè)性化查詢(xún)需求。另外，電子商務(wù)應(yīng)用的日益普及，越來(lái)越多的商品可供人們從因特網(wǎng)上挑選和購(gòu)買(mǎi)。盡管人們可以更加輕松地買(mǎi)到自己需要的物品，但網(wǎng)上琳瑯滿(mǎn)目，千差萬(wàn)別的商品使消費(fèi)者很難選擇自己中意的產(chǎn)品。通常，人們很想了解別人的看法，并希望有人向他們進(jìn)行推薦。另外，隨著互聯(lián)網(wǎng)上的資源的日益增多，如何對(duì)自己感興趣的資源進(jìn)行管理也成為人們?cè)絹?lái)越關(guān)心的問(wèn)題。很多方面都涉及到個(gè)性化服務(wù)的需求，由于本發(fā)明的著重點(diǎn)在個(gè)性化搜索，這里以個(gè)性化搜索作為主要
背景技術(shù)：
描述。用戶(hù)希望從搜索引擎中獲得最貼近自己需要的信息，即對(duì)于同一査詢(xún)，不同用戶(hù)能夠獲得不同的搜索結(jié)果。例如，同樣的査詢(xún)"蘋(píng)果"，有的用戶(hù)希望"蘋(píng)果"作為一種水果，獲得它的相關(guān)信息；而另外的用戶(hù)可能希望"蘋(píng)果"作為一種計(jì)算機(jī)品牌，獲取相關(guān)信息。有研究表明網(wǎng)絡(luò)用戶(hù)用于搜索的査詢(xún)85%是短查詢(xún)，該類(lèi)査詢(xún)一般包括3個(gè)或更少數(shù)目的查詢(xún)單詞。因此，用戶(hù)提交的査詢(xún)通常不能充分表達(dá)出搜索相關(guān)文檔所需的信息。目前，Web搜索引擎廣泛采用自動(dòng)?xùn)嗽?xún)擴(kuò)展方法來(lái)解決這個(gè)問(wèn)題，并獲得了成功。即在原來(lái)査詢(xún)的基礎(chǔ)上，加入與用戶(hù)用詞相關(guān)聯(lián)的詞組成新查詢(xún)，這在一定程度上彌補(bǔ)了用戶(hù)査詢(xún)信息的不足。對(duì)用戶(hù)提交的査詢(xún)進(jìn)行擴(kuò)展可以提高查詢(xún)的準(zhǔn)確性，但由于搜索引擎作為通用查詢(xún)工具，很難做到用戶(hù)間差異性，也就是說(shuō)很難實(shí)現(xiàn)深入的個(gè)性化搜索。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法來(lái)解決査詢(xún)個(gè)性化問(wèn)題。本發(fā)明的特征在于，所述方法是在計(jì)算機(jī)中依次按以下步驟進(jìn)行的步驟(1)初始化在所述計(jì)算機(jī)中設(shè)定以下模塊用戶(hù)興趣學(xué)習(xí)模塊、用戶(hù)聚類(lèi)模塊、査詢(xún)?cè)~相似度計(jì)算模塊以及基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊，其中用戶(hù)興趣學(xué)習(xí)模塊設(shè)定用戶(hù)動(dòng)作以及該用戶(hù)動(dòng)作對(duì)應(yīng)的興趣值的映射表a.用于下載文檔的興趣值為0.8，b.用于為文檔評(píng)分的興趣值為評(píng)分值/滿(mǎn)分值，評(píng)分值由用戶(hù)設(shè)定，用戶(hù)根據(jù)對(duì)文檔內(nèi)容的興趣度以及文檔外觀的怎樣打分，滿(mǎn)分值為5分，C.用于為文檔添加書(shū)簽的興趣值為1，d.用于為文檔刪除的書(shū)簽的興趣值為-1，e.在文檔級(jí)別上，用戶(hù)"瀏覽文檔rf的興趣度為，MVf尸(印rf,"《矽J，d'ld，eDJ)，其中印flf,力為用戶(hù)"閱讀文檔的速度，^^M,^=￡rf/rrf，丄rf為文檔d的長(zhǎng)度，D為用戶(hù)"閱讀文檔rf的時(shí)長(zhǎng)，i)"為用戶(hù)w瀏覽過(guò)的所有文檔的集合，用戶(hù)"閱讀速度最慢的文檔是最感興趣的文檔，用1表示；所述在文檔級(jí)別上的興趣度按下式計(jì)算mv/"/^,力"/^^,cT力其中『表示用戶(hù)"閱讀速度最快的文章，用戶(hù)提交過(guò)多次査詢(xún)后，對(duì)同一篇文檔d有多種動(dòng)作，其綜合興趣度用M^表示<rf=max(<rf)+c,y=7，'''，A，y為用戶(hù)動(dòng)作序號(hào)，M^為序號(hào)為乂的用戶(hù)動(dòng)作的興趣值，"在中取值，e.在領(lǐng)域級(jí)別上用戶(hù)"瀏覽文檔d的興趣度為尸w，公式如下<formula>formulaseeoriginaldocumentpage7</formula>其中，^為序號(hào)為f的領(lǐng)域類(lèi)型，所述領(lǐng)域類(lèi)型的集合0{^，^，...，^}，r為該領(lǐng)域類(lèi)型C的大小，尸(c,kO為文檔d屬于領(lǐng)域G的條件概率，D"為用戶(hù)"瀏覽過(guò)的所有文檔集合，ak(AO為用戶(hù)反饋的文檔數(shù)；用戶(hù)聚類(lèi)模塊，用下述KMea^聚類(lèi)對(duì)所以閱讀過(guò)文檔的用戶(hù)分類(lèi)，其步驟為-第一步隨機(jī)選擇《個(gè)用戶(hù)，其中每個(gè)用戶(hù)A初始代表一個(gè)簇中心op，/^厶...,《，第二步計(jì)算剩余的每個(gè)用戶(hù)"c各自與各個(gè)簇中心Op的歐氏距離"("c，Op)-、Z(/^-;。,)2，其中，i^表示剩余用戶(hù)"c對(duì)領(lǐng)域的c,興趣值，尸。,表示屬于簇^的用戶(hù)對(duì)所述領(lǐng)域類(lèi)型Q的平均興趣值，P。t=「、S/^，^為所述簇中心的大小，第三步根據(jù)所述剩余的每個(gè)用戶(hù)"c與各個(gè)簇中的Op的距離，把"c給最近的簇中心，第四步重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型C,的平均興趣值，第五步重復(fù)上述第一到第四步，直至i^-尸。,C，閾值f取l(TS;查詢(xún)相似度計(jì)算模塊，用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)Op內(nèi)所有用戶(hù)各自的第Z'次提交的査詢(xún)?cè)~仏相似的由用戶(hù)隱式反饋的査詢(xún)?cè)~&:組成的列表"m丄W-(^，^,...，^，所述相似査詢(xún)?cè)~gr滿(mǎn)足以下條件由用戶(hù)提交的査詢(xún)?cè)~A查詢(xún)得到的由搜索引擎給出的一組鏈接集合re^={&，A,...，&}，以及由用戶(hù)隱式反饋鏈接集合res^來(lái)計(jì)算兩個(gè)查詢(xún)?cè)~^，、之間的相似度，其公式為當(dāng)計(jì)算得到的相似值w7m7fln'OY^，^)大于給定閾值5，5取值區(qū)間為(O，l)，則將《:添加到所述表中，否則舍去；基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊；第一步，構(gòu)造屬于用戶(hù)聚類(lèi)％的原始查詢(xún)?cè)~和擴(kuò)展査詢(xún)?cè)~的組合，用《+Z表示，《/S57'W丄抓A,.為-l或1，第二步，把所述原始查詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎，得到擴(kuò)展查詢(xún)?cè)~，第三步，當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí)，重復(fù)上述第一步和第二步；步驟(2)，用戶(hù)輸入査詢(xún)?cè)~《，得到m^={A,...,&}，并依次通過(guò)步驟(1)中所述各模塊，得到多個(gè)個(gè)性化擴(kuò)展查詢(xún)?cè)~以及這些擴(kuò)展査詢(xún)?cè)~與査詢(xún)?cè)~《之間的相似度排序結(jié)果。本發(fā)明的優(yōu)點(diǎn)在于(1)體現(xiàn)用戶(hù)的個(gè)性化查詢(xún)需求，同一査詢(xún)，不同用戶(hù)能夠獲得不同的搜索結(jié)果；(2)查詢(xún)擴(kuò)展不是依據(jù)文檔中詞語(yǔ)的相關(guān)性，而是依據(jù)同一個(gè)用戶(hù)聚類(lèi)內(nèi)所有用戶(hù)提交過(guò)的査詢(xún)?cè)~以及用戶(hù)對(duì)Web搜索引擎給出的結(jié)果的隱式反饋f曰息。圖1是基于協(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展的體系結(jié)構(gòu)；圖2是個(gè)性化查詢(xún)擴(kuò)展的處理流程；圖3是查詢(xún)?cè)~相似度(査詢(xún)?cè)~以collaborativefiltering為例)，其中①查詢(xún)?cè)~協(xié)作過(guò)濾，(2)査詢(xún)擴(kuò)展詞推薦，G)査詢(xún)擴(kuò)展詞聚類(lèi)，④査詢(xún)擴(kuò)展詞信息過(guò)濾，查詢(xún)擴(kuò)展詞計(jì)算機(jī)，⑥査詢(xún)擴(kuò)展詞推薦系統(tǒng)。具體實(shí)施例方式本發(fā)明提出了一種基于協(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展方法，結(jié)合協(xié)作過(guò)濾，利用用戶(hù)群組對(duì)搜索結(jié)果的種種行為體現(xiàn)用戶(hù)的個(gè)性化查詢(xún)以及對(duì)用戶(hù)查詢(xún)進(jìn)行擴(kuò)展，如圖l所示，個(gè)性化查詢(xún)擴(kuò)展包括下述幾個(gè)步驟(l)用戶(hù)興趣學(xué)習(xí)，(2)用戶(hù)聚類(lèi)，(3)查詢(xún)?cè)~處理，主要涉及査詢(xún)?cè)~相似度的計(jì)算，(4)基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展。用戶(hù)興趣學(xué)習(xí)為了實(shí)現(xiàn)個(gè)性化搜索必須了解用戶(hù)的搜索意圖，要建立一種長(zhǎng)期的且能動(dòng)態(tài)更新8的方式來(lái)學(xué)習(xí)用戶(hù)的興趣.對(duì)用戶(hù)興趣的捕捉基于用戶(hù)對(duì)以往搜索結(jié)果的種種動(dòng)作。這里設(shè)定的資源對(duì)象為Web文檔。用戶(hù)提交一項(xiàng)查詢(xún)《，搜索引擎相應(yīng)地給出一組頁(yè)面鏈接集合re^={^，A,...,&}。用戶(hù)對(duì)于集合w中的頁(yè)面鏈接，有些進(jìn)一步打開(kāi)瀏覽，有些下載，這些用戶(hù)動(dòng)作體現(xiàn)了用戶(hù)興趣。不同的用戶(hù)動(dòng)作在用戶(hù)興趣中具有的意義不同。如表l所示用戶(hù)對(duì)搜索結(jié)果的一些主要?jiǎng)幼?，其中UID為用戶(hù)標(biāo)識(shí)，DID為文檔標(biāo)識(shí)，如果一篇文檔實(shí)際存放在多個(gè)位置，則這個(gè)文檔具有多個(gè)DID。表1用戶(hù)訪(fǎng)問(wèn)行為什么時(shí)候出現(xiàn)documentdetails用戶(hù)訪(fǎng)問(wèn)文檔的細(xì)節(jié)頁(yè)面UID，DID,相關(guān)的文檔信息download用戶(hù)下載一篇文檔UID,DIDrate用戶(hù)給一篇文檔評(píng)分UID,DID,評(píng)的分cachedpage用戶(hù)正在瀏覽文檔頁(yè)面UID,DID,頁(yè)碼其中，對(duì)于用戶(hù)瀏覽文檔來(lái)說(shuō)，判斷其對(duì)該文檔的興趣度比較復(fù)雜，本文根據(jù)用戶(hù)瀏覽文檔的時(shí)間長(zhǎng)短來(lái)衡量，直觀的，用戶(hù)"閱讀文檔d時(shí)間越長(zhǎng)，說(shuō)明w對(duì)d的關(guān)注程度越高。設(shè)w閱讀文檔t/的時(shí)間為IV,文檔rf的長(zhǎng)度為i^，則"閱讀d的速度為根據(jù)上述公式計(jì)算用戶(hù)M對(duì)文檔的興趣度為其中""表示用戶(hù)"瀏覽過(guò)所有文檔集合。上式表朋，在用戶(hù)瀏覽過(guò)的文檔中，閱讀速度最慢的可以看作是該用戶(hù)最感興趣的文檔。用戶(hù)對(duì)文檔的其他動(dòng)作對(duì)應(yīng)的興趣度值見(jiàn)表2。_表2用戶(hù)動(dòng)作的興趣值_<table>tableseeoriginaldocumentpage9</column></row><table>對(duì)于用戶(hù)的一次查詢(xún)《，設(shè)定用戶(hù)"對(duì)集合re&中的每項(xiàng)d具有一定的感興趣度mvow",rf值的大小介于[O,l]，則用戶(hù)的興趣表示為"=(<力,w〃7>,<&,w/2_/>,"...',用戶(hù)興趣學(xué)習(xí)(文檔級(jí)別)a.將査詢(xún)《傳到搜索引擎S(例如Google),b.m^-搜索引擎S返回的URL組成的向量，c.對(duì)于raSg的每個(gè)URL，w/i(/=Interestingness(resq[i],action[i])，action[i〗為用戶(hù)對(duì)resq[i]的動(dòng)作，d.利用w"對(duì)m^進(jìn)行排序，用戶(hù)"提交過(guò)多次查詢(xún)后，若對(duì)同一篇文檔d有多種動(dòng)作，其動(dòng)作值為M^，y=/，一，A。則"對(duì)rf的感興趣度為多個(gè)動(dòng)作值的綜合，即MVpmox(H^)+"其中，附ax(^)為取H^中最大值，a為常數(shù)，且滿(mǎn)足0《/^x(《)+ff《1。一般地，a的取值區(qū)間為[O.l，0.3]。由于文檔數(shù)目巨大，相對(duì)地，用戶(hù)反饋過(guò)的文檔數(shù)目過(guò)少，造成用戶(hù)的興趣表示非常稀疏。稀疏的數(shù)據(jù)會(huì)影響用戶(hù)相似度計(jì)算和查詢(xún)擴(kuò)展的質(zhì)量。考慮新的表示方式來(lái)改進(jìn)數(shù)據(jù)稀疏狀況。假定所有文檔具有特定的領(lǐng)域類(lèi)型。領(lǐng)域類(lèi)型集合為C=^7,c2,Cr7，其中r為集合的大小，。表示第f個(gè)領(lǐng)域，則文檔rf表示為一個(gè)條件概率的矢量^^^(c;l^，/KM"),...，p(cH")〉，其中/Kc,IJ)看作文檔d屬于類(lèi)Q的概率。用戶(hù)"對(duì)某一領(lǐng)域。的興趣表示為條件概率A產(chǎn)/^c,W，則用戶(hù)在一次查詢(xún)后對(duì)領(lǐng)域的興趣表示為^=(<";^>，々2,;^〉，...，々r，^r〉)，相對(duì)于文檔數(shù)目來(lái)說(shuō)，領(lǐng)域類(lèi)型的數(shù)目是非常有限的。設(shè)""為用戶(hù)"瀏覽過(guò)的文檔集，則"對(duì)類(lèi)別c,感興趣的概率可表示為"中所有文檔屬于c,概率的加權(quán)平均<formula>formulaseeoriginaldocumentpage10</formula>其中w'ze(A)表示用戶(hù)反饋的文檔總數(shù)，w"是用戶(hù)"對(duì)文檔d的興趣度。用戶(hù)興趣學(xué)習(xí)(領(lǐng)域級(jí)別)a.將査詢(xún)《傳到搜索引擎S(例如Google),b.res^搜索引擎S返回的URL的向量，c.用戶(hù)從M"選擇Z)"，d.對(duì)于Z)中的每一篇文檔如果^屬于c,，貝U有Z0」力f.利用&對(duì)cf(t=1，...，T)進(jìn)行排序。用戶(hù)聚類(lèi)根據(jù)基于領(lǐng)域的用戶(hù)興趣表示方法對(duì)用戶(hù)的聚類(lèi)。一般認(rèn)為同一個(gè)聚類(lèi)內(nèi)的用戶(hù)是相似的；處于不同聚類(lèi)的用戶(hù)是相異的。聚類(lèi)算法有多種，《il^^w聚類(lèi)算法是最常用的基于劃分的方法。它以A:為參數(shù)，把"個(gè)用戶(hù)分為《個(gè)簇，以使簇內(nèi)具有較高的相似度，而簇間的相似度最低。相似度的計(jì)算根據(jù)一個(gè)簇中所有用戶(hù)的平均值(被看作簇的重心)來(lái)進(jìn)行。首先，隨機(jī)地選擇尺個(gè)用戶(hù)，每個(gè)用戶(hù)初始地代表了一個(gè)簇中心。對(duì)剩余的每個(gè)用戶(hù)，根據(jù)其與各個(gè)簇中心的距離，將它賦給最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù)，直到準(zhǔn)則函數(shù)收斂。計(jì)算每個(gè)用戶(hù)對(duì)象&與簇中心Op(p—,…,尺)之間的距離(即與Op的相異度)，最常用的度量方法是歐氏距離，公式為"("C,A)=、t(A。廣A,)2，尸。,其中表示剩余用戶(hù)"c對(duì)領(lǐng)域。的興趣值，S《j(c'l力=氣且"c,n、——，尸。,的值是所有屬于簇的用戶(hù)對(duì)領(lǐng)域類(lèi)型G的興?！狝c)趣值的平均值，即p。t-^"iS;^。利用幻l/M"S聚類(lèi)算法對(duì)用戶(hù)聚類(lèi)計(jì)算步驟如下:a.任意選擇尺個(gè)用戶(hù)作為初始的簇中心，b.根據(jù)與每個(gè)中心的距離,將每個(gè)用戶(hù)對(duì)象賦給"最近"的簇，c.重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型G的平均興趣值，d.重復(fù)上述三個(gè)步驟直至/^-尸w〈f(一般閾值f取10-5)。査詢(xún)相似度計(jì)算用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)Op內(nèi)所有用戶(hù)各自的第Z'次提交的査詢(xún)?cè)~《,相似的由用戶(hù)隱式反饋的査詢(xún)?cè)~組成的列表W'mi^^么，《;,....《》，可按照以下步驟進(jìn)行a.由用戶(hù)提交的查詢(xún)?cè)~化査詢(xún)得到的由搜索引擎給出的一組鏈接集合^~,={山，d2,…，(M，b.利用"以及由用戶(hù)隱式反饋鏈接集合res《:計(jì)算査詢(xún)?cè)~《,和^之間的相似度值間為(O,l)，則把仏:添加到査詢(xún)?cè)~列表w'附h'W,5的取值需要根據(jù)該算法實(shí)施到的實(shí)際系統(tǒng)調(diào)整?；趨f(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展對(duì)于目標(biāo)用戶(hù)"，針對(duì)其提交的査詢(xún)&對(duì)該査詢(xún)進(jìn)行擴(kuò)展的基本流程是a.構(gòu)造屬于用戶(hù)聚類(lèi)op的原始查詢(xún)?cè)~和擴(kuò)展査詢(xún)?cè)~的組合，用《+Z義A表示，b.把所述原始査詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎，得到擴(kuò)展査詢(xún)?cè)~，c.當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí)，重復(fù)上述第一步和第二步，步驟二，用戶(hù)輸入査詢(xún)?cè)~《，得到m^H力，并依次通過(guò)步驟一中所述各模塊，得到個(gè)性化擴(kuò)展查詢(xún)?cè)~。如圖1所示是個(gè)性化查詢(xún)擴(kuò)展的處理流程。我們開(kāi)發(fā)了一個(gè)關(guān)于學(xué)術(shù)資源的個(gè)性化服務(wù)平臺(tái)，新用戶(hù)登錄到該系統(tǒng),輸入查詢(xún)?cè)~,系統(tǒng)返回搜索結(jié)果,用戶(hù)對(duì)搜索結(jié)果進(jìn)行瀏覽、下載、打分、收藏等操作。當(dāng)用戶(hù)再次登錄到該系統(tǒng),輸入査詢(xún)?cè)~時(shí),系統(tǒng)將提示有一組詞語(yǔ)可以作為當(dāng)前查詢(xún)的擴(kuò)展詞,輔助用戶(hù)査詢(xún)。系統(tǒng)收集了從2006年6月到2007年4月之間計(jì)算機(jī)系30位學(xué)生老師的搜索記錄，對(duì)個(gè)性化查詢(xún)擴(kuò)展算法的測(cè)試?yán)昧藘蓚€(gè)數(shù)據(jù)集進(jìn)行測(cè)試。其中數(shù)據(jù)集1下載自Citeseer系統(tǒng)的1700篇文檔，17個(gè)類(lèi)，每個(gè)類(lèi)別包含IOO篇；數(shù)據(jù)集2包含2312篇論文，屬于6個(gè)類(lèi)另lJ:Agents,ArtificialIntelligence(AI)，Database(DB)，InformationRetrieval(IR),MachineLearning(ML)，HumanComputerInteraction(HCI)，每個(gè)類(lèi)另U的文檔數(shù)目大致相等。用戶(hù)提交査詢(xún)關(guān)鍵詞collaborativefiltering,系統(tǒng)計(jì)算得到和査詢(xún)?cè)~collaborativefiltering最相似的五個(gè)短語(yǔ)recommendation、clustering、informationfiltering、computer、recommendersystem,它們與collaborativefiltering之間的相似度分另)J為0.83、0.43、0.35、0.52、0.80，如圖3所示，按相似度從大到小排序得到擴(kuò)展組合collaborativefiltering禾口recommendation、collaborativefiltering禾口recommendersystem、collaborativefiltering禾Bclustering、collaborativefiltering和computer、collaborativefiltering和informationfiltering,提交給系統(tǒng)進(jìn)行擴(kuò)展査詢(xún)。權(quán)利要求1.一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法，其特征在于，所述方法是在計(jì)算機(jī)中依次按以下步驟進(jìn)行的步驟(1)初始化在所述計(jì)算機(jī)中設(shè)定以下模塊用戶(hù)興趣學(xué)習(xí)模塊、用戶(hù)聚類(lèi)模塊、查詢(xún)?cè)~相似度計(jì)算模塊以及基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊，其中用戶(hù)興趣學(xué)習(xí)模塊設(shè)定用戶(hù)動(dòng)作以及該用戶(hù)動(dòng)作對(duì)應(yīng)的興趣值的映射表a.用于下載文檔的興趣值為0.8，b.用于為文檔評(píng)分的興趣值為評(píng)分值/滿(mǎn)分值，評(píng)分值由用戶(hù)設(shè)定，用戶(hù)根據(jù)對(duì)文檔內(nèi)容的興趣度以及文檔外觀的怎樣打分，滿(mǎn)分值為5分，c.用于為文檔添加書(shū)簽的興趣值為1，d.用于為文檔刪除的書(shū)簽的興趣值為-1，e.在文檔級(jí)別上，用戶(hù)u瀏覽文檔d的興趣度為，wu，d＝P(spd(u，d)≤spd(u，d’|d’∈Du))，其中spd(u，d)為用戶(hù)u閱讀文檔d的速度，spd(u，d)＝Ld/Td，Ld為文檔d的長(zhǎng)度，Td為用戶(hù)u閱讀文檔d的時(shí)長(zhǎng)，Du為用戶(hù)u瀏覽過(guò)的所有文檔的集合，用戶(hù)u閱讀速度最慢的文檔是最感興趣的文檔，用1表示；所述在文檔級(jí)別上的興趣度按下式計(jì)算wu，d＝spd(u，d)/spd(u，d’)，其中d’表示用戶(hù)u閱讀速度最快的文章，用戶(hù)提交過(guò)多次查詢(xún)后，對(duì)同一篇文檔d有多種動(dòng)作，其綜合興趣度用w′u，d表示<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mi>j</mi></msubsup><mo>=</mo><mi>max</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mi>j</mi></msubsup><mo>)</mo></mrow><mo>+</mo><mi>α</mi><mo>,</mo></mrow>]]></math>id="icf0001"file="A2008102237690002C1.tif"wi="36"he="5"top="229"left="21"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>j＝1，…，λ，j為用戶(hù)動(dòng)作序號(hào)，wu，dj為序號(hào)為j的用戶(hù)動(dòng)作的興趣值，α在中取值，g.在領(lǐng)域級(jí)別上用戶(hù)u瀏覽文檔d的興趣度為Put，公式如下<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mi>P</mi><mi>ut</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>t</mi></msub><mo>|</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><mi>d</mi><mo>&Element;</mo><msub><mi>D</mi><mi>u</mi></msub><mo>,</mo><mi>d</mi><mo>&Element;</mo><msub><mi>c</mi><mi>t</mi></msub></mrow></munder><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mo>′</mo></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>t</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>size</mi><mrow><mo>(</mo><msub><mi>D</mi><mi>u</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math></maths>其中，ct為序號(hào)為t的領(lǐng)域類(lèi)型，所述領(lǐng)域類(lèi)型的集合C＝{c1，c2，...，cT}，T為該領(lǐng)域類(lèi)型C的大小，P(ct|d)為文檔d屬于領(lǐng)域ct的條件概率，Du為用戶(hù)u瀏覽過(guò)的所有文檔集合，size(Du)為用戶(hù)反饋的文檔數(shù)；用戶(hù)聚類(lèi)模塊，用下述KMeans聚類(lèi)對(duì)所以閱讀過(guò)文檔的用戶(hù)分類(lèi)，其步驟為第一步隨機(jī)選擇K個(gè)用戶(hù)，其中每個(gè)用戶(hù)k初始代表一個(gè)簇中心op，p＝1，...，K，第二步計(jì)算剩余的每個(gè)用戶(hù)uc各自與各個(gè)簇中心op的歐氏距離<mathsid="math0003"num="0003"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>c</mi></msub><mo>,</mo><msub><mi>O</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mrow><mo>(</mo><msub><mi>p</mi><mrow><msub><mi>u</mi><mi>c</mi></msub><mi>t</mi></mrow></msub><mo>-</mo><msub><mi>p</mi><mi>ot</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>,</mo></mrow>]]></math>id="icf0003"file="A2008102237690003C2.tif"wi="49"he="11"top="103"left="28"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中，id="icf0004"file="A2008102237690003C3.tif"wi="6"he="5"top="107"left="92"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>表示剩余用戶(hù)uc對(duì)領(lǐng)域的ct興趣值，Pot表示屬于簇op的用戶(hù)對(duì)所述領(lǐng)域類(lèi)型ct的平均興趣值，<mathsid="math0004"num="0004"><math><![CDATA[<mrow><msub><mi>p</mi><mi>ot</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><mo>|</mo><msub><mi>O</mi><mi>p</mi></msub><mo>|</mo></mrow></mfrac><munder><mi>Σ</mi><mrow><mi>u</mi><mo>&Element;</mo><msub><mi>O</mi><mi>p</mi></msub></mrow></munder><msub><mi>p</mi><mi>ut</mi></msub><mo>,</mo></mrow>]]></math>id="icf0005"file="A2008102237690003C4.tif"wi="30"he="11"top="120"left="113"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>op為所述簇中心的大小，第三步根據(jù)所述剩余的每個(gè)用戶(hù)uc與各個(gè)簇中的op的距離，把uc給最近的簇中心，第四步重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型ct的平均興趣值，第五步重復(fù)上述第一到第四步，直至<mathsid="math0005"num="0005"><math><![CDATA[<mrow><msub><mi>P</mi><mrow><msub><mi>u</mi><mi>c</mi></msub><mi>t</mi></mrow></msub><mo>-</mo><msub><mi>P</mi><mi>ot</mi></msub><mo><</mo><mi>ϵ</mi><mo>,</mo></mrow>]]></math>id="icf0006"file="A2008102237690003C5.tif"wi="21"he="7"top="170"left="105"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>閾值ε取10-5；查詢(xún)相似度計(jì)算模塊，用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)op內(nèi)所有用戶(hù)各自的第i次提交的查詢(xún)?cè)~qi相似的由用戶(hù)隱式反饋的查詢(xún)?cè)~q′i組成的列表simList＝{q′1，q′2，...，q′t}，所述相似查詢(xún)?cè)~qi滿(mǎn)足以下條件由用戶(hù)提交的查詢(xún)?cè)~qi查詢(xún)得到的由搜索引擎給出的一組鏈接集合<mathsid="math0006"num="0006"><math><![CDATA[<mrow><msub><mi>res</mi><msub><mi>q</mi><mi>i</mi></msub></msub><mo>=</mo><mo>{</mo><msub><mi>d</mi><mn>1</mn></msub><mo>,</mo><msub><mi>d</mi><mn>2</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>d</mi><mi>n</mi></msub><mo>}</mo><mo>,</mo></mrow>]]></math>id="icf0007"file="A2008102237690003C6.tif"wi="39"he="5"top="211"left="149"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>以及由用戶(hù)隱式反饋鏈接集合resq′i來(lái)計(jì)算兩個(gè)查詢(xún)?cè)~qi，q′i之間的相似度，其公式為<mathsid="math0007"num="0007"><math><![CDATA[<mrow><mi>similarity</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msubsup><mi>q</mi><mi>i</mi><mo>′</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msubsup><mi>w</mi><mi>k</mi><mi>i</mi></msubsup><mo>*</mo><msubsup><mi>w</mi><mi>k</mi><msup><mi>i</mi><mo>′</mo></msup></msubsup></mrow><msqrt><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>k</mi><mi>i</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>*</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>k</mi><msup><mi>i</mi><mo>′</mo></msup></msubsup><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac></mrow>]]></math></maths>當(dāng)計(jì)算得到的相似值similarity(qi，q′i)大于給定閾值δ，δ取值區(qū)間為(0，1]，則將q′i添加到所述simList表中，否則舍去；基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊；第一步，構(gòu)造屬于用戶(hù)聚類(lèi)op的原始查詢(xún)?cè)~和擴(kuò)展查詢(xún)?cè)~的組合，用id="icf0009"file="A2008102237690004C1.tif"wi="23"he="8"top="41"left="166"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>表示，qi∈simList，λi為-1或1，第二步，把所述原始查詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎，得到擴(kuò)展查詢(xún)?cè)~，第三步，當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí)，重復(fù)上述第一步和第二步；步驟(2)，用戶(hù)輸入查詢(xún)?cè)~q，得到resq＝{d1，d2，...，dn}，并依次通過(guò)步驟(1)中所述各模塊，得到多個(gè)個(gè)性化擴(kuò)展查詢(xún)?cè)~以及這些擴(kuò)展查詢(xún)?cè)~與查詢(xún)?cè)~q之間的相似度排序結(jié)果。全文摘要一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法，屬于個(gè)性化服務(wù)領(lǐng)域，其特征是利用用戶(hù)群組對(duì)搜索結(jié)果的種種行為作為對(duì)詞與詞之間關(guān)系分析的依據(jù)，而不是依據(jù)文檔中詞語(yǔ)的相關(guān)性。根據(jù)同一個(gè)用戶(hù)聚類(lèi)內(nèi)所有用戶(hù)提交過(guò)的查詢(xún)?cè)~以及用戶(hù)對(duì)Web搜索引擎給出的結(jié)果的隱式反饋信息而進(jìn)行查詢(xún)擴(kuò)展。該算法不需要用戶(hù)人為地填寫(xiě)或修改個(gè)人興趣，而是基于用戶(hù)以往對(duì)搜索結(jié)果的種種動(dòng)作，保證了用戶(hù)興趣的持久更新。文檔編號(hào)G06F17/30GK101408897SQ200810223769公開(kāi)日2009年4月15日申請(qǐng)日期2008年10月10日優(yōu)先權(quán)日2008年10月10日發(fā)明者莉周,勇張,邢春曉申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周莉;張勇;邢春曉
技術(shù)所有人：清華大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法