專(zhuān)利名稱(chēng)::一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于個(gè)性化服務(wù)領(lǐng)域,具體涉及一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法。
背景技術(shù):
:Web信息的日益增長(zhǎng),使人們不得不花費(fèi)大量的時(shí)間搜索和瀏覽自己需要的信息。傳統(tǒng)的搜索引擎比如AltaVista(www.altavista.com)、Yahoo!(www.yahoo.com)和新一代的搜索引擎比如Google(www.google.com)滿(mǎn)足了人們一定的需要,但由于其通用的性質(zhì),仍不能滿(mǎn)足不同背景、不同目的和不同時(shí)期的個(gè)性化查詢(xún)需求。另外,電子商務(wù)應(yīng)用的日益普及,越來(lái)越多的商品可供人們從因特網(wǎng)上挑選和購(gòu)買(mǎi)。盡管人們可以更加輕松地買(mǎi)到自己需要的物品,但網(wǎng)上琳瑯滿(mǎn)目,千差萬(wàn)別的商品使消費(fèi)者很難選擇自己中意的產(chǎn)品。通常,人們很想了解別人的看法,并希望有人向他們進(jìn)行推薦。另外,隨著互聯(lián)網(wǎng)上的資源的日益增多,如何對(duì)自己感興趣的資源進(jìn)行管理也成為人們?cè)絹?lái)越關(guān)心的問(wèn)題。很多方面都涉及到個(gè)性化服務(wù)的需求,由于本發(fā)明的著重點(diǎn)在個(gè)性化搜索,這里以個(gè)性化搜索作為主要
背景技術(shù):
描述。用戶(hù)希望從搜索引擎中獲得最貼近自己需要的信息,即對(duì)于同一査詢(xún),不同用戶(hù)能夠獲得不同的搜索結(jié)果。例如,同樣的査詢(xún)"蘋(píng)果",有的用戶(hù)希望"蘋(píng)果"作為一種水果,獲得它的相關(guān)信息;而另外的用戶(hù)可能希望"蘋(píng)果"作為一種計(jì)算機(jī)品牌,獲取相關(guān)信息。有研究表明網(wǎng)絡(luò)用戶(hù)用于搜索的査詢(xún)85%是短查詢(xún),該類(lèi)査詢(xún)一般包括3個(gè)或更少數(shù)目的查詢(xún)單詞。因此,用戶(hù)提交的査詢(xún)通常不能充分表達(dá)出搜索相關(guān)文檔所需的信息。目前,Web搜索引擎廣泛采用自動(dòng)?xùn)嗽?xún)擴(kuò)展方法來(lái)解決這個(gè)問(wèn)題,并獲得了成功。即在原來(lái)査詢(xún)的基礎(chǔ)上,加入與用戶(hù)用詞相關(guān)聯(lián)的詞組成新查詢(xún),這在一定程度上彌補(bǔ)了用戶(hù)査詢(xún)信息的不足。對(duì)用戶(hù)提交的査詢(xún)進(jìn)行擴(kuò)展可以提高查詢(xún)的準(zhǔn)確性,但由于搜索引擎作為通用查詢(xún)工具,很難做到用戶(hù)間差異性,也就是說(shuō)很難實(shí)現(xiàn)深入的個(gè)性化搜索。
發(fā)明內(nèi)容本發(fā)明的目的是提供一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法來(lái)解決査詢(xún)個(gè)性化問(wèn)題。本發(fā)明的特征在于,所述方法是在計(jì)算機(jī)中依次按以下步驟進(jìn)行的步驟(1)初始化在所述計(jì)算機(jī)中設(shè)定以下模塊用戶(hù)興趣學(xué)習(xí)模塊、用戶(hù)聚類(lèi)模塊、査詢(xún)?cè)~相似度計(jì)算模塊以及基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊,其中用戶(hù)興趣學(xué)習(xí)模塊設(shè)定用戶(hù)動(dòng)作以及該用戶(hù)動(dòng)作對(duì)應(yīng)的興趣值的映射表a.用于下載文檔的興趣值為0.8,b.用于為文檔評(píng)分的興趣值為評(píng)分值/滿(mǎn)分值,評(píng)分值由用戶(hù)設(shè)定,用戶(hù)根據(jù)對(duì)文檔內(nèi)容的興趣度以及文檔外觀的怎樣打分,滿(mǎn)分值為5分,C.用于為文檔添加書(shū)簽的興趣值為1,d.用于為文檔刪除的書(shū)簽的興趣值為-1,e.在文檔級(jí)別上,用戶(hù)"瀏覽文檔rf的興趣度為,MVf尸(印rf,"《矽J,d'ld,eDJ),其中印flf,力為用戶(hù)"閱讀文檔的速度,^^M,^=£rf/rrf,丄rf為文檔d的長(zhǎng)度,D為用戶(hù)"閱讀文檔rf的時(shí)長(zhǎng),i)"為用戶(hù)w瀏覽過(guò)的所有文檔的集合,用戶(hù)"閱讀速度最慢的文檔是最感興趣的文檔,用1表示;所述在文檔級(jí)別上的興趣度按下式計(jì)算mv/"/^,力"/^^,cT力其中『表示用戶(hù)"閱讀速度最快的文章,用戶(hù)提交過(guò)多次査詢(xún)后,對(duì)同一篇文檔d有多種動(dòng)作,其綜合興趣度用M^表示<rf=max(<rf)+c,y=7,''',A,y為用戶(hù)動(dòng)作序號(hào),M^為序號(hào)為乂的用戶(hù)動(dòng)作的興趣值,"在中取值,e.在領(lǐng)域級(jí)別上用戶(hù)"瀏覽文檔d的興趣度為尸w,公式如下<formula>formulaseeoriginaldocumentpage7</formula>其中,^為序號(hào)為f的領(lǐng)域類(lèi)型,所述領(lǐng)域類(lèi)型的集合0{^,^,...,^},r為該領(lǐng)域類(lèi)型C的大小,尸(c,kO為文檔d屬于領(lǐng)域G的條件概率,D"為用戶(hù)"瀏覽過(guò)的所有文檔集合,ak(AO為用戶(hù)反饋的文檔數(shù);用戶(hù)聚類(lèi)模塊,用下述KMea^聚類(lèi)對(duì)所以閱讀過(guò)文檔的用戶(hù)分類(lèi),其步驟為-第一步隨機(jī)選擇《個(gè)用戶(hù),其中每個(gè)用戶(hù)A初始代表一個(gè)簇中心op,/^厶...,《,第二步計(jì)算剩余的每個(gè)用戶(hù)"c各自與各個(gè)簇中心Op的歐氏距離"("c,Op)-、Z(/^-;。,)2,其中,i^表示剩余用戶(hù)"c對(duì)領(lǐng)域的c,興趣值,尸。,表示屬于簇^的用戶(hù)對(duì)所述領(lǐng)域類(lèi)型Q的平均興趣值,P。t=「、S/^,^為所述簇中心的大小,第三步根據(jù)所述剩余的每個(gè)用戶(hù)"c與各個(gè)簇中的Op的距離,把"c給最近的簇中心,第四步重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型C,的平均興趣值,第五步重復(fù)上述第一到第四步,直至i^-尸。,C,閾值f取l(TS;查詢(xún)相似度計(jì)算模塊,用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)Op內(nèi)所有用戶(hù)各自的第Z'次提交的査詢(xún)?cè)~仏相似的由用戶(hù)隱式反饋的査詢(xún)?cè)~&:組成的列表"m丄W-(^,^,...,^,所述相似査詢(xún)?cè)~gr滿(mǎn)足以下條件由用戶(hù)提交的査詢(xún)?cè)~A查詢(xún)得到的由搜索引擎給出的一組鏈接集合re^={&,A,...,&},以及由用戶(hù)隱式反饋鏈接集合res^來(lái)計(jì)算兩個(gè)查詢(xún)?cè)~^,、之間的相似度,其公式為當(dāng)計(jì)算得到的相似值w7m7fln'OY^,^)大于給定閾值5,5取值區(qū)間為(O,l),則將《:添加到所述表中,否則舍去;基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊;第一步,構(gòu)造屬于用戶(hù)聚類(lèi)%的原始查詢(xún)?cè)~和擴(kuò)展査詢(xún)?cè)~的組合,用《+Z表示,《/S57'W丄抓A,.為-l或1,第二步,把所述原始查詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎,得到擴(kuò)展查詢(xún)?cè)~,第三步,當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí),重復(fù)上述第一步和第二步;步驟(2),用戶(hù)輸入査詢(xún)?cè)~《,得到m^={A,...,&},并依次通過(guò)步驟(1)中所述各模塊,得到多個(gè)個(gè)性化擴(kuò)展查詢(xún)?cè)~以及這些擴(kuò)展査詢(xún)?cè)~與査詢(xún)?cè)~《之間的相似度排序結(jié)果。本發(fā)明的優(yōu)點(diǎn)在于(1)體現(xiàn)用戶(hù)的個(gè)性化查詢(xún)需求,同一査詢(xún),不同用戶(hù)能夠獲得不同的搜索結(jié)果;(2)查詢(xún)擴(kuò)展不是依據(jù)文檔中詞語(yǔ)的相關(guān)性,而是依據(jù)同一個(gè)用戶(hù)聚類(lèi)內(nèi)所有用戶(hù)提交過(guò)的査詢(xún)?cè)~以及用戶(hù)對(duì)Web搜索引擎給出的結(jié)果的隱式反饋f曰息。圖1是基于協(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展的體系結(jié)構(gòu);圖2是個(gè)性化查詢(xún)擴(kuò)展的處理流程;圖3是查詢(xún)?cè)~相似度(査詢(xún)?cè)~以collaborativefiltering為例),其中①查詢(xún)?cè)~協(xié)作過(guò)濾,(2)査詢(xún)擴(kuò)展詞推薦,G)査詢(xún)擴(kuò)展詞聚類(lèi),④査詢(xún)擴(kuò)展詞信息過(guò)濾,查詢(xún)擴(kuò)展詞計(jì)算機(jī),⑥査詢(xún)擴(kuò)展詞推薦系統(tǒng)。具體實(shí)施例方式本發(fā)明提出了一種基于協(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展方法,結(jié)合協(xié)作過(guò)濾,利用用戶(hù)群組對(duì)搜索結(jié)果的種種行為體現(xiàn)用戶(hù)的個(gè)性化查詢(xún)以及對(duì)用戶(hù)查詢(xún)進(jìn)行擴(kuò)展,如圖l所示,個(gè)性化查詢(xún)擴(kuò)展包括下述幾個(gè)步驟(l)用戶(hù)興趣學(xué)習(xí),(2)用戶(hù)聚類(lèi),(3)查詢(xún)?cè)~處理,主要涉及査詢(xún)?cè)~相似度的計(jì)算,(4)基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展。用戶(hù)興趣學(xué)習(xí)為了實(shí)現(xiàn)個(gè)性化搜索必須了解用戶(hù)的搜索意圖,要建立一種長(zhǎng)期的且能動(dòng)態(tài)更新8的方式來(lái)學(xué)習(xí)用戶(hù)的興趣.對(duì)用戶(hù)興趣的捕捉基于用戶(hù)對(duì)以往搜索結(jié)果的種種動(dòng)作。這里設(shè)定的資源對(duì)象為Web文檔。用戶(hù)提交一項(xiàng)查詢(xún)《,搜索引擎相應(yīng)地給出一組頁(yè)面鏈接集合re^={^,A,...,&}。用戶(hù)對(duì)于集合w中的頁(yè)面鏈接,有些進(jìn)一步打開(kāi)瀏覽,有些下載,這些用戶(hù)動(dòng)作體現(xiàn)了用戶(hù)興趣。不同的用戶(hù)動(dòng)作在用戶(hù)興趣中具有的意義不同。如表l所示用戶(hù)對(duì)搜索結(jié)果的一些主要?jiǎng)幼?,其中UID為用戶(hù)標(biāo)識(shí),DID為文檔標(biāo)識(shí),如果一篇文檔實(shí)際存放在多個(gè)位置,則這個(gè)文檔具有多個(gè)DID。表1用戶(hù)訪(fǎng)問(wèn)行為什么時(shí)候出現(xiàn)documentdetails用戶(hù)訪(fǎng)問(wèn)文檔的細(xì)節(jié)頁(yè)面UID,DID,相關(guān)的文檔信息download用戶(hù)下載一篇文檔UID,DIDrate用戶(hù)給一篇文檔評(píng)分UID,DID,評(píng)的分cachedpage用戶(hù)正在瀏覽文檔頁(yè)面UID,DID,頁(yè)碼其中,對(duì)于用戶(hù)瀏覽文檔來(lái)說(shuō),判斷其對(duì)該文檔的興趣度比較復(fù)雜,本文根據(jù)用戶(hù)瀏覽文檔的時(shí)間長(zhǎng)短來(lái)衡量,直觀的,用戶(hù)"閱讀文檔d時(shí)間越長(zhǎng),說(shuō)明w對(duì)d的關(guān)注程度越高。設(shè)w閱讀文檔t/的時(shí)間為IV,文檔rf的長(zhǎng)度為i^,則"閱讀d的速度為根據(jù)上述公式計(jì)算用戶(hù)M對(duì)文檔的興趣度為其中""表示用戶(hù)"瀏覽過(guò)所有文檔集合。上式表朋,在用戶(hù)瀏覽過(guò)的文檔中,閱讀速度最慢的可以看作是該用戶(hù)最感興趣的文檔。用戶(hù)對(duì)文檔的其他動(dòng)作對(duì)應(yīng)的興趣度值見(jiàn)表2。_表2用戶(hù)動(dòng)作的興趣值_<table>tableseeoriginaldocumentpage9</column></row><table>對(duì)于用戶(hù)的一次查詢(xún)《,設(shè)定用戶(hù)"對(duì)集合re&中的每項(xiàng)d具有一定的感興趣度mvow",rf值的大小介于[O,l],則用戶(hù)的興趣表示為"=(<力,w〃7>,<&,w/2_/>,"...',用戶(hù)興趣學(xué)習(xí)(文檔級(jí)別)a.將査詢(xún)《傳到搜索引擎S(例如Google),b.m^-搜索引擎S返回的URL組成的向量,c.對(duì)于raSg的每個(gè)URL,w/i(/=Interestingness(resq[i],action[i]),action[i〗為用戶(hù)對(duì)resq[i]的動(dòng)作,d.利用w"對(duì)m^進(jìn)行排序,用戶(hù)"提交過(guò)多次查詢(xún)后,若對(duì)同一篇文檔d有多種動(dòng)作,其動(dòng)作值為M^,y=/,一,A。則"對(duì)rf的感興趣度為多個(gè)動(dòng)作值的綜合,即MVpmox(H^)+"其中,附ax(^)為取H^中最大值,a為常數(shù),且滿(mǎn)足0《/^x(《)+ff《1。一般地,a的取值區(qū)間為[O.l,0.3]。由于文檔數(shù)目巨大,相對(duì)地,用戶(hù)反饋過(guò)的文檔數(shù)目過(guò)少,造成用戶(hù)的興趣表示非常稀疏。稀疏的數(shù)據(jù)會(huì)影響用戶(hù)相似度計(jì)算和查詢(xún)擴(kuò)展的質(zhì)量。考慮新的表示方式來(lái)改進(jìn)數(shù)據(jù)稀疏狀況。假定所有文檔具有特定的領(lǐng)域類(lèi)型。領(lǐng)域類(lèi)型集合為C=^7,c2,Cr7,其中r為集合的大小,。表示第f個(gè)領(lǐng)域,則文檔rf表示為一個(gè)條件概率的矢量^^^(c;l^,/KM"),...,p(cH")〉,其中/Kc,IJ)看作文檔d屬于類(lèi)Q的概率。用戶(hù)"對(duì)某一領(lǐng)域。的興趣表示為條件概率A產(chǎn)/^c,W,則用戶(hù)在一次查詢(xún)后對(duì)領(lǐng)域的興趣表示為^=(<";^>,々2,;^〉,...,々r,^r〉),相對(duì)于文檔數(shù)目來(lái)說(shuō),領(lǐng)域類(lèi)型的數(shù)目是非常有限的。設(shè)""為用戶(hù)"瀏覽過(guò)的文檔集,則"對(duì)類(lèi)別c,感興趣的概率可表示為"中所有文檔屬于c,概率的加權(quán)平均<formula>formulaseeoriginaldocumentpage10</formula>其中w'ze(A)表示用戶(hù)反饋的文檔總數(shù),w"是用戶(hù)"對(duì)文檔d的興趣度。用戶(hù)興趣學(xué)習(xí)(領(lǐng)域級(jí)別)a.將査詢(xún)《傳到搜索引擎S(例如Google),b.res^搜索引擎S返回的URL的向量,c.用戶(hù)從M"選擇Z)",d.對(duì)于Z)中的每一篇文檔如果^屬于c,,貝U有Z0」力f.利用&對(duì)cf(t=1,...,T)進(jìn)行排序。用戶(hù)聚類(lèi)根據(jù)基于領(lǐng)域的用戶(hù)興趣表示方法對(duì)用戶(hù)的聚類(lèi)。一般認(rèn)為同一個(gè)聚類(lèi)內(nèi)的用戶(hù)是相似的;處于不同聚類(lèi)的用戶(hù)是相異的。聚類(lèi)算法有多種,《il^^w聚類(lèi)算法是最常用的基于劃分的方法。它以A:為參數(shù),把"個(gè)用戶(hù)分為《個(gè)簇,以使簇內(nèi)具有較高的相似度,而簇間的相似度最低。相似度的計(jì)算根據(jù)一個(gè)簇中所有用戶(hù)的平均值(被看作簇的重心)來(lái)進(jìn)行。首先,隨機(jī)地選擇尺個(gè)用戶(hù),每個(gè)用戶(hù)初始地代表了一個(gè)簇中心。對(duì)剩余的每個(gè)用戶(hù),根據(jù)其與各個(gè)簇中心的距離,將它賦給最近的簇。然后重新計(jì)算每個(gè)簇的平均值。這個(gè)過(guò)程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。計(jì)算每個(gè)用戶(hù)對(duì)象&與簇中心Op(p—,…,尺)之間的距離(即與Op的相異度),最常用的度量方法是歐氏距離,公式為"("C,A)=、t(A。廣A,)2,尸。,其中表示剩余用戶(hù)"c對(duì)領(lǐng)域。的興趣值,S《j(c'l力=氣且"c,n、——,尸。,的值是所有屬于簇的用戶(hù)對(duì)領(lǐng)域類(lèi)型G的興?!狝c)趣值的平均值,即p。t-^"iS;^。利用幻l/M"S聚類(lèi)算法對(duì)用戶(hù)聚類(lèi)計(jì)算步驟如下:a.任意選擇尺個(gè)用戶(hù)作為初始的簇中心,b.根據(jù)與每個(gè)中心的距離,將每個(gè)用戶(hù)對(duì)象賦給"最近"的簇,c.重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型G的平均興趣值,d.重復(fù)上述三個(gè)步驟直至/^-尸w〈f(一般閾值f取10-5)。査詢(xún)相似度計(jì)算用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)Op內(nèi)所有用戶(hù)各自的第Z'次提交的査詢(xún)?cè)~《,相似的由用戶(hù)隱式反饋的査詢(xún)?cè)~組成的列表W'mi^^么,《;,....《》,可按照以下步驟進(jìn)行a.由用戶(hù)提交的查詢(xún)?cè)~化査詢(xún)得到的由搜索引擎給出的一組鏈接集合^~,={山,d2,…,(M,b.利用"以及由用戶(hù)隱式反饋鏈接集合res《:計(jì)算査詢(xún)?cè)~《,和^之間的相似度值間為(O,l),則把仏:添加到査詢(xún)?cè)~列表w'附h'W,5的取值需要根據(jù)該算法實(shí)施到的實(shí)際系統(tǒng)調(diào)整?;趨f(xié)作過(guò)濾的個(gè)性化査詢(xún)擴(kuò)展對(duì)于目標(biāo)用戶(hù)",針對(duì)其提交的査詢(xún)&對(duì)該査詢(xún)進(jìn)行擴(kuò)展的基本流程是a.構(gòu)造屬于用戶(hù)聚類(lèi)op的原始查詢(xún)?cè)~和擴(kuò)展査詢(xún)?cè)~的組合,用《+Z義A表示,b.把所述原始査詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎,得到擴(kuò)展査詢(xún)?cè)~,c.當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí),重復(fù)上述第一步和第二步,步驟二,用戶(hù)輸入査詢(xún)?cè)~《,得到m^H力,并依次通過(guò)步驟一中所述各模塊,得到個(gè)性化擴(kuò)展查詢(xún)?cè)~。如圖1所示是個(gè)性化查詢(xún)擴(kuò)展的處理流程。我們開(kāi)發(fā)了一個(gè)關(guān)于學(xué)術(shù)資源的個(gè)性化服務(wù)平臺(tái),新用戶(hù)登錄到該系統(tǒng),輸入查詢(xún)?cè)~,系統(tǒng)返回搜索結(jié)果,用戶(hù)對(duì)搜索結(jié)果進(jìn)行瀏覽、下載、打分、收藏等操作。當(dāng)用戶(hù)再次登錄到該系統(tǒng),輸入査詢(xún)?cè)~時(shí),系統(tǒng)將提示有一組詞語(yǔ)可以作為當(dāng)前查詢(xún)的擴(kuò)展詞,輔助用戶(hù)査詢(xún)。系統(tǒng)收集了從2006年6月到2007年4月之間計(jì)算機(jī)系30位學(xué)生老師的搜索記錄,對(duì)個(gè)性化查詢(xún)擴(kuò)展算法的測(cè)試?yán)昧藘蓚€(gè)數(shù)據(jù)集進(jìn)行測(cè)試。其中數(shù)據(jù)集1下載自Citeseer系統(tǒng)的1700篇文檔,17個(gè)類(lèi),每個(gè)類(lèi)別包含IOO篇;數(shù)據(jù)集2包含2312篇論文,屬于6個(gè)類(lèi)另lJ:Agents,ArtificialIntelligence(AI),Database(DB),InformationRetrieval(IR),MachineLearning(ML),HumanComputerInteraction(HCI),每個(gè)類(lèi)另U的文檔數(shù)目大致相等。用戶(hù)提交査詢(xún)關(guān)鍵詞collaborativefiltering,系統(tǒng)計(jì)算得到和査詢(xún)?cè)~collaborativefiltering最相似的五個(gè)短語(yǔ)recommendation、clustering、informationfiltering、computer、recommendersystem,它們與collaborativefiltering之間的相似度分另)J為0.83、0.43、0.35、0.52、0.80,如圖3所示,按相似度從大到小排序得到擴(kuò)展組合collaborativefiltering禾口recommendation、collaborativefiltering禾口recommendersystem、collaborativefiltering禾Bclustering、collaborativefiltering和computer、collaborativefiltering和informationfiltering,提交給系統(tǒng)進(jìn)行擴(kuò)展査詢(xún)。權(quán)利要求1.一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法,其特征在于,所述方法是在計(jì)算機(jī)中依次按以下步驟進(jìn)行的步驟(1)初始化在所述計(jì)算機(jī)中設(shè)定以下模塊用戶(hù)興趣學(xué)習(xí)模塊、用戶(hù)聚類(lèi)模塊、查詢(xún)?cè)~相似度計(jì)算模塊以及基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊,其中用戶(hù)興趣學(xué)習(xí)模塊設(shè)定用戶(hù)動(dòng)作以及該用戶(hù)動(dòng)作對(duì)應(yīng)的興趣值的映射表a.用于下載文檔的興趣值為0.8,b.用于為文檔評(píng)分的興趣值為評(píng)分值/滿(mǎn)分值,評(píng)分值由用戶(hù)設(shè)定,用戶(hù)根據(jù)對(duì)文檔內(nèi)容的興趣度以及文檔外觀的怎樣打分,滿(mǎn)分值為5分,c.用于為文檔添加書(shū)簽的興趣值為1,d.用于為文檔刪除的書(shū)簽的興趣值為-1,e.在文檔級(jí)別上,用戶(hù)u瀏覽文檔d的興趣度為,wu,d=P(spd(u,d)≤spd(u,d’|d’∈Du)),其中spd(u,d)為用戶(hù)u閱讀文檔d的速度,spd(u,d)=Ld/Td,Ld為文檔d的長(zhǎng)度,Td為用戶(hù)u閱讀文檔d的時(shí)長(zhǎng),Du為用戶(hù)u瀏覽過(guò)的所有文檔的集合,用戶(hù)u閱讀速度最慢的文檔是最感興趣的文檔,用1表示;所述在文檔級(jí)別上的興趣度按下式計(jì)算wu,d=spd(u,d)/spd(u,d’),其中d’表示用戶(hù)u閱讀速度最快的文章,用戶(hù)提交過(guò)多次查詢(xún)后,對(duì)同一篇文檔d有多種動(dòng)作,其綜合興趣度用w′u,d表示<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mi>j</mi></msubsup><mo>=</mo><mi>max</mi><mrow><mo>(</mo><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mi>j</mi></msubsup><mo>)</mo></mrow><mo>+</mo><mi>α</mi><mo>,</mo></mrow>]]></math>id="icf0001"file="A2008102237690002C1.tif"wi="36"he="5"top="229"left="21"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>j=1,…,λ,j為用戶(hù)動(dòng)作序號(hào),wu,dj為序號(hào)為j的用戶(hù)動(dòng)作的興趣值,α在中取值,g.在領(lǐng)域級(jí)別上用戶(hù)u瀏覽文檔d的興趣度為Put,公式如下<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msub><mi>P</mi><mi>ut</mi></msub><mo>=</mo><mi>P</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>t</mi></msub><mo>|</mo><mi>u</mi><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munder><mi>Σ</mi><mrow><mi>d</mi><mo>∈</mo><msub><mi>D</mi><mi>u</mi></msub><mo>,</mo><mi>d</mi><mo>∈</mo><msub><mi>c</mi><mi>t</mi></msub></mrow></munder><msubsup><mi>w</mi><mrow><mi>u</mi><mo>,</mo><mi>d</mi></mrow><mo>′</mo></msubsup><mi>p</mi><mrow><mo>(</mo><msub><mi>c</mi><mi>t</mi></msub><mo>|</mo><mi>d</mi><mo>)</mo></mrow></mrow><mrow><mi>size</mi><mrow><mo>(</mo><msub><mi>D</mi><mi>u</mi></msub><mo>)</mo></mrow></mrow></mfrac></mrow>]]></math></maths>其中,ct為序號(hào)為t的領(lǐng)域類(lèi)型,所述領(lǐng)域類(lèi)型的集合C={c1,c2,...,cT},T為該領(lǐng)域類(lèi)型C的大小,P(ct|d)為文檔d屬于領(lǐng)域ct的條件概率,Du為用戶(hù)u瀏覽過(guò)的所有文檔集合,size(Du)為用戶(hù)反饋的文檔數(shù);用戶(hù)聚類(lèi)模塊,用下述KMeans聚類(lèi)對(duì)所以閱讀過(guò)文檔的用戶(hù)分類(lèi),其步驟為第一步隨機(jī)選擇K個(gè)用戶(hù),其中每個(gè)用戶(hù)k初始代表一個(gè)簇中心op,p=1,...,K,第二步計(jì)算剩余的每個(gè)用戶(hù)uc各自與各個(gè)簇中心op的歐氏距離<mathsid="math0003"num="0003"><math><![CDATA[<mrow><mi>d</mi><mrow><mo>(</mo><msub><mi>u</mi><mi>c</mi></msub><mo>,</mo><msub><mi>O</mi><mi>p</mi></msub><mo>)</mo></mrow><mo>=</mo><msqrt><munderover><mi>Σ</mi><mrow><mi>t</mi><mo>=</mo><mn>1</mn></mrow><mi>K</mi></munderover><msup><mrow><mo>(</mo><msub><mi>p</mi><mrow><msub><mi>u</mi><mi>c</mi></msub><mi>t</mi></mrow></msub><mo>-</mo><msub><mi>p</mi><mi>ot</mi></msub><mo>)</mo></mrow><mn>2</mn></msup></msqrt><mo>,</mo></mrow>]]></math>id="icf0003"file="A2008102237690003C2.tif"wi="49"he="11"top="103"left="28"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>其中,id="icf0004"file="A2008102237690003C3.tif"wi="6"he="5"top="107"left="92"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>表示剩余用戶(hù)uc對(duì)領(lǐng)域的ct興趣值,Pot表示屬于簇op的用戶(hù)對(duì)所述領(lǐng)域類(lèi)型ct的平均興趣值,<mathsid="math0004"num="0004"><math><![CDATA[<mrow><msub><mi>p</mi><mi>ot</mi></msub><mo>=</mo><mfrac><mn>1</mn><mrow><mo>|</mo><msub><mi>O</mi><mi>p</mi></msub><mo>|</mo></mrow></mfrac><munder><mi>Σ</mi><mrow><mi>u</mi><mo>∈</mo><msub><mi>O</mi><mi>p</mi></msub></mrow></munder><msub><mi>p</mi><mi>ut</mi></msub><mo>,</mo></mrow>]]></math>id="icf0005"file="A2008102237690003C4.tif"wi="30"he="11"top="120"left="113"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>op為所述簇中心的大小,第三步根據(jù)所述剩余的每個(gè)用戶(hù)uc與各個(gè)簇中的op的距離,把uc給最近的簇中心,第四步重新計(jì)算每個(gè)簇中心對(duì)領(lǐng)域類(lèi)型ct的平均興趣值,第五步重復(fù)上述第一到第四步,直至<mathsid="math0005"num="0005"><math><![CDATA[<mrow><msub><mi>P</mi><mrow><msub><mi>u</mi><mi>c</mi></msub><mi>t</mi></mrow></msub><mo>-</mo><msub><mi>P</mi><mi>ot</mi></msub><mo><</mo><mi>ϵ</mi><mo>,</mo></mrow>]]></math>id="icf0006"file="A2008102237690003C5.tif"wi="21"he="7"top="170"left="105"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>閾值ε取10-5;查詢(xún)相似度計(jì)算模塊,用于計(jì)算與各個(gè)用戶(hù)聚類(lèi)op內(nèi)所有用戶(hù)各自的第i次提交的查詢(xún)?cè)~qi相似的由用戶(hù)隱式反饋的查詢(xún)?cè)~q′i組成的列表simList={q′1,q′2,...,q′t},所述相似查詢(xún)?cè)~qi滿(mǎn)足以下條件由用戶(hù)提交的查詢(xún)?cè)~qi查詢(xún)得到的由搜索引擎給出的一組鏈接集合<mathsid="math0006"num="0006"><math><![CDATA[<mrow><msub><mi>res</mi><msub><mi>q</mi><mi>i</mi></msub></msub><mo>=</mo><mo>{</mo><msub><mi>d</mi><mn>1</mn></msub><mo>,</mo><msub><mi>d</mi><mn>2</mn></msub><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><msub><mi>d</mi><mi>n</mi></msub><mo>}</mo><mo>,</mo></mrow>]]></math>id="icf0007"file="A2008102237690003C6.tif"wi="39"he="5"top="211"left="149"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>以及由用戶(hù)隱式反饋鏈接集合resq′i來(lái)計(jì)算兩個(gè)查詢(xún)?cè)~qi,q′i之間的相似度,其公式為<mathsid="math0007"num="0007"><math><![CDATA[<mrow><mi>similarity</mi><mrow><mo>(</mo><msub><mi>q</mi><mi>i</mi></msub><mo>,</mo><msubsup><mi>q</mi><mi>i</mi><mo>′</mo></msubsup><mo>)</mo></mrow><mo>=</mo><mfrac><mrow><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msubsup><mi>w</mi><mi>k</mi><mi>i</mi></msubsup><mo>*</mo><msubsup><mi>w</mi><mi>k</mi><msup><mi>i</mi><mo>′</mo></msup></msubsup></mrow><msqrt><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>k</mi><mi>i</mi></msubsup><mo>)</mo></mrow><mn>2</mn></msup><mo>*</mo><munderover><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></munderover><msup><mrow><mo>(</mo><msubsup><mi>w</mi><mi>k</mi><msup><mi>i</mi><mo>′</mo></msup></msubsup><mo>)</mo></mrow><mn>2</mn></msup></msqrt></mfrac></mrow>]]></math></maths>當(dāng)計(jì)算得到的相似值similarity(qi,q′i)大于給定閾值δ,δ取值區(qū)間為(0,1],則將q′i添加到所述simList表中,否則舍去;基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展模塊;第一步,構(gòu)造屬于用戶(hù)聚類(lèi)op的原始查詢(xún)?cè)~和擴(kuò)展查詢(xún)?cè)~的組合,用id="icf0009"file="A2008102237690004C1.tif"wi="23"he="8"top="41"left="166"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/>表示,qi∈simList,λi為-1或1,第二步,把所述原始查詢(xún)?cè)~和擴(kuò)展詞的組合提交所述搜索引擎,得到擴(kuò)展查詢(xún)?cè)~,第三步,當(dāng)用戶(hù)屬于不同聚類(lèi)中時(shí),重復(fù)上述第一步和第二步;步驟(2),用戶(hù)輸入查詢(xún)?cè)~q,得到resq={d1,d2,...,dn},并依次通過(guò)步驟(1)中所述各模塊,得到多個(gè)個(gè)性化擴(kuò)展查詢(xún)?cè)~以及這些擴(kuò)展查詢(xún)?cè)~與查詢(xún)?cè)~q之間的相似度排序結(jié)果。全文摘要一種基于協(xié)作過(guò)濾的個(gè)性化查詢(xún)擴(kuò)展方法,屬于個(gè)性化服務(wù)領(lǐng)域,其特征是利用用戶(hù)群組對(duì)搜索結(jié)果的種種行為作為對(duì)詞與詞之間關(guān)系分析的依據(jù),而不是依據(jù)文檔中詞語(yǔ)的相關(guān)性。根據(jù)同一個(gè)用戶(hù)聚類(lèi)內(nèi)所有用戶(hù)提交過(guò)的查詢(xún)?cè)~以及用戶(hù)對(duì)Web搜索引擎給出的結(jié)果的隱式反饋信息而進(jìn)行查詢(xún)擴(kuò)展。該算法不需要用戶(hù)人為地填寫(xiě)或修改個(gè)人興趣,而是基于用戶(hù)以往對(duì)搜索結(jié)果的種種動(dòng)作,保證了用戶(hù)興趣的持久更新。文檔編號(hào)G06F17/30GK101408897SQ200810223769公開(kāi)日2009年4月15日申請(qǐng)日期2008年10月10日優(yōu)先權(quán)日2008年10月10日發(fā)明者莉周,勇張,邢春曉申請(qǐng)人:清華大學(xué)