專利名稱::一種文檔的檢索方法和裝置的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種檢索技術(shù),特別是指可以應(yīng)用于網(wǎng)頁檢索的文檔的檢索裝置及方法。
背景技術(shù):
:隨著計(jì)算機(jī)和網(wǎng)絡(luò)的普及,極大的改變了人們獲取資訊的方式。但是如何從浩如煙海的萬維網(wǎng)資訊中快速獲得使用者所需的資料成為重要的研究課題。在萬維網(wǎng)上,每一個(gè)網(wǎng)頁都可以視為一個(gè)文檔,而萬維網(wǎng)可以認(rèn)為是一個(gè)由無數(shù)個(gè)超級(jí)鏈接組合在一起的文檔的集合。因此對(duì)于文檔的檢索中,其中很重要的一種方式就是基于超鏈接關(guān)系的分析。在現(xiàn)有技術(shù)的超鏈接關(guān)系的分析技術(shù)中,廣泛應(yīng)用到了隨機(jī)游走。隨機(jī)游走是基于隨機(jī)數(shù)學(xué)理論,形式化地表述了行進(jìn)隨機(jī)步數(shù)的軌跡。例如現(xiàn)有的PageRank算法,其使用了隨機(jī)游走技術(shù)通過萬維網(wǎng)中的鏈接分析得到了每個(gè)頁面的相對(duì)重要性程度。從直觀上講,一個(gè)網(wǎng)頁如果出現(xiàn)在其他重要頁面的超鏈接中,那么這個(gè)網(wǎng)頁很可能也是一個(gè)重要的網(wǎng)頁。其他基于隨機(jī)游走的方法也相繼提出,例如HITS。現(xiàn)有的隨機(jī)游走方法僅僅使用了單一數(shù)值表示一個(gè)頁面或文檔的重要性,而沒有考慮到其所講述的內(nèi)容中包含的話題信息。而異構(gòu)網(wǎng)絡(luò)中包含了豐富的潛在話題信息。因此,如果使用傳統(tǒng)的隨機(jī)游走模型對(duì)文檔重要性進(jìn)行排序,那些集中討論熱門話題的文檔將更容易占領(lǐng)"統(tǒng)治"地位。例如,一個(gè)有關(guān)產(chǎn)品介紹或者在線訂購的頁面可能被大量的包含該產(chǎn)品信息的廣告頁面指向,這將會(huì)導(dǎo)致搜索系統(tǒng)在進(jìn)行排序時(shí)會(huì)將其放置在靠前的位置上。因此,理想的解決辦法就是該系統(tǒng)可以考慮頁面中包含的潛在話題信息,并且根據(jù)不同的話題對(duì)于頁面進(jìn)行排序。對(duì)于不同話題的查詢關(guān)鍵詞,該模型根據(jù)話題層次的排序得分,系統(tǒng)可以返回給用戶不同話題下的排序列表。近些時(shí)期,沿著該研究思路,有一些研究工作已經(jīng)展開。例如話題敏感隨機(jī)游走試圖通過為每個(gè)頁面引入分值向量突破單一重要性得分的限制。具體來講,該方法假設(shè)每個(gè)頁面都有很多相關(guān)聯(lián)的話題,并使用偏向因子表示特定話題上的重要性。Nie等人研究了萬維網(wǎng)搜索中的話題鏈接分析問題,并提出了話題PageRank以及話題HITS模型。但是,在這些方法中存在著嚴(yán)重的不足所有的話題都需要預(yù)先指定,因此這些排序模型不易于擴(kuò)展到新的領(lǐng)域中。
發(fā)明內(nèi)容針對(duì)現(xiàn)有技術(shù)中存在的缺陷和不足,本發(fā)明的目的是提供一種文檔重要性的排序裝置及方法,以及應(yīng)用上述的排序裝置和方法對(duì)網(wǎng)頁和文檔進(jìn)行檢索的檢索裝置及方法,有效地解決現(xiàn)有的檢索中排序不能夠很好的適用于異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)的問題。為了達(dá)到上述目的,本發(fā)明還提出了一種文檔的檢索裝置,其特征在于,包括話題識(shí)別模塊,所述話題識(shí)別模塊利用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;5隨機(jī)游走模塊,所述隨機(jī)游走模塊根據(jù)話題分布對(duì)每個(gè)文檔計(jì)算隨機(jī)游走排序得分;檢索模塊,所述檢索模塊根據(jù)查詢關(guān)鍵字計(jì)算文檔對(duì)于該查詢關(guān)鍵字的相關(guān)性得分,并根據(jù)隨機(jī)游走排序得分與相關(guān)性得分結(jié)合得到檢索結(jié)果。其中,所述話題識(shí)別模塊包括參數(shù)計(jì)算子模塊,所述參數(shù)計(jì)算模塊根據(jù)Gibbs采樣方法計(jì)算話題z上的后驗(yàn)概率分布"2+a";二+/其中d為文檔集D中的一個(gè)文檔,z為文檔d中的話題;^為文檔中的每個(gè)單詞w《對(duì)應(yīng)的話題A表示文檔d中的第i個(gè)單詞,,",表示除&外的統(tǒng)計(jì)數(shù)值;然后根據(jù)后驗(yàn)概率分布計(jì)算e和(k其中e為|d|個(gè)文檔相關(guān)的文檔-話題分布矩陣;小為ITI個(gè)話題相關(guān)的話題_單詞的分布矩陣;話題識(shí)別子模塊,所述話題識(shí)別模塊根據(jù)9和小,使用LDA話題模型從文檔集中識(shí)別話題,其中文檔集D的似然度為尸(z,wi0,①)二nrK"nn《。其中9d為文檔d在話題上的多項(xiàng)式分布,c^為話題z在單詞上的多項(xiàng)式分布;ndz是將話題z關(guān)聯(lián)到文檔d的次數(shù),、是單詞wv由話題z生成的次數(shù);V為互異單詞的集合.多項(xiàng)式分布子模塊,所述多項(xiàng)式分布模塊根據(jù)所述話題識(shí)別模塊識(shí)別的話題,生成文檔的話題的多項(xiàng)式分布{P(z|d)};其中P(zld)是文檔d生成話題Z的概率。其中,所述隨機(jī)游走模塊包括隨機(jī)游走排序得分計(jì)算子模塊,以根據(jù)文檔話題的多項(xiàng)式分布計(jì)算隨機(jī)游走排序得分WWI()+(1一"*S尸(",;1"',Zv)W,z,]"丄尸(z,l力+(1一義)J]I"I丄乂'W其中,r[d,z]為文檔d在話題z上的排序得分;D為所有文檔的集合;T為所有話題的集合;z為文檔d中的話題;A為預(yù)設(shè)的隨機(jī)跳躍參數(shù),即游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔;Y為隨機(jī)游走者點(diǎn)擊一條鏈接訪問相同話題的文檔4的概率,(1-Y)為隨機(jī)游走者點(diǎn)擊一條鏈接訪問不同話題的文檔4的概率;其中,P(d」dk,Zi)是從文檔dk到4在相同話題Zi上的轉(zhuǎn)移概率,表示為P(dld',Zi);P(dyZj|dk,Zi)是從話題Zi的文檔dk到話題Zj的文檔4的轉(zhuǎn)移概率,表示為P(d,zjd',Zj);則尸WI=rF^JP(^I《,=Ic/,)尸0,1《)iM"』q其中,所述檢索模塊包括6概率計(jì)算子模塊,所述概率計(jì)算模塊計(jì)算由話題模型生成查詢關(guān)鍵詞q的概率PLDA(q|d),尸皿",=n尸i《=niz'&i"a)we《其中ed為特定文檔d在話題上的多項(xiàng)式分布;(^為特定的話題z在單詞上的多項(xiàng)式分布;并采用語言模型計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率P^(qld);查詢關(guān)鍵詞q與文檔相關(guān)性得分P(q|d)=PLM(q|d)XPLDA(q|d);步驟34、將步驟2所得話題層次隨機(jī)游走的排序得分r[d,z]和相關(guān)性得分P(q|d)相結(jié)合得到檢索結(jié)果。其中,所述裝置還包括關(guān)鍵字?jǐn)U展模塊,所述關(guān)鍵字?jǐn)U展模塊對(duì)查詢關(guān)鍵字進(jìn)行擴(kuò)展,并對(duì)擴(kuò)展的查詢關(guān)鍵詞q中的每個(gè)單詞%,,根據(jù)以下公式的概率采樣話題z:一i、《+尸k.l-+)2>:;+<v+a.其中nqz是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞q的相關(guān)多項(xiàng)式LDA先驗(yàn);nd表示在步驟l全部文檔數(shù)目,a和13分別為多項(xiàng)式分布9和小的Dirichlet先驗(yàn)。同時(shí),本發(fā)明還提出了一種文檔的檢索方法,包括步驟1、使用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;步驟2、利用話題分布對(duì)每個(gè)文檔計(jì)算其話題層次的隨機(jī)游走排序得分;步驟3、根據(jù)查詢關(guān)鍵詞及話題,計(jì)算文檔相對(duì)于該查詢關(guān)鍵詞的相關(guān)性得分,將話題層次隨機(jī)游走的排序重要性得分和相關(guān)性得分相結(jié)合得到檢索結(jié)果。其中,所述步驟1具體為步驟11、根據(jù)Gibbs采樣方法計(jì)算話題Z上的后驗(yàn)概率分布,'za__其中d為文檔集D中的一個(gè)文檔,Z為文檔d中的話題;、為文檔中的每個(gè)單詞W",對(duì)應(yīng)的話題A表示文檔d中的第i個(gè)單詞,,",表示除&外的統(tǒng)計(jì)數(shù)值;步驟12、根據(jù)后驗(yàn)概率分布計(jì)算e和cK其中e為|d|個(gè)文檔相關(guān)的文檔-話題分布矩陣;小為|T|個(gè)話題相關(guān)的話題-單詞的分布矩陣;步驟13、使用LDA話題模型從文檔集中識(shí)別話題,其中文檔集D的似然度為,,W|0,o)=nncne其中9d為文檔d在話題上的多項(xiàng)式分布,(K為話題z在單詞上的多項(xiàng)式分布;7ndz是將話題z關(guān)聯(lián)到文檔d的次數(shù),、是單詞wv由話題z生成的次數(shù);V為互異單詞的集合.步驟14、計(jì)算文檔的話題的多項(xiàng)式分布{p(z|d)};其中P(zld)是文檔d生成話題z的概率。其中,所述步驟2具體為采用以下公式獲得話題Z的隨機(jī)游走排序得分4"]=/1^7尸(;|00+(1-/1)J]^W,;)+(1-"去Z尸"Z,I""》其中,r[d,z]為文檔d在話題z上的排序得分;D為所有文檔的集合;T為所有話題的集合;z為文檔d中的話題;A為預(yù)設(shè)的隨機(jī)跳躍參數(shù),即游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔;Y為隨機(jī)游走者點(diǎn)擊一條鏈接訪問相同話題的文檔4的概率,(1-Y)為隨機(jī)游走者點(diǎn)擊一條鏈接訪問不同話題的文檔4的概率;其中,P(dld',Zi)是從文檔dk到c^在相同話題Zi上的轉(zhuǎn)移概率,表示為P(d」dk,Zi);P(d,Zi,|d'Zj)是從話題Zi的文檔dk到話題Zj的文檔4的轉(zhuǎn)移概率,表示為P(dpZj|dk,Zi);則尸WI")=r^7^P("''Z'1《,2')=尸(~1"')P(Z'1《)其中,所述步驟3具體為步驟31、計(jì)算由話題模型生成查詢關(guān)鍵詞q的概率P皿(qld);尸磁(《i=n尸oi",《w=nspoi&&)尸oi",&)we《we《,步驟32、采用語言模型計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率PM(q|d);步驟33、關(guān)鍵詞q與文檔相關(guān)性得分P(qld)=P^(qld)XP皿(qld);步驟34、將步驟2所得話題層次隨機(jī)游走的排序得分r[d,z]和相關(guān)性得分P(q|d)相結(jié)合得到檢索結(jié)果。其中,所述步驟2和步驟3之間還包括步驟a、對(duì)查詢關(guān)鍵詞進(jìn)行擴(kuò)展,并對(duì)擴(kuò)展的查詢關(guān)鍵詞q中的每個(gè)單詞wqi,根據(jù)以下公式的概率采樣話題z:w'm《+(、1、,W)-》《,+)》《+《+/).其中nqz是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞q的相關(guān)多項(xiàng)式LDA先驗(yàn);nd表示在步驟1全部文檔數(shù)目。上述技術(shù)方案具有如下優(yōu)點(diǎn)本發(fā)明提出了一種文檔檢索裝置及方法,能夠使用統(tǒng)計(jì)話題模型自動(dòng)從文檔集中抽取話題,并根據(jù)話題層次隨機(jī)游走,基于抽取的話題將每個(gè)文檔的話題相關(guān)重要性進(jìn)行打分,并給定查詢關(guān)鍵詞。然后根據(jù)發(fā)現(xiàn)的話題,計(jì)算文檔相對(duì)于該查詢關(guān)鍵詞的相關(guān)性得分,并根據(jù)話題層次隨機(jī)游走的排序重要性得分和相關(guān)性得分相結(jié)合得到檢索結(jié)果。因此本發(fā)明相比較現(xiàn)有技術(shù)能夠自動(dòng)抽取話題,并使能夠根據(jù)話8題隨機(jī)游走得分與相關(guān)性得分結(jié)合得到更好的檢索結(jié)果。圖1是本發(fā)明優(yōu)選實(shí)施例流程示意圖;圖2是異構(gòu)網(wǎng)絡(luò)具體實(shí)例的結(jié)構(gòu)示意圖;圖3是調(diào)整參數(shù)Y后搜索結(jié)果的變化示意圖;圖4是搜索論文的結(jié)果和搜索專家的結(jié)果示意圖;圖5是調(diào)整參數(shù)t后搜索結(jié)果的變化示意圖。具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。萬維網(wǎng)中的網(wǎng)頁或其他存在關(guān)聯(lián)的實(shí)體網(wǎng)絡(luò)可以用含有鏈接的文檔的集合表示,即G=(D,E),其中D表示所有文檔的集合,E表示所有超級(jí)鏈接的結(jié)合,有向邊—d2GE表示文檔4有指向d2的超級(jí)鏈接。實(shí)施例1本發(fā)明提出的文檔重要性的排序方法,其優(yōu)選實(shí)施例包括步驟一話題建模步驟一的目的是使用概率話題模型從文檔集中發(fā)現(xiàn)話題。概率話題模型可以有效地在文檔集中挖掘話題。在這些方法中,通常假設(shè)文檔是從|T|個(gè)概率模型的混合中生成。潛在Dirichlet分配(LDA)是一種廣泛使用的話題模型。在該模型中,文檔集D的似然度定義為,,wi,=nnexnne其中,ndz是將話題z關(guān)聯(lián)到文檔d的次數(shù),nzv是單詞wv由話題z生成的次數(shù)。直觀上講,該方法假設(shè)在文檔集D中共討論了|T|個(gè)不同的話題。每個(gè)文檔有P(zld)的概率討論話題z。而有最大概率的那個(gè)話題在一定程度上揭示了文檔d的語義內(nèi)容。根據(jù)話題模型,每個(gè)文檔根據(jù)如下隨機(jī)過程生成首先文檔(如網(wǎng)頁等)的作者會(huì)根據(jù)文檔的話題分布P(zld)決定撰寫的話題z,之后根據(jù)該話題上單詞的分布P(wlz)從話題z上采樣得到單詞。在話題模型中,推理的目的是為了估計(jì)LDA模型中的未知參數(shù)(l)|D|個(gè)文檔相關(guān)的文檔-話題分布矩陣9和|T|個(gè)話題相關(guān)的話題-單詞分布矩陣小;(2)文檔d中的每個(gè)單詞w《對(duì)應(yīng)的話題、。該方法使用Gibbs采樣方法估計(jì)參數(shù)。具體來講,該方法不直接估計(jì)模型的參數(shù),相反僅僅估計(jì)z上的后驗(yàn)概率分布,再用z推理e和小。后驗(yàn)分布定義為w,a'一.,.嚴(yán)zv(2)9其中,/7、的上標(biāo)^/,表示除當(dāng)前實(shí)例(文檔d中的第i個(gè)單詞)的統(tǒng)計(jì)數(shù)值。步驟二話題層次隨機(jī)游走在文檔集上使用話題模型后,該方法得到了每個(gè)文檔的話題分布。形式化講,對(duì)于每個(gè)文檔,使用{P(z|d)}(等價(jià)的寫為edz)表示話題的多項(xiàng)式分布。之后定義話題層次的隨機(jī)游走。對(duì)于每個(gè)文檔d,在該方法中關(guān)聯(lián)著一個(gè)排序得分向量{r[d,z]L,其中每一個(gè)元素對(duì)應(yīng)一個(gè)話題z。隨機(jī)游走既在同一個(gè)話題的范疇內(nèi),同時(shí)也跨越不同的話題,沿著文檔之間的超級(jí)鏈接進(jìn)行。對(duì)于包含指向文檔的超級(jí)鏈接的文檔dk,該方法定義兩種類型的文檔間轉(zhuǎn)移概率話題內(nèi)轉(zhuǎn)移概率和話題間轉(zhuǎn)移概率,即<formula>formulaseeoriginaldocumentpage10</formula>(3)其中,P(djdk,Zi)是從文檔dk到在相同話題Zi上的轉(zhuǎn)移概率;P(dyZj|dk,Zi)是從話題Zi的文檔dk到話題Zj的文檔的轉(zhuǎn)移概率。接下來在該方法中引入?yún)?shù)Y表示對(duì)于話題內(nèi)轉(zhuǎn)移或者話題間轉(zhuǎn)移的偏好。因此該轉(zhuǎn)移圖如下形式化地描述了一個(gè)隨機(jī)游走者的行為隨機(jī)游走者有Y的概率點(diǎn)擊某一條鏈接訪問相同話題的文檔4,并且有(1-Y)的概率點(diǎn)擊某一條連接訪問不同話題的文檔V和PageRank類似,為每個(gè)文檔d定義隨機(jī)游走排序得分的公式<formula>formulaseeoriginaldocumentpage10</formula>其中,P(zId)是文檔d生成話題z的概率;和PageRank類似,可以定義隨機(jī)跳躍參數(shù)A,它允許游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔。步驟三查詢關(guān)鍵詞建模步驟三是為了找到和查詢關(guān)鍵詞相關(guān)的文檔。盡管這一步并不是必須的,但是該步驟有助于發(fā)現(xiàn)查詢關(guān)鍵詞的語義信息。由于查詢關(guān)鍵詞的長(zhǎng)度通常較短,可見為查詢關(guān)鍵詞建模并不容易。為了確保能夠找到正確的話題描述用戶的查詢意圖,該方法中使用信息檢索中通常使用的方法,即進(jìn)行查詢關(guān)鍵詞擴(kuò)展。具體來講,對(duì)于查詢關(guān)鍵詞q中的每一個(gè)單詞w,該方法從文檔集中抽取若干高頻共現(xiàn)詞,并將它們添加到查詢關(guān)鍵詞中。考慮單詞w的窗口大小鄰域中出現(xiàn)的單詞作為共現(xiàn)詞,也就是說w前后的單詞。該應(yīng)用中設(shè)置窗口大小為1。之后,該方法在擴(kuò)展的查詢關(guān)鍵詞上應(yīng)用話題模型找到查詢關(guān)鍵詞相關(guān)的話題。對(duì)于擴(kuò)展查詢關(guān)鍵詞q中的每個(gè)單詞,,,最后根據(jù)如下的概率采樣話題z:<formula>formulaseeoriginaldocumentpage10</formula>(5)其中,r^是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞相關(guān)多項(xiàng)式的Dirichlet先驗(yàn);有上標(biāo)d的nd表示在步驟一的推理過程之后統(tǒng)計(jì)的全部文檔數(shù)目。例如,nj表示在所有文檔中單詞w被分配到話題z中的次數(shù)。特別重要的是,該方法為查詢關(guān)鍵詞q額外進(jìn)行一次生成過程。該生成過程和步驟一中的類似,只是為了查詢關(guān)鍵詞建模,該方法結(jié)合了文檔建模的結(jié)果。具體的講,該方法從Dirichlet先驗(yàn)aq中為每一個(gè)查詢關(guān)鍵詞q采樣得到一個(gè)多項(xiàng)式分布;之后,對(duì)于每一個(gè)查詢關(guān)鍵詞中的單詞%.,從多項(xiàng)分布中采樣得到話題、。生成過程依賴于查詢關(guān)鍵詞和文檔的相關(guān)性。該過程后,該方法得到查詢關(guān)鍵詞-對(duì)應(yīng)話題的分布(P(zlqM,它包含了查詢?cè)~的語義信息。步驟四用話題層次隨機(jī)游走進(jìn)行搜索在最后一步中,該方法使用話題層次隨機(jī)游走進(jìn)行搜索。具體來講,對(duì)于每一個(gè)文檔d,該方法結(jié)合查詢關(guān)鍵詞q和文檔的相關(guān)性得分以及在話題層次隨機(jī)游走中得到的文檔d的重要性排序得分。相似性得分根據(jù)如下公式計(jì)算<formula>formulaseeoriginaldocumentpage11</formula>但是,由于根據(jù)話題模型學(xué)到的話題通常是通用的,并不針對(duì)某個(gè)具體的查詢關(guān)鍵詞,因此在搜索中僅僅使用話題模型會(huì)造成結(jié)果過于粗糙。之前進(jìn)行的實(shí)驗(yàn)中也證實(shí)了在信息檢索中僅僅使用話題模型會(huì)降低檢索性能。因此,為了在通用和具體中間找到平衡,該方法得到LDA模型和基于單詞的語言模型的組合形式。P(q|d)=PLM(q|d)XPLDA(q|d)(7)其中,P"qld)是根據(jù)語言模型,計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率。而P皿(qld)是由話題模型生成查詢關(guān)鍵詞的概率。該方法首先考慮兩種將相關(guān)性得分和隨機(jī)游走重要性排序得分相結(jié)合的方法,即<formula>formulaseeoriginaldocumentpage11</formula>其中,P(zld)表示文檔d生成話題z的概率,r[d,z]表示文檔d在話題z上的重要性得分。上述方法對(duì)于所有話題上的查詢關(guān)鍵詞的生成概率進(jìn)行求和。同樣可以考慮使用查詢關(guān)鍵詞建模的結(jié)果。組合得分如下定義STPRq)=LM(《I")'$^,z].尸(z|《)(其中,在采樣過程中,^為查詢關(guān)鍵詞q中的單詞w所選擇的話題。實(shí)施例2本發(fā)明提出的文檔的檢索裝置,其優(yōu)選實(shí)施例包括話題識(shí)別模塊,所述話題識(shí)別模塊利用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;隨機(jī)游走模塊,所述隨機(jī)游走模塊根據(jù)話題分布對(duì)每個(gè)文檔計(jì)算隨機(jī)游走排序得分;檢索模塊,所述檢索模塊根據(jù)查詢關(guān)鍵字計(jì)算文檔對(duì)于該查詢關(guān)鍵字的相關(guān)性得分,并根據(jù)隨機(jī)游走排序得分與相關(guān)性得分結(jié)合得到檢索結(jié)果。其中,所述話題識(shí)別模塊包括參數(shù)計(jì)算子模塊,所述參數(shù)計(jì)算模塊根據(jù)Gibbs采樣方法計(jì)算話題z上的后驗(yàn)概率分布《t+/其中d為文檔集D中的一個(gè)文檔,z為文檔d中的話題;為文檔中的每個(gè)單詞w《對(duì)應(yīng)的話題A表示文檔d中的第i個(gè)單詞,"^,表示除&外的統(tǒng)計(jì)數(shù)值;然后根據(jù)后驗(yàn)概率分布計(jì)算9和(K其中e為|D|個(gè)文檔相關(guān)的文檔-話題分布矩陣;小為ITI個(gè)話題相關(guān)的話題_單詞的分布矩陣;話題識(shí)別子模塊,所述話題識(shí)別模塊根據(jù)9和小,使用LDA話題模型從文檔集中識(shí)別話題,其中文檔集D的似然度為闊尸(z,wi0,。)nn^xnne其中9d為文檔d在話題上的多項(xiàng)式分布,c^為話題z在單詞上的多項(xiàng)式分布;ndz是將話題Z關(guān)聯(lián)到文檔d的次數(shù),、是單詞Wv由話題Z生成的次數(shù);V為互異單詞的集合.多項(xiàng)式分布子模塊,所述多項(xiàng)式分布模塊根據(jù)所述話題識(shí)別模塊識(shí)別的話題,生成文檔的話題的多項(xiàng)式分布{P(z|d)};其中P(zld)是文檔d生成話題Z的概率。其中,所述隨機(jī)游走模塊包括隨機(jī)游走排序得分計(jì)算子模塊,以根據(jù)文檔話題的多項(xiàng)式分布計(jì)算隨機(jī)游走排序得分4^,z,]=;ilpo;義)ZWWw",)+(l—"+J]/v,z,i《~)其中,r[d,z]為文檔d在話題z上的排序得分;D為所有文檔的集合;T為所有話題的集合;z為文檔d中的話題;A為預(yù)設(shè)的隨機(jī)跳躍參數(shù),即游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔;Y為隨機(jī)游走者點(diǎn)擊一條鏈接訪問相同話題的文檔4的概率,(1-Y)為隨機(jī)游走者點(diǎn)擊一條鏈接訪問不同話題的文檔4的概率;其中,P(dld',zi)是從文檔dk到c^在相同話題Zi上的轉(zhuǎn)移概率,表示為P(d」dk,Zi);P(d,Zi|d',Zj)是從話題Zi的文檔檔dk到話題Zj的文檔C^的轉(zhuǎn)移概率,表示為P(dyZj|dk,Zi);則P(《I《'z,)=[T^7j尸(化1《,Z')=1I《)其中,所述檢索模塊包括概率計(jì)算子模塊,所述概率計(jì)算模塊計(jì)算由話題模型生成查詢關(guān)鍵詞q的概率PLDA(q|d),<formula>formulaseeoriginaldocumentpage13</formula>并采用語言模型計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率PM(q|d);關(guān)鍵詞q與文檔相關(guān)性得分P(qld)=PLM(q|d)XPLDA(q|d);步驟34、將步驟2所得話題層次隨機(jī)游走的排序得分r[d,z]和相關(guān)性得分P(q|d)相結(jié)合得到檢索結(jié)果。其中,所述檢索裝置還包括關(guān)鍵字?jǐn)U展模塊,所述關(guān)鍵字?jǐn)U展模塊對(duì)查詢關(guān)鍵字進(jìn)行擴(kuò)展,并對(duì)擴(kuò)展的查詢關(guān)鍵詞q中的每個(gè)單詞%,,根據(jù)以下公式的概率采樣話題z:其中nqz是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞q的相關(guān)多項(xiàng)式LDA先驗(yàn);nd表示在步驟1全部文檔數(shù)目。下面應(yīng)用一個(gè)具體事例對(duì)本發(fā)明進(jìn)行進(jìn)一步說明。(1)實(shí)驗(yàn)集本發(fā)明可以用于異構(gòu)網(wǎng)絡(luò)中多種類型結(jié)點(diǎn)的搜索。在實(shí)驗(yàn)評(píng)估環(huán)節(jié),我們重點(diǎn)在學(xué)術(shù)網(wǎng)絡(luò)中進(jìn)行分析研究。學(xué)術(shù)網(wǎng)絡(luò)中中包含多種類型的結(jié)點(diǎn),例如論文、期刊會(huì)議、作者等,如圖2所示。在圖中,相同類型的結(jié)點(diǎn)之間存在著若干的關(guān)聯(lián),例如論文之間有向的引用關(guān)系,作者之間有無向的合作關(guān)系。不同類型的結(jié)點(diǎn)之間也存在著某些關(guān)系,如作者會(huì)發(fā)表論文,論文會(huì)發(fā)表在期刊會(huì)議中等等。這些結(jié)點(diǎn)和邊組成了異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)。我們?cè)趯W(xué)術(shù)研究者社會(huì)網(wǎng)絡(luò)搜索系統(tǒng)ArnetMiner的環(huán)境中進(jìn)行評(píng)估。200個(gè)示例話題及其有代表性的研究者,論文可以參見示例話題頁面(http:〃arnetminer.org/topicBrowser.do)。每篇論文用標(biāo)題表示其文檔內(nèi)容,對(duì)于作者(專家),用他的全部論文的標(biāo)題串表示,當(dāng)然也可以使用論文的摘要或者全文表示論文的文檔內(nèi)容。我們?cè)贏rnetMiner的一個(gè)子數(shù)據(jù)集(包含14,134個(gè)作者以及10,716篇論文)上進(jìn)行實(shí)驗(yàn)。由于目前并沒有一個(gè)標(biāo)準(zhǔn)答案的數(shù)據(jù)集,我們從ArnetMiner的日志中選擇并列出了若干最頻繁的查詢?cè)~。處于評(píng)估的考慮,我們使用合并相關(guān)評(píng)估方法并結(jié)合人為判斷。具體來講,對(duì)于每個(gè)查詢關(guān)鍵詞,我們首先從三個(gè)相似的系統(tǒng)Libra(http:〃libra.msra.cn/)、Rexa(http://rexa.info/)以及ArnetMiner(http://www.arnetminer.org)的前30個(gè)查詢結(jié)果中合并結(jié)果。然后,兩個(gè)計(jì)算機(jī)專業(yè)的教師和五個(gè)研究生對(duì)結(jié)果進(jìn)行人工標(biāo)注。四個(gè)評(píng)價(jià)等級(jí)(3、2、1以及0)分別用來表示絕對(duì)權(quán)威、權(quán)威、臨界權(quán)威以及不權(quán)威。我們通過該方法分別進(jìn)行論文搜索和專家搜索,并在測(cè)試集上對(duì)于這兩類應(yīng)用的性能進(jìn)行評(píng)測(cè)。[OH7](2)評(píng)估方法在這些實(shí)驗(yàn)中,我們使用P@5、P@10、P@20、R_pre和均值平均查準(zhǔn)率(MAP)進(jìn)行評(píng)估。其中Ptk表示系統(tǒng)對(duì)于查詢關(guān)鍵詞返回的前k個(gè)結(jié)果的查準(zhǔn)率,定義為。。,前^個(gè)結(jié)果中相關(guān)文檔的數(shù)目A:R-pre表示檢索出R篇文檔時(shí)的準(zhǔn)確率,其中R是在標(biāo)準(zhǔn)答案集中與查詢關(guān)鍵詞相關(guān)的文檔的數(shù)目。MAP表示每個(gè)查詢關(guān)鍵詞對(duì)應(yīng)的準(zhǔn)確率的平均值。具體來說,對(duì)于一個(gè)給定的查詢關(guān)鍵詞,根據(jù)前k個(gè)結(jié)果的查準(zhǔn)率,首先計(jì)算平均查準(zhǔn)率M=.4是相關(guān)的_相關(guān)文檔數(shù)目而MAP是在全部數(shù)據(jù)集上AP的平均值。(3)基線方法我們使用基于單詞的語言模型(LM)、BM25、LDA、PageRank(PR)作為基線方法。在基于單詞的語言模型中,我們計(jì)算查詢關(guān)鍵詞短語和論文或者專家之間的相關(guān)性。在BM25中,我們計(jì)算查詢關(guān)鍵詞和論文或者專家的相似度,記為SBM25(d,q)。對(duì)于PageRankSpJd),我們使用Page介紹的方法計(jì)算論文或者專家的重要性。對(duì)于話題PageRankS,,我們使用Nie描述的方法。同時(shí)考慮上述基線方法的若干組合形式,包括LM+LDA、LM*LDA、LM*PR、LM+PR、LM*LDA*PR以及BM25*PR。SLM+LDA(d,q)=(1-t)PLM(dIq)+tPLDA(d|q)SLM*LDA(d,q)=PLM(dIq)PLDA(d|q)S,(d,q)=PLM(dIq)PR(d)(11)S,(d,q)=(l-t)PLM(d|q)+tPR(d)SLM*LDiWK(d,q)=PLM(d|q)PLDA(d|q)PR(d)SBM25*PK(d,q)=SBM25(d,q)PR(d)(4)實(shí)驗(yàn)結(jié)果實(shí)驗(yàn)中的參數(shù)如下設(shè)置對(duì)于LDA模型,設(shè)置超參數(shù)a=0.1以及|3=0.l,話題的數(shù)目設(shè)置為不同的值(分別為5、15以及80)。在話題層次隨機(jī)游走中,設(shè)置隨機(jī)跳轉(zhuǎn)因子A=0.15,而將因子y設(shè)置為以0.1為間隔從0取到1.0。公式11中LM和LDA的組合權(quán)重t分別在0、0.1、0.2、0.4、0.6、0.8和1.0取值上進(jìn)行試驗(yàn),調(diào)整這些參數(shù),并報(bào)告最佳性能。表格1和表格2展示了使用發(fā)明的方法(TPR+、TPR*和TPRq)與基線方法的實(shí)驗(yàn)結(jié)果比較。從中可見該方法在大部分的評(píng)價(jià)指標(biāo)中勝過基線方法。使用TPR+方法獲得了最佳的性能。表l搜索論文的結(jié)果14<table>tableseeoriginaldocumentpage15</column></row><table><table>tableseeoriginaldocumentpage16</column></row><table>(5)參數(shù)調(diào)整(A)調(diào)整參數(shù)Y圖3(a)通過MAP展示了使用TPR+和TPR*進(jìn)行論文搜索的性能,其中將Y取O到1.0之間的某個(gè)固定值(選取間隔為O.l),記為constantY,在圖中用坐標(biāo)點(diǎn)表示。同時(shí)還將Y設(shè)為隨話題和文檔變化的動(dòng)態(tài)的值P(zld'),并記為variableY,在圖中用一條虛線表示。對(duì)于搜索專家,如見圖3(b)所示,使用同樣的參數(shù)值設(shè)置調(diào)節(jié)該參數(shù)。可以看出對(duì)于不同的Y設(shè)置,搜索專家更為穩(wěn)定,即對(duì)于Y的變化影響較小。(B)調(diào)整參數(shù)lT對(duì)于參數(shù)話題個(gè)數(shù)lTl,調(diào)整|T|分別為5、15和80。搜索論文的結(jié)果在圖4(a)中展示,搜索專家的結(jié)果在圖4(b)中展示。在論文搜索,當(dāng)把|T|設(shè)置為15時(shí),使用大部分方法都能得到最佳的結(jié)果。在專家搜索中,當(dāng)把話題數(shù)目設(shè)置為5時(shí),得到最佳的結(jié)果。這或許是因?yàn)橄啾扔诖_定一篇論文的話題,更難準(zhǔn)確判斷一個(gè)專家所感興趣的領(lǐng)域。(C)調(diào)整參數(shù)t如圖5所示,調(diào)整參數(shù)t從0變化到l.O,間隔為O.2。可以看出當(dāng)t在O.2和0.8之間變化時(shí)結(jié)果較為穩(wěn)定。(6)實(shí)例分析為了進(jìn)一步表明研究話題層次隨機(jī)游走的動(dòng)機(jī),我們進(jìn)行一個(gè)具體的案例研究。我們選擇兩個(gè)查詢關(guān)鍵詞分析他們的語義,查詢關(guān)鍵詞為"naturallanguageprocessing"(自然語言處理)和"intelligentagents"(智能代理)。對(duì)于這兩個(gè)查詢關(guān)鍵詞中的每一個(gè)單詞,我們?yōu)槠涮暨x最有代表性的若干話題,也就是說我們從15個(gè)話題中刪除那些和這些單詞關(guān)聯(lián)性均較弱的話題(通常他們之間的生成概率僅僅是模型中的平滑系數(shù))。我們得到單詞在話題#4、#7、#10、#13上的分布,如表3所示。從中可見,查詢關(guān)鍵詞"natu:rallanguageprocessing,,主要對(duì)應(yīng)于話題#10,而"intelligentagents,,主要對(duì)應(yīng)話題#4和#7。表4展現(xiàn)了分別通過PageRank和話題層次隨機(jī)游走(TPR+)計(jì)算得到的重要性得分。當(dāng)使用TPR+用查詢關(guān)鍵詞"naturallanguageprocessing"搜索論文時(shí),第一個(gè)文檔VerifiableSemanticsforAgentCommunicationLanguages(代理通訊語言中驗(yàn)證語義)并沒有被檢索得到,這主要是因?yàn)樵撐臋n在話題#10上的重要性得分較低,而第二個(gè)文檔ProbabilisticParsingUsingLeftCornerLangimgeModels(用左角落語言模型進(jìn)行概率句法分析)被TPR+檢索出。但是,當(dāng)使用PagePank用"naturallanguag印rocessing"搜索論文時(shí),第一個(gè)文檔由于其較高的PageRank得分被檢索得到,而第二個(gè)文檔沒有被檢索到。上述過論在一定程度上說明了我們的方法的合理性。當(dāng)我們用查詢關(guān)鍵詞"intelligentagents"搜索論文時(shí),第四個(gè)文檔Agent-BasedBusinessProcessManagement(基于代理的商務(wù)流程管理)可以被我們的TPR+方法成功檢索出來,但是PageRank并不能做到,而相反PageRank選擇了沒有被TPR+檢索出的第三個(gè)文檔TheGRAILconceptmodelinglanguageformedicalterminology(醫(yī)學(xué)術(shù)語的GRAIL概念建模語言),這主要是由于該文檔被大量的論文引用。表3查詢關(guān)鍵詞中單詞的概率分布單詞話題#4話題#7話題#10話題#13natural0.0000180.0000180.0189660.000022l肌gimge0.0000180.0029460.0433220.000022processing0.0000180.0000180.0126520.000022intelligent0.0023630.0221580.0000230.000022agents0.0375410.0347840.0000230.000022表4用TPR+和PageRank搜索四篇文檔的重要性得分論文TPR+話題#4話題#7話題#10話題#13VerifiableSemanticsforAgentCommunicationLanguages0細(xì)H30細(xì)0260細(xì)0070扁0050.000612ProbabilisticParsingUsingLeftComerLanguageModels0.0000020.0000020.0000550.0000140細(xì)306TheGRAILconceptmodelinglanguageformedicalterminology0.0000620.0000520,0000500,0000370.003042Agent-BasedBusinessProcessManagement0.0002360.0001790.0000270細(xì)0290.00227917從實(shí)驗(yàn)結(jié)果可以看出,發(fā)明的方法在兩個(gè)不同任務(wù)上的測(cè)試結(jié)果都優(yōu)于基線方法。實(shí)驗(yàn)表明,我們提出的話題層次隨機(jī)游走是切實(shí)有效的。以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來說,在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。權(quán)利要求一種文檔的檢索裝置,其特征在于,包括話題識(shí)別模塊,所述話題識(shí)別模塊利用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;隨機(jī)游走模塊,所述隨機(jī)游走模塊根據(jù)話題分布對(duì)每個(gè)文檔計(jì)算隨機(jī)游走排序得分;檢索模塊,所述檢索模塊根據(jù)查詢關(guān)鍵字計(jì)算文檔對(duì)于該查詢關(guān)鍵字的相關(guān)性得分,并根據(jù)隨機(jī)游走排序得分與相關(guān)性得分結(jié)合得到檢索結(jié)果。2.根據(jù)權(quán)利要求1所述的文檔的檢索裝置,其特征在于,所述話題識(shí)別模塊包括參數(shù)計(jì)算子模塊,所述參數(shù)計(jì)算模塊根據(jù)Gibbs采樣方法計(jì)算話題Z上的后驗(yàn)概率分布其中d為文檔集D中的一個(gè)文檔,z為文檔d中的話題;&為文檔中的每個(gè)單詞W《對(duì)應(yīng)的話題A表示文檔d中的第i個(gè)單詞,,",表示除&外的統(tǒng)計(jì)數(shù)值;然后根據(jù)后驗(yàn)概率分布計(jì)算9和小,其中9為|D|個(gè)文檔相關(guān)的文檔-話題分布矩陣;小為ITI個(gè)話題相關(guān)的話題_單詞的分布矩陣;話題識(shí)別子模塊,所述話題識(shí)別模塊根據(jù)9和小,使用LDA話題模型從文檔集中識(shí)別話題,其中文檔集D的似然度為尸(z,wi,。)=nnexnne其中9d為文檔d在話題上的多項(xiàng)式分布,小z為話題Z在單詞上的多項(xiàng)式分布;ndz是將話題Z關(guān)聯(lián)到文檔d的次數(shù),nzv是單詞Wv由話題Z生成的次數(shù);V為互異單詞的集合;多項(xiàng)式分布子模塊,所述多項(xiàng)式分布模塊根據(jù)所述話題識(shí)別模塊識(shí)別的話題,生成文檔的話題的多項(xiàng)式分布{P(z|d)};其中P(zld)是文檔d生成話題Z的概率。3.根據(jù)權(quán)利要求1所述的文檔的檢索裝置,其特征在于,所述隨機(jī)游走模塊包括隨機(jī)游走排序得分計(jì)算子模塊,以根據(jù)文檔話題的多項(xiàng)式分布計(jì)算隨機(jī)游走排序得分4A]4丄P(z,l力+(l-A)J]"(W,Z;)+(1—"去Z尸W,W,z》其中,r[d,z]為文檔d在話題z上的排序得分;D為所有文檔的集合;T為所有話題的集合;Z為文檔d中的話題;A為預(yù)設(shè)的隨機(jī)跳躍參數(shù),即游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔;Y為隨機(jī)游走者點(diǎn)擊一條鏈接訪問相同話題的文檔4的概率,(1-Y)為隨機(jī)游走者點(diǎn)擊一條鏈接訪問不同話題的文檔4的概率;其中,P(d」dk,Zi)是從文檔dk到4在相同話題Zi上的轉(zhuǎn)移概率,表示為P(dld',Zi);P(dpZjIdk,Zi)是從話題Zi的文檔dk到話題Zj的文檔的轉(zhuǎn)移概率,表示為P(d,ZiId',Zj);則尸W=777^/)(化I=P(Z/1《)P(z,I《)4.根據(jù)權(quán)利要求1所述的文檔的檢索裝置,其特征在于,所述檢索模塊包括概率計(jì)算子模塊,所述概率計(jì)算模塊計(jì)算由話題模型生成查詢關(guān)鍵詞q的概率<formula>formulaseeoriginaldocumentpage3</formula>其中ed為特定文檔d在話題上的多項(xiàng)式分布;小z為特定的話題z在單詞上的多項(xiàng)式分布;并采用語言模型計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率P^(qld);查詢關(guān)鍵詞q與文檔相關(guān)性得分<formula>formulaseeoriginaldocumentpage3</formula>步驟34、將步驟2所得話題層次隨機(jī)游走的排序得分r[d,z]和相關(guān)性得分P(qld)相結(jié)合得到檢索結(jié)果。5.根據(jù)權(quán)利要求1所述的文檔的檢索裝置,其特征在于,還包括關(guān)鍵字?jǐn)U展模塊,所述關(guān)鍵字?jǐn)U展模塊對(duì)查詢關(guān)鍵字進(jìn)行擴(kuò)展,并對(duì)擴(kuò)展的查詢關(guān)鍵詞q中的每個(gè)單詞^.,根據(jù)以下公式的概率采樣話題z:<formula>formulaseeoriginaldocumentpage3</formula>其中nqz是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞q的相關(guān)多項(xiàng)式LDA先驗(yàn);nd表示在步驟l全部文檔數(shù)目,a和13分別為多項(xiàng)式分布9和小的Dirichlet先驗(yàn)。6.—種文檔的檢索方法,包括步驟1、使用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;步驟2、利用話題分布對(duì)每個(gè)文檔計(jì)算其話題層次的隨機(jī)游走排序得分;步驟3、根據(jù)查詢關(guān)鍵詞及話題,計(jì)算文檔相對(duì)于該查詢關(guān)鍵詞的相關(guān)性得分,將話題層次隨機(jī)游走的排序重要性得分和相關(guān)性得分相結(jié)合得到檢索結(jié)果。7.根據(jù)權(quán)利要求6所述的文檔的檢索方法,其特征在于,所述步驟1具體為步驟11、根據(jù)Gibbs采樣方法計(jì)算話題z上的后驗(yàn)概率分布其中d為文檔集D中的一個(gè)文檔,z為文檔d中的話題;^為文檔中的每個(gè)單詞w《對(duì)應(yīng)的話題;di表示文檔d中的第i個(gè)單詞,,《表示除&外的統(tǒng)計(jì)數(shù)值;步驟12、根據(jù)后驗(yàn)概率分布計(jì)算e和(K其中9為|D|個(gè)文檔相關(guān)的文檔-話題分布矩陣;小為|T|個(gè)話題相關(guān)的話題-單詞的分布矩陣;步驟13、使用LDA話題模型從文檔集中識(shí)別話題,其中文檔集D的似然度為<formula>formulaseeoriginaldocumentpage3</formula>其中9d為文檔d在話題上的多項(xiàng)式分布,小z為話題z在單詞上的多項(xiàng)式分布;ndz是將話題Z關(guān)聯(lián)到文檔d的次數(shù),nzv是單詞Wv由話題Z生成的次數(shù);V為互異單詞的集合;步驟14、計(jì)算文檔的話題的多項(xiàng)式分布{p(Z|d)};其中P(zld)是文檔d生成話題Z的概率。8.根據(jù)權(quán)利要求6所述的文檔的檢索方法,其特征在于,所述步驟2具體為采用以下公式獲得話題Z的隨機(jī)游走排序得分,Kz,]"丄戶(z,i力+(i-義);^w《z,)+(i—"*2;iv,si《~)其中,r[d,z]為文檔d在話題z上的排序得分;D為所有文檔的集合;T為所有話題的集合;Z為文檔d中的話題;A為預(yù)設(shè)的隨機(jī)跳躍參數(shù),即游動(dòng)者以等概率隨機(jī)跳到文檔集中的不同文檔;Y為隨機(jī)游走者點(diǎn)擊一條鏈接訪問相同話題的文檔4的概率,(1-Y)為隨機(jī)游走者點(diǎn)擊一條鏈接訪問不同話題的文檔4的概率;其中,P(dld',Zi)是從文檔dk到C^在相同話題Zi上的轉(zhuǎn)移概率,表示為P(d」dk,Zi);P(d,ZiId',Zj)是從話題Zi的文檔dk到話題Zj的文檔的轉(zhuǎn)移概率,表示為P(dpZjIdk,Zi);則p(《1《,z》=1《,z')=尸(z'1《)尸(z'1《)9.根據(jù)權(quán)利要求6所述的文檔的檢索方法,其特征在于,所述步驟3具體為步驟31、計(jì)算由話題模型生成查詢關(guān)鍵詞q的概率P皿(qld);;a(《iri尸oi=nzp(wiz,ai",&)w叫wegzer步驟32、采用語言模型計(jì)算查詢關(guān)鍵詞q從文檔d中生成概率P^(qId);步驟33、關(guān)鍵詞q與文檔相關(guān)性得分P(qld)=PLM(q|d)XPLDA(q|d);步驟34、將步驟2所得話題層次隨機(jī)游走的排序得分r[d,z]和相關(guān)性得分P(qld)相結(jié)合得到檢索結(jié)果。10.根據(jù)權(quán)利要求6所述的文檔的檢索方法,其特征在于,所述步驟2和步驟3之間還包括步驟a、對(duì)查詢關(guān)鍵詞進(jìn)行擴(kuò)展,并對(duì)擴(kuò)展的查詢關(guān)鍵詞q中的每個(gè)單詞,,,根據(jù)以下/入二W式的概率采樣話題Z:<formula>formulaseeoriginaldocumentpage4</formula>其中nqz是查詢關(guān)鍵詞q按照多項(xiàng)式分布采樣話題z的次數(shù);aq是查詢關(guān)鍵詞q的相關(guān)多項(xiàng)式LDA先驗(yàn);nd表示在步驟1全部文檔數(shù)目。全文摘要本發(fā)明公開了一種文檔的檢索裝置和方法,針對(duì)現(xiàn)有話題模型無法自動(dòng)識(shí)別話題的問題而發(fā)明。本發(fā)明的裝置包括話題識(shí)別模塊、隨機(jī)游走模塊、檢索模塊。方法包括使用概率話題模型從文檔集中識(shí)別話題,并根據(jù)識(shí)別到的話題得到文檔的話題分布;對(duì)每個(gè)文檔計(jì)算其話題層次的隨機(jī)游走排序得分;根據(jù)查詢關(guān)鍵詞及話題,計(jì)算文檔相對(duì)于該查詢關(guān)鍵詞的相關(guān)性得分,將話題層次隨機(jī)游走的排序重要性得分和相關(guān)性得分相結(jié)合得到檢索結(jié)果。文檔編號(hào)G06F17/30GK101706812SQ200910238289公開日2010年5月12日申請(qǐng)日期2009年11月24日優(yōu)先權(quán)日2009年11月24日發(fā)明者唐杰,楊子申請(qǐng)人:清華大學(xué)