本發(fā)明涉及檢索
技術(shù)領(lǐng)域:
,具體而言,涉及一種檢索方法和檢索系統(tǒng)。
背景技術(shù):
:微博是一個(gè)基于用戶關(guān)系的輕量級(jí)信息傳播平臺(tái),用戶可以廣播并分享關(guān)于他的活動(dòng)及狀態(tài)信息。微博的流行帶來(lái)了對(duì)微博文檔進(jìn)行檢索的需求,用戶也逐漸習(xí)慣對(duì)微博文檔進(jìn)行各種內(nèi)容的搜索。與傳統(tǒng)的Web檢索不同,對(duì)微博文檔的檢索面臨很大的挑戰(zhàn),首先,由于微博文檔的長(zhǎng)度限制,使微博檢索面臨著嚴(yán)峻的詞匯不匹配問(wèn)題。此外,由于同一個(gè)實(shí)體具有不同別名,因此,不同用戶在對(duì)同一個(gè)實(shí)體進(jìn)行檢索時(shí)可能會(huì)采用與該實(shí)體對(duì)應(yīng)的別名進(jìn)行檢索,例如實(shí)體“周杰倫”的別名有“周董、杰倫、倫寶”等,這樣通過(guò)別名在微博文檔中檢索得到的目標(biāo)檢索結(jié)果也就不準(zhǔn)確,而且檢索的效率也不高,另一方面,微博文檔本身中也包含有很多實(shí)體,這樣都會(huì)使檢索得到的目標(biāo)檢索結(jié)果不準(zhǔn)確。因此,如何使用戶可以準(zhǔn)確地在微博文檔中檢索到目標(biāo)檢索結(jié)果,成為亟待解決的問(wèn)題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明正是基于上述問(wèn)題,提出了一種新的技術(shù)方案,可以解決用戶在微博文檔中不能準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果的技術(shù)問(wèn)題。有鑒于此,本發(fā)明的一方面提出了一種檢索方法,包括:在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型;識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體;根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型,對(duì)所述原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型;統(tǒng)計(jì)所述擴(kuò)展查詢模型與所 述微博文檔語(yǔ)言模型之間的相似度,以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中,在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí),由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名,因此,通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果,另外,通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面,而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確,同時(shí)還提高了檢索的魯棒性。因此,通過(guò)本技術(shù)方案,用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果,從而提高檢索的準(zhǔn)確率,其中,目標(biāo)實(shí)體為查詢語(yǔ)句中的關(guān)鍵詞,例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度,并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體,表示所述擴(kuò)展查詢模型,表示所述微博文檔語(yǔ)言模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中,通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔,但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列,即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前,因此,通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度,并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果,可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息,因此,通過(guò)該技術(shù)方案,可以提高檢索結(jié)果的匹配準(zhǔn)確率,進(jìn)一步提高目標(biāo)檢索結(jié)果的 準(zhǔn)確性,其中,上述公式為KL距離(Kullback-LeiblerDivergence,又稱相對(duì)熵)的計(jì)算,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示所述擴(kuò)展查詢模型,表示所述原始查詢模型,表示所述目標(biāo)實(shí)體主題模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率,所述α表示初始插值參數(shù)。在該技術(shù)方案中,由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少,甚至還不包含用戶需要檢索的信息,因此,需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面,進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目標(biāo)實(shí)體,E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體,Q表示所述查詢語(yǔ)句中的所有實(shí)體,w1表示所述查詢語(yǔ)句中的任一實(shí)體,IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中,由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的,且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型 有一定的關(guān)系,因此,在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù),并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型,從而使得擴(kuò)展查詢模型更加準(zhǔn)確,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí),根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型,確定最終的實(shí)體主題模型,以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型,以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確,即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔,進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔,提升了用戶體驗(yàn)。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的第一創(chuàng)建命令,通過(guò)以下公式確定所述最終的實(shí)體主題模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,表示所述最終的實(shí)體主題模型,表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率,n表示所述目標(biāo)實(shí)體的數(shù)目,表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率,表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率,Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),從公式中可以看出,根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述 微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型,由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度,因此,通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔,且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息,進(jìn)而提高了檢索效果,其中,逆向文檔頻率(InverseDocumentFrequency,IDF)是用于衡量目標(biāo)實(shí)體的重要程度,對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量,再將得到的商取對(duì)數(shù)得到,且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的第二創(chuàng)建命令,通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型:當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí),根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔;根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體;根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔;根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型,并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型;使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔,并進(jìn)行N次迭代運(yùn)算,以得到所述目標(biāo)實(shí)體主題模型,其中,M≥1,N≥1,且M和N均為正整數(shù)。在該技術(shù)方案中,通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”,凈化微博文檔,從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而提高了檢索效果,其中,所有實(shí)體指微 博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,還包括:在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后,統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù),以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù);根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值;根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù),確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值,從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新,進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確,即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域,進(jìn)而提高了檢索效果。本發(fā)明的另一方面提出了一種檢索系統(tǒng),包括:第一模型創(chuàng)建單元,在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型;實(shí)體識(shí)別單元,識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體;模型擴(kuò)展單元,根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型,對(duì)所述原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型;檢索結(jié)果確定單元,統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度,以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中,在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí),由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名,因此,通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果,另外,通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微 博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面,而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確,同時(shí)還提高了檢索的魯棒性。因此,通過(guò)本技術(shù)方案,用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果,從而提高準(zhǔn)確率,其中,目標(biāo)實(shí)體為查詢語(yǔ)句中的用戶想要查詢的目標(biāo)關(guān)鍵詞,例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”,而“新”和“電影”也即為其他實(shí)體或指我們通常意義上的詞。在上述技術(shù)方案中,優(yōu)選地,所述檢索結(jié)果確定單元包括:相似度統(tǒng)計(jì)單元,通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度,并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體,表示所述擴(kuò)展查詢模型,表示所述微博文檔語(yǔ)言模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中,通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔,但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列,即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前,因此,通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度,并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果,可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息,因此,通過(guò)該技術(shù)方案,可以提高檢索結(jié)果的匹配準(zhǔn)確率,進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性,其中,上述公式為KL距離(Kullback-LeiblerDivergence,又稱相對(duì)熵)的計(jì)算,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、 “電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,模型擴(kuò)展單元具體用于:根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示所述擴(kuò)展查詢模型,表示所述原始查詢模型,表示所述目標(biāo)實(shí)體主題模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率,所述α表示初始插值參數(shù)。在該技術(shù)方案中,由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少,甚至還不包含用戶需要檢索的信息,因此,需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面,進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中,優(yōu)選地,還包括:參數(shù)更新單元,根據(jù)接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目標(biāo)實(shí)體,E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體,Q表示所述查詢語(yǔ)句中的所有實(shí)體,w1表示所述查詢語(yǔ)句中的任一實(shí)體,IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中,由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的,且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系,因此,在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù),并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型,從而使得擴(kuò)展查詢模型更加準(zhǔn)確,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的 某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,還包括:所述模型擴(kuò)展單元還用于:當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí),根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型,確定最終的實(shí)體主題模型,以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型,以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確,即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔,進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔,提升了用戶體驗(yàn)。在上述技術(shù)方案中,優(yōu)選地,還包括:所述模型擴(kuò)展單元具體用于:根據(jù)接收到的第一創(chuàng)建命令,通過(guò)以下公式確定所述最終的實(shí)體主題模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,示所述最終的實(shí)體主題模型,表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率,n表示所述目標(biāo)實(shí)體的數(shù)目,表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率,表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率,Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),從公式中可以看出,根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型,由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度,因此,通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí) 體均相關(guān)的微博文檔,且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息,進(jìn)而提高了檢索效果,其中,逆向文檔頻率(InverseDocumentFrequency,IDF)是用于衡量目標(biāo)實(shí)體的重要程度,對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量,再將得到的商取對(duì)數(shù)得到,且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中,優(yōu)選地,還包括:第二模型創(chuàng)建單元,用于根據(jù)接收到的第二創(chuàng)建命令,通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型:當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí),根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔,根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體,根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔,根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型,并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型,使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔,并進(jìn)行N次迭代運(yùn)算,以得到所述目標(biāo)實(shí)體主題模型,其中,M≥1,N≥1,且M和N均為正整數(shù)。在該技術(shù)方案中,通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”,凈化微博文檔,從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而提高了檢索效果,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周 杰倫”。在上述技術(shù)方案中,優(yōu)選地,所述第二主題模型創(chuàng)建單元還包括::次數(shù)統(tǒng)計(jì)單元,在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后,統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù),以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù);先驗(yàn)值確定單元,根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值;領(lǐng)域模型更新單元,根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù),確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值,從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新,進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確,即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域,進(jìn)而提高了檢索效果。通過(guò)本發(fā)明的技術(shù)方案,使用戶可以準(zhǔn)確地在微博文檔中檢索得到目標(biāo)檢索結(jié)果,從而提高了檢索效率和準(zhǔn)確率,同時(shí)還可以增強(qiáng)檢索的魯棒性。附圖說(shuō)明圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖;圖2示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法的流程示意圖;圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔的流程示意圖;圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型的流程示意圖;圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的目標(biāo)實(shí)體主題模型的原理示意圖;圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果的流程示意圖;圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖;圖8示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施方式為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開(kāi)的具體實(shí)施例的限制。圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖。如圖1所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法,包括:步驟102,在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型;步驟104,識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體;步驟106,根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型,對(duì)所述原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型;步驟108,統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度,以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中,在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí),由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名,因此,通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果,另外,通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面,而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確,同時(shí)還提高了檢索的魯棒性。因此,通過(guò)本技術(shù)方案,用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果,從而提高檢索的準(zhǔn)確率,其中,目標(biāo)實(shí)體為查詢語(yǔ)句中的關(guān)鍵詞,例如查詢語(yǔ)句為 “周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度,并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體,表示所述擴(kuò)展查詢模型,表示所述微博文檔語(yǔ)言模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中,通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔,但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列,即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前,因此,通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度,并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果,可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息,因此,通過(guò)該技術(shù)方案,可以提高檢索結(jié)果的匹配準(zhǔn)確率,進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性,其中,上述公式為KL距離(Kullback-LeiblerDivergence,又稱相對(duì)熵)的計(jì)算,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中表示所述擴(kuò)展查詢模型,表示所述原始查詢模型,表示所述目標(biāo)實(shí)體主題模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有 的概率,所述α表示初始插值參數(shù)。在該技術(shù)方案中,由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少,甚至還不包含用戶需要檢索的信息,因此,需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面,進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目標(biāo)實(shí)體,E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體,Q表示所述查詢語(yǔ)句中的所有實(shí)體,w1表示所述查詢語(yǔ)句中的任一實(shí)體,IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中,由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的,且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系,因此,在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù),并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型,從而使得擴(kuò)展查詢模型更加準(zhǔn)確,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí),根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型,確定最終的實(shí)體主題模型,以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),根據(jù)每個(gè)目標(biāo) 實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型,以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確,即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔,進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔,提升了用戶體驗(yàn)。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的第一創(chuàng)建命令,通過(guò)以下公式確定所述最終的實(shí)體主題模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,表示所述最終的實(shí)體主題模型,表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率,n表示所述目標(biāo)實(shí)體的數(shù)目,表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率,表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率,Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),從公式中可以看出,根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型,由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度,因此,通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔,且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息,進(jìn)而提高了檢索效果,其中,逆向文檔頻率(InverseDocumentFrequency,IDF)是用于衡量目標(biāo)實(shí)體的重要程度,對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量,再將得到的商取對(duì)數(shù)得到,且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中,優(yōu)選地,根據(jù)接收到的第二創(chuàng)建命令,通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型:當(dāng)所述微博語(yǔ)料集合 所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí),根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔;根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體;根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔;根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型,并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型;使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔,并進(jìn)行N次迭代運(yùn)算,以得到所述目標(biāo)實(shí)體主題模型,其中,M≥1,N≥1,且M和N均為正整數(shù)。在該技術(shù)方案中,通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”,凈化微博文檔,從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而提高了檢索效果,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,還包括:在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后,統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù),以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù);根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值;根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔 中的第二出現(xiàn)次數(shù),確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值,從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新,進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確,即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域,進(jìn)而提高了檢索效果。圖2示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法的流程示意圖。如圖2所示,根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法,包括:步驟202,在微博流中獲取所有微博文檔。步驟204,根據(jù)每條微博文檔建立微博文檔語(yǔ)言模型,并進(jìn)入步驟218。步驟206,在微博流中獲取微博語(yǔ)料集合,其中,微博語(yǔ)料集合包括微博文檔。步驟208,識(shí)別出微博文檔中的所有實(shí)體,例如,利用實(shí)體識(shí)別工具TwitterNLP識(shí)別出所有實(shí)體,建立所有實(shí)體中的每個(gè)實(shí)體的實(shí)體索引,其中,每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按照時(shí)間順序排序的微博文檔的列表。步驟210,識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟212,對(duì)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型進(jìn)行估計(jì),進(jìn)入步驟216。步驟214,在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),通過(guò)最大似然估計(jì)并根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)的原始查詢模型。步驟216,根據(jù)目標(biāo)實(shí)體主題模型和原始查詢模型(根據(jù)與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、原始查詢模型和根據(jù)微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型),對(duì)原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型。步驟218,根據(jù)擴(kuò)展查詢模型和微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型,進(jìn)行KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度)。步驟220,根據(jù)相似度確定查詢語(yǔ)句的目標(biāo)檢索結(jié)果。圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔的流程示意圖。如圖3所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔,包括:步驟302,識(shí)別微博語(yǔ)料集合中的所有實(shí)體。步驟304,建立所有實(shí)體中的每個(gè)實(shí)體的實(shí)體索引,其中,每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按照時(shí)間順序排序的微博文檔的列表。步驟306,根據(jù)目標(biāo)實(shí)體在實(shí)體索引中搜索出與該目標(biāo)實(shí)體相關(guān)的M條微博文檔,其中該M條微博文檔為實(shí)體索引中最新發(fā)布的微博文檔。圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型的流程示意圖;圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的目標(biāo)實(shí)體主題模型的原理示意圖。下面結(jié)合圖4和圖5詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案:如圖4所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型,包括:步驟402,識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟404,根據(jù)目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,在與語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)關(guān)鍵詞包括目標(biāo)實(shí)體。步驟406,據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔,并根據(jù)虛擬文檔建立領(lǐng)域語(yǔ)言模型,以及根據(jù)微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型和建立與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型,從而由領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和初始實(shí)體模型建立混合模型,如圖5所示,并由混合模型的建立過(guò)程,推導(dǎo)出目標(biāo)實(shí)體的目標(biāo)實(shí)體模型,其中,圖5中示出的λC和λE均為預(yù)設(shè)參數(shù)、γ1和γk表示第1個(gè)領(lǐng)域語(yǔ)言模型的權(quán)重值和第k個(gè)領(lǐng)域語(yǔ)言模型的權(quán)重值,EF表示圖3中的M條微博文檔,表示初始實(shí)體模型,表示背景語(yǔ)言模型和表示k個(gè)領(lǐng)域語(yǔ)言模型。步驟408(等同于步驟306),根據(jù)目標(biāo)實(shí)體在實(shí)體索引中搜索出與該目標(biāo)實(shí)體相關(guān)的M條微博文檔(根據(jù)目標(biāo)實(shí)體從微博語(yǔ)料集合中提取與目標(biāo)實(shí)體相關(guān)的M條微博文檔)。步驟410,通過(guò)EM算法遍歷M條微博文檔進(jìn)行模型參數(shù)迭代計(jì)算,其中,EM算法表示期望最大化算法(ExpectationMaximizationAlgorithm, 又稱最大期望算法)。步驟412,根據(jù)迭代計(jì)算后的模型參數(shù)對(duì)混合模型進(jìn)行迭代計(jì)算,以得到目標(biāo)實(shí)體主題模型,其中,迭代次數(shù)為預(yù)設(shè)次數(shù)N次,當(dāng)進(jìn)行第一次迭代時(shí),與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以近似等于背景語(yǔ)言模型,M≥1,N≥1,且M和N均為正整數(shù)。圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果的流程示意圖。如圖6所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果,包括:步驟602,識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟604,建立與目標(biāo)實(shí)體對(duì)應(yīng)的目標(biāo)實(shí)體主題模型,進(jìn)入步驟610。步驟606,對(duì)初始插值參數(shù)α進(jìn)行計(jì)算,以得到α′,進(jìn)入步驟610。步驟608,根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)地原始查詢模型,進(jìn)入步驟610。步驟610,對(duì)目標(biāo)實(shí)體主題模型、初始插值參數(shù)α′和原始查詢模型進(jìn)行線性疊加,確定擴(kuò)展查詢模型。步驟612,在微博流中獲取微博文檔。步驟614,根據(jù)微博文檔集合中的每條微博文檔建立微博文檔語(yǔ)言模型。步驟616,對(duì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型進(jìn)行KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度)。步驟618,將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為目標(biāo)檢索結(jié)果。圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。如圖7所示,根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)700,包括:第一模型創(chuàng)建單元702、實(shí)體識(shí)別單元704、模型擴(kuò)展單元706和檢索結(jié)果確定單元708,其中,所述第一模型創(chuàng)建單元702用于在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型;實(shí)體識(shí)別單元704,識(shí)別所述查詢語(yǔ)句中 的目標(biāo)實(shí)體;模型擴(kuò)展單元706,根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型,對(duì)所述原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型;檢索結(jié)果確定單元708,統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度,以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中,在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí),由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名,因此,通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果,另外,通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面,而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確,同時(shí)還提高了檢索的魯棒性。因此,通過(guò)本技術(shù)方案,用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果,從而提高準(zhǔn)確率,其中,目標(biāo)實(shí)體為查詢語(yǔ)句中的用戶想要查詢的目標(biāo)關(guān)鍵詞,例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”,而“新”和“電影”也即為其他實(shí)體或指我們通常意義上的詞。在上述技術(shù)方案中,優(yōu)選地,所述檢索結(jié)果確定單元708包括:相似度統(tǒng)計(jì)單元7082,通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度,并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示所述相似度,V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體,表示所述擴(kuò)展查詢模型,表示所述微博文檔語(yǔ)言模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中,通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博 文檔,但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列,即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前,因此,通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度,并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果,可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息,因此,通過(guò)該技術(shù)方案,可以提高檢索結(jié)果的匹配準(zhǔn)確率,進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性,其中,上述公式為KL距離(Kullback-LeiblerDivergence,又稱相對(duì)熵)的計(jì)算,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,模型擴(kuò)展單元706具體用于:根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示所述擴(kuò)展查詢模型,表示所述原始查詢模型,表示所述目標(biāo)實(shí)體主題模型,表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率,表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率,所述α表示初始插值參數(shù)。在該技術(shù)方案中,由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少,甚至還不包含用戶需要檢索的信息,因此,需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型,這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面,進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中,優(yōu)選地,還包括:參數(shù)更新單元710,根據(jù)接收到的更新命令,按照以下公式更新所述α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示所述目標(biāo)實(shí)體,E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體,Q表示所述查詢語(yǔ)句中的所有實(shí)體,w1表示所述查詢語(yǔ)句中的任一實(shí)體,IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中,由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的,且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系,因此,在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù),并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型,從而使得擴(kuò)展查詢模型更加準(zhǔn)確,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,還包括:所述模型擴(kuò)展單元706還用于:當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí),根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型,確定最終的實(shí)體主題模型,以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型,以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確,即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔,進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔,提升了用戶體驗(yàn)。在上述技術(shù)方案中,優(yōu)選地,還包括:所述模型擴(kuò)展單元706具體用于:根據(jù)接收到的第一創(chuàng)建命令,通過(guò)以下公式確定所述最終的實(shí)體主題模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,表示所述最終的實(shí)體主題模型,表示每個(gè)所述目 標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率,n表示所述目標(biāo)實(shí)體的數(shù)目,表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率,表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率,Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中,當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí),從公式中可以看出,根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型,由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度,因此,通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索,使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔,且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果,從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息,進(jìn)而提高了檢索效果,其中,逆向文檔頻率(InverseDocumentFrequency,IDF)是用于衡量目標(biāo)實(shí)體的重要程度,對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量,再將得到的商取對(duì)數(shù)得到,且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中,優(yōu)選地,還包括:第二模型創(chuàng)建單元712,用于根據(jù)接收到的第二創(chuàng)建命令,通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型:當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí),根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔,根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體,根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔,根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型,并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型,使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔,并進(jìn)行N次迭代運(yùn)算,以 得到所述目標(biāo)實(shí)體主題模型,其中,M≥1,N≥1,且M和N均為正整數(shù)。在該技術(shù)方案中,通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”,凈化微博文檔,從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí),可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔,即包括有用戶感興趣的信息,從而可以有效地避免了對(duì)微博文檔的漏檢,進(jìn)而提高了檢索效果,其中,所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞,例如,微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”,則該條微博文檔中的所有實(shí)體即為“周杰倫”,“新”、“電影”和“太棒了”,總之,實(shí)體就是代表我們通常意義上的詞,目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中,優(yōu)選地,所述第二主題模型創(chuàng)建單元還包括::次數(shù)統(tǒng)計(jì)單元7122,在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后,統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù),以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù);先驗(yàn)值確定單元7124,根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值;領(lǐng)域模型更新單元7126,根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中,通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù),確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值,從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新,進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確,即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域,進(jìn)而提高了檢索效果。圖8示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。如圖8所示,根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)800(相當(dāng)于圖7示出的實(shí)施例的檢索系統(tǒng)700),包括:實(shí)體微博集合獲取模塊802,用于收集與目標(biāo)實(shí)體相關(guān)的微博文檔;實(shí)體主題模型估計(jì)模塊804(相當(dāng)于圖7示出的實(shí)施例的第二模型創(chuàng)建單元712),用于進(jìn)行目標(biāo)實(shí)體主題 模型的估計(jì);適應(yīng)性查詢擴(kuò)展模塊806(相當(dāng)于圖7示出的實(shí)施例的模型擴(kuò)展單元706),用于將目標(biāo)實(shí)體主題模型融入微博文檔語(yǔ)言模型中。下面詳細(xì)說(shuō)明檢索系統(tǒng)800的這幾個(gè)模塊:1.實(shí)體微博集合獲取模塊802具體用于:對(duì)查詢語(yǔ)句中的目標(biāo)實(shí)體進(jìn)行識(shí)別,實(shí)體索引的建立,以及對(duì)與目標(biāo)實(shí)體相關(guān)的微博文檔進(jìn)行選取。2.實(shí)體主題模型估計(jì)模塊804包括:知識(shí)庫(kù)鏈接模塊8042、先驗(yàn)值計(jì)算模塊8044(相當(dāng)于圖7示出的實(shí)施例的先驗(yàn)值計(jì)算單元7124)和生成式模型構(gòu)建模塊8046,知識(shí)庫(kù)鏈接模塊8042用于把目標(biāo)實(shí)體鏈接到Freebase知識(shí)庫(kù),并獲取該目標(biāo)實(shí)體在Freebase知識(shí)庫(kù)中所屬的目標(biāo)領(lǐng)域(Freebase中的領(lǐng)域可以看成是流行報(bào)紙的不同版面:如商業(yè),生活方式,藝術(shù),娛樂(lè),政治,經(jīng)濟(jì)等);先驗(yàn)值計(jì)算模塊8044用于獲取與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體,根據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔,在此虛擬文檔上進(jìn)行極大似然估計(jì)來(lái)生成領(lǐng)域先驗(yàn)值;生成式模型構(gòu)建模塊8046用于搭建與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型、背景語(yǔ)言模型和領(lǐng)域語(yǔ)言模型,并利用EM算法在微博文檔中進(jìn)行迭代計(jì)算,以得到目標(biāo)實(shí)體主題模型。3.適應(yīng)性查詢擴(kuò)展模塊806,用于對(duì)查詢語(yǔ)句進(jìn)行建模得到原始查詢模型,以及對(duì)微博文檔集合中的每條微博文檔進(jìn)行建模得到微博文檔語(yǔ)言模型,通過(guò)目標(biāo)實(shí)體主題模型對(duì)原始查詢模型進(jìn)行擴(kuò)展,以得到擴(kuò)展查詢模型,對(duì)擴(kuò)展查詢模型和微博文檔語(yǔ)言模型進(jìn)行KL距離計(jì)算,以根據(jù)計(jì)算結(jié)果得到目標(biāo)檢索結(jié)果。下面將進(jìn)一步詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案:一、識(shí)別實(shí)體。1.利用實(shí)體識(shí)別工具TwitterNLP識(shí)別出微博文檔中的所有實(shí)體。2.建立實(shí)體索引,對(duì)于所有實(shí)體中的每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按時(shí)間排序的微博文檔的列表。3.識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體,并在實(shí)體索引中獲取最新發(fā)布的M條包含該目標(biāo)實(shí)體的微博文檔。二、建立目標(biāo)實(shí)體主題模型。1.將目標(biāo)實(shí)體鏈接到Freebase知識(shí)庫(kù)(目標(biāo)領(lǐng)域知識(shí)庫(kù)),讀取目標(biāo) 實(shí)體在Freebase知識(shí)庫(kù)中的實(shí)體信息,以獲取目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域(例如音樂(lè)領(lǐng)域、藝術(shù)領(lǐng)域、圖書(shū)領(lǐng)域)。特別的,如果目標(biāo)實(shí)體未鏈接到實(shí)體信息,則認(rèn)為該目標(biāo)實(shí)體屬于任何一個(gè)領(lǐng)域。2.計(jì)算領(lǐng)域先驗(yàn)值,根據(jù)實(shí)體索引中所有實(shí)體嘗試用Freebase搜索接口鏈接到Freebase知識(shí)庫(kù),將不同領(lǐng)域下的屬性和類型詞構(gòu)成一個(gè)虛擬文檔(在與語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞,其中,多個(gè)關(guān)鍵詞包括目標(biāo)實(shí)體,并根據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔),在此虛擬文檔上使用下列公式進(jìn)行極大似然估計(jì)來(lái)生成領(lǐng)域先驗(yàn)值:p(w|d)=c(w,d)Σnc(w2,d)]]>其中,w表示目標(biāo)實(shí)體,d表示目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域,w2表示多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞,c(w,d)表示w在目標(biāo)領(lǐng)域d對(duì)應(yīng)的虛擬文檔中的第一出現(xiàn)次數(shù),c(w2,d)表示多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù),n表示關(guān)鍵詞的總數(shù)量。3.建立目標(biāo)實(shí)體主題模型,根據(jù)虛擬文檔建立領(lǐng)域語(yǔ)言模型,并根據(jù)微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型,以及建立與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型,其中,初始實(shí)體模型可以近似于背景語(yǔ)言模型,由領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和初始實(shí)體模型形成混合模型。4.利用EM算法進(jìn)行模型估計(jì)。根據(jù)如圖5所示的混合模型,我們可以將返回的M條微博集合EF的對(duì)數(shù)似然函數(shù)表示為:logp(EF|θ^)=ΣiΣwc(w,Di)×log{λE[(1-λC)×p(w,θ^E)+λC×p(w|θ^C)]+(1-λE)×Σd=1kγdp(w,θ^d)}]]>其中,EF表示上文搜索出的M條微博文檔,i用于遍歷微博語(yǔ)料集合中的所有微博文檔,w表示微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體中的每個(gè)實(shí)體,Di表示微博語(yǔ)料集合中的第i條微博文檔,k表示目標(biāo) 實(shí)體所屬的目標(biāo)領(lǐng)域的數(shù)量,表示w在目標(biāo)實(shí)體模型中所占有的概率,表示詞w在背景語(yǔ)言模型中所占有的頻率,表示詞w在領(lǐng)域語(yǔ)言模型中所占有的頻率,c(w,Di)是詞w在Di中出現(xiàn)的次數(shù),λC表示第一預(yù)設(shè)參數(shù),λE表示第二預(yù)設(shè)參數(shù),λC和λE分別用于控制背景噪音和領(lǐng)域相關(guān)噪音,γd表示目標(biāo)領(lǐng)域語(yǔ)言模型的權(quán)重值。使用EM算法即來(lái)對(duì)混合模型進(jìn)行最大似然估計(jì),在微博語(yǔ)料集合EF上迭代更新參數(shù),從而得到以下公式:td(n)(w)=(1-λE)×γd(n)×p(n)(w|θ^d)λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]+(1-λE)×Σd′=1kγd′(n)×p(n)(w|θ^d′)]]>s(n)(w)=λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]+(1-λE)×Σd′=1kγd′(n)×p(n)(w|θ^d′)]]>r(n)(w)=(1-λc)×p(n)(w|θ^E)(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]]>p(n+1)(w|θ^d)=Σic(w,Di)×td(n)(w)Σw′ΣiΣd′=1kc(w′,Di)×td′(n)(w′)]]>p(n+1)(w|θ^E)=Σic(w,Di)×r(n)(w)×s(n)(w)Σw′Σic(w′,Di)×r(n)(w′)×s(n)(w′)]]>γd(n+1)=ΣwΣic(w,Di)×td(n)(w)ΣwΣiΣd′=1kc(w,Di)×td′(n)(w)]]>其中,n表示當(dāng)前迭代的次數(shù),w表示目標(biāo)實(shí)體,w′表示微博語(yǔ)料集合的所有實(shí)體中的每個(gè)實(shí)體,d′表示所有領(lǐng)域中的每個(gè)領(lǐng)域,s(n)(w),r(n)(w)是為了表示計(jì)算方便的中間變量,表示w在第(n+1)輪迭代時(shí)的領(lǐng)域語(yǔ)言模型中的概率,表示w在第(n+1)輪迭代時(shí)的實(shí)體主題模型中的概率,表示第(n+1)輪迭代時(shí)的領(lǐng)域語(yǔ)言模型的權(quán)重值,在求和下標(biāo)中,w/w′用于遍歷微博語(yǔ)料集合中的所有實(shí)體,i用于遍歷反饋微博集合中的所有微博文檔,d/d′用于遍歷所有領(lǐng)域,k表示目標(biāo)實(shí)體E所屬的目標(biāo)領(lǐng)域的數(shù)量,λ表示預(yù)設(shè)迭代參數(shù)。另外,更新的過(guò)程中可以使用目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值p(w|d)。在每個(gè)一元語(yǔ)言模型p(w|d)上定義一個(gè)共軛先驗(yàn)(即狄利克雷先 驗(yàn)),接著,采用最大后驗(yàn)概率(MaximumAPosteriori,MAP)來(lái)估計(jì)所有的參數(shù),只需要在領(lǐng)域語(yǔ)言模型的更新公式上做很小的更改,通過(guò)下列公式進(jìn)行MAP估計(jì):p(n+1)(w|θ^d)=σd·p(w|d)+Σic(w,Di)·td(n)(w)σd+Σw′ΣiΣd′=1kc(w′,Di)·td′(n)(w′)]]>至此,使用以上公式迭代數(shù)輪后(比如100輪),可以得到目標(biāo)實(shí)體主題模型三、適應(yīng)性查詢擴(kuò)展。1.在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí),根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)的原始查詢模型,以及根據(jù)微博文檔集合中的每條微博文檔建立微博文檔語(yǔ)言模型。2.通過(guò)目標(biāo)實(shí)體主題模型對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型。根據(jù)下列公式計(jì)算得到擴(kuò)展查詢模型:p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中,表示擴(kuò)展查詢模型,表示原始查詢模型,表示目標(biāo)實(shí)體主題模型,表示目標(biāo)實(shí)體在擴(kuò)展查詢模型中所占有的概率,表示目標(biāo)實(shí)體在原始查詢模型中所占有的概率,表示目標(biāo)實(shí)體在目標(biāo)實(shí)體模型中所占有的概率,α表示初始插值參數(shù),α控制目標(biāo)實(shí)體主題模型的重要程度。在相關(guān)技術(shù)中,初始插值參數(shù)α對(duì)于所有的查詢語(yǔ)句均設(shè)置為一個(gè)固定的值,然而,考慮到不同查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要性程度是不相同的,所以可以對(duì)初始插值參數(shù)進(jìn)行更新,按照以下公式更新α,以得到α′:α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中,w表示目標(biāo)實(shí)體,E表示目標(biāo)實(shí)體模型中的所有實(shí)體,Q表示查詢語(yǔ)句中的所有實(shí)體,w1表示查詢語(yǔ)句中的任一實(shí)體,IDF(w)表示目標(biāo)實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示任一實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率。特別的,當(dāng)查詢語(yǔ)句中有多個(gè)目標(biāo)實(shí)體被識(shí)別出時(shí),根據(jù)每個(gè)目標(biāo)實(shí) 體的目標(biāo)實(shí)體主題模型的帶權(quán)平均值確定最終的實(shí)體主題模型,具體地,通過(guò)以下公式確定最終的實(shí)體主題模型:p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中,表示最終的實(shí)體主題模型,表示每個(gè)目標(biāo)實(shí)體在最終的實(shí)體主題模型中所占有的概率,n表示目標(biāo)實(shí)體的數(shù)目,表示每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型,IDF(Ei)表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率,表示每個(gè)目標(biāo)實(shí)體在與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型中所占有的概率,Ei表示多個(gè)目標(biāo)實(shí)體中的第i個(gè)目標(biāo)實(shí)體。3.KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度),通過(guò)以下公式統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度,并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為目標(biāo)檢索結(jié)果:Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中,Score(Q,D)表示相似度,V表示微博文檔語(yǔ)言模型中的所有實(shí)體,表示擴(kuò)展查詢模型,表示微博文檔語(yǔ)言模型,表示目標(biāo)實(shí)體在擴(kuò)展查詢模型中所占有的概率,表示目標(biāo)實(shí)體在微博文檔語(yǔ)言模型中所占有的概率。下面結(jié)合一個(gè)實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步地描述:1)進(jìn)行預(yù)處理階段,對(duì)微博流中的每條微博文檔均用實(shí)體識(shí)別工具識(shí)別出包含的所有實(shí)體。例如微博文檔為“周杰倫的新電影真是拍得太棒了”,我們識(shí)別出了實(shí)體“周杰倫”,則我們將該微博編號(hào)(id)存入實(shí)體索引中對(duì)應(yīng)的實(shí)體項(xiàng);對(duì)于目標(biāo)實(shí)體,我們從實(shí)體索引中獲得最新加入的M條微博文檔作為微博語(yǔ)料集合。2)首先對(duì)于目標(biāo)實(shí)體“周杰倫”,使用Freebase搜索接口嘗試鏈接到Freebase知識(shí)庫(kù)中的對(duì)象,并獲得其所屬的目標(biāo)領(lǐng)域,即電影、音樂(lè)、電視、人物、媒體、獎(jiǎng)項(xiàng)。構(gòu)建混合模型,該混合模型包括“周杰倫”對(duì)應(yīng)的初始實(shí)體主題模型、背景語(yǔ)言模型和六個(gè)領(lǐng)域語(yǔ)言模型。使用領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型 遍歷M條微博文檔,并進(jìn)行N次迭代運(yùn)算,以得到目標(biāo)實(shí)體主題模型,其中,M≥1,N≥1,且M和N均為正整數(shù)。3)對(duì)查詢語(yǔ)句和每條微博文檔進(jìn)行極大似然建模,例如查詢語(yǔ)句為“周杰倫新電影”,分詞后得到[“周杰倫”,“新”,“電影”],經(jīng)過(guò)最大似然估計(jì)創(chuàng)建原始查詢模型,p(周杰倫)=0.33,p(新)=0.33,p(電影)=0.33,以及根據(jù)每條微博文檔建立微博文檔語(yǔ)言模型,其中,對(duì)于每條微博文檔的極大似然估計(jì)建模與原始查詢模型的估計(jì)建模類似。識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體,例如查詢語(yǔ)句為“周杰倫新電影”,識(shí)別出目標(biāo)實(shí)體為“周杰倫”。利用“周杰倫”目標(biāo)實(shí)體主題模型來(lái)擴(kuò)展原始查詢模型,得到擴(kuò)展查詢模型,計(jì)算初始插值參數(shù):根據(jù)前面的線性插值公式來(lái)來(lái)擴(kuò)展原始查詢模型,由于查詢語(yǔ)句“周杰倫新電影”中僅有一個(gè)目標(biāo)實(shí)體“周杰倫”,因此,可以直接利用該目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型來(lái)進(jìn)行擴(kuò)展。利用KL距離計(jì)算公式計(jì)算出擴(kuò)展后的擴(kuò)展查詢模型和微博文檔語(yǔ)言模型的相似度,微博文檔語(yǔ)言模型利用微博文檔的極大似然估計(jì),并進(jìn)行狄利克雷平滑處理。根據(jù)相似度確定查詢語(yǔ)句的目標(biāo)檢索結(jié)果。以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案,可以使用戶準(zhǔn)確地在微博文檔中檢索得到目標(biāo)檢索結(jié)果,從而提高了檢索準(zhǔn)確率,同時(shí)還可以有效地增強(qiáng)檢索的魯棒性。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3