檢索方法和檢索系統(tǒng)與流程

文檔序號(hào)：12363872閱讀：184來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及檢索
技術(shù)領(lǐng)域：
，具體而言，涉及一種檢索方法和檢索系統(tǒng)。
背景技術(shù)：
：微博是一個(gè)基于用戶關(guān)系的輕量級(jí)信息傳播平臺(tái)，用戶可以廣播并分享關(guān)于他的活動(dòng)及狀態(tài)信息。微博的流行帶來(lái)了對(duì)微博文檔進(jìn)行檢索的需求，用戶也逐漸習(xí)慣對(duì)微博文檔進(jìn)行各種內(nèi)容的搜索。與傳統(tǒng)的Web檢索不同，對(duì)微博文檔的檢索面臨很大的挑戰(zhàn)，首先，由于微博文檔的長(zhǎng)度限制，使微博檢索面臨著嚴(yán)峻的詞匯不匹配問(wèn)題。此外，由于同一個(gè)實(shí)體具有不同別名，因此，不同用戶在對(duì)同一個(gè)實(shí)體進(jìn)行檢索時(shí)可能會(huì)采用與該實(shí)體對(duì)應(yīng)的別名進(jìn)行檢索，例如實(shí)體“周杰倫”的別名有“周董、杰倫、倫寶”等，這樣通過(guò)別名在微博文檔中檢索得到的目標(biāo)檢索結(jié)果也就不準(zhǔn)確，而且檢索的效率也不高，另一方面，微博文檔本身中也包含有很多實(shí)體，這樣都會(huì)使檢索得到的目標(biāo)檢索結(jié)果不準(zhǔn)確。因此，如何使用戶可以準(zhǔn)確地在微博文檔中檢索到目標(biāo)檢索結(jié)果，成為亟待解決的問(wèn)題。技術(shù)實(shí)現(xiàn)要素：本發(fā)明正是基于上述問(wèn)題，提出了一種新的技術(shù)方案，可以解決用戶在微博文檔中不能準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果的技術(shù)問(wèn)題。有鑒于此，本發(fā)明的一方面提出了一種檢索方法，包括：在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型；識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體；根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型，對(duì)所述原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型；統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度，以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中，在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí)，由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名，因此，通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果，另外，通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面，而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確，同時(shí)還提高了檢索的魯棒性。因此，通過(guò)本技術(shù)方案，用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果，從而提高檢索的準(zhǔn)確率，其中，目標(biāo)實(shí)體為查詢語(yǔ)句中的關(guān)鍵詞，例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度，并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示所述相似度，V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體，表示所述擴(kuò)展查詢模型，表示所述微博文檔語(yǔ)言模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中，通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔，但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列，即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前，因此，通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度，并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果，可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息，因此，通過(guò)該技術(shù)方案，可以提高檢索結(jié)果的匹配準(zhǔn)確率，進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性，其中，上述公式為KL距離(Kullback-LeiblerDivergence，又稱相對(duì)熵)的計(jì)算，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中，表示所述擴(kuò)展查詢模型，表示所述原始查詢模型，表示所述目標(biāo)實(shí)體主題模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率，所述α表示初始插值參數(shù)。在該技術(shù)方案中，由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少，甚至還不包含用戶需要檢索的信息，因此，需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面，進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的更新命令，按照以下公式更新所述α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示所述目標(biāo)實(shí)體，E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體，Q表示所述查詢語(yǔ)句中的所有實(shí)體，w1表示所述查詢語(yǔ)句中的任一實(shí)體，IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中，由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的，且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系，因此，在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù)，并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型，從而使得擴(kuò)展查詢模型更加準(zhǔn)確，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí)，根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型，確定最終的實(shí)體主題模型，以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型，以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確，即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔，進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔，提升了用戶體驗(yàn)。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的第一創(chuàng)建命令，通過(guò)以下公式確定所述最終的實(shí)體主題模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，表示所述最終的實(shí)體主題模型，表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率，n表示所述目標(biāo)實(shí)體的數(shù)目，表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率，表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率，Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，從公式中可以看出，根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型，由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度，因此，通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔，且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息，進(jìn)而提高了檢索效果，其中，逆向文檔頻率(InverseDocumentFrequency，IDF)是用于衡量目標(biāo)實(shí)體的重要程度，對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量，再將得到的商取對(duì)數(shù)得到，且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的第二創(chuàng)建命令，通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型：當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí)，根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔；根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體；根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔；根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型，并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型；使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔，并進(jìn)行N次迭代運(yùn)算，以得到所述目標(biāo)實(shí)體主題模型，其中，M≥1，N≥1，且M和N均為正整數(shù)。在該技術(shù)方案中，通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”，凈化微博文檔，從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而提高了檢索效果，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，還包括：在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后，統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù)，以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù)；根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值；根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中，通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù)，確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值，從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新，進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確，即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域，進(jìn)而提高了檢索效果。本發(fā)明的另一方面提出了一種檢索系統(tǒng)，包括：第一模型創(chuàng)建單元，在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型；實(shí)體識(shí)別單元，識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體；模型擴(kuò)展單元，根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型，對(duì)所述原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型；檢索結(jié)果確定單元，統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度，以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中，在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí)，由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名，因此，通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果，另外，通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面，而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確，同時(shí)還提高了檢索的魯棒性。因此，通過(guò)本技術(shù)方案，用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果，從而提高準(zhǔn)確率，其中，目標(biāo)實(shí)體為查詢語(yǔ)句中的用戶想要查詢的目標(biāo)關(guān)鍵詞，例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”，而“新”和“電影”也即為其他實(shí)體或指我們通常意義上的詞。在上述技術(shù)方案中，優(yōu)選地，所述檢索結(jié)果確定單元包括：相似度統(tǒng)計(jì)單元，通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度，并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示所述相似度，V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體，表示所述擴(kuò)展查詢模型，表示所述微博文檔語(yǔ)言模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中，通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔，但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列，即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前，因此，通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度，并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果，可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息，因此，通過(guò)該技術(shù)方案，可以提高檢索結(jié)果的匹配準(zhǔn)確率，進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性，其中，上述公式為KL距離(Kullback-LeiblerDivergence，又稱相對(duì)熵)的計(jì)算，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、 “電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，模型擴(kuò)展單元具體用于：根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中，表示所述擴(kuò)展查詢模型，表示所述原始查詢模型，表示所述目標(biāo)實(shí)體主題模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率，所述α表示初始插值參數(shù)。在該技術(shù)方案中，由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少，甚至還不包含用戶需要檢索的信息，因此，需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面，進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中，優(yōu)選地，還包括：參數(shù)更新單元，根據(jù)接收到的更新命令，按照以下公式更新所述α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示所述目標(biāo)實(shí)體，E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體，Q表示所述查詢語(yǔ)句中的所有實(shí)體，w1表示所述查詢語(yǔ)句中的任一實(shí)體，IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中，由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的，且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系，因此，在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù)，并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型，從而使得擴(kuò)展查詢模型更加準(zhǔn)確，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，還包括：所述模型擴(kuò)展單元還用于：當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí)，根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型，確定最終的實(shí)體主題模型，以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型，以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確，即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔，進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔，提升了用戶體驗(yàn)。在上述技術(shù)方案中，優(yōu)選地，還包括：所述模型擴(kuò)展單元具體用于：根據(jù)接收到的第一創(chuàng)建命令，通過(guò)以下公式確定所述最終的實(shí)體主題模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，示所述最終的實(shí)體主題模型，表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率，n表示所述目標(biāo)實(shí)體的數(shù)目，表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率，表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率，Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，從公式中可以看出，根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型，由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度，因此，通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí) 體均相關(guān)的微博文檔，且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息，進(jìn)而提高了檢索效果，其中，逆向文檔頻率(InverseDocumentFrequency，IDF)是用于衡量目標(biāo)實(shí)體的重要程度，對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量，再將得到的商取對(duì)數(shù)得到，且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中，優(yōu)選地，還包括：第二模型創(chuàng)建單元，用于根據(jù)接收到的第二創(chuàng)建命令，通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型：當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí)，根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔，根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體，根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔，根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型，并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型，使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔，并進(jìn)行N次迭代運(yùn)算，以得到所述目標(biāo)實(shí)體主題模型，其中，M≥1，N≥1，且M和N均為正整數(shù)。在該技術(shù)方案中，通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”，凈化微博文檔，從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而提高了檢索效果，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，所述第二主題模型創(chuàng)建單元還包括：：次數(shù)統(tǒng)計(jì)單元，在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后，統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù)，以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù)；先驗(yàn)值確定單元，根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值；領(lǐng)域模型更新單元，根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中，通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù)，確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值，從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新，進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確，即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域，進(jìn)而提高了檢索效果。通過(guò)本發(fā)明的技術(shù)方案，使用戶可以準(zhǔn)確地在微博文檔中檢索得到目標(biāo)檢索結(jié)果，從而提高了檢索效率和準(zhǔn)確率，同時(shí)還可以增強(qiáng)檢索的魯棒性。附圖說(shuō)明圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖；圖2示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法的流程示意圖；圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔的流程示意圖；圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型的流程示意圖；圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的目標(biāo)實(shí)體主題模型的原理示意圖；圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果的流程示意圖；圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖；圖8示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。具體實(shí)施方式為了可以更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn)，下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說(shuō)明的是，在不沖突的情況下，本申請(qǐng)的實(shí)施例及實(shí)施例中的特征可以相互組合。在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明，但是，本發(fā)明還可以采用其他不同于在此描述的其他方式來(lái)實(shí)施，因此，本發(fā)明的保護(hù)范圍并不受下面公開(kāi)的具體實(shí)施例的限制。圖1示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法的流程示意圖。如圖1所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索方法，包括：步驟102，在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型；步驟104，識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體；步驟106，根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型，對(duì)所述原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型；步驟108，統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度，以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中，在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí)，由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名，因此，通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果，另外，通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面，而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確，同時(shí)還提高了檢索的魯棒性。因此，通過(guò)本技術(shù)方案，用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果，從而提高檢索的準(zhǔn)確率，其中，目標(biāo)實(shí)體為查詢語(yǔ)句中的關(guān)鍵詞，例如查詢語(yǔ)句為 “周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度，并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示所述相似度，V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體，表示所述擴(kuò)展查詢模型，表示所述微博文檔語(yǔ)言模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中，通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔，但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列，即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前，因此，通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度，并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果，可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息，因此，通過(guò)該技術(shù)方案，可以提高檢索結(jié)果的匹配準(zhǔn)確率，進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性，其中，上述公式為KL距離(Kullback-LeiblerDivergence，又稱相對(duì)熵)的計(jì)算，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中表示所述擴(kuò)展查詢模型，表示所述原始查詢模型，表示所述目標(biāo)實(shí)體主題模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率，所述α表示初始插值參數(shù)。在該技術(shù)方案中，由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少，甚至還不包含用戶需要檢索的信息，因此，需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面，進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的更新命令，按照以下公式更新所述α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示所述目標(biāo)實(shí)體，E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體，Q表示所述查詢語(yǔ)句中的所有實(shí)體，w1表示所述查詢語(yǔ)句中的任一實(shí)體，IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中，由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的，且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系，因此，在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù)，并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型，從而使得擴(kuò)展查詢模型更加準(zhǔn)確，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí)，根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型，確定最終的實(shí)體主題模型，以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，根據(jù)每個(gè)目標(biāo) 實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型，以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確，即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔，進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔，提升了用戶體驗(yàn)。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的第一創(chuàng)建命令，通過(guò)以下公式確定所述最終的實(shí)體主題模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，表示所述最終的實(shí)體主題模型，表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率，n表示所述目標(biāo)實(shí)體的數(shù)目，表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率，表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率，Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，從公式中可以看出，根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型，由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度，因此，通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔，且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息，進(jìn)而提高了檢索效果，其中，逆向文檔頻率(InverseDocumentFrequency，IDF)是用于衡量目標(biāo)實(shí)體的重要程度，對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量，再將得到的商取對(duì)數(shù)得到，且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中，優(yōu)選地，根據(jù)接收到的第二創(chuàng)建命令，通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型：當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí)，根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔；根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體；根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔；根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型，并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型；使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔，并進(jìn)行N次迭代運(yùn)算，以得到所述目標(biāo)實(shí)體主題模型，其中，M≥1，N≥1，且M和N均為正整數(shù)。在該技術(shù)方案中，通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”，凈化微博文檔，從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而提高了檢索效果，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，還包括：在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后，統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù)，以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù)；根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值；根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中，通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù)，確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值，從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新，進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確，即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域，進(jìn)而提高了檢索效果。圖2示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法的流程示意圖。如圖2所示，根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索方法，包括：步驟202，在微博流中獲取所有微博文檔。步驟204，根據(jù)每條微博文檔建立微博文檔語(yǔ)言模型，并進(jìn)入步驟218。步驟206，在微博流中獲取微博語(yǔ)料集合，其中，微博語(yǔ)料集合包括微博文檔。步驟208，識(shí)別出微博文檔中的所有實(shí)體，例如，利用實(shí)體識(shí)別工具TwitterNLP識(shí)別出所有實(shí)體，建立所有實(shí)體中的每個(gè)實(shí)體的實(shí)體索引，其中，每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按照時(shí)間順序排序的微博文檔的列表。步驟210，識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟212，對(duì)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型進(jìn)行估計(jì)，進(jìn)入步驟216。步驟214，在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，通過(guò)最大似然估計(jì)并根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)的原始查詢模型。步驟216，根據(jù)目標(biāo)實(shí)體主題模型和原始查詢模型(根據(jù)與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、原始查詢模型和根據(jù)微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型)，對(duì)原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型。步驟218，根據(jù)擴(kuò)展查詢模型和微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型，進(jìn)行KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度)。步驟220，根據(jù)相似度確定查詢語(yǔ)句的目標(biāo)檢索結(jié)果。圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔的流程示意圖。如圖3所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的初步獲取微博文檔，包括：步驟302，識(shí)別微博語(yǔ)料集合中的所有實(shí)體。步驟304，建立所有實(shí)體中的每個(gè)實(shí)體的實(shí)體索引，其中，每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按照時(shí)間順序排序的微博文檔的列表。步驟306，根據(jù)目標(biāo)實(shí)體在實(shí)體索引中搜索出與該目標(biāo)實(shí)體相關(guān)的M條微博文檔，其中該M條微博文檔為實(shí)體索引中最新發(fā)布的微博文檔。圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型的流程示意圖；圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的目標(biāo)實(shí)體主題模型的原理示意圖。下面結(jié)合圖4和圖5詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案：如圖4所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定目標(biāo)實(shí)體主題模型，包括：步驟402，識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟404，根據(jù)目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，在與語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)關(guān)鍵詞包括目標(biāo)實(shí)體。步驟406，據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔，并根據(jù)虛擬文檔建立領(lǐng)域語(yǔ)言模型，以及根據(jù)微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型和建立與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型，從而由領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和初始實(shí)體模型建立混合模型，如圖5所示，并由混合模型的建立過(guò)程，推導(dǎo)出目標(biāo)實(shí)體的目標(biāo)實(shí)體模型，其中，圖5中示出的λC和λE均為預(yù)設(shè)參數(shù)、γ1和γk表示第1個(gè)領(lǐng)域語(yǔ)言模型的權(quán)重值和第k個(gè)領(lǐng)域語(yǔ)言模型的權(quán)重值，EF表示圖3中的M條微博文檔，表示初始實(shí)體模型，表示背景語(yǔ)言模型和表示k個(gè)領(lǐng)域語(yǔ)言模型。步驟408(等同于步驟306)，根據(jù)目標(biāo)實(shí)體在實(shí)體索引中搜索出與該目標(biāo)實(shí)體相關(guān)的M條微博文檔(根據(jù)目標(biāo)實(shí)體從微博語(yǔ)料集合中提取與目標(biāo)實(shí)體相關(guān)的M條微博文檔)。步驟410，通過(guò)EM算法遍歷M條微博文檔進(jìn)行模型參數(shù)迭代計(jì)算，其中，EM算法表示期望最大化算法(ExpectationMaximizationAlgorithm，又稱最大期望算法)。步驟412，根據(jù)迭代計(jì)算后的模型參數(shù)對(duì)混合模型進(jìn)行迭代計(jì)算，以得到目標(biāo)實(shí)體主題模型，其中，迭代次數(shù)為預(yù)設(shè)次數(shù)N次，當(dāng)進(jìn)行第一次迭代時(shí)，與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以近似等于背景語(yǔ)言模型，M≥1，N≥1，且M和N均為正整數(shù)。圖6示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果的流程示意圖。如圖6所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的確定擴(kuò)展查詢模型以及目標(biāo)檢索結(jié)果，包括：步驟602，識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體。步驟604，建立與目標(biāo)實(shí)體對(duì)應(yīng)的目標(biāo)實(shí)體主題模型，進(jìn)入步驟610。步驟606，對(duì)初始插值參數(shù)α進(jìn)行計(jì)算，以得到α′，進(jìn)入步驟610。步驟608，根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)地原始查詢模型，進(jìn)入步驟610。步驟610，對(duì)目標(biāo)實(shí)體主題模型、初始插值參數(shù)α′和原始查詢模型進(jìn)行線性疊加，確定擴(kuò)展查詢模型。步驟612，在微博流中獲取微博文檔。步驟614，根據(jù)微博文檔集合中的每條微博文檔建立微博文檔語(yǔ)言模型。步驟616，對(duì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型進(jìn)行KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度)。步驟618，將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為目標(biāo)檢索結(jié)果。圖7示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。如圖7所示，根據(jù)本發(fā)明的一個(gè)實(shí)施例的檢索系統(tǒng)700，包括：第一模型創(chuàng)建單元702、實(shí)體識(shí)別單元704、模型擴(kuò)展單元706和檢索結(jié)果確定單元708，其中，所述第一模型創(chuàng)建單元702用于在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，根據(jù)所述查詢語(yǔ)句創(chuàng)建與所述查詢語(yǔ)句相應(yīng)的原始查詢模型；實(shí)體識(shí)別單元704，識(shí)別所述查詢語(yǔ)句中的目標(biāo)實(shí)體；模型擴(kuò)展單元706，根據(jù)與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型、所述原始查詢模型和根據(jù)所述微博文檔集合中的每條微博文檔建立的微博文檔語(yǔ)言模型，對(duì)所述原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型；檢索結(jié)果確定單元708，統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的相似度，以根據(jù)所述相似度確定所述查詢語(yǔ)句的目標(biāo)檢索結(jié)果。在該技術(shù)方案中，在使用查詢語(yǔ)句對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索時(shí)，由于查詢語(yǔ)句中包含有目標(biāo)實(shí)體的別名，因此，通過(guò)識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體可以有效地提高了檢索效果，另外，通過(guò)對(duì)查詢語(yǔ)句相應(yīng)地原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而使對(duì)微博文檔進(jìn)行檢索地更加全面，而且通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型和每條微博文檔相應(yīng)的微博文檔語(yǔ)言模型之間的相似度來(lái)確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果更加準(zhǔn)確，同時(shí)還提高了檢索的魯棒性。因此，通過(guò)本技術(shù)方案，用戶可以在微博文檔中準(zhǔn)確地檢索得到目標(biāo)檢索結(jié)果，從而提高準(zhǔn)確率，其中，目標(biāo)實(shí)體為查詢語(yǔ)句中的用戶想要查詢的目標(biāo)關(guān)鍵詞，例如查詢語(yǔ)句為“周杰倫新電影”中的目標(biāo)實(shí)體為“周杰倫”，而“新”和“電影”也即為其他實(shí)體或指我們通常意義上的詞。在上述技術(shù)方案中，優(yōu)選地，所述檢索結(jié)果確定單元708包括：相似度統(tǒng)計(jì)單元7082，通過(guò)以下公式統(tǒng)計(jì)所述擴(kuò)展查詢模型與所述微博文檔語(yǔ)言模型之間的所述相似度，并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為所述目標(biāo)檢索結(jié)果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示所述相似度，V表示所述微博文檔語(yǔ)言模型中的所有實(shí)體，表示所述擴(kuò)展查詢模型，表示所述微博文檔語(yǔ)言模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述微博文檔語(yǔ)言模型中所占有的概率。在該技術(shù)方案中，通過(guò)擴(kuò)展后的擴(kuò)展查詢模型可以檢索到大量的微博文檔，但是在這大量的微博文檔中可能包含有很多用戶不太關(guān)注的信息或這些信息沒(méi)有按照一定的優(yōu)先次序進(jìn)行排列，即用戶不太關(guān)注的信息可能會(huì)排在用戶非常關(guān)注的信息之前，因此，通過(guò)統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度，并根據(jù)該相似度的高低確定目標(biāo)檢索結(jié)果，可以過(guò)濾掉很多不重要、關(guān)聯(lián)性較小或用戶不太關(guān)注的信息，因此，通過(guò)該技術(shù)方案，可以提高檢索結(jié)果的匹配準(zhǔn)確率，進(jìn)一步提高目標(biāo)檢索結(jié)果的準(zhǔn)確性，其中，上述公式為KL距離(Kullback-LeiblerDivergence，又稱相對(duì)熵)的計(jì)算，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，模型擴(kuò)展單元706具體用于：根據(jù)下列公式計(jì)算得到所述擴(kuò)展查詢模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中，表示所述擴(kuò)展查詢模型，表示所述原始查詢模型，表示所述目標(biāo)實(shí)體主題模型，表示所述目標(biāo)實(shí)體在所述擴(kuò)展查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述原始查詢模型中所占有的概率，表示所述目標(biāo)實(shí)體在所述目標(biāo)實(shí)體模型中所占有的概率，所述α表示初始插值參數(shù)。在該技術(shù)方案中，由于原始查詢模型對(duì)應(yīng)的檢索結(jié)果比較少，甚至還不包含用戶需要檢索的信息，因此，需要對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型，這樣根據(jù)擴(kuò)展查詢模型對(duì)微博文檔進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而對(duì)微博文檔進(jìn)行檢索地更加全面，進(jìn)一步地提高了檢索效果。在上述技術(shù)方案中，優(yōu)選地，還包括：參數(shù)更新單元710，根據(jù)接收到的更新命令，按照以下公式更新所述α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示所述目標(biāo)實(shí)體，E表示所述目標(biāo)實(shí)體模型中的所有實(shí)體，Q表示所述查詢語(yǔ)句中的所有實(shí)體，w1表示所述查詢語(yǔ)句中的任一實(shí)體，IDF(w)表示所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示所述任一實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率。在該技術(shù)方案中，由于在不同的查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要程度是不一樣的，且初始插值參數(shù)α?xí)?duì)和與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體模型有一定的關(guān)系，因此，在對(duì)不同的查詢語(yǔ)句進(jìn)行檢索時(shí)需要對(duì)初始插值參數(shù)α進(jìn)行更新使其變?yōu)樽赃m應(yīng)的插值參數(shù)，并根據(jù)更新后的α′來(lái)確定擴(kuò)展查詢模型，從而使得擴(kuò)展查詢模型更加準(zhǔn)確，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，還包括：所述模型擴(kuò)展單元706還用于：當(dāng)所述目標(biāo)實(shí)體為多個(gè)時(shí)，根據(jù)每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率和每個(gè)所述目標(biāo)實(shí)體的所述目標(biāo)實(shí)體主題模型，確定最終的實(shí)體主題模型，以使用所述最終的實(shí)體主題模型、所述原始查詢模型和與所述微博文檔語(yǔ)言模型來(lái)創(chuàng)建所述擴(kuò)展查詢模型。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，根據(jù)每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率來(lái)確定最終的實(shí)體主題模型，以通過(guò)最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，從而得到的目標(biāo)檢索結(jié)果更加準(zhǔn)確，即目標(biāo)檢索結(jié)果具有多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體的相關(guān)微博文檔，進(jìn)而使目標(biāo)檢索結(jié)果是用戶想要檢索到的微博文檔，提升了用戶體驗(yàn)。在上述技術(shù)方案中，優(yōu)選地，還包括：所述模型擴(kuò)展單元706具體用于：根據(jù)接收到的第一創(chuàng)建命令，通過(guò)以下公式確定所述最終的實(shí)體主題模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，表示所述最終的實(shí)體主題模型，表示每個(gè)所述目標(biāo)實(shí)體在所述最終的實(shí)體主題模型中所占有的概率，n表示所述目標(biāo)實(shí)體的數(shù)目，表示每個(gè)所述目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，IDF(Ei)表示每個(gè)所述目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率，表示每個(gè)所述目標(biāo)實(shí)體在與所述目標(biāo)實(shí)體相應(yīng)的所述目標(biāo)實(shí)體主題模型中所占有的概率，Ei表示多個(gè)所述目標(biāo)實(shí)體中的第i個(gè)所述目標(biāo)實(shí)體。在該技術(shù)方案中，當(dāng)查詢語(yǔ)句中具有多個(gè)目標(biāo)實(shí)體時(shí)，從公式中可以看出，根據(jù)每個(gè)目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型和每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率計(jì)算得到最終的實(shí)體主題模型，由于每個(gè)目標(biāo)實(shí)體在所述微博語(yǔ)料集合中的逆向文檔頻率表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度，因此，通過(guò)由最終的實(shí)體主題模型得到的擴(kuò)展查詢模型來(lái)進(jìn)行檢索，使目標(biāo)檢索結(jié)果具有與多個(gè)目標(biāo)實(shí)體中的每個(gè)目標(biāo)實(shí)體均相關(guān)的微博文檔，且根據(jù)每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的重要程度確定目標(biāo)檢索結(jié)果，從而使目標(biāo)檢索結(jié)果即為用戶想要檢索到的信息，進(jìn)而提高了檢索效果，其中，逆向文檔頻率(InverseDocumentFrequency，IDF)是用于衡量目標(biāo)實(shí)體的重要程度，對(duì)于目標(biāo)實(shí)體的IDF可以由微博語(yǔ)料集合中微博文檔的總數(shù)量除以包含該目標(biāo)實(shí)體的微博文檔的數(shù)量，再將得到的商取對(duì)數(shù)得到，且目標(biāo)實(shí)體的IDF可以影響更新后的初始差值參數(shù)。在上述技術(shù)方案中，優(yōu)選地，還包括：第二模型創(chuàng)建單元712，用于根據(jù)接收到的第二創(chuàng)建命令，通過(guò)以下過(guò)程創(chuàng)建與所述目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型：當(dāng)所述微博語(yǔ)料集合所在的語(yǔ)料集合數(shù)據(jù)庫(kù)接收到所述目標(biāo)實(shí)體時(shí)，根據(jù)所述目標(biāo)實(shí)體從所述微博語(yǔ)料集合中提取與所述目標(biāo)實(shí)體相關(guān)的M條微博文檔，根據(jù)所述目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，在與所述語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與所述目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體，根據(jù)多個(gè)所述關(guān)鍵詞生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔，根據(jù)所述虛擬文檔建立領(lǐng)域語(yǔ)言模型，并根據(jù)所述微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型，使用所述領(lǐng)域語(yǔ)言模型、所述背景語(yǔ)言模型和與所述目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷所述M條微博文檔，并進(jìn)行N次迭代運(yùn)算，以得到所述目標(biāo)實(shí)體主題模型，其中，M≥1，N≥1，且M和N均為正整數(shù)。在該技術(shù)方案中，通過(guò)建立的領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型可以控制“背景噪音”和“領(lǐng)域相關(guān)噪音”，凈化微博文檔，從而準(zhǔn)確確定目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，從而通過(guò)由目標(biāo)實(shí)體主題模型擴(kuò)展得到的擴(kuò)展查詢模型進(jìn)行檢索時(shí)，可以檢索到大量的與查詢語(yǔ)句相關(guān)的微博文檔，即包括有用戶感興趣的信息，從而可以有效地避免了對(duì)微博文檔的漏檢，進(jìn)而提高了檢索效果，其中，所有實(shí)體指微博文檔語(yǔ)言模型中的每條微博文檔中的所有的詞，例如，微博文檔語(yǔ)言模型中的某條微博文檔為“周杰倫新電影太棒了”，則該條微博文檔中的所有實(shí)體即為“周杰倫”，“新”、“電影”和“太棒了”，總之，實(shí)體就是代表我們通常意義上的詞，目標(biāo)實(shí)體就是用戶想要查詢的關(guān)鍵詞如“周杰倫”。在上述技術(shù)方案中，優(yōu)選地，所述第二主題模型創(chuàng)建單元還包括：：次數(shù)統(tǒng)計(jì)單元7122，在生成與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔后，統(tǒng)計(jì)所述目標(biāo)實(shí)體在與所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第一出現(xiàn)次數(shù)，以及多個(gè)所述關(guān)鍵詞中的每個(gè)所述關(guān)鍵詞在所述目標(biāo)領(lǐng)域?qū)?yīng)的所述虛擬文檔中的第二出現(xiàn)次數(shù)；先驗(yàn)值確定單元7124，根據(jù)所述第一出現(xiàn)次數(shù)和所述第二出現(xiàn)次數(shù)確定所述目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值；領(lǐng)域模型更新單元7126，根據(jù)所述領(lǐng)域先驗(yàn)值更新所述領(lǐng)域語(yǔ)言模型。在該技術(shù)方案中，通過(guò)統(tǒng)計(jì)目標(biāo)實(shí)體在與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)和多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù)，確定目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值，從而根據(jù)領(lǐng)域先驗(yàn)值對(duì)領(lǐng)域語(yǔ)言模型進(jìn)行更新，進(jìn)而得到的領(lǐng)域語(yǔ)言模型更加準(zhǔn)確，即領(lǐng)域語(yǔ)言模型中涉及目標(biāo)實(shí)體的每個(gè)領(lǐng)域，進(jìn)而提高了檢索效果。圖8示出了根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)的結(jié)構(gòu)示意圖。如圖8所示，根據(jù)本發(fā)明的另一個(gè)實(shí)施例的檢索系統(tǒng)800(相當(dāng)于圖7示出的實(shí)施例的檢索系統(tǒng)700)，包括：實(shí)體微博集合獲取模塊802，用于收集與目標(biāo)實(shí)體相關(guān)的微博文檔；實(shí)體主題模型估計(jì)模塊804(相當(dāng)于圖7示出的實(shí)施例的第二模型創(chuàng)建單元712)，用于進(jìn)行目標(biāo)實(shí)體主題模型的估計(jì)；適應(yīng)性查詢擴(kuò)展模塊806(相當(dāng)于圖7示出的實(shí)施例的模型擴(kuò)展單元706)，用于將目標(biāo)實(shí)體主題模型融入微博文檔語(yǔ)言模型中。下面詳細(xì)說(shuō)明檢索系統(tǒng)800的這幾個(gè)模塊：1.實(shí)體微博集合獲取模塊802具體用于：對(duì)查詢語(yǔ)句中的目標(biāo)實(shí)體進(jìn)行識(shí)別，實(shí)體索引的建立，以及對(duì)與目標(biāo)實(shí)體相關(guān)的微博文檔進(jìn)行選取。2.實(shí)體主題模型估計(jì)模塊804包括：知識(shí)庫(kù)鏈接模塊8042、先驗(yàn)值計(jì)算模塊8044(相當(dāng)于圖7示出的實(shí)施例的先驗(yàn)值計(jì)算單元7124)和生成式模型構(gòu)建模塊8046，知識(shí)庫(kù)鏈接模塊8042用于把目標(biāo)實(shí)體鏈接到Freebase知識(shí)庫(kù)，并獲取該目標(biāo)實(shí)體在Freebase知識(shí)庫(kù)中所屬的目標(biāo)領(lǐng)域(Freebase中的領(lǐng)域可以看成是流行報(bào)紙的不同版面：如商業(yè)，生活方式，藝術(shù)，娛樂(lè)，政治，經(jīng)濟(jì)等)；先驗(yàn)值計(jì)算模塊8044用于獲取與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)所述關(guān)鍵詞包括所述目標(biāo)實(shí)體，根據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔，在此虛擬文檔上進(jìn)行極大似然估計(jì)來(lái)生成領(lǐng)域先驗(yàn)值；生成式模型構(gòu)建模塊8046用于搭建與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型、背景語(yǔ)言模型和領(lǐng)域語(yǔ)言模型，并利用EM算法在微博文檔中進(jìn)行迭代計(jì)算，以得到目標(biāo)實(shí)體主題模型。3.適應(yīng)性查詢擴(kuò)展模塊806，用于對(duì)查詢語(yǔ)句進(jìn)行建模得到原始查詢模型，以及對(duì)微博文檔集合中的每條微博文檔進(jìn)行建模得到微博文檔語(yǔ)言模型，通過(guò)目標(biāo)實(shí)體主題模型對(duì)原始查詢模型進(jìn)行擴(kuò)展，以得到擴(kuò)展查詢模型，對(duì)擴(kuò)展查詢模型和微博文檔語(yǔ)言模型進(jìn)行KL距離計(jì)算，以根據(jù)計(jì)算結(jié)果得到目標(biāo)檢索結(jié)果。下面將進(jìn)一步詳細(xì)說(shuō)明本發(fā)明的技術(shù)方案：一、識(shí)別實(shí)體。1.利用實(shí)體識(shí)別工具TwitterNLP識(shí)別出微博文檔中的所有實(shí)體。2.建立實(shí)體索引，對(duì)于所有實(shí)體中的每個(gè)實(shí)體對(duì)應(yīng)一個(gè)按時(shí)間排序的微博文檔的列表。3.識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體，并在實(shí)體索引中獲取最新發(fā)布的M條包含該目標(biāo)實(shí)體的微博文檔。二、建立目標(biāo)實(shí)體主題模型。1.將目標(biāo)實(shí)體鏈接到Freebase知識(shí)庫(kù)(目標(biāo)領(lǐng)域知識(shí)庫(kù))，讀取目標(biāo) 實(shí)體在Freebase知識(shí)庫(kù)中的實(shí)體信息，以獲取目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域(例如音樂(lè)領(lǐng)域、藝術(shù)領(lǐng)域、圖書(shū)領(lǐng)域)。特別的，如果目標(biāo)實(shí)體未鏈接到實(shí)體信息，則認(rèn)為該目標(biāo)實(shí)體屬于任何一個(gè)領(lǐng)域。2.計(jì)算領(lǐng)域先驗(yàn)值，根據(jù)實(shí)體索引中所有實(shí)體嘗試用Freebase搜索接口鏈接到Freebase知識(shí)庫(kù)，將不同領(lǐng)域下的屬性和類型詞構(gòu)成一個(gè)虛擬文檔(在與語(yǔ)料集合數(shù)據(jù)庫(kù)相連接的目標(biāo)領(lǐng)域知識(shí)庫(kù)中搜索與目標(biāo)領(lǐng)域相關(guān)的多個(gè)關(guān)鍵詞，其中，多個(gè)關(guān)鍵詞包括目標(biāo)實(shí)體，并根據(jù)多個(gè)關(guān)鍵詞生成與目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔)，在此虛擬文檔上使用下列公式進(jìn)行極大似然估計(jì)來(lái)生成領(lǐng)域先驗(yàn)值：p(w|d)=c(w,d)Σnc(w2,d)]]>其中，w表示目標(biāo)實(shí)體，d表示目標(biāo)實(shí)體所屬的目標(biāo)領(lǐng)域，w2表示多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞，c(w,d)表示w在目標(biāo)領(lǐng)域d對(duì)應(yīng)的虛擬文檔中的第一出現(xiàn)次數(shù)，c(w2,d)表示多個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在目標(biāo)領(lǐng)域?qū)?yīng)的虛擬文檔中的第二出現(xiàn)次數(shù)，n表示關(guān)鍵詞的總數(shù)量。3.建立目標(biāo)實(shí)體主題模型，根據(jù)虛擬文檔建立領(lǐng)域語(yǔ)言模型，并根據(jù)微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體建立背景語(yǔ)言模型，以及建立與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型，其中，初始實(shí)體模型可以近似于背景語(yǔ)言模型，由領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和初始實(shí)體模型形成混合模型。4.利用EM算法進(jìn)行模型估計(jì)。根據(jù)如圖5所示的混合模型，我們可以將返回的M條微博集合EF的對(duì)數(shù)似然函數(shù)表示為：logp(EF|θ^)=ΣiΣwc(w,Di)×log{λE[(1-λC)×p(w,θ^E)+λC×p(w|θ^C)]+(1-λE)×Σd=1kγdp(w,θ^d)}]]>其中，EF表示上文搜索出的M條微博文檔，i用于遍歷微博語(yǔ)料集合中的所有微博文檔，w表示微博語(yǔ)料集合中的每條微博文檔中的所有實(shí)體中的每個(gè)實(shí)體，Di表示微博語(yǔ)料集合中的第i條微博文檔，k表示目標(biāo) 實(shí)體所屬的目標(biāo)領(lǐng)域的數(shù)量，表示w在目標(biāo)實(shí)體模型中所占有的概率，表示詞w在背景語(yǔ)言模型中所占有的頻率，表示詞w在領(lǐng)域語(yǔ)言模型中所占有的頻率，c(w,Di)是詞w在Di中出現(xiàn)的次數(shù)，λC表示第一預(yù)設(shè)參數(shù)，λE表示第二預(yù)設(shè)參數(shù)，λC和λE分別用于控制背景噪音和領(lǐng)域相關(guān)噪音，γd表示目標(biāo)領(lǐng)域語(yǔ)言模型的權(quán)重值。使用EM算法即來(lái)對(duì)混合模型進(jìn)行最大似然估計(jì)，在微博語(yǔ)料集合EF上迭代更新參數(shù)，從而得到以下公式：td(n)(w)=(1-λE)×γd(n)×p(n)(w|θ^d)λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]+(1-λE)×Σd′=1kγd′(n)×p(n)(w|θ^d′)]]>s(n)(w)=λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]λE×[(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]+(1-λE)×Σd′=1kγd′(n)×p(n)(w|θ^d′)]]>r(n)(w)=(1-λc)×p(n)(w|θ^E)(1-λc)×p(n)(w|θ^E)+λ×p(w|θ^C)]]>p(n+1)(w|θ^d)=Σic(w,Di)×td(n)(w)Σw′ΣiΣd′=1kc(w′,Di)×td′(n)(w′)]]>p(n+1)(w|θ^E)=Σic(w,Di)×r(n)(w)×s(n)(w)Σw′Σic(w′,Di)×r(n)(w′)×s(n)(w′)]]>γd(n+1)=ΣwΣic(w,Di)×td(n)(w)ΣwΣiΣd′=1kc(w,Di)×td′(n)(w)]]>其中，n表示當(dāng)前迭代的次數(shù)，w表示目標(biāo)實(shí)體，w′表示微博語(yǔ)料集合的所有實(shí)體中的每個(gè)實(shí)體，d′表示所有領(lǐng)域中的每個(gè)領(lǐng)域，s(n)(w)，r(n)(w)是為了表示計(jì)算方便的中間變量，表示w在第(n+1)輪迭代時(shí)的領(lǐng)域語(yǔ)言模型中的概率，表示w在第(n+1)輪迭代時(shí)的實(shí)體主題模型中的概率，表示第(n+1)輪迭代時(shí)的領(lǐng)域語(yǔ)言模型的權(quán)重值，在求和下標(biāo)中，w/w′用于遍歷微博語(yǔ)料集合中的所有實(shí)體，i用于遍歷反饋微博集合中的所有微博文檔，d/d′用于遍歷所有領(lǐng)域，k表示目標(biāo)實(shí)體E所屬的目標(biāo)領(lǐng)域的數(shù)量，λ表示預(yù)設(shè)迭代參數(shù)。另外，更新的過(guò)程中可以使用目標(biāo)實(shí)體的領(lǐng)域先驗(yàn)值p(w|d)。在每個(gè)一元語(yǔ)言模型p(w|d)上定義一個(gè)共軛先驗(yàn)(即狄利克雷先驗(yàn))，接著，采用最大后驗(yàn)概率(MaximumAPosteriori，MAP)來(lái)估計(jì)所有的參數(shù)，只需要在領(lǐng)域語(yǔ)言模型的更新公式上做很小的更改，通過(guò)下列公式進(jìn)行MAP估計(jì)：p(n+1)(w|θ^d)=σd·p(w|d)+Σic(w,Di)·td(n)(w)σd+Σw′ΣiΣd′=1kc(w′,Di)·td′(n)(w′)]]>至此，使用以上公式迭代數(shù)輪后(比如100輪)，可以得到目標(biāo)實(shí)體主題模型三、適應(yīng)性查詢擴(kuò)展。1.在接收到對(duì)微博語(yǔ)料集合中的微博文檔進(jìn)行檢索的查詢語(yǔ)句時(shí)，根據(jù)查詢語(yǔ)句創(chuàng)建與查詢語(yǔ)句相應(yīng)的原始查詢模型，以及根據(jù)微博文檔集合中的每條微博文檔建立微博文檔語(yǔ)言模型。2.通過(guò)目標(biāo)實(shí)體主題模型對(duì)原始查詢模型進(jìn)行擴(kuò)展得到擴(kuò)展查詢模型。根據(jù)下列公式計(jì)算得到擴(kuò)展查詢模型：p(w|θ^Q′)=(1-α)×p(w|θ^Q)+α×p(w|θ^E);]]>其中，表示擴(kuò)展查詢模型，表示原始查詢模型，表示目標(biāo)實(shí)體主題模型，表示目標(biāo)實(shí)體在擴(kuò)展查詢模型中所占有的概率，表示目標(biāo)實(shí)體在原始查詢模型中所占有的概率，表示目標(biāo)實(shí)體在目標(biāo)實(shí)體模型中所占有的概率，α表示初始插值參數(shù)，α控制目標(biāo)實(shí)體主題模型的重要程度。在相關(guān)技術(shù)中，初始插值參數(shù)α對(duì)于所有的查詢語(yǔ)句均設(shè)置為一個(gè)固定的值，然而，考慮到不同查詢語(yǔ)句中同一個(gè)目標(biāo)實(shí)體的重要性程度是不相同的，所以可以對(duì)初始插值參數(shù)進(jìn)行更新，按照以下公式更新α，以得到α′：α′=α×Σw∈EIDF(w)Σw1∈QIDF(w1)]]>其中，w表示目標(biāo)實(shí)體，E表示目標(biāo)實(shí)體模型中的所有實(shí)體，Q表示查詢語(yǔ)句中的所有實(shí)體，w1表示查詢語(yǔ)句中的任一實(shí)體，IDF(w)表示目標(biāo)實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率、IDF(w1)表示任一實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率。特別的，當(dāng)查詢語(yǔ)句中有多個(gè)目標(biāo)實(shí)體被識(shí)別出時(shí)，根據(jù)每個(gè)目標(biāo)實(shí) 體的目標(biāo)實(shí)體主題模型的帶權(quán)平均值確定最終的實(shí)體主題模型，具體地，通過(guò)以下公式確定最終的實(shí)體主題模型：p(w|θ^E′)=Σi=1nIDF(Ei)×p(w|θ^Ei)Σi=1nIDF(Ei)]]>其中，表示最終的實(shí)體主題模型，表示每個(gè)目標(biāo)實(shí)體在最終的實(shí)體主題模型中所占有的概率，n表示目標(biāo)實(shí)體的數(shù)目，表示每個(gè)目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型，IDF(Ei)表示每個(gè)目標(biāo)實(shí)體在微博語(yǔ)料集合中的逆向文檔頻率，表示每個(gè)目標(biāo)實(shí)體在與目標(biāo)實(shí)體相應(yīng)的目標(biāo)實(shí)體主題模型中所占有的概率，Ei表示多個(gè)目標(biāo)實(shí)體中的第i個(gè)目標(biāo)實(shí)體。3.KL距離計(jì)算(統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度)，通過(guò)以下公式統(tǒng)計(jì)擴(kuò)展查詢模型與微博文檔語(yǔ)言模型之間的相似度，并將相似度大于或等于預(yù)設(shè)相似度的目標(biāo)微博文檔作為目標(biāo)檢索結(jié)果：Score(Q,D)=-KL(θ^Q′||θ^D)∝Σw∈Vp(w|θ^Q′)×logp(w|θ^D);]]>其中，Score(Q,D)表示相似度，V表示微博文檔語(yǔ)言模型中的所有實(shí)體，表示擴(kuò)展查詢模型，表示微博文檔語(yǔ)言模型，表示目標(biāo)實(shí)體在擴(kuò)展查詢模型中所占有的概率，表示目標(biāo)實(shí)體在微博文檔語(yǔ)言模型中所占有的概率。下面結(jié)合一個(gè)實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步地描述：1)進(jìn)行預(yù)處理階段，對(duì)微博流中的每條微博文檔均用實(shí)體識(shí)別工具識(shí)別出包含的所有實(shí)體。例如微博文檔為“周杰倫的新電影真是拍得太棒了”，我們識(shí)別出了實(shí)體“周杰倫”，則我們將該微博編號(hào)(id)存入實(shí)體索引中對(duì)應(yīng)的實(shí)體項(xiàng)；對(duì)于目標(biāo)實(shí)體，我們從實(shí)體索引中獲得最新加入的M條微博文檔作為微博語(yǔ)料集合。2)首先對(duì)于目標(biāo)實(shí)體“周杰倫”，使用Freebase搜索接口嘗試鏈接到Freebase知識(shí)庫(kù)中的對(duì)象，并獲得其所屬的目標(biāo)領(lǐng)域，即電影、音樂(lè)、電視、人物、媒體、獎(jiǎng)項(xiàng)。構(gòu)建混合模型，該混合模型包括“周杰倫”對(duì)應(yīng)的初始實(shí)體主題模型、背景語(yǔ)言模型和六個(gè)領(lǐng)域語(yǔ)言模型。使用領(lǐng)域語(yǔ)言模型、背景語(yǔ)言模型和與目標(biāo)實(shí)體對(duì)應(yīng)的初始實(shí)體模型遍歷M條微博文檔，并進(jìn)行N次迭代運(yùn)算，以得到目標(biāo)實(shí)體主題模型，其中，M≥1，N≥1，且M和N均為正整數(shù)。3)對(duì)查詢語(yǔ)句和每條微博文檔進(jìn)行極大似然建模，例如查詢語(yǔ)句為“周杰倫新電影”，分詞后得到[“周杰倫”，“新”，“電影”]，經(jīng)過(guò)最大似然估計(jì)創(chuàng)建原始查詢模型，p(周杰倫)＝0.33，p(新)＝0.33，p(電影)＝0.33，以及根據(jù)每條微博文檔建立微博文檔語(yǔ)言模型，其中，對(duì)于每條微博文檔的極大似然估計(jì)建模與原始查詢模型的估計(jì)建模類似。識(shí)別查詢語(yǔ)句中的目標(biāo)實(shí)體，例如查詢語(yǔ)句為“周杰倫新電影”，識(shí)別出目標(biāo)實(shí)體為“周杰倫”。利用“周杰倫”目標(biāo)實(shí)體主題模型來(lái)擴(kuò)展原始查詢模型，得到擴(kuò)展查詢模型，計(jì)算初始插值參數(shù)：根據(jù)前面的線性插值公式來(lái)來(lái)擴(kuò)展原始查詢模型，由于查詢語(yǔ)句“周杰倫新電影”中僅有一個(gè)目標(biāo)實(shí)體“周杰倫”，因此，可以直接利用該目標(biāo)實(shí)體的目標(biāo)實(shí)體主題模型來(lái)進(jìn)行擴(kuò)展。利用KL距離計(jì)算公式計(jì)算出擴(kuò)展后的擴(kuò)展查詢模型和微博文檔語(yǔ)言模型的相似度，微博文檔語(yǔ)言模型利用微博文檔的極大似然估計(jì)，并進(jìn)行狄利克雷平滑處理。根據(jù)相似度確定查詢語(yǔ)句的目標(biāo)檢索結(jié)果。以上結(jié)合附圖詳細(xì)說(shuō)明了本發(fā)明的技術(shù)方案，可以使用戶準(zhǔn)確地在微博文檔中檢索得到目標(biāo)檢索結(jié)果，從而提高了檢索準(zhǔn)確率，同時(shí)還可以有效地增強(qiáng)檢索的魯棒性。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已，并不用于限制本發(fā)明，對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō)，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁(yè)1 2 3

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：強(qiáng)閏偉;范非凡;呂超;楊建武;
技術(shù)所有人：北京大學(xué);北大方正集團(tuán)有限公司;北京北大方正電子有限公司;
我是此專利的發(fā)明人

上一篇：帶防護(hù)的激光切割裝置的制作方法
上一篇：一種數(shù)據(jù)排序方法、裝置及電子設(shè)備與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中國(guó)專利檢索系統(tǒng)相關(guān)技術(shù)

檢索系統(tǒng)相關(guān)技術(shù)

sci檢索系統(tǒng)相關(guān)技術(shù)

商標(biāo)網(wǎng)上檢索系統(tǒng)相關(guān)技術(shù)

法律法規(guī)檢索系統(tǒng)相關(guān)技術(shù)

中國(guó)法律法規(guī)檢索系統(tǒng)相關(guān)技術(shù)

全宋詩(shī)檢索系統(tǒng)相關(guān)技術(shù)

中國(guó)專利之星檢索系統(tǒng)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

檢索方法和檢索系統(tǒng)與流程