基于lda模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),優(yōu)化方法為:用戶給定查詢,使用搜索引擎,得到搜索引擎結(jié)果,再根據(jù)用戶提供的文檔,將該文檔以及搜索引擎結(jié)果作為LDA模型的輸入,其中LDA模型是使用主題模型算法,此時的LDA模型已經(jīng)根據(jù)訓練集訓練好,可直接用于對文檔進行預(yù)測;其預(yù)測的結(jié)果,可以變?yōu)閮煞N向量,分別是p(k|d)以及p(w|d),通過文檔與文檔間的相似度計算并排序,即可輸出與用戶文檔相關(guān)的最終結(jié)果。本發(fā)明在現(xiàn)有搜索引擎結(jié)果的基礎(chǔ)上,進行語義的再次匹配,找到用戶真正感興趣、與語義內(nèi)容相關(guān)的搜索結(jié)果,提高搜索效率和搜索精度。
【專利說明】基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體地說,涉及一種基于LDA模型的搜索 引擎結(jié)果優(yōu)化系統(tǒng)。
【背景技術(shù)】
[0002] 搜索引擎指自動從因特網(wǎng)、企業(yè)內(nèi)部網(wǎng)等處搜集信息,經(jīng)過一定整理以后,提供給 用戶進行查詢的系統(tǒng)。在進行論文寫作、文檔整理等創(chuàng)造性工作中,經(jīng)常利用搜索引擎從 網(wǎng)絡(luò)中搜索感興趣的信息作為文檔材料的證明材料、參考文獻或直接信息來源。根據(jù)搜索 引擎搜索源的不同,可以將搜索引擎分成兩大類:因特網(wǎng)(Internet)搜索引擎和企業(yè)內(nèi)部 網(wǎng)(Intranet)搜索引擎。常見的因特網(wǎng)搜索引擎有Google、Bing、Baidu等。它們都是 通過從互聯(lián)網(wǎng)上提取各個網(wǎng)站的信息而創(chuàng)建的數(shù)據(jù)庫目前,這類搜索引擎主要采用的技術(shù) 是關(guān)鍵詞匹配,他們通過檢索與用戶查詢條件匹配的相關(guān)記錄,然后按一定的排列順序?qū)?結(jié)果返回給用戶。常見的企業(yè)內(nèi)部網(wǎng)搜索引擎有Google Mini、Search Engine Studio、 Zilverline等,其采用與因特網(wǎng)搜索引擎類似的關(guān)鍵詞匹配技術(shù),但搜索規(guī)模相對較小,主 要從企業(yè)內(nèi)部數(shù)據(jù)庫中進行幾十萬個至幾百萬個文檔左右規(guī)模的搜索。
[0003] 然而,雖然用戶想要搜索的內(nèi)容往往與所寫作文檔的語義(即上下文內(nèi)容, context)有較大的相關(guān)性,但是目前的所有搜索引擎并不支持對文檔語義內(nèi)容的搜索,因 此搜索引擎返回的搜索結(jié)果與用戶目前編輯的文檔語義關(guān)聯(lián)性不大,導(dǎo)致用戶發(fā)現(xiàn)搜索引 擎返回的大量結(jié)果并不是自己所需要的內(nèi)容。用戶必須重新選擇更合適的關(guān)鍵詞或者人工 對搜索結(jié)果進行分析來找到自己所感興趣的內(nèi)容。而且,用戶也不能將整篇文檔當作搜索 內(nèi)容輸入到搜索引擎中,一方面如果進行模糊匹配則搜索關(guān)鍵詞太多將返回大量無意義的 內(nèi)容,另一方面,若進行精確匹配,則搜索引擎將搜不到合適的結(jié)果。因此,需要一種能夠表 達用戶所寫作文檔的語義的方法,在此基礎(chǔ)上進行語義的再次匹配,找到用戶真正感興趣、 與語義內(nèi)容相關(guān)的搜索結(jié)果。
[0004] 潛在狄利克雷分配(latent Dirichlet allocation, LDA)是一種主題模型,能夠 較好的表達文檔的內(nèi)容,是對文檔內(nèi)容的一種高度壓縮模型。它可以將文檔集中每篇文檔 的主題按照概率分布的形式給出。LDA基于詞袋模型,即它認為一篇文檔是由一組詞構(gòu)成的 一個集合,詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個主題,文檔中每一 個詞都由其中的一個主題生成。同時它是一種無監(jiān)督學習算法,在訓練時不需要手工標注 的訓練集,需要的僅僅是文檔集以及指定主題的數(shù)量即可。此外LDA的另一個優(yōu)點則是,對 于每一個主題均可找出一些詞語來描述它。LDA目前在文本挖掘領(lǐng)域包括文本主題識別、文 本分類以及文本相似度計算方面都有應(yīng)用。
【發(fā)明內(nèi)容】
[0005]本發(fā)明要解決的技術(shù)問題是克服上述缺陷,提供一種基于LDA模型的搜索引擎結(jié) 果優(yōu)化系統(tǒng),在現(xiàn)有搜索引擎結(jié)果的基礎(chǔ)上,進行語義的再次匹配,找到用戶真正感興趣、 與語義內(nèi)容相關(guān)的搜索結(jié)果,提高搜索效率和搜索精度。
[0006]為解決上述問題,本發(fā)明所采用的技術(shù)方案是:
[0007]基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),其特征在于:所述搜索引擎結(jié)果優(yōu)化系 統(tǒng)的優(yōu)化方法為:用戶給定查詢,使用搜索引擎,得到搜索引擎結(jié)果,再根據(jù)用戶提供的文 檔,將該文檔以及搜索引擎結(jié)果作為LDA模型的輸入,其中LDA模型是使用主題模型算法, 此時的LDA模型已經(jīng)根據(jù)訓練集訓練好,可直接用于對文檔進行預(yù)測;其預(yù)測的結(jié)果,可以 變?yōu)閮煞N向量,分別是p(k|d)以及p(w|d),通過文檔與文檔間的相似度計算并排序,gp可 輸出與用戶文檔相關(guān)的最終結(jié)果。
[0008] 作為一種優(yōu)化的的技術(shù)方案,
[0009] LDA模型是假設(shè)一篇文檔是一些主題的分布,而一個主題是單詞表上單詞的分布, 則一篇文檔的生成過程如下所示,其中Dir代表狄利克雷分布:
[0010]
【權(quán)利要求】
1. 基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),其特征在于:所述搜索引擎結(jié)果優(yōu)化系統(tǒng) 的優(yōu)化方法為: 用戶給定查詢,使用搜索引擎,得到搜索引擎結(jié)果,再根據(jù)用戶提供的文檔,將該文檔 以及搜索引擎結(jié)果作為LDA模型的輸入,其中LDA模型是使用主題模型算法,此時的LDA 模型已經(jīng)根據(jù)訓練集訓練好,可直接用于對文檔進行預(yù)測;其預(yù)測的結(jié)果,可以變?yōu)閮煞N向 量,分別是P (k | d)以及p (w | d),通過文檔與文檔間的相似度計算并排序,即可輸出與用戶 文檔相關(guān)的最終結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),其特征在于: LDA模型是假設(shè)一篇文檔是一些主題的分布,而一個主題是單詞表上單詞的分布,則一 篇文檔的生成過程如下所示,其中Dir代表狄利克雷分布: Θ d ?Dir ( α ),φ k ?Dir ( β ),Zi ?Θ d,X廣 & ; 首先從一個基于α的狄利克雷先驗中獲得一篇文檔d的分布0d,從一個基于β的狄 利克雷先驗中獲得每個主題k的分布(^,從0d中獲得一個主題~,再從主題單詞分布< 中獲得一個單詞 Χ?,重復(fù)這樣的過程直到得到所有的文檔,并且其后驗概率的計算公式:
iZn^k\ 0d)p{W" I Z" = k)p(^k I β\ °
3. 根據(jù)權(quán)利要求2所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),其特征在于:所述 LDA模型中LDA主題模型算法的包括吉布斯采樣GS算法,MCMC的一種,以及VB算法,BP算 法。
4. 根據(jù)權(quán)利要求3所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng),其特征在于:所述 變量P (k | d)是給出文本上的主題解釋,文本上的主題解釋即通過LDA來解釋原始的文本, 把一篇文本變成幾個主題概率的組成; 口(《|(1)是另一種使用〇^來解釋文本的方法是文本上的單詞表示,即?(《|10?&|(1); 從一篇文本的主題概率分布中選擇概率最大的前η個主題,再從每個主題的單詞概率分布 中選擇概率最大的前m個單詞,將這幾個單詞的概率向量作為原文本的特征向量,構(gòu)成文 本的單詞重構(gòu); 相比文本上的主題解釋方法P(k |d),p(w |d)文本解釋方法可以獲取原文本與新文本 的單詞組成,可以直觀的看出原文本與新文本的差別;而由于LDA是聚類算法,其主題解釋 無法知道每個類具體是什么樣的標簽,無法知道具體的含義,即無法從P (k | d)的概率分布 中知道原始文本的實際意義,而P (w | d)能夠具體地表示。
【文檔編號】G06F17/30GK104298776SQ201410611981
【公開日】2015年1月21日 申請日期:2014年11月4日 優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】嚴建峰, 劉志強, 高陽, 楊璐, 曾嘉 申請人:蘇州大學