基于lda模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)的制作方法

文檔序號：6633082閱讀：248來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于lda模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，優(yōu)化方法為：用戶給定查詢，使用搜索引擎，得到搜索引擎結(jié)果，再根據(jù)用戶提供的文檔，將該文檔以及搜索引擎結(jié)果作為LDA模型的輸入，其中LDA模型是使用主題模型算法，此時的LDA模型已經(jīng)根據(jù)訓練集訓練好，可直接用于對文檔進行預(yù)測；其預(yù)測的結(jié)果，可以變?yōu)閮煞N向量，分別是p(k|d)以及p(w|d)，通過文檔與文檔間的相似度計算并排序，即可輸出與用戶文檔相關(guān)的最終結(jié)果。本發(fā)明在現(xiàn)有搜索引擎結(jié)果的基礎(chǔ)上，進行語義的再次匹配，找到用戶真正感興趣、與語義內(nèi)容相關(guān)的搜索結(jié)果，提高搜索效率和搜索精度。
【專利說明】基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計算機及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】，具體地說，涉及一種基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)。

【背景技術(shù)】
[0002] 搜索引擎指自動從因特網(wǎng)、企業(yè)內(nèi)部網(wǎng)等處搜集信息，經(jīng)過一定整理以后，提供給用戶進行查詢的系統(tǒng)。在進行論文寫作、文檔整理等創(chuàng)造性工作中，經(jīng)常利用搜索引擎從網(wǎng)絡(luò)中搜索感興趣的信息作為文檔材料的證明材料、參考文獻或直接信息來源。根據(jù)搜索引擎搜索源的不同，可以將搜索引擎分成兩大類：因特網(wǎng)（Internet)搜索引擎和企業(yè)內(nèi)部網(wǎng)（Intranet)搜索引擎。常見的因特網(wǎng)搜索引擎有Google、Bing、Baidu等。它們都是通過從互聯(lián)網(wǎng)上提取各個網(wǎng)站的信息而創(chuàng)建的數(shù)據(jù)庫目前，這類搜索引擎主要采用的技術(shù) 是關(guān)鍵詞匹配，他們通過檢索與用戶查詢條件匹配的相關(guān)記錄，然后按一定的排列順序?qū)?結(jié)果返回給用戶。常見的企業(yè)內(nèi)部網(wǎng)搜索引擎有Google Mini、Search Engine Studio、 Zilverline等，其采用與因特網(wǎng)搜索引擎類似的關(guān)鍵詞匹配技術(shù)，但搜索規(guī)模相對較小，主要從企業(yè)內(nèi)部數(shù)據(jù)庫中進行幾十萬個至幾百萬個文檔左右規(guī)模的搜索。
[0003] 然而，雖然用戶想要搜索的內(nèi)容往往與所寫作文檔的語義（即上下文內(nèi)容， context)有較大的相關(guān)性，但是目前的所有搜索引擎并不支持對文檔語義內(nèi)容的搜索，因此搜索引擎返回的搜索結(jié)果與用戶目前編輯的文檔語義關(guān)聯(lián)性不大，導(dǎo)致用戶發(fā)現(xiàn)搜索引擎返回的大量結(jié)果并不是自己所需要的內(nèi)容。用戶必須重新選擇更合適的關(guān)鍵詞或者人工對搜索結(jié)果進行分析來找到自己所感興趣的內(nèi)容。而且，用戶也不能將整篇文檔當作搜索內(nèi)容輸入到搜索引擎中，一方面如果進行模糊匹配則搜索關(guān)鍵詞太多將返回大量無意義的內(nèi)容，另一方面，若進行精確匹配，則搜索引擎將搜不到合適的結(jié)果。因此，需要一種能夠表達用戶所寫作文檔的語義的方法，在此基礎(chǔ)上進行語義的再次匹配，找到用戶真正感興趣、與語義內(nèi)容相關(guān)的搜索結(jié)果。
[0004] 潛在狄利克雷分配（latent Dirichlet allocation, LDA)是一種主題模型，能夠較好的表達文檔的內(nèi)容，是對文檔內(nèi)容的一種高度壓縮模型。它可以將文檔集中每篇文檔的主題按照概率分布的形式給出。LDA基于詞袋模型，即它認為一篇文檔是由一組詞構(gòu)成的一個集合，詞與詞之間沒有順序以及先后的關(guān)系。一篇文檔可以包含多個主題，文檔中每一個詞都由其中的一個主題生成。同時它是一種無監(jiān)督學習算法，在訓練時不需要手工標注的訓練集，需要的僅僅是文檔集以及指定主題的數(shù)量即可。此外LDA的另一個優(yōu)點則是，對于每一個主題均可找出一些詞語來描述它。LDA目前在文本挖掘領(lǐng)域包括文本主題識別、文本分類以及文本相似度計算方面都有應(yīng)用。

【發(fā)明內(nèi)容】

[0005]本發(fā)明要解決的技術(shù)問題是克服上述缺陷，提供一種基于LDA模型的搜索引擎結(jié) 果優(yōu)化系統(tǒng)，在現(xiàn)有搜索引擎結(jié)果的基礎(chǔ)上，進行語義的再次匹配，找到用戶真正感興趣、與語義內(nèi)容相關(guān)的搜索結(jié)果，提高搜索效率和搜索精度。
[0006]為解決上述問題，本發(fā)明所采用的技術(shù)方案是：
[0007]基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，其特征在于：所述搜索引擎結(jié)果優(yōu)化系統(tǒng)的優(yōu)化方法為：用戶給定查詢，使用搜索引擎，得到搜索引擎結(jié)果，再根據(jù)用戶提供的文檔，將該文檔以及搜索引擎結(jié)果作為LDA模型的輸入，其中LDA模型是使用主題模型算法，此時的LDA模型已經(jīng)根據(jù)訓練集訓練好，可直接用于對文檔進行預(yù)測；其預(yù)測的結(jié)果，可以變?yōu)閮煞N向量，分別是p(k|d)以及p(w|d)，通過文檔與文檔間的相似度計算并排序，gp可輸出與用戶文檔相關(guān)的最終結(jié)果。
[0008] 作為一種優(yōu)化的的技術(shù)方案，
[0009] LDA模型是假設(shè)一篇文檔是一些主題的分布，而一個主題是單詞表上單詞的分布，則一篇文檔的生成過程如下所示，其中Dir代表狄利克雷分布：
[0010]

【權(quán)利要求】
1. 基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，其特征在于：所述搜索引擎結(jié)果優(yōu)化系統(tǒng) 的優(yōu)化方法為：用戶給定查詢，使用搜索引擎，得到搜索引擎結(jié)果，再根據(jù)用戶提供的文檔，將該文檔以及搜索引擎結(jié)果作為LDA模型的輸入，其中LDA模型是使用主題模型算法，此時的LDA 模型已經(jīng)根據(jù)訓練集訓練好，可直接用于對文檔進行預(yù)測；其預(yù)測的結(jié)果，可以變?yōu)閮煞N向量，分別是P (k | d)以及p (w | d)，通過文檔與文檔間的相似度計算并排序，即可輸出與用戶文檔相關(guān)的最終結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，其特征在于： LDA模型是假設(shè)一篇文檔是一些主題的分布，而一個主題是單詞表上單詞的分布，則一篇文檔的生成過程如下所示，其中Dir代表狄利克雷分布： Θ d ?Dir ( α )，φ k ?Dir ( β )，Zi ?Θ d，X廣 & ; 首先從一個基于α的狄利克雷先驗中獲得一篇文檔d的分布0d，從一個基于β的狄利克雷先驗中獲得每個主題k的分布（^，從0d中獲得一個主題~，再從主題單詞分布< 中獲得一個單詞 Χ?，重復(fù)這樣的過程直到得到所有的文檔，并且其后驗概率的計算公式：
iZn^k\ 0d)p{W" I Z" = k)p(^k I β\ °
3. 根據(jù)權(quán)利要求2所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，其特征在于：所述 LDA模型中LDA主題模型算法的包括吉布斯采樣GS算法，MCMC的一種，以及VB算法，BP算法。
4. 根據(jù)權(quán)利要求3所述的基于LDA模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)，其特征在于：所述變量P (k | d)是給出文本上的主題解釋，文本上的主題解釋即通過LDA來解釋原始的文本，把一篇文本變成幾個主題概率的組成；口(《|(1)是另一種使用〇^來解釋文本的方法是文本上的單詞表示，即？(《|10?&|(1); 從一篇文本的主題概率分布中選擇概率最大的前η個主題，再從每個主題的單詞概率分布中選擇概率最大的前m個單詞，將這幾個單詞的概率向量作為原文本的特征向量，構(gòu)成文本的單詞重構(gòu)；相比文本上的主題解釋方法P(k |d)，p(w |d)文本解釋方法可以獲取原文本與新文本的單詞組成，可以直觀的看出原文本與新文本的差別；而由于LDA是聚類算法，其主題解釋無法知道每個類具體是什么樣的標簽，無法知道具體的含義，即無法從P (k | d)的概率分布中知道原始文本的實際意義，而P (w | d)能夠具體地表示。
【文檔編號】G06F17/30GK104298776SQ201410611981
【公開日】2015年1月21日申請日期:2014年11月4日優(yōu)先權(quán)日:2014年11月4日
【發(fā)明者】嚴建峰, 劉志強, 高陽, 楊璐, 曾嘉申請人:蘇州大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：嚴建峰;劉志強;高陽;楊璐;曾嘉
技術(shù)所有人：蘇州大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

搜索引擎主題模型優(yōu)化相關(guān)技術(shù)

搜索引擎的數(shù)學模型相關(guān)技術(shù)

全文搜索引擎搜索結(jié)果相關(guān)技術(shù)

搜索引擎點擊優(yōu)化軟件相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于lda模型的搜索引擎結(jié)果優(yōu)化系統(tǒng)的制作方法