一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法

文檔序號(hào)：6519603閱讀：193來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。其中，該方法包括：1）當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí)，首先基于樸素貝葉斯算法，對(duì)電子文件進(jìn)行自動(dòng)分類；2）電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對(duì)電子文件進(jìn)行分布式索引；3）索引文件建立完畢后，用戶輸入查詢語句進(jìn)行電子文件的查詢。該系統(tǒng)采用開源搜索工具Solr的分發(fā)模式，將查詢請(qǐng)求分發(fā)到分布式節(jié)點(diǎn)，各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求，然后對(duì)結(jié)果進(jìn)行合并去重，排序好后返回給用戶，實(shí)現(xiàn)了分布式垂直搜索。通過上述方式，本發(fā)明能夠提高電子文件自動(dòng)分類的準(zhǔn)確性，增強(qiáng)系統(tǒng)的穩(wěn)定性。
【專利說明】一種基于sol r技術(shù)的分布式搜索方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索領(lǐng)域，尤其是涉及一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。

【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)得到飛速發(fā)展，網(wǎng)上的數(shù)據(jù)量急劇增長(zhǎng)，海量數(shù)據(jù)的增多對(duì)通用搜索引擎的搜索質(zhì)量產(chǎn)生了巨大影響。這時(shí)，要在網(wǎng)上準(zhǔn)確、快速找到自己需要的信息困難重重。歸結(jié)其原因有三點(diǎn)：一是，網(wǎng)上的信息是復(fù)雜無序的，且不同的網(wǎng)站有可能出現(xiàn)重復(fù)的信息，因此利用搜索引擎查詢到的搜索結(jié)果就會(huì)產(chǎn)生信息噪音；二是僅僅根據(jù)用戶輸入的查詢?cè)~語來判斷用戶真正的搜索意圖是非常困難的；三是搜索引擎的爬蟲程序不可能爬取到所有互聯(lián)網(wǎng)上的信息，或者說實(shí)時(shí)抓取網(wǎng)上信息。此時(shí)迫切需要有一種針對(duì)某一領(lǐng)域或者主題的搜索引擎的出現(xiàn)。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明主要解決的技術(shù)問題是提供一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)，能夠提高電子文件自動(dòng)分類的準(zhǔn)確性，增強(qiáng)系統(tǒng)的穩(wěn)定性，并能對(duì)搜索結(jié)果進(jìn)行合并去重、自動(dòng)分組，實(shí)現(xiàn)了垂直搜索，使搜索更加專注、具體和深入。
[0004] 為解決上述技術(shù)問題，本發(fā)明采用的一個(gè)技術(shù)方案是：提供一種基于solr技術(shù)的分布式搜索方法，包括以下步驟： 1) 當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí)，首先基于樸素貝葉斯算法，對(duì)電子文件進(jìn)行自動(dòng)分類； 2) 電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對(duì)電子文件進(jìn) 行分布式索引，索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù)； 3) 索引文件建立完畢后，用戶輸入查詢語句進(jìn)行電子文件的查詢；其中，所述步驟3)具體包括：采用開源搜索工具Solr的分發(fā)模式，將查詢請(qǐng)求分發(fā)到分布式節(jié)點(diǎn)，各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求，然后對(duì)結(jié)果進(jìn)行合并去重，排序好后返回給用戶。
[0005] 在本發(fā)明一較佳實(shí)施例中，所述步驟1)中對(duì)電子文件進(jìn)行自動(dòng)分類時(shí)，采用協(xié)調(diào) 因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面，所述協(xié)調(diào)因子的大小為0-1。
[0006] 在本發(fā)明一較佳實(shí)施例中，所述協(xié)調(diào)因子的大小為0. 5。
[0007] 在本發(fā)明一較佳實(shí)施例中，所述步驟1)中的樸素貝葉斯算法，具體包括以下步驟： 1. 1)詞庫的選擇與處理：采用搜索引擎的索引工具對(duì)詞庫中相應(yīng)類別的文檔分別進(jìn)行索引處理； 1. 2)提取待分類文檔的特征詞：采用搜索引擎的安裝組件，對(duì)文檔的摘要和關(guān)鍵字信息進(jìn)行提取，然后對(duì)提取出的關(guān)鍵字進(jìn)行去重，提選取特征詞； 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進(jìn)行貝葉斯計(jì)算，獲取待分類文檔針對(duì)每個(gè)分類的概率，然后比較概率值，獲取最大的概率，從而找到待分類文檔的所屬類別。
[0008] 在本發(fā)明一較佳實(shí)施例中，所述步驟1. 3)中所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個(gè)數(shù)；入：協(xié)調(diào)因子； bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0009] 本發(fā)明還提供一種分布式搜索系統(tǒng)，所述系統(tǒng)包括：自動(dòng)分類器，用于對(duì)電子文件進(jìn)行自動(dòng)分類；分布式索引和搜索裝置，采用Solr的復(fù)制模式和分發(fā)模式，由復(fù)制模式對(duì)分布式節(jié)點(diǎn) 的索引文件進(jìn)行備份，由分發(fā)模式進(jìn)行分布式的搜索。
[0010] 在本發(fā)明一較佳實(shí)施例中，所述系統(tǒng)還包括對(duì)查詢語句進(jìn)行智能提示的智能提示裝置、對(duì)搜索結(jié)果進(jìn)行自動(dòng)分組統(tǒng)計(jì)的分組統(tǒng)計(jì)裝置和搜索結(jié)果權(quán)限過濾裝置。
[0011] 本發(fā)明的有益效果是：基于樸素貝葉斯算法，對(duì)電子文件進(jìn)行自動(dòng)分類并引入?yún)f(xié) 調(diào)因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面，能夠提高電子文件自動(dòng)分類的準(zhǔn)確性；基于一致性哈希算法，對(duì)電子文件進(jìn)行分布式索引，能夠增強(qiáng)系統(tǒng)的穩(wěn)定性；通過采用Slor的分發(fā)模式，對(duì)分布式節(jié)點(diǎn)進(jìn)行優(yōu)化，并對(duì)搜索結(jié)果進(jìn)行合并去重、自動(dòng)分組，實(shí)現(xiàn)了垂直搜索，使搜索更加專注、具體和深入。

【專利附圖】

【附圖說明】
[0012] 圖1為本發(fā)明一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的流程示意圖；圖2為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式索引狀態(tài)圖；圖3為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式搜索流程圖；圖4為本發(fā)明分布式搜索系統(tǒng)軟件體系結(jié)構(gòu)圖；圖5為本發(fā)明分布式搜索系統(tǒng)的自動(dòng)分類器的類接口設(shè)計(jì)圖；圖6為本發(fā)明分布式搜索系統(tǒng)的分布式索引裝置的類接口設(shè)計(jì)圖；圖7為本發(fā)明分布式搜索系統(tǒng)的搜索智能提示界面；圖8為本發(fā)明分布式搜索系統(tǒng)的高級(jí)檢索界面；圖9為本發(fā)明分布式搜索系統(tǒng)的搜索結(jié)果界面；附圖中各部件的標(biāo)記如下：1、索引器，2、搜索器。

【具體實(shí)施方式】
[0013] 下面結(jié)合附圖對(duì)本發(fā)明的較佳實(shí)施例進(jìn)行詳細(xì)闡述，以使本發(fā)明的優(yōu)點(diǎn)和特征能更易于被本領(lǐng)域技術(shù)人員理解，從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
[0014] 請(qǐng)參閱圖1-圖9,本發(fā)明實(shí)施例包括：一種分布式搜索系統(tǒng)，所述系統(tǒng)包括： 1)自動(dòng)分類器，用于對(duì)電子文件進(jìn)行自動(dòng)分類； ERMS離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí)，要對(duì)電子文件進(jìn)行自動(dòng)分類，以便于后續(xù)的分布式索引。由于電子文件下的文檔可能和文件元數(shù)據(jù)描述的主題不一致，因此不能完全依據(jù)ERMS離線客戶端系統(tǒng)中定義的電子文件類型來對(duì)電子文件進(jìn)行最終類型的判定。本實(shí)施例中的自動(dòng)分類器采用了協(xié)調(diào)因子由用戶來設(shè)置因子的大小，即由用戶決定 ERMS離線客戶端系統(tǒng)定義的分類和貝葉斯分類各占的比例。其中，默認(rèn)的協(xié)調(diào)因子的大小為 0· 5。
[0015] 所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個(gè)數(shù)； λ :協(xié)調(diào)因子，取值為0-1 ; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0016] 由以上公式可知，當(dāng)λ=1時(shí)，不按照貝葉斯算法對(duì)電子文件進(jìn)行分類，完全依據(jù) 當(dāng)前ERMS離線客戶端系統(tǒng)中配置的電子文件的類型進(jìn)行分類；反之，當(dāng)λ=〇時(shí)，則完全按照貝葉斯分類算法對(duì)電子文件進(jìn)行重新分類。
[0017] 因?yàn)槲臋nd可以表示為η個(gè)不相關(guān)獨(dú)立的特征值的集合，即d=(wl，《2,…，前），則bayes (cld)的計(jì)算可由貝葉斯算法求出，即：

【權(quán)利要求】
1. 一種基于solr技術(shù)的分布式搜索方法，其特征在于，包括以下步驟： 1) 當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí)，首先基于樸素貝葉斯算法，對(duì)電子文件進(jìn)行自動(dòng)分類； 2) 電子文件分類完畢后，根據(jù)電子文件所屬類別，基于一致性哈希算法對(duì)電子文件進(jìn) 行分布式索引，索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù)； 3) 索引文件建立完畢后，用戶輸入查詢語句進(jìn)行電子文件的查詢；其中，所述步驟3)具體包括：采用開源搜索工具Solr的分發(fā)模式，將查詢請(qǐng)求分發(fā)到分布式節(jié)點(diǎn)，各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求，然后對(duì)結(jié)果進(jìn)行合并去重，排序好后返回給用戶。
2. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟1) 中對(duì)電子文件進(jìn)行自動(dòng)分類時(shí)，采用協(xié)調(diào)因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面，所述協(xié)調(diào)因子的大小為0-1。
3. 根據(jù)權(quán)利要求2所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述協(xié)調(diào)因子的大小為0. 5。
4. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟1) 中的樸素貝葉斯算法，具體包括以下步驟： 1. 1)詞庫的選擇與處理：采用搜索引擎的索引工具對(duì)詞庫中相應(yīng)類別的文檔分別進(jìn)行索引處理； 1. 2)提取待分類文檔的特征詞：采用搜索引擎的安裝組件，對(duì)文檔的摘要和關(guān)鍵字信息進(jìn)行提取，然后對(duì)提取出的關(guān)鍵字進(jìn)行去重，提選取特征詞； 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進(jìn)行貝葉斯計(jì)算，獲取待分類文檔針對(duì)每個(gè)分類的概率，然后比較概率值，獲取最大的概率，從而找到待分類文檔的所屬類別。
5. 根據(jù)權(quán)利要求4所述的基于solr技術(shù)的分布式搜索方法，其特征在于，所述步驟 1.3)中所述的貝葉斯公式為： Class (d) =argmax P(c|d)；其中，d :文檔； c :分類； class (d):文檔所屬的類別； p(c|d):文檔d屬于類別c的概率； argmaxP(c|d):文檔屬于某一類別的最大值；其中的P(c|d)的值由以下公式得出： P (c | d) = λ P (c) + (1-λ ) bayes (c I d)；其中，P (C):給定分類的集合，在集合中屬于c類的概率，取值為P (c) =l/n，其中n表示分類的個(gè)數(shù)；入：協(xié)調(diào)因子； bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
6. -種分布式搜索系統(tǒng)，其特征在于，所述系統(tǒng)包括：自動(dòng)分類器，用于對(duì)電子文件進(jìn)行自動(dòng)分類；分布式索引和搜索裝置，采用Solr的復(fù)制模式和分發(fā)模式，由復(fù)制模式對(duì)分布式節(jié)點(diǎn) 的索引文件進(jìn)行備份，由分發(fā)模式進(jìn)行分布式的搜索。
7.根據(jù)權(quán)利要求6所述的分布式搜索系統(tǒng)，其特征在于，所述系統(tǒng)還包括對(duì)查詢語句進(jìn)行智能提示的智能提示裝置、對(duì)搜索結(jié)果進(jìn)行自動(dòng)分組統(tǒng)計(jì)的分組統(tǒng)計(jì)裝置和搜索結(jié)果權(quán)限過濾裝置。
【文檔編號(hào)】G06F17/30GK104142968SQ201310577657
【公開日】2014年11月12日申請(qǐng)日期:2013年11月19日優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】吳含前, 姚莉, 王存哲, 李露申請(qǐng)人:東南大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳含前;姚莉;王存哲;李露
技術(shù)所有人：東南大學(xué)
我是此專利的發(fā)明人

上一篇：一種基于局部隨機(jī)詞匯密度模型poi中文文本分類的方法
上一篇：在Android模擬器中模擬操作USB設(shè)備的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法