一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)。其中,該方法包括:1)當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí),首先基于樸素貝葉斯算法,對(duì)電子文件進(jìn)行自動(dòng)分類;2)電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對(duì)電子文件進(jìn)行分布式索引;3)索引文件建立完畢后,用戶輸入查詢語句進(jìn)行電子文件的查詢。該系統(tǒng)采用開源搜索工具Solr的分發(fā)模式,將查詢請(qǐng)求分發(fā)到分布式節(jié)點(diǎn),各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求,然后對(duì)結(jié)果進(jìn)行合并去重,排序好后返回給用戶,實(shí)現(xiàn)了分布式垂直搜索。通過上述方式,本發(fā)明能夠提高電子文件自動(dòng)分類的準(zhǔn)確性,增強(qiáng)系統(tǒng)的穩(wěn)定性。
【專利說明】一種基于sol r技術(shù)的分布式搜索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索領(lǐng)域,尤其是涉及一種基于solr技術(shù)的分布式搜索方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)技術(shù)得到飛速發(fā)展,網(wǎng)上的數(shù)據(jù)量急劇增長(zhǎng),海量數(shù)據(jù)的增多對(duì)通用搜索 引擎的搜索質(zhì)量產(chǎn)生了巨大影響。這時(shí),要在網(wǎng)上準(zhǔn)確、快速找到自己需要的信息困難重 重。歸結(jié)其原因有三點(diǎn):一是,網(wǎng)上的信息是復(fù)雜無序的,且不同的網(wǎng)站有可能出現(xiàn)重復(fù)的 信息,因此利用搜索引擎查詢到的搜索結(jié)果就會(huì)產(chǎn)生信息噪音;二是僅僅根據(jù)用戶輸入的 查詢?cè)~語來判斷用戶真正的搜索意圖是非常困難的;三是搜索引擎的爬蟲程序不可能爬取 到所有互聯(lián)網(wǎng)上的信息,或者說實(shí)時(shí)抓取網(wǎng)上信息。此時(shí)迫切需要有一種針對(duì)某一領(lǐng)域或 者主題的搜索引擎的出現(xiàn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明主要解決的技術(shù)問題是提供一種基于solr技術(shù)的分布式搜索方法及系 統(tǒng),能夠提高電子文件自動(dòng)分類的準(zhǔn)確性,增強(qiáng)系統(tǒng)的穩(wěn)定性,并能對(duì)搜索結(jié)果進(jìn)行合并去 重、自動(dòng)分組,實(shí)現(xiàn)了垂直搜索,使搜索更加專注、具體和深入。
[0004] 為解決上述技術(shù)問題,本發(fā)明采用的一個(gè)技術(shù)方案是:提供一種基于solr技術(shù)的 分布式搜索方法,包括以下步驟: 1) 當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí),首先基于樸素貝葉斯算法,對(duì)電子 文件進(jìn)行自動(dòng)分類; 2) 電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對(duì)電子文件進(jìn) 行分布式索引,索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù); 3) 索引文件建立完畢后,用戶輸入查詢語句進(jìn)行電子文件的查詢; 其中,所述步驟3)具體包括:采用開源搜索工具Solr的分發(fā)模式,將查詢請(qǐng)求分發(fā)到 分布式節(jié)點(diǎn),各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求,然后對(duì)結(jié)果進(jìn)行合并去重,排序好后返回給用 戶。
[0005] 在本發(fā)明一較佳實(shí)施例中,所述步驟1)中對(duì)電子文件進(jìn)行自動(dòng)分類時(shí),采用協(xié)調(diào) 因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面,所述協(xié)調(diào)因子的大小為0-1。
[0006] 在本發(fā)明一較佳實(shí)施例中,所述協(xié)調(diào)因子的大小為0. 5。
[0007] 在本發(fā)明一較佳實(shí)施例中,所述步驟1)中的樸素貝葉斯算法,具體包括以下步 驟: 1. 1)詞庫的選擇與處理:采用搜索引擎的索引工具對(duì)詞庫中相應(yīng)類別的文檔分別進(jìn)行 索引處理; 1. 2)提取待分類文檔的特征詞:采用搜索引擎的安裝組件,對(duì)文檔的摘要和關(guān)鍵字信 息進(jìn)行提取,然后對(duì)提取出的關(guān)鍵字進(jìn)行去重,提選取特征詞; 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進(jìn)行貝葉斯計(jì)算,獲取待分類 文檔針對(duì)每個(gè)分類的概率,然后比較概率值,獲取最大的概率,從而找到待分類文檔的所屬 類別。
[0008] 在本發(fā)明一較佳實(shí)施例中,所述步驟1. 3)中所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個(gè)數(shù); 入:協(xié)調(diào)因子; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0009] 本發(fā)明還提供一種分布式搜索系統(tǒng),所述系統(tǒng)包括: 自動(dòng)分類器,用于對(duì)電子文件進(jìn)行自動(dòng)分類; 分布式索引和搜索裝置,采用Solr的復(fù)制模式和分發(fā)模式,由復(fù)制模式對(duì)分布式節(jié)點(diǎn) 的索引文件進(jìn)行備份,由分發(fā)模式進(jìn)行分布式的搜索。
[0010] 在本發(fā)明一較佳實(shí)施例中,所述系統(tǒng)還包括對(duì)查詢語句進(jìn)行智能提示的智能提示 裝置、對(duì)搜索結(jié)果進(jìn)行自動(dòng)分組統(tǒng)計(jì)的分組統(tǒng)計(jì)裝置和搜索結(jié)果權(quán)限過濾裝置。
[0011] 本發(fā)明的有益效果是:基于樸素貝葉斯算法,對(duì)電子文件進(jìn)行自動(dòng)分類并引入?yún)f(xié) 調(diào)因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面,能夠提高電子文件自動(dòng)分類的準(zhǔn)確性;基于一致性 哈希算法,對(duì)電子文件進(jìn)行分布式索引,能夠增強(qiáng)系統(tǒng)的穩(wěn)定性;通過采用Slor的分發(fā)模 式,對(duì)分布式節(jié)點(diǎn)進(jìn)行優(yōu)化,并對(duì)搜索結(jié)果進(jìn)行合并去重、自動(dòng)分組,實(shí)現(xiàn)了垂直搜索,使搜 索更加專注、具體和深入。
【專利附圖】
【附圖說明】
[0012] 圖1為本發(fā)明一種基于solr技術(shù)的分布式搜索方法及系統(tǒng)的流程示意圖; 圖2為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式索引狀態(tài)圖; 圖3為本發(fā)明基于solr技術(shù)的分布式搜索方法中的分布式搜索流程圖; 圖4為本發(fā)明分布式搜索系統(tǒng)軟件體系結(jié)構(gòu)圖; 圖5為本發(fā)明分布式搜索系統(tǒng)的自動(dòng)分類器的類接口設(shè)計(jì)圖; 圖6為本發(fā)明分布式搜索系統(tǒng)的分布式索引裝置的類接口設(shè)計(jì)圖; 圖7為本發(fā)明分布式搜索系統(tǒng)的搜索智能提示界面; 圖8為本發(fā)明分布式搜索系統(tǒng)的高級(jí)檢索界面; 圖9為本發(fā)明分布式搜索系統(tǒng)的搜索結(jié)果界面; 附圖中各部件的標(biāo)記如下:1、索引器,2、搜索器。
【具體實(shí)施方式】
[0013] 下面結(jié)合附圖對(duì)本發(fā)明的較佳實(shí)施例進(jìn)行詳細(xì)闡述,以使本發(fā)明的優(yōu)點(diǎn)和特征能 更易于被本領(lǐng)域技術(shù)人員理解,從而對(duì)本發(fā)明的保護(hù)范圍做出更為清楚明確的界定。
[0014] 請(qǐng)參閱圖1-圖9,本發(fā)明實(shí)施例包括: 一種分布式搜索系統(tǒng),所述系統(tǒng)包括: 1)自動(dòng)分類器,用于對(duì)電子文件進(jìn)行自動(dòng)分類; ERMS離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí),要對(duì)電子文件進(jìn)行自動(dòng)分類,以便 于后續(xù)的分布式索引。由于電子文件下的文檔可能和文件元數(shù)據(jù)描述的主題不一致,因此 不能完全依據(jù)ERMS離線客戶端系統(tǒng)中定義的電子文件類型來對(duì)電子文件進(jìn)行最終類型的 判定。本實(shí)施例中的自動(dòng)分類器采用了協(xié)調(diào)因子由用戶來設(shè)置因子的大小,即由用戶決定 ERMS離線客戶端系統(tǒng)定義的分類和貝葉斯分類各占的比例。其中,默認(rèn)的協(xié)調(diào)因子的大小 為 0· 5。
[0015] 所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個(gè)數(shù); λ :協(xié)調(diào)因子,取值為0-1 ; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
[0016] 由以上公式可知,當(dāng)λ=1時(shí),不按照貝葉斯算法對(duì)電子文件進(jìn)行分類,完全依據(jù) 當(dāng)前ERMS離線客戶端系統(tǒng)中配置的電子文件的類型進(jìn)行分類;反之,當(dāng)λ=〇時(shí),則完全按 照貝葉斯分類算法對(duì)電子文件進(jìn)行重新分類。
[0017] 因?yàn)槲臋nd可以表示為η個(gè)不相關(guān)獨(dú)立的特征值的集合,即d=(wl,《2,…,前), 則bayes (cld)的計(jì)算可由貝葉斯算法求出,即:
【權(quán)利要求】
1. 一種基于solr技術(shù)的分布式搜索方法,其特征在于,包括以下步驟: 1) 當(dāng)離線客戶端系統(tǒng)對(duì)電子文件進(jìn)行登記歸檔時(shí),首先基于樸素貝葉斯算法,對(duì)電子 文件進(jìn)行自動(dòng)分類; 2) 電子文件分類完畢后,根據(jù)電子文件所屬類別,基于一致性哈希算法對(duì)電子文件進(jìn) 行分布式索引,索引的內(nèi)容包括電子文件的重要元數(shù)據(jù)和電子文件包含的電子文檔的相關(guān) 元數(shù)據(jù); 3) 索引文件建立完畢后,用戶輸入查詢語句進(jìn)行電子文件的查詢; 其中,所述步驟3)具體包括:采用開源搜索工具Solr的分發(fā)模式,將查詢請(qǐng)求分發(fā)到 分布式節(jié)點(diǎn),各個(gè)分布式節(jié)點(diǎn)響應(yīng)搜索請(qǐng)求,然后對(duì)結(jié)果進(jìn)行合并去重,排序好后返回給用 戶。
2. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟1) 中對(duì)電子文件進(jìn)行自動(dòng)分類時(shí),采用協(xié)調(diào)因子來動(dòng)態(tài)調(diào)整自動(dòng)分類的側(cè)重面,所述協(xié)調(diào)因 子的大小為0-1。
3. 根據(jù)權(quán)利要求2所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述協(xié)調(diào)因 子的大小為0. 5。
4. 根據(jù)權(quán)利要求1所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟1) 中的樸素貝葉斯算法,具體包括以下步驟: 1. 1)詞庫的選擇與處理:采用搜索引擎的索引工具對(duì)詞庫中相應(yīng)類別的文檔分別進(jìn)行 索引處理; 1. 2)提取待分類文檔的特征詞:采用搜索引擎的安裝組件,對(duì)文檔的摘要和關(guān)鍵字信 息進(jìn)行提取,然后對(duì)提取出的關(guān)鍵字進(jìn)行去重,提選取特征詞; 1. 3)將提取出的特征詞采用貝葉斯公式與詞庫樣本文檔進(jìn)行貝葉斯計(jì)算,獲取待分類 文檔針對(duì)每個(gè)分類的概率,然后比較概率值,獲取最大的概率,從而找到待分類文檔的所屬 類別。
5. 根據(jù)權(quán)利要求4所述的基于solr技術(shù)的分布式搜索方法,其特征在于,所述步驟 1.3)中所述的貝葉斯公式為: Class (d) =argmax P(c|d); 其中,d :文檔; c :分類; class (d):文檔所屬的類別; p(c|d):文檔d屬于類別c的概率; argmaxP(c|d):文檔屬于某一類別的最大值; 其中的P(c|d)的值由以下公式得出: P (c | d) = λ P (c) + (1-λ ) bayes (c I d); 其中,P (C):給定分類的集合,在集合中屬于c類的概率,取值為P (c) =l/n,其中n表示 分類的個(gè)數(shù); 入:協(xié)調(diào)因子; bayes (c | d):利用貝葉斯公式求出文檔d屬于類別c的概率。
6. -種分布式搜索系統(tǒng),其特征在于,所述系統(tǒng)包括: 自動(dòng)分類器,用于對(duì)電子文件進(jìn)行自動(dòng)分類; 分布式索引和搜索裝置,采用Solr的復(fù)制模式和分發(fā)模式,由復(fù)制模式對(duì)分布式節(jié)點(diǎn) 的索引文件進(jìn)行備份,由分發(fā)模式進(jìn)行分布式的搜索。
7.根據(jù)權(quán)利要求6所述的分布式搜索系統(tǒng),其特征在于,所述系統(tǒng)還包括對(duì)查詢語句 進(jìn)行智能提示的智能提示裝置、對(duì)搜索結(jié)果進(jìn)行自動(dòng)分組統(tǒng)計(jì)的分組統(tǒng)計(jì)裝置和搜索結(jié)果 權(quán)限過濾裝置。
【文檔編號(hào)】G06F17/30GK104142968SQ201310577657
【公開日】2014年11月12日 申請(qǐng)日期:2013年11月19日 優(yōu)先權(quán)日:2013年11月19日
【發(fā)明者】吳含前, 姚莉, 王存哲, 李露 申請(qǐng)人:東南大學(xué)