亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

信息智能檢索系統(tǒng)的檢索方法與流程

文檔序號:11582904閱讀:2379來源:國知局
信息智能檢索系統(tǒng)的檢索方法與流程

本發(fā)明涉及一種檢索方法,具體涉及一種信息智能檢索系統(tǒng)及檢索方法,屬于信息檢索技術(shù)領(lǐng)域。



背景技術(shù):

隨著計算機技術(shù)、網(wǎng)絡(luò)技術(shù)和通信技術(shù)的發(fā)展和應(yīng)用,各行各業(yè)信息化也得到了突飛猛進的發(fā)展。近年來,隨著大量的信息化系統(tǒng)的建設(shè),系統(tǒng)存儲的數(shù)據(jù)量以幾何級開始增長。如何在龐大的信息中快速、精確地檢索數(shù)據(jù),已經(jīng)成為信息化發(fā)展的重點,建全信息智能檢索能夠有效地滿足這個需求。

建立一個全文檢索系統(tǒng),首先要將源文檔轉(zhuǎn)化為能夠進行文本查找的全文數(shù)據(jù)庫,包括全文的分割處理以及檢索標識的提取,稱為全文本的前處理工作。眾所周知,英文是以詞為單位的,單詞之間以空格分割,而中文是字的序列,詞與詞之間沒有間隔標記,使得詞的界定缺乏自然標準。而“詞”又是自然語言處理的一個基本單位,是最小的能夠獨立活動的有意義的語言成分。顯而易見,自動識別詞的邊界,將書面漢字序列切分成正確的詞串的中文分詞問題,無疑是實現(xiàn)中文信息處理的首要問題。

同時,傳統(tǒng)數(shù)據(jù)庫的大數(shù)據(jù)檢索,效率受限于磁盤io讀寫和傳統(tǒng)數(shù)據(jù)庫的框架,不能實現(xiàn)大數(shù)據(jù)量下的快速的檢索。因此,迫切的需要一種新的方案解決該技術(shù)問題。



技術(shù)實現(xiàn)要素:

本發(fā)明正是針對現(xiàn)有技術(shù)中存在的技術(shù)問題,提供一種信息智能檢索系統(tǒng)的檢索方法,本發(fā)明實現(xiàn)自然語言處理分詞,建立索引實現(xiàn)基于大數(shù)據(jù)量下的全文檢索,對所需信息進行搜索內(nèi)容快速匹配。

為了實現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下,一種信息智能檢索系統(tǒng)的檢索方法,其特征在于,所述方法如下,1)平臺系統(tǒng)首先從數(shù)據(jù)采集節(jié)點通過日志傳輸系統(tǒng)采集數(shù)據(jù)2)將采集的數(shù)據(jù)通過調(diào)取hadoopapi傳入hadoop大數(shù)據(jù)集群的hdfs分布式文件存儲存3)然后根據(jù)平臺相關(guān)業(yè)務(wù)確定好詞典,通過平臺的接口進行定時處理,將hdfs存儲的元數(shù)據(jù)進行預(yù)處理,清洗無意義的數(shù)據(jù)和因編碼格式產(chǎn)生的中文亂碼,4)在此基礎(chǔ)上,根據(jù)詞典的詞元分詞,將詞進行倒排序,進行數(shù)據(jù)分片,分布式存儲在集群磁盤中,形成索引,使得數(shù)據(jù)能夠進行全文檢索。所述通過存儲在hdfs上的的信息數(shù)據(jù),進行數(shù)據(jù)清洗,預(yù)處理,然后導(dǎo)入進信息智能檢索平臺,平臺中現(xiàn)在有10億條數(shù)據(jù),能做到毫秒級的相應(yīng),對地址姓名等能做到模糊查詢和關(guān)鍵字匹配。同時平臺在輿情搜索中也有應(yīng)用。

作為本發(fā)明的一種改進,所述步驟3)中需要進行分詞處理,所述分詞處理使用了“正向迭代最細粒度切分算法”,簡單說來就是:segmenter會逐字識別加載在內(nèi)存中的字典詞元,從中選取最優(yōu)的方案,其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典,若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來;如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理……;如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止,這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。上述技術(shù)方案中,在海量數(shù)據(jù)的信息中,進行毫秒級全文檢索匹配,并返回相應(yīng)的檢索、分析結(jié)果。信息的內(nèi)容很長很雜,搜索輸入的內(nèi)容可能沒有連續(xù)性,傳統(tǒng)數(shù)據(jù)庫無法實現(xiàn)。需要從中提取關(guān)鍵字,進行關(guān)鍵字的倒排序和分類,以實現(xiàn)快速的檢索匹配。因為信息的數(shù)據(jù)量很大,數(shù)據(jù)在hdfs進行分布式存儲。需要先從hdfs存儲中讀取相應(yīng)的數(shù)據(jù)進行轉(zhuǎn)換,將數(shù)據(jù)導(dǎo)入智能檢索平臺進行存儲轉(zhuǎn)換。內(nèi)存和磁盤需要進行充分使用,盡可能減少傳統(tǒng)數(shù)據(jù)庫或者檢索中磁盤io所造成的性能瓶頸。

相對于現(xiàn)有技術(shù),本發(fā)明具有如下優(yōu)點,1)索引文件格式獨立于應(yīng)用平臺,信息智能檢索定義了一套以8位字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享建立的索引文件;2)在傳統(tǒng)全文檢索引擎的倒排索引的基礎(chǔ)上,實現(xiàn)了分塊索引,能夠針對新的文件建立小文件索引,提升索引速度。然后通過與原有索引的合并,達到優(yōu)化的目的。對億級別的海量數(shù)據(jù)能做到毫秒級的響應(yīng)。查詢實現(xiàn)中默認實現(xiàn)了布爾操作、模糊查詢(fuzzysearch[11])、分組查詢等等;3)能夠有效的將hdfs數(shù)據(jù)清洗預(yù)處理,導(dǎo)入信息搜索平臺,保證數(shù)據(jù)的準時實現(xiàn)。

附圖說明

圖1為倒排序原理圖;

圖2為索引建立示意圖;

圖3、圖4為分詞轉(zhuǎn)換過程示意圖;

圖5為整個檢索過程示意圖。

具體實施方式:

為了加深對本發(fā)明的理解,下面結(jié)合附圖對本實施例做詳細的說明。

實施例1:參見圖,5,一種信息智能檢索系統(tǒng)的檢索方法,所述方法如下,1)平臺系統(tǒng)首先從數(shù)據(jù)采集節(jié)點通過日志傳輸系統(tǒng)采集數(shù)據(jù)2)將采集的數(shù)據(jù)通過調(diào)取hadoopapi傳入hadoop大數(shù)據(jù)集群的hdfs分布式文件存儲存3)然后根據(jù)平臺相關(guān)業(yè)務(wù)確定好詞典,通過平臺的接口進行定時處理,將hdfs存儲的元數(shù)據(jù)進行預(yù)處理,清洗無意義的數(shù)據(jù)和因編碼格式產(chǎn)生的中文亂碼,4)在此基礎(chǔ)上,根據(jù)詞典的詞元分詞,將詞進行倒排序,進行數(shù)據(jù)分片,分布式存儲在集群磁盤中,形成索引,使得數(shù)據(jù)能夠進行全文檢索。所述通過存儲在hdfs上的的信息數(shù)據(jù),進行數(shù)據(jù)清洗,預(yù)處理,然后導(dǎo)入進信息智能檢索平臺,平臺中現(xiàn)在有10億條數(shù)據(jù),能做到毫秒級的相應(yīng),對地址姓名等能做到模糊查詢和關(guān)鍵字匹配。同時平臺在輿情搜索中也有應(yīng)用。

參見圖3,所述步驟3)中需要進行分詞處理,所述分詞處理使用了“正向迭代最細粒度切分算法”,簡單說來就是:segmenter會逐字識別加載在內(nèi)存中的字典詞元,從中選取最優(yōu)的方案,其基本思想為:假定分詞詞典中的最長詞有i個漢字字符,則用被處理文檔的當前字串中的前i個字作為匹配字段,查找字典,若字典中存在這樣的一個i字詞,則匹配成功,匹配字段被作為一個詞切分出來;如果詞典中找不到這樣的一個i字詞,則匹配失敗,將匹配字段中的最后一個字去掉,對剩下的字串重新進行匹配處理……;如此進行下去,直到匹配成功,即切分出一個詞或剩余字串的長度為零為止,這樣就完成了一輪匹配,然后取下一個i字字串進行匹配處理,直到文檔被掃描完為止。

在傳統(tǒng)的數(shù)據(jù)庫中,一個字段存一個值,但是這對于全文搜索是不足的。想要讓文本中的而每個單詞都可以被搜索,這意味著數(shù)據(jù)庫需要多個值。支持一個字段多個值的最佳數(shù)據(jù)結(jié)構(gòu)是倒排索引。倒排索引包含了出現(xiàn)在所有文檔中唯一的值或或詞的有序列表,以及每個詞所屬的文檔列表,如圖1,因為數(shù)據(jù)實時性,需要保證索引的動態(tài)更新。所以設(shè)計了使用不只一個的索引。新添額外的索引來反映新的更改來替代重寫所有倒序索引。所以引入了per-segment搜索的概念一個segment是一個完整的倒序索引的子集,索引是一個segments的集合,每個segment都包含一些提交點新的文檔建立時首先在內(nèi)存建立索引buffer。然后再被寫入到磁盤的segment。如圖2。我們要找概率最大的分詞結(jié)構(gòu)的話,可以看做是一個動態(tài)規(guī)劃問題,也就是說,要找整個句子的最大概率結(jié)構(gòu),對于其子串也應(yīng)該是最大概率的。

對于句子任意一個位置t上的字,我們要從詞典中找到其所有可能的詞組形式,如上圖中的第一個字,可能有:中、中國、中國人三種組合,第四個字可能只有民,經(jīng)過整理,我們的分詞結(jié)構(gòu)可以轉(zhuǎn)換成以下的有向圖模型,如圖4寫的定時任務(wù),調(diào)用hdfs接口,從hdfs到處數(shù)據(jù),預(yù)處理數(shù)據(jù),進行亂碼、無意義字符清洗,導(dǎo)入到信息智能搜索中。

需要說明的是上述實施例,并非用來限定本發(fā)明的保護范圍,在上述技術(shù)方案的基礎(chǔ)上所作出的等同變換或替代均落入本發(fā)明權(quán)利要求所保護的范圍。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1