專利名稱:一種基于多詞表的關鍵詞快速匹配的系統(tǒng)的制作方法
技術領域:
本實用新型涉及一種基于多詞表的關鍵詞快速匹配的系統(tǒng),屬于文本數(shù)據(jù)檢索領 域。
背景技術:
多關鍵詞匹配時計算機科學領域中的基本問題之一,它需要解決的問題就是快速 準確地判斷某一文本或數(shù)據(jù)塊中是否包含給定的關鍵詞集合中的某個或者某些關鍵詞。隨 著互聯(lián)網(wǎng)技術的飛速發(fā)展和網(wǎng)絡應用的普及,數(shù)據(jù)處理量日益增大。在網(wǎng)絡應用環(huán)境中,存 在大量的實時數(shù)據(jù)處理的需求。同時網(wǎng)絡攻擊行為和手段的日益復雜化,病毒的不斷涌現(xiàn), 網(wǎng)絡安全應用的關鍵詞規(guī)模也隨之不斷擴大。網(wǎng)絡內容及敏感信息過濾所用到的規(guī)則集一 般是幾萬條,甚至更多?,F(xiàn)有的多關鍵詞匹配技術,通常對任何關鍵詞的查找都使用一個詞庫,對詞庫中 所有的詞都進行查找。由于網(wǎng)絡關鍵詞的規(guī)模擴大,使得查找范圍變大,過濾不相關的關鍵 詞的工作量也增加,導致查找速度慢、效率低,并且查找的過程中還需要根據(jù)關鍵詞的查找 來另行建立關鍵詞的集合詞表,會占用一定的存儲空間更需要花費時間,查詢效率低。以上 多關鍵詞匹配技術的缺陷,會導致關鍵詞匹配的速度下降,給用戶帶來不好的檢索體驗。
實用新型內容本實用新型的目的在于,提供一種基于多詞表的關鍵詞快速匹配的系統(tǒng),它能夠 把詞庫中的關鍵詞按照內容的不同劃分為多個詞表,從而提高了關鍵詞的匹配速度。為解決上述技術問題,本實用新型采用如下的技術方案一種基于多詞表的關鍵 詞快速匹配的系統(tǒng),它包括web服務器,用于將接收到的關鍵詞查詢請求發(fā)送給文本處理設備,查找詞表存儲 設備中與之對應的詞表發(fā)送給關鍵詞服務器;文本處理設備,用于將需要進行關鍵詞查找的文本信息發(fā)送給關鍵詞服務器;關鍵詞服務器,用于結合詞表和文本信息進行檢索匹配,將匹配結果返回給web 服務器;設于關鍵詞服務器上的詞表存儲設備,用于存儲多個詞表,所述詞表為按照不同 內容劃分的關鍵詞的集合;其中,web服務器與文本處理設備和關鍵詞服務器分別連接,文本處理設備連接關 鍵詞服務器。本實用新型設置詞表存儲設備,將詞庫中的關鍵詞按照內容的不同劃分為多小 個詞表,查找時根據(jù)關鍵詞直接調用相應的小詞表,而不是統(tǒng)一使用一個大詞表對詞庫中 所有的詞進行查找,減少了詞表容量,進行關鍵詞匹配時無需另行建立詞表,節(jié)約了建表時 間,提高了匹配速度。所述web服務器,根據(jù)關鍵詞所涉及的類別,查找詞表存儲設備中與之對應的詞表,將詞表發(fā)送給關鍵詞服務器。所述的文本處理設備,根據(jù)客戶端設備發(fā)出的請求,將需要進行關鍵詞查找的文 本信息發(fā)送給關鍵詞服務器。所述的關鍵詞服務器,結合web服務器提供的詞表和文本處理設備提供的文本進 行檢索匹配。所述的文本信息是以電子形式存儲的信息,并且文本長度比較大,從幾個字節(jié)到 幾千字節(jié),甚至更大。用戶可能對文本的內容并不感興趣,只是想找出關鍵詞所處的位置, 或者想快速定位到關鍵詞的位置,查看關鍵詞前后的內容,或者想知道被查找的文本中有 沒有他輸入的關鍵詞。所述詞表中的關鍵詞的長度是不相等的。本實用新型所述的詞表常駐在內存,不 需要查找時再根據(jù)關鍵詞另行建立。詞表按照一定的內容進行劃分,對于不同的搜索或檢 索,使用不同的詞表。例如對于對話的內容和日志的標題就需要使用不同的詞表進行過濾。前述的一種基于多詞表的關鍵詞快速匹配的系統(tǒng)中,所述的關鍵詞服務器設有兩 個數(shù)據(jù)接口,分別與文本處理設備和web服務器連接。其中一個接口用于接收詞表,另一個 用于接收文本內容。這種結構具有使用方便,簡潔,通用性強等優(yōu)點。前述的一種基于多詞表的關鍵詞快速匹配的系統(tǒng)中,所述關鍵詞服務器中設有結 果處理設備,用于向web服務器返回匹配結果。當前文本中有詞表中的關鍵詞時,返回匹配 成功信息,當前文本中沒有詞表中的關鍵詞時,返回匹配失敗信息。為了讓用戶使用方便, 無論是匹配成功還是匹配失敗,都給用戶返回一個消息,以通知用戶查到的結果。與現(xiàn)有技術相比,本實用新型通過在服務器中設置詞表存儲設備,來存儲按照詞 庫中關鍵詞內容的不同劃分為多個小詞表,減少了詞表容量,需要進行關鍵詞匹配時,直接 從詞表存儲設備中調用對應的詞表,無需另行建立詞表,節(jié)約了建表時間,從而提高了關鍵 詞的匹配速度。另外,本實用新型由于設置了專門的關鍵詞服務器,使關鍵詞服務器的應用 范圍變得廣泛,既可以用于查找好友時對姓名的過濾,也可以用于對關鍵詞的定位,可擴展 性強,關鍵詞服務器具有兩個數(shù)據(jù)接口,分別與web服務器連接,這種結構具有使用方便, 簡潔,通用性強等優(yōu)點。
圖1是本實用新型的一種實施例的結構示意圖;圖2是本實用新型的一種實施例的工作流程圖。附圖中的標記1- web服務器,2-關鍵詞服務器,3-文本處理設備,4-詞表存儲設 備,5-結果處理設備。
以下結合附圖和具體實施方式
對本實用新型作進一步的說明。
具體實施方式
本實用新型的實施例一種基于多詞表的關鍵詞快速匹配的系統(tǒng),結構如圖1所 示;包括web服務器1,用于接收客戶端設備發(fā)出的關鍵詞查詢請求并將此信息發(fā)送給文 本處理設備3,同時根據(jù)關鍵詞所涉及的類別,查找詞表存儲設備4中與之對應的詞表,將詞表發(fā)送給關鍵詞服務器2 ;文本處理設備3,用于根據(jù)客戶端設備發(fā)出的請求,將需要進行關鍵詞查找的文本 信息發(fā)送給關鍵詞服務器2 ;關鍵詞服務器2,用于結合web服務器1提供的詞表和文本處理設備3提供的文本 進行檢索匹配,得到匹配結果并將結果返回給web服務器1 ;設于關鍵詞服務器2上的詞表存儲設備4,用于存儲多個詞表,所述詞表為按照不 同內容劃分的關鍵詞的集合;其中,web服務器1與文本處理設備3和關鍵詞服務器2分別連接,文本處理設備 3連接關鍵詞服務器2。所述web服務器,根據(jù)關鍵詞所涉及的類別,查找詞表存儲設備中與之對應的詞 表,將詞表發(fā)送給關鍵詞服務器。所述的文本處理設備,根據(jù)客戶端設備發(fā)出的請求,將需要進行關鍵詞查找的文 本信息發(fā)送給關鍵詞服務器。所述的關鍵詞服務器,結合web服務器提供的詞表和文本處理設備提供的文本進 行檢索匹配。所述的文本信息是以電子形式存儲的信息,并且文本長度比較大,從幾個字節(jié)到 幾千字節(jié),甚至更大。用戶可能對文本的內容并不感興趣,只是想找出關鍵詞所處的位置, 或者想快速定位到關鍵詞的位置,查看關鍵詞前后的內容,或者想知道被查找的文本中有 沒有他輸入的關鍵詞。所述詞表中的關鍵詞的長度是不相等的。本實用新型所述的詞表常駐在內存,不 需要查找時再根據(jù)關鍵詞另行建立。詞表按照一定的內容進行劃分,對于不同的搜索或檢 索,使用不同的詞表。例如對于對話的內容和日志的標題就需要使用不同的詞表進行過濾。所述的關鍵詞服務器2具有兩個數(shù)據(jù)接口,分別與文本處理設備3和web服務器 1連接;其中一個接口用于接收詞表,另一個用于接收文本內容。這種結構具有使用方便, 簡潔,通用性強等優(yōu)點。所述關鍵詞服務器2中設有結果處理設備5,用于向web服務器1返回匹配結果, 當前文本中有詞表中的關鍵詞時,返回匹配成功信息,當前文本中沒有詞表中的關鍵詞時, 返回匹配失敗信息。為了讓用戶使用方便,無論是匹配成功還是匹配失敗,都給用戶返回一 個消息,以通知用戶查到的結果。本實用新型的工作流程(如圖2所示)SlO 接收關鍵詞查詢請求;S20 :web服務器將需要進行關鍵詞查找的文本信息發(fā)送給關鍵詞服務器;S30 :web服務器調用關鍵詞對應的詞表并發(fā)送給關鍵詞服務器;S40 關鍵詞服務器結合詞表和文本進行檢索匹配,將結果返回給web服務器;S50: web服務器接收并處理匹配結果。
權利要求1.一種基于多詞表的關鍵詞快速匹配的系統(tǒng),其特征在于,包括web服務器(1),用于將接收到的關鍵詞查詢請求發(fā)送給文本處理設備(3),查找詞表 存儲設備(4)中與之對應的詞表發(fā)送給關鍵詞服務器(2);文本處理設備(3),用于將需要進行關鍵詞查找的文本信息發(fā)送給關鍵詞服務器(2);關鍵詞服務器(2),用于結合詞表和文本信息進行檢索匹配,將匹配結果返回給web服 務器(1);設于關鍵詞服務器(2)上的詞表存儲設備(4),用于存儲多個詞表;其中,web服務器(1)與文本處理設備(3 )和關鍵詞服務器(2 )分別連接,文本處理設 備(3)連接關鍵詞服務器(2)。
2.根據(jù)權利要求1所述的一種基于多詞表的關鍵詞快速匹配的系統(tǒng),其特征在于,所 述的關鍵詞服務器(2)具有兩個數(shù)據(jù)接口,分別與文本處理設備(3)和web服務器(1)連 接。
3.根據(jù)權利要求1或2所述的一種基于多詞表的關鍵詞快速匹配的系統(tǒng),其特征在于, 所述關鍵詞服務器(2)中設有結果處理設備(5),用于向web服務器(1)返回匹配結果。
專利摘要本實用新型公開了一種基于多詞表的關鍵詞快速匹配的系統(tǒng),包括web服務器(1)、文本處理設備(3)、關鍵詞服務器(2)和設于關鍵詞服務器(2)上的詞表存儲設備(4);其中,web服務器(1)與文本處理設備(3)和關鍵詞服務器(2)分別連接,文本處理設備(3)連接關鍵詞服務器(2);本實用新型通過在服務器中設置詞表存儲設備,來存儲按照關鍵詞內容劃分的多個詞表,關鍵詞匹配時,直接調用對應的詞表,無需另行建立詞表,節(jié)約了建表時間,從而提高了關鍵詞匹配速度。另外,本實用新型由于設置了專門的關鍵詞服務器,使關鍵詞服務器應用范圍變得廣泛,既可以用于查找好友時對姓名的過濾,也可以用于對關鍵詞的定位,可擴展性強。
文檔編號G06F17/30GK201867808SQ20102052359
公開日2011年6月15日 申請日期2010年9月9日 優(yōu)先權日2010年9月9日
發(fā)明者伍星, 洪林, 熊家貴 申請人:北京開心人信息技術有限公司