專利名稱:一種關鍵詞組合匹配方法
技術領域:
本發(fā)明涉及一種關鍵詞組合匹配方法,屬于數(shù)據(jù)識別技術領域。
背景技術:
在internet日益普及的今天,人們在享受信息獲取便利的同時,也遭受著各種垃圾信息的騷擾,如惡意攻擊、黃色暴力信息等,對這些信息的分析,可以通過對其中關鍵詞的匹配程度進行識別。目前,對目標文本中匹配單個關鍵詞,已經(jīng)有很多有效的方法,如ac_bm算法搜索,可以先用需要匹配的關鍵詞構(gòu)建一棵ac_bm樹,然后再進行匹配,只要需要匹配的關鍵詞在目標文本中出現(xiàn),就會被匹配到。在實際需求中,還經(jīng)常會需要這些關鍵詞的組合信息,如分析某個文本內(nèi)容是否暴力信息時,定義一個值“power”用于統(tǒng)計,它的值越大,表示為暴力信息的可能性越大,當出現(xiàn)“打架”、“斗毆”關鍵詞時,分別讓“power”值加1,當同時出現(xiàn)“打架”、“斗毆”時,讓“power”值加10,這樣使匹配的結(jié)果更精確。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的是提供一種關鍵詞組合匹配的方法,旨在使匹配的結(jié)果更加準確,具體步驟如下:
1、設需要匹配的關鍵詞:A,B,D,E ;
設需要匹配的關鍵詞組合:A&B,A&D&E, B&E, B&D&E。
2、為每個關鍵詞設置所屬組合屬性:
A:{(0,2),(1,4), (-1,-1)}
B:{(0,1),(2,2), (3,4), (-1,-1)}
c:{(-1,-1)}
D:{(1,2),(3,1), (-1,-1)}
E:{(1,1),(2,1), (3,1), (-1,-1)}
“ H ”中表示該關鍵詞所屬的全部組合,“ O ”中第一個數(shù)表示所屬組合的index,第二個數(shù)轉(zhuǎn)換成二進制時,“I”的位置表示在所屬組合中的位置,比如B-> (3,4),即(3,00000100),表示B出現(xiàn)在第3+1個組合(B&D&E)倒數(shù)第二個“&”的位置。
3、定義數(shù)組intcombine [4], combine [4]數(shù)組各成員值用二進制表示為:
權利要求
1.一種關鍵詞組合匹配方法,其特征在于,包含以下步驟: 步驟1、設需要匹配的關鍵詞:A,B, D,E,設需要匹配的關鍵詞組合:A&B,A&D&E,B&E,B&D&E ; 步驟2、為每個關鍵詞設置所屬組合屬性:A:{(0,2),(1,4), (-1,-1)}B:{(0,1),(2,2), (3,4), (-1,-1)}C:{(_1,-1)}D:{(1,2),(3,1), (-1,-1)}E:{(1,1),(2,1), (3,1), (-1,-1)} “ H ”中表示該關鍵詞所屬的全部組合,“ O ”中第一個數(shù)表示所屬組合的index,第二個數(shù)轉(zhuǎn)換成二進制時,“I”的位置表示在所屬組合中的位置,比如B-> (3,4),即(3,00000100),表示B出現(xiàn)在第3+1個組合(B&D&E)倒數(shù)第二個“&”的位置; 步驟3、定義數(shù)組int combine [4], combine [4]數(shù)組各成員值用二進制表示為:
全文摘要
本發(fā)明涉及一種關鍵詞組合匹配方法。針對目前互聯(lián)網(wǎng)上垃圾信息的騷擾,提出通過關鍵詞組合匹配的方法進行分析識別這些信息,如分析某個文本內(nèi)容是否暴力信息時,通過定義一個值進行統(tǒng)計,當出現(xiàn)相關詞時,這個值增加,這樣能夠使匹配的結(jié)果更加準確。
文檔編號G06F17/30GK103198160SQ20131015416
公開日2013年7月10日 申請日期2013年4月28日 優(yōu)先權日2013年4月28日
發(fā)明者田永根, 陳穩(wěn), 郭鐵 申請人:南京安訊科技有限責任公司