亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)聯(lián)規(guī)則模式的新詞識別方法

文檔序號:73680閱讀:358來源:國知局
專利名稱:基于關(guān)聯(lián)規(guī)則模式的新詞識別方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種基于關(guān)聯(lián)規(guī)則模式的新詞識別方法。
背景技術(shù)
公開號CN1629836A發(fā)明專利披露了一種學(xué)習(xí)中文新詞的方法與裝置。按照該方法與裝置,首先對通過輸入模塊輸入的搜索引擎日志用分詞處理模塊進行處理,刪除單個漢字以及含有非漢語成分的查詢詞,將剩余的查詢詞按照查詢次數(shù)排序,設(shè)置闕值,然后再刪除查詢次數(shù)低于闕值的查詢詞。對于余下的查詢詞,分詞處理模塊將包含的漢字個數(shù)小于等于4的查詢詞以詞庫中現(xiàn)有的詞匯為基礎(chǔ)進行分詞;若包含的漢字個數(shù)大于4,則從首字開始,每次取4個字,逐次加一字,直至取完該查詢詞的最后一個字,然后按上述4字查詢詞分詞方法進行分詞。
查詢詞的分詞處理完成后,組合提取模塊根據(jù)分詞結(jié)果按照下列方式進行新詞提取2字或者3字查詢詞,如果分詞結(jié)果為一個已有詞匯,則直接刪除;否則,將該查詢詞作為新詞輸入到過濾模塊;4字查詢詞,如果分詞結(jié)果為一個已有詞匯,則直接刪除;如果分詞結(jié)果為2部分或者4部分,則將其整體作為新詞輸入到過濾模塊;如果分詞結(jié)果為3部分,則依次將前兩部分組合、后兩部分組合以及整個查詢詞輸入過濾模塊;過濾模塊將新詞按照出現(xiàn)的頻率排序,設(shè)置新闕值,刪除低于新闕值的新詞并將剩余的新詞通過輸出模塊輸出。
雖然借助該方法與裝置可以從互聯(lián)網(wǎng)搜索引擎的關(guān)鍵字查詢?nèi)罩局袑W(xué)習(xí)新的中文詞匯,但是該方法和裝置存在以下問題1.通過該方法和裝置,無法識別超過4個字的中文新詞,特別是其中的中文機構(gòu)名稱;雖然中文4字以上新詞存在的比例很小,但是這種新詞識別“盲區(qū)”仍然為精確分詞技術(shù)帶來困難;2.按照該方法的識別規(guī)則,新詞識別的準(zhǔn)確率約為90%,將近10%的無意義漢字組合作為新詞被錯誤識別;3.該方法和裝置選取所有候選新詞詞頻的平均值作為篩選“偽詞條”的閥值,但是同時也過濾一些頻率比較低的正確新詞,因而該方法在頻率比較低的新詞識別方面存在不足;4.該方法和裝置所使用的分詞規(guī)則和新詞提取規(guī)則缺乏內(nèi)部統(tǒng)一性,其中的分詞規(guī)則不符合搜索引擎現(xiàn)有分詞規(guī)律,新詞提取規(guī)則完全以統(tǒng)計經(jīng)驗為依據(jù),不但限制了新詞識別的范圍,由此也明顯增加了分詞處理和新詞提取的復(fù)雜度。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于關(guān)聯(lián)規(guī)則模式的從互聯(lián)網(wǎng)搜索引擎查詢?nèi)罩局凶R別新詞的方法,以便有效地解決上述方法和裝置在新詞識別方面存在的問題。
本發(fā)明依據(jù)用戶向搜索引擎提交的關(guān)鍵字查詢?nèi)罩緦π略~進行識別,包括以下步驟1.將互聯(lián)網(wǎng)搜索引擎關(guān)鍵字查詢?nèi)罩就ㄟ^輸入模塊輸入;2.預(yù)處理模塊對輸入的關(guān)鍵字查詢?nèi)罩具M行預(yù)處理,刪除單個漢字的關(guān)鍵字以及不包含漢字成分的關(guān)鍵字,然后將剩余的關(guān)鍵字按照其中包含的漢字字?jǐn)?shù)進行分類,根據(jù)每個關(guān)鍵字類別中所有關(guān)鍵字的總提交次數(shù)以及不同關(guān)鍵字?jǐn)?shù)量設(shè)置該關(guān)鍵字類別的類別閥值,將其中提交次數(shù)低于類別閥值的關(guān)鍵字刪除;3.對于預(yù)處理后剩余的關(guān)鍵字,按照所含漢字字?jǐn)?shù)由小到大的順序以關(guān)鍵字類別為單位依次進行新詞識別首先,針對該關(guān)鍵字類別中的每一個關(guān)鍵字,分詞處理模塊以分詞詞庫中現(xiàn)有詞匯為基礎(chǔ)進行分詞處理;然后,新詞識別模塊按照下列步驟對該關(guān)鍵字進行新詞識別處理1)如果分詞結(jié)果為一個已有詞匯,則停止對該關(guān)鍵字的新詞識別,接著對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;2)如果分詞結(jié)果為A、B兩部分,則按照關(guān)聯(lián)規(guī)則模式的如下公式計算A和B的關(guān)聯(lián)作用度G=P(B/A)÷P(B)其中,G為A和B的關(guān)聯(lián)作用度;P(B/A)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪珹的關(guān)鍵字中B也同時出現(xiàn)的概率;P(B)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局蠦出現(xiàn)的概率。
如果G大于設(shè)定的關(guān)聯(lián)作用度閥值,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫,然后對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;否則,直接對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;3)如果分詞結(jié)果為A、B、C三部分或者三個以上部分,則按下列步驟對該關(guān)鍵字進行新詞識別首先,將該關(guān)鍵字分詞結(jié)果各個部分按現(xiàn)有位置順序組合為X和Y兩大部分,針對所有的組合按照關(guān)聯(lián)規(guī)則模式的下列公式計算X和Y兩大部分之間的關(guān)聯(lián)作用度
G=P(Y/X)÷P(Y)其中,G為X和Y的關(guān)聯(lián)作用度;P(Y/X)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪琗的關(guān)鍵字中Y也同時出現(xiàn)的概率;P(Y)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局衁出現(xiàn)的概率。
在所有的組合中選取關(guān)聯(lián)作用度最大的組合輸出;如果該最大關(guān)聯(lián)作用度輸出組合的關(guān)聯(lián)作用度大于設(shè)定的關(guān)聯(lián)作用度閥值,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫;然后,不論該關(guān)鍵字是否作為一個新詞加入分詞詞庫,均將其最大關(guān)聯(lián)作用度輸出組合中的X和Y兩大部分分別作為關(guān)鍵字按照1)至3)步驟進行新詞識別,直至按照1)至3)步驟的規(guī)則完全停止對該關(guān)鍵字的新詞識別。
在本發(fā)明中,關(guān)聯(lián)作用度閥值設(shè)置為H,且H>1。
在本發(fā)明中,如果關(guān)鍵字分詞結(jié)果為大于等于3的N個部分,則在步驟3)中,X分別取關(guān)鍵字分詞結(jié)果的第1部分、前2部分、前3部分.....前N-1部分的組合,Y分別取關(guān)鍵字分詞結(jié)果中相應(yīng)于X的剩余部分,共計N-1個X和Y的組合。
需要特別說明的是,在本發(fā)明中,關(guān)鍵字分詞結(jié)果中非漢字成分的相鄰組合視為該關(guān)鍵字分詞結(jié)果的一個部分。
具體實施方式
下面結(jié)合具體實施方式
對本發(fā)明做詳細(xì)說明。需要說明的是,本具體實施方式
僅采用實現(xiàn)本發(fā)明原理的各種方法的某些方面,而本發(fā)明旨在包括所有這些方法和它們的等價方面,并非局限于依據(jù)搜索引擎提交的關(guān)鍵字查詢?nèi)罩緦π略~進行識別的范圍內(nèi),也非局限于漢語語料庫中新詞的識別。
具體實施方式
中,本發(fā)明依據(jù)用戶向搜索引擎提交的關(guān)鍵字查詢?nèi)罩緦π略~進行識別,包括以下步驟1.將互聯(lián)網(wǎng)搜索引擎關(guān)鍵字查詢?nèi)罩就ㄟ^輸入模塊輸入;2.預(yù)處理模塊對輸入的關(guān)鍵字查詢?nèi)罩具M行預(yù)處理,刪除單個漢字的關(guān)鍵字以及不包含漢字成分的關(guān)鍵字,將剩余的關(guān)鍵字按照其中包含的漢字字?jǐn)?shù)進行分類,根據(jù)下列公式設(shè)置每個關(guān)鍵字類別的類別閥值F=0.8*T/S其中,F(xiàn)為某個關(guān)鍵字類別的類別閥值;T為該關(guān)鍵字類別中所有關(guān)鍵字的總提交次數(shù);S為該關(guān)鍵字類別中不同關(guān)鍵字的數(shù)量。
根據(jù)F值,預(yù)處理模塊將每個關(guān)鍵字類別中提交次數(shù)低于類別閥值的關(guān)鍵字刪除;3.對于預(yù)處理后剩余的關(guān)鍵字,按照所含漢字字?jǐn)?shù)由小到大的順序以關(guān)鍵字類別為單位依次進行新詞識別首先,針對該關(guān)鍵字類別中的每一個關(guān)鍵字,分詞處理模塊以分詞詞庫中現(xiàn)有詞匯為基礎(chǔ)進行分詞處理;然后,新詞識別模塊按照下列步驟對該關(guān)鍵字進行新詞識別處理1)如果分詞結(jié)果為一個已有詞匯,則停止對該關(guān)鍵字的新詞識別,接著對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;2)如果分詞結(jié)果為A、B兩部分,則按照如下公式計算A和B的關(guān)聯(lián)作用度G=P(B/A)÷P(B)其中,G為A和B的關(guān)聯(lián)作用度;P(B/A)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪珹的關(guān)鍵字中B也同時出現(xiàn)的概率;P(B)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局蠦出現(xiàn)的概率。
如果G大于設(shè)定的關(guān)聯(lián)度作用閥值Fg,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫,然后對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;否則,直接對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;3)如果分詞結(jié)果為A、B、C三部分或者三個以上部分,則按下列步驟對該關(guān)鍵字進行新詞識別首先,將該關(guān)鍵字分詞結(jié)果各個部分按現(xiàn)有位置順序組合為X和Y兩大部分,針對所有的組合按照下列公式計算X和Y兩大部分之間的關(guān)聯(lián)作用度G=P(Y/X)÷P(Y)其中,G為X和Y的關(guān)聯(lián)作用度;P(Y/X)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪琗的關(guān)鍵字中Y也同時出現(xiàn)的概率;P(Y)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局衁出現(xiàn)的概率。
在所有的組合中選取關(guān)聯(lián)作用度最大的組合輸出;如果該最大關(guān)聯(lián)作用度輸出組合的關(guān)聯(lián)作用度Gmax大于設(shè)定的關(guān)聯(lián)作用度閥值Fg,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫;其次,不論該關(guān)鍵字是否作為一個新詞加入分詞詞庫,均將其最大關(guān)聯(lián)作用度輸出組合中的X和Y兩大部分分別作為關(guān)鍵字按照1)至3)步驟進行新詞識別,直至按照1)至3)步驟的規(guī)則完全停止對該關(guān)鍵字的新詞識別。
在本具體實施方式
中,關(guān)聯(lián)作用度閥值Fg設(shè)置為H,且H>1。
在本具體實施方式
中,P(B/A)等于經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局兴型瑫r包含B和A的關(guān)鍵字的總提交次數(shù)除以經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局兴邪珹的關(guān)鍵字的總提交次數(shù),P(B)等于經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局兴邪珺的關(guān)鍵字的總提交次數(shù)除以經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局兴嘘P(guān)鍵字的總提交次數(shù)。
另外,在本實施方式中,關(guān)鍵字分詞結(jié)果中非漢字成分的相鄰組合視為該關(guān)鍵字分詞結(jié)果的一個部分。例如,“BT下載”的分詞結(jié)果為“BT/下載”,而不是“B/T/下載”(假如現(xiàn)有分詞詞庫中包含詞匯“下載”)。
需要說明的是,“將該關(guān)鍵字分詞結(jié)果各個部分按現(xiàn)有位置順序組合為X和Y兩大部分”的意義為,如果關(guān)鍵字分詞結(jié)果為大于等于3的N個部分,則在步驟3)中,X分別取關(guān)鍵字分詞結(jié)果的第1部分、前2部分、前3部分.....前N-1部分的組合,Y分別取關(guān)鍵字分詞結(jié)果中相應(yīng)于X的剩余部分,共計N-1個X和Y的組合。例如,某個關(guān)鍵字的分詞結(jié)果為A/B/C/D四個部分,則按現(xiàn)有位置順序的所有組合為A/BCD、AB/CD、ABC/D,共計三個組合;由于AC/BD、AD/BC等其它排列組合破壞了該關(guān)鍵字分詞結(jié)果各個部分的現(xiàn)有位置順序,不在本具體實施方式
步驟3)的組合范圍內(nèi)。
現(xiàn)在,依據(jù)實例對本具體實施方式
的特點做進一步說明。
首先,本具體實施方式
原則上可以識別出包含任意多個漢字的新詞匯。以關(guān)鍵字“北京師范大學(xué)”為例,如果依據(jù)分詞詞庫中的現(xiàn)有詞匯,分詞處理模塊將該關(guān)鍵字分為“北京/師范/大學(xué)”三部分,按照本具體實施方式
步驟3),新詞識別模塊將“北京/師范/大學(xué)”三部分按照現(xiàn)有位置順序分別組合為“北京/師范大學(xué)”、“北京師范/大學(xué)”,然后分別計算這兩個組合各部分之間的關(guān)聯(lián)作用度;如果“北京”與“師范大學(xué)”之間的關(guān)聯(lián)作用度高于“北京師范”與“大學(xué)”之間的關(guān)聯(lián)作用度,且“北京”與“師范大學(xué)”之間的關(guān)聯(lián)作用度大于關(guān)聯(lián)作用度閥值H,則“北京師范大學(xué)”作為新詞加入分詞詞庫。
其次,本具體實施方式
可以識別出沒有獨立出現(xiàn)的“隱含”新詞匯。繼續(xù)以上面的關(guān)鍵字“北京師范大學(xué)”為例。在識別新詞“北京師范大學(xué)”的過程中,該關(guān)鍵字最大關(guān)聯(lián)作用度輸出組合為“北京/師范大學(xué)”,按照本具體實施方式
步驟3),新詞識別模塊將“師范大學(xué)”作為關(guān)鍵字依據(jù)本具體實施方式
步驟2)繼續(xù)進行新詞識別。如果“師范”與“大學(xué)”之間的關(guān)聯(lián)作用度G大于關(guān)聯(lián)作用度閥值H,則“師范大學(xué)”作為新詞被識別出并加入分詞詞庫,即使在搜索引擎關(guān)鍵字查詢?nèi)罩局小皫煼洞髮W(xué)”沒有獨立出現(xiàn)過。
再次,本具體實施方式
可以有效減少新詞識別過程中的計算量。在本具體實施方式
中,按照所含漢字字?jǐn)?shù)由小到大的順序以關(guān)鍵字類別為單位依次進行新詞識別,并且將識別出的新詞直接加入分詞詞庫,參與以后對其它尚未識別關(guān)鍵字的分詞處理過程,從而大大減少關(guān)鍵字分詞的個數(shù),新詞識別過程中的計算量也得到有效降低。在本具體實施方式
中,分詞處理模塊和新詞識別模塊首先處理只包含兩個漢字的關(guān)鍵字類別,在識別完該關(guān)鍵字類別的所用關(guān)鍵字且將識別出的新詞加入分詞詞庫后,再處理只包含三個漢字的關(guān)鍵字類別,以此類推。
以“韓劇大長今”為例,如果常規(guī)分詞詞庫不包含詞匯“韓劇”、“大長今”,該關(guān)鍵字將被分詞為“韓/劇/大/長/今”五部分,如果直接使用本具體實施方式
步驟3)進行新詞識別,需要對四個X和Y組合即“韓/劇大長今”、“韓劇/大長今”、“韓劇大/長今”、“韓劇大長/今”的關(guān)聯(lián)作用度進行計算,然后比較四個關(guān)聯(lián)作用度的大小,計算量比較大。依據(jù)本具體實施方式
,如果在處理只包含兩個漢字的關(guān)鍵字類別的過程中,“韓劇”被作為新詞識別出并加入分詞詞庫,同時在處理只包含三個漢字的關(guān)鍵字類別的過程中,“大長今”被作為新詞識別出并加入分詞詞庫,那么,在處理包含五個漢字的關(guān)鍵字類別的過程中,“韓劇大長今”將被分詞為“韓劇/大長今”兩部分,與分詞結(jié)果“韓/劇/大/長/今”相比計算量明顯減少。
最后,不論關(guān)鍵字包含漢字?jǐn)?shù)量的多少,本具體實施方式
不改變搜索引擎現(xiàn)有的分詞規(guī)則和方法,使用關(guān)聯(lián)規(guī)則模式下的相同的新詞識別計算公式,提高了本發(fā)明的可實現(xiàn)性。
雖然本發(fā)明通過上述具體實施方式
進行了披露,但并非用以限定本發(fā)明的內(nèi)容。任何熟悉本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)意識到,本發(fā)明旨在包含落入所附權(quán)利要求
書精神和范圍中的所有組合和變化。
權(quán)利要求
1.基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于,借助該方法可以從互聯(lián)網(wǎng)搜索引擎的關(guān)鍵字查詢?nèi)罩局袑W(xué)習(xí)新的中文詞匯,包括以下步驟1)將互聯(lián)網(wǎng)搜索引擎關(guān)鍵字查詢?nèi)罩就ㄟ^輸入模塊輸入;2)預(yù)處理模塊對輸入的關(guān)鍵字查詢?nèi)罩具M行預(yù)處理,刪除單個漢字的關(guān)鍵字以及不包含漢字成分的關(guān)鍵字,將剩余的關(guān)鍵字按照其中包含的漢字字?jǐn)?shù)進行分類,根據(jù)每個關(guān)鍵字類別中所有關(guān)鍵字的總提交次數(shù)以及不同關(guān)鍵字?jǐn)?shù)量設(shè)置該關(guān)鍵字類別的類別閥值,將其中提交次數(shù)低于類別閥值的關(guān)鍵字刪除;3)對于預(yù)處理后剩余的關(guān)鍵字,按照所含漢字字?jǐn)?shù)由小到大的順序以關(guān)鍵字類別為單位依次進行新詞識別首先,針對該關(guān)鍵字類別中的每一個關(guān)鍵字,分詞處理模塊以分詞詞庫中現(xiàn)有詞匯為基礎(chǔ)進行分詞處理;然后,新詞識別模塊按照下列步驟對該關(guān)鍵字進行新詞識別處理a)如果分詞結(jié)果為一個已有詞匯,則停止對該關(guān)鍵字的新詞識別,接著對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;b)如果分詞結(jié)果為A、B兩部分,則按照關(guān)聯(lián)規(guī)則模式的公式計算A和B的關(guān)聯(lián)作用度;如果A和B的關(guān)聯(lián)作用度大于設(shè)定的關(guān)聯(lián)作用度閥值,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫,然后對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;否則,直接對該關(guān)鍵字類別的下一個關(guān)鍵字進行新詞識別處理;c)如果分詞結(jié)果為A、B、C三部分或者三個以上部分,則按下列步驟對該關(guān)鍵字進行新詞識別首先,將該關(guān)鍵字分詞結(jié)果各個部分按現(xiàn)有位置順序組合為X和Y兩大部分,針對所有的組合按照關(guān)聯(lián)規(guī)則模式的公式計算X和Y兩大部分之間的關(guān)聯(lián)作用度;然后,在所有的組合中選取關(guān)聯(lián)作用度最大的組合輸出;如果該最大關(guān)聯(lián)作用度輸出組合的關(guān)聯(lián)作用度大于設(shè)定的關(guān)聯(lián)作用度閥值,則將該關(guān)鍵字整體作為一個新詞加入分詞詞庫;最后,不論該關(guān)鍵字是否作為一個新詞加入分詞詞庫,均將其最大關(guān)聯(lián)作用度輸出組合中的X和Y兩大部分分別作為關(guān)鍵字按照a)至c)步驟進行新詞識別,直至按照a)至c)步驟的規(guī)則完全停止對該關(guān)鍵字的新詞識別。
2.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于A和B的關(guān)聯(lián)作用度的計算公式為G=P(B/A)÷P(B)其中,G為A和B的關(guān)聯(lián)作用度;P(B/A)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪珹的關(guān)鍵字中B也同時出現(xiàn)的概率;P(B)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局蠦出現(xiàn)的概率。
3.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于X和Y的關(guān)聯(lián)作用度的計算公式為G=P(Y/X)÷P(Y)其中,G為X和Y的關(guān)聯(lián)作用度;P(Y/X)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局邪琗的關(guān)鍵字中Y也同時出現(xiàn)的概率;P(Y)為經(jīng)過預(yù)處理模塊預(yù)處理后的全部關(guān)鍵字查詢?nèi)罩局衁出現(xiàn)的概率。
4.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于關(guān)聯(lián)作用度閥值設(shè)置為H,且H>1。
5.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于關(guān)鍵字分詞結(jié)果中非漢字成分的相鄰組合視為該關(guān)鍵字分詞結(jié)果的一個部分。
6.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于,如果關(guān)鍵字分詞結(jié)果為大于等于3的N個部分,則X分別取關(guān)鍵字分詞結(jié)果的第1部分、前2部分、前3部分.....前N-1部分的組合,Y分別取關(guān)鍵字分詞結(jié)果中相應(yīng)于X的剩余部分,共計N-1個X和Y的組合。
7.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于該方法同樣適用于除搜索引擎關(guān)鍵字查詢?nèi)罩疽酝獾钠渌Z料庫中新詞的識別。
8.如權(quán)利要求
1所述的基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,其特征在于該方法同樣適用于除中文以外的其它語言語料庫中新詞的識別。
專利摘要
基于關(guān)聯(lián)規(guī)則模式的新詞識別方法,借助該方法,在不改變搜索引擎現(xiàn)有的分詞規(guī)則和方法的前提下,可以從互聯(lián)網(wǎng)搜索引擎的關(guān)鍵字查詢?nèi)罩局袑W(xué)習(xí)新的中文詞匯,原則上能夠識別出包含任意多個漢字的新詞匯,也可以識別出關(guān)鍵字查詢?nèi)罩局袥]有獨立出現(xiàn)的“隱含”新詞匯;而且,不論關(guān)鍵字所包含漢字?jǐn)?shù)量的多少,均使用關(guān)聯(lián)規(guī)則模式下的相同計算公式進行新詞識別,提高了本發(fā)明的可實現(xiàn)性。
文檔編號G06F17/30GKCN101046809SQ200610073430
公開日2007年10月3日 申請日期2006年3月28日
發(fā)明者吳風(fēng)勇 申請人:吳風(fēng)勇導(dǎo)出引文BiBTeX, EndNote, RefMan
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1