新詞搜索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種新詞搜索方法及系統(tǒng),其中方法包括以下步驟:提供多個語料,并對多個語料分別進行分詞以得到多個單詞;獲取多個單詞中第一單詞在對應的語料中與第一單詞相鄰的單詞集合;根據(jù)單詞集合中不同單詞的數(shù)量得到停用詞集合;分別將單詞集合中的每個單詞與第一單詞進行組合以得到組合后的多個候選單詞;分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;如果上下文熵增量大于第一預設值且對應的候選單詞不包含停用詞集合中的停用詞,則將對應的候選單詞作為新詞。根據(jù)本發(fā)明實施例的方法,通過計算上下文熵以獲得候選新詞,并根據(jù)停用詞集合對候選新詞進行過濾,因此提高新詞搜索的準確性,簡化搜索過程提高搜索效率。
【專利說明】新詞搜索方法及系統(tǒng)
【技術領域】
[0001]本發(fā)明涉及網(wǎng)絡【技術領域】,特別涉及一種新詞搜索方法及系統(tǒng)。
【背景技術】
[0002]在中文信息處理過程中,由于中文不像英文等西方語言,詞與詞之間有固定的分隔符,因此,中文自動分詞往往作為中文信息處理任務最開始的一個重要步驟。
[0003]隨著互聯(lián)網(wǎng)技術的不斷發(fā)展,各行各業(yè)多隨之出現(xiàn)了“新詞”例如網(wǎng)上出現(xiàn)的“腫么辦”、“神馬”、“給力”等新詞匯頻繁在網(wǎng)絡上出現(xiàn)。其中web2.0應用允許用戶創(chuàng)造網(wǎng)頁內容,使得出現(xiàn)了大量的新詞。新詞的出現(xiàn)很大程度上影響了自動分詞工具的準確性。經(jīng)研究者研究顯示60%的分詞錯誤是由新詞導致的。因此,新詞發(fā)現(xiàn)是中文自然語言處理領域非常重要的意義。
[0004]現(xiàn)有的新詞搜索方法主要有兩種,一種是基于規(guī)則的方法,另一種是基于統(tǒng)計的方法?;谝?guī)則的方法是利用構詞原理,并結合語義、詞性等信息構造模板,通過匹配來搜索新詞。例如通過計算語料庫中分詞后詞語之間的靜態(tài)聯(lián)合率,并提取具有緊密關系的詞語,再利用語法規(guī)則、領域特征進行過濾,進而得到具有高置信度的領域術語。雖然該方法可以提高小規(guī)模數(shù)據(jù)的新詞搜索,而無法適用于大規(guī)模數(shù)據(jù)的處理。另外該方法中對規(guī)則的維護比較困難,且該規(guī)則與領域相關,因此覆蓋面窄,適應性差?;诮y(tǒng)計的方法是通過對語料中的詞項信息進行統(tǒng)計來搜索新詞。例如采用獨立詞概率、詞語在文檔中的頻率等作為SVM的訓練特征,將新詞搜索的問題轉化為二分類問題,通過使用訓練好的SVM進行分類,實現(xiàn)在線新詞搜索。例如對文本進行分詞,然后統(tǒng)計其中2-gram到8-gram的搭配,以統(tǒng)計出現(xiàn)頻率,最終選擇頻率高的詞作為新詞。該方法需要以較大規(guī)模的語料進行統(tǒng)計和模型訓練數(shù)據(jù)處理量較大,且準確率相對較低。
【發(fā)明內容】
[0005]本發(fā)明的目的旨在至少解決上述的技術缺陷之一。
[0006]為此,本發(fā)明一方面提供一種新詞搜索方法。該搜索方法可以解決搜索準確性差且搜索復雜、效率低的問題。
[0007]本發(fā)明另一方面提供一種新詞搜索系統(tǒng)。
[0008]有鑒于此,本發(fā)明一方面的實施例提供一種新詞搜索方法,包括以下步驟:A:提供多個語料,并對所述多個語料分別進行分詞以得到多個單詞:獲取多個單詞中第一單詞在對應的語料中與所述第一單詞相鄰的單詞集合;C:根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合;D:分別將所述單詞集合中的每個單詞與所述第一單詞進行組合以得到組合后的多個候選單詞;E:分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;以及F:如果所述上下文熵增量大于第一預設值且對應的候選單詞不包含所述停用詞集合中的停用詞,則將所述對應的候選單詞作為搜索到的新詞。
[0009]根據(jù)本發(fā)明實施例的方法,通過計算上下文熵以獲得候選新詞,并根據(jù)停用詞集合對候選新詞進行過濾,因此提高了新詞搜索的準確性,同時簡化了搜索過程提高了搜索效率。
[0010]在本發(fā)明的一個實施例中,還包括:G:如果所述上下文熵不大于所述第一預設值,則將所述對應的候選單詞作為所述第一單詞并執(zhí)行步驟B至步驟F以便進行進一步的新詞搜索。
[0011]在本發(fā)明的一個實施例中,所述根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合,進一步包括:如果所述單詞集合中不同單詞的數(shù)量大于第二預設值,則判定所述第一單詞為停用詞,并將所述停用詞添加到所述停用詞集合中。
[0012]在本發(fā)明的一個實施例中,還包括:根據(jù)所述新詞的特征訓練分類器,并根據(jù)訓練后的分類器對多個語料進行搜索以找到新詞。
[0013]在本發(fā)明的一個實施例中,所述特征包括詞頻、第一單詞的詞性和末尾單詞的詞性。
[0014]有鑒于此,本發(fā)明另一方面的實施例提供一種新詞搜索系統(tǒng),包括:分詞模塊,用于獲取提供多個語料,并對所述多個語料分別進行分詞以得到多個單詞;獲取模塊,用于獲取多個單詞中第一單詞在對應的語料中與所述第一單詞相鄰的單詞集合;獲得模塊,用于根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合;組合模塊,用于分別將所述單詞集合中的每個單詞與所述第一單詞進行組合以得到組合后的多個候選單詞;判斷模塊,用于分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;以及確定模塊,用于將所述上下文熵增量大于第一預設值且對應的候選單詞不包含所述停用詞集合中的停用詞的對應候選單詞作為搜索到的新詞。
[0015]根據(jù)本發(fā)明實施例的系統(tǒng),通過計算上下文熵以獲得候選新詞,并根據(jù)停用詞集合對候選新詞進行過濾,因此提高了新詞搜索的準確性,同時簡化了搜索過程提高了搜索效率。
[0016]在本發(fā)明的一個實施例中,還包括:迭代模塊,用于對所述上下文熵不大于所述第一預設值的對應候選單詞作為所述第一單詞并通過所述獲取模塊、所述獲得模塊、所述組合模塊、所述判斷模塊和所述確定模塊進行迭代處理以進一步搜索新詞。
[0017]在本發(fā)明的一個實施例中,所述獲得模塊具體包括:計算單元,用于計算所述單詞集合中不同單詞的數(shù)量;獲得單元,用于當所述單詞集合中不同單詞的數(shù)量大于第二預設值時,將所述第一單詞為停用詞,并將所述停用詞添加到所述停用詞集合中。
[0018]在本發(fā)明的一個實施例中,還包括:訓練搜索模塊,用于根據(jù)所述新詞的特征訓練分類器,并根據(jù)訓練后的分類器對多個語料進行搜索以找到新詞。
[0019]在本發(fā)明的一個實施例中,所述特征包括詞頻、第一單詞的詞性和末尾單詞的詞性。
[0020]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0021]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:[0022]圖1為根據(jù)本發(fā)明一個實施例的新詞搜索方法的流程圖;以及
[0023]圖2為根據(jù)本發(fā)明另一個實施例的新詞搜索系統(tǒng)的結構框圖。
【具體實施方式】
[0024]下面詳細描述本發(fā)明的實施例,實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0025]在本發(fā)明的描述中,需要理解的是,術語“中心”、“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”、“內”、“外”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構造和操作,因此不能理解為對本發(fā)明的限制。此外,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0026]在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術語“安裝”、“相連”、“連接”應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內部的連通。對于本領域的普通技術人員而言,可以具體情況理解上述術語在本發(fā)明中的具體含義。
[0027]圖1為根據(jù)本發(fā)明一個實施例的新詞搜索方法的流程圖。如圖1所示,根據(jù)本發(fā)明實施例的新詞搜索方法包括以下步驟:提供多個語料,并對多個語料分別進行分詞以得到多個單詞(步驟101)。獲取多個單詞中第一單詞在對應的語料中與第一單詞相鄰的單詞集合(步驟103)。根據(jù)單詞集合中不同單詞的數(shù)量得到停用詞集合(步驟105)。分別將單詞集合中的每個單詞與第一單詞進行組合以得到組合后的多個候選單詞(步驟107)。分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量(步驟109)。如果上下文熵增量大于第一預設值且對應的候選單詞不包含停用詞集合中的停用詞,則將對應的候選單詞作為搜索到的新詞(步驟111)。
[0028]根據(jù)本發(fā)明實施例的方法,通過計算上下文熵以獲得候選新詞,并根據(jù)停用詞集合對候選新詞進行過濾,因此提高了新詞搜索的準確性,同時簡化了搜索過程提高了搜索效率。
[0029]下面對上述各步驟進行詳細說明。
[0030]在步驟101和步驟103中,可從互聯(lián)網(wǎng)網(wǎng)頁、微博、搜索引擎查詢日志等中提取數(shù)據(jù)中的中文文本,并將對應的中文文本轉化為統(tǒng)一的編碼格式以便統(tǒng)一地進行處理。通過分詞工具對web中轉化所獲得的中文文本數(shù)據(jù)進行分詞進而得到多個單詞。該分詞工具可以是 ICTCLAS5.0 中文分詞系統(tǒng)(http://ictclas.0rg), SCWS 中文分詞(http://www.xunsearch.com/sews/index, php)等工具。對于多個單詞中的第一單詞,在對應的語料中將與該第一單詞相鄰的單詞添加到該第一單詞鄰接的單詞集合中。該第一單詞為分詞所獲得的多個單詞中的任意一個單詞。
[0031]下面將詳細描述步驟105。在步驟105中,對于該第一單詞的單詞集合統(tǒng)計該單詞集合中與該第一單詞相鄰的不同單詞的數(shù)量。當單詞集合中不同單詞的數(shù)量大于第二預設值(例如大于整個語料中單詞數(shù)量的百分之一)時,則判定第一單詞為停用詞,并將停用詞添加到停用詞集合中。該停用詞集合分為左側停用詞集合和右停用詞集合,根據(jù)作為停用詞的單詞是在該第一單詞的左邊還是右邊分別將停用詞分為左側停用詞和右停用詞,并放入左側停用詞集合和右停用詞集合中。例如在ABC、FBK、DBV的語料中,對于單詞B而言單詞A、C、F、K、D和單詞V構成單詞B的單詞集合。具體而言,根據(jù)單詞集合的單詞與單詞B的位置關系可分為左側鄰接單詞或右側鄰接單詞。左側停用詞和右側停用詞的原理也類似上述方式。
[0032]在本發(fā)明的一個實施例中,左側停用詞右停用詞定義為,
[0033]Stopwordleft= {w | w G S,| | {w, |w' G S,(w, , w)} | | > c}
[0034]Stopwordritght= {w | w G S, | | {w, |w' e S, (w, w1 )} | | > c}
[0035]其中,Stopwordleft表示左側停用詞,Stopwordright表示右側停用詞,S表示語料中所有單詞的集合,(w',w)表示單詞w'在單詞w左側并與其相鄰,c是常數(shù),表示一個單詞左(右)側與其相鄰的不同單詞個數(shù)超過c時,該單詞即為左(右)側停用詞。
[0036]下面將詳細描述步驟107、步驟109和步驟111。
[0037]在本發(fā)明的一個實施例中,左側上下文熵和右側上下文熵便是表示詞語組合的概率。對于一個單詞W,假設在語料X中他出現(xiàn)的次數(shù)是n,出現(xiàn)在它左側的詞語的集合為a ={a” a2,...,aj,出現(xiàn)在它右側的詞語的集合為β =Ib1, b2,...,bj。那么w的左側上下文熵和右側上下文熵可定義為:
[0038]
【權利要求】
1.一種新詞搜索方法,其特征在于,包括以下步驟: A:提供多個語料,并對所述多個語料分別進行分詞以得到多個單詞; B:獲取多個單詞中第一單詞在對應的語料中與所述第一單詞相鄰的單詞集合; C:根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合; D:分別將所述單詞集合中的每個單詞與所述第一單詞進行組合以得到組合后的多個候選單詞; E:分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;以及 F:如果所述上下文熵增量大于第一預設值且對應的候選單詞不包含所述停用詞集合中的停用詞,則將所述對應的候選單詞作為搜索到的新詞。
2.根據(jù)權利要求1所述的新詞搜索方法,其特征在于,還包括: G:如果所述上下文熵不大于所述第一預設值,則將對應的候選單詞作為所述第一單詞并執(zhí)行步驟B至步驟F以便進行進一步的新詞搜索。
3.如權利要求1所述的新詞發(fā)現(xiàn)的方法,其特征在于,所述根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合,進一步包括: 如果所述單詞集合中不同單詞的數(shù)量大于第二預設值,則判定所述第一單詞為停用詞,并將所述停用詞添加到所述停用詞集合中。
4.根據(jù)權利要求1或·2所述的新詞搜索方法,其特征在于,還包括: 根據(jù)所述新詞的特征訓練分類器,并根據(jù)訓練后的分類器對多個語料進行搜索以找到新詞。
5.根據(jù)權利要求4所述的新詞搜索方法,其特征在于,所述特征包括詞頻、第一單詞的詞性和末尾單詞的詞性。
6.一種新詞搜索系統(tǒng),其特征在于,包括: 分詞模塊,用于獲取提供多個語料,并對所述多個語料分別進行分詞以得到多個單詞; 獲取模塊,用于獲取多個單詞中第一單詞在對應的語料中與所述第一單詞相鄰的單詞集合; 獲得模塊,用于根據(jù)所述單詞集合中不同單詞的數(shù)量得到停用詞集合; 組合模塊,用于分別將所述單詞集合中的每個單詞與所述第一單詞進行組合以得到組合后的多個候選單詞; 判斷模塊,用于分別判斷組合為每個候選單詞中的兩個單詞組合之后的上下文熵增量;以及 確定模塊,用于將所述上下文熵增量大于第一預設值且對應的候選單詞不包含所述停用詞集合中的停用詞的對應候選單詞作為搜索到的新詞。
7.根據(jù)權利要求6所述的新詞搜索系統(tǒng),其特征在于,還包括: 迭代模塊,用于對所述上下文熵不大于所述第一預設值的候選單詞作為所述第一單詞并通過所述獲取模塊、所述獲得模塊、所述組合模塊、所述判斷模塊和所述確定模塊進行迭代處理以進一步搜索新詞。
8.根據(jù)權利要求6所述的新詞搜索系統(tǒng),其特征在于,所述獲得模塊具體包括: 計算單元,用于計算所述單詞集合中不同單詞的數(shù)量;獲得單元,用于當所述單詞集合中不同單詞的數(shù)量大于第二預設值時,將所述第一單詞為停用詞,并將所述停用詞添加到所述停用詞集合中。
9.根據(jù)權利要求6或7所述的新詞搜索系統(tǒng),其特征在于,還包括: 訓練搜索模塊,用于根據(jù)所述新詞的特征訓練分類器,并根據(jù)訓練后的分類器對多個語料進行搜索以找到新詞。
10.根據(jù)權利要求9所述的新詞搜索系統(tǒng),其特征在于,所述特征包括詞頻、第一單詞的詞性和末尾單詞的詞性。
【文檔編號】G06F17/30GK103593427SQ201310551747
【公開日】2014年2月19日 申請日期:2013年11月7日 優(yōu)先權日:2013年11月7日
【發(fā)明者】霍帥, 張敏, 劉奕群, 馬少平, 金奕江 申請人:清華大學