專利名稱:模板提取方法和裝置的制作方法
技術領域:
本發(fā)明涉及自然語言處理領域,具體而言涉及一種從語料中提取模板的方法和裝置。
背景技術:
隨著自然語言處理技術的發(fā)展,越來越多的語料庫資源被應用于機器翻譯和自然 語言理解等自然語言處理領域以便獲取知識。而模板作為自然語言處理過程中的一項重要 工具,受到了廣泛關注。模板指的是通過對大規(guī)模語料的統(tǒng)計分析,提取出一些固定的語言搭配,這些搭 配在語料中具有普遍的意義,能夠反映語料的特定語言結構特征。但是目前模板很大程度上依賴于人工提取和加工,效率低,成本高,難以滿足需 求° 在機器番羽譯領域,在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation,, (Proceeding of43rd Annual Meeting of the ACL, 2005年,第263-270頁)中,提出了一種模板提取方法,但是這種方法提取的模板數(shù)量龐大, 存在很多噪聲和冗余。
發(fā)明內容
鑒于以上問題,本發(fā)明的一個目的是提供一種模板提取方法和裝置,其能夠高效 地、低噪聲地從語料中提取模板。本發(fā)明的另一個目的是提供一種模板提取方法和裝置,其能夠低冗余地從語料中 提取模板。為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種模板提取方法,其包括 對語料進行包括分句和分詞在內的預處理;從預處理后的語料中提取出候選模板;以及對 提取出的候選模板進行優(yōu)化。其中,所述優(yōu)化步驟包括針對每一個候選模板,計算由該候 選模板中的通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及該候選模板中由通配符 分隔出的詞或詞序列在語料中出現(xiàn)的頻率;以及確定其中通配符所代表的詞或詞序列在 語料中出現(xiàn)的頻率以及所述候選模板中由所述通配符分隔出的詞或詞序列在語料中出現(xiàn) 的頻率滿足預定條件的候選模板為干擾模板,并從所提取出的候選模板中去除所述干擾模 板。根據(jù)本發(fā)明的一個實施例,所述從預處理后的語料中提取出候選模板的步驟包 括針對從語料的經分詞后的每一個句子,枚舉出該句子中包含的長度低于預定長度的短 語,其中短語由句子中的一個詞或更多個連續(xù)詞的序列組成;以及對于枚舉出的每一個短 語,將該短語中的至少一個詞或詞序列替換為代表所述至少一個詞或詞序列的通配符,以 形成候選模板,所述至少一個詞或詞序列的長度小于所述短語的長度。根據(jù)本發(fā)明的一個實施例,在去除干擾模板之后,所述方法還包括從提取出的候 選模板中去除重復的候選模板。
根據(jù)本發(fā)明的另一個方面,一種模板提取裝置包括預處理單元,配置用于對語料 進行包括分句和分詞在內的預處理;候選模板提取單元,配置用于從預處理后的語料中提 取出候選模板;以及優(yōu)化單元,配置用于對提取出的候選模板進行優(yōu)化。其中,所述優(yōu)化單 元進一步配置用于針對每一個候選模板,計算由該候選模板中的通配符所代表的詞或詞 序列在語料中出現(xiàn)的頻率以及該候選模板中由通配符分隔出的詞或詞序列在語料中出現(xiàn) 的頻率;以及確定其中通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及所述候選模板 中由所述通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率滿足預定條件的候選模板為干 擾模板,并從所提取出的候選模板中去除所述干擾模板。使用本發(fā)明的方法和裝置,可以自動地從大規(guī)模的語料中提取語言模板,節(jié)省了 大量的人工勞動。本發(fā)明的另一優(yōu)點在于,通過對候選模板的優(yōu)化剪枝,去除了候選模板中的干擾 模板,降低了模板中的噪聲。本發(fā)明的又一優(yōu)點在于,通過從提取出的候選模板中去除重復的候選模板,降低 了模板中的冗余。根據(jù)本發(fā)明的另一方面,還提供了一種存儲介質。所述存儲介質包括機器可讀的 程序代碼,當在信息處理設備上執(zhí)行所述程序代碼時,所述程序代碼使得所述信息處理設 備執(zhí)行根據(jù)本發(fā)明的上述方法。根據(jù)本發(fā)明的另一方面,還提供了一種程序產品。所述程序產品包括機器可執(zhí)行 的指令,當在信息處理設備上執(zhí)行所述指令時,所述指令使得所述信息處理設備執(zhí)行根據(jù) 本發(fā)明的上述方法。
參照下面結合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其 它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術特征或部件將采用相同或類似的附圖標記來表示。圖1示出根據(jù)本發(fā)明的實施例的模板提取方法的流程圖;圖2示出根據(jù)本發(fā)明的實施例的候選模板提取步驟的流程圖;圖3示出根據(jù)本發(fā)明的實施例的優(yōu)化步驟的流程圖;圖4示出根據(jù)本發(fā)明的實施例的模板提取裝置的示意性框圖;以及圖5示出可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機的示意性框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描 述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應 當注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關的、本領域普通技術人員已知 的部件和處理的表示和描述。圖1示出根據(jù)本發(fā)明的實施例的模板提取方法的流程圖。如圖1所示,所述方法 包括語料預處理步驟S110、候選模板提取步驟S120和優(yōu)化步驟S130。在語料預處理步驟SllO中,利用現(xiàn)有技術的方法,對語料進行包括分句和分詞在內的預處理??梢愿鶕?jù)現(xiàn)有技術的分句方法,例如根據(jù)諸如句號、問號、嘆號之類的標點符號, 對輸入的語料進行分句,以得到多個句子。作為示例,通過分句得到以下句子Sl 與所述物理差錯對應的下載請求S2 一種發(fā)光二極管的制作方法S3 本發(fā)明提供一種發(fā)光二極管的制作方法及裝置注意,由于各種情況,例如在分句過程中存在對標點符號的誤讀,或者標題等也作 為一個句子,因此對語料分句所得到的句子有可能并不嚴格符合語言學中對句子的要求。 例如,以上的句子Sl和S2,并不完整具備語言學中句子的主語、謂語和賓語。可以利用現(xiàn)有技術的分詞方法,對分句后得到的句子進行分詞,以將語料中的句 子切分成詞。作為示例,上述句子可以切分為Sl 與所述物理差錯對應的下載請求S2 一種發(fā)光二極管的制作方法S3 本發(fā)明提供一種發(fā)光二極管的制作方法及裝置在候選模板提取步驟S120中,從預處理后的語料中提取出候選模板。這里,可以 使用各種現(xiàn)有的和將要開發(fā)的模板提取方法來從語料中提取出候選模板。例如,可以使 用在 David Chiang 的"A Hierarchicalphrase-based model for statistical machine translation". In Proceeding of43rd Annual Meeting of the ACL, 2005 263-270 頁中提出的模板提取方法。在以下,為說明目的,將結合附圖2來說明根據(jù)本發(fā)明的實施例 的候選模板提取步驟。如圖2所示,根據(jù)本發(fā)明的實施例的候選模板提取步驟包括子步驟S1210和 S1220。在子步驟S1210中,針對語料的經分詞后的每一個句子,枚舉出該句子中包含的長 度低于預定長度的短語。這里,短語由句子中的一個詞或更多個連續(xù)詞的序列組成。例如,
對于上面示例中的句子Si,可以枚舉出長度低于例如7的短語“與”、“與所”........“物
理”、“物理差錯”、“物理差錯對應”........“物理差錯對應的下載請求”等等,這里不
一一列出。在子步驟S1220中,對于枚舉出的每一個短語,將該短語中的至少一個詞或詞序 列替換為代表所述至少一個詞或詞序列的通配符,以形成候選模板。在該實施例中,所述至 少一個詞或詞序列是從短語中截取的一部分,也稱為子短語,其長度小于所述短語的長度。例如,對于上面示例中枚舉出的短語Pl “物理差錯對應的下載請求”,其包含的一 個詞序列是SPl = “物理差錯對應”。將SPl替換為通配符X,可以得到一個候選模板Tl = “X的下載請求”。另外,Pl也包含詞序列SP2 = “下載請求”。因此,將SP2替換為通配符X,可以得到另外一個候選模板T2 = “物理差錯對應的X”。此外,將Pl中的詞序列“物理差錯”和“下載請求”分別替換為通配符Xl和X2,可以得到另一候選模板T3 = “XI 對應的 X2”。諸如此類,不再一一列舉。在實際應用中,可以將每個候選模板中的通配符個數(shù)限制為低于預定通配符個數(shù)。通過上述過程,能夠自動地從大規(guī)模的語料中快速提取語言模板,節(jié)省了大量的
人工勞動。作為示例,給定一個如上所述分句后包含N個詞的漢語句子S = W1, W2,...ffN,其 中Wn是如上所述分詞后得到的漢語詞,其中η = 1,2,...,N,n、N均為自然數(shù)。上述候選 模板提取步驟可以用以下算法來表示
1.PT = NULL//將短語表PT初始化為空
2.Forstart = 1 to N
3.For end = start to N
4.LEN = start-end+1 -J/ 短語長度 LEN
5.If LEN < LT//LT是短語長度閾值
6.Then
7.Insert [start, end] to PT//在短語表PT中插入短語 [start, end]
8.End if
9.End For
10.EndFor
11.For each A = Wil. . . ffi2in PT//對于短語表PT中的每一個短語
12.If there exists a sub-phrase B = Wjl. . . Wj2 and il < jl < = j2 < i2 Il 如果存在子短語 B = Wjl. . . Wj2 且 il < jl <= j2 < i213. Then14. C = Wil. . . WjnXWj2+!. . . Wi2is a candidate template// 得至Ij含 有通配符X的候選模板C
15.Insert C into PT//將候選模板C插入短語表PT中
16.End if
17.End for
第1步初始化短語表PT為空,第2-10步枚舉出初始短語,并將其插入到短語表PT 中,第11-17步用通配符替換存儲在短語表PT中的短語中的至少一個詞或詞序列(子短 語),最終得到一個短語表PT,其中含有通配符的短語為候選模板。
從上面的示例中可以看出,通過候選模板提取步驟,將會從語料中提取數(shù)量龐大 的候選模板。這些候選模板中包含了許多冗余及噪聲,因此要對提取的候選模板進行優(yōu)化 剪枝,以濾除無用的干擾模板。返回來參考圖1,在優(yōu)化步驟S130中,針對每個候選模板,計算根據(jù)該候選模板中 的通配符所代表的詞或詞序列以及該候選模板中由通配符分隔出的詞或詞序列在語料中 出現(xiàn)的頻率,將上述頻率滿足預定條件的候選模板確定為干擾模板,然后從在候選模板提取步驟S120中提取出的候選模板中去除干擾模板。具體而言,本發(fā)明可采用TF/DF方法進行優(yōu)化剪枝。TF(TermFrequency)表示一個 詞w在語料的某篇來源文檔中出現(xiàn)的次數(shù)。DF(Document Frequency)表示在整個語料的來 源文檔中,包含詞w的文檔篇數(shù)。TF-DF值的意義在于,DF值高的詞可以認為更具有一般性,因為該詞普遍存在于 各文檔之中;而TF值高的詞,可以認為該詞只出現(xiàn)在某些特定的文檔之中,不具有一般性, 但是這些詞很可能是某篇文檔的關鍵詞。因為模板要具有較好的泛化能力,所以對于模板中含有的非通配符部分,即通配 符所分隔開的詞或詞序列,希望它的DF值較高,這意味著它更具有普遍性;而對于模板中 的通配符部分,希望其代表的詞或詞序列的TF值較高而DF值較低,這意味著它只頻繁地出 現(xiàn)在某一篇或幾篇文檔中,對于這一篇或幾篇文檔是關鍵詞,但是不具有普遍性。例如,在專利文獻中,“發(fā)明”、“方法”、“權利”等詞匯具有一定的代表性,即具有高 DF值;而一部分詞匯例如“發(fā)光二極管”、“電容”、“熒光燈”等詞匯只在某些特定領域的文 檔中頻繁出現(xiàn),即具有低DF值、高TF值,這些詞匯應該被替換為通配符。下面舉例進一步 說明例如短語“一種發(fā)光二極管的制作方法”,模板提取的結果應該是“一種Xl的制作方 法”。這樣的模板具有很好的泛化能力,因為“一種”、“的”、“制作”、“方法”在專利文檔中經 常出現(xiàn),更容易泛化。因此,在對候選模板進行優(yōu)化剪枝時,通過設定閾值,保留模板中DF值高的詞,對 其他詞進行泛化,從而除去不希望的干擾模板。另外,為了降低模板提取的冗余度,還可以去除候選模板中的重復候選模板。圖3示出根據(jù)本發(fā)明的實施例的優(yōu)化步驟的流程圖。如圖3所示,在根據(jù)該實施 例的優(yōu)化步驟中,對于步驟S120中得到的每個候選模板,如果該候選模板中由通配符分隔 出的每個詞或詞序列的DF值低于第一預定閾值THl (步驟S1310),即表明該詞或詞序列不 具有普遍性,或者該候選模板中的每個通配符所代表的詞或詞序列的TF值低于第二預定 閾值TH2 (步驟S1320),即表明該詞或詞序列在單篇文檔中出現(xiàn)的頻率不高,則確定該候選 模板為干擾模板并刪除該候選模板(步驟S1330)。然后對下一個候選模板進行判斷??紤]到某些通配符所代表的詞或詞序列可能不僅在單篇文檔中頻繁出現(xiàn),而且在 多篇文檔中也都出現(xiàn),這種詞或詞序列具有普遍性,應作為詞匯保留。因此,在根據(jù)另一實 施例的優(yōu)化步驟中,如果候選模板中的每個通配符所代表的詞或詞序列的DF值高于第三 閾值TH3 (步驟S132Q,則確定該候選模板為干擾模板并刪除該候選模板(步驟S1330)。應當理解,這里的步驟S1310、S1320和S1325的順序可以任意調整,而不限于圖3 所示出的順序。這些步驟順序的調整對本發(fā)明的方法并沒有實質性影響。以下分別使用函數(shù)TF (w) = counttf (W)和DF (w) = Countdf (W)來表示詞或短語w 的TF值和DF值。例如,“方法”一詞,在某篇文檔中出現(xiàn)了 10次,那么TF( “方法”)就等 于10;整個語料包括5篇文檔,其中有3篇都出現(xiàn)了“方法”,那么DF( “方法”)就等于3。 則作為示例,上述優(yōu)化步驟可以用以下的過濾算法來表示1. For each candidate template T in PT//對于短語表 PT 中的每個候選模板T2. If (DF (W(T)) < THl) or (TF (V (T)) < TH2)
Il如果T中的詞或詞序列的DF值低于第一閾值THl或者T中的通配符所對應的詞或詞序列的TF值低于第二閾值TH23.T is an interferential template and Discard TIl確定候選模板T為干擾模板,并去除T4. Else if (DF(V(T)) > TH3)//如果T中的通配符所對應的詞或詞序列的DF值高于第三閾值5.T is an interferential template and Discard TH確定候選模板T為干擾模板,并去除T6.Else7.T is a template//T 為模板8.End If9. End If10. End For其中,W⑴代表T中的由通配符分隔開的詞或詞序列,V(T)代表T中的通配符所 對應的詞或詞序列。根據(jù)上述過濾算法,如果候選模板中的每個詞或詞序列的DF值等于或高于第一 預定閾值且每個通配符所代表的詞或詞序列的TF值等于或高于第二預定閾值,則可以認 為該候選模板為模板。優(yōu)選地,當候選模板中的每個詞或詞序列的DF值等于或高于第一預 定閾值、每個通配符所代表的詞或詞序列的TF值等于或高于第二預定閾值、且每個通配符 所代表的詞或詞序列的DF值等于或低于第三預定閾值時,才確認該候選模板為模板。為說明目的,作為例子,以下分別依據(jù)上述過濾算法對從上面示例中枚舉出的短 語Pl “物理差錯對應的下載請求”中得到的候選模板Tl =“X的下載請求”、T2= “物理差 錯對應的X”和T3 = “XI對應的X2”進行判斷。在該例子中,通常Tl要比T2和T3更有普遍性。因為Tl中“的下載請求”經常出 現(xiàn)在多個文檔中,而T2中“物理差錯對應的”和T3中的“物理差錯”可能只出現(xiàn)在某個或 某些特定文檔中。在該例子中,假設Tl、T2及T3中的各個詞或詞序列對應的DF和TF值如下
權利要求
1.一種模板提取方法,包括對語料進行包括分句和分詞在內的預處理; 從預處理后的語料中提取出候選模板;以及 對提取出的候選模板進行優(yōu)化, 其中,所述優(yōu)化步驟包括針對每一個候選模板,計算由該候選模板中的通配符所代表的詞或詞序列在語料中出 現(xiàn)的頻率以及該候選模板中由通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率;以及確定其中通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及所述候選模板中由所 述通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率滿足預定條件的候選模板為干擾模板, 并從所提取出的候選模板中去除所述干擾模板。
2.如權利要求1所述的方法,其中,如果一個候選模板中的通配符所代表的詞或詞序列在所述語料的單篇來源文檔中出 現(xiàn)的次數(shù)低于第一預定閾值,或者所述語料中出現(xiàn)該候選模板中由所述通配符分隔出的詞 或詞序列的來源文檔的篇數(shù)低于第二預定閾值,則確定該候選模板為干擾模板。
3.如權利要求1所述的方法,其中,如果一個候選模板中的通配符所代表的詞或詞序列在所述語料的單篇來源文檔中出 現(xiàn)的次數(shù)低于第一預定閾值,或者所述語料中出現(xiàn)該候選模板中由所述通配符分隔出的詞 或詞序列的來源文檔的篇數(shù)低于第二預定閾值,或者所述語料中出現(xiàn)所述通配符所代表的 詞或詞序列的來源文檔的篇數(shù)高于第三閾值,則確定該候選模板為干擾模板。
4.如權利要求1-3中任一項所述的方法,其中在去除干擾模板之后,所述方法還包括 從提取出的候選模板中去除重復的候選模板。
5.如權利要求1-3中任一項所述的方法,其中,所述從預處理后的語料中提取出候選 模板的步驟包括針對從語料的經分詞后的每一個句子,枚舉出該句子中包含的長度低于預定長度的短 語,其中短語由句子中的一個詞或更多個連續(xù)詞的序列組成;以及對于枚舉出的每一個短語,將該短語中的至少一個詞或詞序列替換為代表所述至少一 個詞或詞序列的通配符,以形成候選模板,所述至少一個詞或詞序列的長度小于所述短語 的長度。
6.一種模板提取裝置,包括預處理單元,配置用于對語料進行包括分句和分詞在內的預處理; 候選模板提取單元,配置用于從預處理后的語料中提取出候選模板;以及 優(yōu)化單元,配置用于對提取出的候選模板進行優(yōu)化, 其中,所述優(yōu)化單元進一步配置用于針對每一個候選模板,計算由該候選模板中的通配符所代表的詞或詞序列在語料中出 現(xiàn)的頻率以及該候選模板中由通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率;以及確定其中通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及所述候選模板中由所 述通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率滿足預定條件的候選模板為干擾模板, 并從所提取出的候選模板中去除所述干擾模板。
7.如權利要求6所述的裝置,其中,如果一個候選模板中的通配符所代表的詞或詞序列在所述語料的單篇來源文檔中出 現(xiàn)的次數(shù)低于第一預定閾值,或者所述語料中出現(xiàn)該候選模板中由所述通配符分隔出的詞 或詞序列的來源文檔的篇數(shù)低于第二預定閾值,則所述優(yōu)化單元確定該候選模板為干擾模 板。
8.如權利要求6所述的裝置,其中,如果一個候選模板中的通配符所代表的詞或詞序列在所述語料的單篇來源文檔中出 現(xiàn)的次數(shù)低于第一預定閾值,或者所述語料中出現(xiàn)該候選模板中由所述通配符分隔出的詞 或詞序列的來源文檔的篇數(shù)低于第二預定閾值,或者所述語料中出現(xiàn)所述通配符所代表 的詞或詞序列的來源文檔的篇數(shù)高于第三閾值,則所述優(yōu)化單元確定該候選模板為干擾模 板。
9.如權利要求6-8中任一項所述的裝置,其中,所述優(yōu)化單元進一步配置用于 在去除干擾模板之后,從提取出的候選模板中去除重復的候選模板。
10.如權利要求6-8中任一項所述的裝置,其中,所述候選模板提取單元進一步配置用于針對從語料的經分詞后的每一個句子,枚舉出該句子中包含的長度低于預定長度的短 語,其中短語由句子中的一個詞或更多個連續(xù)詞的序列組成;以及對于枚舉出的每一個短語,將該短語中的至少一個詞或詞序列替換為代表所述至少一 個詞或詞序列的通配符,以形成候選模板,所述至少一個詞或詞序列的長度小于所述短語 的長度。
全文摘要
本發(fā)明公開了一種模板提取方法和裝置。所述模板提取方法包括對語料進行包括分句和分詞在內的預處理;從預處理后的語料中提取出候選模板;以及對提取出的候選模板進行優(yōu)化。其中,所述優(yōu)化步驟包括針對每一個候選模板,計算由該候選模板中的通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及該候選模板中由通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率;以及確定其中通配符所代表的詞或詞序列在語料中出現(xiàn)的頻率以及所述候選模板中由所述通配符分隔出的詞或詞序列在語料中出現(xiàn)的頻率滿足預定條件的候選模板為干擾模板,并從所提取出的候選模板中去除所述干擾模板。
文檔編號G06F17/27GK102129422SQ20101000420
公開日2011年7月20日 申請日期2010年1月14日 優(yōu)先權日2010年1月14日
發(fā)明者于浩, 何中軍, 孟遙, 鄭仲光, 長瀨友樹 申請人:富士通株式會社