一種事件分類方法及裝置制造方法
【專利摘要】本申請(qǐng)公開(kāi)了一種事件分類方法及裝置,對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本,將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本;所述單語(yǔ)特征包括詞特征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征;將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器;最后,利用所述分類器對(duì)待分類事件進(jìn)行分類?;谏鲜龇椒ê脱b置,使用翻譯樣本與單語(yǔ)特征的綜合信息判斷事件類型,可以在一定程度上避免數(shù)據(jù)稀疏的問(wèn)題。
【專利說(shuō)明】一種事件分類方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息抽取及模式識(shí)別【技術(shù)領(lǐng)域】,尤其涉及一種事件分類方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的高速發(fā)展和信息高速公路的興起,網(wǎng)絡(luò)信息數(shù)據(jù)不斷增加,使得大 量信息以電子文本的形式呈現(xiàn)在人們面前。因此,如何從這些以電子文本形式呈現(xiàn)的大量 信息中迅速、準(zhǔn)確地提取出人們所需求的重要信息就越發(fā)重要。
[0003] 信息抽取是從電子文本中自動(dòng)獲取信息的一種主要手段。信息抽取是將無(wú)結(jié)構(gòu)的 電子文本信息,按照人們的需求識(shí)別和抽取出來(lái),轉(zhuǎn)化為結(jié)構(gòu)化或半結(jié)構(gòu)化的信息,并采用 數(shù)據(jù)庫(kù)的形式存儲(chǔ),以便人們查詢、分析或利用。
[0004] 事件分類是信息抽取的一個(gè)重要研究方向。事件分類被定義為事件的檢測(cè)與識(shí) 另IJ,即識(shí)別特定類型的事件,并進(jìn)行相關(guān)信息的確定和抽取。主要的相關(guān)信息包括:事件的 類型和子類型、事件的元素等。ACE2005把事件分為8個(gè)類型,33個(gè)子類型,事件分類就是 分配給某事件一個(gè)確定的類型。例如:"高中同學(xué)前一個(gè)月結(jié)婚了",通過(guò)事件分類,該事件 將被分為"Marry"子類型,而"美國(guó)總統(tǒng)布什將于2月訪問(wèn)德國(guó)并與施羅德會(huì)談"這一事件 則會(huì)被分為"Meet"子類型。
[0005] 目前,常用的事件分類的方法是基于機(jī)器學(xué)習(xí)的方法,即使用統(tǒng)計(jì)的方法進(jìn)行事 件抽取的研究,這種方法把事件抽取看成分類問(wèn)題,選擇合適的特征并使用合適的分類器 來(lái)完成。但是,基于機(jī)器學(xué)習(xí)的方法雖然不依賴語(yǔ)料的內(nèi)容與格式,但需要大規(guī)模的標(biāo)注語(yǔ) 料,否則會(huì)出現(xiàn)較為嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明提供了一種事件分類方法及裝置,以克服現(xiàn)有技術(shù)中基于機(jī)器 學(xué)習(xí)的方法雖然不依賴語(yǔ)料的內(nèi)容與格式,但需要大規(guī)模的標(biāo)注語(yǔ)料,否則會(huì)出現(xiàn)較為嚴(yán) 重的數(shù)據(jù)稀疏的問(wèn)題。
[0007] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0008] -種事件分類方法,所述方法包括:
[0009] 對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本;
[0010] 將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本;所述單語(yǔ)特征包括詞特 征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征;
[0011] 將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器;
[0012] 利用所述分類器對(duì)待分類事件進(jìn)行分類。
[0013] 優(yōu)選的,所述對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本具體包括:
[0014] 使用機(jī)器翻譯系統(tǒng)對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本。
[0015] 優(yōu)選的,所述方法還包括:
[0016] 如果所述翻譯樣本為中文,則對(duì)所述翻譯樣本進(jìn)行分詞處理。
[0017] 優(yōu)選的,所述將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器具體包括:
[0018] 將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建最大熵分類器。
[0019] 優(yōu)選的,所述利用所述分類器對(duì)待分類事件進(jìn)行分類具體包括:
[0020] 利用所述最大熵分類器對(duì)所述待分類事件進(jìn)行分類。
[0021] 一種事件分類裝置,所述裝置包括:
[0022] 翻譯單元,用于對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本;
[0023] 雙語(yǔ)樣本獲取單元,用于將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣 本;所述單語(yǔ)特征包括詞特征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征;
[0024] 構(gòu)建單元,用于將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器;
[0025] 分類單元,用于利用所述分類器對(duì)待分類事件進(jìn)行分類。
[0026] 優(yōu)選的,所述翻譯單元具體用于:
[0027] 使用機(jī)器翻譯系統(tǒng)對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本。
[0028] 優(yōu)選的,所述裝置還包括:
[0029] 分詞單元,用于如果所述翻譯樣本為中文,則對(duì)所述翻譯樣本進(jìn)行分詞處理。
[0030] 優(yōu)選的,所述構(gòu)建單元具體用于:
[0031] 將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建最大熵分類器。
[0032] 優(yōu)選的,所述分類單元具體用于:
[0033] 利用所述最大熵分類器對(duì)所述待分類事件進(jìn)行分類。
[0034] 經(jīng)由上述的技術(shù)方案可知,與現(xiàn)有技術(shù)相比,本發(fā)明公開(kāi)了一種事件分類方法及 裝置,對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本,將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得 雙語(yǔ)樣本;所述單語(yǔ)特征包括詞特征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特 征;將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器;最后,利用所述分類器對(duì)待分類事件進(jìn)行 分類?;谏鲜龇椒ê脱b置,使用翻譯樣本與單語(yǔ)特征的綜合信息判斷事件類型,可以在一 定程度上避免數(shù)據(jù)稀疏的問(wèn)題。
【專利附圖】
【附圖說(shuō)明】
[0035] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本 發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0036] 圖1為本發(fā)明實(shí)施例一公開(kāi)的一種事件分類方法具體流程示意圖;
[0037] 圖2為本發(fā)明實(shí)施例二公開(kāi)的一種事件分類裝置具體結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0038] 下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完 整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;?本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他 實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0039] 本發(fā)明的說(shuō)明書(shū)和權(quán)利要求書(shū)及上述附圖中的術(shù)語(yǔ)"第一"、"第二"等是用于區(qū)別 類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的術(shù)語(yǔ)在適當(dāng)情 況下可以互換,這僅僅是描述本發(fā)明的實(shí)施例中對(duì)相同屬性的對(duì)象在描述時(shí)所采用的區(qū)分 方式。此外,術(shù)語(yǔ)"包括"和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,以 便包含一系列單元的過(guò)程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于那些單元,而是可包括沒(méi)有清 楚地列出的或?qū)τ谶@些過(guò)程、方法、產(chǎn)品或設(shè)備固有的其它單元。
[0040] 由【背景技術(shù)】可知,現(xiàn)有技術(shù)中基于機(jī)器學(xué)習(xí)的方法雖然不依賴語(yǔ)料的內(nèi)容與格 式,但需要大規(guī)模的標(biāo)注語(yǔ)料,否則會(huì)出現(xiàn)較為嚴(yán)重的數(shù)據(jù)稀疏問(wèn)題。
[0041] 為此,本發(fā)明公開(kāi)了一種事件分類方法及裝置,對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣 本,將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本;所述單語(yǔ)特征包括詞特征、觸 發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征;將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建 分類器;最后,利用所述分類器對(duì)待分類事件進(jìn)行分類?;谏鲜龇椒ê脱b置,使用翻譯樣 本與單語(yǔ)特征的綜合信息判斷事件類型,可以在一定程度上避免數(shù)據(jù)稀疏的問(wèn)題。
[0042] 下面將通過(guò)具體實(shí)施例對(duì)本發(fā)明公開(kāi)的事件分類方法及裝置進(jìn)行詳細(xì)說(shuō)明。
[0043] 實(shí)施例一
[0044] 請(qǐng)參閱附圖1,為本發(fā)明實(shí)施例一公開(kāi)的一種事件分類方法的具體流程示意圖,該 方法具體包括如下步驟:
[0045] SlOl :對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本。
[0046] 原始語(yǔ)料為中文或英文。該步驟通過(guò)使用機(jī)器翻譯系統(tǒng)對(duì)原始語(yǔ)料進(jìn)行翻譯獲取 翻譯樣本,所述機(jī)器翻譯系統(tǒng)可以為多種現(xiàn)有的翻譯工具,比如:谷歌翻譯工具,對(duì)此,本發(fā) 明實(shí)施例不做任何限制。
[0047] 例如,原始語(yǔ)料為"Saddam,s clan is said to have left for a small village in the desert. ",則翻譯樣本為"據(jù)說(shuō)薩達(dá)姆家族已經(jīng)離開(kāi)沙漠中的一個(gè)小村莊。"。需要 說(shuō)明的是,如果是把英文翻譯成中文,則還需要對(duì)翻譯樣本進(jìn)行分詞處理,本實(shí)施例中,可 使用中科院的分詞工具完成這一分詞處理過(guò)程。以上述翻譯樣本為例說(shuō)明,分詞處理后的 句子是:據(jù)說(shuō)薩達(dá)姆家族已經(jīng)離開(kāi)沙漠中的一個(gè)小村莊。
[0048] S102 :將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本。
[0049] 所述單語(yǔ)特征包括詞特征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特 征。
[0050] 具體的,僅使用單語(yǔ)特征時(shí),以英文為例,一個(gè)英文文本X被表示為:
【權(quán)利要求】
1. 一種事件分類方法,其特征在于,所述方法包括: 對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本; 將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本;所述單語(yǔ)特征包括詞特征、 觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征; 將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器; 利用所述分類器對(duì)待分類事件進(jìn)行分類。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本 具體包括: 使用機(jī)器翻譯系統(tǒng)對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本。
3. 根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述方法還包括: 如果所述翻譯樣本為中文,則對(duì)所述翻譯樣本進(jìn)行分詞處理。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建 分類器具體包括: 將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建最大賭分類器。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述利用所述分類器對(duì)待分類事件進(jìn)行 分類具體包括: 利用所述最大賭分類器對(duì)所述待分類事件進(jìn)行分類。
6. -種事件分類裝置,其特征在于,所述裝置包括: 翻譯單元,用于對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本; 雙語(yǔ)樣本獲取單元,用于將所述翻譯樣本的詞特征與單語(yǔ)特征相加獲得雙語(yǔ)樣本;所 述單語(yǔ)特征包括詞特征、觸發(fā)詞、所述觸發(fā)詞的詞性和所述觸發(fā)詞的上下文特征; 構(gòu)建單元,用于將所述雙語(yǔ)樣本作為訓(xùn)練樣本,構(gòu)建分類器; 分類單元,用于利用所述分類器對(duì)待分類事件進(jìn)行分類。
7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述翻譯單元具體用于: 使用機(jī)器翻譯系統(tǒng)對(duì)原始語(yǔ)料進(jìn)行翻譯獲取翻譯樣本。
8. 根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述裝置還包括: 分詞單元,用于如果所述翻譯樣本為中文,則對(duì)所述翻譯樣本進(jìn)行分詞處理。
9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述構(gòu)建單元具體用于;將所述雙語(yǔ)樣本 作為訓(xùn)練樣本,構(gòu)建最大賭分類器。
10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分類單元具體用于;利用所述最大 賭分類器對(duì)所述待分類事件進(jìn)行分類。
【文檔編號(hào)】G06F17/28GK104462229SQ201410640920
【公開(kāi)日】2015年3月25日 申請(qǐng)日期:2014年11月13日 優(yōu)先權(quán)日:2014年11月13日
【發(fā)明者】李壽山, 朱珠, 周國(guó)棟, 段湘煜 申請(qǐng)人:蘇州大學(xué)