一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息技術(shù)領(lǐng)域,尤其涉及一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng) 及方法。
【背景技術(shù)】
[0002] 對(duì)于學(xué)術(shù)文獻(xiàn),用戶希望能夠快速、準(zhǔn)確地檢索出自己所要查找的內(nèi)容并迅速理 解。但由于學(xué)術(shù)文獻(xiàn)自身的特點(diǎn),專業(yè)術(shù)語(yǔ)和新詞術(shù)語(yǔ)的大量出現(xiàn),導(dǎo)致用戶需要隨檢索出 的文獻(xiàn)進(jìn)行研究分析,找出該關(guān)鍵詞所出現(xiàn)的句子進(jìn)行認(rèn)真研究、理解。而這個(gè)過(guò)程是十分 低效的。
[0003] 現(xiàn)有對(duì)句子定義自動(dòng)抽取的研究工作,最近幾年才開始活躍起來(lái)。其中,多采用基 于規(guī)則的方法。即通過(guò)總結(jié)出定義常用的幾種模式構(gòu)造模板進(jìn)行句子匹配的方法。但由于 模板覆蓋度問(wèn)題,導(dǎo)致召回率很低。另外,也有采用基于統(tǒng)計(jì)的方法,即利用統(tǒng)計(jì)學(xué)中的模 型、算法進(jìn)行計(jì)算,找出符合統(tǒng)計(jì)規(guī)律的定義句子。但這種方法沒(méi)有從句法層面進(jìn)行分析, 導(dǎo)致準(zhǔn)確率較低。
【發(fā)明內(nèi)容】
[0004] 為解決上述技術(shù)問(wèn)題,本發(fā)明的目的是提供一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽 取系統(tǒng)及方法。
[0005] 本發(fā)明的目的通過(guò)以下的技術(shù)方案來(lái)實(shí)現(xiàn):
[0006] -種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),該系統(tǒng)包括:
[0007] 預(yù)處理模塊、定義句抽取模塊、定義術(shù)語(yǔ)抽取模塊和輸出模塊,所述
[0008] 預(yù)處理模塊,用于對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全 文分成單句;
[0009] 定義句抽取模塊,采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句;
[0010] 定義術(shù)語(yǔ)抽取模塊,將判斷為定義的單句進(jìn)行預(yù)處理,并根據(jù)術(shù)語(yǔ)詞抽取模板,抽 取詞串作為術(shù)語(yǔ)詞,并通過(guò)前后鄰的詞串修正,得到定義術(shù)語(yǔ);
[0011] 輸出模塊,用于輸出定義術(shù)語(yǔ)。
[0012] 一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取方法,該方法包括:
[0013] 對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全文分成單句;
[0014] 采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句;
[0015] 將判斷為定義的單句進(jìn)行預(yù)處理,并根據(jù)術(shù)語(yǔ)詞抽取模板,抽取詞串作為術(shù)語(yǔ)詞, 并通過(guò)前后鄰的詞串修正,得到定義術(shù)語(yǔ);
[0016] 輸出定義術(shù)語(yǔ)。
[0017] 與現(xiàn)有技術(shù)相比,本發(fā)明的一個(gè)或多個(gè)實(shí)施例可以具有如下優(yōu)點(diǎn):
[0018] 本發(fā)明將文獻(xiàn)中表示定義的句子和對(duì)應(yīng)的術(shù)語(yǔ)詞抽取出來(lái),并呈現(xiàn)給用戶,方便 用戶快速、準(zhǔn)確的理解檢索出的內(nèi)容。且本申請(qǐng)文件提出了在規(guī)則模板的基礎(chǔ)上,基于句法 特征的學(xué)術(shù)定義自動(dòng)抽取方法。該方法綜合了基于規(guī)則和統(tǒng)計(jì)方法的優(yōu)點(diǎn),并從句法結(jié)構(gòu) 的層面上對(duì)學(xué)術(shù)文獻(xiàn)句子進(jìn)行研究。
【附圖說(shuō)明】
[0019] 圖1是基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng)結(jié)構(gòu)圖;
[0020] 圖2是基于規(guī)則的定義句抽取方法流程圖;
[0021] 圖3是基于統(tǒng)計(jì)法的定義句抽取流程圖;
[0022] 圖4是定義術(shù)語(yǔ)抽取流程圖。
【具體實(shí)施方式】
[0023] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合實(shí)施例及附圖對(duì)本發(fā) 明作進(jìn)一步詳細(xì)的描述。
[0024] 如圖1所示,為基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng)結(jié)構(gòu),包括:所述系統(tǒng)包括 預(yù)處理模塊、定義句抽取模塊、定義術(shù)語(yǔ)抽取模塊和輸出模塊,所述
[0025] 預(yù)處理模塊,用于對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全 文分成單句;利用分詞工具和句法分析工具進(jìn)行分詞、詞性標(biāo)注、句法分析等工作。
[0026] 定義句抽取模塊,采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句;
[0027] 定義術(shù)語(yǔ)抽取模塊,將判斷為定義的單句進(jìn)行預(yù)處理,將其中有分割作用的字符 串進(jìn)行標(biāo)記,比如"所謂"、"稱為"、"定義為"、"稱之為"等,其次,根據(jù)術(shù)語(yǔ)詞抽取模板,將特 定位置上的詞串抽取出來(lái)作為候選定義術(shù)語(yǔ),最后,利用通過(guò)統(tǒng)計(jì)高頻術(shù)語(yǔ)得到的前鄰詞 和后鄰詞表,將候選定義術(shù)語(yǔ)中不是術(shù)語(yǔ)詞的組成部分去除,得到定義術(shù)語(yǔ)(如圖4所示); 上述對(duì)判斷為定義的單句進(jìn)行預(yù)處理包括:對(duì)輸入的學(xué)術(shù)文獻(xiàn)進(jìn)行摘要和全文的抽取,并 對(duì)獲取的整段語(yǔ)料進(jìn)行分句;上述特定位置的詞串是指表3模板中第一個(gè)(.* ?)和表4 模板中第二個(gè)(.*?)匹配的詞串抽取出來(lái)作為術(shù)語(yǔ)詞;
[0028] 輸出模塊,用于輸出定義術(shù)語(yǔ)。
[0029] 上述規(guī)則法是對(duì)每個(gè)單句進(jìn)行肯定模板匹配或/和否定模板匹配,如表1為定義 句子肯定模板;表2為定義句子否定模板。
[0030] 表 1
[0031]
【主權(quán)項(xiàng)】
1. 一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述系統(tǒng)包括預(yù)處理模 塊、定義句抽取模塊、定義術(shù)語(yǔ)抽取模塊和輸出模塊,所述 預(yù)處理模塊,用于對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全文分 成單句; 定義句抽取模塊,采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句; 定義術(shù)語(yǔ)抽取模塊,將判斷為定義的單句進(jìn)行預(yù)處理,并根據(jù)術(shù)語(yǔ)詞抽取模板,抽取詞 串作為術(shù)語(yǔ)詞,并通過(guò)前后鄰的詞串修正,得到定義術(shù)語(yǔ); 輸出模塊,用于輸出定義術(shù)語(yǔ)。
2. 如權(quán)利要求1所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述規(guī) 則法是對(duì)每個(gè)單句進(jìn)行肯定模板匹配或/和否定模板匹配。
3. 如權(quán)利要求1所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述統(tǒng) 計(jì)法是對(duì)每個(gè)單句進(jìn)行N元句子特征抽取和句法特征抽取,并計(jì)算N元句子特征和句法特 征的概率,根據(jù)所述概率定義判斷函數(shù)。
4. 如權(quán)利要求3所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述N元 句子特征包括一元特征和二元特征; 所述一元特征包括常用詞分詞結(jié)果、專業(yè)詞分詞結(jié)果、聯(lián)項(xiàng)詞、聯(lián)項(xiàng)詞前詞性、聯(lián)項(xiàng)詞 后詞性和聯(lián)項(xiàng)詞距離句首的位置; 所述二元特征為所述一元特征與聯(lián)項(xiàng)詞特征的組合。
5. 如權(quán)利要求3所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述句 法特征包括一元句法特征和二元句法特征; 所述一元句法特征包括;句子中第一個(gè)動(dòng)詞、第一個(gè)動(dòng)詞前的短語(yǔ)類型、第一個(gè)動(dòng)詞后 的短語(yǔ)類型、最后一個(gè)動(dòng)詞、最后一個(gè)動(dòng)詞前的短語(yǔ)和最后一個(gè)動(dòng)詞后的短語(yǔ); 所述二元句法特征包括;句子中第一個(gè)動(dòng)詞和第一個(gè)動(dòng)詞前短語(yǔ)類型的組合、句子中 第一個(gè)動(dòng)詞和第一個(gè)動(dòng)詞后短語(yǔ)類型的組合、最后一個(gè)動(dòng)詞和最后一個(gè)動(dòng)詞前短語(yǔ)的組合 W及最后一個(gè)動(dòng)詞和最后一個(gè)動(dòng)詞后短語(yǔ)的組合。
6. 如權(quán)利要求3所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng),其特征在于,所述定 義判斷函數(shù)是將N元特征和句法特征分為兩類統(tǒng)計(jì),得到句子特征是定義的概率和不是定 義的概率W及句法特征是定義的概率和不是定義的概率;及 確定定義判斷函數(shù)中N元特征權(quán)重。
7. -種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取方法,其特征在于,所述方法包括: 對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全文分成單句; 采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句; 將判斷為定義的單句進(jìn)行預(yù)處理,并根據(jù)術(shù)語(yǔ)詞抽取模板,抽取詞串作為術(shù)語(yǔ)詞,并通 過(guò)前后鄰的詞串修正,得到定義術(shù)語(yǔ); 輸出定義術(shù)語(yǔ)。
8. 如權(quán)利要求7所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取方法,其特征在于,所述規(guī) 則法是對(duì)每個(gè)單句進(jìn)行肯定模板匹配或/和否定模板匹配; 若肯定模板匹配不成功,則認(rèn)為不是定義句; 若肯定模板匹配成功,則進(jìn)行否定規(guī)則模板匹配; 若否定規(guī)則模板匹配失敗,則認(rèn)為是定義句,并輸出。
9. 如權(quán)利要求7所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取方法,其特征在于,對(duì)所述 預(yù)處理后的單句進(jìn)行N元句子特征抽取和句法特征抽取,并計(jì)算N元句子特征概率和句法 特征概率,根據(jù)所述概率定義判斷函數(shù),函數(shù)是否判斷成功,若成功,則輸出定義句,否則, 不輸出定義句。
10. 如權(quán)利要求9所述的基于句法特征的學(xué)術(shù)定義自動(dòng)抽取方法,其特征在于,所述 所述N元句子特征包括一元特征和二元特征; 所述一元特征包括常用詞分詞結(jié)果、專業(yè)詞分詞結(jié)果、聯(lián)項(xiàng)詞、聯(lián)項(xiàng)詞前詞性、聯(lián)項(xiàng)詞 后詞性和聯(lián)項(xiàng)詞距離句首的位置; 所述二元特征為所述一元特征與聯(lián)項(xiàng)詞特征的組合; 所述句法特征包括一元句法特征和二元句法特征; 所述一元句法特征包括;句子中第一個(gè)動(dòng)詞、第一個(gè)動(dòng)詞前的短語(yǔ)類型、第一個(gè)動(dòng)詞后 的短語(yǔ)類型、最后一個(gè)動(dòng)詞、最后一個(gè)動(dòng)詞前的短語(yǔ)和最后一個(gè)動(dòng)詞后的短語(yǔ); 所述二元句法特征包括;句子中第一個(gè)動(dòng)詞和第一個(gè)動(dòng)詞前短語(yǔ)類型的組合、句子中 第一個(gè)動(dòng)詞和第一個(gè)動(dòng)詞后短語(yǔ)類型的組合、最后一個(gè)動(dòng)詞和最后一個(gè)動(dòng)詞前短語(yǔ)的組合 W及最后一個(gè)動(dòng)詞和最后一個(gè)動(dòng)詞后短語(yǔ)的組合。
【專利摘要】本發(fā)明公開了一種基于句法特征的學(xué)術(shù)定義自動(dòng)抽取系統(tǒng)及方法,所述系統(tǒng)包括:所述系統(tǒng)包括預(yù)處理模塊、定義句抽取模塊、定義術(shù)語(yǔ)抽取模塊和輸出模塊,所述預(yù)處理模塊,用于對(duì)輸入的學(xué)術(shù)文獻(xiàn)抽取摘要和全文部分,并將抽取的摘要和全文分成單句;定義句抽取模塊,采用規(guī)則和統(tǒng)計(jì)法判斷所述單句是否為定義句;定義術(shù)語(yǔ)抽取模塊,將判斷為定義的單句進(jìn)行預(yù)處理,并根據(jù)術(shù)語(yǔ)詞抽取模板,抽取詞串作為術(shù)語(yǔ)詞,并通過(guò)前后鄰的詞串修正,得到定義術(shù)語(yǔ);輸出模塊,用于輸出定義術(shù)語(yǔ)。發(fā)明將文獻(xiàn)中表示定義的句子和對(duì)應(yīng)的術(shù)語(yǔ)詞抽取出來(lái),并呈現(xiàn)給用戶,方便用戶快速、準(zhǔn)確的理解檢索出的內(nèi)容。
【IPC分類】G06F17-27
【公開號(hào)】CN104572628
【申請(qǐng)?zhí)枴緾N201510059166
【發(fā)明人】趙紀(jì)元, 羅霄, 杜玉鋒
【申請(qǐng)人】《中國(guó)學(xué)術(shù)期刊(光盤版)》電子雜志社有限公司, 同方知網(wǎng)(北京)技術(shù)有限公司, 山西同方知網(wǎng)數(shù)字出版技術(shù)有限公司
【公開日】2015年4月29日
【申請(qǐng)日】2015年2月5日