網(wǎng)頁中案件信息的抽取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種網(wǎng)頁中案件信息的抽取方法。
【背景技術(shù)】
[0002]隨之互聯(lián)網(wǎng)的快速發(fā)展,使得網(wǎng)頁信息成為了一個巨大的信息發(fā)布源和傳播源,且網(wǎng)頁信息還在飛速增加,而網(wǎng)頁中可能包含了用戶所需的大量信息,如,對于某個案件的判決時間、判決結(jié)果等。
[0003]實際應(yīng)用中,為了能夠有針對性地向用戶提供網(wǎng)頁信息,一般通過網(wǎng)頁信息提取的方式從存在的網(wǎng)頁中提取有用的信息,并將提取出的信息提供給用戶?,F(xiàn)有技術(shù)中,提取網(wǎng)頁信息時,可以通過關(guān)鍵字匹配等方法實現(xiàn)。具體的,通過關(guān)鍵字匹配法提取網(wǎng)頁信息時,在目標網(wǎng)頁的源代碼中查找與預(yù)設(shè)的關(guān)鍵字相匹配的信息,并提取與預(yù)設(shè)的關(guān)鍵字相匹配的信息。應(yīng)用上述方法能夠由目標網(wǎng)頁中提取出部分相關(guān)信息學,但是由于網(wǎng)頁中所包含的信息量較大,有可能會存在多個與預(yù)設(shè)的關(guān)鍵字相匹配的信息,可能會造成所提取的信息中包含冗余信息或者錯誤信息,影響用戶體驗。當提取出的信息中包含冗余信息的情況下,如要剔除冗余信息,則需要對提取出的信息進行二次處理,信息提取效率低。
[0004]
【發(fā)明內(nèi)容】
本發(fā)明要解決的技術(shù)問題是提供一種網(wǎng)頁中案件信息的抽取方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的網(wǎng)頁中案件信息的抽取方法,包括以下步驟:
A、建立案件屬性信息知識庫,知識庫中包括案件信息類型專有名詞集、限定詞集、禁止詞集、案件主體專有修飾詞集;
B、格式化網(wǎng)頁源碼,抽取出正文和標題內(nèi)容;
C、掃描文本,對文本進行分詞,并將文章分割成若干整句;
D、抽象出案件中關(guān)鍵字段的特有句式描述,并結(jié)合知識庫中詞集翻譯成對應(yīng)規(guī)則;
E、當掃描獲知規(guī)則中對應(yīng)的詞集中的詞出現(xiàn),并且詞后句式滿足某一條規(guī)則,且該句內(nèi)沒有出現(xiàn)禁止詞集時,說明該句滿足此規(guī)則,根據(jù)規(guī)則中約束的字段位置抽取出法院的相關(guān)字段。
[0006 ]本發(fā)明還可以采用以下技術(shù)措施:
案件信息類型專有名詞集中包括:公告信息、文書信息、被執(zhí)行人信息、審判流程信息。
[0007]案件主體專有修飾詞集中包括:被告、原告、當事人。
[0008]將文章中所有滿足抽取規(guī)則的字段進行歸一化處理。
[0009]本發(fā)明具有的優(yōu)點和積極效果是:
本發(fā)明的網(wǎng)頁中案件信息的抽取方法中,建立案件屬性信息知識庫,知識庫中包括案件信息類型專有名詞集、限定詞集、禁止詞集、案件主體專有修飾詞集,對文本進行分詞,并將文章分割成若干整句,結(jié)合知識庫中詞集翻譯成對應(yīng)規(guī)則,當掃描獲知規(guī)則中對應(yīng)的詞集中的詞出現(xiàn),并且詞后句式滿足某一條規(guī)則,且該句內(nèi)沒有出現(xiàn)禁止詞集時,說明該句滿足此規(guī)則,根據(jù)規(guī)則中約束的字段位置抽取出法院的相關(guān)字段。本發(fā)明通過結(jié)合規(guī)則和詞數(shù)集的方法,有針對性的抽取案件信息,通過該方法抽取的案件具有較高的準確率。
【附圖說明】
[0010]圖1是本發(fā)明的網(wǎng)頁中案件信息的抽取方法的網(wǎng)頁應(yīng)用例。
【具體實施方式】
[0011 ]以下通過具體實施例對本發(fā)明進行詳細說明。
[0012]本發(fā)明的網(wǎng)頁中案件信息的抽取方法,包括以下步驟:
A、建立案件屬性信息知識庫,知識庫中包括案件信息類型專有名詞集、限定詞集、禁止詞集、案件主體專有修飾詞集;
B、格式化網(wǎng)頁源碼,抽取出正文和標題內(nèi)容;
C、掃描文本,對文本進行分詞,并將文章分割成若干整句;
D、抽象出案件中關(guān)鍵字段的特有句式描述,并結(jié)合知識庫中詞集翻譯成對應(yīng)規(guī)則;
E、當掃描獲知規(guī)則中對應(yīng)的詞集中的詞出現(xiàn),并且詞后句式滿足某一條規(guī)則,且該句內(nèi)沒有出現(xiàn)禁止詞集時,說明該句滿足此規(guī)則,根據(jù)規(guī)則中約束的字段位置抽取出法院的相關(guān)字段;
F、將文章中所有滿足抽取規(guī)則的字段進行歸一化處理。
[0013]案件信息類型專有名詞集中包括:公告信息、文書信息、被執(zhí)行人信息、審判流程?目息O
[0014]案件主體專有修飾詞集中包括:被告、原告、當事人。
[0015]以下為原、被告以及案號的具體抽取方式:
原告抽取:
一、定義
原告指在民事方面,以自己的名義提起訴訟,請求法院保護其權(quán)益,因而使訴訟成立的人。在法院信息抽取工作中,刑事案件的公訴方也要被提成原告。
[0016]二、句式抽象
將文章中會出現(xiàn)原告的句式抽象出來后,寫成規(guī)則引擎支持的規(guī)則。抽取句式如下:
1、正文或標題有“原告”修飾詞樹集中內(nèi)容的提示,其后的姓名或企業(yè)名稱是原告。
[0017]例如:“上訴人A就XXXX提起上訴”。
[0018]2、句式:“Α訴B林林”。其中的A是原告。
[0019]例如:“本院受理A訴B、廣東C有限公司水路貨物運輸合同糾紛一案”。
[0020]3、句式:“Α申請執(zhí)行B XXXX—案”。其中B是被告,A為原告。
[0021]4、句式:“強制執(zhí)行A對B XXX—案”。其中A為原告,B為被告。
[0022]5、句式:“B與原告A XXX—案”。其中A為原告,B為被告。
[0023]6、句式:“本院受理A申請執(zhí)行XXX”。其中A為原告。
[0024]7、句式:“關(guān)于A申請執(zhí)行人申請執(zhí)行ΧΧΧΧ”。其中A為原告。
[0025]8、句式:“本院受理A申請宣告XXX死亡一案”。其中A為原告。
[0026]9、句式:“A因不服XXXX,提出再審申請”。其中A為原告。
[0027]被告抽取:
一、定義
被告是被指控犯法的人。
[0028]二、句式抽象
1.案件中明顯有“被告”修飾詞樹集中內(nèi)容的提示,其后的姓名或企業(yè)名稱是被告。標紅是修飾詞數(shù)集內(nèi)容。
[0029]例如:“被執(zhí)行人A,農(nóng)民XXX”。
[0030]“被告人A犯非法占用農(nóng)用地罪XXX”。
[0031 ] 2、句式:“A訴B****”。其中B是被告。
[0032]3、句式:“B犯***”。其中B是被告。
[0033]4、句式:“B 罪一案”。其中B是被告。
[0034]5、句式:“A申請執(zhí)行B —案”。其中B是被告,A為原告。
[0035]6、句式:“強制執(zhí)行A對B XXX—案”。其中A為原告,B為被告。