專利名稱:面向人物傳記的事件分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于智能信息處理技術(shù),更進(jìn)一步是關(guān)于文本的分類處理的技術(shù),具體涉及一種面向人物傳記的事件分類方法。
背景技術(shù):
隨著網(wǎng)絡(luò)、信息化技術(shù)的快速發(fā)展,數(shù)字化文檔信息的極大豐富,對(duì)文本,資料,網(wǎng)頁(yè)等的分類處理已成為信息處理的重要技術(shù)手段。文本分類的方法有很多,典型的方法有
(1)樸素貝葉斯分類器(Lewis D. . Naive bayes at forty: The independence assumption in information retrieval. In: Proceeding of the 10th European Conference on Machine Learning,Chemnitz,Germany,1998,4 5)樸素貝葉斯分類器是一種廣泛使用的分類算法,其計(jì)算效率和分類效果均十分理想。樸素貝葉斯分類器與其他方法相比最大的優(yōu)勢(shì)或許就在于,它在接受大數(shù)據(jù)量訓(xùn)練和查詢時(shí)所具備的高速度。樸素貝葉斯分類器的最大缺陷就是,它無(wú)法處理基于特征組合所產(chǎn)生的變化結(jié)果。(2)基于向量空間模型的分類器(Salton G. . Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-ffesley, 1989)向量空間模型是自動(dòng)文本分類中成熟的文本表示模型,通常以詞語(yǔ)或短語(yǔ)作為特征項(xiàng),但這些特征項(xiàng)通常只能提供較少的局部語(yǔ)義信息。為實(shí)現(xiàn)基于內(nèi)容的文本分類,該文用HNC理論中的句類作為特征項(xiàng),通過(guò)混合句類分解等技術(shù)對(duì)句類向量空間降維,使用tfc算法對(duì)特征項(xiàng)進(jìn)行權(quán)重計(jì)算,用KNN算法進(jìn)行分類。該分類器的平均準(zhǔn)確率和召回率都是可接受的,對(duì)類別的抽象程度無(wú)要求,即抽象度較高和較低的類別可以同時(shí)分類。通過(guò)使用更好的機(jī)器學(xué)習(xí)算法和其他的HNC語(yǔ)言理解技術(shù),性能可以進(jìn)一步提尚°(3)用支持向量機(jī)的分類器(Joachims Τ·· Text Categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998, 137 14
它是一種監(jiān)督式學(xué)習(xí)的方法,它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)屬于一般化線性分類器。他們也可以認(rèn)為是提克洛夫規(guī)范化(TiWlonov Regularization) 方法的一個(gè)特例。這族分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。這些技術(shù)是對(duì)于所有文本類別的分類,分類的粒度較大,而人物傳記需要的與人物相關(guān)的事件信息往往只涉及到一個(gè)語(yǔ)句,如果直接用上述分類器進(jìn)行分類,將無(wú)法達(dá)到對(duì)事件分類的效果。以上的這些方法嚴(yán)重依賴于外部知識(shí),尤其是領(lǐng)域知識(shí)。受知識(shí)獲取的瓶頸限制,這些方法只在受限領(lǐng)域得到成功應(yīng)用。本發(fā)明突破了這些傳統(tǒng)的分類技術(shù),不再把文本作為分類的對(duì)象,而是將文本中所涉及的與人物相關(guān)的事件進(jìn)行分類,分類的對(duì)象粒度更細(xì),分類的目標(biāo)是為了進(jìn)一步用于人物傳記的生成。本發(fā)明還擺脫了知識(shí)獲取的束縛,在訓(xùn)練分類事件后還能根據(jù)當(dāng)前已分類事件特征形成新的語(yǔ)料。發(fā)明目的
本發(fā)明的目的在于針對(duì)已有技術(shù)存在的缺陷,提供一種面向人物傳記的事件分類方法。
發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問(wèn)題和不足,本發(fā)明的目的在于解決已有技術(shù)問(wèn)題是提供一種面向人物傳記的事件分類方法,提高人物事件識(shí)別準(zhǔn)確率。一種面向人物傳記的時(shí)間分類方法,其特征在于操作步驟如下
A.構(gòu)建訓(xùn)練語(yǔ)料庫(kù);
B.詞庫(kù)的訓(xùn)練;
C.人物事件分類。上述步驟A訓(xùn)練語(yǔ)料庫(kù)的構(gòu)建具體步驟如下 Al.從互聯(lián)網(wǎng)或其他信息源獲取人物描述語(yǔ)言的文本;
A2.標(biāo)注語(yǔ)句的類型,語(yǔ)料標(biāo)注的類別有性別、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷,若所標(biāo)注的人物為科學(xué)家,則標(biāo)注的類別還有發(fā)表文章、參與項(xiàng)目; A3.如果一句語(yǔ)句有多個(gè)類型,則標(biāo)注多個(gè)類型;
A4.將標(biāo)注好的文本按照人物類別分開存儲(chǔ),人物類別包括政治人物,科學(xué)家,影視明星;相同的人物類別可有多個(gè)文本。上述步驟B詞庫(kù)的訓(xùn)練具體步驟如下
Bi.建立詞庫(kù)語(yǔ)句類別,先分別按照人物類別建立政治人物,科學(xué)家,影視明星三種人物類別;
B2.在各個(gè)人物類別中逐個(gè)按照性另I」、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷建立語(yǔ)句類別;
B3.如果人物類別為科學(xué)家,則額外建立發(fā)表文章、參與項(xiàng)目?jī)深愵悇e; B4.將已標(biāo)注語(yǔ)句類別的文本按照人物類別讀取; B5.分辨其中語(yǔ)句所標(biāo)注的類別; B6.將已標(biāo)注的語(yǔ)句分詞;
B7.逐個(gè)讀取分詞后得到的詞語(yǔ),每讀取一個(gè)詞語(yǔ),就將此詞語(yǔ)按照其所屬語(yǔ)句所標(biāo)注的類別存放于詞庫(kù)中對(duì)應(yīng)的詞語(yǔ)類別當(dāng)中; B8.逐條語(yǔ)句分類直至所有語(yǔ)料分類完畢。上述步驟C人物事件分類具體步驟如下
Cl.獲取需要分類的文本以及此文本所描述的相關(guān)人物的類別; C2.將文本按照句子逐句分離;
C3.將分離后的句子進(jìn)行分詞,并逐詞讀取所得的分詞結(jié)果; C4.將詞語(yǔ)按照詞庫(kù)中的詞語(yǔ)進(jìn)行匹配,若僅一個(gè)類別中有此詞語(yǔ),則此詞語(yǔ)屬于此類別,記錄其在該類別中的權(quán)重;若有多個(gè)類別中都有此詞語(yǔ),則獲取這些類別中該詞語(yǔ)的權(quán)重,逐個(gè)記錄;
C5. 一條語(yǔ)句中所有詞語(yǔ)的權(quán)重都分類完畢后,將該條語(yǔ)句中所有詞語(yǔ)的各類權(quán)重累加,所得的各個(gè)類別的權(quán)重記為該語(yǔ)句的權(quán)重;然后依據(jù)該語(yǔ)句的類別,將其置于所屬人物的相關(guān)語(yǔ)句類別中,并且記錄其權(quán)重。本發(fā)明與現(xiàn)有技術(shù)相比較,具有如下顯而易見(jiàn)的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn),本發(fā)明準(zhǔn)確地將人物相關(guān)的事件分成9類,為每一類構(gòu)建了訓(xùn)練集,經(jīng)過(guò)訓(xùn)練后,分類方法自動(dòng)地進(jìn)行人物事件的分類;提高了人物事件識(shí)別準(zhǔn)確率。
圖1是本發(fā)明所提的面向人物傳記的事件分類方法的模塊架構(gòu)圖; 圖2是本發(fā)明所提及的詞庫(kù)訓(xùn)練程序流程圖3是本發(fā)明所提的文本語(yǔ)句分類的程序流程圖。
具體實(shí)施例方式本發(fā)明的優(yōu)選實(shí)施例結(jié)合附圖詳述如下 實(shí)施例一
參照?qǐng)D1,本面向人物傳記的事件分類方法的操作步驟如下 1.構(gòu)建訓(xùn)練語(yǔ)料庫(kù)104:
人工方式獲取人物描述語(yǔ)言的文擋,并且將文檔按照以下格式進(jìn)行人工標(biāo)注語(yǔ)句+ 空格+代號(hào)[+代號(hào)] 語(yǔ)句標(biāo)注的類別有
權(quán)利要求
1.一種面向人物傳記的事件分類方法,操作步驟如下A.構(gòu)建訓(xùn)練語(yǔ)料庫(kù)B.詞庫(kù)的訓(xùn)練C.人物事件分類。
2.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法,其特征在于所述步驟A中構(gòu)建訓(xùn)練語(yǔ)料庫(kù)的具體操作步驟如下Al.從互聯(lián)網(wǎng)或其他信息源獲取人物描述語(yǔ)言的文本;A2.標(biāo)注語(yǔ)句的類型,語(yǔ)料標(biāo)注的類別有性別、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷,若所標(biāo)注的人物為科學(xué)家,則標(biāo)注的類別還有發(fā)表文章、參與項(xiàng)目;A3.如果一句語(yǔ)句有多個(gè)類型,則標(biāo)注多個(gè)類型;A4.將標(biāo)注好的文本按照人物類別分開存儲(chǔ),人物類別包括政治人物,科學(xué)家,影視明星;相同的人物類別可有多個(gè)文本。
3.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法,其特征在于,所述步驟B中詞庫(kù)的訓(xùn)練,其操作步驟如下Bi.建立詞庫(kù)語(yǔ)句類別,先分別按照人物類別建立政治人物,科學(xué)家,影視明星三種人物類別;B2.在各個(gè)人物類別中逐個(gè)按照性另I」、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷建立語(yǔ)句類別;B3.如果人物類別為科學(xué)家,則額外建立發(fā)表文章、參與項(xiàng)目?jī)深愵悇e;B4.將已標(biāo)注語(yǔ)句類別的文本按照人物類別讀??;B5.分辨其中語(yǔ)句所標(biāo)注的類別;B6.將已標(biāo)注的語(yǔ)句分詞;B7.逐個(gè)讀取分詞后得到的詞語(yǔ),每讀取一個(gè)詞語(yǔ),就將此詞語(yǔ)按照其所屬語(yǔ)句所標(biāo)注的類別存放于詞庫(kù)中對(duì)應(yīng)的詞語(yǔ)類別當(dāng)中;B8.逐條語(yǔ)句分類直至所有語(yǔ)料分類完畢。
4.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法,其特征在于,所述步驟C人物事件分類,具體操作步驟如下Cl.獲取需要分類的文本以及此文本所描述的相關(guān)人物的類別;C2.將文本按照句子逐句分離;C3.將分離后的句子進(jìn)行分詞,并逐詞讀取所得的分詞結(jié)果;C4.將詞語(yǔ)按照詞庫(kù)中的詞語(yǔ)進(jìn)行匹配,若僅一個(gè)類別中有此詞語(yǔ),則此詞語(yǔ)屬于此類別,記錄其在該類別中的權(quán)重;若有多個(gè)類別中都有此詞語(yǔ),則獲取這些類別中該詞語(yǔ)的權(quán)重,逐個(gè)記錄;C5. 一條語(yǔ)句中所有詞語(yǔ)的權(quán)重都分類完畢后,將該條語(yǔ)句中所有詞語(yǔ)的各類權(quán)重累加,所得的各個(gè)類別的權(quán)重記為該語(yǔ)句的權(quán)重;然后依據(jù)該語(yǔ)句的類別,將其置于所屬人物的相關(guān)語(yǔ)句類別中,并且記錄其權(quán)重。
全文摘要
本發(fā)明設(shè)計(jì)一種面向人物傳記的事件分類方法,該方法不僅針對(duì)的對(duì)象是更細(xì)的與人物相關(guān)的事件,而且準(zhǔn)確地將與人物相關(guān)的事件分成9類,為每一類構(gòu)建了訓(xùn)練集,經(jīng)過(guò)訓(xùn)練后,分類方法可自動(dòng)地進(jìn)行人物事件的分類,提高了人物事件識(shí)別準(zhǔn)確率。
文檔編號(hào)G06F17/30GK102200997SQ201110095809
公開日2011年9月28日 申請(qǐng)日期2011年4月18日 優(yōu)先權(quán)日2011年4月18日
發(fā)明者周文, 葛晶 申請(qǐng)人:上海大學(xué)