面向人物傳記的事件分類方法

文檔序號(hào)：6358152閱讀：509來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：面向人物傳記的事件分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于智能信息處理技術(shù)，更進(jìn)一步是關(guān)于文本的分類處理的技術(shù)，具體涉及一種面向人物傳記的事件分類方法。
背景技術(shù)：
隨著網(wǎng)絡(luò)、信息化技術(shù)的快速發(fā)展，數(shù)字化文檔信息的極大豐富，對(duì)文本，資料，網(wǎng)頁(yè)等的分類處理已成為信息處理的重要技術(shù)手段。文本分類的方法有很多，典型的方法有
(1)樸素貝葉斯分類器(Lewis D. . Naive bayes at forty: The independence assumption in information retrieval. In: Proceeding of the 10th European Conference on Machine Learning，Chemnitz，Germany，1998，4 5)樸素貝葉斯分類器是一種廣泛使用的分類算法，其計(jì)算效率和分類效果均十分理想。樸素貝葉斯分類器與其他方法相比最大的優(yōu)勢(shì)或許就在于，它在接受大數(shù)據(jù)量訓(xùn)練和查詢時(shí)所具備的高速度。樸素貝葉斯分類器的最大缺陷就是，它無(wú)法處理基于特征組合所產(chǎn)生的變化結(jié)果。(2)基于向量空間模型的分類器(Salton G. . Automatic Text Processing: The Transformation, Analysis, and Retrieval of Information by Computer. Reading, MA: Addison-ffesley, 1989)向量空間模型是自動(dòng)文本分類中成熟的文本表示模型，通常以詞語(yǔ)或短語(yǔ)作為特征項(xiàng)，但這些特征項(xiàng)通常只能提供較少的局部語(yǔ)義信息。為實(shí)現(xiàn)基于內(nèi)容的文本分類，該文用HNC理論中的句類作為特征項(xiàng)，通過(guò)混合句類分解等技術(shù)對(duì)句類向量空間降維，使用tfc算法對(duì)特征項(xiàng)進(jìn)行權(quán)重計(jì)算，用KNN算法進(jìn)行分類。該分類器的平均準(zhǔn)確率和召回率都是可接受的，對(duì)類別的抽象程度無(wú)要求，即抽象度較高和較低的類別可以同時(shí)分類。通過(guò)使用更好的機(jī)器學(xué)習(xí)算法和其他的HNC語(yǔ)言理解技術(shù)，性能可以進(jìn)一步提尚°(3)用支持向量機(jī)的分類器(Joachims Τ·· Text Categorization with support vector machines: Learning with many relevant features. In: Proceedings of the 10th European Conference on Machine Learning, Chemnitz, Germany, 1998, 137 14
它是一種監(jiān)督式學(xué)習(xí)的方法，它廣泛的應(yīng)用于統(tǒng)計(jì)分類以及回歸分析中。支持向量機(jī)屬于一般化線性分類器。他們也可以認(rèn)為是提克洛夫規(guī)范化(TiWlonov Regularization) 方法的一個(gè)特例。這族分類器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗(yàn)誤差與最大化幾何邊緣區(qū)。因此支持向量機(jī)也被稱為最大邊緣區(qū)分類器。這些技術(shù)是對(duì)于所有文本類別的分類，分類的粒度較大，而人物傳記需要的與人物相關(guān)的事件信息往往只涉及到一個(gè)語(yǔ)句，如果直接用上述分類器進(jìn)行分類，將無(wú)法達(dá)到對(duì)事件分類的效果。以上的這些方法嚴(yán)重依賴于外部知識(shí)，尤其是領(lǐng)域知識(shí)。受知識(shí)獲取的瓶頸限制，這些方法只在受限領(lǐng)域得到成功應(yīng)用。本發(fā)明突破了這些傳統(tǒng)的分類技術(shù)，不再把文本作為分類的對(duì)象，而是將文本中所涉及的與人物相關(guān)的事件進(jìn)行分類，分類的對(duì)象粒度更細(xì)，分類的目標(biāo)是為了進(jìn)一步用于人物傳記的生成。本發(fā)明還擺脫了知識(shí)獲取的束縛，在訓(xùn)練分類事件后還能根據(jù)當(dāng)前已分類事件特征形成新的語(yǔ)料。發(fā)明目的
本發(fā)明的目的在于針對(duì)已有技術(shù)存在的缺陷，提供一種面向人物傳記的事件分類方法。

發(fā)明內(nèi)容
鑒于以上所述現(xiàn)有技術(shù)存在的問(wèn)題和不足，本發(fā)明的目的在于解決已有技術(shù)問(wèn)題是提供一種面向人物傳記的事件分類方法，提高人物事件識(shí)別準(zhǔn)確率。一種面向人物傳記的時(shí)間分類方法，其特征在于操作步驟如下
A.構(gòu)建訓(xùn)練語(yǔ)料庫(kù)；
B.詞庫(kù)的訓(xùn)練；
C.人物事件分類。上述步驟A訓(xùn)練語(yǔ)料庫(kù)的構(gòu)建具體步驟如下 Al.從互聯(lián)網(wǎng)或其他信息源獲取人物描述語(yǔ)言的文本；
A2.標(biāo)注語(yǔ)句的類型，語(yǔ)料標(biāo)注的類別有性別、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷，若所標(biāo)注的人物為科學(xué)家，則標(biāo)注的類別還有發(fā)表文章、參與項(xiàng)目； A3.如果一句語(yǔ)句有多個(gè)類型，則標(biāo)注多個(gè)類型；
A4.將標(biāo)注好的文本按照人物類別分開存儲(chǔ)，人物類別包括政治人物，科學(xué)家，影視明星；相同的人物類別可有多個(gè)文本。上述步驟B詞庫(kù)的訓(xùn)練具體步驟如下
Bi.建立詞庫(kù)語(yǔ)句類別，先分別按照人物類別建立政治人物，科學(xué)家，影視明星三種人物類別；
B2.在各個(gè)人物類別中逐個(gè)按照性另I」、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷建立語(yǔ)句類別；
B3.如果人物類別為科學(xué)家，則額外建立發(fā)表文章、參與項(xiàng)目?jī)深愵悇e； B4.將已標(biāo)注語(yǔ)句類別的文本按照人物類別讀取； B5.分辨其中語(yǔ)句所標(biāo)注的類別； B6.將已標(biāo)注的語(yǔ)句分詞；
B7.逐個(gè)讀取分詞后得到的詞語(yǔ)，每讀取一個(gè)詞語(yǔ)，就將此詞語(yǔ)按照其所屬語(yǔ)句所標(biāo)注的類別存放于詞庫(kù)中對(duì)應(yīng)的詞語(yǔ)類別當(dāng)中； B8.逐條語(yǔ)句分類直至所有語(yǔ)料分類完畢。上述步驟C人物事件分類具體步驟如下
Cl.獲取需要分類的文本以及此文本所描述的相關(guān)人物的類別； C2.將文本按照句子逐句分離；
C3.將分離后的句子進(jìn)行分詞，并逐詞讀取所得的分詞結(jié)果； C4.將詞語(yǔ)按照詞庫(kù)中的詞語(yǔ)進(jìn)行匹配，若僅一個(gè)類別中有此詞語(yǔ)，則此詞語(yǔ)屬于此類別，記錄其在該類別中的權(quán)重；若有多個(gè)類別中都有此詞語(yǔ)，則獲取這些類別中該詞語(yǔ)的權(quán)重，逐個(gè)記錄；
C5. 一條語(yǔ)句中所有詞語(yǔ)的權(quán)重都分類完畢后，將該條語(yǔ)句中所有詞語(yǔ)的各類權(quán)重累加，所得的各個(gè)類別的權(quán)重記為該語(yǔ)句的權(quán)重；然后依據(jù)該語(yǔ)句的類別，將其置于所屬人物的相關(guān)語(yǔ)句類別中，并且記錄其權(quán)重。本發(fā)明與現(xiàn)有技術(shù)相比較，具有如下顯而易見(jiàn)的突出實(shí)質(zhì)性特點(diǎn)和顯著優(yōu)點(diǎn)，本發(fā)明準(zhǔn)確地將人物相關(guān)的事件分成9類，為每一類構(gòu)建了訓(xùn)練集，經(jīng)過(guò)訓(xùn)練后，分類方法自動(dòng)地進(jìn)行人物事件的分類；提高了人物事件識(shí)別準(zhǔn)確率。

圖1是本發(fā)明所提的面向人物傳記的事件分類方法的模塊架構(gòu)圖；圖2是本發(fā)明所提及的詞庫(kù)訓(xùn)練程序流程圖3是本發(fā)明所提的文本語(yǔ)句分類的程序流程圖。
具體實(shí)施例方式本發(fā)明的優(yōu)選實(shí)施例結(jié)合附圖詳述如下實(shí)施例一
參照?qǐng)D1，本面向人物傳記的事件分類方法的操作步驟如下 1.構(gòu)建訓(xùn)練語(yǔ)料庫(kù)104:
人工方式獲取人物描述語(yǔ)言的文擋，并且將文檔按照以下格式進(jìn)行人工標(biāo)注語(yǔ)句+ 空格+代號(hào)[+代號(hào)] 語(yǔ)句標(biāo)注的類別有
權(quán)利要求
1.一種面向人物傳記的事件分類方法，操作步驟如下A.構(gòu)建訓(xùn)練語(yǔ)料庫(kù)B.詞庫(kù)的訓(xùn)練C.人物事件分類。
2.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法，其特征在于所述步驟A中構(gòu)建訓(xùn)練語(yǔ)料庫(kù)的具體操作步驟如下Al.從互聯(lián)網(wǎng)或其他信息源獲取人物描述語(yǔ)言的文本；A2.標(biāo)注語(yǔ)句的類型，語(yǔ)料標(biāo)注的類別有性別、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷，若所標(biāo)注的人物為科學(xué)家，則標(biāo)注的類別還有發(fā)表文章、參與項(xiàng)目；A3.如果一句語(yǔ)句有多個(gè)類型，則標(biāo)注多個(gè)類型；A4.將標(biāo)注好的文本按照人物類別分開存儲(chǔ)，人物類別包括政治人物，科學(xué)家，影視明星；相同的人物類別可有多個(gè)文本。
3.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法，其特征在于，所述步驟B中詞庫(kù)的訓(xùn)練，其操作步驟如下Bi.建立詞庫(kù)語(yǔ)句類別，先分別按照人物類別建立政治人物，科學(xué)家，影視明星三種人物類別；B2.在各個(gè)人物類別中逐個(gè)按照性另I」、民族、出生時(shí)間、出生地、黨派、現(xiàn)任職務(wù)、學(xué)習(xí)經(jīng)歷建立語(yǔ)句類別；B3.如果人物類別為科學(xué)家，則額外建立發(fā)表文章、參與項(xiàng)目?jī)深愵悇e；B4.將已標(biāo)注語(yǔ)句類別的文本按照人物類別讀??；B5.分辨其中語(yǔ)句所標(biāo)注的類別；B6.將已標(biāo)注的語(yǔ)句分詞；B7.逐個(gè)讀取分詞后得到的詞語(yǔ)，每讀取一個(gè)詞語(yǔ)，就將此詞語(yǔ)按照其所屬語(yǔ)句所標(biāo)注的類別存放于詞庫(kù)中對(duì)應(yīng)的詞語(yǔ)類別當(dāng)中；B8.逐條語(yǔ)句分類直至所有語(yǔ)料分類完畢。
4.根據(jù)權(quán)利要求1所述的面向人物傳記的事件分類方法，其特征在于，所述步驟C人物事件分類，具體操作步驟如下Cl.獲取需要分類的文本以及此文本所描述的相關(guān)人物的類別；C2.將文本按照句子逐句分離；C3.將分離后的句子進(jìn)行分詞，并逐詞讀取所得的分詞結(jié)果；C4.將詞語(yǔ)按照詞庫(kù)中的詞語(yǔ)進(jìn)行匹配，若僅一個(gè)類別中有此詞語(yǔ)，則此詞語(yǔ)屬于此類別，記錄其在該類別中的權(quán)重；若有多個(gè)類別中都有此詞語(yǔ)，則獲取這些類別中該詞語(yǔ)的權(quán)重，逐個(gè)記錄；C5. 一條語(yǔ)句中所有詞語(yǔ)的權(quán)重都分類完畢后，將該條語(yǔ)句中所有詞語(yǔ)的各類權(quán)重累加，所得的各個(gè)類別的權(quán)重記為該語(yǔ)句的權(quán)重；然后依據(jù)該語(yǔ)句的類別，將其置于所屬人物的相關(guān)語(yǔ)句類別中，并且記錄其權(quán)重。
全文摘要
本發(fā)明設(shè)計(jì)一種面向人物傳記的事件分類方法，該方法不僅針對(duì)的對(duì)象是更細(xì)的與人物相關(guān)的事件，而且準(zhǔn)確地將與人物相關(guān)的事件分成9類，為每一類構(gòu)建了訓(xùn)練集，經(jīng)過(guò)訓(xùn)練后，分類方法可自動(dòng)地進(jìn)行人物事件的分類，提高了人物事件識(shí)別準(zhǔn)確率。
文檔編號(hào)G06F17/30GK102200997SQ201110095809
公開日2011年9月28日申請(qǐng)日期2011年4月18日優(yōu)先權(quán)日2011年4月18日
發(fā)明者周文, 葛晶申請(qǐng)人:上海大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周文;葛晶
技術(shù)所有人：上海大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向?qū)ο蠓诸惙椒ㄏ嚓P(guān)技術(shù)

面向?qū)ο蟮姆诸惙椒ㄏ嚓P(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

面向人物傳記的事件分類方法