一種文本集人物關(guān)系自動(dòng)提取方法

文檔序號(hào)：6400140閱讀：1080來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種文本集人物關(guān)系自動(dòng)提取方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種從中文文本或中文文本集中自動(dòng)提取人物關(guān)系的方法，屬于計(jì)算機(jī)科學(xué)與信息抽取技術(shù)領(lǐng)域。
背景技術(shù)：
人物關(guān)系提取是把分散在文本中的人物實(shí)體及人物之間的關(guān)系準(zhǔn)確、快速的自動(dòng)提取，屬于信息抽取領(lǐng)域的研究?jī)?nèi)容。信息抽取技術(shù)(IE, Information Extraction)要完成兩大研究任務(wù):實(shí)體識(shí)別(EDR, Entity Detection and Recognition)和關(guān)系識(shí)別(RDR, Relation Detection andRecognition)。其中關(guān)系識(shí)別(也稱作“關(guān)系提取”)就是從文本中提取實(shí)體之間的存在的關(guān)系，而這些關(guān)系的類型是預(yù)先定義的。人物關(guān)系屬于實(shí)體關(guān)系中的一種，是指文本或文本集中所描述的兩個(gè)人物之間的關(guān)聯(lián)關(guān)系。對(duì)于人物關(guān)系提取，主要解決:①獲取兩個(gè)人物之間的關(guān)系屬性(關(guān)系屬性提取)；②計(jì)算兩個(gè)人物之間的關(guān)聯(lián)程度(關(guān)系強(qiáng)度計(jì)算)。除此之夕卜，對(duì)于分散在文本和文本集中的人物關(guān)系的組織方式和展示形式也是需要考慮的問題。人物關(guān)系提取方法主要有兩類:基于模式識(shí)別的方法和基于機(jī)器學(xué)習(xí)的方法。1.基于模式識(shí)別的方法:(I)早期的基于模式識(shí)別的人物關(guān)系提取方法:基于模式識(shí)別的方法是通過詞法、句法等方面的特征，構(gòu)建識(shí)別所需的知識(shí)庫(kù)(或稱作規(guī)則庫(kù))，采用該知識(shí)庫(kù)來進(jìn)行模式的匹配，達(dá)到關(guān)系提取的目的。對(duì)于基于模式識(shí)別的人物關(guān)系提取方法，最困難的步驟是人物關(guān)系模式(人物關(guān)系規(guī)則庫(kù))的建立。這些人物關(guān)系模式的建立需要依靠語(yǔ)言學(xué)家，社會(huì)學(xué)家對(duì)提取任務(wù)所涉及領(lǐng)域的語(yǔ)料進(jìn)行細(xì)致深入的分析，窮舉各種可能的人物關(guān)系編制人物關(guān)系模式。這種方法編制周期太長(zhǎng)，應(yīng)用成本很高。(2)對(duì)早期方法的改進(jìn)方法:針對(duì)早期的純手工編織人物關(guān)系模式的問題，后來的學(xué)者們提出了一些解決方法。a)如Appelt等人提出的FASTUS抽取系統(tǒng)中，通過引入“宏”的概念將各種領(lǐng)域依賴規(guī)則以一種具有擴(kuò)展性、通用性的方式表達(dá)。用戶只需要修改相應(yīng)“宏”中的參數(shù)設(shè)置，就可以快速配置好特定領(lǐng)域任務(wù)的關(guān)系模式規(guī)則；所謂宏，就是一些命令組織在一起，作為一個(gè)單獨(dú)命令完成一個(gè)特定任務(wù)。b) Roman等人提出的Proteus抽取系統(tǒng)采用了基于樣本泛化的人物關(guān)系抽取模式構(gòu)建方法，這種方法通過對(duì)編制的人物關(guān)系模式進(jìn)行泛化，從而使模式能適用更廣領(lǐng)域的人物關(guān)系提?。籧)Aone 等人構(gòu)建的 REES 系統(tǒng)(Large-Scale Relation and Event ExtractionSystem)中通過構(gòu)造包含100多種人物關(guān)系模式的知識(shí)庫(kù)來進(jìn)行關(guān)系提取。

d)此外，在中文方面，國(guó)內(nèi)也有一些學(xué)者采用模式識(shí)別的方法用于提取人物關(guān)系，如姜吉發(fā)等人為了減輕模式編制人員的勞動(dòng)量提出了一種自舉的二元關(guān)系和二元關(guān)系模式獲取方法一BRPAM,該方法可以通過自舉已有的二元關(guān)系擴(kuò)充知識(shí)庫(kù)(人物關(guān)系規(guī)則庫(kù))，依據(jù)該放法，姜吉發(fā)他們?cè)O(shè)計(jì)了一個(gè)能夠從自由文本中進(jìn)行二元關(guān)系抽取的IE系統(tǒng)BRPAM2Texts ;鄧擘等人將詞匯語(yǔ)義匹配引入到了關(guān)系模式匹配中，提出了一種全新的關(guān)系提取的方法。這種方法由于引入了詞匯的語(yǔ)義特性，使得人物關(guān)系提取的結(jié)果更符合客觀的邏輯，準(zhǔn)確率有了一定的提高，對(duì)于不同領(lǐng)域的人物關(guān)系可以借助相關(guān)領(lǐng)域的詞典實(shí)現(xiàn)人物關(guān)系提取。以上基于模式識(shí)別的人物關(guān)系提取方法仍然存在開發(fā)成本高昂，適用性低的不足。2.基于機(jī)器學(xué)習(xí)的方法:(I)基于機(jī)器學(xué)習(xí)的人物關(guān)系提取方法是通過機(jī)器學(xué)習(xí)算法，在人工標(biāo)引語(yǔ)料的基礎(chǔ)上構(gòu)造分類器，然后將其應(yīng)用在領(lǐng)域語(yǔ)料人物關(guān)系的類別判斷過程中。目前使用比較多的機(jī)器學(xué)習(xí)算法有MBL算法和SVM算法。如:a) Zhang等人構(gòu)建的中文命名實(shí)體及關(guān)系抽取系統(tǒng)就是采用MBL算法從訓(xùn)練數(shù)據(jù)中構(gòu)建分類規(guī)則，抽取過程中基于該規(guī)則進(jìn)行實(shí)體和關(guān)系的提?。籦) Zhang和車萬翔等則采用SVM算法進(jìn)行關(guān)系抽取規(guī)則的學(xué)習(xí)；何婷婷等人提出了利用少量人工選取的實(shí)體關(guān)系作為種子(初始關(guān)系)，通過自學(xué)習(xí)的方式不斷擴(kuò)充關(guān)系種子集合，來提取實(shí)體關(guān)系的方法；c)劉路等人則提出了一種基于SVM正、反例訓(xùn)練的實(shí)體關(guān)系提取方法。單純基于機(jī)器學(xué)習(xí)的方法對(duì)于文本的分析一般比較淺顯，對(duì)于中文的文本語(yǔ)料中的人物關(guān)系提取，這種方法效果不理想。

發(fā)明內(nèi)容
本發(fā)明提出了一種基于句義模型特征的人物關(guān)系提取方法，解決從中文文本或中文文本集中自動(dòng)提取人物關(guān)系的問題。本發(fā)明的技術(shù)方案包括如下內(nèi)容:首先利用分詞系統(tǒng)進(jìn)行詞法分析；使用句義模型特征和分類算法判定關(guān)系屬性歸屬；然后計(jì)算兩個(gè)人物對(duì)象之間的關(guān)系屬性權(quán)重，通過比較權(quán)重?cái)?shù)值的大小對(duì)上一步的判定關(guān)系屬性歸屬判斷中出現(xiàn)的錯(cuò)誤而導(dǎo)致的關(guān)系屬性歧義進(jìn)行消解處理，提升關(guān)系屬性歸屬的判定精度；再利用局部因子、全局因子和關(guān)系屬性因子計(jì)算人物關(guān)系強(qiáng)度，通過關(guān)系屬性提取和關(guān)系強(qiáng)度計(jì)算后得到兩個(gè)人物間的關(guān)系系數(shù)，利用從文本中得到的所有關(guān)系系數(shù)構(gòu)建人物關(guān)系網(wǎng)絡(luò)(Relation Net)，最后根據(jù)人物關(guān)系網(wǎng)絡(luò)(Relation Net)構(gòu)建人物關(guān)系圖，如

圖1所示。步驟1，對(duì)文本的句子進(jìn)行分詞處理，根據(jù)分詞系統(tǒng)中的詞典數(shù)據(jù)庫(kù)的詞匯對(duì)文本語(yǔ)句做劃分，并按照詞匯在句子中的前后順序編號(hào)，進(jìn)而得到組成一句話詞匯的序列。經(jīng)過分詞提取出人物對(duì)象的詞匯，以及表關(guān)系的詞匯。步驟1.1，確定關(guān)系詞的關(guān)系屬性，關(guān)系屬性被定義為描述話題人物和述題人物之間的雙向關(guān)系。話題人物指話題中提及的人物對(duì)象，話題屬于句義的概念，表示一句話要說明的對(duì)象。述題人物指述題中提及的人物對(duì)象，述題也是句義中的概念，與話題相對(duì)，是一句話中對(duì)話題(對(duì)象)的說明部分。步驟2，進(jìn)行關(guān)系屬性歸屬判定。包含兩個(gè)基本的過程，訓(xùn)練過程，判定過程。
步驟2.1，首先借助句義標(biāo)注系統(tǒng)對(duì)文本集中表示人物關(guān)系的詞或短語(yǔ)進(jìn)行人工標(biāo)注。步驟2.2，對(duì)標(biāo)注的句子先進(jìn)行句法分析再進(jìn)行句義分析，然后提取詞法、語(yǔ)法、句義層面的關(guān)于人物關(guān)系的η維特征，基于這些η維特征搭配并構(gòu)造關(guān)系組合的m維特征。所謂關(guān)系組合是指定義“人物-關(guān)系-人物”表示兩個(gè)人物的關(guān)系。關(guān)系組合特征是表征這對(duì)人物關(guān)系的有效特征。步驟2.3，利用步驟2.2的m維關(guān)系組合特征作為輸入，采用C4.5的分類算法進(jìn)行訓(xùn)練，得到關(guān)系組合的是非二元分類模型M+，如圖3所示。以上3步為關(guān)系屬性歸屬判定的訓(xùn)練過程，接下來利用訓(xùn)練過程生成的訓(xùn)練模型進(jìn)行實(shí)際的關(guān)系屬性歸屬判定。步驟2.4，提取要判定句子中所有的關(guān)系組合作為備選關(guān)系組合I組，經(jīng)過特征提取得到備選的關(guān)系組合的m維特征。具體操作同步驟2.2，步驟2.5，在利用步驟2.3訓(xùn)練的關(guān)系組合的是非二元分類模型M+對(duì)步驟2.4的I Xm維的特征進(jìn)行分類判斷，剔除掉備選關(guān)系組合中的非法組合，保留余下的r組關(guān)系組步驟2.6，最后通過比較分類結(jié)果置信度的大小對(duì)產(chǎn)生沖突的關(guān)系組合進(jìn)行二次排除。在模型M+中，對(duì)每個(gè)判定為“是”的結(jié)果都會(huì)有相應(yīng)的置信度系數(shù)，把該置信度作為被判定為“是”的備選關(guān)系組合的置信度，用于對(duì)存在沖突的關(guān)系組合結(jié)果進(jìn)行篩選。步驟3，關(guān)系屬性消歧計(jì)算兩個(gè)人物對(duì)象之間的關(guān)系屬性權(quán)重，比較權(quán)重值的大小，以權(quán)重值最大的作為兩個(gè)人物對(duì)象之間的關(guān)系屬性。關(guān)系屬性權(quán)重計(jì)算方法為
權(quán)利要求
1.一種文本集人物關(guān)系自動(dòng)提取方法，先判定人物關(guān)系屬性歸屬，然后計(jì)算關(guān)系強(qiáng)度，進(jìn)而構(gòu)建人物關(guān)系網(wǎng)絡(luò)，并最終提取人物關(guān)系圖，其特征是:依次完成關(guān)系屬性歸屬，關(guān)系強(qiáng)度計(jì)算，關(guān)系網(wǎng)絡(luò)構(gòu)建。整體步驟如下。
2.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是確定關(guān)系詞關(guān)系屬性。內(nèi)容如下: 先對(duì)文本的句子進(jìn)行分詞處理，并為每個(gè)詞編號(hào)。提取表示人物對(duì)象的詞匯，以及表關(guān)系的詞匯，從而確定關(guān)系詞的關(guān)系屬性。
3.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是判定關(guān)系屬性模塊。內(nèi)容如下: 利用人工標(biāo)注以后的文本集語(yǔ)料進(jìn)行關(guān)系屬性歸屬判定的模型訓(xùn)練，然后再利用訓(xùn)練模型進(jìn)行實(shí)際的關(guān)系屬性歸屬判定，最后比較分類結(jié)果置信度的大小，對(duì)產(chǎn)生沖突的關(guān)系組合進(jìn)行二次排除。
4.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是關(guān)系屬性消歧模塊。內(nèi)容如下: 利用公式(I)計(jì)算人物對(duì)象的關(guān)系屬性權(quán)重，并比較權(quán)重值的大小，以權(quán)重值最大的作為兩個(gè)人物對(duì)象之間的關(guān)系屬性。關(guān)系屬性權(quán)重計(jì)算方法為
5.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是關(guān)系強(qiáng)度計(jì)算模塊。內(nèi)容如下: 利用局部因子、全局因子和關(guān)系屬性因子計(jì)算人物關(guān)系強(qiáng)度。
6.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是人物關(guān)系網(wǎng)絡(luò)構(gòu)建模塊。內(nèi)容如下: 根據(jù)關(guān)系屬性提取和關(guān)系強(qiáng)度得到一組關(guān)系系數(shù)(包括關(guān)系強(qiáng)度和關(guān)系屬性序列)。綜合所有這些關(guān)系系數(shù)構(gòu)建該文本集的關(guān)系網(wǎng)絡(luò)(Relation Net)。
7.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是提取人物關(guān)系圖模塊。內(nèi)容如下: 由關(guān)系網(wǎng)絡(luò)(Relation Net)構(gòu)建人物關(guān)系圖(Relation Map)。人物關(guān)系圖中包含3種主要元素:人物、關(guān)系線和關(guān)系屬性。人物通過關(guān)系線相連，每條關(guān)系線上標(biāo)注了兩端人物之間的關(guān)系屬性，人物關(guān)系圖中有一個(gè)中心人物，其他人物對(duì)象利用連線的長(zhǎng)短表示二人之間關(guān)系強(qiáng)度的高低，(關(guān)系強(qiáng)度值越高連線越短，距離越近)，可選的，人物關(guān)系圖以非中心人物進(jìn)行多級(jí)展開。設(shè)置一個(gè)關(guān)系強(qiáng)度的閾值作為過濾條件，該閾值具有自適應(yīng)的能力，能夠自動(dòng)適應(yīng)強(qiáng)度的均值與方差，過濾掉與中心人物之間關(guān)系較弱(關(guān)系強(qiáng)度值低)的人物對(duì)象的方式。自適應(yīng)的關(guān)系強(qiáng)度閾值計(jì)算方法為:
8.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是關(guān)系屬性歸屬判定模型的訓(xùn)練特征選用了句義模型中的多個(gè)特征。
9.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，其特征是關(guān)系屬性消歧是基于句義特征的關(guān)系屬性歸屬判定模型訓(xùn)練過程中求得的置信度的。
10.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法，關(guān)系強(qiáng)度計(jì)算依賴于關(guān)系屬性權(quán)重。
全文摘要
本發(fā)明涉及一種從中文文本或文本集中自動(dòng)提取人物關(guān)系的方法，屬于計(jì)算機(jī)科學(xué)與信息抽取技術(shù)領(lǐng)域。在該方法中，利用了句義模型特征用于判定關(guān)系屬性歸屬，并結(jié)合關(guān)系屬性消歧、人物關(guān)系強(qiáng)度計(jì)算的方法等，將分散在文本或文本集中的人物關(guān)系自動(dòng)提取出來，利用人物關(guān)系網(wǎng)絡(luò)進(jìn)行組織，并且通過人物關(guān)系圖的方式進(jìn)行展示(包括展示人物關(guān)系屬性和關(guān)系強(qiáng)度)。本發(fā)明引入句義模型特征提升了實(shí)體關(guān)系提取方法的準(zhǔn)確性，豐富了人物關(guān)系提取方法。此外，隨著文本集中關(guān)于中心人物的文本數(shù)目的增加，該發(fā)明方法對(duì)中心人物的人物關(guān)系提取將越來越準(zhǔn)確和全面，適用范圍越來越廣。
文檔編號(hào)G06F17/27GK103235772SQ20131007488
公開日2013年8月7日申請(qǐng)日期2013年3月8日優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 魏超, 潘麗敏, 韓磊申請(qǐng)人:北京理工大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：羅森林;魏超;潘麗敏;韓磊
技術(shù)所有人：北京理工大學(xué)
我是此專利的發(fā)明人

上一篇：觸控面板及其制造方法
上一篇：裝載指紋認(rèn)證功能的ic卡的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

python文本分析和提取相關(guān)技術(shù)

文本提取工具相關(guān)技術(shù)

python提取文本內(nèi)容相關(guān)技術(shù)

文本特征提取相關(guān)技術(shù)

提取文本中的數(shù)字相關(guān)技術(shù)

文本關(guān)鍵詞提取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本集人物關(guān)系自動(dòng)提取方法