專利名稱:一種文本集人物關(guān)系自動(dòng)提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種從中文文本或中文文本集中自動(dòng)提取人物關(guān)系的方法,屬于計(jì)算機(jī)科學(xué)與信息抽取技術(shù)領(lǐng)域。
背景技術(shù):
人物關(guān)系提取是把分散在文本中的人物實(shí)體及人物之間的關(guān)系準(zhǔn)確、快速的自動(dòng)提取,屬于信息抽取領(lǐng)域的研究?jī)?nèi)容。信息抽取技術(shù)(IE, Information Extraction)要完成兩大研究任務(wù):實(shí)體識(shí)別(EDR, Entity Detection and Recognition)和關(guān)系識(shí)別(RDR, Relation Detection andRecognition)。其中關(guān)系識(shí)別(也稱作“關(guān)系提取”)就是從文本中提取實(shí)體之間的存在的關(guān)系,而這些關(guān)系的類型是預(yù)先定義的。人物關(guān)系屬于實(shí)體關(guān)系中的一種,是指文本或文本集中所描述的兩個(gè)人物之間的關(guān)聯(lián)關(guān)系。對(duì)于人物關(guān)系提取,主要解決:①獲取兩個(gè)人物之間的關(guān)系屬性(關(guān)系屬性提取);②計(jì)算兩個(gè)人物之間的關(guān)聯(lián)程度(關(guān)系強(qiáng)度計(jì)算)。除此之夕卜,對(duì)于分散在文本和文本集中的人物關(guān)系的組織方式和展示形式也是需要考慮的問題。人物關(guān)系提取方法主要有兩類:基于模式識(shí)別的方法和基于機(jī)器學(xué)習(xí)的方法。1.基于模式識(shí)別的方法:(I)早期的基于模式識(shí)別的人物關(guān)系提取方法:基于模式識(shí)別的方法是通過詞法、句法等方面的特征,構(gòu)建識(shí)別所需的知識(shí)庫(kù)(或稱作規(guī)則庫(kù)),采用該知識(shí)庫(kù)來進(jìn)行模式的匹配,達(dá)到關(guān)系提取的目的。對(duì)于基于模式識(shí)別的人物關(guān)系提取方法,最困難的步驟是人物關(guān)系模式(人物關(guān)系規(guī)則庫(kù))的建立。這些人物關(guān)系模式的建立需要依靠語(yǔ)言學(xué)家,社會(huì)學(xué)家對(duì)提取任務(wù)所涉及領(lǐng)域的語(yǔ)料進(jìn)行細(xì)致深入的分析,窮舉各種可能的人物關(guān)系編制人物關(guān)系模式。這種方法編制周期太長(zhǎng),應(yīng)用成本很高。(2)對(duì)早期方法的改進(jìn)方法:針對(duì)早期的純手工編織人物關(guān)系模式的問題,后來的學(xué)者們提出了一些解決方法。a)如Appelt等人提出的FASTUS抽取系統(tǒng)中,通過引入“宏”的概念將各種領(lǐng)域依賴規(guī)則以一種具有擴(kuò)展性、通用性的方式表達(dá)。用戶只需要修改相應(yīng)“宏”中的參數(shù)設(shè)置,就可以快速配置好特定領(lǐng)域任務(wù)的關(guān)系模式規(guī)則;所謂宏,就是一些命令組織在一起,作為一個(gè)單獨(dú)命令完成一個(gè)特定任務(wù)。b) Roman等人提出的Proteus抽取系統(tǒng)采用了基于樣本泛化的人物關(guān)系抽取模式構(gòu)建方法,這種方法通過對(duì)編制的人物關(guān)系模式進(jìn)行泛化,從而使模式能適用更廣領(lǐng)域的人物關(guān)系提?。籧)Aone 等人構(gòu)建的 REES 系統(tǒng)(Large-Scale Relation and Event ExtractionSystem)中通過構(gòu)造包含100多種人物關(guān)系模式的知識(shí)庫(kù)來進(jìn)行關(guān)系提取。
d)此外,在中文方面,國(guó)內(nèi)也有一些學(xué)者采用模式識(shí)別的方法用于提取人物關(guān)系,如姜吉發(fā)等人為了減輕模式編制人員的勞動(dòng)量提出了一種自舉的二元關(guān)系和二元關(guān)系模式獲取方法一BRPAM,該方法可以通過自舉已有的二元關(guān)系擴(kuò)充知識(shí)庫(kù)(人物關(guān)系規(guī)則庫(kù)),依據(jù)該放法,姜吉發(fā)他們?cè)O(shè)計(jì)了一個(gè)能夠從自由文本中進(jìn)行二元關(guān)系抽取的IE系統(tǒng)BRPAM2Texts ;鄧擘等人將詞匯語(yǔ)義匹配引入到了關(guān)系模式匹配中,提出了一種全新的關(guān)系提取的方法。這種方法由于引入了詞匯的語(yǔ)義特性,使得人物關(guān)系提取的結(jié)果更符合客觀的邏輯,準(zhǔn)確率有了一定的提高,對(duì)于不同領(lǐng)域的人物關(guān)系可以借助相關(guān)領(lǐng)域的詞典實(shí)現(xiàn)人物關(guān)系提取。以上基于模式識(shí)別的人物關(guān)系提取方法仍然存在開發(fā)成本高昂,適用性低的不足。2.基于機(jī)器學(xué)習(xí)的方法:(I)基于機(jī)器學(xué)習(xí)的人物關(guān)系提取方法是通過機(jī)器學(xué)習(xí)算法,在人工標(biāo)引語(yǔ)料的基礎(chǔ)上構(gòu)造分類器,然后將其應(yīng)用在領(lǐng)域語(yǔ)料人物關(guān)系的類別判斷過程中。目前使用比較多的機(jī)器學(xué)習(xí)算法有MBL算法和SVM算法。如:a) Zhang等人構(gòu)建的中文命名實(shí)體及關(guān)系抽取系統(tǒng)就是采用MBL算法從訓(xùn)練數(shù)據(jù)中構(gòu)建分類規(guī)則,抽取過程中基于該規(guī)則進(jìn)行實(shí)體和關(guān)系的提?。籦) Zhang和車萬翔等則采用SVM算法進(jìn)行關(guān)系抽取規(guī)則的學(xué)習(xí);何婷婷等人提出了利用少量人工選取的實(shí)體關(guān)系作為種子(初始關(guān)系),通過自學(xué)習(xí)的方式不斷擴(kuò)充關(guān)系種子集合,來提取實(shí)體關(guān)系的方法;c)劉路等人則提出了一種基于SVM正、反例訓(xùn)練的實(shí)體關(guān)系提取方法。單純基于機(jī)器學(xué)習(xí)的方法對(duì)于文本的分析一般比較淺顯,對(duì)于中文的文本語(yǔ)料中的人物關(guān)系提取,這種方法 效果不理想。
發(fā)明內(nèi)容
本發(fā)明提出了一種基于句義模型特征的人物關(guān)系提取方法,解決從中文文本或中文文本集中自動(dòng)提取人物關(guān)系的問題。本發(fā)明的技術(shù)方案包括如下內(nèi)容:首先利用分詞系統(tǒng)進(jìn)行詞法分析;使用句義模型特征和分類算法判定關(guān)系屬性歸屬;然后計(jì)算兩個(gè)人物對(duì)象之間的關(guān)系屬性權(quán)重,通過比較權(quán)重?cái)?shù)值的大小對(duì)上一步的判定關(guān)系屬性歸屬判斷中出現(xiàn)的錯(cuò)誤而導(dǎo)致的關(guān)系屬性歧義進(jìn)行消解處理,提升關(guān)系屬性歸屬的判定精度;再利用局部因子、全局因子和關(guān)系屬性因子計(jì)算人物關(guān)系強(qiáng)度,通過關(guān)系屬性提取和關(guān)系強(qiáng)度計(jì)算后得到兩個(gè)人物間的關(guān)系系數(shù),利用從文本中得到的所有關(guān)系系數(shù)構(gòu)建人物關(guān)系網(wǎng)絡(luò)(Relation Net),最后根據(jù)人物關(guān)系網(wǎng)絡(luò)(Relation Net)構(gòu)建人物關(guān)系圖,如
圖1所示。步驟1,對(duì)文本的句子進(jìn)行分詞處理,根據(jù)分詞系統(tǒng)中的詞典數(shù)據(jù)庫(kù)的詞匯對(duì)文本語(yǔ)句做劃分,并按照詞匯在句子中的前后順序編號(hào),進(jìn)而得到組成一句話詞匯的序列。經(jīng)過分詞提取出人物對(duì)象的詞匯,以及表關(guān)系的詞匯。步驟1.1,確定關(guān)系詞的關(guān)系屬性,關(guān)系屬性被定義為描述話題人物和述題人物之間的雙向關(guān)系。話題人物指話題中提及的人物對(duì)象,話題屬于句義的概念,表示一句話要說明的對(duì)象。述題人物指述題中提及的人物對(duì)象,述題也是句義中的概念,與話題相對(duì),是一句話中對(duì)話題(對(duì)象)的說明部分。步驟2,進(jìn)行關(guān)系屬性歸屬判定。包含兩個(gè)基本的過程,訓(xùn)練過程,判定過程。
步驟2.1,首先借助句義標(biāo)注系統(tǒng)對(duì)文本集中表示人物關(guān)系的詞或短語(yǔ)進(jìn)行人工標(biāo)注。步驟2.2,對(duì)標(biāo)注的句子先進(jìn)行句法分析再進(jìn)行句義分析,然后提取詞法、語(yǔ)法、句義層面的關(guān)于人物關(guān)系的η維特征,基于這些η維特征搭配并構(gòu)造關(guān)系組合的m維特征。所謂關(guān)系組合是指定義“人物-關(guān)系-人物”表示兩個(gè)人物的關(guān)系。關(guān)系組合特征是表征這對(duì)人物關(guān)系的有效特征。步驟2.3,利用步驟2.2的m維關(guān)系組合特征作為輸入,采用C4.5的分類算法進(jìn)行訓(xùn)練,得到關(guān)系組合的是非二元分類模型M+,如圖3所示。以上3步為關(guān)系屬性歸屬判定的訓(xùn)練過程,接下來利用訓(xùn)練過程生成的訓(xùn)練模型進(jìn)行實(shí)際的關(guān)系屬性歸屬判定。步驟2.4,提取要判定句子中所有的關(guān)系組合作為備選關(guān)系組合I組,經(jīng)過特征提取得到備選的關(guān)系組合的m維特征。具體操作同步驟2.2,步驟2.5,在利用步驟2.3訓(xùn)練的關(guān)系組合的是非二元分類模型M+對(duì)步驟2.4的I Xm維的特征進(jìn)行分類判斷,剔除掉備選關(guān)系組合中的非法組合,保留余下的r組關(guān)系組步驟2.6,最后通過比較分類結(jié)果置信度的大小對(duì)產(chǎn)生沖突的關(guān)系組合進(jìn)行二次排除。在模型M+中,對(duì)每個(gè)判定為“是”的結(jié)果都會(huì)有相應(yīng)的置信度系數(shù),把該置信度作為被判定為“是”的備選關(guān)系組合的置信度,用于對(duì)存在沖突的關(guān)系組合結(jié)果進(jìn)行篩選。步驟3,關(guān)系屬性消歧計(jì)算兩個(gè)人物對(duì)象之間的關(guān)系屬性權(quán)重,比較權(quán)重值的大小,以權(quán)重值最大的作為兩個(gè)人物對(duì)象之間的關(guān)系屬性。關(guān)系屬性權(quán)重計(jì)算方法為
權(quán)利要求
1.一種文本集人物關(guān)系自動(dòng)提取方法,先判定人物關(guān)系屬性歸屬,然后計(jì)算關(guān)系強(qiáng)度,進(jìn)而構(gòu)建人物關(guān)系網(wǎng)絡(luò),并最終提取人物關(guān)系圖,其特征是:依次完成關(guān)系屬性歸屬,關(guān)系強(qiáng)度計(jì)算,關(guān)系網(wǎng)絡(luò)構(gòu)建。整體步驟如下。
2.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是確定關(guān)系詞關(guān)系屬性。內(nèi)容如下: 先對(duì)文本的句子進(jìn)行分詞處理,并為每個(gè)詞編號(hào)。提取表示人物對(duì)象的詞匯,以及表關(guān)系的詞匯,從而確定關(guān)系詞的關(guān)系屬性。
3.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是判定關(guān)系屬性模塊。內(nèi)容如下: 利用人工標(biāo)注以后的文本集語(yǔ)料進(jìn)行關(guān)系屬性歸屬判定的模型訓(xùn)練,然后再利用訓(xùn)練模型進(jìn)行實(shí)際的關(guān)系屬性歸屬判定,最后比較分類結(jié)果置信度的大小,對(duì)產(chǎn)生沖突的關(guān)系組合進(jìn)行二次排除。
4.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是關(guān)系屬性消歧模塊。內(nèi)容如下: 利用公式(I)計(jì)算人物對(duì)象的關(guān)系屬性權(quán)重,并比較權(quán)重值的大小,以權(quán)重值最大的作為兩個(gè)人物對(duì)象之間的關(guān)系屬性。關(guān)系屬性權(quán)重計(jì)算方法為
5.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是關(guān)系強(qiáng)度計(jì)算模塊。內(nèi)容如下: 利用局部因子、全局因子和關(guān)系屬性因子計(jì)算人物關(guān)系強(qiáng)度。
6.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是人物關(guān)系網(wǎng)絡(luò)構(gòu)建模塊。內(nèi)容如下: 根據(jù)關(guān)系屬性提取和關(guān)系強(qiáng)度得到一組關(guān)系系數(shù)(包括關(guān)系強(qiáng)度和關(guān)系屬性序列)。綜合所有這些關(guān)系系數(shù)構(gòu)建該文本集的關(guān)系網(wǎng)絡(luò)(Relation Net)。
7.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是提取人物關(guān)系圖模塊。內(nèi)容如下: 由關(guān)系網(wǎng)絡(luò)(Relation Net)構(gòu)建人物關(guān)系圖(Relation Map)。人物關(guān)系圖中包含3種主要元素:人物、關(guān)系線和關(guān)系屬性。人物通過關(guān)系線相連,每條關(guān)系線上標(biāo)注了兩端人物之間的關(guān)系屬性,人物關(guān)系圖中有一個(gè)中心人物,其他人物對(duì)象利用連線的長(zhǎng)短表示二人之間關(guān)系強(qiáng)度的高低,(關(guān)系強(qiáng)度值越高連線越短,距離越近),可選的,人物關(guān)系圖以非中心人物進(jìn)行多級(jí)展開。設(shè)置一個(gè)關(guān)系強(qiáng)度的閾值作為過濾條件,該閾值具有自適應(yīng)的能力,能夠自動(dòng)適應(yīng)強(qiáng)度的均值與方差,過濾掉與中心人物之間關(guān)系較弱(關(guān)系強(qiáng)度值低)的人物對(duì)象的方式。自適應(yīng)的關(guān)系強(qiáng)度閾值計(jì)算方法為:
8.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是關(guān)系屬性歸屬判定模型的訓(xùn)練特征選用了句義模型中的多個(gè)特征。
9.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,其特征是關(guān)系屬性消歧是基于句義特征的關(guān)系屬性歸屬判定模型訓(xùn)練過程中求得的置信度的。
10.根據(jù)權(quán)利要求1所述的一種文本集人物關(guān)系自動(dòng)提取方法,關(guān)系強(qiáng)度計(jì)算依賴于關(guān)系屬性權(quán)重。
全文摘要
本發(fā)明涉及一種從中文文本或文本集中自動(dòng)提取人物關(guān)系的方法,屬于計(jì)算機(jī)科學(xué)與信息抽取技術(shù)領(lǐng)域。在該方法中,利用了句義模型特征用于判定關(guān)系屬性歸屬,并結(jié)合關(guān)系屬性消歧、人物關(guān)系強(qiáng)度計(jì)算的方法等,將分散在文本或文本集中的人物關(guān)系自動(dòng)提取出來,利用人物關(guān)系網(wǎng)絡(luò)進(jìn)行組織,并且通過人物關(guān)系圖的方式進(jìn)行展示(包括展示人物關(guān)系屬性和關(guān)系強(qiáng)度)。本發(fā)明引入句義模型特征提升了實(shí)體關(guān)系提取方法的準(zhǔn)確性,豐富了人物關(guān)系提取方法。此外,隨著文本集中關(guān)于中心人物的文本數(shù)目的增加,該發(fā)明方法對(duì)中心人物的人物關(guān)系提取將越來越準(zhǔn)確和全面,適用范圍越來越廣。
文檔編號(hào)G06F17/27GK103235772SQ20131007488
公開日2013年8月7日 申請(qǐng)日期2013年3月8日 優(yōu)先權(quán)日2013年3月8日
發(fā)明者羅森林, 魏超, 潘麗敏, 韓磊 申請(qǐng)人:北京理工大學(xué)