一種隱式篇章關(guān)系的分析方法及系統(tǒng)的制作方法
【專利摘要】本申請(qǐng)公開了一種隱式篇章關(guān)系的分析方法及系統(tǒng),其中方法包括:接收輸入的包括前置論元和后置論元的待測(cè)隱式論元實(shí)例,在語(yǔ)料庫(kù)中篩選與其具有語(yǔ)義平行性且包含預(yù)設(shè)連接線索詞的顯式論元實(shí)例,計(jì)算每個(gè)顯式論元實(shí)例與待測(cè)隱式論元實(shí)例的語(yǔ)義平行度,按照第一預(yù)設(shè)規(guī)則篩選出若干個(gè)顯式論元實(shí)例,確定為平行顯式論元實(shí)例集合,計(jì)算每個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置信度,至少利用每個(gè)平行顯式論元實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度及第二預(yù)設(shè)規(guī)則,計(jì)算平行顯式論元實(shí)例集合中每一類篇章關(guān)系與待測(cè)隱式論元實(shí)例的篇章關(guān)系的平行概率,將平行概率最大的一類篇章關(guān)系確定為待測(cè)隱式論元實(shí)例的篇章關(guān)系。實(shí)現(xiàn)了對(duì)于隱式篇章關(guān)系的識(shí)別的目的。
【專利說(shuō)明】一種隱式篇章關(guān)系的分析方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本申請(qǐng)涉及自然語(yǔ)言處理【技術(shù)領(lǐng)域】,更具體地說(shuō),涉及一種隱式篇章關(guān)系的分析 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 在篇章研究領(lǐng)域,篇章是論元經(jīng)過(guò)語(yǔ)義關(guān)聯(lián)和結(jié)構(gòu)化組織形成的自然語(yǔ)言文體。 篇章關(guān)系是同一篇章內(nèi)部,相鄰論元或跨度在一定范圍內(nèi)的論元間的語(yǔ)義關(guān)聯(lián)性質(zhì),如對(duì) 比關(guān)系、擴(kuò)展關(guān)系等。其中,論元是篇章中具有獨(dú)立語(yǔ)義的文字片段,是形成篇章關(guān)系的基 本表現(xiàn)單元。篇章關(guān)系分析是解釋論元間的語(yǔ)義關(guān)系。
[0003] 根據(jù)論元間是否存在顯式連接詞(如"所以"等),篇章關(guān)系可以劃分為顯式關(guān)系 和隱式關(guān)系兩類。顯式關(guān)系因具有連接詞等指向特定篇章關(guān)系的直觀線索而易于檢測(cè)。但 是,隱式篇章關(guān)系由于缺乏連接詞,其檢測(cè)難度非常大,目前還沒(méi)有一種有效的方案,能夠 針對(duì)隱式篇章關(guān)系進(jìn)行分析。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本申請(qǐng)?zhí)峁┝艘环N隱式篇章關(guān)系的分析方法及系統(tǒng),用于解決現(xiàn)有技 術(shù)缺乏對(duì)隱式篇章關(guān)系進(jìn)行分析的有效方案。
[0005] 為了實(shí)現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006] -種隱式篇章關(guān)系的分析方法,包括:
[0007] 接收用戶輸入的包括前置論元和后置論元的待測(cè)隱式論元實(shí)例;
[0008] 在語(yǔ)料庫(kù)中篩選與所述待測(cè)隱式論元實(shí)例具有語(yǔ)義平行性且包含預(yù)設(shè)連接線索 詞的顯式論元實(shí)例;
[0009] 計(jì)算每個(gè)所述顯式論元實(shí)例與所述待測(cè)隱式論元實(shí)例的語(yǔ)義平行度;
[0010] 按照第一預(yù)設(shè)規(guī)則,篩選出若干個(gè)所述顯式論元實(shí)例并確定為平行顯式論元實(shí)例 集合;
[0011] 計(jì)算每一個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置信度;
[0012] 至少利用每一個(gè)平行顯式論元實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度及第二預(yù)設(shè)規(guī) 貝1J,計(jì)算平行顯式論元實(shí)例集合中每一類篇章關(guān)系與待測(cè)隱式論元實(shí)例的篇章關(guān)系的平行 概率;
[0013] 將平行概率最大的一類篇章關(guān)系確定為所述待測(cè)隱式論元實(shí)例的篇章關(guān)系。
[0014] 優(yōu)選地,所述在語(yǔ)料庫(kù)中篩選出與所述待測(cè)隱式論元實(shí)例具有語(yǔ)義平行性且包含 預(yù)設(shè)連接線索詞的顯式論元實(shí)例為:
[0015] 分別抽取所述待測(cè)隱式論元實(shí)例的前置論元、后置論元的二元文法,得到若干個(gè) 前置文法和若干個(gè)后置文法;
[0016] 將每一個(gè)所述前置文法分別與各個(gè)所述后置文法進(jìn)行組合,并將每一個(gè)組合確定 為一個(gè)查詢條件;
[0017] 利用每一個(gè)所述查詢條件在所述語(yǔ)料庫(kù)中查找包含預(yù)設(shè)連接線索詞的顯式論元 實(shí)例。
[0018] 優(yōu)選地,所述計(jì)算每個(gè)所述顯式論元實(shí)例與所述待測(cè)隱式論元實(shí)例的語(yǔ)義平行度 為:
[0019] 利用Jaccard算法,計(jì)算每個(gè)所述顯式論元實(shí)例的前置論元與所述待測(cè)隱式論元 實(shí)例的前置論元的平行度,確定為第一平行度;
[0020] 利用Jaccard算法,計(jì)算每個(gè)所述顯式論元實(shí)例的后置論元與所述待測(cè)隱式論元 實(shí)例的后置論元的平行度,確定為第二平行度;
[0021] 求取所述第一平行度與所述第二平行度的平均值,并確定為所述待測(cè)隱式論元實(shí) 例的語(yǔ)義平行度。
[0022] 優(yōu)選地,所述第一預(yù)設(shè)規(guī)則為:
[0023] 選取順序排列的若干個(gè)顯式論元實(shí)例中預(yù)設(shè)比例的前η個(gè)顯式論元實(shí)例,確定為 平行顯式論元實(shí)例集合;或者,
[0024] 選取滿足預(yù)設(shè)語(yǔ)義平行度參考值的顯式論元實(shí)例,確定為平行顯式論元實(shí)例集 合。
[0025] 優(yōu)選地,所述計(jì)算每一個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置信度為:
【權(quán)利要求】
1. 一種隱式篇章關(guān)系的分析方法,其特征在于,包括: 接收用戶輸入的包括前置論元和后置論元的待測(cè)隱式論元實(shí)例; 在語(yǔ)料庫(kù)中篩選與所述待測(cè)隱式論元實(shí)例具有語(yǔ)義平行性且包含預(yù)設(shè)連接線索詞的 顯式論元實(shí)例; 計(jì)算每個(gè)所述顯式論元實(shí)例與所述待測(cè)隱式論元實(shí)例的語(yǔ)義平行度; 按照第一預(yù)設(shè)規(guī)則,篩選出若干個(gè)所述顯式論元實(shí)例并確定為平行顯式論元實(shí)例集 合; 計(jì)算每一個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置信度; 至少利用每一個(gè)平行顯式論元實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度及第二預(yù)設(shè)規(guī)則, 計(jì)算平行顯式論元實(shí)例集合中每一類篇章關(guān)系與待測(cè)隱式論元實(shí)例的篇章關(guān)系的平行概 率; 將平行概率最大的一類篇章關(guān)系確定為所述待測(cè)隱式論元實(shí)例的篇章關(guān)系。
2. 根據(jù)權(quán)利要求1所述的分析方法,其特征在于,所述在語(yǔ)料庫(kù)中篩選出與所述待測(cè) 隱式論元實(shí)例具有語(yǔ)義平行性且包含預(yù)設(shè)連接線索詞的顯式論元實(shí)例為: 分別抽取所述待測(cè)隱式論元實(shí)例的前置論元、后置論元的二元文法,得到若干個(gè)前置 文法和若干個(gè)后置文法; 將每一個(gè)所述前置文法分別與各個(gè)所述后置文法進(jìn)行組合,并將每一個(gè)組合確定為一 個(gè)查詢條件; 利用每一個(gè)所述查詢條件在所述語(yǔ)料庫(kù)中查找包含預(yù)設(shè)連接線索詞的顯式論元實(shí)例。
3. 根據(jù)權(quán)利要求2所述的分析方法,其特征在于,所述計(jì)算每個(gè)所述顯式論元實(shí)例與 所述待測(cè)隱式論元實(shí)例的語(yǔ)義平行度為: 利用Jaccard算法,計(jì)算每個(gè)所述顯式論元實(shí)例的前置論元與所述待測(cè)隱式論元實(shí)例 的前置論元的平行度,確定為第一平行度; 利用Jaccard算法,計(jì)算每個(gè)所述顯式論元實(shí)例的后置論元與所述待測(cè)隱式論元實(shí)例 的后置論元的平行度,確定為第二平行度; 求取所述第一平行度與所述第二平行度的平均值,并確定為所述待測(cè)隱式論元實(shí)例的 語(yǔ)義平行度。
4. 根據(jù)權(quán)利要求3所述的分析方法,其特征在于,所述第一預(yù)設(shè)規(guī)則為: 選取順序排列的若干個(gè)顯式論元實(shí)例中預(yù)設(shè)比例的前η個(gè)顯式論元實(shí)例,確定為平行 顯式論元實(shí)例集合;或者, 選取滿足預(yù)設(shè)語(yǔ)義平行度參考值的顯式論元實(shí)例,確定為平行顯式論元實(shí)例集合。
5. 根據(jù)權(quán)利要求4所述的分析方法,其特征在于,所述計(jì)算每一個(gè)平行顯式論元實(shí)例 的篇章關(guān)系的置信度為: ? G丨.logiG) j fences Gj = I gj_gn〇rm(j) I 其中,j代表篇章關(guān)系,gj表示篇章關(guān)系j在平行顯式論元實(shí)例集合中的概率分布, gn_(j)表示篇章關(guān)系J在所述語(yǔ)料庫(kù)中的概率分布,G」表示篇章關(guān)系J的分布概率差異, j G sences,sences為篇章關(guān)系集合。
6. 根據(jù)權(quán)利要求5所述的分析方法,其特征在于,所述至少利用每一個(gè)平行顯式論元 實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度及第二預(yù)設(shè)規(guī)則,計(jì)算平行顯式論元實(shí)例集合中每一 類篇章關(guān)系與待測(cè)隱式論元實(shí)例的篇章關(guān)系的平行概率為: 將每一個(gè)所述平行顯式論元實(shí)例的語(yǔ)義平行度與篇章關(guān)系置信度相乘,相乘結(jié)果確定 為平行概率P。:
其中,u為具有篇章關(guān)系c的所有平行顯式論元實(shí)例的集合,simi為第i個(gè)平行顯式論 元實(shí)例與待測(cè)隱式論元實(shí)例的語(yǔ)義平行度,氏為第i個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置 信度。
7. 根據(jù)權(quán)利要求5所述的分析方法,其特征在于,在所述計(jì)算每一個(gè)平行顯式論元實(shí) 例的篇章關(guān)系的置信度之后,還包括: 計(jì)算每一個(gè)平行顯式論元實(shí)例與待測(cè)隱式論元實(shí)例的同指焦點(diǎn)一致性概率,過(guò)程如 下: 利用下述公式分別計(jì)算待測(cè)隱式論元實(shí)例中的每個(gè)論元特征作為論元焦點(diǎn)的概率,以 及計(jì)算各個(gè)平行顯式論元實(shí)例中的每個(gè)論元特征作為論元焦點(diǎn)的概率:
其中,P(f| t)表示當(dāng)前論元實(shí)例t中的論元特征f作為論元焦點(diǎn)的概率,wi為論元特 征,h表示當(dāng)前論元實(shí)例所屬的篇章中TFIDF權(quán)重最高的nk個(gè)關(guān)鍵詞中的第j個(gè),當(dāng)前論 元實(shí)例t為待測(cè)隱式論元實(shí)例或者任意一個(gè)平行顯式論元實(shí)例; 其中,rel (Wi, kj)表示論元特征&與篇章中某個(gè)關(guān)鍵詞kj的相關(guān)性,PMI (Wi, kj)表示 Wi與&的互信息,P (Key |kj表示關(guān)鍵詞&在篇章中的關(guān)鍵程度,由關(guān)鍵詞&在篇章中的 分散分布頻率除以關(guān)鍵詞頻率計(jì)算得出; 在以論元特征為X軸,論元特征作為論元焦點(diǎn)的概率為y軸的二維坐標(biāo)系中,將表征待 測(cè)隱式論元實(shí)例中各個(gè)論元特征作為論元焦點(diǎn)的概率的點(diǎn)進(jìn)行擬合,得到待測(cè)隱式論元實(shí) 例的焦點(diǎn)概率曲線,將表征每個(gè)平行顯式論元實(shí)例中各個(gè)論元特征作為論元焦點(diǎn)的概率點(diǎn) 進(jìn)行擬合,得到每一個(gè)平行顯式論元實(shí)例的焦點(diǎn)概率曲線; 計(jì)算每一個(gè)平行顯式論元實(shí)例與待測(cè)隱式論元實(shí)例的同指焦點(diǎn)一致性概率Di ;
其中,h為平行顯示論元實(shí)例和待測(cè)隱式論元實(shí)例中所有不同的論元特征的個(gè)數(shù), fi(x)和A(X)分別表示待測(cè)隱式論元實(shí)例和平行顯式論元實(shí)例的焦點(diǎn)概率曲線。
8. 根據(jù)權(quán)利要求7所述的分析方法,其特征在于,所述至少利用每一個(gè)平行顯式論元 實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度及第二預(yù)設(shè)規(guī)則,計(jì)算平行顯式論元實(shí)例集合中每一 類篇章關(guān)系與待測(cè)隱式論元實(shí)例的篇章關(guān)系的平行概率為: 將每一個(gè)所述平行顯式論元實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信度和同指焦點(diǎn)一致性概 率相乘,相乘結(jié)果確定為平行概率P。:
其中,U為具有篇章關(guān)系C的所有平行顯式論元實(shí)例的集合,sinii為第i個(gè)平行顯式論 元實(shí)例與待測(cè)隱式論元實(shí)例的語(yǔ)義平行度,Hi為第i個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置 信度,Di為第i個(gè)平行顯式論元實(shí)例與待測(cè)隱式論元實(shí)例的同指焦點(diǎn)一致性概率。
9. 一種隱式篇章關(guān)系的分析系統(tǒng),其特征在于,包括: 數(shù)據(jù)接收單元,用于接收用戶輸入的包括前置論元和后置論元的待測(cè)隱式論元實(shí)例; 第一篩選單元,用于在語(yǔ)料庫(kù)中篩選與所述待測(cè)隱式論元實(shí)例具有語(yǔ)義平行性且包含 預(yù)設(shè)連接線索詞的顯式論元實(shí)例; 第一計(jì)算單元,用于計(jì)算每個(gè)所述顯式論元實(shí)例與所述待測(cè)隱式論元實(shí)例的語(yǔ)義平行 度; 第二篩選單元,用于按照第一預(yù)設(shè)規(guī)則,篩選出若干個(gè)所述顯式論元實(shí)例并確定為平 行顯式論元實(shí)例集合; 第二計(jì)算單元,用于計(jì)算每一個(gè)平行顯式論元實(shí)例的篇章關(guān)系的置信度; 第三計(jì)算單元,用于至少利用每一個(gè)平行顯式論元實(shí)例的語(yǔ)義平行度、篇章關(guān)系置信 度及第二預(yù)設(shè)規(guī)則,計(jì)算平行顯式論元實(shí)例集合中每一類篇章關(guān)系與待測(cè)隱式論元實(shí)例的 篇章關(guān)系的平行概率; 關(guān)系確定單元,用于將平行概率最大的一類篇章關(guān)系確定為所述待測(cè)隱式論元實(shí)例的 篇章關(guān)系。
10. 根據(jù)權(quán)利要求9所述的分析系統(tǒng),其特征在于,所述第一篩選單元包括: 抽取單元,用于分別抽取所述待測(cè)隱式論元實(shí)例的前置論元、后置論元的二元文法,得 到若干個(gè)前置文法和若干個(gè)后置文法; 組合單元,用于將每一個(gè)所述前置文法分別與各個(gè)所述后置文法進(jìn)行組合,并將每一 個(gè)組合確定為一個(gè)查詢條件; 查詢單元,用于利用每一個(gè)所述查詢條件在所述語(yǔ)料庫(kù)中查找包含預(yù)設(shè)連接線索詞的 顯式論元實(shí)例。
【文檔編號(hào)】G06F17/30GK104090868SQ201410379412
【公開日】2014年10月8日 申請(qǐng)日期:2014年8月4日 優(yōu)先權(quán)日:2014年8月4日
【發(fā)明者】洪宇, 車婷婷, 姚建民 申請(qǐng)人:蘇州大學(xué)