一種隱式篇章關(guān)系類型推理方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種隱式篇章關(guān)系類型推理方法及系統(tǒng),從中文和英文兩個(gè)方面,在網(wǎng)絡(luò)中檢索與隱式篇章平行的顯式篇章,再通過計(jì)算平行顯式篇章與隱式篇章的相似度,選出與隱式篇章整體相似度最高的平行顯式篇章,然后根據(jù)所述平行顯式篇章的關(guān)系類型,來確定隱式篇章的關(guān)系類型。由于本發(fā)明提供的方法和系統(tǒng),通過網(wǎng)絡(luò)獲得與隱式篇章相關(guān)的中文和英文篇章資源,因而,能夠獲得更多與隱式篇章相似度更高的顯式篇章,從而提高了隱式篇章的關(guān)系類型推理的精確率。
【專利說明】一種隱式篇章關(guān)系類型推理方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語言處理【技術(shù)領(lǐng)域】,更具體地說,涉及一種隱式篇章關(guān)系類型推理方法及系統(tǒng)。
【背景技術(shù)】
[0002]目前,篇章關(guān)系分析是自然語言處理的一個(gè)核心問題。篇章是指由一系列連續(xù)子句、句子或語段構(gòu)成的語言整體,篇章關(guān)系是指同一篇章中相鄰的句子之間的語義連接關(guān)系,篇章關(guān)系類型分析是指自動(dòng)檢測(cè)同一篇章內(nèi)相鄰子句、句子或語段之間的組織結(jié)構(gòu)及邏輯關(guān)系,如因果關(guān)系、轉(zhuǎn)折關(guān)系等。
[0003]根據(jù)篇章中句子之間是否存在顯式連接詞(如因?yàn)椤⒌堑?,將篇章關(guān)系分為顯式篇章關(guān)系和隱式篇章關(guān)系。在對(duì)顯式篇章進(jìn)行關(guān)系類型分析時(shí),可直接根據(jù)顯式連接詞推斷其具體關(guān)系類型,例如,顯式篇章的顯式連接詞為“所以”,則顯式篇章的關(guān)系類型為“因果關(guān)系”。但是,隱式篇章由于不具有顯式連接詞,因此,在對(duì)隱式篇章關(guān)系類型進(jìn)行分析時(shí),只能通過自然語言處理技術(shù),結(jié)合語言學(xué)信息、具體的上下文語義信息以及相關(guān)領(lǐng)域知識(shí)進(jìn)行推理,來識(shí)別隱式篇章關(guān)系的類型。
[0004]現(xiàn)有的隱式篇章關(guān)系類型推理均是采用監(jiān)督學(xué)習(xí)的方法,即采用模版匹配的方法,從生語料庫中抽取顯式篇章,并直接去除顯式篇章中的連接詞,人為構(gòu)成隱式篇章模版,來獲得訓(xùn)練和測(cè)試數(shù)據(jù),然后選擇數(shù)據(jù)中的單詞信息作為基本特征,來進(jìn)行隱式篇章關(guān)系的分類。
[0005]由于現(xiàn)有的隱式篇章關(guān)系類型推理方法中,隱式篇章模版是根據(jù)生語料庫中的顯式篇章人為構(gòu)建的,而數(shù)據(jù)庫的資源又是有限的,因此,在對(duì)自然隱式篇章進(jìn)行關(guān)系類型推理時(shí),使得精確率較低。
【發(fā)明內(nèi)容】
[0006]有鑒于此,本發(fā)明提供了一種隱式篇章關(guān)系類型推理方法及系統(tǒng),以提高隱式篇章關(guān)系類型推理的精確率。
[0007]為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
[0008]一種隱式篇章關(guān)系類型推理方法,包括:
[0009]將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得中文篇章和英文篇章;
[0010]從所述中文篇章和英文篇章中,選出與所述中文隱式篇章對(duì)應(yīng)的中文平行顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文平行顯式篇章;
[0011]計(jì)算所述中文平行顯式篇章與所述中文隱式篇章的相似度,以及所述英文平行顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文平行顯式篇章和英文平行顯式篇章;
[0012]檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
[0013]優(yōu)選的,所述構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞的過程,具體為:
[0014]選出所述中文隱式篇章的實(shí)詞,并將所述實(shí)詞任意組合,構(gòu)建實(shí)詞對(duì),所述實(shí)詞對(duì)即為中文關(guān)鍵詞;
[0015]選出所述英文隱式篇章的二元組,并將所述二元組任意組合,構(gòu)建二元組對(duì),所述二元組對(duì)即為英文關(guān)鍵詞,其中,所述二元組是由兩個(gè)連續(xù)詞匯構(gòu)成。
[0016]優(yōu)選的,所述選出與所述中文隱式篇章對(duì)應(yīng)的中文平行顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文平行顯式篇章的原則是:
[0017]所述篇章的兩個(gè)句子之間由顯式連接詞銜接;
[0018]所述顯式篇章的第一句具有與所述隱式篇章的第一句相同的二元組或?qū)嵲~;
[0019]所述顯式篇章的第二句具有與所述隱式篇章的第二句相同的二元組或?qū)嵲~;
[0020]所述顯式篇章中的兩個(gè)句子分別與所述隱式篇章中的兩個(gè)句子平行,即對(duì)應(yīng)核心詞相同;
[0021]其中,所述隱式篇章為具有兩個(gè)相鄰句子的隱式篇章,所述兩個(gè)相鄰的句子即為
第一句和第二句。
[0022]優(yōu)選的,所述計(jì)算所述中文顯式篇章與所述中文隱式篇章的相似度,以及所述英文顯式篇章與所述英文隱式篇章的相似度,具體為:
[0023]利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述中文顯式篇章的第一句與所述中文隱式篇章的第一句的相似度,所述中文顯式篇章的第二句與所述中文隱式篇章的第二句的相似度;
[0024]利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述英文顯式篇章的第一句與所述英文隱式篇章的第一句的相似度,所述英文顯式篇章的第二句與所述英文隱式篇章的第二句的相似度。
[0025]優(yōu)選的,所述選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章,具體為:
[0026]計(jì)算所述中文顯式篇章與所述中文隱式篇章的整體相似度,以及所述英文顯式篇章與所述英文隱式篇章的整體相似度,并選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章。
[0027]優(yōu)選的,所述根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型,具體為:
[0028]獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型后,計(jì)算各關(guān)系類型的分值,分值最高的關(guān)系類型即可確定為所述隱式篇章的關(guān)系類型。
[0029]—種隱式篇章關(guān)系類型推理系統(tǒng),包括:
[0030]網(wǎng)絡(luò)檢索模塊,用于將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得相關(guān)的中文篇章和英文篇章;
[0031]第一選擇模塊,用于從所述中文篇章和英文篇章中,選出與所述中文隱式篇章對(duì)應(yīng)的中文顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文顯式篇章;
[0032]第二選擇模塊,用于計(jì)算所述中文顯式篇章與所述中文隱式篇章的相似度,以及所述英文顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章;[0033]檢測(cè)模塊,用于檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
[0034]優(yōu)選的,所述網(wǎng)絡(luò)檢索模塊包括:
[0035]翻譯模塊,用于將英文隱式篇章翻譯成中文隱式篇章;
[0036]關(guān)鍵詞模塊,用于根據(jù)所述中文隱式篇章和英文隱式篇章的關(guān)鍵信息,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞;
[0037]檢索子模塊,用于根據(jù)所述中文關(guān)鍵詞和英文關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得相關(guān)的中文篇章和英文篇章。
[0038]優(yōu)選的,所述關(guān)鍵詞模塊包括:
[0039]中文關(guān)鍵詞模塊,用于選出所述中文隱式篇章的實(shí)詞,并將所述實(shí)詞任意組合,構(gòu)建實(shí)詞對(duì),所述實(shí)詞對(duì)即為中文關(guān)鍵詞;
[0040]英文關(guān)鍵詞模塊,用于選出所述英文隱式篇章的二元組,并將所述二元組任意組合,構(gòu)建二元組對(duì),所述二元組對(duì)即為英文關(guān)鍵詞。
[0041]優(yōu)選的,所述檢索子模塊包括:
[0042]中文檢索子模塊,用于根據(jù)所述中文關(guān)鍵詞,利用百度搜索引擎,進(jìn)行中文篇章的網(wǎng)絡(luò)檢索;
[0043]英文檢索子模塊,用于根據(jù)所述英文關(guān)鍵詞,利用谷歌搜索引擎,進(jìn)行英文篇章的網(wǎng)絡(luò)檢索。
[0044]與現(xiàn)有技術(shù)相比,本發(fā)明所提供的技術(shù)方案具有以下優(yōu)點(diǎn):
[0045]本發(fā)明所提供的隱式篇章關(guān)系類型推理方法及系統(tǒng),從中文和英文兩個(gè)方面,在網(wǎng)絡(luò)中檢索與隱式篇章平行的顯式篇章,再通過計(jì)算平行顯式篇章與隱式篇章的相似度,選出與隱式篇章整體相似度最高的平行顯式篇章,然后根據(jù)所述平行顯式篇章的關(guān)系類型,來確定隱式篇章的關(guān)系類型。由于本發(fā)明提供的方法和系統(tǒng),通過網(wǎng)絡(luò)獲得與隱式篇章相關(guān)的中文和英文篇章資源,因而,能夠獲得更多與隱式篇章相似度更高的顯式篇章,從而提高了隱式篇章的關(guān)系類型推理的精確率。
【專利附圖】
【附圖說明】
[0046]為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0047]圖1為本發(fā)明實(shí)施例一提供的隱式篇章關(guān)系類型推理方法流程圖;
[0048]圖2為本發(fā)明實(shí)施例二提供的隱式篇章關(guān)系類型推理系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0049]正如【背景技術(shù)】所述,現(xiàn)有的隱式篇章關(guān)系類型推理均是采用監(jiān)督學(xué)習(xí)的方法,SP采用模版匹配的方法,從生語料庫中抽取顯式篇章,并直接去除顯式篇章中的連接詞,人為構(gòu)成隱式篇章模版,來獲得訓(xùn)練和測(cè)試數(shù)據(jù),然后選擇數(shù)據(jù)中的單詞信息作為基本特征,來進(jìn)行隱式篇章關(guān)系的分類。[0050]對(duì)于隱式篇章的關(guān)系類型推理,一方面有利于理解隱式篇章的文本內(nèi)容,以及根據(jù)文本內(nèi)容的連貫性評(píng)估文本質(zhì)量;另一方面還有利于輔助解決自然語言處理領(lǐng)域的其它問題,比如,因果關(guān)系可以用于自動(dòng)問答系統(tǒng),轉(zhuǎn)折關(guān)系可以用于情感分析等。
[0051]但是,由于現(xiàn)有的隱式篇章關(guān)系類型分析方法中,隱式篇章模版是根據(jù)生語料庫中的顯式篇章人為構(gòu)建的,而數(shù)據(jù)庫的資源又是有限的,因此,在對(duì)自然隱式篇章進(jìn)行關(guān)系類型分析時(shí),使得精確率較低。
[0052]基于此,本發(fā)明提供了一種隱式篇章關(guān)系類型推理方法,以克服現(xiàn)有技術(shù)存在的上述問題,包括:
[0053]將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得中文篇章和英文篇章;
[0054]從所述中文篇章和英文篇章中,選出與所述中文隱式篇章平行的中文平行顯式篇章以及與所述英文隱式篇章平行的英文平行顯式篇章;
[0055]計(jì)算所述中文平行顯式篇章與所述中文隱式篇章的相似度,以及所述英文平行顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文平行顯式篇章和英文平行顯式篇章;
[0056]檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
[0057]本發(fā)明還提供了一種隱式篇章關(guān)系類型推理系統(tǒng),與上述隱式篇章關(guān)系類型推理方法相適用,來克服現(xiàn)有技術(shù)存在的上述問題,包括:
[0058]網(wǎng)絡(luò)檢索模塊,用于將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得相關(guān)的中文篇章和英文篇章;
[0059]第一選擇模塊,用于從所述中文篇章和英文篇章中,選出與所述中文隱式篇章平行的中文顯式篇章以及與所述英文隱式篇章平行的英文顯式篇章;
[0060]第二選擇模塊,用于計(jì)算所述中文顯式篇章與所述中文隱式篇章的相似度,以及所述英文顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章;
[0061]檢測(cè)模塊,用于檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
[0062]本發(fā)明所提供的隱式篇章關(guān)系類型推理方法及系統(tǒng),從中文和英文兩個(gè)方面,在網(wǎng)絡(luò)中檢索與隱式篇章平行的顯式篇章,再通過計(jì)算平行顯式篇章與隱式篇章的相似度,選出與隱式篇章整體相似度最高的平行顯式篇章,然后根據(jù)所述平行顯式篇章的關(guān)系類型,來確定隱式篇章的關(guān)系類型。由于本發(fā)明提供的方法和系統(tǒng),通過網(wǎng)絡(luò)獲得與隱式篇章相關(guān)的中文和英文篇章資源,因而,能夠獲得更多與隱式篇章相似度更高的顯式篇章,從而提高了隱式篇章的關(guān)系類型分析的精確率。
[0063]以上是本發(fā)明的核心思想,為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的【具體實(shí)施方式】做詳細(xì)的說明。
[0064]在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來實(shí)施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似推廣,因此本發(fā)明不受下面公開的具體實(shí)施例的限制。[0065]其次,本發(fā)明結(jié)合示意圖進(jìn)行詳細(xì)描述,在詳述本發(fā)明實(shí)施例時(shí),為便于說明,表示器件結(jié)構(gòu)的剖面圖會(huì)不依一般比例作局部放大,而且所述示意圖只是示例,其在此不應(yīng)限制本發(fā)明保護(hù)的范圍。此外,在實(shí)際制作中應(yīng)包含長度、寬度及深度的三維空間尺寸。
[0066]下面通過實(shí)施例來進(jìn)行詳細(xì)描述。
[0067]實(shí)施例一
[0068]本實(shí)施例提供了一種隱式篇章關(guān)系類型推理方法,來對(duì)隱式篇章的關(guān)系類型進(jìn)行分析,其流程圖如圖1所示,包括如下步驟:
[0069]SlOl:將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得中文篇章和英文篇章;
[0070]網(wǎng)絡(luò)中具有大量的篇章信息,為了從網(wǎng)絡(luò)中檢索出與英文隱式篇章相關(guān)的篇章,就要先構(gòu)建這一隱式篇章的關(guān)鍵詞。而為了獲得更多的篇章資源,需從中文和英文兩個(gè)方面,來檢索篇章資源。
[0071]基于此,本實(shí)施例采用在線機(jī)器翻譯工具對(duì)隱式篇章進(jìn)行了翻譯,所述隱式篇章為具有兩個(gè)相鄰句子的隱式篇章,所述兩個(gè)相鄰的句子即為第一句和第二句。將英文隱式篇章翻譯成中文隱式篇章,然后根據(jù)中文隱式篇章和英文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,然后再根據(jù)中文關(guān)鍵詞從網(wǎng)絡(luò)中檢索獲得與中文隱式篇章相關(guān)的中文篇章,根據(jù)英文關(guān)鍵詞從網(wǎng)絡(luò)中檢索獲得與英文隱式篇章相關(guān)的英文篇章。
[0072]其中,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞的過程,具體為:選出所述中文隱式篇章的實(shí)詞,并將所述實(shí)詞任意組合,構(gòu)建實(shí)詞對(duì),所述實(shí)詞對(duì)即為中文關(guān)鍵詞;選出所述英文隱式篇章的二元組,并將所述二元組任意組合,構(gòu)建二元組對(duì),所述二元組對(duì)即為英文關(guān)鍵詞,其中,所述二元組是由兩個(gè)連續(xù)詞匯構(gòu)成。
[0073]當(dāng)隱式篇章是英文隱式篇章時(shí),直接選出所述英文隱式篇章的兩個(gè)句子的二元組,并將這些二元組按照笛卡爾積的方式進(jìn)行任意組合,構(gòu)成若干二元組對(duì),每個(gè)二元組對(duì)均作為英文關(guān)鍵詞,其中,所述二元組是指兩個(gè)連續(xù)詞匯構(gòu)成的整體。
[0074]在構(gòu)建翻譯后的中文隱式篇章的中文關(guān)鍵詞時(shí),由于中文隱式篇章是通過在線機(jī)器翻譯工具直接翻譯而來,可能會(huì)缺失句式的結(jié)構(gòu)信息,因此,不能再采用二元組對(duì)作為關(guān)鍵詞,而是通過選出中文隱式篇章的兩個(gè)句子的實(shí)詞,并將所述實(shí)詞按照笛卡爾積的方式進(jìn)行任意組合,構(gòu)建若干個(gè)實(shí)詞對(duì),每個(gè)實(shí)詞對(duì)均作為中文關(guān)鍵詞。并且,本實(shí)施例在構(gòu)建中文關(guān)鍵詞時(shí),可以在實(shí)詞對(duì)中融入中文連接詞,來提高檢索效率和檢索質(zhì)量。
[0075]通過關(guān)鍵詞檢索篇章資源的過程中,搜索引擎的選擇尤為重要。結(jié)合隱式篇章特征以及現(xiàn)有搜索引擎的優(yōu)缺點(diǎn),本實(shí)施例中,利用百度搜索引擎,進(jìn)行中文篇章的網(wǎng)絡(luò)檢索,利用谷歌搜索引擎,進(jìn)行英文篇章的網(wǎng)絡(luò)檢索。另外,由于檢索結(jié)果的摘要中包含了關(guān)鍵詞及其相關(guān)的上下文信息,因此,為了更快更直接地獲得篇章資源,本實(shí)施例選擇檢索結(jié)果的摘要集合作為選擇顯式篇章的語料資源。
[0076]S102:從所述中文篇章和英文篇章中,選出與所述中文隱式篇章平行的中文平行顯式篇章以及與所述英文隱式篇章平行的英文平行顯式篇章;
[0077]為了確保顯式篇章與隱式篇章之間的相關(guān)性,本實(shí)施例通過平行顯式篇章選取規(guī)貝U,選出與所述中文隱式篇章平行的中文平行顯式篇章以及與所述英文隱式篇章平行的英文平行顯式篇章,所述平行顯式篇章選取規(guī)則,即選出的與隱式篇章平行的平行顯示篇章必須同時(shí)滿足以下四個(gè)條件:
[0078]—、篇章的兩個(gè)句子之間由顯式連接詞銜接;
[0079]二、顯式篇章的第一句具有與隱式篇章的第一句相同的實(shí)詞或二元組;
[0080]三、顯式篇章的第二句具有與隱式篇章的第二句相同的實(shí)詞或二元組;
[0081]四、顯式篇章的兩個(gè)句子分別與隱式篇章的兩個(gè)句子平行,即對(duì)應(yīng)核心詞相同。
[0082]若某一篇章滿足條件一,則稱該篇章為顯式篇章;若該顯式篇章同時(shí)滿足條件二至四,則認(rèn)為該顯式篇章與隱式篇章語義平行,稱其為平行顯式篇章。
[0083]S103:計(jì)算所述中文平行顯式篇章與所述中文隱式篇章的相似度,以及所述英文平行顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文平行顯式篇章和英文平行顯式篇章;
[0084]顯式篇章與隱式篇章在句子結(jié)構(gòu)以及語義層面的相似度,能夠直接體現(xiàn)當(dāng)前顯式篇章的質(zhì)量。因此,選出與所述中文隱式篇章對(duì)應(yīng)的中文平行顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文平行顯式篇章后,需要計(jì)算所述中文平行顯式篇章與所述中文隱式篇章的相似度,以及所述英文平行顯式篇章與所述英文隱式篇章的相似度,具體過程為:利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述中文顯式篇章的第一句與所述中文隱式篇章的第一句的相似度,所述中文顯式篇章的第二句與所述中文隱式篇章的第二句的相似度;利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述英文顯式篇章的第一句與所述英文隱式 篇章的第一句的相似度,所述英文顯式篇章的第二句與所述英文隱式篇章的第二句的相似度。
[0085]利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算顯式篇章的第一句與隱式篇章的第一句的相似度,以及計(jì)算顯式篇章的第二句與隱式篇章的第二句的相似度的過程如下所示:
[0086]首先,利用向量空間模型,將顯式篇章和隱式篇章的每個(gè)句子都映射為一個(gè)特征向量。將句子中的每個(gè)詞都作為一個(gè)維度,即一個(gè)特征,將每個(gè)詞的頻率作為該詞的權(quán)重,這樣每個(gè)句子的詞及頻率就構(gòu)成了一個(gè)η維向量:
[0087]Vector (s) = (feature^ W1; feature2, W2;...; featuren, wn);
[0088]其中,featurej表示第i維特征,Wi表示對(duì)應(yīng)的特征權(quán)重。
[0089]然后,利用詞頻反文檔頻率以及余弦夾角公式計(jì)算顯式篇章與隱式篇章的相似度,余弦相似度計(jì)算方式(I)如下所示:
Y^k = ^e)* Wk^l)
[0090]》η?(、./'.,Λ'/) = I~I=(I)
[0091]其中,wk(s)表示句子s的第k維的特征權(quán)重,所述特征權(quán)重一般采用詞匯頻率的布爾值或TFIDF值(term frequency -1nverse document frequency,詞匯頻率的布爾值),TFIDF值的計(jì)算方式(2)如下所示:
[0092]wk(s) =TFIDF= (fre/length) X 1g2 (Num/num)(2)
[0093]其中,fre表示詞k在當(dāng)前句子中出現(xiàn)的次數(shù),length是當(dāng)前句子的長度,Num是句子總個(gè)數(shù),num表示包含該詞的句子數(shù)。[0094]本實(shí)施例中,計(jì)算英文顯式篇章與英文隱式篇章的相似度時(shí),采用二元組代替詞來表示特征向量的每一維特征,此時(shí),fre表示二元組在當(dāng)前句子中出現(xiàn)的次數(shù),num表示包含該二元組的句子總個(gè)數(shù)。
[0095]分別計(jì)算顯式篇章的第一句與隱式篇章的第一句的相似度,以及計(jì)算顯式篇章的第二句與隱式篇章的第二句的相似度后,還需計(jì)算顯式篇章與隱式篇章的整體相似度,整體相似度Sim(E,I)的計(jì)算方式(3)如下所示:
【權(quán)利要求】
1.一種隱式篇章關(guān)系類型推理方法,其特征在于,包括: 將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得中文篇章和英文篇章; 從所述中文篇章和英文篇章中,選出與所述中文隱式篇章對(duì)應(yīng)的中文平行顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文平行顯式篇章; 計(jì)算所述中文平行顯式篇章與所述中文隱式篇章的相似度,以及所述英文平行顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文平行顯式篇章和英文平行顯式篇章; 檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞的過程,具體為: 選出所述中文隱式篇章的實(shí)詞,并將所述實(shí)詞任意組合,構(gòu)建實(shí)詞對(duì),所述實(shí)詞對(duì)即為中文關(guān)鍵詞; 選出所述英文隱式篇章的二元組,并將所述二元組任意組合,構(gòu)建二元組對(duì),所述二元組對(duì)即為英文關(guān)鍵詞,其中,所述二元組是由兩個(gè)連續(xù)詞匯構(gòu)成。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述選出與所述中文隱式篇章對(duì)應(yīng)的中文平行顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文平行顯式篇章的原則是: 所述篇章的兩個(gè)句子之間由顯式連接詞銜接; 所述顯式篇章的第一句具有與所述隱式篇章的第一句相同的二元組或?qū)嵲~; 所述顯式篇章的第二句具有與所述隱式篇章的第二句相同的二元組或?qū)嵲~; 所述顯式篇章中的兩個(gè)句子分別與所述隱式篇章中的兩個(gè)句子平行,即對(duì)應(yīng)核心詞相同; 其中,所述隱式篇章為具有兩個(gè)相鄰句子的隱式篇章,所述兩個(gè)相鄰的句子即為第一句和第二句。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述計(jì)算所述中文顯式篇章與所述中文隱式篇章的相似度,以及所述英文顯式篇章與所述英文隱式篇章的相似度,具體為: 利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述中文顯式篇章的第一句與所述中文隱式篇章的第一句的相似度,所述中文顯式篇章的第二句與所述中文隱式篇章的第二句的相似度; 利用向量空間模型、詞頻反文檔頻率以及余弦夾角公式,計(jì)算所述英文顯式篇章的第一句與所述英文隱式篇章的第一句的相似度,所述英文顯式篇章的第二句與所述英文隱式篇章的第二句的相似度。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章,具體為: 計(jì)算所述中文顯式篇章與所述中文隱式篇章的整體相似度,以及所述英文顯式篇章與所述英文隱式篇章的整體相似度,并選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式扁早。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型,具體為: 獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型后,計(jì)算各關(guān)系類型的分值,分值最高的關(guān)系類型即可確定為所述隱式篇章的關(guān)系類型。
7.—種隱式篇章關(guān)系類型推理系統(tǒng),其特征在于,包括: 網(wǎng)絡(luò)檢索模塊,用于將英文隱式篇章翻譯成中文隱式篇章,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞,并根據(jù)所述關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得相關(guān)的中文篇章和英文篇章; 第一選擇模塊,用于從所述中文篇章和英文篇章中,選出與所述中文隱式篇章對(duì)應(yīng)的中文顯式篇章以及與所述英文隱式篇章對(duì)應(yīng)的英文顯式篇章; 第二選擇模塊,用于計(jì)算所述中文顯式篇章與所述中文隱式篇章的相似度,以及所述英文顯式篇章與所述英文隱式篇章的相似度,并選出整體相似度最高的若干個(gè)中文顯式篇章和英文顯式篇章; 檢測(cè)模塊,用于檢測(cè)并獲得所述若干個(gè)中文平行顯式篇章和英文平行顯式篇章的關(guān)系類型,然后根據(jù)所述關(guān)系類型的分值,確定所述隱式篇章的關(guān)系類型。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述網(wǎng)絡(luò)檢索模塊包括: 翻譯模塊,用于將英文隱式篇章翻譯成中文隱式篇章; 關(guān)鍵詞模塊,用于根據(jù)所述中文隱式篇章和英文隱式篇章的關(guān)鍵信息,構(gòu)建中文關(guān)鍵詞和英文關(guān)鍵詞; 檢索子模塊,用于根據(jù)所述中文關(guān)鍵詞和英文關(guān)鍵詞進(jìn)行網(wǎng)絡(luò)檢索,獲得相關(guān)的中文篇章和英文篇章。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其特征在于,所述關(guān)鍵詞模塊包括: 中文關(guān)鍵詞模塊,用于選出所述中文隱式篇章的實(shí)詞,并將所述實(shí)詞任意組合,構(gòu)建實(shí)詞對(duì),所述實(shí)詞對(duì)即為中文關(guān)鍵詞; 英文關(guān)鍵詞模塊,用于選出所述英文隱式篇章的二元組,并將所述二元組任意組合,構(gòu)建二元組對(duì),所述二元組對(duì)即為英文關(guān)鍵詞。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述檢索子模塊包括: 中文檢索子模塊,用于根據(jù)所述中文關(guān)鍵詞,利用百度搜索引擎,進(jìn)行中文篇章的網(wǎng)絡(luò)檢索; 英文檢索子模塊,用于根據(jù)所述英文關(guān)鍵詞,利用谷歌搜索引擎,進(jìn)行英文篇章的網(wǎng)絡(luò)檢索。
【文檔編號(hào)】G06F17/30GK103605781SQ201310629360
【公開日】2014年2月26日 申請(qǐng)日期:2013年11月29日 優(yōu)先權(quán)日:2013年11月29日
【發(fā)明者】洪宇, 嚴(yán)為絨 申請(qǐng)人:蘇州大學(xué)