亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法和信息檢索方法

文檔序號(hào):8380955閱讀:226來(lái)源:國(guó)知局
一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法和信息檢索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種關(guān)系抽取方法,特別是涉及一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取 方法,以及應(yīng)用該方法對(duì)互聯(lián)網(wǎng)網(wǎng)中文本信息進(jìn)行檢索的方法,屬于自然語(yǔ)言處理技術(shù)領(lǐng) 域。
【背景技術(shù)】
[0002] 近年來(lái),隨著Web2.0的發(fā)展,互聯(lián)網(wǎng)上涌現(xiàn)出越來(lái)越多的非結(jié)構(gòu)化文本信息。如 何挖掘這些文本中的信息并構(gòu)建智能信息服務(wù)是一項(xiàng)有重要意義的工作。通過(guò)從非結(jié)構(gòu)化 的文本中抽取出用戶感興趣的知識(shí),關(guān)系抽取是實(shí)現(xiàn)上述目標(biāo)的關(guān)鍵技術(shù)之一。
[0003] 另一方面,語(yǔ)義知識(shí)是自然語(yǔ)言理解的基石,是實(shí)現(xiàn)文本各個(gè)層面智能分析的基 礎(chǔ),其核心是概念與概念之間的語(yǔ)義關(guān)系。由于人工編寫(xiě)方法受制于專家構(gòu)建的時(shí)間,低估 了語(yǔ)義知識(shí)的復(fù)雜性和規(guī)模,大規(guī)模語(yǔ)義知識(shí)的缺乏一直是高性能自然語(yǔ)言處理的關(guān)鍵瓶 頸。為此如何利用自動(dòng)的關(guān)系抽取技術(shù)獲取海量的語(yǔ)義知識(shí)也是自然語(yǔ)言處理技術(shù)實(shí)用化 的重要因素之一。
[0004] 綜上,構(gòu)建智能信息服務(wù)的核心之一是知識(shí)獲取和自然語(yǔ)言理解,而關(guān)系抽取是 提供自然語(yǔ)言理解基礎(chǔ)知識(shí)的一項(xiàng)關(guān)鍵技術(shù)。
[0005] 由于自然語(yǔ)言表達(dá)的多樣性和歧義性,關(guān)系抽取需要結(jié)合關(guān)系表述的句法結(jié)構(gòu)特 征和內(nèi)容特征進(jìn)行綜合判斷?,F(xiàn)有的關(guān)系抽取方法分為兩種:一種是基于淺層特征的分類 方法,一種是基于樹(shù)核的分類方法。然而,上述兩種方法都存在一定的不足,它們都不能在 一個(gè)統(tǒng)一的框架下表示和利用關(guān)系表述的句法結(jié)構(gòu)特征和內(nèi)容特征:其中基于淺層特征的 分類方法只能捕捉內(nèi)容特征,而基于樹(shù)核的分類方法只能捕捉關(guān)系表述的句法結(jié)構(gòu)。

【發(fā)明內(nèi)容】

[0006] 為克服現(xiàn)有關(guān)系抽取技術(shù)在統(tǒng)一表示和利用關(guān)系表述句法結(jié)構(gòu)和內(nèi)容特征方面 的不足,本發(fā)明主要提供了一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法,采用統(tǒng)一的框架來(lái) 表示關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征,可結(jié)合關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征進(jìn)行綜合判 斷。
[0007] 本發(fā)明所采用的技術(shù)方案如下:
[0008] -種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法,其步驟包括:
[0009] 1)在句法分析樹(shù)的每一個(gè)節(jié)點(diǎn)處加入用于表示內(nèi)容特征的特征向量,以統(tǒng)一表示 關(guān)系表述的句法結(jié)構(gòu)特征和內(nèi)容特征;
[0010] 2)對(duì)句法分析樹(shù)中的每一個(gè)樹(shù)節(jié)點(diǎn),抽取表示其內(nèi)容特性的一系列特征,并將該 一系列特征加入到樹(shù)節(jié)點(diǎn)的特征向量中,從而形成多特征擴(kuò)展句法分析樹(shù);
[0011] 3)基于所述多特征擴(kuò)展句法分析樹(shù)構(gòu)建多特征語(yǔ)義樹(shù)核,通過(guò)該多特征語(yǔ)義樹(shù)核 綜合利用句法結(jié)構(gòu)特征和內(nèi)容特征計(jì)算不同句法分析樹(shù)之間的相似度,得到可靠的關(guān)系抽 取結(jié)果。
[0012] 進(jìn)一步地,步驟1)使用通用句法分析器對(duì)關(guān)系表述文本進(jìn)行句法分析得到所述句 法分析樹(shù)。
[0013] 進(jìn)一步地,步驟1)所述多特征擴(kuò)展句法分析樹(shù),其中每一個(gè)節(jié)點(diǎn)被擴(kuò)展表示為: _4] Rn = (Ln, Fn),
[0015] 其中,Rn是多特征擴(kuò)展句法分析樹(shù)中的節(jié)點(diǎn)η的多特征表示,Ln是節(jié)點(diǎn)η的句法 樹(shù)標(biāo)簽;F n是節(jié)點(diǎn)η的內(nèi)容特征向量。該多特征擴(kuò)展句法分析樹(shù)表示實(shí)現(xiàn)了關(guān)系表述句法 結(jié)構(gòu)和內(nèi)容特征的高效統(tǒng)一表示:其中樹(shù)結(jié)構(gòu)表示了句法結(jié)構(gòu),而節(jié)點(diǎn)的特征向量表示了 內(nèi)容特征。
【主權(quán)項(xiàng)】
1. 一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法,其步驟包括: 1) 在句法分析樹(shù)的每一個(gè)節(jié)點(diǎn)處加入用于表示內(nèi)容特征的特征向量,以統(tǒng)一表示關(guān)系 表述的句法結(jié)構(gòu)特征和內(nèi)容特征; 2) 對(duì)句法分析樹(shù)中的每一個(gè)樹(shù)節(jié)點(diǎn),抽取表示其內(nèi)容特性的一系列特征,并將該一系 列特征加入到樹(shù)節(jié)點(diǎn)的特征向量中,從而形成多特征擴(kuò)展句法分析樹(shù); 3) 基于所述多特征擴(kuò)展句法分析樹(shù)構(gòu)建多特征語(yǔ)義樹(shù)核,通過(guò)該多特征語(yǔ)義樹(shù)核綜合 利用句法結(jié)構(gòu)特征和內(nèi)容特征計(jì)算不同句法分析樹(shù)之間的相似度,得到可靠的關(guān)系抽取結(jié) 果。
2. 如權(quán)利要求1所述的方法,其特征在于:所述多特征擴(kuò)展句法分析樹(shù)中每一個(gè)節(jié)點(diǎn) 被擴(kuò)展表示為: Rn= (Ln,F(xiàn)n), 其中,Rn是多特征擴(kuò)展句法分析樹(shù)中的節(jié)點(diǎn)n的多特征表示,Ln是節(jié)點(diǎn)n的句法樹(shù)標(biāo) 簽,F(xiàn)n是節(jié)點(diǎn)n的內(nèi)容特征向量。
3. 如權(quán)利要求2所述的方法,其特征在于:所述多特征語(yǔ)義樹(shù)核綜合考慮不同多特征 擴(kuò)展句法分析樹(shù)之間的句法結(jié)構(gòu)相似度和內(nèi)容相似度,并采用如下公式計(jì)算相似度:
其中,和T2是待比較的多特征擴(kuò)展句法分析樹(shù),h和t2是和T2的子樹(shù),kh,t2) 是子樹(shù)h和t2之間的相似度。
4. 如權(quán)利要求3所述的方法,其特征在于:所述子樹(shù)h和t2之間的相似度k(懷t2)的 采用如下公式計(jì)算:
其中,S(tl,t2)是表征心和t2是否有相同句法結(jié)構(gòu)的指示函數(shù),Eh,t2)是子樹(shù)心 和t2的所有對(duì)齊節(jié)點(diǎn)對(duì);sim(叫,n」)是對(duì)齊節(jié)點(diǎn)叫和n」之間的相似度,由其特征向量的內(nèi) 積決定。
5. 如權(quán)利要求1所述的方法,其特征在于:給定訓(xùn)練語(yǔ)料,通過(guò)所述多特征語(yǔ)義樹(shù)核計(jì) 算訓(xùn)練實(shí)例之間的相似度,并基于該相似度及支持向量機(jī)訓(xùn)練算法構(gòu)建支持向量機(jī)關(guān)系分 類器;然后計(jì)算測(cè)試實(shí)例與訓(xùn)練實(shí)例之間的多特征語(yǔ)義樹(shù)核相似度,并基于該相似度使用 支撐向量機(jī)對(duì)測(cè)試實(shí)例進(jìn)行分類,從而得到可靠的關(guān)系抽取結(jié)果。
6. 如權(quán)利要求5所述的方法,其特征在于,構(gòu)建所述支持向量機(jī)的方法為: a) 對(duì)多特征擴(kuò)展句法分析樹(shù)進(jìn)行編程實(shí)現(xiàn),實(shí)現(xiàn)句法分析樹(shù)與其文本表示之間的轉(zhuǎn)換 接口; b) 面向特定通用支持向量機(jī)軟件,基于其擴(kuò)展接口編程實(shí)現(xiàn)多特征語(yǔ)義樹(shù)核; c) 使用特定通用支持向量機(jī)軟件及多特征擴(kuò)展句法分析樹(shù)的表示進(jìn)行訓(xùn)練得到最終 的支持向量機(jī)模型。
7. 如權(quán)利要求5所述的方法,其特征在于,所述構(gòu)建支持向量機(jī)關(guān)系分類器的方法為: a) 給定需要抽取的關(guān)系類別,標(biāo)注一定數(shù)量的關(guān)系表述實(shí)例; b) 對(duì)關(guān)系表述實(shí)例進(jìn)行分析得到多特征擴(kuò)展句法分析樹(shù); C)面向需要抽取的關(guān)系類別,訓(xùn)練對(duì)應(yīng)的支持向量機(jī)模型; d)構(gòu)建支持向量機(jī)模型分類結(jié)果到關(guān)系類別的映射工具。
8. 如權(quán)利要求5所述的方法,其特征在于,所述對(duì)測(cè)試實(shí)例進(jìn)行分類的方法為: a) 對(duì)每一個(gè)測(cè)試實(shí)例,使用通用句法分析器對(duì)其進(jìn)行句法分析,對(duì)句法樹(shù)中的每一個(gè) 節(jié)點(diǎn)進(jìn)行特征抽取,得到多特征擴(kuò)展句法分析樹(shù)表示; b) 使用基于訓(xùn)練語(yǔ)料訓(xùn)練得到的支持向量機(jī)模型對(duì)測(cè)試實(shí)例的句法分析樹(shù)進(jìn)行分 類; c) 選擇具有最大分類概率的關(guān)系類別作為測(cè)試實(shí)例的關(guān)系類別。
9. 一種采用權(quán)利要求1所述方法的文本信息檢索方法,其步驟包括: 1) 采用權(quán)利要求1所述方法對(duì)互聯(lián)網(wǎng)上的文本信息進(jìn)行關(guān)系抽取,將其將轉(zhuǎn)換為計(jì)算 機(jī)可處理的知識(shí); 2) 采用權(quán)利要求1所述方法對(duì)用戶輸入的查詢信息進(jìn)行關(guān)系抽取,將用戶的信息需求 轉(zhuǎn)換為特定關(guān)系的查詢,進(jìn)而根據(jù)經(jīng)步驟1)處理的互聯(lián)網(wǎng)上的文本信息返回查詢結(jié)果。
【專利摘要】本發(fā)明公開(kāi)一種基于多特征語(yǔ)義樹(shù)核的關(guān)系抽取方法,以及應(yīng)用該方法進(jìn)行文本信息檢索的方法,屬于自然語(yǔ)言處理技術(shù)領(lǐng)域。該關(guān)系抽取方法主要包含:面向句法分析樹(shù)關(guān)系表述表示的特征擴(kuò)展機(jī)制;基于上述特征擴(kuò)展機(jī)制的句法樹(shù)內(nèi)容特征擴(kuò)展;融合內(nèi)容特征和句法分析樹(shù)結(jié)構(gòu)特征的多特征語(yǔ)義樹(shù)核。面向句法分析樹(shù)的特征擴(kuò)展機(jī)制將特定關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征置于統(tǒng)一的表示框架之中進(jìn)行表示。句法樹(shù)特征擴(kuò)展將關(guān)系表述的重要語(yǔ)義信息和內(nèi)容信息融入到句法樹(shù)表示中。多特征語(yǔ)義樹(shù)核提供了一種有效和高性能的算法,可綜合關(guān)系表述的句法結(jié)構(gòu)和內(nèi)容特征進(jìn)行綜合判斷。
【IPC分類】G06F17-30, G06F17-27
【公開(kāi)號(hào)】CN104699695
【申請(qǐng)?zhí)枴緾N201310652675
【發(fā)明人】韓先培, 孫樂(lè)
【申請(qǐng)人】中國(guó)科學(xué)院軟件研究所
【公開(kāi)日】2015年6月10日
【申請(qǐng)日】2013年12月5日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1