一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法和系統(tǒng)的制作方法

文檔序號(hào)：8319278閱讀：404來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域，特別地，涉及一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法和系統(tǒng)。
【背景技術(shù)】
[0002] 開放網(wǎng)頁(yè)是指數(shù)據(jù)源不固定、包含多種網(wǎng)絡(luò)數(shù)據(jù)的非結(jié)構(gòu)化互聯(lián)網(wǎng)網(wǎng)頁(yè)，如博客、論壇、新聞、聊天記錄、電子郵件等，其信息的性質(zhì)和量值出現(xiàn)的位置不固定，所有內(nèi)容都是不可預(yù)知的。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展，特別是Internet和Intranet技術(shù)的飛快發(fā)展，開放網(wǎng) 頁(yè)以其結(jié)構(gòu)靈活的自身特點(diǎn)，在數(shù)量快速增大的同時(shí)，也為其文本理解帶來(lái)困難：
[0003] 1、文本結(jié)構(gòu)不固定，沒(méi)有特定的上下文語(yǔ)法；
[0004] 2、關(guān)鍵詞范圍不固定，涉及的學(xué)科領(lǐng)域多樣；
[0005] 3、文本長(zhǎng)度不固定，上下文信息量差距較大；
[0006] 4、數(shù)據(jù)源不固定，語(yǔ)言現(xiàn)象復(fù)雜。
[0007] 實(shí)體是指客觀存在并可相互區(qū)別的事物，可以是具體的客觀對(duì)象，也可以是抽象的事件。實(shí)體屬性是指實(shí)體本身的性質(zhì)，實(shí)體屬性抽取通過(guò)將不同信息源對(duì)于某一實(shí)體的屬性集中起來(lái)，從不同的角度反映這個(gè)實(shí)體的相關(guān)情況，完善對(duì)該實(shí)體的認(rèn)識(shí)，在信息抽取、事件跟蹤、人名消歧等研宄中有著重要作用，并且已成為文本理解的關(guān)鍵技術(shù)。
[0008] 針對(duì)開放網(wǎng)頁(yè)的特點(diǎn)，傳統(tǒng)的實(shí)體屬性抽取方法在以下方面存在限制：
[0009] 第一、開放網(wǎng)頁(yè)的文本結(jié)構(gòu)不固定，實(shí)體及其描述沒(méi)有固定規(guī)律可循，且多數(shù)在自由文本中，不易抽取分析；
[0010] 第二、傳統(tǒng)的面向規(guī)則的屬性抽取方法，規(guī)則定義死板，過(guò)于依賴上下文語(yǔ)法，且匹配效率低下；
[0011] 第三、開放網(wǎng)頁(yè)的數(shù)據(jù)源不固定，語(yǔ)言現(xiàn)象復(fù)雜，普通規(guī)則難以涵蓋，傳統(tǒng)的基于規(guī)則的屬性抽取不支持規(guī)則的嵌套匹配；
[0012] 第四、傳統(tǒng)的基于統(tǒng)計(jì)的實(shí)體屬性抽取方法，訓(xùn)練數(shù)據(jù)的準(zhǔn)備過(guò)于依賴人工，效率不高，且準(zhǔn)確率和召回率較低；
[0013] 第五、傳統(tǒng)的屬性抽取多局限在某個(gè)領(lǐng)域或?qū)W科里面進(jìn)行，不能將系統(tǒng)直接移植到其他領(lǐng)域或?qū)W科進(jìn)行使用，缺乏具有通用性的關(guān)聯(lián)特征，不易移植和擴(kuò)展。

【發(fā)明內(nèi)容】

[0014] 為解決上述問(wèn)題，根據(jù)本發(fā)明的一個(gè)實(shí)施例，提供一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法，包括：
[0015] 步驟1)、提取開放網(wǎng)頁(yè)的文本，從中獲得目標(biāo)實(shí)體的候選文本集合；
[0016] 步驟2)、根據(jù)目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率，選擇基于規(guī)則的方式或者基于統(tǒng)計(jì)的方式從所述候選文本集合中抽取目標(biāo)實(shí)體屬性的值。
[0017] 上述方法中，步驟1)包括：
[0018] 步驟11)、從開放網(wǎng)頁(yè)中提取出非結(jié)構(gòu)化文本，對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞，得到詞與所述非結(jié)構(gòu)化文本之間的相關(guān)度；
[0019] 步驟12)、獲得目標(biāo)實(shí)體的上下文中距離該目標(biāo)實(shí)體最近的一個(gè)或多個(gè)初始查詢擴(kuò)展詞，將與目標(biāo)實(shí)體及所述一個(gè)或多個(gè)初始查詢擴(kuò)展詞相關(guān)度最高的一個(gè)或多個(gè)非結(jié)構(gòu) 化文本作為第一文本集合；
[0020] 步驟13)、從所述第一文本集合中選擇詞頻最高的一個(gè)或多個(gè)二次查詢擴(kuò)展詞，將與目標(biāo)實(shí)體及所述一個(gè)或多個(gè)二次查詢擴(kuò)展詞相關(guān)度最高的一個(gè)或多個(gè)非結(jié)構(gòu)化文本作為第二文本集合；
[0021] 步驟14)、將所述第一文本集合和所述第二文本集合的并集作為目標(biāo)實(shí)體的候選文本集合。
[0022] 上述方法中，多個(gè)詞與非結(jié)構(gòu)化文本的相關(guān)度為所述多個(gè)詞中的每個(gè)詞與該非結(jié) 構(gòu)化文本的相關(guān)度之和。
[0023] 上述方法中，步驟2)包括：計(jì)算目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率，如果該頻率超過(guò)預(yù)定的閾值，則根據(jù)構(gòu)造的統(tǒng)計(jì)模型來(lái)抽取目標(biāo)實(shí)體屬性的值，否則根據(jù)構(gòu) 造的層疊有窮狀態(tài)自動(dòng)機(jī)來(lái)抽取目標(biāo)實(shí)體屬性的值；其中，所述訓(xùn)練文本集合用于訓(xùn)練所述統(tǒng)計(jì)模型。
[0024] 上述方法中，根據(jù)以下步驟構(gòu)造層疊有窮狀態(tài)自動(dòng)機(jī)：
[0025] 步驟a)、在所述候選文本集合中進(jìn)行實(shí)體識(shí)別并生成概念文件；其中，所述概念文件包括指示實(shí)體類型和屬于該類型的、從所述候選文本集合中識(shí)別出的實(shí)體的基本概念；指示待抽取變量的正則表達(dá)式；以及，指示實(shí)體與屬性之間的關(guān)系的標(biāo)志詞；
[0026] 步驟b)、生成包括所述概念文件和關(guān)聯(lián)規(guī)則的規(guī)則文件；其中，關(guān)聯(lián)規(guī)則包括單個(gè)規(guī)則或者嵌套了多個(gè)子規(guī)則的規(guī)則，用于指示所述概念文件中基本概念、正則表達(dá)式以及標(biāo)志詞之間的關(guān)系；
[0027] 步驟c)、根據(jù)所述規(guī)則文件中的關(guān)聯(lián)規(guī)則，構(gòu)造層疊有窮狀態(tài)自動(dòng)機(jī)；其中，所述層置有窮狀態(tài)自動(dòng)機(jī)的初始狀態(tài)為基本概念、正則表達(dá)式或者標(biāo)志詞；其他狀態(tài)包括關(guān)聯(lián) 規(guī)則以及關(guān)聯(lián)規(guī)則中的子規(guī)則。
[0028] 上述方法中，根據(jù)構(gòu)造的層疊有窮狀態(tài)自動(dòng)機(jī)來(lái)抽取目標(biāo)實(shí)體屬性的值包括：
[0029] 將所述候選文本集合與所述層疊有窮狀態(tài)自動(dòng)機(jī)從初始狀態(tài)開始匹配，對(duì)每個(gè)狀態(tài)在所述候選文本集合中匹配到的內(nèi)容建立倒排索引；
[0030] 匹配完成后，從建立的倒排索引中得到目標(biāo)實(shí)體屬性的值。
[0031] 上述方法中，根據(jù)以下步驟構(gòu)造統(tǒng)計(jì)模型：
[0032] 步驟A)、從在線百科中獲得訓(xùn)練實(shí)體和相應(yīng)的訓(xùn)練屬性；
[0033] 步驟B)、從訓(xùn)練開放網(wǎng)頁(yè)中獲得所述訓(xùn)練實(shí)體的訓(xùn)練文本集合；
[0034] 步驟C)、在所述訓(xùn)練文本集合中提取特征，將所述訓(xùn)練屬性的特征進(jìn)行回標(biāo)得到各屬性的訓(xùn)練數(shù)據(jù)；
[0035] 步驟D)、根據(jù)所述訓(xùn)練數(shù)據(jù)，生成與每個(gè)屬性相對(duì)應(yīng)的統(tǒng)計(jì)模型。
[0036] 上述方法中，步驟B)包括：
[0037] 步驟BI)、從訓(xùn)練開放網(wǎng)頁(yè)中提取出非結(jié)構(gòu)化文本，對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞，得到詞與非結(jié)構(gòu)化文本之間的相關(guān)度；
[0038] 步驟B2)、根據(jù)訓(xùn)練實(shí)體在訓(xùn)練開放網(wǎng)頁(yè)中的上下文信息獲得距離該訓(xùn)練實(shí)體最近的η個(gè)初始查詢擴(kuò)展詞，將與訓(xùn)練實(shí)體及初始查詢擴(kuò)展詞相關(guān)度最高的K個(gè)非結(jié)構(gòu)化文本作為第三文本集合；其中，η和K為正整數(shù)；
[0039] 步驟Β3)、從所述第三文本集合中選擇詞頻最高的m個(gè)二次查詢擴(kuò)展詞，將與訓(xùn)練實(shí)體及二次查詢擴(kuò)展詞相關(guān)度最高的L個(gè)非結(jié)構(gòu)化文本作為第四文本集合；其中，m和L為正整數(shù)；
[0040] 步驟M)、取所述第三文本集合和所述第四文本集合的并集，作為訓(xùn)練文本集合。 [0041] 上述方法中，步驟C)還包括：去除所述訓(xùn)練數(shù)據(jù)中的雜質(zhì)，以及控制所述訓(xùn)練數(shù) 據(jù)中的正例與反例的比例。
[0042] 上述方法中，所述特征包括詞語(yǔ)、詞語(yǔ)之間的依存關(guān)系、詞語(yǔ)的詞頻及詞性。
[0043] 上述方法中，根據(jù)構(gòu)造的統(tǒng)計(jì)模型來(lái)抽取目標(biāo)實(shí)體屬性的值包括：
[0044] 按照在構(gòu)造所述統(tǒng)計(jì)模型時(shí)提取特征的方式來(lái)提取所述候選文本集合的特征；
[0045] 將提取出的特征輸入目標(biāo)實(shí)體屬性對(duì)應(yīng)的統(tǒng)計(jì)模型，得到目標(biāo)實(shí)體屬性的值。
[0046] 上述方法中，還包括：
[0047] 步驟3)、根據(jù)目標(biāo)實(shí)體屬性的類型、詞性或者取值范圍，校正抽取出的目標(biāo)實(shí)體屬性的值。
[0048] 根據(jù)本發(fā)明的一個(gè)實(shí)施例，還提供一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取系統(tǒng)，包括：
[0049] 網(wǎng)頁(yè)預(yù)處理模塊，用于提取開放網(wǎng)頁(yè)的文本；
[0050] 查詢擴(kuò)展模塊，用于從提取出的文本中獲得目標(biāo)實(shí)體的候選文本集合；
[0051] 屬性抽取模塊，用于根據(jù)目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率，選擇基于規(guī)則的方式或者基于統(tǒng)計(jì)的方式從所述候選文本集合中抽取目標(biāo)實(shí)體屬性的值。
[0052] 本發(fā)明具有如下的有益效果：
[0053] 1、提出一種基于層疊有窮狀態(tài)自動(dòng)機(jī)的實(shí)體屬性抽取方法，實(shí)現(xiàn)了復(fù)雜嵌套規(guī)則的抽取；
[0054] 2、在基于層疊有窮狀態(tài)自動(dòng)機(jī)的抽取過(guò)程中

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：程學(xué)旗;賈巖濤;趙澤亞;王元卓;熊錦華;李曼玲;林海倫;許洪波;
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

實(shí)體關(guān)系抽取相關(guān)技術(shù)

實(shí)體抽取相關(guān)技術(shù)

命名實(shí)體抽取相關(guān)技術(shù)

中文實(shí)體關(guān)系抽取工具相關(guān)技術(shù)

中文實(shí)體關(guān)系抽取相關(guān)技術(shù)

中文實(shí)體關(guān)系抽取綜述相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法和系統(tǒng)的制作方法