一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別地,涉及一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取 方法和系統(tǒng)。
【背景技術(shù)】
[0002] 開放網(wǎng)頁(yè)是指數(shù)據(jù)源不固定、包含多種網(wǎng)絡(luò)數(shù)據(jù)的非結(jié)構(gòu)化互聯(lián)網(wǎng)網(wǎng)頁(yè),如博客、 論壇、新聞、聊天記錄、電子郵件等,其信息的性質(zhì)和量值出現(xiàn)的位置不固定,所有內(nèi)容都是 不可預(yù)知的。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和Intranet技術(shù)的飛快發(fā)展,開放網(wǎng) 頁(yè)以其結(jié)構(gòu)靈活的自身特點(diǎn),在數(shù)量快速增大的同時(shí),也為其文本理解帶來(lái)困難:
[0003] 1、文本結(jié)構(gòu)不固定,沒(méi)有特定的上下文語(yǔ)法;
[0004] 2、關(guān)鍵詞范圍不固定,涉及的學(xué)科領(lǐng)域多樣;
[0005] 3、文本長(zhǎng)度不固定,上下文信息量差距較大;
[0006] 4、數(shù)據(jù)源不固定,語(yǔ)言現(xiàn)象復(fù)雜。
[0007] 實(shí)體是指客觀存在并可相互區(qū)別的事物,可以是具體的客觀對(duì)象,也可以是抽象 的事件。實(shí)體屬性是指實(shí)體本身的性質(zhì),實(shí)體屬性抽取通過(guò)將不同信息源對(duì)于某一實(shí)體 的屬性集中起來(lái),從不同的角度反映這個(gè)實(shí)體的相關(guān)情況,完善對(duì)該實(shí)體的認(rèn)識(shí),在信息抽 取、事件跟蹤、人名消歧等研宄中有著重要作用,并且已成為文本理解的關(guān)鍵技術(shù)。
[0008] 針對(duì)開放網(wǎng)頁(yè)的特點(diǎn),傳統(tǒng)的實(shí)體屬性抽取方法在以下方面存在限制:
[0009] 第一、開放網(wǎng)頁(yè)的文本結(jié)構(gòu)不固定,實(shí)體及其描述沒(méi)有固定規(guī)律可循,且多數(shù)在自 由文本中,不易抽取分析;
[0010] 第二、傳統(tǒng)的面向規(guī)則的屬性抽取方法,規(guī)則定義死板,過(guò)于依賴上下文語(yǔ)法,且 匹配效率低下;
[0011] 第三、開放網(wǎng)頁(yè)的數(shù)據(jù)源不固定,語(yǔ)言現(xiàn)象復(fù)雜,普通規(guī)則難以涵蓋,傳統(tǒng)的基于 規(guī)則的屬性抽取不支持規(guī)則的嵌套匹配;
[0012] 第四、傳統(tǒng)的基于統(tǒng)計(jì)的實(shí)體屬性抽取方法,訓(xùn)練數(shù)據(jù)的準(zhǔn)備過(guò)于依賴人工,效率 不高,且準(zhǔn)確率和召回率較低;
[0013] 第五、傳統(tǒng)的屬性抽取多局限在某個(gè)領(lǐng)域或?qū)W科里面進(jìn)行,不能將系統(tǒng)直接移植 到其他領(lǐng)域或?qū)W科進(jìn)行使用,缺乏具有通用性的關(guān)聯(lián)特征,不易移植和擴(kuò)展。
【發(fā)明內(nèi)容】
[0014] 為解決上述問(wèn)題,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供一種面向開放網(wǎng)頁(yè)的實(shí)體屬性 抽取方法,包括:
[0015] 步驟1)、提取開放網(wǎng)頁(yè)的文本,從中獲得目標(biāo)實(shí)體的候選文本集合;
[0016] 步驟2)、根據(jù)目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率,選擇基于規(guī)則的方式 或者基于統(tǒng)計(jì)的方式從所述候選文本集合中抽取目標(biāo)實(shí)體屬性的值。
[0017] 上述方法中,步驟1)包括:
[0018] 步驟11)、從開放網(wǎng)頁(yè)中提取出非結(jié)構(gòu)化文本,對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞,得到 詞與所述非結(jié)構(gòu)化文本之間的相關(guān)度;
[0019] 步驟12)、獲得目標(biāo)實(shí)體的上下文中距離該目標(biāo)實(shí)體最近的一個(gè)或多個(gè)初始查詢 擴(kuò)展詞,將與目標(biāo)實(shí)體及所述一個(gè)或多個(gè)初始查詢擴(kuò)展詞相關(guān)度最高的一個(gè)或多個(gè)非結(jié)構(gòu) 化文本作為第一文本集合;
[0020] 步驟13)、從所述第一文本集合中選擇詞頻最高的一個(gè)或多個(gè)二次查詢擴(kuò)展詞,將 與目標(biāo)實(shí)體及所述一個(gè)或多個(gè)二次查詢擴(kuò)展詞相關(guān)度最高的一個(gè)或多個(gè)非結(jié)構(gòu)化文本作 為第二文本集合;
[0021] 步驟14)、將所述第一文本集合和所述第二文本集合的并集作為目標(biāo)實(shí)體的候選 文本集合。
[0022] 上述方法中,多個(gè)詞與非結(jié)構(gòu)化文本的相關(guān)度為所述多個(gè)詞中的每個(gè)詞與該非結(jié) 構(gòu)化文本的相關(guān)度之和。
[0023] 上述方法中,步驟2)包括:計(jì)算目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率,如 果該頻率超過(guò)預(yù)定的閾值,則根據(jù)構(gòu)造的統(tǒng)計(jì)模型來(lái)抽取目標(biāo)實(shí)體屬性的值,否則根據(jù)構(gòu) 造的層疊有窮狀態(tài)自動(dòng)機(jī)來(lái)抽取目標(biāo)實(shí)體屬性的值;其中,所述訓(xùn)練文本集合用于訓(xùn)練所 述統(tǒng)計(jì)模型。
[0024] 上述方法中,根據(jù)以下步驟構(gòu)造層疊有窮狀態(tài)自動(dòng)機(jī):
[0025] 步驟a)、在所述候選文本集合中進(jìn)行實(shí)體識(shí)別并生成概念文件;其中,所述概念 文件包括指示實(shí)體類型和屬于該類型的、從所述候選文本集合中識(shí)別出的實(shí)體的基本概 念;指示待抽取變量的正則表達(dá)式;以及,指示實(shí)體與屬性之間的關(guān)系的標(biāo)志詞;
[0026] 步驟b)、生成包括所述概念文件和關(guān)聯(lián)規(guī)則的規(guī)則文件;其中,關(guān)聯(lián)規(guī)則包括單 個(gè)規(guī)則或者嵌套了多個(gè)子規(guī)則的規(guī)則,用于指示所述概念文件中基本概念、正則表達(dá)式以 及標(biāo)志詞之間的關(guān)系;
[0027] 步驟c)、根據(jù)所述規(guī)則文件中的關(guān)聯(lián)規(guī)則,構(gòu)造層疊有窮狀態(tài)自動(dòng)機(jī);其中,所述 層置有窮狀態(tài)自動(dòng)機(jī)的初始狀態(tài)為基本概念、正則表達(dá)式或者標(biāo)志詞;其他狀態(tài)包括關(guān)聯(lián) 規(guī)則以及關(guān)聯(lián)規(guī)則中的子規(guī)則。
[0028] 上述方法中,根據(jù)構(gòu)造的層疊有窮狀態(tài)自動(dòng)機(jī)來(lái)抽取目標(biāo)實(shí)體屬性的值包括:
[0029] 將所述候選文本集合與所述層疊有窮狀態(tài)自動(dòng)機(jī)從初始狀態(tài)開始匹配,對(duì)每個(gè)狀 態(tài)在所述候選文本集合中匹配到的內(nèi)容建立倒排索引;
[0030] 匹配完成后,從建立的倒排索引中得到目標(biāo)實(shí)體屬性的值。
[0031] 上述方法中,根據(jù)以下步驟構(gòu)造統(tǒng)計(jì)模型:
[0032] 步驟A)、從在線百科中獲得訓(xùn)練實(shí)體和相應(yīng)的訓(xùn)練屬性;
[0033] 步驟B)、從訓(xùn)練開放網(wǎng)頁(yè)中獲得所述訓(xùn)練實(shí)體的訓(xùn)練文本集合;
[0034] 步驟C)、在所述訓(xùn)練文本集合中提取特征,將所述訓(xùn)練屬性的特征進(jìn)行回標(biāo)得到 各屬性的訓(xùn)練數(shù)據(jù);
[0035] 步驟D)、根據(jù)所述訓(xùn)練數(shù)據(jù),生成與每個(gè)屬性相對(duì)應(yīng)的統(tǒng)計(jì)模型。
[0036] 上述方法中,步驟B)包括:
[0037] 步驟BI)、從訓(xùn)練開放網(wǎng)頁(yè)中提取出非結(jié)構(gòu)化文本,對(duì)該非結(jié)構(gòu)化文本進(jìn)行分詞, 得到詞與非結(jié)構(gòu)化文本之間的相關(guān)度;
[0038] 步驟B2)、根據(jù)訓(xùn)練實(shí)體在訓(xùn)練開放網(wǎng)頁(yè)中的上下文信息獲得距離該訓(xùn)練實(shí)體最 近的η個(gè)初始查詢擴(kuò)展詞,將與訓(xùn)練實(shí)體及初始查詢擴(kuò)展詞相關(guān)度最高的K個(gè)非結(jié)構(gòu)化文 本作為第三文本集合;其中,η和K為正整數(shù);
[0039] 步驟Β3)、從所述第三文本集合中選擇詞頻最高的m個(gè)二次查詢擴(kuò)展詞,將與訓(xùn)練 實(shí)體及二次查詢擴(kuò)展詞相關(guān)度最高的L個(gè)非結(jié)構(gòu)化文本作為第四文本集合;其中,m和L為 正整數(shù);
[0040] 步驟M)、取所述第三文本集合和所述第四文本集合的并集,作為訓(xùn)練文本集合。 [0041] 上述方法中,步驟C)還包括:去除所述訓(xùn)練數(shù)據(jù)中的雜質(zhì),以及控制所述訓(xùn)練數(shù) 據(jù)中的正例與反例的比例。
[0042] 上述方法中,所述特征包括詞語(yǔ)、詞語(yǔ)之間的依存關(guān)系、詞語(yǔ)的詞頻及詞性。
[0043] 上述方法中,根據(jù)構(gòu)造的統(tǒng)計(jì)模型來(lái)抽取目標(biāo)實(shí)體屬性的值包括:
[0044] 按照在構(gòu)造所述統(tǒng)計(jì)模型時(shí)提取特征的方式來(lái)提取所述候選文本集合的特征;
[0045] 將提取出的特征輸入目標(biāo)實(shí)體屬性對(duì)應(yīng)的統(tǒng)計(jì)模型,得到目標(biāo)實(shí)體屬性的值。
[0046] 上述方法中,還包括:
[0047] 步驟3)、根據(jù)目標(biāo)實(shí)體屬性的類型、詞性或者取值范圍,校正抽取出的目標(biāo)實(shí)體屬 性的值。
[0048] 根據(jù)本發(fā)明的一個(gè)實(shí)施例,還提供一種面向開放網(wǎng)頁(yè)的實(shí)體屬性抽取系統(tǒng),包 括:
[0049] 網(wǎng)頁(yè)預(yù)處理模塊,用于提取開放網(wǎng)頁(yè)的文本;
[0050] 查詢擴(kuò)展模塊,用于從提取出的文本中獲得目標(biāo)實(shí)體的候選文本集合;
[0051] 屬性抽取模塊,用于根據(jù)目標(biāo)實(shí)體屬性在訓(xùn)練文本集合中出現(xiàn)的頻率,選擇基于 規(guī)則的方式或者基于統(tǒng)計(jì)的方式從所述候選文本集合中抽取目標(biāo)實(shí)體屬性的值。
[0052] 本發(fā)明具有如下的有益效果:
[0053] 1、提出一種基于層疊有窮狀態(tài)自動(dòng)機(jī)的實(shí)體屬性抽取方法,實(shí)現(xiàn)了復(fù)雜嵌套規(guī)則 的抽取;
[0054] 2、在基于層疊有窮狀態(tài)自動(dòng)機(jī)的抽取過(guò)程中