基于關(guān)系表的可配置信息抽取方法
【專利說明】基于關(guān)系表的可配置信息抽取方法 -、技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)領(lǐng)域互聯(lián)網(wǎng)數(shù)據(jù)抽取,具體設(shè)及一種基于關(guān)系表的可配置信息 抽取框架技術(shù)。 二、【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的迅速發(fā)展,人們的生活越來越離不開網(wǎng)絡(luò),互聯(lián)網(wǎng)上的信息量也呈
[0003] 現(xiàn)爆炸性的增長,該使得互聯(lián)網(wǎng)成為了一個(gè)巨大的信息源,能夠提供海量有價(jià)值 的信息。對于用戶來說,如何有效地獲取和利用該些信息變得尤為迫切和重要。目前互聯(lián) 網(wǎng)上的數(shù)據(jù)大部分都是WHTML形式出現(xiàn)的,HTML文檔中的信息主要是面向顯示的,缺乏對 數(shù)據(jù)本身的描述,也不包含語義信息,大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。該使得應(yīng)用程序 無法直接解析并利用該些信息。
[0004] 為了增加互聯(lián)網(wǎng)上數(shù)據(jù)的可用性,讓應(yīng)用程序能夠直接利用互聯(lián)網(wǎng)上的信息資 源,讓用戶能夠在海量信息中方便地獲取所需要的信息,需要自動(dòng)將網(wǎng)頁上的非結(jié)構(gòu)化或 半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。Web信息抽取技術(shù)正是在該種背景下產(chǎn)生的。
[0005] Web信息抽取指的是從網(wǎng)頁所包含的無結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)中抽取出用戶感興趣 的數(shù)據(jù),并將其轉(zhuǎn)化為更具語義,更結(jié)構(gòu)化的形式保存下來W供用戶查詢或其他程序應(yīng)用。 因此傳統(tǒng)的信息抽取通常使用自然語言理解技術(shù),如詞典、語法分析等,而Web信息抽取常 常使用機(jī)器學(xué)習(xí)、模式挖掘等技術(shù)。Web信息抽取在Web數(shù)據(jù)挖掘的很多應(yīng)用中有很重要的 作用,如超鏈接分析,日志挖掘,網(wǎng)頁內(nèi)容挖掘等。
[0006] 一個(gè)信息抽取任務(wù)通常是與某個(gè)領(lǐng)域密切相關(guān)的,如抽取課程類網(wǎng)站主頁上的課 程名稱、內(nèi)容和老師等信息,或從旅游論壇上抽取聯(lián)系信息和聯(lián)系信息對應(yīng)的功能類別等。 生活中也有很有Web信息抽取的應(yīng)用,如購物網(wǎng)站商品比較系統(tǒng)抽取不同購物網(wǎng)站的商品 價(jià)格等信息反饋給用戶;個(gè)性化自動(dòng)信息推送服務(wù)自動(dòng)在目標(biāo)網(wǎng)站抽取用戶感興趣的信息 定期推送給用戶等。不同的抽取任務(wù)設(shè)及不同領(lǐng)域,缺乏一定的規(guī)范,而同一個(gè)抽取任務(wù)在 抽取不同網(wǎng)站上的信息時(shí),由于不同網(wǎng)站頁面組織和數(shù)據(jù)結(jié)構(gòu)存在差異,也給信息抽取帶 來很大困難。
[0007] Web信息抽取系統(tǒng)的研究可W追溯到二十世紀(jì)九十年代。早期的Web信息抽取系 統(tǒng)需要人為定義規(guī)則,用戶人工為每個(gè)抽取任務(wù)編寫包裝器。之后的框架逐漸引入了機(jī)器 學(xué)習(xí)等方法W自動(dòng)生成抽取規(guī)則,用戶不需要人工(手工)編寫抽取規(guī)則而只要對數(shù)據(jù)樣 本進(jìn)行標(biāo)注,大大降低了對用戶的要求和包裝器的生成成本。近年來的研究重點(diǎn)主要在于 進(jìn)一步提高Web信息抽取自動(dòng)化程度,降低標(biāo)注代價(jià),但是自動(dòng)化程度的提高往往W-些 其他性能為代價(jià),如系統(tǒng)對不同領(lǐng)域任務(wù)適應(yīng)性的降低或?qū)ψ鳛檩斎氲腤eb頁面有一些特 殊的限制。
[0008] 目前主流的Web信息抽取技術(shù)主要有:基于包裝器開發(fā)專用語言的抽取技術(shù)、基 于數(shù)據(jù)模型的抽取技術(shù)、基于HTML結(jié)構(gòu)的抽取技術(shù)和基于自然語言處理的抽取技術(shù)等。如 CN103309954A公開的基于html網(wǎng)頁的數(shù)據(jù)抽取方法,其由xml解析器,html引擎W及數(shù) 據(jù)管理器S個(gè)模塊組成;其中;所述xml解析器模塊負(fù)責(zé)解析sysconfig. xml文件,得到 系統(tǒng)初始化參數(shù)、頁面的url地址和目標(biāo)節(jié)點(diǎn)的描述信息;所述html引擎模塊首先驗(yàn)證 sysconfig. xml文件配置信息的有效性,如果有效則繼續(xù)執(zhí)行,否則提示用戶檢查xml文 件配置信息;xml文件配置通過驗(yàn)證之后,根據(jù)配置信息中的頁面鏈接地址,獲取該頁面的 html文檔,然后再調(diào)用html解析器來解析html文檔,根據(jù)sysconfig. xml中配置的目標(biāo) 節(jié)點(diǎn)選擇器描述信息,獲得html中目標(biāo)元素,從而獲得該元素的數(shù)據(jù);所述數(shù)據(jù)管理模塊 主要是負(fù)責(zé)數(shù)據(jù)的持久化工作,根據(jù)用戶在sysconfig. xml中配置的數(shù)據(jù)保存方式,選擇 相應(yīng)的數(shù)據(jù)管理器來完成數(shù)據(jù)的持久化工作;所述系統(tǒng)進(jìn)行數(shù)據(jù)抽取的工作流程如下;首 先,html引擎模塊根據(jù)xml解析器模塊獲得的html頁面url地址,通過http get請求獲 取目標(biāo)網(wǎng)頁文檔;接著xml解析器模塊根據(jù)xml文件中的配置目標(biāo)節(jié)點(diǎn)選擇器,描述具有相 同html頁面結(jié)構(gòu)的目標(biāo)節(jié)點(diǎn);再經(jīng)過我們的html引擎模塊解析,得到我們想要的目標(biāo)節(jié)點(diǎn) 的結(jié)構(gòu)化數(shù)據(jù);最后由數(shù)據(jù)管理器模塊根據(jù)配置文件中配置的數(shù)據(jù)保存方式將其保存在相 應(yīng)的介質(zhì)中。
[0009] 使用基于包裝器開發(fā)專用語言的抽取技術(shù)需要采用人工構(gòu)建包裝器的方法,該就 要求用戶既要有編程經(jīng)驗(yàn)又要擁有豐富的領(lǐng)域背景知識(shí)和對系統(tǒng)可能的應(yīng)用場景與任務(wù) 的預(yù)見能力?;谀P偷某槿〖夹g(shù)主要考慮數(shù)據(jù)對象的結(jié)構(gòu)W及周圍數(shù)據(jù)特征,受文件形 式的影響較小,有較好地靈活性,并且具有一定的自動(dòng)化程度。但是沒有考慮不同網(wǎng)頁信息 之間的異構(gòu)性,只能在相似網(wǎng)頁中進(jìn)行抽取。而基于HTML結(jié)構(gòu)的抽取技術(shù)依賴HTML頁面 的結(jié)構(gòu)對信息進(jìn)行定位,產(chǎn)生的規(guī)則只適用于結(jié)構(gòu)相同或相似的一類網(wǎng)頁,對于結(jié)構(gòu)不同 的網(wǎng)頁要重新產(chǎn)生規(guī)則?;谧匀徽Z言處理的技術(shù)只有在含有大量自由文本且句子完整、 適合語法分析的網(wǎng)頁中能夠取得較好的效果,不適用于一般的Web頁面,也沒有利用Web頁 面的層次特性。
[0010] 現(xiàn)有的不同的信息抽取框架有各自的特點(diǎn),也有很多不足。主要有:
[0011] 1.在通用性方面,有些只能從網(wǎng)頁的純文本內(nèi)容中進(jìn)行信息抽取;有些只適合半 結(jié)構(gòu)數(shù)據(jù)的抽??;有些依賴網(wǎng)頁固有結(jié)構(gòu),只能在相似網(wǎng)頁中進(jìn)行抽取等。
[0012] 2.現(xiàn)有的抽取技術(shù)主要針對網(wǎng)頁上明確出現(xiàn)的信息進(jìn)行抽取,沒有考慮網(wǎng)頁中隱 含
[001引信息的抽取。
[0014] 提出了基于關(guān)系表的可配置信息抽取框架, H、
【發(fā)明內(nèi)容】
[0015] 本發(fā)明目的是,在吸取現(xiàn)有技術(shù)的基礎(chǔ)上,提出一種基于關(guān)系表的可配置信息抽 取框架方法,不僅具有良好的通用性,抽取所適用的規(guī)則可適用于結(jié)構(gòu)相同或相異的網(wǎng)頁, 而且可W抽取網(wǎng)頁中沒有明確出現(xiàn)的隱含信息。
[0016] 本發(fā)明的技術(shù)方案,一種基于關(guān)系表的可配置信息抽取框架或方法,即Web信息 抽取方法或框架;首先用結(jié)構(gòu)化的形式對信息抽取任務(wù)進(jìn)行定義,然后采取人工方式和機(jī) 器學(xué)習(xí)相結(jié)合的方法,構(gòu)建抽取規(guī)則,從而對目標(biāo)頁面進(jìn)行抽??;本發(fā)明提出的方法主要由 =個(gè)部分組成,分別是信息抽取用戶接口,抽取規(guī)則集生成和數(shù)據(jù)抽取。
[0017] 1)信息抽取用戶接口;所述用戶接口讓用戶W表格化的形式表達(dá)信息抽取需求, 包括對信息抽取的主體,即信息抽取表的主鍵的定義和對信息抽取表中各種屬性的定義;
[0018] 主鍵和屬性的定義的方式采用人工直接構(gòu)建抽取規(guī)則,或者通過樣例描述的方法 自動(dòng)學(xué)習(xí)生成抽取規(guī)則;
[0019] 所述的抽取方法中,用戶使用類S化語言創(chuàng)建信息抽取表,通過信息抽取表的形 式定義所要抽取的信息,為信息抽取表定義主鍵和屬性;信息抽取表的主鍵即所要抽取的 信息的主體,是網(wǎng)頁中的任何信息或網(wǎng)站本身;屬性是網(wǎng)頁中明確出現(xiàn)的信息或網(wǎng)頁中隱 含的信息、特征值或關(guān)鍵詞;
[0020] 2)信息抽取規(guī)則集生成,所需信息的抽取規(guī)則集合分成兩部分;人工構(gòu)建的抽取 規(guī)則和通過機(jī)器學(xué)習(xí)自動(dòng)生成的規(guī)則;
[0021] 人工構(gòu)建的抽取規(guī)則直接通過正則表達(dá)式和CSS選擇器編寫,在信息抽取表創(chuàng)建 時(shí)用戶直接對于該類屬性定義其抽取規(guī)則自動(dòng)生成的規(guī)則需要根據(jù)信息抽取表中定義的 某屬性的特征,先從一部分網(wǎng)頁中抽取其對應(yīng)特征的一組特征值樣本,然后對樣本進(jìn)行人 工標(biāo)注;再使用支持向量機(jī)SVM訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般 規(guī)律,即為對應(yīng)信息的抽取規(guī)則;人工標(biāo)注樣本的過程就是構(gòu)建樣本中屬性的特征到屬性 值的映射的過程;
[0022] 3)數(shù)據(jù)抽?。褐饕獌?nèi)容是對網(wǎng)頁上信息的抽取和結(jié)果的持久化的工作。
[0023] 根據(jù)用戶配置的信息抽取表對某一網(wǎng)頁抽取信息時(shí),分別對每個(gè)屬性的內(nèi)容進(jìn)行 抽取,根據(jù)不同屬性抽取規(guī)則的不同,抽取過程可W分別直接按規(guī)則對網(wǎng)頁上的內(nèi)容進(jìn)行 抽取和先從頁面中抽取對應(yīng)的特征值,再使用訓(xùn)練好的模型對其進(jìn)行分類。抽取的結(jié)果W 結(jié)構(gòu)化的形式存儲(chǔ)到數(shù)據(jù)庫中,與用戶定義的信息抽取表對應(yīng)。
[0024] 對于需要通過特征來定義的屬性而言,不同特征值的組合蘊(yùn)含了不同的屬性值, 而不同特征值的組合到屬性值之間的映射規(guī)則即為該屬性對應(yīng)的抽取規(guī)則;
[00巧]而對于部分屬性的抽取,使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成抽取規(guī)則,則通過關(guān)鍵詞 特征來定義;通過網(wǎng)頁上的一些關(guān)鍵詞特征來綜合判別網(wǎng)站是否為某類網(wǎng)站,是否有某類 主營業(yè)務(wù),某個(gè)電話或郵箱是否為客服聯(lián)系信息等,該些關(guān)鍵詞特征定義了屬性的內(nèi)涵;
[0026] 通過對抽取的特征樣本進(jìn)行人工標(biāo)注,使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成對應(yīng)的抽取 規(guī)則;
[0027] 信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù),包括直接抽取規(guī)則的函數(shù)和抽 取特征的函數(shù),用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。
[0028] 通過對抽取的特征樣本進(jìn)行人工標(biāo)注,使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成對應(yīng)的抽取 規(guī)則;
[0029] 信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù),包括直接抽取規(guī)則的函數(shù)和抽 取特征的函數(shù),用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。
[0030] 進(jìn)一步,根據(jù)特定的情況靈活地使用兩種方法;在對于提供旅游銷售的網(wǎng)站,從描 述旅游線路的網(wǎng)頁上抽取旅游線路信息時(shí),線路作為表的主體,在同一網(wǎng)站或類似網(wǎng)站中, 線路價(jià)格,描述屬性的位置、格式往往是固定的,所W能夠從網(wǎng)頁中直接獲取,通過正則表 達(dá)式和CSS選擇器進(jìn)行人工構(gòu)建抽取規(guī)則的方法,CSS選擇器是對HTML頁面中的元素實(shí)現(xiàn) 一對一,一對多或者多對一的控制。
[0031] HTML頁面中的元素就是通過CSS選擇器進(jìn)行控制,CSS選擇器對HTML頁面中的元 素實(shí)現(xiàn)一對一,一對多或者多對一的控制。
[0032] 進(jìn)一步,規(guī)則集生成過程中人工