基于關(guān)系表的可配置信息抽取方法

文檔序號：8905298閱讀：276來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于關(guān)系表的可配置信息抽取方法
【專利說明】基于關(guān)系表的可配置信息抽取方法 -、技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于計(jì)算機(jī)領(lǐng)域互聯(lián)網(wǎng)數(shù)據(jù)抽取，具體設(shè)及一種基于關(guān)系表的可配置信息抽取框架技術(shù)。二、【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的迅速發(fā)展，人們的生活越來越離不開網(wǎng)絡(luò)，互聯(lián)網(wǎng)上的信息量也呈
[0003] 現(xiàn)爆炸性的增長，該使得互聯(lián)網(wǎng)成為了一個(gè)巨大的信息源，能夠提供海量有價(jià)值的信息。對于用戶來說，如何有效地獲取和利用該些信息變得尤為迫切和重要。目前互聯(lián) 網(wǎng)上的數(shù)據(jù)大部分都是WHTML形式出現(xiàn)的，HTML文檔中的信息主要是面向顯示的，缺乏對數(shù)據(jù)本身的描述，也不包含語義信息，大多是非結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)。該使得應(yīng)用程序無法直接解析并利用該些信息。
[0004] 為了增加互聯(lián)網(wǎng)上數(shù)據(jù)的可用性，讓應(yīng)用程序能夠直接利用互聯(lián)網(wǎng)上的信息資源，讓用戶能夠在海量信息中方便地獲取所需要的信息，需要自動(dòng)將網(wǎng)頁上的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù)。Web信息抽取技術(shù)正是在該種背景下產(chǎn)生的。
[0005] Web信息抽取指的是從網(wǎng)頁所包含的無結(jié)構(gòu)或半結(jié)構(gòu)化數(shù)據(jù)中抽取出用戶感興趣的數(shù)據(jù)，并將其轉(zhuǎn)化為更具語義，更結(jié)構(gòu)化的形式保存下來W供用戶查詢或其他程序應(yīng)用。因此傳統(tǒng)的信息抽取通常使用自然語言理解技術(shù)，如詞典、語法分析等，而Web信息抽取常常使用機(jī)器學(xué)習(xí)、模式挖掘等技術(shù)。Web信息抽取在Web數(shù)據(jù)挖掘的很多應(yīng)用中有很重要的作用，如超鏈接分析，日志挖掘，網(wǎng)頁內(nèi)容挖掘等。
[0006] 一個(gè)信息抽取任務(wù)通常是與某個(gè)領(lǐng)域密切相關(guān)的，如抽取課程類網(wǎng)站主頁上的課程名稱、內(nèi)容和老師等信息，或從旅游論壇上抽取聯(lián)系信息和聯(lián)系信息對應(yīng)的功能類別等。生活中也有很有Web信息抽取的應(yīng)用，如購物網(wǎng)站商品比較系統(tǒng)抽取不同購物網(wǎng)站的商品價(jià)格等信息反饋給用戶；個(gè)性化自動(dòng)信息推送服務(wù)自動(dòng)在目標(biāo)網(wǎng)站抽取用戶感興趣的信息定期推送給用戶等。不同的抽取任務(wù)設(shè)及不同領(lǐng)域，缺乏一定的規(guī)范，而同一個(gè)抽取任務(wù)在抽取不同網(wǎng)站上的信息時(shí)，由于不同網(wǎng)站頁面組織和數(shù)據(jù)結(jié)構(gòu)存在差異，也給信息抽取帶來很大困難。
[0007] Web信息抽取系統(tǒng)的研究可W追溯到二十世紀(jì)九十年代。早期的Web信息抽取系統(tǒng)需要人為定義規(guī)則，用戶人工為每個(gè)抽取任務(wù)編寫包裝器。之后的框架逐漸引入了機(jī)器學(xué)習(xí)等方法W自動(dòng)生成抽取規(guī)則，用戶不需要人工（手工）編寫抽取規(guī)則而只要對數(shù)據(jù)樣本進(jìn)行標(biāo)注，大大降低了對用戶的要求和包裝器的生成成本。近年來的研究重點(diǎn)主要在于進(jìn)一步提高Web信息抽取自動(dòng)化程度，降低標(biāo)注代價(jià)，但是自動(dòng)化程度的提高往往W-些其他性能為代價(jià)，如系統(tǒng)對不同領(lǐng)域任務(wù)適應(yīng)性的降低或?qū)ψ鳛檩斎氲腤eb頁面有一些特殊的限制。
[0008] 目前主流的Web信息抽取技術(shù)主要有：基于包裝器開發(fā)專用語言的抽取技術(shù)、基于數(shù)據(jù)模型的抽取技術(shù)、基于HTML結(jié)構(gòu)的抽取技術(shù)和基于自然語言處理的抽取技術(shù)等。如 CN103309954A公開的基于html網(wǎng)頁的數(shù)據(jù)抽取方法，其由xml解析器，html引擎W及數(shù) 據(jù)管理器S個(gè)模塊組成；其中；所述xml解析器模塊負(fù)責(zé)解析sysconfig. xml文件，得到系統(tǒng)初始化參數(shù)、頁面的url地址和目標(biāo)節(jié)點(diǎn)的描述信息；所述html引擎模塊首先驗(yàn)證 sysconfig. xml文件配置信息的有效性，如果有效則繼續(xù)執(zhí)行，否則提示用戶檢查xml文件配置信息；xml文件配置通過驗(yàn)證之后，根據(jù)配置信息中的頁面鏈接地址，獲取該頁面的 html文檔，然后再調(diào)用html解析器來解析html文檔，根據(jù)sysconfig. xml中配置的目標(biāo) 節(jié)點(diǎn)選擇器描述信息，獲得html中目標(biāo)元素，從而獲得該元素的數(shù)據(jù)；所述數(shù)據(jù)管理模塊主要是負(fù)責(zé)數(shù)據(jù)的持久化工作，根據(jù)用戶在sysconfig. xml中配置的數(shù)據(jù)保存方式，選擇相應(yīng)的數(shù)據(jù)管理器來完成數(shù)據(jù)的持久化工作；所述系統(tǒng)進(jìn)行數(shù)據(jù)抽取的工作流程如下；首先，html引擎模塊根據(jù)xml解析器模塊獲得的html頁面url地址，通過http get請求獲取目標(biāo)網(wǎng)頁文檔；接著xml解析器模塊根據(jù)xml文件中的配置目標(biāo)節(jié)點(diǎn)選擇器，描述具有相同html頁面結(jié)構(gòu)的目標(biāo)節(jié)點(diǎn)；再經(jīng)過我們的html引擎模塊解析，得到我們想要的目標(biāo)節(jié)點(diǎn) 的結(jié)構(gòu)化數(shù)據(jù)；最后由數(shù)據(jù)管理器模塊根據(jù)配置文件中配置的數(shù)據(jù)保存方式將其保存在相應(yīng)的介質(zhì)中。
[0009] 使用基于包裝器開發(fā)專用語言的抽取技術(shù)需要采用人工構(gòu)建包裝器的方法，該就要求用戶既要有編程經(jīng)驗(yàn)又要擁有豐富的領(lǐng)域背景知識(shí)和對系統(tǒng)可能的應(yīng)用場景與任務(wù) 的預(yù)見能力?；谀Ｐ偷某槿〖夹g(shù)主要考慮數(shù)據(jù)對象的結(jié)構(gòu)W及周圍數(shù)據(jù)特征，受文件形式的影響較小，有較好地靈活性，并且具有一定的自動(dòng)化程度。但是沒有考慮不同網(wǎng)頁信息之間的異構(gòu)性，只能在相似網(wǎng)頁中進(jìn)行抽取。而基于HTML結(jié)構(gòu)的抽取技術(shù)依賴HTML頁面的結(jié)構(gòu)對信息進(jìn)行定位，產(chǎn)生的規(guī)則只適用于結(jié)構(gòu)相同或相似的一類網(wǎng)頁，對于結(jié)構(gòu)不同的網(wǎng)頁要重新產(chǎn)生規(guī)則?；谧匀徽Z言處理的技術(shù)只有在含有大量自由文本且句子完整、適合語法分析的網(wǎng)頁中能夠取得較好的效果，不適用于一般的Web頁面，也沒有利用Web頁面的層次特性。
[0010] 現(xiàn)有的不同的信息抽取框架有各自的特點(diǎn)，也有很多不足。主要有：
[0011] 1.在通用性方面，有些只能從網(wǎng)頁的純文本內(nèi)容中進(jìn)行信息抽取；有些只適合半結(jié)構(gòu)數(shù)據(jù)的抽??；有些依賴網(wǎng)頁固有結(jié)構(gòu)，只能在相似網(wǎng)頁中進(jìn)行抽取等。
[0012] 2.現(xiàn)有的抽取技術(shù)主要針對網(wǎng)頁上明確出現(xiàn)的信息進(jìn)行抽取，沒有考慮網(wǎng)頁中隱含
[001引信息的抽取。
[0014] 提出了基于關(guān)系表的可配置信息抽取框架， H、
【發(fā)明內(nèi)容】

[0015] 本發(fā)明目的是，在吸取現(xiàn)有技術(shù)的基礎(chǔ)上，提出一種基于關(guān)系表的可配置信息抽取框架方法，不僅具有良好的通用性，抽取所適用的規(guī)則可適用于結(jié)構(gòu)相同或相異的網(wǎng)頁，而且可W抽取網(wǎng)頁中沒有明確出現(xiàn)的隱含信息。
[0016] 本發(fā)明的技術(shù)方案，一種基于關(guān)系表的可配置信息抽取框架或方法，即Web信息抽取方法或框架；首先用結(jié)構(gòu)化的形式對信息抽取任務(wù)進(jìn)行定義，然后采取人工方式和機(jī) 器學(xué)習(xí)相結(jié)合的方法，構(gòu)建抽取規(guī)則，從而對目標(biāo)頁面進(jìn)行抽??；本發(fā)明提出的方法主要由 =個(gè)部分組成，分別是信息抽取用戶接口，抽取規(guī)則集生成和數(shù)據(jù)抽取。
[0017] 1)信息抽取用戶接口；所述用戶接口讓用戶W表格化的形式表達(dá)信息抽取需求，包括對信息抽取的主體，即信息抽取表的主鍵的定義和對信息抽取表中各種屬性的定義；
[0018] 主鍵和屬性的定義的方式采用人工直接構(gòu)建抽取規(guī)則，或者通過樣例描述的方法自動(dòng)學(xué)習(xí)生成抽取規(guī)則；
[0019] 所述的抽取方法中，用戶使用類S化語言創(chuàng)建信息抽取表，通過信息抽取表的形式定義所要抽取的信息，為信息抽取表定義主鍵和屬性；信息抽取表的主鍵即所要抽取的信息的主體，是網(wǎng)頁中的任何信息或網(wǎng)站本身；屬性是網(wǎng)頁中明確出現(xiàn)的信息或網(wǎng)頁中隱含的信息、特征值或關(guān)鍵詞；
[0020] 2)信息抽取規(guī)則集生成，所需信息的抽取規(guī)則集合分成兩部分；人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動(dòng)生成的規(guī)則；
[0021] 人工構(gòu)建的抽取規(guī)則直接通過正則表達(dá)式和CSS選擇器編寫，在信息抽取表創(chuàng)建時(shí)用戶直接對于該類屬性定義其抽取規(guī)則自動(dòng)生成的規(guī)則需要根據(jù)信息抽取表中定義的某屬性的特征，先從一部分網(wǎng)頁中抽取其對應(yīng)特征的一組特征值樣本，然后對樣本進(jìn)行人工標(biāo)注；再使用支持向量機(jī)SVM訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般規(guī)律，即為對應(yīng)信息的抽取規(guī)則；人工標(biāo)注樣本的過程就是構(gòu)建樣本中屬性的特征到屬性值的映射的過程；
[0022] 3)數(shù)據(jù)抽?。褐饕獌?nèi)容是對網(wǎng)頁上信息的抽取和結(jié)果的持久化的工作。
[0023] 根據(jù)用戶配置的信息抽取表對某一網(wǎng)頁抽取信息時(shí)，分別對每個(gè)屬性的內(nèi)容進(jìn)行抽取，根據(jù)不同屬性抽取規(guī)則的不同，抽取過程可W分別直接按規(guī)則對網(wǎng)頁上的內(nèi)容進(jìn)行抽取和先從頁面中抽取對應(yīng)的特征值，再使用訓(xùn)練好的模型對其進(jìn)行分類。抽取的結(jié)果W 結(jié)構(gòu)化的形式存儲(chǔ)到數(shù)據(jù)庫中，與用戶定義的信息抽取表對應(yīng)。
[0024] 對于需要通過特征來定義的屬性而言，不同特征值的組合蘊(yùn)含了不同的屬性值，而不同特征值的組合到屬性值之間的映射規(guī)則即為該屬性對應(yīng)的抽取規(guī)則；
[00巧]而對于部分屬性的抽取，使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成抽取規(guī)則，則通過關(guān)鍵詞特征來定義；通過網(wǎng)頁上的一些關(guān)鍵詞特征來綜合判別網(wǎng)站是否為某類網(wǎng)站，是否有某類主營業(yè)務(wù)，某個(gè)電話或郵箱是否為客服聯(lián)系信息等，該些關(guān)鍵詞特征定義了屬性的內(nèi)涵；
[0026] 通過對抽取的特征樣本進(jìn)行人工標(biāo)注，使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成對應(yīng)的抽取規(guī)則；
[0027] 信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù)，包括直接抽取規(guī)則的函數(shù)和抽取特征的函數(shù)，用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。
[0028] 通過對抽取的特征樣本進(jìn)行人工標(biāo)注，使用機(jī)器學(xué)習(xí)的方法自動(dòng)生成對應(yīng)的抽取規(guī)則；
[0029] 信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù)，包括直接抽取規(guī)則的函數(shù)和抽取特征的函數(shù)，用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。
[0030] 進(jìn)一步，根據(jù)特定的情況靈活地使用兩種方法；在對于提供旅游銷售的網(wǎng)站，從描述旅游線路的網(wǎng)頁上抽取旅游線路信息時(shí)，線路作為表的主體，在同一網(wǎng)站或類似網(wǎng)站中，線路價(jià)格，描述屬性的位置、格式往往是固定的，所W能夠從網(wǎng)頁中直接獲取，通過正則表達(dá)式和CSS選擇器進(jìn)行人工構(gòu)建抽取規(guī)則的方法，CSS選擇器是對HTML頁面中的元素實(shí)現(xiàn) 一對一，一對多或者多對一的控制。
[0031] HTML頁面中的元素就是通過CSS選擇器進(jìn)行控制，CSS選擇器對HTML頁面中的元素實(shí)現(xiàn)一對一，一對多或者多對一的控制。
[0032] 進(jìn)一步，規(guī)則集生成過程中人工

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：滕曉程;陳茂榕;邵明路;周曄;孟凡軍;
技術(shù)所有人：焦點(diǎn)科技股份有限公司;東南大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

關(guān)聯(lián)關(guān)系表相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)系表的可配置信息抽取方法