基于關(guān)系表的可配置信息抽取方法_2

文檔序號：8905298閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于關(guān)系表的可配置信息抽取方法

方式和機(jī)器學(xué)習(xí)的方式相結(jié)合。自動生成的規(guī)則需要先利用事先定義的特征抽取特征樣本，并對其進(jìn)行人工標(biāo)注，再使用支持向量機(jī)SVM 訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般規(guī)律，即為對應(yīng)信息的抽取規(guī) 則。
[0033] 進(jìn)一步，對不同屬性采用不同的抽取規(guī)則，抽取的信息W結(jié)構(gòu)化的形式保存，與用戶定義的模式相一致。
[0034] 有益效果；本發(fā)明提出了一種新型的Web信息抽取方法或框架。在此框架中，首先用結(jié)構(gòu)化的形式對抽取任務(wù)進(jìn)行定義（信息抽?。缓蟛扇∪斯し绞胶蜋C(jī)器學(xué)習(xí)相結(jié)合的方法，構(gòu)建抽取規(guī)則，從而對目標(biāo)頁面進(jìn)行抽取。相比已有的Web信息抽取框架，該框架的優(yōu)點在于：
[00巧](1)提供一種友好的用戶接口，允許用戶使用結(jié)構(gòu)化的形式定義信息抽取需求。
[0036] (2)不單一地依賴數(shù)據(jù)或網(wǎng)頁的結(jié)構(gòu)特點，而是綜合所要抽取信息的各種特征，因而能夠適應(yīng)更復(fù)雜的抽取需求。
[0037] (3)不僅能抽取網(wǎng)頁上明確出現(xiàn)的信息，還能抽取網(wǎng)頁上各種特征中隱含的信息。四、
【附圖說明】
[0038] 圖1是本發(fā)明用戶配置抽取信息表和生成抽取規(guī)則集流程圖。
[0039] 圖2是根據(jù)生成的規(guī)則對網(wǎng)頁進(jìn)行信息抽取的流程圖。五、
【具體實施方式】
[0040] 本發(fā)明提出的信息抽取方法，從功能上主要分為信息抽取用戶接口，抽取規(guī)則集生成和
[0041] 數(shù)據(jù)抽取S個部分。
[0042] 1、信息抽取用戶接口
[0043] 用戶通過此接口使用類S化語言，W關(guān)系表的形式配置所要抽取的信息，并定義抽取內(nèi)
[0044] 容的各屬性及其抽取方式，對于人工構(gòu)建抽取規(guī)則的屬性，使用CSS選擇器直接定義其抽取規(guī)則，對于采用機(jī)器學(xué)習(xí)方法自動構(gòu)建規(guī)則的屬性，給出對其特征的定義。
[0045]W下是定義信息抽取表的一個示例；使用信息抽取用戶接口：化eatet油le旅游網(wǎng)站業(yè)務(wù)（是本發(fā)明方法的典型應(yīng)用）：
[0046] CreatetableTABLENAME
[0047]
[0048] 創(chuàng)建表的過程中給出了各個字段及其抽取規(guī)則或特征定義，F(xiàn)IELDNAME是關(guān)系表中該
[0049] 字段的名稱，EXTENSIVE表示該字段為人工直接定義抽取規(guī)則，INTENSIVE表示該字段的抽取規(guī)則需要通過機(jī)器自動生成。PRIMARYk巧表示該字段是表的主鍵。DEFI肥DBY 后面括號中的內(nèi)容是抽取規(guī)則的定義，其中各變量與之前字段定義中的變量相對應(yīng)。CSS_ SELECTOR是一個CSS選擇器表達(dá)式，即一個直接抽取規(guī)則，直接定位頁面中需要抽取的內(nèi) 容的位置信息。如"P.title"表示選擇所有class為tile的P元素，"P牠aram" [0]表示選擇id為param的第一個P元素。化geNumo巧eas是一個預(yù)定義的函數(shù)，其功能是分別統(tǒng) 計某一頁面中每個指定的特征對應(yīng)的特征詞出現(xiàn)的總頻率，F(xiàn)eETture化Ider是所有特征對應(yīng)的特征詞所在的磁盤位置。如在抽取一個網(wǎng)站是否為旅游網(wǎng)站該一屬性時，特征可W是 "國家"、"城市"、"景點"，而國家可W對應(yīng)很多特征詞如阿根廷"、"埃及"、"愛爾蘭"等。用戶也可W自定義函數(shù)用W抽取對應(yīng)的特征。
[0050] 2、抽取規(guī)則集生成
[0051] 抽取規(guī)則集合分成人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則。在信息抽取表的中人工構(gòu)建的抽取規(guī)則由用戶直接定義。對于自動生成的規(guī)則，先根據(jù)用戶定義的特征抽取規(guī)則在樣本網(wǎng)頁上抽取特征樣本，并對其進(jìn)行人工標(biāo)注，再使用支持向量機(jī)訓(xùn) 練分類模型，即為對應(yīng)信息的抽取規(guī)則。
[0052] 3、數(shù)據(jù)抽取
[0053] 對于不同規(guī)則的屬性，做不同的處理。具體地，對于人工構(gòu)建抽取規(guī)則的屬性，根據(jù)對應(yīng)的規(guī)則直接對網(wǎng)頁上的內(nèi)容進(jìn)行抽取；對于自動生成規(guī)則的屬性，先從頁面中抽取對應(yīng)的特征值，再使用訓(xùn)練好的模型對其進(jìn)行分類。最后將抽取的結(jié)果W結(jié)構(gòu)化的形式存儲到數(shù)據(jù)庫中。
[0054] 綜上所述，本發(fā)明提出的新型的Web信息抽取框架W結(jié)構(gòu)化的形式定義抽取需求，綜合了人工抽取規(guī)則和機(jī)器學(xué)習(xí)該兩種方式，除了具有比較好的靈活性和通用性，還具有良好的擴(kuò)展性，能夠適應(yīng)不同領(lǐng)域的抽取任務(wù)，并且能在具體實踐中取得比較好的效果。
【主權(quán)項】
1. 一種基于關(guān)系表的可配置信息抽取方法，其特征是步驟如下：首先用結(jié)構(gòu)化的形式對信息抽取任務(wù)進(jìn)行定義，然后采取人工方式和機(jī)器學(xué)習(xí)相結(jié)合的方法，構(gòu)建抽取規(guī)則，從而對目標(biāo)頁面進(jìn)行抽??； 1) 信息抽取用戶接口：所述用戶接口讓用戶以表格化的形式表達(dá)信息抽取需求，包括對信息抽取的主體，即信息抽取表的主鍵的定義和對信息抽取表中各種屬性的定義；主鍵和屬性的定義的方式采用人工直接構(gòu)建抽取規(guī)則，或者通過樣例描述的方法自動學(xué)習(xí)生成抽取規(guī)則；所述的抽取方法中，用戶使用類SQL語言創(chuàng)建信息抽取表，通過信息抽取表的形式定義所要抽取的信息，為信息抽取表定義主鍵和屬性；信息抽取表的主鍵即所要抽取的信息的主體，是網(wǎng)頁中的任何信息或網(wǎng)站本身；屬性是網(wǎng)頁中明確出現(xiàn)的信息或網(wǎng)頁中隱含的信息、特征值或關(guān)鍵詞； 2) 信息抽取規(guī)則集生成，所需信息的抽取規(guī)則集合分成兩部分：人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則；人工構(gòu)建的抽取規(guī)則直接通過正則表達(dá)式和CSS選擇器編寫，在信息抽取表創(chuàng)建時用戶直接對于這類屬性定義其抽取規(guī)則自動生成的規(guī)則需要根據(jù)信息抽取表中定義的某屬性的特征，先從一部分網(wǎng)頁中抽取其對應(yīng)特征的一組特征值樣本，然后對樣本進(jìn)行人工標(biāo) 注；再使用支持向量機(jī)SVM訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般規(guī) 律，即為對應(yīng)信息的抽取規(guī)則；人工標(biāo)注樣本的過程就是構(gòu)建樣本中屬性的特征到屬性值的映射的過程； 3) 數(shù)據(jù)抽取：對網(wǎng)頁上信息的抽取和結(jié)果的持久化的工作：根據(jù)用戶配置的信息抽取表對某一網(wǎng)頁抽取信息時，分別對每個屬性的內(nèi)容進(jìn)行抽取，根據(jù)不同屬性抽取規(guī)則的不同，抽取過程可以分別直接按規(guī)則對網(wǎng)頁上的內(nèi)容進(jìn)行抽取和先從頁面中抽取對應(yīng)的特征值，再使用訓(xùn)練好的模型對其進(jìn)行分類。抽取的結(jié)果以結(jié)構(gòu)化的形式存儲到數(shù)據(jù)庫中，與用戶定義的信息抽取表對應(yīng)。2. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是對于需要通過特征來定義的屬性而言，不同特征值的組合蘊(yùn)含了不同的屬性值，而不同特征值的組合到屬性值之間的映射規(guī)則即為該屬性對應(yīng)的抽取規(guī)則；而對于部分屬性的抽取，使用機(jī)器學(xué)習(xí)的方法自動生成抽取規(guī)則，則通過關(guān)鍵詞特征來定義：通過網(wǎng)頁上的一些關(guān)鍵詞特征來綜合判別網(wǎng)站是否為某類網(wǎng)站，這些關(guān)鍵詞特征定義了屬性的內(nèi)涵；通過對抽取的特征樣本進(jìn)行人工標(biāo)注，使用機(jī)器學(xué)習(xí)的方法自動生成對應(yīng)的抽取規(guī) 則；信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù)，包括直接抽取規(guī)則的函數(shù)和抽取特征的函數(shù)，用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。3. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是根據(jù)特定的情況靈活地使用兩種方法：在對于提供旅游銷售的網(wǎng)站，從描述旅游線路的網(wǎng)頁上抽取旅游線路信息時，線路作為表的主體，在同一網(wǎng)站或類似網(wǎng)站中，線路價格，描述屬性的位置、格式往往是固定的，所以能夠從網(wǎng)頁中直接獲取，通過正則表達(dá)式和CSS選擇器進(jìn)行人工構(gòu) 建抽取規(guī)則的方法，CSS選擇器是對HTML頁面中的元素實現(xiàn)一對一，一對多或者多對一的控制。4. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是使用信息抽取用戶接口，創(chuàng)建旅游網(wǎng)站業(yè)務(wù)表：創(chuàng)建表的過程中給出了各個字段及其抽取規(guī)則或特征定義，F(xiàn)IELDNAME是關(guān)系表中該字段的名稱，EXTENSIVE表示該字段為人工直接定義抽取規(guī)則，INTENSIVE表示該字段的抽取規(guī)則需要通過機(jī)器自動生成；PRIMARY key表示該字段是表的主鍵；DEFINED BY后面括號中的內(nèi)容是抽取規(guī)則的定義，其中各變量與之前字段定義中的變量相對應(yīng)；CSS_ SELECTOR是一個CSS選擇器表達(dá)式，即一個直接抽取規(guī)則，直接定位頁面中需要抽取的內(nèi) 容的位置信息；PageNumofFeas是一個預(yù)定義的函數(shù)，其功能是統(tǒng)計某一頁面中每個指定的特征對應(yīng)的特征詞出現(xiàn)的頻率，F(xiàn)eaturefolder是所有特征對應(yīng)的特征詞所在的磁盤位置；或用戶也自定義函數(shù)以抽取特征。5. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是規(guī)則集生成過程中人工方式和機(jī)器學(xué)習(xí)的方式相結(jié)合。6. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是對不同屬性采用不同的抽取規(guī)則，抽取的信息以結(jié)構(gòu)化的形式保存，與用戶定義的模式相一致。7. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法，其特征是HTML頁面中的元素就是通過CSS選擇器進(jìn)行控制，CSS選擇器對HTML頁面中的元素實現(xiàn)一對一，一對多或者多對一的控制。
【專利摘要】一種基于關(guān)系表的可配置信息抽取方法，首先用結(jié)構(gòu)化的形式對信息抽取任務(wù)進(jìn)行定義，然后采取人工方式和機(jī)器學(xué)習(xí)相結(jié)合的方法，構(gòu)建抽取規(guī)則，從而對目標(biāo)頁面進(jìn)行抽?。?)信息抽取用戶接口：所述用戶接口讓用戶以表格化的形式表達(dá)信息抽取需求，包括對信息抽取的主體；2)信息抽取規(guī)則集生成，所需信息的抽取規(guī)則集合分成兩部分：人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則；3)數(shù)據(jù)抽?。簩W(wǎng)頁上信息的抽取和結(jié)果的持久化的工作：根據(jù)用戶配置的信息抽取表對某一網(wǎng)頁抽取信息時，分別對每個屬性的內(nèi)容進(jìn)行抽取，再使用訓(xùn)練好的模型對其進(jìn)行分類。
【IPC分類】G06F17/30
【公開號】CN104881488
【申請?zhí)枴緾N201510306130
【發(fā)明人】滕曉程, 陳茂榕, 邵明路, 周曄, 孟凡軍
【申請人】焦點科技股份有限公司, 東南大學(xué)
【公開日】2015年9月2日
【申請日】2015年6月5日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)聯(lián)關(guān)系表相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)系表的可配置信息抽取方法_2