亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于關(guān)系表的可配置信息抽取方法_2

文檔序號:8905298閱讀:來源:國知局
方式和機(jī)器學(xué)習(xí)的方式相結(jié)合。自動生成的規(guī)則 需要先利用事先定義的特征抽取特征樣本,并對其進(jìn)行人工標(biāo)注,再使用支持向量機(jī)SVM 訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般規(guī)律,即為對應(yīng)信息的抽取規(guī) 則。
[0033] 進(jìn)一步,對不同屬性采用不同的抽取規(guī)則,抽取的信息W結(jié)構(gòu)化的形式保存,與用 戶定義的模式相一致。
[0034] 有益效果;本發(fā)明提出了一種新型的Web信息抽取方法或框架。在此框架中,首先 用結(jié)構(gòu)化的形式對抽取任務(wù)進(jìn)行定義(信息抽?。缓蟛扇∪斯し绞胶蜋C(jī)器學(xué)習(xí)相結(jié)合 的方法,構(gòu)建抽取規(guī)則,從而對目標(biāo)頁面進(jìn)行抽取。相比已有的Web信息抽取框架,該框架 的優(yōu)點在于:
[00巧](1)提供一種友好的用戶接口,允許用戶使用結(jié)構(gòu)化的形式定義信息抽取需求。
[0036] (2)不單一地依賴數(shù)據(jù)或網(wǎng)頁的結(jié)構(gòu)特點,而是綜合所要抽取信息的各種特征,因 而能夠適應(yīng)更復(fù)雜的抽取需求。
[0037] (3)不僅能抽取網(wǎng)頁上明確出現(xiàn)的信息,還能抽取網(wǎng)頁上各種特征中隱含的信息。 四、
【附圖說明】
[0038] 圖1是本發(fā)明用戶配置抽取信息表和生成抽取規(guī)則集流程圖。
[0039] 圖2是根據(jù)生成的規(guī)則對網(wǎng)頁進(jìn)行信息抽取的流程圖。 五、
【具體實施方式】
[0040] 本發(fā)明提出的信息抽取方法,從功能上主要分為信息抽取用戶接口,抽取規(guī)則集 生成和
[0041] 數(shù)據(jù)抽取S個部分。
[0042] 1、信息抽取用戶接口
[0043] 用戶通過此接口使用類S化語言,W關(guān)系表的形式配置所要抽取的信息,并定義 抽取內(nèi)
[0044] 容的各屬性及其抽取方式,對于人工構(gòu)建抽取規(guī)則的屬性,使用CSS選擇器直接 定義其抽取規(guī)則,對于采用機(jī)器學(xué)習(xí)方法自動構(gòu)建規(guī)則的屬性,給出對其特征的定義。
[0045]W下是定義信息抽取表的一個示例;使用信息抽取用戶接口:化eatet油le旅游 網(wǎng)站業(yè)務(wù)(是本發(fā)明方法的典型應(yīng)用):
[0046] CreatetableTABLENAME
[0047]
[0048] 創(chuàng)建表的過程中給出了各個字段及其抽取規(guī)則或特征定義,F(xiàn)IELDNAME是關(guān)系表 中該
[0049] 字段的名稱,EXTENSIVE表示該字段為人工直接定義抽取規(guī)則,INTENSIVE表示該 字段的抽取規(guī)則需要通過機(jī)器自動生成。PRIMARYk巧表示該字段是表的主鍵。DEFI肥DBY 后面括號中的內(nèi)容是抽取規(guī)則的定義,其中各變量與之前字段定義中的變量相對應(yīng)。CSS_ SELECTOR是一個CSS選擇器表達(dá)式,即一個直接抽取規(guī)則,直接定位頁面中需要抽取的內(nèi) 容的位置信息。如"P.title"表示選擇所有class為tile的P元素,"P牠aram" [0]表示 選擇id為param的第一個P元素。化geNumo巧eas是一個預(yù)定義的函數(shù),其功能是分別統(tǒng) 計某一頁面中每個指定的特征對應(yīng)的特征詞出現(xiàn)的總頻率,F(xiàn)eETture化Ider是所有特征對 應(yīng)的特征詞所在的磁盤位置。如在抽取一個網(wǎng)站是否為旅游網(wǎng)站該一屬性時,特征可W是 "國家"、"城市"、"景點",而國家可W對應(yīng)很多特征詞如阿根廷"、"埃及"、"愛爾蘭"等。用戶 也可W自定義函數(shù)用W抽取對應(yīng)的特征。
[0050] 2、抽取規(guī)則集生成
[0051] 抽取規(guī)則集合分成人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則。在信息 抽取表的中人工構(gòu)建的抽取規(guī)則由用戶直接定義。對于自動生成的規(guī)則,先根據(jù)用戶定義 的特征抽取規(guī)則在樣本網(wǎng)頁上抽取特征樣本,并對其進(jìn)行人工標(biāo)注,再使用支持向量機(jī)訓(xùn) 練分類模型,即為對應(yīng)信息的抽取規(guī)則。
[0052] 3、數(shù)據(jù)抽取
[0053] 對于不同規(guī)則的屬性,做不同的處理。具體地,對于人工構(gòu)建抽取規(guī)則的屬性,根 據(jù)對應(yīng)的規(guī)則直接對網(wǎng)頁上的內(nèi)容進(jìn)行抽取;對于自動生成規(guī)則的屬性,先從頁面中抽取 對應(yīng)的特征值,再使用訓(xùn)練好的模型對其進(jìn)行分類。最后將抽取的結(jié)果W結(jié)構(gòu)化的形式存 儲到數(shù)據(jù)庫中。
[0054] 綜上所述,本發(fā)明提出的新型的Web信息抽取框架W結(jié)構(gòu)化的形式定義抽取需 求,綜合了人工抽取規(guī)則和機(jī)器學(xué)習(xí)該兩種方式,除了具有比較好的靈活性和通用性,還具 有良好的擴(kuò)展性,能夠適應(yīng)不同領(lǐng)域的抽取任務(wù),并且能在具體實踐中取得比較好的效果。
【主權(quán)項】
1. 一種基于關(guān)系表的可配置信息抽取方法,其特征是步驟如下:首先用結(jié)構(gòu)化的形式 對信息抽取任務(wù)進(jìn)行定義,然后采取人工方式和機(jī)器學(xué)習(xí)相結(jié)合的方法,構(gòu)建抽取規(guī)則,從 而對目標(biāo)頁面進(jìn)行抽??; 1) 信息抽取用戶接口:所述用戶接口讓用戶以表格化的形式表達(dá)信息抽取需求,包括 對信息抽取的主體,即信息抽取表的主鍵的定義和對信息抽取表中各種屬性的定義; 主鍵和屬性的定義的方式采用人工直接構(gòu)建抽取規(guī)則,或者通過樣例描述的方法自動 學(xué)習(xí)生成抽取規(guī)則; 所述的抽取方法中,用戶使用類SQL語言創(chuàng)建信息抽取表,通過信息抽取表的形式定 義所要抽取的信息,為信息抽取表定義主鍵和屬性;信息抽取表的主鍵即所要抽取的信息 的主體,是網(wǎng)頁中的任何信息或網(wǎng)站本身;屬性是網(wǎng)頁中明確出現(xiàn)的信息或網(wǎng)頁中隱含的 信息、特征值或關(guān)鍵詞; 2) 信息抽取規(guī)則集生成,所需信息的抽取規(guī)則集合分成兩部分:人工構(gòu)建的抽取規(guī)則 和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則; 人工構(gòu)建的抽取規(guī)則直接通過正則表達(dá)式和CSS選擇器編寫,在信息抽取表創(chuàng)建時用 戶直接對于這類屬性定義其抽取規(guī)則自動生成的規(guī)則需要根據(jù)信息抽取表中定義的某屬 性的特征,先從一部分網(wǎng)頁中抽取其對應(yīng)特征的一組特征值樣本,然后對樣本進(jìn)行人工標(biāo) 注;再使用支持向量機(jī)SVM訓(xùn)練分類模型從樣本中歸納出特征到屬性值的映射的一般規(guī) 律,即為對應(yīng)信息的抽取規(guī)則;人工標(biāo)注樣本的過程就是構(gòu)建樣本中屬性的特征到屬性值 的映射的過程; 3) 數(shù)據(jù)抽取:對網(wǎng)頁上信息的抽取和結(jié)果的持久化的工作:根據(jù)用戶配置的信息抽取 表對某一網(wǎng)頁抽取信息時,分別對每個屬性的內(nèi)容進(jìn)行抽取,根據(jù)不同屬性抽取規(guī)則的不 同,抽取過程可以分別直接按規(guī)則對網(wǎng)頁上的內(nèi)容進(jìn)行抽取和先從頁面中抽取對應(yīng)的特征 值,再使用訓(xùn)練好的模型對其進(jìn)行分類。抽取的結(jié)果以結(jié)構(gòu)化的形式存儲到數(shù)據(jù)庫中,與用 戶定義的信息抽取表對應(yīng)。2. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是對于需要通過 特征來定義的屬性而言,不同特征值的組合蘊(yùn)含了不同的屬性值,而不同特征值的組合到 屬性值之間的映射規(guī)則即為該屬性對應(yīng)的抽取規(guī)則; 而對于部分屬性的抽取,使用機(jī)器學(xué)習(xí)的方法自動生成抽取規(guī)則,則通過關(guān)鍵詞特征 來定義:通過網(wǎng)頁上的一些關(guān)鍵詞特征來綜合判別網(wǎng)站是否為某類網(wǎng)站,這些關(guān)鍵詞特征 定義了屬性的內(nèi)涵; 通過對抽取的特征樣本進(jìn)行人工標(biāo)注,使用機(jī)器學(xué)習(xí)的方法自動生成對應(yīng)的抽取規(guī) 則; 信息抽取用戶接口中預(yù)定義一些常用的抽取函數(shù),包括直接抽取規(guī)則的函數(shù)和抽取特 征的函數(shù),用戶或根據(jù)特定需求自定義規(guī)則進(jìn)行抽取。3. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是根據(jù)特定的情 況靈活地使用兩種方法:在對于提供旅游銷售的網(wǎng)站,從描述旅游線路的網(wǎng)頁上抽取旅游 線路信息時,線路作為表的主體,在同一網(wǎng)站或類似網(wǎng)站中,線路價格,描述屬性的位置、格 式往往是固定的,所以能夠從網(wǎng)頁中直接獲取,通過正則表達(dá)式和CSS選擇器進(jìn)行人工構(gòu) 建抽取規(guī)則的方法,CSS選擇器是對HTML頁面中的元素實現(xiàn)一對一,一對多或者多對一的 控制。4. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是使用信息抽取 用戶接口,創(chuàng)建旅游網(wǎng)站業(yè)務(wù)表:創(chuàng)建表的過程中給出了各個字段及其抽取規(guī)則或特征定義,F(xiàn)IELDNAME是關(guān)系表中 該字段的名稱,EXTENSIVE表示該字段為人工直接定義抽取規(guī)則,INTENSIVE表示該字段 的抽取規(guī)則需要通過機(jī)器自動生成;PRIMARY key表示該字段是表的主鍵;DEFINED BY后 面括號中的內(nèi)容是抽取規(guī)則的定義,其中各變量與之前字段定義中的變量相對應(yīng);CSS_ SELECTOR是一個CSS選擇器表達(dá)式,即一個直接抽取規(guī)則,直接定位頁面中需要抽取的內(nèi) 容的位置信息;PageNumofFeas是一個預(yù)定義的函數(shù),其功能是統(tǒng)計某一頁面中每個指定 的特征對應(yīng)的特征詞出現(xiàn)的頻率,F(xiàn)eaturefolder是所有特征對應(yīng)的特征詞所在的磁盤位 置;或用戶也自定義函數(shù)以抽取特征。5. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是規(guī)則集生成過 程中人工方式和機(jī)器學(xué)習(xí)的方式相結(jié)合。6. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是對不同屬性采 用不同的抽取規(guī)則,抽取的信息以結(jié)構(gòu)化的形式保存,與用戶定義的模式相一致。7. 根據(jù)權(quán)利要求1所述的基于關(guān)系表的可配置信息抽取方法,其特征是HTML頁面中的 元素就是通過CSS選擇器進(jìn)行控制,CSS選擇器對HTML頁面中的元素實現(xiàn)一對一,一對多 或者多對一的控制。
【專利摘要】一種基于關(guān)系表的可配置信息抽取方法,首先用結(jié)構(gòu)化的形式對信息抽取任務(wù)進(jìn)行定義,然后采取人工方式和機(jī)器學(xué)習(xí)相結(jié)合的方法,構(gòu)建抽取規(guī)則,從而對目標(biāo)頁面進(jìn)行抽?。?)信息抽取用戶接口:所述用戶接口讓用戶以表格化的形式表達(dá)信息抽取需求,包括對信息抽取的主體;2)信息抽取規(guī)則集生成,所需信息的抽取規(guī)則集合分成兩部分:人工構(gòu)建的抽取規(guī)則和通過機(jī)器學(xué)習(xí)自動生成的規(guī)則;3)數(shù)據(jù)抽?。簩W(wǎng)頁上信息的抽取和結(jié)果的持久化的工作:根據(jù)用戶配置的信息抽取表對某一網(wǎng)頁抽取信息時,分別對每個屬性的內(nèi)容進(jìn)行抽取,再使用訓(xùn)練好的模型對其進(jìn)行分類。
【IPC分類】G06F17/30
【公開號】CN104881488
【申請?zhí)枴緾N201510306130
【發(fā)明人】滕曉程, 陳茂榕, 邵明路, 周曄, 孟凡軍
【申請人】焦點科技股份有限公司, 東南大學(xué)
【公開日】2015年9月2日
【申請日】2015年6月5日
當(dāng)前第2頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1