亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于信息抽取技術(shù)的搜索引擎的制作方法

文檔序號(hào):6575129閱讀:207來源:國知局
專利名稱:基于信息抽取技術(shù)的搜索引擎的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息抽取(Information Extraction)和搜索引擎(SearchEngine)技術(shù),主要是一種將面向特定領(lǐng)域的信息抽取技術(shù)應(yīng)用到現(xiàn)有搜索引擎的技術(shù)實(shí)現(xiàn)。
背景技術(shù)
信息抽取技術(shù)是按照一定規(guī)則,利用計(jì)算機(jī)對(duì)自由、半自由文本中的有效信息進(jìn)行提取,并加以組織,展現(xiàn)給用戶的技術(shù)。特定領(lǐng)域的信息抽取以領(lǐng)域相關(guān)知識(shí)作為指導(dǎo),利用人工標(biāo)記的、規(guī)則的樣本集進(jìn)行訓(xùn)練,使信息抽取機(jī)制中的規(guī)則的抽象層次和覆蓋面達(dá)到最合理的程度,然后再對(duì)樣本集外的文本進(jìn)行信息提取。該技術(shù)一直以來是計(jì)算機(jī)人工智能研究領(lǐng)域的核心問題,也是一個(gè)難點(diǎn)。
搜索引擎技術(shù)是利用關(guān)鍵字組合,在網(wǎng)絡(luò)上查找相關(guān)信息,并按照他們與關(guān)鍵字的匹配程度進(jìn)行排序,然后返回給用戶查看的技術(shù)。特定領(lǐng)域的搜索引擎能夠做到關(guān)鍵字的精確匹配,并且由于有領(lǐng)域知識(shí)的指導(dǎo),搜索的結(jié)果更加合理、貼切。
隨著Internet的快速發(fā)展,網(wǎng)絡(luò)上的信息呈現(xiàn)爆炸式的增長。紛繁的網(wǎng)絡(luò)信息使搜索引擎的應(yīng)用得到了空前的提高。近幾年來,全球的Internet服務(wù)商提供了各種各樣的搜索引擎。這些搜索引擎很好地解決了信息搜索的途徑和方法,在人們對(duì)信息的獲取過程中起到了很重要的作用。但是目前搜索引擎給出的信息還需要人為的挑選,而且因?yàn)槠浞祷匦畔⒌牟痪_性,這項(xiàng)挑選工作也是很重的。

發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種信息抽取與搜索引擎的結(jié)合,利用信息抽取技術(shù)對(duì)搜索引擎返回的相關(guān)信息頁面進(jìn)行信息獲取,并用結(jié)構(gòu)化的方式對(duì)抽取的信息進(jìn)行表現(xiàn),使用戶對(duì)于自己想要查找的信息更加一目了然,這種信息抽取與搜索引擎的結(jié)合,我們稱之為一種基于信息抽取技術(shù)的搜索引擎。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案。這種基于信息抽取技術(shù)的搜索引擎,利用機(jī)器學(xué)習(xí)的方法,對(duì)含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對(duì)此類HTML頁面進(jìn)行信息抽取的規(guī)則;應(yīng)用這些規(guī)則,結(jié)合一個(gè)特定領(lǐng)域的搜索引擎,對(duì)網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。也就是說,利用機(jī)器學(xué)習(xí)和模式識(shí)別的方法,將經(jīng)過人工標(biāo)注的訓(xùn)練集文本的結(jié)構(gòu)信息、字段信息,體現(xiàn)到機(jī)器學(xué)習(xí)后的規(guī)則中去。通過訓(xùn)練和學(xué)習(xí),不斷調(diào)整機(jī)器的規(guī)則數(shù)目和抽象程度,使其滿足一定的精度要求,然后基于學(xué)習(xí)提煉后的規(guī)則集對(duì)樣本集以外的文本進(jìn)行信息提取。對(duì)用搜索引擎獲取的特定內(nèi)容的頁面,利用規(guī)則進(jìn)行信息提取。信息提取用有限狀態(tài)機(jī)的方式實(shí)現(xiàn),將經(jīng)過詞法分析、語法分析、語義分析、結(jié)構(gòu)分析等的文本,按照有限狀態(tài)機(jī)中的狀態(tài)進(jìn)行推導(dǎo),使之滿足某種最終狀態(tài),從而根據(jù)不同的狀態(tài),獲取文本中的不同類型信息。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案還可以進(jìn)一步完善。含有同類信息且布局基本一致的HTML頁面樣本集是指在該引擎訓(xùn)練階段由用戶事先指定規(guī)則的HTML頁面集合,提供給引擎的學(xué)習(xí)機(jī)進(jìn)行學(xué)習(xí),從而獲取對(duì)該領(lǐng)域頁面的信息抽取規(guī)則。所述的特定領(lǐng)域搜索引擎是指在系統(tǒng)的試開發(fā)實(shí)現(xiàn)階段,搜索引擎僅僅面向某一個(gè)特定的領(lǐng)域,從而提高搜索的準(zhǔn)確性和精度。搜索引擎獲取的信息頁面交由訓(xùn)練得出的信息抽取規(guī)則處理;信息抽取規(guī)則對(duì)頁面進(jìn)行有效抽?。粚?duì)于不能進(jìn)行相關(guān)信息抽取的頁面,認(rèn)為其不合法;對(duì)于抽取得到的有效信息,結(jié)構(gòu)化地展現(xiàn)給用戶。對(duì)樣本頁面進(jìn)行學(xué)習(xí)分下面幾個(gè)階段a)結(jié)構(gòu)分析;b)詞法分析;c)語法解析;d)語義解釋;e)框架構(gòu)建;f)協(xié)商決議。機(jī)器學(xué)習(xí)的樣本是人為標(biāo)注的規(guī)則頁面;樣本集是一個(gè)規(guī)則的HTML頁面集合,它們有統(tǒng)一的格式,含有同種類型的信息;人為標(biāo)注的任務(wù)是對(duì)HTML的半自由文本標(biāo)注出關(guān)鍵字,和相應(yīng)的結(jié)構(gòu)信息。信息抽取規(guī)則以解析圖和語義關(guān)系等形式給出,信息抽取的結(jié)果以量化的關(guān)鍵字段值的形式給出。信息抽取是一個(gè)機(jī)器學(xué)習(xí)的過程。本發(fā)明中涉及的機(jī)器學(xué)習(xí)方法是利用人工標(biāo)注的規(guī)則樣本集來進(jìn)行訓(xùn)練??梢越㈩I(lǐng)域知識(shí)庫,作為訓(xùn)練的指導(dǎo),從而省去了為訓(xùn)練集樣本進(jìn)行人工標(biāo)注的步驟。利用領(lǐng)域知識(shí)庫的指導(dǎo),帶來的另一個(gè)好處是,系統(tǒng)的整個(gè)處理機(jī)制與領(lǐng)域知識(shí)庫耦合松散,當(dāng)用戶需要面向另一個(gè)領(lǐng)域進(jìn)行同樣的工作時(shí),只要將領(lǐng)域知識(shí)庫作一次更換,而不必改動(dòng)其他的任何處理過程。
本發(fā)明有益的效果是基于信息抽取技術(shù)的搜索引擎,實(shí)際上是將信息抽取技術(shù)與搜索引擎技術(shù)有機(jī)地結(jié)合在一起,同時(shí)利用了有效的信息獲取和信息處理手段。對(duì)于當(dāng)前信息膨脹,但網(wǎng)上信息又非常凌亂的現(xiàn)狀,此搜索引擎是一個(gè)非常有效、準(zhǔn)確的信息獲取工具,它能夠較大范圍地提高人們的工作效率。


圖1是本發(fā)明的基于統(tǒng)計(jì)方法的模式識(shí)別系統(tǒng)圖;圖2是本發(fā)明的語法依賴關(guān)系圖;圖3是本發(fā)明的信息處理過程示意圖;圖4是本發(fā)明的有限狀態(tài)機(jī)示意圖;圖5是本發(fā)明的有限狀態(tài)機(jī)中文示意圖;具體實(shí)施方式
下面結(jié)合特定的科研領(lǐng)域(Call Paper頁面信息獲取)對(duì)本發(fā)明作詳細(xì)描述。這種基于信息抽取技術(shù)的搜索引擎系統(tǒng)第一步機(jī)器學(xué)習(xí)機(jī)器學(xué)習(xí)過程根據(jù)不同的信息提取目的和不同的領(lǐng)域,準(zhǔn)備相應(yīng)的學(xué)習(xí)訓(xùn)練樣本,人工對(duì)樣本進(jìn)行標(biāo)注。將準(zhǔn)備好的樣本交由學(xué)習(xí)機(jī)器進(jìn)行學(xué)習(xí),調(diào)整學(xué)習(xí)機(jī)器的規(guī)則集,使其滿足一定的要求。一、訓(xùn)練樣本1、頁面獲取訓(xùn)練樣本同信息源一樣,也是一些Web頁面,因此我們從Internet上獲取訓(xùn)練樣本,即在網(wǎng)上找規(guī)則的Call Paper頁面,加以利用。
A)、利用現(xiàn)有的搜索引擎,搜索出現(xiàn)Call Paper字段的頁面;只要含有Call Paper字段的頁面,都會(huì)被搜索引擎返回。
B)、去除出現(xiàn)Call Paper但不含相關(guān)信息的頁面;對(duì)于返回的頁面,會(huì)出現(xiàn)含有Call Paper字段,但沒有任何Call Paper信息的情況,首先將這些頁面刪除。
C)、去除布局風(fēng)格不一致的頁面;為了使訓(xùn)練集樣本適合機(jī)器學(xué)習(xí),要將布局不一致的頁面刪除,以免影響學(xué)習(xí)過程中機(jī)器的規(guī)則集確定。2、頁面預(yù)處理對(duì)于含有Call Paper信息的頁面,進(jìn)行進(jìn)一步處理,使之成為只有同一格式的自由文本。
A)、刪除機(jī)器學(xué)習(xí)尚不能處理的圖片信息;B)、刪除頁面中的廣告信息;C)、去除頁面中含有的鏈接信息;D)、最后,去除頁面中含有的HTML標(biāo)簽信息,使頁面成為僅含有Call Paper信息的自由文本。3、人工標(biāo)注對(duì)于經(jīng)過以上處理的自由文本,通過人工的方式,將關(guān)鍵字段信息標(biāo)注出來。
面向科研領(lǐng)域的Call Paper頁面,我們需要標(biāo)注的是會(huì)議名稱、會(huì)議主題、會(huì)議時(shí)間、會(huì)議主辦單位、論文截稿日期、論文要求等。
人工標(biāo)注的過程其實(shí)也可以看成是一個(gè)領(lǐng)域知識(shí)庫的建立過程。二、機(jī)器學(xué)習(xí)準(zhǔn)備了充分的學(xué)習(xí)樣本之后,就開始利用這些樣本訓(xùn)練規(guī)則集。我們利用模式識(shí)別的知識(shí),對(duì)樣本集進(jìn)行處理。
基于統(tǒng)計(jì)方法的模式識(shí)別系統(tǒng)主要有四個(gè)部分組成數(shù)據(jù)獲取,預(yù)處理,特征提取和選擇,分類決策。(如圖1所示)1、結(jié)構(gòu)分析根據(jù)頁面的分段線索將文檔劃分成各個(gè)部分之后,利用最大熵分類器來劃分句子的邊界。2、詞法分析查找領(lǐng)域相關(guān)的術(shù)語表,對(duì)句子中每一個(gè)將在后繼的語法解析和語義解釋過程中用到的單詞都賦以語法和語義特性。對(duì)于Call Paper信息來說,領(lǐng)域相關(guān)的術(shù)語表信息不會(huì)很多。3、語法解析通過文本中的單詞到單詞之間的弧線關(guān)系,建立一個(gè)依賴關(guān)系圖。利用依賴關(guān)系圖說明句子中各個(gè)詞之間的語法關(guān)系。(如圖2所示)4、語義解釋應(yīng)用覆蓋算法,從人工標(biāo)注的訓(xùn)練集中學(xué)習(xí)一組語義規(guī)則,每條語義規(guī)則都對(duì)解析依賴圖中的節(jié)點(diǎn)進(jìn)行處理,測試他們的語法和語義特性。
下面是一個(gè)規(guī)則學(xué)習(xí)器的基本結(jié)構(gòu)<pre listing-type="program-listing">RULE_LEARNER(訓(xùn)練集)Do until所有訓(xùn)練集被覆蓋{從訓(xùn)練集中選擇一個(gè)種子規(guī)則=GENERATE_RULE(種子,訓(xùn)練集)保存規(guī)則在訓(xùn)練集中標(biāo)記該實(shí)例已被規(guī)則覆蓋}}GENERATE_RULE(種子,訓(xùn)練集)規(guī)則=種子的最通用規(guī)則用規(guī)則初始化主干集合用訓(xùn)練集測試規(guī)則If規(guī)則在錯(cuò)誤容許范圍內(nèi){Return規(guī)則}else{Do until主干集合空or規(guī)則被發(fā)現(xiàn){ 主干集合=主干集合的所有規(guī)則中的k個(gè)最好的特殊化規(guī)則 規(guī)則=主干集合中的最好規(guī)則 用訓(xùn)練集測試規(guī)則 If規(guī)則在錯(cuò)誤容許范圍內(nèi){ Return規(guī)則 }}&lt;!-- SIPO &lt;DP n="5"&gt; --&gt;&lt;dp n="d5"/&gt; } }</pre>在訓(xùn)練集中應(yīng)用上述四個(gè)步驟,系統(tǒng)將最終得到進(jìn)行信息提取的眾多規(guī)則。
上述第一步機(jī)器學(xué)習(xí),與下面所述的其他步驟可以看成是不同階段的。機(jī)器學(xué)習(xí)是一個(gè)預(yù)備階段,為了信息查詢做好處理的準(zhǔn)備。從下面的頁面獲取階段開始,進(jìn)入真正的信息獲取階段。信息從網(wǎng)絡(luò)Web頁面的獲取、相關(guān)處理,然后到利用規(guī)則進(jìn)行抽取,到最后的結(jié)構(gòu)化地表現(xiàn)給用戶,對(duì)用戶來說,是一個(gè)完整的信息獲取的過程。
第二步頁面獲取用戶輸入想要查詢的關(guān)鍵字,頁面獲取部分負(fù)責(zé)根據(jù)這個(gè)關(guān)鍵字從網(wǎng)絡(luò)上查找相關(guān)的頁面返回,交給后繼步驟進(jìn)行精化處理。
由于現(xiàn)有的搜索引擎(例如Google)已經(jīng)達(dá)到高速的效果,我們利用現(xiàn)有的搜索引擎,在此基礎(chǔ)上建立一個(gè)元搜索引擎(Meta SearchEngine)。
一、發(fā)送請(qǐng)求1、關(guān)鍵字組合基于信息抽取技術(shù)的搜索引擎是面向特定領(lǐng)域的,用戶在進(jìn)行搜索時(shí),不必指定領(lǐng)域內(nèi)容,而只要指定關(guān)心的特定內(nèi)容。如面向科研的Call Paper搜索,用戶不用指定Call Paper為搜索關(guān)鍵字,只要將CallPaper主題詞,如Machine Learning作為搜索關(guān)鍵字。
將用戶輸入的搜索關(guān)鍵字,與特定領(lǐng)域的關(guān)鍵字相結(jié)合,從而形成新的搜索關(guān)鍵詞組,以便交給通用的、后臺(tái)支持的搜索引擎。
2、發(fā)送請(qǐng)求經(jīng)過關(guān)鍵詞組合之后,將新的關(guān)鍵詞提交給通用的搜索引擎(使用Google作為后臺(tái)支持)。
解析Google服務(wù)器的HTTP-POST請(qǐng)求,發(fā)現(xiàn)在Google網(wǎng)址(http//www.google.com/)之后擴(kuò)展search?hl=zh-CN&amp;q=(查詢關(guān)鍵詞)&amp;lr=,對(duì)應(yīng)了基于該關(guān)鍵詞的查詢請(qǐng)求HTTP-POST。
二、取得頁面
1、查詢結(jié)果頁面對(duì)搜索引擎服務(wù)器發(fā)出HTTP-POST請(qǐng)求之后,利用HTTP-GET請(qǐng)求獲取查詢結(jié)果頁面。
解析Google服務(wù)器的HTTP-GET請(qǐng)求,發(fā)現(xiàn)在Google網(wǎng)址(http//www.google.com/)之后擴(kuò)展search?hl=zh-CN&amp;q=(查詢關(guān)鍵詞)&amp;start=(起始記錄序號(hào))&amp;sa=N,對(duì)應(yīng)了基于該關(guān)鍵詞查詢的、從起始記錄序號(hào)開始的若干條查詢結(jié)果。
2、提取鏈接通用搜索引擎返回頁面,通常都是含有具有有效信息頁面的鏈接。通過分析結(jié)果頁面的HTML源碼,根據(jù)頁面鏈接標(biāo)志&lt;a href=...&gt;,提取結(jié)果頁面中含有的鏈接信息。
3、目標(biāo)頁面根據(jù)提取鏈接步驟中所提取的鏈接信息,獲取真正含有有效信息的頁面,也就是信息源頁面。
三、頁面規(guī)整從Internet中獲取的信息源頁面,因?yàn)楦鱾€(gè)服務(wù)商的不同,在頁面布局、風(fēng)格、內(nèi)容上都存在著很大的差異。要能夠?qū)@些頁面進(jìn)行統(tǒng)一的信息提取處理,必須要對(duì)它們按照一定標(biāo)準(zhǔn)進(jìn)行規(guī)整。
1、Web文檔正則化對(duì)所獲取的頁面的HTML源碼進(jìn)行合理的修改,使所有的HTML標(biāo)簽規(guī)范化,全都包含在開括號(hào)和閉括號(hào)(”&lt;”和”&gt;”)之間,除去HTML標(biāo)簽的屬性值。
利用堆棧實(shí)現(xiàn)標(biāo)簽的嵌套。每遇到一個(gè)HTML標(biāo)簽,如果是正標(biāo)簽,壓入堆棧;如果是反標(biāo)簽,對(duì)堆棧進(jìn)行從棧頂?shù)綏5椎乃阉?,找到第一個(gè)對(duì)應(yīng)的反標(biāo)簽,并為此前在堆棧中碰到的其他正標(biāo)簽配上反標(biāo)簽。若搜索中沒有碰到對(duì)應(yīng)的正標(biāo)簽,則忽略此反標(biāo)簽。
2、語法標(biāo)簽樹生成令T=(V,E)表示W(wǎng)eb文檔D的一個(gè)標(biāo)簽樹,其中V=VT∪VC,VT是標(biāo)簽節(jié)點(diǎn)(內(nèi)部節(jié)點(diǎn))的一個(gè)有限集合,VC是內(nèi)容節(jié)點(diǎn)(葉節(jié)點(diǎn))的一個(gè)有限集合。E(V×V),表示有向邊。我們稱一個(gè)從節(jié)點(diǎn)u(u∈V)開始的子樹為具有屬性P的最小子樹,如果它是滿足下列條件的最小子樹沒有另外的子樹subtree(w),w∈V,同時(shí)滿足屬性P并且u是w的一個(gè)祖先。
● parent(u)u的父節(jié)點(diǎn)定義為parent(u)={w|w∈V,(w,u)∈E}。一顆樹T的根節(jié)點(diǎn)是唯一一個(gè)沒有父節(jié)點(diǎn)的節(jié)點(diǎn)。
● children(u)children(u)={w|w∈V,(u,w)∈E}。u的父節(jié)點(diǎn)對(duì)應(yīng)u的子節(jié)點(diǎn)集合。
這個(gè)定義表明有且僅有一條邊(u,w)∈E時(shí),w是u的一個(gè)子節(jié)點(diǎn)。
● fanout(u)對(duì)于任何一個(gè)u∈V的節(jié)點(diǎn),我們用fanout(u)表示u的子節(jié)點(diǎn)集合的勢。
如果u∈VT,fanout(u)=‖children(u)‖;如果u∈Vc,fanout(u)=0。
● nodeSize(u)對(duì)于任何一個(gè)u∈V的節(jié)點(diǎn),如果u∈VC,例如,u是一個(gè)葉節(jié)點(diǎn),那么nodeSize(u)表示節(jié)點(diǎn)u的內(nèi)容的字節(jié)數(shù)。否則,u是一個(gè)標(biāo)簽節(jié)點(diǎn),例如,u∈VT并且fanout(u)>0。我們把nodeSize(u)定義成從u可到達(dá)的所有葉節(jié)點(diǎn)的節(jié)點(diǎn)大小之利,例如,nodeSize(u)=∑v,∈children(u)(nodeSize(vi))。對(duì)于任何一個(gè)u∈V的節(jié)點(diǎn),我們定義u子樹的大小subtreeSize(u)為u節(jié)點(diǎn)的大小。例如,subtreeSize(u)=nodeSize(u)。
● tagCount(u)對(duì)于任何一個(gè)u∈V的節(jié)點(diǎn),如果u∈VC,是一個(gè)葉節(jié)點(diǎn),那么tagCount(u)=0。否則,u∈VT,是一個(gè)標(biāo)簽節(jié)點(diǎn),那么tagCount(u)=1+∑v∈children(u)(tagCount(v1))。tagCount(u)表示以u(píng)為祖先節(jié)點(diǎn)的所有標(biāo)簽節(jié)點(diǎn)的總個(gè)數(shù)。
3、初步過濾在語法標(biāo)簽樹上,找到Call Paper和其他領(lǐng)域關(guān)鍵字段所在的內(nèi)容節(jié)點(diǎn),找出這些節(jié)點(diǎn)的公共最小父節(jié)點(diǎn),以該父節(jié)點(diǎn)作為根節(jié)點(diǎn)的樹,即為有效信息子樹。
去除該有效信息子樹之外的其他部分的內(nèi)容。
4、去除標(biāo)簽在獲取最小有效信息子樹之后,去除該子樹中的HTML標(biāo)簽,使之成為自由文本。
第三步信息處理信息處理的過程與上述第一步機(jī)器學(xué)習(xí)的過程有很大的相似性。但是在機(jī)器學(xué)習(xí)中,為了提高機(jī)器學(xué)習(xí)的精準(zhǔn)度和速度,我們提供了人工處理的、狀態(tài)良好的訓(xùn)練集。
在信息處理中,信息源頁面就是來自于第二步頁面獲取中的規(guī)整的頁面。(如圖3所示)一、分詞、標(biāo)記(Tokenization and Tagging)將文本分解成句子和單詞,并且給出各個(gè)詞的詞性。
二、句子分析(Sentence Analysis)找出文本中的名詞組、動(dòng)詞組、介詞詞組和其他的簡單結(jié)構(gòu),定位文本中的表層主語和直接賓語,發(fā)現(xiàn)并標(biāo)記與抽取主題相關(guān)的語義實(shí)體。
三、抽取(Extraction)抽取是系統(tǒng)中的第一個(gè)完全領(lǐng)域相關(guān)的組成部分。系統(tǒng)確認(rèn)文本中相關(guān)實(shí)體之間的特定領(lǐng)域關(guān)系。
四、合并(Merging)系統(tǒng)檢查在文本中碰到的每個(gè)實(shí)體,決定它是指某一個(gè)已經(jīng)存在的實(shí)體,還是新的、必須保存的實(shí)體。并且合并工作還要做的是確定每一個(gè)動(dòng)詞詞組的主語。
五、模板生成(Template Generation)決定文本中獨(dú)立事件的個(gè)數(shù),將獨(dú)立的信息抽取模塊對(duì)應(yīng)到每個(gè)事件,并產(chǎn)生輸出模板。在Call Paper信息獲取中,模板生成步驟能夠很有效地對(duì)付一個(gè)HTML頁面中含有多個(gè)會(huì)議的Call Paper信息的情況。
信息處理的整個(gè)過程中,用到了機(jī)器學(xué)習(xí)中得出的領(lǐng)域規(guī)則。并且,用有限狀態(tài)機(jī)技術(shù)在自由文本中提取出各種字段。例如所示的有限狀態(tài)機(jī),用于提取報(bào)告人的姓名如圖4和圖5所示,橢圓表示非終態(tài),六邊形表示終態(tài)。圖形中的單詞表示該狀態(tài)處理的單詞。如,機(jī)器當(dāng)前讀到單詞”speaker”時(shí),進(jìn)入第一個(gè)狀態(tài);接下來如果讀入”dr”時(shí),表示第二個(gè)狀態(tài)讀入空字符,直接進(jìn)入終態(tài)。接下來在機(jī)器跳出終態(tài)前所提取的字段,即為人名。
信息處理過程,利用上述五個(gè)步驟,并且利用含有領(lǐng)域知識(shí)的有限狀態(tài)機(jī)進(jìn)行信息提取,對(duì)每個(gè)單獨(dú)的頁面進(jìn)行相同的處理,最后能夠得出一個(gè)頁面中所含的信息。
第四步信息表現(xiàn)每個(gè)Web頁面經(jīng)過信息處理之后,輸出信息提交到信息表現(xiàn)部分。信息表現(xiàn)負(fù)責(zé)將多個(gè)Web頁面的信息輸出進(jìn)行整合。
一、積累信息對(duì)于每個(gè)Web頁面的信息輸出,將其存儲(chǔ)到內(nèi)存緩沖區(qū),等到信息積累到一定數(shù)量,再將它們展現(xiàn)出來。
按照Call Paper的特性,和其他傳統(tǒng)搜索引擎的慣例,選擇10~15條記錄為一個(gè)顯示集,也可由用戶選擇一次顯示的信息量。
二、信息整合考慮到每個(gè)Call Paper頁面的信息量有一定的差異,對(duì)于信息處理步驟返回的內(nèi)容,要進(jìn)行一定的整合,才能統(tǒng)一顯示。
信息整合采用最大信息集的原則,對(duì)于每條信息,如果缺少某一項(xiàng),則標(biāo)識(shí)為空,而表現(xiàn)模板的信息字段是所有信息字段的并集。
三、信息表現(xiàn)以HTML表格形式給出所有獲取的信息,并按照序號(hào)分組、分頁。
權(quán)利要求
1.一種基于信息抽取技術(shù)的搜索引擎,其特征是利用機(jī)器學(xué)習(xí)的方法,對(duì)含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對(duì)此類HTML頁面進(jìn)行信息抽取的規(guī)則;應(yīng)用這些規(guī)則,結(jié)合一個(gè)特定領(lǐng)域的搜索引擎,對(duì)網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。
2.根據(jù)權(quán)利要求1所述的基于信息抽取技術(shù)的搜索引擎,其特征是所述的含有同類信息且布局基本一致的HTML頁面樣本集是指在該引擎訓(xùn)練階段由用戶事先指定規(guī)則的HTML頁面集合,提供給引擎的學(xué)習(xí)機(jī)進(jìn)行學(xué)習(xí),從而獲取對(duì)該領(lǐng)域頁面的信息抽取規(guī)則。
3.根據(jù)權(quán)利要求1所述的基于信息抽取技術(shù)的搜索引擎,其特征是所述的特定領(lǐng)域搜索引擎是指在系統(tǒng)的試開發(fā)實(shí)現(xiàn)階段,搜索引擎僅僅面向某一個(gè)特定的領(lǐng)域,從而提高搜索的準(zhǔn)確性和精度。
4.根據(jù)權(quán)利要求1所述的基于信息抽取技術(shù)的搜索引擎,其特征是搜索引擎獲取的信息頁面交由學(xué)習(xí)機(jī)器訓(xùn)練得出的信息抽取規(guī)則處理;信息抽取規(guī)則對(duì)頁面進(jìn)行有效抽?。粚?duì)于不能進(jìn)行相關(guān)信息抽取的頁面,認(rèn)為其不合法;對(duì)于抽取得到的有效信息,結(jié)構(gòu)化地展現(xiàn)給用戶。
5.根據(jù)權(quán)利要求1或2所述的基于信息抽取技術(shù)的搜索引擎,其特征是對(duì)規(guī)則頁面進(jìn)行學(xué)習(xí)分下面幾個(gè)階段a)結(jié)構(gòu)分析;b)詞法分析;c)語法解析;d)語義解釋;e)框架構(gòu)建;f)協(xié)商決議。
6.根據(jù)權(quán)利要求1或2所述的基于信息抽取技術(shù)的搜索引擎,其特征是機(jī)器學(xué)習(xí)的樣本是人為標(biāo)注的規(guī)則頁面;樣本集是一個(gè)規(guī)則的HTML頁面集合,它們有統(tǒng)一的格式,含有同種類型的信息;人為標(biāo)注的任務(wù)是對(duì)HTML的半自由文本標(biāo)注出關(guān)鍵字,和相應(yīng)的結(jié)構(gòu)信息。
7.根據(jù)權(quán)利要求1或2所述的基于信息抽取技術(shù)的搜索引擎,其特征是信息抽取規(guī)則以解析圖和語義關(guān)系等形式給出。
8.根據(jù)權(quán)利要求1或2所述的基于信息抽取技術(shù)的搜索引擎,其特征是信息抽取的結(jié)果以量化的關(guān)鍵字段值的形式給出。
全文摘要
本發(fā)明涉及一種基于信息抽取技術(shù)的搜索引擎,利用機(jī)器學(xué)習(xí)的方法,對(duì)含有同類信息且布局基本一致的HTML頁面樣本集進(jìn)行學(xué)習(xí),從而得出對(duì)此類HTML頁面進(jìn)行信息抽取的規(guī)則;應(yīng)用這些規(guī)則,結(jié)合一個(gè)特定領(lǐng)域的搜索引擎,對(duì)網(wǎng)絡(luò)上的相關(guān)信息進(jìn)行大量地獲取,并從半自由的HTML文本中獲取結(jié)構(gòu)化的信息。通過訓(xùn)練和學(xué)習(xí),調(diào)整規(guī)則數(shù)目和抽象程度,使其滿足精度要求,然后基于學(xué)習(xí)提煉后的規(guī)則集對(duì)樣本集以外的文本進(jìn)行信息提取。對(duì)用搜索引擎獲取的特定內(nèi)容的頁面,利用規(guī)則進(jìn)行信息提取。本發(fā)明有益的效果是將信息抽取技術(shù)與搜索引擎技術(shù)有機(jī)地結(jié)合在一起,是一個(gè)非常有效、準(zhǔn)確的信息獲取工具,它能夠較大范圍地提高人們的工作效率。
文檔編號(hào)G06F17/40GK1410918SQ0211189
公開日2003年4月16日 申請(qǐng)日期2002年5月31日 優(yōu)先權(quán)日2002年5月31日
發(fā)明者吳朝暉, 徐杰鋒, 陸偉 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1