專(zhuān)利名稱(chēng):基于中文分詞的旅游信息抽取與聚合方法
技術(shù)領(lǐng)域:
本發(fā)明涉及ー種信息抽取與聚合方法,尤其涉及一種基于中文分詞的旅游信息抽取與聚合方法。
背景技術(shù):
隨著計(jì)算機(jī)的普及以及互聯(lián)網(wǎng)的迅猛發(fā)展,互聯(lián)網(wǎng)已經(jīng)成為全球傳播與共享科研、教育、商業(yè)和社會(huì)信息等最重要和最具潛力的巨大信息源。面對(duì)如此巨大的互聯(lián)網(wǎng)信息庫(kù),如何快速、有效、經(jīng)濟(jì)地得到某個(gè)主題的所有相關(guān)信息就成了當(dāng)前ー個(gè)十分熱門(mén)的研究課題。與傳統(tǒng)的信息資源相比,互聯(lián)網(wǎng)上信息資源有著分布性、異構(gòu)性、開(kāi)放性、動(dòng)態(tài)性和龐 大性等特點(diǎn),這些特點(diǎn)導(dǎo)致互聯(lián)網(wǎng)上數(shù)據(jù)的信息接口和組織形式各不相同,也使得互聯(lián)網(wǎng)上的信息資源不能被有效的利用。信息抽取(InformationExtraction)研究正是在這種背景下產(chǎn)生的。什么是信息抽取信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理,變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本,輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來(lái),然后以統(tǒng)ー的形式集成在一起。這就是信息抽取的主要任務(wù)。信息以統(tǒng)ー的形式集成在一起的好處是方便檢查和比較。信息抽取技術(shù)并不試圖全面理解整篇文檔,只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的,那將由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。信息抽取技術(shù)對(duì)于從大量的文檔中抽取需要的特定事實(shí)來(lái)說(shuō)是非常有用的。互聯(lián)網(wǎng)上就存在著這么ー個(gè)文檔庫(kù)。在互聯(lián)網(wǎng)上,同一主題的信息通常分散存放在不同網(wǎng)站上,表現(xiàn)的形式也各不相同。若能將這些信息收集在一起,用結(jié)構(gòu)化形式儲(chǔ)存,那將是有益的。由于互聯(lián)網(wǎng)上的信息載體主要是文本,所以信息抽取技術(shù)對(duì)于那些把因特網(wǎng)當(dāng)成是知識(shí)來(lái)源的人來(lái)說(shuō)是至關(guān)重要的。信息抽取系統(tǒng)可以看作是把信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫(kù)記錄的系統(tǒng)。因此,成功的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫(kù)。在互聯(lián)網(wǎng)信息抽取領(lǐng)域中,信息抽取的準(zhǔn)確性和通用性之間的矛盾一直是該研究領(lǐng)域的難題。性能較好的信息抽取技術(shù)需要用戶(hù)的大量參與,但自動(dòng)化程度不高;而自動(dòng)化程度高的抽取技術(shù)其準(zhǔn)確率和適應(yīng)性較低,實(shí)用性較差。即使是機(jī)器學(xué)習(xí),也要通過(guò)大量的樣本學(xué)習(xí)來(lái)提高獲取規(guī)則的自動(dòng)化程度,這意味著系統(tǒng)需要經(jīng)過(guò)較長(zhǎng)時(shí)間的學(xué)習(xí)才能獲得較好的查準(zhǔn)率??v觀信息抽取技術(shù)的發(fā)展歷史,研究者們提出了不少優(yōu)秀的抽取策略。從實(shí)現(xiàn)方法的原理出發(fā),可以將信息抽取技術(shù)劃分為4個(gè)類(lèi)別①基于自然語(yǔ)言理解方式;②基于ontology方式;③基于網(wǎng)頁(yè)結(jié)構(gòu)特征方式;@基于統(tǒng)計(jì)學(xué)習(xí)的方式?;谧匀徽Z(yǔ)言理解方式的信息抽取在一定程度上借鑒了自然語(yǔ)言處理技術(shù),利用子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則,實(shí)現(xiàn)信息抽取。其缺點(diǎn)是抽取速度慢,使用范圍窄,很難做到通用。基于ontology方式主要是利用對(duì)數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取,對(duì)網(wǎng)頁(yè)結(jié)構(gòu)的依賴(lài)較少。只要事先創(chuàng)建的應(yīng)用領(lǐng)域的ontology足夠強(qiáng)大,系統(tǒng)可以對(duì)某ー應(yīng)用領(lǐng)域中各種網(wǎng)頁(yè)實(shí)現(xiàn)信息抽取。目前只能對(duì)特定領(lǐng)域構(gòu)建,并且還只能采用半自動(dòng)的方式由人工參與,這樣使得該方法要求很高,工作量巨大?;诰W(wǎng)頁(yè)結(jié)構(gòu)特征方式的特點(diǎn)是根據(jù)Web頁(yè)面的結(jié)構(gòu)來(lái)定位信息,在信息抽取之前通過(guò)解析器將Web文檔解析成語(yǔ)法樹(shù),然后通過(guò)自動(dòng)或半自動(dòng)的方式產(chǎn)生抽取規(guī)則,最終轉(zhuǎn)化為對(duì)語(yǔ)法樹(shù)的操作來(lái)實(shí)現(xiàn)信息的抽取,本策略實(shí)現(xiàn)簡(jiǎn)單,抽取的準(zhǔn)確性好,但要求人工參與?;诮y(tǒng)計(jì)學(xué)習(xí)的信息抽取策略是根據(jù)統(tǒng)計(jì)學(xué)原理,首先構(gòu)造ー個(gè)模型以模擬信息抽取的過(guò)程,應(yīng)用統(tǒng)計(jì)學(xué)方法從訓(xùn)練語(yǔ)料中得出模型的參數(shù);然后用訓(xùn)練好的模型對(duì)待抽取語(yǔ)料進(jìn)行信息抽取。該方法需要經(jīng)過(guò)較長(zhǎng)時(shí)間的樣本學(xué)習(xí),且實(shí)現(xiàn)復(fù)雜。
發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問(wèn)題,提供一種基于中文分詞的旅游信息抽取與聚合方法本發(fā)明的目的通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn) 基于中文分詞的旅游信息抽取與聚合方法,其包括以下步驟步驟①,收集初始旅游業(yè)特征詞庫(kù);步驟②,進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理;步驟③,網(wǎng)頁(yè)正文的提取;步驟④,詞法分析及信息提??;步驟⑤,信息聚合。上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的收集初始旅游業(yè)特征詞庫(kù)為,首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合井,形成初始旅游業(yè)特征詞庫(kù)。進(jìn)ー步地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的初始旅游業(yè)特征詞需進(jìn)行完善,既在每個(gè)月的特定時(shí)間,將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì),將發(fā)現(xiàn)的新詞放入新詞庫(kù),在新詞庫(kù)中停留ー個(gè)月;之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù);對(duì)于新形成的熱點(diǎn)詞語(yǔ),通過(guò)快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲(chóng),通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某ー個(gè)頁(yè)面開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址;然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),如此循環(huán),直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止;所述的預(yù)處理為,利用HTMLParser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù),解析HTML文檔,生成DOM樹(shù)。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中對(duì)頁(yè)正文提取吋,對(duì)網(wǎng)頁(yè)進(jìn)行掃描,將有缺陷的頁(yè)面修復(fù),即使用JTidy開(kāi)放源代碼工具,修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔;同時(shí),去除頁(yè)面噪音。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容,包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容;除頁(yè)面噪音方法為,根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾,所述的中文分詞采用開(kāi)源分詞工具IKAnalyzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊,同時(shí)采用多子處理器分析模式,支持英文字母、數(shù)字,中文詞匯分詞處理;利用IKAnalyze分詞工具將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配,若在詞庫(kù)中找到某個(gè)字符串,則匹配成功,識(shí)別出ー個(gè)詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫(kù)。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ),支持用戶(hù)詞典擴(kuò)展定義。更進(jìn)一歩地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的提取構(gòu)成為,首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記,接著逐次找出網(wǎng)頁(yè)中每個(gè)標(biāo)記,并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記;如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記;否則,如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記,就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái),此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。再進(jìn)ー步地,上述的基于中文分詞的旅游信息抽取與聚合方法,其中所述的信息聚合為,當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí),通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信
O本發(fā)明技術(shù)方案的優(yōu)點(diǎn)主要體現(xiàn)在可以有效解決對(duì)于某ー領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對(duì)于需求的信息非常明確。并且,與其它Web信息抽取方法相比,由于它是基于中文分詞的抽取,因此這種方法對(duì)文檔的結(jié)構(gòu)沒(méi)有依賴(lài)性。從理論上講,只要旅游領(lǐng)域中文詞庫(kù)足夠強(qiáng)大,它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫(kù)可以是以分布式的形式存在的,因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后,只要對(duì)本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取了,從而就擴(kuò)展到新的領(lǐng)域。本發(fā)明的目的、優(yōu)點(diǎn)和特點(diǎn),將通過(guò)下面優(yōu)選實(shí)施例的非限制性說(shuō)明進(jìn)行解釋。這些實(shí)施例僅是應(yīng)用本發(fā)明技術(shù)方案的典型范例,凡采取等同替換或者等效變換而形成的技術(shù)方案,均落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
具體實(shí)施例方式基于中文分詞的旅游信息抽取與聚合方法,其與眾不同之處在于包括以下步驟步驟①,收集初始旅游業(yè)特征詞庫(kù)。具體來(lái)說(shuō),首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合井,形成初始旅游業(yè)特征詞庫(kù)。并且,考慮到初始旅游業(yè)特征詞能夠進(jìn)行較佳的更新,適應(yīng)旅游行業(yè)的發(fā)展,初始旅游業(yè)特征詞需進(jìn)行完善,既在每個(gè)月的特定時(shí)間(每個(gè)月月初),可以將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì),將發(fā)現(xiàn)的新詞放入新詞庫(kù),在新詞庫(kù)中停留ー個(gè)月。之后,將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù);對(duì)于新形成的熱點(diǎn)詞語(yǔ),通過(guò)快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。步驟②,進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理。具體來(lái)說(shuō),網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲(chóng)(WebSpider或Robot),通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋■找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址。然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),如此循環(huán),直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。并且,根據(jù)需要,可以采用人工指導(dǎo)下采集旅途類(lèi)別的網(wǎng)頁(yè),這樣對(duì)于未知類(lèi)型的網(wǎng)頁(yè)可以自動(dòng)判斷網(wǎng)頁(yè)類(lèi)別。進(jìn)ー步來(lái)看,所述的預(yù)處理為,利用HTML Parser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù),解析HTML文檔,生成DOM樹(shù)。這樣,對(duì)于人們感興趣的數(shù)據(jù),都將反映到DOM樹(shù)上。步驟③,網(wǎng)頁(yè)正文的提取。具體 來(lái)說(shuō),在對(duì)網(wǎng)頁(yè)進(jìn)行掃描是需要將有缺陷的頁(yè)面修復(fù),即使用JTidy開(kāi)放源代碼工具,修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔;同時(shí),去除頁(yè)面噪音,既去除網(wǎng)頁(yè)中的無(wú)用信息,其主要目的是方便后面信息的分析和抽取速度更塊和更精確。結(jié)合現(xiàn)有的網(wǎng)頁(yè)內(nèi)容來(lái)看,本發(fā)明所描述到的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容,包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容。進(jìn)ー步來(lái)看,采用的除頁(yè)面噪音方法為,根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。步驟④,詞法分析及信息提取。具體來(lái)說(shuō)本發(fā)明所采用到的所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾,所述的中文分詞采用開(kāi)源分詞工具IKAnalyzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊。關(guān)于IKAnalyze,其為ー個(gè)開(kāi)源的基于java語(yǔ)言開(kāi)發(fā)的輕量級(jí)的中文分詞工具包,采用了特有的正向迭代最細(xì)粒度切分算法,具有60萬(wàn)字/秒的高速處理能力。同時(shí),采用多子處理器分析模式,支持英文字母(IP地址、Email、URL)、數(shù)字(日期,常用中文數(shù)量詞,羅馬數(shù)字,科學(xué)計(jì)數(shù)法),中文詞匯(姓名、地名處理)分詞處理。進(jìn)ー步來(lái)看,在本發(fā)明中,利用IKAnalyze分詞工具,將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配,若在詞庫(kù)中找到某個(gè)字符串,則匹配成功,識(shí)別出ー個(gè)詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫(kù)(如Iucene)。再進(jìn)ー步來(lái)看,考慮到能夠盡可能的減少對(duì)于內(nèi)存的占用。詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ),這樣同時(shí)還能夠支持用戶(hù)詞典擴(kuò)展定義。具體來(lái)說(shuō),信息提取為當(dāng)解析生成DOM樹(shù)之后,對(duì)HTML文檔中信息的提取,就轉(zhuǎn)換成為對(duì)DOM樹(shù)中相應(yīng)節(jié)點(diǎn)的查找。進(jìn)ー步來(lái)看,其實(shí)施過(guò)程如下首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記。接著逐次找出網(wǎng)頁(yè)中姆個(gè)標(biāo)記,并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記。再進(jìn)ー步來(lái)看,如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記。否則,如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記,就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái),此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。步驟⑤,信息聚合即當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí),通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信息。通過(guò)上述的文字表述可以看出,采用本發(fā)明后,可以有效解決對(duì)于某ー領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對(duì)于需求的信息非常明確。并且,與其它Web信息抽取方法相比,由于它是基于中文分詞的抽取,因此這種方法對(duì)文檔的結(jié)構(gòu)沒(méi)有依賴(lài)性。從理論上講,只要旅游領(lǐng)域中文詞庫(kù)足夠強(qiáng)大,它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫(kù)可以是以分布式的形式存在的,因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后,只要對(duì)本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取 了,從而就擴(kuò)展到新的領(lǐng)域。
權(quán)利要求
1.基于中文分詞的旅游信息抽取與聚合方法,其特征在于包括以下步驟 步驟①,收集初始旅游業(yè)特征詞庫(kù); 步驟②,進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理; 步驟③,網(wǎng)頁(yè)正文的提?。? 步驟④,詞法分析及信息提??; 步驟⑤,信息聚合。
2.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的收集初始旅游業(yè)特征詞庫(kù)為,首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理;然后,根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志,分析出新的旅游業(yè)特征詞;之后,將兩者進(jìn)行合并,形成初始旅游業(yè)特征詞庫(kù)。
3.根據(jù)權(quán)利要求2所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的初始旅游業(yè)特征詞需進(jìn)行完善,既在每個(gè)月的特定時(shí)間,將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì),將發(fā)現(xiàn)的新詞放入新詞庫(kù),在新詞庫(kù)中停留ー個(gè)月;之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù);對(duì)于新形成的熱點(diǎn)詞語(yǔ),通過(guò)快速反應(yīng)機(jī)制,直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。
4.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取,采用網(wǎng)絡(luò)爬蟲(chóng),通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè),從網(wǎng)站某ー個(gè)頁(yè)面開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址;然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),如此循環(huán),直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止;所述的預(yù)處理為,利用HTMLParser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù),解析HTML文檔,生成DOM樹(shù)。
5.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于對(duì)頁(yè)正文提取吋,對(duì)網(wǎng)頁(yè)進(jìn)行掃描,將有缺陷的頁(yè)面修復(fù),即使用JTidy開(kāi)放源代碼工具,修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔;同時(shí),去除頁(yè)面噪音。
6.根據(jù)權(quán)利要求5所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容,包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容;除頁(yè)面噪音方法為,根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素,根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。
7.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾,所述的中文分詞采用開(kāi)源分詞エ具IKAnal yzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊,同時(shí)采用多子處理器分析模式,支持英文字母、數(shù)字,中文詞匯分詞處理;利用IKAnalyze分詞工具將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配,若在詞庫(kù)中找到某個(gè)字符串,則匹配成功,識(shí)別出ー個(gè)詞,匹配成功的詞都是我們需要提取的旅游信息,存入索引庫(kù)。
8.根據(jù)權(quán)利要求7所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ),支持用戶(hù)詞典擴(kuò)展定義。
9.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的提取構(gòu)成為,首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記,接著逐次找出網(wǎng)頁(yè)中每個(gè)標(biāo)記,并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記;如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記,就刪除該標(biāo)記;否則,如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記,就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái),此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。
10.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的信息聚合為,當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí),通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信息。
全文摘要
本發(fā)明涉及一種基于中文分詞的旅游信息抽取與聚合方法,其特點(diǎn)是采用如下首先,收集初始旅游業(yè)特征詞庫(kù)。接著,進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理。然后,進(jìn)行網(wǎng)頁(yè)正文的提取。之后,采取詞法分析及信息提取。最后進(jìn)行信息聚合??梢杂行Ы鉀Q對(duì)于某一領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求,使用垂直搜索引擎的人,對(duì)于需求的信息非常明確。并且,與其它Web信息抽取方法相比,當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后,只要對(duì)本系統(tǒng)給出它的地址,那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取了,從而就擴(kuò)展到新的領(lǐng)域。
文檔編號(hào)G06F17/30GK102654873SQ20111005165
公開(kāi)日2012年9月5日 申請(qǐng)日期2011年3月3日 優(yōu)先權(quán)日2011年3月3日
發(fā)明者吳志祥 申請(qǐng)人:蘇州同程旅游網(wǎng)絡(luò)科技有限公司