基于中文分詞的旅游信息抽取與聚合方法

文檔序號(hào)：6652859閱讀：668來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專(zhuān)利名稱(chēng)：基于中文分詞的旅游信息抽取與聚合方法
技術(shù)領(lǐng)域：
本發(fā)明涉及ー種信息抽取與聚合方法，尤其涉及一種基于中文分詞的旅游信息抽取與聚合方法。
背景技術(shù)：
隨著計(jì)算機(jī)的普及以及互聯(lián)網(wǎng)的迅猛發(fā)展，互聯(lián)網(wǎng)已經(jīng)成為全球傳播與共享科研、教育、商業(yè)和社會(huì)信息等最重要和最具潛力的巨大信息源。面對(duì)如此巨大的互聯(lián)網(wǎng)信息庫(kù)，如何快速、有效、經(jīng)濟(jì)地得到某個(gè)主題的所有相關(guān)信息就成了當(dāng)前ー個(gè)十分熱門(mén)的研究課題。與傳統(tǒng)的信息資源相比，互聯(lián)網(wǎng)上信息資源有著分布性、異構(gòu)性、開(kāi)放性、動(dòng)態(tài)性和龐大性等特點(diǎn)，這些特點(diǎn)導(dǎo)致互聯(lián)網(wǎng)上數(shù)據(jù)的信息接口和組織形式各不相同，也使得互聯(lián)網(wǎng)上的信息資源不能被有效的利用。信息抽取(InformationExtraction)研究正是在這種背景下產(chǎn)生的。什么是信息抽取信息抽取是把文本里包含的信息進(jìn)行結(jié)構(gòu)化處理，變成表格一樣的組織形式。輸入信息抽取系統(tǒng)的是原始文本，輸出的是固定格式的信息點(diǎn)。信息點(diǎn)從各種各樣的文檔中被抽取出來(lái)，然后以統(tǒng)ー的形式集成在一起。這就是信息抽取的主要任務(wù)。信息以統(tǒng)ー的形式集成在一起的好處是方便檢查和比較。信息抽取技術(shù)并不試圖全面理解整篇文檔，只是對(duì)文檔中包含相關(guān)信息的部分進(jìn)行分析。至于哪些信息是相關(guān)的，那將由系統(tǒng)設(shè)計(jì)時(shí)定下的領(lǐng)域范圍而定。信息抽取技術(shù)對(duì)于從大量的文檔中抽取需要的特定事實(shí)來(lái)說(shuō)是非常有用的。互聯(lián)網(wǎng)上就存在著這么ー個(gè)文檔庫(kù)。在互聯(lián)網(wǎng)上，同一主題的信息通常分散存放在不同網(wǎng)站上，表現(xiàn)的形式也各不相同。若能將這些信息收集在一起，用結(jié)構(gòu)化形式儲(chǔ)存，那將是有益的。由于互聯(lián)網(wǎng)上的信息載體主要是文本，所以信息抽取技術(shù)對(duì)于那些把因特網(wǎng)當(dāng)成是知識(shí)來(lái)源的人來(lái)說(shuō)是至關(guān)重要的。信息抽取系統(tǒng)可以看作是把信息從不同文檔中轉(zhuǎn)換成數(shù)據(jù)庫(kù)記錄的系統(tǒng)。因此，成功的信息抽取系統(tǒng)將把互聯(lián)網(wǎng)變成巨大的數(shù)據(jù)庫(kù)。在互聯(lián)網(wǎng)信息抽取領(lǐng)域中，信息抽取的準(zhǔn)確性和通用性之間的矛盾一直是該研究領(lǐng)域的難題。性能較好的信息抽取技術(shù)需要用戶(hù)的大量參與，但自動(dòng)化程度不高；而自動(dòng)化程度高的抽取技術(shù)其準(zhǔn)確率和適應(yīng)性較低，實(shí)用性較差。即使是機(jī)器學(xué)習(xí)，也要通過(guò)大量的樣本學(xué)習(xí)來(lái)提高獲取規(guī)則的自動(dòng)化程度，這意味著系統(tǒng)需要經(jīng)過(guò)較長(zhǎng)時(shí)間的學(xué)習(xí)才能獲得較好的查準(zhǔn)率?？v觀信息抽取技術(shù)的發(fā)展歷史，研究者們提出了不少優(yōu)秀的抽取策略。從實(shí)現(xiàn)方法的原理出發(fā)，可以將信息抽取技術(shù)劃分為4個(gè)類(lèi)別①基于自然語(yǔ)言理解方式；②基于ontology方式；③基于網(wǎng)頁(yè)結(jié)構(gòu)特征方式；@基于統(tǒng)計(jì)學(xué)習(xí)的方式?；谧匀徽Z(yǔ)言理解方式的信息抽取在一定程度上借鑒了自然語(yǔ)言處理技術(shù)，利用子句結(jié)構(gòu)、短語(yǔ)和子句間的關(guān)系建立基于語(yǔ)法和語(yǔ)義的抽取規(guī)則，實(shí)現(xiàn)信息抽取。其缺點(diǎn)是抽取速度慢，使用范圍窄，很難做到通用。基于ontology方式主要是利用對(duì)數(shù)據(jù)本身的描述信息實(shí)現(xiàn)抽取，對(duì)網(wǎng)頁(yè)結(jié)構(gòu)的依賴(lài)較少。只要事先創(chuàng)建的應(yīng)用領(lǐng)域的ontology足夠強(qiáng)大，系統(tǒng)可以對(duì)某ー應(yīng)用領(lǐng)域中各種網(wǎng)頁(yè)實(shí)現(xiàn)信息抽取。目前只能對(duì)特定領(lǐng)域構(gòu)建，并且還只能采用半自動(dòng)的方式由人工參與，這樣使得該方法要求很高，工作量巨大?；诰W(wǎng)頁(yè)結(jié)構(gòu)特征方式的特點(diǎn)是根據(jù)Web頁(yè)面的結(jié)構(gòu)來(lái)定位信息，在信息抽取之前通過(guò)解析器將Web文檔解析成語(yǔ)法樹(shù)，然后通過(guò)自動(dòng)或半自動(dòng)的方式產(chǎn)生抽取規(guī)則，最終轉(zhuǎn)化為對(duì)語(yǔ)法樹(shù)的操作來(lái)實(shí)現(xiàn)信息的抽取，本策略實(shí)現(xiàn)簡(jiǎn)單，抽取的準(zhǔn)確性好，但要求人工參與?；诮y(tǒng)計(jì)學(xué)習(xí)的信息抽取策略是根據(jù)統(tǒng)計(jì)學(xué)原理，首先構(gòu)造ー個(gè)模型以模擬信息抽取的過(guò)程，應(yīng)用統(tǒng)計(jì)學(xué)方法從訓(xùn)練語(yǔ)料中得出模型的參數(shù)；然后用訓(xùn)練好的模型對(duì)待抽取語(yǔ)料進(jìn)行信息抽取。該方法需要經(jīng)過(guò)較長(zhǎng)時(shí)間的樣本學(xué)習(xí)，且實(shí)現(xiàn)復(fù)雜。

發(fā)明內(nèi)容
本發(fā)明的目的就是為了解決現(xiàn)有技術(shù)中存在的上述問(wèn)題，提供一種基于中文分詞的旅游信息抽取與聚合方法本發(fā)明的目的通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn) 基于中文分詞的旅游信息抽取與聚合方法，其包括以下步驟步驟①，收集初始旅游業(yè)特征詞庫(kù)；步驟②，進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理；步驟③，網(wǎng)頁(yè)正文的提取；步驟④，詞法分析及信息提??；步驟⑤，信息聚合。上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的收集初始旅游業(yè)特征詞庫(kù)為，首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理；然后，根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志，分析出新的旅游業(yè)特征詞；之后，將兩者進(jìn)行合井，形成初始旅游業(yè)特征詞庫(kù)。進(jìn)ー步地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的初始旅游業(yè)特征詞需進(jìn)行完善，既在每個(gè)月的特定時(shí)間，將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì)，將發(fā)現(xiàn)的新詞放入新詞庫(kù)，在新詞庫(kù)中停留ー個(gè)月；之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù)；對(duì)于新形成的熱點(diǎn)詞語(yǔ)，通過(guò)快速反應(yīng)機(jī)制，直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取，采用網(wǎng)絡(luò)爬蟲(chóng)，通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某ー個(gè)頁(yè)面開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址；然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，如此循環(huán)，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止；所述的預(yù)處理為，利用HTMLParser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù)，解析HTML文檔，生成DOM樹(shù)。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中對(duì)頁(yè)正文提取吋，對(duì)網(wǎng)頁(yè)進(jìn)行掃描，將有缺陷的頁(yè)面修復(fù)，即使用JTidy開(kāi)放源代碼工具，修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔；同時(shí)，去除頁(yè)面噪音。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容，包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容；除頁(yè)面噪音方法為，根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素，根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾，所述的中文分詞采用開(kāi)源分詞工具IKAnalyzer,并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊，同時(shí)采用多子處理器分析模式，支持英文字母、數(shù)字，中文詞匯分詞處理；利用IKAnalyze分詞工具將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配，若在詞庫(kù)中找到某個(gè)字符串，則匹配成功，識(shí)別出ー個(gè)詞，匹配成功的詞都是我們需要提取的旅游信息，存入索引庫(kù)。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ)，支持用戶(hù)詞典擴(kuò)展定義。更進(jìn)一歩地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的提取構(gòu)成為，首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記，接著逐次找出網(wǎng)頁(yè)中每個(gè)標(biāo)記，并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記；如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記，就刪除該標(biāo)記；否則，如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記，就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái)，此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。再進(jìn)ー步地，上述的基于中文分詞的旅游信息抽取與聚合方法，其中所述的信息聚合為，當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí)，通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信
O本發(fā)明技術(shù)方案的優(yōu)點(diǎn)主要體現(xiàn)在可以有效解決對(duì)于某ー領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人，對(duì)于需求的信息非常明確。并且，與其它Web信息抽取方法相比，由于它是基于中文分詞的抽取，因此這種方法對(duì)文檔的結(jié)構(gòu)沒(méi)有依賴(lài)性。從理論上講，只要旅游領(lǐng)域中文詞庫(kù)足夠強(qiáng)大，它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫(kù)可以是以分布式的形式存在的，因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后，只要對(duì)本系統(tǒng)給出它的地址，那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取了，從而就擴(kuò)展到新的領(lǐng)域。本發(fā)明的目的、優(yōu)點(diǎn)和特點(diǎn)，將通過(guò)下面優(yōu)選實(shí)施例的非限制性說(shuō)明進(jìn)行解釋。這些實(shí)施例僅是應(yīng)用本發(fā)明技術(shù)方案的典型范例，凡采取等同替換或者等效變換而形成的技術(shù)方案，均落在本發(fā)明要求保護(hù)的范圍之內(nèi)。
具體實(shí)施例方式基于中文分詞的旅游信息抽取與聚合方法，其與眾不同之處在于包括以下步驟步驟①，收集初始旅游業(yè)特征詞庫(kù)。具體來(lái)說(shuō)，首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理；然后，根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志，分析出新的旅游業(yè)特征詞；之后，將兩者進(jìn)行合井，形成初始旅游業(yè)特征詞庫(kù)。并且，考慮到初始旅游業(yè)特征詞能夠進(jìn)行較佳的更新，適應(yīng)旅游行業(yè)的發(fā)展，初始旅游業(yè)特征詞需進(jìn)行完善，既在每個(gè)月的特定時(shí)間(每個(gè)月月初)，可以將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì)，將發(fā)現(xiàn)的新詞放入新詞庫(kù)，在新詞庫(kù)中停留ー個(gè)月。之后，將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù)；對(duì)于新形成的熱點(diǎn)詞語(yǔ)，通過(guò)快速反應(yīng)機(jī)制，直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。步驟②，進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理。具體來(lái)說(shuō)，網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取，采用網(wǎng)絡(luò)爬蟲(chóng)(WebSpider或Robot),通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋■找網(wǎng)頁(yè),從網(wǎng)站某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址。然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，如此循環(huán)，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。并且，根據(jù)需要，可以采用人工指導(dǎo)下采集旅途類(lèi)別的網(wǎng)頁(yè)，這樣對(duì)于未知類(lèi)型的網(wǎng)頁(yè)可以自動(dòng)判斷網(wǎng)頁(yè)類(lèi)別。進(jìn)ー步來(lái)看，所述的預(yù)處理為，利用HTML Parser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù)，解析HTML文檔，生成DOM樹(shù)。這樣，對(duì)于人們感興趣的數(shù)據(jù)，都將反映到DOM樹(shù)上。步驟③，網(wǎng)頁(yè)正文的提取。具體來(lái)說(shuō)，在對(duì)網(wǎng)頁(yè)進(jìn)行掃描是需要將有缺陷的頁(yè)面修復(fù)，即使用JTidy開(kāi)放源代碼工具，修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔；同時(shí)，去除頁(yè)面噪音，既去除網(wǎng)頁(yè)中的無(wú)用信息，其主要目的是方便后面信息的分析和抽取速度更塊和更精確。結(jié)合現(xiàn)有的網(wǎng)頁(yè)內(nèi)容來(lái)看，本發(fā)明所描述到的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容，包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容。進(jìn)ー步來(lái)看，采用的除頁(yè)面噪音方法為，根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素，根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。步驟④，詞法分析及信息提取。具體來(lái)說(shuō)本發(fā)明所采用到的所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾，所述的中文分詞采用開(kāi)源分詞工具IKAnalyzer，并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊。關(guān)于IKAnalyze，其為ー個(gè)開(kāi)源的基于java語(yǔ)言開(kāi)發(fā)的輕量級(jí)的中文分詞工具包，采用了特有的正向迭代最細(xì)粒度切分算法，具有60萬(wàn)字/秒的高速處理能力。同時(shí)，采用多子處理器分析模式，支持英文字母(IP地址、Email、URL)、數(shù)字(日期，常用中文數(shù)量詞，羅馬數(shù)字，科學(xué)計(jì)數(shù)法)，中文詞匯(姓名、地名處理)分詞處理。進(jìn)ー步來(lái)看，在本發(fā)明中，利用IKAnalyze分詞工具，將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配，若在詞庫(kù)中找到某個(gè)字符串，則匹配成功，識(shí)別出ー個(gè)詞，匹配成功的詞都是我們需要提取的旅游信息，存入索引庫(kù)(如Iucene)。再進(jìn)ー步來(lái)看，考慮到能夠盡可能的減少對(duì)于內(nèi)存的占用。詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ)，這樣同時(shí)還能夠支持用戶(hù)詞典擴(kuò)展定義。具體來(lái)說(shuō)，信息提取為當(dāng)解析生成DOM樹(shù)之后，對(duì)HTML文檔中信息的提取，就轉(zhuǎn)換成為對(duì)DOM樹(shù)中相應(yīng)節(jié)點(diǎn)的查找。進(jìn)ー步來(lái)看，其實(shí)施過(guò)程如下首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記。接著逐次找出網(wǎng)頁(yè)中姆個(gè)標(biāo)記，并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記。再進(jìn)ー步來(lái)看，如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記，就刪除該標(biāo)記。否則，如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記，就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái)，此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。步驟⑤，信息聚合即當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí)，通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信息。通過(guò)上述的文字表述可以看出，采用本發(fā)明后，可以有效解決對(duì)于某ー領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人，對(duì)于需求的信息非常明確。并且，與其它Web信息抽取方法相比，由于它是基于中文分詞的抽取，因此這種方法對(duì)文檔的結(jié)構(gòu)沒(méi)有依賴(lài)性。從理論上講，只要旅游領(lǐng)域中文詞庫(kù)足夠強(qiáng)大，它就能在該領(lǐng)域的Web信息抽取中達(dá)到很高的抽取精確率和召回率。在此方法中中文詞庫(kù)可以是以分布式的形式存在的，因此它還很容易擴(kuò)展到新的領(lǐng)域。當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后，只要對(duì)本系統(tǒng)給出它的地址，那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取了，從而就擴(kuò)展到新的領(lǐng)域。
權(quán)利要求
1.基于中文分詞的旅游信息抽取與聚合方法，其特征在于包括以下步驟步驟①，收集初始旅游業(yè)特征詞庫(kù)；步驟②，進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理；步驟③，網(wǎng)頁(yè)正文的提?。? 步驟④，詞法分析及信息提??；步驟⑤，信息聚合。
2.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的收集初始旅游業(yè)特征詞庫(kù)為，首先對(duì)行業(yè)內(nèi)已經(jīng)存在的特征詞語(yǔ)的收集整理；然后，根據(jù)以前網(wǎng)站的系統(tǒng)運(yùn)行日志，分析出新的旅游業(yè)特征詞；之后，將兩者進(jìn)行合并，形成初始旅游業(yè)特征詞庫(kù)。
3.根據(jù)權(quán)利要求2所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的初始旅游業(yè)特征詞需進(jìn)行完善，既在每個(gè)月的特定時(shí)間，將已經(jīng)分析好的線上網(wǎng)站運(yùn)行日志進(jìn)行統(tǒng)計(jì)，將發(fā)現(xiàn)的新詞放入新詞庫(kù)，在新詞庫(kù)中停留ー個(gè)月；之后將已經(jīng)確定的新詞轉(zhuǎn)入旅游業(yè)特征詞庫(kù)；對(duì)于新形成的熱點(diǎn)詞語(yǔ)，通過(guò)快速反應(yīng)機(jī)制，直接轉(zhuǎn)入旅游業(yè)特征詞庫(kù)。
4.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的網(wǎng)頁(yè)獲取為對(duì)旅游領(lǐng)域的網(wǎng)頁(yè)信息進(jìn)行獲取，采用網(wǎng)絡(luò)爬蟲(chóng)，通過(guò)網(wǎng)頁(yè)的鏈接地址來(lái)尋找網(wǎng)頁(yè)，從網(wǎng)站某ー個(gè)頁(yè)面開(kāi)始，讀取網(wǎng)頁(yè)的內(nèi)容，找到在網(wǎng)頁(yè)中的其它鏈接地址；然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè)，如此循環(huán)，直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止；所述的預(yù)處理為，利用HTMLParser提供標(biāo)準(zhǔn)類(lèi)庫(kù)的Parser函數(shù),解析HTML文檔，生成DOM樹(shù)。
5.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于對(duì)頁(yè)正文提取吋，對(duì)網(wǎng)頁(yè)進(jìn)行掃描，將有缺陷的頁(yè)面修復(fù)，即使用JTidy開(kāi)放源代碼工具，修正HTML文檔中的常見(jiàn)錯(cuò)誤并生成格式編排良好的等價(jià)文檔；同時(shí)，去除頁(yè)面噪音。
6.根據(jù)權(quán)利要求5所述的基于中文分詞的旅游信息抽取與聚合方法,其特征在于所述的頁(yè)面噪音為網(wǎng)頁(yè)頁(yè)面上存在的無(wú)關(guān)內(nèi)容，包括有頁(yè)頭、頁(yè)腳、廣告、圖像、腳本、函數(shù)、標(biāo)簽節(jié)點(diǎn)內(nèi)容；除頁(yè)面噪音方法為，根據(jù)HTML標(biāo)簽來(lái)去除Web文檔中存在的噪音元素，根據(jù)噪音源的特征定義特定的規(guī)則進(jìn)行過(guò)濾。
7.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的詞法分析及信息提取包括中文分詞和停用詞過(guò)濾，所述的中文分詞采用開(kāi)源分詞エ具IKAnal yzer，并結(jié)合旅游領(lǐng)域詞匯組成中文分詞處理模塊，同時(shí)采用多子處理器分析模式，支持英文字母、數(shù)字，中文詞匯分詞處理；利用IKAnalyze分詞工具將通過(guò)網(wǎng)頁(yè)正文提取得到的純文本的關(guān)于旅游的信息與初始旅游業(yè)特征詞庫(kù)中的詞條進(jìn)行匹配，若在詞庫(kù)中找到某個(gè)字符串，則匹配成功，識(shí)別出ー個(gè)詞，匹配成功的詞都是我們需要提取的旅游信息，存入索引庫(kù)。
8.根據(jù)權(quán)利要求7所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的詞法分析及信息提取包括采用優(yōu)化的詞典存儲(chǔ)，支持用戶(hù)詞典擴(kuò)展定義。
9.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的提取構(gòu)成為，首先找出網(wǎng)頁(yè)中所有的開(kāi)始標(biāo)記，接著逐次找出網(wǎng)頁(yè)中每個(gè)標(biāo)記，并檢查其是不是一個(gè)有開(kāi)始標(biāo)記與其對(duì)應(yīng)的結(jié)束標(biāo)記或者是注釋標(biāo)記；如果是沒(méi)有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記或者是注釋標(biāo)記，就刪除該標(biāo)記；否則，如果是有對(duì)應(yīng)開(kāi)始標(biāo)記的結(jié)束標(biāo)記，就將這個(gè)結(jié)束標(biāo)記與其開(kāi)始標(biāo)記之間的內(nèi)容提取出來(lái)，此時(shí)得到的關(guān)于旅游的信息是以純文本形式的。
10.根據(jù)權(quán)利要求I所述的基于中文分詞的旅游信息抽取與聚合方法，其特征在于所述的信息聚合為，當(dāng)用戶(hù)輸入關(guān)鍵字查詢(xún)相關(guān)旅游信息時(shí)，通過(guò)索引庫(kù)查找就能找到相關(guān)的旅游信息。
全文摘要
本發(fā)明涉及一種基于中文分詞的旅游信息抽取與聚合方法，其特點(diǎn)是采用如下首先，收集初始旅游業(yè)特征詞庫(kù)。接著，進(jìn)行網(wǎng)頁(yè)獲取及預(yù)處理。然后，進(jìn)行網(wǎng)頁(yè)正文的提取。之后，采取詞法分析及信息提取。最后進(jìn)行信息聚合?？梢杂行Ы鉀Q對(duì)于某一領(lǐng)域內(nèi)精確信息的需求。同時(shí)滿(mǎn)足用戶(hù)精準(zhǔn)查找信息的需求，使用垂直搜索引擎的人，對(duì)于需求的信息非常明確。并且，與其它Web信息抽取方法相比，當(dāng)一個(gè)新的領(lǐng)域中文詞庫(kù)建成之后，只要對(duì)本系統(tǒng)給出它的地址，那么本方法就可以基于新的中文詞庫(kù)進(jìn)行Web信息抽取了，從而就擴(kuò)展到新的領(lǐng)域。
文檔編號(hào)G06F17/30GK102654873SQ20111005165
公開(kāi)日2012年9月5日申請(qǐng)日期2011年3月3日優(yōu)先權(quán)日2011年3月3日
發(fā)明者吳志祥申請(qǐng)人:蘇州同程旅游網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳志祥
技術(shù)所有人：蘇州同程旅游網(wǎng)絡(luò)科技有限公司
我是此專(zhuān)利的發(fā)明人

上一篇：一種人臉比對(duì)方法
上一篇：數(shù)字鍵盤(pán)中文筆畫(huà)結(jié)構(gòu)簡(jiǎn)易輸入法的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中文分詞相關(guān)技術(shù)

中文分詞算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于中文分詞的旅游信息抽取與聚合方法