專利名稱:網(wǎng)絡(luò)信息獲取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,尤其涉及一種網(wǎng)絡(luò)信息獲取方法和裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的不斷發(fā)展和普及,互聯(lián)網(wǎng)正在為人們的日常工作和生活提供越來越多 的信息。利用網(wǎng)絡(luò)的搜索引擎進行搜索是從網(wǎng)絡(luò)獲取信息的一個重要途徑。目前,網(wǎng)絡(luò)上 的搜索引擎會根據(jù)用戶輸入的關(guān)鍵字進行搜索,并將搜索到的與關(guān)鍵字匹配的條目呈獻給 用戶。由于網(wǎng)路搜索引擎的功能很強,因此能夠搜索到的條目非常多,但是,在這些搜索到 的條目中,有很多條目僅僅是包含用戶提供的關(guān)鍵詞,但是其主要內(nèi)容與用戶期望搜索的 內(nèi)容并不匹配,并且,對于一些實時變換的信息,很可能會有已經(jīng)過期的舊內(nèi)容被搜索到, 因此,如果用戶要得到其期望的內(nèi)容,就需要根據(jù)自己的判斷對這些搜索條目進行逐條篩 選,從而增加用戶的工作量。例如,在現(xiàn)階段的導(dǎo)航電子地圖數(shù)據(jù)生產(chǎn)過程中,基本上都是通過人工來進行情 報數(shù)據(jù)的獲取和更新,由于路況信息的更新比較快,這種人工獲取數(shù)據(jù)的方式已經(jīng)很難滿 足大規(guī)模地理信息數(shù)據(jù)生產(chǎn)的需求,并且難以適應(yīng)信息的更新。針對這種人工篩選搜索條目工作量很大的問題,很多設(shè)計者都提出了通過編寫軟 件在網(wǎng)上搜索并過濾條目的搜索技術(shù),但是這些技術(shù)大多需要自行編寫搜索引擎以及索引 庫,并且需要配置復(fù)雜的過濾模板才能夠進行搜索條目的過濾,如果需要更改搜索的條件 就需要重新配置搜索模板,靈活性較差;并且,不論是搜索引擎的編寫還是模板的配置都會 產(chǎn)生很大的工作量,不能夠有效提高搜索的效率,且配置的搜索引擎很可能不能夠全面搜 集數(shù)據(jù),導(dǎo)致信息的遺漏。針對相關(guān)技術(shù)中網(wǎng)絡(luò)信息獲取人工操作量大、靈活性差的問題,目前尚未提出有 效的解決方案。
發(fā)明內(nèi)容
針對相關(guān)技術(shù)中網(wǎng)絡(luò)信息獲取人工操作量大、靈活性差的問題,本發(fā)明提出一種 網(wǎng)絡(luò)信息獲取方案,能夠使網(wǎng)絡(luò)信息的獲取具有更好的靈活性,并且減少人工操作。本發(fā)明的技術(shù)方案是這樣實現(xiàn)的根據(jù)本發(fā)明的一個方面,提供了 一種網(wǎng)絡(luò)信息獲取方法。根據(jù)本發(fā)明的網(wǎng)絡(luò)信息獲取方法包括通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引 擎搜索與預(yù)先輸入的關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息;根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的網(wǎng)絡(luò) 信息的內(nèi)容的相關(guān)性對網(wǎng)絡(luò)信息進行價值評分,并保存價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò) fn息ο其中,在搜索到與關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息之后、進行價值評分之前,該方法可進一 步包括將統(tǒng)一資源定位符相同的網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的網(wǎng)絡(luò)信息的編碼;對統(tǒng)一編碼后的網(wǎng)絡(luò)信息進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng)絡(luò)信息。另外,在對搜索到的網(wǎng)絡(luò)信息進行價值評分之前,該方法可進一步包括根據(jù)預(yù)設(shè) 的時間過濾規(guī)則對搜索到的網(wǎng)絡(luò)信息進行時間過濾,將發(fā)布時間不符合時間過濾規(guī)則的網(wǎng) 絡(luò)信息刪除。此外,在對搜索到的網(wǎng)絡(luò)信息進行價值評分之前,該方法可進一步包括根據(jù)預(yù)設(shè) 的標(biāo)題過濾規(guī)則對搜索到的網(wǎng)絡(luò)信息的標(biāo)題進行過濾評分,并將過濾評分未達到第二分?jǐn)?shù) 閾值的標(biāo)題所對應(yīng)的網(wǎng)絡(luò)信息刪除??蛇x地,保存價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息的處理具體可以包括對于 價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息,根據(jù)該網(wǎng)絡(luò)信息的價值評分和過濾評分得到綜合 評分,并將得到的綜合評分與相應(yīng)的網(wǎng)絡(luò)信息一并保存。根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)絡(luò)信息獲取裝置。根據(jù)本發(fā)明的網(wǎng)絡(luò)信息獲取裝置包括搜索模塊,用于通過執(zhí)行預(yù)設(shè)的搜索任務(wù) 來利用元搜索引擎搜索與預(yù)先輸入的關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息;分析模塊,用于根據(jù)預(yù)設(shè)的 模糊過濾規(guī)則以及搜索到的網(wǎng)絡(luò)信息的內(nèi)容的相關(guān)性對網(wǎng)絡(luò)信息進行價值評分;存儲模 塊,用于存儲價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。其中,搜索模塊可以進一步包括第一處理子模塊,用于將統(tǒng)一資源定位符相同的 網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的網(wǎng)絡(luò)信息的編碼;第二處理子模塊,用于對統(tǒng)一編碼后的網(wǎng) 絡(luò)信息進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng)絡(luò)信息。并且,分析模塊可以進一步包括第一分析子模塊,用于根據(jù)預(yù)設(shè)的時間過濾規(guī)則 對搜索到的網(wǎng)絡(luò)信息進行時間過濾,將發(fā)布時間不符合時間過濾規(guī)則的網(wǎng)絡(luò)信息刪除;第 二分析子模塊,根據(jù)預(yù)設(shè)的標(biāo)題過濾規(guī)則對第一分析子模塊過濾后剩余的網(wǎng)絡(luò)信息的標(biāo)題 進行匹配并給出過濾評分,并將過濾評分未達到第二分?jǐn)?shù)閾值的標(biāo)題所對應(yīng)的網(wǎng)絡(luò)信息刪 除;第三分析子模塊,用于根據(jù)模糊過濾規(guī)則第二分析子模塊過濾后剩余的網(wǎng)絡(luò)信息進行 價值評分。此外,分析模塊還可用于根據(jù)價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息的價值評分 和過濾評分得到綜合評分,并將得到的綜合評分與相應(yīng)的網(wǎng)絡(luò)信息一并提供給存儲模塊進 行保存。本發(fā)明通過元搜索引擎并結(jié)合關(guān)鍵詞進行搜索,能夠避免人工編寫新的搜索引 擎,能夠借助已有的引擎搜索到更加全面的信息,明顯提升網(wǎng)絡(luò)信息獲取的效率;并且,由 于搜索基于關(guān)鍵詞進行,所以能夠有效提高搜索的靈活性,如果用戶希望變更搜索條件僅 需要修改關(guān)鍵詞即可,而無需更換預(yù)先配置的整個搜索模板或索引庫;此外,由于采用了模 糊過濾規(guī)則并基于搜索結(jié)果的相關(guān)性進行過濾,從而能夠最大程度上保證搜索結(jié)果的準(zhǔn)確 性,并且能夠避免將有用的搜索結(jié)果過濾掉。
圖1是根據(jù)本發(fā)明方法實施例的網(wǎng)絡(luò)信息獲取方法的流程圖;圖2是根據(jù)本發(fā)明裝置實施例的網(wǎng)絡(luò)信息獲取裝置的框圖;圖3是根據(jù)本發(fā)明裝置實施例的網(wǎng)絡(luò)信息獲取裝置可應(yīng)用的系統(tǒng)的框圖;圖4是根據(jù)本發(fā)明裝置實施例的網(wǎng)絡(luò)信息獲取裝置進行網(wǎng)絡(luò)信息獲取的原理示5意圖。
具體實施例方式針對相關(guān)技術(shù)中網(wǎng)絡(luò)信息獲取人工操作量大、靈活性差的問題,本發(fā)明提出首先 通過人工或程序在Web數(shù)據(jù)管理系統(tǒng)中產(chǎn)生關(guān)鍵詞和規(guī)則,基于“元搜索”的方式(S卩,結(jié) 合各大搜索引擎查詢結(jié)果),獲取數(shù)據(jù),通過規(guī)則和機器學(xué)習(xí)算法(也可稱為自適應(yīng)學(xué)習(xí)) 的方式,來對數(shù)據(jù)進行過濾,并計算出一個價值分?jǐn)?shù),通過常用的內(nèi)容相似度計算方法來對 新舊數(shù)據(jù)進行查重處理,避免出現(xiàn)重復(fù)數(shù)據(jù),最終得到與搜索條件相匹配的情報數(shù)據(jù),從而 能夠以簡單的方式對網(wǎng)絡(luò)上抓取的信息進行篩選,如果需要變更搜索的條件或搜索結(jié)果的 匹配程度、時間等要求,僅僅改變關(guān)鍵詞和過濾規(guī)則即可,因此,能夠提高搜索的靈活性,并 且能夠有效減少操作人員的工作量,能夠快速地實現(xiàn)可用網(wǎng)絡(luò)信息的獲取。下面將結(jié)合附圖詳細(xì)描述本發(fā)明的實施例。方法實施例圖1是根據(jù)本實施例的網(wǎng)絡(luò)信息獲取方法的流程圖。如圖1所示,根據(jù)本實施例的網(wǎng)絡(luò)信息獲取方法包括步驟S102,通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引擎(元搜索引擎是指通常所 使用的谷歌(Google)、百度(Baidu)、雅虎(Yahoo)等多種搜索引擎,本發(fā)明不僅可以使用 其中的一種搜索引擎,還可以同時采用多種搜索引擎)搜索與預(yù)先輸入的關(guān)鍵詞(例如,包 括事件、時間、地點等條件)相關(guān)的網(wǎng)絡(luò)信息;步驟S104,根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的網(wǎng)絡(luò)信息的內(nèi)容的相關(guān)性對網(wǎng) 絡(luò)信息進行價值評分,并保存價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。在上述處理中,通過元搜索引擎并結(jié)合關(guān)鍵詞進行搜索,能夠避免人工編寫新的 搜索引擎,能夠借助已有的引擎搜索到更加全面的信息,明顯提升網(wǎng)絡(luò)信息獲取的效率;并 且,由于是基于關(guān)鍵詞進行搜索,能夠有效提高搜索的靈活性,如果用戶希望變更搜索條件 僅需要修改關(guān)鍵詞即可,而無需更換預(yù)先配置的整個搜索模板或索引庫;此外,由于上述處 理采用模糊過濾規(guī)則并基于搜索結(jié)果的相關(guān)性進行過濾,因此,能夠最大程度上保證搜索 結(jié)果的準(zhǔn)確性,并且能夠避免將有用的搜索結(jié)果過濾掉。下面將詳細(xì)描述根據(jù)本實施例的網(wǎng)絡(luò)信息獲取方法的各個步驟。在步驟S102中,在搜索與關(guān)鍵詞向匹配的網(wǎng)絡(luò)信息時,可以基于較為簡單的信息 抓取規(guī)則,得到關(guān)鍵詞能夠匹配的網(wǎng)絡(luò)信息,即,可以將該過程理解為網(wǎng)絡(luò)信息的抓取處 理,在實際應(yīng)用中,為了減小分析時的處理量,可以僅保留預(yù)定數(shù)量的信息以供后續(xù)過濾, 對于采用多個搜索引擎的搜索方式,可以對每個搜索引擎分別保留一定數(shù)量的搜索信息; 并且,所采用的信息抓取規(guī)則可以包括關(guān)鍵詞的匹配方式,該抓取規(guī)則的具體配置方式是 本領(lǐng)域技術(shù)人員所公知的,本文不再詳述。在執(zhí)行了步驟S102之后、對搜索到的網(wǎng)絡(luò)信息進行價值評分之前,可以將統(tǒng)一資 源定位符(Uniform Resource Locator,簡稱為URL)相同的網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的 網(wǎng)絡(luò)信息的編碼;對統(tǒng)一編碼后的網(wǎng)絡(luò)信息進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng)絡(luò)信息。由于URL相同的網(wǎng)絡(luò)信息的內(nèi)容是相同的,所以將這些內(nèi)容合并后能夠有效避免 之后對這些相同內(nèi)容進行不必要的重復(fù)分析;并且,由于所采用的搜索引擎以及網(wǎng)絡(luò)信息6來源等因素,可能使搜索到的網(wǎng)絡(luò)信息的編碼方式不統(tǒng)一,將這些信息的編碼方式統(tǒng)一為 后續(xù)分析時能夠識別的編碼方式后,能夠方便信息的分析。在步驟S104中所采用的模糊過濾規(guī)則實際上是一種機器學(xué)習(xí)算法(也可稱為自 適應(yīng)學(xué)習(xí)算法),借助該規(guī)則可以判斷出搜索到的網(wǎng)絡(luò)信息的具體內(nèi)容是否有用,該規(guī)則中 可以包括多種判斷條件,例如,對關(guān)鍵詞出現(xiàn)次數(shù)、頻率等的要求、對關(guān)鍵詞之間像個字符 數(shù)的要求等,最終可以得到較為相關(guān)的網(wǎng)絡(luò)信息,將相關(guān)性較低的網(wǎng)路信息則可以過濾掉。 其中,對于每個采用模糊過濾規(guī)則分析后的網(wǎng)絡(luò)信息,可以給出給出一個評分,例如,對極 為相關(guān)的甚至完全相同的網(wǎng)絡(luò)信息,其相關(guān)值可以近似等于100%,相應(yīng)的價值評分也會非 常高,例如,可以將100(滿分)作為其分?jǐn)?shù);對較為相關(guān)的網(wǎng)絡(luò)信息,可以根據(jù)其相關(guān)性得 到相應(yīng)的相關(guān)值,并得到相應(yīng)的價值評分,例如,對于相關(guān)值為50%的網(wǎng)絡(luò)信息,可以將50 作為其分?jǐn)?shù),之后就可以根據(jù)預(yù)設(shè)的價值評分閾值對網(wǎng)絡(luò)信息進行過濾。例如,假設(shè)該分?jǐn)?shù) 為70,則上述價值評分為50的網(wǎng)絡(luò)信息將被過濾掉。可選地,在對搜索到的網(wǎng)絡(luò)信息進行價值評分之前,還可以根據(jù)預(yù)設(shè)的時間過濾 規(guī)則對搜索到的網(wǎng)絡(luò)信息進行時間過濾,將發(fā)布時間不符合時間過濾規(guī)則的網(wǎng)絡(luò)信息刪除。時間過濾規(guī)則可以配置為將發(fā)布時間早于某個時間點的網(wǎng)絡(luò)信息刪除。或者將發(fā) 布時間晚于某個時間點的網(wǎng)絡(luò)信息刪除,也可以時將某個時間段以內(nèi)或以外的網(wǎng)絡(luò)信息刪 除,從而能夠使最終得到的網(wǎng)絡(luò)信息滿足用戶對時間的要求,方便用戶得到對時間要求很 嚴(yán)格的網(wǎng)絡(luò)信息,避免了用戶手動查看發(fā)布時間所帶來的不便。可選地,在對搜索到的網(wǎng)絡(luò)信息進行價值評分之前,還可以根據(jù)預(yù)設(shè)的標(biāo)題過濾 規(guī)則對搜索到的網(wǎng)絡(luò)信息的標(biāo)題進行過濾評分,并將過濾評分未達到第二分?jǐn)?shù)閾值的標(biāo)題 所對應(yīng)的網(wǎng)絡(luò)信息刪除。通過標(biāo)題過濾處理,能夠?qū)λ阉鞯降木W(wǎng)絡(luò)信息進行預(yù)先篩選,將標(biāo)題明線不符合 要求的網(wǎng)絡(luò)信息刪除,避免后續(xù)模糊過濾時對這些明顯不符合要求的網(wǎng)絡(luò)信息進行判斷和 分析。并且,可以將時間過濾和標(biāo)題過濾中的任一個或兩個一起與模糊過濾組合使用, 減小模糊過濾的處理量,能夠以最快的速度得到滿足要求的網(wǎng)絡(luò)信息。此外,由于在進行標(biāo)題過濾時會得到具有過濾評分的網(wǎng)絡(luò)信息,因此在最終保存 獲取的網(wǎng)絡(luò)信息時,可以將過濾評分與價值評分一并考慮,例如,可以根據(jù)價值評分和過濾 評分得到綜合評分,并將得到的綜合評分與相應(yīng)的網(wǎng)絡(luò)信息一并保存。綜合評分的獲得方法有很多,例如,可以對價值評分和過濾評分分別乘以各自對 應(yīng)的權(quán)值,得到加權(quán)后的綜合評分,也可以通過其他方式將這兩個評分進行組合或簡單合 并,本文不再一一列舉。在保存了所有滿足要求的網(wǎng)絡(luò)信息后,就可以將這些信息提供給用戶,由用戶進 行后續(xù)篩選和審核。并且,機器學(xué)習(xí)算法(自適應(yīng)學(xué)習(xí)算法)可以根據(jù)最終用戶篩選后的 結(jié)果進行學(xué)習(xí),從而通過自適應(yīng)學(xué)習(xí)不斷更新模糊過濾規(guī)則,使模糊過濾的結(jié)果與人工過 濾的結(jié)果更加接近,提高模糊過濾的智能化程度,進一步減少人工操作。根據(jù)本實施例的網(wǎng)絡(luò)信息獲取方法可以用于獲取元搜索引擎所能夠搜索到的所 有信息,并且能夠在指定數(shù)據(jù)庫中進行網(wǎng)絡(luò)信息的定向抓取。例如,在設(shè)計電子地圖時,需要搜索大量地理信息,用戶可輸入關(guān)鍵詞“xx道路”、“竣工”、以及日期要求,就能夠從網(wǎng)絡(luò) 上獲取近期有關(guān)該道路的信息,這些信息可能包括道路部門發(fā)布的信息、其他電子地圖網(wǎng) 站發(fā)出的關(guān)于該道路的信息,也可能包括網(wǎng)民發(fā)表的評論,從而能夠采用關(guān)鍵詞和規(guī)則以 及機器學(xué)習(xí)的方法,為地圖數(shù)據(jù)生產(chǎn)商提供道路當(dāng)前的具體狀態(tài),及時更新電子地圖。此外,對于商業(yè)信息的獲取,同樣可以采用上述處理來實現(xiàn),例如,用戶可以輸入 關(guān)鍵詞“產(chǎn)品”、“XX廠商”、以及時間等要求,就能夠獲取到滿足時間要求的XX廠商關(guān)于產(chǎn) 品的相關(guān)信息以及評論,有助于用戶及時獲取廠商的動態(tài)。如果用戶需要搜索其他方面或類型的信息,僅需要更換關(guān)鍵詞即可。對于其他信 息的獲取,其方式與上述方式類似,本文不再詳細(xì)描述。通過上述處理,能夠避免人工編寫新的搜索引擎、配置索引庫,借助已有的引擎搜 索到更加全面的信息,使得信息的獲取具有很好的靈活性和準(zhǔn)確性,明顯提升網(wǎng)絡(luò)信息獲 取的效率。裝置實施例
在本實施例中,提供了 一種網(wǎng)絡(luò)信息獲取裝置。如圖2所示,根據(jù)本實施例的網(wǎng)絡(luò)信息獲取裝置包括搜索模塊、分析模塊、和存 儲模塊。搜索模塊,用于通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引擎搜索與預(yù)先輸入的關(guān) 鍵詞相關(guān)的網(wǎng)絡(luò)信息;分析模塊,連接至搜索模塊,用于根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的網(wǎng)絡(luò)信 息的內(nèi)容的相關(guān)性對網(wǎng)絡(luò)信息進行價值評分;存儲模塊,連接至分析模塊,用于存儲價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。通過上述裝置,能夠避免人工編寫新的搜索引擎、配置索引庫,借助已有的引擎搜 索到更加全面的信息,使得信息的獲取具有很好的靈活性和準(zhǔn)確性。如圖2所示,搜索模塊可以進一步包括第一處理子模塊,用于將統(tǒng)一資源定位符相同的網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的 網(wǎng)絡(luò)信息的編碼;第二處理子模塊,連接至第一處理子模塊,用于對統(tǒng)一編碼后的網(wǎng)絡(luò)信息 進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng)絡(luò)信息。分析模塊可以進一步包括第一分析子模塊,用于根據(jù)預(yù)設(shè)的時間過濾規(guī)則對搜索到的網(wǎng)絡(luò)信息進行時間過 濾,將發(fā)布時間不符合時間過濾規(guī)則的網(wǎng)絡(luò)信息刪除。第二分析子模塊,連接至第一分析子模塊,根據(jù)預(yù)設(shè)的標(biāo)題過濾規(guī)則對第一分析 子模塊過濾后剩余的網(wǎng)絡(luò)信息的標(biāo)題進行匹配并給出過濾評分,并將過濾評分未達到第二 分?jǐn)?shù)閾值的標(biāo)題所對應(yīng)的網(wǎng)絡(luò)信息刪除;第三分析子模塊,連接至第二分析子模塊,用于根據(jù)模糊過濾規(guī)則第二分析子模 塊過濾后剩余的網(wǎng)絡(luò)信息進行價值評分。分析模塊還用于根據(jù)價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息的價值評分和過濾 評分得到綜合評分,并將得到的綜合評分與相應(yīng)的網(wǎng)絡(luò)信息一并提供給存儲模塊進行保存。下面將結(jié)合圖3和圖4,詳細(xì)描述上述裝置的配置方式和處理過程。其中,圖2所示的裝置可以設(shè)置于圖3所示的系統(tǒng)中,并結(jié)合圖4所示的流程進行網(wǎng)絡(luò)信息的獲取。圖3所示的系統(tǒng)主要由兩部分組成,分別是情報抓取和分析引擎、以及Web數(shù)據(jù) 管理系統(tǒng),這兩部分既互相獨立,又互相聯(lián)系。圖2所示的網(wǎng)絡(luò)信息獲取裝置的功能可以相 當(dāng)于情報抓取和分析引擎與動態(tài)數(shù)據(jù)庫的結(jié)合。在Web數(shù)據(jù)管理系統(tǒng)中,用戶可以對搜索任務(wù)的采集以及采集的日志進行管理, 并且能夠管理采集任務(wù)、Web數(shù)據(jù)管理系統(tǒng)中保存的信息、以及用戶的注冊情況。作業(yè)人員通過Web數(shù)據(jù)管理系統(tǒng)制定抓取任務(wù)指令,該指令包括搜索關(guān)鍵詞和 規(guī)則等內(nèi)容,具體地,可以定期自動發(fā)送任務(wù)指令的方式,將任務(wù)指令發(fā)送到情報抓取和分 析引擎,接收到任務(wù)指令后,圖2所示的網(wǎng)絡(luò)信息獲取裝置即可調(diào)用執(zhí)行該任務(wù),從通過元 搜索引擎從網(wǎng)絡(luò)上抓取數(shù)據(jù)并進行分析;之后,系統(tǒng)就可以抽取分析后的數(shù)據(jù),插入保存到 數(shù)據(jù)庫中,以便“Web數(shù)據(jù)管理系統(tǒng)”能將這些數(shù)據(jù)展示給作業(yè)人員,供以后進行人工審核。圖2所示的裝置在圖3所示的系統(tǒng)中的工作過程如下系統(tǒng)首先通過Web數(shù)據(jù)管理系統(tǒng),來進行任務(wù)的添加、編輯和發(fā)送執(zhí)行,任務(wù)的添 加可以由程序自動產(chǎn)生,人工修改、審核相結(jié)合。Web數(shù)據(jù)管理系統(tǒng)對編輯好的任務(wù)指令,進行定期自動發(fā)送到情報抓取和分析引擎。情報抓取和分析引擎接收來自Web數(shù)據(jù)管理系統(tǒng)的任務(wù),調(diào)用“情報抓取和分析 引擎”執(zhí)行該任務(wù)指令。情報抓取和分析引擎分為情報抓取子模塊(對應(yīng)于圖2中所示的搜索模塊)和情 報分析子模塊(對應(yīng)于圖2中所示的分析模塊)。情報抓取子模塊主要負(fù)責(zé)數(shù)據(jù)的抓取和 抽取,情報分析子模塊負(fù)責(zé)情報數(shù)據(jù)的分析。情報抓取的過程可分為“關(guān)鍵詞抓取”和“定向抓取”,下面將以關(guān)鍵詞抓取為例進 行描述,具體過程如下首先通過設(shè)定一系列關(guān)鍵詞(包括事件、時間、地點等)和任務(wù)包含的相應(yīng)抽取 規(guī)則,到各大元搜索引擎(例如,G00gle、BaidU等)進行查詢,將所有查詢結(jié)果各取一定條 數(shù),提取搜索列表,并綜合作簡單的初步過濾和分析,提取搜索到的信息的正文,將標(biāo)題、正 文和發(fā)生時間、地點、事件進行抽取,結(jié)果整合、優(yōu)化,得到最優(yōu)的查詢結(jié)果列表,即,得到結(jié) 構(gòu)化的數(shù)據(jù),以供后續(xù)分析和過濾。情報分析模塊可以對情報抓取模塊抽取到的結(jié)構(gòu)化情報數(shù)據(jù),進行分析??词欠?是有用的信息,并根據(jù)一定的算法,計算情報價值分?jǐn)?shù),最后將所有該關(guān)鍵詞和規(guī)則抽取出 來的情報,插入保存到動態(tài)數(shù)據(jù)庫,以供Web數(shù)據(jù)管理系統(tǒng)進行后續(xù)處理。情報分析模塊執(zhí)行的具體分析步驟如下情報分析模塊首先對情報抓取模塊傳入的情報數(shù)據(jù)進行時間過濾,對于滿足設(shè)置 時間內(nèi)的信息進行提取(可以由第一分析子模塊執(zhí)行);之后,對標(biāo)題進行規(guī)則過濾,在基于關(guān)鍵詞進行抓取前,可以預(yù)先設(shè)置好相應(yīng)標(biāo)題 過濾規(guī)則,通過該規(guī)則,即可進行過濾。而該規(guī)則可以是程序自動推到和學(xué)習(xí),也可以是人 工制定。“規(guī)則過濾”中,由事先定義的規(guī)則,對標(biāo)題進行規(guī)則判斷以后,根據(jù)閥值(即,上述 的第二分?jǐn)?shù)閾值),對情報信息進行篩選,并對未過濾掉的信息得到相應(yīng)的規(guī)則過濾分?jǐn)?shù)值 (即,對應(yīng)于上述的過濾評分)(該處理可以由第二分析子模塊執(zhí)行)。9
結(jié)合機器學(xué)習(xí)算法(自適應(yīng)學(xué)習(xí)算法),由事先生成的機器學(xué)習(xí)模型文件進行智 能分析,自動判斷情報內(nèi)容的相關(guān)性,如果經(jīng)過“模糊過濾”后的機器學(xué)習(xí)價值分?jǐn)?shù)較高,則 表示相關(guān)性很高;如果價值分?jǐn)?shù)較低且低于某一個閥值(即,上述的第一分?jǐn)?shù)閾值),該內(nèi) 容將被過濾掉(該處理可以由第三分析子模塊執(zhí)行)。之后,可以結(jié)合“規(guī)則過濾”和“模糊過濾”的價值分?jǐn)?shù),對整個情報信息進行綜合 評分,例如,可以通過加權(quán)算法。最后,可以將剩余的每條信息及其相關(guān)屬性(包括綜合評分)插入保存到動態(tài)數(shù) 據(jù)庫,以供人工進行重復(fù)過濾,將最后得到的重復(fù)過濾結(jié)果存儲至結(jié)果庫中,根據(jù)結(jié)果庫中 存儲的過濾結(jié)果以及動態(tài)數(shù)據(jù)庫中存儲的過濾結(jié)果,機器學(xué)習(xí)算法(自適應(yīng)學(xué)習(xí)算法)可 以進行學(xué)習(xí),更新模糊過濾規(guī)則(例如,可以更新模型文件),從而使模糊過濾規(guī)則更加接 近人工判斷的結(jié)果,提高模糊過濾的智能化程度。與之前所描述的方法實施例類似,時間過濾和/或標(biāo)題過濾可以與模糊過濾組合 使用,也可以僅采用模糊過濾,具體是否選擇時間過濾和標(biāo)題過濾可以根據(jù)實際情況而定, 本文不再詳述。在過濾和分析完成之后,Web數(shù)據(jù)管理系統(tǒng)可以從數(shù)據(jù)庫中讀取數(shù)據(jù),以表格列表 的形式展現(xiàn)給作業(yè)人員,作業(yè)人員進行審核及后續(xù)工作處理,將人工篩選后的網(wǎng)絡(luò)信息存 儲至結(jié)果庫中,以供第三分析子模塊學(xué)習(xí),提高模糊過濾的智能化;或者通過系統(tǒng)對接的方 式,將數(shù)據(jù)發(fā)送到其他系統(tǒng),以供進一步處理。通過上述裝置,能夠借助元搜索引擎從互聯(lián)網(wǎng)實時抽取有用網(wǎng)絡(luò)信息(例如,實 時抽取到地理信息變化數(shù)據(jù)),從而達到快速更新數(shù)據(jù),有效提高數(shù)據(jù)質(zhì)量和增加數(shù)據(jù)總量 的目的,并且,整個系統(tǒng)自動化作業(yè)流程,能夠盡量避免人工的干預(yù)。綜上所述,借助于本發(fā)明的上述技術(shù)方案,通過元搜索引擎并結(jié)合關(guān)鍵詞進行搜 索,能夠避免人工編寫新的搜索引擎,能夠借助已有的引擎搜索到更加全面的信息,明顯提 升網(wǎng)絡(luò)信息獲取的效率;并且,由于是基于關(guān)鍵詞進行搜索,能夠有效提高搜索的靈活性, 如果用戶希望變更搜索條件僅需要修改關(guān)鍵詞即可,而無需更換預(yù)先配置的整個搜索模板 或索引庫;此外,由于上述處理采用模糊過濾規(guī)則并基于搜索結(jié)果的相關(guān)性進行過濾,因 此,能夠最大程度上保證搜索結(jié)果的準(zhǔn)確性,并且能夠避免將有用的搜索結(jié)果過濾掉。以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。10
權(quán)利要求
1.一種網(wǎng)絡(luò)信息獲取方法,其特征在于,所述方法包括通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引擎搜索與預(yù)先輸入的關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息;根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的所述網(wǎng)絡(luò)信息的內(nèi)容的相關(guān)性對所述網(wǎng)絡(luò)信 息進行價值評分,并保存價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在搜索到與所述關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息 之后、進行價值評分之前,所述方法進一步包括將統(tǒng)一資源定位符相同的網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的所述網(wǎng)絡(luò)信息的編碼;對統(tǒng)一編碼后的所述網(wǎng)絡(luò)信息進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng)絡(luò)信息,其中,之后進行 價值評分的所述網(wǎng)絡(luò)信息是指所述結(jié)構(gòu)化的網(wǎng)絡(luò)信息。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對搜索到的所述網(wǎng)絡(luò)信息進行價值評 分之前,所述方法進一步包括根據(jù)預(yù)設(shè)的時間過濾規(guī)則對搜索到的所述網(wǎng)絡(luò)信息進行時間過濾,將發(fā)布時間不符 合所述時間過濾規(guī)則的網(wǎng)絡(luò)信息刪除,將剩余的網(wǎng)絡(luò)信息作為后續(xù)進行價值評分的網(wǎng)絡(luò)信 息。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在對搜索到的所述網(wǎng)絡(luò)信息進行價值評 分之前,所述方法進一步包括根據(jù)預(yù)設(shè)的標(biāo)題過濾規(guī)則對搜索到的所述網(wǎng)絡(luò)信息的標(biāo)題進行過濾評分,并將過濾評 分未達到第二分?jǐn)?shù)閾值的標(biāo)題所對應(yīng)的網(wǎng)絡(luò)信息刪除,將剩余的網(wǎng)絡(luò)信息作為后續(xù)進行價 值評分的網(wǎng)絡(luò)信息。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,保存價值評分達到所述第一分?jǐn)?shù)閾值的 網(wǎng)絡(luò)信息的處理具體包括對于價值評分達到所述第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息,根據(jù)該網(wǎng)絡(luò)信息的價值評分和過濾 評分得到綜合評分,并將得到的綜合評分與相應(yīng)的網(wǎng)絡(luò)信息一并保存。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,在保存價值評分達到所述第一分?jǐn)?shù)閾值 的網(wǎng)絡(luò)信息之后,所述方法進一步包括將所述價值評分達到所述第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息呈獻給用戶,并在用戶對呈現(xiàn)的網(wǎng) 絡(luò)信息進行篩選后得到剩余的網(wǎng)絡(luò)信息;根據(jù)剩余的所述網(wǎng)絡(luò)信息與呈現(xiàn)的所述網(wǎng)絡(luò)信息進行自適應(yīng)學(xué)習(xí),并對所述模糊過濾 規(guī)則進行更新。
7.—種網(wǎng)絡(luò)信息獲取裝置,其特征在于,所述裝置包括搜索模塊,用于通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引擎搜索與預(yù)先輸入的關(guān)鍵詞 相關(guān)的網(wǎng)絡(luò)信息;分析模塊,用于根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的所述網(wǎng)絡(luò)信息的內(nèi)容的相關(guān)性 對所述網(wǎng)絡(luò)信息進行價值評分;存儲模塊,用于存儲價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述搜索模塊進一步包括第一處理子模塊,用于將統(tǒng)一資源定位符相同的網(wǎng)絡(luò)信息合并,并統(tǒng)一搜索到的所述 網(wǎng)絡(luò)信息的編碼;第二處理子模塊,用于對統(tǒng)一編碼后的所述網(wǎng)絡(luò)信息進行參數(shù)提取,得到結(jié)構(gòu)化的網(wǎng) 絡(luò)信息,以供后續(xù)進行價值評分。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述分析模塊進一步包括第一分析子模塊,用于根據(jù)預(yù)設(shè)的時間過濾規(guī)則對搜索到的所述網(wǎng)絡(luò)信息進行時間過 濾,將發(fā)布時間不符合所述時間過濾規(guī)則的網(wǎng)絡(luò)信息刪除;第二分析子模塊,根據(jù)預(yù)設(shè)的標(biāo)題過濾規(guī)則對所述第一分析子模塊過濾后剩余的網(wǎng)絡(luò) 信息的標(biāo)題進行匹配并給出過濾評分,并將過濾評分未達到第二分?jǐn)?shù)閾值的標(biāo)題所對應(yīng)的 網(wǎng)絡(luò)信息刪除;第三分析子模塊,用于根據(jù)所述模糊過濾規(guī)則所述第二分析子模塊過濾后剩余的網(wǎng)絡(luò) 信息進行價值評分。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述分析模塊還用于根據(jù)價值評分達到 所述第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息的價值評分和過濾評分得到綜合評分,并將得到的綜合評分 與相應(yīng)的網(wǎng)絡(luò)信息一并提供給所述存儲模塊進行保存。
全文摘要
本發(fā)明公開了一種網(wǎng)絡(luò)信息獲取方法和裝置,其中,該方法包括通過執(zhí)行預(yù)設(shè)的搜索任務(wù)來利用元搜索引擎搜索與預(yù)先輸入的關(guān)鍵詞相關(guān)的網(wǎng)絡(luò)信息;根據(jù)預(yù)設(shè)的模糊過濾規(guī)則以及搜索到的網(wǎng)絡(luò)信息的內(nèi)容的相關(guān)性對網(wǎng)絡(luò)信息進行價值評分,并保存價值評分達到第一分?jǐn)?shù)閾值的網(wǎng)絡(luò)信息。通過使用本發(fā)明,能夠避免人工編寫新的搜索引擎,借助已有的引擎搜索到更加全面的信息,明顯提升網(wǎng)絡(luò)信息獲取的效率,有效提高搜索的靈活性,最大程度上保證搜索結(jié)果的準(zhǔn)確性。
文檔編號G06F17/30GK102054008SQ200910237238
公開日2011年5月11日 申請日期2009年11月5日 優(yōu)先權(quán)日2009年11月5日
發(fā)明者徐瑞峰, 曹曉航, 杜宇程, 汪洋, 程鵬, 羅麗俊, 陳文斌 申請人:北京四維圖新科技股份有限公司