專利名稱:對象級知識挖掘的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計算機網(wǎng)絡(luò)技術(shù),特別是一種基于互聯(lián)網(wǎng)信息的對象級知識挖掘的方法 和系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的發(fā)展,各種信息以爆炸式地增加,如果通過人為的方式來獲取有用的 信息將非常困難,因此如何從這些海量的信息中獲取所需要的內(nèi)容并能夠把這些內(nèi)容以 有用的知識呈現(xiàn)將會成為一種很重要的關(guān)鍵點,這樣就能避免淹沒在信息爆炸中。當前搜索引擎所做的只是全文搜索,它僅僅提供了一大堆的信息,但沒有形成一種 有用的知識,因此用戶需要在搜索結(jié)果中根據(jù)自己的知識背景來査找出哪些信息是有用 的。為了更加深入的了解某個信息的相關(guān)性,也需要用戶自己來進行分析。比如用戶為 了獲取萬邦都市花園的信息,他在搜索引擎中獲得的結(jié)果有很多,而且大部分都是類似 的信息,他真正想要的關(guān)于這個小區(qū)的某些對象級別的詳細信息(比如這個小區(qū)建立時 間,位置,目前房源數(shù))以及這個小區(qū)內(nèi)有什么特殊性、有什么動遷之類的此對象的相 關(guān)信息,他不能直接從這個搜索結(jié)果中獲得。發(fā)明內(nèi)容本發(fā)明的第一個目的就在于提供一種對象級知識挖掘系統(tǒng),以幫助用戶在海量信息 中找到其所要査找的對象的各種詳細信息并整理出此對象的有用的相關(guān)信息。 本發(fā)明的第二個目的就在于提供一種對象級知識挖掘方法。 本發(fā)明的對象級知識挖掘系統(tǒng),包括數(shù)據(jù)采集模塊,用于采集數(shù)據(jù),包括一個WEB抓取器,用于抓取web網(wǎng)頁;數(shù)據(jù)清洗模塊,用于對結(jié)構(gòu)化數(shù)據(jù)進行處理,包括一個數(shù)據(jù)驗證模塊,用于驗證數(shù)據(jù)的正確性,以及一個去重處理模塊,用于去除重復(fù)的數(shù)據(jù);內(nèi)容預(yù)處理模塊,用于對非結(jié)構(gòu)化數(shù)據(jù)進行預(yù)處理,包括一個元數(shù)據(jù)管理模塊,設(shè) 有至少一個預(yù)先設(shè)定的元數(shù)據(jù)信息,以及一個內(nèi)容解析器,用于解析出相關(guān)內(nèi)容;對象相關(guān)搜索模塊,用于分析該內(nèi)容預(yù)處理模塊處理后的內(nèi)容的相關(guān)度,包括一個 相關(guān)度分析器。本發(fā)明的對象級知識挖掘方法,包括 從網(wǎng)頁采集信息;對于采集到的結(jié)構(gòu)化數(shù)據(jù),執(zhí)行數(shù)據(jù)清洗處理; 對于采集到的非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行內(nèi)容預(yù)處理操作; 預(yù)處理后得到的內(nèi)容,再執(zhí)行對象相關(guān)搜索操作。本發(fā)明的積極進歩效果在于能夠快速地處理互聯(lián)網(wǎng)上已經(jīng)存在的海量信息,然后 從中建立相關(guān)的對象模型,并可以靈活地以不同方式來對這些對象進行挖掘,以建立出 對用戶有用的知識,實現(xiàn)從信息到知識的轉(zhuǎn)變。
圖1為本發(fā)明中系統(tǒng)的框圖。圖2為本發(fā)明中方法的高層流程圖。
具體實施方式
如圖1所示, 一種對象級知識挖掘系統(tǒng),包括數(shù)據(jù)采集模塊100,用于從互聯(lián)網(wǎng)上 收集信息,其包括WEB抓取器llO,數(shù)據(jù)適配器120和數(shù)據(jù)轉(zhuǎn)換器130。其中,所述WEB抓取器110從預(yù)定義的URL列表中獲取需要的網(wǎng)頁,然后從所獲 取的網(wǎng)頁中獲取相關(guān)信息組成對象。通常,在一般網(wǎng)頁抓取器中只能定義一下要抓取的列表,然后根據(jù)這些列表直接就 把這些網(wǎng)頁列表中的內(nèi)容以源代碼方式抓取下來,因此普通的網(wǎng)頁抓取器存在如下兩個 問題l.用戶需要的信息可能位于多個相關(guān)網(wǎng)頁中;2.無法從網(wǎng)頁中獲取相關(guān)信息組成 用戶需要的對象內(nèi)容,去除無關(guān)的信息。而根據(jù)本發(fā)明的WEB抓取器110根據(jù)預(yù)先定義的網(wǎng)頁分類規(guī)則對網(wǎng)頁進行分類。 作為示例,網(wǎng)頁可分為連接頁和內(nèi)容頁,如可以把類似如下的URLhttp:〃ershoufang.goo.iia.com/search/.........................house.html設(shè)定為鏈接頁,而把類似http:〃ershoufang.gooiia.com/ershoufang-xinxi-2598812的網(wǎng)頁設(shè)定為內(nèi)容頁。 一般說 來,鏈接頁一般是包含了用戶需要抓取網(wǎng)頁的鏈接,為了便于理解,可以把鏈接頁看成 是到達內(nèi)容頁的一個導航頁,而內(nèi)容頁則指明了在該頁面中含有用戶需要的信息。如果是鏈接頁,則取出所有符合要求的鏈接,然后再根據(jù)這些鏈接去獲得相關(guān)網(wǎng)頁 內(nèi)容;如果是內(nèi)容頁,則直接取得網(wǎng)頁內(nèi)容。在取得網(wǎng)頁的內(nèi)容之后,由于用戶需要的信息以非結(jié)構(gòu)化的文本內(nèi)容顯示在網(wǎng)頁 上,而對于后期的數(shù)據(jù)處理和分析則需要從這些網(wǎng)頁中抽取出相關(guān)的內(nèi)容并組成一個對 象來進行后期數(shù)據(jù)處理。由于每個網(wǎng)頁的格式千變?nèi)f化,用一般的字符串匹配方式很難有通用性,也不能從 中獲得所有用戶想要的內(nèi)容,為了把網(wǎng)頁上的內(nèi)容結(jié)構(gòu)化,在本公開中提供了這4種結(jié) 構(gòu)化規(guī)則,具體使用方式依賴于不同的網(wǎng)頁和想要獲得的內(nèi)容,對于本領(lǐng)域的一般技術(shù) 人員是顯而易見的。所述的規(guī)則包括1、 正則表達式正則表達式是軟件開發(fā)中的一個規(guī)范技術(shù)術(shù)語,我們可以使用它來定義我們的規(guī) 則,它主要是定義的匹配規(guī)則。例如;比如我們要抽取房源地址,HTML源碼為<td class^'fytblt"〉地址</td><td class^'fytblb"〉報春路862弄〈/td〉,那么映射為ADDRESS = {$1}地址</td>\s*<[A>]*>([A<]*)</td>,就是取出"報春路862弄" 這一信息。在本發(fā)明的實現(xiàn)中,包括至少一個正則表達式。正則表達式具體的數(shù)量和匹配定義 依賴于具體的應(yīng)用環(huán)境和本發(fā)明的具體實現(xiàn),但是本領(lǐng)域的技術(shù)人員依照本說明書的教導結(jié)合現(xiàn)有技術(shù),根據(jù)具體應(yīng)用可建立一個或者一組正則表達式。對于大部分網(wǎng)頁,這個規(guī)則都能適用,但如果某些對象屬性的獲取需要根據(jù)不同的 判斷條件以及循環(huán)條件等復(fù)雜的邏輯判斷才能得出的匹配規(guī)則的話,則正則表達式就不 適用,需要"動態(tài)Java腳本"來實現(xiàn)。2、 動態(tài)Java腳本當使用正則表達式無法取出數(shù)據(jù)的時候,我們會把當前頁面的源代碼交給動態(tài)java 腳本去解析,以編程的方式來獲得網(wǎng)頁上的內(nèi)容。動態(tài)Java腳本本身就是一段類似JAVA語言的代碼,可以在里面實現(xiàn)比較復(fù)雜的判 斷、循環(huán)等操作,其實現(xiàn)手段是JAVA代碼。其中關(guān)于JAVA語言和JAVA編程技術(shù)為 公知技術(shù)。對于處理源代碼的方法,本領(lǐng)域的技術(shù)人員可依照現(xiàn)有技術(shù)的教導,根據(jù)本 發(fā)明的具體應(yīng)用環(huán)境編寫出相應(yīng)的JAVA腳本。作為示例,比如可以配置如下的腳本從原始頁面中獲取www.51ditu.com網(wǎng)站的標點的詳細頁面地址import org.apache.commons.lang.StringUtils; import java.util.regex.Matcher; import Java.util.regex.Pattern;String name = STEP.getThreadAttribute("DISTRICTNAME",String.class); String compareName = StringUtils.substringBetween(PAGE—SOURCE,"href-\ "javascript:void(0);\''>","</a></b>"); if(name.equals(cotnpareName)) {String regex = "\\d*A\d*/(\\d*)M;Pattern p = Pattern.compile(regex);Matcher m = p週tcher(PAGE一SOURCE);m,find();return "http:〃www.51ditu.com/p id=" + m.group(l); elsereturn "";3、 如果當前頁面是由父頁面生成出來的時候,父頁面如果已經(jīng)有解析出來的信息 單元的時候,子頁面就可以通過表達式:${父頁面信息單元名}取出數(shù)據(jù),即父子頁面繼 承。作為說明性的例子,比如我們想要獲得某個房源的聯(lián)系電話,但在打開的房源頁面 中里面沒有具體的中介聯(lián)系電話,要獲得這個房子的聯(lián)系電話,用戶需要在這個房源頁 面中再次點擊聯(lián)系電話這個鏈接才能獲得這個房子的聯(lián)系電話,在這里房源頁面就是"父頁面",而"子頁面"就是那個聯(lián)系電話的頁面。4、 可將關(guān)于網(wǎng)頁的并且與網(wǎng)頁內(nèi)容無關(guān)的信息設(shè)置為常量,常量是根據(jù)需要具體 設(shè)定的,比如我們可能需要保存這個對象是什么時候創(chuàng)建的,因此可以定義Snow這個 常量,這樣每次當生成這個對象時就會把當前時間存放進這個對象的屬性中。在具體執(zhí)行抓取時,由于單機抓取速度無法提升,可以采用分布式抓取。使用一個 服務(wù)器(未示)來定義結(jié)構(gòu)化規(guī)則,和網(wǎng)站入口地址(RootURL)。服務(wù)器把入口URL 和URL對應(yīng)的結(jié)構(gòu)化規(guī)則,發(fā)送給多個客戶端,客戶端開啟抓取流程。當其中一個客 戶端抓取完畢的時發(fā)送已空閑命令,服務(wù)器又會把其他網(wǎng)站的抓取信息發(fā)送給客戶端。 當服務(wù)器未接受到空閑命令的時候,將一直等待。在這里,服務(wù)器負責所有的抓取調(diào)度, 當某個客戶端空閑時,服務(wù)器就把相關(guān)的要抓取的URL發(fā)給客戶端去執(zhí)行抓取。比如我們要抓取h加:〃www.google.cn上的ICP號,對應(yīng)正則就是(ICP[A<]*)。 比如要抓取一個網(wǎng)站的房源數(shù)據(jù),那房源列表頁面的URL就是抓取入口 URL。 比如有些頁面是分頁的,有第一頁,第二頁等,則遍歷這些頁碼,將其設(shè)為鏈接類型,把這些相關(guān)的頁碼的鏈接放入抓取隊列中,然后由服務(wù)器把這些鏈接分配到各個客戶端上而抓取。服務(wù)器把結(jié)構(gòu)規(guī)則,網(wǎng)站入口 URL和信息單元集合存放方式一并發(fā)送給抓取客戶 端,客戶端就會完成抓取,并且保存數(shù)據(jù)到指定地方。所述"信息單元集合存放方式" 是通知抓取客戶端把抓取下來的內(nèi)容存儲在何種數(shù)據(jù)庫,比如存放到access數(shù)據(jù)庫或者 sqlserver數(shù)據(jù)庫。為了獲取更多的數(shù)據(jù),提供一個數(shù)據(jù)適配器120和一個數(shù)據(jù)轉(zhuǎn)換器130。數(shù)據(jù)適配 器120用于將來自不同系統(tǒng)的數(shù)據(jù)導入本發(fā)明的系統(tǒng)中。而數(shù)據(jù)轉(zhuǎn)換器130用于將不同 的數(shù)據(jù)格式轉(zhuǎn)換為根據(jù)本發(fā)明的系統(tǒng)使用的格式。在具體的應(yīng)用中,本領(lǐng)域的一般技術(shù) 人員依照現(xiàn)有技術(shù)的教導可容易地實現(xiàn)數(shù)據(jù)適配器120和數(shù)據(jù)轉(zhuǎn)換器130。經(jīng)過上述采集過程,所獲得數(shù)據(jù)中包括結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù),其中結(jié)構(gòu)化數(shù) 據(jù)發(fā)送給數(shù)據(jù)清洗模塊200處理,非結(jié)構(gòu)化數(shù)據(jù)發(fā)送給內(nèi)容預(yù)處理模塊300處理。所述的結(jié)構(gòu)化數(shù)據(jù)是指在獲取的網(wǎng)頁信息中包含的可以歸于某一類的數(shù)據(jù),如名 稱,地址等。所述非結(jié)構(gòu)化數(shù)據(jù)是指在獲取的網(wǎng)頁信息中包含的內(nèi)容無法具體分類的數(shù)據(jù),如用 戶評論,相關(guān)新聞等。由于從互聯(lián)網(wǎng)上收集到的數(shù)據(jù)信息各種各樣,有些數(shù)據(jù)可能會由于某些信息提供者 的筆誤提供了錯誤的數(shù)據(jù),或者某些信息會在很多網(wǎng)站上重復(fù)出現(xiàn)同樣的信息,對于結(jié) 構(gòu)化數(shù)據(jù),在數(shù)據(jù)清洗模塊200驗證數(shù)據(jù)的正確性并對重復(fù)的數(shù)據(jù)做去除處理,其包括 數(shù)據(jù)驗證模塊210,用于驗證數(shù)據(jù)的準確性,以及去重處理模塊220,用于去除重復(fù)的 數(shù)據(jù)。根據(jù)現(xiàn)有技術(shù)的教導,本領(lǐng)域的技術(shù)人員可以得到該數(shù)據(jù)清洗模塊200,以及驗證 數(shù)據(jù)準確性和去處重復(fù)數(shù)據(jù)的方法。對于非結(jié)構(gòu)數(shù)據(jù),比如用戶的評論信息,某些相關(guān)新聞信息等。這些信息可能是一 些對用戶所關(guān)注的內(nèi)容相關(guān)度很高的信息。因此在內(nèi)容預(yù)處理模塊300中包含元數(shù)據(jù)管 理模塊310,其中定義至少一個元數(shù)據(jù)信息,然后通過內(nèi)容解析器320從非結(jié)構(gòu)數(shù)據(jù)中, 抽取出相關(guān)的內(nèi)容。其中所述的元數(shù)據(jù)信息是預(yù)先設(shè)定的與抓取的內(nèi)容相關(guān)的信息,比如新聞信息中可 能有新聞來源,新聞日期,新聞分類等。為了便于理解,可以將這些元數(shù)據(jù)信息看成多 個關(guān)于某個內(nèi)容的關(guān)鍵字。如果抓取的內(nèi)容中包括這些關(guān)鍵字或者與關(guān)鍵字有關(guān)的內(nèi) 容,則認為是相關(guān)的內(nèi)容。這些元數(shù)據(jù)信息是根據(jù)具體的應(yīng)用而設(shè)定的。其中,內(nèi)容解析器320可由本領(lǐng)域的一般技術(shù)人員依照現(xiàn)有技術(shù)的教導和具體應(yīng)用 而得到。作為例子,目前對于新聞類內(nèi)容通過分析大段文字特殊性來進行的,比如如果 抓取到的網(wǎng)頁中有很多標點符號,而且這些標點符號出現(xiàn)的頻率很高,則可以認為這個 網(wǎng)頁中存在大段的文字信息,然后根據(jù)標點符號出現(xiàn)的頻率最高的地方把這些文字抽取 出來就成為新聞內(nèi)容。在獲得了原始的內(nèi)容之后,需要對這些內(nèi)容從來源、重要性分類、詞間據(jù)等方式進 行評級并進行匹配,以選擇出同用戶搜索最相關(guān)的內(nèi)容。如圖1所示,經(jīng)過預(yù)處理模塊300處理后得到的有效內(nèi)容作為對象相關(guān)搜索模塊400 的輸入,在該對象相關(guān)搜索模塊400包含一個相關(guān)度分析器410,其中含有至少一個關(guān) 鍵字信息,并且該關(guān)鍵字信息具有對應(yīng)的分值,根據(jù)具體應(yīng)用環(huán)境,所述分值可以為負 值。計算每個關(guān)鍵字出現(xiàn)次數(shù),'累計分值,然后將所有出現(xiàn)的關(guān)鍵字的分值累加則得到 內(nèi)容的相關(guān)度分值。設(shè)定一個門限值,將相關(guān)度分值與該門限值進行對比,如果該相關(guān) 度分值大于門限值,則將該內(nèi)容作為與目標相關(guān)的內(nèi)容,用于其他的處理。例如,作為 在本發(fā)明之外的分析模型的輸入。如圖2所示, 一種對象級知識挖掘方法500,首先根據(jù)需要的內(nèi)容從網(wǎng)頁采集信息 (步驟510),其中將網(wǎng)頁分類抓取其中的內(nèi)容,并且通過4種結(jié)構(gòu)化規(guī)則將獲取內(nèi)容對 象。其中抓取的方式可以采用分布式方式進行,即如前所述利用至少一臺服務(wù)器和至少 一個客戶端分別執(zhí)行抓取過程的不同階段。對于采集到的結(jié)構(gòu)化數(shù)據(jù),執(zhí)行數(shù)據(jù)清洗處 理(步驟540),包括驗證數(shù)據(jù)正確性和去除其中重復(fù)的數(shù)據(jù)。對于采集到的非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行內(nèi)容預(yù)處理操作(步驟520),利用如前所述的預(yù) 設(shè)的至少一個元數(shù)據(jù)信息判斷內(nèi)容是否相關(guān),并解析出相關(guān)內(nèi)容。預(yù)處理后得到的內(nèi)容,再執(zhí)行對象相關(guān)搜索操作,使用如上所述的預(yù)設(shè)的關(guān)鍵字與 待處理內(nèi)容對比,根據(jù)關(guān)鍵字以及出現(xiàn)的頻次計算該內(nèi)容的相關(guān)度分值,并與所述的預(yù) 設(shè)的門限值比較。如果該相關(guān)度分值大于門限值,則將該內(nèi)容作為與目標相關(guān)的內(nèi)容, 用于其他的處理。作為例子,以小區(qū)新聞作為對象執(zhí)行上面的操作。應(yīng)當注意的是,這個例子僅僅是 說明性的,并不是為了限制,凡是非結(jié)構(gòu)化的內(nèi)容,都可以用這種方式進行,比如論壇 中用戶發(fā)表的言論。過程如下一、 拿到百度和谷歌的新聞搜索入口地址i、 百度新聞入口地址http:〃news.baidu.com/ns word=%CC%C0%B3%BCo/oD2%B B%C6%B7&tn=news&from=news&ie=gb2312&bs=%CC%C0 %B3%BC%BA%C0%D4%B0&sr=0&cl=2&m=20&ct=0 那word=%CC%C0%B3%BC%D2%BB%C6%B7禾口 bs=%CC%C0%B3%BC%BA%C0%D4%B0中的word和bs就是我們需要填入的關(guān)鍵字,而這個關(guān)鍵字需要經(jīng)過URL編碼 (GBK)。ii、 谷歌新聞入口地址http:〃news.google.cn/news hl=zh-CN&ned=ccn&q=%E6%B 1 %A4%E8%87%A3%E4%B8%80%E5%93%81 &btnG=%E6%9 0%9C%E7%B4%A2%E8%B5%84%E8%AE%AF 那q=%E6%B 1 %A4%E8%87%A3%E4%B8%80%E5%93%81中的q就是我們需要填入 的搜索關(guān)鍵字。二、 小區(qū)搜索關(guān)鍵字庫的準備i、由于小區(qū)的特殊原因,其中小區(qū)名就是小區(qū)的搜索關(guān)鍵字。三、 把小區(qū)搜索關(guān)鍵字和新聞搜索入口地址組合,獲取新聞信息。i、 也就是把小區(qū)搜索關(guān)鍵字按照搜索引擎的編碼要求,填入到搜索入口地址關(guān)鍵字。ii、 最后通過爬蟲,去爬取搜索結(jié)果列表。抓取新聞的標題,新聞發(fā)布時間,新聞 來源,新聞?wù)侣務(wù)牡刂?。iii、 通過新聞?wù)牡刂?,再抓取新聞?wù)?。四?正文抽取i、 出于新聞有其特有的屬性,比如漢字表較集中,這樣就會出來標點的密集度。ii、 因為在網(wǎng)頁顯示頁面,其它地方不會出現(xiàn)比正文還多的標點符號,即使有也是 少數(shù)。(在這里所說的標點是[,。??; ,]5個標點)。iii、抓取到顯示新聞網(wǎng)頁的源代碼,去除源代碼中如下內(nèi)容1、 <!—.* —>去除所有HTML注釋;2、 <script[A>]*>:* </script>去除所有JavaScript腳本;3、 <style[A>]*>.* </style>去除所有CSS樣式代碼;4、 <a[A>]*>(.* )</a>去除超鏈接,留下超鏈接中的內(nèi)容; (&[a-zA-Z]{2,};去除HTML實體;iiii、通過頻繁的標點符號的之間的字符間距閥值測試,設(shè)定成200為最優(yōu)的閥值。 比如兩個句子,兩句子結(jié)束標點的之間包含的字符數(shù)量就叫做閥值。五、 新聞相關(guān)度得分關(guān)鍵字庫i、由于小區(qū)的新聞有他的特殊的關(guān)鍵字,我們把關(guān)鍵字分為2類1、 公共關(guān)鍵字就是地區(qū),小區(qū)公有的關(guān)鍵字。比如抓的是上海的小區(qū)新聞,那么上海就是公有關(guān)鍵字,比如業(yè)主。這樣的關(guān)鍵字 是被計入加分關(guān)鍵字的。那么相反的,其他城市或者省份也會加入關(guān)鍵字,但是他的分值是負分。且扣分不 計次數(shù),出現(xiàn)一次扣一次。2、 特有關(guān)鍵字特有關(guān)鍵字小區(qū)名,這個必須包含。如果不包含,這個新聞直接計算成負分。小區(qū)所在的區(qū)域,板塊,這些都會被計入加分。外省小區(qū)的同名,但是特有關(guān)鍵字為該省或城市的特有街道,公路啊,直接計為負分。3、 段落得分比如小區(qū)名出現(xiàn)在新聞?wù)牡牡谝欢位蛭捕?,我們會給予更多的分,比如分值乘以2。段落分值可以任意定義。六、 計算新聞相關(guān)度得分先把文章進行分段。接著把所有關(guān)鍵所在的段落和出現(xiàn)位置全部記錄下來。新聞總 分為=關(guān)鍵字段落得分+關(guān)鍵字出現(xiàn)次數(shù)得分。七、 新聞分類關(guān)鍵字庫和新聞分類得分同新聞相關(guān)度得分 分類得分計算必須計算每個分類所在的關(guān)鍵字和段落所在的總得分。八、 新聞分類給新聞的分類設(shè)定一個閥值,如果大于等于該閥值,那這個新聞就被歸屬到該類的 新聞。九、設(shè)定新聞發(fā)布的閥值為大于等于O分,就是新聞得分大于O的都會發(fā)布到網(wǎng)站 上去。雖然上面描述了本發(fā)明的具體例子,但是根據(jù)本發(fā)明的教導可以有多種修改很變 化,均在本發(fā)明的范圍之內(nèi)。上面描述的許多具體細節(jié)僅僅作為例子,而不是對本發(fā)明 的限制。
權(quán)利要求
1、一種對象級知識挖掘系統(tǒng),包括數(shù)據(jù)采集模塊,用于采集數(shù)據(jù),包括一個WEB抓取器,用于抓取web網(wǎng)頁;數(shù)據(jù)清洗模塊,用于對結(jié)構(gòu)化數(shù)據(jù)進行處理,包括一個數(shù)據(jù)驗證模塊,用于驗證數(shù)據(jù)的正確性,以及一個去重處理模塊,用于去除重復(fù)的數(shù)據(jù);內(nèi)容預(yù)處理模塊,用于對非結(jié)構(gòu)化數(shù)據(jù)進行預(yù)處理,包括一個元數(shù)據(jù)管理模塊,設(shè)有至少一個預(yù)先設(shè)定的元數(shù)據(jù)信息,以及一個內(nèi)容解析器,用于解析出相關(guān)內(nèi)容;對象相關(guān)搜索模塊,用于分析該內(nèi)容預(yù)處理模塊處理后的內(nèi)容的相關(guān)度,包括一個相關(guān)度分析器。
2、 根據(jù)權(quán)利要求1所述的系統(tǒng),其特征是所述WEB抓取器根據(jù)網(wǎng)頁分類抓取web 內(nèi)容,其中網(wǎng)頁分類為鏈接頁和內(nèi)容頁。
3、 根據(jù)權(quán)利要求2所述的系統(tǒng),其特征是所述WEB抓取器包括四種結(jié)構(gòu)化規(guī)則 正則表達式、動態(tài)Java腳本、父子頁面繼承和常量。
4、 根據(jù)權(quán)利要求3所述的系統(tǒng),其特征是該數(shù)據(jù)采集模塊還包括一個數(shù)據(jù)適配器, 用于將來自不同系統(tǒng)的數(shù)據(jù)導入所述系統(tǒng)中。
5、 根據(jù)權(quán)利要求4所述的系統(tǒng),其特征是該數(shù)據(jù)采集模塊還包括一個數(shù)據(jù)轉(zhuǎn)換器, 用于將不同的數(shù)據(jù)格式轉(zhuǎn)換為所述系統(tǒng)使用的格式。
6、 根據(jù)權(quán)利要求5所述的系統(tǒng),其特征是所述元數(shù)據(jù)信息是預(yù)先設(shè)定的與抓取的 內(nèi)容相關(guān)的信息。
7、 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征是該相關(guān)度分析器中含有至少一個關(guān)鍵字 信息,并且該關(guān)鍵字信息具有對應(yīng)的分值。
8、 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征是該相關(guān)度分析器中含有一個門限值。
9、 一種對象級知識挖掘方法,包括 從網(wǎng)頁采集信息;對于采集到的結(jié)構(gòu)化數(shù)據(jù),執(zhí)行數(shù)據(jù)清洗處理; 對于采集到的非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行內(nèi)容預(yù)處理操作; 預(yù)處理后得到的內(nèi)容,再執(zhí)行對象相關(guān)搜索操作。
10、 根據(jù)權(quán)利要求9所述的方法,其特征是所述從網(wǎng)頁采集信息包括將網(wǎng)頁分類抓 取其中的內(nèi)容,其中網(wǎng)頁分為鏈接頁和內(nèi)容頁。
11、 根據(jù)權(quán)利要求IO所述的方法,其特征是使用四種結(jié)構(gòu)化規(guī)則獲取內(nèi)容,包括 正則表達式、動態(tài)Java腳本、父子頁面繼承和常量。
12、 根據(jù)權(quán)利要求ll所述的方法,其特征是抓取的方式可以采用分布式方式進行, 利用至少一臺服務(wù)器和至少一個客戶端分別執(zhí)行抓取過程的不同階段,服務(wù)器把入口 URL和URL對應(yīng)的結(jié)構(gòu)化規(guī)則,發(fā)送給多個客戶端,客戶端開啟抓取流程,當其中一 個客戶端抓取完畢的時發(fā)送已空閑命令,服務(wù)器又會把其他網(wǎng)站的抓取信息發(fā)送給客戶 端,當服務(wù)器未接受到空閑命令的時候,將一直等待。
13、 根據(jù)權(quán)利要求12所述的方法,其特征是所述數(shù)據(jù)清洗處理,包括驗證數(shù)據(jù)的 正確性以及去除重復(fù)的數(shù)據(jù)。
14、 根據(jù)權(quán)利要求13所述的方法,其特征是所述內(nèi)容預(yù)處理操作利用預(yù)設(shè)的至少 一個元數(shù)據(jù)信息判斷內(nèi)容是否相關(guān),并解析出相關(guān)內(nèi)容。
15、 根據(jù)權(quán)利要求14所述的方法,其特征是所述元數(shù)據(jù)信息是預(yù)先設(shè)定的與抓取 的內(nèi)容相關(guān)的信息。
16、 根據(jù)權(quán)利要求15所述的方法,其特征是所述對象相關(guān)搜索處理使用預(yù)設(shè)的關(guān) 鍵字與待處理內(nèi)容對比,根據(jù)關(guān)鍵字以及出現(xiàn)的頻次計算該內(nèi)容的相關(guān)度分值,并與預(yù) 設(shè)的門限值比較。
全文摘要
本發(fā)明公開了一種對象級知識挖掘系統(tǒng),包括數(shù)據(jù)采集模塊,用于采集數(shù)據(jù),包括一個WEB抓取器;數(shù)據(jù)清洗模塊,用于對結(jié)構(gòu)化數(shù)據(jù)進行處理,包括一個數(shù)據(jù)驗證模塊以及一個去重處理模塊;內(nèi)容預(yù)處理模塊,用于對非結(jié)構(gòu)化數(shù)據(jù)進行預(yù)處理,包括一個元數(shù)據(jù)管理模塊以及一個內(nèi)容解析器;對象相關(guān)搜索模塊,用于分析該內(nèi)容預(yù)處理模塊處理后的內(nèi)容的相關(guān)度,包括一個相關(guān)度分析器。以及一種對象級知識挖掘方法,包括從網(wǎng)頁采集信息;對于采集到的結(jié)構(gòu)化數(shù)據(jù),執(zhí)行數(shù)據(jù)清洗處理;對于采集到的非結(jié)構(gòu)化數(shù)據(jù),執(zhí)行內(nèi)容預(yù)處理操作;預(yù)處理后得到的內(nèi)容,再執(zhí)行對象相關(guān)搜索操作。
文檔編號G06F17/30GK101231661SQ20081003368
公開日2008年7月30日 申請日期2008年2月19日 優(yōu)先權(quán)日2008年2月19日
發(fā)明者張效海, 虞繼恩 申請人:上海估家網(wǎng)絡(luò)科技有限公司;張效海