專利名稱:通用型垂直搜索引擎的搜索規(guī)則模型建模方法
技術(shù)領(lǐng)域:
本發(fā)明公開一種基于通用型垂直搜索引擎的搜索規(guī)則模型建模方法。
二.
背景技術(shù):
諸多文獻(xiàn)都將垂直搜索定義為面向某單一應(yīng)用或某單一功能的搜索技術(shù)?,F(xiàn)實(shí) 中的垂直搜索產(chǎn)品和門戶網(wǎng)站正是按照此定義布局,或房產(chǎn)信息搜索門戶、或博客信息 搜索門戶、或音樂信息搜索門戶、或?qū)@畔⑺阉鏖T戶,凡此種種,莫不如是。產(chǎn)生如 此現(xiàn)象,皆因垂直搜索的互聯(lián)網(wǎng)信息明顯的行業(yè)應(yīng)用特性、功能應(yīng)用特性和結(jié)構(gòu)特性使 然。亦即是說,由于垂直搜索所面對(duì)的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應(yīng)用特征、功能應(yīng)用 特征和結(jié)構(gòu)特征,這些千差萬別的信息特征導(dǎo)致垂直搜索門戶具有明顯的單一的行業(yè)性 或功能性。其實(shí),垂直搜索引擎的核心模塊-數(shù)據(jù)爬行模塊spider本身可作為通用的技術(shù), 并無嚴(yán)格的行業(yè)應(yīng)用或功能應(yīng)用的界限。一個(gè)好的數(shù)據(jù)爬行軟件原則上是可以針對(duì)任何 網(wǎng)頁、任何行業(yè)信息完成數(shù)據(jù)抓取任務(wù)的。由此看來,導(dǎo)致垂直搜索技術(shù)僅被應(yīng)用于某 個(gè)單一的行業(yè)或功能門戶的現(xiàn)狀,其根源并不在于數(shù)據(jù)爬行軟件spider這一垂直搜索的核 心技術(shù)本身,而是來自于該核心技術(shù)以外的因素。因此,要像google、百度那樣構(gòu)建一 個(gè)通用的垂直搜索平臺(tái),數(shù)據(jù)爬行軟件spider這一垂直搜索的核心技術(shù)本身是具備此基礎(chǔ) 的。問題在于如何圍繞具備通用能力的數(shù)據(jù)爬行軟件構(gòu)建起具有通用能力的外圍體系, 才是實(shí)現(xiàn)通用型垂直搜索引擎的關(guān)鍵。構(gòu)建起與通用型數(shù)據(jù)爬行軟件spider相匹配,并 且具備通用能力的搜索規(guī)則模型,就是該體系研究的重要課題之一。
三.
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種通用型垂直搜索引擎的搜索規(guī)則模型建模方法,該 方法用于通用的垂直搜索體系中,描述數(shù)據(jù)爬行軟件spider在抓取網(wǎng)頁數(shù)據(jù)時(shí)所依據(jù)的各 種指示信息,使之具備通用型垂直搜索引擎所需要的各種網(wǎng)頁結(jié)構(gòu)和各種網(wǎng)頁數(shù)據(jù)的抓 取能力。本發(fā)明的技術(shù)方案是本發(fā)明通用型垂直搜索引擎的搜索規(guī)則模型建模方法,垂直搜索核心模塊Spider 1訪問搜索規(guī)則控制模型2實(shí)現(xiàn)不同結(jié)構(gòu)網(wǎng)頁中不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)的抓取控制,搜索規(guī) 則控制模型2由網(wǎng)頁鏈接庫21、搜索規(guī)則庫22、搜索規(guī)則控制模型庫23和網(wǎng)頁數(shù)據(jù)存儲(chǔ) 結(jié)構(gòu)對(duì)照表24構(gòu)成。其中網(wǎng)頁鏈接庫21存儲(chǔ)有系統(tǒng)所有被搜索的網(wǎng)頁對(duì)象的URL描述信息,該URL描 述信息告知垂直搜索核心模塊Spider 1需要打開的網(wǎng)頁,以及該網(wǎng)頁所對(duì)應(yīng)的行業(yè)分類、 應(yīng)用分類和數(shù)據(jù)分類信息;搜索規(guī)則庫 22存儲(chǔ)有網(wǎng)頁搜索控制所需的動(dòng)作規(guī)范指示信息,垂直搜索核心模 塊Spiderl依據(jù)其實(shí)現(xiàn)網(wǎng)頁打開控制、系統(tǒng)登錄控制、初始位置定位控制、識(shí)別抓取對(duì)象所需的特征描述、網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)分解處理、抓取數(shù)據(jù)的轉(zhuǎn)換/存儲(chǔ)處理、抓取結(jié)構(gòu)數(shù) 據(jù)的數(shù)量控制、網(wǎng)頁翻頁控制等動(dòng)作;搜索規(guī)則控制模型庫23存儲(chǔ)有與搜索規(guī)則庫22配套的輔助參數(shù)信息,包括系統(tǒng) 登錄所需的用戶名和密碼信息、網(wǎng)頁驗(yàn)證碼解讀方法和解析程序代碼、網(wǎng)頁搜索相關(guān)的 控件的模擬驅(qū)動(dòng)方法和驅(qū)動(dòng)程序代碼、網(wǎng)頁翻頁控件的模擬驅(qū)動(dòng)方法和專用的模擬驅(qū)動(dòng) 程序代碼等;網(wǎng)頁數(shù)據(jù)-存儲(chǔ)結(jié)構(gòu)對(duì)照表24存儲(chǔ)有垂直搜索核心模塊Spi der 1在抓取網(wǎng)頁數(shù) 據(jù)后的存儲(chǔ)動(dòng)作描述信息。本發(fā)明的顯著效果是本發(fā)明搜索規(guī)則模型建模方法解決了一個(gè)模型中同時(shí)涵蓋不同結(jié)構(gòu)的網(wǎng)頁、不 同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)搜索規(guī)則描述問題。本發(fā)明使垂直搜索引擎能夠順利完成不同網(wǎng)頁的 訪問控制和不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抓取動(dòng)作,從而實(shí)現(xiàn)垂直搜索引擎的多行業(yè)應(yīng)用的通用 性目的。
四.
圖1為本發(fā)明通用型垂直搜索引擎的搜索規(guī)則模型建模方法示意圖。其中1 =垂直搜索核心組件Spider2=搜索規(guī)則控制模型21=網(wǎng)頁鏈接庫22=搜索規(guī)則庫23 =搜索規(guī)則控制模型庫24 =網(wǎng)頁數(shù)據(jù)_存儲(chǔ)結(jié)構(gòu)對(duì)照表圖2為本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型的網(wǎng)頁鏈接庫的結(jié) 構(gòu)舉例。圖3為本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型的搜索規(guī)則庫的結(jié) 構(gòu)舉例。圖4為本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型的搜索規(guī)則控制模 型庫的結(jié)構(gòu)舉例。圖5為本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型的網(wǎng)頁數(shù)據(jù)-存儲(chǔ)結(jié) 構(gòu)對(duì)照表的結(jié)構(gòu)舉例。
五.
具體實(shí)施例方式實(shí)施例1參見圖2。本實(shí)施例說明本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型中 網(wǎng)頁鏈接庫的結(jié)構(gòu)21舉例。實(shí)施例2參見圖3。本實(shí)施例說明本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型中 搜索規(guī)則庫22的結(jié)構(gòu)舉例。實(shí)施例3
參見圖4。本實(shí)施例說明本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型中 搜索規(guī)則控制模型庫23的結(jié)構(gòu)舉例。實(shí)施例4參見圖5。本實(shí)施例說明本發(fā)明通用型垂直搜索引擎建模方法的搜索規(guī)則模型中 網(wǎng)頁數(shù)據(jù)_存儲(chǔ)結(jié)構(gòu)對(duì)照表24的結(jié)構(gòu)舉例。
權(quán)利要求
1.通用型垂直搜索引擎的搜索規(guī)則模型建模方法,垂直搜索核心模塊Spider(I)訪問 搜索規(guī)則控制模型(2)實(shí)現(xiàn)不同結(jié)構(gòu)網(wǎng)頁中不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)的抓取控制,搜索規(guī)則 控制模型(2)由網(wǎng)頁鏈接庫(21)、搜索規(guī)則庫(22)、搜索規(guī)則控制模型庫(23)和網(wǎng)頁數(shù) 據(jù)_存儲(chǔ)結(jié)構(gòu)對(duì)照表(24)構(gòu)成。其中網(wǎng)頁鏈接庫(21)存儲(chǔ)有系統(tǒng)所有被搜索的網(wǎng)頁對(duì)象的URL描述信息,該URL描述 信息告知垂直搜索核心模塊Spider(I)需要打開的網(wǎng)頁,以及該網(wǎng)頁所對(duì)應(yīng)的行業(yè)分類、 應(yīng)用分類和數(shù)據(jù)分類信息;搜索規(guī)則庫(22)存儲(chǔ)有網(wǎng)頁搜索控制所需的動(dòng)作規(guī)范指示信息,垂直搜索核心模塊 Spider(I)依據(jù)其實(shí)現(xiàn)網(wǎng)頁打開控制、系統(tǒng)登錄控制、初始位置定位控制、識(shí)別抓取對(duì)象 所需的特征描述、網(wǎng)頁數(shù)據(jù)的結(jié)構(gòu)分解處理、抓取數(shù)據(jù)的轉(zhuǎn)換/存儲(chǔ)處理、抓取結(jié)構(gòu)數(shù) 據(jù)的數(shù)量控制、網(wǎng)頁翻頁控制等動(dòng)作;搜索規(guī)則控制模型庫(23)存儲(chǔ)有與搜索規(guī)則庫(22)配套的輔助參數(shù)信息,包括系統(tǒng) 登錄所需的用戶名和密碼信息、網(wǎng)頁驗(yàn)證碼解讀方法和解析程序代碼、網(wǎng)頁搜索相關(guān)的 控件的模擬驅(qū)動(dòng)方法和驅(qū)動(dòng)程序代碼、網(wǎng)頁翻頁控件的模擬驅(qū)動(dòng)方法和專用的模擬驅(qū)動(dòng) 程序代碼等;網(wǎng)頁數(shù)據(jù)-存儲(chǔ)結(jié)構(gòu)對(duì)照表(24)存儲(chǔ)有垂直搜索核心模塊Spider(I)在抓取網(wǎng)頁數(shù)據(jù) 后的存儲(chǔ)動(dòng)作描述信息。
全文摘要
通用型垂直搜索引擎的搜索規(guī)則模型建模方法,垂直搜索核心模塊Spider(1)訪問搜索規(guī)則控制模型(2)實(shí)現(xiàn)不同結(jié)構(gòu)網(wǎng)頁中不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)的抓取控制,搜索規(guī)則控制模型(2)由網(wǎng)頁鏈接庫(21)、搜索規(guī)則庫(22)、搜索規(guī)則控制模型庫(23)和網(wǎng)頁數(shù)據(jù)-存儲(chǔ)結(jié)構(gòu)對(duì)照表(24)構(gòu)成。本發(fā)明搜索規(guī)則模型建模方法解決了一個(gè)模型中同時(shí)涵蓋不同結(jié)構(gòu)的網(wǎng)頁、不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)搜索規(guī)則描述問題。本發(fā)明使垂直搜索引擎能夠順利完成不同網(wǎng)頁的訪問控制和不同結(jié)構(gòu)的網(wǎng)頁數(shù)據(jù)抓取動(dòng)作,從而實(shí)現(xiàn)垂直搜索引擎的多行業(yè)應(yīng)用的通用性目的。
文檔編號(hào)G06F17/30GK102012923SQ20101056448
公開日2011年4月13日 申請日期2010年11月30日 優(yōu)先權(quán)日2010年11月30日
發(fā)明者劉學(xué)明, 張康, 錢宇 申請人:無錫快度信息技術(shù)有限公司