專利名稱:通用型垂直搜索引擎的行業(yè)應用模型建模方法
技術領域:
本發(fā)明公開一種基于通用型垂直搜索引擎的行業(yè)應用模型建模方法。
二.
背景技術:
諸多文獻都將垂直搜索定義為面向某單一應用或某單一功能的搜索技術?,F(xiàn)實 中的垂直搜索產(chǎn)品和門戶網(wǎng)站正是按照此定義布局,或房產(chǎn)信息搜索門戶、或博客信息 搜索門戶、或音樂信息搜索門戶、或?qū)@畔⑺阉鏖T戶,凡此種種,莫不如是。產(chǎn)生如 此現(xiàn)象,皆因垂直搜索的互聯(lián)網(wǎng)信息明顯的行業(yè)應用特性、功能應用特性和結構特性使 然。亦即是說,由于垂直搜索所面對的互聯(lián)網(wǎng)信息具有明顯的行業(yè)應用特征、功能應用 特征和結構特征,這些千差萬別的信息特征導致垂直搜索門戶具有明顯的單一的行業(yè)性 或功能性。其實,垂直搜索引擎的核心模塊-數(shù)據(jù)爬行模塊spider本身可作為通用的技術, 并無嚴格的行業(yè)應用或功能應用的界限。一個好的數(shù)據(jù)爬行軟件原則上是可以針對任何 網(wǎng)頁、任何行業(yè)信息完成數(shù)據(jù)抓取任務的。由此看來,導致垂直搜索技術僅被應用于某 個單一的行業(yè)或功能門戶的現(xiàn)狀,其根源并不在于數(shù)據(jù)爬行軟件spider這一垂直搜索的核 心技術本身,而是來自于該核心技術以外的因素。因此,要像google、百度那樣構建一 個通用的垂直搜索平臺,數(shù)據(jù)爬行軟件spider這一垂直搜索的核心技術本身是具備此基礎 的。問題在于如何圍繞具備通用能力的數(shù)據(jù)爬行軟件構建起具有通用能力的外圍體系, 才是實現(xiàn)通用型垂直搜索引擎的關鍵。構建起與通用型數(shù)據(jù)爬行軟件spider相匹配,并 且具備通用能力的行業(yè)應用模型,就是該體系研究的重要課題之一。
三.
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種通用型垂直搜索引擎的行業(yè)應用模型建模方法,該 方法用于通用的垂直搜索體系中,描述不同行業(yè)應用或功能應用特征,以實現(xiàn)垂直搜索 按照其行業(yè)模型完成互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸應用,使之具備通用 型垂直搜索引擎的能力。本發(fā)明的技術方案是
本發(fā)明通用型垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider 1訪問行業(yè)應用模型2實現(xiàn)不同行業(yè)信息的識別、抓取、組織、存儲和傳輸應用,行業(yè)應 用模型2由Internet網(wǎng)頁庫21和網(wǎng)頁存儲分類索引管理組件211、網(wǎng)頁結構信息模型庫22 和網(wǎng)頁結構信息模型管理組件221、行業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組 件231、行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241、以及用戶系統(tǒng)接口模 型庫25和用戶系統(tǒng)接口模型管理組件251構成。其中Internet網(wǎng)頁庫21和網(wǎng)頁存儲分類索引管理組件211承擔Internet網(wǎng)頁庫21存 儲、分類和索引管理任務,其中網(wǎng)頁存儲分類索引管理組件211調(diào)用G00gleAPI212實現(xiàn) 行業(yè)應用網(wǎng)頁URL集合的搜索;
網(wǎng)頁結構信息模型庫22和網(wǎng)頁結構信息模型管理組件221承擔網(wǎng)頁結構的分 析、描述、頁面訪問控制、頁面轉換鏈接控制、以及頁面和行業(yè)應用關系的描述和管理 任務;行業(yè)信息結構模型庫23和行業(yè)信息結構模型管理組件231,承擔各種不同的行 業(yè)信息在各個網(wǎng)頁中不同的結構形態(tài)和網(wǎng)頁位置的描述、提取、生成和管理任務;行業(yè)信息存儲模型庫24和行業(yè)信息存儲模型管理組件241,承擔各種不同的行 業(yè)信息從各網(wǎng)頁抓取后在系統(tǒng)中的存儲形態(tài)和存儲結構的描述、存儲結構的動態(tài)生成和
管理任務;用戶系統(tǒng)接口模型庫25和用戶系統(tǒng)接口模型管理組件251,承擔與各用戶專用 系統(tǒng)之間的信息存儲形態(tài)及存儲結構的轉換關系、信息傳輸接口、以及軟件接口關系形 態(tài)、接口定義及調(diào)用的描述、生成和管理任務。所述網(wǎng)頁結構信息模型庫22至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、網(wǎng) 頁地址URL、網(wǎng)頁訪問入口參數(shù)(usemame、password、方法代碼等)、網(wǎng)頁鏈接方法、
網(wǎng)頁鏈接控制參數(shù)等信息。所述網(wǎng)頁結構信息模型管理組件221至少包含網(wǎng)頁結構信息模型庫22基本信 息生成和維護、網(wǎng)頁訪問入口參數(shù)(usemame、password、方法代碼等)庫信息生成和維 護、網(wǎng)頁鏈接方法及網(wǎng)頁鏈接控制參數(shù)庫信息生成和維護,網(wǎng)頁鏈接控制代碼片段的提 取/轉換/存儲和調(diào)用處理等功能處理模塊。所述行業(yè)信息結構模型庫23至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、網(wǎng) 頁地址URL、行業(yè)信息結構類型、行業(yè)信息結構起始標識、行業(yè)信息結構描述、行業(yè)信 息結構中元數(shù)據(jù)屬性描述、行業(yè)信息結構循環(huán)抓取標識、行業(yè)信息結構抓取結束標識、 行業(yè)信息結構存儲指示等信息。所述行業(yè)信息結構模型管理組件231至少包含行業(yè)信息結構模型庫23基本信息 生成和維護、行業(yè)信息結構模型庫23信息輔助分析和自動提取等功能處理模塊。所述行業(yè)信息存儲模型庫24至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、行 業(yè)信息存儲目標庫和基表指示、行業(yè)信息存儲結構類型、行業(yè)信息存儲映射描述、行業(yè) 信息存儲轉換加工處理指示、行業(yè)信息存儲關聯(lián)處理指示等信息。所述行業(yè)信息存儲模型管理組件241至少包含行業(yè)信息存儲模型庫24基本信息 生成和維護、行業(yè)信息存儲結構動態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換 加工等功能處理模塊。本發(fā)明的顯著效果是本發(fā)明從網(wǎng)頁索引、網(wǎng)頁結構、行業(yè)信息結構、行業(yè)信息存儲結構和用戶系統(tǒng) 接口等五個層面,建立起完整的與行業(yè)應用信息搜索相關的全方位描述和管理體系,解 決了一個模型中同時涵蓋不同行業(yè)應用、不同網(wǎng)頁、不同行業(yè)信息結構和存儲結構問 題,因此具備行業(yè)通用的能力。本發(fā)明將使得垂直搜索能夠完成不同行業(yè)和不同結構互 聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸應用,從而具備通用型垂直搜索引擎的多行 業(yè)應用能力。四.
圖1為本發(fā)明通用型垂直搜索引擎的行業(yè)應用模型建模方法示意圖。其中1 =垂直搜索核心組件Spider2 =行業(yè)應用模型21 = Internet 網(wǎng)頁庫211 =網(wǎng)頁存儲分類索引管理組件212 = GoogleAPI22=網(wǎng)頁結構信息模型庫221 =網(wǎng)頁結構信息模型管理組件23 =行業(yè)信息結構模型庫231 =行業(yè)信息結構模型管理組件24 =行業(yè)信息抓取模型庫241 =行業(yè)信息抓取模型管理組件25 =行業(yè)信息存儲模型庫251 =行業(yè)信息存儲模型管理組件26=用戶系統(tǒng)接口模型庫261 =用戶系統(tǒng)接口模型管理組件圖2為本發(fā)明行業(yè)應用模型中網(wǎng)頁結構信息模型庫的結構舉例。圖3為本發(fā)明行業(yè)應用模型中行業(yè)信息結構模型庫的結構舉例。圖4為本發(fā)明行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構舉例。
五.
具體實施例方式實施例1參見圖2。本實施例說明本發(fā)明通用型垂直搜索引擎的行業(yè)應用模型建模方法行 業(yè)應用模型中網(wǎng)頁結構信息模型庫的結構舉例。實施例2參見圖3。本實施例說明本發(fā)明通用型垂直搜索引擎的行業(yè)應用模型建模方法行 業(yè)應用模型中行業(yè)信息結構模型庫的結構舉例。實施例3參見圖4。本實施例說明本發(fā)明通用型垂直搜索引擎的行業(yè)應用模型建模方法行業(yè)應用模型中行業(yè)信息存儲結構模型庫的結構舉例。
權利要求
1.通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于垂直搜索核心模塊 Spider(I)訪問行業(yè)應用模型(2)實現(xiàn)不同行業(yè)信息的識別、抓取、組織、存儲和傳輸應 用,行業(yè)應用模型(2)由Internet網(wǎng)頁庫(21)和網(wǎng)頁存儲分類索引管理組件(211)、網(wǎng)頁 結構信息模型庫(22)和網(wǎng)頁結構信息模型管理組件(221)、行業(yè)信息結構模型庫(23)和 行業(yè)信息結構模型管理組件(231)、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理 組(241)、以及用戶系統(tǒng)接口模型庫(25)和用戶系統(tǒng)接口模型管理組件(251)構成;其 中Internet網(wǎng)頁庫(21)和網(wǎng)頁存儲分類索引管理組件(211)承擔Ihtemet網(wǎng)頁庫(21)存 儲、分類和索引管理任務,其中網(wǎng)頁存儲分類索引管理組件(211)調(diào)用Google API(212) 實現(xiàn)行業(yè)應用網(wǎng)頁URL集合的搜索;網(wǎng)頁結構信息模型庫(22)和網(wǎng)頁結構信息模型管理組件(221)承擔網(wǎng)頁結構的分 析、描述、頁面訪問控制、頁面轉換鏈接控制、以及頁面和行業(yè)應用關系的描述和管理 任務;行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231),承擔各種不同的行 業(yè)信息在各個網(wǎng)頁中不同的結構形態(tài)和網(wǎng)頁位置的描述、提取、生成和管理任務;行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241),承擔各種不同的行 業(yè)信息從各網(wǎng)頁抓取后在系統(tǒng)中的存儲形態(tài)和存儲結構的描述、存儲結構的動態(tài)生成和管理任務;用戶系統(tǒng)接口模型庫(25)和用戶系統(tǒng)接口模型管理組件(251),承擔與各用戶專用 系統(tǒng)之間的信息存儲形態(tài)及存儲結構的轉換關系、信息傳輸接口、以及軟件接口關系形 態(tài)、接口定義及調(diào)用的描述、生成和管理任務。
2.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于網(wǎng) 頁結構信息模型庫(22)至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、網(wǎng)頁地址URL、 網(wǎng)頁訪問入口參數(shù)(usemame、password、方法代碼等)、網(wǎng)頁鏈接方法、網(wǎng)頁鏈接控制 參數(shù)等信息。
3.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型,其特征在于網(wǎng)頁結構信 息模型管理組件(221)至少包含網(wǎng)頁結構信息模型庫(22)基本信息生成和維護、網(wǎng)頁訪 問入口參數(shù)(usemame、password、方法代碼等)庫信息生成和維護、網(wǎng)頁鏈接方法及網(wǎng) 頁鏈接控制參數(shù)庫信息生成和維護,網(wǎng)頁鏈接控制代碼片段的提取/轉換/存儲和調(diào)用處 理等功能處理模塊。
4.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于 所述行業(yè)信息結構模型庫(23)至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、網(wǎng)頁地址 URL,行業(yè)信息結構類型、行業(yè)信息結構起始標識、行業(yè)信息結構描述、行業(yè)信息結構 中元數(shù)據(jù)屬性描述、行業(yè)信息結構循環(huán)抓取標識、行業(yè)信息結構抓取結束標識、行業(yè)信 息結構存儲指示等信息。
5.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于所 述行業(yè)信息結構模型管理組件(231)至少包含行業(yè)信息結構模型庫(23)基本信息生成和 維護、行業(yè)信息結構模型庫(23)信息輔助分析和自動提取等功能處理模塊。
6.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于所述行業(yè)信息存儲模型庫(24)至少包含所在行業(yè)和應用、行業(yè)信息歸類描述、行業(yè)信息存 儲目標庫和基表指示、行業(yè)信息存儲結構類型、行業(yè)信息存儲映射描述、行業(yè)信息存儲 轉換加工處理指示、行業(yè)信息存儲關聯(lián)處理指示等信息。
7.根據(jù)權利要求1所述通用型垂直搜索引擎的行業(yè)應用模型建模方法,其特征在于所 述行業(yè)信息存儲模型管理組件(241)至少包含行業(yè)信息存儲模型庫(24)基本信息生成和 維護、行業(yè)信息存儲結構動態(tài)生成、行業(yè)信息存儲映射控制、行業(yè)信息存儲轉換加工等 功能處理模塊。
全文摘要
通用型垂直搜索引擎的行業(yè)應用模型建模方法,垂直搜索核心模塊Spider(1)訪問行業(yè)應用模型(2)實現(xiàn)不同行業(yè)信息的識別、抓取、組織、存儲和傳輸應用,行業(yè)應用模型(2)山Internet網(wǎng)頁庫(21)和網(wǎng)頁存儲分類索引管理組件(211)、網(wǎng)頁結構信息模型庫(22)和網(wǎng)頁結構信息模型管理組件(221)、行業(yè)信息結構模型庫(23)和行業(yè)信息結構模型管理組件(231)、行業(yè)信息存儲模型庫(24)和行業(yè)信息存儲模型管理組件(241)、以及用戶系統(tǒng)接口模型庫(25)和用戶系統(tǒng)接口模型管理組件(251)構成。本發(fā)明解決了一個模型中同時涵蓋不同行業(yè)應用、不同網(wǎng)頁、不同行業(yè)信息結構和存儲結構問題,使得垂直搜索能夠完成不同行業(yè)和不同結構互聯(lián)網(wǎng)信息的識別、抓取、組織、存儲和傳輸應用,從而具備通用型垂直搜索引擎的多行業(yè)應用能力。
文檔編號G06F17/30GK102012922SQ201010564470
公開日2011年4月13日 申請日期2010年11月30日 優(yōu)先權日2010年11月30日
發(fā)明者劉學明, 張康, 錢宇 申請人:無錫快度信息技術有限公司