專利名稱:一種互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)技術(shù),特別是涉及一種互聯(lián)網(wǎng)上搜索技術(shù)。
背景技術(shù):
對于將散布于互聯(lián)網(wǎng)上各個(gè)獨(dú)立網(wǎng)站上的產(chǎn)品與相關(guān)數(shù)據(jù)搜集起來,并提供統(tǒng)一的檢索服務(wù)的互聯(lián)網(wǎng)產(chǎn)品搜索服務(wù)而言,一個(gè)很重要的問題是將來自于多個(gè)獨(dú)立數(shù)據(jù)源的數(shù)據(jù)以統(tǒng)一的方式進(jìn)行描述,并整合。業(yè)務(wù)中涉及到的數(shù)據(jù)雖然散布于各個(gè)獨(dú)立的網(wǎng)站,但是在內(nèi)容上都是關(guān)于產(chǎn)品的數(shù)據(jù),這就需要將數(shù)據(jù)描述提升到知識的層次,以統(tǒng)一的知識表述的方式描述各個(gè)不同來源的數(shù)據(jù),使數(shù)據(jù)的管理與維護(hù)方便、高效。提升到知識層面的產(chǎn)品數(shù)據(jù)還可以給網(wǎng)上產(chǎn)品數(shù)據(jù)的抽取提供指導(dǎo)性信息,提高數(shù)據(jù)獲取的自動化程度,另外也可以為更精確的檢索與更個(gè)性化的檢索提供基礎(chǔ)。
從學(xué)術(shù)研究的角度,這在本質(zhì)層面上是知識表述問題。知識表述(KnowledgeRepresentation)是人工智能研究中傳統(tǒng)的領(lǐng)域,誕生了語義網(wǎng)(Semantic Network)等經(jīng)典的知識表示方法。隨著互聯(lián)網(wǎng)的興起與普及,以及關(guān)于語義互聯(lián)網(wǎng)(Semantic Web)的需求的日益高漲,知識表示重新獲得了關(guān)注,并且使得更為嚴(yán)密的領(lǐng)域知識表示機(jī)制本體論(Ontology)的研究與應(yīng)用變得極為活躍。W3C研制的Web本體語言O(shè)WL(Web Ontology Language)也獲得了廣泛的重視與活躍的應(yīng)用。
另一方面,隨著國際貿(mào)易的增加與跨國界的互聯(lián)網(wǎng)商務(wù)活動的加強(qiáng),經(jīng)濟(jì)活動中的主要對象——各種產(chǎn)品數(shù)據(jù)的統(tǒng)一表示的問題也變得越來越重要,吸引了很多學(xué)術(shù)界與商業(yè)組織的注意,從而催生了不少定位于國際通用標(biāo)準(zhǔn)的產(chǎn)品數(shù)據(jù)的分類體系,如聯(lián)合國產(chǎn)品與服務(wù)標(biāo)準(zhǔn)代碼(United Nation Standard Product and Service Code,UNSPSC),在歐洲廣泛應(yīng)用的eC1@ss等。但是目前已有的這些分類方案存在這樣幾個(gè)方面的問題。第一,對產(chǎn)品的描述還不充分,未達(dá)到知識層面的描述。UNSPSC只有產(chǎn)品的分層分類體系。eC1@ss有產(chǎn)品的分層分類,以及具體產(chǎn)品種類的屬性描述。不同的分類體系的分類標(biāo)準(zhǔn)與出發(fā)點(diǎn)是不同的,但是這些分類體系還沒有包括對分類標(biāo)準(zhǔn)的規(guī)范化形式化的描述,并且也沒有包含對各種產(chǎn)品功能的規(guī)范化描述與部件配件等產(chǎn)品之間的關(guān)系的描述,難以為計(jì)算機(jī)程序深度識認(rèn)與處理。第二,這些現(xiàn)有的分類系統(tǒng)還只是面向傳統(tǒng)貿(mào)易業(yè)務(wù),不能對以文本形式存在的網(wǎng)上的產(chǎn)品數(shù)據(jù)的識別與獲取提供充分的支持,因此不能充分適應(yīng)基于互聯(lián)網(wǎng)的產(chǎn)品搜索業(yè)務(wù)的需要。
另外,目前互聯(lián)網(wǎng)上搜索引擎技術(shù)方案都是一種通用的垂直搜索引擎技術(shù)方案,其獲取數(shù)據(jù)的來源主要依靠注冊用戶輸入信息去獲得產(chǎn)品信息,其技術(shù)方案的實(shí)現(xiàn)依賴于用戶的主動性輸入,通用性和搜索精確度比較差。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索系統(tǒng); 本發(fā)明的另一個(gè)目的在于提供一種智能化的互聯(lián)網(wǎng)搜索系統(tǒng); 本發(fā)明的另一個(gè)目的在于提供一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索方法; 本發(fā)明的再一個(gè)目的在于提供一種智能化的互聯(lián)網(wǎng)搜索方法。
為達(dá)到上述目的,本發(fā)明提供的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)包括用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁的下載器,用于對原始網(wǎng)頁數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,用于對從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,用于存儲由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,所述搜索系統(tǒng)還包括知識庫服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其中所述產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)構(gòu)成包括邏輯層數(shù)據(jù)、表示層數(shù)據(jù)和存儲層數(shù)據(jù)。
本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其中所述產(chǎn)品知識庫服務(wù)器的邏輯層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品分類詞數(shù)據(jù)和產(chǎn)品屬性詞數(shù)據(jù),所述產(chǎn)品表示層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品屬性詞數(shù)據(jù)以及相應(yīng)同義詞數(shù)據(jù)、產(chǎn)品分類數(shù)據(jù)、產(chǎn)品功能描述數(shù)據(jù)和產(chǎn)品性能描述數(shù)據(jù)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其中所述數(shù)據(jù)提取器是依據(jù)所述產(chǎn)品知識庫服務(wù)器中的產(chǎn)品表示層數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,所述數(shù)據(jù)加工器是依據(jù)所述產(chǎn)品知識庫服務(wù)器中的產(chǎn)品邏輯層數(shù)據(jù)進(jìn)行數(shù)據(jù)加工,所述搜索引擎是將檢索界面讀入的用戶原始檢索數(shù)據(jù)結(jié)合產(chǎn)品知識庫服務(wù)器中的邏輯層數(shù)據(jù)再從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索產(chǎn)品網(wǎng)頁數(shù)據(jù)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其中所述產(chǎn)品知識庫服務(wù)器根據(jù)產(chǎn)品數(shù)據(jù)庫服務(wù)器以及數(shù)據(jù)加工器所提供的產(chǎn)品數(shù)據(jù)進(jìn)行自動更新,其更新步驟為 a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫服務(wù)器中數(shù)據(jù), b.檢索更新維護(hù)備用數(shù)據(jù), c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合, d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識庫服務(wù)器, e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識庫服務(wù)器,將無效錯(cuò)誤的數(shù)據(jù)集合丟棄。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其中所述數(shù)據(jù)提取器執(zhí)行如下步驟 a.將原始網(wǎng)頁數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁數(shù)據(jù), b.獲取文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, c.讀取產(chǎn)品知識庫服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致, e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁作為產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁數(shù)據(jù), f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁被處理完畢, 所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù)包括如下步驟 g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù), h.對每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值, i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)連同分類標(biāo)記寫入產(chǎn)品數(shù)據(jù)庫服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁保存為產(chǎn)品知識庫服務(wù)器自動更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁數(shù)據(jù)處理完畢, 本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述搜索引擎執(zhí)行如下步驟 a.獲得用戶原始檢索數(shù)據(jù), b.依據(jù)產(chǎn)品知識庫服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù), c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù), d.生成結(jié)果頁面。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法通過含由下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識庫服務(wù)器,檢索引擎組成的搜索系統(tǒng),執(zhí)行產(chǎn)品數(shù)據(jù)的搜索,其特征在于該方法的步驟包括對于因特網(wǎng)上的產(chǎn)品原始網(wǎng)頁信息,通過下載器獲取其產(chǎn)品網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)通過數(shù)據(jù)提取器判定并提取產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù),通過產(chǎn)品數(shù)據(jù)服務(wù)器存儲產(chǎn)品網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁數(shù)據(jù)檢索,所述依據(jù)產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)通過數(shù)據(jù)提取器判定包括如下步驟 a.將原始網(wǎng)頁數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁數(shù)據(jù), b.獲取文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, c.讀取產(chǎn)品知識庫服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞, d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致, e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁作為產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁數(shù)據(jù), f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁被處理完畢, 所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù)包括如下步驟 g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù), h.對每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值, i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)連同分類標(biāo)記寫入產(chǎn)品數(shù)據(jù)庫服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁保存為產(chǎn)品知識庫服務(wù)器自動更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁數(shù)據(jù)處理完畢。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法,其中所述互聯(lián)網(wǎng)上基于知識庫的搜索方法還包括一個(gè)如下的自動更新知識庫服務(wù)器的步驟 a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫服務(wù)器中數(shù)據(jù), b.檢索更新維護(hù)備用數(shù)據(jù), c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合, d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識庫服務(wù)器, e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識庫服務(wù)器,將無效錯(cuò)誤的數(shù)據(jù)集合丟棄。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法,其中所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁數(shù)據(jù)檢索的步驟包括 a.獲得用戶原始檢索數(shù)據(jù), b.依據(jù)產(chǎn)品知識庫服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù), c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù), d.生成結(jié)果頁面。
本發(fā)明提供的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)的優(yōu)點(diǎn)是產(chǎn)品網(wǎng)頁的搜索更加精確,更加規(guī)范和高效。
本發(fā)明提供的互聯(lián)網(wǎng)上基于知識庫的搜索方法的優(yōu)點(diǎn)是面向互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù),系統(tǒng)、全面、規(guī)范化描述關(guān)于產(chǎn)品的各個(gè)方面的數(shù)據(jù),并且以這樣的數(shù)據(jù)為核心,構(gòu)建涉及到互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù)各個(gè)方面的系統(tǒng)體系結(jié)構(gòu)方案,使得互聯(lián)網(wǎng)搜索方法更加精確,通用性更強(qiáng)。
下面將結(jié)合實(shí)施例參照附圖進(jìn)行詳細(xì)說明,以對本發(fā)明的目的、特征和優(yōu)點(diǎn)有深入的理解。
圖1為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的系統(tǒng)工作原理示意圖; 圖2為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的產(chǎn)品知識庫服務(wù)器邏輯構(gòu)成示意圖; 圖3為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的具體知識庫服務(wù)器的數(shù)據(jù)分類標(biāo)準(zhǔn)示例; 圖4為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的具體知識庫服務(wù)器的數(shù)據(jù)分類進(jìn)一步示意圖; 圖5為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的原始網(wǎng)頁示意圖; 圖6為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的產(chǎn)品實(shí)例和功能映射方法圖; 圖7為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的搜索引擎檢索方法流程圖; 圖8為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的產(chǎn)品知識庫服務(wù)器自動更新方法流程圖; 圖9為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的數(shù)據(jù)提取器工作方法及數(shù)據(jù)加工器加工方法流程圖; 圖10為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的數(shù)據(jù)加工器更具體的工作方法流程圖。
具體實(shí)施例方式 下面以實(shí)施例對技術(shù)方案做詳細(xì)說明。
參照圖1,本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法的系統(tǒng)構(gòu)成為,從互聯(lián)網(wǎng)抓取數(shù)據(jù)的下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識庫服務(wù)器,提供檢索結(jié)果給檢索界面的檢索引擎。系統(tǒng)包括數(shù)據(jù)的獲取、表示與存儲、檢索,以及維護(hù)更新。數(shù)據(jù)交互以細(xì)箭頭表示,數(shù)據(jù)流程以粗箭頭表示。
大的數(shù)據(jù)流動包含兩個(gè)線路一是產(chǎn)品數(shù)據(jù)的流動,二是知識庫服務(wù)器中的數(shù)據(jù)與系統(tǒng)其他部分的交互與循環(huán)更新。第一個(gè)流動線路是以文本形式散布于互聯(lián)網(wǎng)上各個(gè)獨(dú)立網(wǎng)站的產(chǎn)品數(shù)據(jù)經(jīng)數(shù)據(jù)獲取、表示存儲、以及檢索最終以規(guī)整、便于瀏覽與理解的形式展現(xiàn)于用戶。在第二個(gè)數(shù)據(jù)流動中,知識庫服務(wù)器中的數(shù)據(jù)以各種形式流向各個(gè)不同的系統(tǒng)部分,起到系統(tǒng)支撐作用,并且通過對知識庫服務(wù)器維護(hù)更新達(dá)到系統(tǒng)內(nèi)信息循環(huán)。
參照圖2,本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法的產(chǎn)品知識庫服務(wù)器,構(gòu)成上分為三個(gè)層次,第一層是邏輯層次,第二層是表現(xiàn)層次,第三層是存儲層次。第一層包含關(guān)于產(chǎn)品知識數(shù)據(jù)的形式化表示,第二層包含關(guān)于產(chǎn)品的各個(gè)層面的知識數(shù)據(jù)在網(wǎng)上的區(qū)別性語言特征方面的知識,第三層是第一、第二層數(shù)據(jù)內(nèi)容的物理存儲層面。
產(chǎn)品知識庫服務(wù)器邏輯層次采用形式化方法以清晰無疑義地盡可能全面、準(zhǔn)確地描述關(guān)于產(chǎn)品的各方面的知識數(shù)據(jù)。產(chǎn)品描述的范圍包括以下幾個(gè)方面產(chǎn)品的生產(chǎn),產(chǎn)品的功能與使用,產(chǎn)品的流通。產(chǎn)品的生產(chǎn)包括生產(chǎn)者,生產(chǎn)日期,國家地區(qū),品牌,產(chǎn)品代號等基本信息,以及產(chǎn)品的產(chǎn)業(yè)領(lǐng)域(工業(yè)、農(nóng)業(yè)等)等信息。產(chǎn)品的功能與使用信息包括產(chǎn)品功能的形式化描述,產(chǎn)品規(guī)格屬性描述,產(chǎn)品使用的領(lǐng)域描述。產(chǎn)品功能的形式化描述由一定的動詞集合中抽象形成的謂詞邏輯系統(tǒng)進(jìn)行描述,這一部分描述包含產(chǎn)品之間的部件、配件、附件等關(guān)系。產(chǎn)品的規(guī)格屬性由聯(lián)系到具體產(chǎn)品類別的屬性集合與其上的屬性取值,以及計(jì)量單位系統(tǒng)進(jìn)行描述。產(chǎn)品的使用領(lǐng)域與生產(chǎn)產(chǎn)業(yè)領(lǐng)域相聯(lián)系又有區(qū)別,如從使用領(lǐng)域的角度,可以一些針織紡織品可以描述為床上用品。生產(chǎn)領(lǐng)域與使用領(lǐng)域的區(qū)分可以提供關(guān)于整體產(chǎn)品數(shù)據(jù)的多種不同的邏輯視圖與瀏覽角度,可以滿足不同的檢索需求。產(chǎn)品的流通信息包括交易、付款、包裝、儲運(yùn)等方面的信息; 產(chǎn)品知識庫服務(wù)器邏輯層次產(chǎn)品描述的方法目前UNSPSC、eC1@ss等標(biāo)準(zhǔn)與阿里巴巴、環(huán)球資源等大部分B2B商業(yè)網(wǎng)站描述產(chǎn)品的方法都基于分層的分類體系。不同的分類體系分類標(biāo)準(zhǔn)與出發(fā)點(diǎn)都互不相同。UNSPSC是基于生產(chǎn)產(chǎn)業(yè)領(lǐng)域的覆蓋面較廣的分類體系,而eC1@ss分類標(biāo)準(zhǔn)以采購為出發(fā)點(diǎn)將各種產(chǎn)品分類。分類體系可以為產(chǎn)品數(shù)據(jù)的整理與管理,以及屬性的歸納等工作提供基礎(chǔ)的框架,因此是十分有用的。但是現(xiàn)有的分類體系的分類標(biāo)準(zhǔn)與視角互不相同,而且也缺乏對各自分類標(biāo)準(zhǔn)與內(nèi)在邏輯的規(guī)范化描述,這一點(diǎn)對大部分工作需要機(jī)器來處理的互聯(lián)網(wǎng)產(chǎn)品搜索業(yè)務(wù)來講是比較不利的。針對這種問題,產(chǎn)品描述的方法采用基于本體的形式化描述方法,以分層分類的概念化與概念屬性機(jī)制為手段,以某一方面的產(chǎn)品知識為基準(zhǔn)建立基礎(chǔ)分類并規(guī)范化描述分類標(biāo)準(zhǔn)與內(nèi)在邏輯,在此基礎(chǔ)上,再將其他方面的產(chǎn)品知識以同樣手段加以整合,最終建立比較全面的規(guī)范化的產(chǎn)品知識數(shù)據(jù)描述。
產(chǎn)品知識庫服務(wù)器表現(xiàn)層次上互聯(lián)網(wǎng)產(chǎn)品搜索與傳統(tǒng)貿(mào)易的一個(gè)顯著不同點(diǎn)是需要識認(rèn)、收集、整理散布于互聯(lián)網(wǎng)上的產(chǎn)品數(shù)據(jù),而互聯(lián)網(wǎng)上的產(chǎn)品數(shù)據(jù)絕大部分以文本的形式存在,關(guān)于產(chǎn)品的真正有價(jià)值的規(guī)范化信息隱藏于各種文本形式的數(shù)據(jù)背后,這就需要透過表層的文本數(shù)據(jù)獲取相應(yīng)的規(guī)范化數(shù)據(jù)。表現(xiàn)層的知識數(shù)據(jù)包含的是關(guān)于產(chǎn)品的抽象知識數(shù)據(jù)與其文本表現(xiàn)的對應(yīng)、映射關(guān)系。這樣的知識可以幫助計(jì)算機(jī)系統(tǒng)從文本數(shù)據(jù)中識別、獲取相應(yīng)的產(chǎn)品數(shù)據(jù)。表現(xiàn)層的知識有產(chǎn)品詞、屬性詞以及相應(yīng)同義詞,關(guān)于產(chǎn)品分類的區(qū)別性詞匯分布數(shù)據(jù),輔之以關(guān)于功能描述、性能描述的常見詞匯以及特征性語言結(jié)構(gòu)為主要內(nèi)容。
產(chǎn)品知識庫服務(wù)器存儲層上主要實(shí)現(xiàn)上述兩個(gè)層面知識數(shù)據(jù)的底層物理存儲、維護(hù)、管理。
參照圖1和圖2,本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法的系統(tǒng)工作過程為數(shù)據(jù)下載器調(diào)度網(wǎng)絡(luò)爬蟲,負(fù)責(zé)從互聯(lián)網(wǎng)上下載網(wǎng)頁和其他相關(guān)數(shù)據(jù),數(shù)據(jù)提取器接收從產(chǎn)品知識庫服務(wù)器中的表示層生成的關(guān)于產(chǎn)品的文本特征數(shù)據(jù)從網(wǎng)頁中提取產(chǎn)品數(shù)據(jù),數(shù)據(jù)加工器根據(jù)提取結(jié)果,依據(jù)產(chǎn)品知識庫服務(wù)器中的分類知識數(shù)據(jù)對提取結(jié)果進(jìn)行加工,進(jìn)行數(shù)據(jù)質(zhì)量評價(jià)、排除重復(fù)數(shù)據(jù)項(xiàng)、分類整理等操作,并將結(jié)果數(shù)據(jù)提交產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品數(shù)據(jù)服務(wù)器存儲經(jīng)數(shù)據(jù)獲取過程獲得的規(guī)范化產(chǎn)品數(shù)據(jù)。檢索引擎從檢索界面接受原始檢索,并依據(jù)從產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)信息并根據(jù)從知識庫接受的檢索擴(kuò)展邏輯從產(chǎn)品數(shù)據(jù)服務(wù)器中生成檢索結(jié)果返回檢索界面展現(xiàn)。
本發(fā)明的互聯(lián)網(wǎng)上基于知識庫的搜索方法的系統(tǒng)中的維護(hù)更新方法為產(chǎn)品數(shù)據(jù)服務(wù)器與產(chǎn)品知識庫服務(wù)器數(shù)據(jù)一致性保持是依據(jù)產(chǎn)品數(shù)據(jù)服務(wù)器中新增的項(xiàng)目,主動要求產(chǎn)品知識服務(wù)器進(jìn)行更新。知識庫服務(wù)器更新的數(shù)據(jù)有兩個(gè)部分,一是數(shù)據(jù)加工器的反饋數(shù)據(jù),這部分?jǐn)?shù)據(jù)包括現(xiàn)有知識庫服務(wù)器不能覆蓋或者一致性較差的數(shù)據(jù)集合以及相應(yīng)統(tǒng)計(jì)數(shù)據(jù),二是從產(chǎn)品數(shù)據(jù)服務(wù)器中生成的知識庫服務(wù)器中活躍部分的統(tǒng)計(jì)數(shù)據(jù)。知識庫維護(hù)更新根據(jù)這些數(shù)據(jù)對知識庫進(jìn)行調(diào)整和更新。
下面以更具體的實(shí)施例來描述本發(fā)明的方法和系統(tǒng) 表1為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的相關(guān)網(wǎng)頁數(shù)據(jù)示意表; 表2為本發(fā)明互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng)和方法的產(chǎn)品數(shù)據(jù)服務(wù)器的數(shù)據(jù)存儲格式示例表; 參照圖3,產(chǎn)品知識庫服務(wù)器邏輯層中的基礎(chǔ)數(shù)據(jù)是產(chǎn)品基礎(chǔ)分類體系。這個(gè)分類是盡可能詳細(xì)、全面的產(chǎn)品分類。如“辦公用品及相關(guān)產(chǎn)品”細(xì)分為“辦公設(shè)備”,“辦公設(shè)備附件”,“辦公設(shè)備”又可進(jìn)一步分類為“紙張文件處理設(shè)備”,“桌面用具設(shè)備”,“紙張文件處理設(shè)備”又可進(jìn)一步細(xì)分為“打印機(jī)”,“復(fù)印機(jī)”,“打字機(jī)”。
參照圖3和圖4,邏輯層中的其他知識有產(chǎn)品屬性描述、功能分類體系、部件配件關(guān)系等。產(chǎn)品屬性列舉某一種具體產(chǎn)品類別共同具有的屬性。如打印機(jī)的屬性有打印速度、打印分辨率等。功能分類有產(chǎn)品基礎(chǔ)分類歸納而來,著重抽象單一的功能,而不是具體的產(chǎn)品類別,目的是更好的描述具有復(fù)合功能的產(chǎn)品。如不少辦公用打印機(jī)具有打印、復(fù)印、傳真等多項(xiàng)功能。部件配件關(guān)系描述的是產(chǎn)品之間部件、配件、周邊產(chǎn)品等的關(guān)系,例如打印機(jī)產(chǎn)品的部件、配件、周邊產(chǎn)品描述為墨盒、色帶、硒鼓等等。
產(chǎn)品知識庫服務(wù)器的表示層表現(xiàn)層的知識有產(chǎn)品詞、屬性詞以及相應(yīng)同義詞,關(guān)于產(chǎn)品分類的區(qū)別性詞匯分布數(shù)據(jù),輔之以關(guān)于功能描述、性能描述的常見詞匯以及特征性語言結(jié)構(gòu)為主要內(nèi)容。知識庫中表示層的數(shù)據(jù)有與邏輯層中基礎(chǔ)產(chǎn)品分類體系對應(yīng)的產(chǎn)品詞、產(chǎn)品的屬性詞、屬性詞的同義詞、屬性取值的文本字符串等。
參照圖4、圖5、表1、圖6、圖9,例如數(shù)據(jù)提取器定位到如圖4的打印機(jī)產(chǎn)品頁面數(shù)據(jù),數(shù)據(jù)提取器調(diào)取知識庫服務(wù)器中表現(xiàn)層關(guān)于打印機(jī)的描述數(shù)據(jù),依據(jù)獲得的相關(guān)數(shù)據(jù)過濾出如關(guān)于color,speed,cartridge,resolution…等特征性的專業(yè)詞匯數(shù)據(jù)。數(shù)據(jù)提取器還對產(chǎn)品頁面做處理,去除網(wǎng)頁標(biāo)簽,保留關(guān)于產(chǎn)品的有效文本數(shù)據(jù),轉(zhuǎn)化為一定格式作為相關(guān)網(wǎng)頁數(shù)據(jù)以供后續(xù)處理。
參照圖4、圖5、表1、圖6、圖9,圖10數(shù)據(jù)加工器對數(shù)據(jù)提取器的輸出進(jìn)行進(jìn)一步處理。主要任務(wù)是分類、建立屬性映射、建立功能映射、部件關(guān)系映射等。分類指的是按照產(chǎn)品知識庫服務(wù)器中邏輯層基礎(chǔ)產(chǎn)品分類標(biāo)準(zhǔn)以及類別的屬性、屬性取值以及功能等對數(shù)據(jù)提取模塊的輸出的產(chǎn)品實(shí)例判斷對應(yīng)的產(chǎn)品類別。每個(gè)類別有其對應(yīng)的產(chǎn)品屬性與功能。屬性映射指的是判斷產(chǎn)品實(shí)例具有的屬性,并判斷其取值,功能映射指的是判斷該產(chǎn)品實(shí)例具有的功能。數(shù)據(jù)加工器的輸出數(shù)據(jù)進(jìn)入如表2所描述的產(chǎn)品數(shù)據(jù)服務(wù)器中存儲。產(chǎn)品數(shù)據(jù)服務(wù)器中存放經(jīng)過數(shù)據(jù)加工模塊處理過的產(chǎn)品數(shù)據(jù)及其他相關(guān)數(shù)據(jù)。這個(gè)服務(wù)器是數(shù)據(jù)存儲服務(wù)器,除了可以使用傳統(tǒng)關(guān)系型數(shù)據(jù)庫之外,還有XML等其他數(shù)據(jù)結(jié)構(gòu)。主要存放的是產(chǎn)品基礎(chǔ)數(shù)據(jù)、產(chǎn)品屬性映射、功能映射、部件關(guān)系映射等。數(shù)據(jù)加工器的輸出數(shù)據(jù)信息即搜索引擎所需要的產(chǎn)品網(wǎng)頁數(shù)據(jù)。
表1
表2 參照圖2和圖8,上述描述中的數(shù)據(jù)加工器及產(chǎn)品數(shù)據(jù)服務(wù)器會記錄產(chǎn)品知識庫服務(wù)器中所提供的相應(yīng)信息的準(zhǔn)確性及其命中率,將經(jīng)常出現(xiàn)的卻未被知識庫服務(wù)器所記憶的產(chǎn)品信息,如分類,屬性等按照上面描述的產(chǎn)品知識庫服務(wù)器的構(gòu)成自動維護(hù)和更新入產(chǎn)品知識庫服務(wù)器。上述過程按照活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合按照如圖10的流程進(jìn)行信息處理,自動更新產(chǎn)品知識庫服務(wù)器中的信息。知識庫服務(wù)器的生成和維護(hù)在必要時(shí)候當(dāng)然也可以按照本發(fā)明闡述的方法單獨(dú)設(shè)置更新維護(hù)模塊,提供人工維護(hù)介入知識庫服務(wù)器的維護(hù)和增加,維護(hù),修改相關(guān)數(shù)據(jù)。
參照圖2和圖7,檢索引擎通過檢索界面獲得用戶的原始檢索輸入,檢索引擎通過擴(kuò)展邏輯利用產(chǎn)品知識庫服務(wù)器中的信息對原始檢索進(jìn)行擴(kuò)展,形成更精確和智能的擴(kuò)展檢索詞,再從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出用戶想看到的檢索結(jié)果,生成檢索頁面。例如以相關(guān)產(chǎn)品擴(kuò)展為例,相關(guān)產(chǎn)品擴(kuò)展指的是將檢索擴(kuò)展到功能上同屬一個(gè)組的產(chǎn)品類別上,原始查詢輸入為“打印機(jī)”,映射到知識庫服務(wù)器中,在基礎(chǔ)產(chǎn)品分類中可以找到“紙張文件處理”這個(gè)產(chǎn)品組,其中有“打印機(jī)”、“復(fù)印機(jī)”、“打字機(jī)”等多種產(chǎn)品,因此按照相關(guān)產(chǎn)品擴(kuò)展邏輯,將原始查詢輸入“打印機(jī)”擴(kuò)展為“打印機(jī)+復(fù)印機(jī)+打字機(jī)”,提交檢索算法進(jìn)行檢索并排序,將結(jié)果按照“打印機(jī)”、“復(fù)印機(jī)”、“打字機(jī)”進(jìn)行分類輸出到結(jié)果頁面。通過上述方法可使得檢索進(jìn)行地更精確,更智能,更方便。上述進(jìn)入產(chǎn)品數(shù)據(jù)服務(wù)器中的產(chǎn)品數(shù)據(jù)要經(jīng)過檢索引擎最終呈現(xiàn)于用戶的檢索結(jié)果頁面。原始查詢輸入映射到知識庫服務(wù)器進(jìn)行擴(kuò)充,再經(jīng)檢索算法生成結(jié)果并排序,最終返回用戶檢索界面。這一過程在圖1中對應(yīng)于檢索界面、檢索引擎、產(chǎn)品數(shù)據(jù)服務(wù)器、產(chǎn)品知識庫服務(wù)器以及它們之間的交互。檢索擴(kuò)展起到將原始查詢進(jìn)行擴(kuò)展,并將結(jié)果按照擴(kuò)展的邏輯進(jìn)行分類的作用。目的是通過盡可能少的查詢可以檢索到互相聯(lián)系的盡可能全面的產(chǎn)品。檢索擴(kuò)展邏輯可以有相關(guān)產(chǎn)品擴(kuò)展、部件配件關(guān)系擴(kuò)展等。
權(quán)利要求
1.一種互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),包括
用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁的下載器,
用于對原始網(wǎng)頁數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,
用于對從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,
用于存儲由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,
用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,
其特征在于
所述搜索系統(tǒng)還包括知識庫服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。
2.根據(jù)權(quán)利要求1所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)構(gòu)成包括邏輯層數(shù)據(jù)、表示層數(shù)據(jù)和存儲層數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述產(chǎn)品知識庫服務(wù)器的邏輯層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品分類詞數(shù)據(jù)和產(chǎn)品屬性詞數(shù)據(jù),所述產(chǎn)品表示層數(shù)據(jù)包括產(chǎn)品詞數(shù)據(jù)、產(chǎn)品屬性詞數(shù)據(jù)以及相應(yīng)同義詞數(shù)據(jù)、產(chǎn)品分類數(shù)據(jù)、產(chǎn)品功能描述數(shù)據(jù)和產(chǎn)品性能描述數(shù)據(jù)。
4.根據(jù)權(quán)利要求3所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述數(shù)據(jù)提取器是依據(jù)所述產(chǎn)品知識庫服務(wù)器中的產(chǎn)品表示層數(shù)據(jù)進(jìn)行數(shù)據(jù)提取,所述數(shù)據(jù)加工器是依據(jù)所述產(chǎn)品知識庫服務(wù)器中的產(chǎn)品邏輯層數(shù)據(jù)進(jìn)行數(shù)據(jù)加工,所述搜索引擎是將檢索界面讀入的用戶原始檢索數(shù)據(jù)結(jié)合產(chǎn)品知識庫服務(wù)器中的邏輯層數(shù)據(jù)再從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索產(chǎn)品網(wǎng)頁數(shù)據(jù)。
5.根據(jù)權(quán)利要求4所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述產(chǎn)品知識庫服務(wù)器根據(jù)產(chǎn)品數(shù)據(jù)庫服務(wù)器以及數(shù)據(jù)加工器所提供的產(chǎn)品數(shù)據(jù)進(jìn)行自動更新,其更新步驟為
a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫服務(wù)器中數(shù)據(jù),
b.檢索更新維護(hù)備用數(shù)據(jù),
c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合,
d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識庫服務(wù)器,
e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識庫服務(wù)器,將無效錯(cuò)誤的數(shù)據(jù)集合丟棄。
6.根據(jù)權(quán)利要求4或5所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述數(shù)據(jù)提取器執(zhí)行如下步驟
a.將原始網(wǎng)頁數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁數(shù)據(jù),
b.獲取文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
c.讀取產(chǎn)品知識庫服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致,
e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁作為產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁數(shù)據(jù),
f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁被處理完畢,
所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù)包括如下步驟
g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù),
h.對每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值,
i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)連同分類標(biāo)記寫入產(chǎn)品數(shù)據(jù)庫服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁保存為產(chǎn)品知識庫服務(wù)器自動更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁數(shù)據(jù)處理完畢。
7.根據(jù)權(quán)利要求6所述的互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),其特征在于所述搜索引擎執(zhí)行如下步驟
a.獲得用戶原始檢索數(shù)據(jù),
b.依據(jù)產(chǎn)品知識庫服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù),
c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù),
d.生成結(jié)果頁面。
8.一種互聯(lián)網(wǎng)上基于知識庫的搜索方法,該方法通過含由下載器,數(shù)據(jù)提取器,數(shù)據(jù)加工器,產(chǎn)品數(shù)據(jù)服務(wù)器,產(chǎn)品知識庫服務(wù)器,檢索引擎組成的搜索系統(tǒng),執(zhí)行產(chǎn)品數(shù)據(jù)的搜索,其特征在于該方法的步驟包括對于因特網(wǎng)上的產(chǎn)品原始網(wǎng)頁信息,通過下載器獲取其產(chǎn)品網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)通過數(shù)據(jù)提取器判定并提取產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù),通過產(chǎn)品數(shù)據(jù)服務(wù)器存儲產(chǎn)品網(wǎng)頁數(shù)據(jù),依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁數(shù)據(jù)檢索,所述依據(jù)產(chǎn)品知識庫服務(wù)器中的數(shù)據(jù)通過數(shù)據(jù)提取器判定包括如下步驟
a.將原始網(wǎng)頁數(shù)據(jù)去除標(biāo)簽,提取文本數(shù)據(jù)形式的網(wǎng)頁數(shù)據(jù),
b.獲取文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
c.讀取產(chǎn)品知識庫服務(wù)器中的每一條產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞,
d.判斷提取出的文本數(shù)據(jù)形式網(wǎng)頁的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞是否與步驟c中讀取出的數(shù)據(jù)任何一條一致,
e.如果數(shù)據(jù)一致,則將所獲得的產(chǎn)品數(shù)據(jù)網(wǎng)頁作為產(chǎn)品相關(guān)網(wǎng)頁數(shù)據(jù)繼續(xù)交給數(shù)據(jù)加工器進(jìn)行處理,否則,丟棄該不相關(guān)產(chǎn)品原始網(wǎng)頁數(shù)據(jù),
f.繼續(xù)執(zhí)行步驟a至e一直到所有原始網(wǎng)頁被處理完畢,
所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過數(shù)據(jù)加工器分類出產(chǎn)品網(wǎng)頁數(shù)據(jù)包括如下步驟
g.從數(shù)據(jù)提取器獲得從原始網(wǎng)頁提取的候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù),
h.對每個(gè)候選的產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行分類處理,得到分類標(biāo)記和分類可信度值,
i.如分類可信度值高于一定閾值,則將該候選產(chǎn)品描述文本相關(guān)網(wǎng)頁數(shù)據(jù)連同分類標(biāo)記寫入產(chǎn)品數(shù)據(jù)庫服務(wù)器,否則,將該產(chǎn)品描述文本數(shù)據(jù)網(wǎng)頁保存為產(chǎn)品知識庫服務(wù)器自動更新維護(hù)用數(shù)據(jù)。
j.重復(fù)步驟g至i直到步驟g中所述的所有相關(guān)網(wǎng)頁數(shù)據(jù)處理完畢。
9.根據(jù)權(quán)利要求8所述的互聯(lián)網(wǎng)上基于知識庫的搜索方法,其特征在于,所述互聯(lián)網(wǎng)上基于知識庫的搜索方法還包括一個(gè)如下的自動更新知識庫服務(wù)器的步驟
a.定時(shí)檢索產(chǎn)品數(shù)據(jù)庫服務(wù)器中數(shù)據(jù),
b.檢索更新維護(hù)備用數(shù)據(jù),
c.利用a步驟和b步驟中所獲得的數(shù)據(jù)按照產(chǎn)品詞,產(chǎn)品類別,產(chǎn)品屬性區(qū)分出活躍的數(shù)據(jù)集合和不能覆蓋的數(shù)據(jù)集合,
d.如果是活躍的數(shù)據(jù)集合則將產(chǎn)品類別進(jìn)行進(jìn)一步細(xì)分更新產(chǎn)品知識庫服務(wù)器,
e.如果是不能覆蓋的數(shù)據(jù)集合則將新的產(chǎn)品類別更新入產(chǎn)品知識庫服務(wù)器,將無效錯(cuò)誤的數(shù)據(jù)集合丟棄。
10.根據(jù)權(quán)利要求8或9所述的互聯(lián)網(wǎng)上基于知識庫的搜索方法,其特征在于,所述依據(jù)產(chǎn)品知識庫服務(wù)器中的信息通過檢索引擎處理并進(jìn)行產(chǎn)品網(wǎng)頁數(shù)據(jù)檢索的步驟包括
a.獲得用戶原始檢索數(shù)據(jù),
b.依據(jù)產(chǎn)品知識庫服務(wù)器中的產(chǎn)品詞,產(chǎn)品分類詞,產(chǎn)品屬性詞對原始檢索數(shù)據(jù)進(jìn)行擴(kuò)展得到擴(kuò)展檢索數(shù)據(jù),
c.依據(jù)擴(kuò)展檢索數(shù)據(jù)從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索出符合擴(kuò)展檢索數(shù)據(jù)的結(jié)果數(shù)據(jù),
d.生成結(jié)果頁面。
全文摘要
本發(fā)明提供了一種互聯(lián)網(wǎng)上基于知識庫的搜索系統(tǒng),包括用于從互聯(lián)網(wǎng)下載原始網(wǎng)頁的下載器,用于對原始網(wǎng)頁數(shù)據(jù)進(jìn)行數(shù)據(jù)提取的數(shù)據(jù)提取器,用于對從數(shù)據(jù)提取器獲得的相關(guān)網(wǎng)頁數(shù)據(jù)進(jìn)行加工的數(shù)據(jù)加工器,用于存儲由數(shù)據(jù)加工器生成的產(chǎn)品網(wǎng)頁數(shù)據(jù)的產(chǎn)品數(shù)據(jù)服務(wù)器,用于從產(chǎn)品數(shù)據(jù)服務(wù)器中檢索用戶所需要的檢索結(jié)果、并帶有檢索界面的檢索引擎,所述搜索系統(tǒng)還包括知識庫服務(wù)器,用于提供產(chǎn)品信息數(shù)據(jù)給數(shù)據(jù)提取器,并提供分類信息數(shù)據(jù)給數(shù)據(jù)加工器及檢索引擎。本發(fā)明同時(shí)還提供了該系統(tǒng)的搜索方法。本發(fā)明提供的系統(tǒng)和方法主要用于產(chǎn)品數(shù)據(jù)的互聯(lián)網(wǎng)搜索引擎,為用戶提供了一種通用性強(qiáng),精確度高的互聯(lián)網(wǎng)搜索工具。
文檔編號G06F17/30GK101281525SQ20071017800
公開日2008年10月8日 申請日期2007年11月23日 優(yōu)先權(quán)日2007年11月23日
發(fā)明者雙 王 申請人:北京九城網(wǎng)絡(luò)軟件有限公司