1.一種行業(yè)數(shù)據(jù)高效檢索方法,其特征在于,包括:
通過比較電商網(wǎng)站所有web頁面及其每一網(wǎng)址指向的頁面所分別包含的本體集間的關系找出web頁面的URL;將URL上的鏈接文本映射到該URL指向的web頁面所包含的本體上,歸入該本體的屬性集;
將B-樹的每個節(jié)點代表一個web頁面,父節(jié)點指向葉節(jié)點的邊代表相應web頁面間的下位關系,邊上的值即為相應的隱藏屬性,以深度優(yōu)先方式根據(jù)下位網(wǎng)址語義生成下層葉節(jié)點;對于新生成的每個葉節(jié)點,判斷從根節(jié)點到葉節(jié)點路徑上的所有隱藏屬性所構成該葉節(jié)點的隱藏屬性集是否和已有的某個葉節(jié)點相同,若有則丟棄該葉節(jié)點,以完成屬性的爬取,所有屬性信息供頁面信息提取過程提取。
2.根據(jù)權利要求1所述的方法,其特征在于,所述方法還包括:
將電商網(wǎng)站上的web頁面分成結果頁面,對象頁面和其他頁面;一個搜索對應一系列結果頁面,對象頁面包含一個單獨本體信息,包括商品;不屬于以上兩種頁面的頁面分類為其他頁面;每個本體都用一組屬性集合進行描述,形成了搜索的條件;每個本體有且僅有一個對象頁面;用無向圖來描述電商網(wǎng)站,P表示頂點集,每個頂點代表一個頁面,L是邊集,每一條邊代表從一個頁面到另一個頁面的URL;R表示所有結果頁面的集合,O表示所有對象頁面的集合,Q表示所有搜索的集合;搜索、結果頁面和對象頁面三者間所有的屬性構成一個屬性空間,基于頁面間的連接結構將其進行聚類;
找出搜索的完整集合、與每個搜索相對應的屬性與值的組成的鍵值對、滿足每個搜索的本體;令q為一個搜索,我們使用與搜索相符的結果頁面集合δ(q)來表示q;具體執(zhí)行步驟:
(1).爬取整個網(wǎng)站頁面,利用它的URL識別每一個頁面并從頁面提取所有的網(wǎng)址;
(2).識別每個頁面的類型;在頁面類型識別中,基于相同網(wǎng)站上對象頁面HTML結構相似性,使用基于SVM的頁面分類方法來完成對象頁面的識別;然后采用貪心算法,只要任何非對象頁面包含一個指向對象頁面的網(wǎng)址,則將它分類為一個結果頁面;
(3).根據(jù)搜索將結果頁面聚類為多個集合,每個集合對應一個搜索;即對于集合R中每個頁面p指向的所有結果頁面的集合δ(p),用δ(p)之間的對稱差表示每兩個頁面的距離,并引入一個距離閾值d,當所述距離小于d時,指示兩個頁面屬于相同的搜索;
(4).找出搜索之間的關系,檢查每個結果頁面集合s的每個頁面的URL;如果一個搜索URL指向另一結果頁面集合r中的頁面,那么檢查s和r分別所包含的查詢所關聯(lián)的本體頁面ws和wr之間的子集關系;如果則提取s和r的URL作為屬性,使用其超文本作為屬性值和上層HTML元素作為屬性名創(chuàng)建一個屬性鍵值對;
(5).提取滿足所有搜索的屬性與值的組成的鍵值對的并集,作為本體的隱藏屬性。