專利名稱:基于可視程度的Web對(duì)象檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種Web對(duì)象檢索方法,尤其是涉及一種基于可視程度的Web對(duì)象檢索方法。
背景技術(shù):
在空間數(shù)據(jù)庫領(lǐng)域,常見的索引方法包括網(wǎng)格(Grid)、四叉樹(Quad-Tree )和R樹 (R-Tree)等,這些空間索引通常以層次型的結(jié)構(gòu)組織空間對(duì)象,從而支持高效的空間查詢。 以被廣泛采用的R樹為例,空間上位置相近的數(shù)據(jù)點(diǎn)被聚類到最小包圍盒里,這些最小包圍盒又根據(jù)空間局部性遞歸的進(jìn)行聚類,直到到達(dá)根節(jié)點(diǎn)。基于上述索引結(jié)構(gòu),多種考慮空間對(duì)象可視信息的查詢機(jī)制被提出比如以可視作為布爾篩選條件,學(xué)者們?cè)趥鹘y(tǒng)近鄰查詢與反向近鄰查詢的基礎(chǔ)上加入了可視與否的判斷,提出了可視近鄰查詢與可視反向近鄰查詢;或者以最短可視距離(MINVIDIST)為可視程度衡量標(biāo)準(zhǔn),依據(jù)較遠(yuǎn)處的對(duì)象不會(huì)影響較近對(duì)象的可視性這一事實(shí),學(xué)者們提出了遞增式可視最近鄰查詢,在最近鄰查詢過程中漸增式地獲取最短可視距離較小的空間對(duì)象。在信息檢索領(lǐng)域,常見全文搜索引擎通常采用倒排文件(Inverted File)對(duì)Web 對(duì)象進(jìn)行索引,倒排文件以文檔關(guān)鍵詞作為索引,文檔作為索引對(duì)象建立關(guān)鍵詞-文檔映射結(jié)構(gòu)。當(dāng)用戶輸入關(guān)鍵詞進(jìn)行檢索時(shí),搜索引擎可以利用倒排文件高效地獲得包含此關(guān)鍵詞的文檔集合以及關(guān)鍵詞在各個(gè)文檔中出現(xiàn)的次數(shù),從而便捷計(jì)算網(wǎng)頁文檔與用戶查詢之間的匹配程度,并按一定的排列順序返回查詢結(jié)果。空間索引和文本索引只能片面地處理空間查詢或語義查詢,為了處理基于位置的關(guān)鍵詞搜索(LWS),必須綜合利用空間索引與文本索引,一種方法是先通過空間索引得到滿足空間查詢條件的候選對(duì)象,然后通過文本索引過濾不滿足關(guān)鍵詞查詢條件的對(duì)象,最后得到同時(shí)滿足空間和文本條件的結(jié)果集。另一種方法則與之相反,即先通過關(guān)鍵詞的篩選, 再利用空間信息進(jìn)一步提煉,以得到最終結(jié)果。但是,無論是先空間再文本,還是先文本再空間的過濾方式,在中間過程中都會(huì)產(chǎn)生大量的候選對(duì)象,這是影響查詢性能的主要瓶頸。 針對(duì)此缺陷,近年來研究者們提出了若干種混合索引機(jī)制,其中IR樹是一種得到廣泛認(rèn)可的代表性混合索引,IR樹將R樹和倒排文件相結(jié)合,在各個(gè)節(jié)點(diǎn)中加入指向倒排索引文件的指針,從而在計(jì)算空間距離的同時(shí),可以利用當(dāng)前節(jié)點(diǎn)所對(duì)應(yīng)的倒排文件方便估算節(jié)點(diǎn)文本與查詢關(guān)鍵詞的相關(guān)度?;旌纤饕奶岢鲚^好地解決了空間屬性與文本屬性的融合問題,但是研究者們所提出的查詢處理方法只是簡(jiǎn)單地以絕對(duì)歐式距離作為空間匹配程度的標(biāo)準(zhǔn),將對(duì)象按照離查詢點(diǎn)距離和搜索關(guān)鍵詞相關(guān)度的線性組合來進(jìn)行排序。而隨著移動(dòng)設(shè)備的流行與信息物理系統(tǒng)的興起,用戶感興趣的通常只是其視野范圍內(nèi)的對(duì)象,相對(duì)于歐氏距離,可視程度將是一種更合適的空間匹配性度量,如何處理基于可視程度的Web對(duì)象檢索是一個(gè)新的課題。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種基于可視程度的Web對(duì)象檢索方法。本發(fā)明解決其技術(shù)問題采用的技術(shù)方案是
1. 一種基于可視程度的Web對(duì)象檢索方法采用以下步驟實(shí)現(xiàn)
1)對(duì)具有空間屬性的海量Web對(duì)象建立IR樹索引;
2)提出一種積分式可視性度量方法,該可視性度量方法符合人體視覺感知特征;
3)基于步驟2)所提出的可視性度量方法,設(shè)計(jì)環(huán)繞遮擋圖結(jié)構(gòu)作為Web對(duì)象及IR樹節(jié)點(diǎn)對(duì)象的可視性計(jì)算引擎;
4)基于步驟2)中的可視性度量方法,針對(duì)用戶可視Web檢索需求設(shè)計(jì)查詢匹配度度量函數(shù),融合Web對(duì)象相對(duì)于用戶位置的可視性與相對(duì)于查詢關(guān)鍵詞的語義相關(guān)性;
5)利用IR樹索引,結(jié)合步驟3)所提出的環(huán)繞遮擋圖結(jié)構(gòu)以及步驟4)所提出的查詢匹配度度量函數(shù),采用增量式的方法獲得K個(gè)與用戶查詢匹配度最高的Web對(duì)象。2.步驟1)中所述的建立IR樹索引,需要先對(duì)Web對(duì)象的空間屬性和語義屬性建立理論模型,用最小包圍矩形表示W(wǎng)eb對(duì)象的空間位置與幾何形狀,用文本表示W(wǎng)eb對(duì)象的語義內(nèi)容,依據(jù)理論模型對(duì)海量Web對(duì)象建立IR樹索引,這種樹索引結(jié)構(gòu)無縫融合Web對(duì)象的空間信息與語義信息,并且對(duì)于后期Web對(duì)象的插入、刪除、更新操作IR樹索引都提供了處理機(jī)制。3.步驟2)中所述的積分式可視性度量方法,空間線段對(duì)象看做由無窮多個(gè)點(diǎn)對(duì)象組成,每一點(diǎn)的可視性都與該點(diǎn)到查詢點(diǎn)的距離成反比,那么線段對(duì)象的可視性就是無窮多個(gè)點(diǎn)對(duì)象的可視度疊加,用定積分式表達(dá),而對(duì)于空間屬性被建模為平面矩形的Web 對(duì)象,平面矩形相對(duì)于查詢點(diǎn)最多具有一條或兩條能見邊,即不考慮查詢點(diǎn)落于矩形內(nèi)部的特殊情況,從而Web對(duì)象的可視性即為平面矩形能見邊的可視性之和。4.步驟3)中所述的環(huán)繞遮擋圖結(jié)構(gòu)的性質(zhì)與構(gòu)建方法如下
4. 1)環(huán)繞遮擋圖通過考慮Web對(duì)象的相互遮擋,并結(jié)合用戶查詢位置與步驟2)所提出的可視度衡量標(biāo)準(zhǔn)而構(gòu)建,其成員全部來自于原始Web對(duì)象集;
4. 2)環(huán)I 當(dāng)圖中鏈纖了苗鈿^BM圍0,刨的張角范圍,且在以鶴點(diǎn)為坐標(biāo)原點(diǎn),與X軸正方向成任意角度白妨向上,環(huán)猶當(dāng)圖所對(duì)應(yīng)的則豫將是勧向上針刪豫集合中的廠可爾象;
4. 3)環(huán)繞遮擋圖之外的Web對(duì)象可視性為零,即對(duì)于任一不屬于環(huán)繞遮擋圖的Web對(duì)象,必定被環(huán)繞遮擋圖的一個(gè)成員完全遮擋或多個(gè)成員聯(lián)合完全遮擋;
4. 4)環(huán)繞遮擋圖通過最好優(yōu)先(Best First)方法構(gòu)建,距離查詢點(diǎn)比較近的Web對(duì)象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對(duì)象與當(dāng)前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點(diǎn)更近的Web對(duì)象作為新的環(huán)繞遮擋圖成員并計(jì)算可視性,重復(fù)這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點(diǎn)周圍 [C.:.-]的角度區(qū)間。5.步驟4)中所述的匹配度度量函數(shù)用以衡量Web對(duì)象與用戶查詢之間的匹配程度,以線性加權(quán)方式融合Web對(duì)象的可視性和語義相關(guān)性,其中可視性采用步驟2)所述的積分式可視性度量方法,語義相關(guān)性采用信息挖掘領(lǐng)域的TF-IDF模型與向量余弦距離度量,加權(quán)函數(shù)中的權(quán)重系數(shù)根據(jù)實(shí)際應(yīng)用場(chǎng)景與用戶需求方便設(shè)定。
6.步驟5)中所述的K個(gè)Web對(duì)象的增量式獲取具體實(shí)施方法如下
6. 1)維護(hù)一個(gè)存放IR樹索引節(jié)點(diǎn)的優(yōu)先隊(duì)列以及一個(gè)結(jié)果列表,其中優(yōu)先隊(duì)列以步驟4)所述的線性加權(quán)匹配度為鍵值,按照鍵值遞減的順序組織IR樹各個(gè)節(jié)點(diǎn);
6. 2)將IR樹索引的根節(jié)點(diǎn)放入優(yōu)先隊(duì)列,循環(huán)訪問優(yōu)先隊(duì)列中位于隊(duì)首,即匹配度最高的元素;
6. 3)若優(yōu)先隊(duì)列隊(duì)首元素為IR樹索引中間節(jié)點(diǎn),則利用環(huán)繞遮擋圖與該節(jié)點(diǎn)所指向的倒排文件索引為其子節(jié)點(diǎn)分別計(jì)算可視性與語義相關(guān)度,并進(jìn)行線性加權(quán)后作為各個(gè)子節(jié)點(diǎn)的查詢匹配度與子節(jié)點(diǎn)一起壓入優(yōu)先隊(duì)列;
6. 4)若優(yōu)先隊(duì)列隊(duì)首元素為Web對(duì)象,則說明當(dāng)前Web對(duì)象的匹配度比優(yōu)先隊(duì)列中任意其它Web對(duì)象或IR樹索引節(jié)點(diǎn)的匹配度都要高,于是將此對(duì)象加入到查詢結(jié)果集中;
6.5)當(dāng)查詢結(jié)果集的大小達(dá)到K或者優(yōu)先隊(duì)列已為空時(shí),獲取過程結(jié)束,返回最終的查詢結(jié)果集。本發(fā)明具有的有益效果是
本發(fā)明充分利用IR樹索引結(jié)構(gòu)海量Web對(duì)象的空間屬性與文本屬性,并支持高效的插入、刪除、更新操作。相對(duì)于基于歐氏距離的Web對(duì)象檢索,提出了一種積分式可視性度量方法作為空間屬性匹配度,并在此基礎(chǔ)上設(shè)計(jì)環(huán)繞遮擋圖結(jié)構(gòu)作為Web對(duì)象的可視性計(jì)算引擎。融合Web對(duì)象可視性與語義相關(guān)性,供用戶增量式獲取與查詢密切匹配的可視Web 對(duì)象。
圖1是本發(fā)明實(shí)施步驟流程圖。圖2是Web對(duì)象的可視性度量示意圖。圖3是環(huán)繞遮擋圖結(jié)構(gòu)示意圖。
具體實(shí)施例方式現(xiàn)結(jié)合具體實(shí)施和示例對(duì)本發(fā)明的技術(shù)方案作進(jìn)一步說明。如圖1所示,基于可視程度的Web對(duì)象檢索具體實(shí)施步驟如下
1)對(duì)具有空間屬性的海量Web對(duì)象建立IR樹索引;
2)提出一種積分式可視性度量方法,該可視性度量方法符合人體視覺感知特征;
3)基于步驟2)所提出的可視性度量方法,設(shè)計(jì)環(huán)繞遮擋圖結(jié)構(gòu)作為Web對(duì)象及IR樹節(jié)點(diǎn)對(duì)象的可視性計(jì)算引擎;
4)基于步驟2)中的可視性度量方法,針對(duì)用戶可視Web檢索需求設(shè)計(jì)查詢匹配度度量函數(shù),融合Web對(duì)象相對(duì)于用戶位置的可視性與相對(duì)于查詢關(guān)鍵詞的語義相關(guān)性;
5)利用IR樹索引,結(jié)合步驟3)所提出的環(huán)繞遮擋圖結(jié)構(gòu)以及步驟4)所提出的查詢匹配度度量函數(shù),采用增量式的方法獲得K個(gè)與用戶查詢匹配度最高的Web對(duì)象。步驟1)中所述的建立IR樹索引,需要先對(duì)Web對(duì)象的空間屬性和語義屬性建立理論模型,用最小包圍矩形表示W(wǎng)eb對(duì)象的空間位置與幾何形狀,用文本表示W(wǎng)eb對(duì)象的語義內(nèi)容,依據(jù)理論模型對(duì)海量Web對(duì)象建立IR樹索引,這種樹索引結(jié)構(gòu)無縫融合Web對(duì)象的空間信息與語義信息,并且對(duì)于后期Web對(duì)象的插入、刪除、更新操作IR樹索引都提供了處理機(jī)制。步驟2)中所述的積分式可視性度量方法,空間線段對(duì)象看做由無窮多個(gè)點(diǎn)對(duì)象組成,每一點(diǎn)的可視性都與該點(diǎn)到查詢點(diǎn)的距離成反比,那么線段對(duì)象的可視性就是無窮多個(gè)點(diǎn)對(duì)象的可視度疊加,用定積分式表達(dá),而對(duì)于空間屬性被建模為平面矩形的Web對(duì)象, 平面矩形相對(duì)于查詢點(diǎn)最多具有一條或兩條能見邊,即不考慮查詢點(diǎn)落于矩形內(nèi)部的特殊情況,從而Web對(duì)象的可視性即為平面矩形能見邊的可視性之和。以圖2所示的矩形AB⑶為例來說明,對(duì)于查詢點(diǎn)Q,矩形的可視邊為AB與AD,于是矩形AB⑶所對(duì)應(yīng)的Web對(duì)象的可視性為邊AB與AD的可視性之和。而每一條邊的可視性可由積分式得出,以AB邊為例,AB邊可以看做有無窮多個(gè)構(gòu)成,每點(diǎn)的可視性與該點(diǎn)到Q 的距離成反比。步驟3)中所述的環(huán)繞遮擋圖通過最好優(yōu)先方法構(gòu)建,距離查詢點(diǎn)比較近的Web 對(duì)象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對(duì)象與當(dāng)前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點(diǎn)更近的Web對(duì)象作為新的環(huán)繞遮擋圖成員并計(jì)算可視性,重復(fù)這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點(diǎn)周圍 「:.:..-]的角度區(qū)間。以圖3所示實(shí)例對(duì)環(huán)繞遮擋圖進(jìn)行說明,圖中查詢位置Q周圍的環(huán)繞遮擋圖由對(duì)象1、2、3、4、5、6構(gòu)成,這些對(duì)象包圍了 Q,并且是以Q為原點(diǎn),
的張角范圍,且在以查詢點(diǎn)為坐標(biāo)原點(diǎn),與X軸正方向成任意角度的方向上,環(huán)繞遮擋圖所對(duì)應(yīng)的Web對(duì)象將是該方向上整個(gè)Web對(duì)象集合中的最近可視對(duì)象;4.3)環(huán)繞遮擋圖之外的Web對(duì)象可視性為零,即對(duì)于任一不屬于環(huán)繞遮擋圖的Web對(duì)象,必定被環(huán)繞遮擋圖的一個(gè)成員完全遮擋或多個(gè)成員聯(lián)合完全遮擋;4.4)環(huán)繞遮擋圖通過最好優(yōu)先方法構(gòu)建,距離查詢點(diǎn)比較近的Web對(duì)象被優(yōu)先獲取作為初始遮擋體,后續(xù)獲取得到的Web對(duì)象與當(dāng)前環(huán)繞遮擋圖的成員作比較,如果它們具有共同角度區(qū)間,則在共同角度區(qū)間中選取距離查詢點(diǎn)更近的Web對(duì)象作為新的環(huán)繞遮擋圖成員并計(jì)算可視性,重復(fù)這一過程直至環(huán)繞遮擋圖完全覆蓋查詢點(diǎn)周圍[0.211〗的角度區(qū)間。
5.根據(jù)權(quán)利要求1所述的一種基于可視程度的Web對(duì)象檢索方法,其特征在于步驟4)中所述的匹配度度量函數(shù)用以衡量Web對(duì)象與用戶查詢之間的匹配程度,以線性加權(quán)方式融合Web對(duì)象的可視性和語義相關(guān)性,其中可視性采用步驟2)所述的積分式可視性度量方法,語義相關(guān)性采用信息挖掘領(lǐng)域的TF-IDF模型與向量余弦距離度量,加權(quán)函數(shù)中的權(quán)重系數(shù)根據(jù)實(shí)際應(yīng)用場(chǎng)景與用戶需求方便設(shè)定。
6.根據(jù)權(quán)利要求1所述的一種基于可視程度的Web對(duì)象檢索方法,其特征在于步驟 5)中所述的K個(gè)Web對(duì)象的增量式獲取具體實(shí)施方法如下6. 1)維護(hù)一個(gè)存放IR樹索引節(jié)點(diǎn)的優(yōu)先隊(duì)列以及一個(gè)結(jié)果列表,其中優(yōu)先隊(duì)列以步驟4)所述的線性加權(quán)匹配度為鍵值,按照鍵值遞減的順序組織IR樹各個(gè)節(jié)點(diǎn);6. 2)將IR樹索引的根節(jié)點(diǎn)放入優(yōu)先隊(duì)列,循環(huán)訪問優(yōu)先隊(duì)列中位于隊(duì)首,即匹配度最高的元素;6. 3)若優(yōu)先隊(duì)列隊(duì)首元素為IR樹索引中間節(jié)點(diǎn),則利用環(huán)繞遮擋圖與該節(jié)點(diǎn)所指向的倒排文件索引為其子節(jié)點(diǎn)分別計(jì)算可視性與語義相關(guān)度,并進(jìn)行線性加權(quán)后作為各個(gè)子節(jié)點(diǎn)的查詢匹配度與子節(jié)點(diǎn)一起壓入優(yōu)先隊(duì)列;6. 4)若優(yōu)先隊(duì)列隊(duì)首元素為Web對(duì)象,則說明當(dāng)前Web對(duì)象的匹配度比優(yōu)先隊(duì)列中任意其它Web對(duì)象或IR樹索引節(jié)點(diǎn)的匹配度都要高,于是將此對(duì)象加入到查詢結(jié)果集中;6.5)當(dāng)查詢結(jié)果集的大小達(dá)到K或者優(yōu)先隊(duì)列已為空時(shí),獲取過程結(jié)束,返回最終的查詢結(jié)果集。
全文摘要
本發(fā)明公開了一種基于可視程度的Web對(duì)象檢索方法。對(duì)具有空間屬性的海量Web對(duì)象建立IR樹索引;用積分式可視性度量方法符合人體視覺感知特征;設(shè)計(jì)環(huán)繞遮擋圖結(jié)構(gòu)作為Web對(duì)象及IR樹節(jié)點(diǎn)對(duì)象的可視性計(jì)算引擎;針對(duì)用戶可視Web檢索需求設(shè)計(jì)查詢匹配度度量函數(shù),融合Web對(duì)象相對(duì)于用戶位置的可視性與相對(duì)于查詢關(guān)鍵詞的語義相關(guān)性;利用IR樹索引,對(duì)提出的環(huán)繞遮擋圖結(jié)構(gòu)以及查詢匹配度度量函數(shù),采用增量式的方法獲得K個(gè)與用戶查詢匹配度最高的Web對(duì)象。本發(fā)明充分利用了IR樹索引結(jié)構(gòu),無縫融合Web對(duì)象的空間屬性與文本屬性,基于積分式可視性度量的環(huán)繞遮擋圖結(jié)構(gòu)保證了查詢的高效性。
文檔編號(hào)G06F17/30GK102156754SQ20111011386
公開日2011年8月17日 申請(qǐng)日期2011年5月4日 優(yōu)先權(quán)日2011年5月4日
發(fā)明者壽黎但, 張超, 胡天磊, 陳剛, 陳珂 申請(qǐng)人:浙江大學(xué)