象集合C = OtHOw。對(duì)C中的每個(gè)候選空 間文本對(duì)象〇,計(jì)算它們與查詢點(diǎn)之間的精確距離D (q,〇)。在上述處理過程中,根據(jù)已處理 的空間文本對(duì)象動(dòng)態(tài)維護(hù)結(jié)果上界UB = D (q,Okth),其中〇_是C中D (q,〇)取值第k小的 空間文本對(duì)象。所有與查詢距離小于UB的已處理空間文本對(duì)象將被作為臨時(shí)結(jié)果存放。
[0054] S110、當(dāng)所述結(jié)果上界小于所述綜合距離下界或所述優(yōu)先隊(duì)列為空時(shí),結(jié)束查詢。
[0055] 持續(xù)執(zhí)行上述處理過程,當(dāng)滿足通過dequeue操作得到的節(jié)點(diǎn)N滿足UB〈LB(q, N), 即所有未被處理的對(duì)象都不可能優(yōu)于當(dāng)前的臨時(shí)結(jié)果;或PQ為空,即已經(jīng)遍歷所有的空間 文本對(duì)象時(shí),停止搜索。
[0056] 綜上所述,本發(fā)明提供的一種基于語(yǔ)義理解的空間關(guān)鍵字索引方法,通過將空間 文本對(duì)象構(gòu)建為包含空間層、語(yǔ)義層和文本層的索引結(jié)構(gòu),在給定查詢點(diǎn)時(shí),根據(jù)索引結(jié)構(gòu) 中第一個(gè)索引節(jié)點(diǎn)為非葉節(jié)點(diǎn)或葉節(jié)點(diǎn)時(shí),綜合考慮空間文本對(duì)象與查詢點(diǎn)之間的空間、 文本、語(yǔ)義距離,使得返回的每個(gè)空間文本對(duì)象與查詢點(diǎn)的穩(wěn)步距離小于給定閾值,并且使 得未被返回的空間文本對(duì)象與查詢點(diǎn)的綜合距離大于任何一個(gè)被返回的空間文本對(duì)象與 查詢點(diǎn)的綜合距離。
[0057] 具體的,上述實(shí)施例中,空間文本對(duì)象用2維空間中的一個(gè)帶有位置坐標(biāo)和文本 描述的點(diǎn)〇 = {loc, term}來表示一個(gè)空間文本對(duì)象,其中Ioc由經(jīng)煒度構(gòu)成表示〇所在的 位置,term是用來描述〇的一組關(guān)鍵字。在地圖應(yīng)用中,一個(gè)空間關(guān)鍵字對(duì)應(yīng)了一個(gè)興趣 點(diǎn),即商家或機(jī)構(gòu),系統(tǒng)記錄了它的位置和文本描述。
[0058] 基于上述定義,我們用D來表示數(shù)據(jù)庫(kù)中的所有空間文本對(duì)象,即
[0059]D~|c;|V〇eDf 〇-{o.hc, o.term][
[0060] 基于所有空間文本對(duì)象的文本信息W ={〇. Ioc I 〇 G D},通過主題概率模型進(jìn)行 訓(xùn)練,得到主題集合Z,每個(gè)主題z G Z代表了一個(gè)用戶可能感興趣的類別,例如"中餐館"、 "咖啡館"、"超市"等。基于W和Z進(jìn)而計(jì)算每個(gè)文本的主題概率分布,步驟如下:
[0061] (1)通過主題概率模型構(gòu)建矩陣M = ZXWz (WzG W)來描述每個(gè)主題在^的分布, 其中W代表文本中的所有關(guān)鍵字集合,WzR表所有與主題z相關(guān)的關(guān)鍵字集合。M z表示主
[0062] (2)針對(duì)每個(gè)空間文本對(duì)象〇. w G W,通過矩陣計(jì)算得到〇所對(duì)應(yīng)的主題概率分布 TDci,其中〇與給定主題z G Z所對(duì)應(yīng)的主題概率分布分量!^[z]形式化為:
[0064] 其中,水(Ifei27 n j代表給定文本〇. term中屬于Wz (與主題z相關(guān))的關(guān)鍵 字個(gè)數(shù);a是先驗(yàn)參數(shù),在LDA模型中通常設(shè)置為0. 1。
[0065] 空間關(guān)鍵字查詢形式化為q = {loc, term, MaxTD},其中Ioc是查詢點(diǎn)即用戶所在 的位置,在二位空間用經(jīng)煒度坐標(biāo)表示;term是用戶所輸入的一組關(guān)鍵字,例如"中餐館", 用于描述用戶的查詢意圖;MaxTD是一個(gè)用戶指定的文本距離閾值。該查詢q和對(duì)象〇的 文本編輯距離度量它們?cè)谖谋揪嚯x定義如下
[0066] TD (q, o) = EditDistance (q. term, o. term)
[0067] 對(duì)給定查詢q,搜索引擎將從D中挑選與q最為匹配的k個(gè)最好的空間文本對(duì)象作 為返回結(jié)果(文本距離小于給定閾值MaxTD),所依據(jù)的度量指標(biāo)如下。
[0068] 對(duì)于給定的一個(gè)空間關(guān)鍵字查詢q和一個(gè)空間文本對(duì)象〇,首先通過它們位置的 歐式距離dist (q. Ioc, 〇. Ioc)定義空間距離如下
[0070] 在此基礎(chǔ)上,本發(fā)明還考慮查詢和文本對(duì)象之間的語(yǔ)義相關(guān)性。給定q和〇,根據(jù) 他們的主題概率分布定義語(yǔ)義距離如下
[0072] 如上所示,查詢與對(duì)象的空間、文本、語(yǔ)義距離都經(jīng)過歸一化處理,即取值是在 [0, 1]區(qū)間。其中,文本距離是用戶在查詢中以閾值的形式聲明。進(jìn)一步基于空間和語(yǔ)義距 離定義查詢q和對(duì)象〇的綜合距離
[0073] D(q, o) = A X ED (q, o) + (I-A ) X SD (q, 〇)
[0074]其中,X是用于平衡空間和語(yǔ)義距離的參數(shù),取值通常固定、系統(tǒng)通過歷史數(shù)據(jù)分 析進(jìn)行合理設(shè)置,也可以由用戶動(dòng)態(tài)設(shè)置。
[0075] 給定查詢q,從空間維度來看它與給定節(jié)點(diǎn)N的空間距離下界1?? =
[0077] 綜合LBe (q,N)和LBs (q,N),我們可以得到q與N所包含對(duì)象的綜合距離下界
[0078] LB (q,N)=人 XLBe (q,N) + (1-人)X LBs (q,N)。
[0079] 本實(shí)施例方法所述的功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷 售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算設(shè)備可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明實(shí)施 例對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該 軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算設(shè)備(可以是個(gè)人計(jì)算 機(jī),服務(wù)器,移動(dòng)計(jì)算設(shè)備或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部 分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨 機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介 質(zhì)。
[0080] 本說明書中各個(gè)實(shí)施例采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其它 實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同或相似部分互相參見即可。
[0081] 對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域?qū)I(yè)技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。 對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域的專業(yè)技術(shù)人員來說將是顯而易見的,本文中所定義的 一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明 將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一 致的最寬的范圍。
【主權(quán)項(xiàng)】
1. 一種基于語(yǔ)義理解的空間關(guān)鍵字索引方法,其特征在于,包括: 構(gòu)建空間文本對(duì)象的索引結(jié)構(gòu),所述索引結(jié)構(gòu)中包含空間層、語(yǔ)義層和文本層; 初始化所述索引結(jié)構(gòu)中的優(yōu)先隊(duì)列,所述初始化后的優(yōu)先隊(duì)列中只包含所述索引結(jié)構(gòu) 的根節(jié)點(diǎn); 對(duì)所述初始化后的優(yōu)先隊(duì)列進(jìn)行出列操作,讀出所述優(yōu)先隊(duì)列中的第一個(gè)索引節(jié)點(diǎn); 當(dāng)判斷所述第一個(gè)索引節(jié)點(diǎn)是為非葉節(jié)點(diǎn)時(shí): 讀取所述索引結(jié)構(gòu),得到所述第一個(gè)索引節(jié)點(diǎn)的子節(jié)點(diǎn)集合; 按照與查詢點(diǎn)綜合距離下界距離升序的方式,將所述子節(jié)點(diǎn)集合插入所述優(yōu)先隊(duì)列; 當(dāng)判斷所述第一個(gè)索引節(jié)點(diǎn)為葉節(jié)點(diǎn)時(shí): 訪問所述葉節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)義層,得到語(yǔ)義候選空間文本對(duì)象集合; 訪問所述葉節(jié)點(diǎn)對(duì)應(yīng)的文本層,得到文本候選空間文本對(duì)象集合; 通過所述語(yǔ)義候選空間文本對(duì)象集合和所述文本候選空間文本對(duì)象集合得到全局候 選空間文本對(duì)象集合,并更新所述文本候選空間文本對(duì)象集合的結(jié)果上界; 當(dāng)所述結(jié)果上界小于所述綜合距離下界或所述優(yōu)先隊(duì)列為空時(shí),結(jié)束查詢。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述構(gòu)建空間文本對(duì)象的索引結(jié)構(gòu)具體 為: 對(duì)空間文本對(duì)象的歐式空間持續(xù)進(jìn)行四叉劃分,直至每個(gè)索引節(jié)點(diǎn)所包含的對(duì)象個(gè)數(shù) 小于給定的閾值,其中,每個(gè)節(jié)點(diǎn)的數(shù)據(jù)結(jié)構(gòu)為N = (id,mbr,c,r),id是該節(jié)點(diǎn)的標(biāo)識(shí)號(hào), mbr是該節(jié)點(diǎn)所包含的所有空間文本對(duì)象的最小覆蓋區(qū)域,c和r是主題空間的中心點(diǎn)和半 徑,它們?cè)谥黝}空間覆蓋所有N所包含的對(duì)象。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述與查詢點(diǎn)綜合距離下界的確定方式 為: 給定查詢點(diǎn)q,依據(jù)公式,,計(jì)算出查詢點(diǎn)q 與給定節(jié)點(diǎn)N的空間距離下界LBE(q, N),其中,q. Ioc表示查詢的位置,N. mbr表示給定節(jié) 點(diǎn)N中所有點(diǎn)的最小邊界矩形; 依據(jù)公式,計(jì)算出查詢點(diǎn)q與給定 節(jié)點(diǎn)N的語(yǔ)義距離下界LBs (q,N),其中,Z為所有空間文本對(duì)象的主題集合,z為主題集合Z 中的每個(gè)主題,TDJz]為空間文本對(duì)象〇與給定主題z e Z所對(duì)應(yīng)的主題概率分布分量; 綜合所述空間距離下界LBe (q,N)和語(yǔ)義距離下界LBs (q,N),依據(jù)公式 LB (q,N) = λ X LBe (q,N) + (1- λ ) X LBs (q,N),得到查詢點(diǎn)q與給定節(jié)點(diǎn)N所包含對(duì)象 的綜合距離下界,其中,λ是用于平衡空間和語(yǔ)義距離的參數(shù)。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述訪問所述葉節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)義層,得到 語(yǔ)義候選空間文本對(duì)象集合具體為: 通過哈希函數(shù)h(TDq)得到桶號(hào)i,得到語(yǔ)義候選空間文本對(duì)象集合Ot = {〇|〇eDAh(TD。)e [i-l,i+l]},其中D為空間文本對(duì)象數(shù)據(jù)集。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,訪問所述葉節(jié)點(diǎn)對(duì)應(yīng)的文本層,得到文本 候選空間文本對(duì)象集合具體為: 獲取空間文本對(duì)象中所有關(guān)鍵字與q. term文本距離小于給定閾值MaxTD的鏈表集合 L,生成文本候選空間文本對(duì)象集合Ow= {〇 I 〇 e D Λ 〇 e L}。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,所述通過所述語(yǔ)義候選空間文本對(duì)象集 合和所述文本候選空間文本對(duì)象集合得到全局候選空間文本對(duì)象集合,并更新所述文本候 選空間文本對(duì)象集合的結(jié)果上界具體為: 通過語(yǔ)義候選空間文本對(duì)象集合(\和文本候選空間文本對(duì)象集合〇"得到全局候選空 間文本對(duì)象集合C = Ot n Ow; 對(duì)所述全局候選空間文本對(duì)象集合C中的每個(gè)候選空間文本對(duì)象〇,計(jì)算它們與查詢 之間的精確距離D(q,o); 根據(jù)已處理的空間文本對(duì)象動(dòng)態(tài)維護(hù)結(jié)果上界UB = D (q,〇kth),其中〇_是C中D (q,〇) 取值第k小的空間文本對(duì)象。
【專利摘要】本發(fā)明公開了一種基于語(yǔ)義理解的空間關(guān)鍵字索引方法,包括:構(gòu)建空間文本對(duì)象的索引結(jié)構(gòu);初始化索引結(jié)構(gòu)中的優(yōu)先隊(duì)列;讀出所述優(yōu)先隊(duì)列中的第一個(gè)索引節(jié)點(diǎn);當(dāng)?shù)谝粋€(gè)索引節(jié)點(diǎn)是為非葉節(jié)點(diǎn)時(shí):讀取索引結(jié)構(gòu),得到第一個(gè)索引節(jié)點(diǎn)的子節(jié)點(diǎn)集合;按照與查詢點(diǎn)綜合距離下界距離升序的方式,將子節(jié)點(diǎn)集合插入所述優(yōu)先隊(duì)列;當(dāng)?shù)谝粋€(gè)索引節(jié)點(diǎn)為葉節(jié)點(diǎn)時(shí):訪問葉節(jié)點(diǎn)對(duì)應(yīng)的語(yǔ)義層和文本層,得到語(yǔ)義候選空間文本對(duì)象集合和文本候選空間文本對(duì)象集合;更新文本候選空間文本對(duì)象集合的結(jié)果上界;當(dāng)結(jié)果上界小于綜合距離下界或所述優(yōu)先隊(duì)列為空時(shí),結(jié)束查詢。本發(fā)明能夠根據(jù)文本的語(yǔ)義理解對(duì)空間關(guān)鍵詞進(jìn)行索引,使得索引的結(jié)果更加的準(zhǔn)確。
【IPC分類】G06F17/30
【公開號(hào)】CN105069094
【申請(qǐng)?zhí)枴緾N201510477123
【發(fā)明人】許佳捷, 鄭凱, 趙雷, 趙朋朋, 周曉方
【申請(qǐng)人】蘇州大學(xué)
【公開日】2015年11月18日
【申請(qǐng)日】2015年8月6日