專利名稱:同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機(jī)數(shù)據(jù)庫領(lǐng)域,特別涉及一種同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法。
背景技術(shù):
發(fā)布訂閱系統(tǒng)是一個滿足信息的生產(chǎn)者和消費(fèi)者互動的分布式中間件系統(tǒng)。發(fā)布者除了發(fā)布信息,還需要具有選擇訂閱的能力,即發(fā)布和訂閱的角色是對稱的。在對稱的應(yīng)用中,用戶擁有和需求的信息采用相同的數(shù)據(jù)結(jié)構(gòu)來描述,這是同構(gòu)對稱的概念。同構(gòu)對稱發(fā)布/訂閱系統(tǒng)(HSPUB/SUB)有著越來越廣泛的應(yīng)用,如易物交換服務(wù)和住房交換等,其中環(huán)匹配是HSPUB/SUB系統(tǒng)必須要解決的關(guān)鍵問題之一。根據(jù)訂閱的索引結(jié)構(gòu),發(fā)布/訂閱的匹配方法可以分為如下四類?;谝痪S索引。一維索引結(jié)構(gòu),如紅黑樹,哈希表,B+樹等,用來索引訂閱中定義的謂詞并對符合條件的謂詞進(jìn)行計數(shù)。一般的,用相同的操作在相同的屬性中定義的謂詞被索引在一個索引結(jié)構(gòu)中。主要有兩種基于一維索引的算法=Coimt算法和Hanson算法。基于多維索引。在多維空間中,一個訂閱被視為一個對象,并且匹配操作和查找操作是相同的。主要思想是用多維索引來為訂閱直接建立索引,或者把一個d維超立方體轉(zhuǎn)換成2d維的點(diǎn),從而避免多維空間中的嚴(yán)重交叉。基于網(wǎng)絡(luò)測試?;跍y試網(wǎng)絡(luò)的技術(shù),首先把訂閱信息存儲到匹配樹上。和謂詞索引不同,網(wǎng)絡(luò)測試技術(shù)根據(jù)訂閱信息模塊建立訂閱信息索引樹。每一個非葉子結(jié)點(diǎn)包含一個測試,該結(jié)點(diǎn)的邊代表測試的結(jié)果。一個葉子節(jié)點(diǎn)包含一個訂閱信息和代表測試結(jié)果的邊。匹配就是通過執(zhí)行每個結(jié)點(diǎn)描述的測試和跟蹤測試結(jié)果形成的邊來遍歷這棵匹配樹?;趫D?;趫D匹配的基本觀點(diǎn)要,有向圖中找到環(huán),該有向圖由同構(gòu)對稱的發(fā)布 /訂閱應(yīng)用中的訂閱建立。圖中的每個結(jié)點(diǎn)代表一個訂閱。如果訂閱Sl和S2匹配,就可以建立一條從Sl到S2的帶權(quán)有向邊。前三種匹配方法的目標(biāo)是在訂閱之間高效地找到一對一匹配,不能直接用于對稱的匹配?;趫D方法的目標(biāo)是找到環(huán)匹配的最優(yōu)集,該圖形結(jié)構(gòu)不適用于頻繁插入和刪除操作的實(shí)時應(yīng)用,而且是NP難問題,實(shí)際的結(jié)果質(zhì)量取決于具體的應(yīng)用環(huán)境。例如在動態(tài)環(huán)境里利用動態(tài)更新的環(huán)匹配方法找環(huán)匹配。但生成的環(huán)匹配數(shù)量隨著環(huán)的長度的增加成指數(shù)增長,需要大量的存儲空間。在2010東北大學(xué)碩士論文中,譚賢婷提出一種基于閾值的對中間結(jié)果處理的策略,但是這種方法應(yīng)用范圍有一定的局限性。它只適用于每一維數(shù)據(jù)的分布都是均勻的且獨(dú)立的,而且得到預(yù)測節(jié)省空間比例的公式精確度不高。
發(fā)明內(nèi)容
為了解決已有技術(shù)的不足,本發(fā)明提出一種同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法,適用于任意數(shù)據(jù)分布的近似動態(tài)環(huán)匹配。本發(fā)明采用的技術(shù)方案是長度為MaxLength-I (MaxLength代表系統(tǒng)定義的環(huán)最大長度)的鏈訂閱插入到訂閱數(shù)據(jù)庫中之前,計算鏈訂閱被匹配的概率,如果概率小于閾值,那么該訂閱將會被拋出以節(jié)省存儲空間,通過挖掘訂閱被匹配的概率在整個域尺寸空間的分布以及分析個訂閱維度之間的關(guān)系,運(yùn)用降低維度等策略求解出更加精確的節(jié)省空間比例的上下限。本發(fā)明方法涉及到的匹配和環(huán)匹配的定義如下定義1 :(匹配)對于都具有2d個屬性的兩個訂閱Si、S2和1彡i彡d,如果 Iai e Sl和Iai+d e S2有交集,那么我們稱Sl與S2單向擁有-需要匹配,簡稱“單向匹配”,如
圖1(a)所示。如果同時S2與Sl也單向匹配,稱Sl和S2為“匹配”,具體如圖1(b) 所示。定義2 (環(huán)匹配)對于訂閱集CN= {Sl,. . .,Si,. . .,SN},其中N > 2,如果Si和 Si+Ι相匹配(1彡i彡N-1),并且SN與Sl相匹配,則CN叫做長度為N的環(huán)匹配。如圖2 (a) 所示,訂閱鏈與環(huán)匹配的不同之處在于環(huán)匹配中SN必須與Sl相匹配。因此環(huán)匹配也是一個鏈,可以把長度為N環(huán)匹配看作一個鏈,來創(chuàng)建長度為N+1的環(huán)匹配如圖2(b)所示。定義3 (鏈訂閱)對于一個訂閱集,Ln = (S1, . . .,Si, . . .,、},其中N > 2。如果 Si和Si+1相匹配(1彡i彡N-1),則Ln叫做長度為N的鏈。Ln由和S1相同的需求謂詞和與 、相同的擁有謂詞組成,被認(rèn)為和處理成一個訂閱,因此也叫鏈訂閱。圖2(a)顯示了一個鏈訂閱的例子。本發(fā)明同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法包括以下步驟步驟1:獲得訂閱概率用統(tǒng)計信息來評估概率。在一個訂閱中有兩組謂詞擁有謂詞和需求謂詞。如果
擁有謂詞和需求謂詞的概率分別定義成ftx)。和ftxv那么一個訂閱被匹配的概率是
權(quán)利要求
1.同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法,其特征在于包括以下步驟步驟1 獲得訂閱概率用統(tǒng)計信息來評估概率,在一個訂閱中有兩組謂詞擁有謂詞和需求謂詞,如果擁有謂詞和需求謂詞的概率分別定義成ftx)。和ftxv那么一個訂閱被匹配的概率是 Pron 能夠被估算為
全文摘要
本發(fā)明提供一種同構(gòu)對稱發(fā)布訂閱系統(tǒng)的近似動態(tài)環(huán)匹配方法,包括以下步驟步驟1獲得訂閱概率;步驟2計算閾值位置間隔寬度和域中近似分界線;步驟3估算節(jié)省的存儲空間比例。本發(fā)明方法適用于任意數(shù)據(jù)分布的近似動態(tài)環(huán)匹配,能夠應(yīng)用在實(shí)時環(huán)境中,精確度提高了平均15個百分點(diǎn)。本發(fā)明方法的節(jié)省空間比例預(yù)測公式可計算任何數(shù)據(jù)分布類型,且具有高精確度,進(jìn)一步挖掘訂閱被匹配的概率在整個域尺寸空間的分布及分析各訂閱維度之間的關(guān)系和不同維數(shù)據(jù)的分布特點(diǎn),運(yùn)用降低維度等策略使得預(yù)測結(jié)果更加接近真實(shí)值,可以得到更好的預(yù)測效果。
文檔編號G06F17/30GK102298624SQ20111023355
公開日2011年12月28日 申請日期2011年8月15日 優(yōu)先權(quán)日2011年8月15日
發(fā)明者信俊昌, 王波濤, 王立軍, 馬素華 申請人:東北大學(xué)