亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多標(biāo)簽傳播的數(shù)據(jù)庫重疊模式摘要生成方法

文檔序號(hào):9417420閱讀:265來源:國知局
一種基于多標(biāo)簽傳播的數(shù)據(jù)庫重疊模式摘要生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)庫技術(shù)領(lǐng)域,具體涉及一種新型的關(guān)系數(shù)據(jù)庫重疊模式摘要生成 技術(shù)。
【背景技術(shù)】
[0002] 隨著計(jì)算機(jī)的普及和信息技術(shù)的飛速發(fā)展,大量的數(shù)據(jù)信息使得數(shù)據(jù)庫技術(shù)得到 了廣泛的使用,數(shù)據(jù)庫應(yīng)用開始走向普通用戶。然而現(xiàn)代數(shù)據(jù)庫的規(guī)模往往十分龐大而復(fù) 雜,用戶要想在查詢過程中生成適當(dāng)?shù)慕Y(jié)構(gòu)化查詢語言,就必須要對(duì)數(shù)據(jù)庫的模式信息具 有一定的了解。然而大規(guī)模數(shù)據(jù)庫所對(duì)應(yīng)的模式信息通常也十分復(fù)雜,并且普遍存在相關(guān) 文檔缺失現(xiàn)象,更給用戶了解數(shù)據(jù)庫模式造成了困難。
[0003] 模式摘要生成技術(shù)能夠有效的解決上述問題,為用戶提供一個(gè)簡(jiǎn)明的數(shù)據(jù)庫模式 概要,提高數(shù)據(jù)庫的可用性?,F(xiàn)存的模式摘要解決方案都只專注于非重疊模式摘要的生成, 也就是只允許一個(gè)數(shù)據(jù)庫關(guān)系表屬于模式摘要中的一個(gè)主題類,然而在現(xiàn)實(shí)中,數(shù)據(jù)庫關(guān) 系表往往可以擁有多重意義并隸屬于多個(gè)主題類。只考慮非重疊情況會(huì)導(dǎo)致摘要結(jié)果不完 整甚至使用戶產(chǎn)生誤解。
[0004] 相對(duì)于非重疊模式摘要往往不能夠全面滿足用戶需求的問題。重疊模式摘要生成 技術(shù)能夠生成更加合理的數(shù)據(jù)庫模式摘要信息,有效減少用戶理解數(shù)據(jù)庫模式所消耗的時(shí) 間和精力,具有廣泛的工程應(yīng)用前景。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)存在的上述不足,提出一種基于多標(biāo)簽傳播的數(shù) 據(jù)庫重疊模式摘要自動(dòng)生成方法。
[0006] 本發(fā)明提供的基于多標(biāo)簽傳播的數(shù)據(jù)庫重疊模式摘要生成方法,創(chuàng)新地提出了重 疊模式摘要概念;設(shè)計(jì)一種新的數(shù)據(jù)庫多標(biāo)簽?zāi)J綀D模型;采用了多標(biāo)簽傳播算法和層次 聚類算法分別對(duì)數(shù)據(jù)庫模式進(jìn)行聚類;最終為聚類所得的每個(gè)結(jié)果類選取一個(gè)主題表,為 用戶返回一個(gè)可重疊的模式摘要。該方法的步驟如下:
[0007] 第1、將數(shù)據(jù)庫模式映射為一個(gè)帶權(quán)重的多標(biāo)簽圖;
[0008] 第1. 1、將數(shù)據(jù)庫模式映射為一個(gè)多標(biāo)簽圖,
[0009] 定義1 :一個(gè)關(guān)系數(shù)據(jù)庫模式可以映射為一個(gè)多標(biāo)簽圖,用一個(gè)三元組G = (V,E,LM)表示,其中:
[0010] ①.V表示數(shù)據(jù)庫中關(guān)系表節(jié)點(diǎn)的集合,V e V表示數(shù)據(jù)庫中的關(guān)系表節(jié)點(diǎn);
[0011] ②.E表示數(shù)據(jù)庫中外鍵關(guān)系的集合,e e E表示數(shù)據(jù)庫中的外鍵關(guān)系;
[0012] ③.Lm為一個(gè)標(biāo)簽映射函數(shù),將節(jié)點(diǎn)映射到對(duì)應(yīng)的一個(gè)或者多個(gè)標(biāo)簽,其中標(biāo)簽用 (c, b)表不,c表不一個(gè)結(jié)果類標(biāo)不符,b為標(biāo)簽隸屬度,表不一個(gè)數(shù)據(jù)庫關(guān)系表V與其結(jié)果 類標(biāo)示符c的隸屬強(qiáng)度;
[0013] 第1. 2、計(jì)算多標(biāo)簽圖中連接邊的兩個(gè)關(guān)系表間的相似性,作為標(biāo)簽圖權(quán)重;
[0014] 第I. 2. 1、使用空間向量模型計(jì)算關(guān)系表的表名和屬性名的文本相似度,作為關(guān)系 表的名稱相似度;
[0015] 第1. 2. 2、使用Jaccard系數(shù)對(duì)關(guān)系表屬性列的值進(jìn)行數(shù)值相似度分析,并通過貪 心算法找到最佳匹配屬性對(duì),取最佳匹配屬性對(duì)值相似度的平均值求得關(guān)系表值相似度;
[0016] 第1. 2. 3、通過分析關(guān)系表之間的計(jì)數(shù)比率,計(jì)算出關(guān)系表的映射關(guān)系相似度,
[0017] 定義2 :關(guān)系表R與關(guān)系表S之間的映射關(guān)系相似度,記作Simni(R,S),定義如下:
[0018]
[0019]其中:
[0020] ① · τ表示關(guān)系表的所有元組;
[0021] ②.fan ( τ J為元組τ ;在連接邊e上的扇出度,扇出度是針對(duì)元組與元組之間的 連接邊條數(shù)而定義的,表示某一行元組能夠連接的不同元組個(gè)數(shù);
[0022] ③.關(guān)系表R中所有滿足fan ( τ J > 〇的元組數(shù);
[0023] 第1. 2. 4、基于上述第1. 2. 1至第1. 2. 3步中的三種相似度特征,采用多元線性回 歸模型計(jì)算得到關(guān)系表相似度,并將該相似度作為多標(biāo)簽圖的權(quán)重。
[0024] 第2、采用多標(biāo)簽傳播算法對(duì)多標(biāo)簽圖進(jìn)行聚類,生成可重疊團(tuán);
[0025] 第2. 1、確定多標(biāo)簽傳播算法的參數(shù)θ,Θ為每個(gè)節(jié)點(diǎn)最多可攜帶的標(biāo)簽數(shù);若用 戶指定模式摘要最終結(jié)果類個(gè)數(shù)為k,則Θ嘗試取值為k-Ι到k+3,最終選擇使得多標(biāo)簽傳 播所得的可重疊團(tuán)的內(nèi)部聚類相似度最大的Θ,內(nèi)部聚類相似度的定義如下:
[0026] 定義3 :假設(shè)多標(biāo)簽傳播將多標(biāo)簽圖聚類為C = IC1, C2, ...,CJ的可重疊團(tuán),那么 多標(biāo)簽傳播結(jié)果C的聚類內(nèi)部相似度如下:
[0027]
[0028] 其中:
[0029] ① · SimlX, V.)為關(guān)系表vjP V』之間的相似度;
[0030] ②.I C11表示C1中的關(guān)系表個(gè)數(shù);
[0031] 第2. 2、為標(biāo)簽圖中的每個(gè)節(jié)點(diǎn)設(shè)置一個(gè)唯一的標(biāo)簽,該標(biāo)簽的類別標(biāo)示符設(shè)置 為該節(jié)點(diǎn)的關(guān)系表名稱,隸屬度設(shè)置為1 ;
[0032] 第2. 3、每次迭代將一個(gè)節(jié)點(diǎn)所有鄰居節(jié)點(diǎn)的標(biāo)簽按照隸屬度和邊的權(quán)重加入到 該節(jié)點(diǎn)的標(biāo)簽中,并做標(biāo)準(zhǔn)化使該節(jié)點(diǎn)的隸屬度和為1,
[0033] 定義4 :標(biāo)準(zhǔn)化函數(shù)bx(c,V1)表示在第X次迭代時(shí),節(jié)點(diǎn)\的標(biāo)簽中,社團(tuán)標(biāo)示符 c與其隸屬度b的映射關(guān)系為:
[0034]
[0035] 其中:
[0036] ① .N(V1)為節(jié)點(diǎn)V1的所有鄰居節(jié)點(diǎn);
[0037] ②· 表示邊(V1, Vj)的權(quán)重;
[0038] 第2. 4、刪除隸屬度低于1/ Θ的標(biāo)簽;
[0039] 第2. 5、當(dāng)被標(biāo)記的最少的類別標(biāo)示符所標(biāo)記的節(jié)點(diǎn)數(shù)不變時(shí),迭代停止;假設(shè)迭 代結(jié)束后,剩余的類別標(biāo)示符為m個(gè),將帶有標(biāo)示符C ni的節(jié)點(diǎn)歸類到團(tuán)C "中,此時(shí),多標(biāo)簽 圖被劃分為m個(gè)可以有重疊部分的團(tuán)C = IC1, C2, ...,CJ ;
[0040] 第2. 6、Θ取不同的值,重復(fù)上述第2. 2至第2. 5步,選擇內(nèi)部聚類相似度最大的 一組可重疊團(tuán)作為多標(biāo)簽傳播的結(jié)果。
[0041] 第3、對(duì)可重疊團(tuán)進(jìn)行層次聚類,生成結(jié)果類;
[0042] 第3. 1、計(jì)算可重疊團(tuán)間相似度,
[0043] 定義5心和C汾別代表多標(biāo)簽傳播聚類所得到的兩個(gè)可重疊團(tuán),C種C j之間的 相似度可以定義為:
[0044]
[0045] 其中,SinKC1, Cj)代表關(guān)系表\和Vj之間的相似度,若兩表之間沒有關(guān)聯(lián)邊,它們 之間的相似度為〇 ;
[0046] 第3. 2、將每一個(gè)可重疊團(tuán)作為一個(gè)單獨(dú)的類,在每一次迭代中,合并相似度最大 的兩個(gè)類,直到合并至用戶所指定的k個(gè)結(jié)果類后停止迭代。
[0047] 第4、為每個(gè)結(jié)果類選取主題表,將最終的模式摘要返回給用戶;
[0048] 第4. 1、計(jì)算關(guān)系表的重要度;
[0049] 第4. 1. 1、計(jì)算關(guān)系表的信息量,
[0050] 定義6 :將關(guān)系表R中的屬性A記作R. A,該屬性上的信息熵定義為:
[0051]
[0052] 其中,h表示屬性A上所有不相同值的數(shù)目;設(shè)屬性A上的取值可以表示為h個(gè)不 同值的集合R. A = {a。. . .,ah},用Pi來表示a ;出現(xiàn)的概率;
[0053] 定義7 :將關(guān)系表R的信息量定義為:
[0054]
[0055] 其中,I RI表示R中的元組個(gè)數(shù);
[0056] 第4. L 2、計(jì)算關(guān)系表間轉(zhuǎn)移概率,
[0057] 定義8 :以關(guān)系表R與關(guān)系表S為例,由R轉(zhuǎn)移到S的概率定義如下:
[0058]
[0059] 其中:
[0060] ①.R. A-S. B表示關(guān)系表R的A屬性與關(guān)系表S的B屬性之間的外鍵引用;
[0061] ②.對(duì)于R中的任意屬性A',qA,表示R. A'上所有外鍵連接數(shù)目;
[0062] 第4. 3、采用隨機(jī)游走模型,以關(guān)系表的信息量作為隨機(jī)游走的初始值,以關(guān)系表 間的轉(zhuǎn)移概率作為隨機(jī)游走的轉(zhuǎn)移概率,模型達(dá)到穩(wěn)態(tài)時(shí)的信息量分布即為關(guān)系表的重要 度;
[0063] 第4. 4、選擇每個(gè)結(jié)果類中重要度最高的關(guān)系表作為該類的主題表,返回給用戶最 終的模式摘要。
[0064] 本發(fā)明的優(yōu)點(diǎn)和有益效果:
[0065] 本發(fā)明創(chuàng)新地提出了一種數(shù)據(jù)庫模式到多標(biāo)簽圖的映射方法,將關(guān)系表的類別信 息以標(biāo)簽對(duì)形式存儲(chǔ),并通過隸屬度決定模式摘要的最終聚類結(jié)果;深入分析基于圖的多 標(biāo)簽傳播算法,并以此為基礎(chǔ)提出了一種基于多標(biāo)簽傳播的模式摘要自動(dòng)生成模型;與傳 統(tǒng)模型相比,該模型繼承了多標(biāo)簽傳播算法的優(yōu)勢(shì),能夠自動(dòng)生成帶有重疊部分的模式摘 要,并取得了更高的聚類精度;為用戶快速檢索數(shù)據(jù)庫提供了幫助;
【附圖說明】
[0066] 圖1是方法總流程圖;
[0067] 圖2是原始關(guān)系數(shù)據(jù)庫模式圖;
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1