亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)建模方法

文檔序號(hào):9844175閱讀:390來(lái)源:國(guó)知局
一種基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)建模方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于軟件調(diào)試領(lǐng)域,特別涉及一種基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)建模方法。
【背景技術(shù)】
[0002] 對(duì)于軟件bug的維護(hù)是貫穿于軟件生命周期始終的。當(dāng)一個(gè)軟件從業(yè)人員遇到一 個(gè)棘手的軟件bug時(shí),一個(gè)高效的、知識(shí)多維度的bug搜索引擎對(duì)于幫助其更好地理解和解 決遇到的bug就顯得十分的重要。當(dāng)他進(jìn)行搜索時(shí),搜索引擎不僅能返回與搜索內(nèi)容相關(guān)的 bug,同時(shí)還能返回與其所搜索的bug存在聯(lián)系的其他bug。
[0003] 本發(fā)明作出之前,到目前為止,還沒(méi)有結(jié)合知識(shí)圖譜的bug搜索引擎,而大部分的 搜索還過(guò)于表面,返回的只是一級(jí)關(guān)聯(lián)內(nèi)容,并不深入,不利于開(kāi)發(fā)人員解決問(wèn)題。現(xiàn)有的 以關(guān)系數(shù)據(jù)庫(kù)為支撐的搜索,在處理大量復(fù)雜、互鏈接、低結(jié)構(gòu)化的數(shù)據(jù)變化和查詢時(shí)會(huì)導(dǎo) 致大量的表連接,使搜索陷入超鏈接表的泥沼,降低了搜索效率;其次,隨著數(shù)據(jù)集大小不 斷增大,數(shù)據(jù)之間關(guān)聯(lián)的可信度會(huì)不斷降低,從而導(dǎo)致性能上的問(wèn)題,而且在設(shè)計(jì)使用上也 很不方便,一旦數(shù)據(jù)模式發(fā)生變化,相應(yīng)的維護(hù)成本會(huì)很高昂。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的就在于克服上述缺陷,研制一種基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)建模方 法。
[0005] 本發(fā)明的技術(shù)方案是:
[0006] -種基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)建模方法,其主要技術(shù)特征在于如下步驟:
[0007] (1)從歷史bug信息中抽取bug的關(guān)鍵文本內(nèi)容,包括簡(jiǎn)述信息-bugMSG、描述信息-description、評(píng)論信息-comment;再?gòu)臍v史bug信息中抽取關(guān)鍵屬性;
[0008] (2)將抽取的bug信息中的關(guān)鍵文本內(nèi)容做基于內(nèi)容的文本分析,采用TF-IDF標(biāo)準(zhǔn) 抽取重要概念,作為關(guān)鍵詞;對(duì)抽取的關(guān)鍵屬性建立結(jié)構(gòu)化數(shù)據(jù)模型;
[0009] (3)考慮用戶的應(yīng)用場(chǎng)景,人工建立詞典,并將步驟(2)中識(shí)別的關(guān)鍵詞,bugzilla 中提供的keywords列表信息一起加入到構(gòu)建的bug詞典中;將建立的結(jié)構(gòu)化數(shù)據(jù)模型導(dǎo)入 到關(guān)系數(shù)據(jù)庫(kù)中;
[0010] (4)根據(jù)詞典構(gòu)建特征向量,采用基于K-Medoids優(yōu)化的KNN算法對(duì)簡(jiǎn)述信息- bugMSG、描述信息-descript ion、評(píng)論信息-comment這三種文本進(jìn)行分類(lèi),根據(jù)文本與bug 之間的對(duì)應(yīng)關(guān)系實(shí)現(xiàn)其對(duì)應(yīng)bug分類(lèi);
[0011 ] (5)建立實(shí)體關(guān)系,基于屬性中的status、component和product對(duì)bug進(jìn)行標(biāo)簽;基 于bug屬性中的duplicate、depends0n和blocks,建立bug與bug之間的關(guān)系;基于reporter、 assigned to和CClist建立bug與人員之間的關(guān)系;最后,基于之前的分類(lèi),建立分類(lèi)的層次 關(guān)系及人員的領(lǐng)域關(guān)系;
[0012] (6)將關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù)以及建立的實(shí)體關(guān)系以CVS文件的形式導(dǎo)入到Ne〇4J圖 形數(shù)據(jù)庫(kù)中。
[0013] 本發(fā)明是為了對(duì)bug知識(shí)的數(shù)據(jù)庫(kù)做一個(gè)優(yōu)化,幫助開(kāi)發(fā)人員更好地了解bug更快 的加深對(duì)軟件的理解。對(duì)bug信息的短文本內(nèi)容做術(shù)語(yǔ)抽取,采用TF-IDF標(biāo)準(zhǔn)選取在文檔中 相對(duì)重要的詞匯。綜合抽取的到的術(shù)語(yǔ),bugz i 1 la提供的keywords和人工建立的詞典構(gòu)建 特征向量,采用基于K-Medo i ds優(yōu)化的KNN算法對(duì)簡(jiǎn)述信息(bugMSG )、描述信息 (description)、評(píng)論信息(comment)這三種文本分別分類(lèi),從而實(shí)現(xiàn)對(duì)應(yīng)bug的分類(lèi)。
[0014] 本發(fā)明的優(yōu)點(diǎn)和效果在于從圖形數(shù)據(jù)庫(kù)入手為bug信息的數(shù)據(jù)庫(kù)做優(yōu)化。有利于 軟件從業(yè)人員通過(guò)遇到的bug來(lái)加深對(duì)整個(gè)軟件的理解從而更好的解決問(wèn)題提高自己。主 要由如下一些優(yōu)點(diǎn):
[0015] (1)本發(fā)明可以為軟件開(kāi)發(fā)人員在對(duì)一個(gè)bug的查詢時(shí),不僅僅局限于單個(gè)問(wèn)題的 解決,而是可以提供多角度的關(guān)聯(lián)。
[0016] (2)我們的方法基于圖數(shù)據(jù)庫(kù),圖數(shù)據(jù)庫(kù)是一種高性能的用于存儲(chǔ)數(shù)據(jù)的數(shù)據(jù)結(jié) 構(gòu)方式。
【附圖說(shuō)明】
[0017] 圖1一一本發(fā)明建模流程示意圖。
[0018]圖2--本發(fā)明爬取的bug在mysql中的截圖。
[0019] ?3--本發(fā)明bug信息的ER模型示意圖。
[0020]圖4--本發(fā)明圖數(shù)據(jù)庫(kù)模型不例圖。
[0021]圖5-一本發(fā)明圖數(shù)據(jù)庫(kù)邏輯模型示意圖。
[0022] 圖6--本發(fā)明基于K-Medoids優(yōu)化的KNN分類(lèi)算法流程示意圖。
[0023] 圖7--本發(fā)明bug100 4833的歷史bug report截圖。
[0024] 圖8--本發(fā)明bug100 4833相關(guān)的部分圖數(shù)據(jù)庫(kù)示意圖。
【具體實(shí)施方式】
[0025] 本發(fā)明的技術(shù)思路是:
[0026] 本發(fā)明的方法是為了對(duì)bug知識(shí)的數(shù)據(jù)庫(kù)做一個(gè)優(yōu)化,幫助開(kāi)發(fā)人員更好地了解 bug更快的加深對(duì)軟件的理解。對(duì)bug信息的短文本內(nèi)容做術(shù)語(yǔ)抽取,采用TF-1DF標(biāo)準(zhǔn)選取 在文檔中相對(duì)重要的詞匯。綜合抽取的到的術(shù)語(yǔ),bugz ilia提供的keywords和人工建立的 詞典構(gòu)建特征向量,采用基于K-Medo i ds優(yōu)化的KNN算法對(duì)簡(jiǎn)述信息(bugMSG )、描述信息 (description)、評(píng)論信息(comment)這三種文本分別分類(lèi),從而實(shí)現(xiàn)對(duì)應(yīng)bug的分類(lèi)。
[0027] -個(gè)以知識(shí)圖譜為依托的搜索系統(tǒng),能帶給用戶全新的搜索體驗(yàn),為用戶提供知 識(shí)而不僅僅是信息,這就需要一個(gè)基于圖形數(shù)據(jù)庫(kù)的bug知識(shí)圖譜來(lái)為整個(gè)系統(tǒng)做數(shù)據(jù)支 撐。
[0028] 術(shù)語(yǔ)抽取,在本體構(gòu)建過(guò)程中,術(shù)語(yǔ)是知識(shí)圖譜中概念、實(shí)體或?qū)傩缘恼Z(yǔ)言學(xué)上的 標(biāo)識(shí)形式,術(shù)語(yǔ)抽取的目標(biāo)是找到用于表示概念、實(shí)體或?qū)傩缘南嚓P(guān)術(shù)語(yǔ)或標(biāo)記集合。術(shù)語(yǔ) 抽取通常采用基于語(yǔ)言學(xué)規(guī)則的方法和使用統(tǒng)計(jì)的方法,常用的模式有"形容詞-名詞"短 語(yǔ)、"名詞-名詞"短語(yǔ)和"名詞-介詞-名詞"短語(yǔ)等;最后使用統(tǒng)計(jì)學(xué)方法比較分析語(yǔ)料中術(shù) 語(yǔ)的分布特征。統(tǒng)計(jì)學(xué)基準(zhǔn)有TF_IDF(Term Frequency-Inverse Document Frequency)、卡 方分布(Chi-Square)和互信息(Mutual Information)等。本發(fā)明采用TF-IDF標(biāo)準(zhǔn)。TF-IDF 標(biāo)準(zhǔn),一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的 重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語(yǔ)料 庫(kù)中出現(xiàn)的頻率成反比下降
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1