專利名稱:一種基于概念模型的本體復(fù)雜性分析評(píng)估方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于本體演變過程中,對(duì)所構(gòu)建本體的復(fù)雜性進(jìn)行分析和評(píng)估的方法。它 面向計(jì)算機(jī)本體工程領(lǐng)域。
背景技術(shù):
目前,Web的發(fā)展迅猛,Web上各種應(yīng)用日益復(fù)雜。但Web上現(xiàn)有的信息對(duì)計(jì)算機(jī)是不 可理解的,這極大的影響了 Web應(yīng)用的自動(dòng)化、集成化和智能化進(jìn)程。于是Berners-Lee提出 了下一代Web——語義Web的目標(biāo),就是使Web上的信息具有計(jì)算機(jī)可以理解的語義,其 中一個(gè)重要的思想就是用本體來表示語義信息,從而提高Web信息服務(wù)的智能化和自動(dòng)化。 這對(duì)本體的規(guī)劃、設(shè)計(jì)和開發(fā)人員提出了新的挑戰(zhàn)——本體工程學(xué),即本體的構(gòu)建應(yīng)該是工 程化的。盡管這一思想已經(jīng)被廣泛接受,但是并沒有得到廣泛認(rèn)可的通用的方法。目前,本 體的構(gòu)建基本還是采用以經(jīng)驗(yàn)為主的構(gòu)建方法。這種方法對(duì)中小規(guī)模的本體還是可行的。但 是隨著本體規(guī)模的急劇擴(kuò)大和復(fù)雜性的迅速增加,構(gòu)建本體時(shí)需要考慮的因素也急劇增加, 往往超出了人的經(jīng)驗(yàn)所能企及的范圍,同時(shí)會(huì)加大本體更新、維護(hù)的技術(shù)和經(jīng)濟(jì)風(fēng)險(xiǎn)。
如果在本體構(gòu)建階段,能及時(shí)跟蹤、分析本體的規(guī)模和復(fù)雜性情況及演變趨勢(shì),則可以提 高本體開發(fā)的質(zhì)量,估計(jì)開發(fā)的費(fèi)用,以及有效減少今后本體維護(hù)的開銷,從一定程度上規(guī) 避技術(shù)和經(jīng)濟(jì)風(fēng)險(xiǎn)。因此在對(duì)本體的規(guī)模和復(fù)雜性情況及演變進(jìn)行分析時(shí),合理有效的評(píng)估 方法和指標(biāo)是很關(guān)鍵的。然而,目前的分析評(píng)估方法很少而且不夠系統(tǒng)和全面。
現(xiàn)有的分析評(píng)估方法主要從本體描述能力的角度,針對(duì)本體的構(gòu)詞、語義及結(jié)構(gòu)特點(diǎn)對(duì)本
體質(zhì)量進(jìn)行評(píng)估,主要有下列幾種
1) 美國喬治亞州立大學(xué)的Burton、 Storey、 Sugumaran和Ahluwalia (2003年)從構(gòu)詞法、
語義能力、實(shí)效性和社會(huì)性四個(gè)方面,對(duì)DAML本體的有效性進(jìn)行了評(píng)估,同時(shí)給出了一組 評(píng)價(jià)指標(biāo)。而且在這些指標(biāo)的基礎(chǔ)上,通過加權(quán)函數(shù)計(jì)算得出本體總體質(zhì)量的評(píng)價(jià)指標(biāo)。
2) 美國阿拉巴馬大學(xué)(亨茨維爾)的Yao、 Orme和Etzkorn (2005年)提出的內(nèi)聚指標(biāo) (cohesion metrics),針對(duì)本體中類的數(shù)量及繼承樹的深度,對(duì)OWL本體的模態(tài)相關(guān)性 (modular relatedness)進(jìn)行分析。這些指標(biāo)首先從構(gòu)詞法的角度對(duì)OWL本體進(jìn)行解析,然后
根據(jù)樹狀的語義層次結(jié)構(gòu)計(jì)算而得。從理論上講,這組指標(biāo)比人按經(jīng)驗(yàn)的評(píng)價(jià)方法有效。但 這些標(biāo)準(zhǔn)卻并非是專門針對(duì)本體復(fù)雜度的。
3) 東南大學(xué)的Kang、Xu、Lu和Chu(2004年)用加權(quán)類關(guān)系圖(weighted class dependence graph)表示一個(gè)給定的類,并提出基于熵距離(entropy distance)的方法,對(duì)UML類的結(jié)構(gòu) 復(fù)雜性進(jìn)行評(píng)估。該方法同時(shí)考慮了類和關(guān)系的復(fù)雜性,并將類和關(guān)系的復(fù)雜度值通過一定 的規(guī)則轉(zhuǎn)化為加權(quán)類關(guān)系圖。這種方法能夠比較客觀的分析類的結(jié)構(gòu)復(fù)雜性。
4) 美國喬治亞技術(shù)學(xué)院的His (2004年)在他的博士論文中,通過圖論的方法研究了兩 個(gè)概念完整性指標(biāo)概念一致性(conceptual coherence)和概念復(fù)雜性(conceptual complexity)。 概念一致性指標(biāo)用圖中節(jié)點(diǎn)間的平均距離來考察概念間的相關(guān)性。概念復(fù)雜性指標(biāo)主要體現(xiàn) 為概念圖中每個(gè)節(jié)點(diǎn)的關(guān)系數(shù)及圖中所有節(jié)點(diǎn)的平均度數(shù)。這兩個(gè)指標(biāo)更多是用來衡量單個(gè) 概念的復(fù)雜度問題。
5) 美國BDGP/GO協(xié)會(huì)的Mungall (2005年)以有向非循環(huán)圖(directed acyclic graph, DAG)表示本體的層次結(jié)構(gòu),通過每個(gè)概念的平均路徑數(shù)來衡量本體的復(fù)雜性。但是,在統(tǒng) 計(jì)本體概念總數(shù)時(shí),他沒有把排除那些已經(jīng)廢棄的概念。而在計(jì)算概念的路徑數(shù)時(shí),廢棄概 念的路徑卻是排除在外的。這樣在計(jì)算路徑與概念的比率時(shí),其結(jié)果是不正確的。
上述方法的共性問題是都提出了各自的本體復(fù)雜性的評(píng)估方法和指標(biāo),但方法本身及指標(biāo) 合理性都不夠全面。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有對(duì)本體復(fù)雜性評(píng)估分析方法和指標(biāo)的不足,本發(fā)明提出一種基于概念模型的本 體復(fù)雜性分析評(píng)估方法,以克服現(xiàn)有評(píng)估分析方法不夠系統(tǒng)全面,分析手段較單一,分析的 合理性驗(yàn)證不夠說服力,對(duì)復(fù)雜性變化的原因分析不足等缺點(diǎn)。
為達(dá)上述目的,本發(fā)明采用如下技術(shù)方案
一種基于概念模型的本體復(fù)雜性分析評(píng)估方法,包括以下步驟
1) 獲取所需分析本體的版本,將其轉(zhuǎn)化為DAG圖的格式;
2) 對(duì)單個(gè)本體內(nèi)部的所有概念,按其重要程度從高至低排序,對(duì)排序后的每個(gè)概念統(tǒng)計(jì) 其路徑數(shù)、最大路徑長(zhǎng)度和平均路徑長(zhǎng)度,并以表格形式存儲(chǔ);分析單個(gè)本體的復(fù)雜性分布 的性質(zhì)和規(guī)律。
作為本發(fā)明方法的一種改進(jìn),所述步驟2)中,對(duì)于重要程度相同的概念,再按其平均路
徑長(zhǎng)度值由小至大排序。
作為本發(fā)明方法的又一改進(jìn),所述步驟1)中,獲取所需分析本體的版本為多個(gè)演變版本,
在所述步驟2)之后,還包括以下步驟
3) 對(duì)本體的各個(gè)演變版本,統(tǒng)計(jì)本體擁有的概念數(shù)、關(guān)系數(shù)、路徑數(shù)、最大路徑長(zhǎng)度、 平均路徑長(zhǎng)度、平均關(guān)系數(shù)、平均路徑數(shù)和本體最長(zhǎng)路徑與平均路徑長(zhǎng)度的比率,以表格形 式存儲(chǔ);分析本體的各個(gè)不同版本的復(fù)雜性演變的性質(zhì)、規(guī)律和趨勢(shì)。
在所述步驟3)之后,還包括以下步驟
作為本發(fā)明方法的再一改進(jìn),所述步驟3)之后,還包括以下步驟
4) 將所述步驟2)、步驟3)獲得數(shù)據(jù)結(jié)合,用于分析引起本體復(fù)雜性演變的原因及其與 其復(fù)雜性分布的關(guān)系。
本發(fā)明具有以下優(yōu)點(diǎn)
1、 基于本體共有的基本屬性——概念模型的評(píng)價(jià)指標(biāo)集,概念、關(guān)系和路徑是本體共有 的基本屬性,本體概念模型由概念和關(guān)系的構(gòu)成。本方法主要從概念、關(guān)系和路徑三者的相 互依賴關(guān)系,通過對(duì)本體概念模型的分析,提出了本體復(fù)雜性的評(píng)價(jià)指標(biāo)集。因此本方法的 適用性較廣。
2、 分析對(duì)象同時(shí)包括本體本身和本體中的單個(gè)概念,以往方法的分析對(duì)象往往為整個(gè)本
體,通過一定的評(píng)價(jià)指標(biāo)集對(duì)本體的復(fù)雜性或其它性質(zhì)的演變進(jìn)行分析,但對(duì)組成本體的概 念本身及其結(jié)構(gòu)和層次卻無相應(yīng)評(píng)價(jià)指標(biāo),而實(shí)際上正是由于本體概念的數(shù)量、結(jié)構(gòu)和層次
的變化才導(dǎo)致本體復(fù)雜性的變化。因此本方法中的評(píng)價(jià)指標(biāo)集包括了對(duì)本體中概念的復(fù)雜性 的評(píng)價(jià),從而更加全面和有效。
3、 對(duì)本體概念按其重要程度開展復(fù)雜性分析,本方法提出了 "概念的重要程度"的定義。 概念自身由于所處本體中的層次不同,與其它概念的聯(lián)系數(shù)量不同而有著不同的復(fù)雜性,整 個(gè)本體的復(fù)雜性是由所有概念共同產(chǎn)生的,那些與較多其它概念產(chǎn)生聯(lián)系的較重要概念,其 對(duì)本體的復(fù)雜性的"貢獻(xiàn)"也較高。對(duì)概念按重要程度進(jìn)行分析, 一方面可以由此看清整個(gè) 本體內(nèi)部的復(fù)雜性分布,另一方面還可對(duì)本體演變過程中復(fù)雜性變化產(chǎn)生的內(nèi)部原因進(jìn)行更 好的深入研究。
圖1至圖3為BP本體的復(fù)雜性演變圖。
圖4至圖6為CC本體的復(fù)雜度演變圖。
圖7至圖9為MF本體的復(fù)雜度演變圖。
圖10為2005年9月GO本體的路徑和度數(shù)分布圖。
圖11為GO本體各個(gè)演變版本的路徑分布統(tǒng)計(jì)圖。
圖12為GO本體各個(gè)演變版本的概念和路徑變化圖。
具體實(shí)施例方式
一種基于概念模型的本體復(fù)雜性分析評(píng)估方法,為便于說明本方法,首先給出下面一些定
義
概念本體概念模型中的概念是廣義上的概念,除了一般意義上的概念以外,可以指任何 事務(wù),如任務(wù)、功能、行為、策略、推理過程等等,用小寫符號(hào)C表示。在其他本體中,"概
念"(Concept)可能被稱為"類"(Class)或者"術(shù)語"(Term)。
概念集概念模型中所有概念組成的集合,用大寫符號(hào)C表示,即C—c,,q,…,cg。概
念集中的元素個(gè)數(shù)IC卜m,表示概念模型中包含w個(gè)概念。
關(guān)系本體概念模型中的關(guān)系是指概念之間的相互作用,用小寫符號(hào)r表示。本方法中的
關(guān)系只包含那些反映概念間繼承或?qū)傩躁P(guān)系(is—a)和部分與整體的關(guān)系(part—of)。
關(guān)系集概念模型中所有的關(guān)系組成的集合,用大寫符號(hào)及表示,即及-^,^…人l。關(guān)
系集及中的元素個(gè)數(shù)l及卜w,表示概念模型中包含"個(gè)關(guān)系。
本體概念模型所反映的概念層次結(jié)構(gòu)可以用有向非循環(huán)圖(DAG, Directed Acyclic Graph) 表示,圖中每個(gè)節(jié)點(diǎn)代表一個(gè)概念,每條有向弧表示概念間的層次關(guān)系。圖中有向弧的方向 定義為如果概念c,是。的一部分(即part—of關(guān)系),或者c,.是。的繼承概念或?qū)傩愿拍?即
is一a關(guān)系),則存在一條從c,指向。的有向弧",?!怠,.為有向弧的始點(diǎn),。為有向弧的終點(diǎn)。
c,.作為有向弧的始點(diǎn)的次數(shù),稱為c,的出度,記為cT(c,.);。作為有向弧的終點(diǎn)的次數(shù),稱為
c,.的入度,記為cT(c^; c,的出度與入度之和,稱為&的度,記為<formula>formula see original document page 6</formula>—般概念在本體概念模型的DAG圖中,那些出度為零的概念,記為cj。 一般地,在本
體概念模型中至少存在一個(gè)一般概念。
路徑在本體概念模型的DAG圖中,從概念c,.到一般概念化的一條有向弧的通路,稱為
概念^的一條路徑,通路的長(zhǎng)度稱為路徑長(zhǎng)度。若概念c,存在多條路徑,用小寫符號(hào)A表示
概念。擁有的路徑數(shù),用^/表示概念。的第_/條路徑,用/ //表示£:,的第_/條路徑長(zhǎng)度。
路徑集在本體概念模型的DAG圖中,所有概念的路徑/V組成的集合,用大寫符號(hào)P表
示。集合尸中元素的個(gè)數(shù)l戶l-h表示本體概念模型中包含;t條路徑。a、、,7槲 z、
; ///;^
上面兩個(gè)指標(biāo)主要用于衡量概念c,與一般概念間的語義距離.
2、 本體復(fù)雜性指標(biāo) 2.1基本指標(biāo)集
在本體概念模型的基礎(chǔ)上,下面給出衡量本體復(fù)雜性的基本指標(biāo)集及計(jì)算方法 W:本體擁有的概念數(shù),|C| = m。
:本體擁有的關(guān)系數(shù),|及| ="。
h本體擁有的路徑數(shù),|P| = A:。
附和n是本體的基本屬性,能夠反映本體基本規(guī)模的變化。A的大小則反映了本體概念間
層次結(jié)構(gòu)的復(fù)雜程度。
A:本體的最大路徑長(zhǎng)度,A-max(;i,.), lS/S/w。
X:本體的平均路徑長(zhǎng)度,X= ^; ///t。
這兩個(gè)指標(biāo)主要用于衡量本體從一般概念衍生出來的概念覆蓋度。
2.2復(fù)雜性指標(biāo)集
A:本體概念的平均關(guān)系數(shù),// = "/m,它反映了概念間的平均關(guān)聯(lián)度。
本體概念的平均路徑數(shù),= 對(duì)于任何本體來說,除了一般概念外,其他每個(gè)
概念至少有一個(gè)父概念,因此/ 必定大于等于1。如果p-l,則說明本體的概念模型是一棵 樹。因?yàn)槊總€(gè)概念都只有一個(gè)父概念,因此只有一條路徑可達(dá)一般概念。如果每個(gè)概念的平 均關(guān)系數(shù)越多,則本體的平均路徑數(shù)越多,即//越大,p越大,兩者成正比。
本體最長(zhǎng)路徑與平均路徑長(zhǎng)度的比率,C7 = A/X。該指標(biāo)主要衡量本體概念的聚合度
及密集度。
根據(jù)上文提出的"概念重要程度"的概念及其定義,以及一套衡量本體及其內(nèi)部概念的復(fù) 雜性指標(biāo)集,在此基礎(chǔ)上可對(duì)本體的復(fù)雜性演變及分布進(jìn)行分析和評(píng)估乃至預(yù)測(cè)。主要步驟
如下
1) 獲取所需分析本體的各個(gè)演變版本,將其轉(zhuǎn)化為DAG圖的格式,便于計(jì)算機(jī)統(tǒng)計(jì)處
理;
2) 對(duì)單個(gè)本體內(nèi)部的所有概念,按其重要程度從高至低排序,對(duì)于重要程度相同的概念, 按其X值由小至大排序,對(duì)以上二者都相同的概念,按其路徑數(shù)A由大至小排序。對(duì)排序后
的每個(gè)概念c,計(jì)算得出其p,.,;i,.和X,以表格形式存儲(chǔ);
3) 對(duì)本體的各個(gè)演變版本,統(tǒng)計(jì)/ , ", *, A, X, /i, p和O",以表格形式存儲(chǔ);
4) 對(duì)步驟2)中的統(tǒng)計(jì)結(jié)果進(jìn)行制圖,用于分析單個(gè)本體的復(fù)雜性分布的性質(zhì)和規(guī)律; 對(duì)步驟3)中的統(tǒng)計(jì)結(jié)果進(jìn)行制圖,用于分析本體的各個(gè)不同版本的復(fù)雜性演變的性質(zhì)、規(guī)律 和趨勢(shì);將步驟2), 3)結(jié)合制圖,用于分析引起本體復(fù)雜性演變的原因及其與其復(fù)雜性分布 的關(guān)系。
為了驗(yàn)證本發(fā)明實(shí)施例的有效性,本實(shí)施例中,選對(duì)GO本體進(jìn)行分析驗(yàn)證。GO是一個(gè)
典型的大規(guī)模、標(biāo)準(zhǔn)化、并行開發(fā)的本體,在生物學(xué)領(lǐng)域已有廣泛應(yīng)用。分析對(duì)象是從2002
年12月至2005年6月間每個(gè)月發(fā)布的GO本體文件,從而對(duì)GO本體復(fù)雜性的歷史演變進(jìn)行
了研究。我們首先對(duì)組成GO本體的三個(gè)獨(dú)立的子本體BP (Biological Process,生物過程),
CC (Cellular Component,細(xì)胞組成)和MF (Molecular Function,分子功能)進(jìn)行了分析,
又對(duì)GO本身的各個(gè)版本進(jìn)行了分析。
圖1至圖3所示為BP本體的概念數(shù)(m )、關(guān)系數(shù)(n )和路徑數(shù)(/t)的歷史演變趨勢(shì),
左y軸表示概念數(shù)和關(guān)系數(shù),右j軸表示路徑數(shù)的變化。如圖1所示,BP本體的概念數(shù)和關(guān)
系數(shù)的增長(zhǎng)緩慢而且平穩(wěn),月平均增長(zhǎng)率為1.17%和1.44%;而路徑數(shù)則成階梯狀增長(zhǎng),月平
均增長(zhǎng)率為8.75%。圖2為平均關(guān)系數(shù)/z和平均路徑數(shù)p的歷史演變趨勢(shì),左少軸表示p,右少軸表示p的變 化。如圖所示,BP本體的平均關(guān)系數(shù)增長(zhǎng)緩慢,月平均增長(zhǎng)率為0.26%;而平均路徑數(shù)的增 長(zhǎng)很快,月平均增長(zhǎng)率為7.51%。但兩者的增長(zhǎng)是同步的,表現(xiàn)為兩條曲線在同一個(gè)時(shí)間點(diǎn)上, 同時(shí)出現(xiàn)躍遷現(xiàn)象。因?yàn)槁窂绞怯申P(guān)系構(gòu)成的,因此;/的微小增長(zhǎng)會(huì)導(dǎo)致p在數(shù)量上的巨大 變化。
圖3所示為最大路徑長(zhǎng)度A、平均路徑長(zhǎng)度X和兩者的比值c的歷史演變趨勢(shì),左少軸表 示A和X,右y軸表示c7的變化。如圖所示,因?yàn)?T的值都沒有大于2,說明半數(shù)以上的概念 緊緊圍繞在一般概念的周圍,因此BP本體的概念聚合度比較好。A的增長(zhǎng)非常穩(wěn)定,說明本 體概念的覆蓋范圍定期向外進(jìn)行延伸。X的增長(zhǎng)相對(duì)緩慢,月平均增長(zhǎng)率為0.48%,說明本體 概念的密集度沒有較大的變化。
圖4至圖6所示為CC本體復(fù)雜性的演變趨勢(shì),圖形的配置與圖1至圖3 —致。
如圖4所示,CC本體的概念數(shù)和關(guān)系數(shù)的增長(zhǎng)緩慢而且平穩(wěn),月平均增長(zhǎng)率為1.28%和 1.92%;而路徑數(shù)則成階梯狀增長(zhǎng),月平均增長(zhǎng)率為7.24%。
如圖5所示,CC本體的平均關(guān)系數(shù)增長(zhǎng)緩慢,月平均增長(zhǎng)率為0.63%;而平均路徑數(shù)的 增長(zhǎng)很快,月平均增長(zhǎng)率為5.88%,而且兩者的增長(zhǎng)也是同步的。如圖6所示,CC本體的o"的值大多大于2,說明CC本體的概念聚合度比較松散。A的
增長(zhǎng)非常穩(wěn)定,說明本體概念的覆蓋范圍定期向外進(jìn)行延伸。X的增長(zhǎng)相對(duì)緩慢,月平均增 長(zhǎng)率為0.47%,說明本體概念的密集度沒有較大的變化。
通過圖4至圖6與與圖1至圖3的對(duì)比可知,BP本體和CC本體復(fù)雜性的基本特點(diǎn)及演 變規(guī)律基本一致。
圖7至圖9所示為MF本體復(fù)雜性的演變趨勢(shì),圖形的配置與圖4至圖6 —致。如圖7所 示,MF本體的概念數(shù)和關(guān)系數(shù)在2003年第三季度時(shí)出現(xiàn)連續(xù)的巨大增長(zhǎng),之后又略有下降, 其余大部分時(shí)間內(nèi)的增長(zhǎng)相當(dāng)緩慢,月平均增長(zhǎng)率僅為1.07%和0.91%。而路徑數(shù)的增長(zhǎng)趨勢(shì) 與概念數(shù)和關(guān)系數(shù)是一致的,但波動(dòng)幅度更大。這是由于路徑是由關(guān)系構(gòu)成的,關(guān)系數(shù)出現(xiàn) 較小的變化會(huì)導(dǎo)致路徑數(shù)出現(xiàn)較大的波動(dòng)。如圖8所示,MF本體的平均關(guān)系數(shù)和平均路徑數(shù) 的起伏很大,但兩者的波動(dòng)基本是同步的。這說明在MF本體的構(gòu)建過程中,出現(xiàn)過較大的 反復(fù)。如圖9所示,MF本體的o"的值大多大于2,說明MF本體的概念聚合度比較松散。A的
起伏較大,說明概念覆蓋的最外延變化較大。但X的變化非常平穩(wěn),月平均增長(zhǎng)率僅為0.02%, 說明本體概念的密集度基本沒有變化。
圖10為對(duì)GO中所有概念的度數(shù)《和路徑數(shù)p,的分布統(tǒng)計(jì)。由于GO過于龐大,無法顯
示所有概念的《和p,,因此以200個(gè)概念為一組,不足200的最后55個(gè)概念單獨(dú)作為一組,
計(jì)算這些組的平均度數(shù)和平均路徑數(shù)得到圖10。圖10中,x軸數(shù)字為以200個(gè)為一組的概念
組標(biāo)號(hào),標(biāo)號(hào)數(shù)越大表示重要程度越低。左邊y軸用于概念組的平均路徑數(shù)分布,右邊^(qū)軸用
于概念組的平均度數(shù)分布。從圖10中可看出,平均路徑數(shù)在開始還具有一定程度的較大波動(dòng), 在第5組達(dá)到最高峰,為127.24。但其總趨勢(shì)是按概念的重要程度的降低而減小。而平均度 數(shù)在第一組就具備最大值,為14.75,然后隨著組號(hào)遞增而遞減,中間有一些小波動(dòng)??梢哉f 2005年9月GO本體的大部分路徑數(shù)和度數(shù)是分布于少數(shù)重要概念上的,經(jīng)計(jì)算這個(gè)比例是-70%的路徑數(shù)和度數(shù)分布在按重要程度排序的前20.85%和前42.52%的概念上。
對(duì)自2002年12月至2005年9月的所有GO本體的概念進(jìn)行概念排序后,統(tǒng)計(jì)其70%路
徑數(shù)分布情況得到圖ll。圖11中左邊y軸用于路徑數(shù)h右邊的y軸用于百分比曲線。百分
比的意義是某個(gè)特定時(shí)間版本GO的70%路徑數(shù)分布在其概念排序后的前百分之多少的概 念上。從圖中可看出,百分比基本在20%至40%之間,其具體的表現(xiàn)形式為一段時(shí)間的較小 波動(dòng),然后產(chǎn)生一次突減。對(duì)比兩條曲線可發(fā)現(xiàn),路徑數(shù)it突增的時(shí)間也基本是百分比突減的 時(shí)間。這些表明,GO本體路徑數(shù)的每次突增就對(duì)應(yīng)著其路徑分布的更加集中。
圖12中左邊j軸用于曲線St1000,右邊y軸用于路徑增量曲線。Stl000曲線表示,在對(duì)
每個(gè)月的GO本體的概念按重要程度排序后,其前1000個(gè)概念與前一個(gè)月的前1000個(gè)概念 不匹配的個(gè)數(shù),以05年9月的GO為例,它的前1000個(gè)概念中,有22個(gè)概念不在05年8 月GO的前1000個(gè)概念里。路徑增量曲線表示每個(gè)月的GO本體的路徑數(shù)相對(duì)于前一個(gè)月的 增量。從圖12中可看出,當(dāng)路徑增量的絕對(duì)值較小時(shí),Stl000也較小,在路徑增量有較大 變化時(shí),St1000也相應(yīng)有較大變化。分析可得出,GO本體復(fù)雜度發(fā)生較大變化的時(shí)候也正是 其較重要概念變動(dòng)較大的時(shí)候。復(fù)雜度的較大變化可能是由于一些新的重要概念的引入,也 可能是由于對(duì)領(lǐng)域的重新認(rèn)識(shí)導(dǎo)致整個(gè)本體結(jié)構(gòu)的變化使得重要概念的順序產(chǎn)生較大變動(dòng)。 這點(diǎn)也說明了對(duì)領(lǐng)域要清晰認(rèn)識(shí),對(duì)重要概念要精心設(shè)計(jì)的原因。在本體演變過程中,應(yīng)盡 量避免對(duì)較重要概念的改動(dòng),這往往意味著本體復(fù)雜性的重大變化。 上述對(duì)GO本體的復(fù)雜性的分析結(jié)果充分驗(yàn)證了本方法的有效性。
權(quán)利要求
1、一種基于概念模型的本體復(fù)雜性分析評(píng)估方法,其特征在于包括以下步驟1)獲取所需分析本體的版本,將其轉(zhuǎn)化為DAG圖的格式;2)對(duì)單個(gè)本體內(nèi)部的所有概念,按其重要程度從高至低排序,對(duì)排序后的每個(gè)概念統(tǒng)計(jì)其路徑數(shù)、最大路徑長(zhǎng)度和平均路徑長(zhǎng)度,并以表格形式存儲(chǔ);分析單個(gè)本體的復(fù)雜性分布的性質(zhì)和規(guī)律。
2、 根據(jù)權(quán)利要求1所述的基于概念模型的本體復(fù)雜性分析評(píng)估方法,其特征在于所述步驟 2)中,對(duì)于重要程度相同的概念,再按其平均路徑長(zhǎng)度值由小至大排序。
3、 根據(jù)權(quán)利要求1或2所述的基于概念模型的本體復(fù)雜性分析評(píng)估方法,其特征在于所述 步驟1)中,獲取所需分析本體的版本為多個(gè)演變版本,在所述步驟2)之后,還包括以 下步驟3)對(duì)本體的各個(gè)演變版本,統(tǒng)計(jì)本體擁有的概念數(shù)、關(guān)系數(shù)、路徑數(shù)、最大路 徑長(zhǎng)度、平均路徑長(zhǎng)度、平均關(guān)系數(shù)、平均路徑數(shù)和本體最長(zhǎng)路徑與平均路徑長(zhǎng)度的比率, 以表格形式存儲(chǔ);分析本體的各個(gè)不同版本的復(fù)雜性演變的性質(zhì)、規(guī)律和趨勢(shì)。
4、 根據(jù)權(quán)利要求3所述的基于概念模型的本體復(fù)雜性分析評(píng)估方法,其特征在于在所述步 驟3)之后,還包括以下步驟4)將所述步驟2)、步驟3)獲得數(shù)據(jù)結(jié)合,用于分析引起本體復(fù)雜性演變的原因及其與其復(fù)雜性分布的關(guān)系。
全文摘要
一種基于概念模型的本體復(fù)雜性分析評(píng)估方法,主要包括以下步驟1)獲取所需分析本體的版本,將其轉(zhuǎn)化為DAG圖的格式;2)對(duì)單個(gè)本體內(nèi)部的所有概念,按其重要程度從高至低排序,對(duì)排序后的每個(gè)概念統(tǒng)計(jì)其路徑數(shù)、最大路徑長(zhǎng)度和平均路徑長(zhǎng)度,并以表格形式存儲(chǔ);分析單個(gè)本體的復(fù)雜性分布的性質(zhì)和規(guī)律。所述步驟2)中,對(duì)于重要程度相同的概念,再按其平均路徑長(zhǎng)度值由小至大排序。本發(fā)明從概念、關(guān)系和路徑三者的相互依賴關(guān)系,通過對(duì)本體概念模型的分析,克服了現(xiàn)有評(píng)估分析方法不夠系統(tǒng)全面,分析的合理性驗(yàn)證不夠說服力,對(duì)復(fù)雜性變化的原因分析不足等缺點(diǎn),適用范圍廣泛。
文檔編號(hào)G06F17/00GK101114275SQ200610029310
公開日2008年1月30日 申請(qǐng)日期2006年7月24日 優(yōu)先權(quán)日2006年7月24日
發(fā)明者釧 葉, 張大陸, 哲 楊 申請(qǐng)人:同濟(jì)大學(xué)