專利名稱::一種基因注釋語義相似度的計算方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種基因注釋語義相似度的計算方法,屬于生物信息學(xué)(Bioinformatics)技術(shù)令頁域。
背景技術(shù):
:基因本體(geneontology,GO)是重要的基因注釋數(shù)據(jù)庫,生物學(xué)家常常使用AmiG0、QuickG0等在線工具檢索基因G0注釋。獲得基因注釋之后,需要比較基因注釋語義的相似程度,即考察某些基因的功能是否相似,或者某些基因是否共同參與了某些物質(zhì)的代謝過程等。目前比較基因的相似性主要依靠手工完成,由于生物學(xué)家通常需要比較幾十,甚至成百上千條基因,如果用手工比較這么多基因的相似性,那么將是十分耗時耗力的工作,而且手工比較還會受到主觀因素的影響。用計算機(jī)快速自動地比較基因的相似性成為解決這個問題的重要方法,而在這種方法中,如何準(zhǔn)確地計算基因的相似度成為解決這個問題的關(guān)鍵。計算基因注釋語義的相似度常以GO為基礎(chǔ)?;贕O計算基因注釋語義相似度的基本方法是先將基因通過基因關(guān)聯(lián)文件(http:〃www.geneontology.org/GO.current,annotations,sht.ml)映射至ljGO圖的結(jié)點上,獲得基因注釋,計算被映射的G0結(jié)點的相似度;然后用GO結(jié)點的相似度計算基因注釋語義相似度。目前已有一些文獻(xiàn)報道了計算GO結(jié)點相似度的方法。這些方法中絕大部分是以Resnik's的方法為基礎(chǔ)。Resnik's方法最初是應(yīng)用于文本詞匯語義分類,后來被應(yīng)用到G0結(jié)點的語義分類上。應(yīng)用Resnik's方法計算基因注釋語義相似度的過程是先將基因映射到C'0圖結(jié)點上,并對被映射的GO結(jié)點及其祖先結(jié)點計數(shù),根據(jù)計數(shù)結(jié)果計算結(jié)點的信息量,通過結(jié)點信息量計算結(jié)點的相似度,最后以GO結(jié)點相似度計算基因的相似度。雖然Jiang等人對Resnik's方法作了改進(jìn),考慮了結(jié)點深度對語義相似度的影響,但是只要是基于Resnik's方法都有兩個缺點第一、這種方法以結(jié)點計數(shù)為基礎(chǔ),忽視了"屬于(is-a)"和"部分屬于(part-of)"兩種不同關(guān)系對結(jié)點相似度的不同影響;第二、Resnik's方法計算的結(jié)點語義相似度不可以被重復(fù)利用,因為兩結(jié)點的語義相似度受到它們所在集合其它結(jié)點的影響。由于結(jié)點相似度不可以重復(fù)利用,因此相同的結(jié)點在不同的集合中必需重復(fù)計算相似度,當(dāng)需比較的結(jié)點數(shù)目很多時,則需要消耗大量的計算機(jī)時空資源,這是Resnik's方法最主要的缺陷。最近由Wang等人提出了一種根據(jù)關(guān)系分層遞減計算GO結(jié)點權(quán)重,再按GO結(jié)點權(quán)重計算結(jié)點語義相似度的方法。這種方法將需要計算相似度的結(jié)點權(quán)重定義為1,若其父結(jié)點與它的關(guān)系是"is-a",則其父結(jié)點的權(quán)重為它的權(quán)重與一個常數(shù)(Wang等人建議取0.8)的積;若其父結(jié)點與它的關(guān)系是"part-of",則其父結(jié)點的權(quán)重為它的權(quán)重與另一個常數(shù)(Wang等人建議取0.6)的積,依次類推。若有GO結(jié)點〃,"'是"的祖先結(jié)點,如果從"'到"有多條路徑,每條路徑均可計算出不同的權(quán)重值,那么以最大權(quán)重值表示該結(jié)點的權(quán)重值,而忽視較小權(quán)重值的影響。Wang's方法有兩個缺點第一、按關(guān)系分層遞減比例難以確定,Wang建議取0.8和0.6,實際上有很大的隨意性,而遞減比較的確定對GO結(jié)點相似度有直接影響;第二、以最大權(quán)重值表示祖先點的權(quán)重值,忽視了不同路徑對GO結(jié)點相似度的影響。因此目前還沒有一種準(zhǔn)確計算基因注釋語義相似度的方法。
發(fā)明內(nèi)容本發(fā)明的目的在于針對現(xiàn)有技術(shù)缺陷,提供一種基因注釋語義相似度計算的方法,這種方法能準(zhǔn)確計算出基因注釋語義的相似度。為了實現(xiàn)上述目的,本發(fā)明采用的構(gòu)思是首先根據(jù)基因關(guān)聯(lián)文件將基因與GO結(jié)點建立關(guān)聯(lián),計算被關(guān)聯(lián)的GO結(jié)點的語義相似度,然后計算基因注釋語義的相似度。為了有助于理解本發(fā)明的技術(shù)方案,首先討論基因本體、GO結(jié)點語義相似度的計算方法,和基因注釋語義相似度的計算方法,然后再描述本發(fā)明的技術(shù)方案。1、基因本體在生物信息學(xué)領(lǐng)域中,GO是最重要的本體之一,由基因本體協(xié)會開發(fā)和維護(hù)。GO以一致的、受控的、結(jié)構(gòu)化的術(shù)語注釋基因,有效地解決了在不同數(shù)據(jù)庫中描述相同基因的不一致問題[2]。G0分別從分子功能、生物過程、細(xì)胞成份三個方面描述基因,因而GO中包括三個本體分子功能本體(molecularfunctionontology,MFO)、生物過程本體(biologicalprocessontology,BP0),以及細(xì)胞成份本體(cellularcomponentontology'CC0)。每個本體均以有向非循環(huán)圖(directedacyclicgraph,DAG)的方式組織。圖中的結(jié)點表示注釋基因的術(shù)語,連接結(jié)點的邊表示術(shù)語間的關(guān)系。關(guān)系有兩種"is-a"和"part-of"。在BP0和CC0中,兩種關(guān)系均存在,但是MF0中只有"is-a"關(guān)系。此外,特別值得注意的是,在GO圖中除根結(jié)點外的所有結(jié)點均允許有多個父結(jié)點和多個子結(jié)點,這一點與一般的本體不同,也正是這一點導(dǎo)致計算GO結(jié)點相似度比計算一般本體結(jié)點的相似度更復(fù)雜。附圖1為MF0的子圖。2、GO結(jié)點語義相似度的計算方法2.1基本概念考慮附圖1中各結(jié)點的關(guān)系。從根結(jié)點ID3674到ID22891有兩條路徑ID3674—ID5215—ID22857—ID22891和ID3674—ID5215—ID22892—ID22891;ID22891的父結(jié)點有ID22857和ID22892,ID22891的子結(jié)點有ID15665;本發(fā)明中將結(jié)點自身也并入其祖先結(jié)點集合,因此ID22891的祖先結(jié)點有ID3674、ID5215、ID22857、ID22892,以及ID22891。ID22891的后繼結(jié)點有ID15665、ID15166、ID15168,以及附圖中沒有標(biāo)出的其它后繼結(jié)點。根據(jù)以上描述,可以給出以下定義。定義l:在G0圖中,將"到"的路徑集合(thesetofpaths)定義為joaffe《。,fc)={~<h,h,..,&>~|=i)a(fo二ti)a(VZ:(1<n)a(fteporenfe《,+(工)函數(shù)表示結(jié)點^的父結(jié)點集合。定義2:若結(jié)點^是"的祖先結(jié)點,則至少有一條路徑從^到",因此可以定義結(jié)點Z的祖先結(jié)點集合(thesetofancestors)為:(3"casto/^(f)="1,f2,…,&,/11(Vz':(1S/蘭af)#0)}(2)在附圖1中,ancestors(ID22891)={ID3674,ID5215,ID22857,ID22892,ID22891}:ancestors(ID15250)二UD3674'ID5215,ID22857,ID22892,ID22803,ID15267,ID22838,ID5372,ID15250},ID22891與ID15250的共同祖先(thecommonancestors,CAs)結(jié)點有ancestors(ID22891)門ancestors(ID15250)={ID3674,ID5215,ID22857,ID22892},在此集合中,與ID22891和ID15250距離最近的共同祖先(theshortestcommonancestors,SCAs)結(jié)點有{ID22857,ID22892},即結(jié)點ID22857和ID22892分別到ID22891和ID15250的路徑不再經(jīng)過它們共同祖先集合中的其它結(jié)點。因此,可以將f"和"的最近共同祖先結(jié)點集合定義為定義3.={1(冊c/e(戸^s'(""))m7c^(/G^/75仏&))nC^'(D)二(3)這里,"e(戸林,fo))表示路徑集合中包含的所有結(jié)點的集合,2.2影響G0結(jié)點語義相似度的因素GO圖是根據(jù)結(jié)點所對應(yīng)的術(shù)語性質(zhì)不斷分類細(xì)化的結(jié)果。一般情況下,在G0圖中離根結(jié)點越近的結(jié)點,它所表示的術(shù)語概念越抽象,宏觀程度越高,信息量越小,如ID5215只表示"轉(zhuǎn)動活動",沒有具體到哪種轉(zhuǎn)動活動,相反的,結(jié)點離根結(jié)點越遠(yuǎn)的結(jié)點,它所表示的術(shù)語概念越具體,宏觀程度越低,信息量越大,如ID15250表示"水通道活動",水通道轉(zhuǎn)運是一種生物轉(zhuǎn)運方式,此結(jié)點不僅表示出是轉(zhuǎn)運活動,而且指出以水作為其特定的底物,十分具體。在本發(fā)明中,將所有邊的長度均量化為l。下面考慮影響GO結(jié)點語義相似度的因素。路徑距離(thepathdistance,pd)在附圖1中,ID22803"被動跨膜轉(zhuǎn)運活動"與ID22891"特殊底物跨膜轉(zhuǎn)運活動"同屬于工D22857"跨膜轉(zhuǎn)運活動"的子結(jié)點,它們間為"兄弟"關(guān)系。而ID15267"通道轉(zhuǎn)運"是ID22803的子結(jié)點,ID22891與ID15267是"叔孫"關(guān)系。顯然"兄弟"關(guān)系比"叔孫"關(guān)系密切,"兄弟"間的相似程度要比"叔孫"間的相似程度高。若將兩結(jié)點的最近共同祖先結(jié)點分別到這兩結(jié)點所有路徑的平均長度之和定義為兩結(jié)點路徑距離,則ID22803與ID22891的路徑距離為2,ID22891與ID15267的路徑距離為3。兩結(jié)點的路徑距離越大,關(guān)系越疏遠(yuǎn),相似程度越低。結(jié)點"與fo的路徑距離可以表示為<formula>formulaseeoriginaldocumentpage7</formula>(4)這里,'是"與"'的最近共同祖先集合中的元素,f到"和"'可能有多條路徑,函數(shù)&(*)是表示求路徑的長度。第一項^^))表示從,到&所有路徑長度的平均值,第二項與第一項類似。路徑重合度(thesharepath,sp)在附圖1中,ID22803"被動跨膜轉(zhuǎn)運活動"與ID22891"特殊底物跨膜轉(zhuǎn)運活動"是"兄弟"關(guān)系,ID22857"跨膜轉(zhuǎn)運活動"與ID22892"特殊底物轉(zhuǎn)運活動"也是"兄弟"關(guān)系,雖然都是"兄弟"關(guān)系,但是前兩個結(jié)點的概念要比后兩個結(jié)點具體,從語義上看它們也更相似,導(dǎo)致這一結(jié)果的原因是它們的最近共同祖先結(jié)點不同。ID22803與工D22891的最近共同祖先是ID22857,ID22857與ID22892的最近共同祖先是ID5215。ID22857離根結(jié)點ID3674比ID5215遠(yuǎn)離根結(jié)點,若用路徑重合度表示從根結(jié)點到最近共同祖先結(jié)點的所有路徑平均長度,那么ID22803與工D22891的路徑重合度是2,ID22857與ID22892的路徑重合度是1。兩結(jié)點的路徑重合度越大,它們間的語義越相似。結(jié)點/。與"的路徑重合度可以表示為這里ro。,表示根結(jié)點,與公式(4)相似,從根結(jié)點到"和"的最近共同袓先結(jié)點也可能有多條路徑,以所有路徑的平均長度表示"和"的路徑重合度。2.3計算GO結(jié)點的語義相似度根據(jù)以上對影響G0結(jié)點語義相似度因素分析,可以知道兩GO結(jié)點的語義相似度與它們的路徑距離成反比,與它們的路徑重合度成正比,同時為了避免路徑距離或路徑重合度為零的情況發(fā)生,將路徑距離和路徑重合度同時加1,因此可以將GO結(jié)點的語義相似度定義為,、+1將公式(4)和公式(5)代入公式(6),得.,、(i/s(戸由(r(9c^,/0)+1。,、扁("")二^--^^-:JgSC4豐,")由于集合s"^"'")可能存在多個元素,即兩結(jié)點可能有多個最近共同祖先結(jié)點,例如附圖1中ID22891和ID15250的最近共同祖先結(jié)點有ID22857和ID22892。根據(jù)公式(7)每個最近共同祖先結(jié)點都可以計算出一個語義相似度。兩個G0結(jié)點總的語義相似度可以用平均值表示公式(8)表示根據(jù)每個最近共同祖先結(jié)點計算出的語義相似度的平均值表示兩結(jié)點總的語義相似度。公式(8)具有三個特點第一、結(jié)點的語義相似度與結(jié)點所在集合無關(guān),只與結(jié)點在G0上的位置有關(guān),而結(jié)點在GO圖上的位置反映了結(jié)點的生物性質(zhì),因此可以認(rèn)為結(jié)點的語義相似度反映了結(jié)點的生物性質(zhì);第二、以兩結(jié)點間所有路徑的平均長度表示兩結(jié)點的長度,將每條路徑對語義相似度的影響都考慮在內(nèi);第三、可以根據(jù)需要量化不同關(guān)系邊的距離。3、基因注釋語義相似度計算方法在生物學(xué)中,因為一個基因可能有多種生物學(xué)功能,所以一個基因可能映射到多個MF0結(jié)點中,同樣地,也可能映射到多個BPO、CC0結(jié)點中,例如在附圖l中,基因YFL054C映射到ID5215、ID15168、ID15250三個結(jié)點。在這三個結(jié)點中,它們的語義存在包含關(guān)系,ID5215表示"轉(zhuǎn)運活動",ID15168表示"丙三醇跨膜轉(zhuǎn)運活動"、ID15250表示"水通道活動",顯然后兩者的內(nèi)容比前者更具體,在語義上包含了前者的語義。因此可以將基因YFL054C所映射的G0結(jié)點集合約簡為{ID15168,ID15250},約簡后的集合相互間已不存在語義包含關(guān)系,已不能再作約簡。結(jié)點ID5215之所以可以被約簡是由于該結(jié)點位于從根結(jié)點到IW5i68或ID15250的路徑上,如果兩個結(jié)點同時位于同一條路徑上,那么蘊含了它們間存在語義包含關(guān)系。因此可以將G0結(jié)點語義約簡公式定義為re蘭(力={/,,/v..,"!(V/:(1Sz.S")aVA::(1SA;《")a(zVA)ap函(7,,")=0)}(9)公式(9)表示基因g所映射的結(jié)點集合中,各結(jié)點相互間不存在路徑,即沒有包含關(guān)系。若基因&和g"所映射的結(jié)點集合經(jīng)約簡后分別為集合和Tw(p),計算g。和"的語義相似度需要考慮集合和^"""(W中每個元素的影響,基因&和g"總的語義相似度(thegenesemanticsimilarity,GSS)可以表示為'Ire歴(g")1xITe而(g.)I(io)公;語義相似度越大,它們的語義距離就越小,反之語義相似度越小,它們的語義距離就大,語義相似度與語義距離成反比關(guān)系,因此語義距離(thegenesemantic定義為1W式(10)以各語義相似度的平均值表示總的基因注釋語義相似度。通常情況下,根據(jù)上述的發(fā)明構(gòu)思,本發(fā)明的技術(shù)方案如下1、一種基因注釋語義相似度的計算方法,其特征在于從基因本體(geneontology,GO)網(wǎng)站httD:〃www.巡neontology.drg下載基因關(guān)聯(lián)文件和GO文件,根據(jù)基因關(guān)聯(lián)文件將基因名稱與go結(jié)點之間建立關(guān)聯(lián)關(guān)系。然后先計算go結(jié)點的語義相似度,最后計算基因注釋語義相似度。2、根據(jù)1所述的基因注釋語義相似度計算方法,其特征在于go結(jié)點的語義相似度按下列公式計算上式中,w'—^,")表示g0結(jié)點^與"之間的語義相似度;^("'")表示g0結(jié)點&與"的最近共同祖先集合;IS^^(",WI表示go結(jié)點&與"的最近共同祖先集合中的結(jié)點個數(shù);^^W表示g0的根結(jié)點,^表示g0結(jié)點&與"的最近共同祖先集合中的結(jié)點,P"^W^^"0表示從ra^到結(jié)點f的所有路徑的集合,^(戶^(m^'"表示從ra^到結(jié)點^的所有路徑長度的平均值;同樣地,血^"^^》表示結(jié)點f到結(jié)點&的所有路徑長度的平均值,^Kp^K"fo))表示結(jié)點^到結(jié)點&的所有路徑長度的平均值。3、根據(jù)1所述的基因注釋語義相似度計算方法,其特征在于基因注釋語義相似度按下列公式計算上式中,G^^",g")表示基因g'"和g"的注釋語義相似度;&,&)表示經(jīng)基因gw所映射的go結(jié)點經(jīng)約簡后的集合,1Te"""(g》I表示基因gw所映射的go結(jié)點經(jīng)約簡后的集合包含的結(jié)點個數(shù);同樣地,^,^g")表示經(jīng)基因g"所映射的go結(jié)點經(jīng)約簡后的集合,1T^附"g")I表示基因所映射的go結(jié)點經(jīng)約簡后的集合包含的結(jié)點個數(shù)。本發(fā)明的有益效果在于它不但可以自動化地大批量比較基因注釋語義的相似度,而且還可以用于生物文獻(xiàn)的語義檢索,為管理生物文獻(xiàn)提供幫助。另外它還有助于評價基因調(diào)控網(wǎng)絡(luò),進(jìn)而推進(jìn)基因調(diào)控網(wǎng)絡(luò)的構(gòu)建,這一點在系統(tǒng)生物學(xué)上有十分重要的科學(xué)意義。圖1分子功能本體子圖。其中,"{YFL054C}=ID15250:waterchannelactivity"表示基因YFL054C映射到編號為15250的GO結(jié)點上,該結(jié)點的注釋術(shù)語是"waterchannelactivity",即水通道活動。其它結(jié)點與此相同。圖2生物代謝通路示意圖。圖3異亮氨酸降解代謝通路。圖4異亮氨酸降解基因語義距離聚類結(jié)果具體實施例方式本實施例將基因注釋語義相似度的計算方法,用于酵母菌異亮氨酸降解代謝通路中基因注釋語義相似度的計算,以證明本發(fā)明的有效性。在生物學(xué)中,如果某些基因產(chǎn)物共同參與了機(jī)體某個生物化學(xué)反應(yīng),那么說明這些基因具有相同的生物功能。假定有底物A在基因g"」,的產(chǎn)物作用下經(jīng)過3步生化反應(yīng)最終轉(zhuǎn)化為產(chǎn)物D,如附圖2所示。根據(jù)上述論斷,可以認(rèn)為附圖2中g(shù)'Ug4的功能相似,^Ug7的功能相似,W^的功能相似。若將g'U^映射到MF0圖中,根據(jù)公式(ll)計算g'Ug"相互間的語義距離,用這些語義距離可以構(gòu)成一個1()><1()的距離矩陣,以此距離矩陣為基礎(chǔ)進(jìn)行聚類。如果聚類結(jié)果正好將g'u"聚為一類,g5Ug7聚為一類,g』g'。聚為一類,說明聚類結(jié)果與g^,的生物功能分類一致,表明聚類有效,那么間接證明本發(fā)明計算方法正確。在酵母菌數(shù)據(jù)庫(http:〃pathway.yeastgenome.org/biocyc/)中,有150多條酵母菌生物代謝通路,MFO為這些代謝通路中的絕大部分基因提供注釋。為了驗證本發(fā)明提出的方法是否有效,從酵母菌數(shù)據(jù)庫中選取異亮氨酸降解代謝通路根據(jù)上述思路分別進(jìn)行驗證。附圖3表示異亮氨酸降解的代謝通路,從圖中可以看出,整個降解過程分三歩,總共有13個基因。這些基因中,BAT1、BAT2的功能相同;THI3、PDC1、PDC5、PDC6、AR010的功能相同;SFA1、ADH1、ADH2、ADH3、ADH4、ADH5的功能相同。將這13個基因映射到MF0圖上,計算這些基因間的語義距離,計算結(jié)果見表l。從表l中可以—看出BAT1與BAT2的語義距離很小,只有0.17,TM3、PDC1、PDC5、PDC6、AR010間的語義距離最大值小于等于0.82;SFA1、ADH1、ADH2、ADH3、ADH4、ADH5間的i吾義距離最大值小于等于0.55,即說明每組基因的生物功能十分相似。同時,對這13個基因按表1的語義距離進(jìn)行層次式聚類,聚類結(jié)果如附圖4所示。表l參與異亮氨酸降解基因MFO注釋語義距離<table>tableseeoriginaldocumentpage12</column></row><table>注虛線框表示相同家族基因的語義距離,粗線框表示同一參與相同生化反應(yīng)過程基W的語義距離。從附圖3的基因語義聚類結(jié)果中,可以發(fā)現(xiàn)BAT1、BAT2距離很小,功能很相似,被歸為一類;ADH1、ADH2、ADH3、ADH4、ADH5被歸為一類;PDC1、PDC5、PDC6被歸為一類。這三組基因分別屬于三個基因家族,屬于同一家族的基因它們的功能通常相似。因此這正好與它們的生物學(xué)特性相一致。如果類間距離取5.5,如附圖4所示,可將聚類結(jié)果分為三類{THI3、AR010、PDC1、PDC5、PDC6}、UDH1,ADH4,ADH2,ADH3,ADH5,SFA1}和{BAT1,BAT2},則每個類的基因組成正好與異亮氨酸降解的三個步驟的基因組成相一致,表明聚類結(jié)果正確,說明根據(jù)本發(fā)明的方法計算基因注釋的語義距離正確。以上所述僅為本發(fā)明的優(yōu)選實施而已,并不用于限制本發(fā)明,對于本領(lǐng)域或計算機(jī)領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。權(quán)利要求1.一種基因注釋語義相似度的計算方法,其特征在于從基因本體geneontology,GO網(wǎng)站http://www.geneontology.org下載基因關(guān)聯(lián)文件和GO文件,根據(jù)基因關(guān)聯(lián)文件將基因名稱與GO結(jié)點之間建立關(guān)聯(lián);然后先計算GO結(jié)點的語義相似度,最后計算基因注釋語義相似度。2.根據(jù)權(quán)利要求1所述的基因注釋語義相似度計算方法,其特征在于GO結(jié)點的語義相似度按下列公式計算上式中,w'附O,")表示G0結(jié)點L與"之間的語義相似度;SCAsO,fo)表示G0結(jié)點&與"的最近共同祖先集合;ISC^(、fo)J表示G0結(jié)點&與"的最近共同祖先集合中的結(jié)點個數(shù);ro^表示G0的根結(jié)點,^表示G0結(jié)點/。與"的最近共同祖先集合中的結(jié)點,pW/w(raoM)表示從ra^到結(jié)點^的所有路徑的集合,而(戸ffo(roof,,))表示從rao/到結(jié)點/的所有路徑長度的平均值;同樣地,表示結(jié)點^到結(jié)點f。的所有路徑長度的平均值,^foOtffe(f,fo))表示結(jié)點Z到結(jié)點"的所有路徑長度的平均值。3.根據(jù)權(quán)利要求1所述的基因注釋語義相似度計算方法,其特征在于基因注釋語義相似度按下列公式計算<formula>formulaseeoriginaldocumentpage2</formula>上式中,G5S(gm,g")表示基因gm和g"的注釋語義相似度;remw(g一表示基因所映射的GO結(jié)點經(jīng)約簡后的集合,I7^77W(g)I表示基因所映射的GO結(jié)點經(jīng)約簡后的集合包含的結(jié)點個數(shù);同樣地,Ter聰(g")表示基因g"所映射的GO結(jié)點經(jīng)約簡后的集合,IT^7w(&)I表示基因g"所映射的GO結(jié)點經(jīng)約簡后的集合包含的結(jié)點個數(shù)。全文摘要本發(fā)明提供了一種基因注釋語義相似度的計算方法。這種方法通過基因本體協(xié)會提供的基因本體關(guān)聯(lián)文件,將基因與基因本體結(jié)點建立關(guān)聯(lián)。然后先計算基因本體結(jié)點的語義相似度,最后根據(jù)基因本體結(jié)點語義相似度計算基因注釋語義相似度。本發(fā)明的有益效果在于可以自動地、大批量地計算基因注釋語義相似度。文檔編號G06F19/00GK101359349SQ200810040050公開日2009年2月4日申請日期2008年7月1日優(yōu)先權(quán)日2008年7月1日發(fā)明者吳飛珍,姚文娟,施國明,妹王,鄭文嶺,陳啟龍,馬文麗申請人:上海大學(xué)