專利名稱:一種組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及生物信息學(xué)領(lǐng)域,特別是涉及該領(lǐng)域的組織特異性基因的特異性表達(dá) 與調(diào)控因子之間關(guān)系的數(shù)據(jù)庫(kù)技術(shù)。
背景技術(shù):
隨著人類基因組計(jì)劃的完成和計(jì)算生物學(xué)的發(fā)展,積累了大量的基因表達(dá)及其調(diào) 控關(guān)系的數(shù)據(jù),為研究基因表達(dá)及其調(diào)控關(guān)系的組織特異性提供了豐富的信息資源。利用現(xiàn)代的計(jì)算技術(shù)挖掘基因表達(dá)及調(diào)控網(wǎng)絡(luò)組織特異性的內(nèi)在機(jī)制,成為當(dāng)前 生物信息學(xué)最具有挑戰(zhàn)性的任務(wù)之一。然而,現(xiàn)階段由于組織特異性基因及其調(diào)控因子數(shù) 據(jù)分散、生物信息數(shù)據(jù)庫(kù)多而雜,組織與基因以及基因與調(diào)控因子之間的多對(duì)多的復(fù)雜關(guān) 系、標(biāo)注和表達(dá)標(biāo)準(zhǔn)不統(tǒng)一等現(xiàn)狀,使得組織特異性基因表達(dá)調(diào)控機(jī)制的研究者不得不花 大量的時(shí)間首先研究各個(gè)數(shù)據(jù)庫(kù)的內(nèi)容、再搜集并驗(yàn)證組織特異性基因相關(guān)數(shù)據(jù),大大降 低了研究的質(zhì)量和效率。
發(fā)明內(nèi)容
基于上述現(xiàn)有技術(shù),本發(fā)明提出了一種組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方 法,該存儲(chǔ)方法提出了一種新的組織特異性基因及其調(diào)控因子數(shù)據(jù)庫(kù)的基礎(chǔ)架構(gòu);集成了 組織特異性基因調(diào)控區(qū)域模式特征及調(diào)控機(jī)制信息;提供了組織特異性基因分析工具集, 方便數(shù)據(jù)挖掘和快速查詢。本發(fā)明提出了一種組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方法,通過建立包括組織 庫(kù)、基因庫(kù)、基因別名庫(kù)、組織特異性基因庫(kù)及組織特異性基的組織庫(kù)組織特異性基因及調(diào) 控因子數(shù)據(jù)庫(kù)來進(jìn)行數(shù)據(jù)存儲(chǔ),該方法包括以下步驟利用文獻(xiàn)挖掘的形式在醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)抽取出組織特異性基因;將查到的組織信息添加到組織庫(kù)中;利用基因的名字在DNA數(shù)據(jù)庫(kù)、核酸以及蛋白質(zhì)序列、基因序列、蛋白序列功能性 數(shù)據(jù)庫(kù)中檢索基因的信息,并把此信息添加到基因庫(kù)對(duì)應(yīng)的條目中;利用從轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù) 庫(kù)、真核生物啟動(dòng)子數(shù)據(jù)庫(kù)及復(fù)合元件數(shù)據(jù)庫(kù)中查找基因的調(diào)控信息生成基因調(diào)控因子 XML文件;其中,組織庫(kù)包括數(shù)據(jù)庫(kù)中所有組織信息,內(nèi)容包括自增型變量的唯一組織代碼、 組織的名字、組織的類別和組織的描述;基因庫(kù)包括數(shù)據(jù)庫(kù)中所有組織特異性的基因信息, 內(nèi)容包括自增型變量的唯一基因代碼、基因的名字、基因?qū)?yīng)的調(diào)控因子HIil文件和基因 的核酸序列;基因別名庫(kù)中存儲(chǔ)關(guān)于基因庫(kù)中每個(gè)基因的全部或部分別名;組織特異性基 因庫(kù)把組織庫(kù)中的組織和對(duì)此組織有特異性表達(dá)的基因相關(guān)聯(lián),內(nèi)容包括組織基因的自 增型變量的唯一關(guān)聯(lián)關(guān)系代碼、對(duì)應(yīng)組織庫(kù)中的自增型變量的唯一組織代碼、對(duì)應(yīng)基因庫(kù) 中的自增型變量的唯一基因代碼、關(guān)聯(lián)關(guān)系的描述、驗(yàn)證此關(guān)聯(lián)關(guān)系在pmd中文章的代碼pmd_idhe和對(duì)應(yīng)此基因在此組織中的表達(dá)量;組織特異性基因庫(kù)中的每個(gè)條目都分別對(duì) 應(yīng)一個(gè)基因調(diào)控因子XML文件,該文件的訪問路徑被存儲(chǔ)在基因庫(kù)中,該文件用于描述基 因在組織中的所有調(diào)控因子信息,包括轉(zhuǎn)錄起始點(diǎn)的類型及在此基因核酸序列中的位置、 轉(zhuǎn)錄因子綁定位點(diǎn)在此核酸序列中的位置、轉(zhuǎn)錄因子的功能描述、特異性的調(diào)控此組織特 異性基因表達(dá)的所有加強(qiáng)子(enhancer)在此核酸系列中的位置、長(zhǎng)度及功能描述,特異性 的調(diào)控此組織特異性基因表達(dá)的所有沉默子(sliencer)在此核酸系列中的位置、長(zhǎng)度及 功能描述,基因轉(zhuǎn)錄控制區(qū)域模式特征,轉(zhuǎn)錄因子對(duì)基因轉(zhuǎn)錄的調(diào)控機(jī)制??椞禺愋曰蛘{(diào)控區(qū)域模式特征及調(diào)控機(jī)制。本系統(tǒng)通過文獻(xiàn)挖掘和對(duì)存儲(chǔ)在系 統(tǒng)中大量組織特異性基因調(diào)控因子數(shù)據(jù)的分析研究?jī)煞N途徑得到組織特異性基因序列模 式特征及轉(zhuǎn)錄因子的調(diào)控機(jī)制信息,為組織特異性基因調(diào)控特異性表達(dá)的研究提供參考。所述組織特異性基因及調(diào)控因子數(shù)據(jù)庫(kù)還包括織特異性基因分析工具集,該工具 集具體包括 查詢服務(wù),用戶根據(jù)組織名、基因名進(jìn)行查詢,系統(tǒng)根據(jù)組織、組織特異性基因及 其調(diào)控因子的本體描述返回組織特異性基因序列及調(diào)控因子信息的查詢結(jié)果;辨識(shí)服務(wù),基于約束的層次貝葉斯混合模型聚類算法,融合目標(biāo)基因的 已知啟動(dòng)子區(qū)域模式特征和組織特異性的調(diào)控因子信息等先驗(yàn)知識(shí),提供給用戶 Hk(Housekeepinggenes) ^ TS(Tissue Specific genes);組織特異性的序列模式(motif)的發(fā)現(xiàn)服務(wù),利用統(tǒng)計(jì)模型,在對(duì)系統(tǒng)中大量HK 基因和TS基因Promoter區(qū)域序列模式和組織特異性轉(zhuǎn)錄因子綁定模式分析的基礎(chǔ)之上, 通過貝葉斯因子分析,建立融合先驗(yàn)知識(shí)的模式顯著性評(píng)價(jià)的數(shù)學(xué)模型。與現(xiàn)有技術(shù)相比,本發(fā)明能夠使利用現(xiàn)代計(jì)算技術(shù)挖掘基因表達(dá)及調(diào)控網(wǎng)絡(luò)織組 特異性內(nèi)在機(jī)制的研究者,方便獲取組織特異性基因序列及相應(yīng)調(diào)控因子的數(shù)據(jù),充分利 用組織特異性基因分析工具,提高研究的質(zhì)量和效率。
圖1為組織特異性基因及其調(diào)控因子數(shù)據(jù)庫(kù)基礎(chǔ)架構(gòu)E-R圖。
具體實(shí)施例方式組織庫(kù)tissue包括數(shù)據(jù)庫(kù)中所有的組織信息,內(nèi)容有tissue_id、tissue_name、 category、description。其中,tissue_id是自增型的變量,在組織庫(kù)中唯一確定一個(gè)組織; tissue_name對(duì)應(yīng)組織的名字;category對(duì)應(yīng)組織的類別(與EMBL中的分類標(biāo)準(zhǔn)一致); description對(duì)應(yīng)此組織的描述?;驇?kù)gene包括數(shù)據(jù)庫(kù)中所有組織特異性的基因信息,內(nèi)容有g(shù)enejd、gene_ name、tr_factor_url> sequence_link。其中,gene_id是自增型的,在基因庫(kù)中唯一的確 定一個(gè)基因;genejame對(duì)應(yīng)基因的名字(一個(gè)基因可能有多個(gè)名字,此處的gene_name 對(duì)應(yīng)的是EMBL中的基因名字);tr_faCtor_url指向此基因?qū)?yīng)的調(diào)控因子xml文件; sequence」ink對(duì)應(yīng)此基因的核酸序列?;騽e名庫(kù)gene_ref_name中存儲(chǔ)關(guān)于gene庫(kù)中每個(gè)基因的全部或部分別名。 組織特異性基因庫(kù)(tiSSUe_gene)把組織庫(kù)中的組織和對(duì)此組織有特異性表達(dá)的基因相關(guān)聯(lián),內(nèi)容包括 id、tissue_id、gene_id、description、pmd_id, gene_express_value。其 中每個(gè)id確定一個(gè)組織基因的關(guān)聯(lián)關(guān)系,此id是自增型的;tissUe_id對(duì)應(yīng)組織庫(kù)中的 tissue_id ;gene_id 對(duì)應(yīng) gene 庫(kù)中的基因 gene_id ;description 描述此關(guān)聯(lián)關(guān)系;pmd_id 是驗(yàn)證此關(guān)聯(lián)關(guān)系在pmd中文章的id號(hào);gene_express_value對(duì)應(yīng)此基因在此組織中的
表達(dá)量。
每一條目與唯一的XML文件對(duì)應(yīng),并且此文件的訪問路徑被存儲(chǔ)在基因庫(kù)的tr_ factor_url列中。對(duì)于組織、組織特異性基因及基因的調(diào)控信息,系統(tǒng)開發(fā)者利用文獻(xiàn)挖 掘的形式在Pubmed (美國(guó)國(guó)立醫(yī)學(xué)圖書館的醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù))文獻(xiàn)數(shù)據(jù)庫(kù)查找組織特異性 基因,并把查到得組織信息添加到tissue表中;利用基因的名字在EMBL(歐洲分子生物學(xué) 實(shí)驗(yàn)室 EMBL (TheEuropean Molecular Biology Laboratory),于 1974 年由歐洲 14 個(gè)國(guó)家 加上亞洲的以色列共同發(fā)起建立DNA數(shù)據(jù)庫(kù)KGenebank(美國(guó)國(guó)立衛(wèi)生研究院維護(hù)的基因 序列數(shù)據(jù)庫(kù),匯集并注釋了所有公開的核酸以及蛋白質(zhì)序列)、NCBI (美國(guó)國(guó)立衛(wèi)生院建設(shè) 的關(guān)于生物醫(yī)學(xué)網(wǎng)站,提供文獻(xiàn)、基因序列、蛋白序列等的功能性數(shù)據(jù)庫(kù))中檢索基因的信 息,并把此信息添加到gene表對(duì)應(yīng)的條目中;最后,利用從(Transfac關(guān)于轉(zhuǎn)錄因子、它們 在基因組上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù))、EPD(真核生物啟動(dòng)子數(shù)據(jù) 庫(kù)(Eukaryotic Promoter Database,EPD),可在其中檢索真核生物的啟動(dòng)子序列信息)及 compel (復(fù)合元件數(shù)據(jù)庫(kù))數(shù)據(jù)庫(kù)中查找基因的調(diào)控信息生成基因調(diào)控因子XML文件;組織特異性基因庫(kù)中的每個(gè)條目都分別對(duì)應(yīng)一個(gè)基因調(diào)控因子XML文件,此文件 描述此基因在這種組織中的所有調(diào)控因子信息,包括轉(zhuǎn)錄起始點(diǎn)(每個(gè)轉(zhuǎn)錄起始點(diǎn)對(duì)應(yīng)一 個(gè)啟動(dòng)子,查詢者可以根據(jù)研究的需要提取自轉(zhuǎn)錄起始點(diǎn)上下游任意長(zhǎng)度的核酸片段作為 啟動(dòng)子區(qū))的類型(single、multiple、region)及在此基因核酸序列中的位置,轉(zhuǎn)錄因子 (TFBS)綁定位點(diǎn)(每個(gè)轉(zhuǎn)錄起始點(diǎn)對(duì)應(yīng)多個(gè)轉(zhuǎn)錄因子綁定位點(diǎn))在此核酸序列中的位置, 轉(zhuǎn)錄因子(每個(gè)轉(zhuǎn)錄因子綁定位點(diǎn)特異性的對(duì)應(yīng)一個(gè)轉(zhuǎn)錄因子),轉(zhuǎn)錄因子的功能描述,特 異性的調(diào)控此組織特異性基因表達(dá)的所有加強(qiáng)子(enhancer)在此核酸系列中的位置、長(zhǎng) 度及功能描述,特異性的調(diào)控此組織特異性基因表達(dá)的所有沉默子(sliencer)在此核酸 系列中的位置、長(zhǎng)度及功能描述,基因轉(zhuǎn)錄控制區(qū)域模式特征,轉(zhuǎn)錄因子對(duì)基因轉(zhuǎn)錄的調(diào)控 機(jī)制??椞禺愋曰蛘{(diào)控區(qū)域模式特征及調(diào)控機(jī)制。本系統(tǒng)通過文獻(xiàn)挖掘和對(duì)存儲(chǔ)在系 統(tǒng)中大量組織特異性基因調(diào)控因子數(shù)據(jù)的分析研究?jī)煞N途徑得到組織特異性基因序列模 式特征及轉(zhuǎn)錄因子的調(diào)控機(jī)制信息,為組織特異性基因調(diào)控特異性表達(dá)的研究提供參考。組織特異性基因分析工具集。組織特異性基因分析工具集提供的服務(wù)如下查詢服務(wù);Hk(Housekeeping genes) % TS(Tissue Specific genes)辨識(shí)的服務(wù);組織特異性的序列模式(motif)發(fā)現(xiàn)的服務(wù)。下面結(jié)合附圖實(shí)例對(duì)本發(fā)明做進(jìn)一步說明。首先利用數(shù)據(jù)庫(kù)系統(tǒng)(Mysql),建立包括組織庫(kù)(tissue)、基因庫(kù)(gene)、組織特 異性基因庫(kù)(tiSSue_gene),基因別名庫(kù)(gene_ref_name)在內(nèi)的本發(fā)明的組織特異性基 因及其調(diào)控因子數(shù)據(jù)庫(kù)的基礎(chǔ)架構(gòu)示意圖,如圖1所示?;驇?kù)中的每一條目與唯一的XML文件對(duì)應(yīng),并且此文件的訪問路徑被存儲(chǔ)在基因庫(kù)的tr_factor_Url列中。對(duì)于組織、組織特異性基因及基因的調(diào)控信息,系統(tǒng)開發(fā)者利 用文獻(xiàn)挖掘的形式在Pubmed文獻(xiàn)數(shù)據(jù)庫(kù)查找組織特異性基因,并把查到得組織信息添加 到tissue表中;利用基因的名字在EMBL、Genebank, NCBI中檢索基因的信息,并把此信息 添加到gene表對(duì)應(yīng)的條目中;最后,利用從Transfac、EPD及compel數(shù)據(jù)庫(kù)中查找基因的 調(diào)控信息生成基因調(diào)控因子XML文件< ? xml version = “ 1.0〃 encoding = “ GB2312" standalone = “ yes" ? ><gene> <sequence></sequence>< ! __transcription type = " singal、multiple、regoin〃 __><ts_type value =" >< ! __if s_type value = ' singal' ,there is only one ts_position ; if ts_type = ' multiple' there are manyts_position—><ts position =" >< 丨 __if there are more than one transcription factors binding sites, there will be a coupleof tags—><tfbs position =" ><tf>" </tf><function_description>" </function_description></tfbs></ts>< ! —if ts_position = ' region'—><ts_start_position>" </ts_start_position><ts_length>" </ts_length></ts_type><trans_control_motif>" </trans_control_motif>< ! --if there are more than one transcription control motifs, there will be a couple of tags—><enhancer>< ! —if there are more than one enhancer,there will be a couple of tags—><position>" </position><sequence>" </sequence)<description>" </description)</enhancer><sliencer>< ! —if there are more than one sliencer,there will be a coupleof tags—>〈position〉" 〈/position〉<sequence>" </sequence)<description>" </description)</sliencer> </gene>其次本系統(tǒng)通過文獻(xiàn)挖掘和對(duì)存儲(chǔ)在系統(tǒng)中大量組織特異性基因調(diào)控因子數(shù)據(jù) 的分析研究?jī)煞N途徑得到組織特異性基因序列模式特征及轉(zhuǎn)錄因子的調(diào)控機(jī)制信息,并把 此信息用組織特異性基因調(diào)控因子XML文件描述。為組織特異性基因調(diào)控特異性表達(dá)的研 究提供參考。再次系統(tǒng)提供組織特異性基因分析工具集,提供的服務(wù)有查詢服務(wù); Hk(Houseke印inggenes)與TS (Tissue Specific genes)的辨識(shí)服務(wù);組織特異性的序列 模式(motif)的發(fā)現(xiàn)服務(wù)。發(fā)明者利用現(xiàn)存web開發(fā)技術(shù)jsp實(shí)現(xiàn)檢索功能,系統(tǒng)接受用戶的輸入關(guān)鍵字后, 根據(jù)關(guān)鍵字的類型(基因名、組織名、PMD_ID)采取不同的底層操作。當(dāng)關(guān)鍵字類型為“基 因名”時(shí),系統(tǒng)首先查找gene別名庫(kù)表,查找與此基因同名的條目,取出genejd列,并依據(jù) 此列信息查找gene庫(kù)表,在查到的結(jié)果中取出除“tr_factor_url ”列返回給用戶,如果用 戶選擇“查看基因的詳細(xì)信息”時(shí),系統(tǒng)根據(jù)“tr_faCtor_Url”所指示的路徑讀取基因調(diào)控 信息XML文件的內(nèi)容,如果用戶選擇查看與此基因相關(guān)的組織信息時(shí),系統(tǒng)通過genejd參 數(shù)查詢tissue庫(kù),并把查詢結(jié)果顯示給用戶,并可根據(jù)用戶制定的顯示模式顯示給用戶。 當(dāng)關(guān)鍵字類型為“組織名”時(shí),系統(tǒng)首先查找組織庫(kù),查找與此組織同名的條目,取出此條目 的所有信息,同時(shí)系統(tǒng)提取查到條目的“tissuejd”列,并依據(jù)“tissuejd”查找tissue— gene庫(kù),找到所有的與此組織相關(guān)的基因后,在利用"genejd"檢索gene庫(kù),查找與此基 因同名的條目,取出此條目除“tr_factor_Url”列返回給用戶,如果用戶選擇“查看基因的 詳細(xì)信息”時(shí),系統(tǒng)根據(jù)“tr_factor_Url,,所指示的路徑讀取基因調(diào)控信息XML文件的內(nèi) 容,并可根據(jù)用戶制定的顯示模式顯示給用戶。當(dāng)關(guān)鍵字類型為“PMD_ID”時(shí),系統(tǒng)接收參 數(shù)后,檢索genejissue庫(kù)表,依據(jù)此表中的“PMD_ID”號(hào)檢索與此列相同的條目。系統(tǒng)利 用檢索得到條目中的gene_id信息查找gene表,返回給用戶所有與此基因相關(guān)的序列信息 和調(diào)控信息;系統(tǒng)利用檢索到得條目中的tissuejd信息查找tissue表,返回給用戶此組 織的相關(guān)信息。系統(tǒng)基于約束的層次貝葉斯混合模型聚類算法,融合目標(biāo)基因的已知啟動(dòng)子區(qū)域 模式特征和組織特異性的調(diào)控因子信息等先驗(yàn)知識(shí),提供給用戶Hk (Houseke印ing genes) 與 TS (Tissue Specific genes)的辨識(shí)服務(wù);利用統(tǒng)計(jì)模型,在對(duì)系統(tǒng)中大量HK基因和TS基因Promoter區(qū)域序列模式和組織 特異性轉(zhuǎn)錄因子綁定模式分析的基礎(chǔ)之上,通過貝葉斯因子分析,建立融合先驗(yàn)知識(shí)的模 式顯著性評(píng)價(jià)的數(shù)學(xué)模型,提供發(fā)現(xiàn)組織特異性的序列模式(motif)的服務(wù)。
權(quán)利要求
一種組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方法,通過建立包括組織庫(kù)、基因庫(kù)、基因別名庫(kù)、組織特異性基因庫(kù)及組織特異性基的組織庫(kù)的組織特異性基因及調(diào)控因子數(shù)據(jù)庫(kù)來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),該方法包括以下步驟利用文獻(xiàn)挖掘的形式在醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(kù)抽取出組織特異性基因;將查到的組織信息添加到組織庫(kù)中;利用基因的名字在DNA數(shù)據(jù)庫(kù)、核酸以及蛋白質(zhì)序列、基因序列、蛋白序列功能性數(shù)據(jù)庫(kù)中檢索基因的信息,并把此信息添加到基因庫(kù)對(duì)應(yīng)的條目中;利用從轉(zhuǎn)錄因子、它們?cè)诨蚪M上的結(jié)合位點(diǎn)和與DNA結(jié)合的profiles的數(shù)據(jù)庫(kù)、真核生物啟動(dòng)子數(shù)據(jù)庫(kù)及復(fù)合元件數(shù)據(jù)庫(kù)中查找基因的調(diào)控信息生成基因調(diào)控因子XML文件;其中,組織庫(kù)包括數(shù)據(jù)庫(kù)中所有組織信息,內(nèi)容包括自增型變量的唯一組織代碼、組織的名字、組織的類別和組織的描述;基因庫(kù)包括數(shù)據(jù)庫(kù)中所有組織特異性的基因信息,內(nèi)容包括自增型變量的唯一基因代碼、基因的名字、基因?qū)?yīng)的調(diào)控因子xml文件和基因的核酸序列;基因別名庫(kù)中存儲(chǔ)關(guān)于基因庫(kù)中每個(gè)基因的全部或部分別名;組織特異性基因庫(kù)把組織庫(kù)中的組織和對(duì)此組織有特異性表達(dá)的基因相關(guān)聯(lián),內(nèi)容包括組織基因的自增型變量的唯一關(guān)聯(lián)關(guān)系代碼、對(duì)應(yīng)組織庫(kù)中的自增型變量的唯一組織代碼、對(duì)應(yīng)基因庫(kù)中的自增型變量的唯一基因代碼、關(guān)聯(lián)關(guān)系的描述、驗(yàn)證此關(guān)聯(lián)關(guān)系在pmd中文章的代碼pmd_idhe和對(duì)應(yīng)此基因在此組織中的表達(dá)量;組織特異性基因庫(kù)中的每個(gè)條目都分別對(duì)應(yīng)一個(gè)基因調(diào)控因子XML文件,該文件的訪間路徑被存儲(chǔ)在基因庫(kù)中,該文件用于描述基因在組織中的所有調(diào)控因子信息,包括轉(zhuǎn)錄起始點(diǎn)的類型及在此基因核酸序列中的位置、轉(zhuǎn)錄因子綁定位點(diǎn)在此核酸序列中的位置、轉(zhuǎn)錄因子的功能描述、特異性的調(diào)控此組織特異性基因表達(dá)的所有加強(qiáng)子(enhancer)在此核酸系列中的位置、長(zhǎng)度及功能描述,特異性的調(diào)控此組織特異性基因表達(dá)的所有沉默子(sliencer)在此核酸系列中的位置、長(zhǎng)度及功能描述,基因轉(zhuǎn)錄控制區(qū)域模式特征,轉(zhuǎn)錄因子對(duì)基因轉(zhuǎn)錄的調(diào)控機(jī)制。
2.如權(quán)利要求1所述的組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方法,其特征在于,所述 組織特異性基因及調(diào)控因子數(shù)據(jù)庫(kù)還包括織特異性基因分析工具集,該工具集具體包括查詢服務(wù),用戶根據(jù)組織名、基因名進(jìn)行查詢,系統(tǒng)根據(jù)組織、組織特異性基因及其調(diào) 控因子的本體描述返回組織特異性基因序列及調(diào)控因子信息的查詢結(jié)果;辨識(shí)服務(wù),基于約束的層次貝葉斯混合模型聚類算法,融合目標(biāo)基因的已知啟動(dòng)子區(qū) 域模式特征和組織特異性的調(diào)控因子信息等先驗(yàn)知識(shí),提供給用戶Houseke印inggenes與 Tissue Specific genes 辨識(shí)的服務(wù);組織特異性的序列模式motif的發(fā)現(xiàn)服務(wù),利用統(tǒng)計(jì)模型,在對(duì)系統(tǒng)中大量HK基因和 TS基因Promoter區(qū)域序列模式和組織特異性轉(zhuǎn)錄因子綁定模式分析的基礎(chǔ)之上,通過貝 葉斯因子分析,建立融合先驗(yàn)知識(shí)的模式顯著性評(píng)價(jià)的數(shù)學(xué)模型
全文摘要
本發(fā)明公開了一種組織特異性基因及調(diào)控因子數(shù)據(jù)存儲(chǔ)方法,通過建立包括組織庫(kù)、基因庫(kù)、基因別名庫(kù)、組織特異性基因庫(kù)及組織特異性基的組織庫(kù)的組織特異性基因及調(diào)控因子數(shù)據(jù)庫(kù)來實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ),該方法包括以下步驟利用文獻(xiàn)挖掘的形式在Pubmed文獻(xiàn)數(shù)據(jù)庫(kù)抽取出組織特異性基因;將查到的組織信息添加到組織庫(kù)中;利用基因的名字在EMBL、Genebank、NCBI中檢索基因的信息,并把此信息添加到基因庫(kù)對(duì)應(yīng)的條目中;利用從Transfac、EPD及compel數(shù)據(jù)庫(kù)中查找基因的調(diào)控信息生成基因調(diào)控因子XML文件;與現(xiàn)有技術(shù)相比,本發(fā)明能夠使利用現(xiàn)代計(jì)算技術(shù)挖掘基因表達(dá)及調(diào)控網(wǎng)絡(luò)織組特異性內(nèi)在機(jī)制的研究者,方便獲取組織特異性基因序列及相應(yīng)調(diào)控因子的數(shù)據(jù),充分利用組織特異性基因分析工具,提高研究的質(zhì)量和效率。
文檔編號(hào)G06F19/00GK101847181SQ201010160978
公開日2010年9月29日 申請(qǐng)日期2010年4月30日 優(yōu)先權(quán)日2010年4月30日
發(fā)明者劉新覓, 宮秀軍, 趙菲菲 申請(qǐng)人:天津大學(xué)