專利名稱:一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物技術(shù)領(lǐng)域,涉及一種基于文獻(xiàn)挖掘技術(shù)進(jìn)行基因之間相互作用關(guān)系研究的方法。
背景技術(shù):
Gene (基因)是編碼蛋白質(zhì)或RNA(核糖核酸)等具有特定功能產(chǎn)物的遺傳信息的基本單位,是染色體或基因組的一段DNA(脫氧核糖核酸)序列,對(duì)以RNA作為遺傳信息載體的RNA病毒而言,基因則是RNA序列。包括編碼序列(外顯子)、編碼區(qū)前后對(duì)于基因表達(dá)具有調(diào)控功能的序列和單個(gè)編碼序列間的間隔序列(內(nèi)含子)。從生物進(jìn)化的角度來講,基因又稱為遺傳因子,它是生物遺傳變異的物質(zhì)基礎(chǔ),是DNA(或RNA)分子上具有遺傳信息的特定核苷酸序列的總稱,是具有遺傳效應(yīng)的DNA(或RNA)分子片段。基因通過復(fù)制把遺傳信息傳遞給下一代,使后代出現(xiàn)與親代相似的性狀。人類大約有幾萬個(gè)基因,儲(chǔ)存著生命孕育生長、凋亡過程的全部信息,通過復(fù)制、表達(dá)、修復(fù),完成生命繁衍、細(xì)胞分裂和蛋白質(zhì)合成等重要生理過程?;蚴巧拿艽a,記錄和傳遞著遺傳信息。生物體的生、長、 病、老、死等一切生命現(xiàn)象都與基因有關(guān)。它同時(shí)也決定著人體健康的內(nèi)在因素,與人類的健康密切相關(guān)。基因存在于生物體內(nèi)的功能之一便是翻譯蛋白質(zhì),通過蛋白質(zhì)活性的表現(xiàn),決定生物體的表型。換而言之,生物的各種性狀幾乎都是基因之間相互作用、調(diào)控各個(gè)基因表達(dá)的結(jié)果。所謂基因之間的相互作用,是指不同基因之間存在的表達(dá)調(diào)控關(guān)系,一般都是一個(gè)基因的表達(dá)產(chǎn)物作用于另一個(gè)基因,影響另一個(gè)基因的轉(zhuǎn)錄、翻譯等過程。為研究基因之間相互作用關(guān)系,本發(fā)明所述方法引入了一項(xiàng)NLP(自然語言處理) 的計(jì)算機(jī)技術(shù)。NLP (Natural Language Processing)是人工智能的一項(xiàng)新型技術(shù),也是很困難的一項(xiàng)。它依賴于高效率的計(jì)算機(jī),通過不斷的機(jī)器學(xué)習(xí),實(shí)現(xiàn)對(duì)海量自然語言文檔的高效處理,從中提取我們需要的信息。在生物學(xué)研究中引入NLP技術(shù)研究基因之間的相互作用,可通過檢索海量已經(jīng)報(bào)道的文獻(xiàn)的關(guān)鍵詞、摘要等信息,提取出我們需要的文獻(xiàn)信息,以節(jié)省大量重復(fù)實(shí)驗(yàn)所耗費(fèi)的經(jīng)費(fèi)與時(shí)間。
發(fā)明內(nèi)容
本發(fā)明所述的方法的一大特點(diǎn)便是將NLP技術(shù)用于研究基因之間的相互作用關(guān)系,并以此構(gòu)建基因相互作用網(wǎng)絡(luò),該方法實(shí)施的基本流程為步驟1、文檔搜索及格式化。步驟2、將文檔分離成單個(gè)句子,作為后續(xù)分析基本單位。步驟3、基因描述的定位步驟4、統(tǒng)一基因描述中使用的基因符號(hào)。步驟5、建立基因互作動(dòng)詞詞典步驟6、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述。
步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子,整理成列表。步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
圖1、本發(fā)明所述方法的實(shí)施流程圖實(shí)施方式本發(fā)明將以MAPK (促分裂素原活化蛋白激酶)基因的相互作用關(guān)系網(wǎng)絡(luò)的構(gòu)建為例,介紹本發(fā)明所述方法的具體實(shí)施步驟。步驟1、利用關(guān)鍵詞MAPK從Pubmed數(shù)據(jù)庫(http://www. ncbi. nlm. nih. gov/pubmed)中搜索相關(guān)文獻(xiàn),下載到本地,并整理成XML格式。步驟2、下載基于 java 環(huán)境的 Lingpipe 工具包(http//alias_i. com/ lingpipe/),利用它的kntence tokenlization工具將搜索到的摘要文本分離成單個(gè)句子,整理成文檔保存,作為后續(xù)分析的基本單位。步驟3、應(yīng)用ABNER軟件進(jìn)行人類基因的描述的定位,并提取出基因,對(duì)于提取的基因的描述中,多個(gè)基因縮寫到一起的將被分離,如“STAT3/5 gene”將被解析成STAT3 gene 禾口 STAT5 gene。步驟4、因?yàn)樗阉鞯降奈墨I(xiàn)中對(duì)于基因名字的書寫格式大多不同,為了分析的方便和準(zhǔn)確,需要將文獻(xiàn)中的基因符號(hào)統(tǒng)一為官方的基因符號(hào),這里我們以NCBI (www. ncbi. nlm. nih. gov/)的 Entrez gene 數(shù)據(jù)庫為準(zhǔn)。步驟5、建立一個(gè)基因互作的動(dòng)詞詞典,包含如r印ress,regulate,inhibit, interact, phosphorylate, downregulate, upregulate 等所有動(dòng)詞及其變型。詞典取材自 BioNLP 項(xiàng)目(http://bionlp. sourceforge. net/),然后利用 Lingpipe 工具包分離句子中基因互作的動(dòng)詞。步驟6、利用NCBI的Entrez gene數(shù)據(jù)庫(http //www. ncbi. nlm. nih. gov/sites/entrez ? db = gene) MAPK 白勺詞字典,然后利用Lingpipe工具包分離句子中MAPK基因的描述。步驟7、對(duì)處理好的文獻(xiàn)數(shù)據(jù)進(jìn)行搜索,統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞以及MAPK 基因描述同時(shí)出現(xiàn)的句子,計(jì)算句子出現(xiàn)的頻率,整理出MAPK基因與其他基因一一對(duì)應(yīng)的關(guān)系列表,統(tǒng)計(jì)處與MAPK具有相互作用關(guān)系的基因又543個(gè)。步驟8、統(tǒng)計(jì)與MAPK可能形成復(fù)合體的(互作關(guān)系為associate、bind等)的基因,共有213個(gè),使用Cytoscape (http://www. cytoscape. org/)軟件,依據(jù)上述關(guān)系列表, 構(gòu)建以MAPK為中心的相互作用關(guān)系網(wǎng)絡(luò)以上分析步驟同樣適用于其他基因的基因間相互作用關(guān)系網(wǎng)絡(luò)的構(gòu)建。以上是對(duì)本發(fā)明的描述而非限定,基于本發(fā)明思想的其它實(shí)施方式,均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.本發(fā)明專利所述的一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法,其主要特征如下 步驟1、文檔搜索及格式化。步驟2、將文檔分離成單個(gè)句子,作為后續(xù)分析基本單位。 步驟3、基因描述的定位步驟4、統(tǒng)一基因描述中使用的基因符號(hào)。 步驟5、建立基因互作動(dòng)詞詞典步驟6、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述。 步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子,整理成列表。步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
全文摘要
本發(fā)明所述的方法的一大特點(diǎn)便是將NLP技術(shù)用于研究基因之間的相互作用關(guān)系,并以此構(gòu)建基因相互作用網(wǎng)絡(luò),該方法實(shí)施的基本流程為步驟1、文檔搜索及格式化;步驟2、將文檔分離成單個(gè)句子,作為后續(xù)分析基本單位;步驟3、基因描述的定位;步驟4、統(tǒng)一基因描述中使用的基因符號(hào);步驟5、建立基因互作動(dòng)詞詞典;步驟6、生成需要研究基因的同義詞字典,并從上述句子中提取出基因的描述;步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子,整理成列表;步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
文檔編號(hào)G06F17/30GK102270208SQ20101021400
公開日2011年12月7日 申請(qǐng)日期2010年6月29日 優(yōu)先權(quán)日2010年6月29日
發(fā)明者曾華宗 申請(qǐng)人:上海聚類生物科技有限公司