一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法

文檔序號(hào)：6605027閱讀：861來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法
技術(shù)領(lǐng)域：
本發(fā)明屬于生物技術(shù)領(lǐng)域，涉及一種基于文獻(xiàn)挖掘技術(shù)進(jìn)行基因之間相互作用關(guān)系研究的方法。
背景技術(shù)：
Gene (基因)是編碼蛋白質(zhì)或RNA(核糖核酸)等具有特定功能產(chǎn)物的遺傳信息的基本單位，是染色體或基因組的一段DNA(脫氧核糖核酸)序列，對(duì)以RNA作為遺傳信息載體的RNA病毒而言，基因則是RNA序列。包括編碼序列(外顯子)、編碼區(qū)前后對(duì)于基因表達(dá)具有調(diào)控功能的序列和單個(gè)編碼序列間的間隔序列(內(nèi)含子)。從生物進(jìn)化的角度來講，基因又稱為遺傳因子，它是生物遺傳變異的物質(zhì)基礎(chǔ)，是DNA(或RNA)分子上具有遺傳信息的特定核苷酸序列的總稱，是具有遺傳效應(yīng)的DNA(或RNA)分子片段。基因通過復(fù)制把遺傳信息傳遞給下一代，使后代出現(xiàn)與親代相似的性狀。人類大約有幾萬個(gè)基因，儲(chǔ)存著生命孕育生長、凋亡過程的全部信息，通過復(fù)制、表達(dá)、修復(fù)，完成生命繁衍、細(xì)胞分裂和蛋白質(zhì)合成等重要生理過程?；蚴巧拿艽a，記錄和傳遞著遺傳信息。生物體的生、長、病、老、死等一切生命現(xiàn)象都與基因有關(guān)。它同時(shí)也決定著人體健康的內(nèi)在因素，與人類的健康密切相關(guān)。基因存在于生物體內(nèi)的功能之一便是翻譯蛋白質(zhì)，通過蛋白質(zhì)活性的表現(xiàn)，決定生物體的表型。換而言之，生物的各種性狀幾乎都是基因之間相互作用、調(diào)控各個(gè)基因表達(dá)的結(jié)果。所謂基因之間的相互作用，是指不同基因之間存在的表達(dá)調(diào)控關(guān)系，一般都是一個(gè)基因的表達(dá)產(chǎn)物作用于另一個(gè)基因，影響另一個(gè)基因的轉(zhuǎn)錄、翻譯等過程。為研究基因之間相互作用關(guān)系，本發(fā)明所述方法引入了一項(xiàng)NLP(自然語言處理) 的計(jì)算機(jī)技術(shù)。NLP (Natural Language Processing)是人工智能的一項(xiàng)新型技術(shù)，也是很困難的一項(xiàng)。它依賴于高效率的計(jì)算機(jī)，通過不斷的機(jī)器學(xué)習(xí)，實(shí)現(xiàn)對(duì)海量自然語言文檔的高效處理，從中提取我們需要的信息。在生物學(xué)研究中引入NLP技術(shù)研究基因之間的相互作用，可通過檢索海量已經(jīng)報(bào)道的文獻(xiàn)的關(guān)鍵詞、摘要等信息，提取出我們需要的文獻(xiàn)信息，以節(jié)省大量重復(fù)實(shí)驗(yàn)所耗費(fèi)的經(jīng)費(fèi)與時(shí)間。

發(fā)明內(nèi)容
本發(fā)明所述的方法的一大特點(diǎn)便是將NLP技術(shù)用于研究基因之間的相互作用關(guān)系，并以此構(gòu)建基因相互作用網(wǎng)絡(luò)，該方法實(shí)施的基本流程為步驟1、文檔搜索及格式化。步驟2、將文檔分離成單個(gè)句子，作為后續(xù)分析基本單位。步驟3、基因描述的定位步驟4、統(tǒng)一基因描述中使用的基因符號(hào)。步驟5、建立基因互作動(dòng)詞詞典步驟6、生成需要研究基因的同義詞字典，并從上述句子中提取出基因的描述。
步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子，整理成列表。步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。

圖1、本發(fā)明所述方法的實(shí)施流程圖實(shí)施方式本發(fā)明將以MAPK (促分裂素原活化蛋白激酶)基因的相互作用關(guān)系網(wǎng)絡(luò)的構(gòu)建為例，介紹本發(fā)明所述方法的具體實(shí)施步驟。步驟1、利用關(guān)鍵詞MAPK從Pubmed數(shù)據(jù)庫(http://www. ncbi. nlm. nih. gov/pubmed)中搜索相關(guān)文獻(xiàn)，下載到本地，并整理成XML格式。步驟2、下載基于 java 環(huán)境的 Lingpipe 工具包(http//alias_i. com/ lingpipe/)，利用它的kntence tokenlization工具將搜索到的摘要文本分離成單個(gè)句子，整理成文檔保存，作為后續(xù)分析的基本單位。步驟3、應(yīng)用ABNER軟件進(jìn)行人類基因的描述的定位，并提取出基因，對(duì)于提取的基因的描述中，多個(gè)基因縮寫到一起的將被分離，如“STAT3/5 gene”將被解析成STAT3 gene 禾口 STAT5 gene。步驟4、因?yàn)樗阉鞯降奈墨I(xiàn)中對(duì)于基因名字的書寫格式大多不同，為了分析的方便和準(zhǔn)確，需要將文獻(xiàn)中的基因符號(hào)統(tǒng)一為官方的基因符號(hào)，這里我們以NCBI (www. ncbi. nlm. nih. gov/)的 Entrez gene 數(shù)據(jù)庫為準(zhǔn)。步驟5、建立一個(gè)基因互作的動(dòng)詞詞典，包含如r印ress，regulate，inhibit, interact, phosphorylate, downregulate, upregulate 等所有動(dòng)詞及其變型。詞典取材自 BioNLP 項(xiàng)目(http://bionlp. sourceforge. net/)，然后利用 Lingpipe 工具包分離句子中基因互作的動(dòng)詞。步驟6、利用NCBI的Entrez gene數(shù)據(jù)庫(http //www. ncbi. nlm. nih. gov/sites/entrez ？ db = gene) MAPK 白勺詞字典，然后利用Lingpipe工具包分離句子中MAPK基因的描述。步驟7、對(duì)處理好的文獻(xiàn)數(shù)據(jù)進(jìn)行搜索，統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞以及MAPK 基因描述同時(shí)出現(xiàn)的句子，計(jì)算句子出現(xiàn)的頻率，整理出MAPK基因與其他基因一一對(duì)應(yīng)的關(guān)系列表，統(tǒng)計(jì)處與MAPK具有相互作用關(guān)系的基因又543個(gè)。步驟8、統(tǒng)計(jì)與MAPK可能形成復(fù)合體的(互作關(guān)系為associate、bind等)的基因，共有213個(gè)，使用Cytoscape (http://www. cytoscape. org/)軟件，依據(jù)上述關(guān)系列表，構(gòu)建以MAPK為中心的相互作用關(guān)系網(wǎng)絡(luò)以上分析步驟同樣適用于其他基因的基因間相互作用關(guān)系網(wǎng)絡(luò)的構(gòu)建。以上是對(duì)本發(fā)明的描述而非限定，基于本發(fā)明思想的其它實(shí)施方式，均在本發(fā)明的保護(hù)范圍之中。
權(quán)利要求
1.本發(fā)明專利所述的一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法，其主要特征如下步驟1、文檔搜索及格式化。步驟2、將文檔分離成單個(gè)句子，作為后續(xù)分析基本單位。步驟3、基因描述的定位步驟4、統(tǒng)一基因描述中使用的基因符號(hào)。步驟5、建立基因互作動(dòng)詞詞典步驟6、生成需要研究基因的同義詞字典，并從上述句子中提取出基因的描述。步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子，整理成列表。步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
全文摘要
本發(fā)明所述的方法的一大特點(diǎn)便是將NLP技術(shù)用于研究基因之間的相互作用關(guān)系，并以此構(gòu)建基因相互作用網(wǎng)絡(luò)，該方法實(shí)施的基本流程為步驟1、文檔搜索及格式化；步驟2、將文檔分離成單個(gè)句子，作為后續(xù)分析基本單位；步驟3、基因描述的定位；步驟4、統(tǒng)一基因描述中使用的基因符號(hào)；步驟5、建立基因互作動(dòng)詞詞典；步驟6、生成需要研究基因的同義詞字典，并從上述句子中提取出基因的描述；步驟7、統(tǒng)計(jì)分析基因名、基因互作動(dòng)詞和需要研究的基因同時(shí)出現(xiàn)的句子，整理成列表；步驟8、構(gòu)建相互作用關(guān)系網(wǎng)絡(luò)。
文檔編號(hào)G06F17/30GK102270208SQ20101021400
公開日2011年12月7日申請(qǐng)日期2010年6月29日優(yōu)先權(quán)日2010年6月29日
發(fā)明者曾華宗申請(qǐng)人:上海聚類生物科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：曾華宗
技術(shù)所有人：上海聚類生物科技有限公司
我是此專利的發(fā)明人

上一篇：一種電子相冊(cè)聚類管理的方法
上一篇：一種基于插件技術(shù)的電力系統(tǒng)分析軟件接口實(shí)現(xiàn)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

基因相互作用網(wǎng)絡(luò)相關(guān)技術(shù)

基因診斷方法相關(guān)技術(shù)

基因與環(huán)境的相互作用相關(guān)技術(shù)

基因相互作用相關(guān)技術(shù)

基因的相互作用相關(guān)技術(shù)

基因間的相互作用相關(guān)技術(shù)

基因調(diào)控網(wǎng)絡(luò)構(gòu)建相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種構(gòu)建基因相互作用網(wǎng)絡(luò)的方法