專利名稱:中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)技術(shù),尤其涉及針對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)技術(shù)。
背景技術(shù):
文獻(xiàn)知識(shí)挖掘是指從文獻(xiàn)中提取、整合并 發(fā)現(xiàn)有用信息和知識(shí)點(diǎn)的過程,通過文獻(xiàn)知識(shí)挖掘能夠快速處理大量文獻(xiàn)并得到特定領(lǐng)域的知識(shí),文獻(xiàn)知識(shí)挖掘涉及到數(shù)據(jù)挖掘、文本挖掘、自然語言處理和信息整合等多個(gè)研究領(lǐng)域。以生命科學(xué)文獻(xiàn)知識(shí)挖掘?yàn)槔齺碚f明,生命科學(xué)文獻(xiàn)知識(shí)挖掘研究的主要內(nèi)容分為信息檢索,實(shí)體識(shí)別,信息提取,文本挖掘和信息集成與整合等五個(gè)部分[朱小燕,李嬌.生物學(xué)文獻(xiàn)挖掘[J].計(jì)算機(jī)教育,2006,9:11-15]。五部分的任務(wù)各不相同,前面問題的解決構(gòu)成了后面部分研究與發(fā)展的基礎(chǔ)。就目前研究現(xiàn)狀而言,從信息檢索到信息集成與整合,方法研究的成熟度依次遞減,而知識(shí)挖掘發(fā)現(xiàn)的潛力卻依次遞增。生命科學(xué)領(lǐng)域的文本挖掘和信息集成整合則依賴于對(duì)本領(lǐng)域知識(shí)的理解和應(yīng)用,更依賴于從科學(xué)文獻(xiàn)中挖掘出未知的生命科學(xué)知識(shí)的新理論和新方法。目前,生命科學(xué)研究中的蛋白質(zhì)知識(shí)是文獻(xiàn)數(shù)據(jù)庫中挖掘和發(fā)現(xiàn)的重點(diǎn)領(lǐng)域之一。世界上不少發(fā)達(dá)國家均已借助數(shù)據(jù)挖掘和信息整合技術(shù)對(duì)英文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫進(jìn)行了大量蛋白質(zhì)的相關(guān)知識(shí)挖掘發(fā)現(xiàn)研究,實(shí)現(xiàn)了英文文獻(xiàn)中蛋白質(zhì)的挖掘發(fā)現(xiàn),為專業(yè)研究人員提供了方便獲取蛋白質(zhì)知識(shí)及潛在知識(shí)的新方法新途徑。然而,這些蛋白質(zhì)知識(shí)的挖掘方法和途徑還無法在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn)。因此,如何在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn),則是現(xiàn)有技術(shù)方法和途徑中有待解決的問題。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述問題,提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。本發(fā)明的另一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置。本發(fā)明的又一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)。本發(fā)明的技術(shù)方案為本發(fā)明揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,包括步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫;步驟二 以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注;步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫;步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫,科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過程包括從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成, 通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典;抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表;對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,包括數(shù)據(jù)庫構(gòu)建模塊,構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫;文本挖掘工具字典處理模塊,以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行 --對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注;中文文獻(xiàn)數(shù)據(jù)倉庫生成模塊,根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫;結(jié)果修正模塊,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例,中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫,科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘 和發(fā)現(xiàn)的裝置的一實(shí)施例,文本挖掘工具字典處理模塊包括英文版文本挖掘工具字典整理模塊,從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典;英文版字典工具數(shù)據(jù)表整理模塊,抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表;
雙語文本挖掘工具字典整理模塊,對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)倉庫服務(wù)器、用戶終端,其中應(yīng)用程序服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器,存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則;數(shù)據(jù)庫服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器,存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫、中文文獻(xiàn)數(shù)據(jù)庫、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫;數(shù)據(jù)倉庫服務(wù)器,由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫服務(wù)器中的文本挖掘工具字典, 對(duì)中文文獻(xiàn)數(shù)據(jù)庫進(jìn)行知識(shí)挖掘的標(biāo)引而得到,存放經(jīng)過知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉庫;用戶終端,耦接數(shù)據(jù)倉庫服務(wù)器,實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的一實(shí)施例,該系統(tǒng)還包括Web服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器和用戶終端,將數(shù)據(jù)倉庫服務(wù)器中的數(shù)據(jù)倉庫鏡像到Web服務(wù)器,通過Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明的技術(shù)特點(diǎn)是構(gòu)建好含有豐富蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫,以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰, 根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議可將訪問號(hào)轉(zhuǎn)換成超鏈接信息。并最終生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫,最后去除數(shù)據(jù)挖掘和信息整合結(jié)果中的“非法”信息 (去除假陽性蛋白質(zhì)挖掘結(jié)果)和修改中文文獻(xiàn)文本挖掘結(jié)果。對(duì)比現(xiàn)有技術(shù),本發(fā)明具有如下的優(yōu)點(diǎn)①通過文本挖掘工具字典的控制,可實(shí)現(xiàn)中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的深度挖掘和發(fā)現(xiàn)。②通過挖掘信息的分析和統(tǒng)計(jì),可實(shí)現(xiàn)智能化的蛋白質(zhì)相關(guān)知識(shí)發(fā)現(xiàn)。③通過關(guān)鍵詞標(biāo)引,可實(shí)現(xiàn)由人工控制的類自然語言檢索。④具有較高的陽性挖掘率。⑤基于B/S結(jié)構(gòu)的知識(shí)庫系統(tǒng)設(shè)計(jì),可保證系統(tǒng)高安全性。
圖I示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程圖。圖2示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向示意圖。
圖3示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的實(shí)施例的原理圖。圖4示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的實(shí)施例的硬件結(jié)構(gòu)框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例圖I示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程。圖2示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向。請(qǐng)參見圖I和圖2,下面是對(duì)本實(shí)施例的方法的各個(gè)步驟的詳細(xì)描述。步驟SlO :構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫。中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(CBA基礎(chǔ)數(shù)據(jù)庫,Chinese Biological Abstract基礎(chǔ)數(shù)據(jù)庫)和中國生物學(xué)文摘數(shù)據(jù)倉庫(CBA數(shù)據(jù)倉庫),科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所(EBI)構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(Uniprot數(shù)據(jù)庫, United protein,聯(lián)合蛋白質(zhì))。步驟S12 :以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注。這一步驟可以細(xì)分為第一步從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出UniProt蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典。UniProt蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫實(shí)例為〈entry version = " 85 " modified = " 2008-12-16 " dataset ="Swiss-Prot" created =" 1986-07-21" ><accession>P00888</accession〉〈accession>Q4706I〈/accession〉<name>AR0F_EC0LI</name>〈protein〉<recommendedName ref = " I" ><fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase, Tyr-sensitive</fulIName></recommendedName>
<alternativeName><fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fulIName></alternativeName>
<alternativeName><fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</ fullName></alternativeName>
<alternativeName><fullName>DAHP synthetase</fulIName></alternativeName>〈/protein〉<gene>〈name type=" primary" >aroF</name>〈name type=" ordered locus" >b2601</name>〈name type=" ordered locus" >JW2582</name></gene>〈organism key=" 2" >〈name type=" scientific" >Escherichia coli (strain K12) </name>〈dbReference type=" NCBI Taxonomy!f key=" 3" id=" 83333" />〈lineage〉<taxon>Bacteria</taxon><taxon>Proteobacteria</taxon><taxon>Gammaproteobacteria</taxon><taxon>Enterobacteriales</taxon><taxon>Enterobacteriaceae</taxon><taxon>Escherichia</taxon>〈/lineage〉</organism)第二步抽取英文版文本挖掘工具字典中的序列號(hào)(Accession號(hào))、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表。文本挖掘工具字典部分實(shí)例如下表
權(quán)利要求
1.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,包括 步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫; 步驟二 以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注; 步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫; 步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
2.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫,科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過程包括 從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典; 抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表; 對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。
4.根據(jù)權(quán)利要求3所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法,其特征在于,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
5.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,包括 數(shù)據(jù)庫構(gòu)建模塊,構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫; 文本挖掘工具字典處理模塊,以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰,使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注; 中文文獻(xiàn)數(shù)據(jù)倉庫生成模塊,根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫; 結(jié)果修正模塊,去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
6.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫,科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。
7.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,文本挖掘工具字典處理模塊包括 英文版文本挖掘工具字典整理模塊,從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成,通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取,整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典; 英文版字典工具數(shù)據(jù)表整理模塊,抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞,經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表; 雙語文本挖掘工具字典整理模塊,對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。
8.根據(jù)權(quán)利要求7所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置,其特征在于,英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
9.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)倉庫服務(wù)器、用戶終端,其中 應(yīng)用程序服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器,存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則; 數(shù)據(jù)庫服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器,存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫、中文文獻(xiàn)數(shù)據(jù)庫、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫; 數(shù)據(jù)倉庫服務(wù)器,由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫服務(wù)器中的文本挖掘工具字典,對(duì)中文文獻(xiàn)數(shù)據(jù)庫進(jìn)行知識(shí)挖掘的標(biāo)引而得到,存放經(jīng)過知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉庫; 用戶終端,耦接數(shù)據(jù)倉庫服務(wù)器,實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
10.根據(jù)權(quán)利要求9所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng),其特征在于,該系統(tǒng)還包括 Web服務(wù)器,耦接數(shù)據(jù)倉庫服務(wù)器和用戶終端,將數(shù)據(jù)倉庫服務(wù)器中的數(shù)據(jù)倉庫鏡像到Web服務(wù)器,通過Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
全文摘要
本發(fā)明公開了中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng),可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。其技術(shù)方案為方法包括構(gòu)建中文文獻(xiàn)數(shù)據(jù)庫和科學(xué)數(shù)據(jù)型數(shù)據(jù)庫;以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù),以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象,進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰;根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息,生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫;去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
文檔編號(hào)G06F17/30GK102622346SQ20111002806
公開日2012年8月1日 申請(qǐng)日期2011年1月26日 優(yōu)先權(quán)日2011年1月26日
發(fā)明者孫繼林, 張永娟, 湯江, 趙 衍, 陳恒, 陳成材 申請(qǐng)人:上海外國語大學(xué), 中國科學(xué)院上海生命科學(xué)研究院