中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法

文檔序號(hào)：6353729閱讀：279來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)技術(shù)，尤其涉及針對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)技術(shù)。
背景技術(shù)：
文獻(xiàn)知識(shí)挖掘是指從文獻(xiàn)中提取、整合并發(fā)現(xiàn)有用信息和知識(shí)點(diǎn)的過程，通過文獻(xiàn)知識(shí)挖掘能夠快速處理大量文獻(xiàn)并得到特定領(lǐng)域的知識(shí)，文獻(xiàn)知識(shí)挖掘涉及到數(shù)據(jù)挖掘、文本挖掘、自然語言處理和信息整合等多個(gè)研究領(lǐng)域。以生命科學(xué)文獻(xiàn)知識(shí)挖掘?yàn)槔齺碚f明，生命科學(xué)文獻(xiàn)知識(shí)挖掘研究的主要內(nèi)容分為信息檢索，實(shí)體識(shí)別，信息提取，文本挖掘和信息集成與整合等五個(gè)部分[朱小燕，李嬌.生物學(xué)文獻(xiàn)挖掘[J].計(jì)算機(jī)教育，2006,9:11-15]。五部分的任務(wù)各不相同，前面問題的解決構(gòu)成了后面部分研究與發(fā)展的基礎(chǔ)。就目前研究現(xiàn)狀而言，從信息檢索到信息集成與整合，方法研究的成熟度依次遞減，而知識(shí)挖掘發(fā)現(xiàn)的潛力卻依次遞增。生命科學(xué)領(lǐng)域的文本挖掘和信息集成整合則依賴于對(duì)本領(lǐng)域知識(shí)的理解和應(yīng)用，更依賴于從科學(xué)文獻(xiàn)中挖掘出未知的生命科學(xué)知識(shí)的新理論和新方法。目前，生命科學(xué)研究中的蛋白質(zhì)知識(shí)是文獻(xiàn)數(shù)據(jù)庫中挖掘和發(fā)現(xiàn)的重點(diǎn)領(lǐng)域之一。世界上不少發(fā)達(dá)國家均已借助數(shù)據(jù)挖掘和信息整合技術(shù)對(duì)英文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫進(jìn)行了大量蛋白質(zhì)的相關(guān)知識(shí)挖掘發(fā)現(xiàn)研究，實(shí)現(xiàn)了英文文獻(xiàn)中蛋白質(zhì)的挖掘發(fā)現(xiàn)，為專業(yè)研究人員提供了方便獲取蛋白質(zhì)知識(shí)及潛在知識(shí)的新方法新途徑。然而，這些蛋白質(zhì)知識(shí)的挖掘方法和途徑還無法在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn)。因此，如何在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中實(shí)現(xiàn)蛋白質(zhì)的知識(shí)挖掘和發(fā)現(xiàn)，則是現(xiàn)有技術(shù)方法和途徑中有待解決的問題。

發(fā)明內(nèi)容
本發(fā)明的目的在于解決上述問題，提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。本發(fā)明的另一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置。本發(fā)明的又一目的在于提供了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)。本發(fā)明的技術(shù)方案為本發(fā)明揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，包括步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；步驟二以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合，實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注；步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫；步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例，中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫，科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例，步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過程包括從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成，通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取，整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典；抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞，經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表；對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的一實(shí)施例，英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置，包括數(shù)據(jù)庫構(gòu)建模塊，構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；文本挖掘工具字典處理模塊，以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行 --對(duì)應(yīng)的關(guān)聯(lián)和整合，實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注；中文文獻(xiàn)數(shù)據(jù)倉庫生成模塊，根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫；結(jié)果修正模塊，去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例，中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫，科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例，文本挖掘工具字典處理模塊包括英文版文本挖掘工具字典整理模塊，從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成，通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取，整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典；英文版字典工具數(shù)據(jù)表整理模塊，抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞，經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表；
雙語文本挖掘工具字典整理模塊，對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的一實(shí)施例，英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。本發(fā)明還揭示了一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)，包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)倉庫服務(wù)器、用戶終端，其中應(yīng)用程序服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器，存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則；數(shù)據(jù)庫服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器，存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫、中文文獻(xiàn)數(shù)據(jù)庫、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫；數(shù)據(jù)倉庫服務(wù)器，由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫服務(wù)器中的文本挖掘工具字典，對(duì)中文文獻(xiàn)數(shù)據(jù)庫進(jìn)行知識(shí)挖掘的標(biāo)引而得到，存放經(jīng)過知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉庫；用戶終端，耦接數(shù)據(jù)倉庫服務(wù)器，實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。根據(jù)本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的一實(shí)施例，該系統(tǒng)還包括Web服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器和用戶終端，將數(shù)據(jù)倉庫服務(wù)器中的數(shù)據(jù)倉庫鏡像到Web服務(wù)器，通過Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。本發(fā)明對(duì)比現(xiàn)有技術(shù)有如下的有益效果本發(fā)明的技術(shù)特點(diǎn)是構(gòu)建好含有豐富蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫，以現(xiàn)存的蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中出現(xiàn)的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，根據(jù)國外蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議可將訪問號(hào)轉(zhuǎn)換成超鏈接信息。并最終生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫，最后去除數(shù)據(jù)挖掘和信息整合結(jié)果中的“非法”信息 (去除假陽性蛋白質(zhì)挖掘結(jié)果)和修改中文文獻(xiàn)文本挖掘結(jié)果。對(duì)比現(xiàn)有技術(shù)，本發(fā)明具有如下的優(yōu)點(diǎn)①通過文本挖掘工具字典的控制，可實(shí)現(xiàn)中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的深度挖掘和發(fā)現(xiàn)。②通過挖掘信息的分析和統(tǒng)計(jì)，可實(shí)現(xiàn)智能化的蛋白質(zhì)相關(guān)知識(shí)發(fā)現(xiàn)。③通過關(guān)鍵詞標(biāo)引，可實(shí)現(xiàn)由人工控制的類自然語言檢索。④具有較高的陽性挖掘率。⑤基于B/S結(jié)構(gòu)的知識(shí)庫系統(tǒng)設(shè)計(jì)，可保證系統(tǒng)高安全性。

圖I示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程圖。圖2示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向示意圖。
圖3示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置的實(shí)施例的原理圖。圖4示例性的示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)的實(shí)施例的硬件結(jié)構(gòu)框圖。
具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例圖I示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的流程。圖2示出了本發(fā)明的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法的實(shí)施例的數(shù)據(jù)流向。請(qǐng)參見圖I和圖2，下面是對(duì)本實(shí)施例的方法的各個(gè)步驟的詳細(xì)描述。步驟SlO :構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫。中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫(CBA基礎(chǔ)數(shù)據(jù)庫，Chinese Biological Abstract基礎(chǔ)數(shù)據(jù)庫)和中國生物學(xué)文摘數(shù)據(jù)倉庫(CBA數(shù)據(jù)倉庫)，科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所(EBI)構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫(Uniprot數(shù)據(jù)庫， United protein,聯(lián)合蛋白質(zhì))。步驟S12 :以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合,實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注。這一步驟可以細(xì)分為第一步從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成，通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取，整理出UniProt蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典。UniProt蛋白質(zhì)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫實(shí)例為〈entry version = " 85 " modified = " 2008-12-16 " dataset ="Swiss-Prot" created =" 1986-07-21" ><accession>P00888</accession〉〈accession>Q4706I〈/accession〉<name>AR0F_EC0LI</name>〈protein〉<recommendedName ref = " I" ><fullName>Phospho-2-dehydro-3-deoxyheptonate aldolase, Tyr-sensitive</fulIName></recommendedName>
<alternativeName><fullName>Phospho-2-keto-3-deoxyheptonate aldolase</fulIName></alternativeName>
<alternativeName><fullName>3-deoxy-D-arabino-heptulosonate 7-phosphate synthase</ fullName></alternativeName>
<alternativeName><fullName>DAHP synthetase</fulIName></alternativeName>〈/protein〉<gene>〈name type=" primary" >aroF</name>〈name type=" ordered locus" >b2601</name>〈name type=" ordered locus" >JW2582</name></gene>〈organism key=" 2" >〈name type=" scientific" >Escherichia coli (strain K12) </name>〈dbReference type=" NCBI Taxonomy!f key=" 3" id=" 83333" />〈lineage〉<taxon>Bacteria</taxon><taxon>Proteobacteria</taxon><taxon>Gammaproteobacteria</taxon><taxon>Enterobacteriales</taxon><taxon>Enterobacteriaceae</taxon><taxon>Escherichia</taxon>〈/lineage〉</organism)第二步抽取英文版文本挖掘工具字典中的序列號(hào)(Accession號(hào))、基因名、蛋白質(zhì)名稱及同義詞，經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表。文本挖掘工具字典部分實(shí)例如下表
權(quán)利要求
1.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，包括步驟一構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；步驟二以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合，實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注；步驟三根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫；步驟四去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
2.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，其特征在于，中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫，科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。
3.根據(jù)權(quán)利要求I所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，其特征在于，步驟二中有關(guān)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注的過程包括從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成，通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取，整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典；抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞，經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表；對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。
4.根據(jù)權(quán)利要求3所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法，其特征在于，英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
5.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置，包括數(shù)據(jù)庫構(gòu)建模塊，構(gòu)建含有蛋白質(zhì)相關(guān)屬性的中文文獻(xiàn)數(shù)據(jù)庫和確立能夠進(jìn)行對(duì)應(yīng)的蛋白質(zhì)關(guān)聯(lián)和整合的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；文本挖掘工具字典處理模塊，以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰，使中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的標(biāo)準(zhǔn)控制詞表進(jìn)行一一對(duì)應(yīng)的關(guān)聯(lián)和整合，實(shí)現(xiàn)對(duì)中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)相關(guān)文本的挖掘和標(biāo)注；中文文獻(xiàn)數(shù)據(jù)倉庫生成模塊，根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫；結(jié)果修正模塊，去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
6.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置，其特征在于，中文文獻(xiàn)數(shù)據(jù)庫是中國生物學(xué)文摘基礎(chǔ)數(shù)據(jù)庫和中國生物學(xué)文摘數(shù)據(jù)倉庫，科學(xué)數(shù)據(jù)型數(shù)據(jù)庫是歐洲生物信息學(xué)研究所構(gòu)建的聯(lián)合蛋白質(zhì)數(shù)據(jù)庫。
7.根據(jù)權(quán)利要求5所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置，其特征在于，文本挖掘工具字典處理模塊包括英文版文本挖掘工具字典整理模塊，從科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的數(shù)據(jù)中分析蛋白質(zhì)相關(guān)文本挖掘工具字典的元素的構(gòu)成，通過對(duì)數(shù)據(jù)結(jié)構(gòu)的分析以及對(duì)數(shù)據(jù)的轉(zhuǎn)換和提取，整理出蛋白質(zhì)相關(guān)的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫中的英文版文本挖掘工具字典；英文版字典工具數(shù)據(jù)表整理模塊，抽取英文版文本挖掘工具字典中的序列號(hào)、基因名、蛋白質(zhì)名稱及同義詞，經(jīng)過歸并處理后得到英文版的字典工具數(shù)據(jù)表；雙語文本挖掘工具字典整理模塊，對(duì)英文版的字典工具數(shù)據(jù)表進(jìn)行翻譯和數(shù)據(jù)加工后得到中英文對(duì)譯的雙語文本挖掘工具字典。
8.根據(jù)權(quán)利要求7所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的裝置，其特征在于，英文版文本挖掘工具字典中的序列號(hào)是指基于中文文獻(xiàn)數(shù)據(jù)庫與科學(xué)數(shù)據(jù)型數(shù)據(jù)庫所關(guān)聯(lián)的地址轉(zhuǎn)換成的超鏈接地址。
9.一種中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)，包括應(yīng)用程序服務(wù)器、數(shù)據(jù)庫服務(wù)器、數(shù)據(jù)倉庫服務(wù)器、用戶終端，其中應(yīng)用程序服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器，存儲(chǔ)蛋白質(zhì)知識(shí)挖掘的算法和規(guī)則；數(shù)據(jù)庫服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器，存儲(chǔ)基于第三范式構(gòu)建的科學(xué)數(shù)據(jù)型數(shù)據(jù)庫、中文文獻(xiàn)數(shù)據(jù)庫、蛋白質(zhì)知識(shí)的文本挖掘工具字典庫；數(shù)據(jù)倉庫服務(wù)器，由應(yīng)用程序服務(wù)器調(diào)用數(shù)據(jù)庫服務(wù)器中的文本挖掘工具字典，對(duì)中文文獻(xiàn)數(shù)據(jù)庫進(jìn)行知識(shí)挖掘的標(biāo)引而得到，存放經(jīng)過知識(shí)挖掘后而形成的面向主題和應(yīng)用的、集成化的數(shù)據(jù)倉庫；用戶終端，耦接數(shù)據(jù)倉庫服務(wù)器，實(shí)現(xiàn)對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
10.根據(jù)權(quán)利要求9所述的中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的系統(tǒng)，其特征在于，該系統(tǒng)還包括 Web服務(wù)器，耦接數(shù)據(jù)倉庫服務(wù)器和用戶終端，將數(shù)據(jù)倉庫服務(wù)器中的數(shù)據(jù)倉庫鏡像到Web服務(wù)器，通過Web應(yīng)用提供給用戶對(duì)蛋白質(zhì)知識(shí)的查詢和挖掘發(fā)現(xiàn)的操作。
全文摘要
本發(fā)明公開了中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)，可實(shí)現(xiàn)在中文的生命科學(xué)文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)知識(shí)的挖掘和發(fā)現(xiàn)。其技術(shù)方案為方法包括構(gòu)建中文文獻(xiàn)數(shù)據(jù)庫和科學(xué)數(shù)據(jù)型數(shù)據(jù)庫；以科學(xué)數(shù)據(jù)型數(shù)據(jù)庫的標(biāo)準(zhǔn)控制詞表為依據(jù)，以中文文獻(xiàn)數(shù)據(jù)庫中的蛋白質(zhì)名詞為挖掘和發(fā)現(xiàn)對(duì)象，進(jìn)行蛋白質(zhì)相關(guān)文本挖掘工具字典的翻譯和編撰；根據(jù)科學(xué)數(shù)據(jù)型數(shù)據(jù)庫提供的協(xié)議將訪問號(hào)轉(zhuǎn)換成超鏈接信息，生成面向主題和應(yīng)用的中文文獻(xiàn)數(shù)據(jù)倉庫；去除數(shù)據(jù)挖掘和信息整合結(jié)果中的假陽性蛋白質(zhì)挖掘結(jié)果以及修改中文文獻(xiàn)文本挖掘結(jié)果。
文檔編號(hào)G06F17/30GK102622346SQ20111002806
公開日2012年8月1日申請(qǐng)日期2011年1月26日優(yōu)先權(quán)日2011年1月26日
發(fā)明者孫繼林, 張永娟, 湯江, 趙衍, 陳恒, 陳成材申請(qǐng)人:上海外國語大學(xué), 中國科學(xué)院上海生命科學(xué)研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳恒;趙衍;孫繼林;陳成材;張永娟;湯江
技術(shù)所有人：中國科學(xué)院上海生命科學(xué)研究院;上海外國語大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法

中文文獻(xiàn)數(shù)據(jù)庫的蛋白質(zhì)知識(shí)挖掘和發(fā)現(xiàn)的方法、裝置、系統(tǒng)的制作方法