本發(fā)明涉及腫瘤醫(yī)學(xué)領(lǐng)域,具體涉及一種腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法。
背景技術(shù):
隨著計算機、網(wǎng)絡(luò)、大數(shù)據(jù)等技術(shù)的發(fā)展,生物醫(yī)學(xué)的實驗手段和研究方法均發(fā)生了巨大的變革,由此帶來了領(lǐng)域內(nèi)實驗數(shù)據(jù)的“指數(shù)性”增長,得到了各行業(yè)專家學(xué)者的廣泛關(guān)注并取得了大量研究成果,積累了海量的科學(xué)文獻。其數(shù)目之大,增長速度之快遠(yuǎn)遠(yuǎn)超過了其他學(xué)科領(lǐng)域。這些文獻資源以規(guī)范化的方式存儲在pubmedcentral(文中其它地方以pmc簡稱)、sinomed等數(shù)據(jù)庫中,為腫瘤的轉(zhuǎn)化醫(yī)學(xué)研究提供了一定的基礎(chǔ)。
另一方面,隨著高通量測序技術(shù)的發(fā)展及腫瘤相關(guān)科研項目的不斷開展,積累了很多跟腫瘤基因組、表型組、臨床等相關(guān)的數(shù)據(jù)信息(比如樣本屬性、臨床因素、患者預(yù)后、dna序列信息、表達譜芯片信息、甲基化狀況等),越來越多的平臺開始對這些數(shù)據(jù)進行結(jié)構(gòu)化存儲、整理與分析。例如,截至到2015年1月份,tcga(thecancergenomeatlas)(http://cancergenome.nih.gov/)存儲了33種腫瘤的不同類型的組學(xué)數(shù)據(jù)。同時,科學(xué)家開始倡導(dǎo)開展全球數(shù)據(jù)共享機制,海量的科學(xué)數(shù)據(jù)逐漸成為可開放獲取的,為腫瘤研究提供了非常寶貴的資源。例如,研究者可以對這些可開放獲取的數(shù)據(jù)重新進行整合分析,探索新的科學(xué)假設(shè);或者提取這些數(shù)據(jù)中的信息來驗證自己的研究成果。這種科學(xué)數(shù)據(jù)的開放獲取與重利用在一定程度上促進了科研成果的產(chǎn)生。
然而,在實現(xiàn)了對腫瘤高通量轉(zhuǎn)化醫(yī)學(xué)科研數(shù)據(jù)的存儲和管理基礎(chǔ)上,需要進一步從用戶的角度來考慮信息的獲取方式。比如用戶輸入查詢詞,如何準(zhǔn)確地理解用戶的需求、提供全面的科學(xué)文獻和科學(xué)數(shù)據(jù)的關(guān)聯(lián)關(guān)系的檢索結(jié)果以及便捷的數(shù)據(jù)下載方式,是需要解決的關(guān)鍵問題。加強腫瘤相關(guān)科學(xué)數(shù)據(jù)資源的開發(fā)和利用,構(gòu)建轉(zhuǎn)化醫(yī)學(xué)研究中腫瘤相關(guān)開放科學(xué)數(shù)據(jù)與科學(xué)文獻整合平臺,支持科研人員及時跟進腫瘤基因組學(xué)的最新研究成果,具有重要的科學(xué)意義。
對于實際檢索過程中,從用戶的角度來說,我們發(fā)現(xiàn)科學(xué)數(shù)據(jù)與科學(xué)文獻的關(guān)聯(lián)檢索是一個非常大的需求。而現(xiàn)有的數(shù)據(jù)庫/平臺只能基于特定的關(guān)鍵詞單獨對科學(xué)文獻或者科學(xué)數(shù)據(jù)進行檢索。而不能針對特定的數(shù)據(jù)集找到相關(guān)的文獻,或者從科學(xué)文獻鏈接到相關(guān)的科學(xué)數(shù)據(jù)。比如,我們可以通過關(guān)鍵詞或者ftp獲取相關(guān)的科學(xué)數(shù)據(jù)或者科學(xué)文獻列表。但是,對于特定文獻研究中涉及到的數(shù)據(jù)集,我們無法進行準(zhǔn)確地定位或者關(guān)聯(lián)。此外,對于數(shù)據(jù)庫中存儲的科學(xué)數(shù)據(jù)的共享和利用情況,不能很好地進行檢索與分析。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少解決上述技術(shù)問題之一。
為此,本發(fā)明的目的在于提出一種腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法。
為了實現(xiàn)上述目的,本發(fā)明的實施例公開了一種腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法,包括以下步驟:從開放平臺獲取腫瘤科學(xué)數(shù)據(jù)和腫瘤科學(xué)文獻;對所述腫瘤科學(xué)數(shù)據(jù)和所述腫瘤科學(xué)文獻進行結(jié)構(gòu)化存儲和歸類,并建立索引;利用自然語言處理技術(shù)對所述腫瘤科學(xué)文獻進行處理,提取文獻所研究的腫瘤類型、采用的腫瘤科學(xué)數(shù)據(jù)類型信息,其中,所述腫瘤科學(xué)數(shù)據(jù)類型的相關(guān)信息包括基于原數(shù)據(jù)集發(fā)表的腫瘤科學(xué)文獻和基于數(shù)據(jù)重利用發(fā)表的腫瘤科學(xué)文獻;對所述腫瘤科學(xué)數(shù)據(jù)的重利用情況進行統(tǒng)計性分析,得到熱門研究的科學(xué)數(shù)據(jù)類型、不同數(shù)據(jù)類型之間的相關(guān)性和匯總整合分析策略;或?qū)λ瞿[瘤科學(xué)文獻的進行統(tǒng)計性分析,提取所述腫瘤科學(xué)文獻對應(yīng)的期刊信息、作者信息和所在國家信息,進一步將信息匯總。
根據(jù)本發(fā)明實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法,能夠?qū)⒅髁鞯哪[瘤科學(xué)數(shù)據(jù)存儲平臺與可開放獲取的科學(xué)文獻數(shù)據(jù)關(guān)聯(lián)起來,使用戶能夠查詢到現(xiàn)有的腫瘤研究趨勢(通過對腫瘤科學(xué)數(shù)據(jù)的重利用情況的分析,發(fā)現(xiàn)不同腫瘤類型及高通量數(shù)據(jù)類型、臨床數(shù)據(jù)類型等研究熱度);基于特定科學(xué)數(shù)據(jù)集,檢索到與該數(shù)據(jù)集相關(guān)的科學(xué)文獻;基于特定的科學(xué)文獻,檢索到跟該文獻相關(guān)的數(shù)據(jù)集。
另外,根據(jù)本發(fā)明上述實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法,還可以具有如下附加的技術(shù)特征:
進一步地,所述腫瘤科學(xué)數(shù)據(jù)的獲取來源包括國際癌癥基因組圖譜計劃和國際癌癥基因組聯(lián)盟。
進一步地,所述腫瘤科學(xué)數(shù)據(jù)類型的來源包括美國國家生物技術(shù)信息中心,收集所述美國國家生物技術(shù)信息中心中的腫瘤科學(xué)文獻的表達方式和所述表達方式的同義詞總結(jié)腫瘤科學(xué)文獻目錄。
進一步地,所述腫瘤類型來源包括所述國際癌癥基因組圖譜計劃,根據(jù)所述美國國家生物技術(shù)信息中心中的腫瘤類型信息、腫瘤畸變信息和疾病本體信息總結(jié)腫瘤類型目錄。
進一步地,所述利用自然語言處理技術(shù)對所述腫瘤科學(xué)文獻進行處理的方式包括結(jié)構(gòu)分析、關(guān)鍵詞查找和語句分析。
進一步地,所述對所述腫瘤科學(xué)數(shù)據(jù)的共享和重利用情況進行統(tǒng)計性分析,得到相關(guān)聯(lián)的腫瘤科學(xué)文獻進一步包括:辨識所述腫瘤科學(xué)文獻中不同的腫瘤類別、組學(xué)數(shù)據(jù)類型;對所述相關(guān)的腫瘤科學(xué)文獻進行趨勢統(tǒng)計和預(yù)測,構(gòu)建腫瘤相關(guān)科學(xué)數(shù)據(jù)與科學(xué)文獻的智能化查詢界面,通過漸次鎖定科學(xué)文獻與科學(xué)數(shù)據(jù)的關(guān)系將使用戶能夠從所關(guān)心的腫瘤類型或者數(shù)據(jù)類型出發(fā),找到相應(yīng)的跟特定腫瘤數(shù)據(jù)庫相關(guān)的科學(xué)文獻。
本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明一個實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法的流程圖;
圖2是本發(fā)明一個實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
在本發(fā)明的描述中,需要理解的是,術(shù)語“中心”、“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”、“內(nèi)”、“外”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡化描述,而不是指示或暗示所指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對本發(fā)明的限制。此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
參照下面的描述和附圖,將清楚本發(fā)明的實施例的這些和其他方面。在這些描述和附圖中,具體公開了本發(fā)明的實施例中的一些特定實施方式,來表示實施本發(fā)明的實施例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實施例的范圍不受此限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
以下結(jié)合附圖描述根據(jù)本發(fā)明實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法。
圖1是本發(fā)明一個實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法的流程圖。圖2是本發(fā)明一個實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析系統(tǒng)的結(jié)構(gòu)示意圖。請參考圖1和圖2,本發(fā)明實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法,包括以下步驟:
步驟1:從開放平臺獲取腫瘤科學(xué)數(shù)據(jù)和腫瘤科學(xué)文獻。
在本發(fā)明的一個實施例中,腫瘤科學(xué)數(shù)據(jù)的獲取來源包括國際癌癥基因組圖譜計劃(thecancergenomeatlas(tcga))、國際癌癥基因組聯(lián)盟(theinternationalcancergenomeconsortium(icgc))和(thecatalogueofsomaticmutationsincancer(cosmic))等。
在本發(fā)明的一個示例中,國際腫瘤基因組圖譜計劃tcga中存儲了大量不同腫瘤不同類型的數(shù)據(jù)及相關(guān)的研究成果,其數(shù)據(jù)被廣泛應(yīng)用于腫瘤基因組的研究之中。首先從科學(xué)文獻數(shù)據(jù)庫pubmed中采集從2008年開始到目前為止的跟tcga相關(guān)的文獻。通過關(guān)鍵詞查詢及條件限定,共下載到了5372條跟tcga相關(guān)的xml格式的科學(xué)文獻的數(shù)據(jù)信息。經(jīng)過對xml數(shù)據(jù)的初步解析發(fā)現(xiàn),其中一些文獻是在參考文獻中引用了tcga或者其全稱cancergenomeatlas相關(guān)的文章,對進一步過濾掉這部分的文獻信息,剩余5千篇左右的文獻。同時,從tcga官方網(wǎng)站(http://cancergenome.nih.gov/publications)上隨機下載了25篇可開放獲取的文章,這些文獻是被證實的對tcga中的數(shù)據(jù)集進行了重利用的文章,作為標(biāo)準(zhǔn)的對照。
在本發(fā)明的一個實施例中,腫瘤科學(xué)文獻的來源包括美國國家生物技術(shù)信息中心(pubmedcentral)等。
步驟2:對腫瘤科學(xué)數(shù)據(jù)和所述科學(xué)文獻進行結(jié)構(gòu)化存儲和歸類,并建立索引。
在本發(fā)明的一個實施例中,腫瘤科學(xué)數(shù)據(jù)的獲取來源包括:國際癌癥基因組圖譜計劃tcga,通過收集tcgadataportal里面的terms,盡量考慮到不同terms的同義詞存在的情況,總結(jié)出一套數(shù)據(jù)類型list,作為參考;腫瘤類型來源包括:tcga中的cancertype全稱及abberation。為了更系統(tǒng)地囊括作者可能使用的關(guān)于腫瘤類型的同義詞,綜合腫瘤diseaseontology(http://disease-ontology.org/)的信息,總結(jié)腫瘤類型list。
步驟3:利用自然語言處理技術(shù)對腫瘤科學(xué)文獻進行處理,提取文獻所研究的腫瘤類型、采用的腫瘤科學(xué)數(shù)據(jù)類型的相關(guān)信息。其中,腫瘤科學(xué)數(shù)據(jù)數(shù)據(jù)類型的相關(guān)信息包括基于原數(shù)據(jù)集發(fā)表的腫瘤科學(xué)文獻和基于數(shù)據(jù)重利用發(fā)表的腫瘤科學(xué)文獻。
在本發(fā)明的一個實施例中,利用自然語言處理技術(shù)對所述腫瘤科學(xué)文獻進行處理的方式包括結(jié)構(gòu)分析、關(guān)鍵詞查找和語句分析等。步驟4:對腫瘤科學(xué)數(shù)據(jù)的共享和重利用情況進行統(tǒng)計性分析,得到相關(guān)聯(lián)的腫瘤科學(xué)文獻;或?qū)δ[瘤科學(xué)文獻的進行統(tǒng)計性分析,找到相關(guān)聯(lián)的腫瘤科學(xué)數(shù)據(jù)。
在本發(fā)明的一個示例中,對過濾后的tcga相關(guān)文獻的發(fā)表時間、國家、期刊等信息通過高通量測序技術(shù)進行統(tǒng)計分析。例如,自2010年威斯康辛大學(xué)的科研人員第一次成功地將基因組測序技術(shù)應(yīng)用于疾病的診斷和治療當(dāng)中,人們更加關(guān)注從基因組、轉(zhuǎn)錄組合表觀組等分子水平來探索人類復(fù)雜疾病的致病機理,并探索將研究結(jié)果推廣至臨床應(yīng)用。從文獻來源國來分析,tcga相關(guān)文獻來源于37個國家,而美國對腫瘤基因組研究貢獻的文章數(shù)是最多的,其次是中國、加拿大、澳大利亞等。面對日益增長的腫瘤基因組文獻,需要采用精細(xì)的方法深入分析。進一步對這部分科學(xué)文獻的出版期刊的信息,發(fā)現(xiàn)了749個期刊,而且其中大部分是可開放獲取的。發(fā)表tcga相關(guān)文獻數(shù)最多的期刊有plosone,ontotarget,nucleicacidsresearch等。而其中很大一部分比例的期刊是可開放獲取的,這為腫瘤基因組研究人員提供了很大的便利。
在本發(fā)明的另一個示例中,從pmc上獲取的文獻信息與從tcga網(wǎng)站上下載的重利用了tcga數(shù)據(jù)的文獻信息進行了比較分析。前者可以認(rèn)為是包含了真正使用了tcga數(shù)據(jù)或者與tcga無關(guān)而僅僅是在文章中提到了這個項目,而后者則是被證實的真正使用了tcga數(shù)據(jù)的文章,因此,這兩個數(shù)據(jù)集可以進行比較分析。具體而言,首先對文獻的xml格式進行解析,將文獻具體內(nèi)容分成以下幾個部分:title,abstract,keywords,introduction/background,method/material,result,discussion/conclusion,other。其次,用自然語言處理技術(shù)分析關(guān)鍵詞tcga或者其全稱cancergenomeatlas在文獻的不同位置的分布情況。對于pmc中的5千多篇tcga相關(guān)文獻,采用隨機抽樣的方法,每次抽取24篇文獻,一共抽取1000次,并對多次抽樣的結(jié)果取均值作為最終結(jié)果。對比分析發(fā)現(xiàn)在先驗數(shù)據(jù)集(即從tcga官網(wǎng)上下載的真正使用了tcga數(shù)據(jù)的文獻)中,關(guān)鍵詞tcga或其全稱cancergenomeatlas在文獻的result或者method/material中出現(xiàn)的頻率是最高的,幾乎能達到90%,后續(xù)將這部分的信息作為進一步解析tcga相關(guān)文獻的依據(jù)。
在本發(fā)明的一個實施例中,對腫瘤科學(xué)數(shù)據(jù)的共享和重利用情況進行統(tǒng)計性分析,得到相關(guān)聯(lián)的腫瘤科學(xué)文獻進一步包括:按照不同的腫瘤類別、組學(xué)數(shù)據(jù)類型解析識別相關(guān)的腫瘤科學(xué)文獻。對相關(guān)的腫瘤科學(xué)文獻進行趨勢統(tǒng)計和預(yù)測,構(gòu)建腫瘤相關(guān)科學(xué)數(shù)據(jù)與科學(xué)文獻的智能化查詢界面,使用戶能夠從所關(guān)心的腫瘤類型或者數(shù)據(jù)類型出發(fā),找到相應(yīng)的跟特定腫瘤數(shù)據(jù)庫相關(guān)的科學(xué)文獻。其中,智能化查詢界面包括:1.后臺數(shù)據(jù)存儲管理;2.基于自然語言處理技術(shù)(提取文獻中關(guān)于腫瘤類型、科學(xué)數(shù)據(jù)信息,通過限定關(guān)鍵詞在語段中的聚類,推斷相互關(guān)系)解析科學(xué)文獻中的科學(xué)數(shù)據(jù)信息;3.將科學(xué)數(shù)據(jù)與科學(xué)文獻建立關(guān)聯(lián),構(gòu)建搜索頁面,供查詢;4.統(tǒng)計分析模塊包括科學(xué)文獻的統(tǒng)計分析(所在期刊、是否可開放獲取、作者、國家)、科學(xué)文獻中的科學(xué)數(shù)據(jù)統(tǒng)計分析(數(shù)據(jù)類型匯總、不同數(shù)據(jù)類型之間的相關(guān)性)。具體呈現(xiàn)框架模塊參考圖2。
另外,本發(fā)明實施例的腫瘤相關(guān)科學(xué)文獻和科學(xué)數(shù)據(jù)的非結(jié)構(gòu)化整合分析方法的其它構(gòu)成以及作用對于本領(lǐng)域的技術(shù)人
員而言都是已知的,為了減少冗余,不做贅述。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同限定。