本發(fā)明涉及數(shù)據(jù)下載和搜索領(lǐng)域,具體涉及一種基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)。
背景技術(shù):
隨著測序技術(shù)的不斷發(fā)展,生物數(shù)據(jù)的產(chǎn)出速度變得很快,據(jù)統(tǒng)計,全世界二代測序技術(shù)的數(shù)據(jù)產(chǎn)出速度為每年13Pbp,并且還在不斷加速中,生物信息學研究已經(jīng)正式進入大數(shù)據(jù)時代。同時文章的產(chǎn)出速度也不斷增長。但是互聯(lián)網(wǎng)上公開的數(shù)據(jù)庫中這些數(shù)據(jù)的檢索是孤立,如搜索到文章之后,無法直接拿到該文章的SRA、GSM等數(shù)據(jù),需要重新搜索SRA、GEO DataSets等數(shù)據(jù)庫,使互聯(lián)網(wǎng)上數(shù)據(jù)的再次使用變得異常的繁瑣和困難。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的缺陷,本發(fā)明提供一種基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)。
本發(fā)明實施例提出一種基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng),包括:
數(shù)據(jù)下載模塊、數(shù)據(jù)解析模塊、數(shù)據(jù)存儲模塊、web圖形化界面模塊和數(shù)據(jù)檢索模塊;其中,
所述數(shù)據(jù)下載模塊,用于從網(wǎng)絡中的數(shù)據(jù)庫下載測序領(lǐng)域所有的文章和數(shù)據(jù),
所述數(shù)據(jù)解析模塊,用于將下載得到的文章和數(shù)據(jù)解析成標準數(shù)據(jù)格式的數(shù)據(jù),
所述數(shù)據(jù)存儲模塊,用于對所述數(shù)據(jù)解析模塊得到的數(shù)據(jù)按照預設的分詞和索引策略進行處理,并將得到的數(shù)據(jù)進行存儲,
所述web圖形化界面模塊,用于向用戶提供文章和數(shù)據(jù)的檢索界面,并將用戶通過所述檢索界面進行文章和數(shù)據(jù)檢索的檢索結(jié)果進行展示,
所述數(shù)據(jù)檢索模塊,用于根據(jù)用戶通過所述檢索界面設置的檢索條件從所述數(shù)據(jù)存儲模塊存儲的數(shù)據(jù)中檢索得到檢索結(jié)果,并將所述檢索結(jié)果反饋給所述web圖形化界面模塊。
本發(fā)明實施例提供的基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng),通過下載測序領(lǐng)域所有的數(shù)據(jù)和文章,對數(shù)據(jù)和文章進行解析、關(guān)聯(lián)整合、分詞、建立索引并進行存儲,使得用戶可以在一個web頁面中進行文章和數(shù)據(jù)的檢索,便于公開數(shù)據(jù)的再次利用和研究。
附圖說明
圖1為本發(fā)明一種基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)一實施例的結(jié)構(gòu)示意圖。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
參看圖1,本實施例公開一種基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng),包括:
數(shù)據(jù)下載模塊1、數(shù)據(jù)解析模塊2、數(shù)據(jù)存儲模塊3、web圖形化界面模塊4和數(shù)據(jù)檢索模塊5;其中,
所述數(shù)據(jù)下載模塊1,用于從網(wǎng)絡中的數(shù)據(jù)庫下載測序領(lǐng)域所有的文章和數(shù)據(jù),
所述數(shù)據(jù)解析模塊2,用于將下載得到的文章和數(shù)據(jù)解析成標準數(shù)據(jù)格式的數(shù)據(jù),
在具體應用中,所述標準數(shù)據(jù)格式可以為JSON格式。
所述數(shù)據(jù)存儲模塊3,用于對所述數(shù)據(jù)解析模塊2解析得到的數(shù)據(jù)按照預設的分詞策略進行分詞處理,得到數(shù)據(jù)分詞,對所述數(shù)據(jù)分詞建立搜索索引,并對建立搜索索引的所述數(shù)據(jù)分詞進行存儲,
所述web圖形化界面模塊4,用于向用戶提供文章和數(shù)據(jù)的檢索界面,并將用戶通過所述檢索界面進行文章和數(shù)據(jù)檢索的檢索結(jié)果進行展示,
所述數(shù)據(jù)檢索模塊5,用于根據(jù)用戶通過所述檢索界面設置的檢索條件從所述數(shù)據(jù)存儲模塊3存儲的數(shù)據(jù)中檢索得到檢索結(jié)果,并將所述檢索結(jié)果反饋給所述web圖形化界面模塊4。
本發(fā)明實施例中,數(shù)據(jù)存儲模塊3首先會對數(shù)據(jù)解析模塊2解析得到的數(shù)據(jù)進行數(shù)據(jù)關(guān)聯(lián)整合,即將各種數(shù)據(jù)庫中不同的數(shù)據(jù)庫進行強關(guān)聯(lián),方便數(shù)據(jù)檢索模塊的各種條件的組合檢索,保證用戶的精確查詢,之后會對整合之后的數(shù)據(jù)進行分詞、建立索引并進行存儲。
本發(fā)明實施例中,檢索界面上可以顯示多種檢索條件,用戶在進行檢索時,可以通過輸入或者選擇相應的檢索式進行文章和數(shù)據(jù)的檢索。具體根據(jù)用戶輸入或者選擇的檢索式從數(shù)據(jù)存儲模塊存儲的分詞數(shù)據(jù)中進行檢索可以采用現(xiàn)有的從文獻數(shù)據(jù)庫中檢索文獻的檢索方法,具體檢索過程此處不再贅述。
本發(fā)明實施例提供的基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng),通過下載測序領(lǐng)域所有的數(shù)據(jù)和文章,對數(shù)據(jù)和文章進行解析、關(guān)聯(lián)整合、分詞、建立索引并進行存儲,使得用戶可以在一個web頁面中進行文章和數(shù)據(jù)的檢索,便于公開數(shù)據(jù)的再次利用和研究。
可選地,在本發(fā)明基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)的另一實施例中,還包括:
定時更新模塊;其中,
所述定時更新模塊,用于定時獲取網(wǎng)絡中的最新數(shù)據(jù)和文章,并將所述最新數(shù)據(jù)和文章發(fā)送給所述數(shù)據(jù)存儲模塊。
可選地,在本發(fā)明基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)的另一實施例中,所述數(shù)據(jù)檢索模塊,還用于將最新數(shù)據(jù)和文章推送給訂閱用戶。
可選地,在本發(fā)明基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)的另一實施例中,所述數(shù)據(jù)下載模塊,用于通過互聯(lián)網(wǎng)爬蟲從網(wǎng)絡中的數(shù)據(jù)庫下載測序領(lǐng)域所有的文章和數(shù)據(jù)。
可選地,在本發(fā)明基于生物云平臺的文章和數(shù)據(jù)的檢索和自動下載系統(tǒng)的另一實施例中,所述數(shù)據(jù)存儲模塊,具體用于將按照所述分詞和索引策略處理后的數(shù)據(jù)存儲在內(nèi)部的分布式elasticsearch集群。
本發(fā)明實施例中,elasticsearch集群具有高可用、高擴展等性能。在進行檢索時,可以根據(jù)elasticsearch集群對外提供搜索API方便web圖形化界面模塊調(diào)用,并方便圖形化界面用戶的查看與使用。用戶在登錄圖形化界面之后,可以根據(jù)不同的組合條件對elasticsearch中的海量數(shù)據(jù)進行各種不同的組合搜索以及詳情查看。通過集群化存儲數(shù)據(jù),能夠保證數(shù)據(jù)的完整性、安全性、可用性以及快速響應。
雖然結(jié)合附圖描述了本發(fā)明的實施方式,但是本領(lǐng)域技術(shù)人員可以在不脫離本發(fā)明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權(quán)利要求所限定的范圍之內(nèi)。