跨平臺的數(shù)據(jù)檢索方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種跨平臺的數(shù)據(jù)檢索方法及裝置。其中,該方法包括:建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址;根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。采用本發(fā)明提供的上述技術手段,解決了相關技術中,數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題,從而可以實現(xiàn)對大數(shù)據(jù)的快速檢索。
【專利說明】跨平臺的數(shù)據(jù)檢索方法及裝置
【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)檢索領域,尤其是涉及一種跨平臺的數(shù)據(jù)檢索方法及裝置。
【背景技術】
[0002]目前,企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長,據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet DataCenter,簡稱為IDC)最近的報告人預測稱,到2020年,全球數(shù)據(jù)量將擴大50倍。目前,大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標,單一數(shù)據(jù)集的規(guī)模從幾十TB到數(shù)PB不等。大數(shù)據(jù)有四個特點:第一,數(shù)據(jù)體量巨大;第二,數(shù)據(jù)類型繁多;第三價值密度低。第四,處理速度快。大數(shù)據(jù)檢索的主要挑戰(zhàn)在于:海量數(shù)據(jù)規(guī)模的處理,多字段多類型數(shù)據(jù)的整合,高效的索引壓縮技術及這毫秒級的索引更新技術。面對這樣的挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)庫管理經(jīng)常不能勝任。
[0003]幾乎所有的應用都會用到數(shù)據(jù)庫,都需要從數(shù)據(jù)庫中查詢數(shù)據(jù)。而有些特殊行業(yè)的數(shù)據(jù)庫往往都是海量數(shù)據(jù),從這種數(shù)據(jù)庫中直接查詢數(shù)據(jù)所等待的時間對于實時性要求很高的系統(tǒng)是不可接受的,基于云平臺的高效數(shù)據(jù)檢索可以極大地縮短查詢時間,滿足實時性系統(tǒng)的要求。
[0004]大數(shù)據(jù)存儲及檢索是比較難以全面掌握的技術,正確的檢索方法可以使效率提高上萬倍,而低效的檢索可能浪費數(shù)據(jù)庫空間。本文后分析了幾種特殊形式檢索的特性,并且從技術及使用方面論證了該方法的可行性。
[0005]需要分析檢索的數(shù)據(jù),通常會分散在網(wǎng)絡上若干不同平臺的服務器中,且通常是以大數(shù)據(jù)文件的形式存在,在實際上的任何一個平臺中,數(shù)據(jù)檢索都是必不可少的功能,而檢索的效率又影響到平臺響應時間和性能這兩個關鍵指標,尤其當數(shù)據(jù)量變得越來越大時,如果處理大數(shù)據(jù)量的檢索是每個平臺架構設計必須面對的問題。
[0006]針對相關技術中的上述問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0007]針對相關技術中,現(xiàn)有的數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題,本發(fā)明提供了一種跨平臺的數(shù)據(jù)檢索方法及裝置,以至少解決上述問題。
[0008]為了達到上述目的,根據(jù)本發(fā)明的一個方面,提供了一種跨平臺的數(shù)據(jù)檢索方法,包括:建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址;根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0009]優(yōu)選地,根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之前,包括:將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類;將分類后的上述索引按照類別進行分類存儲。
[0010]優(yōu)選地,上述特征信息包括以下至少之一:業(yè)務類型、數(shù)據(jù)文件屬性。
[0011]優(yōu)選地,建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引,包括:對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊;對分塊后的上述數(shù)據(jù)文件建立索引。
[0012]優(yōu)選地,建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引,包括:監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況;對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0013]優(yōu)選地,根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之后,還包括:對檢索到的數(shù)據(jù)進行緩存處理。
[0014]為了達到上述目的,根據(jù)本發(fā)明的再一個方面,一種跨平臺的數(shù)據(jù)檢索裝置,包括:建立模塊,用于建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址;檢索模塊,用于根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0015]優(yōu)選地,上述裝置還包括:分類模塊,用于將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類;存儲模塊,用于將分類后的上述索引按照類別進行分類存儲。
[0016]優(yōu)選地,上述建立模塊包括:分塊單元,用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊;第一建立單元,用于對分塊后的上述數(shù)據(jù)文件建立索引。
[0017]優(yōu)選地,上述建立模塊包括:監(jiān)測單元,用于監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況;第二建立單元,用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0018]通過本發(fā)明,采用建立各個平臺的所有數(shù)據(jù)文件的索引,并根據(jù)上述索引對所述數(shù)據(jù)文件進行檢索的技術手段,解決了相關技術中,數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題,從而可以實現(xiàn)對大數(shù)據(jù)的快速檢索。
【專利附圖】
【附圖說明】
[0019]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0020]圖1為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索方法的流程圖;
[0021]圖2為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖;
[0022]圖3為根據(jù)本發(fā)明優(yōu)選實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖;
[0023]圖4為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的整體架構圖;
[0024]圖5為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的原理流程示意圖;
[0025]圖6為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的核心模塊示意圖;
[0026]圖7為根據(jù)本發(fā)明實施例2的內(nèi)存索引結構示意圖。
【具體實施方式】
[0027]下文中將參考附圖并結合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。
[0028]圖1為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索方法的流程圖。如圖1所示,該方法包括:
[0029]步驟S102,建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址;需要說明的是,此處“平臺”的含義可以理解為云網(wǎng)絡上的各個計算節(jié)點。
[0030]為了實現(xiàn)數(shù)據(jù)的快速檢索,可以將上述索引按照該索引對應的數(shù)據(jù)文件的特征信息進行分類;將分類后的上述索引按照類別進行分類存儲。這樣在檢索時,便可以進行分類檢索,提供了檢索效率。其中,上述特征信息包括以下至少之一:業(yè)務類型、數(shù)據(jù)文件屬性。
[0031]在本實施例中,步驟S102的實現(xiàn)可以包括但不限于以下處理過程:
[0032](I)對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊;對分塊后的上述數(shù)據(jù)文件建立索引。
[0033](2)監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況;對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0034]步驟S104,根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0035]在根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之后,為了避免重復加載數(shù)據(jù),對檢索到的數(shù)據(jù)進行緩存處理,這樣,在檢索相同數(shù)據(jù)時,便可以從緩存中直接讀取或加載緩存中的數(shù)據(jù)。
[0036]在本實施例中還提供了一種數(shù)據(jù)檢索裝置,用于實現(xiàn)上述實施例及優(yōu)選實施方式,已經(jīng)進行過說明的不再贅述,下面對該裝置中涉及到的模塊進行說明。如以下所使用的,術語“模塊”可以實現(xiàn)預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現(xiàn),但是硬件,或者軟件和硬件的組合的實現(xiàn)也是可能并被構想的。圖2為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖。如圖2所示,該裝置包括:
[0037]建立模塊20,連接至檢索模塊22,用于建立在網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址;
[0038]檢索模塊22,用于根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0039]優(yōu)選地,如圖3所示,上述裝置還可以包括以下處理模塊:分類模塊30,連接至存儲模塊32,用于將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類;存儲模塊32,用于將分類后的上述索引按照類別進行分類存儲。
[0040]優(yōu)選地,如圖3所示,上述建立模塊20包括:分塊單元200,連接至第一建立單元202,用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊;第一建立單元202,用于對分塊后的上述數(shù)據(jù)文件建立索引。
[0041]優(yōu)選地,上述建立模塊20包括:監(jiān)測單元204,連接至第二建立單元206,用于監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況;第二建立單元206,用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0042]為了更好地理解上述實施例,以下結合優(yōu)選實施例詳細說明。
[0043]實施例1
[0044]本實施例的主要設計思想在于,設置一套可以統(tǒng)一管理系統(tǒng)運行時所有數(shù)據(jù)文件,并且能夠負責與實際磁盤文件交互的緩存管理系統(tǒng),在內(nèi)存中映射出大數(shù)據(jù)文件的索弓丨,并以慣常使用的索引特性為ID,將數(shù)據(jù)文件分塊進行內(nèi)存映射,并發(fā)地將數(shù)據(jù)文件依次的映射到文件處理服務器進程中的一個較小的地址空間。
[0045]由于一般互聯(lián)網(wǎng)的特征:信息發(fā)布較為頻繁,剛發(fā)布完的信息被編輯、修改的可能性大?;谶@個特征,在本實施例中,使用獨立的數(shù)據(jù)文件監(jiān)控器,監(jiān)控數(shù)據(jù)文件變化情況,對新入庫的數(shù)據(jù)建立新的內(nèi)存映射索引,并以主索引+增量索引更新方式加載、從而提高訪問的效率以及速度。對于復雜數(shù)據(jù)的統(tǒng)計查詢過程,可以分解成兩個過程,統(tǒng)計計算歸集和實時查詢,將統(tǒng)計計算歸集過程放在后臺運行。
[0046]其中,主索引和增量索引的映射實現(xiàn)過程如下:掃描器定時掃描數(shù)據(jù)的變化情況,并判斷在每天某一時間之前的數(shù)據(jù)變化,自動建立主文件索引并重建映射關系;對于某一時間之后的最新數(shù)據(jù),間隔固定時間自動更新增量索引,并重建映射關系,主索引和增量索引是父子關系,主索引包含增量索引的ID,通過查詢主索引定位到相應的增量索引。
[0047]其中,上述統(tǒng)計計算歸集的具體實現(xiàn)過程如下:每間隔固定時間統(tǒng)計分析新增數(shù)據(jù),歸集過程只歸集增量數(shù)據(jù),將新增數(shù)據(jù)與原數(shù)據(jù)整合,形成新的數(shù)據(jù)歸集,從而大大提高了大數(shù)據(jù)量統(tǒng)計查詢的執(zhí)行效率。
[0048]如圖4所示,索引服務器根據(jù)海量文件數(shù)據(jù)的變化情況,采用不同的策略定時更新索引群的內(nèi)容,當有數(shù)據(jù)檢索任務的時候,由集群索引調(diào)度服務來根據(jù)服務器的負載情況定位到相應的服務器,通過查詢索引,檢查數(shù)據(jù)緩沖區(qū)是否包含相關數(shù)據(jù),否則直接從文件服務器讀取數(shù)據(jù),同時將數(shù)據(jù)寫入數(shù)據(jù)緩沖區(qū)。其中,集群索引調(diào)度服務和服務器之間通過簡單對象訪問協(xié)議(Simple Objective Access Protocol,簡稱為SOAP)執(zhí)行相關任務(Task)。
[0049]如圖5所示,檢索服務對外提供多種檢索接口,包括PC端,移動終端(操作系統(tǒng)可以為Android、10S)等,當終端發(fā)送檢索請求以及檢索條件到檢索服務器后,檢索服務根據(jù)所檢索的內(nèi)容不同,查詢數(shù)據(jù)索引,定位到不同數(shù)據(jù)管理系統(tǒng),包括非關系型數(shù)據(jù)庫(NotOnly Structured Query Language,簡稱為NoSQL)數(shù)據(jù)庫,關系型數(shù)據(jù)庫,以及文件存儲系統(tǒng),相關數(shù)據(jù)庫管理系統(tǒng)會根據(jù)所提供的查詢條件,將相應結果返回給檢索服務,由檢索服務的統(tǒng)一接口返回給調(diào)用者。
[0050]如圖6所示,權重計算器、索引管理器、數(shù)據(jù)文件管理器三個管理器共同構建成了系統(tǒng)的核心基礎,其中,權重計算器負責根據(jù)服務器的負載情況,將任務分配到不同的索引管理器上;索引管理器負責監(jiān)控數(shù)據(jù)文件的變化情況,并根據(jù)變化的情況下更新索引和重建映射,并對已有的索引進行管理,去除無效索引和,根據(jù)檢索情況的不同將高頻數(shù)據(jù)放入數(shù)據(jù)緩存;數(shù)據(jù)文件管理負責對數(shù)據(jù)文件的存、取、刪除操作,并隨時監(jiān)控數(shù)據(jù)文件的變化情況,將變化情況反饋給索引管理器;數(shù)據(jù)緩存里保存檢索頻率比較高的數(shù)據(jù)文件,用以提高檢索的效率;搜索引擎對外部開發(fā),為用戶提供數(shù)據(jù)文件的檢索服務,當有檢索任務的時候,引擎通過索引進行檢索,根據(jù)索引情況從緩存或數(shù)據(jù)存儲讀取相應數(shù)據(jù)。
[0051]實施例2
[0052]1、大數(shù)據(jù)存儲
[0053]隨著集群中計算節(jié)點的數(shù)量的增長,帶寬開銷也會增長。通常情況下,使用Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱為HDFS)的多模計算集群在處理大數(shù)據(jù)時將會產(chǎn)生大量流量。這是因為HDFS在集群的成員服務器間傳輸數(shù)據(jù)(以及計算資源)。
[0054]在大多數(shù)情況下,基于服務器的本地存儲并沒有高效率的優(yōu)點,比較本地服務器存儲和基于SAN的存儲時,本地存儲在兩個方面占據(jù)優(yōu)勢:成本和整體性能。為了改善本地存儲在擴展方面的問題,現(xiàn)有兩種方法可以使用,一種方法是增加具有更多本地存儲的額外的服務器。第二種方法是增加集群服務器的容量。這兩種方法都需要購買和配置硬件,無論使用哪種方法都要比向SAN增加容量要便宜,可以說,這是一個顯著的成本優(yōu)勢。
[0055]2、建立索引數(shù)據(jù)文件
[0056]在進行檢索之前,需要對保存在庫里或者數(shù)據(jù)文件系統(tǒng)里的數(shù)據(jù)建立相應的索弓I。在大數(shù)據(jù)時代數(shù)據(jù)更多的以數(shù)據(jù)文件的方式保存,需要建立獨立的數(shù)據(jù)索引文件,將數(shù)據(jù)文件的存儲地址映射到相應的索引中。給定一個哈希鍵值,我們可以先求哈希函數(shù)的值,然后根據(jù)該值尋找相應的數(shù)據(jù)文件,最后只須在該數(shù)據(jù)文件中尋找包含給定哈希鍵值的記錄即可。如果我們選取的文件數(shù)目B和檔案中所有記錄的數(shù)目大體相當,那么分配到每個數(shù)據(jù)的記錄數(shù)目都會較小,這樣在文件系統(tǒng)內(nèi)部的搜索速度就會很快。
[0057]圖7給出了包含姓名(name)、地址(address)和電話號碼(phone)字段的記錄的內(nèi)存索引結構的大概結構。這里,索引基于電話號碼字段構建,采用鏈表結構。圖7中展示電話號碼800-555-1212所對應的哈希號碼為17。對于索引頭(bucket header)構成的數(shù)組,其第i個元素實際上是第i個桶對應鏈表的頭指針。圖中展開了鏈表中的一個元素,它包含姓名、地址和電話號碼字段的一條記錄。事實上,該元素對應記錄包含的電話號碼正好是800-555-1212,但是其它記錄可能包含也可能不包含這個電話號碼,此時只知道這些記錄中的電話號碼經(jīng)過哈希變換之后結果都是17。
[0058]3、緩存管理
[0059]普通的索引文件只解決了通常檢索的需要,在大數(shù)據(jù)環(huán)境下,如果想要實現(xiàn)高效的數(shù)據(jù)文件的索引,建立內(nèi)存索引映射無疑是一種很有效的方法。系統(tǒng)設置了一套可以統(tǒng)一管理系統(tǒng)運行時所有數(shù)據(jù)文件,并且能夠負責與實際磁盤文件交互的緩存管理系統(tǒng),緩存管理系統(tǒng)責任在緩存內(nèi)建立一個映射大數(shù)據(jù)文件夾的索引表,以普通使用的索引特性為身份標識(Identity,簡稱為ID),將數(shù)據(jù)文件根據(jù)其不同的業(yè)務特性及文件屬性的不同,在緩存中映射到不同的存儲塊。對于較大的數(shù)據(jù)文件夾,將數(shù)據(jù)文件分塊進行內(nèi)存映射,并發(fā)的將數(shù)據(jù)文件依次的映到文件處理服務器進程中的一個較小的地址空間。
[0060]緩存管理系統(tǒng)設置一個緩沖區(qū),對于已經(jīng)加載過的數(shù)據(jù)會保存相關的記錄,如果再次出現(xiàn)訪問則不需要再次加載、從而提高訪問的效率以及速度。對于復雜數(shù)據(jù)的統(tǒng)計查詢過程,本方法把這一過程包分解成兩個過程,統(tǒng)計計算歸集和實時查詢,將統(tǒng)計計算歸集過程放在后臺運行,并且歸集過程只歸集增量數(shù)據(jù),從而大大提高了大數(shù)據(jù)量統(tǒng)計查詢的執(zhí)行效率。
[0061]4、詞索引與查詢功能
[0062]系統(tǒng)中提供了傳統(tǒng)的字索引,但是為提高查詢檢索的準確度,系統(tǒng)采用自然語言斷詞機制和靈活的詞索引開關,用戶可根據(jù)需要選擇詞索引或字索引。具體功能如下:
[0063]中文句子將透過智能型自動斷詞技術以達到詞索引的效果,自動分析與斷詞,并建立詞索引;
[0064]詞索引功能通過開關靈活設置;
[0065]檢索字串首先通過自動斷詞,將其斷詞結果進行組合檢索;
[0066]提供「詞庫」編輯器,針對斷詞用的「詞庫」進行維護和調(diào)整;使中文切分詞更符合使用者的行業(yè)特點,提高查詢的速度和準確度。
[0067]優(yōu)勢如下:
[0068]提高精確度:輸入「民法」不會找到「人民法院」;
[0069]更小的索引空間:通過詞索引的方式,索引數(shù)據(jù)庫相對字索引需要更少的磁盤空間;同樣數(shù)據(jù)量下,檢索時需要的內(nèi)存(Memory)更少;
[0070]檢索性能更高:配合高效算法,詞索引的搜索性能相對字索引平均高出3倍以上。
[0071]5、信息萃取和服務
[0072]此部分提供對數(shù)據(jù)提取的內(nèi)容所包含的信息,進行數(shù)據(jù)處理分析,包含:
[0073]分類模式建立自動分類功能。
[0074]針對非結構性數(shù)據(jù)建立詞庫,詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。
[0075]自動分類機制與專業(yè)詞庫須具備自動學習與修正之功能以提升數(shù)據(jù)處理準確度。
[0076]可針對不同使用層級、項目進行非結構性數(shù)據(jù)權限控管。依照使用者不同等級提供不同權限的查詢功能接口。
[0077]應用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群,將匯整的內(nèi)容進行斷詞、索引、分類、文件特征等運算與處理,以便滿足信息檢索與信息管理的應用,提供多功能全面性的數(shù)據(jù)分析能力,可針對不同情境應用加以整合,快速達到使用者需求。
[0078]同時,用戶利用本系統(tǒng)的搜索弓I擎處理提供的強大的搜索功能,如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等,快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。
[0079]6、數(shù)據(jù)監(jiān)控和索引更新
[0080]由于一般互聯(lián)網(wǎng)的特征:信息發(fā)布較為頻繁,剛發(fā)布完的信息被編輯、修改的可能性大?;谶@個特征,使用獨立的數(shù)據(jù)文件監(jiān)控器,監(jiān)控器實時掃描數(shù)據(jù)文件存儲器,監(jiān)控數(shù)據(jù)文件變化情況,對新入庫的數(shù)據(jù)建立新的內(nèi)存映射索引,并以主索引+增量索引更新方式,根據(jù)應用場景的不同,靈活設置一個分隔時間點,對于當天該時間之前的數(shù)據(jù)建立主文件映射,每天定時重建映射,對于該時間之后的最新數(shù)據(jù),間隔固定時間自動重建映射,以這種方式實現(xiàn)增量數(shù)據(jù)的定期歸集,并保證數(shù)據(jù)索引的實時性和準確性,保證了檢索的正確率。
[0081]綜上所述,本發(fā)明實施例提供的上述方案實現(xiàn)了以下有益效果:
[0082]采用的高效率的整合搜索,大幅減少組織成員在取得信息時花費的時間,它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索,具備強大的信息整合及快速回應能力,可在最短時間內(nèi),完整、準確、及時地從海量數(shù)據(jù)庫中搜索到相應的信息。
[0083]可以實現(xiàn)對非結構/非組織的信息的管理。文件/檔案以及非經(jīng)過分類管理的信息,因為附加信息稀少,往往成為知識利用上難以判斷、分析的信息。本發(fā)明實施例提供的方案可以直接針對內(nèi)容全文分析、關聯(lián),使這類信息同樣可讓使用者以檢索方式,快速篩選利用。
[0084]整合容易,使用簡易,導入迅速,易于接受??梢詫崿F(xiàn)套裝化、模塊化的設計及靈活的整合能力,能在企業(yè)內(nèi)迅速的安裝設置;操作方式簡單,企業(yè)成員易于接受,導入方便。以最經(jīng)濟的時間、人力及費用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。
[0085]顯然,本領域的技術人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。
[0086]以上僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種跨平臺的數(shù)據(jù)檢索方法,其特征在于,包括: 建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址; 根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。
2.根據(jù)權利要求1所述的方法,其特征在于,根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索之前,包括: 將所述索引按照所述索引對應的數(shù)據(jù)文件的特征信息進行分類; 將分類后的所述索引按照類別進行分類存儲。
3.根據(jù)權利要求2所述的方法,其特征在于,所述特征信息包括以下至少之一: 業(yè)務類型、數(shù)據(jù)文件屬性。
4.根據(jù)權利要求1所述的方法,其特征在于,建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引,包括: 對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊; 對分塊后的所述數(shù)據(jù)文件建立索引。
5.根據(jù)權利要求1所述的方法,其特征在于,建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引,包括: 監(jiān)測所述各個平臺中數(shù)據(jù)文件的變化情況; 對新產(chǎn)生的數(shù)據(jù)文件建立索弓I。
6.根據(jù)權利要求1至5任一項所述的方法,其特征在于,根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索之后,還包括: 對檢索到的數(shù)據(jù)進行緩存處理。
7.—種跨平臺的數(shù)據(jù)檢索裝置,其特征在于,包括: 建立模塊,用于建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引,其中,所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址; 檢索模塊,用于根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。
8.根據(jù)權利要求7所述的裝置,其特征在于,還包括: 分類模塊,用于將所述索引按照所述索引對應的數(shù)據(jù)文件的特征信息進行分類; 存儲模塊,用于將分類后的所述索引按照類別進行分類存儲。
9.根據(jù)權利要求7所述的裝置,其特征在于,所述建立模塊包括: 分塊單元,用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊; 第一建立單元,用于對分塊后的所述數(shù)據(jù)文件建立索引。
10.根據(jù)權利要求7所述的裝置,其特征在于,所述建立模塊包括: 監(jiān)測單元,用于監(jiān)測所述各個平臺中數(shù)據(jù)文件的變化情況; 第二建立單元,用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
【文檔編號】G06F17/30GK104239377SQ201310560579
【公開日】2014年12月24日 申請日期:2013年11月12日 優(yōu)先權日:2013年11月12日
【發(fā)明者】宋立新, 楊勇, 張建杰 申請人:新華瑞德(北京)網(wǎng)絡科技有限公司