跨平臺的數(shù)據(jù)檢索方法及裝置制造方法

文檔序號：6518698閱讀：218來源：國知局

跨平臺的數(shù)據(jù)檢索方法及裝置制造方法
【專利摘要】本發(fā)明提供了一種跨平臺的數(shù)據(jù)檢索方法及裝置。其中，該方法包括：建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址；根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。采用本發(fā)明提供的上述技術手段，解決了相關技術中，數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題，從而可以實現(xiàn)對大數(shù)據(jù)的快速檢索。
【專利說明】跨平臺的數(shù)據(jù)檢索方法及裝置

【技術領域】
[0001]本發(fā)明涉及數(shù)據(jù)檢索領域，尤其是涉及一種跨平臺的數(shù)據(jù)檢索方法及裝置。

【背景技術】
[0002]目前，企業(yè)面臨著數(shù)據(jù)量的大規(guī)模增長，據(jù)互聯(lián)網(wǎng)數(shù)據(jù)中心(Internet DataCenter,簡稱為IDC)最近的報告人預測稱，到2020年，全球數(shù)據(jù)量將擴大50倍。目前，大數(shù)據(jù)的規(guī)模尚是一個不斷變化的指標，單一數(shù)據(jù)集的規(guī)模從幾十TB到數(shù)PB不等。大數(shù)據(jù)有四個特點:第一，數(shù)據(jù)體量巨大；第二，數(shù)據(jù)類型繁多；第三價值密度低。第四，處理速度快。大數(shù)據(jù)檢索的主要挑戰(zhàn)在于:海量數(shù)據(jù)規(guī)模的處理，多字段多類型數(shù)據(jù)的整合，高效的索引壓縮技術及這毫秒級的索引更新技術。面對這樣的挑戰(zhàn)，傳統(tǒng)的數(shù)據(jù)庫管理經(jīng)常不能勝任。
[0003]幾乎所有的應用都會用到數(shù)據(jù)庫，都需要從數(shù)據(jù)庫中查詢數(shù)據(jù)。而有些特殊行業(yè)的數(shù)據(jù)庫往往都是海量數(shù)據(jù)，從這種數(shù)據(jù)庫中直接查詢數(shù)據(jù)所等待的時間對于實時性要求很高的系統(tǒng)是不可接受的，基于云平臺的高效數(shù)據(jù)檢索可以極大地縮短查詢時間，滿足實時性系統(tǒng)的要求。
[0004]大數(shù)據(jù)存儲及檢索是比較難以全面掌握的技術，正確的檢索方法可以使效率提高上萬倍，而低效的檢索可能浪費數(shù)據(jù)庫空間。本文后分析了幾種特殊形式檢索的特性，并且從技術及使用方面論證了該方法的可行性。
[0005]需要分析檢索的數(shù)據(jù)，通常會分散在網(wǎng)絡上若干不同平臺的服務器中，且通常是以大數(shù)據(jù)文件的形式存在，在實際上的任何一個平臺中，數(shù)據(jù)檢索都是必不可少的功能，而檢索的效率又影響到平臺響應時間和性能這兩個關鍵指標，尤其當數(shù)據(jù)量變得越來越大時，如果處理大數(shù)據(jù)量的檢索是每個平臺架構設計必須面對的問題。
[0006]針對相關技術中的上述問題，目前尚未提出有效的解決方案。

【發(fā)明內(nèi)容】

[0007]針對相關技術中，現(xiàn)有的數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題，本發(fā)明提供了一種跨平臺的數(shù)據(jù)檢索方法及裝置，以至少解決上述問題。
[0008]為了達到上述目的，根據(jù)本發(fā)明的一個方面，提供了一種跨平臺的數(shù)據(jù)檢索方法，包括:建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址；根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0009]優(yōu)選地，根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之前，包括:將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類；將分類后的上述索引按照類別進行分類存儲。
[0010]優(yōu)選地，上述特征信息包括以下至少之一:業(yè)務類型、數(shù)據(jù)文件屬性。
[0011]優(yōu)選地，建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引，包括:對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；對分塊后的上述數(shù)據(jù)文件建立索引。
[0012]優(yōu)選地，建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引，包括:監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況；對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0013]優(yōu)選地，根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之后，還包括:對檢索到的數(shù)據(jù)進行緩存處理。
[0014]為了達到上述目的，根據(jù)本發(fā)明的再一個方面，一種跨平臺的數(shù)據(jù)檢索裝置，包括:建立模塊，用于建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址；檢索模塊，用于根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0015]優(yōu)選地，上述裝置還包括:分類模塊，用于將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類；存儲模塊，用于將分類后的上述索引按照類別進行分類存儲。
[0016]優(yōu)選地，上述建立模塊包括:分塊單元，用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；第一建立單元，用于對分塊后的上述數(shù)據(jù)文件建立索引。
[0017]優(yōu)選地，上述建立模塊包括:監(jiān)測單元，用于監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況；第二建立單元，用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0018]通過本發(fā)明，采用建立各個平臺的所有數(shù)據(jù)文件的索引，并根據(jù)上述索引對所述數(shù)據(jù)文件進行檢索的技術手段，解決了相關技術中，數(shù)據(jù)檢索方案不能滿足大數(shù)據(jù)量檢索要求等技術問題，從而可以實現(xiàn)對大數(shù)據(jù)的快速檢索。

【專利附圖】

【附圖說明】
[0019]此處所說明的附圖用來提供對本發(fā)明的進一步理解，構成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構成對本發(fā)明的不當限定。在附圖中:
[0020]圖1為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索方法的流程圖；
[0021]圖2為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖；
[0022]圖3為根據(jù)本發(fā)明優(yōu)選實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖；
[0023]圖4為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的整體架構圖；
[0024]圖5為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的原理流程示意圖；
[0025]圖6為根據(jù)本發(fā)明實施例1的跨平臺的數(shù)據(jù)檢索的核心模塊示意圖；
[0026]圖7為根據(jù)本發(fā)明實施例2的內(nèi)存索引結構示意圖。

【具體實施方式】
[0027]下文中將參考附圖并結合實施例來詳細說明本發(fā)明。需要說明的是，在不沖突的情況下，本申請中的實施例及實施例中的特征可以相互組合。
[0028]圖1為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索方法的流程圖。如圖1所示，該方法包括:
[0029]步驟S102，建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址；需要說明的是，此處“平臺”的含義可以理解為云網(wǎng)絡上的各個計算節(jié)點。
[0030]為了實現(xiàn)數(shù)據(jù)的快速檢索，可以將上述索引按照該索引對應的數(shù)據(jù)文件的特征信息進行分類；將分類后的上述索引按照類別進行分類存儲。這樣在檢索時，便可以進行分類檢索，提供了檢索效率。其中，上述特征信息包括以下至少之一:業(yè)務類型、數(shù)據(jù)文件屬性。
[0031]在本實施例中，步驟S102的實現(xiàn)可以包括但不限于以下處理過程:
[0032](I)對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；對分塊后的上述數(shù)據(jù)文件建立索引。
[0033](2)監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況；對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0034]步驟S104，根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0035]在根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索之后，為了避免重復加載數(shù)據(jù)，對檢索到的數(shù)據(jù)進行緩存處理，這樣，在檢索相同數(shù)據(jù)時，便可以從緩存中直接讀取或加載緩存中的數(shù)據(jù)。
[0036]在本實施例中還提供了一種數(shù)據(jù)檢索裝置，用于實現(xiàn)上述實施例及優(yōu)選實施方式，已經(jīng)進行過說明的不再贅述，下面對該裝置中涉及到的模塊進行說明。如以下所使用的，術語“模塊”可以實現(xiàn)預定功能的軟件和/或硬件的組合。盡管以下實施例所描述的裝置較佳地以軟件來實現(xiàn)，但是硬件，或者軟件和硬件的組合的實現(xiàn)也是可能并被構想的。圖2為根據(jù)本發(fā)明實施例的跨平臺的數(shù)據(jù)檢索裝置的結構框圖。如圖2所示，該裝置包括:
[0037]建立模塊20，連接至檢索模塊22，用于建立在網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，上述索引中攜帶有上述數(shù)據(jù)文件的存儲地址；
[0038]檢索模塊22，用于根據(jù)上述索引對上述數(shù)據(jù)文件進行檢索。
[0039]優(yōu)選地，如圖3所示，上述裝置還可以包括以下處理模塊:分類模塊30，連接至存儲模塊32，用于將上述索引按照上述索引對應的數(shù)據(jù)文件的特征信息進行分類；存儲模塊32，用于將分類后的上述索引按照類別進行分類存儲。
[0040]優(yōu)選地,如圖3所示,上述建立模塊20包括:分塊單元200,連接至第一建立單元202，用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；第一建立單元202，用于對分塊后的上述數(shù)據(jù)文件建立索引。
[0041]優(yōu)選地，上述建立模塊20包括:監(jiān)測單元204，連接至第二建立單元206，用于監(jiān)測上述各個平臺中數(shù)據(jù)文件的變化情況；第二建立單元206，用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
[0042]為了更好地理解上述實施例，以下結合優(yōu)選實施例詳細說明。
[0043]實施例1
[0044]本實施例的主要設計思想在于，設置一套可以統(tǒng)一管理系統(tǒng)運行時所有數(shù)據(jù)文件，并且能夠負責與實際磁盤文件交互的緩存管理系統(tǒng)，在內(nèi)存中映射出大數(shù)據(jù)文件的索弓丨，并以慣常使用的索引特性為ID，將數(shù)據(jù)文件分塊進行內(nèi)存映射，并發(fā)地將數(shù)據(jù)文件依次的映射到文件處理服務器進程中的一個較小的地址空間。
[0045]由于一般互聯(lián)網(wǎng)的特征:信息發(fā)布較為頻繁，剛發(fā)布完的信息被編輯、修改的可能性大?；谶@個特征，在本實施例中，使用獨立的數(shù)據(jù)文件監(jiān)控器，監(jiān)控數(shù)據(jù)文件變化情況，對新入庫的數(shù)據(jù)建立新的內(nèi)存映射索引，并以主索引+增量索引更新方式加載、從而提高訪問的效率以及速度。對于復雜數(shù)據(jù)的統(tǒng)計查詢過程，可以分解成兩個過程，統(tǒng)計計算歸集和實時查詢，將統(tǒng)計計算歸集過程放在后臺運行。
[0046]其中，主索引和增量索引的映射實現(xiàn)過程如下:掃描器定時掃描數(shù)據(jù)的變化情況，并判斷在每天某一時間之前的數(shù)據(jù)變化，自動建立主文件索引并重建映射關系；對于某一時間之后的最新數(shù)據(jù)，間隔固定時間自動更新增量索引，并重建映射關系，主索引和增量索引是父子關系，主索引包含增量索引的ID，通過查詢主索引定位到相應的增量索引。
[0047]其中，上述統(tǒng)計計算歸集的具體實現(xiàn)過程如下:每間隔固定時間統(tǒng)計分析新增數(shù)據(jù)，歸集過程只歸集增量數(shù)據(jù)，將新增數(shù)據(jù)與原數(shù)據(jù)整合，形成新的數(shù)據(jù)歸集，從而大大提高了大數(shù)據(jù)量統(tǒng)計查詢的執(zhí)行效率。
[0048]如圖4所示，索引服務器根據(jù)海量文件數(shù)據(jù)的變化情況，采用不同的策略定時更新索引群的內(nèi)容，當有數(shù)據(jù)檢索任務的時候，由集群索引調(diào)度服務來根據(jù)服務器的負載情況定位到相應的服務器，通過查詢索引，檢查數(shù)據(jù)緩沖區(qū)是否包含相關數(shù)據(jù)，否則直接從文件服務器讀取數(shù)據(jù)，同時將數(shù)據(jù)寫入數(shù)據(jù)緩沖區(qū)。其中，集群索引調(diào)度服務和服務器之間通過簡單對象訪問協(xié)議(Simple Objective Access Protocol,簡稱為SOAP)執(zhí)行相關任務(Task)。
[0049]如圖5所示，檢索服務對外提供多種檢索接口，包括PC端，移動終端(操作系統(tǒng)可以為Android、10S)等，當終端發(fā)送檢索請求以及檢索條件到檢索服務器后，檢索服務根據(jù)所檢索的內(nèi)容不同，查詢數(shù)據(jù)索引，定位到不同數(shù)據(jù)管理系統(tǒng)，包括非關系型數(shù)據(jù)庫(NotOnly Structured Query Language,簡稱為NoSQL)數(shù)據(jù)庫,關系型數(shù)據(jù)庫，以及文件存儲系統(tǒng)，相關數(shù)據(jù)庫管理系統(tǒng)會根據(jù)所提供的查詢條件，將相應結果返回給檢索服務，由檢索服務的統(tǒng)一接口返回給調(diào)用者。
[0050]如圖6所示，權重計算器、索引管理器、數(shù)據(jù)文件管理器三個管理器共同構建成了系統(tǒng)的核心基礎，其中，權重計算器負責根據(jù)服務器的負載情況，將任務分配到不同的索引管理器上；索引管理器負責監(jiān)控數(shù)據(jù)文件的變化情況，并根據(jù)變化的情況下更新索引和重建映射，并對已有的索引進行管理，去除無效索引和，根據(jù)檢索情況的不同將高頻數(shù)據(jù)放入數(shù)據(jù)緩存；數(shù)據(jù)文件管理負責對數(shù)據(jù)文件的存、取、刪除操作，并隨時監(jiān)控數(shù)據(jù)文件的變化情況，將變化情況反饋給索引管理器；數(shù)據(jù)緩存里保存檢索頻率比較高的數(shù)據(jù)文件，用以提高檢索的效率；搜索引擎對外部開發(fā)，為用戶提供數(shù)據(jù)文件的檢索服務，當有檢索任務的時候，引擎通過索引進行檢索，根據(jù)索引情況從緩存或數(shù)據(jù)存儲讀取相應數(shù)據(jù)。
[0051]實施例2
[0052]1、大數(shù)據(jù)存儲
[0053]隨著集群中計算節(jié)點的數(shù)量的增長，帶寬開銷也會增長。通常情況下，使用Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,簡稱為HDFS)的多模計算集群在處理大數(shù)據(jù)時將會產(chǎn)生大量流量。這是因為HDFS在集群的成員服務器間傳輸數(shù)據(jù)(以及計算資源)。
[0054]在大多數(shù)情況下，基于服務器的本地存儲并沒有高效率的優(yōu)點，比較本地服務器存儲和基于SAN的存儲時，本地存儲在兩個方面占據(jù)優(yōu)勢:成本和整體性能。為了改善本地存儲在擴展方面的問題，現(xiàn)有兩種方法可以使用，一種方法是增加具有更多本地存儲的額外的服務器。第二種方法是增加集群服務器的容量。這兩種方法都需要購買和配置硬件，無論使用哪種方法都要比向SAN增加容量要便宜，可以說，這是一個顯著的成本優(yōu)勢。
[0055]2、建立索引數(shù)據(jù)文件
[0056]在進行檢索之前，需要對保存在庫里或者數(shù)據(jù)文件系統(tǒng)里的數(shù)據(jù)建立相應的索弓I。在大數(shù)據(jù)時代數(shù)據(jù)更多的以數(shù)據(jù)文件的方式保存，需要建立獨立的數(shù)據(jù)索引文件，將數(shù)據(jù)文件的存儲地址映射到相應的索引中。給定一個哈希鍵值，我們可以先求哈希函數(shù)的值，然后根據(jù)該值尋找相應的數(shù)據(jù)文件，最后只須在該數(shù)據(jù)文件中尋找包含給定哈希鍵值的記錄即可。如果我們選取的文件數(shù)目B和檔案中所有記錄的數(shù)目大體相當，那么分配到每個數(shù)據(jù)的記錄數(shù)目都會較小，這樣在文件系統(tǒng)內(nèi)部的搜索速度就會很快。
[0057]圖7給出了包含姓名(name)、地址(address)和電話號碼(phone)字段的記錄的內(nèi)存索引結構的大概結構。這里，索引基于電話號碼字段構建，采用鏈表結構。圖7中展示電話號碼800-555-1212所對應的哈希號碼為17。對于索引頭(bucket header)構成的數(shù)組，其第i個元素實際上是第i個桶對應鏈表的頭指針。圖中展開了鏈表中的一個元素，它包含姓名、地址和電話號碼字段的一條記錄。事實上，該元素對應記錄包含的電話號碼正好是800-555-1212，但是其它記錄可能包含也可能不包含這個電話號碼，此時只知道這些記錄中的電話號碼經(jīng)過哈希變換之后結果都是17。
[0058]3、緩存管理
[0059]普通的索引文件只解決了通常檢索的需要，在大數(shù)據(jù)環(huán)境下，如果想要實現(xiàn)高效的數(shù)據(jù)文件的索引，建立內(nèi)存索引映射無疑是一種很有效的方法。系統(tǒng)設置了一套可以統(tǒng)一管理系統(tǒng)運行時所有數(shù)據(jù)文件，并且能夠負責與實際磁盤文件交互的緩存管理系統(tǒng)，緩存管理系統(tǒng)責任在緩存內(nèi)建立一個映射大數(shù)據(jù)文件夾的索引表，以普通使用的索引特性為身份標識(Identity，簡稱為ID)，將數(shù)據(jù)文件根據(jù)其不同的業(yè)務特性及文件屬性的不同，在緩存中映射到不同的存儲塊。對于較大的數(shù)據(jù)文件夾，將數(shù)據(jù)文件分塊進行內(nèi)存映射，并發(fā)的將數(shù)據(jù)文件依次的映到文件處理服務器進程中的一個較小的地址空間。
[0060]緩存管理系統(tǒng)設置一個緩沖區(qū)，對于已經(jīng)加載過的數(shù)據(jù)會保存相關的記錄，如果再次出現(xiàn)訪問則不需要再次加載、從而提高訪問的效率以及速度。對于復雜數(shù)據(jù)的統(tǒng)計查詢過程，本方法把這一過程包分解成兩個過程，統(tǒng)計計算歸集和實時查詢，將統(tǒng)計計算歸集過程放在后臺運行，并且歸集過程只歸集增量數(shù)據(jù)，從而大大提高了大數(shù)據(jù)量統(tǒng)計查詢的執(zhí)行效率。
[0061]4、詞索引與查詢功能
[0062]系統(tǒng)中提供了傳統(tǒng)的字索引，但是為提高查詢檢索的準確度，系統(tǒng)采用自然語言斷詞機制和靈活的詞索引開關，用戶可根據(jù)需要選擇詞索引或字索引。具體功能如下:
[0063]中文句子將透過智能型自動斷詞技術以達到詞索引的效果，自動分析與斷詞，并建立詞索引；
[0064]詞索引功能通過開關靈活設置；
[0065]檢索字串首先通過自動斷詞，將其斷詞結果進行組合檢索；
[0066]提供「詞庫」編輯器，針對斷詞用的「詞庫」進行維護和調(diào)整；使中文切分詞更符合使用者的行業(yè)特點，提高查詢的速度和準確度。
[0067]優(yōu)勢如下:
[0068]提高精確度:輸入「民法」不會找到「人民法院」；
[0069]更小的索引空間:通過詞索引的方式，索引數(shù)據(jù)庫相對字索引需要更少的磁盤空間；同樣數(shù)據(jù)量下，檢索時需要的內(nèi)存(Memory)更少；
[0070]檢索性能更高:配合高效算法，詞索引的搜索性能相對字索引平均高出3倍以上。
[0071]5、信息萃取和服務
[0072]此部分提供對數(shù)據(jù)提取的內(nèi)容所包含的信息，進行數(shù)據(jù)處理分析，包含:
[0073]分類模式建立自動分類功能。
[0074]針對非結構性數(shù)據(jù)建立詞庫，詞庫須包含同音詞庫、同義詞庫、專業(yè)詞庫。
[0075]自動分類機制與專業(yè)詞庫須具備自動學習與修正之功能以提升數(shù)據(jù)處理準確度。
[0076]可針對不同使用層級、項目進行非結構性數(shù)據(jù)權限控管。依照使用者不同等級提供不同權限的查詢功能接口。
[0077]應用本系統(tǒng)一系列內(nèi)容分析與索引核心組件群，將匯整的內(nèi)容進行斷詞、索引、分類、文件特征等運算與處理，以便滿足信息檢索與信息管理的應用，提供多功能全面性的數(shù)據(jù)分析能力，可針對不同情境應用加以整合，快速達到使用者需求。
[0078]同時，用戶利用本系統(tǒng)的搜索弓I擎處理提供的強大的搜索功能，如中文同音搜索、簡繁體對譯、模糊搜索、同義詞搜索、文章概念搜索、分類瀏覽等，快速、準確、完整、及時、有效地搜索到符合自己搜索條件的信息。
[0079]6、數(shù)據(jù)監(jiān)控和索引更新
[0080]由于一般互聯(lián)網(wǎng)的特征:信息發(fā)布較為頻繁，剛發(fā)布完的信息被編輯、修改的可能性大?；谶@個特征，使用獨立的數(shù)據(jù)文件監(jiān)控器，監(jiān)控器實時掃描數(shù)據(jù)文件存儲器，監(jiān)控數(shù)據(jù)文件變化情況，對新入庫的數(shù)據(jù)建立新的內(nèi)存映射索引，并以主索引+增量索引更新方式，根據(jù)應用場景的不同，靈活設置一個分隔時間點，對于當天該時間之前的數(shù)據(jù)建立主文件映射，每天定時重建映射，對于該時間之后的最新數(shù)據(jù)，間隔固定時間自動重建映射，以這種方式實現(xiàn)增量數(shù)據(jù)的定期歸集，并保證數(shù)據(jù)索引的實時性和準確性，保證了檢索的正確率。
[0081]綜上所述，本發(fā)明實施例提供的上述方案實現(xiàn)了以下有益效果:
[0082]采用的高效率的整合搜索，大幅減少組織成員在取得信息時花費的時間，它能對企業(yè)內(nèi)部絕大多數(shù)的信息創(chuàng)建索引和搜索，具備強大的信息整合及快速回應能力，可在最短時間內(nèi)，完整、準確、及時地從海量數(shù)據(jù)庫中搜索到相應的信息。
[0083]可以實現(xiàn)對非結構/非組織的信息的管理。文件/檔案以及非經(jīng)過分類管理的信息，因為附加信息稀少，往往成為知識利用上難以判斷、分析的信息。本發(fā)明實施例提供的方案可以直接針對內(nèi)容全文分析、關聯(lián)，使這類信息同樣可讓使用者以檢索方式，快速篩選利用。
[0084]整合容易，使用簡易，導入迅速，易于接受?？梢詫崿F(xiàn)套裝化、模塊化的設計及靈活的整合能力，能在企業(yè)內(nèi)迅速的安裝設置；操作方式簡單，企業(yè)成員易于接受，導入方便。以最經(jīng)濟的時間、人力及費用成本為企業(yè)創(chuàng)建信息流通、充分分享的知識環(huán)境。
[0085]顯然，本領域的技術人員應該明白，上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn)，它們可以集中在單個的計算裝置上，或者分布在多個計算裝置所組成的網(wǎng)絡上，可選地，它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn)，從而，可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行，并且在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟，或者將它們分別制作成各個集成電路模塊，或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣，本發(fā)明不限制于任何特定的硬件和軟件結合。
[0086]以上僅為本發(fā)明的優(yōu)選實施例而已，并不用于限制本發(fā)明，對于本領域的技術人員來說，本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內(nèi)。
【權利要求】
1.一種跨平臺的數(shù)據(jù)檢索方法，其特征在于，包括: 建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址；根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。
2.根據(jù)權利要求1所述的方法，其特征在于，根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索之前，包括: 將所述索引按照所述索引對應的數(shù)據(jù)文件的特征信息進行分類；將分類后的所述索引按照類別進行分類存儲。
3.根據(jù)權利要求2所述的方法，其特征在于，所述特征信息包括以下至少之一: 業(yè)務類型、數(shù)據(jù)文件屬性。
4.根據(jù)權利要求1所述的方法，其特征在于，建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引，包括: 對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；對分塊后的所述數(shù)據(jù)文件建立索引。
5.根據(jù)權利要求1所述的方法，其特征在于，建立在云網(wǎng)絡上各個平臺運行上的所有數(shù)據(jù)文件的索引，包括: 監(jiān)測所述各個平臺中數(shù)據(jù)文件的變化情況；對新產(chǎn)生的數(shù)據(jù)文件建立索弓I。
6.根據(jù)權利要求1至5任一項所述的方法，其特征在于，根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索之后，還包括: 對檢索到的數(shù)據(jù)進行緩存處理。
7.—種跨平臺的數(shù)據(jù)檢索裝置，其特征在于，包括: 建立模塊，用于建立在云網(wǎng)絡上各個平臺的所有數(shù)據(jù)文件的索引，其中，所述索引中攜帶有所述數(shù)據(jù)文件的存儲地址；檢索模塊，用于根據(jù)所述索引對所述數(shù)據(jù)文件進行檢索。
8.根據(jù)權利要求7所述的裝置，其特征在于，還包括: 分類模塊，用于將所述索引按照所述索引對應的數(shù)據(jù)文件的特征信息進行分類；存儲模塊，用于將分類后的所述索引按照類別進行分類存儲。
9.根據(jù)權利要求7所述的裝置，其特征在于，所述建立模塊包括: 分塊單元，用于對數(shù)據(jù)文件大小超過預設閾值的數(shù)據(jù)文件進行分塊；第一建立單元，用于對分塊后的所述數(shù)據(jù)文件建立索引。
10.根據(jù)權利要求7所述的裝置，其特征在于，所述建立模塊包括: 監(jiān)測單元，用于監(jiān)測所述各個平臺中數(shù)據(jù)文件的變化情況；第二建立單元，用于對新產(chǎn)生的數(shù)據(jù)文件建立索引。
【文檔編號】G06F17/30GK104239377SQ201310560579
【公開日】2014年12月24日申請日期:2013年11月12日優(yōu)先權日:2013年11月12日
【發(fā)明者】宋立新, 楊勇, 張建杰申請人:新華瑞德（北京）網(wǎng)絡科技有限公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：宋立新;楊勇;張建杰
技術所有人：新華瑞德（北京）網(wǎng)絡科技有限公司
我是此專利的發(fā)明人

上一篇：一種對象全景建模方法
上一篇：一種基于皮膚紋理特征的身份識別方法和系統(tǒng)的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

萬方數(shù)據(jù)庫檢索方法相關技術

數(shù)據(jù)庫檢索方法相關技術

數(shù)據(jù)采集裝置相關技術

設備數(shù)據(jù)接口裝置相關技術

監(jiān)測裝置數(shù)據(jù)接入相關技術

跨隔離裝置數(shù)據(jù)交互相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

跨平臺的數(shù)據(jù)檢索方法及裝置制造方法