數(shù)據(jù)處理方法和裝置以及數(shù)據(jù)查詢方法和裝置與流程

文檔序號：12802461閱讀：207來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

數(shù)據(jù)處理方法和裝置以及數(shù)據(jù)查詢方法和裝置與流程

本申請涉及數(shù)據(jù)處理領(lǐng)域，具體而言，涉及一種數(shù)據(jù)處理方法和裝置以及數(shù)據(jù)查詢方法和裝置。
背景技術(shù)：
：搜索服務(wù)器在收錄文本的過程中，往往會從不同的網(wǎng)站搜集相應(yīng)的文本，不同的網(wǎng)站上會發(fā)布相同的內(nèi)容，這使得搜索服務(wù)器收錄的文本存在大量重復(fù)。搜索服務(wù)器的種類可以有很多，例如elasticsearch，它是一個基于lucene的搜索服務(wù)器，它提供了一個分布式多用戶能力的全文搜索引擎。對于這些搜索服務(wù)器，由于其收錄了大量重復(fù)的文本，使得在查詢文本的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文本，此時，分析人員需要再對查詢結(jié)果中重復(fù)的文本進行去重處理，降低了數(shù)據(jù)分析的效率。針對上述的問題，目前尚未提出有效的解決方案。技術(shù)實現(xiàn)要素：本申請實施例提供了一種數(shù)據(jù)處理方法和裝置以及數(shù)據(jù)查詢方法和裝置，以至少解決現(xiàn)有技術(shù)在查詢文本的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文本的技術(shù)問題。根據(jù)本申請實施例的一個方面，提供了一種數(shù)據(jù)處理方法，包括：從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，所述多個目標(biāo)文本所記錄的文本內(nèi)容相同；從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，所述預(yù)設(shè)文本為所述多個目標(biāo)文本中的任意一個文本；對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識，以使得在服務(wù)器中利用所述預(yù)設(shè)標(biāo)識查詢文本數(shù)據(jù)。進一步地，所述多個目標(biāo)文本為m個，m為大于或者等于2的自然數(shù)，其中，從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本包括：將所述多個目標(biāo)文本按照所述多個目標(biāo)文本中每個目標(biāo)文本對應(yīng)的第二字段記錄的時間的先后順序進行排序，得到排序后的第1至第m個目標(biāo)文本，將所述第1個目標(biāo)文本作為所述預(yù)設(shè)文本，其中，所述第二字段用于記錄對應(yīng)的目標(biāo)文本的發(fā)布時間；對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識包括：將第1 個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第一預(yù)設(shè)時間，將所述第一預(yù)設(shè)時間作為所述預(yù)設(shè)標(biāo)識；在對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識之后，所述方法還包括：將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間，其中，i依次取1至m-1。進一步地，在將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間之前，所述方法還包括：判斷所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間是否小于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間；將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間包括：在判斷出所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間小于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將所述第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間；其中，在判斷出所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間大于或者等于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將所述第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間與第二預(yù)設(shè)時間之和，其中，所述第二預(yù)設(shè)時間小于所述第一字段和所述第二字段記錄的最小時間單位。進一步地，在從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本之前，所述方法還包括：對所述服務(wù)器中文本內(nèi)容相同的一組文本中每個文本添加相同的標(biāo)簽，其中，不同文本內(nèi)容的文本對應(yīng)的標(biāo)簽不同；從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本包括：利用所述標(biāo)簽從所述服務(wù)器中確定出所述多個目標(biāo)文本。根據(jù)本申請實施例的又一個方面，提供了一種數(shù)據(jù)查詢方法，包括：接收查詢請求，其中，所述查詢請求中攜帶有第一查詢條件；生成第二查詢條件，其中，所述第二查詢條件中包含預(yù)設(shè)標(biāo)識；利用所述第二查詢條件從用于存儲文本數(shù)據(jù)的服務(wù)器中查詢出滿足所述第二查詢條件的文本；以及利用所述第一查詢條件從滿足所述第二查詢條件的文本中進行查詢，得到查詢結(jié)果。根據(jù)本申請實施例的又一個方面，還提供了一種數(shù)據(jù)處理裝置，包括：第一確定單元，用于從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，所述多個目標(biāo)文本所記錄的文本內(nèi)容相同；第二確定單元，用于從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，所述預(yù)設(shè)文本為所述多個目標(biāo)文本中的任意一個文本；以及第一添加單元，用于對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識。進一步地，所述多個目標(biāo)文本為m個，m為大于或者等于2的自然數(shù)，其中，所述第二確定單元包括：排序模塊，用于將所述多個目標(biāo)文本按照所述多個目標(biāo)文本中每個目標(biāo)文本對應(yīng)的第二字段記錄的時間的先后順序進行排序，得到排序后的第1至第m個目標(biāo)文本，將第1個目標(biāo)文本作為所述預(yù)設(shè)文本，其中，所述第二字段用于記錄對應(yīng)的目標(biāo)文本的發(fā)布時間；所述第一添加單元包括：設(shè)置模塊，用于將第1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第一預(yù)設(shè)時間，將所述第一預(yù)設(shè)時間作為所述預(yù)設(shè)標(biāo)識；其中，所述裝置還包括：第一設(shè)置單元，用于在對所述多個目標(biāo)文本中的一個預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識之后，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間，其中，i依次取1至m-1。進一步地，所述裝置還包括：判斷單元，用于在將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間之前，判斷所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間是否小于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間；所述第一設(shè)置單元具體用于在判斷出所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間小于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將所述第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間；其中，所述裝置還包括：第二設(shè)置單元，用于在判斷出所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間大于或者等于所述第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將所述第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為所述第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間與第二預(yù)設(shè)時間之和，其中，所述第二預(yù)設(shè)時間小于所述第一字段和所述第二字段記錄的最小時間單位。進一步地，所述裝置還包括：第二添加單元，用于在從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本之前，對所述服務(wù)器中文本內(nèi)容相同的一組文本中每個文本添加相同的標(biāo)簽，其中，不同文本內(nèi)容的文本對應(yīng)的標(biāo)簽不同；所述第一確定單元具體用于利用所述標(biāo)簽從所述服務(wù)器中確定出所述多個目標(biāo)文本。根據(jù)本申請實施例的又一個方面，還提供了一種數(shù)據(jù)查詢裝置，包括：接收單元，用于接收查詢請求，其中，所述查詢請求中攜帶有第一查詢條件；生成單元，用于生成第二查詢條件，其中，所述第二查詢條件中包含預(yù)設(shè)標(biāo)識；第一查詢單元，用于利用所述第二查詢條件從用于存儲文本數(shù)據(jù)的服務(wù)器中查詢出滿足所述第二查詢條件的文本；以及第二查詢單元，用于利用所述第一查詢條件從滿足所述第二查詢條件的文本中進行查詢，得到查詢結(jié)果。在本申請實施例中，從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，多個目標(biāo)文本所記錄的文本內(nèi)容相同；從多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，預(yù)設(shè)文本為多個目標(biāo)文本中的任意一個文本；對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識。通過對每組重復(fù)文本中的某一個文本添加標(biāo)識，使得在查詢時可以根據(jù)此標(biāo)識查詢出每組重復(fù)文本中添加了標(biāo)識的那一個文本，使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文本，進而解決了現(xiàn) 有技術(shù)在查詢文本的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文本的技術(shù)問題。附圖說明此處所說明的附圖用來提供對本申請的進一步理解，構(gòu)成本申請的一部分，本申請的示意性實施例及其說明用于解釋本申請，并不構(gòu)成對本申請的不當(dāng)限定。在附圖中：圖1是根據(jù)本申請實施例的數(shù)據(jù)處理方法的流程圖；圖2是根據(jù)本申請實施例的時間鏈的示意圖；圖3是根據(jù)本申請優(yōu)選實施例的數(shù)據(jù)處理方法的流程圖；圖4是根據(jù)本申請實施例的數(shù)據(jù)查詢方法的流程圖；圖5是根據(jù)本申請實施例的數(shù)據(jù)處理裝置的示意圖；以及圖6是根據(jù)本申請實施例的數(shù)據(jù)查詢裝置的示意圖。具體實施方式為了使本
技術(shù)領(lǐng)域：
的人員更好地理解本申請方案，下面將結(jié)合本申請實施例中的附圖，對本申請實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本申請一部分的實施例，而不是全部的實施例?；诒旧暾堉械膶嵤├绢I(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都應(yīng)當(dāng)屬于本申請保護的范圍。需要說明的是，本申請的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象，而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換，以便這里描述的本申請的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤４送?，術(shù)語“包括”和“具有”以及他們的任何變形，意圖在于覆蓋不排他的包含，例如，包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元，而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。根據(jù)本申請實施例，提供了一種數(shù)據(jù)處理方法的實施例，需要說明的是，在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行，并且，雖然在流程圖中示出了邏輯順序，但是在某些情況下，可以以不同于此處的順序執(zhí)行所示出或描述的步驟。圖1是根據(jù)本申請實施例的數(shù)據(jù)處理方法的流程圖，如圖1所示，該方法包括如下步驟：步驟s102，從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，多個目標(biāo)文本所記錄的文本內(nèi)容相同。步驟s104，從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，所述預(yù)設(shè)文本為所述多個目標(biāo)文本中的任意一個文本。步驟s106，對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識，以使得在服務(wù)器中利用所述預(yù)設(shè)標(biāo)識查詢文本數(shù)據(jù)。存儲文本數(shù)據(jù)的服務(wù)器可以是elasticsearch。文本可以是文章。文本內(nèi)容相同指的是文本的內(nèi)容完全相同，或者文本內(nèi)容的相似度滿足一定的條件。將服務(wù)器中存儲的內(nèi)容相同的文本劃分為一組，稱為一組重復(fù)文本。在每一組重復(fù)文本中，選擇一個文本作為預(yù)設(shè)文本。由于一組重復(fù)文本中的文本的內(nèi)容相同，因此預(yù)設(shè)文本可以是該組重復(fù)文本中的任意一個文本。對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識。預(yù)設(shè)標(biāo)識可以為時間、數(shù)字等標(biāo)識。在需要進行查詢時，設(shè)置查詢條件中包含預(yù)設(shè)標(biāo)識，即可篩選出每組文本中的添加了標(biāo)識的那一個文本，然后對篩選出的添加了標(biāo)識的文本進行下一步查詢。通過對每組重復(fù)文本中的某一個文本添加標(biāo)識，使得在查詢時可以根據(jù)此標(biāo)識查詢出每組重復(fù)文本中添加了標(biāo)識的那一個文本，使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文本，進而解決了現(xiàn)有技術(shù)在查詢文本的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文本的技術(shù)問題。可選地，多個目標(biāo)文本為m個，m為大于或者等于2的自然數(shù)，其中，從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本包括：將多個目標(biāo)文本按照多個目標(biāo)文本中每個目標(biāo)文本對應(yīng)的第二字段記錄的時間的先后順序進行排序，得到排序后的第1至第m個目標(biāo)文本，將所述第1個目標(biāo)文本作為所述預(yù)設(shè)文本，其中，第二字段用于記錄對應(yīng)的目標(biāo)文本的發(fā)布時間。對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識包括：將第1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第一預(yù)設(shè)時間，將第一預(yù)設(shè)時間作為預(yù)設(shè)標(biāo)識。在對所述預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識之后，本申請實施例所提供的數(shù)據(jù)處理方法還包括：將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間，其中，i依次取1至m-1。第二字段可以是文本的發(fā)布時間，也可以是其他時間信息，在本申請實施例中，以文本的發(fā)布時間作為第二字段為例進行詳細說明。有一組重復(fù)文本，這組重復(fù)文本中包含m個文本。這m個文本中，每個文本都對應(yīng)著記錄該文本發(fā)布時間的一個字段(即前文中提到的第二字段)。將這m個文本按照第二字段中記錄的文本的發(fā)布時間進行升序排列，得到第1個文本、第2個文本、……第m個文本。其中，前一個文本的發(fā)布時間早于后一個文本的發(fā)布時間。將m個文本添加對應(yīng)的第一字段，將第1個文本的第一字段的值設(shè)置為第一預(yù)設(shè)時間，第一預(yù)設(shè)時間為一個預(yù)先設(shè)置好的時間。從第2個文本開始，將前一個文本的第二字段記錄的時間的值賦給當(dāng)前文本的第一字段，即將第1個文本的第二字段記錄的時間作為第2個文本的第一字段的值，將第2個文本的第二字段記錄的時間作為第3個文本的第一字段的值，……，將第i個文本的第二字段記錄的時間作為第i+1個文本的第一字段的值，……，將第m-1個文本的第二字段記錄的時間作為第m個文本的第一字段的值。圖2是根據(jù)本申請實施例的時間鏈的示意圖。圖2示出了3組重復(fù)文本按照第一字段記錄的時間進行升序排序后，類似于鏈表的一種結(jié)構(gòu)，將這種結(jié)構(gòu)稱為時間鏈。其中，docr1、docr2和docr3是一組重復(fù)文本，docm1和docm2是一組重復(fù)文本，docn1是一組重復(fù)文本。當(dāng)需要在所有文本中查詢時，只需要在正常的查詢中增加一個rangefilter，限制第一字段的值，即可查詢出每條時間鏈最左側(cè)的文本。當(dāng)需要在一定的時間范圍[t1，t2)內(nèi)查詢時，只需要增加一個rangefilter，限制第二字段在時間范圍[t1，t2)內(nèi)，且第一字段的值小于t1，即可查詢出時間鏈位于時間范圍[t1，t2)內(nèi)的部分最左側(cè)的文本。表1示出了編號為1至5的5個重復(fù)的文本與其對應(yīng)的第二字段。如表1所示，這組重復(fù)的文本包括5個文本，這5個文本對應(yīng)的第二字段用indextime表示，按照5個文本對應(yīng)的indextime的值從小到大進行排序后，得到的文本的排列順序如表1所示。表1使用lastappeartime表示這5個文本對應(yīng)的第一字段。indextime和lastappeartime的類型都為日期。假設(shè)設(shè)置第一預(yù)設(shè)時間為0001-01-01t00:00:00，則編號為1的文本的lastappeartime的值為0001-01-01t00:00:00。將編號為1的文本的indextime的值作為編號為2的文本的lastappeartime的值。將編號為2的文本的indextime的值作為編號為3的文本的lastappeartime的值。將編號為3的文本的indextime的值作為編號為4的文本的lastappeartime的值。將編號為4的文本的indextime的值作為編號為5的文本的lastappeartime的值。表2示出了編號為1至5的5個重復(fù)的文本與其對應(yīng)的第二字段和第一字段。表2文本的編號indextimelastappeartime12015-03-01t10:00:000001-01-01t00:00:0022015-03-01t11:00:002015-03-01t10:00:0032015-03-01t12:00:002015-03-01t11:00:0042015-03-01t13:00:002015-03-01t12:00:0052015-03-01t14:00:002015-03-01t13:00:00在根據(jù)表2進行查詢時，有兩種情況。第一種情況，在所有的文本中查詢，即，不限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出lastappeartime的值為0001-01-01t00:00:00的文本。即，從每組重復(fù)文本中，找出lastappeartime的值為0001-01-01t00:00:00的一個文本，即找到每條時間鏈最左側(cè)的文本。這樣，接下來就可以對lastappeartime的值為0001-01-01t00:00:00的文本進行下一步查詢操作。第二種情況，在一定的時間區(qū)間[start，end)進行查詢，即，限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本。這樣，接下來就可以對indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本進行下一步查詢操作。例如，假設(shè)start的值為2015-03-01t11:30:00，end的值為2015-03-01t13:30:00。通過根據(jù)indextime的值進行篩選，發(fā)現(xiàn)編號為3和編號為4的文本的indextime的值在[start，end)范圍之內(nèi)。下一步判斷indextime的值在[start，end)范圍之內(nèi)的文本中，哪個文本的lastappeartime的值小于start的值，即判斷在編號為3和編號為4的兩個文本中，哪個文本的lastappeartime的值小于2015-03-01t11:30:00。經(jīng)過判斷，發(fā)現(xiàn)編號為3的文本的lastappeartime的值小于2015-03-01t11:30:00。因此在時間區(qū)間[2015-03-01t11:30:00，2015-03-01t13:30:00)進行查詢時，得到編號為3的文本?？蛇x地，在將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間之前，本申請實施例所提供的數(shù)據(jù)處理方法還包括：判斷第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間是否小于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間。將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間包括：在判斷出第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間小于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間。其中，在判斷出第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間大于或者等于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間與第二預(yù)設(shè)時間之和，其中，第二預(yù)設(shè)時間小于第一字段和第二字段記錄的最小時間單位。有一組重復(fù)文本，這組重復(fù)文本中包含m個文本。這m個文本中，每個文本都對應(yīng)著記錄該文本發(fā)布時間的一個字段(即前文中提到的第二字段)。將這m個文本按照第二字段中記錄的文本的發(fā)布時間進行升序排列，得到第1個文本、第2個文本、……第m個文本。其中，前一個文本的發(fā)布時間早于后一個文本的發(fā)布時間。將m個文本添加對應(yīng)的第一字段，將第1個文本的第一字段的值設(shè)置為第一預(yù)設(shè)時間，第一預(yù)設(shè)時間為一個預(yù)先設(shè)置好的時間。從第2個文本開始，判斷前一個文本的第一字段記錄的時間是否小于第二字段記錄的時間。如果判斷出前一個文本的第一字段記錄的時間小于第二字段記錄的時間，則將前一個文本第二字段記錄的時間的值賦給當(dāng)前文本的第一字段，也可以說，設(shè)置當(dāng)前文本的第一字段的值為前一個文本第二字段記錄的時間。如果判斷出前一個文本的第一字段記錄的時間大于或者等于第二字段記錄的時間，則將前一個文本的第一字段記錄的時間與一個很小的時間段(即上述第二預(yù)設(shè)時間)相加，得到的值作為當(dāng)前文本的第一字段的值。需要注意的是，第二預(yù)設(shè)時間是一個非常小的值，遠遠小于第一字段和第二字段記錄的時間的最小單位。例如，假如，第一字段和第二字段記錄的時間的最小單位為秒，則第二預(yù)設(shè)時間可以為0.0001秒、0.00001秒，或者0.000001秒，等等。表3示出了文本doca1至文本doca9這9個重復(fù)的文本與其對應(yīng)的第二字段。表3文本indextimedoca12015-03-01t10:00:00doca22015-03-01t11:00:00doca32015-03-01t12:00:00doca42015-03-01t12:00:00doca52015-03-01t12:00:00doca62015-03-01t12:00:00doca72015-03-01t12:00:00doca82015-03-01t12:00:10doca92015-03-01t12:00:10如表3所示，文本doca1、文本doca2、……、文本doca9這9個文本為一組重復(fù)文本。使用indextime來表示第二字段，即表示這9個文本發(fā)布的時間，indextime的值是已知的。第二預(yù)設(shè)時間有多種取值方法，例如，在本實施例中，設(shè)置第二預(yù)設(shè)時間為0.0001秒。使用lastappeartime表示文本的第一字段，lastappeartime的值是未知的。設(shè)置第一預(yù)設(shè)時間為1000-01-01t00:00:00:0000，將第一預(yù)設(shè)時間的值賦給文本doca1的第一字段，即設(shè)置文本doca1的lastappeartime的值為1000-01-01t00:00:00:0000。第一預(yù)設(shè)時間可以有多種取值，不局限于以上列出的取值。由于文本doca1的lastappeartime小于indextime的值，因此，將文本doca1的indextime的值賦給文本doca2的lastappeartime，即設(shè)置文本doca2的lastappeartime的值為2015-03-01t10:00:00:0000。由于文本doca2的lastappeartime的值小于indextime的值，因此，將文本doca2的indextime的值賦給文本doca3的lastappeartime，即設(shè)置文本doca3的lastappeartime的值為2015-03-01t11:00:00:0000。由于文本doca3的lastappeartime的值小于indextime的值，因此，將文本doca3的indextime的值賦給文本doca4的lastappeartime，即設(shè)置文本doca4的lastappeartime的值為2015-03-01t12:00:00:0000。由于文本doca4的lastappeartime的值等于indextime的值，因此，將文本doca4的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca5的lastappeartime，即設(shè)置文本doca5的lastappeartime的值為2015-03-01t12:00:00:0001。由于文本doca5的lastappeartime的值大于indextime的值，因此，將文本doca5的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca6的lastappeartime，即設(shè)置文本doca6的lastappeartime的值為2015-03-01t12:00:00:0002。由于文本doca6的lastappeartime的值大于indextime的值，因此，將文本doca6的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca7的lastappeartime，即設(shè)置文本doca7的lastappeartime的值為2015-03-01t12:00:00:0003。由于文本doca7的lastappeartime的值大于indextime的值，因此，將文本doca7的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca8的lastappeartime，即設(shè)置文本doca8的lastappeartime的值為2015-03-01t12:00:00:0004。由于文本doca8的lastappeartime的值小于indextime的值，因此，將文本doca8的indextime的值賦給文本doca9的lastappeartime，即設(shè)置文本doca9的lastappeartime的值為2015-03-01t12:00:01:0000。表4示出了文本doca1至文本doca9這9個重復(fù)的文本與其對應(yīng)的第二字段和第一字段。表4文本indextimelastappeartimedoca12015-03-01t10:00:001000-01-01t00:00:00:0000doca22015-03-01t11:00:002015-03-01t10:00:00:0000doca32015-03-01t12:00:002015-03-01t11:00:00:0000doca42015-03-01t12:00:002015-03-01t12:00:00:0000doca52015-03-01t12:00:002015-03-01t12:00:00:0001doca62015-03-01t12:00:002015-03-01t12:00:00:0002doca72015-03-01t12:00:002015-03-01t12:00:00:0003doca82015-03-01t12:00:012015-03-01t12:00:00:0004doca92015-03-01t12:00:012015-03-01t12:00:01:0000在根據(jù)表4進行查詢時，有兩種情況。第一種情況，在所有的文本中查詢，即，不限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出lastappeartime的值為1000-01-01t00:00:00:0000的文本。即，從每組重復(fù)文本中，找出lastappeartime的值為1000-01-01t00:00:00:0000的一個文本，即找到每條時間鏈最左側(cè)的文本。這樣，接下來就可以對lastappeartime的值為1000-01-01t00:00:00:0000的文本進行下一步查詢操作。第二種情況，在一定的時間區(qū)間[start，end)進行查詢，即，限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本。這樣，接下來就可以對indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本進行下一步查詢操作。例如，假設(shè)start的值為2015-03-01t11:40:00，end的值為2015-03-01t 12:20:00。通過根據(jù)indextime篩選，發(fā)現(xiàn)文本doca3至文本doca9的indextime的值都在[start，end)之間，接下來，查找文本doca3至文本doca9中l(wèi)astappeartime的值小于start的文本，只有文本doca3滿足要求。因此，這9個重復(fù)文本中，只有文本doca3被篩選出來，以供下一步查詢使用。在重復(fù)文本的indextime的值相等的情況下，通過將lastappeartime的值進行微調(diào)放大，可以保證lastappeartime的值的唯一性，使得在查詢過程中，即使有多個重復(fù)文本的indextime的值相等，也可以保證在一組重復(fù)文本中只篩選出一個滿足查詢條件的文本。在從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本之前，本申請實施例所提供的數(shù)據(jù)處理方法還包括：對服務(wù)器中文本內(nèi)容相同的一組文本中每個文本添加相同的標(biāo)簽，其中，不同文本內(nèi)容的文本對應(yīng)的標(biāo)簽不同；從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本包括：利用標(biāo)簽從服務(wù)器中確定出多個目標(biāo)文本。為了便于查詢具體哪些文本重復(fù)，可以為每一個文本添加一個標(biāo)簽repeatid，使得同一組的文本中，每個文本的repeatid相同，不同組的文本的repeatid不同。也就是說，repeatid相同的文本的內(nèi)容是重復(fù)的，repeatid不同的文本的內(nèi)容不重復(fù)。repeatid可以采用全球唯一標(biāo)識符guid(globallyuniqueidentifier)來保證唯一性。這樣，可以根據(jù)repeatid，確定出同一個文本內(nèi)容的重復(fù)文本有哪些，可以進一步地確定出文本的來源、轉(zhuǎn)載量等信息。圖3是根據(jù)本申請優(yōu)選實施例的數(shù)據(jù)處理方法的流程圖。如圖3所示，該方法包括如下步驟：步驟s202，取一組重復(fù)的文章，這組重復(fù)的文章的數(shù)量為m個。這組重復(fù)的文章即為上述目標(biāo)文本。步驟s202的具體實施方式與上述步驟s102相同。步驟s204，將這組重復(fù)的文章按照文章對應(yīng)的第二字段的值升序排序，得到第1至第m個文章。在本實施例中，indextime為第二字段。indextime是文章的發(fā)布時間，是已知量。步驟s206，將“0001-01-01t00:00:00”賦給第1個文章的第一字段。在本實施例中，lastappeartime為上述第一字段。第1個文章即為上述預(yù)設(shè)文本?！?001-01-01t00:00:00”即為上述預(yù)設(shè)標(biāo)識。步驟s206的具體實施方式與上述步驟s104和上述步驟s106相同。步驟s208，設(shè)置i的值為1。步驟s210，判斷i是否小于m。如果判斷出i小于m，執(zhí)行步驟s212；如果判斷出i大于或者等于m，結(jié)束該數(shù)據(jù)處理方法的流程。步驟s212，判斷第i-1個文章的第一字段的值是否小于第i-1個文章的第二字段的值。如果判斷出第i-1個文章的第一字段的值小于第i-1個文章的第二字段的值，執(zhí)行步驟s214；如果判斷出第i-1個文章的第一字段的值大于或者等于第i-1個文章的第二字段的值，執(zhí)行步驟s216。步驟s214，將第i-1個文章的第二字段的值賦給第i個文章的第一字段。即，將第i-1個文章的indextime的值賦給第i個文章的lastappeartime。步驟s216，將第i-1個文章的第一字段的值與t1的和賦給第i個文章的第一字段。即，將第i-1個文章的lastappeartime的值與t1的和賦給第i個文章的lastappeartime。t1即為上述第二預(yù)設(shè)時間，t1遠遠小于indextime和lastappeartime所記錄的時間的最小單位。步驟s218，將i+1的值賦給i。通過對每組重復(fù)文章中的某一個文章添加標(biāo)識，使得在查詢時可以根據(jù)此標(biāo)識查詢出每組重復(fù)文章中添加了標(biāo)識的那一個文章，使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文章，進而解決了現(xiàn)有技術(shù)在查詢文章的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文章的技術(shù)問題。并且，由于在查詢過程中就已經(jīng)篩選出互不相同的文章，將這些互不相同的文章作為下一步常規(guī)查詢的范圍，從而大大減小了查詢的工作量，加快了查詢速度，提高了查詢效率。并且，使用本申請實施例所提供的數(shù)據(jù)處理方法，無需另存一份互不相同的文章以便在這些文章中進行查詢，不額外占用存儲空間，節(jié)約了存儲空間，同時也節(jié)省了用于維護數(shù)據(jù)的開銷。本申請實施例還提供了一種數(shù)據(jù)查詢方法，使用本申請實施例所提供的數(shù)據(jù)處理方法對數(shù)據(jù)進行處理之后，就可以使用該數(shù)據(jù)查詢方法對數(shù)據(jù)進行查詢。圖4是根據(jù)本申請實施例的數(shù)據(jù)查詢方法的流程圖，如圖4所示，該方法包括如下步驟：步驟s302，接收查詢請求，其中，查詢請求中攜帶有第一查詢條件。步驟s304，生成第二查詢條件，其中，第二查詢條件中包含預(yù)設(shè)標(biāo)識。步驟s306，利用第二查詢條件從用于存儲文本數(shù)據(jù)的服務(wù)器中查詢出滿足第二查詢條件的文本。步驟s308，利用第一查詢條件從滿足第二查詢條件的文本中進行查詢，得到查詢結(jié)果。查詢請求是用戶輸入的，第一查詢條件為常規(guī)查詢條件，例如，使用關(guān)鍵詞“圣誕節(jié)”、“游玩”等對文本進行查詢。第二查詢條件用于第一查詢條件之前，第二查詢條件的作用為對重復(fù)文本進行去重操作，即，使用第二查詢條件之后，能夠得到一組重復(fù)文本中的某一個文本。設(shè)置第二查詢條件中包含預(yù)設(shè)標(biāo)識，此預(yù)設(shè)標(biāo)識與重復(fù)文本中的預(yù)設(shè)標(biāo)識相同。由于一組重復(fù)文本中有一個文本是添加了預(yù)設(shè)標(biāo)識，故使用第二查詢條件，能夠篩選出每一組重復(fù)文本中添加了預(yù)設(shè)標(biāo)識的一個文本，這些添加了預(yù)設(shè)標(biāo)識的文本即為滿足第二查詢條件的文本。之后，利用第一查詢條件從滿足第二查詢條件的文本中進行查詢，得到查詢結(jié)果。例如，服務(wù)器一共存儲了10000個文本，將這10000個文本進行分組，將重復(fù)的文本劃分成一組，得到了2000組文本，每一組文本中，有一個文本具有預(yù)設(shè)標(biāo)識。用戶輸入查詢請求，該查詢請求中攜帶有第一查詢條件，第一查詢條件為根據(jù)用戶的輸入的關(guān)鍵詞“春節(jié)”進行查詢。在使用第一查詢條件進行查詢之前，設(shè)置第二查詢條件。設(shè)置第二查詢條件包含預(yù)設(shè)標(biāo)識，使用第二查詢條件對服務(wù)器存儲的10000個文本進行查詢，篩選出2000個文本，這2000個文本都具有預(yù)設(shè)標(biāo)識，且這2000個文本為互不重復(fù)的文本。接下來，使用第一查詢條件對2000個互不重復(fù)的文本進行查詢，即在2000個互不重復(fù)的文本中，篩選出關(guān)鍵詞標(biāo)簽為“春節(jié)”的關(guān)鍵詞。通過在常規(guī)查詢之前，添加一個查詢條件，使用該查詢條件從每一組重復(fù)的文本里篩選出一個文本，從而篩選出互不相同的文本，將這些互不相同的文本作為下一步查詢的范圍，從而大大減小了查詢的工作量，加快了查詢速度，提高了查詢效率，而且，由于無需對互不相同的文本進行額外存儲并維護，不額外占用存儲空間，節(jié)約了存儲空間，同時也節(jié)省了用于維護數(shù)據(jù)的開銷。根據(jù)本申請實施例，還提供了一種數(shù)據(jù)處理裝置。該數(shù)據(jù)處理裝置可以執(zhí)行上述數(shù)據(jù)處理方法，上述數(shù)據(jù)處理方法也可以通過該數(shù)據(jù)處理裝置實施。圖5是根據(jù)本申請實施例的數(shù)據(jù)處理裝置的示意圖。如圖5所示，該裝置包括第一確定單元50、第二確定單元52和第一添加單元54。第一確定單元50用于從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，多個目標(biāo)文本所記錄的文本內(nèi)容相同。第二確定單元52用于從所述多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，所述預(yù)設(shè)文本為所述多個目標(biāo)文本中的任意一個文本。第一添加單元54用于對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識，以使得在服務(wù)器中利用所述預(yù)設(shè)標(biāo)識查詢文本數(shù)據(jù)。存儲文本數(shù)據(jù)的服務(wù)器可以是elasticsearch。文本可以是文章。文本內(nèi)容相同指的是文本的內(nèi)容完全相同，或者文本內(nèi)容的相似度滿足一定的條件。將服務(wù)器中存儲的內(nèi)容相同的文本劃分為一組，稱為一組重復(fù)文本。在每一組重復(fù)文本中，選擇一個文本作為預(yù)設(shè)文本。由于一組重復(fù)文本中的文本的內(nèi)容相同，因此預(yù)設(shè)文本可以是該組重復(fù)文本中的任意一個文本。對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識。預(yù)設(shè)標(biāo)識可以為時間、數(shù)字等標(biāo)識。在需要進行查詢時，設(shè)置查詢條件中包含預(yù)設(shè)標(biāo)識，即可篩選出每組文本中的添加了標(biāo)識的那一個文本，然后對篩選出的添加了標(biāo)識的文本進行下一步查詢。通過對每組重復(fù)文本中的某一個文本添加標(biāo)識，使得在查詢時可以根據(jù)此標(biāo)識查詢出每組重復(fù)文本中添加了標(biāo)識的那一個文本，使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文本，進而解決了現(xiàn)有技術(shù)在查詢文本的查詢結(jié)果中包含大量的內(nèi)容重復(fù)的文本的技術(shù)問題?？蛇x地，多個目標(biāo)文本為m個，m為大于或者等于2的自然數(shù)，其中，第二確定單元52包括排序模塊。排序模塊用于將多個目標(biāo)文本按照多個目標(biāo)文本中每個目標(biāo)文本對應(yīng)的第二字段記錄的時間的先后順序進行排序，得到排序后的第1至第m個目標(biāo)文本，將第1個目標(biāo)文本作為所述預(yù)設(shè)文本，其中，第二字段用于記錄對應(yīng)的目標(biāo)文本的發(fā)布時間。第一添加單元54包括設(shè)置模塊。設(shè)置模塊用于將第1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第一預(yù)設(shè)時間，將第一預(yù)設(shè)時間作為預(yù)設(shè)標(biāo)識。其中，本申請實施例所提供的數(shù)據(jù)處理裝置還包括第一設(shè)置單元。第一設(shè)置單元用于在對多個目標(biāo)文本中的一個預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識之后，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間，其中，i依次取1至m-1。第二字段可以是文本的發(fā)布時間，也可以是其他時間信息，在本申請實施例中，以文本的發(fā)布時間作為第二字段為例進行詳細說明。有一組重復(fù)文本，這組重復(fù)文本中包含m個文本。這m個文本中，每個文本都對應(yīng)著記錄該文本發(fā)布時間的一個字段(即前文中提到的第二字段)。將這m個文本按照第二字段中記錄的文本的發(fā)布時間進行升序排列，得到第1個文本、第2個文本、……第m個文本。其中，前一個文本的發(fā)布時間早于后一個文本的發(fā)布時間。將m個文本添加對應(yīng)的第一字段，將第1個文本的第一字段的值設(shè)置為第一預(yù)設(shè)時間，第一預(yù)設(shè)時間為一個預(yù)先設(shè)置好的時間。從第2個文本開始，將前一個文本的第二字段記錄的時間的值賦給當(dāng)前文本的第一字段，即將第1個文本的第二字段記錄的時間作為第2個文本的第一字段的值，將第2個文本的第二字段記錄的時間作為第3個文本的第一字段的值，……，將第i個文本的第二字段記錄的時間作為第i+1個文本的第一字段的值，……，將第m-1個文本的第二字段記錄的時間作為第m個文本的第一字段的值。圖2是根據(jù)本申請實施例的時間鏈的示意圖。圖2示出了3組重復(fù)文本按照第一字段記錄的時間進行升序排序后，類似于鏈表的一種結(jié)構(gòu)，將這種結(jié)構(gòu)稱為時間鏈。其中，docr1、docr2和docr3是一組重復(fù)文本，docm1和docm2是一組重復(fù)文本，docn1是一組重復(fù)文本。當(dāng)需要在所有文本中查詢時，只需要在正常的查詢中增加一個rangefilter，限制第一字段的值，即可查詢出每條時間鏈最左側(cè)的文本。當(dāng)需要在一定的時間范圍[t1，t2)內(nèi)查詢時，只需要增加一個rangefilter，限制第二字段在時間范圍[t1，t2)內(nèi)，且第一字段的值小于t1，即可查詢出時間鏈位于時間范圍[t1，t2)內(nèi)的部分最左側(cè)的文本。表1示出了編號為1至5的5個重復(fù)的文本與其對應(yīng)的第二字段。如表1所示，這組重復(fù)的文本包括5個文本，這5個文本對應(yīng)的第二字段用indextime表示，按照5個文本對應(yīng)的indextime的值從小到大進行排序后，得到的文本的排列順序如表1所示。使用lastappeartime表示這5個文本對應(yīng)的第一字段。indextime和lastappeartime的類型都為日期。假設(shè)設(shè)置第一預(yù)設(shè)時間為0001-01-01t00:00:00，則編號為1的文本的lastappeartime的值為0001-01-01t00:00:00。將編號為1的文本的indextime的值作為編號為2的文本的lastappeartime的值。將編號為2的文本的indextime的值作為編號為3的文本的lastappeartime的值。將編號為3的文本的indextime的值作為編號為4的文本的lastappeartime的值。將編號為4的文本的indextime的值作為編號為5的文本的lastappeartime的值。表2示出了編號為1至5的5個重復(fù)的文本與其對應(yīng)的第二字段和第一字段。在根據(jù)表2進行查詢時，有兩種情況。第一種情況，在所有的文本中查詢，即，不限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出lastappeartime的值為0001-01-01t00:00:00的文本。即，從每組重復(fù)文本中，找出lastappeartime的值為0001-01-01t00:00:00的一個文本，即找到每條時間鏈最左側(cè)的文本。這樣，接下來就可以對lastappeartime的值為0001-01-01t00:00:00的文本進行下一步查詢操作。第二種情況，在一定的時間區(qū)間[start，end)進行查詢，即，限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本。這樣，接下來就可以對indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本進行下一步查詢操作。例如，假設(shè)start的值為2015-03-01t11:30:00，end的值為2015-03-01t13:30:00。通過根據(jù)indextime的值進行篩選，發(fā)現(xiàn)編號為3和編號為4的文本的indextime的值在[start，end)范圍之內(nèi)。下一步判斷indextime的值在[start，end)范圍之內(nèi)的文本中，哪個文本的lastappeartime的值小于start的值，即判斷在編號為3和編號為4的兩個文本中，哪個文本的lastappeartime的值小于2015-03-01t11:30:00。經(jīng)過判斷，發(fā)現(xiàn)編號為3的文本的lastappeartime的值小于2015-03-01t11:30:00。因此在時間區(qū)間[2015-03-01t11:30:00，2015-03-01t13:30:00)進行查詢時，得到編號為3的文本。可選地，本申請實施例所提供的數(shù)據(jù)處理裝置還包括判斷單元。判斷單元用于在將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間之前，判斷第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間是否小于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間。第一設(shè)置單元具體用于在判斷出第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間小于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間。其中，本申請實施例所提供的數(shù)據(jù)處理裝置還包括第二設(shè)置單元。第二設(shè)置單元用于在判斷出第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間大于或者等于第i個目標(biāo)文本對應(yīng)的第二字段記錄的時間的情況下，將第i+1個目標(biāo)文本對應(yīng)的第一字段的值設(shè)置為第i個目標(biāo)文本對應(yīng)的第一字段記錄的時間與第二預(yù)設(shè)時間之和，其中，第二預(yù)設(shè)時間小于第一字段和第二字段記錄的最小時間單位。有一組重復(fù)文本，這組重復(fù)文本中包含m個文本。這m個文本中，每個文本都對應(yīng)著記錄該文本發(fā)布時間的一個字段(即前文中提到的第二字段)。將這m個文本按照第二字段中記錄的文本的發(fā)布時間進行升序排列，得到第1個文本、第2個文本、……第m個文本。其中，前一個文本的發(fā)布時間早于后一個文本的發(fā)布時間。將m個文本添加對應(yīng)的第一字段，將第1個文本的第一字段的值設(shè)置為第一預(yù)設(shè)時間，第一預(yù)設(shè)時間為一個預(yù)先設(shè)置好的時間。從第2個文本開始，判斷前一個文本的第一字段記錄的時間是否小于第二字段記錄的時間。如果判斷出前一個文本的第一字段記錄的時間小于第二字段記錄的時間，則將前一個文本第二字段記錄的時間的值賦給當(dāng)前文本的第一字段，也可以說，設(shè)置當(dāng)前文本的第一字段的值為前一個文本第二字段記錄的時間。如果判斷出前一個文本的第一字段記錄的時間大于或者等于第二字段記錄的時間，則將前一個文本的第一字段記錄的時間與一個很小的時間段(即上述第二預(yù)設(shè)時間)相加，得到的值作為當(dāng)前文本的第一字段的值。需要注意的是，第二預(yù)設(shè)時間是一個非常小的值，遠遠小于第一字段和第二字段記錄的時間的最小單位。例如，假如，第一字段和第二字段記錄的時間的最小單位為秒，則第二預(yù)設(shè)時間可以為0.0001秒、0.00001秒，或者0.000001秒，等等。表3示出了文本doca1至文本doca9這9個重復(fù)的文本與其對應(yīng)的第二字段。如表3所示，文本doca1、文本doca2、……、文本doca9這9個文本為一組重復(fù)文本。使用indextime來表示第二字段，即表示這9個文本發(fā)布的時間，indextime的值是已知的。第二預(yù)設(shè)時間有多種取值方法，例如，在本實施例中，設(shè)置第二預(yù)設(shè)時間為0.0001秒。使用lastappeartime表示文本的第一字段，lastappeartime的值是未知的。設(shè)置第一預(yù)設(shè)時間為1000-01-01t00:00:00:0000，將第一預(yù)設(shè)時間的值賦給文本doca1的第一字段，即設(shè)置文本doca1的lastappeartime的值為1000-01-01t 00:00:00:0000。第一預(yù)設(shè)時間可以有多種取值，不局限于以上列出的取值。由于文本doca1的lastappeartime小于indextime的值，因此，將文本doca1的indextime的值賦給文本doca2的lastappeartime，即設(shè)置文本doca2的lastappeartime的值為2015-03-01t10:00:00:0000。由于文本doca2的lastappeartime的值小于indextime的值，因此，將文本doca2的indextime的值賦給文本doca3的lastappeartime，即設(shè)置文本doca3的lastappeartime的值為2015-03-01t11:00:00:0000。由于文本doca3的lastappeartime的值小于indextime的值，因此，將文本doca3的indextime的值賦給文本doca4的lastappeartime，即設(shè)置文本doca4的lastappeartime的值為2015-03-01t12:00:00:0000。由于文本doca4的lastappeartime的值等于indextime的值，因此，將文本doca4的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca5的lastappeartime，即設(shè)置文本doca5的lastappeartime的值為2015-03-01t12:00:00:0001。由于文本doca5的lastappeartime的值大于indextime的值，因此，將文本doca5的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca6的lastappeartime，即設(shè)置文本doca6的lastappeartime的值為2015-03-01t12:00:00:0002。由于文本doca6的lastappeartime的值大于indextime的值，因此，將文本doca6的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca7的lastappeartime，即設(shè)置文本doca7的lastappeartime的值為2015-03-01t12:00:00:0003。由于文本doca7的lastappeartime的值大于indextime的值，因此，將文本doca7的lastappeartime的值與第二預(yù)設(shè)時間的和賦給文本doca8的lastappeartime，即設(shè)置文本doca8的lastappeartime的值為2015-03-01t12:00:00:0004。由于文本doca8的lastappeartime的值小于indextime的值，因此，將文本doca8的indextime的值賦給文本doca9的lastappeartime，即設(shè)置文本doca9的lastappeartime的值為2015-03-01t12:00:01:0000。表4示出了文本doca1至文本doca9這9個重復(fù)的文本與其對應(yīng)的第二字段和第一字段。在根據(jù)表4進行查詢時，有兩種情況。第一種情況，在所有的文本中查詢，即，不限定文本的indextime(第二字段) 的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出lastappeartime的值為1000-01-01t00:00:00:0000的文本。即，從每組重復(fù)文本中，找出lastappeartime的值為1000-01-01t00:00:00:0000的一個文本，即找到每條時間鏈最左側(cè)的文本。這樣，接下來就可以對lastappeartime的值為1000-01-01t00:00:00:0000的文本進行下一步查詢操作。第二種情況，在一定的時間區(qū)間[start，end)進行查詢，即，限定文本的indextime(第二字段)的值。此時，只需要在進行常規(guī)查詢之前，添加一個查詢條件，篩選出indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本。這樣，接下來就可以對indextime的值位于時間區(qū)間[start，end)之內(nèi)，且lastappeartime的值小于start的文本進行下一步查詢操作。例如，假設(shè)start的值為2015-03-01t11:40:00，end的值為2015-03-01t12:20:00。通過根據(jù)indextime篩選，發(fā)現(xiàn)文本doca3至文本doca9的indextime的值都在[start，end)之間，接下來，查找文本doca3至文本doca9中l(wèi)astappeartime的值小于start的文本，只有文本doca3滿足要求。因此，這9個重復(fù)文本中，只有文本doca3被篩選出來，以供下一步查詢使用。在重復(fù)文本的indextime的值相等的情況下，通過將lastappeartime的值進行微調(diào)放大，可以保證lastappeartime的值的唯一性，使得在查詢過程中，即使有多個重復(fù)文本的indextime的值相等，也可以保證在一組重復(fù)文本中只篩選出一個滿足查詢條件的文本?？蛇x地，本申請實施例所提供的數(shù)據(jù)處理裝置還包括第二添加單元。第二添加單元用于在從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本之前，對服務(wù)器中文本內(nèi)容相同的一組文本中每個文本添加相同的標(biāo)簽，其中，不同文本內(nèi)容的文本對應(yīng)的標(biāo)簽不同。第一確定單元50具體用于利用標(biāo)簽從服務(wù)器中確定出多個目標(biāo)文本。為了便于查詢具體哪些文本重復(fù)，可以為每一個文本添加一個標(biāo)簽repeatid，使得同一組的文本中，每個文本的repeatid相同，不同組的文本的repeatid不同。也就是說，repeatid相同的文本的內(nèi)容是重復(fù)的，repeatid不同的文本的內(nèi)容不重復(fù)。repeatid可以采用全球唯一標(biāo)識符guid(globallyuniqueidentifier)來保證唯一性。這樣，可以根據(jù)repeatid，確定出同一個文本內(nèi)容的重復(fù)文本有哪些，可以進一步地確定出文本的來源、轉(zhuǎn)載量等信息。本申請實施例還提供了一種數(shù)據(jù)查詢裝置，該數(shù)據(jù)查詢裝置能夠執(zhí)行上述數(shù)據(jù)查詢方法，上述數(shù)據(jù)查詢方法也可以通過該數(shù)據(jù)查詢裝置實施。圖6是根據(jù)本申請實施例的數(shù)據(jù)查詢裝置的示意圖。如圖6所示，該裝置包括接收單元60、生成單元62、第一查詢單元64和第二查詢單元66。接收單元60用于接收查詢請求，其中，查詢請求中攜帶有第一查詢條件。生成單元62用于生成第二查詢條件，其中，第二查詢條件中包含預(yù)設(shè)標(biāo)識。第一查詢單元64用于利用第二查詢條件從用于存儲文本數(shù)據(jù)的服務(wù)器中查詢出滿足第二查詢條件的文本。第二查詢單元66用于利用第一查詢條件從滿足第二查詢條件的文本中進行查詢，得到查詢結(jié)果。查詢請求是用戶輸入的，第一查詢條件為常規(guī)查詢條件，例如，使用關(guān)鍵詞“圣誕節(jié)”、“游玩”等對文本進行查詢。第二查詢條件用于第一查詢條件之前，第二查詢條件的作用為對重復(fù)文本進行去重操作，即，使用第二查詢條件之后，能夠得到一組重復(fù)文本中的某一個文本。設(shè)置第二查詢條件中包含預(yù)設(shè)標(biāo)識，此預(yù)設(shè)標(biāo)識與重復(fù)文本中的預(yù)設(shè)標(biāo)識相同。由于一組重復(fù)文本中有一個文本是添加了預(yù)設(shè)標(biāo)識，故使用第二查詢條件，能夠篩選出每一組重復(fù)文本中添加了預(yù)設(shè)標(biāo)識的一個文本，這些添加了預(yù)設(shè)標(biāo)識的文本即為滿足第二查詢條件的文本。之后，利用第一查詢條件從滿足第二查詢條件的文本中進行查詢，得到查詢結(jié)果。例如，服務(wù)器一共存儲了10000個文本，將這10000個文本進行分組，將重復(fù)的文本劃分成一組，得到了2000組文本，每一組文本中，有一個文本具有預(yù)設(shè)標(biāo)識。用戶輸入查詢請求，該查詢請求中攜帶有第一查詢條件，第一查詢條件為根據(jù)用戶的輸入的關(guān)鍵詞“春節(jié)”進行查詢。在使用第一查詢條件進行查詢之前，設(shè)置第二查詢條件。設(shè)置第二查詢條件包含預(yù)設(shè)標(biāo)識，使用第二查詢條件對服務(wù)器存儲的10000個文本進行查詢，篩選出2000個文本，這2000個文本都具有預(yù)設(shè)標(biāo)識，且這2000個文本為互不重復(fù)的文本。接下來，使用第一查詢條件對2000個互不重復(fù)的文本進行查詢，即在2000個互不重復(fù)的文本中，篩選出關(guān)鍵詞標(biāo)簽為“春節(jié)”的關(guān)鍵詞。通過在常規(guī)查詢之前，添加一個查詢條件，使用該查詢條件從每一組重復(fù)的文本里篩選出一個文本，從而篩選出互不相同的文本，將這些互不相同的文本作為下一步查詢的范圍，從而大大減小了查詢的工作量，加快了查詢速度，提高了查詢效率，而且，由于無需對互不相同的文本進行額外存儲并維護，不額外占用存儲空間，節(jié)約了存儲空間，同時也節(jié)省了用于維護數(shù)據(jù)的開銷。所述數(shù)據(jù)處理裝置包括處理器和存儲器，上述確定單元50、第二確定單元52和第一添加單元54等均作為程序單元存儲在存儲器中，由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。處理器中包含內(nèi)核，由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上，通過調(diào)整內(nèi)核參數(shù)來使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文本。存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器，隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式，如只讀存儲器(rom)或閃存(flashram)，存儲器包括至少一個存儲芯片。本申請還提供了一種計算機程序產(chǎn)品，當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時，適于執(zhí)行初始化有如下方法步驟的程序代碼：從用于存儲文本數(shù)據(jù)的服務(wù)器中確定出多個目標(biāo)文本，其中，多個目標(biāo)文本所記錄的文本內(nèi)容相同；從多個目標(biāo)文本中確定出預(yù)設(shè)文本，其中，預(yù)設(shè)文本為多個目標(biāo)文本中的任意一個文本；對預(yù)設(shè)文本添加預(yù)設(shè)標(biāo)識，以使得在服務(wù)器中利用所述預(yù)設(shè)標(biāo)識查詢文本數(shù)據(jù)。所述數(shù)據(jù)查詢裝置包括處理器和存儲器，上述接收單元60、生成單元62、第一查詢單元64和第二查詢單元66等均作為程序單元存儲在存儲器中，由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應(yīng)的功能。處理器中包含內(nèi)核，由內(nèi)核去存儲器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個或以上，通過調(diào)整內(nèi)核參數(shù)來使得查詢結(jié)果中不包含內(nèi)容重復(fù)的文本。存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器，隨機存取存儲器(ram)和/或非易失性內(nèi)存等形式，如只讀存儲器(rom)或閃存(flashram)，存儲器包括至少一個存儲芯片。本申請還提供了一種計算機程序產(chǎn)品，當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時，適于執(zhí)行初始化有如下方法步驟的程序代碼：接收查詢請求，其中，查詢請求中攜帶有第一查詢條件；生成第二查詢條件，其中，第二查詢條件中包含預(yù)設(shè)標(biāo)識；利用第二查詢條件從用于存儲文本數(shù)據(jù)的服務(wù)器中查詢出滿足第二查詢條件的文本；以及利用第一查詢條件從滿足第二查詢條件的文本中進行查詢，得到查詢結(jié)果。上述本申請實施例序號僅僅為了描述，不代表實施例的優(yōu)劣。在本申請的上述實施例中，對各個實施例的描述都各有側(cè)重，某個實施例中沒有詳述的部分，可以參見其他實施例的相關(guān)描述。在本申請所提供的幾個實施例中，應(yīng)該理解到，所揭露的技術(shù)內(nèi)容，可通過其它的方式實現(xiàn)。其中，以上所描述的裝置實施例僅僅是示意性的，例如所述單元的劃分，可以為一種邏輯功能劃分，實際實現(xiàn)時可以有另外的劃分方式，例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng)，或一些特征可以忽略，或不執(zhí)行。另一點，所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口，單元或模塊的間接耦合或通信連接，可以是電性或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的，作為單元顯示的部件可以是或者也可以不是物理單元，即可以位于一個地方，或者也可以分布到多個單元上?？梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外，在本申請各個實施例中的各功能單元可以集成在一個處理單元中，也可以是各個單元單獨物理存在，也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn)，也可以采用軟件功能單元的形式實現(xiàn)。所述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時，可以存儲在一個計算機可讀取存儲介質(zhì)中?；谶@樣的理解，本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中，包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括：u盤、只讀存儲器(rom，read-onlymemory)、隨機存取存儲器(ram，randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上所述僅是本申請的優(yōu)選實施方式，應(yīng)當(dāng)指出，對于本
技術(shù)領(lǐng)域：
的普通技術(shù)人員來說，在不脫離本申請原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應(yīng)視為本申請的保護范圍。當(dāng)前第1頁12

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王清華
技術(shù)所有人：北京國雙科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

數(shù)據(jù)處理的方法相關(guān)技術(shù)

數(shù)據(jù)處理方法有哪些相關(guān)技術(shù)

實驗數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)據(jù)處理方法相關(guān)技術(shù)

數(shù)學(xué)建模數(shù)據(jù)處理方法相關(guān)技術(shù)

常用的數(shù)據(jù)處理方法相關(guān)技術(shù)

正交實驗數(shù)據(jù)處理方法相關(guān)技術(shù)

缺失數(shù)據(jù)處理方法相關(guān)技術(shù)

現(xiàn)代測量數(shù)據(jù)處理方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)處理方法和裝置以及數(shù)據(jù)查詢方法和裝置與流程