基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法和裝置制造方法
【專利摘要】本申請涉及一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法和裝置,包括:接收來自用戶的搜索請求,在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象;分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個,以獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽;對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配;將所述數(shù)據(jù)標(biāo)簽相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。本申請利用數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽,預(yù)先對海量數(shù)據(jù)對象進(jìn)行分類整合得到同類數(shù)據(jù)對象,并且在搜索引擎中展示返回的多個同類數(shù)據(jù)對象中的一個,從而提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,并且增加了搜索結(jié)果的多樣性。
【專利說明】基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本申請涉及數(shù)據(jù)搜索領(lǐng)域,尤其涉及一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法和裝置。
【背景技術(shù)】
[0002]隨著云時代的來臨,大數(shù)據(jù)吸引了越來越多的關(guān)注,大數(shù)據(jù)技術(shù)不在于掌握海量數(shù)據(jù)/數(shù)據(jù)對象,而更著眼于在合理的時間內(nèi)達(dá)到采集、處理并整理成為用戶所需要的數(shù)據(jù)。在網(wǎng)絡(luò)中存在著大量的數(shù)據(jù),充分的利用這些數(shù)據(jù),可以為用戶的生活帶來極大的便利。用戶可以通過使用搜索引擎進(jìn)行數(shù)據(jù)搜索,用以得到想到獲得的數(shù)據(jù)。以數(shù)據(jù)搜索為例,搜索引擎事先對互聯(lián)網(wǎng)中的網(wǎng)頁進(jìn)行抓取,在對所抓取的網(wǎng)頁進(jìn)行預(yù)處理之后,才能提供檢索服務(wù)。其中,最重要的就是提取網(wǎng)頁中的關(guān)鍵詞,其他還包括去除重復(fù)網(wǎng)頁、分詞、判斷網(wǎng)頁類型、分析超鏈接、計算網(wǎng)頁的重要度/豐富度等。
[0003]在進(jìn)行數(shù)據(jù)搜索時,搜索引擎只是根據(jù)用戶輸入的關(guān)鍵字,檢索出與該關(guān)鍵字相關(guān)性高的匹配項,但在此過程中,與所述關(guān)鍵字相匹配的搜索結(jié)果數(shù)量巨大,并且囊括社會生活的各個領(lǐng)域,從而造成搜索結(jié)果質(zhì)量低,如:不利于用戶使用,準(zhǔn)確性差。
[0004]若采用信息整合的手段,搜索引擎可以將其抓取的海量數(shù)據(jù)對象進(jìn)行內(nèi)容挑選、分析、歸類等處理,可以縮小數(shù)據(jù)搜索的范圍,增加搜索結(jié)果的針對性。但是由于數(shù)據(jù)之間存在的歧義(如:同一關(guān)鍵字對應(yīng)不同領(lǐng)域),造成搜索結(jié)果的準(zhǔn)確性低;或是關(guān)鍵字存在其他表述方法(以太網(wǎng)、乙太網(wǎng)),造成搜索結(jié)果返回不全面。
[0005]例如,對關(guān)鍵字“以太網(wǎng)”進(jìn)行數(shù)據(jù)搜索,在搜索結(jié)果頁中會出現(xiàn)與“以太網(wǎng)”相關(guān)的搜索結(jié)果,然而“以太網(wǎng)”和“乙太網(wǎng)”是同一意義不同表述的關(guān)鍵字,由于兩個關(guān)鍵字之間不存在任何關(guān)聯(lián)關(guān)系,則與“乙太網(wǎng)”相關(guān)的搜索結(jié)果不會不出現(xiàn)在搜索結(jié)果頁中,造成一部分搜索結(jié)果未能檢索出來,降低了搜索結(jié)果質(zhì)量,如:搜索結(jié)果的返回率。
[0006]并且,因為搜索引擎對海量的數(shù)據(jù)/數(shù)據(jù)對象進(jìn)行了內(nèi)容挑選、分析、歸類等處理,在返回搜索結(jié)果時,在搜索結(jié)果頁中,會展示多個相同或相似的數(shù)據(jù)對象,這樣就造成了搜索結(jié)果的浪費(fèi)。例如,在每一頁搜索結(jié)果頁中只能展示20個搜索結(jié)果,但是在這20個搜索結(jié)果中有10個為相同或相似的數(shù)據(jù)對象,那么用戶不得不多次點(diǎn)擊下一頁,以查看不同的數(shù)據(jù)對象。
【發(fā)明內(nèi)容】
[0007]本申請的主要目的在于提供一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法和裝置,以解決使用現(xiàn)有技術(shù)的搜索引擎進(jìn)行數(shù)據(jù)搜索時,由于數(shù)據(jù)量過大,并且數(shù)據(jù)對象與數(shù)據(jù)對象之間不存在關(guān)聯(lián)性,而出現(xiàn)的搜索結(jié)果質(zhì)量低的問題。
[0008]為了解決上述技術(shù)問題,本申請的目的是通過以下技術(shù)方案實現(xiàn)的:
[0009]本申請?zhí)峁┝艘环N基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法,包括以下步驟:接收來自用戶的搜索請求,在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象;分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個,以獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽;對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配;將所述數(shù)據(jù)標(biāo)簽相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。
[0010]優(yōu)選地,在根據(jù)本申請所述的方法中,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。
[0011]優(yōu)選地,在根據(jù)本申請所述的方法中,還可以包括:對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,以確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,以得到數(shù)據(jù)對象映射關(guān)系表。
[0012]優(yōu)選地,在根據(jù)本申請所述的方法中,對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,包括:對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理;對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合;對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合;對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
[0013]優(yōu)選地,在根據(jù)本申請所述的方法中,所述第二數(shù)據(jù)標(biāo)簽同義詞包括:相同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象;所述第一數(shù)據(jù)標(biāo)簽同義詞包括:同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽。
[0014]優(yōu)選地,在根據(jù)本申請所述的方法中,對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,包括:如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且所述第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn),則建立所述第一數(shù)據(jù)標(biāo)簽與所述第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
[0015]優(yōu)選地,在根據(jù)本申請所述的方法中,對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,包括:抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽,并對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧;基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽,并對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理;將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化;根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全。
[0016]優(yōu)選地,在根據(jù)本申請所述的方法中,對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧,包括:基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取所述候選第二數(shù)據(jù)標(biāo)簽在所述類目中出現(xiàn)的次數(shù),若次數(shù)大于預(yù)設(shè)的閾值,則認(rèn)為是所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽;和/或,若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多的一個所述第二數(shù)據(jù)標(biāo)簽作為所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0017]優(yōu)選地,在根據(jù)本申請所述的方法中,可以包括:在搜索結(jié)果頁中,展示所述同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個,其中,所述同類數(shù)據(jù)組合包括:互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象。
[0018]優(yōu)選地,在根據(jù)本申請所述的方法中,所述同類數(shù)據(jù)對象可以包括:在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
[0019]本申請還提供了一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的裝置,包括:接收與搜索模塊,用于接收來自用戶的搜索請求,在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象;獲取模塊,用于分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個,以獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽;匹配模塊,用于對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配;整合與返回模塊,用于將所述數(shù)據(jù)標(biāo)簽相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。
[0020]優(yōu)選地,在根據(jù)本申請所述的裝置中,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。
[0021]優(yōu)選地,在根據(jù)本申請所述的裝置中,還可以包括:預(yù)處理模塊,用于對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,以確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,以得到數(shù)據(jù)對象映射關(guān)系表。
[0022]優(yōu)選地,在根據(jù)本申請所述的裝置中,所述預(yù)處理模塊還被配置成:對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理;對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合;對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合;對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系;如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且所述第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn),則建立所述第一數(shù)據(jù)標(biāo)簽與所述第二數(shù)據(jù)標(biāo)簽的映射關(guān)系O
[0023]優(yōu)選地,在根據(jù)本申請所述的裝置中,所述第二數(shù)據(jù)標(biāo)簽同義詞包括:同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象;述第一數(shù)據(jù)標(biāo)簽同義詞包括:同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽。
[0024]優(yōu)選地,在根據(jù)本申請所述的裝置中,所述預(yù)處理模塊還被配置成:抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽,并對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧;基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽,并對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理;將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化;根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全;基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取所述候選第二數(shù)據(jù)標(biāo)簽在所述類目中出現(xiàn)的次數(shù),若次數(shù)大于預(yù)設(shè)的閾值,則認(rèn)為是所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽;和/或若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多的一個所述第二數(shù)據(jù)標(biāo)簽作為所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0025]優(yōu)選地,在根據(jù)本申請所述的裝置中,所述整合與返回模塊還被配置成:在搜索結(jié)果頁中,展示所述同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個,其中,所述同類數(shù)據(jù)組合包括:互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象;所述同類數(shù)據(jù)對象包括:在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
[0026]與現(xiàn)有技術(shù)相比,根據(jù)本申請的技術(shù)方案,存在以下有益效果:
[0027]本申請利用數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽等重要標(biāo)簽/屬性,預(yù)先對海量數(shù)據(jù)對象進(jìn)行分類整合,并在同類數(shù)據(jù)對象之間建立關(guān)聯(lián),提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,從而提升了搜索結(jié)果的質(zhì)量。
[0028]本申請將搜索引擎返回的多個同類數(shù)據(jù)對象進(jìn)行整合處理,并在搜索結(jié)果頁中只展示該多個同類數(shù)據(jù)對象中的一個,從而使搜索結(jié)果頁展示更多種類的數(shù)據(jù)對象,增加了搜索結(jié)果的多樣性,用戶體驗較好。
【專利附圖】
【附圖說明】
[0029]此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0030]圖1是本申請實施例的基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法的流程圖;
[0031]圖2是本申請實施例的對同類數(shù)據(jù)對象的預(yù)整合處理的步驟的流程圖;
[0032]圖3是本申請實施例的對所有待搜索的數(shù)據(jù)對象執(zhí)行線下的數(shù)據(jù)挖掘處理的流程圖;
[0033]圖4是本申請實施例的對所有待搜索的數(shù)據(jù)對象執(zhí)行相應(yīng)的歸一化和映射處理的流程圖;以及
[0034]圖5是本申請實施例的基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0035]本申請的主要思想在于,利用被搜索的數(shù)據(jù)對象中所包含的數(shù)據(jù)標(biāo)簽(屬性)來區(qū)分同類數(shù)據(jù)對象和不同類數(shù)據(jù)對象,使用數(shù)據(jù)對象中包含的數(shù)據(jù)標(biāo)簽(例如:第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽等),預(yù)先整合數(shù)據(jù)庫中的海量數(shù)據(jù)對象。例如:對同一含義不同表述的第二數(shù)據(jù)標(biāo)簽之間進(jìn)行映射,如,“以太網(wǎng)”和“乙太網(wǎng)”,對同一數(shù)據(jù)對象中包含的不同第一數(shù)據(jù)標(biāo)簽之間進(jìn)行映射,對具有同一第一數(shù)據(jù)標(biāo)簽的不同數(shù)據(jù)對象進(jìn)行映射等等,基于數(shù)據(jù)對象與數(shù)據(jù)標(biāo)簽之間的映射關(guān)系,以獲得互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象。并且,在數(shù)據(jù)搜索中,基于海量數(shù)據(jù)對象的預(yù)先整合,根據(jù)用戶的搜索請求,如利用“關(guān)鍵字”(Key)的搜索請求,在數(shù)據(jù)庫中獲取與該關(guān)鍵字相匹配的數(shù)據(jù)對象的同時,還可以獲取相匹配的該數(shù)據(jù)對象的同類數(shù)據(jù)對象,從而提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,并且,還可以對多個同類數(shù)據(jù)對象進(jìn)行整合處理,在搜索結(jié)果頁中只展示該多個同類數(shù)據(jù)對象中的一個,從而使搜索結(jié)果頁展示更多種類的數(shù)據(jù)對象,增加了搜索結(jié)果的多樣性。
[0036]為使本申請的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,以下結(jié)合附圖及具體實施例,對本申請作進(jìn)一步地詳細(xì)說明。
[0037]根據(jù)本申請的實施例,提供了一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法。參考圖1本申請實施例的基于對同類數(shù)據(jù)整合的數(shù)據(jù)搜索的方法的流程圖。
[0038]在步驟S102處,接收來自用戶的搜索請求,并執(zhí)行搜索。其中,所述搜索請求用于在所有待搜索的數(shù)據(jù)對象中搜索出與該搜索請求相匹配的一個或多個數(shù)據(jù)對象。
[0039]該搜索請求可以包含關(guān)鍵字、或網(wǎng)絡(luò)鏈接等,根據(jù)搜索請求執(zhí)行搜索,以找到與該關(guān)鍵字相匹配的數(shù)據(jù)對象,或找到該網(wǎng)絡(luò)鏈接所指向的一個或多個數(shù)據(jù)對象等。用戶通過發(fā)送該搜索請求,可以在諸多數(shù)據(jù)對象中獲得與該關(guān)鍵字或與該網(wǎng)絡(luò)鏈接所代表的內(nèi)容相匹配的數(shù)據(jù)對象,并且該相匹配的數(shù)據(jù)對象可以是一個或者多個。
[0040]所述一個或多個數(shù)據(jù)對象可以以數(shù)據(jù)文件的形式存儲于數(shù)據(jù)庫中。其中,所述一個或多個數(shù)據(jù)對象中的每一個數(shù)據(jù)對象都包括各種數(shù)據(jù)標(biāo)簽,如第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽等。第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽是表示代表兩種完全不同的特征或者屬性,此描述是為了區(qū)分為兩種特征而非定義。存儲于數(shù)據(jù)庫中待搜索的數(shù)據(jù)文件,需要有相應(yīng)的數(shù)據(jù)結(jié)構(gòu)進(jìn)行組織和整合,才能保證其搜索的完整性、高質(zhì)量和高效率,這將在下面整合同類數(shù)據(jù)對象的處理中進(jìn)行描述。
[0041]在步驟S104處,通過對搜索到的一個或多個數(shù)據(jù)對象中的每一個數(shù)據(jù)對象進(jìn)行分析,獲取所述每一個數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽。其中,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。
[0042]換言之,可以通過對搜索到的一個或多個數(shù)據(jù)對象中的每一個數(shù)據(jù)對象進(jìn)行分析,獲取所述每一個數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽和/或第二數(shù)據(jù)標(biāo)簽。
[0043]所述每一個數(shù)據(jù)對象中都包含多個數(shù)據(jù)標(biāo)簽,如數(shù)據(jù)對象的名稱、存儲位置、索引編號等。每一個數(shù)據(jù)對象可以包括第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽,所述第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別表征數(shù)據(jù)對象的不同的數(shù)據(jù)標(biāo)簽。其中,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽可以確定一個數(shù)據(jù)對象,所以,在本申請的實施例中,以第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽作為整合同類數(shù)據(jù)的基礎(chǔ)。例如,在員工信息表中,以員工ID( 12345)作為第一數(shù)據(jù)標(biāo)簽,以姓名(張三)作為第二數(shù)據(jù)標(biāo)簽,該員工ID (12345)和姓名(張三)即可確定該員工信息表中的一個員工張二。
[0044]在海量數(shù)據(jù)對象中,可以利用所述第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽可以確定一個數(shù)據(jù)對象的特性,確定該數(shù)據(jù)對象的同類數(shù)據(jù)對象,又例如,可以將商品作為一個數(shù)據(jù)對象,將該商品的貨號作為第一數(shù)據(jù)標(biāo)簽,將該商品的品牌詞作為第二數(shù)據(jù)標(biāo)簽,可以通過對搜索到的商品進(jìn)行分析,以獲得該商品的貨號和品牌詞,可以通過該獲得的貨號和品牌詞與海量商品進(jìn)行匹配,從而獲得該商品的同類商品,例如,商品貨號“ 1111”和商品品牌詞“耐克”可以確定一個商品“貝殼頭運(yùn)動鞋”,那么在海量商品中,可以通過將商品貨號“1111”和商品品牌詞“耐克”與海量商品進(jìn)行匹配,從而得到多個與“貝殼頭運(yùn)動鞋”為同款的商品。將獲得的第一數(shù)據(jù)標(biāo)簽和/或第二數(shù)據(jù)標(biāo)簽與海量數(shù)據(jù)進(jìn)行匹配的步驟,具體可參見步驟S106。
[0045]在步驟S106處,根據(jù)獲取的數(shù)據(jù)標(biāo)簽,如,第一數(shù)據(jù)標(biāo)簽和/或第二數(shù)據(jù)標(biāo)簽,對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配,以獲得與所述每一個數(shù)據(jù)對象相匹配的一個或多個同類的數(shù)據(jù)對象。
[0046]由此,能得到與搜索請求相匹配的更多的數(shù)據(jù)對象,從而提高數(shù)據(jù)搜索的全面性,提升搜索結(jié)果的質(zhì)量,為用戶提供方便的數(shù)據(jù)搜索服務(wù)。
[0047]在步驟S108處,將所述每一個數(shù)據(jù)對象及其對應(yīng)的一個或多個同類數(shù)據(jù)對象整合(聚合)為一個同類數(shù)據(jù)組合,并返回給所述用戶。
[0048]換言之,可以將所述數(shù)據(jù)標(biāo)簽(第一數(shù)據(jù)標(biāo)簽和/或所述第二數(shù)據(jù)標(biāo)簽)相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。
[0049]所述同類數(shù)據(jù)組合包括互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象,用戶可以通過該同類數(shù)據(jù)組合查看其中包含的多個同類數(shù)據(jù)對象中的每一個同類數(shù)據(jù)對象。
[0050]在一個實施例中,可以在搜索結(jié)果頁中只展示同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個,并隱藏其他同類數(shù)據(jù)對象,當(dāng)需要展示該隱藏的其他同類數(shù)據(jù)對象時,可以觸發(fā)一個用于展示該隱藏的其他同類數(shù)據(jù)對象的操作,例如,通過觸發(fā)一個按鈕等方式。
[0051]進(jìn)一步地,搜索結(jié)果是將與所述搜索請求相匹配的數(shù)據(jù)對象,及所述相匹配的數(shù)據(jù)對象對應(yīng)的一個或多個同類數(shù)據(jù)對象返回給所述用戶。這樣,在返回與搜索請求相匹配的數(shù)據(jù)對象的同時,返回與該數(shù)據(jù)對象對應(yīng)的同類數(shù)據(jù)對象,提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,而且,使用同類數(shù)據(jù)組合的概念,將同一類的數(shù)據(jù)對象聚合在一起,可以在搜索結(jié)果頁中展示更多種類的數(shù)據(jù)對象,增加了搜索結(jié)果的多樣性。
[0052]其中,能夠依據(jù)數(shù)據(jù)標(biāo)簽,如第一數(shù)據(jù)標(biāo)簽和/或第二數(shù)據(jù)標(biāo)簽,來匹配到更多同類數(shù)據(jù)對象,是基于同類數(shù)據(jù)對象整合的數(shù)據(jù)結(jié)構(gòu)實現(xiàn)。下面將具體描述同類的數(shù)據(jù)對象的整合過程。
[0053]如圖2所示的本申請實施例的對同類數(shù)據(jù)對象的預(yù)整合處理的流程圖。
[0054]步驟S202,對所有待搜索的數(shù)據(jù)對象進(jìn)行預(yù)先整合處理,以確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,得到數(shù)據(jù)對象映射關(guān)系表。
[0055]執(zhí)行該預(yù)先整合處理的步驟,目的在于得到與每一個數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象。其中,所述同類數(shù)據(jù)對象包括,在相同的類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽、并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
[0056]該預(yù)先整合處理的步驟通過線下的對海量數(shù)據(jù)對象的數(shù)據(jù)挖掘處理,并基于該對數(shù)據(jù)對象挖掘處理結(jié)果,執(zhí)行線上的第二數(shù)據(jù)標(biāo)簽和第一數(shù)據(jù)標(biāo)簽的抽取,以及相應(yīng)的歸一化和映射處理,最終獲得數(shù)據(jù)對象、第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽之間的映射關(guān)系,從而,將相同類目下的同一類的數(shù)據(jù)對象整合到一起,即得到整合后的同類數(shù)據(jù)對象的關(guān)聯(lián)關(guān)系O
[0057]首先,基于海量數(shù)據(jù)對象(如數(shù)億數(shù)量級),執(zhí)行線下的數(shù)據(jù)挖掘處理,例如對所有待搜索的數(shù)據(jù)對象執(zhí)行線下的數(shù)據(jù)挖掘處理,優(yōu)選的方式,如圖3所示,挖掘出第二數(shù)據(jù)標(biāo)簽表、第二數(shù)據(jù)標(biāo)簽同義詞表、第二數(shù)據(jù)標(biāo)簽類目分布表、第一數(shù)據(jù)標(biāo)簽同義詞表、以及第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射表。
[0058]步驟S302,對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理。
[0059]可抽取各個數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽的集合,如,形成第二數(shù)據(jù)標(biāo)簽表;以及基于該第二數(shù)據(jù)標(biāo)簽的集合,將數(shù)據(jù)庫中的所有數(shù)據(jù)對象,進(jìn)行類目劃分,獲得所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽類目分布,如,形成第二數(shù)據(jù)標(biāo)簽類目分布表,如論文數(shù)據(jù)庫的各種不同的類目:地理類、生活類等。如商品數(shù)據(jù)庫的各種不同的類目:服裝類、鐘表類等。
[0060]優(yōu)選地,對同一類目下,在各個數(shù)據(jù)對象的數(shù)據(jù)文件中,統(tǒng)計其具有的所有不同第二數(shù)據(jù)標(biāo)簽,并將所有數(shù)據(jù)對象的所有的第二數(shù)據(jù)標(biāo)簽組成第二數(shù)據(jù)標(biāo)簽的集合,以及統(tǒng)計每一個第二數(shù)據(jù)標(biāo)簽出現(xiàn)的次數(shù)或頻度。根據(jù)所有數(shù)據(jù)對象的所有第二數(shù)據(jù)標(biāo)簽,可以形成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽表,根據(jù)每一個數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽在不同分類的類目下出現(xiàn)的次數(shù)或頻度,可以形成所有第二數(shù)據(jù)標(biāo)簽的第二數(shù)據(jù)標(biāo)簽類目分布表,其中,該第二數(shù)據(jù)標(biāo)簽類目分布表中包含多個類目、每一個類目下的多個第二數(shù)據(jù)標(biāo)簽,及每一個第二數(shù)據(jù)標(biāo)簽的次數(shù)(或頻度)。
[0061]例如:地理類目下的數(shù)據(jù)對象城市,其文件中提取出校車、地鐵、小汽車三個不同的第二數(shù)據(jù)標(biāo)簽,都是在同一地理類目下的“城市”這個對象的文件中出現(xiàn)的,將“校車”、“地鐵”、“小汽車”三個第二數(shù)據(jù)標(biāo)簽都放入第二數(shù)據(jù)標(biāo)簽集合中,這樣,把同一類目下和不同類目下所有的數(shù)據(jù)對象的所有第二數(shù)據(jù)標(biāo)簽都提取出來形成第二數(shù)據(jù)標(biāo)簽集合,可以通過列表形式存儲。而還需要對這些第二數(shù)據(jù)標(biāo)簽,如地理類目下的對象“城市”中不同第二數(shù)據(jù)標(biāo)簽“校車”、“地鐵”、“小汽車”各自出現(xiàn)的次數(shù)或頻度(頻次)進(jìn)行統(tǒng)計形成第二數(shù)據(jù)標(biāo)簽的類目分布關(guān)系?!靶\嚒背霈F(xiàn)15次,“地鐵”出現(xiàn)10次,“小汽車”出現(xiàn)20次,并從大至IJ小排隊,而在其他類目如“生活類”的“家庭大型用品”數(shù)據(jù)對象的文件中,“校車”出現(xiàn)的次數(shù)為0,“地鐵”出現(xiàn)的次數(shù)為0,“小汽車”出現(xiàn)的次數(shù)為20。由此,則“校車”、“地鐵”這兩個第二數(shù)據(jù)標(biāo)簽屬于“地理”類目下,而“小汽車”可以對應(yīng)在“地理”、“生活”類目下。將類目、該類目下的第二數(shù)據(jù)標(biāo)簽、該第二數(shù)據(jù)標(biāo)簽統(tǒng)計出現(xiàn)的次數(shù)或頻率(頻次)通過第二數(shù)據(jù)標(biāo)簽類目分布表保存下來。
[0062]其中,對第二數(shù)據(jù)標(biāo)簽出現(xiàn)的次數(shù)或頻度的統(tǒng)計,可以在包括數(shù)據(jù)對象的數(shù)據(jù)文件中,統(tǒng)計出現(xiàn)的有關(guān)第二數(shù)據(jù)標(biāo)簽的信息,例如:數(shù)據(jù)對象屬性信息、標(biāo)題分詞結(jié)果中包含的第二數(shù)據(jù)標(biāo)簽等。
[0063]步驟S304,可對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合,如,形成第二數(shù)據(jù)標(biāo)簽同義詞表。
[0064]在相同類目下,對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行同義詞挖掘處理,例如,抽取出同一類目下所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽和第一數(shù)據(jù)標(biāo)簽。將具有相同第一數(shù)據(jù)標(biāo)簽的兩個數(shù)據(jù)對象中包含的不同第二數(shù)據(jù)標(biāo)簽視為第二數(shù)據(jù)標(biāo)簽同義詞對的一次共同出現(xiàn)。例如:數(shù)據(jù)對象M1具有標(biāo)簽a (第二數(shù)據(jù)標(biāo)簽)和編碼B (第一數(shù)據(jù)標(biāo)簽);數(shù)據(jù)對象M2具有標(biāo)簽A (第二數(shù)據(jù)標(biāo)簽)和編碼B (第一數(shù)據(jù)標(biāo)簽),則可以認(rèn)為標(biāo)簽A和標(biāo)簽a為同義詞,則數(shù)據(jù)對象M1和數(shù)據(jù)對象M2就是同義詞對的一次共同出現(xiàn)。此后,可以基于第二數(shù)據(jù)標(biāo)簽類目分布表,統(tǒng)計所有第二數(shù)據(jù)標(biāo)簽同義詞對的共同出現(xiàn)次數(shù)。按照第二數(shù)據(jù)標(biāo)簽同義詞的共同出現(xiàn)次數(shù)(或頻度)從高到低排序,可以優(yōu)先對高次數(shù)的第二數(shù)據(jù)標(biāo)簽同義詞生成第二數(shù)據(jù)標(biāo)簽同義詞表來并保存。
[0065]該挖掘處理得到相同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象關(guān)聯(lián),形成第二數(shù)據(jù)標(biāo)簽同義詞的集合,形成互為第二數(shù)據(jù)標(biāo)簽同義詞的多個數(shù)據(jù)對象。比如,若多個數(shù)據(jù)對象之間具有相同的第一數(shù)據(jù)標(biāo)簽,但具有不同的第二數(shù)據(jù)標(biāo)簽,可以將所述不同的第二數(shù)據(jù)標(biāo)簽稱為第二數(shù)據(jù)標(biāo)簽同義詞,還可以通過以第二數(shù)據(jù)標(biāo)簽同義詞表的形式保存。
[0066]步驟S306,可對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合,如第一數(shù)據(jù)標(biāo)簽同義詞表。
[0067]例如,可抽取出現(xiàn)在單個數(shù)據(jù)對象中(如其數(shù)據(jù)文件)的多個第一數(shù)據(jù)標(biāo)簽,例如,在文件的標(biāo)題信息中包含的多個第一數(shù)據(jù)標(biāo)簽,如果其中兩個第一數(shù)據(jù)標(biāo)簽滿足長度相同且前綴相同,則認(rèn)為是第一數(shù)據(jù)標(biāo)簽同義詞對,最后,將所有的第一數(shù)據(jù)標(biāo)簽同義詞對,聚合成第一數(shù)據(jù)標(biāo)簽同義詞簇(同義詞集合),可以采用第一數(shù)據(jù)標(biāo)簽同義詞表形式保存。這樣,將同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽,形成了第一數(shù)據(jù)標(biāo)簽同義詞的集合。
[0068]更具體的,在一個數(shù)據(jù)對象中可以包含多個第一數(shù)據(jù)標(biāo)簽,如,某一數(shù)據(jù)對象A包含第一數(shù)據(jù)標(biāo)簽“ 1110 ”、“ 1111”,并且,這兩個第一數(shù)據(jù)標(biāo)簽滿足長度相同且前綴相同,則第一數(shù)據(jù)標(biāo)簽“1110”和“1111”可成為第一數(shù)據(jù)標(biāo)簽同義詞。通過這樣的方式可以形成一第一數(shù)據(jù)標(biāo)簽同義詞表。
[0069]步驟S308,可以對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
[0070]例如,抽取出所有數(shù)據(jù)對象的數(shù)據(jù)文件中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,根據(jù)所述第二數(shù)據(jù)標(biāo)簽類目分布表,統(tǒng)計同一第一數(shù)據(jù)標(biāo)簽和不同第二數(shù)據(jù)標(biāo)簽在數(shù)據(jù)對象的共現(xiàn)(共同出現(xiàn))次數(shù)(或頻度),其中,如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且該第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn)過,則建立該第一數(shù)據(jù)標(biāo)簽與該第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,如建立第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射表,并保存,以便補(bǔ)全某些數(shù)據(jù)對象的特征中可能缺失的第二數(shù)據(jù)標(biāo)簽信息,如,某些數(shù)據(jù)對象可能出現(xiàn)只有第一數(shù)據(jù)標(biāo)簽而沒有第二數(shù)據(jù)標(biāo)簽的情形:某數(shù)據(jù)對象中僅有編碼“11”(第一數(shù)據(jù)標(biāo)簽)而無標(biāo)簽(第二數(shù)據(jù)標(biāo)簽),但編碼“11”曾經(jīng)出現(xiàn)過且僅出現(xiàn)過與標(biāo)簽“A”(第一數(shù)據(jù)標(biāo)簽)共現(xiàn)的情形,則映射。這樣的映射能夠補(bǔ)全數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽這一特征的信息。從而,當(dāng)響應(yīng)搜索請求時,能提供聚合的同一類數(shù)據(jù)對象的召回率(搜出率、搜全率、返回率)。
[0071]例如:數(shù)據(jù)對象A只包括一個第一數(shù)據(jù)標(biāo)簽“1110”,而不包含(缺少)第二數(shù)據(jù)標(biāo)簽,根據(jù)抽取出的所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,在同一類目下,該第一數(shù)據(jù)標(biāo)簽“1110”只與數(shù)據(jù)對象B的第二數(shù)據(jù)標(biāo)簽“BB”存在共現(xiàn),換言之,在所有數(shù)據(jù)對象中,只有數(shù)據(jù)對象B包含第一數(shù)據(jù)標(biāo)簽“ 1110”和第二數(shù)據(jù)標(biāo)簽“BB”,則數(shù)據(jù)對象A的第一數(shù)據(jù)標(biāo)簽“ 1110”僅和數(shù)據(jù)對象B的第二數(shù)據(jù)標(biāo)簽“BB”存在共現(xiàn),在這種情況下,可以建立第一數(shù)據(jù)標(biāo)簽“1110”到第二數(shù)據(jù)標(biāo)簽“BB”的映射關(guān)系。
[0072]進(jìn)一步的,基于上述數(shù)據(jù)挖掘聚合的第二數(shù)據(jù)標(biāo)簽表、第二數(shù)據(jù)標(biāo)簽同義詞表、第一數(shù)據(jù)標(biāo)簽同義詞表、第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射表,第二數(shù)據(jù)標(biāo)簽的類目分布,可以對線上的所有數(shù)據(jù)對象進(jìn)行歸一化和映射,由此體現(xiàn)了數(shù)據(jù)對象、第一數(shù)據(jù)標(biāo)簽、以及第二數(shù)據(jù)標(biāo)簽之間的映射關(guān)系。
[0073]根據(jù)上述對海量數(shù)據(jù)對象的數(shù)據(jù)挖掘處理結(jié)果,可以形成初始整合的同類數(shù)據(jù)對象的關(guān)聯(lián)關(guān)系,即,在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
[0074]其次,針對某一數(shù)據(jù)對象(或每一數(shù)據(jù)對象),基于線下挖掘的各個集合(表),從該數(shù)據(jù)對象(數(shù)據(jù)文件中)的標(biāo)題信息和屬性信息內(nèi),抽取第二數(shù)據(jù)標(biāo)簽以及第一數(shù)據(jù)標(biāo)簽,并且,根據(jù)數(shù)據(jù)挖掘處理結(jié)果,對所有待搜索的數(shù)據(jù)對象執(zhí)行相應(yīng)的歸一化(統(tǒng)一)和映射處理,最終整合屬于同一類的數(shù)據(jù)對象,如圖4所示。進(jìn)一步優(yōu)化同類的數(shù)據(jù)對象整合。優(yōu)化數(shù)據(jù)對象的類目分布表,優(yōu)化數(shù)據(jù)對象、第二數(shù)據(jù)標(biāo)簽、第一數(shù)據(jù)標(biāo)簽的映射關(guān)系等。
[0075]步驟S402,抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽。對某一數(shù)據(jù)對象的標(biāo)題信息分詞(屬性信息同樣可以),然后將某分詞片段(集合)匹配第二數(shù)據(jù)標(biāo)簽表,如果完全與第二數(shù)據(jù)標(biāo)簽表中的第二數(shù)據(jù)標(biāo)簽匹配,則將第二數(shù)據(jù)標(biāo)簽作為候選。例如,在一個數(shù)據(jù)對象中包含第二數(shù)據(jù)標(biāo)簽“A”、第二數(shù)據(jù)標(biāo)簽“B”、第二數(shù)據(jù)標(biāo)簽“C”,并且在第二數(shù)據(jù)標(biāo)簽表中只包含第二數(shù)據(jù)標(biāo)簽“A”、第二數(shù)據(jù)標(biāo)簽“B”,則將第二數(shù)據(jù)標(biāo)簽“A”、第二數(shù)據(jù)標(biāo)簽“B”作為該數(shù)據(jù)對象的候選第二數(shù)據(jù)標(biāo)簽。
[0076]基于第二數(shù)據(jù)標(biāo)簽類目分布表,統(tǒng)計不同第二數(shù)據(jù)標(biāo)簽出現(xiàn)的次數(shù)或頻度,按照次數(shù)或頻度從高到底排序,可以將高次數(shù)或高頻度的候選第二數(shù)據(jù)標(biāo)簽作為該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0077]步驟S404,對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧。
[0078]對候選第二數(shù)據(jù)標(biāo)簽進(jìn)行的消歧處理包括根據(jù)各候選第二數(shù)據(jù)標(biāo)簽在類目分布表中的出現(xiàn)次數(shù)或頻度篩選出符合預(yù)定條件的候選第二數(shù)據(jù)標(biāo)簽作為數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0079]在一個具體的實施方式中,確定數(shù)據(jù)對象所屬的類目,基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取該候選第二數(shù)據(jù)標(biāo)簽在該類目中出現(xiàn)的次數(shù)(或頻率),若次數(shù)大于預(yù)設(shè)的閾值(比如I次),則認(rèn)為是該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。在另一個實施例中,若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多(頻次最大)的一個第二數(shù)據(jù)標(biāo)簽作為該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。例如,已知一個數(shù)據(jù)對象的候選第二數(shù)據(jù)標(biāo)簽包含第二數(shù)據(jù)標(biāo)簽“A”和第二數(shù)據(jù)標(biāo)簽“B”,根據(jù)第二數(shù)據(jù)標(biāo)簽類目分布表,在該數(shù)據(jù)對象所屬的類目下,第二數(shù)據(jù)標(biāo)簽“A”出現(xiàn)的次數(shù)為1000次,第二數(shù)據(jù)標(biāo)簽“B”出現(xiàn)的次數(shù)為I次,則可以將第二數(shù)據(jù)標(biāo)簽“A”確定為該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0080]步驟S406,第二數(shù)據(jù)標(biāo)簽同義詞歸一化。消歧后的第二數(shù)據(jù)標(biāo)簽可基于線下挖掘的第二數(shù)據(jù)標(biāo)簽同義詞表,將抽取的數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽進(jìn)行改寫,歸一化第二數(shù)據(jù)標(biāo)簽。譬如,當(dāng)?shù)诙?shù)據(jù)標(biāo)簽“A”在第二數(shù)據(jù)標(biāo)簽類目分布表中出現(xiàn)過500次,該第二數(shù)據(jù)標(biāo)簽“A”的同義詞“B”在第二數(shù)據(jù)標(biāo)簽類目分布表中出現(xiàn)20次,則可以將第二數(shù)據(jù)標(biāo)簽“B”更改為第二數(shù)據(jù)標(biāo)簽“A”。
[0081]例如,某一數(shù)據(jù)對象為商品,而商品的第二數(shù)據(jù)標(biāo)簽可以包括商品的品牌詞。同一個商品,其品牌詞可能存在不同的寫法,包括品牌詞的同義詞和寫錯的形式。例如,某一商品的品牌詞為“新百倫”,該品牌詞存在同義詞“紐巴倫”以及“new balance”,或者寫錯的形式“newbalance”,或者簡寫“nb”等??筛鶕?jù)品牌詞的同義詞表(第二數(shù)據(jù)標(biāo)簽同義詞表)以及消歧后的品牌詞(第二數(shù)據(jù)標(biāo)簽),改寫抽取的第二數(shù)據(jù)標(biāo)簽(品牌詞),即統(tǒng)一一個最合適的品牌詞作為該商品的第二數(shù)據(jù)標(biāo)簽,如統(tǒng)一使用“紐巴倫”作為該商品的第二數(shù)據(jù)標(biāo)簽。
[0082]步驟S408,根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全。
[0083]如果一數(shù)據(jù)對象僅僅抽取出了第一數(shù)據(jù)標(biāo)簽而未抽取出第二數(shù)據(jù)標(biāo)簽,即第二數(shù)據(jù)標(biāo)簽缺失的情形,并且,抽取的第一數(shù)據(jù)標(biāo)簽,完全能與同一類目的線下挖掘的第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽映射表中的第一數(shù)據(jù)標(biāo)簽相匹配,則從該線下挖掘的第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽映射表中獲取該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽,以用于將該數(shù)據(jù)對象聚合到相應(yīng)的同一類數(shù)據(jù)對象的集合中,進(jìn)一步地,可以將該第二數(shù)據(jù)標(biāo)簽寫入該缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象中。
[0084]步驟S410,基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽?;谂渲玫囊?guī)則在數(shù)據(jù)文件的標(biāo)題信息、屬性信息等內(nèi),抽取數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽。例如,配置正則表達(dá)式抽取某數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽。
[0085]步驟S412,對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理。譬如,一個數(shù)據(jù)對象中包含相同的數(shù)據(jù)編號,如“1110”,和不同的子編號如“001”、“002”,則將子編號去除,以達(dá)到第一數(shù)據(jù)標(biāo)簽的歸一化:將“ 1110-001”和“ 1110-002”歸一化至“ 1110”下,或一并歸一化至相同的第一數(shù)據(jù)標(biāo)簽下“ 1110-001 ”。
[0086]以搜索海量數(shù)據(jù)對象的商品搜索為例,數(shù)據(jù)對象商品中抽取的第一數(shù)據(jù)標(biāo)簽如:貨號,基于分隔符切分,貨號“537889-001”基于切分為“537889”和“001”兩部分,將主貨號即前面的“ 537889 ”視為歸一化后的貨號。
[0087]步驟S414,第一數(shù)據(jù)標(biāo)簽同義詞歸一化。在第一數(shù)據(jù)標(biāo)簽歸一化處理后,基于線下挖掘的第一數(shù)據(jù)標(biāo)簽同義詞表,將抽取的數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽進(jìn)行改寫,統(tǒng)一為一個第一數(shù)據(jù)標(biāo)簽。譬如,當(dāng)?shù)谝粩?shù)據(jù)標(biāo)簽“1110”在第二數(shù)據(jù)標(biāo)簽類目分布表中出現(xiàn)過500次,該第一數(shù)據(jù)標(biāo)簽“1110”的同義詞“1111”在數(shù)據(jù)對象的類目分布表中出現(xiàn)20次,則可以將第一數(shù)據(jù)標(biāo)簽“1111”更改為第一數(shù)據(jù)標(biāo)簽“1110”。
[0088]線上操作基于線下數(shù)據(jù)挖掘的各個表,將各個數(shù)據(jù)對象基于其數(shù)據(jù)標(biāo)簽中最經(jīng)常存在的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,進(jìn)行整合,將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化,根據(jù)第二數(shù)據(jù)標(biāo)簽表、第二數(shù)據(jù)標(biāo)簽同義詞表、第一數(shù)據(jù)標(biāo)簽同義詞表、第二數(shù)據(jù)標(biāo)簽類目分布表、第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽映射表,確定在某一類目下,哪些數(shù)據(jù)對象應(yīng)當(dāng)整合為同類數(shù)據(jù)對象,并統(tǒng)一其第二數(shù)據(jù)標(biāo)簽和第一數(shù)據(jù)標(biāo)簽,以便于搜索匹配。
[0089]根據(jù)線下的數(shù)據(jù)挖掘,和線上的歸一化、補(bǔ)全處理,可以得到數(shù)據(jù)對象、第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽這三者之間的映射關(guān)系,能形成數(shù)據(jù)對象映射關(guān)系表,以便在數(shù)據(jù)搜索時,根據(jù)該數(shù)據(jù)對象映射關(guān)系表搜索同類數(shù)據(jù)對象。
[0090]步驟S204,存儲預(yù)先整合得到的數(shù)據(jù)對象映射關(guān)系表。該存儲包括存儲通過線下挖掘和線上補(bǔ)全歸一化后得到的整合后的數(shù)據(jù)對象映射關(guān)系表于數(shù)據(jù)庫中。
[0091]在對數(shù)據(jù)對象的預(yù)先整合處理過程中,形成第二數(shù)據(jù)標(biāo)簽表、第二數(shù)據(jù)標(biāo)簽類目分布表、第二數(shù)據(jù)標(biāo)簽同義詞表、第一數(shù)據(jù)標(biāo)簽同義詞表、第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽映射表,并將所述的各種表(集合)作為預(yù)整合處理的結(jié)果存儲于數(shù)據(jù)庫中,這樣,能在數(shù)據(jù)搜索中隨時調(diào)用,以提高系統(tǒng)運(yùn)算速度。
[0092]通過本申請的對數(shù)據(jù)對象進(jìn)行預(yù)先整合的方法,將同類數(shù)據(jù)對象之間建立關(guān)聯(lián),并在搜索結(jié)果中展示出同類數(shù)據(jù)對象,可以提供更全面的數(shù)據(jù)供用戶使用,提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,從而提升了搜索結(jié)果的質(zhì)量。
[0093]本申請還提供了一種基于同類數(shù)據(jù)整合的數(shù)據(jù)搜索的裝置。
[0094]如圖5所示,為本申請實施例的基于同類數(shù)據(jù)整合的數(shù)據(jù)搜索的裝置結(jié)構(gòu)圖。
[0095]在根據(jù)本申請所述的裝置500中,可以包括接收與搜索模塊501,獲取模塊503、匹配模塊505、整合與返回模塊507。各個模塊對應(yīng)上述方法的各個步驟的實施。
[0096]其中,接收與搜索模塊501,用于接收來自用戶的搜索請求,并執(zhí)行搜索,其中,所述搜索請求用于在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象。
[0097]獲取模塊503,用于通過分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個數(shù)據(jù)對象,獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽,其中,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。那么,所述獲取模塊503可以用于獲取每一個所述數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽和/或第二數(shù)據(jù)標(biāo)簽。
[0098]匹配模塊505,用于根據(jù)獲取的所述數(shù)據(jù)標(biāo)簽(第一數(shù)據(jù)標(biāo)簽和/或所述第二數(shù)據(jù)標(biāo)簽)進(jìn)行匹配,即,對搜索到的一個或多個數(shù)據(jù)對象中的每一個數(shù)據(jù)對象做進(jìn)一步匹配,以獲得與所述每一個數(shù)據(jù)對象對應(yīng)的一個或多個同類數(shù)據(jù)對象。
[0099]整合與返回模塊507,用于將所述數(shù)據(jù)標(biāo)簽(第一數(shù)據(jù)標(biāo)簽和/或所述第二數(shù)據(jù)標(biāo)簽)相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。其中,所述同類數(shù)據(jù)組合包括:互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象,在搜索結(jié)果頁中,可以展示所述同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個。
[0100]在本申請所述的裝置500中,還包括預(yù)處理模塊509和存儲模塊511。
[0101]其中,預(yù)處理模塊509,用于對所有待搜索的數(shù)據(jù)對象進(jìn)行預(yù)先整合處理,確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,以得到數(shù)據(jù)對象映射關(guān)系表。
[0102]具體而言,該預(yù)處理模塊509對所有待搜索的數(shù)據(jù)對象進(jìn)行線下的數(shù)據(jù)挖掘和線上的數(shù)據(jù)對象歸一化和映射。
[0103]在進(jìn)行線下的數(shù)據(jù)挖掘時,所述預(yù)處理模塊509可以對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理。
[0104]所述預(yù)處理模塊509可以對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合。其中,所述第二數(shù)據(jù)標(biāo)簽同義詞包括:相同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
[0105]所述預(yù)處理模塊509可以對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合。其中,所述第一數(shù)據(jù)標(biāo)簽同義詞包括:同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽。
[0106]所述預(yù)處理模塊509可以對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。具體而言,如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且該第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn),則建立該第一數(shù)據(jù)標(biāo)簽與該第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
[0107]在進(jìn)行線上的數(shù)據(jù)對象歸一化和映射時,該預(yù)處理模塊509被配置成:抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽,并對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧。進(jìn)一步地,基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取所述候選第二數(shù)據(jù)標(biāo)簽在該類目中出現(xiàn)的次數(shù),若次數(shù)大于預(yù)設(shè)的閾值,則認(rèn)為是該數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。在另一種實施例中,若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多的一個所述第二數(shù)據(jù)標(biāo)簽作為所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
[0108]預(yù)處理模塊509還被配置成:基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽,并對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理;將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化;根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全。
[0109]該預(yù)處理模塊509目的在于對所有待搜索的數(shù)據(jù)對象(海量數(shù)據(jù)對象)進(jìn)行預(yù)先的整合處理,以得到同類數(shù)據(jù)對象,所述同類數(shù)據(jù)對象包括在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。并且,在預(yù)先整合處理的過程中,能夠得到數(shù)據(jù)對象、第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,形成數(shù)據(jù)對象映射關(guān)系表。
[0110]存儲模塊511,用于存儲預(yù)先整合得到的數(shù)據(jù)對象映射關(guān)系表。在進(jìn)行數(shù)據(jù)搜索時,可以通過該數(shù)據(jù)對象映射關(guān)系表,直接匹配出與搜索到的數(shù)據(jù)對象對應(yīng)的同類數(shù)據(jù)對象。
[0111]所以,利用數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽、第二數(shù)據(jù)標(biāo)簽等重要特征/屬性,預(yù)先對海量數(shù)據(jù)對象進(jìn)行分類整合,并在同類數(shù)據(jù)對象之間建立關(guān)聯(lián),提高了數(shù)據(jù)搜索的準(zhǔn)確性和返回率,從而提升了搜索結(jié)果的質(zhì)量。
[0112]并且,將搜索引擎返回的多個同類數(shù)據(jù)對象進(jìn)行整合處理,并可以在搜索結(jié)果頁中只展示該多個同類數(shù)據(jù)對象中的一個,使搜索結(jié)果頁展示更多種類的數(shù)據(jù)對象,增加了搜索結(jié)果的多樣性,用戶體驗較好。
[0113]由于圖5所描述的本申請的裝置所包括的各個模塊的【具體實施方式】與本申請的方法中的步驟的【具體實施方式】是相對應(yīng)的,由于已經(jīng)對圖1-圖4進(jìn)行了詳細(xì)的描述,所以為了不模糊本申請,在此不再對各個模塊的具體細(xì)節(jié)進(jìn)行描述。
[0114]本說明書中的各個實施例一般采用遞進(jìn)的方式描述,每個實施例重點(diǎn)說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
[0115]本申請可以在由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊或單元。一般地,程序模塊或單元可以包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。一般來說,程序模塊或單元可以由軟件、硬件或兩者的結(jié)合來實現(xiàn)。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊或單元可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。
[0116]最后,還需要說明的是,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
[0117]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機(jī)可用程序代碼的計算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機(jī)程序產(chǎn)品的形式。
[0118]本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其主要思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在【具體實施方式】及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
[0119]在一個典型的配置中,計算設(shè)備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。內(nèi)存可能包括計算機(jī)可讀介質(zhì)中的非永久性存儲器,隨機(jī)存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內(nèi)存是計算機(jī)可讀介質(zhì)的示例。
[0120]計算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機(jī)的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、動態(tài)隨機(jī)存取存儲器(DRAM)、其他類型的隨機(jī)存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學(xué)存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設(shè)備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設(shè)備訪問的信息。按照本文中的界定,計算機(jī)可讀介質(zhì)不包括非暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
【權(quán)利要求】
1.一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的方法,其特征在于,包括: 接收來自用戶的搜索請求,在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象; 分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個,以獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽; 對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配; 將所述數(shù)據(jù)標(biāo)簽相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,還包括:對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,以確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,以得到數(shù)據(jù)對象映射關(guān)系表。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,包括: 對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理; 對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合; 對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合; 對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于, 所述第二數(shù)據(jù)標(biāo)簽同義詞包括:相同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象; 所述第一數(shù)據(jù)標(biāo)簽同義詞包括:同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,包括:如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且所述第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn),則建立所述第一數(shù)據(jù)標(biāo)簽與所述第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
7.根據(jù)權(quán)利要求3所述的方法,其特征在于,對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,包括: 抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽,并對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧; 基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽,并對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理; 將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化; 根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧,包括: 基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取所述候選第二數(shù)據(jù)標(biāo)簽在所述類目中出現(xiàn)的次數(shù),若次數(shù)大于預(yù)設(shè)的閾值,則認(rèn)為是所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽;和/或,若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多的一個所述第二數(shù)據(jù)標(biāo)簽作為所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
9.如權(quán)利要求1所述的方法,其特征在于,包括: 在搜索結(jié)果頁中,展示所述同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個,其中,所述同類數(shù)據(jù)組合包括:互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象。
10.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述同類數(shù)據(jù)對象包括:在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
11.一種基于對同類數(shù)據(jù)對象整合的數(shù)據(jù)搜索的裝置,其特征在于,包括: 接收與搜索模塊,用于接收來自用戶的搜索請求,在所有待搜索的數(shù)據(jù)對象中搜索與所述搜索請求相匹配的一個或多個數(shù)據(jù)對象; 獲取模塊,用于分析搜索到的所述一個或多個數(shù)據(jù)對象中的每一個,以獲取每一個所述數(shù)據(jù)對象的數(shù)據(jù)標(biāo)簽; 匹配模塊,用于對獲取的所述數(shù)據(jù)標(biāo)簽進(jìn)行匹配; 整合與返回模塊,用于將所述數(shù)據(jù)標(biāo)簽相匹配的一個或多個數(shù)據(jù)對象整合為同類數(shù)據(jù)對象組合,并作為搜索結(jié)果返回至用戶。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述數(shù)據(jù)標(biāo)簽包括第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽,第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽分別標(biāo)識數(shù)據(jù)對象不同的屬性特征。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括: 預(yù)處理模塊,用于對所有待搜索的數(shù)據(jù)對象,預(yù)先整合處理,以確定每一個所述待搜索的數(shù)據(jù)對象相對應(yīng)的一個或多個同類數(shù)據(jù)對象,以得到數(shù)據(jù)對象映射關(guān)系表。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述預(yù)處理模塊還被配置成: 對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽以及第二數(shù)據(jù)標(biāo)簽類目分布表進(jìn)行挖掘處理; 對各數(shù)據(jù)對象中的第二數(shù)據(jù)標(biāo)簽進(jìn)行第二數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽同義詞的集合; 對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽進(jìn)行第一數(shù)據(jù)標(biāo)簽挖掘,生成所有數(shù)據(jù)對象的第一數(shù)據(jù)標(biāo)簽同義詞集合; 對各數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽和第二數(shù)據(jù)標(biāo)簽進(jìn)行挖掘,生成第一數(shù)據(jù)標(biāo)簽至第二數(shù)據(jù)標(biāo)簽的映射關(guān)系; 如果一數(shù)據(jù)對象僅有一個第一數(shù)據(jù)標(biāo)簽且所述第一數(shù)據(jù)標(biāo)簽僅與唯一的第二數(shù)據(jù)標(biāo)簽存在共現(xiàn),則建立所述第一數(shù)據(jù)標(biāo)簽與所述第二數(shù)據(jù)標(biāo)簽的映射關(guān)系。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述第二數(shù)據(jù)標(biāo)簽同義詞包括:相同類目下,具有不同第二數(shù)據(jù)標(biāo)簽且具有相同第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象;所述第一數(shù)據(jù)標(biāo)簽同義詞包括:同一數(shù)據(jù)對象中的多個相似的第一數(shù)據(jù)標(biāo)簽。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述預(yù)處理模塊還被配置成: 抽取同一數(shù)據(jù)對象中的一個或多個第二數(shù)據(jù)標(biāo)簽,以得到一個或多個候選第二數(shù)據(jù)標(biāo)簽,并對抽取的一個或多個候選第二數(shù)據(jù)標(biāo)簽進(jìn)行消歧; 基于配置的規(guī)則,抽取多個數(shù)據(jù)對象中的第一數(shù)據(jù)標(biāo)簽,并對抽取的多個第一數(shù)據(jù)標(biāo)簽歸一化處理; 將互為同義詞的第二數(shù)據(jù)標(biāo)簽或第一數(shù)據(jù)標(biāo)簽進(jìn)行歸一化; 根據(jù)構(gòu)建的第一數(shù)據(jù)標(biāo)簽與第二數(shù)據(jù)標(biāo)簽的映射關(guān)系,對缺少第二數(shù)據(jù)標(biāo)簽的數(shù)據(jù)對象,進(jìn)行第二數(shù)據(jù)標(biāo)簽補(bǔ)全; 基于第二數(shù)據(jù)標(biāo)簽的類目分布表,獲取所述候選第二數(shù)據(jù)標(biāo)簽在所述類目中出現(xiàn)的次數(shù),若次數(shù)大于預(yù)設(shè)的閾值,則認(rèn)為是所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽;和/或 若一數(shù)據(jù)對象出現(xiàn)多個候選第二數(shù)據(jù)標(biāo)簽,則選擇在第二數(shù)據(jù)標(biāo)簽類目分布表中,出現(xiàn)次數(shù)最多的一個所述第二數(shù)據(jù)標(biāo)簽作為所述數(shù)據(jù)對象的第二數(shù)據(jù)標(biāo)簽。
17.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述整合與返回模塊還被配置成: 在搜索結(jié)果頁中,展示所述同類數(shù)據(jù)組合中的多個數(shù)據(jù)對象的其中一個,其中,所述同類數(shù)據(jù)組合包括:互為同類數(shù)據(jù)對象的多個數(shù)據(jù)對象; 所述同類數(shù)據(jù)對象包括:在相同類目下,具有相同或同義的第二數(shù)據(jù)標(biāo)簽并且具有相同或同義的第一數(shù)據(jù)標(biāo)簽的多個數(shù)據(jù)對象。
【文檔編號】G06F17/30GK104166651SQ201310182427
【公開日】2014年11月26日 申請日期:2013年5月16日 優(yōu)先權(quán)日:2013年5月16日
【發(fā)明者】郎皓, 歐海峰, 張丙奇, 孫健 申請人:阿里巴巴集團(tuán)控股有限公司