本發(fā)明涉及計算機網(wǎng)絡(luò)
技術(shù)領(lǐng)域:
,具體涉及一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法和系統(tǒng)。
背景技術(shù):
:標(biāo)簽(Tag)是一種用戶/商品特征的符號表示。例如年齡段標(biāo)簽:25~35歲,地域標(biāo)簽:西安。標(biāo)簽呈現(xiàn)出兩個重要特征,語義化和短文本。前者表示人能很方便地理解每個標(biāo)簽含義,后者表示標(biāo)簽本身無需再做過多文本分析等預(yù)處理工作。標(biāo)簽管理平臺則是創(chuàng)建和管理標(biāo)簽的系統(tǒng),它能夠進行標(biāo)簽的增加、刪除、更新、查找以及標(biāo)簽權(quán)限管理。用戶屬性(UserProfile)就是對用戶標(biāo)簽化,通過多個維度的標(biāo)簽描述用戶的整體特征,可涵蓋基本屬性、社交屬性、興趣愛好、消費能力、信用等。用戶屬性系統(tǒng)則是基于不同的維度為每個用戶產(chǎn)生一個標(biāo)簽集合,同時定期或?qū)崟r更新這個標(biāo)簽集合的系統(tǒng)。標(biāo)簽管理平臺和用戶屬性系統(tǒng)是數(shù)據(jù)管理平臺(英文全稱:DataManagementPlatform,英文簡稱:DMP)兩個核心子系統(tǒng)。用戶屬性/標(biāo)簽是高附加值的數(shù)據(jù),可以看成數(shù)據(jù)在商業(yè)價值體系下的重定義,是精確營銷和個性化應(yīng)用的前提。一個標(biāo)簽實際上表示了從數(shù)據(jù)挖掘出的知識,不同標(biāo)簽描述數(shù)據(jù)的方面不同,因此標(biāo)簽具有碎片化的特征。隨著標(biāo)簽數(shù)目的增大,如何有效組織和管理標(biāo)簽從而滿足人們使用、查找、更新標(biāo)簽等需求已成為當(dāng)前DMP遇到的瓶頸問題之一?,F(xiàn)有的標(biāo)簽系統(tǒng)是通過標(biāo)簽樹(Tagtree)組織管理的,標(biāo)簽樹有時也稱為標(biāo)簽分類樹。這個樹結(jié)構(gòu)中葉子節(jié)點表示標(biāo)簽,非葉子節(jié)點表示標(biāo)簽分類的維度信息。例如圖1描述一顆標(biāo)簽樹,它包含9個標(biāo)簽{中低端手機用戶,中高端手機用戶,高端手機用戶,低額度信用卡用戶,中額度信用卡用戶,高額度信用卡用戶,實用型,時尚型,體驗型};這9個標(biāo)簽來自三個維度{手機類型,用戶信用卡等級,購物消費類型};這三個維度的上一層是根節(jié)點,表示 標(biāo)簽分類的入口。從標(biāo)簽樹的定義可知,屬于不同維度間的標(biāo)簽是相互獨立的,不存在關(guān)聯(lián)。實踐發(fā)現(xiàn),隨著標(biāo)簽樹目的急劇增大,采用傳統(tǒng)標(biāo)簽樹組織和管理標(biāo)簽的方法,由于效率不高,已經(jīng)遠遠不能滿足人們使用標(biāo)簽的需要。例如標(biāo)簽樹中可能包含大量的標(biāo)簽,通常一個人只能記住少量的標(biāo)簽,當(dāng)用戶需要通過檢索標(biāo)簽查找特定分類的用戶時,不知道有哪些標(biāo)簽可以表征該特定分類的用戶,就需要通過查看標(biāo)簽樹來查詢,但由于屬于不同維度間的標(biāo)簽沒有關(guān)聯(lián)性,需要花費很多的精力才能找到需要的標(biāo)簽,導(dǎo)致查詢使用的效率很低。技術(shù)實現(xiàn)要素:本發(fā)明實施例提供一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法和系統(tǒng),以提高標(biāo)簽的使用效率。本發(fā)明第一方面提供一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法,該方法主要包括以下內(nèi)容:首先,計算機系統(tǒng)例如數(shù)據(jù)管理平臺(DMP),獲取標(biāo)簽集合和所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集,標(biāo)簽集合是指至少兩個標(biāo)簽構(gòu)成的集合,數(shù)據(jù)集是指至少兩個樣本的數(shù)據(jù)構(gòu)成的集合,樣本是指用戶或者商品等,標(biāo)簽集合對應(yīng)的數(shù)據(jù)集是指標(biāo)簽集合中的至少兩個標(biāo)簽分別對應(yīng)的多個樣本的數(shù)據(jù)構(gòu)成的集合;然后,根據(jù)標(biāo)簽和樣本數(shù)據(jù)的對應(yīng)關(guān)系,從所述數(shù)據(jù)集中,獲取每個標(biāo)簽對應(yīng)的樣本集合,樣本集合是數(shù)據(jù)集的子集,是數(shù)據(jù)集中中對應(yīng)于同一個標(biāo)簽的多個樣本的數(shù)據(jù)構(gòu)成的集合;其次,計算標(biāo)簽之間的關(guān)聯(lián)度,具體的,本文中采用統(tǒng)計方法計算任意兩個標(biāo)簽分別對應(yīng)的兩個樣本集合間的關(guān)聯(lián)系數(shù),該關(guān)聯(lián)系數(shù)可以表示所述兩個標(biāo)簽間的關(guān)聯(lián)度,關(guān)聯(lián)度越高表示這兩個標(biāo)簽表征的樣本越趨近于同類;再次,根據(jù)計算得到的關(guān)聯(lián)系數(shù)建立標(biāo)簽網(wǎng)絡(luò),具體的,可以在兩個樣本集合間的關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件時,在所述兩個樣本集合對應(yīng)的兩個標(biāo)簽之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò);所述標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,可被用于在標(biāo)簽查詢時獲取一個或多個與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。其中,產(chǎn)生的標(biāo)簽網(wǎng)絡(luò)可用于提高標(biāo)簽使用效率,例如,由于精確營銷或其它需求而需要查找特定的目標(biāo)用戶群時,可以根據(jù)該標(biāo)簽網(wǎng)絡(luò)進行用戶查 詢,包括:首先,給定用來表征該目標(biāo)用戶群的若干個標(biāo)簽,對給定的若干個標(biāo)簽,由于標(biāo)簽網(wǎng)絡(luò)中建立了標(biāo)簽間的連接,可以查詢得到與所述若干個標(biāo)簽的關(guān)聯(lián)系數(shù)在一個預(yù)設(shè)范圍內(nèi)的大量相關(guān)聯(lián)的標(biāo)簽,可以認為查詢得到大量相關(guān)聯(lián)的標(biāo)簽夠也能夠用來表征所述目標(biāo)用戶群,于是,根據(jù)給定的標(biāo)簽和查詢到的相關(guān)聯(lián)的標(biāo)簽,從用戶數(shù)據(jù)庫中查詢用戶,就可以得到對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率??梢?,上述技術(shù)方案提供了一種可以高效的組織和管理碎片化標(biāo)簽的機制,可以有效提高標(biāo)簽的使用和管理效率,包括提高標(biāo)簽的查詢效率等。本發(fā)明第二方面提供一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng),該系統(tǒng)主要包括以下功能模塊:獲取模塊,計算模塊,以及連接模塊;其中,獲取模塊可用于獲取標(biāo)簽集合和所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集,以及,從所述數(shù)據(jù)集中,獲取每個標(biāo)簽對應(yīng)的樣本集合;計算模塊,可用于采用統(tǒng)計方法計算任意兩個標(biāo)簽分別對應(yīng)的兩個樣本集合間的關(guān)聯(lián)系數(shù);連接模塊,可用于在所述兩個樣本集合間的關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件時,在所述兩個樣本集合分別對應(yīng)的兩個標(biāo)簽之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò)。其中,標(biāo)簽集合是指至少兩個標(biāo)簽構(gòu)成的集合,數(shù)據(jù)集是指至少兩個樣本的數(shù)據(jù)構(gòu)成的集合,樣本可以是指用戶或者商品等,標(biāo)簽集合對應(yīng)的數(shù)據(jù)集是指標(biāo)簽集合中的至少兩個標(biāo)簽分別對應(yīng)的多個樣本的數(shù)據(jù)構(gòu)成的集合;樣本集合是數(shù)據(jù)集的子集,是數(shù)據(jù)集中中對應(yīng)于同一個標(biāo)簽的多個樣本的數(shù)據(jù)構(gòu)成的集合;關(guān)聯(lián)系數(shù)可以表示兩個標(biāo)簽間的關(guān)聯(lián)度,關(guān)聯(lián)度越高表示這兩個標(biāo)簽表征的樣本越趨近于同類;標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,可被用于在標(biāo)簽查詢時獲取一個或多個與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。該系統(tǒng)產(chǎn)生的標(biāo)簽網(wǎng)絡(luò)可用于提高標(biāo)簽使用效率,具體如上文所述。本發(fā)明第三方面提供一種計算機設(shè)備,所述計算機設(shè)備包括處理器、存儲器、總線和通信接口;所述存儲器用于存儲程序,所述程序包括計算機執(zhí)行指令,所述處理器與所述存儲器通過所述總線連接,當(dāng)所述計算機設(shè)備運行時,所述處理器執(zhí)行所述存儲器存儲的所述程序,以使所述計算機設(shè)備執(zhí)行如本發(fā) 明第一方面所述的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法??梢姡撚嬎銠C設(shè)備可用于實施上述方法,并取得上述方法取得的技術(shù)效果。本發(fā)明第四方面提供一種存儲一個或多個程序的計算機可讀存儲介質(zhì),所述一個或多個程序包括指令,所述指令當(dāng)被包括一個或多個處理器的計算機設(shè)備執(zhí)行時,使所述計算機設(shè)備執(zhí)行如本發(fā)明第一方面所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法,并取得上述方法取得的技術(shù)效果。本發(fā)明第五方面提供一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法,所述標(biāo)簽網(wǎng)絡(luò)是采用本發(fā)明第一方面所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法主要包括:首先,計算機系統(tǒng)例如數(shù)據(jù)管理平臺(DMP),接收包括待查找標(biāo)簽的查詢請求,所述查詢請求用于查找所述待查找標(biāo)簽表征的目標(biāo)用戶群;從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個關(guān)聯(lián)標(biāo)簽;需要說明,所述待查找標(biāo)簽與所述至少一個關(guān)聯(lián)標(biāo)簽,都用來表征目標(biāo)用戶群;然后,就可以根據(jù)所述待查找標(biāo)簽和所述至少一個關(guān)聯(lián)標(biāo)簽查詢用戶數(shù)據(jù)庫,找出對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率。本發(fā)明第六方面提供一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置,所述標(biāo)簽網(wǎng)絡(luò)是采用本發(fā)明第一方面所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置主要包括以下功能模塊:接收模塊,標(biāo)簽查找模塊,以及,用戶查找模塊;其中,接收模塊,可用于接收包括待查找標(biāo)簽的查詢請求,所述查詢請求用于查找所述待查找標(biāo)簽表征的目標(biāo)用戶群;所述標(biāo)簽查找模塊,用于從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個關(guān)聯(lián)標(biāo)簽;需要說明,所述待查找標(biāo)簽與所述至少一個關(guān)聯(lián)標(biāo)簽,都用來表征目標(biāo)用戶群;所述用戶查找模塊,可用于根據(jù)所述待查找標(biāo)簽和所述至少一個關(guān)聯(lián)標(biāo)簽查詢用戶數(shù)據(jù)庫,找出對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很 多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率。由上可見,在本發(fā)明的一些可行的實施方式中,提供了一種可以高效的組織和管理碎片化標(biāo)簽的機制,可以有效提高標(biāo)簽的使用和管理效率,包括提高標(biāo)簽的查詢效率等。附圖說明為了更清楚地說明本發(fā)明實施例技術(shù)方案,下面將對實施例和現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹。圖1是一顆標(biāo)簽樹的結(jié)構(gòu)示意圖;圖2是本發(fā)明一個實施例提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法的流程示意圖;圖3是本發(fā)明一個實施例中建立的標(biāo)簽網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖4是本發(fā)明一個實施例中建立的標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)的結(jié)構(gòu)示意圖;圖5a是本發(fā)明一個實施例提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng)的結(jié)構(gòu)示意圖;圖5b是本發(fā)明另一個實施例提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng)的結(jié)構(gòu)示意圖;圖6是本發(fā)明一個實施例提供的計算機設(shè)備的結(jié)構(gòu)示意圖;圖7是本發(fā)明一個實施例提供的基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法的流程示意圖;圖8是本發(fā)明一個實施例提供的基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用系統(tǒng)的結(jié)構(gòu)示意圖;圖9是本發(fā)明一個實施例提供的計算機設(shè)備的結(jié)構(gòu)示意圖。具體實施方式為了使本
技術(shù)領(lǐng)域:
的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述。本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第 三”等是用于區(qū)別不同的對象,而不是用于描述特定順序。此外,術(shù)語“包括”和“具有”以及它們?nèi)魏巫冃危鈭D在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對于這些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。貫穿本說明書,術(shù)語“標(biāo)簽”是一種樣本(例如用戶/商品)的特征的符號表示,或者說,所述標(biāo)簽是對所述樣本的屬性的數(shù)據(jù)表示。術(shù)語“標(biāo)簽集合”是指至少兩個標(biāo)簽形成的一個集合。術(shù)語“數(shù)據(jù)集”是指大量樣本數(shù)據(jù)的集合。標(biāo)簽集合中的所有標(biāo)簽對應(yīng)的所有樣本的數(shù)據(jù)的集合,稱為該標(biāo)簽集合對應(yīng)的數(shù)據(jù)集。其中,一個樣本可以指一個用戶,當(dāng)然,也可以是指商品或其它物體。術(shù)語“樣本集合”是指一個標(biāo)簽對應(yīng)的一個或多個樣本的數(shù)據(jù)的集合,樣本集合是數(shù)據(jù)集的子集。術(shù)語“標(biāo)簽樹(Tagtree)”是按照不同的分類對大量標(biāo)簽進行組織形成的一種分類樹,也稱為標(biāo)簽分類樹??梢圆捎脴?biāo)簽樹對標(biāo)簽集合中的所有標(biāo)簽進行組織管理。本發(fā)明實施例技術(shù)方案適用于數(shù)據(jù)管理平臺(英文全稱:DataManagementPlatform,英文簡稱:DMP)。DMP包括標(biāo)簽管理平臺(英文全稱:TagManagementPlatform,英文簡稱:TMP)和用戶屬性系統(tǒng)(英文全稱:Userprofilingsystem,英文簡稱:UPS)這兩個核心子系統(tǒng)。DMP是無縫整合跨不同接觸點的消費者數(shù)據(jù)的技術(shù),以幫助企業(yè)對何時及如何同每個用戶互動做出更好的決策。DMP能夠幫助企業(yè)實現(xiàn)統(tǒng)一客戶信息管理和共享,并與企業(yè)的營銷推薦系統(tǒng)有效集成,最終幫助客戶實現(xiàn)精準(zhǔn)營銷和個性推薦等差異化的客戶服務(wù)。DMP可以應(yīng)用在銀行,電信運營商,網(wǎng)購平臺等各種企業(yè)單位,用作對大量用戶數(shù)據(jù)進行管理的平臺。DMP可運行在通用的計算機系統(tǒng)中。DMP管理的大量標(biāo)簽以及對應(yīng)的大量數(shù)據(jù)(數(shù)據(jù)集)可以存儲在計算機系統(tǒng)的存儲介質(zhì)中,DMP運行時計算機系統(tǒng)的處理器可以對所存儲的大量標(biāo)簽及對應(yīng)的大量數(shù)據(jù)進行組織管理,并可 以通過顯示裝置顯示出來或通過通信接口傳送給其它裝置。標(biāo)簽作為DMP系統(tǒng)最基本的單位,是知識一種表示。但隨著標(biāo)簽的數(shù)目的急劇增大,采用傳統(tǒng)標(biāo)簽樹組織和管理標(biāo)簽的方法遠遠不能滿足人們使用標(biāo)簽的需要。通常一個人只能記住少量的標(biāo)簽,需要通過查看標(biāo)簽樹來查詢,但由于屬于不同維度間標(biāo)簽沒有關(guān)聯(lián)性,需要花費很多的精力才能找到需要的標(biāo)簽。例如,通過標(biāo)簽查找特點的目標(biāo)用戶群時,需要先找出表征該目標(biāo)用戶群的大量標(biāo)簽,這就需要用戶話費很多的精力在標(biāo)簽樹中進行查找。本發(fā)明的一個思路是通過建立標(biāo)簽間關(guān)聯(lián)來提高人們使用標(biāo)簽和管理標(biāo)簽的效率。標(biāo)簽間的關(guān)聯(lián)可以通過建立語義網(wǎng)絡(luò)(Semanticweb)來表示。語義網(wǎng)絡(luò)是一個有向圖,其頂點表示概念,而邊則表示這些概念(詞)間的語義關(guān)系。語義網(wǎng)絡(luò)用來表達復(fù)雜的概念及其之間的相互關(guān)系。產(chǎn)生語義網(wǎng)絡(luò)的方法主要有:(1)人工判斷,通過專家知識判斷兩個概念間的關(guān)系;(2)通過知識庫,例如通過近義詞、反義詞,概念層級等知識庫,建立兩個概念間的關(guān)系;(3)統(tǒng)計方法,通過從大規(guī)模文本語料中提取詞法模式,生成詞對-詞法模式矩陣,通過規(guī)律學(xué)習(xí)方法對隱含語義關(guān)系相似度進行計算。語義網(wǎng)絡(luò)是基于語義和文本信息建立的,難以實現(xiàn)自動化,且通常需要抓取額外的數(shù)據(jù)。因此,如何自動化和批量化建立標(biāo)簽間關(guān)聯(lián)就成為提高使用標(biāo)簽效率的關(guān)鍵。本發(fā)明結(jié)合語義網(wǎng)絡(luò)技術(shù),提出一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法以及基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法,以實現(xiàn)自動化和批量化建立標(biāo)簽間關(guān)聯(lián),以及提高標(biāo)簽的使用和管理效率。下面通過具體實施例,分別進行詳細的說明。(實施例一、)請參考圖2,本發(fā)明一個實施例提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法,該方法可包括:210、獲取標(biāo)簽集合和所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集。其中,所述標(biāo)簽集合包括至少兩個標(biāo)簽,所述數(shù)據(jù)集包括所述至少兩個標(biāo)簽分別對應(yīng)的多個樣本的數(shù)據(jù)。本發(fā)明的一個目的在于,對一個已有的標(biāo)簽集合,在其標(biāo)簽間建立關(guān)聯(lián)。 所說的標(biāo)簽集合包括至少兩個標(biāo)簽,產(chǎn)生該標(biāo)簽集合的數(shù)據(jù)構(gòu)成一數(shù)據(jù)集。該標(biāo)簽集合具體可以是標(biāo)簽樹或者其它任意的標(biāo)簽組織形式。本文中以標(biāo)簽樹為例進行說明,但并不對標(biāo)簽集合的具體形式構(gòu)成限定。例如圖1所示,是一個標(biāo)簽樹的示意圖,該標(biāo)簽樹具有一個根節(jié)點,根節(jié)點下具有多級節(jié)點,其中,每個葉子節(jié)點表示一個標(biāo)簽,每個非葉子節(jié)點表示一個維度。例如圖1描述的一顆標(biāo)簽樹,它包含9個標(biāo)簽{中低端手機用戶,中高端手機用戶,高端手機用戶,低額度信用卡用戶,中額度信用卡用戶,高額度信用卡用戶,實用型,時尚型,體驗型};這9個標(biāo)簽來自三個維度{手機類型,用戶信用卡等級,購物消費類型};這三個維度的上一層是根節(jié)點,表示標(biāo)簽分類的入口。圖1所示的標(biāo)簽樹樹一共包括三級節(jié)點,但是,標(biāo)簽樹并不限于三級節(jié)點,也可以包括四級乃至更多級節(jié)點,無論標(biāo)簽樹節(jié)點級數(shù)的多少,其葉子節(jié)點(即最低一級、不再有子節(jié)點的節(jié)點)表示標(biāo)簽,非葉子節(jié)點(即自身有子節(jié)點的節(jié)點)表示維度,此時,可能有多級維度。220、從所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集中,獲取每個標(biāo)簽對應(yīng)的樣本集合。其中,所述樣本集合是所述數(shù)據(jù)集中對應(yīng)于同一個標(biāo)簽的多個樣本的數(shù)據(jù)的集合。由于標(biāo)簽無論由規(guī)則產(chǎn)生還是算法產(chǎn)生,它都對應(yīng)著一個樣本集合,該樣本集合是標(biāo)簽集合對應(yīng)的全體數(shù)據(jù)集的一個子集。以針對一個用戶群產(chǎn)生的標(biāo)簽樹為例,該用戶群的數(shù)據(jù)集合為該標(biāo)簽樹對應(yīng)的數(shù)據(jù)集,其中一個標(biāo)簽對應(yīng)的部分用戶的數(shù)據(jù)集合為該標(biāo)簽對應(yīng)的樣本集合。具體的,可以根據(jù)每個標(biāo)簽的產(chǎn)生規(guī)則或產(chǎn)生算法模型,從所述數(shù)據(jù)集中獲取對應(yīng)的樣本集合,所述樣本集合是所述數(shù)據(jù)集的子集。230、采用統(tǒng)計方法計算任意兩個標(biāo)簽A和B分別對應(yīng)的兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB。其中,所述關(guān)聯(lián)系數(shù)ρAB表示所述兩個標(biāo)簽A和B間的關(guān)聯(lián)度。兩個標(biāo)簽在語義上的關(guān)聯(lián)性可以表示為兩個樣本集合的相關(guān)性問題。本文中,可以計算任兩個標(biāo)簽(例如標(biāo)簽A和B)對應(yīng)的兩個樣本集合(例如DA和 DB)間的關(guān)聯(lián)系數(shù)(本文中用ρAB標(biāo)識),作為所述任兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)。其中,可以通過統(tǒng)計方法計算所述關(guān)聯(lián)系數(shù)。該關(guān)聯(lián)系數(shù)也可以稱為關(guān)聯(lián)度。需要說明的是,對于標(biāo)簽樹中的同一維度下的標(biāo)簽,通常通過客戶分群聚類產(chǎn)生,即同一維度下的標(biāo)簽一般不會有重疊的用戶群,因此,一些實施例中,可以不計算標(biāo)簽樹中的同一緯度下的兩個標(biāo)簽之間的關(guān)聯(lián)系數(shù)。例如,請參考圖1,可以不計算在維度“用戶信用卡等級”下的三個標(biāo)簽{普卡用戶,金卡用戶,白金卡用戶}間的關(guān)聯(lián)系數(shù)。換句話說,當(dāng)標(biāo)簽集合是標(biāo)簽樹時,本步驟中可以僅計算分屬于不同維度的任兩個標(biāo)簽A和B分別對應(yīng)的兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB。240、在所述兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB滿足預(yù)設(shè)條件時,在所述兩個樣本集合DA和DB分別對應(yīng)的兩個標(biāo)簽A和B之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò)。其中,所述標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,被用于在標(biāo)簽查詢時獲取一個或多個與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。所說的預(yù)設(shè)條件例如可以是設(shè)定一個關(guān)聯(lián)系數(shù)閾值,當(dāng)兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)大于設(shè)定的關(guān)聯(lián)系數(shù)閾值時,在所述兩個標(biāo)簽間建立連接,以表現(xiàn)所述兩個標(biāo)簽間的關(guān)聯(lián)。所說的產(chǎn)生標(biāo)簽網(wǎng)絡(luò)可以是構(gòu)建無向圖,所述無向圖由多個頂點和用于連接頂點的邊構(gòu)成,其中每一個頂點表示一個標(biāo)簽,所述的邊為沒有方向的無向邊;所說的建立連接例如可以是建立一條無向邊,即,當(dāng)兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)大于設(shè)定的關(guān)聯(lián)系數(shù)閾值時,在所述無向圖中的表示所述兩個標(biāo)簽的兩個頂點間連接一條無向邊,并以所述兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)作為所述無向邊的權(quán)重。在所有具有關(guān)聯(lián)的標(biāo)簽間建立連接之后,所述標(biāo)簽集合的標(biāo)簽和標(biāo)簽之間建立的連接構(gòu)成一標(biāo)簽網(wǎng)絡(luò),該標(biāo)簽網(wǎng)絡(luò)的節(jié)點是標(biāo)簽,該標(biāo)簽網(wǎng)絡(luò)的無向邊表示兩個標(biāo)簽間存在關(guān)聯(lián),無向邊上的權(quán)重表示兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)。關(guān)聯(lián)系數(shù)通??梢允且粋€介于0到1之間的數(shù)。作為示例,假設(shè)將關(guān)聯(lián)系數(shù)閾值設(shè)為0.2,針對圖1所示標(biāo)簽樹中的9種標(biāo)簽,在關(guān)聯(lián)系數(shù)大于0.2的任兩個標(biāo)簽間建立連接,構(gòu)建起一個如圖3所示的的標(biāo)簽網(wǎng)絡(luò),其中每一條無向邊上給出了標(biāo)簽間的關(guān)聯(lián)系數(shù)作為權(quán)重。進一步的,若標(biāo)簽集合是標(biāo)簽樹,在構(gòu)建無向圖的過程中,可以以所述標(biāo)簽樹的葉子節(jié)點作為所述無向圖的頂點,從而使所述標(biāo)簽網(wǎng)絡(luò)和所述標(biāo)簽樹疊加在一起,構(gòu)成標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)。作為示例,圖4示出了一種標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò),它是圖1所示的標(biāo)簽樹和圖3所示的標(biāo)簽網(wǎng)絡(luò)的疊加,該標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)同時具有標(biāo)簽樹和語義網(wǎng)絡(luò)的優(yōu)點。特別的,某些場景中,所述標(biāo)簽集合可以僅包括兩個標(biāo)簽,此時,本發(fā)明實施例技術(shù)方案用于計算該兩個標(biāo)簽間的關(guān)聯(lián)系數(shù),以確定是否在該兩個標(biāo)簽間建立連接。產(chǎn)生的標(biāo)簽網(wǎng)絡(luò)可用于提高標(biāo)簽使用效率,例如,由于精確營銷或其它需求而需要查找特定的目標(biāo)用戶群時,可以根據(jù)該標(biāo)簽網(wǎng)絡(luò)進行用戶查詢,首先,給定用來表征該目標(biāo)用戶群的若干個標(biāo)簽,對給定的若干個標(biāo)簽,由于標(biāo)簽網(wǎng)絡(luò)中建立了標(biāo)簽間的連接,可以查詢得到與所述若干個標(biāo)簽的關(guān)聯(lián)系數(shù)在一個預(yù)設(shè)范圍內(nèi)的大量相關(guān)聯(lián)的標(biāo)簽,可以認為查詢得到大量相關(guān)聯(lián)的標(biāo)簽夠也能夠用來表征所述目標(biāo)用戶群,于是,根據(jù)給定的標(biāo)簽和查詢到的相關(guān)聯(lián)的標(biāo)簽,從用戶數(shù)據(jù)庫中查詢用戶,就可以得到對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率。可見,采用上述技術(shù)方案,使用標(biāo)簽時,可以通過標(biāo)簽間的關(guān)聯(lián)方便的查找更多需要的標(biāo)簽,從而提高標(biāo)簽使用效率;基于標(biāo)簽的關(guān)聯(lián),可以對標(biāo)簽實現(xiàn)更高效的組織管理;并且,該技術(shù)方案采用數(shù)據(jù)集相關(guān)性來構(gòu)建標(biāo)簽網(wǎng)絡(luò),不需要抓取額外的數(shù)據(jù),容易實現(xiàn)自動化和批量化處理,進一步實現(xiàn)標(biāo)簽的組織管理及使用效率。可以理解,本發(fā)明實施例上述方案例如可以在計算機設(shè)備具體實施。為便于更好的理解本發(fā)明實施例的技術(shù)方案,下面,對以下幾個方面:獲取每個標(biāo)簽對應(yīng)的樣本集合的方法,計算任兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)的方法,以及,在兩個標(biāo)簽之間建立連接的方法,做進一步的詳細說明。一、獲取每個標(biāo)簽對應(yīng)的樣本集合通常,可以采用產(chǎn)生規(guī)則或產(chǎn)生算法模型對樣本數(shù)據(jù)進行處理,產(chǎn)生用來表征樣本的標(biāo)簽。本發(fā)明實施例中,可以根據(jù)每個標(biāo)簽的產(chǎn)生規(guī)則或產(chǎn)生算法模型,從所述數(shù)據(jù)集中獲取對應(yīng)的樣本集合。通常,所述數(shù)據(jù)集包含多個樣本,其中每個樣本有多個變量。假定設(shè)數(shù)據(jù)集D有I個樣本和有J個變量{X1,…,XJ},I和J均為正整數(shù),則數(shù)據(jù)集D通??梢员硎緸槿缦碌木仃囆问剑簲?shù)據(jù)集D的矩陣表示中,每一個行表示一個樣本,每一列表示一個變量,其中,每個樣本具有J個變量(或者說維度)。通常標(biāo)簽有兩種方法產(chǎn)生:一種是通過規(guī)則如if-then(如果-則)規(guī)則產(chǎn)生;另一種是通過非if-then規(guī)則,通常是一個產(chǎn)生算法模型例如一個神經(jīng)網(wǎng)絡(luò)算法來產(chǎn)生。根據(jù)標(biāo)簽產(chǎn)生方法的不同,有不同的樣本集合獲取方法:(1)、一些實施例中,對于通過產(chǎn)生規(guī)則產(chǎn)生的標(biāo)簽,可以從所述數(shù)據(jù)集中查找所述產(chǎn)生規(guī)則涉及的變量集,遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對應(yīng)的樣本集合。具體流程可以包括:輸入:整個數(shù)據(jù)集D某個標(biāo)簽A的產(chǎn)生規(guī)則輸出:標(biāo)簽A對應(yīng)的樣本集合DA核心步驟:(1)找到規(guī)則所涉及到的變量集A={A1,…,Am},其中,m是一個不大于J的整數(shù)。(2)遍歷所有樣本,找到符合規(guī)則的樣本(假如一個樣本的某個變量落入上述的變量集A,則認為該樣本符合規(guī)則),假設(shè)滿足規(guī)則的樣本數(shù)目為r,不失一般性標(biāo)簽A對應(yīng)的樣本集合可以表示為:DA是D的一個子集,其變量集為{A1,…,Am},樣本數(shù)為r。(2)、一些實施例中,對于通過產(chǎn)生算法模型產(chǎn)生的標(biāo)簽,根據(jù)所述產(chǎn)生算法模型,進行敏感性分析,計算出所述數(shù)據(jù)集中每個變量的重要性指標(biāo),所述敏感性分析用于分析所述變量發(fā)生變化時對所述產(chǎn)生算法模型的影響程度,某個變量對產(chǎn)生算法模型的影響程度越大,則該變量的重要性指標(biāo)越高;找出重要性指標(biāo)大于設(shè)定的重要性閾值的變量集;遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對應(yīng)的樣本集合。具體流程可以包括:輸入:整個數(shù)據(jù)集D某個標(biāo)簽A的產(chǎn)生算法模型閾值δ∈[0,1],即重要性閾值輸出:標(biāo)簽A對應(yīng)的樣本集合DA核心步驟:(1)根據(jù)算法模型和敏感性分析計算出每個變量的重要性指標(biāo);(2)找出重要性指標(biāo)大于閾值δ的變量集A={A1,…,Am};(3)遍歷所有樣本,找到符合的樣本(假如一個樣本的某個變量落入上述的變量集A,則認為該樣本符合),假設(shè)符合的樣本數(shù)目為r,不失一般性標(biāo)簽A對應(yīng)的樣本集合可以表示為:DA是D的一個子集,其變量集為{A1,…,Am},樣本數(shù)為r。(3)、下面舉例說明,假設(shè)有兩個變量X1和X2,其中:X1:用戶1個月訪問(運營商)競爭對手網(wǎng)站使用的流量;X2:用戶訪問(運營商)競爭對手網(wǎng)站次數(shù);標(biāo)簽:潛在離網(wǎng)用戶;產(chǎn)生標(biāo)簽規(guī)則:如果X1>50MB且X2>30;則標(biāo)簽對應(yīng)樣本集合例如下表1所示。表1X1X280501003560405648其中,變量集為{X1,X2}。二、計算任兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)本發(fā)明實施例中,可以計算任意兩個標(biāo)簽例如A和B分別對應(yīng)的兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù),作為所述任兩個標(biāo)簽間的關(guān)聯(lián)系數(shù),關(guān)聯(lián)系數(shù)用ρAB來表示。通常,所述樣本集合可以表示為一個數(shù)據(jù)矩陣,所述樣本集合的的每一行表示一個樣本,所述樣本集合的每一列表示一個變量。一些實施例中,所述計算任兩個標(biāo)簽對應(yīng)的兩個樣本集合間的關(guān)聯(lián)系數(shù)的步驟,可以包括:根據(jù)任兩個標(biāo)簽對應(yīng)的兩個樣本集合,確定所述兩個標(biāo)簽對應(yīng)的兩個變量集;計算所述兩個變量集的交集;獲取所述交集中的任一個變量在所述兩個樣本集合中各自對應(yīng)的列,得到兩個列;采用統(tǒng)計方法計算所述兩個列的列間關(guān)聯(lián)系數(shù);根據(jù)得到的所述列間關(guān)聯(lián)系數(shù),計算所述兩個樣本集合間的關(guān)聯(lián)系數(shù)。具體流程可以包括:假設(shè)有兩個標(biāo)簽A和B,對應(yīng)的兩個樣本集合分別為DA和DB,其變量集分別表示為A={A1,…,Am}和B={B1,…,Bn},樣本數(shù)分別為r和s,變量數(shù)分別為m和n,且m和n均為正整數(shù),對應(yīng)的樣本集合可分別表示為:和計算標(biāo)簽A和B的關(guān)聯(lián)系數(shù)過程如下。輸入:標(biāo)簽A和B對應(yīng)的樣本集合DA和DB標(biāo)簽A和B對應(yīng)的變量集合{A1,…,Am}和{B1,…,Bn}輸出:標(biāo)簽A和B間的關(guān)聯(lián)系數(shù)ρAB核心步驟:(1)根據(jù)任兩個標(biāo)簽對應(yīng)的兩個樣本集合,確定所述兩個標(biāo)簽對應(yīng)的兩個變量集;計算所述兩個變量集的交集。例如,對于標(biāo)簽A和B,計算A和B對應(yīng)的兩個變量集A={A1,…,Am}和B={B1,…,Bn}交集,C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm}。其中,l是所述交集的變量數(shù),且l為正整數(shù)(2)獲取所述交集中的任一個變量在所述兩個樣本集合中各自對應(yīng)的列,得到兩個列。例如,對任意變量c∈{C1,…,Cl},獲取c在DA和DB中分別對應(yīng)的列,記為和(3)采用統(tǒng)計方法計算所述兩個列的列間關(guān)聯(lián)系數(shù),以計算和的關(guān)聯(lián)系數(shù)為例。●如果c是連續(xù)變量,可根據(jù)所述兩個列各自的樣本數(shù),平均值和標(biāo)準(zhǔn)方差,計算列間關(guān)聯(lián)系數(shù),例如,可以采用如下公式:其中且n1,M1,SD1分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;且n2,M2,SD2分別為的樣 本數(shù),平均值和標(biāo)準(zhǔn)方差?!袢绻鹀是分類變量,可根據(jù)兩個列各自的頻數(shù)分布和樣本數(shù),計算列間關(guān)聯(lián)系數(shù),例如,采用如下算法:計算和的頻數(shù)分布,分別記為f1,…,fN和g1,…,gN,其中N為變量c的類別數(shù);fi和gi分別是和的頻數(shù)分布中的第i個值,i為不小于1且不大于N的整數(shù);假設(shè)n1和n2分別為和的樣本數(shù),且n1>n2,計算公式為:其中采用上述算法,可以計算得到交集中的所有變量在所述兩個樣本集合中各自對應(yīng)的列的列間關(guān)聯(lián)系數(shù)。(4)計算DA和DB的關(guān)聯(lián)系數(shù)ρAB其中,m和n分別是樣本集合DA和DB的變量數(shù),均為正整數(shù)。可見,本步驟中,是對得到的所有的列間關(guān)聯(lián)系數(shù)求和,將求得的和分別除以所述兩個樣本集合的變量數(shù)得到兩個均值,所述兩個均值的和的一半即為所述兩個樣本集合間的關(guān)聯(lián)系數(shù)。需要說明的是,上述步驟(1)-(4)中的具體公式僅為示例,根據(jù)本發(fā)明的思想,可以參考上述公式得到其它公式,均應(yīng)涵蓋在本發(fā)明保護范圍之內(nèi)。三、在兩個標(biāo)簽之間建立連接本發(fā)明一些實施例中,可以用<V,E,W>表示標(biāo)簽網(wǎng)絡(luò),其中V表示標(biāo)簽(節(jié)點)的集合,E表示邊(即無向邊)的集合,W表示邊的權(quán)重。在這一步驟中,可以根據(jù)兩標(biāo)簽間的關(guān)聯(lián)系數(shù)和閾值構(gòu)建標(biāo)簽網(wǎng)絡(luò),其中,若標(biāo)簽集合 為標(biāo)簽樹,還可以結(jié)合標(biāo)簽樹,構(gòu)建標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)。構(gòu)建標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)的算法如下:輸入:任意兩個標(biāo)簽的關(guān)聯(lián)系數(shù)閾值θ∈[0,1],即關(guān)聯(lián)系數(shù)閾值標(biāo)簽分類樹T輸出:標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)<T,V,E,W>核心步驟:(1)判斷兩個標(biāo)簽A和B是否有連接:如果ρAB>θ,則標(biāo)簽A和B之間有連接,在標(biāo)簽A和B間連接一條邊,該邊可以是無向邊,并設(shè)定其權(quán)重為ρAB;否則標(biāo)簽A和B之間沒有連接,不建立無向邊。(2)重復(fù)上述過程,直到完成任意兩個標(biāo)簽間是否有連接的判斷,以及無向邊建立和權(quán)重設(shè)定,從而得到標(biāo)簽網(wǎng)絡(luò)<V,E,W>。例如圖3所示。(3)把網(wǎng)絡(luò)<V,E,W>疊加到標(biāo)簽分類樹T,生成標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)<T,V,E,W>。例如圖4所示。疊加方式可以是,以所述標(biāo)簽樹的葉子節(jié)點表示的標(biāo)簽作為頂點,在有連接的葉子節(jié)點之間連接一條邊,從而得到標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)。綜上,對本發(fā)明實施例提供的一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法進行詳細說明。該方法提供了一種組織和管理碎片化標(biāo)簽的機制,并提供了一種查詢關(guān)聯(lián)標(biāo)簽的能力。由上可見,在本發(fā)明的一些可行的實施方式中,公開了一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng),該技術(shù)方案通過計算標(biāo)簽間的關(guān)聯(lián)系數(shù),在關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件的兩個標(biāo)簽之間建立連接,產(chǎn)生一標(biāo)簽網(wǎng)絡(luò),該標(biāo)簽網(wǎng)絡(luò)能夠反映標(biāo)簽間的關(guān)聯(lián)關(guān)系,從而提供了一種可以高效的組織和管理碎片化標(biāo)簽的機制,可以有效提高標(biāo)簽的使用和管理效率,包括提高標(biāo)簽的查詢效率等。(實施例二、)為了更好的實施本發(fā)明實施例的上述方案,下面還提供用于配合實施上述方案的相關(guān)裝置。請參考圖5a,本發(fā)明一個實施例提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng)500,該系統(tǒng)500可包括:獲取模塊510,用于獲取標(biāo)簽集合和所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集;以及,從所述標(biāo)簽集合對應(yīng)的數(shù)據(jù)集中,獲取每個標(biāo)簽對應(yīng)的樣本集合;所述標(biāo)簽集合包括至少兩個標(biāo)簽,所述數(shù)據(jù)集包括所述至少兩個標(biāo)簽分別對應(yīng)的多個樣本的數(shù)據(jù);所述樣本集合是所述數(shù)據(jù)集中對應(yīng)于同一個標(biāo)簽的多個樣本的數(shù)據(jù)的集合;計算模塊520,用于采用統(tǒng)計方法計算任意兩個標(biāo)簽A和B分別對應(yīng)的兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB,所述關(guān)聯(lián)系數(shù)ρAB表示所述兩個標(biāo)簽A和B間的關(guān)聯(lián)度;連接模塊530,用于在所述兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB滿足預(yù)設(shè)條件時,在所述兩個樣本集合DA和DB分別對應(yīng)的兩個標(biāo)簽A和B之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò);所述標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,被用于在標(biāo)簽查詢時獲取一個或多個與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。其中,所述的獲取模塊510,計算模塊520,以及連接模塊530,可以是軟件模塊,能夠在計算機系統(tǒng)的處理器中執(zhí)行;也可以是特定的集成電路。請參考圖5b,一些實施例中,所述數(shù)據(jù)集有多個樣本,其中每個樣本有多個變量,所述獲取模塊510包括:第一獲取單元5101,用于對于通過產(chǎn)生規(guī)則產(chǎn)生的標(biāo)簽,從所述數(shù)據(jù)集中查找所述產(chǎn)生規(guī)則涉及的變量集,遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對應(yīng)的樣本集合。請參考圖5b,一些實施例中,所述數(shù)據(jù)集有多個樣本,其中每個樣本有多個變量,所述獲取模塊510包括:第二獲取單元5102,用于對于通過產(chǎn)生算法模型產(chǎn)生的標(biāo)簽,根據(jù)所述產(chǎn)生算法模型,進行敏感性分析,計算出所述數(shù)據(jù)集中每個變量的重要性指標(biāo),所述敏感性分析用于分析所述變量發(fā)生變化時對所述產(chǎn)生算法模型的影響程度,找出重要性指標(biāo)大于設(shè)定的重要性閾值的變量集;遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對應(yīng)的樣本 集合。請參考圖5b,一些實施例中,所述樣本集合為一個數(shù)據(jù)矩陣,所述樣本集合的的每一行表示一個樣本,所述樣本集合的每一列表示一個變量;所述計算模塊520包括:確定單元5201,用于根據(jù)任意兩個標(biāo)簽A和B分別對應(yīng)的兩個樣本集合DA和DB,確定所述兩個標(biāo)簽A和B分別對應(yīng)的兩個變量集A={A1,…,Am}和B={B1,…,Bn},m和n分別所述兩個變量集的變量數(shù),且m和n均為正整數(shù);第一計算單元5202,用于計算所述兩個變量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的變量數(shù),且l為正整數(shù);獲取單元5203,用于獲取所述交集中的任一個變量c在所述兩個樣本集合DA和DB中各自對應(yīng)的列和得到兩個列;第二計算單元5204,用于采用統(tǒng)計方法計算所述兩個列和的列間關(guān)聯(lián)系數(shù)第三計算單元5205,用于根據(jù)所述列間關(guān)聯(lián)系數(shù)計算所述兩個樣本集合間的關(guān)聯(lián)系數(shù)ρAB。一些實施例中,所述第二計算單元5204,具體用于:記所述交集中的任一個變量c在所述兩個樣本集合中各自對應(yīng)的列分別為和記所述兩個列的列間關(guān)聯(lián)系數(shù)為則:如果c是連續(xù)變量,采用如下公式計算:其中且n1,M1,SD1分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;且n2,M2,SD2分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;如果c是分類變量,采用如下公式計算:其中其中,N為變量c的類別數(shù),n1為的樣本數(shù),n2為的樣本數(shù),且n1>n2,fi和gi分別是和的頻數(shù)分布中的第i個值,i為不小于1且不大于N的整數(shù)。一些實施例中,所述第三計算單元5205,具體用于對得到的所有列間關(guān)聯(lián)系數(shù)求和,將求得的和分別除以所述兩個樣本集合的變量數(shù)得到兩個均值,所述兩個均值的和的一半即為所述兩個樣本集合間的關(guān)聯(lián)系數(shù)。一些實施例中,所述連接模塊530,具體用于采用如下公式計算所述兩個樣本集合間的關(guān)聯(lián)系數(shù)ρAB:一些實施例中,所述連接模塊530,具體用于構(gòu)建無向圖,所述無向圖由多個頂點和用于連接頂點的邊構(gòu)成,其中每一個頂點表示一個標(biāo)簽,所述的邊為沒有方向的無向邊;當(dāng)兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)大于設(shè)定的關(guān)聯(lián)系數(shù)閾值時,在所述無向圖中的所述兩個標(biāo)簽間連接一條無向邊,以所述兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)作為所述無向邊的權(quán)重。一些實施例中,所述標(biāo)簽集合為標(biāo)簽樹,所述標(biāo)簽樹的葉子節(jié)點表示標(biāo)簽,所述標(biāo)簽樹的根節(jié)點以外的非葉子節(jié)點表示維度,所述連接模塊530,還用于在構(gòu)建無向圖的過程中,以所述標(biāo)簽樹的葉子節(jié)點作為所述無向圖的頂點,使所述標(biāo)簽網(wǎng)絡(luò)和所述標(biāo)簽樹疊加在一起,構(gòu)成標(biāo)簽樹增強的混合標(biāo)簽網(wǎng)絡(luò)。一些實施例中,所述計算模塊520具體用于計算分屬于不同維度的任兩個標(biāo)簽A和B分別對應(yīng)的兩個樣本集合DA和DB間的關(guān)聯(lián)系數(shù)??梢岳斫?,本發(fā)明實施例的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng)的各個功能模塊的功能可根據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可參照上述方法實施例中的相關(guān)描述,此處不再贅述。由上可見,在本發(fā)明的一些可行的實施方式中,公開了一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng),該技術(shù)方案通過計算標(biāo)簽間的關(guān)聯(lián)系數(shù),在關(guān)聯(lián)系 數(shù)滿足預(yù)設(shè)條件的兩個標(biāo)簽之間建立連接,產(chǎn)生一標(biāo)簽網(wǎng)絡(luò),該標(biāo)簽網(wǎng)絡(luò)能夠反映標(biāo)簽間的關(guān)聯(lián)關(guān)系,從而提供了一種可以高效的組織和管理碎片化標(biāo)簽的機制,可以有效提高標(biāo)簽的使用和管理效率,包括提高標(biāo)簽的查詢效率等。(實施例三、)請參考圖6,本發(fā)明實施例還提供一種計算機設(shè)備600,可包括:所述計算機設(shè)備600可包括處理器610、存儲器620、總線630和通信接口640;所述存儲器620用于存儲程序650,所述程序650包括計算機執(zhí)行指令,所述處理器610與所述存儲器620通過所述總線630連接,當(dāng)所述計算機設(shè)備600運行時,所述處理器610執(zhí)行所述存儲器620存儲的所述程序650,以使所述計算機設(shè)備600執(zhí)行如上文方法實施例所述的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法。本發(fā)明實施例二公開的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng),可以由計算機設(shè)備600實現(xiàn),標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng)中的獲取模塊510,計算模塊520,以及連接模塊530,可以由處理器610執(zhí)行程序650中特定的功能單元來實現(xiàn)。所述總線630可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(IndustryStandardArchitecture,簡稱為ISA)總線或外部設(shè)備互連(PeripheralComponent,簡稱為PCI)總線或擴展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ExtendedIndustryStandardArchitecture,簡稱為EISA)總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線中的一種或多種。為便于表示,圖6中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。所述存儲器620用于存儲可執(zhí)行程序代碼,該程序代碼包括計算機操作指令。所述存儲器620可以包含高速RAM(RamdomAccessMemory)存儲器??蛇x地,所述存儲器620還可以還包括非易失性存儲器(non-volatilememory)。例如所述存儲器620可以包括磁盤存儲器。所述處理器610可以是一個中央處理器(CentralProcessingUnit,簡稱為CPU),或者所述處理器610可以是特定集成電路(ApplicationSpecificIntegratedCircuit,簡稱為ASIC),或者所述處理器610可以是被配置成實施本發(fā)明實施例的一個或多個集成電路??梢岳斫猓景l(fā)明實施例的計算機設(shè)備的功能可根據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可參照上述方法實施例中的相關(guān)描述,此處不再贅述。由上可見,在本發(fā)明的一些可行的實施方式中,公開了一種計算機設(shè)備,該計算機設(shè)備可執(zhí)行上文方法實施例所述的方法,取得該方法實施例所能取得的技術(shù)效果。(實施例四、)本發(fā)明實施例還提供一種存儲一個或多個程序的計算機可讀存儲介質(zhì),所述一個或多個程序包括指令,所述指令當(dāng)被包括一個或多個處理器的計算機設(shè)備執(zhí)行時,使所述計算機設(shè)備執(zhí)行如上文方法實施例所述的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法。(實施例五、)本發(fā)明實施例還提供一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法,所述標(biāo)簽網(wǎng)絡(luò)包括多個標(biāo)簽,其中任意兩個具有關(guān)聯(lián)的標(biāo)簽之間建立有連接,所說的關(guān)聯(lián)是指兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件。請參考圖3,是一種標(biāo)簽網(wǎng)絡(luò)的示意圖,該標(biāo)簽網(wǎng)絡(luò)包括多個節(jié)點(或稱為頂點)和多條連接節(jié)點的邊(具體可以是沒有方向的無向邊),多個節(jié)點例如可以包括9個標(biāo)簽{中低端手機用戶,中高端手機用戶,高端手機用戶,低額度信用卡用戶,中額度信用卡用戶,高額度信用卡用戶,實用型,時尚型,體驗型},這9個標(biāo)簽lieu來自三個維度{手機類型,用戶信用卡等級,購物消費類型};標(biāo)簽網(wǎng)絡(luò)的每一條邊上還設(shè)有權(quán)重,權(quán)重是該邊連接的兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)。需要說明的是,所述標(biāo)簽網(wǎng)絡(luò)可以是采用本發(fā)明實施例一所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的;關(guān)于標(biāo)簽網(wǎng)絡(luò)的產(chǎn)生流程以及更多的說明,請參考前文實施例一所述的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法,此處不再贅述。如圖7所示,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法可以包括:701、接收包括待查找標(biāo)簽的查詢請求,所述查詢請求用于查找所述待查 找標(biāo)簽表征的目標(biāo)用戶群;702、從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個關(guān)聯(lián)標(biāo)簽;703、根據(jù)所述待查找標(biāo)簽和所述至少一個關(guān)聯(lián)標(biāo)簽查詢用戶數(shù)據(jù)庫,找出對應(yīng)的目標(biāo)用戶群??蛇x的,方法還包括:對找出的所述目標(biāo)用戶群執(zhí)行特定的管理操作。采用上述技術(shù)方案,由于精確營銷或其它需求而需要查找特定的目標(biāo)用戶群時,可以根據(jù)該標(biāo)簽網(wǎng)絡(luò)進行用戶查詢,包括:首先,給定用來表征該目標(biāo)用戶群的若干個標(biāo)簽,對給定的若干個標(biāo)簽,由于標(biāo)簽網(wǎng)絡(luò)中建立了標(biāo)簽間的連接,可以查詢得到與所述若干個標(biāo)簽的關(guān)聯(lián)系數(shù)在一個預(yù)設(shè)范圍內(nèi)的大量相關(guān)聯(lián)的標(biāo)簽,可以認為查詢得到大量相關(guān)聯(lián)的標(biāo)簽夠也能夠用來表征所述目標(biāo)用戶群,于是,根據(jù)給定的標(biāo)簽和查詢到的相關(guān)聯(lián)的標(biāo)簽,從用戶數(shù)據(jù)庫中查詢用戶,就可以得到對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率。(實施例六、)本發(fā)明實施例還提供一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置,所述標(biāo)簽網(wǎng)絡(luò)包括多個標(biāo)簽,其中任意兩個具有關(guān)聯(lián)的標(biāo)簽之間建立有連接,所說的關(guān)聯(lián)是指兩個標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件,所述標(biāo)簽網(wǎng)絡(luò)可以是采用本發(fā)明實施例一所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的;本發(fā)明實施例裝置可用于實施上述實施例五所述的基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法。如圖8所示,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置800可以包括:接收模塊801,用于接收包括待查找標(biāo)簽的查詢請求,所述查詢請求用于查找所述待查找標(biāo)簽表征的目標(biāo)用戶群;標(biāo)簽查找模塊802,用于從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個關(guān)聯(lián)標(biāo)簽;用戶查找模塊803,用于根據(jù)所述待查找標(biāo)簽和所述至少一個關(guān)聯(lián)標(biāo)簽查 詢用戶數(shù)據(jù)庫,找出對應(yīng)的目標(biāo)用戶群??蛇x的,裝置800還可以包括:執(zhí)行模塊804,用于對找出的所述目標(biāo)用戶群執(zhí)行特定的管理操作。其中,裝置800的各個功能模塊,可以是軟件模塊,能夠在計算機系統(tǒng)的處理器中執(zhí)行;也可以是特定的集成電路。采用上述技術(shù)方案,由于精確營銷或其它需求而需要查找特定的目標(biāo)用戶群時,可以根據(jù)該標(biāo)簽網(wǎng)絡(luò)進行用戶查詢,包括:首先,給定用來表征該目標(biāo)用戶群的若干個標(biāo)簽,對給定的若干個標(biāo)簽,由于標(biāo)簽網(wǎng)絡(luò)中建立了標(biāo)簽間的連接,可以查詢得到與所述若干個標(biāo)簽的關(guān)聯(lián)系數(shù)在一個預(yù)設(shè)范圍內(nèi)的大量相關(guān)聯(lián)的標(biāo)簽,可以認為查詢得到大量相關(guān)聯(lián)的標(biāo)簽夠也能夠用來表征所述目標(biāo)用戶群,于是,根據(jù)給定的標(biāo)簽和查詢到的相關(guān)聯(lián)的標(biāo)簽,從用戶數(shù)據(jù)庫中查詢用戶,就可以得到對應(yīng)的目標(biāo)用戶群,從而滿足精確營銷或其它需求。在該查找過程中,用戶不需要輸入目標(biāo)用戶群的全部標(biāo)簽,而是只需要輸入很少的若干個標(biāo)簽即可,也就是說,不需要用戶花費很多的精力去查詢所需要的標(biāo)簽,從而提高了查詢效率。(實施例七、)請參考圖9,本發(fā)明實施例還提供一種計算機設(shè)備900,可包括:所述計算機設(shè)備900可包括處理器910、存儲器920、總線930和通信接口940;所述存儲器920用于存儲程序950,所述程序950包括計算機執(zhí)行指令,所述處理器910與所述存儲器920通過所述總線930連接,當(dāng)所述計算機設(shè)備900運行時,所述處理器910執(zhí)行所述存儲器920存儲的所述程序950,以使所述計算機設(shè)備900執(zhí)行如上文方法實施例所述的基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法。本發(fā)明實施例六公開的標(biāo)簽應(yīng)用系統(tǒng),可以由計算機設(shè)備900實現(xiàn),標(biāo)簽應(yīng)用系統(tǒng)中的接收模塊801可以由通信接口940實現(xiàn),標(biāo)簽查找模塊802,用戶查找模塊803,執(zhí)行模塊804這三個模塊可以由處理器910執(zhí)行程序950中特定的功能單元來實現(xiàn)。所述總線930可以是工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(IndustryStandardArchitecture,簡 稱為ISA)總線或外部設(shè)備互連(PeripheralComponent,簡稱為PCI)總線或擴展工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(ExtendedIndustryStandardArchitecture,簡稱為EISA)總線等。所述總線可以分為地址總線、數(shù)據(jù)總線、控制總線中的一種或多種。為便于表示,圖9中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。所述存儲器920用于存儲可執(zhí)行程序代碼,該程序代碼包括計算機操作指令。所述存儲器920可以包含高速RAM(RamdomAccessMemory)存儲器??蛇x地,所述存儲器920還可以還包括非易失性存儲器(non-volatilememory)。例如所述存儲器920可以包括磁盤存儲器。所述處理器910可以是一個中央處理器(CentralProcessingUnit,簡稱為CPU),或者所述處理器610可以是特定集成電路(ApplicationSpecificIntegratedCircuit,簡稱為ASIC),或者所述處理器910可以是被配置成實施本發(fā)明實施例的一個或多個集成電路??梢岳斫猓景l(fā)明實施例的計算機設(shè)備的功能可根據(jù)上述方法實施例中的方法具體實現(xiàn),其具體實現(xiàn)過程可參照上述方法實施例中的相關(guān)描述,此處不再贅述。由上可見,在本發(fā)明的一些可行的實施方式中,公開了一種計算機設(shè)備,該計算機設(shè)備可執(zhí)行上文方法實施例所述的方法,取得該方法實施例所能取得的技術(shù)效果。(實施例八、)本發(fā)明實施例還提供一種存儲一個或多個程序的計算機可讀存儲介質(zhì),所述一個或多個程序包括指令,所述指令當(dāng)被包括一個或多個處理器的計算機設(shè)備執(zhí)行時,使所述計算機設(shè)備執(zhí)行如上文方法實施例所述的基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法。在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳細描述的部分,可以參見其它實施例的相關(guān)描述。需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其它順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上。可以根據(jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或 者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-OnlyMemory)、隨機存取存儲器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。以上對本發(fā)明實施例所提供的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法和系統(tǒng)進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。當(dāng)前第1頁1 2 3