1.一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法,其特征在于,包括:
獲取標(biāo)簽集合和所述標(biāo)簽集合對(duì)應(yīng)的數(shù)據(jù)集,所述標(biāo)簽集合包括至少兩個(gè)標(biāo)簽,所述數(shù)據(jù)集包括所述至少兩個(gè)標(biāo)簽分別對(duì)應(yīng)的多個(gè)樣本的數(shù)據(jù),所述標(biāo)簽是對(duì)所述樣本的屬性的數(shù)據(jù)表示;
從所述數(shù)據(jù)集中,獲取每個(gè)標(biāo)簽對(duì)應(yīng)的樣本集合,所述樣本集合是所述數(shù)據(jù)集中對(duì)應(yīng)于同一個(gè)標(biāo)簽的多個(gè)樣本的數(shù)據(jù)的集合;
采用統(tǒng)計(jì)方法計(jì)算任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB,所述關(guān)聯(lián)系數(shù)ρAB表示所述兩個(gè)標(biāo)簽A和B間的關(guān)聯(lián)度;
在所述兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB滿足預(yù)設(shè)條件時(shí),在所述兩個(gè)樣本集合DA和DB分別對(duì)應(yīng)的兩個(gè)標(biāo)簽A和B之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò);所述標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,被用于在標(biāo)簽查詢時(shí)獲取一個(gè)或多個(gè)與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)集包含多個(gè)樣本,其中每個(gè)樣本有多個(gè)變量,所述獲取每個(gè)標(biāo)簽對(duì)應(yīng)的樣本集合包括:
對(duì)于通過(guò)產(chǎn)生規(guī)則產(chǎn)生的標(biāo)簽,從所述數(shù)據(jù)集中查找所述產(chǎn)生規(guī)則涉及的變量集,遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對(duì)應(yīng)的樣本集合。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述數(shù)據(jù)集包含多個(gè)樣本,其中每個(gè)樣本有多個(gè)變量,所述獲取每個(gè)標(biāo)簽對(duì)應(yīng)的樣本集合包括:
對(duì)于通過(guò)產(chǎn)生算法模型產(chǎn)生的標(biāo)簽,根據(jù)所述產(chǎn)生算法模型,進(jìn)行敏感性分析,計(jì)算出所述數(shù)據(jù)集中每個(gè)變量的重要性指標(biāo),所述敏感性分析用于分析所述變量發(fā)生變化時(shí)對(duì)所述產(chǎn)生算法模型的影響程度;
找出重要性指標(biāo)大于設(shè)定的重要性閾值的變量集;
遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對(duì)應(yīng)的樣本集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述樣本集合為一個(gè)數(shù)據(jù)矩陣,所述樣本集合的每一行表示一個(gè)樣本,所述樣本集合的每一列表示一個(gè)變量;所述采用統(tǒng)計(jì)方法計(jì)算任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和 DB間的關(guān)聯(lián)系數(shù)ρAB包括:
根據(jù)任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB,確定所述兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)變量集A={A1,…,Am}和B={B1,…,Bn},m和n分別所述兩個(gè)變量集的變量數(shù),且m和n均為正整數(shù);
計(jì)算所述兩個(gè)變量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的變量數(shù),且l為正整數(shù);
獲取所述交集中的任一變量c在所述兩個(gè)樣本集合DA和DB中各自對(duì)應(yīng)的列和
采用統(tǒng)計(jì)方法計(jì)算所述兩個(gè)列和的列間關(guān)聯(lián)系數(shù)
根據(jù)所述列間關(guān)聯(lián)系數(shù)計(jì)算所述兩個(gè)樣本集合間的關(guān)聯(lián)系數(shù)ρAB。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述采用統(tǒng)計(jì)方法計(jì)算所述兩個(gè)列和的列間關(guān)聯(lián)系數(shù)包括:
如果c是連續(xù)變量,采用如下公式計(jì)算:
其中
其中,n1,M1,SD1分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;且n2,M2,SD2分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;
如果c是分類變量,采用如下公式計(jì)算:
其中
其中,N為變量c的類別數(shù),n1為的樣本數(shù),n2為的樣本數(shù),且n1>n2,fi和gi分別是和的頻數(shù)分布中的第i個(gè)值,i為不小于1且不大于N的整數(shù)。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)所述列間關(guān)聯(lián)系數(shù),計(jì)算所述兩個(gè)樣本集合間的關(guān)聯(lián)系數(shù)包括:
采用如下公式計(jì)算所述兩個(gè)樣本集合間的關(guān)聯(lián)系數(shù)ρAB:
7.根據(jù)權(quán)利要求1至6中任一所述的方法,其特征在于,所述在關(guān)聯(lián)系數(shù)滿足預(yù)設(shè)條件的兩個(gè)標(biāo)簽之間建立連接包括:
構(gòu)建無(wú)向圖,所述無(wú)向圖由多個(gè)頂點(diǎn)和用于連接頂點(diǎn)的邊構(gòu)成,其中每一個(gè)頂點(diǎn)表示一個(gè)標(biāo)簽,所述的邊為沒(méi)有方向的無(wú)向邊;當(dāng)兩個(gè)標(biāo)簽間的關(guān)聯(lián)系數(shù)大于設(shè)定的關(guān)聯(lián)系數(shù)閾值時(shí),在所述無(wú)向圖中的所述兩個(gè)標(biāo)簽間連接一條無(wú)向邊,以所述兩個(gè)標(biāo)簽間的關(guān)聯(lián)系數(shù)作為所述無(wú)向邊的權(quán)重。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述標(biāo)簽集合為標(biāo)簽樹(shù),所述標(biāo)簽樹(shù)的葉子節(jié)點(diǎn)表示標(biāo)簽,所述標(biāo)簽樹(shù)的根節(jié)點(diǎn)以外的非葉子節(jié)點(diǎn)表示維度,在構(gòu)建無(wú)向圖的過(guò)程中,以所述標(biāo)簽樹(shù)的葉子節(jié)點(diǎn)作為所述無(wú)向圖的頂點(diǎn),使所述標(biāo)簽網(wǎng)絡(luò)和所述標(biāo)簽樹(shù)疊加在一起,構(gòu)成標(biāo)簽樹(shù)增強(qiáng)的混合標(biāo)簽網(wǎng)絡(luò)。
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述采用統(tǒng)計(jì)方法計(jì)算任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB包括:
計(jì)算分屬于不同維度的任兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)。
10.一種基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生系統(tǒng),其特征在于,包括:
獲取模塊,用于獲取標(biāo)簽集合和所述標(biāo)簽集合對(duì)應(yīng)的數(shù)據(jù)集;以及,從所述數(shù)據(jù)集中,獲取每個(gè)標(biāo)簽對(duì)應(yīng)的樣本集合;所述標(biāo)簽集合包括至少兩個(gè)標(biāo)簽,所述數(shù)據(jù)集包括所述至少兩個(gè)標(biāo)簽分別對(duì)應(yīng)的多個(gè)樣本的數(shù)據(jù);所述樣本集合是所述數(shù)據(jù)集中對(duì)應(yīng)于同一個(gè)標(biāo)簽的多個(gè)樣本的數(shù)據(jù)的集合;
計(jì)算模塊,用于采用統(tǒng)計(jì)方法計(jì)算任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB,所述關(guān)聯(lián)系數(shù)ρAB表示所述兩個(gè)標(biāo)簽A和B間的關(guān)聯(lián)度;
連接模塊,用于在所述兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)ρAB滿足預(yù)設(shè)條 件時(shí),在所述兩個(gè)樣本集合DA和DB分別對(duì)應(yīng)的兩個(gè)標(biāo)簽A和B之間建立連接,產(chǎn)生標(biāo)簽網(wǎng)絡(luò);所述標(biāo)簽網(wǎng)絡(luò)表示了標(biāo)簽間的關(guān)聯(lián)度,被用于在標(biāo)簽查詢時(shí)獲取一個(gè)或多個(gè)與待查找標(biāo)簽具有一定關(guān)聯(lián)度的標(biāo)簽。
11.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述數(shù)據(jù)集有多個(gè)樣本,其中每個(gè)樣本有多個(gè)變量,所述獲取模塊包括:
第一獲取單元,用于對(duì)于通過(guò)產(chǎn)生規(guī)則產(chǎn)生的標(biāo)簽,從所述數(shù)據(jù)集中查找所述產(chǎn)生規(guī)則涉及的變量集,遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對(duì)應(yīng)的樣本集合。
12.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述數(shù)據(jù)集有多個(gè)樣本,其中每個(gè)樣本有多個(gè)變量,所述獲取模塊包括:
第二獲取單元,用于對(duì)于通過(guò)產(chǎn)生算法模型產(chǎn)生的標(biāo)簽,根據(jù)所述產(chǎn)生算法模型,進(jìn)行敏感性分析,計(jì)算出所述數(shù)據(jù)集中每個(gè)變量的重要性指標(biāo),所述敏感性分析用于分析所述變量發(fā)生變化時(shí)對(duì)所述產(chǎn)生算法模型的影響程度,找出重要性指標(biāo)大于設(shè)定的重要性閾值的變量集;遍歷所述數(shù)據(jù)集,找出變量落入所述變量集的所有樣本,得到對(duì)應(yīng)的樣本集合。
13.根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述樣本集合為一個(gè)數(shù)據(jù)矩陣,所述樣本集合的的每一行表示一個(gè)樣本,所述樣本集合的每一列表示一個(gè)變量;所述計(jì)算模塊包括:
確定單元,用于根據(jù)任意兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB,確定所述兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)變量集A={A1,…,Am}和B={B1,…,Bn},m和n分別所述兩個(gè)變量集的變量數(shù),且m和n均為正整數(shù);
第一計(jì)算單元,用于計(jì)算所述兩個(gè)變量集的交集C={C1,…,Cl}={A1,…,Am}∩{B1,…,Bm},l是所述交集的變量數(shù),且l為正整數(shù);
獲取單元,用于獲取所述交集中的任一個(gè)變量c在所述兩個(gè)樣本集合DA和DB中各自對(duì)應(yīng)的列和
第二計(jì)算單元,用于采用統(tǒng)計(jì)方法計(jì)算所述兩個(gè)列和的列間關(guān)聯(lián)系數(shù)
第三計(jì)算單元,用于根據(jù)所述列間關(guān)聯(lián)系數(shù)計(jì)算所述兩個(gè)樣本集合 間的關(guān)聯(lián)系數(shù)ρAB。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,所述第二計(jì)算單元,具體用于:
如果c是連續(xù)變量,采用如下公式計(jì)算:
其中
其中,n1,M1,SD1分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;且n2,M2,SD2分別為的樣本數(shù),平均值和標(biāo)準(zhǔn)方差;
如果c是分類變量,采用如下公式計(jì)算:
其中
其中,N為變量c的類別數(shù),n1為的樣本數(shù),n2為的樣本數(shù),且n1>n2,fi和gi分別是和的頻數(shù)分布中的第i個(gè)值,i為不小于1且不大于N的整數(shù)。
15.根據(jù)權(quán)利要求13所述的系統(tǒng),其特征在于,
所述第三計(jì)算單元,具體用于采用如下公式計(jì)算所述兩個(gè)樣本集合間的關(guān)聯(lián)系數(shù)ρAB:
16.根據(jù)權(quán)利要求10至15中任一所述的系統(tǒng),其特征在于,
所述連接模塊,具體用于構(gòu)建無(wú)向圖,所述無(wú)向圖由多個(gè)頂點(diǎn)和用于連接頂點(diǎn)的邊構(gòu)成,其中每一個(gè)頂點(diǎn)表示一個(gè)標(biāo)簽,所述的邊為沒(méi)有方向的無(wú)向邊;當(dāng)兩個(gè)標(biāo)簽間的關(guān)聯(lián)系數(shù)大于設(shè)定的關(guān)聯(lián)系數(shù)閾值時(shí),在所述無(wú)向圖中的所述 兩個(gè)標(biāo)簽間連接一條無(wú)向邊,以所述兩個(gè)標(biāo)簽間的關(guān)聯(lián)系數(shù)作為所述無(wú)向邊的權(quán)重。
17.根據(jù)權(quán)利要求16所述的系統(tǒng),其特征在于,所述標(biāo)簽集合為標(biāo)簽樹(shù),所述標(biāo)簽樹(shù)的葉子節(jié)點(diǎn)表示標(biāo)簽,所述標(biāo)簽樹(shù)的根節(jié)點(diǎn)以外的非葉子節(jié)點(diǎn)表示維度,所述連接模塊,還用于在構(gòu)建無(wú)向圖的過(guò)程中,以所述標(biāo)簽樹(shù)的葉子節(jié)點(diǎn)作為所述無(wú)向圖的頂點(diǎn),使所述標(biāo)簽網(wǎng)絡(luò)和所述標(biāo)簽樹(shù)疊加在一起,構(gòu)成標(biāo)簽樹(shù)增強(qiáng)的混合標(biāo)簽網(wǎng)絡(luò)。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,
所述計(jì)算模塊具體用于計(jì)算分屬于不同維度的任兩個(gè)標(biāo)簽A和B分別對(duì)應(yīng)的兩個(gè)樣本集合DA和DB間的關(guān)聯(lián)系數(shù)。
19.一種計(jì)算機(jī)設(shè)備,其特征在于,所述計(jì)算機(jī)設(shè)備包括處理器、存儲(chǔ)器、總線和通信接口;所述存儲(chǔ)器用于存儲(chǔ)程序,所述程序包括計(jì)算機(jī)執(zhí)行指令,所述處理器與所述存儲(chǔ)器通過(guò)所述總線連接,當(dāng)所述計(jì)算機(jī)設(shè)備運(yùn)行時(shí),所述處理器執(zhí)行所述存儲(chǔ)器存儲(chǔ)的所述程序,以使所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至9任一項(xiàng)所述的基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法。
20.一種存儲(chǔ)一個(gè)或多個(gè)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述一個(gè)或多個(gè)程序包括指令,所述指令當(dāng)被包括一個(gè)或多個(gè)處理器的計(jì)算機(jī)設(shè)備執(zhí)行時(shí),使所述計(jì)算機(jī)設(shè)備執(zhí)行如權(quán)利要求1至9任一項(xiàng)所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法。
21.一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法,其特征在于,所述標(biāo)簽網(wǎng)絡(luò)是采用權(quán)利要求1至9中任一所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用方法包括:
接收包括待查找標(biāo)簽的查詢請(qǐng)求,所述查詢請(qǐng)求用于查找所述待查找標(biāo)簽表征的目標(biāo)用戶群;
從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個(gè)關(guān)聯(lián)標(biāo)簽;
根據(jù)所述待查找標(biāo)簽和所述至少一個(gè)關(guān)聯(lián)標(biāo)簽查詢用戶數(shù)據(jù)庫(kù),找出對(duì)應(yīng)的目標(biāo)用戶群。
22.根據(jù)權(quán)利要求21所述的方法,其特征在于,還包括:
對(duì)找出的所述目標(biāo)用戶群執(zhí)行特定的管理操作。
23.一種基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置,其特征在于,所述標(biāo)簽網(wǎng)絡(luò)是采用權(quán)利要求1至9中任一所述基于數(shù)據(jù)集相關(guān)性的標(biāo)簽網(wǎng)絡(luò)產(chǎn)生方法產(chǎn)生的,所述基于標(biāo)簽網(wǎng)絡(luò)的標(biāo)簽應(yīng)用裝置包括:
接收模塊,用于接收包括待查找標(biāo)簽的查詢請(qǐng)求,所述查詢請(qǐng)求用于查找所述待查找標(biāo)簽表征的目標(biāo)用戶群;
標(biāo)簽查找模塊,用于從所述標(biāo)簽網(wǎng)絡(luò)中查找與所述待查找標(biāo)簽間的關(guān)聯(lián)系數(shù)滿足設(shè)定條件的至少一個(gè)關(guān)聯(lián)標(biāo)簽;
用戶查找模塊,用于根據(jù)所述待查找標(biāo)簽和所述至少一個(gè)關(guān)聯(lián)標(biāo)簽查詢用戶數(shù)據(jù)庫(kù),找出對(duì)應(yīng)的目標(biāo)用戶群。
24.根據(jù)權(quán)利要求23所述的裝置,其特征在于,還包括:
執(zhí)行模塊,用于對(duì)找出的所述目標(biāo)用戶群執(zhí)行特定的管理操作。