基于社交網(wǎng)絡(luò)的對象分類方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,特別涉及一種基于社交網(wǎng)絡(luò)的對象分類方法及裝 置。
【背景技術(shù)】
[0002] 社交網(wǎng)絡(luò)通常具有龐大的用戶群,這些用戶相互交流分享形成很多群組。由于用 戶有不同的興趣,因此他們相互形成的群組也有不同的偏好,譬如〃籃球〃類群,"小區(qū)〃類 群,"瑜伽"類群等。用戶要從這海量的數(shù)據(jù)中找到與自己有類似興趣的用戶或者相似偏 好的群組是相當(dāng)困難的。因此急需一種能夠自動(dòng)地把興趣相同的用戶或者話題相似的群組 進(jìn)行整理歸類的聚類方法。
[0003] 在傳統(tǒng)的對用戶或者群組進(jìn)行整理歸類的聚類方法中,首先把每一個(gè)用戶信息或 每一個(gè)群組信息用0/1表示方法(即對于每條用戶信息或群組信息所對應(yīng)的特征信息,如 果某些分詞在該特征信息中出現(xiàn),則將對應(yīng)的用于表示該分詞的向量值設(shè)置為1,否則將用 于表示該分詞的向量值設(shè)置為〇)表示成空間向量,該空間向量的維度為全部特征的總詞 數(shù);然后基于特征信息的空間向量利用分類器VSM(VectorSpaceModel,向量空間模型) 進(jìn)行聚類分析。
[0004] 在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:由于用戶信息 和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度 都非常大,甚至還會嚴(yán)重?fù)p害到向量空間模型的處理效率以及性能。
【發(fā)明內(nèi)容】
[0005] 為了解決現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非 常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴(yán)重?fù)p害到向量空間模型 的處理效率以及性能的問題,本發(fā)明實(shí)施例提供了一種基于社交網(wǎng)絡(luò)的對象分類方法及裝 置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種基于社交網(wǎng)絡(luò)的對象分類方法,所述方法包括:
[0007] 獲取對象的特征信息;
[0008] 將所述特征信息表示成語義向量,所述語義向量用于反映各個(gè)分詞在所述特征信 息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征;
[0009] 將所述對象的特征信息的語義向量輸入預(yù)定分類器,得到所述對象被分類后的初 始類別。
[0010] 第二方面,提供了一種基于社交網(wǎng)絡(luò)的對象分類裝置,所述裝置包括:
[0011] 第一獲取模塊,用于獲取對象的特征信息;
[0012] 表示模塊,用于將所述特征信息表示成語義向量,所述語義向量用于反映各個(gè)分 詞在所述特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征;
[0013] 分類模塊,用于將所述對象的特征信息的語義向量輸入預(yù)定分類器,得到所述對 象被分類后的初始類別。
[0014] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來的有益效果是:
[0015] 通過將對象的特征信息表示成語義向量,將該語義向量輸入預(yù)定分類器,得到對 象被分類后的初始類別;解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間 向量的維度非常大,導(dǎo)致計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴(yán)重?fù)p害到 向量空間模型的處理效率以及性能的問題;由于語義向量是用于反映各個(gè)分詞在特征信息 中同時(shí)出現(xiàn)時(shí)的相關(guān)性特征的向量,因此語義向量的維度遠(yuǎn)小于空間向量的維度,達(dá)到了 可以大大降低計(jì)算的復(fù)雜度,提高向量空間模型的處理效率以及性能的效果。
【附圖說明】
[0016] 為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0017] 圖1是本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類方法的方法流程圖;
[0018] 圖2A是本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類方法的方法流程 圖;
[0019] 圖2B是本發(fā)明一個(gè)實(shí)施例中提供的將特征信息表示成語義向量的方法的流程示 意圖;
[0020] 圖2C是本發(fā)明一個(gè)實(shí)施例中提供的確定與對象對應(yīng)的預(yù)定個(gè)數(shù)相似對象的方法 的流程示意圖;
[0021] 圖2D是本發(fā)明一個(gè)實(shí)施例中提供的二分圖的示意圖;
[0022] 圖3是本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類裝置的結(jié)構(gòu)示意圖;
[0023] 圖4是本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類裝置的結(jié)構(gòu)示意 圖。
【具體實(shí)施方式】
[0024] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0025] 請參見圖1所示,其示出了本發(fā)明一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類 方法的方法流程圖。該基于社交網(wǎng)絡(luò)的對象分類方法可以應(yīng)用于服務(wù)器或其他需要進(jìn)行分 類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對象分類方法可以包括:
[0026] 101,獲取對象的特征信息;
[0027] 102,將特征信息表示成語義向量,語義向量用于反映各個(gè)分詞在特征信息中同時(shí) 出現(xiàn)時(shí)的相關(guān)性特征;
[0028] 103,將對象的特征信息的語義向量輸入預(yù)定分類器,得到對象被分類后的初始類 別。
[0029] 綜上所述,本發(fā)明實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象分類方法,通過將對象的 特征信息表示成語義向量,將該語義向量輸入預(yù)定分類器,得到對象被分類后的初始類別; 解決了現(xiàn)有技術(shù)中由于用戶信息和群組信息有數(shù)億的規(guī)模,空間向量的維度非常大,導(dǎo)致 計(jì)算的時(shí)間復(fù)雜度與空間復(fù)雜度都非常大,甚至還會嚴(yán)重?fù)p害到向量空間模型的處理效率 以及性能的問題;由于語義向量是用于反映各個(gè)分詞在特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性特 征的向量,因此語義向量的維度遠(yuǎn)小于空間向量的維度,達(dá)到了可以大大降低計(jì)算的復(fù)雜 度,提高向量空間模型的處理效率以及性能的效果。
[0030] 請參見圖2A所示,其示出了本發(fā)明另一個(gè)實(shí)施例中提供的基于社交網(wǎng)絡(luò)的對象 分類方法的方法流程圖。該基于社交網(wǎng)絡(luò)的對象分類方法可以應(yīng)用于服務(wù)器或其他需要進(jìn) 行分類的設(shè)備中。該基于社交網(wǎng)絡(luò)的對象分類方法可以包括:
[0031] 201,獲取對象的特征信息;
[0032] 這里所講的對象可以包括用戶和/或群組。通常群組中可以包含多個(gè)用戶,一個(gè) 用戶可以同時(shí)加入在多個(gè)群組中,也可以不存在于任何一個(gè)群組中。
[0033] 當(dāng)對象為用戶時(shí),對象的特征信息則可以為用戶信息,比如可以包括用戶名、用戶 的興趣信息、用戶發(fā)表的心情或說說內(nèi)容、用戶發(fā)表的日志等。特性信息可以包括文本信息 和/或非文本信息。
[0034] 當(dāng)對象為群組時(shí),對象的特征信息則可以為群組信息,比如可以包括群名稱等。
[0035] 202,將特征信息表示成語義向量;
[0036] 這里所講的語義向量可以用于反映各個(gè)分詞在特征信息中同時(shí)出現(xiàn)時(shí)的相關(guān)性 特征。通常來講,語義向量是利用預(yù)定數(shù)學(xué)模型為每個(gè)分詞尋找一個(gè)連續(xù)向量空間中的表 示,考慮到上下文語境,利用分詞之間在同一個(gè)語境中出現(xiàn)的頻率來刻畫分詞的相關(guān)性特 征。也就是說,一個(gè)特征信息的語音向量可以涵蓋該特征信息的上下文語境信息。
[0037] 也正因?yàn)檎Z義向量可以涵蓋該特征信息的上下文語境信息,因此可以將語義向量 的維度降低到非常小的維度,比如可以為200維。
[0038] 請參見圖2B所示,其示出了本發(fā)明一個(gè)實(shí)施例中提供的將特征信息表示成語義 向量的方法的流程示意圖,將特征信息表示成語義向量,可以包括:
[0039] 202a,利用預(yù)存的語料庫,統(tǒng)計(jì)出分詞在預(yù)定個(gè)數(shù)指定分詞后出現(xiàn)的概率,分詞以 及預(yù)定個(gè)數(shù)指定分詞構(gòu)成特征信息;
[0040] 語料庫中包含有各種特征信息,語料庫中的特征信息的來源比較多,比如,服務(wù)器 可以從其他服務(wù)器中獲取各種特征信息,用戶也可以向服務(wù)器上傳特征信息。
[0041] 舉例來講,在語料庫中的各種特征信息中,當(dāng)一個(gè)分詞為"大學(xué)"時(shí),統(tǒng)計(jì)該分詞在 "北京" + "科技"之后出現(xiàn)的概率,其中特征信息為"北京科技大學(xué)"。
[0042] 202b,利用反向傳播算法求解預(yù)定數(shù)學(xué)模型,得到特征信息中各個(gè)分詞的語義向 量;
[0043] 這里所講的預(yù)定數(shù)學(xué)模型的公式如下:
[0044]y=softmax(U?tanh(Hx+d)+ffx+b),
[0045] 其中,y為分詞在各個(gè)特征信息中出現(xiàn)的概率所組成的矩陣,x是各個(gè)特征信息中 的預(yù)定個(gè)數(shù)指定分詞的語義向量首尾相接得到的向量,d和b為偏置項(xiàng),tanh和softmax均 為激活函數(shù),U是預(yù)定數(shù)學(xué)模型的隱含層到輸出層的參數(shù),W是從預(yù)定數(shù)學(xué)模型的輸入層直 接到輸出層的線性變換。
[0046] 在實(shí)際應(yīng)用中,語義向量需要能涵蓋詞的上下文語境信息,這樣語義相似的分詞, 其對應(yīng)的語義向量的余弦夾角值會比較大,因此在確定相似度的特征信息時(shí)具有很好的識 別效果。這里通常可以用條件概率來刻畫詞的上下文語境,也就是每個(gè)分詞的概率只受前 面出現(xiàn)過的分詞的影響,條件概率即為P(W1IW1,...,W1i)。為了簡化計(jì)算,一般只考慮每個(gè) 分詞受其前11