一種信息處理方法和信息處理裝置的制造方法
【技術(shù)領域】
[0001]本發(fā)明涉及一種信息處理方法,并且更具體地涉及一種用于社交網(wǎng)絡的信息處理方法和裝置。
【背景技術(shù)】
[0002]在社交網(wǎng)絡中,關于用戶的用戶名的描述往往從下面幾個方面來進行:1、用戶自己填寫的信息,包括關于用戶的用戶名的標簽,職位,專業(yè)等;2、用戶使用自己的用戶名所發(fā)布的信息內(nèi)容;3、用戶的該用戶名所加入的社交圈等。由于用戶自主填寫的關于用戶名的標簽很少,所以需要我們從不同角度為用戶的該用戶名添加標簽。
【發(fā)明內(nèi)容】
[0003]為了解決現(xiàn)有技術(shù)中的上述不足之處,根據(jù)本發(fā)明的一方面,提供一種一種信息處理方法,所述信息處理方法包括:獲取第一信息集合,所述第一信息集合包括第一組多個用戶名和多個詞匯;使用語言模型來訓練所述第一信息集合,得到第一多維向量集合,所述第一多維向量集合中的一個多維向量表示所述第一組多個用戶名和多個詞匯中的一個詞匯或者一個用戶名;以及根據(jù)所述第一多維向量集合中的每個多維向量表示的第一組多個用戶名和多個詞匯中的各個詞匯和各個用戶名相互之間的相似度來對所述第一組多個用戶名和多個詞匯進行聚類,將所述第一組多個用戶名和多個詞匯劃分為第一多個社區(qū)。
[0004]此外,根據(jù)本發(fā)明的一個實施例,所述的信息處理方法,進一步包括:根據(jù)表示特定社區(qū)中的各個詞匯和各個用戶名之間的相似度的多維向量來建立相似度網(wǎng)絡;以及根據(jù)隨機游走算法確定對應于所述特定社區(qū)中的每個詞匯的權(quán)重,使用權(quán)重大于用戶預設的第一閾值的詞匯作為所述特定社區(qū)的標簽。
[0005]此外,根據(jù)本發(fā)明的一個實施例,所述的信息處理方法進一步包括:根據(jù)所述相似度網(wǎng)絡來計算所述特定社區(qū)中每個用戶名對于所述特定社區(qū)的影響力,使用所述影響力大于用戶預設的第二閾值的用戶名作為所述特定社區(qū)的標簽。
[0006]此外,根據(jù)本發(fā)明的一個實施例,所述的信息處理方法進一步包括:當有特定用戶名關注所述特定社區(qū)中的一個用戶名時,根據(jù)所述特定社區(qū)中的被關注的用戶名的影響力以及所述特定社區(qū)的特定詞匯的權(quán)重來計算是否能夠用所述特定社區(qū)中的所述特定詞匯作為所述特定用戶的標簽。
[0007]此外,根據(jù)本發(fā)明的一個實施例,所述的信息處理方法,進一步包括:當所述特定社區(qū)中的第一用戶發(fā)布了第一信息時,將所述第一信息推薦給所述特定社區(qū)中的除第一用戶以外的其他用戶。
[0008]—種信息處理裝置,所述信息處理裝置包括:獲取單元,經(jīng)配置來獲取第一信息集合,所述第一信息集合包括第一組多個用戶名和多個詞匯;訓練單元,經(jīng)配置來使用語言模型來訓練所述第一信息集合,得到第一多維向量集合,所述第一多維向量集合中的一個多維向量表示所述第一組多個用戶名和多個詞匯中的一個詞匯或者一個用戶名;以及分類單元,經(jīng)配置來根據(jù)所述第一多維向量集合中的每個多維向量表示的第一組多個用戶名和多個詞匯中的各個詞匯和各個用戶名相互之間的相似度來對所述第一組多個用戶名和多個詞匯進行聚類,將所述第一組多個用戶名和多個詞匯劃分為第一多個社區(qū)。
[0009]此外,根據(jù)本發(fā)明的一個實施例,其中,所述的信息處理裝置進一步包括:相似度建立單元,經(jīng)配置來根據(jù)表示特定社區(qū)中的各個詞匯和各個用戶名之間的相似度的多維向量來建立相似度網(wǎng)絡,以及社區(qū)表示單元,經(jīng)配置來根據(jù)隨機游走算法確定對應于所述特定社區(qū)中的每個詞匯的權(quán)重,使用權(quán)重大于用戶預設的第一閾值的詞匯作為所述特定社區(qū)的標簽。
[0010]此外,根據(jù)本發(fā)明的一個實施例,其中,所述社區(qū)表示單元進一步經(jīng)配置來:根據(jù)所述相似度網(wǎng)絡來計算所述特定社區(qū)中每個用戶名對于所述特定社區(qū)的影響力,使用所述影響力大于用戶預設的第二閾值的用戶名作為所述特定社區(qū)的標簽。
[0011]此外,根據(jù)本發(fā)明的一個實施例,其中,所述社區(qū)表示單元進一步包括:計算單元,當有特定用戶名關注所述特定社區(qū)中的一個用戶名,則所述計算單元經(jīng)配置來根據(jù)所述特定社區(qū)中的被關注的用戶名的影響力以及所述特定社區(qū)的特定詞匯的權(quán)重來計算是否能夠用所述特定社區(qū)中的所述特定詞匯作為所述特定用戶的標簽。
[0012]此外,根據(jù)本發(fā)明的一個實施例,其中,所述的信息處理裝置,進一步包括:推薦單元,當所述特定社區(qū)中的第一用戶發(fā)布了第一信息時,所述推薦單元經(jīng)配置來將所述第一信息推薦給所述特定社區(qū)中的除第一用戶以外的其他用戶。
[0013]由此可見,本發(fā)明提供的用于社交網(wǎng)絡的信息處理方法和裝置,在進行社區(qū)發(fā)現(xiàn)時,能夠綜合考慮用戶名的網(wǎng)絡結(jié)構(gòu),信息內(nèi)容和信息傳遞;并且可以獲取足夠數(shù)量和種類的標簽來標識所發(fā)現(xiàn)的社區(qū);同時,本發(fā)明提供的用于社交網(wǎng)絡的信息處理方法和裝置,不涉及復雜網(wǎng)絡的計算,速度更快,更加高效和實用,提高了用戶的使用體驗。
【附圖說明】
[0014]為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例的描述中所需要使用的附圖作簡單地介紹。下面描述中的附圖僅僅是本發(fā)明的示例性實施例:
[0015]圖1示出了根據(jù)本發(fā)明實施例的應用于一電子設備的信息處理方法100的流程圖;
[0016]圖2示出了根據(jù)本發(fā)明實施例的應用于一電子設備的信息處理裝置200的示范性結(jié)構(gòu)框圖。
【具體實施方式】
[0017]為了使得本發(fā)明的目的、技術(shù)方案和優(yōu)點更為明顯,下面將參照附圖詳細描述根據(jù)本發(fā)明的示例實施例。顯然,所描述的實施例僅僅是本發(fā)明的一部分實施例,而不是本發(fā)明的全部實施例,應理解,本發(fā)明不受這里描述的示例實施例的限制?;诒竟_中描述的本發(fā)明實施例,本領域技術(shù)人員在沒有付出創(chuàng)造性勞動的情況下所得到的所有其它實施例都應落入本發(fā)明的保護范圍之內(nèi)。
[0018]以下,將參考附圖詳細描述本發(fā)明的優(yōu)選實施例。
[0019]圖1示出了根據(jù)本發(fā)明實施例的應用于一電子設備的信息處理方法100的流程圖。其中,所述信息處理方法100可以用于進行社區(qū)發(fā)現(xiàn),此外,在本發(fā)明的一個實施例中,所述信息處理方法100還可以用于獲取標簽來標識所發(fā)現(xiàn)的社區(qū)。
[0020]下面,將參照圖1來描述根據(jù)本發(fā)明的一個實施例的語料處理方法100。如圖1所示,首先,在步驟SllO中,獲取第一信息集合,所述第一信息集合包括第一組多個用戶名和多個詞匯。一般地,第一信息集合中的每條信息都可以從社交網(wǎng)站上獲取,其中,從社交網(wǎng)站上獲取的信息既包括用戶名還可以包括用戶名以外的詞匯,用戶名與詞匯可以互為上下文。在本發(fā)明的一個示例中,詞匯可以從用戶名的標簽、職位、專業(yè)以及所發(fā)布信息內(nèi)容等中獲取。
[0021]接下來,在步驟S120中,使用語言模型來訓練所述第一信息集合,得到第一多維向量集合,所述第一多維向量集合中的一個多維向量表示所述第一組多個用戶名和多個詞匯中的一個詞匯或者一個用戶名。具體而言,語言模型一般是指根據(jù)語言客觀事實而進行的語言抽象數(shù)學建模,通過使用語言模型可以建立一個能夠描述給定詞序列在語言中的出現(xiàn)的概率的分布。在本發(fā)明的一個實施例中,所述語言模型可以是多層反饋神