本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的系統(tǒng)及方法。
背景技術(shù):
在線社交軟件的發(fā)展,極大地方便了人們之間的聯(lián)系。人們之間的溝通更多的借助于在線社交軟件提供的平臺(tái),廉價(jià)、快速的交換消息,從而免去了線下交流帶來(lái)的不便。
目前,在線社交平臺(tái)提供的消息交換形式主要分為兩種,一種是點(diǎn)對(duì)點(diǎn)形式,另一種是群組聊天形式。在點(diǎn)對(duì)點(diǎn)消息交互中,用戶之間的關(guān)系簡(jiǎn)單明確,交流行為可以明確判定,因此可以很容易根據(jù)用戶之間是否有消息交互行為,交互頻率等特征將兩個(gè)用戶進(jìn)行關(guān)聯(lián)。
但是,在群聊形式中,用戶(即群成員)之間的交互行為并沒(méi)有類似點(diǎn)對(duì)點(diǎn)形式中清晰明確的判定方法。例如,(1)群組中多個(gè)群成員之間交叉發(fā)言,某一個(gè)成員的某條回復(fù)可能是同時(shí)對(duì)多個(gè)群成員的回應(yīng),也可能只是對(duì)之前某個(gè)群成員的回應(yīng),需要判定群聊中每條發(fā)言內(nèi)容是對(duì)哪些發(fā)言內(nèi)容的回復(fù);(2)群聊內(nèi)容多為短文本,并且?guī)в泻軓?qiáng)的口語(yǔ)化特征,在判定兩個(gè)文本之間的相似性的時(shí)候不太適用長(zhǎng)文本的計(jì)算方法。(3)某個(gè)群成員可能在群中是消息的發(fā)布者而其他成員是消息的接收者,需要找到一種方法能區(qū)分出發(fā)布者和接收者。群聊的上述特征使得群組成員間的關(guān)聯(lián)關(guān)系較難判斷。
技術(shù)實(shí)現(xiàn)要素:
發(fā)明目的:針對(duì)現(xiàn)有技術(shù)解決上述問(wèn)題,本發(fā)明提出了一種基于在線社交平臺(tái)的群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的方法和系統(tǒng)。本方法和系統(tǒng)能夠基于群成員在群組內(nèi)的發(fā)言內(nèi)容、發(fā)言時(shí)間等特征,判斷群中哪些成員之間的具有交流關(guān)系以及交流密切程度,并據(jù)此將群組中交互關(guān)系密切的成員進(jìn)行關(guān)聯(lián),最后以可視化的方式展現(xiàn)關(guān)聯(lián)關(guān)系以及關(guān)聯(lián)密切程度。
技術(shù)方案:一種基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的方法,包括以下步驟:
步驟1:獲取并分析在線社交平臺(tái)的群聊數(shù)據(jù),對(duì)群聊消息做處理并抽取出表征群成員交互行為的群聊特征;
步驟2:分析在線社交網(wǎng)絡(luò)中群聊消息的語(yǔ)篇情境,并根據(jù)不同的語(yǔ)篇情境設(shè)計(jì)不同的啟發(fā)式規(guī)則來(lái)判斷群成員之間是否具有交流行為;
步驟3:遍歷群聊數(shù)據(jù),根據(jù)群聊片段所處的語(yǔ)篇情境,選擇相應(yīng)的啟發(fā)式規(guī)則判斷消息片段之間是否具有交流關(guān)系,并根據(jù)交流行為的密切程度賦予消息發(fā)送成員之間相應(yīng)權(quán)重。在該步驟中,依據(jù)時(shí)間先后順序遍歷群聊數(shù)據(jù),每次選擇群中不同群成員所發(fā)表的兩條消息,然后根據(jù)啟發(fā)式規(guī)則判斷這兩條消息處于何種語(yǔ)篇情境下,接著根據(jù)不同的語(yǔ)篇情境選擇相應(yīng)的啟發(fā)式規(guī)則來(lái)判斷這兩條消息片段之間是否具有交流行為。若判斷為有交流行為,則計(jì)算這兩條發(fā)言片段之間的關(guān)聯(lián)程度的權(quán)重值,同時(shí)查找發(fā)布這兩條發(fā)言片段的兩個(gè)群成員之間是否有關(guān)聯(lián)關(guān)系,若群成員之間沒(méi)有關(guān)聯(lián)關(guān)系,則將這兩個(gè)群成員之間添加關(guān)聯(lián)關(guān)系,并將消息關(guān)聯(lián)程度的權(quán)重值賦予此關(guān)聯(lián)關(guān)系,作為群成員之間的關(guān)聯(lián)程度;若群成員之間已經(jīng)具有關(guān)聯(lián)關(guān)系,則將消息關(guān)聯(lián)程度的權(quán)重賦予值累加到原先的權(quán)重值中,更新關(guān)聯(lián)權(quán)重值。最后通過(guò)遍歷所有不同群成員之間所發(fā)的所有消息來(lái)確定不同群成員之間是否具關(guān)聯(lián)關(guān)系以及關(guān)聯(lián)強(qiáng)弱程度。
所述步驟1中所獲取的在線社交平臺(tái)的群聊數(shù)據(jù)包含了一個(gè)或者多個(gè)群的全部群聊數(shù)據(jù)或者其在某個(gè)時(shí)間段內(nèi)的群聊數(shù)據(jù),所述群聊數(shù)據(jù)包括:群成員信息、群聊消息的發(fā)送方、群聊消息的發(fā)送時(shí)間、群聊消息的具體內(nèi)容。
所述步驟1中對(duì)群聊消息進(jìn)行處理的方法具體包括:將所獲取的群聊數(shù)據(jù)進(jìn)行清洗與預(yù)處理,剔除非群成員發(fā)布的消息;拆分群聊內(nèi)容,將每個(gè)群成員的每一條發(fā)言行為的發(fā)言時(shí)間、發(fā)言內(nèi)容作為一條單獨(dú)的待分析數(shù)據(jù)保存。
所述步驟1中所抽取的表征群成員交互行為的群聊特征具體包括如下六種:直接提名特征、時(shí)序特征、對(duì)話密度特征、文本相似性特征、回應(yīng)詞特征、非文本類數(shù)據(jù)特征。
所述步驟2具體包括:分析并歸納在線群聊內(nèi)容中出現(xiàn)的不同語(yǔ)篇情境,并設(shè)計(jì)如下三種啟發(fā)式規(guī)則:應(yīng)答語(yǔ)篇情境下啟發(fā)式規(guī)則、孤立語(yǔ)篇情境下啟發(fā)式規(guī)則和其他語(yǔ)篇情境下啟發(fā)式規(guī)則。每種規(guī)則都會(huì)選擇不同的群聊交互特征,組合并賦予每種特征一定的權(quán)重來(lái)綜合判定兩條不同消息片段之間是否具有交流關(guān)系,同時(shí)能判定交流關(guān)系強(qiáng)弱。
所述每種啟發(fā)式規(guī)則都選擇不同的群聊群成員交互行為特征,組合并賦予每種特征一定的權(quán)重來(lái)綜合判定兩條不同消息片段之間是否具有交流關(guān)系,同時(shí)能判定交流關(guān)系強(qiáng)弱。
一種基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的系統(tǒng),包含以下模塊:
群聊數(shù)據(jù)獲取模塊,用于獲取某個(gè)群或某些群的全部群聊消息或者在某個(gè)時(shí)間跨度內(nèi)的群聊消息,并將獲取的群聊數(shù)據(jù)保存在本地存儲(chǔ)模塊中以待分析;
群成員關(guān)聯(lián)關(guān)系計(jì)算模塊,用于計(jì)算待分析群組中成員之間的關(guān)聯(lián)關(guān)系,同時(shí)將計(jì)算所得的關(guān)聯(lián)關(guān)系結(jié)果保存在數(shù)據(jù)庫(kù)中;
群成員關(guān)聯(lián)關(guān)系可視化模塊,用于將群成員之間的關(guān)聯(lián)關(guān)系用網(wǎng)絡(luò)的方式展現(xiàn)出來(lái);該模塊根據(jù)群成員關(guān)聯(lián)關(guān)系計(jì)算模塊中計(jì)算得到的關(guān)聯(lián)消息,將群成員之間的關(guān)聯(lián)關(guān)系用網(wǎng)絡(luò)的方式可視化的展現(xiàn)出來(lái)。其中,不同群成員用不同的點(diǎn)表示,群成員之間的關(guān)聯(lián)關(guān)系用有向邊來(lái)表示。
本地存儲(chǔ)模塊,用于存儲(chǔ)群聊數(shù)據(jù)以及群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)。
所述群聊數(shù)據(jù)獲取模塊將獲取的群聊數(shù)據(jù)保存在本地存儲(chǔ)模塊;所述群成員關(guān)聯(lián)關(guān)系計(jì)算模塊從本地存儲(chǔ)模塊中取群聊數(shù)據(jù)加以分析計(jì)算,并將計(jì)算得到的群成員關(guān)聯(lián)關(guān)系存儲(chǔ)到本地存儲(chǔ)模塊中;所述群成員關(guān)聯(lián)關(guān)系可視化模塊從本地存儲(chǔ)模塊或者群成員關(guān)聯(lián)關(guān)系計(jì)算模塊中取群成員關(guān)聯(lián)關(guān)系數(shù)據(jù),并加以可視化。
有益效果:相對(duì)于現(xiàn)有技術(shù),本發(fā)明通過(guò)分析群的群聊內(nèi)容來(lái)將群中具有交流行為的群成員之間建立關(guān)聯(lián)關(guān)系,并能通過(guò)權(quán)重區(qū)分不同群成員之間關(guān)聯(lián)程度強(qiáng)弱,最后通過(guò)可視化模塊將群成員之間的相互關(guān)聯(lián)關(guān)系展示出來(lái)。本發(fā)明彌補(bǔ)了現(xiàn)有技術(shù)中根據(jù)群聊內(nèi)容關(guān)聯(lián)群成員技術(shù)的缺失,并且能快速分析群成員之間的關(guān)聯(lián)關(guān)系。
附圖說(shuō)明
圖1為本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖;
圖2為本發(fā)明的方法流程圖;
圖3為本發(fā)明的方法中步驟1的具體步驟流程圖;
圖4為本發(fā)明的方法中步驟3的具體步驟流程圖;
圖5為本發(fā)明的實(shí)施例一的具體實(shí)施方法步驟流程圖;
圖6為本發(fā)明的群成員關(guān)聯(lián)關(guān)系可視化展示方式示例圖。
具體實(shí)施方式
下面將結(jié)合附圖,對(duì)本發(fā)明的實(shí)施案例進(jìn)行詳細(xì)的描述;
圖1所示的是本發(fā)明的系統(tǒng)結(jié)構(gòu)示意圖,該圖描述了本系統(tǒng)的組成模塊以及每個(gè)模塊之間的聯(lián)系。
本系統(tǒng)由群聊數(shù)據(jù)獲取模塊1、本地存儲(chǔ)模塊2、群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3、群成員關(guān)聯(lián)關(guān)系可視化模塊4組成。以下具體介紹每個(gè)模塊的作用以及模塊之間的配合關(guān)系。
群聊數(shù)據(jù)獲取模塊1。該模塊可以根據(jù)待分析需求,選擇從社交服務(wù)提供商平臺(tái)的服務(wù)器端或者數(shù)據(jù)庫(kù)中提取出某個(gè)群或者某些群的完整聊天記錄,或者在某個(gè)時(shí)間段內(nèi)的聊天記錄,該模塊取得的群聊數(shù)據(jù)存入本地存儲(chǔ)模塊2中,以待進(jìn)一步分析處理群聊內(nèi)容。
本地存儲(chǔ)模塊2。該模塊用于保存從群聊數(shù)據(jù)獲取模塊1中取得的群聊內(nèi)容,或者保存群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3中計(jì)算所得的群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)。
群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3。該模塊從本地存儲(chǔ)模塊2中提取需要分析的群成員的群聊內(nèi)容,然后用本發(fā)明中提出的基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的方法,計(jì)算群成員之間的關(guān)聯(lián)關(guān)系,所得結(jié)果保存在本地存儲(chǔ)模塊2中,并且可以同時(shí)傳送給群成員關(guān)聯(lián)關(guān)系可視化模塊4。
群成員關(guān)聯(lián)關(guān)系可視化模塊4。該模塊可以從本地存儲(chǔ)模塊2中取得已經(jīng)完成的群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)并加以可視化;也可以直接接受群成員關(guān)聯(lián)關(guān)系計(jì)算模塊計(jì)算得到的數(shù)據(jù)并加以可視化。
該系統(tǒng)的各個(gè)模塊之間的配合流程為:群聊數(shù)據(jù)獲取模塊1獲取群聊數(shù)據(jù)并保存到本地存儲(chǔ)模塊2中;群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3從本地存儲(chǔ)模塊2中取出群聊數(shù)據(jù)并加以分析計(jì)算,將計(jì)算所得的群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)保存到本地存儲(chǔ)模塊2,或者同時(shí)將該數(shù)據(jù)傳遞給群成員關(guān)聯(lián)關(guān)系可視化模塊4;群成員關(guān)聯(lián)關(guān)系可視化模塊4從群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3或者本地存儲(chǔ)模塊2中提取群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)并加以可視化。
其中,群成員關(guān)聯(lián)關(guān)系計(jì)算模塊3中所用到的計(jì)算方法便是本發(fā)明提出的基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的方法。以下結(jié)合流程圖具體說(shuō)明該方法。
圖2所示是本發(fā)明中提出的基于在線社交平臺(tái)群聊數(shù)據(jù)對(duì)群成員進(jìn)行關(guān)聯(lián)的方法的流程圖,該方法具體包括以下步驟:
步驟S1,獲取并分析群聊數(shù)據(jù),對(duì)群聊消息做處理并抽取出能夠表征群成員交互行為的群聊特征。
該步驟中又具體包含如下三個(gè)步驟,如圖3所示,具體包含:
步驟S1.1,獲取群聊數(shù)據(jù)。該步驟獲取在線社交平臺(tái)的群聊數(shù)據(jù),這些數(shù)據(jù)包括一個(gè)或者多個(gè)群的全部群聊消息或者其在某個(gè)時(shí)間段內(nèi)的群聊消息。這些群聊消息包括:群成員消息、群聊消息的發(fā)送方、群聊消息的發(fā)送時(shí)間、群聊消息的具體內(nèi)容。
步驟S1.2,對(duì)群聊數(shù)據(jù)進(jìn)行清洗與預(yù)處理。該步驟中需要剔除系統(tǒng)通知等非群成員發(fā)布的消息,并且需要?jiǎng)澐秩毫臄?shù)據(jù),提取出群聊消息的發(fā)送者、發(fā)送時(shí)間以及發(fā)送內(nèi)容。然后對(duì)每條消息的文本內(nèi)容進(jìn)行分詞處理,并且將已經(jīng)分好的文本過(guò)濾停用詞,將對(duì)文本處理沒(méi)有意義的詞組過(guò)濾掉。
步驟S1.3,分析群聊內(nèi)容特點(diǎn)并抽取出能夠表征群成員間交互行為的特征。在本發(fā)明中,定義了如下六種群聊交互特征。
(1)直接提名特征。該特征具體定義為:對(duì)于群聊中的成員A與成員B,若成員A發(fā)布的某條消息中含有成員B的名稱,則認(rèn)為成員A在向成員B發(fā)送消息。
(2)時(shí)序特征。該特征具體定義為:對(duì)于成員A和成員B之間待分析的兩條消息片段,成員A的消息先于成員B的消息出現(xiàn),兩個(gè)消息片段之間出現(xiàn)的時(shí)間間隔大于最小時(shí)間間隔閾值并且小于最大時(shí)間間隔閾值,則認(rèn)為成員B所發(fā)送的消息與成員A之間構(gòu)成交流關(guān)系。其中最大時(shí)間間隔閾值和最小時(shí)間間隔閾值是人為設(shè)定的一個(gè)時(shí)間閾值。
(3)對(duì)話密度特征。該特征具體定義為:對(duì)于一段時(shí)間內(nèi)的群聊內(nèi)容,若檢測(cè)出多次出現(xiàn)成員A與成員B,則統(tǒng)計(jì)該時(shí)間段內(nèi)成員A與成員B所發(fā)出消息總數(shù),并且統(tǒng)計(jì)該時(shí)間段內(nèi)所有成員所發(fā)出消息總量,然后根據(jù)成員A與成員B所發(fā)消息總數(shù)和所有成員所發(fā)消息總數(shù)來(lái)計(jì)算對(duì)話密度。本發(fā)明中,該密度特征計(jì)算方式為用成員A與成員B所發(fā)消息總數(shù)除以這段時(shí)間內(nèi)所有成員所發(fā)消息總數(shù)來(lái)決定的。
(4)文本相似性特征。該特征具體定義為:對(duì)于成員A和成員B之間待分析的兩條消息片段,首先構(gòu)造出這兩個(gè)消息片段的文本向量,然后對(duì)兩個(gè)文本向量中的詞組做同義詞近義詞處理,最后使用余弦相似性計(jì)算文本之間的相似程度。若計(jì)算所得的值大于設(shè)定閾值,則認(rèn)為這兩個(gè)文本之間具有文本相似性。
(5)回應(yīng)詞特征。該特征具體定義為:若成員A發(fā)布的消息為問(wèn)答、問(wèn)候等形式,成員B隨后發(fā)布了一條具有回應(yīng)性質(zhì)的消息,并且兩個(gè)成員發(fā)布消息的時(shí)間間隔小于規(guī)定的閾值,則認(rèn)為成員B所發(fā)消息是對(duì)成員A所發(fā)消息的一種回應(yīng)。
(6)非文本類數(shù)據(jù)特征。該特征具體定義為:當(dāng)遇到表情、圖片、語(yǔ)音、視頻或者鏈接等非文本類消息時(shí)候,對(duì)這類消息做統(tǒng)一處理。對(duì)兩個(gè)在時(shí)間上緊密相鄰的消息片段,若其中任何一個(gè)消息中包含此類非文本類消息,則認(rèn)為這兩個(gè)消息之間存在交互關(guān)系。
步驟S2,分析在線社交網(wǎng)絡(luò)中群聊消息的語(yǔ)篇情境,并根據(jù)不同的語(yǔ)篇情境設(shè)計(jì)不同的啟發(fā)式規(guī)則來(lái)判斷群成員之間是否具有交流行為。
在該步驟中,本發(fā)明通過(guò)研究與分析群聊內(nèi)成員的溝通特點(diǎn),總結(jié)了如下幾種群聊中常見(jiàn)的語(yǔ)篇情境,并針對(duì)每種語(yǔ)篇情境選取了不同的群聊交互特征來(lái)構(gòu)建啟發(fā)式規(guī)則。每種規(guī)則都會(huì)選擇不同的群聊交互特征,組合并賦予每種特征賦予一定的權(quán)重來(lái)綜合判定兩條不同消息片段之間是否具有交流關(guān)系,同時(shí)能判定交流關(guān)系強(qiáng)弱。
(1)應(yīng)答語(yǔ)篇情境下啟發(fā)式規(guī)則。該啟發(fā)式規(guī)則具體定義為:首先判斷待分析的兩條消息片段所處的會(huì)話語(yǔ)篇情境是否為回應(yīng)情境。判斷方法是通過(guò)語(yǔ)料庫(kù)匹配會(huì)話消息——若在一段內(nèi)容中匹配到多個(gè)帶有回應(yīng)性質(zhì)的詞組,則認(rèn)為該會(huì)話情境為應(yīng)答語(yǔ)篇情境。然后選取直接提名特征,回應(yīng)詞特征、非文本數(shù)據(jù)特征作為待分析特征。接著分別用上述三種特征去分別判斷成員A與成員B之間的兩條消息片段是否符合上述特征,若符合某個(gè)特征,則該特征值取1,否則取值0。最后用如下公式加權(quán)計(jì)算該啟發(fā)式規(guī)則權(quán)重:
weight應(yīng)答(A,B)=a×直接提名特征+b×回應(yīng)詞特征+c×非文本類數(shù)據(jù)特征
其中的a、b和c是系數(shù)。若weight應(yīng)答(A,B)計(jì)算所得的值大于設(shè)定的閾值T應(yīng)答,則判定兩個(gè)消息片段之間具有交流關(guān)系。
(2)孤立語(yǔ)篇情境下啟發(fā)式規(guī)則。該啟發(fā)式規(guī)則具體定義為:若檢測(cè)到成員A的發(fā)言片段與其前繼消息和后繼消息的時(shí)間間隔都大于一個(gè)給定時(shí)間閾值,則認(rèn)為其發(fā)言情境為孤立語(yǔ)篇情境。接著搜尋成員A的后繼成員B所發(fā)布的消息,若成員B所發(fā)布的消息仍然構(gòu)成孤立語(yǔ)篇情境,則直接認(rèn)定B所發(fā)布的消息是對(duì)A的回應(yīng),將成員A與成員B之間賦予一定權(quán)重;若成員B的消息不構(gòu)成孤立效應(yīng),則選取直接提名特征、文本相似性特征、回應(yīng)詞特征和非文本類數(shù)據(jù)特征。接著分別用上述四種特征去分別判斷成員A與成員B之間的兩條消息片段是否符合上述特征,若符合某個(gè)特征,則該特征值取1,否則取值0。最后用如下公式加權(quán)計(jì)算該啟發(fā)式規(guī)則權(quán)重:
weight孤立(A,B)=d×直接提名特征+e×文本相似性特征+f×回應(yīng)詞特征+g×非文本類數(shù)據(jù)特征
其中的d、e、f和g是系數(shù)。若weight孤立(A,B)計(jì)算所得的值大于設(shè)定的閾值T孤立,則判定兩個(gè)消息片段之間具有交流關(guān)系。
(3)其他語(yǔ)篇情境下啟發(fā)式規(guī)則。除了應(yīng)答語(yǔ)篇情境和孤立語(yǔ)篇情境之外的語(yǔ)篇情境都?xì)w類于其他語(yǔ)篇情境。該啟發(fā)式規(guī)則具體定義為:對(duì)于成員A和成員B的兩條消息片段,直接選取直接提名特征、時(shí)序特征、對(duì)話密度特征、文本相似性特征、回應(yīng)詞特征和非文本類特征。賦予此六種特征相應(yīng)權(quán)重。接著分別用上述六種特征去分別判斷成員A與成員B之間的兩條消息片段是否符合上述特征,若符合某個(gè)特征,則該特征的取值1,否則取值0。最后用如下公式加權(quán)計(jì)算該啟發(fā)式規(guī)則權(quán)重:
weight其他(A,B)=h×直接提名特征+i×?xí)r序特征+j×對(duì)話密度特征+k×文本相似性特征+m×回應(yīng)詞特征+n×非文本類特征
其中,h、i、j、k、m和n是系數(shù)。若weight其他(A,B)計(jì)算所得的值大于設(shè)定的閾值T其他,則判定兩個(gè)消息片段之間具有交流關(guān)系。
步驟S3。遍歷群聊數(shù)據(jù)并根據(jù)群聊片段所處的語(yǔ)篇情境,選擇相應(yīng)的啟發(fā)式規(guī)則判斷消息片段之間是否具有交流關(guān)系,并根據(jù)交流行為的密切程度賦予相應(yīng)權(quán)重。
該步驟中又具體包含如下五個(gè)步驟,如圖4所示,具體包含:
步驟S3.1,選擇兩個(gè)不同的群成員的兩條發(fā)言片段。該步驟中,依照時(shí)間先后順序遍歷群聊數(shù)據(jù)。每次選擇群中不同群成員所發(fā)表的兩條消息。這一步中選擇的兩個(gè)消息片段之間的時(shí)間差不應(yīng)當(dāng)大于設(shè)定的最大時(shí)間間隔閾值。定義時(shí)間上先發(fā)生的消息片段的發(fā)送者為成員A,時(shí)間上后發(fā)生的消息片段的發(fā)送者為成員B。
步驟S3.2,判斷發(fā)言片段所處語(yǔ)篇情境并選擇對(duì)應(yīng)的啟發(fā)式規(guī)則計(jì)算權(quán)重。該步驟中,依次選擇應(yīng)答語(yǔ)篇情境下啟發(fā)式規(guī)則、孤立語(yǔ)篇情境下啟發(fā)式規(guī)則和其他語(yǔ)篇情境下啟發(fā)式規(guī)則來(lái)判斷步驟S3.1中的兩個(gè)消息屬于何種語(yǔ)篇情境。若這兩個(gè)消息片段滿足某個(gè)啟發(fā)式規(guī)則,則用該規(guī)則來(lái)判斷并計(jì)算這兩個(gè)消息之間是否具有關(guān)聯(lián)關(guān)系以及權(quán)重。
步驟S3.3,更新這兩個(gè)群成員之間的關(guān)聯(lián)關(guān)系。在該步驟中,根據(jù)上一步中計(jì)算所得的結(jié)果來(lái)更新群成員之間的關(guān)聯(lián)關(guān)系。若上一步中判定兩個(gè)消息片段之間具有關(guān)聯(lián)關(guān)系并且兩個(gè)消息片段的發(fā)送者并沒(méi)有被關(guān)聯(lián),則將發(fā)送這兩個(gè)消息的群成員之間添加關(guān)聯(lián)關(guān)系,關(guān)聯(lián)關(guān)系用有向線段表示,有向線段從成員A指向成員B,有向線段的權(quán)重為上一步中計(jì)算所得權(quán)重;若上一步中判定兩個(gè)消息片段之間具有關(guān)聯(lián)關(guān)系并且兩個(gè)消息片段的發(fā)送者之間已經(jīng)具有關(guān)聯(lián)關(guān)系了,則將上一步計(jì)算所得的權(quán)重累加至原先的權(quán)重中,更新權(quán)重值;若上一步中判定兩個(gè)消息片段之間沒(méi)有關(guān)聯(lián)關(guān)系,則跳過(guò)這個(gè)步驟。
步驟S3.4,判斷是否所有消息片段之間都被處理過(guò)。若仍有消息片段之間未處理過(guò),則返回步驟S3.1,否則跳到步驟S3.5。
步驟S3.5,輸出群成員之間的關(guān)聯(lián)關(guān)系。
以下通過(guò)一個(gè)具體實(shí)施例描述本發(fā)明。
實(shí)施例一,參見(jiàn)圖5,包括下列具體步驟:
步驟S101,開(kāi)始。
步驟S102,判斷群成員的可視化關(guān)系數(shù)據(jù)是否已經(jīng)存儲(chǔ)在本地存儲(chǔ)模塊中,若已經(jīng)存在,則跳轉(zhuǎn)到步驟S107,否則跳轉(zhuǎn)到步驟S103。
步驟S103,判斷群聊數(shù)據(jù)是否已經(jīng)存儲(chǔ)在本地存儲(chǔ)模塊中,若已經(jīng)存在,則跳轉(zhuǎn)到步驟S105,否則跳轉(zhuǎn)到步驟S104。
步驟S104,群聊數(shù)據(jù)獲取模塊根據(jù)待分析需求,選擇從社交服務(wù)提供商平臺(tái)的服務(wù)器端或者數(shù)據(jù)庫(kù)中提取出某個(gè)群或者某些群的完整聊天記錄,或者在某個(gè)時(shí)間段內(nèi)的聊天記錄,并將取得的群聊數(shù)據(jù)存入本地存儲(chǔ)模塊。
步驟S105,該步驟從本地存儲(chǔ)模塊中提取出群聊數(shù)據(jù)并將按照?qǐng)D2中的S1步驟中的方法對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。
步驟S106,計(jì)算并存儲(chǔ)群成員可視化關(guān)系。該步驟中計(jì)算群成員可視化關(guān)系的方法按照?qǐng)D2中的S2和S3的所述步驟計(jì)算。計(jì)算所得結(jié)果保存在本地存儲(chǔ)模塊中。
步驟S107,獲取可視化關(guān)系數(shù)據(jù)。在該步驟中,從本地?cái)?shù)據(jù)存儲(chǔ)模塊中提取出群成員關(guān)聯(lián)關(guān)系數(shù)據(jù)。
步驟S108,群成員關(guān)聯(lián)關(guān)系可視化模塊對(duì)群成員關(guān)聯(lián)關(guān)系進(jìn)行可視化展示。
步驟S109,結(jié)束。
圖6為群成員關(guān)聯(lián)關(guān)系可視化模塊對(duì)群成員關(guān)聯(lián)關(guān)系進(jìn)行展示的示例圖,該圖中群成員用點(diǎn)表示,群成員之間的關(guān)聯(lián)關(guān)系用有向邊表示,有向邊的方向代表交互進(jìn)行方向,有向邊的粗細(xì)代表關(guān)聯(lián)關(guān)系緊密程度。該系統(tǒng)能十分直觀的展示群成員之間的關(guān)聯(lián)關(guān)系。
本發(fā)明屬于信息技術(shù)領(lǐng)域。該方法包括:獲取并分析群聊數(shù)據(jù),對(duì)群聊信息做處理并抽取出能夠表征群成員交互行為的群聊特征;分析在線社交網(wǎng)絡(luò)中群聊信息的語(yǔ)篇情境,并根據(jù)不同的語(yǔ)篇情境設(shè)計(jì)不同的啟發(fā)式規(guī)則來(lái)判斷群成員之間是否具有交流行為;遍歷群聊數(shù)據(jù)并根據(jù)群聊片段所處的語(yǔ)篇情境,選擇相應(yīng)的啟發(fā)式規(guī)則判斷消息片段之間是否具有交流關(guān)系,并根據(jù)交流行為的密切程度賦予相應(yīng)權(quán)重;將群成員的關(guān)聯(lián)關(guān)系以圖論的形式可視化的展示出來(lái)。本發(fā)明彌補(bǔ)了現(xiàn)有技術(shù)中根據(jù)群聊內(nèi)容關(guān)聯(lián)群成員技術(shù)的缺失。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。