數(shù)據(jù)處理方法和設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)處理方法和設(shè)備,該方法可以包括:活躍時間區(qū)間確定步驟,用于確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間;關(guān)鍵詞提取步驟,用于從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及話題確定步驟,用于基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。根據(jù)本發(fā)明,可以挖掘特定微博用戶群在不同的活躍時間區(qū)間內(nèi)所關(guān)注的話題,從而有針對性地進(jìn)行信息發(fā)布和獲取,大大提高了信息處理的效率。
【專利說明】數(shù)據(jù)處理方法和設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種數(shù)據(jù)處理方法和設(shè)備,更具體地,涉及一種能夠挖掘在特定時間區(qū)間內(nèi)不同用戶群所關(guān)注的話題的、基于微博的數(shù)據(jù)處理方法和設(shè)備。
【背景技術(shù)】
[0002]近年來,隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,微博(micro-blog)已逐漸成為人們溝通交流的重要方式之一。如何在龐雜的網(wǎng)絡(luò)數(shù)據(jù)中挖掘所需的信息以更高效地進(jìn)行數(shù)據(jù)處理已對互聯(lián)網(wǎng)技術(shù)提出了新的挑戰(zhàn)。
[0003]例如,對于一般的上班族,在工作日,其在微博的活躍時間區(qū)間可能集中在例如上午8點(diǎn)半至9點(diǎn)半和下午I點(diǎn)至2點(diǎn)之間(即,投入工作之前的一段時間)以及晚上8點(diǎn)半至10點(diǎn)半卿,飯后休閑時間)等等,而在周末,其活躍時間區(qū)間可能大大不同于工作日期間的活躍時間區(qū)間。因此,需要一種能夠確定不同用戶群在不同活躍時間區(qū)間內(nèi)所關(guān)注的話題以有針對性地進(jìn)行信息發(fā)布和獲取,從而大大提高數(shù)據(jù)處理效率的技術(shù)。
【發(fā)明內(nèi)容】
[0004]在下文中給出了關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。但是,應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖用來確定本發(fā)明的關(guān)鍵性部分或重要部分,也不是意圖用來限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出關(guān)于本發(fā)明的某些概念,以此作為稍后給出的更詳細(xì)描述的前序。
[0005]因此,鑒于上述情形,本發(fā)明的目的是提供一種數(shù)據(jù)處理方法和設(shè)備,其能夠通過針對特定微博用戶群的不同活躍時間區(qū)間,確定在該活躍時間區(qū)間內(nèi)各用戶群所關(guān)注的話題,從而可以使得用戶能夠有針對性地發(fā)布信息以及高效地獲取所需的信息。
[0006]為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的實(shí)施例的一個方面,提供了 一種數(shù)據(jù)處理方法,包括:活躍時間區(qū)間確定步驟,用于確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間;關(guān)鍵詞提取步驟,用于從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及話題確定步驟,用于基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0007]根據(jù)本發(fā)明的優(yōu)選實(shí)施例,在活躍時間區(qū)間確定步驟中,確定具有相似活躍習(xí)慣的微博用戶群可以進(jìn)一步包括用戶向量構(gòu)建子步驟,用于根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量;邊確定子步驟,基于各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊;微博用戶群構(gòu)建子步驟,用于基于所確定的邊,構(gòu)建具有相似活躍習(xí)慣的微博用戶群;以及關(guān)注用戶確定子步驟,用于基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對該微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于權(quán)威度從微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為關(guān)注用戶。
[0008]根據(jù)本發(fā)明的另一優(yōu)選實(shí)施例,在活躍時間區(qū)間確定步驟中,基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間可以進(jìn)一步包括:微博數(shù)量統(tǒng)計(jì)子步驟,用于統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所述關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列;序列遞歸分割子步驟,用于對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn);以及活躍時間區(qū)間選擇子步驟,用于在基于所得到的分割點(diǎn)確定的時間區(qū)間中選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為所述活躍時間區(qū)間,其中N大于等于1,其中,在序列遞歸分割子步驟中:針對當(dāng)前序列中的每個點(diǎn),根據(jù)以下公式進(jìn)行計(jì)算:
[0009]AnthorV (i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L
[0010]DiffV (i) =Var (L (i)) -AnthorV (i)
[0011]其中,|L1 (i) 1、L2(i) I分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差;
[0012]找出當(dāng)前序列中DiffV⑴最大的點(diǎn);以及
[0013]如果該點(diǎn)的DiffV(i)小于預(yù)定閾值,則停止遞歸分割,否則取該點(diǎn)作為當(dāng)前序列的分割點(diǎn)將當(dāng)前序列分成兩個子序列,并繼續(xù)對這兩個子序列分別進(jìn)行遞歸分割。
[0014]根據(jù)本發(fā)明的又一優(yōu)選實(shí)施例,話題確定步驟可以進(jìn)一步包括:候選關(guān)鍵詞列表確定子步驟,用于針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入活躍時間區(qū)間的候選關(guān)鍵詞列表中;關(guān)鍵詞相關(guān)度計(jì)算子步驟,用于計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度;圖構(gòu)造子步驟,用于以候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn)、以算出的大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖;以及話題確定子步驟,用于基于所構(gòu)造的圖,采用聚類算法,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0015]根據(jù)本發(fā)明的再一優(yōu)選實(shí)施例,在候選關(guān)鍵詞列表確定子步驟中,可以針對所述活躍時間區(qū)間,根據(jù)以下公式來計(jì)算各個關(guān)鍵詞的權(quán)重:
[0016]W(k)=count(k)*log(Q/counttimes(k))*log(authorfollowers(k))
[0017]其中,count (k)表示關(guān)鍵詞k的出現(xiàn)次數(shù),Q表示活躍時間區(qū)間內(nèi)的微博數(shù)量,counttimes (k)表示出現(xiàn)關(guān)鍵詞k的微博數(shù),authorfol lowers (k)表示發(fā)布包括關(guān)鍵詞k的微博的人的粉絲總數(shù)。
[0018]根據(jù)本發(fā)明的實(shí)施例的另一方面,還提供了一種數(shù)據(jù)處理設(shè)備,其包括:活躍時間區(qū)間確定單元,被配置成確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間;關(guān)鍵詞提取單元,被配置成從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及話題確定單元,被配置成基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0019]另外,根據(jù)本發(fā)明的實(shí)施例的另一方面,還提供了一種終端設(shè)備,該終端設(shè)備包括上述數(shù)據(jù)處理設(shè)備。這種終端設(shè)備例如包括移動電話、掌上電腦、平板電腦、PC機(jī),等等。
[0020]另外,根據(jù)本發(fā)明的實(shí)施例的又一方面,還提供了一種存儲介質(zhì),該存儲介質(zhì)包括機(jī)器可讀的程序代碼,當(dāng)在信息處理設(shè)備上執(zhí)行程序代碼時,該程序代碼使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0021]此外,根據(jù)本發(fā)明的實(shí)施例的再一方面,還提供了一種程序產(chǎn)品,該程序產(chǎn)品包括機(jī)器可執(zhí)行的指令,當(dāng)在信息處理設(shè)備上執(zhí)行指令時,該指令使得信息處理設(shè)備執(zhí)行根據(jù)本發(fā)明的數(shù)據(jù)處理方法。
[0022]因此,根據(jù)本發(fā)明的實(shí)施例,能夠有針對性地進(jìn)行話題發(fā)布和信息獲取,從而能夠更好地利用微博平臺獲取信息,大大提高了數(shù)據(jù)處理的效率。
[0023]在下面的說明書部分中給出本發(fā)明實(shí)施例的其他方面,其中,詳細(xì)說明用于充分地公開本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,而不對其施加限定。
【專利附圖】
【附圖說明】
[0024]本發(fā)明可以通過參考下文中結(jié)合附圖所給出的詳細(xì)描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標(biāo)記來表示相同或者相似的部件。所述附圖連同下面的詳細(xì)說明一起包含在本說明書中并形成說明書的一部分,用來進(jìn)一步舉例說明本發(fā)明的優(yōu)選實(shí)施例和解釋本發(fā)明的原理和優(yōu)點(diǎn)。其中:
[0025]圖1是示出根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法的流程圖;
[0026]圖2是示出在圖1所示的活躍時間區(qū)間確定步驟中確定具有相似活躍習(xí)慣的微博用戶群的詳細(xì)處理的流程圖;
[0027]圖3是示出在圖1所示的活躍時間區(qū)間確定步驟中基于關(guān)注用戶發(fā)布的微博來確定活躍時間區(qū)間的詳細(xì)處理的流程圖;
[0028]圖4是示出微博數(shù)量統(tǒng)計(jì)的示意圖;
[0029]圖5是示出圖1所示的話題確定步驟的詳細(xì)處理的流程圖;
[0030]圖6是示出話題聚類結(jié)果的示意圖;
[0031]圖7是示出根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理設(shè)備的功能配置的框圖;
[0032]圖8是示出圖7所示的活躍時間區(qū)間確定單元的詳細(xì)功能配置的示例的框圖;
[0033]圖9是示出圖7所示的活躍時間區(qū)間確定單元的詳細(xì)功能配置的另一示例的框圖;
[0034]圖10是示出圖7所示的話題確定單元的詳細(xì)功能配置的框圖;以及
[0035]圖11是示出作為本發(fā)明的實(shí)施例中所采用的信息處理設(shè)備的個人計(jì)算機(jī)的示例性結(jié)構(gòu)的框圖。
【具體實(shí)施方式】
[0036]在下文中將結(jié)合附圖對本發(fā)明的示范性實(shí)施例進(jìn)行描述。為了清楚和簡明起見,在說明書中并未描述實(shí)際實(shí)施方式的所有特征。然而,應(yīng)該了解,在開發(fā)任何這種實(shí)際實(shí)施例的過程中必須做出很多特定于實(shí)施方式的決定,以便實(shí)現(xiàn)開發(fā)人員的具體目標(biāo),例如,符合與系統(tǒng)及業(yè)務(wù)相關(guān)的那些限制條件,并且這些限制條件可能會隨著實(shí)施方式的不同而有所改變。此外,還應(yīng)該了解,雖然開發(fā)工作有可能是非常復(fù)雜和費(fèi)時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務(wù)。
[0037]在此,還需要說明的一點(diǎn)是,為了避免因不必要的細(xì)節(jié)而模糊了本發(fā)明,在附圖中僅僅示出了與根據(jù)本發(fā)明的方案密切相關(guān)的設(shè)備結(jié)構(gòu)和/或處理步驟,而省略了與本發(fā)明關(guān)系不大的其它細(xì)節(jié)。
[0038]以下將參照圖1至圖10來描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法和設(shè)備。
[0039]首先,將參照圖1描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法。如圖1所示,數(shù)據(jù)處理方法可以包括活躍時間確定步驟S101、關(guān)鍵詞提取步驟S102以及話題確定步驟S103。
[0040]具體地,在活躍時間區(qū)間確定步驟SlOl中,可以確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間 。
[0041]優(yōu)選地,如上所述,在不同的時間段范圍具有不同的活躍人群,例如對于普通上班族、學(xué)生或者退休的老人,由于他們的作息時間不同,因而具有顯著不同的活躍時間區(qū)間。因此,首先需要在廣大的微博用戶中確定具有相似活躍習(xí)慣的微博用戶群,從而根據(jù)各個微博用戶群中的關(guān)注用戶所發(fā)布的微博、針對特定用戶群而發(fā)布其所關(guān)注的話題或信息。以下將參照圖2來詳細(xì)描述確定具有相似活躍習(xí)慣的微博用戶群的處理流程。
[0042]如圖2所示,在圖1所示的活躍時間區(qū)間確定步驟SlOl中,確定具有相似活躍習(xí)慣的微博用戶群可以進(jìn)一步包括用戶向量構(gòu)建子步驟S201、邊確定子步驟S202、微博用戶群構(gòu)建子步驟S203以及關(guān)注用戶確定子步驟S204。
[0043]具體地,首先,在用戶向量構(gòu)建子步驟S201中,可以根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量。作為示例,可以以小時為單位、以每天作為統(tǒng)計(jì)區(qū)間來構(gòu)建24維的用戶向量。具體地,每個用戶向量可以被表示為V= (nl,n2,...,n24),其中,ni代表在該時段內(nèi)各個微博用戶的發(fā)布微博的數(shù)量。應(yīng)理解,盡管這里以小時為單位來構(gòu)建24維的用戶向量,但是這僅是示例而非限制,可以根據(jù)需要而構(gòu)建更多或更少維數(shù)的用戶向量。
[0044]接下來,在邊確定子步驟S202中,可以基于在用戶向量構(gòu)建子步驟S201中構(gòu)建的各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊。
[0045]優(yōu)選地,在邊確定子步驟S202中,可以以基于向量夾角余弦的方法來確定各用戶向量之間的相似度,并且將所確定的相似度大于預(yù)定閾值的兩個用戶節(jié)點(diǎn)之間的邊確定為正式邊。
[0046]具體地,例如,對于任意兩個用戶向量Vl=(nl, n2,..., n24), V2=(pl, p2,…,p24),可以通過以下表達(dá)式(I)來計(jì)算用戶向量Vl與V2之間的相似度:
[0047]CosVal= (nl*pl+n2*p2 +...+n24*p24) / sqrt (nl*nl+n2*n2 +...+n24*n24) *sqrt (pl*pl+p2*p2+…+p24*p24) (I)
[0048]其中sqrt表示開平方運(yùn)算,cosval表示用戶之間的相似度。優(yōu)選地,如果cosval>m,則將這兩個用戶之間的邊確定為正式的邊,其中m為預(yù)定的閾值。
[0049]接下來,在微博用戶群構(gòu)建子步驟S203中,可以基于在邊緣確定子步驟S202中確定的用戶節(jié)點(diǎn)之間的正式邊,利用諸如CNM等的圖劃分算法來構(gòu)建具有相似活躍習(xí)慣的微博用戶群,例如可以表示為C= (VI, V2, -,Vr)0
[0050]隨后,在關(guān)注用戶確定子步驟S204中,可以基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所確定的權(quán)威度從所構(gòu)建的各個微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為關(guān)注用戶。
[0051]例如,在以微博用戶的粉絲數(shù)量a和發(fā)布的微博數(shù)量b作為考慮因素的情況下,可以通過以下表達(dá)式(2)來計(jì)算該微博用戶的權(quán)威度:
[0052]Authority=Log(b)*Log(a) (2)[0053]其中,Authority表示微博用戶的權(quán)威度,log為對數(shù)運(yùn)算。優(yōu)選地,可以取各微博用戶群中權(quán)威度大小例如在前50%的用戶作為關(guān)注用戶,S卩,作為有意義的統(tǒng)計(jì)對象。應(yīng)理解,該權(quán)威度計(jì)算方法僅為示例而非限制。
[0054]通過上述步驟S201至步驟S204中的處理,確定了具有相似活躍習(xí)慣的微博用戶群,并且還確定了各個微博用戶群中的關(guān)注用戶。以下將參照圖3描述在圖1所示的活躍時間確定步驟SlOl中基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間的詳細(xì)處理。
[0055]如圖3所示,在圖1所示的活躍時間區(qū)間確定步驟SlOl中,基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間可以包括微博數(shù)量統(tǒng)計(jì)子步驟S301、序列遞歸分割子步驟S302以及活躍時間區(qū)間選擇子步驟S303。
[0056]首先,在微博數(shù)量統(tǒng)計(jì)子步驟S301中,可以統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所確定的關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列。優(yōu)選地,由于即使對于同一用戶,其在工作日和周末的作息也可能是顯著不同的,因此該統(tǒng)計(jì)可以針對工作日和周末分別進(jìn)行,從而使得該統(tǒng)計(jì)工作更加合理,以更準(zhǔn)確地進(jìn)行話題挖掘。這里,作為示例,以一天作為預(yù)定時期,以分鐘為間隔,確定與時間相關(guān)的微博數(shù)量序列。以橫軸作為時間并且例如以分鐘為間隔,并且以發(fā)布的微博數(shù)量作為縱軸,從而得到例如如4所示的統(tǒng)計(jì)圖,其中,圖4 (a)表示針對工作日的統(tǒng)計(jì)圖,而圖4 (b)表示針對周末的統(tǒng)計(jì)圖。因此,在所確定的微博數(shù)量序列中,序列中的各個元素(即,微博數(shù)量)與各個時段相對應(yīng)。
[0057]接下來,在序列遞歸分割子步驟S302中,可以對在步驟S301中統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn)。
[0058]具體地,在序列遞歸分割子步驟S302中,如下進(jìn)行遞歸分割:
[0059]首先,對于當(dāng)前序列中的每一點(diǎn),根據(jù)以下表達(dá)式(3 )和(4 )進(jìn)行計(jì)算:
[0060]AnthorV(i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L (3)
[0061]DiffV(i) =Var(L(i))-AnthorV(i) (4)
[0062]其中,|li(i) 1、L2(i) I分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差,其中方差越小,則表不該序列越均勻。
[0063]接下來,找到當(dāng)前序列中DiffV(i)最大的點(diǎn)。如果最大的DiffV(i)小于預(yù)定的閾值,則停止遞歸分割,否則,則以序列中DiffV(i)最大的點(diǎn)作為分割點(diǎn)將當(dāng)前序列分成兩個子序列,并且以類似方式分別對這兩個子序列繼續(xù)進(jìn)行遞歸分割,由此可以得到一個或多個分割點(diǎn)。這一系列處理的目的是為了找到用戶發(fā)布微博的數(shù)量突增的區(qū)間,亦即用戶的活躍時間區(qū)間,例如如圖4所示的發(fā)布微博的數(shù)量突增的時間區(qū)間。
[0064]接下來將繼續(xù)描述活躍時間區(qū)間的確定處理。具體地,在圖3所示的活躍時間區(qū)間選擇子步驟S303中,可以在基于在序列遞歸分割子步驟S302中所得到的分割點(diǎn)而確定的時間區(qū)間中,選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為該微博用戶群的活躍時間區(qū)間,其中N為大于或等于I的預(yù)定數(shù)值。
[0065]在根據(jù)上述一系列處理確定特定微博用戶群的活躍時間區(qū)間之后,需要進(jìn)一步確定這些用戶在不同的活躍時間區(qū)間所關(guān)注的話題,以提高數(shù)據(jù)處理的效率,使得能夠有針對性地進(jìn)行信息發(fā)布和獲取。接下來,返回參照圖1,將繼續(xù)描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理方法。
[0066]在關(guān)鍵詞提取步驟S102中,可以從在步驟SlOl中確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞。該關(guān)鍵詞提取方法例如可以包括分詞、停用詞過濾等,本領(lǐng)域技術(shù)人員可以利用本領(lǐng)域公知的任何適當(dāng)?shù)年P(guān)鍵詞提取技術(shù)來執(zhí)行該處理,在此不再贅述。
[0067]接下來,在話題確定步驟S103中,可以基于在步驟S102中所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0068]以下將參照圖5來描述話題確定步驟的詳細(xì)處理流程。
[0069]如圖5所示,話題確定步驟S103可以包括候選關(guān)鍵詞列表確定子步驟S501、關(guān)鍵詞相關(guān)度計(jì)算子步驟S502、圖構(gòu)造子步驟S503以及話題確定子步驟S504。
[0070]首先,在候選關(guān)鍵詞列表確定子步驟S501中,可以針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入該活躍時間區(qū)間的候選關(guān)鍵詞列表中。
[0071]具體地,針對所確定的活躍時間區(qū)間,例如可以通過以下表達(dá)式(5)來計(jì)算所提取的各個關(guān)鍵詞的權(quán)重:
[0072]W(k)=count(k)*log(Q/counttimes(k))*log(authorfollowers(k)) (5)
[0073]其中,count (k)表示關(guān)鍵詞k的出現(xiàn)次數(shù),Q表示所述活躍時間區(qū)間內(nèi)的微博數(shù)量,counttimes (k)表示出現(xiàn)關(guān)鍵詞k的微博數(shù),authorfollowers (k)表示發(fā)布包括關(guān)鍵詞k的微博的人的粉絲總數(shù)。這里的對數(shù)運(yùn)算是為了防止粉絲數(shù)波動太大而影響結(jié)果的準(zhǔn)確性。
[0074]接下來,在關(guān)鍵詞相關(guān)度計(jì)算子步驟S502中,可以計(jì)算在步驟S501中所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度。
[0075]具體地,作為示例,可以通過以下表達(dá)式(6)來計(jì)算兩個關(guān)鍵詞之間的相關(guān)度:
[0076]I (A, B) =1g (P (A, B)) / (log (P (A)) *log (P (B)))
[0077]其中,P㈧、P⑶分別表示在活躍時間區(qū)間內(nèi),相對于全部微博數(shù),出現(xiàn)關(guān)鍵詞A或B的微博的概率,P (A, B)表示在所述活躍時間區(qū)間內(nèi),相對于全部微博數(shù),同時出現(xiàn)關(guān)鍵詞A和B的微博的概率。
[0078]接下來,在圖構(gòu)造子步驟S503中,可以以在步驟S501中確定的候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn),以在步驟S502中算出的大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖。
[0079]然后,在話題確定子步驟S504中,可以基于在步驟S503中所構(gòu)造的圖,采用聚類算法來確定各個活躍時間區(qū)間內(nèi)的相應(yīng)話題。優(yōu)選地,在這里可以采用CNM圖劃分算法來進(jìn)行話題聚類。最終得到的話題聚類圖例如如圖6所示,其中,不同的顏色代表不同的話題簇。例如,空氣質(zhì)量、污染、環(huán)保等話題是與環(huán)境保護(hù)有關(guān)的話題,而改革、升學(xué)、考試等話題是與教育有關(guān)的話題。
[0080]雖然上面結(jié)合附圖1-6詳細(xì)描述了根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)明白,附圖所示的流程圖僅僅是示例性的,并且可以根據(jù)實(shí)際應(yīng)用和具體要求的不同,對上述方法流程進(jìn)行相應(yīng)的修改。例如,根據(jù)需要,可以對上述方法中的某些步驟的執(zhí)行順序進(jìn)行調(diào)整,或者可以省去或者添加某些處理步驟。此外,以上所述的關(guān)鍵詞權(quán)重、關(guān)鍵詞之間的相關(guān)度等的計(jì)算方法僅為示例而非限制,并且可以采用本領(lǐng)域公知的其它技術(shù)來計(jì)算。
[0081]與根據(jù)本發(fā)明實(shí)施例的數(shù)據(jù)處理方法相對應(yīng),本發(fā)明實(shí)施例還提供了一種數(shù)據(jù)處理設(shè)備。
[0082]具體地,如圖7所示,數(shù)據(jù)處理設(shè)備700可以包括活躍時間區(qū)間確定單元701、關(guān)鍵詞提取單元702以及話題確定單元703。以下將詳細(xì)描述各個單元的功能配置。
[0083]活躍時間區(qū)間確定單元701可以被配置成確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間。
[0084]優(yōu)選地,如圖8所示,該活躍時間區(qū)間確定單元701可以進(jìn)一步包括用戶向量構(gòu)建子單元801、邊確定子單元802、微博用戶群構(gòu)建子單元803以及關(guān)注用戶確定子單元804。以下將詳細(xì)描述各個子單元的功能配置。
[0085]用戶向量構(gòu)建子單元801可以被配置成根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量。在這里,作為示例,可以構(gòu)建24維的用戶向量V=(nl,n2,…,n24),其中,ni代表在該時段內(nèi)各個微博用戶的發(fā)布微博的數(shù)量。
[0086]邊確定子單元802可以被配置成基于各用戶向量之間的相似度來確定用戶節(jié)點(diǎn)之間的邊。優(yōu)選地,作為示例,以基于向量夾角余弦的方法來確定各用戶向量之間的相似度,并且將所確定的相似度大于預(yù)定閾值的兩個用戶節(jié)點(diǎn)之間的邊確定為正式邊。
[0087]微博用戶群構(gòu)建子單元803可以被配置成基于所確定的用戶節(jié)點(diǎn)之間的正式邊,利用諸如CNM等的圖劃分 算法來構(gòu)建具有相似活躍習(xí)慣的微博用戶群,例如可以表示為C=(VI, V2,..., Vr)0
[0088]關(guān)注用戶確定子單元804可以被配置成基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所確定的權(quán)威度從所構(gòu)建的各個微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為關(guān)注用戶。作為示例,例如可以以微博用戶的粉絲數(shù)量和發(fā)布的微博數(shù)量作為考慮因素,并且取微博用戶群中權(quán)威度大小在前50%的用戶作為關(guān)注用戶。
[0089]優(yōu)選地,如圖9所示,活躍時間區(qū)間確定單元701還可以進(jìn)一步包括微博數(shù)量統(tǒng)計(jì)子單元901、序列遞歸分割子單元902以及活躍時間區(qū)間選擇子單元903。
[0090]微博數(shù)量統(tǒng)計(jì)子單元901可以被配置成統(tǒng)計(jì)在預(yù)定時期(例如為一天)的各個時段內(nèi)所確定的關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列。優(yōu)選地,該統(tǒng)計(jì)工作可以針對工作日和周末分別進(jìn)行,以使得統(tǒng)計(jì)結(jié)果更加科學(xué)合理。
[0091]序列遞歸分割子單元902可以被配置成對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn)。
[0092]活躍時間區(qū)間選擇子單元903可以被配置成在基于所得到的分割點(diǎn)而確定的時間區(qū)間中,選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為該微博用戶群的活躍時間區(qū)間,其中N為大于或等于I的預(yù)定數(shù)值。
[0093]接下來,返回參照圖7,將繼續(xù)描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)處理設(shè)備的各個單元的功能配置。
[0094]關(guān)鍵詞提取單元702可以被配置成從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞。關(guān)鍵詞提取方法可以是本領(lǐng)域公知的,在此不再贅述。
[0095]話題確定單元703可以被配置成基于所提取的關(guān)鍵詞,確定各個微博用戶群的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0096]參照圖10,話題確定單元703可以包括候選關(guān)鍵詞列表確定子單元1001、關(guān)鍵詞相關(guān)度計(jì)算子單元1002、圖構(gòu)造子單元1003以及話題確定子單元1004。以下將詳細(xì)描述各個子單元的功能配置。
[0097]具體地,候選關(guān)鍵詞列表確定子單元1001可以被配置成針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入該活躍時間區(qū)間的候選關(guān)鍵詞列表中。
[0098]關(guān)鍵詞相關(guān)度計(jì)算子單元1002可以被配置成計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度。
[0099]對于候選關(guān)鍵詞列表確定子單元1001和關(guān)鍵詞相關(guān)度計(jì)算子單元1002所采用的關(guān)鍵詞權(quán)重計(jì)算方法和相關(guān)度計(jì)算方法,可以參考以上針對候選關(guān)鍵詞列表確定子步驟S501和關(guān)鍵詞相關(guān)度計(jì)算子步驟S502中所采用的方法,在此不再重復(fù)描述。
[0100]圖構(gòu)造子單元1003可以被配置成以所確定的候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn),以算出的大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖。
[0101]話題確定子單元1004可以被配置成基于所構(gòu)造的圖,采用聚類算法來確定各個活躍時間區(qū)間內(nèi)的相應(yīng)話題。優(yōu)選地,聚類算法可以是CNM圖劃分算法。最終得到的話題聚類結(jié)果例如如圖6所示。
[0102]需要說明的是,本發(fā)明實(shí)施例所述的設(shè)備是與前述方法實(shí)施例相對應(yīng)的,因此,設(shè)備實(shí)施例中未詳述的部分,請參見方法實(shí)施例中相應(yīng)位置的介紹,這里不再贅述。
[0103]另外,還應(yīng)該指出的是,上述系列處理和設(shè)備也可以通過軟件和/或固件實(shí)現(xiàn)。在通過軟件和/或固件實(shí)現(xiàn)的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計(jì)算機(jī),例如圖11所示的通用個人計(jì)算機(jī)1100安裝構(gòu)成該軟件的程序,該計(jì)算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。
[0104]在圖11中,中央處理單元(CPU) 1101根據(jù)只讀存儲器(ROM) 1102中存儲的程序或從存儲部分1108加載到隨機(jī)存取存儲器(RAM) 1103的程序執(zhí)行各種處理。在RAM 1103中,也根據(jù)需要存儲當(dāng)CPU 1101執(zhí)行各種處理等等時所需的數(shù)據(jù)。
[0105]CPU 110UR0M 1102和RAM 1103經(jīng)由總線1104彼此連接。輸入/輸出接口 1105也連接到總線1104。
[0106]下述部件連接到輸入/輸出接口 1105:輸入部分1106,包括鍵盤、鼠標(biāo)等等;輸出部分1107,包括顯示器,比如陰極射線管(CRT)、液晶顯示器(IXD)等等,和揚(yáng)聲器等等;存儲部分1108,包括硬盤等等;和通信部分1109,包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等等。通信部分1109經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。
[0107]根據(jù)需要,驅(qū)動器1110也連接到輸入/輸出接口 1105??刹鹦督橘|(zhì)1111比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等根據(jù)需要被安裝在驅(qū)動器1110上,使得從中讀出的計(jì)算機(jī)程序根據(jù)需要被安裝到存儲部分1108中。
[0108]在通過軟件實(shí)現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)1111安裝構(gòu)成軟件的程序。[0109]本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖11所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)1111??刹鹦督橘|(zhì)1111的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是ROM 1102、存儲部分1108中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。[0110]還需要指出的是,執(zhí)行上述系列處理的步驟可以自然地按照說明的順序按時間順序執(zhí)行,但是并不需要一定按照時間順序執(zhí)行。某些步驟可以并行或彼此獨(dú)立地執(zhí)行。
[0111]雖然已經(jīng)詳細(xì)說明了本發(fā)明及其優(yōu)點(diǎn),但是應(yīng)當(dāng)理解在不脫離由所附的權(quán)利要求所限定的本發(fā)明的精神和范圍的情況下可以進(jìn)行各種改變、替代和變換。而且,本發(fā)明實(shí)施例的術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
[0112]關(guān)于包括以上實(shí)施例的實(shí)施方式,還公開下述附記:
[0113]附記1.一種數(shù)據(jù)處理方法,包括:
[0114]活躍時間區(qū)間確定步驟,用于確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間;
[0115]關(guān)鍵詞提取步驟,用于從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及
[0116]話題確定步驟,用于基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0117]附記2.根據(jù)附記I所述的數(shù)據(jù)處理方法,其中,在所述活躍時間區(qū)間確定步驟中,確定具有相似活躍習(xí)慣的微博用戶群進(jìn)一步包括:
[0118]用戶向量構(gòu)建子步驟,用于根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量;
[0119]邊確定子步驟,基于各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊;
[0120]微博用戶群構(gòu)建子步驟,用于基于所確定的邊,構(gòu)建具有相似活躍習(xí)慣的微博用戶群;以及
[0121]關(guān)注用戶確定子步驟,用于基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對該微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所述權(quán)威度從所述微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為所述關(guān)注用戶。
[0122]附記3.根據(jù)附記2所述的數(shù)據(jù)處理方法,其中,在所述邊確定子步驟中,以基于向量夾角余弦的方法來確定各用戶向量之間的相似度,并且將所確定的相似度大于預(yù)定閾值的兩個用戶節(jié)點(diǎn)之間的邊確定為正式邊。
[0123]附記4.根據(jù)附記I所述的數(shù)據(jù)處理方法,其中,在所述活躍時間區(qū)間確定步驟中,基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間進(jìn)一步包括:[0124]微博數(shù)量統(tǒng)計(jì)子步驟,用于統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所述關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列;
[0125]序列遞歸分割子步驟,用于對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn);以及
[0126]活躍時間區(qū)間選擇子步驟,用于在基于所得到的分割點(diǎn)確定的時間區(qū)間中選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為所述活躍時間區(qū)間,其中N大于等于1,
[0127]其中,在所述序列遞歸分割子步驟中:
[0128]針對當(dāng)前序列中的每個點(diǎn),根據(jù)以下公式進(jìn)行計(jì)算:
[0129]AnthorV (i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L
[0130]DiffV (i) =Var (L (i)) -AnthorV (i)
[0131]其中,|li(i) 1、L2(i) I分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差;
[0132]找出當(dāng)前序列中DiffV⑴最大的點(diǎn);以及
[0133]如果該點(diǎn)的DiffV(i)小于預(yù)定閾值,則停止遞歸分割,否則取該點(diǎn)作為當(dāng)前序列的分割點(diǎn)將當(dāng)前序列分成兩個子序列,并繼續(xù)對這兩個子序列分別進(jìn)行遞歸分割。
[0134]附記5.根據(jù)附記2所述的數(shù)據(jù)處理方法,其中,所述統(tǒng)計(jì)分別是針對工作日和周末進(jìn)行的。
[0135]附記6.根據(jù)附記I所述的數(shù)據(jù)處理方法,其中,所述話題確定步驟進(jìn)一步包括:
[0136]候選關(guān)鍵詞列表確定子步驟,用于針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入所述活躍時間區(qū)間的候選關(guān)鍵詞列表中;
[0137]關(guān)鍵詞相關(guān)度計(jì)算子步驟,用于計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度;
[0138]圖構(gòu)造子步驟,用于以所述候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn)、以大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖;以及
[0139]話題確定子步驟,用于基于所構(gòu)造的圖,采用聚類算法,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0140]附記7.根據(jù)附記6所述的數(shù)據(jù)處理方法,其中,在所述候選關(guān)鍵詞列表確定子步驟中,針對所述活躍時間區(qū)間,根據(jù)以下公式來計(jì)算各個關(guān)鍵詞的權(quán)重:
[0141]W(k)=count(k)*log(Q/counttimes(k))*log(authorfollowers(k))
[0142]其中,count (k)表示關(guān)鍵詞k的出現(xiàn)次數(shù),Q表示所述活躍時間區(qū)間內(nèi)的微博數(shù)量,counttimes (k)表示出現(xiàn)關(guān)鍵詞k的微博數(shù),authorfollowers (k)表示發(fā)布包括關(guān)鍵詞k的微博的人的粉絲總數(shù)。
[0143]附記8.根據(jù)附記6所述的方法,其中,在所述關(guān)鍵詞相關(guān)度計(jì)算子步驟中,通過以下公式計(jì)算兩個關(guān)鍵詞之間的相關(guān)度:
[0144]I (A, B) =1g (P (A, B)) / (log (P (A)) *log (P (B)))
[0145]其中,P(A)、P(B)分別表示在所述活躍時間區(qū)間內(nèi),相對于全部微博數(shù),出現(xiàn)關(guān)鍵詞A或B的微博的概率,P (A,B)表示在所述活躍時間區(qū)間內(nèi),相對于全部微博數(shù),同時出現(xiàn)關(guān)鍵詞A和B的微博的概率。[0146]附記9.根據(jù)附記6所述的數(shù)據(jù)處理方法,其中,所述聚類算法包括CNM圖劃分算法。
[0147]附記10.—種數(shù)據(jù)處理設(shè)備,包括:
[0148]活躍時間區(qū)間確定單元,被配置成確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間;
[0149]關(guān)鍵詞提取單元,被配置成從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及
[0150]話題確定單元,被配置成基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0151]附記11.根據(jù)附記10所述的數(shù)據(jù)處理設(shè)備,其中,所述活躍時間區(qū)間確定單元進(jìn)一步包括:
[0152]用戶向量構(gòu)建子單元,被配置成根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量;
[0153]邊確定子單元,被配置成各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊;
[0154]微博用戶群構(gòu)建子單元,被配置成基于所確定的邊,構(gòu)建具有相似活躍習(xí)慣的微博用戶群;以及
[0155]關(guān)注用戶確定子單元,被配置成基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對該微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所述權(quán)威度從所述微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為所述關(guān)注用戶。
[0156]附記12.根據(jù)附記11所述的數(shù)據(jù)處理設(shè)備,其中,所述邊確定子步被配置成以基于向量夾角余弦的方法來確定各用戶向量之間的相似度,并且將所確定的相似度大于預(yù)定閾值的兩個用戶節(jié)點(diǎn)之間的邊確定為正式邊。
[0157]附記13.根據(jù)附記10所述的數(shù)據(jù)處理設(shè)備,其中,所述活躍時間區(qū)間確定單元進(jìn)一步包括:
[0158]微博數(shù)量統(tǒng)計(jì)子單元,被配置成統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所述關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列;
[0159]序列遞歸分割子單元,被配置成對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn);以及
[0160]活躍時間區(qū)間選擇子單元,被配置成在基于所得到的分割點(diǎn)確定的時間區(qū)間中選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為所述活躍時間區(qū)間,其中N大于等于1,
[0161]其中,所述序列遞歸分割子單元進(jìn)一步被配置成:
[0162]針對當(dāng)前序列中的每個點(diǎn),根據(jù)以下公式進(jìn)行計(jì)算:
[0163]AnthorV (i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L
[0164]DiffV (i) =Var (L (i)) -AnthorV (i)
[0165]其中,|li(i) 1、L2(i) I分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差;
[0166]找出當(dāng)前序列中DiffV (i)最大的點(diǎn);以及[0167]如果該點(diǎn)的DiffV(i)小于預(yù)定閾值,則停止遞歸分割,否則取該點(diǎn)作為當(dāng)前序列的分割點(diǎn)將當(dāng)前序列分成兩個子序列,并繼續(xù)對這兩個子序列分別進(jìn)行遞歸分割。
[0168]附記14.根據(jù)附記11所述的數(shù)據(jù)處理設(shè)備,其中,所述統(tǒng)計(jì)分別是針對工作日和周末進(jìn)行的。
[0169]附記15.根據(jù)附記10所述的數(shù)據(jù)處理設(shè)備,其中,所述話題確定單元進(jìn)一步包括:
[0170]候選關(guān)鍵詞列表確定子單元,被配置成針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入所述活躍時間區(qū)間的候選關(guān)鍵詞列表中;
[0171]關(guān)鍵詞相關(guān)度計(jì)算子單元,被配置成計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度;
[0172]圖構(gòu)造子單元,被配置成以所述候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn)、以大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖;以及
[0173]話題確定子單元,被配置成基于所構(gòu)造的圖,采用聚類算法,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
[0174]附記16.根據(jù)附記15所述的數(shù)據(jù)處理設(shè)備,其中,所述候選關(guān)鍵詞列表確定子單元進(jìn)一步被配置成針對所述活躍時間區(qū)間,根據(jù)以下公式來計(jì)算各個關(guān)鍵詞的權(quán)重:
[0175]W(k)=count(k)*log(Q/counttimes(k))*log(authorfollowers(k))
[0176]其中,count (k)表示關(guān)鍵詞k的出現(xiàn)次數(shù),Q表示所述活躍時間區(qū)間內(nèi)的微博數(shù)量,counttimes (k)表示出現(xiàn)關(guān)鍵詞k的微博數(shù),authorfollowers (k)表示發(fā)布包括關(guān)鍵詞k的微博的人的粉絲總數(shù)。
[0177]附記17.根據(jù)附記15所述的數(shù)據(jù)處理設(shè)備,其中,所述關(guān)鍵詞相關(guān)度計(jì)算子單元進(jìn)一步被配置成通過以下公式計(jì)算兩個關(guān)鍵詞之間的相關(guān)度:
[0178]I (A, B) =1g (P (A, B)) / (log (P (A)) *log (P (B)))
[0179]其中,P(A)、P(B)分別表示在所述活躍時間區(qū)間內(nèi),相對于全部微博數(shù),出現(xiàn)關(guān)鍵詞A或B的微博的概率,P (A,B)表示在所述活躍時間區(qū)間內(nèi),相對于全部微博數(shù),同時出現(xiàn)關(guān)鍵詞A和B的微博的概率。
[0180]附記18.根據(jù)附記15所述的數(shù)據(jù)處理設(shè)備,其中,所述聚類算法包括CNM圖劃分算法。
[0181]附記19.一種終端設(shè)備,所述終端設(shè)備包括根據(jù)附記10至18中任一項(xiàng)所述的數(shù)據(jù)處理設(shè)備。
[0182]附記20.根據(jù)附記19所述的終端設(shè)備,其中,所述終端設(shè)備包括移動電話、掌上電腦、平板電腦以及個人計(jì)算機(jī)。
【權(quán)利要求】
1.一種數(shù)據(jù)處理方法,包括: 活躍時間區(qū)間確定步驟,用于確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間; 關(guān)鍵詞提取步驟,用于從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及 話題確定步驟,用于基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,在所述活躍時間區(qū)間確定步驟中,確定具有相似活躍習(xí)慣的微博用戶群進(jìn)一步包括: 用戶向量構(gòu)建子步驟,用于根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量; 邊確定子步驟,基于各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊; 微博用戶群構(gòu)建子步驟,用于基于所確定的邊,構(gòu)建具有相似活躍習(xí)慣的微博用戶群;以及 關(guān)注用戶確定子步驟,用于基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對該微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所述權(quán)威度從所述微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為所述關(guān)注用戶。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,在所述活躍時間區(qū)間確定步驟中,基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間進(jìn)一步包括:` 微博數(shù)量統(tǒng)計(jì)子步驟,用于統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所述關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列; 序列遞歸分割子步驟,用于對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn);以及 活躍時間區(qū)間選擇子步驟,用于在基于所得到的分割點(diǎn)確定的時間區(qū)間中選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為所述活躍時間區(qū)間,其中N大于等于1, 其中,在所述序列遞歸分割子步驟中: 針對當(dāng)前序列中的每個點(diǎn),根據(jù)以下公式進(jìn)行計(jì)算:
AnthorV (i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L
DiffV(i)=Var(L(i))-AnthorV(i) 其中,|li (i)|、|L2(i)|分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差; 找出當(dāng)前序列中DiffV (i)最大的點(diǎn);以及 如果該點(diǎn)的DiffV(i)小于預(yù)定閾值,則停止遞歸分割,否則取該點(diǎn)作為當(dāng)前序列的分割點(diǎn)將當(dāng)前序列分成兩個子序列,并繼續(xù)對這兩個子序列分別進(jìn)行遞歸分割。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)處理方法,其中,所述話題確定步驟進(jìn)一步包括: 候選關(guān)鍵詞列表確定子步驟,用于針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入所述活躍時間區(qū)間的候選關(guān)鍵詞列表中; 關(guān)鍵詞相關(guān)度計(jì)算子步驟,用于計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度; 圖構(gòu)造子步驟,用于以所述候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn)、以算出的大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖;以及 話題確定子步驟,用于基于所構(gòu)造的圖,采用聚類算法,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
5.一種數(shù)據(jù)處理設(shè)備,包括: 活躍時間區(qū)間確定單元,被配置成確定具有相似活躍習(xí)慣的微博用戶群,并且基于所確定的微博用戶群中的關(guān)注用戶發(fā)布的微博來確定各個微博用戶群的活躍時間區(qū)間; 關(guān)鍵詞提取單元,被配置成從所確定的活躍時間區(qū)間內(nèi)的所有微博提取關(guān)鍵詞;以及話題確定單元,被配置成基于所提取的關(guān)鍵詞,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
6.根據(jù)權(quán)利要求5所述的數(shù)據(jù)處理設(shè)備,其中,所述活躍時間區(qū)間確定單元進(jìn)一步包括: 用戶向量構(gòu)建子單元,被配置成根據(jù)微博用戶以往發(fā)布微博的時間和數(shù)量來構(gòu)建具有預(yù)定維數(shù)的用戶向量; 邊確定子單元,被配置成各用戶向量之間的相似度,確定用戶節(jié)點(diǎn)之間的邊; 微博用戶群構(gòu)建子單元,被配置成基于所確定的邊,構(gòu)建具有相似活躍習(xí)慣的微博用戶群;以及` 關(guān)注用戶確定子單元,被配置成基于各微博用戶的粉絲數(shù)量、發(fā)布的微博數(shù)量、對該微博用戶所發(fā)布的微博的回復(fù)數(shù)量以及對該微博用戶所發(fā)布的微博的轉(zhuǎn)發(fā)數(shù)量中的一個或多個,確定該微博用戶的權(quán)威度,從而基于所述權(quán)威度從所述微博用戶群中選擇預(yù)定數(shù)量的微博用戶作為所述關(guān)注用戶。
7.根據(jù)權(quán)利要求5所述的數(shù)據(jù)處理設(shè)備,其中,所述活躍時間區(qū)間確定單元進(jìn)一步包括: 微博數(shù)量統(tǒng)計(jì)子單元,被配置成統(tǒng)計(jì)在預(yù)定時期的各個時段內(nèi)所述關(guān)注用戶發(fā)布的微博的數(shù)量,從而得到與時間相關(guān)的微博數(shù)量序列; 序列遞歸分割子單元,被配置成對所統(tǒng)計(jì)的微博數(shù)量序列進(jìn)行遞歸分割,從而得到一個或多個分割點(diǎn);以及 活躍時間區(qū)間選擇子單元,被配置成在基于所得到的分割點(diǎn)確定的時間區(qū)間中選擇標(biāo)準(zhǔn)方差較大的前N個時間區(qū)間作為所述活躍時間區(qū)間,其中N大于等于1, 其中,所述序列遞歸分割子單元進(jìn)一步被配置成: 針對當(dāng)前序列中的每個點(diǎn),根據(jù)以下公式進(jìn)行計(jì)算:
AnthorV (i) = | LI (i) | *Var (LI (i)) / | L | +1 L2 (i) | *Var (L2 (i)) / | L
DiffV(i)=Var(L(i))-AnthorV(i) 其中,|li (i)|、|L2(i)|分別表示假定i為當(dāng)前分割點(diǎn)對當(dāng)前序列分割后得到的兩個子序列的長度,|L|表示當(dāng)前序列的長度,VarO表示當(dāng)前序列或子序列的標(biāo)準(zhǔn)方差; 找出當(dāng)前序列中DiffV (i)最大的點(diǎn);以及 如果該點(diǎn)的DiffV(i)小于預(yù)定閾值,則停止遞歸分割,否則取該點(diǎn)作為當(dāng)前序列的分割點(diǎn)將當(dāng)前序列分成兩個子序列,并繼續(xù)對這兩個子序列分別進(jìn)行遞歸分割。
8.根據(jù)權(quán)利要求5所述的數(shù)據(jù)處理設(shè)備,其中,所述話題確定單元進(jìn)一步包括: 候選關(guān)鍵詞列表確定子單元,被配置成針對所確定的活躍時間區(qū)間,計(jì)算所提取的各個關(guān)鍵詞的權(quán)重,并將權(quán)重大于預(yù)定閾值的關(guān)鍵詞歸入所述活躍時間區(qū)間的候選關(guān)鍵詞列表中; 關(guān)鍵詞相關(guān)度計(jì)算子單元,被配置成計(jì)算所確定的候選關(guān)鍵詞列表中的任意兩個關(guān)鍵詞之間的相關(guān)度; 圖構(gòu)造子單元,被配置成以所述候選關(guān)鍵詞列表中的各個關(guān)鍵詞為節(jié)點(diǎn)、以算出的大于預(yù)定閾值的相關(guān)度作為關(guān)鍵詞之間的邊來構(gòu)造圖;以及 話題確定子單元,被配置成基于所構(gòu)造的圖,采用聚類算法,確定所確定的活躍時間區(qū)間內(nèi)的相應(yīng)話題。
9.根據(jù)權(quán)利要求8所述的數(shù)據(jù)處理設(shè)備,其中,所述候選關(guān)鍵詞列表確定子單元進(jìn)一步被配置成針對所述活躍時間區(qū)間,根據(jù)以下公式來計(jì)算各個關(guān)鍵詞的權(quán)重:
W (k)=count(k)*log(Q/counttimes(k))*log(authorfollowers(k)) 其中,count(k)表示關(guān)鍵詞k的出現(xiàn)次數(shù),Q表示所述活躍時間區(qū)間內(nèi)的微博數(shù)量,counttimes (k)表示出現(xiàn)關(guān)鍵詞k的微博數(shù),authorfol lowers (k)表示發(fā)布包括關(guān)鍵詞k的微博的人的粉絲總數(shù)。
10.一種終端設(shè)備,所述終端設(shè) 備包括根據(jù)權(quán)利要求5至9中任一項(xiàng)所述的數(shù)據(jù)處理設(shè)備。
【文檔編號】G06F17/30GK103514167SQ201210202800
【公開日】2014年1月15日 申請日期:2012年6月15日 優(yōu)先權(quán)日:2012年6月15日
【發(fā)明者】張波, 孟遙, 于浩 申請人:富士通株式會社