述匹配條件。上述匹配操作可以在所有的有效分句之間兩兩進(jìn)行,也可以是根據(jù)預(yù)設(shè)算法生成較短的有效句子集合,或者是人工給定的較短有效句子集合,分別將微博中所有的有效句子分別與所述有效句子進(jìn)行匹配,若匹配成功,則用所匹配的較短的有效句子替代該微博中的有效句子。
[0052]通過上述操作,可以使得新微博集合中的新微博之間包含很多相同的較短的有效句子。
[0053]進(jìn)一步地,將所述微博句子集合中的有效句子進(jìn)行匹配的方法也包括多種,例如通過遍歷所述微博集合,對(duì)所述微博集合中所有的有效句子進(jìn)行兩兩匹配,將較短的有效句子中每個(gè)字的前后加入通配符形成匹配條件,判斷較長(zhǎng)的有效句子是否滿足所述匹配條件,若是,則將匹配相似的有效句子中較長(zhǎng)的有效句子用較短的有效句子替代。
[0054]步驟S103、對(duì)所述新微博集合中的新微博的有效句子進(jìn)行聚類確定微博熱門話題。
[0055]本步驟的方法包括多種,例如對(duì)各有效句子進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果確定熱門話題。
[0056]又如,還可通過以下方法進(jìn)行熱門話題的確定,包括:
[0057]對(duì)所述新微博集合中各新微博進(jìn)行遍歷,依次對(duì)所述各新微博設(shè)置編號(hào)作為微博的根,根據(jù)所述微博的根對(duì)所述各新微博中所包含的有效句子進(jìn)行標(biāo)號(hào),包括若所述有效句子第一次出現(xiàn),則將所述有效句子的標(biāo)號(hào)設(shè)置為所述有效句子所在的新微博的根,否則將所述有效句子的標(biāo)號(hào)設(shè)置為第一個(gè)出現(xiàn)所述有效句子的微博的根;
[0058]根據(jù)新微博的根以及各有效句子標(biāo)號(hào),確定所述新微博所屬的類別,所述類別至少包括祖先微博和從屬微博,其中所述祖先微博為所有的有效句子均第一次出現(xiàn)的新微博,所述從屬微博為所包括的有效句子標(biāo)號(hào)除了為所述新微博的根之外其他的有效句子標(biāo)號(hào)屬于同一祖先微博的根或所述祖先微博的下面的從屬微博的根的新微博;
[0059]查找各從屬微博的祖先微博,將祖先微博相同的新微博所對(duì)應(yīng)的原微博進(jìn)行合并確定微博熱門話題。
[0060]對(duì)于從屬于不同祖先微博的噪聲微博,還可忽略處理。本實(shí)施例中,根據(jù)新微博的根以及各有效句子標(biāo)號(hào),確定所述新微博所屬的類別還可進(jìn)一步包括:
[0061]如果新微博中所有有效句子的標(biāo)號(hào)相同,且均為所述新微博的根,則確定所述新微博為祖先微博;
[0062]如果新微博中有效句子標(biāo)號(hào)除了所述新微博的根之外還有一個(gè)有效句子標(biāo)號(hào),則確定所述新微博屬于從屬微博,從屬于根為所述有效句子標(biāo)號(hào)的新微博;
[0063]如果新微博中有效句子標(biāo)號(hào)中除了所述新微博的根之外還有至少兩個(gè)不同的句子標(biāo)號(hào),且根為所述至少兩個(gè)不同的句子標(biāo)號(hào)的至少兩個(gè)新微博是同一祖先微博的從屬微博,則確定所述新微博為從屬微博,且從屬于所述同一祖先微博,否則確定所述新微博為噪聲微博。
[0064]至此,本實(shí)施例已經(jīng)完成微博熱門話題的確定。上述步驟可以是每隔一段時(shí)間確定一次,上述獲取意見領(lǐng)袖的微博的操作SlOl可以將時(shí)間設(shè)置為第一預(yù)設(shè)時(shí)長(zhǎng),例如24小時(shí),將確定微博熱門話題的周期設(shè)置為第二預(yù)設(shè)時(shí)長(zhǎng),例如2小時(shí),這樣新獲取第二預(yù)設(shè)時(shí)長(zhǎng)的微博,就將最早的第二預(yù)設(shè)時(shí)長(zhǎng)的微博從獲取的新微博集合中剔除,這樣可以保證進(jìn)行聚類的新微博集合中一直存在24小時(shí)的數(shù)據(jù),保證數(shù)據(jù)的實(shí)時(shí)性。
[0065]在確定微博熱門話題之后,還可以對(duì)所確定的熱門話題所相關(guān)的新微博進(jìn)行句子頻率統(tǒng)計(jì),將出現(xiàn)頻率最高的有效句子作為所述熱門話題的標(biāo)題。
[0066]若上述操作中所確定的熱門話題超過一個(gè),還可對(duì)所確定的熱門話題所相關(guān)的微博進(jìn)行統(tǒng)計(jì),根據(jù)統(tǒng)計(jì)結(jié)果確定所述熱門話題的熱度,根據(jù)所述熱度對(duì)所述熱門話題進(jìn)行排序。
[0067]本實(shí)施例通過獲取意見領(lǐng)袖的微博,對(duì)所述微博進(jìn)行分句提取有效句子,將所述有效句子用語義相近的較短的有效句子替代,以獲得新微博形成新微博集合,對(duì)所述新微博集合中的新微博的有效句子進(jìn)行聚類確定微博熱門話題,能實(shí)時(shí)提取熱門話題,以便對(duì)當(dāng)前輿情進(jìn)行監(jiān)管。
[0068]實(shí)施例二
[0069]圖2是本實(shí)施例所述的確定微博熱門話題的方法流程圖,如圖2所示,本實(shí)施例所述的確定微博熱門話題的方法包括:
[0070]步驟S201、獲取意見領(lǐng)袖的微博。
[0071]步驟S202、對(duì)所述微博進(jìn)行分句提取有效句子,將所述有效句子用語義相近的較短的有效句子替代,以獲得新微博形成新微博集合。
[0072]步驟S203、對(duì)所述新微博集合中各新微博進(jìn)行遍歷,依次對(duì)所述各新微博設(shè)置編號(hào)作為微博的根,根據(jù)所述微博的根對(duì)所述各新微博中所包含的有效句子進(jìn)行標(biāo)號(hào)。
[0073]例如,本步驟可包括:首先按照遍歷的次序?qū)⒎謩e對(duì)每個(gè)新微博設(shè)置一個(gè)根,R(i)=i(i = O, I, 2, 3...),其中R(i)是第i個(gè)遍歷的新微博。依次對(duì)每個(gè)新微博拆分的有效句子進(jìn)行標(biāo)號(hào),若有效句子第一次出現(xiàn),則將所述有效句子的標(biāo)號(hào)設(shè)置為當(dāng)前的新微博的根,否則將所述有效句子的標(biāo)號(hào)設(shè)置為第一個(gè)出現(xiàn)所述有效句子的微博的根。
[0074]下面通過以字母代替句子來說明本實(shí)施例中對(duì)微博進(jìn)行遍歷的方法,包括:
[0075]例如,微博R (O)的根為O,包括有效句子ABC ;
[0076]微博R(I)的根為I,包括有效句子AB ;
[0077]微博R⑵的根為2,包括有效句子DAB ;
[0078]微博R (3)的根為3,包括有效句子B⑶;
[0079]微博R(4)的根為4,包括有效句子⑶。
[0080]對(duì)于微博R(O)來說,微博R(O)的根的值為0,由于有效句子A、B以及C均是第一次出現(xiàn),貝lJ微博R(O)中有效句子標(biāo)號(hào)均為該微博的根0,A標(biāo)號(hào)為0,B標(biāo)號(hào)為0,C標(biāo)號(hào)為O。
[0081]再來分析微博R(I),微博R(I)的根為1,有效句子A第一次在R(O)中出現(xiàn),則微博R(I)中有效句子A標(biāo)號(hào)為微博R(O)的根O ;同理,有效句子B也是第一次在R(O)中出現(xiàn),則微博R(I)中有效句子B標(biāo)號(hào)也為微博R(O)的根O。
[0082]再來分析微博R(2),微博R(2)的根的值為2,有效句子D是第一次出現(xiàn),則微博R(2)中有效句子D標(biāo)號(hào)為微博R(2)的根2 ;有效句子A第一次在R(O)中出現(xiàn),則微博R(2)中有效句子A標(biāo)號(hào)為微博R(O)的根O ;有效句子B第一次在R(O)中出現(xiàn),則微博R(2)中有效句子B標(biāo)號(hào)為微博R(O)的根O。
[0083]微博R(3),微博R(3)的根的值為3,有效句子B第一次在R(O)中出現(xiàn),則微博R(3)中B的標(biāo)號(hào)為R(O)的根O ;有效句子C第一次在R(O)中出現(xiàn),則微博R(3)中C的標(biāo)號(hào)也為R(O)的根O ;有效句子D第一次在微博R (2)中出現(xiàn),則D的標(biāo)號(hào)為R (2)的根2。
[0084]微博R⑷,微博R⑷的根的值為4,有效句子C第一次在R (O)中出現(xiàn),則R (4)中C標(biāo)號(hào)為R(O)的根O ;有效句子D第一次在R(2)中出現(xiàn),則微博R(4)中D標(biāo)號(hào)為R(2)的根2。
[0085]基于上述分析,可知:
[0086]微博R(O)包括有效句子ABC,根為0,XO = 0,Π = 0,X2 = O ;
[0087]微博R(I)包括有效句子AB,根為1,XO = 0,Xl = O。
[0088]微博R (2)包括有效句子 DAB,根為 2,XO = 2, Xl = O, X2 = O ;
[0089]微博R (3)包括有效句子 BCD,根為 3,XO = O, Xl = O, X2 = 2 ;
[0090]微博R(4)包括有效句子CD,根為4,XO = 0,Xl = 2。
[0091]步驟S204、根據(jù)新微博的根以及各有效句子標(biāo)號(hào),確定所述新微博所屬的類別。
[0092]所述類別至少包括祖先微博和從屬微博,其中所述祖先微博為所有的有效句子均第一次出現(xiàn)的新微博,所述從屬微博為所包括的有效句子標(biāo)號(hào)除了為所述新微博的根之外其他的有效句子標(biāo)號(hào)屬于同一祖先微博的根或所述祖先微博的下面的從屬微博的根的新微博;
[0093]進(jìn)一步地,所述類別還包括噪聲微博,所述噪聲微博為從屬于不同祖先微博的新微博;
[0094]根據(jù)新微博的根以及各有效句子標(biāo)號(hào),確定所述新微博所屬的類別包括:
[0095]如果新微博中所有有效句子的標(biāo)號(hào)相同,且均為所述新微博的根,則確定所述新微博為祖先微博;
[0096]如果新微博中有效句子標(biāo)號(hào)除了所述新微博的根之外還有一個(gè)有效句子標(biāo)號(hào),則確定所述新微博屬于從屬微博,從屬于根為所述有效句子標(biāo)號(hào)的新微博;
[0097]如果新微博中有效句子標(biāo)