基于微博的事件脈絡(luò)獲取方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù),尤其涉及一種基于微博的事件脈絡(luò)獲取方法和系統(tǒng)。
【背景技術(shù)】
[0002] 微博已經(jīng)成為目前網(wǎng)民最為常見的一種休閑互動(dòng)方式,同時(shí)微博也是一種用戶了 解新聞事件、傳播新聞事件的有效工具,具有明顯的媒體屬性。相同話題所包含的事件構(gòu)成 的集合在新聞門戶網(wǎng)站中一般稱之為專題,一個(gè)專題通常由若干事件進(jìn)展組成。譬如:"釣 魚島爭(zhēng)端"專題中包括"日本購(gòu)島","香港保釣"等若干事件。任何專題事件都包括產(chǎn)生、發(fā) 展、高潮、結(jié)束這樣一個(gè)過(guò)程,且整個(gè)過(guò)程中關(guān)鍵時(shí)間節(jié)點(diǎn)上發(fā)生的事件串聯(lián)起來(lái)便形成了 關(guān)于該專題進(jìn)展的事件脈絡(luò)。事件脈絡(luò)是了解一個(gè)新聞專題事件發(fā)展的重要途徑。那么, 如何基于微博獲取某個(gè)專題事件的事件脈絡(luò)便給技術(shù)人員提出了新的挑戰(zhàn)。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的實(shí)施例提供一種基于微博的事件脈絡(luò)獲取方法和系統(tǒng),以利用微博快 速、準(zhǔn)確的獲取預(yù)定專題所包含事件的事件脈絡(luò)。
[0004] 為達(dá)到上述目的,本發(fā)明的實(shí)施例提供了一種基于微博的事件脈絡(luò)獲取方法,包 括:獲取統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)預(yù)定的專題所包含的事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息;計(jì) 算所述事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息在所述統(tǒng)計(jì)時(shí)間段內(nèi)對(duì)應(yīng)的關(guān)于所述專題的 事件熱度時(shí)間分布,所述事件熱度為與事件相關(guān)的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博在用戶群中的關(guān) 注程度;根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的事件熱度時(shí)間分布,從所述統(tǒng)計(jì)時(shí)間段內(nèi)選取 多個(gè)事件脈絡(luò)時(shí)間節(jié)點(diǎn),及其對(duì)應(yīng)的節(jié)點(diǎn)事件構(gòu)成所述專題的事件脈絡(luò)。
[0005] 進(jìn)一步地,所述原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息包括:所述原創(chuàng)微博及其轉(zhuǎn)發(fā)微博 的評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)。
[0006] 優(yōu)選地,所述計(jì)算所述事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息在所述統(tǒng)計(jì)時(shí)間段內(nèi) 對(duì)應(yīng)的關(guān)于所述專題的事件熱度時(shí)間分布的處理包括:根據(jù)所述專題所包含的事件的所有 原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)計(jì)算所述統(tǒng)計(jì)時(shí)間段內(nèi)關(guān)于所述專 題的第一事件熱度時(shí)間分布;所述第一事件熱度為所有目標(biāo)事件對(duì)應(yīng)的所述事件熱度的和 值。
[0007] 進(jìn)一步地,所述根據(jù)所述專題所包含的事件的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所述 評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)計(jì)算所述統(tǒng)計(jì)時(shí)間段內(nèi)關(guān)于所述專題的第一事件熱度時(shí)間分布的 處理包括:對(duì)所述專題所包含的事件的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù) 和點(diǎn)贊數(shù)分別設(shè)置權(quán)重系數(shù);將所述統(tǒng)計(jì)時(shí)間段內(nèi)各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述事件的所有新產(chǎn) 生的原創(chuàng)微博及轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)分別與對(duì)應(yīng)的權(quán)重系數(shù)相乘后, 再相加的和值作為相應(yīng)時(shí)間節(jié)點(diǎn)上所述第一事件熱度;根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)各時(shí)間節(jié)點(diǎn) 對(duì)應(yīng)的所述第一事件熱度,形成所述第一事件熱度時(shí)間分布。
[0008] 進(jìn)一步地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的事件熱度時(shí)間分布,從所述統(tǒng) 計(jì)時(shí)間段內(nèi)選取多個(gè)事件脈絡(luò)時(shí)間節(jié)點(diǎn)的處理包括:根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的第 一事件熱度時(shí)間分布,從所述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)位于所述第一事件熱度時(shí)間分布中表 征第一事件熱度陡增的時(shí)間節(jié)點(diǎn);將所述第一事件熱度時(shí)間分布中表征第一事件熱度陡增 的時(shí)間節(jié)點(diǎn)中最早的時(shí)間節(jié)點(diǎn)確定為起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)。
[0009] 進(jìn)一步地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的第一事件熱度時(shí)間分布,從所 述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)位于所述第一事件熱度時(shí)間分布中表征第一事件熱度陡增的時(shí) 間節(jié)點(diǎn)的處理包括:針對(duì)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題對(duì)應(yīng)的所述第一事件熱度時(shí)間分布, 利用一個(gè)包含多個(gè)時(shí)間節(jié)點(diǎn)的計(jì)算窗口以一個(gè)時(shí)間節(jié)點(diǎn)作為滑動(dòng)窗口計(jì)算所述統(tǒng)計(jì)時(shí)間 段內(nèi)各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的第一事件熱度陡增參量,并形成第一事件熱度陡增參量序列;將所 述第一事件熱度陡增參量序列中大于第一閾值的第一事件熱度對(duì)應(yīng)的時(shí)間節(jié)點(diǎn)確定為所 述表征第一事件熱度陡增的時(shí)間節(jié)點(diǎn)。
[0010] 可選地,所述第一閾值為通過(guò)如下處理獲得:計(jì)算所述第一事件熱度陡增參量序 列的平均值和標(biāo)準(zhǔn)差,并配置相應(yīng)的權(quán)重系數(shù);將所述第一事件熱度陡增參量序列的平均 值和標(biāo)準(zhǔn)差分別乘以相應(yīng)的權(quán)重系數(shù)后,其和值確定為所述第一閾值。
[0011] 進(jìn)一步地,所述計(jì)算所述事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息在所述統(tǒng)計(jì)時(shí)間段 內(nèi)對(duì)應(yīng)的關(guān)于所述專題的事件熱度時(shí)間分布的處理包括:根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi),所述專 題所包含的事件在所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所 述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)計(jì)算所述統(tǒng)計(jì)時(shí)間段內(nèi)關(guān)于所述專題的第二事件熱度時(shí)間分 布;所述第二事件熱度為對(duì)所有目標(biāo)事件對(duì)應(yīng)的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博分別設(shè)置權(quán)重系數(shù) 后的所述事件熱度的權(quán)重和值。
[0012] 優(yōu)選地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi),所述專題所包含的事件在所述起始事件的 脈絡(luò)時(shí)間節(jié)點(diǎn)以后的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)計(jì)算所述 統(tǒng)計(jì)時(shí)間段內(nèi)關(guān)于所述專題的第二事件熱度時(shí)間分布的處理包括:對(duì)所述統(tǒng)計(jì)時(shí)間段內(nèi), 所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的所述專題所包含的事件的所有新產(chǎn)生的原創(chuàng)微博及 其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)分別設(shè)置權(quán)重系數(shù);將所述統(tǒng)計(jì)時(shí)間段內(nèi),所述 起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的所述專題所包含的事件的所有新產(chǎn)生的原創(chuàng)微博及其轉(zhuǎn) 發(fā)微博中,在所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的各時(shí)間節(jié)點(diǎn)上新產(chǎn)生的所述評(píng)論數(shù)、轉(zhuǎn) 發(fā)數(shù)和點(diǎn)贊數(shù)分別與對(duì)應(yīng)的權(quán)重系數(shù)相乘,再將所有原創(chuàng)微博對(duì)應(yīng)的乘積值相加,得到相 應(yīng)時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的原創(chuàng)微博的事件熱度;和再將所有轉(zhuǎn)發(fā)微博對(duì)應(yīng)的乘積值相加,得到相 應(yīng)時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的轉(zhuǎn)發(fā)微博的事件熱度;對(duì)所述原創(chuàng)微博的事件熱度和所述轉(zhuǎn)發(fā)微博的事 件熱度分別設(shè)置相應(yīng)的權(quán)重系數(shù);將所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的各時(shí)間節(jié)點(diǎn)上對(duì) 應(yīng)的所述原創(chuàng)微博的事件熱度和轉(zhuǎn)發(fā)微博的事件熱度分別與相應(yīng)的權(quán)重系數(shù)相乘后,再相 加的和值作為相應(yīng)時(shí)間節(jié)點(diǎn)上所述第二事件熱度;根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi),所述起始事件 的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述第二事件熱度,形成所述第二事件熱度時(shí)間 分布。
[0013] 進(jìn)一步地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的事件熱度時(shí)間分布,從所述統(tǒng) 計(jì)時(shí)間段內(nèi)選取多個(gè)事件脈絡(luò)時(shí)間節(jié)點(diǎn)的處理包括:根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的第 二事件熱度時(shí)間分布,從所述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)位于所述第二事件熱度時(shí)間分布中表 征有新事件產(chǎn)生的時(shí)間節(jié)點(diǎn);將所述第二事件熱度時(shí)間分布中表征有新事件產(chǎn)生的時(shí)間節(jié) 點(diǎn)確定為發(fā)展事件的脈絡(luò)時(shí)間節(jié)點(diǎn)。
[0014] 進(jìn)一步地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的第二事件熱度時(shí)間分布,從所 述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)位于所述第二事件熱度時(shí)間分布中表征有新事件產(chǎn)生的時(shí)間節(jié) 點(diǎn)的處理包括:統(tǒng)計(jì)所述統(tǒng)計(jì)時(shí)間段內(nèi),所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以后的非所述專題 對(duì)應(yīng)的其他專題所包含事件對(duì)應(yīng)的所述第二事件熱度時(shí)間分布;針對(duì)包含所述專題以及非 所述專題對(duì)應(yīng)的所述第二事件熱度時(shí)間分布,利用兩個(gè)相鄰且包含相同時(shí)間節(jié)點(diǎn)的計(jì)算窗 口以一個(gè)時(shí)間節(jié)點(diǎn)作為滑動(dòng)窗口計(jì)算所述第二事件熱度時(shí)間分布上每相鄰兩個(gè)時(shí)間節(jié)點(diǎn) 對(duì)應(yīng)的所述專題與非所述專題之間所述第二熱度比值的卡方統(tǒng)計(jì)量,并將所述卡方統(tǒng)計(jì)量 作為后一計(jì)算窗口中第一個(gè)所述時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的卡法統(tǒng)計(jì)量;將所述卡方統(tǒng)計(jì)量中大于第 二閾值的卡方統(tǒng)計(jì)量對(duì)應(yīng)的時(shí)間節(jié)點(diǎn)確定為一個(gè)所述表征有新事件產(chǎn)生的時(shí)間節(jié)點(diǎn)。
[0015] 進(jìn)一步地,所述根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題的事件熱度時(shí)間分布,從所述統(tǒng) 計(jì)時(shí)間段內(nèi)選取多個(gè)事件脈絡(luò)時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述事件的處理包括:對(duì)獲取的所述專題對(duì) 應(yīng)的所述起始事件的脈絡(luò)時(shí)間節(jié)點(diǎn)以及多個(gè)所述發(fā)展事件的所述脈絡(luò)時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所 述專題包含的新增事件的原創(chuàng)微博的事件熱度以及微博質(zhì)量進(jìn)行綜合分?jǐn)?shù)評(píng)估,并選取所 述綜合分?jǐn)?shù)最高的原創(chuàng)微博對(duì)應(yīng)的事件作為相應(yīng)所述脈絡(luò)時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述節(jié)點(diǎn)事件。
[0016] 本發(fā)明的實(shí)施例還提供了一種基于微博的事件脈絡(luò)獲取系統(tǒng),包括:信息獲取模 塊,用于獲取統(tǒng)計(jì)時(shí)間段內(nèi)針對(duì)預(yù)定的專題所包含的事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信 息;事件熱度計(jì)算模塊,用于計(jì)算所述事件的原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息在所述統(tǒng)計(jì)時(shí) 間段內(nèi)對(duì)應(yīng)的關(guān)于所述專題的事件熱度時(shí)間分布,所述事件熱度為與事件相關(guān)的原創(chuàng)微博 及其轉(zhuǎn)發(fā)微博在用戶群中的關(guān)注程度;事件脈絡(luò)生成模塊,用于根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)所 述專題的事件熱度時(shí)間分布,從所述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)事件脈絡(luò)時(shí)間節(jié)點(diǎn),及其對(duì)應(yīng) 的節(jié)點(diǎn)事件構(gòu)成所述專題的事件脈絡(luò)。
[0017] 進(jìn)一步地,所述原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的信息包括:所述原創(chuàng)微博及其轉(zhuǎn)發(fā)微博 的評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)。
[0018] 優(yōu)選地,所述事件熱度計(jì)算模塊,用于根據(jù)所述專題所包含的事件的所有原創(chuàng)微 博及其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)計(jì)算所述統(tǒng)計(jì)時(shí)間段內(nèi)關(guān)于所述專題的第 一事件熱度時(shí)間分布;所述第一事件熱度為所有目標(biāo)事件對(duì)應(yīng)的所述事件熱度的和值。
[0019] 進(jìn)一步地,所述事件熱度計(jì)算模塊包括:第一權(quán)重系數(shù)設(shè)置單元,用于對(duì)所述專題 所包含的事件的所有原創(chuàng)微博及其轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)分別設(shè)置權(quán)重 系數(shù);第一事件熱度生成單元,用于將所述統(tǒng)計(jì)時(shí)間段內(nèi)各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述事件的所 有新產(chǎn)生的原創(chuàng)微博及轉(zhuǎn)發(fā)微博的所述評(píng)論數(shù)、轉(zhuǎn)發(fā)數(shù)和點(diǎn)贊數(shù)分別與對(duì)應(yīng)的權(quán)重系數(shù)相 乘后,再相加的和值作為相應(yīng)時(shí)間節(jié)點(diǎn)上所述第一事件熱度;第一事件熱度分布單元,用于 根據(jù)所述統(tǒng)計(jì)時(shí)間段內(nèi)各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的所述第一事件熱度,形成所述第一事件熱度時(shí)間 分布。
[0020] 進(jìn)一步地,所述事件脈絡(luò)生成模塊包括:熱度陡增選取單元,用于根據(jù)所述統(tǒng)計(jì)時(shí) 間段內(nèi)所述專題的第一事件熱度時(shí)間分布,從所述統(tǒng)計(jì)時(shí)間段內(nèi)選取多個(gè)位于所述第一事 件熱度時(shí)間分布中表征第一事件熱度陡增的時(shí)間節(jié)點(diǎn);起始事件節(jié)點(diǎn)單元,用于將所述第 一事件熱度時(shí)間分布中表征第一事件熱度陡增的時(shí)間節(jié)點(diǎn)中最早的時(shí)間節(jié)點(diǎn)確定為起始 事件的脈絡(luò)時(shí)間節(jié)點(diǎn)。
[0021] 進(jìn)一步地,所述熱度陡增選取單元用于:針對(duì)所述統(tǒng)計(jì)時(shí)間段內(nèi)所述專題對(duì)應(yīng)的 所述第一事件熱度時(shí)間分布,利用一個(gè)包含多個(gè)時(shí)間節(jié)點(diǎn)的計(jì)算窗口以一個(gè)時(shí)間節(jié)點(diǎn)作為 滑動(dòng)窗口計(jì)算所述統(tǒng)計(jì)時(shí)間段內(nèi)各時(shí)間節(jié)點(diǎn)對(duì)應(yīng)的第一事件熱度陡增參量,并形成第一事 件熱度陡增參量序列;將所述第一事件熱度陡增參量序列中大于第一閾值的第一事件熱度 對(duì)應(yīng)的時(shí)間節(jié)點(diǎn)確定為所述表