亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種在線討論區(qū)話題檢測與跟蹤方法

文檔序號:7928628閱讀:248來源:國知局
專利名稱:一種在線討論區(qū)話題檢測與跟蹤方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別涉及在線討論區(qū)信息檢索技術(shù)。
背景技術(shù)
隨著互聯(lián)網(wǎng)(the Internet)的飛速發(fā)展,它已經(jīng)逐漸成為人們生活中一個重要的 部分。在Web2. 0時代,網(wǎng)絡(luò)的使用者已經(jīng)從以前的信息接受者轉(zhuǎn)變成了信息的發(fā)布者,網(wǎng) 絡(luò)的交互性越來越強(qiáng),而在線討論區(qū)就是目前互聯(lián)網(wǎng)上最流行的交互性應(yīng)用之一,網(wǎng)上各 種論壇、BBS等是在線討論區(qū)的典型實例。通常,用戶們可以在在線討論區(qū)中暢所欲言,發(fā)表 自己的看法,因而討論區(qū)中的信息從語義上看是處于一種各類內(nèi)容混雜而無序的狀態(tài),給 信息處理和檢索帶來了很大的挑戰(zhàn)一方面,傳統(tǒng)的信息檢索應(yīng)用(例如傳統(tǒng)的搜索引擎) 只能在帖子或線索的層次以基于關(guān)鍵詞的方式上對信息進(jìn)行處理,效果很差;另一方面,這 種復(fù)雜性對于討論區(qū)管理者和相關(guān)部門的監(jiān)管來說造成了巨大的困難。對討論區(qū)信息進(jìn) 行話題檢測與跟蹤之后,可以自動的對討論內(nèi)容進(jìn)行分類規(guī)整,便于查找和編制索引,大大 方便了討論區(qū)用戶和管理人員;更進(jìn)一步,在各個話題之間進(jìn)一步進(jìn)行挖掘的話,還可以分 析出每個話題的發(fā)展趨勢以及話題之間的互動關(guān)系,進(jìn)而實現(xiàn)對網(wǎng)絡(luò)輿情趨勢的估計和預(yù) 測。近年來,由于其廣泛的需求和巨大的實用市場,在線討論區(qū)信息檢索技術(shù)已經(jīng)成為一項 研究熱點。 —個典型的在線討論區(qū)的結(jié)構(gòu)如下整個討論區(qū)分為若干個"版面"(board),每個 版面討論某一個領(lǐng)域的內(nèi)容,常見的版塊例如體育、音樂、計算機(jī)技術(shù)等。 一般來說,各版 面之間是相對獨立的,里面的帖子、線索都是沒有交叉的。每個版面由許多"帖子"(post) 構(gòu)成, 一個用戶發(fā)表一次內(nèi)容就是一個帖子,它是討論區(qū)的最小結(jié)構(gòu)單位, 一般包括發(fā)帖時 間、發(fā)帖時間、標(biāo)題、發(fā)帖人、內(nèi)容四種屬性以及所屬線索的結(jié)構(gòu)信息。帖子之間可以存在 "回復(fù)"的關(guān)系,一個帖子可能是回復(fù)之前的某一個帖子。由回復(fù)關(guān)系聯(lián)系在一起的一組帖 子構(gòu)成一個"線索",或某些討論區(qū)中成為"主題",一個線索中的帖子共享一個標(biāo)題。線索 中的第一個帖子(它不回復(fù)任何帖子)稱為"入口" (entry),其它的帖子稱為"回復(fù)"。帖 子和線索構(gòu)成了討論區(qū)的物理結(jié)構(gòu),如圖1(a)和(b)所示。而更高層的,不同的線索之間 則可能具有語義聯(lián)系,例如,不同的帖子可能是討論了同一個事件的各個組成部分,或是針 對同一個問題發(fā)表了不同的看法。這些由語義關(guān)系聯(lián)系起來的線索構(gòu)成了一個"話題"。相 對于討論區(qū)的物理結(jié)構(gòu),話題結(jié)構(gòu)無法直接獲得而必須通過對帖子進(jìn)行語義分析,因而話 題構(gòu)成了討論區(qū)的語義結(jié)構(gòu),如圖1(c)所示。 在話題跟蹤與監(jiān)測技術(shù)研究領(lǐng)域,針對新聞報道的相關(guān)技術(shù)已經(jīng)發(fā)展了多年并已 比較成熟。針對新聞報道的話題檢測與跟蹤的基本框架是對于每一個新發(fā)布的新聞,計算 它與新聞庫中每一個已知的新聞的文本相似度,如果它與所有的已知新聞的相似度都小于 某預(yù)先指定的閾值e ^,則認(rèn)為該新聞屬于一個新的話題,否則判斷它與具有最大相似度 的那個已知新聞屬于同一個話題。和新聞報道這種由專業(yè)機(jī)構(gòu)發(fā)布的內(nèi)容相比,討論區(qū)內(nèi) 容由各類網(wǎng)民發(fā)表,因而識別難度大的多。具體表現(xiàn)在首先,新聞中所使用的語言總是正
4帖子所使用的語言則往往比較口語化和隨意,甚至有很多錯別字; 第二,新聞中對事件的描述是完整的,所有要素都會出現(xiàn),而討論區(qū)帖子中很多內(nèi)容都是隱 含的,需要結(jié)合合適的上下文才能理解;第三,新聞的內(nèi)容是集中的,而討論區(qū)內(nèi)容則充斥 了很多沒有信息度的閑聊和"跑題"。 目前為止還沒有研究針對討論區(qū)的話題檢測與跟蹤提出比較有效的解決算法,而 基于以上的分析和實驗證明,現(xiàn)有的針對新聞報道的話題檢測與跟蹤方法無法在討論區(qū)內(nèi) 容上取得好的效果。同時,由于討論區(qū)的內(nèi)容廣泛而復(fù)雜,對算法實時性的要求也很高。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)的問題,本發(fā)明目的在于提出一種適用于在線討論區(qū)(包括論 壇、電子公告牌系統(tǒng)等)的話題檢測與跟蹤方法。 為實現(xiàn)上述目的,結(jié)合內(nèi)容文本與用戶行為的在線討論區(qū)話題檢測與跟蹤方法, 其包括步驟 步驟1 :采用HTML解析模塊對討論區(qū)帖子進(jìn)行預(yù)處理及線索重構(gòu); 步驟2 :利用帖子和線索的信息度測量模塊對新輸入的帖子和相關(guān)線索進(jìn)行信息
度檢查,并對線索特征向量進(jìn)行更新; 步驟3 :對線索數(shù)據(jù)庫中的線索的內(nèi)容文本進(jìn)行分析;
步驟4 :對線索數(shù)據(jù)庫中的線索的用戶行為進(jìn)行分析; 步驟5 :將線索的內(nèi)容文本和用戶行為的分析結(jié)果進(jìn)行融合,判斷線索的話題分類。 本發(fā)明提出了一種新型的討論區(qū)信息檢索技術(shù),在在線討論區(qū)上實現(xiàn)了自動的話 題檢測與跟蹤。本發(fā)明的方法中提出的帖子和線索的信息度測量可以在很大程度上減少在 線討論區(qū)環(huán)境下非正式的語言帶來的噪聲;針對討論區(qū)線索的特點,本發(fā)明的方法在進(jìn)行 內(nèi)容文本分析的過程中提出了詞匯按位置加權(quán)的方法,使得內(nèi)容文本分析可以專注在線索 中最重要的部分;除使用內(nèi)容文本分析之外,本發(fā)明的方法還提出對討論區(qū)的用戶行為進(jìn) 行分析,進(jìn)一步減輕討論區(qū)環(huán)境中非正式的語言帶來的影響;本發(fā)明的方法提出的兩層融 合判斷框架可以很好的將內(nèi)容文本和用戶行為的分析結(jié)果融合起來,以形成對討論區(qū)線索 的話題關(guān)系的綜合判斷。本方法克服了以前只能依賴人工手動的方法實現(xiàn)該目標(biāo)的缺點, 具有廣闊的應(yīng)用前景。


圖1 (a)、圖1 (b)和圖1 (c)是現(xiàn)有技術(shù)中討論區(qū)物理結(jié)構(gòu)和語義(話題)結(jié)構(gòu)的 示意圖;圖l(a)原始(底層)結(jié)構(gòu),圖l(b)線索結(jié)構(gòu),圖l(c)話題結(jié)構(gòu);
圖2是本發(fā)明方案的整體框架; 圖3是本發(fā)明結(jié)合內(nèi)容文本與用戶行為的話題判斷示意圖; 圖4本發(fā)明帖子和線索的信息度測量及特征向量更新模塊的流程圖。
具體實施例方式
下面詳細(xì)給出該發(fā)明技術(shù)方案中所涉及的各個細(xì)節(jié)問題的說明。
5
本發(fā)明的主要特點在于 1)使用了帖子信息度分類器過濾掉無效帖子。討論區(qū)中充斥的大量沒有信息度的 帖子會給話題檢測與跟蹤帶來很多噪聲,而信息度分類器可以在很大程度上過濾掉這類帖 子,提高系統(tǒng)的運(yùn)行效果; 2)分析用戶行為。本發(fā)明方法除使用傳統(tǒng)的內(nèi)容文本分析外,結(jié)合討論區(qū)的特點 同時對討論區(qū)用戶的行為特征進(jìn)行分析; 3)使用兩層融合框架進(jìn)行內(nèi)容文本和用戶行為分析的結(jié)果。針對內(nèi)容文本分析和 用戶行為分析的不同點,本發(fā)明方法使用了兩層的框架對它們進(jìn)行融合從而形成最終的判 斷結(jié)果。 本發(fā)明方案實施的整體框架見附圖2,本發(fā)明的方法具體運(yùn)行的硬件和編程語言 并不限制,用任何語言編寫都可以完成,為此其他工作模式不再贅述,下面僅舉一實例,采 用一臺具有2. 8G赫茲中央處理器和1G字節(jié)內(nèi)存的奔騰4計算機(jī)并用C++語言編制了在線 討論區(qū)話題檢測與跟蹤的工作程序,實現(xiàn)了本發(fā)明的方法,包括新帖子、預(yù)處理模塊、帖子 和線索的信息度測量及特征向量更新模塊、內(nèi)容文本分析模塊、用戶行為分析模塊、融合判 斷模塊,具體實施如下討論區(qū)的帖子首先經(jīng)過HTML解析器和預(yù)處理模塊,以提取出帖子 的各要素和重構(gòu)出線索結(jié)構(gòu);接下用帖子和線索的信息度測量及特征向量更新模塊來進(jìn)行 帖子和線索的信息度檢查,對檢查為"有效"的線索更新其特征向量而忽略"無效"的特征 向量;接下用內(nèi)容文本分析模塊和用戶行為分析模塊來對線索的內(nèi)容文本和用戶行為分別 進(jìn)行分析;最后用融合判斷模塊對內(nèi)容文本和用戶行為的分析結(jié)果使用兩層融合判斷框架 進(jìn)行融合,判斷出線索的話題關(guān)系。
(1)討論區(qū)帖子預(yù)處理及線索(線索也稱為主題)重構(gòu) 原始的在線討論區(qū)帖子被輸入后,經(jīng)過HTML語法解析和帖子結(jié)構(gòu)分析可以提取 出帖子的發(fā)帖時間、發(fā)帖時間、標(biāo)題、發(fā)帖人、內(nèi)容四種屬性以及所屬線索的結(jié)構(gòu)信息?;?線索結(jié)構(gòu)信息可以重構(gòu)出討論區(qū)的線索結(jié)構(gòu)。接下來對帖子的標(biāo)題和內(nèi)容分別進(jìn)行中文分 詞和刪除停詞(stopiords);根據(jù)帖子的線索結(jié)構(gòu)信息重構(gòu)出討論區(qū)線索的集合。
(2)帖子及線索的信息度檢查和線索特征向量更新 如圖4所示,對于經(jīng)過預(yù)處理的每一個帖子,用帖子信息度分類器對其進(jìn)行信息 度檢查;對于新輸入系統(tǒng)的每一個帖子所對應(yīng)的線索進(jìn)行信息度判定;統(tǒng)計其內(nèi)容中各單 詞出現(xiàn)的詞頻以形成"詞袋"(bag-ofiord)向量x :x G Rn,其中,Rn表示n維實數(shù)特征空 間,n是詞匯表中詞匯的數(shù)量,"詞袋"向量x中每個元素表示該詞匯在帖子內(nèi)容中出現(xiàn)的次 數(shù)。用一個預(yù)先訓(xùn)練好的one-class SVM帖子信息度分類器對"詞袋"向量x進(jìn)行信息度 檢查,根據(jù)其信息度結(jié)果將帖子標(biāo)記為"有效"(有足夠的信息度)和"無效"(沒有足夠的 信息度)兩類。本步驟中所使用的one-class SVM分類器按如下方法構(gòu)造
首先由構(gòu)建一個僅由"無效"的帖子組成的訓(xùn)練集,因為"有效"的帖子范圍十分 廣泛,理論上不可能構(gòu)建出全面的"有效"帖子訓(xùn)練集。訓(xùn)練集的構(gòu)建需要對一些預(yù)先采集 來的帖子進(jìn)行人工標(biāo)注,一般來說訓(xùn)練集中的帖子數(shù)量越多,構(gòu)造出來的分類器效果越好。 構(gòu)造的訓(xùn)練集即由"詞袋"向量Xi構(gòu)成的集合,記做
Xi G Rn, i = 1, . , 1 其中1是訓(xùn)練集中樣本的數(shù)量。選定核函數(shù)k,令①是k對應(yīng)的將特征空間Rn映射到內(nèi)積空間F的特征映射,即
①Rn — F,
k(Xi, Xj)=(①(Xi) ①()
其中,Xi和Xj分別表示訓(xùn)練集中第i個和第j個詞袋向量;本方法中選用k為高 斯核函數(shù) <formula>formula see original document page 7</formula> 其中,c是高斯核參數(shù),可以根據(jù)運(yùn)行效果進(jìn)行調(diào)節(jié)。要構(gòu)建需要的one-class SVM
分類器,只需解下面的二次規(guī)劃問題
m <formula>formula see original document page 7</formula> 其中v G (0, 1]是一個平衡分類精度和過學(xué)習(xí)的變量,I i是一系列非零的松弛變 量。設(shè)以上二次規(guī)劃問題的解是^和P*(L已在優(yōu)化目標(biāo)中懲罰限定),則構(gòu)造出的分類 函數(shù)f(x)為: <formula>formula see original document page 7</formula> 如果分類函數(shù)f (x)輸出為負(fù)值表示目標(biāo)帖子是"無效"的,否則是"有效"的。
對于新輸入的每一個帖子所對應(yīng)的線索di,如果該線索僅包含一個帖子且為無 效,則標(biāo)記該線索為"無效",否則標(biāo)記為"有效"。 對于所有受影響的線索(其有新帖子被輸入),使用位置加權(quán)(posieighting)方
法更新其詞匯頻率(term frequency, TF)向量。位置加權(quán)的公式是
標(biāo)題中的詞匯
入口貼中前40個詞匯(如果有效) 前16個有效的回復(fù)貼中各前15個詞匯
1, 1, o,
其它 Wp。s定義了出現(xiàn)在每個詞匯的位置權(quán)值,則TF向量中每個元素對應(yīng)詞匯表中的一 個詞匯,元素值就是該線索中出現(xiàn)的該詞匯位置權(quán)值的和。同時更新全局的文檔頻率(DF) 向量,其每個元素對應(yīng)詞匯表中的一個詞匯,元素值就是所有出現(xiàn)該詞匯的線索的數(shù)量。
對于所有受影響的線索(其有新帖子被輸入系統(tǒng)),更新其用戶頻率向量(user frequency, UF), —個帖子的UF向量中每個元素對應(yīng)一個討論區(qū)用戶,元素值就是該線索中對應(yīng) 用戶發(fā)帖的數(shù)量。同時更新全局的線索用戶頻率(TUF)向量,其每個元素對應(yīng)一個討論區(qū) 用戶,元素值就是所有出現(xiàn)該用戶發(fā)帖的線索的數(shù)量。
(3)線索的內(nèi)容文本分析 對于所有已重構(gòu)出的線索di,使用"詞匯頻率對倒排文檔頻率(TF-IDF)"模型計算 兩兩之間的內(nèi)容文本相似度csim(di, dj):
式中wttf'idf(d,w)稱為當(dāng)前時刻t線索d中詞匯w的TF-IDF權(quán)值,定義如下
1 … 、,<formula>formula see original document page 8</formula> 其中,tft(d,w)表示時刻t線索d的TF向量中詞匯w對應(yīng)的元素的值,Nt是當(dāng)前 所有已經(jīng)輸入的線索數(shù)量,Zt(d)是一個歸一化因子 Z,W)=》/'((外10§:777^ 浙O) 在計算內(nèi)容文本相似度的過程中,對于任意兩個線索,僅當(dāng)它們中的任一個在本
輪受影響(其有新帖子被輸入系統(tǒng))才需要重新計算相似度,否則系統(tǒng)中已經(jīng)保存了它們
的相似度值,無需更新;對于任意的兩個線索,如果它們的創(chuàng)建時間(線索中的第一個帖子
的發(fā)帖時間)相差超過2天,則不計算它們的內(nèi)容文本相似度,直接計為0 ; 接下來,對于每一個已知的線索di,在所有比該線索&創(chuàng)建時間早的線索中搜索
與該線索&的內(nèi)容文本相似度最大的那個線索,記為d^,相應(yīng)的內(nèi)容文本相似度的值為
csim(dci*, di); C = argmaxc"m"《,d') [OO57] (4)線索的用戶行為分析 對于所有已重構(gòu)出的線索di,使用"用戶頻率對倒排線索用戶頻率(UF-ITUF)"模 型計算所有已知的線索兩兩之間的用戶行為相似度usim(di, dj):
<formula>formula see original document page 8</formula> 上式中wuf'ituf (d, u)稱為線索d中討論區(qū)用戶u的UF-ITUF權(quán)值,定義如下 <formula>formula see original document page 8</formula>
<formula>formula see original document page 8</formula>
其中,Z(u) (d)是一個歸一化因子,uf (d, u)是線索d的UF向量中用戶u對應(yīng)的元 素值,tuf (u)是TUF向量中用戶u對應(yīng)的元素值。在計算用戶行為相似度的過程中,對于 任意兩個線索,僅當(dāng)它們中的任一個在本輪受影響(其有新帖子被輸入系統(tǒng))才需要重新 計算相似度,如果它們的創(chuàng)建時間(線索中的第一個帖子的發(fā)帖時間)相差超過2天,否則 系統(tǒng)中已經(jīng)保存了它們的相似度值,無需更新;對于任意的兩個線索,則不計算它們的用戶 行為相似度,直接計為O; 接下來對于系統(tǒng)中每一個已知的線索di,在所有比該線索&創(chuàng)建時間早的線索中 搜索與該線索&的用戶行為相似度最大的那個線索,記為dui*,它們之間的內(nèi)容文本相似度 的值為usim(dui*, ;
《=arg max "^附,W,",, 其中,d' G win2d表示在一個2天的窗口中取出所有的線索d'進(jìn)行搜索。
(5)結(jié)合內(nèi)容文本與用戶行為的分析結(jié)果進(jìn)行融合,判斷線索的話題分類
在判斷討論區(qū)線索的話題關(guān)系時,本發(fā)明使用兩層的融合判斷框架來融合前述的 內(nèi)容文本分析與用戶行為分析的結(jié)果,如圖3所示。 第一層對于系統(tǒng)中某一個已知的線索di,將前面算出的csim(d。A d》值與
預(yù)先設(shè)定的閾值eel比較,如果cw'm(4人4)^&p則進(jìn)入第二層繼續(xù)判斷;反之,如果
W/W",*,《■) > ^,則判斷線索&是與線索d了屬于同一個話題,結(jié)束判斷;
第二層將(3)中算出的csim(d/,di)值與預(yù)先設(shè)定的閾值9 。2 ( 9 。2與前述e cl 之間需滿足關(guān)系0< e。2< ej比較,并且將前面計算出的usim(duA d》與預(yù)先設(shè)定的 閾值9u比較,如果滿足pc2 S cw'叫, ^,且,'w(《!.,《.)> 6 則判斷線索&是與線索dj屬于同一個話題,否則判斷線索&描述了一個之前沒 有見到過的新話題。 使用上述兩層融合判斷框架對所有已知線索的話題關(guān)系做出判斷。注意到話題關(guān) 系是可以傳遞的,即如果線索&與線索dj屬于同一個話題,并且線索dj和線索dk屬于同 一個話題,則線索&和線索dk也屬于同一個話題;進(jìn)一步可以推出線索di、dj、dk都屬于同 一個話題。將所有屬于同一個話題的線索放到一起可以形成一個話題線索組,則系統(tǒng)中的 話題形成了若干個話題線索組,將所有的話題線索組作為系統(tǒng)輸出。 以上所述,僅為本發(fā)明中的具體實施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任 何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在 本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。
9
權(quán)利要求
一種在線討論區(qū)話題檢測與跟蹤方法,包括步驟步驟1采用HTML解析模塊對討論區(qū)帖子進(jìn)行預(yù)處理及線索重構(gòu);步驟2利用帖子和線索的信息度測量模塊對新輸入的帖子和相關(guān)線索進(jìn)行信息度檢查,并對線索特征向量進(jìn)行更新;步驟3對線索數(shù)據(jù)庫中的線索的內(nèi)容文本進(jìn)行分析;步驟4對線索數(shù)據(jù)庫中的線索的用戶行為進(jìn)行分析;步驟5將線索的內(nèi)容文本和用戶行為的分析結(jié)果進(jìn)行融合,判斷線索的話題分類。
2. 按照權(quán)利要求1所述的方法,其特征在于,討論區(qū)帖子預(yù)處理及線索重構(gòu),包括步驟步驟11 :對新輸入的討論區(qū)帖子網(wǎng)頁進(jìn)行HTML解析;步驟12 :對HTML解析后的帖子分析其各項屬性,包括發(fā)帖時間、標(biāo)題、發(fā)帖人、內(nèi)容和 線索結(jié)構(gòu)信息;步驟13 :對帖子標(biāo)題和內(nèi)容進(jìn)行詞法分析,以分解成單詞序列,刪除停詞; 步驟14 :根據(jù)帖子的線索結(jié)構(gòu)信息重構(gòu)出討論區(qū)線索的集合。
3. 按照權(quán)利要求1所述的方法,其特征在于,利用帖子和線索的信息度測量模塊對新 輸入的帖子和相關(guān)線索進(jìn)行信息度檢查,包括步驟步驟211 :對于經(jīng)過預(yù)處理的新輸入的每一個帖子,用帖子信息度測量器對其進(jìn)行信 息度檢查,輸出為有效線索或無效線索;步驟212 :在帖子信息度測量的基礎(chǔ)上,對于所有具有新帖子被輸入的線索進(jìn)行信息 度測量,輸出為有效線索或無效線索;步驟213 :對于判定為無效的線索,因其當(dāng)前不包含足夠的有用信息,則將暫時忽略無 效的線索。
4. 按照權(quán)利要求1所述的方法,其特征在于,對線索特征向量進(jìn)行更新,包括步驟 步驟221 :對于所有具有新帖子被輸入系統(tǒng)的線索,如果被信息度測量判定為有效,則使用位置加權(quán)方法更新該線索的詞匯頻率向量,同時更新全局的文檔頻率向量;詞匯頻率 向量和文檔頻率向量總稱為線索的內(nèi)容文本特征向量;步驟222 :對于所有具有新帖子被輸入系統(tǒng)的線索,如果被信息度測量判定為有效,則 更新該線索的用戶頻率向量,同時更新全局的線索用戶頻率向量;用戶頻率向量和線索用 戶頻率向量總稱為線索的用戶行為特征向量。
5. 按照權(quán)利要求1所述的方法,其特征在于,線索的內(nèi)容文本分析,包括步驟步驟31 :對于所有已重構(gòu)出的線索,使用詞匯頻率對倒排文檔頻率模型計算線索兩兩 之間的內(nèi)容文本相似度;步驟32:對于每一個已重構(gòu)出的線索,在所有比該線索創(chuàng)建時間早的線索中搜索出與 該線索內(nèi)容文本相似度最大的那個線索,并記錄這個最大的內(nèi)容文本相似度的值。
6. 按照權(quán)利要求1所述的方法,其特征在于,線索的用戶行為分析,包括步驟 步驟41 :對于所有已重構(gòu)出的線索,使用用戶頻率對倒排線索用戶頻率模型計算所有已知的線索兩兩之間的用戶行為相似度;步驟42 :對于每一個已重構(gòu)出的線索,在所有比該線索創(chuàng)建時間早的線索中搜索出與 該線索用戶行為相似度最大的那個線索,并記錄這個最大的用戶行為相似度的值。
7.按照權(quán)利要求1所述的方法,其特征在于,將線索的內(nèi)容文本和用戶行為的分析結(jié) 果進(jìn)行融合,判斷線索的話題分類,步驟是步驟51 :對于所有已重構(gòu)出的線索使用兩層融合判斷框架判斷出該線索是否與該線 索之前的某線索屬于同一個話題、還是描述了一個新的話題;步驟52:根據(jù)步驟51的結(jié)果顯示的話題關(guān)系,將系統(tǒng)中的線索形成若干個話題線索 組,并作為運(yùn)行結(jié)果輸出。
全文摘要
本發(fā)明涉及計算機(jī)網(wǎng)絡(luò)技術(shù)領(lǐng)域,一種在線討論區(qū)話題檢測與跟蹤方法,包括步驟采用HTML解析模塊對討論區(qū)帖子進(jìn)行預(yù)處理及線索重構(gòu);利用帖子和線索的信息度測量模塊對新輸入的帖子和相關(guān)線索進(jìn)行信息度檢查,并對線索特征向量進(jìn)行更新;對線索數(shù)據(jù)庫中的線索的內(nèi)容文本進(jìn)行分析;對線索數(shù)據(jù)庫中的線索的用戶行為進(jìn)行分析;將線索的內(nèi)容文本和用戶行為的分析結(jié)果進(jìn)行融合,判斷線索的話題分類。本發(fā)明鑒于在線討論區(qū)的復(fù)雜性,本發(fā)明通過結(jié)合內(nèi)容和用戶行為的方法較好的解決了在線討論區(qū)話題檢測與跟蹤問題,具有很好的應(yīng)用前景。
文檔編號H04L12/18GK101751424SQ200810239328
公開日2010年6月23日 申請日期2008年12月10日 優(yōu)先權(quán)日2008年12月10日
發(fā)明者吳偶, 朱明亮, 胡衛(wèi)明 申請人:中國科學(xué)院自動化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1