一種中文文檔集的主題可視化方法

文檔序號(hào)：6515739閱讀：912來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種中文文檔集的主題可視化方法
【專利摘要】本發(fā)明公開了一種中文文檔集的主題可視化方法，包括按主題對(duì)文檔集分類的步驟，劃分文檔集時(shí)間段的步驟，計(jì)算主題頻次的步驟，對(duì)主題進(jìn)行排序的步驟，生成主題流圖的步驟，提取表示主題內(nèi)容的關(guān)鍵詞的步驟，計(jì)算關(guān)鍵詞的權(quán)重并排序的步驟和生成文字云的步驟。還包括基于主題頻次和幾何互補(bǔ)性的排序方法、文字云布局方法以及生成詳細(xì)的文字云方法。本發(fā)明的技術(shù)效果在于：1、實(shí)現(xiàn)了對(duì)中文文檔集的主題可視化。2、采用基于主題頻次和幾何互補(bǔ)性的排序方法生成的主題流圖更美觀、更平坦，空間利用率高，更利于文字云的放置。3、文字云布局方法能有效利用空間，大大提高了布局效率。4、生成詳細(xì)的文字云可以展示主題的所有關(guān)鍵詞內(nèi)容。
【專利說明】一種中文文檔集的主題可視化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本可視化和主題分析領(lǐng)域，具體來講是一種中文文檔集的主題可視化方法。
【背景技術(shù)】
[0002]大型文檔集合，如新聞、科技文獻(xiàn)、網(wǎng)頁和電子刊物、公告等，蘊(yùn)含了大量信息。隨著信息數(shù)字化的發(fā)展和普及，文檔集合的規(guī)模日益擴(kuò)大，快速閱讀和理解浩如煙海的信息，并從中提煉出有用的知識(shí)，已成為人們亟待解決的問題。
[0003]“主題”通常包括一個(gè)核心事件或活動(dòng)，以及所有與之直接相關(guān)的事件和活動(dòng)。主題檢測(cè)方法采用聚類、分類、檢索、主題追蹤等技術(shù)，根據(jù)主題將文檔集進(jìn)行層次式歸類和組織，方便用戶對(duì)其進(jìn)行檢索、選擇和瀏覽。然而，將文檔進(jìn)行歸類后，用戶仍需耗費(fèi)大量時(shí)間閱讀該主題下的所有文檔，以了解主題的主要內(nèi)容、發(fā)掘潛在知識(shí)和獲取所需的信息。
[0004]多文檔自動(dòng)摘要技術(shù)在主題檢測(cè)的基礎(chǔ)上，對(duì)主題內(nèi)容進(jìn)行匯總，去除冗余信息后，生成全面、簡(jiǎn)潔的文本。因而極大地提高了信息獲取效率。但現(xiàn)有的多文檔摘要結(jié)果通常比較復(fù)雜，用戶難以理解，且難以對(duì)摘要生成過程進(jìn)行控制，缺乏友好的用戶接口和人機(jī)交互操作。此外，多文檔自動(dòng)摘要技術(shù)往往忽略了文本內(nèi)容外的其他屬性，如時(shí)間、數(shù)量等，難以展現(xiàn)文檔集中主題和主題內(nèi)容隨時(shí)間的演變特征，也無法反映同一文檔集下各個(gè)主題之間的關(guān)系。
[0005]文本可視化作為信息可視化領(lǐng)域的一個(gè)重要分支，利用人類與生俱來的對(duì)圖形的辨識(shí)、記憶及分析能力，將文本信息轉(zhuǎn)化為圖形圖像，幫助人們直觀、高效地理解、閱讀和分析文本內(nèi)容與結(jié)構(gòu)，并通過相應(yīng)的交互操作，幫助人們發(fā)掘有價(jià)值的知識(shí)和模式。
[0006]Word Cloud(文字云)可視化技術(shù)將文本內(nèi)容抽象成一組詞匯的集合，利用字體大小表示詞匯的詞頻信息，然后將詞匯按照一定規(guī)律緊湊、美觀地排列起來，以表示文本特征。但文字云只能對(duì)單個(gè)文檔進(jìn)行可視化。對(duì)多個(gè)文檔，Themerive (主題流)對(duì)文檔集中的主題進(jìn)行可視化，展示文檔集中各主題強(qiáng)度隨時(shí)間的變化趨勢(shì)。最初的主題流只包含主題強(qiáng)度和時(shí)間信息，且主題順序隨機(jī)排列。之后，劉世霞等人提出改進(jìn)的主題流TIARA，即在主題流中嵌入文字云，進(jìn)一步對(duì)各主題內(nèi)容進(jìn)行可視化，有助于用戶快速分析文本主題內(nèi)容隨時(shí)間的變化規(guī)律。
[0007]以上幾種文本可視化技術(shù)均缺乏通用性，不適用于中文文檔，在國(guó)內(nèi)到目前為止，也尚缺乏對(duì)中文文檔主題進(jìn)行分析的可視化技術(shù)。此外，只針對(duì)英文文檔主題可視化的TIARA技術(shù)也存在如下問題:1)主題流中文字云的形狀、布局不穩(wěn)定，容易使用戶造成誤解，影響主題分析效果；2)由于受區(qū)域限制，生成的文字云無法展示出各主題的全部關(guān)鍵內(nèi)容。

【發(fā)明內(nèi)容】

[0008]本發(fā)明的目的在于提供一種中文文檔集的主題可視化方法，通過對(duì)中文文檔集中提取出的各主題信息進(jìn)行統(tǒng)計(jì)和處理，度量出主題的強(qiáng)度和內(nèi)容的權(quán)重，然后以圖形化的方式進(jìn)行展示。
[0009]實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案如下:一種中文文檔集的主題可視化方法，包括按主題對(duì)文檔集分類的步驟:設(shè)文檔集有η個(gè)主題U j=0，l，2，...，n-1，根據(jù)主題對(duì)文檔集中的所有文檔進(jìn)行分類，得到η個(gè)文檔子集Dp j=0，l，2，...，n-1 ;其中，主題L對(duì)應(yīng)的文檔子集是Dj ；
[0010]劃分文檔集時(shí)間段的步驟:設(shè)文檔集開始時(shí)間為tstart，結(jié)束時(shí)間為tmd，對(duì)文檔集時(shí)間段[tstart，tmd]進(jìn)行等分，得到時(shí)間段Tp= Ctstart+ (ρ-1) Λ t, tstart+P Λ t]，其中，
P=I, 2，…，m-1, -計(jì)算主題頻次的步驟:設(shè)主題頻次包括Vj。和Vj ρ，其中Vj Q為

171-1
主題L對(duì)應(yīng)的文檔子集h在開始時(shí)間tstmt的文檔數(shù)量，Vj,p是主題L對(duì)應(yīng)的文檔子集Dj在時(shí)間段Tp內(nèi)的文檔的數(shù)量；分別計(jì)算每個(gè)主題的主題頻次；
[0011]對(duì)主題進(jìn)行排序的步驟:對(duì)所有主題排序，得到排序后的主題序列表；
[0012]生成主題流圖的步驟:根據(jù)排序后的主題序列表和主題頻次，采用主題流算法，生成主題流圖；
[0013]提取表示主題內(nèi)容的關(guān)鍵詞的步驟:設(shè)Wlp是主題L對(duì)應(yīng)的文檔子集Dj在時(shí)間段Tp內(nèi)的文檔中表示該主題內(nèi)容的關(guān)鍵詞子集；使用現(xiàn)代漢語通用分詞系統(tǒng)從每個(gè)主題對(duì)應(yīng)的文檔子集在每個(gè)時(shí)間段的文檔中分別提取出表示該主題內(nèi)容的關(guān)鍵詞子集；
[0014]計(jì)算關(guān)鍵詞的權(quán)重并排序的步驟:設(shè)關(guān)鍵詞的權(quán)重是該關(guān)鍵詞在一個(gè)關(guān)鍵詞子集中出現(xiàn)的次數(shù)；計(jì)算每個(gè)關(guān)鍵詞在每個(gè)關(guān)鍵詞子集里的權(quán)重，并在每個(gè)關(guān)鍵詞子集中根據(jù)關(guān)鍵詞的權(quán)重從大到小對(duì)所有關(guān)鍵詞排序；
[0015]生成文字云的步驟:根據(jù)關(guān)鍵詞子集和關(guān)鍵詞權(quán)重，在主題流圖上生成文字云。
[0016]上述技術(shù)方案中，對(duì)主題進(jìn)行排序的步驟可采用基于主題頻次和幾何互補(bǔ)性的排序方法，包括
[0017]步驟I,設(shè)主題Ij的起始時(shí)間是OTj ;iVj，C1不等于零時(shí),取文檔集的開始時(shí)間tstart為OL ;當(dāng)Vjj0等于零時(shí)，則取不為零的那些時(shí)間段Tp的左端點(diǎn)的最小值作為OL ;計(jì)算每個(gè)主題的起始時(shí)間；

[0018]步驟2，設(shè)主題Ij的頻次和計(jì)算每個(gè)主題的頻次和；
[0019]步驟3:新建空列表B ;如果η為偶數(shù)，則把頻次和最大的那個(gè)主題寫入列表第一行，作為上端點(diǎn)主題Iup，把頻次和次大的那個(gè)主題寫入列表第二行，作為下端點(diǎn)主題Idtwn ；如果η為奇數(shù)，則把頻次和最大的那個(gè)主題寫入列表第一行，同時(shí)作為上端點(diǎn)主題Iup和下端點(diǎn)主題Idwn ；
[0020]步驟4:選擇一個(gè)不在列表B中的主題Ii，計(jì)算‘和Ii的頻次和的平均值〃^:
【權(quán)利要求】
1.一種中文文檔集的主題可視化方法，其特征在于，包括按主題對(duì)文檔集分類的步驟:設(shè)文檔集有η個(gè)主題Iy j=0,1,2,..., n-1，根據(jù)主題對(duì)文檔集中的所有文檔進(jìn)行分類，得到η個(gè)文檔子集Dp j=0,1,2, , n-1 ;其中，主題Ij對(duì)應(yīng)的文檔子集是Dj ；劃分文檔集時(shí)間段的步驟:設(shè)文檔集開始時(shí)間為tstart，結(jié)束時(shí)間為tmd，對(duì)文檔集時(shí)間段[tstart，tend]進(jìn)行等分,得到時(shí)間段 Tp= Ctstart+ (p-1) At, tstart+pAt]，其中，
2.如權(quán)利要求1所述的中文文檔集的主題可視化方法，其特征在于，所述對(duì)主題進(jìn)行排序的步驟，按照基于主題頻次和幾何互補(bǔ)性的排序方法進(jìn)行，包括步驟1，設(shè)主題L的起始時(shí)間是OL ;當(dāng)Vltl不等于零時(shí)，取文檔集的開始時(shí)間tstart為OTj; 當(dāng)vj等于零時(shí)，則取vj不為零的那些時(shí)間段Tp的左端點(diǎn)的最小值作為Ot ;計(jì)算每個(gè)主題的起始時(shí)間；

步驟2，設(shè)主題L的頻次和，計(jì)算每個(gè)主題的頻次和；

步驟3:新建空列表B ;如果η為偶數(shù)，則把頻次和最大的那個(gè)主題寫入列表第一行，作為上端點(diǎn)主題Iup，把頻次和次大的那個(gè)主題寫入列表第二行，作為下端點(diǎn)主題Idmm ;如果η為奇數(shù)，則把頻次和最大的那個(gè)主題寫入列表第一行，同時(shí)作為上端點(diǎn)主題Iup和下端點(diǎn)主ldomn 步驟4:選擇一個(gè)不在列表B中的主題Ii，計(jì)算、和Ii的頻次和的平均值A(chǔ)Af H): v(lvp+li)=(vp+vip) 計(jì)算Iup和Ii的幾何互補(bǔ)性，用方差0V.-表示:
3.如權(quán)利要求2所述的中文文檔集的主題可視化方法，其特征在于，所述控制參數(shù)s=0.3o
4.如權(quán)利要求1所述的中文文檔集的主題可視化方法，其特征在于，所述生成文字云的步驟，包括步驟1:選擇主題流圖上主題h對(duì)應(yīng)的區(qū)域Gp其開始時(shí)間和結(jié)束時(shí)間分別等于文檔集的開始時(shí)間tstart和結(jié)束時(shí)間tmd，將區(qū)域的時(shí)間段[tstart，tend]等分為m-1段，每個(gè)時(shí)間段的長(zhǎng)度為
5.如權(quán)利要求1所述的中文文檔集的主題可視化方法，其特征在于，還包括生成詳細(xì)的文字云的步驟，包括步驟1:選擇表達(dá)主題h的內(nèi)容的關(guān)鍵詞集合；步驟2:設(shè)置一個(gè)圓形區(qū)域C，將C的邊界離散化為一組沖突點(diǎn)集合P ; 步驟3:從關(guān)鍵詞集合中按照關(guān)鍵詞的權(quán)重從大到小選取一個(gè)關(guān)鍵詞，使用隨機(jī)貪心算法在區(qū)域C中為其生成一個(gè)候選位置coordinate (word, x, word, y)；步驟4:根據(jù)該關(guān)鍵詞的權(quán)重設(shè)定字號(hào)，再根據(jù)字號(hào)和該關(guān)鍵詞的字?jǐn)?shù)，用矩形r近似代替關(guān)鍵詞，設(shè)矩形r的左下角坐標(biāo)等于coordinate ；步驟5:對(duì)P中的每個(gè)沖突點(diǎn)，檢測(cè)各點(diǎn)是否與r沖突；如果存在沖突，轉(zhuǎn)入步驟6 ;如果不存在沖突，轉(zhuǎn)入步驟7 ; 步驟6:沿螺旋路徑更新位置coordinate后，重復(fù)步驟4、步驟5，直到找到滿足條件的位置pcoordinate或螺旋半徑大于100 ;當(dāng)螺旋半徑大于100時(shí),關(guān)鍵詞將會(huì)被舍棄；步驟7:在位置coordinate (word, x, word, y)放置該關(guān)鍵詞，并將該關(guān)鍵詞占用的區(qū)域離散化為沖突點(diǎn)，添加到?jīng)_突點(diǎn)集P中；步驟8:重復(fù)步驟3到步驟7，直到關(guān)鍵詞集合中所有關(guān)鍵詞被放置。
6.如權(quán)利要求5所述的中文文檔集的主題可視化方法，其特征在于，所述表達(dá)主題Ij的內(nèi)容的關(guān)鍵詞集合是主題L的任意一個(gè)關(guān)鍵詞子集Wj，p。
7.如權(quán)利要求5所述的中文文檔集的主題可視化方法，其特征在于，所述表達(dá)主題Ij的內(nèi)容的關(guān)鍵詞集合，由以下步驟得到: 步驟I，合并主題Ij的所有關(guān)鍵詞子集Wj，p，P=I, 2，- ,m-1 ；步驟2:計(jì)算合并后的集合中所有關(guān)鍵詞的權(quán)重，所述關(guān)鍵詞的權(quán)重是該關(guān)鍵詞在所有關(guān)鍵詞子集中出現(xiàn)的次數(shù)`。
【文檔編號(hào)】G06F17/30GK103631856SQ201310488312
【公開日】2014年3月12日申請(qǐng)日期:2013年10月17日優(yōu)先權(quán)日:2013年10月17日
【發(fā)明者】朱敏, 梁婷, 甘啟宏, 李明召, 李一申請(qǐng)人:四川大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：朱敏;梁婷;甘啟宏;李明召;李一
技術(shù)所有人：四川大學(xué)
我是此專利的發(fā)明人

上一篇：連鑄熱送熱坯計(jì)量系統(tǒng)及其方法
上一篇：過程安全績(jī)效指標(biāo)管理與統(tǒng)計(jì)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

lda主題模型可視化相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文文檔集的主題可視化方法