一種中文文檔集的主題可視化方法
【專利摘要】本發(fā)明公開了一種中文文檔集的主題可視化方法,包括按主題對(duì)文檔集分類的步驟,劃分文檔集時(shí)間段的步驟,計(jì)算主題頻次的步驟,對(duì)主題進(jìn)行排序的步驟,生成主題流圖的步驟,提取表示主題內(nèi)容的關(guān)鍵詞的步驟,計(jì)算關(guān)鍵詞的權(quán)重并排序的步驟和生成文字云的步驟。還包括基于主題頻次和幾何互補(bǔ)性的排序方法、文字云布局方法以及生成詳細(xì)的文字云方法。本發(fā)明的技術(shù)效果在于:1、實(shí)現(xiàn)了對(duì)中文文檔集的主題可視化。2、采用基于主題頻次和幾何互補(bǔ)性的排序方法生成的主題流圖更美觀、更平坦,空間利用率高,更利于文字云的放置。3、文字云布局方法能有效利用空間,大大提高了布局效率。4、生成詳細(xì)的文字云可以展示主題的所有關(guān)鍵詞內(nèi)容。
【專利說明】一種中文文檔集的主題可視化方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本可視化和主題分析領(lǐng)域,具體來講是一種中文文檔集的主題可視化方法。
【背景技術(shù)】
[0002]大型文檔集合,如新聞、科技文獻(xiàn)、網(wǎng)頁和電子刊物、公告等,蘊(yùn)含了大量信息。隨著信息數(shù)字化的發(fā)展和普及,文檔集合的規(guī)模日益擴(kuò)大,快速閱讀和理解浩如煙海的信息,并從中提煉出有用的知識(shí),已成為人們亟待解決的問題。
[0003]“主題”通常包括一個(gè)核心事件或活動(dòng),以及所有與之直接相關(guān)的事件和活動(dòng)。主題檢測(cè)方法采用聚類、分類、檢索、主題追蹤等技術(shù),根據(jù)主題將文檔集進(jìn)行層次式歸類和組織,方便用戶對(duì)其進(jìn)行檢索、選擇和瀏覽。然而,將文檔進(jìn)行歸類后,用戶仍需耗費(fèi)大量時(shí)間閱讀該主題下的所有文檔,以了解主題的主要內(nèi)容、發(fā)掘潛在知識(shí)和獲取所需的信息。
[0004]多文檔自動(dòng)摘要技術(shù)在主題檢測(cè)的基礎(chǔ)上,對(duì)主題內(nèi)容進(jìn)行匯總,去除冗余信息后,生成全面、簡(jiǎn)潔的文本。因而極大地提高了信息獲取效率。但現(xiàn)有的多文檔摘要結(jié)果通常比較復(fù)雜,用戶難以理解,且難以對(duì)摘要生成過程進(jìn)行控制,缺乏友好的用戶接口和人機(jī)交互操作。此外,多文檔自動(dòng)摘要技術(shù)往往忽略了文本內(nèi)容外的其他屬性,如時(shí)間、數(shù)量等,難以展現(xiàn)文檔集中主題和主題內(nèi)容隨時(shí)間的演變特征,也無法反映同一文檔集下各個(gè)主題之間的關(guān)系。
[0005]文本可視化作為信息可視化領(lǐng)域的一個(gè)重要分支,利用人類與生俱來的對(duì)圖形的辨識(shí)、記憶及分析能力,將文本信息轉(zhuǎn)化為圖形圖像,幫助人們直觀、高效地理解、閱讀和分析文本內(nèi)容與結(jié)構(gòu),并通過相應(yīng)的交互操作,幫助人們發(fā)掘有價(jià)值的知識(shí)和模式。
[0006]Word Cloud(文字云)可視化技術(shù)將文本內(nèi)容抽象成一組詞匯的集合,利用字體大小表示詞匯的詞頻信息,然后將詞匯按照一定規(guī)律緊湊、美觀地排列起來,以表示文本特征。但文字云只能對(duì)單個(gè)文檔進(jìn)行可視化。對(duì)多個(gè)文檔,Themerive (主題流)對(duì)文檔集中的主題進(jìn)行可視化,展示文檔集中各主題強(qiáng)度隨時(shí)間的變化趨勢(shì)。最初的主題流只包含主題強(qiáng)度和時(shí)間信息,且主題順序隨機(jī)排列。之后,劉世霞等人提出改進(jìn)的主題流TIARA,即在主題流中嵌入文字云,進(jìn)一步對(duì)各主題內(nèi)容進(jìn)行可視化,有助于用戶快速分析文本主題內(nèi)容隨時(shí)間的變化規(guī)律。
[0007]以上幾種文本可視化技術(shù)均缺乏通用性,不適用于中文文檔,在國(guó)內(nèi)到目前為止,也尚缺乏對(duì)中文文檔主題進(jìn)行分析的可視化技術(shù)。此外,只針對(duì)英文文檔主題可視化的TIARA技術(shù)也存在如下問題:1)主題流中文字云的形狀、布局不穩(wěn)定,容易使用戶造成誤解,影響主題分析效果;2)由于受區(qū)域限制,生成的文字云無法展示出各主題的全部關(guān)鍵內(nèi)容。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的在于提供一種中文文檔集的主題可視化方法,通過對(duì)中文文檔集中提取出的各主題信息進(jìn)行統(tǒng)計(jì)和處理,度量出主題的強(qiáng)度和內(nèi)容的權(quán)重,然后以圖形化的方式進(jìn)行展示。
[0009]實(shí)現(xiàn)本發(fā)明目的的技術(shù)方案如下:一種中文文檔集的主題可視化方法,包括按主題對(duì)文檔集分類的步驟:設(shè)文檔集有η個(gè)主題U j=0,l,2,...,n-1,根據(jù)主題對(duì)文檔集中的所有文檔進(jìn)行分類,得到η個(gè)文檔子集Dp j=0,l,2,...,n-1 ;其中,主題L對(duì)應(yīng)的文檔子集是Dj ;
[0010]劃分文檔集時(shí)間段的步驟:設(shè)文檔集開始時(shí)間為tstart,結(jié)束時(shí)間為tmd,對(duì)文檔集時(shí)間段[tstart,tmd]進(jìn)行等分,得到時(shí)間段Tp= Ctstart+ (ρ-1) Λ t, tstart+P Λ t],其中,
P=I, 2,…,m-1, -計(jì)算主題頻次的步驟:設(shè)主題頻次包括Vj。和Vj ρ,其中Vj Q為
171-1
主題L對(duì)應(yīng)的文檔子集h在開始時(shí)間tstmt的文檔數(shù)量,Vj,p是主題L對(duì)應(yīng)的文檔子集Dj在時(shí)間段Tp內(nèi)的文檔的數(shù)量;分別計(jì)算每個(gè)主題的主題頻次;
[0011]對(duì)主題進(jìn)行排序的步驟:對(duì)所有主題排序,得到排序后的主題序列表;
[0012]生成主題流圖的步驟:根據(jù)排序后的主題序列表和主題頻次,采用主題流算法,生成主題流圖;
[0013]提取表示主題內(nèi)容的關(guān)鍵詞的步驟:設(shè)Wlp是主題L對(duì)應(yīng)的文檔子集Dj在時(shí)間段Tp內(nèi)的文檔中表示該主題內(nèi)容的關(guān)鍵詞子集;使用現(xiàn)代漢語通用分詞系統(tǒng)從每個(gè)主題對(duì)應(yīng)的文檔子集在每個(gè)時(shí)間段的文檔中分別提取出表示該主題內(nèi)容的關(guān)鍵詞子集;
[0014]計(jì)算關(guān)鍵詞的權(quán)重并排序的步驟:設(shè)關(guān)鍵詞的權(quán)重是該關(guān)鍵詞在一個(gè)關(guān)鍵詞子集中出現(xiàn)的次數(shù);計(jì)算每個(gè)關(guān)鍵詞在每個(gè)關(guān)鍵詞子集里的權(quán)重,并在每個(gè)關(guān)鍵詞子集中根據(jù)關(guān)鍵詞的權(quán)重從大到小對(duì)所有關(guān)鍵詞排序;
[0015]生成文字云的步驟:根據(jù)關(guān)鍵詞子集和關(guān)鍵詞權(quán)重,在主題流圖上生成文字云。
[0016]上述技術(shù)方案中,對(duì)主題進(jìn)行排序的步驟可采用基于主題頻次和幾何互補(bǔ)性的排序方法,包括
[0017]步驟I,設(shè)主題Ij的起始時(shí)間是OTj ;iVj,C1不等于零時(shí),取文檔集的開始時(shí)間tstart為OL ;當(dāng)Vjj0等于零時(shí),則取不為零的那些時(shí)間段Tp的左端點(diǎn)的最小值作為OL ;計(jì)算每個(gè)主題的起始時(shí)間;
[0018]步驟2,設(shè)主題Ij的頻次和計(jì)算每個(gè)主題的頻次和;
[0019]步驟3:新建空列表B ;如果η為偶數(shù),則把頻次和最大的那個(gè)主題寫入列表第一行,作為上端點(diǎn)主題Iup,把頻次和次大的那個(gè)主題寫入列表第二行,作為下端點(diǎn)主題Idtwn ;如果η為奇數(shù),則把頻次和最大的那個(gè)主題寫入列表第一行,同時(shí)作為上端點(diǎn)主題Iup和下端點(diǎn)主題Idwn ;
[0020]步驟4:選擇一個(gè)不在列表B中的主題Ii,計(jì)算‘和Ii的頻次和的平均值〃^:
【權(quán)利要求】
1.一種中文文檔集的主題可視化方法,其特征在于,包括 按主題對(duì)文檔集分類的步驟:設(shè)文檔集有η個(gè)主題Iy j=0,1,2,..., n-1,根據(jù)主題對(duì)文檔集中的所有文檔進(jìn)行分類,得到η個(gè)文檔子集Dp j=0,1,2, , n-1 ;其中,主題Ij對(duì)應(yīng)的文檔子集是Dj ; 劃分文檔集時(shí)間段的步驟:設(shè)文檔集開始時(shí)間為tstart,結(jié)束時(shí)間為tmd,對(duì)文檔集時(shí)間段[tstart,tend]進(jìn)行等分,得到時(shí)間段 Tp= Ctstart+ (p-1) At, tstart+pAt],其中,
2.如權(quán)利要求1所述的中文文檔集的主題可視化方法,其特征在于,所述對(duì)主題進(jìn)行排序的步驟,按照基于主題頻次和幾何互補(bǔ)性的排序方法進(jìn)行,包括 步驟1,設(shè)主題L的起始時(shí)間是OL ;當(dāng)Vltl不等于零時(shí),取文檔集的開始時(shí)間tstart為OTj; 當(dāng)vj等于零時(shí),則取vj不為零的那些時(shí)間段Tp的左端點(diǎn)的最小值作為Ot ;計(jì)算每個(gè)主題的起始時(shí)間;
步驟2,設(shè)主題L的頻次和,計(jì)算每個(gè)主題的頻次和;
步驟3:新建空列表B ;如果η為偶數(shù),則把頻次和最大的那個(gè)主題寫入列表第一行,作為上端點(diǎn)主題Iup,把頻次和次大的那個(gè)主題寫入列表第二行,作為下端點(diǎn)主題Idmm ;如果η為奇數(shù),則把頻次和最大的那個(gè)主題寫入列表第一行,同時(shí)作為上端點(diǎn)主題Iup和下端點(diǎn)主ldomn 步驟4:選擇一個(gè)不在列表B中的主題Ii,計(jì)算、和Ii的頻次和的平均值A(chǔ)Af H): v(lvp+li)=(vp+vip) 計(jì)算Iup和Ii的幾何互補(bǔ)性,用方差0V.-表示:
3.如權(quán)利要求2所述的中文文檔集的主題可視化方法,其特征在于,所述控制參數(shù)s=0.3o
4.如權(quán)利要求1所述的中文文檔集的主題可視化方法,其特征在于,所述生成文字云的步驟,包括 步驟1:選擇主題流圖上主題h對(duì)應(yīng)的區(qū)域Gp其開始時(shí)間和結(jié)束時(shí)間分別等于文檔集的開始時(shí)間tstart和結(jié)束時(shí)間tmd,將區(qū)域的時(shí)間段[tstart,tend]等分為m-1段,每個(gè)時(shí)間段的長(zhǎng)度為
5.如權(quán)利要求1所述的中文文檔集的主題可視化方法,其特征在于,還包括生成詳細(xì)的文字云的步驟,包括 步驟1:選擇表達(dá)主題h的內(nèi)容的關(guān)鍵詞集合; 步驟2:設(shè)置一個(gè)圓形區(qū)域C,將C的邊界離散化為一組沖突點(diǎn)集合P ; 步驟3:從關(guān)鍵詞集合中按照關(guān)鍵詞的權(quán)重從大到小選取一個(gè)關(guān)鍵詞,使用隨機(jī)貪心算法在區(qū)域C中為其生成一個(gè)候選位置coordinate (word, x, word, y); 步驟4:根據(jù)該關(guān)鍵詞的權(quán)重設(shè)定字號(hào),再根據(jù)字號(hào)和該關(guān)鍵詞的字?jǐn)?shù),用矩形r近似代替關(guān)鍵詞,設(shè)矩形r的左下角坐標(biāo)等于coordinate ; 步驟5:對(duì)P中的每個(gè)沖突點(diǎn),檢測(cè)各點(diǎn)是否與r沖突;如果存在沖突,轉(zhuǎn)入步驟6 ;如果不存在沖突,轉(zhuǎn)入步驟7 ; 步驟6:沿螺旋路徑更新位置coordinate后,重復(fù)步驟4、步驟5,直到找到滿足條件的位置pcoordinate或螺旋半徑大于100 ;當(dāng)螺旋半徑大于100時(shí),關(guān)鍵詞將會(huì)被舍棄;步驟7:在位置coordinate (word, x, word, y)放置該關(guān)鍵詞,并將該關(guān)鍵詞占用的區(qū)域離散化為沖突點(diǎn),添加到?jīng)_突點(diǎn)集P中; 步驟8:重復(fù)步驟3到步驟7,直到關(guān)鍵詞集合中所有關(guān)鍵詞被放置。
6.如權(quán)利要求5所述的中文文檔集的主題可視化方法,其特征在于,所述表達(dá)主題Ij的內(nèi)容的關(guān)鍵詞集合是主題L的任意一個(gè)關(guān)鍵詞子集Wj,p。
7.如權(quán)利要求5所述的中文文檔集的主題可視化方法,其特征在于,所述表達(dá)主題Ij的內(nèi)容的關(guān)鍵詞集合,由以下步驟得到: 步驟I,合并主題Ij的所有關(guān)鍵詞子集Wj,p,P=I, 2,- ,m-1 ; 步驟2:計(jì)算合并后的集合中所有關(guān)鍵詞的權(quán)重,所述關(guān)鍵詞的權(quán)重是該關(guān)鍵詞在所有關(guān)鍵詞子集中出現(xiàn)的次數(shù)`。
【文檔編號(hào)】G06F17/30GK103631856SQ201310488312
【公開日】2014年3月12日 申請(qǐng)日期:2013年10月17日 優(yōu)先權(quán)日:2013年10月17日
【發(fā)明者】朱敏, 梁婷, 甘啟宏, 李明召, 李 一 申請(qǐng)人:四川大學(xué)