亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于兩層聚類的多文檔主題發(fā)現(xiàn)方法

文檔序號(hào):8457303閱讀:249來源:國(guó)知局
基于兩層聚類的多文檔主題發(fā)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及兩層聚類的研宄領(lǐng)域,特別涉及一種基于兩層聚類的多文檔主題發(fā)現(xiàn) 方法。
【背景技術(shù)】
[0002] 在多文檔的主題發(fā)現(xiàn)的句子表示方面,一般技術(shù)主要使用句子分詞,使用基于分 詞結(jié)果的詞頻向量或TF-IDF向量等方式來表示句子。通常情況下,詞語在語義空間中的分 布不是均勻的,這樣,傳統(tǒng)向量空間模型中特征分量間"斜交"會(huì)給句子聚類帶來負(fù)面的影 響。而在基于密度的句子聚類算法中,一般半徑參數(shù)需要提前指定,這也給多文檔的主題發(fā) 現(xiàn)帶來了不便。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明的主要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足,提供一種基于兩層聚類的多 文檔主題發(fā)現(xiàn)方法。
[0004] 為了達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案:
[0005] 一種基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,包括下述步驟:
[0006] Sl、將多個(gè)文檔作為輸入,對(duì)每個(gè)文檔進(jìn)行預(yù)處理,包括對(duì)文檔進(jìn)行分句,對(duì)句子 進(jìn)行分詞,獲取多文檔集合中的名詞集合、動(dòng)詞集合,并對(duì)其中的多義詞進(jìn)行詞義消歧處 理;
[0007] S2、對(duì)步驟Sl輸出的名詞集合、動(dòng)詞集合,根據(jù)詞義相似度、采用改進(jìn)的OPTICS算 法分別進(jìn)行詞語聚類分析,抽取出語義概念,并依此對(duì)句子建立向量空間模型;
[0008] S3、使用改進(jìn)的k中心點(diǎn)算法對(duì)句子進(jìn)行聚類分析,得到主題。
[0009] 優(yōu)選的,步驟Sl中,詞義消歧處理的具體方法為:
[0010] 對(duì)于分詞后的結(jié)果,首先標(biāo)注其詞性,只關(guān)注名詞集合和動(dòng)詞集合,對(duì)于其中的多 義詞《,首先使用語義詞典獲取它的各個(gè)詞義,然后分別計(jì)算每個(gè)詞義與其前后各k個(gè)相同 詞性的詞的詞義相似度的和。
[0011] 優(yōu)選的,詞義相似度的計(jì)算方法為:
[0012] S11、對(duì)于中文語料的詞義相似度,利用知網(wǎng)詞典中用于描述一個(gè)概念特征結(jié)構(gòu)的 前三個(gè)部分來定義兩個(gè)詞語^和W2之間的相似度,即定義:1)基于第一基本義原描述的相 似度定義為Sim 1 (WpW2) ;2)基于其他基本義原描述的相似度定義為Sim2(WpW2) ;3)基于關(guān) 系義原描述的相似度定義為Siw^1, w2),最后對(duì)上述3項(xiàng)相似度加權(quán)求和,從而得到兩個(gè) 詞¥1和w 2基于詞義間的整體相似度如下式:
【主權(quán)項(xiàng)】
1. 一種基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,包括下述步驟: 51、 將多個(gè)文檔作為輸入,對(duì)每個(gè)文檔進(jìn)行預(yù)處理,包括對(duì)文檔進(jìn)行分句,對(duì)句子進(jìn)行 分詞,獲取多文檔集合中的名詞集合、動(dòng)詞集合,并對(duì)其中的多義詞進(jìn)行詞義消歧處理; 52、 對(duì)步驟S1輸出的名詞集合、動(dòng)詞集合,根據(jù)詞義相似度、采用改進(jìn)的OPTICS算法分 別進(jìn)行詞語聚類分析,抽取出語義概念,并依此對(duì)句子建立向量空間模型; 53、 使用改進(jìn)的k中心點(diǎn)算法對(duì)句子進(jìn)行聚類分析,得到主題。
2. 根據(jù)權(quán)利要求1所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,步驟S1 中,詞義消歧處理的具體方法為: 對(duì)于分詞后的結(jié)果,首先標(biāo)注其詞性,只關(guān)注名詞集合和動(dòng)詞集合,對(duì)于其中的多義詞w,首先使用語義詞典獲取它的各個(gè)詞義,然后分別計(jì)算每個(gè)詞義與其前后各k個(gè)相同詞性 的詞的詞義相似度的和。
3. 根據(jù)權(quán)利要求2所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,詞義相 似度的計(jì)算方法為: S11、對(duì)于中文語料的詞義相似度,利用知網(wǎng)詞典中用于描述一個(gè)概念特征結(jié)構(gòu)的前三 個(gè)部分來定義兩個(gè)詞語^和《2之間的相似度,即定義:1)基于第一基本義原描述的相似度 定義為SimJwpwJ;2)基于其他基本義原描述的相似度定義為Sin^WDW;^ ;3)基于關(guān)系義 原描述的相似度定義為Si%(Wpw2),最后對(duì)上述3項(xiàng)相似度加權(quán)求和,從而得到兩個(gè)詞^ 和《2基于詞義間的整體相似度如下式:
其中,ai為調(diào)節(jié)參數(shù),且afa2+a3= 1。 為了表示在上下文中距離更近的詞對(duì)該多義詞詞義起到更大的影響作用,在此處引入 距離衰竭函數(shù),假設(shè)多義詞w與某同性詞語w'間隔n個(gè)單詞,則相似度為
4. 根據(jù)權(quán)利要1所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,步驟S2中, 采用改進(jìn)的OPTICS算法對(duì)詞語進(jìn)行聚類分析具體為: S21、按上述步驟對(duì)數(shù)據(jù)集中的名詞集合、動(dòng)詞集合分別進(jìn)行詞義消歧后,使用OPTICS算法分別對(duì)名詞集合、動(dòng)詞集合進(jìn)行聚類分析,具體為: 521、 遍歷詞語集合,如果在半徑參數(shù)e范圍內(nèi)的相似詞語大于另一參數(shù)minPts,則定 義該詞語為核心詞語; S212、如是核心詞語,則存儲(chǔ)其語義概念半徑參數(shù)e范圍內(nèi)的所有詞語,表示為同一 個(gè)語義概念。 522、 對(duì)名詞集合、動(dòng)詞集合分別進(jìn)行聚類分析后,該方法把聚類結(jié)果中的一個(gè)簇對(duì)象 定義為一個(gè)語義概念,表示為Concept= (POS,Wpw2,…,wn),其中P0S表示該語義概念的詞 性,{Wi,w2,…,wn}表示該語義概念包含的詞語集合。
5. 根據(jù)權(quán)利要求1所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,步驟S2 中,對(duì)句子進(jìn)行建立向量空間模型的具體方法為: 詞語聚類分析后,把語義概念Concept作為特征項(xiàng),使用詞頻作為特征項(xiàng)的權(quán)重,從而 對(duì)每個(gè)句子建立特征向量,稱為語義概念向量;假設(shè)詞語聚類分析后的語義概念有n個(gè),則 句子Sent』的語義概念向量表示為
其中,《ij=TFu,指的 是語義概念Concepti在句子Sent』中出現(xiàn)的次數(shù),也就是詞頻。
6. 根據(jù)權(quán)利要求1所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征在于,步驟S3 中,采用了改進(jìn)的k中心點(diǎn)算法對(duì)句子進(jìn)行聚類分析,具體為: 531、 隨機(jī)選取k個(gè)句子為中心點(diǎn),代表了k個(gè)簇; 532、 為k個(gè)中心點(diǎn)句子尋找與其最近的k個(gè)鄰居放入對(duì)應(yīng)的簇中; 533、 計(jì)算k個(gè)簇的半徑,所述半徑為每?jī)蓚€(gè)句子的距離和的平均,并計(jì)算所有簇的平 均半徑記為r; 534、 若某個(gè)句子Senh的半徑r內(nèi)有另一個(gè)句子Sent』,則稱這兩個(gè)句子直接密度可達(dá), 對(duì)應(yīng)的句子則表達(dá)同樣的主題,繼續(xù)這個(gè)過程直至沒有句子加入到簇中,則識(shí)別為一個(gè)主 題,表不為:Topics:{Sent丨,Sent2,…,SentJ〇
7. 根據(jù)權(quán)利要求6所述的基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,其特征還在于,步驟 S33中,句子SentjljSent』之間的距離使用其語義概念向量間的修正余弦相似度來衡量, 計(jì)算方法如下:
其中:n表示詞語聚類分析后的語義概念個(gè)數(shù),《ki表示Senti中第k個(gè)語義概念出現(xiàn) 的次數(shù),表示Sen%.中第k個(gè)語義概念出現(xiàn)的次數(shù),匈?表示第k個(gè)語義概念在所有句 子中出現(xiàn)的平均次數(shù)。
【專利摘要】本發(fā)明公開了一種基于兩層聚類的多文檔主題發(fā)現(xiàn)方法,包括下述步驟:S1、將多個(gè)文檔作為輸入,對(duì)每個(gè)文檔進(jìn)行預(yù)處理,包括對(duì)文檔進(jìn)行分句,對(duì)句子進(jìn)行分詞,獲取多文檔集合中的名詞集合、動(dòng)詞集合,并對(duì)其中的多義詞進(jìn)行詞義消歧處理;S2、對(duì)步驟S1輸出的名詞集合、動(dòng)詞集合,根據(jù)詞義相似度、采用改進(jìn)的OPTICS算法分別進(jìn)行詞語聚類分析,抽取出語義概念,并依此對(duì)句子建立向量空間模型;S3、使用改進(jìn)的k中心點(diǎn)算法對(duì)句子進(jìn)行聚類分析,得到主題。本發(fā)明提煉出詞語間的內(nèi)在語義聯(lián)系,解決建立句子特征向量時(shí)各個(gè)特征項(xiàng)之間“非正交”的情況。
【IPC分類】G06F17-27, G06F17-30
【公開號(hào)】CN104778204
【申請(qǐng)?zhí)枴緾N201510093441
【發(fā)明人】陳健, 袁慎溪
【申請(qǐng)人】華南理工大學(xué), 廣州三星通信技術(shù)研究有限公司, 三星電子株式會(huì)社
【公開日】2015年7月15日
【申請(qǐng)日】2015年3月2日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1