亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

主題挖掘方法及裝置與流程

文檔序號(hào):12363720閱讀:794來源:國(guó)知局
主題挖掘方法及裝置與流程

本發(fā)明涉及信息檢索技術(shù)領(lǐng)域,特別是涉及一種主題挖掘改進(jìn)方法及裝置。



背景技術(shù):

隨著社交網(wǎng)絡(luò)產(chǎn)品的發(fā)展以及智能設(shè)備的普及,使用社交產(chǎn)品的用戶群體越來越多,在網(wǎng)絡(luò)平臺(tái)上發(fā)表的觀點(diǎn)及評(píng)論數(shù)據(jù)也變得更加龐大。結(jié)合深度及廣度內(nèi)容的主題挖掘可以更好的發(fā)現(xiàn)用戶關(guān)注的內(nèi)容主題。

內(nèi)容主題發(fā)現(xiàn)技術(shù)沿革經(jīng)歷了從LSA、pLSA到文檔主題生成模型(LDA,Latent Dirichlet Allocation)的過程。LDA之所以成為當(dāng)前的主流技術(shù),其中主要原因有2個(gè):

1)LDA在語料準(zhǔn)備上比監(jiān)督模型更容易,不需要人工的標(biāo)注信息;

2)LDA提出了用隱含層(主題層)對(duì)文檔和詞項(xiàng)進(jìn)行了關(guān)聯(lián),可更好的對(duì)文本內(nèi)容進(jìn)行聚類。

但是,由于LDA對(duì)分詞的處理采用了詞袋的方法,使得高頻詞更容易被隨機(jī)抽取到。最終使得LDA模型的主題分布會(huì)向高頻詞傾斜,導(dǎo)致能夠代表主題的多數(shù)詞被少量高頻詞淹沒,從而降低了主題的表達(dá)能力。另外,LDA實(shí)際是將每一篇文檔作為一個(gè)詞頻向量,沒有考慮詞項(xiàng)與詞項(xiàng)之間的順序,使得聚類后的主題沒有清晰的邏輯關(guān)系,導(dǎo)致用戶無法準(zhǔn)確的把握主題。



技術(shù)實(shí)現(xiàn)要素:

為了提高主題表達(dá)能力,本發(fā)明實(shí)施例提供一種主題挖掘改進(jìn)方法及裝置。

一種主題挖掘方法,包括:獲取待挖掘文本;對(duì)文本進(jìn)行切詞處理,得到文檔集;針對(duì)所述文檔集進(jìn)行特征詞篩選,其中,提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重;所述高頻詞是指出現(xiàn)頻率高于第一頻率的詞項(xiàng),亞頻詞是指出現(xiàn)頻率高于第二頻率且小于第一頻率的詞項(xiàng),所述第一頻率和第二頻率是預(yù)置的值,且第一頻率大于第二頻率;根據(jù)篩選出的特征詞,采用主題聚類算法,計(jì)算得到各個(gè)主題的概率分布。

優(yōu)選的,采用如下公式實(shí)現(xiàn)所述提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重:

其中,tfidf(d)表示詞項(xiàng)d的篩選權(quán)重。

優(yōu)選的,在計(jì)算得到各個(gè)主題的概率分布之后,還包括:基于主題的語句相似度,生成主題的候選語句列表。

優(yōu)選的,所述基于主題的語句相似度,生成主題的候選語句列表,包括:針對(duì)一個(gè)主題聚類得到的語句堆,計(jì)算各語句之間的相似度;選擇出相似度大于預(yù)定相似度閾值的所有語句,計(jì)算各個(gè)語句的權(quán)重;按照語句的權(quán)重從高至低,選擇出預(yù)置數(shù)量的相關(guān)語句,生成所述主題的候選語句列表。

優(yōu)選的,所述計(jì)算各語句之間的相似度包括:針對(duì)待計(jì)算相似度的兩個(gè)語句,分別針對(duì)兩個(gè)語句中的切詞構(gòu)建兩個(gè)詞項(xiàng)向量;利用余弦相似度計(jì)算并判斷兩個(gè)詞項(xiàng)向量的相似度,從而得到這兩個(gè)語句的相似度。

優(yōu)選的,在對(duì)文本進(jìn)行切詞處理之后、得到文檔集之前,所述方法還包括:針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,由過濾后的詞項(xiàng)構(gòu)成文檔集。

優(yōu)選的,所述針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,包括:針對(duì)詞項(xiàng)進(jìn)行停用詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行高頻詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行廣告、推銷、游戲內(nèi)容的過濾。

一種主題挖掘裝置,包括:文本獲取單元,用于獲取待挖掘文本;切詞單元,用于對(duì)文本進(jìn)行切詞處理,得到文檔集;特征詞篩選單元,用于針對(duì)所述文檔集進(jìn)行特征詞篩選,其中,提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重;所述高頻詞是指出現(xiàn)頻率高于第一頻率的詞項(xiàng),亞頻詞是指出現(xiàn)頻率高于第二頻率且小于第一頻率的詞項(xiàng),所述第一頻率和第二頻率是預(yù)置的值,且第一頻率大于第二頻率;主題聚類單元,用于根據(jù)篩選出的特征詞,采用主題聚類算法,計(jì)算得到各個(gè)主題的概率分布。

優(yōu)選的,所述特征詞篩選單元具體用于,采用如下公式實(shí)現(xiàn)所述提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重:

其中,tfidf(d)表示詞項(xiàng)d的篩選權(quán)重。

優(yōu)選的,還包括:相似語句候選單元,用于基于主題的語句相似度,生成主題的候選語句列表。

優(yōu)選的,所述相似語句候選單元具體用于,針對(duì)一個(gè)主題聚類得到的語句堆,計(jì)算各語句之間的相似度;并選擇出相似度大于預(yù)定相似度閾值的所有語句,計(jì)算各個(gè)語句的權(quán)重;以及,按照語句的權(quán)重從高至低,選擇出預(yù)置數(shù)量的相關(guān)語句,生成所述主題的候選語句列表。

優(yōu)選的,所述相似語句候選單元具體用于,針對(duì)待計(jì)算相似度的兩個(gè)語句,分別針對(duì)兩個(gè)語句中的切詞構(gòu)建兩個(gè)詞項(xiàng)向量;利用余弦相似度計(jì)算并判斷兩個(gè)詞項(xiàng)向量的相似度,從而得到這兩個(gè)語句的相似度。

優(yōu)選的,所述裝置還包括:垃圾內(nèi)容過濾單元,用于針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,由過濾后的詞項(xiàng)構(gòu)成文檔集。

優(yōu)選的,所述垃圾內(nèi)容過濾單元具體用于,針對(duì)詞項(xiàng)進(jìn)行停用詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行高頻詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行廣告、推銷、游戲內(nèi)容的過濾。

可見,本發(fā)明上述實(shí)施例通過增加亞頻詞的權(quán)重而同時(shí)降低高頻詞的權(quán)重,可以使得聚類的主題表達(dá)更豐富,提高主題的話題覆蓋能力。

在優(yōu)選方案中,首先對(duì)獲取的文本進(jìn)行垃圾內(nèi)容過濾,提高主題質(zhì)量,然后通過改善特征詞權(quán)重的步驟,增強(qiáng)主題的話題覆蓋能力。最后針對(duì)主題聚類后的語句,根據(jù)語句與其他語句的相似度大小去判斷語句在評(píng)論文本中的重要程度,通過語句的重要程度語句排序,可以有助于更好的理解主題。

附圖說明

圖1是本發(fā)明一個(gè)實(shí)施例提供的一種主題挖掘方法流程圖;

圖2是本發(fā)明另一個(gè)實(shí)施例提供的一種主題挖掘方法流程圖;

圖3是本發(fā)明一個(gè)實(shí)施例提供的一種主題挖掘裝置結(jié)構(gòu)示意圖。

具體實(shí)施方式

為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。

本發(fā)明實(shí)施例提供一種主題挖掘方法,旨在改進(jìn)現(xiàn)有的主題挖掘方法,使挖掘的主題內(nèi)容更加豐富、準(zhǔn)確。

參見圖1,為本發(fā)明實(shí)施例提供的一種主題挖掘方法流程圖,該方法包括:

S101:獲取待挖掘文本。

其中,待挖掘的文本一般是指從互聯(lián)網(wǎng)評(píng)論平臺(tái)中獲取的文本,例如,在某影視APP中獲取的針對(duì)某個(gè)電視劇的評(píng)論。文本主要是文字,以及還包括將表情符會(huì)轉(zhuǎn)意成的文字。

S102:對(duì)文本進(jìn)行切詞處理,得到文檔集。

中文切詞(又稱中文分詞,Chinese Word Segmentation)指的是將一個(gè)漢字序列切分成一個(gè)一個(gè)單獨(dú)的詞。中文分詞是文本挖掘的基礎(chǔ),對(duì)于輸入的一段中文,成功的進(jìn)行中文分詞,可以達(dá)到電腦自動(dòng)識(shí)別語句含義的效果。這種方法又叫做機(jī)械分詞方法,它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞項(xiàng)進(jìn)行匹配,若在詞典中找到某個(gè)字符串,則匹配成功(識(shí)別出一個(gè)詞)。除了對(duì)中文進(jìn)行切詞,本發(fā)明方案還適用于對(duì)英文進(jìn)行切詞,例如,可采用Porter stemmer等算法對(duì)英文進(jìn)行切詞。本發(fā)明方案對(duì)中文和英文都適用,但是為了說明方便,主要以中文切詞進(jìn)行說明。

每個(gè)文檔可看作一個(gè)詞項(xiàng)序列,例如,文檔d看作一個(gè)詞項(xiàng)序列<w1,w2,...,wn>,wi表示第i個(gè)詞,設(shè)d有n個(gè)詞。文檔集,顧名思義,是由多個(gè)文檔構(gòu)成的集合。

在具體操作中,可以使用切詞工具進(jìn)行切詞處理。切詞工具可以是開源系統(tǒng)中任意一種模型如條件隨機(jī)場(chǎng)模型。例如,針對(duì)影視劇評(píng)論的主題挖掘,可使用考慮影視劇中特有的新詞如“五毛特效”,“七星魯王宮”等專有詞匯的工具。

S103:針對(duì)文檔集進(jìn)行特征詞篩選,其中,提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重;其中,高頻詞是指出現(xiàn)頻率高于第一頻率的詞項(xiàng),亞頻詞是指出現(xiàn)頻率高于第二頻率且小于第一頻率的詞項(xiàng),第一頻率和第二頻率是預(yù)置的值,且第一頻率大于第二頻率。

所謂特征詞,是最能表達(dá)主題的詞。

現(xiàn)有的對(duì)文本主題聚類問題的應(yīng)用技術(shù)主要是LDA,LDA構(gòu)建了“文檔->主題->分詞”三層貝葉斯概率模型,對(duì)文本進(jìn)行概率聚類,最終可以得到文檔有幾個(gè)主題、幾個(gè)主題的占比、每個(gè)主題下分詞占的比重有多少。對(duì)特征詞的選取,主要有tf方法及tf-idf方法。傳統(tǒng)的tf-idf方法是(ft/max_ft)*log(ncorpus/ndocs),也有文獻(xiàn)使用高斯加權(quán)公式對(duì)文檔中的每個(gè)詞項(xiàng)進(jìn)行加權(quán):am=exp(fm-fi)^2/(2*delt^2),fi是平均詞頻,fm是詞項(xiàng)m的詞頻??梢?,在現(xiàn)有LDA中,采用詞袋方法進(jìn)行隨機(jī)取詞,這一方式使得無意義沒有表達(dá)觀點(diǎn)的擾亂高頻詞更容易被隨機(jī)抽取到,最終使得LDA模型的主題分布向高頻詞傾斜,導(dǎo)致能夠代表主題的多數(shù)詞被少量高頻詞淹沒,使主題的表達(dá)能力降低。

本發(fā)明中,通過降低這些無意義的高頻詞的權(quán)重,提高有主題表達(dá)意見的亞高頻詞的權(quán)重來增加亞高頻詞被選中的概率,目的是容納盡可能豐富的信息,盡可能覆蓋話題的多個(gè)側(cè)面。

其中,“高頻詞”是在多數(shù)文本(評(píng)論)中重復(fù)出現(xiàn)的無觀點(diǎn)性詞,比如,在針對(duì)一個(gè)影視劇的評(píng)論中,該影視劇的名稱或某位主演的姓名被反復(fù)提及,顯然它不具有評(píng)論的實(shí)質(zhì)性觀點(diǎn)?!皝嗩l詞”是在某些評(píng)論中反復(fù)提及但是并不是在每一個(gè)評(píng)論中都提及的具有觀點(diǎn)性的詞。由于每個(gè)人從不同角度去評(píng)論/分析一件事,角度不同,觀點(diǎn)不同,每個(gè)觀點(diǎn)都會(huì)集中體現(xiàn)在一些詞語上,通過將這些詞語提取出來,可以很全面的吸收各個(gè)角度的評(píng)論。本發(fā)明中,可以通過判斷詞出現(xiàn)的頻率的方式確定出高頻詞和亞頻詞。例如,高頻詞是指出現(xiàn)頻率高于第一頻率的詞,亞頻詞是指出現(xiàn)頻率高于第二頻率且小于第一頻率的詞,所述第一頻率和第二頻率是預(yù)置的值,且第一頻率大于第二頻率。

應(yīng)用主題聚類算法(如LDA)之前,現(xiàn)有構(gòu)建文檔-詞項(xiàng)矩陣時(shí),文檔-詞項(xiàng)矩陣的構(gòu)建先通過切詞合并文檔中出現(xiàn)的所有詞項(xiàng),這一步叫除重唯一化。然后,除重后的詞項(xiàng)構(gòu)成文檔-詞矩陣的列特征向量,評(píng)論文本則作為行向量。這樣每條評(píng)論文檔經(jīng)切詞后都能在列特征向量中對(duì)應(yīng)自己的位置。出現(xiàn)一次,詞項(xiàng)的頻率就會(huì)加一次。通過統(tǒng)計(jì)詞項(xiàng)在所有文檔的頻率,構(gòu)成文檔-詞項(xiàng)矩陣。

本發(fā)明中,通過加強(qiáng)在文檔中那些出現(xiàn)的次數(shù)少、表現(xiàn)豐富的亞頻詞的權(quán)重,來提高主題詞的表達(dá)能力。

具體的,可采用如下公式實(shí)現(xiàn)所述提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重:

其中,tfidf(d)表示詞項(xiàng)d的篩選權(quán)重。

從上面的tf-idf公式可以看出,如果一個(gè)詞項(xiàng)出現(xiàn)的次數(shù)較少,它的權(quán)重值會(huì)比頻繁出現(xiàn)的詞項(xiàng)的tf-idf高。這樣,就可以提高亞頻詞項(xiàng)的權(quán)重,從而使選出的詞項(xiàng)更豐富,而不是僅僅根據(jù)詞項(xiàng)的頻率去判斷。

S104:根據(jù)篩選出的特征詞,采用主題聚類算法,計(jì)算得到各個(gè)主題的概率分布。

對(duì)于采取何種主題聚類算法,本發(fā)明不做限制,例如可以采用較為流行的LDA算法,當(dāng)然也可以采用其他聚類算法,例如,LSA、pLSA、K-means、unigram、Mixture of unigram、層次聚類、SOM聚類、FCM等等。

可見,本發(fā)明上述實(shí)施例通過增加亞頻詞的權(quán)重而同時(shí)降低高頻詞的權(quán)重,可以使得聚類的主題表達(dá)更豐富,即提高主題的話題覆蓋能力。

在上述方案基礎(chǔ)上,本發(fā)明還可以對(duì)主題聚類涉及的其他環(huán)節(jié)進(jìn)行改進(jìn),從而進(jìn)一步提升聚類效率或效果。

參見圖2,為本發(fā)明另一實(shí)施例提供的主題聚類方法流程圖,其中,與圖1實(shí)施例相比,主要區(qū)別在于步驟S203和S206。下面從這兩點(diǎn)區(qū)別進(jìn)行展開描述,對(duì)于其余相似的地方則不贅述。

該方法包括:

S201:獲取待挖掘文本。

S202:對(duì)文本進(jìn)行切詞處理。

S203:針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,由過濾后的詞項(xiàng)構(gòu)成文檔集。

步驟S203中所謂的針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,主要包括三個(gè)方面的內(nèi)容過濾:一是針對(duì)停用詞的過濾;二是針對(duì)高頻詞的過濾;三十針對(duì)廣告、推銷、游戲等內(nèi)容的過濾。

首先,通過停用詞列表進(jìn)行停用詞過濾。停用詞列表指的是匯總的語氣助詞、副詞、介詞、連接詞、冠詞等無實(shí)際意義的詞匯表。然后,可進(jìn)行高頻詞過濾。高頻詞指的是在一部劇評(píng)論中,經(jīng)常討論的詞,一般為電影名、演員姓名等。最后,利用標(biāo)注的數(shù)據(jù)進(jìn)行垃圾分類器訓(xùn)練,對(duì)諸如廣告、推銷、游戲內(nèi)容進(jìn)行過濾。其中標(biāo)注數(shù)據(jù)的正樣本主要來自于權(quán)威評(píng)論網(wǎng)站(如:豆瓣評(píng)論),負(fù)樣本主要來自于微博評(píng)論(如:廣告、推銷、體育彩票、游戲,等)。分類器可以是樸素貝葉斯分類器,也可以邏輯回歸等其他分類算法。

上述從三個(gè)方面介紹了內(nèi)容過濾,實(shí)際上,可以僅實(shí)施其中一個(gè)或兩個(gè),也可以達(dá)到一定的垃圾內(nèi)容過濾效果。當(dāng)然,上述僅是示例性描述,并不限于上述的過濾內(nèi)容和方式以及順序。

S204:針對(duì)文檔集進(jìn)行特征詞篩選,其中,提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重。

S205:根據(jù)篩選出的特征詞,采用主題聚類算法,計(jì)算得到各個(gè)主題的概率分布。

S206:基于各主題下語句相似度,生成各主題的候選語句列表。

現(xiàn)有的主題聚類方法(如LDA)中,是基于詞袋的隨機(jī)取詞方法,將每一篇文檔構(gòu)成一個(gè)詞頻向量,沒有考慮詞與詞之間的順序,使得聚出的主題沒有一種很清晰的邏輯關(guān)系,導(dǎo)致用戶無法準(zhǔn)確的把握主題。對(duì)于LDA聚出的主題,假如文檔集本身分類主題比較清楚,則LDA可以很好的聚出相應(yīng)的類別,而且主題區(qū)分也比較清晰(不同主題,特征詞的差別明顯),但是對(duì)于主題混合不是很清楚的,往往聚出的主題很難去解讀。當(dāng)前的聚類方法主要是找出各個(gè)主題中的中心對(duì)應(yīng)的關(guān)鍵語句作為主題句。由于語句向量之間沒有語義的區(qū)分,這種按照距離聚類容易造成異詞同義句之間的距離差別較大。

因此,本發(fā)明從語句的相似度入手,根據(jù)語句與其他語句的相似度大小去判斷語句在評(píng)論文本中的重要程度。通過重要語句排序,幫助用戶更好的理解主題。

步驟S206中“基于各主題下語句相似度,生成各主題的候選語句列表”,可以通過如下步驟實(shí)現(xiàn):

(1)針對(duì)一個(gè)主題聚類得到的語句堆,計(jì)算各語句之間的相似度;

其中,語句堆,顧名思義,可以理解是多個(gè)(一堆)語句構(gòu)成的語句集合。

計(jì)算語句之間相似度的方式可以是:

針對(duì)待計(jì)算相似度的兩個(gè)語句,分別針對(duì)兩個(gè)語句中的切詞構(gòu)建兩個(gè)詞項(xiàng)向量;利用余弦相似度計(jì)算并判斷兩個(gè)詞項(xiàng)向量的相似度,從而得到這兩個(gè)語句的相似度。

(2)選擇出相似度大于預(yù)定相似度閾值的所有語句,計(jì)算各個(gè)語句的權(quán)重;

(3)按照語句的權(quán)重從高至低,選擇出預(yù)置數(shù)量的相關(guān)語句,生成主題的候選語句列表。

下面以LDA聚類為例,描述步驟S206的具體實(shí)現(xiàn)。

首先通過LDA聚類,可以得到所有語句在聚出類別中的排序。然后執(zhí)行以下步驟實(shí)現(xiàn)步驟S206。

1)將LDA推薦的語句切詞生成向量空間模型(Vector Space Model);

2)計(jì)算語句的相似度,得到語句的相似度矩陣;

語句是LDA聚類后的一堆語句。相似度矩陣,例如是指某社交APP的評(píng)論句與其他語句的相似程度矩陣。計(jì)算相似度時(shí),也是先將切詞構(gòu)建詞項(xiàng)向量,然后利用余弦相似度計(jì)算來判斷兩個(gè)詞項(xiàng)向量(也就是之前的經(jīng)切詞的語句)的相似度程度,從而得到這兩個(gè)語句的相似程度。通常詞項(xiàng)向量夾角越小,表示兩個(gè)語句就越相似。

具體的,計(jì)算語句的相似度中,可設(shè)兩個(gè)語句A和B,A、B是LDA聚類后,同一主題下的任意2個(gè)語句,它們所有有效詞構(gòu)成向量空間為的V={X1,X2,…,Xn},語句A對(duì)應(yīng)的向量VA={w1,w2,…,wn},其中wi是語句A中有效詞Xi對(duì)應(yīng)的tfidf值,語句B對(duì)應(yīng)的向量其中是語句B中有效詞Xi對(duì)應(yīng)的tfidf值。則兩個(gè)語句的相似度為

3)利用LexRank計(jì)算語句的權(quán)重;

計(jì)算語句權(quán)重時(shí),把語句當(dāng)成圖模型方法(Graphic Models,由點(diǎn)和線組成的用以描述系統(tǒng)的圖形的方法)中的節(jié)點(diǎn)看待,語句之間的相似度當(dāng)成邊看待。根據(jù)相似度矩陣,可以指定一個(gè)閾值,高于該閾值就表明語句之間有聯(lián)系。也就說2個(gè)節(jié)點(diǎn)(2個(gè)語句)之間存在一條邊。如果一個(gè)節(jié)點(diǎn)(語句)與其他節(jié)點(diǎn)(語句)有邊存在,也就是說,該語句與其他句都有聯(lián)系,該語句包括的信息量也就多,那該語句的權(quán)重就高。反之亦然。

4)根據(jù)語句的權(quán)重按由高到低排序,得到候選語句列表。

可見,步驟S206的目的是,不同于現(xiàn)有技術(shù)中每個(gè)主題下一堆語句毫無邏輯關(guān)系而堆放的狀態(tài),而是從這些語句中選取數(shù)個(gè)(例如5個(gè))相關(guān)的語句進(jìn)行展示,這些被選取的語句一般是包含該主題下關(guān)鍵詞最多的語句,即具有相似度且權(quán)重靠前的語句。

上述參考圖2對(duì)本發(fā)明實(shí)施例進(jìn)行了介紹。實(shí)際上,上述兩個(gè)追加改進(jìn)點(diǎn)(S203和S206)僅實(shí)施一個(gè)即可達(dá)到相應(yīng)的效果。可以理解,圖2方案是較優(yōu)選的方式,但并不是限定本發(fā)明方案僅限于此方式。

在上述圖2所示的方案中,首先對(duì)獲取的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行文本內(nèi)容過濾。過濾掉無關(guān)的內(nèi)容然后構(gòu)建文檔-詞項(xiàng)矩陣,然后對(duì)tf-idf權(quán)重進(jìn)行改造,使之能增大那些詞頻低但含有豐富信息量的詞項(xiàng),而不至于被高頻詞淹沒掉,從而增強(qiáng)了主題發(fā)現(xiàn)的話題覆蓋能力,最后針對(duì)主題聚類后的語句,利用圖模型方法,從語句的相似度入手,根據(jù)語句與其他語句的相似度大小去判斷語句在評(píng)論文本中的重要程度,通過重要語句排序,有助于更好的理解主題。

需要說明的是,對(duì)于方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明實(shí)施例并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明實(shí)施例,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作并不一定是本發(fā)明實(shí)施例所必須的。

參照?qǐng)D3,是本發(fā)明實(shí)施例提供的一種主題挖掘裝置結(jié)構(gòu)示意圖。該裝置包括:

文本獲取單元301,用于獲取待挖掘文本;

切詞單元302,用于對(duì)文本進(jìn)行切詞處理,得到文檔集;

特征詞篩選單元303,用于針對(duì)所述文檔集進(jìn)行特征詞篩選,其中,提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重;所述高頻詞是指出現(xiàn)頻率高于第一頻率的詞項(xiàng),亞頻詞是指出現(xiàn)頻率高于第二頻率且小于第一頻率的詞項(xiàng),所述第一頻率和第二頻率是預(yù)置的值,且第一頻率大于第二頻率;

主題聚類單元304,用于根據(jù)篩選出的特征詞,采用主題聚類算法,計(jì)算得到各個(gè)主題的概率分布。

優(yōu)選的,所述特征詞篩選單元303具體用于,采用如下公式實(shí)現(xiàn)所述提高亞頻詞篩選權(quán)重、降低高頻詞篩選權(quán)重:

其中,tfidf(d)表示詞項(xiàng)d的篩選權(quán)重。

優(yōu)選的,該裝置還包括:

相似語句候選單元305,用于基于主題下語句的相似度,生成該主題的候選語句列表。

優(yōu)選的,所述相似語句候選單元305具體用于,針對(duì)一個(gè)主題聚類得到的語句堆,計(jì)算各語句之間的相似度;并選擇出相似度大于預(yù)定相似度閾值的所有語句,計(jì)算各個(gè)語句的權(quán)重;以及,按照語句的權(quán)重從高至低,選擇出預(yù)置數(shù)量的相關(guān)語句,生成所述主題的候選語句列表。

優(yōu)選的,所述相似語句候選單元305具體用于,針對(duì)待計(jì)算相似度的兩個(gè)語句,分別針對(duì)兩個(gè)語句中的切詞構(gòu)建兩個(gè)詞項(xiàng)向量;利用余弦相似度計(jì)算并判斷兩個(gè)詞項(xiàng)向量的相似度,從而得到這兩個(gè)語句的相似度。

優(yōu)選的,所述裝置還包括:

垃圾內(nèi)容過濾單元306,用于針對(duì)切詞得到的詞項(xiàng)進(jìn)行垃圾內(nèi)容過濾,由過濾后的詞項(xiàng)構(gòu)成文檔集。

優(yōu)選的,所述垃圾內(nèi)容過濾單元306具體用于,針對(duì)詞項(xiàng)進(jìn)行停用詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行高頻詞過濾;和/或,針對(duì)詞項(xiàng)進(jìn)行廣告、推銷、游戲內(nèi)容的過濾。

對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。

本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明實(shí)施例的實(shí)施例可提供為方法、裝置、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明實(shí)施例可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明實(shí)施例可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明實(shí)施例是參照根據(jù)本發(fā)明實(shí)施例的方法、終端設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理終端設(shè)備上,使得在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程終端設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

盡管已描述了本發(fā)明實(shí)施例的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明實(shí)施例范圍的所有變更和修改。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者終端設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者終端設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者終端設(shè)備中還存在另外的相同要素。

以上對(duì)本發(fā)明所提供的一種關(guān)系型數(shù)據(jù)庫的調(diào)度方法及系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1