亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種挖掘熱詞的方法與裝置的制作方法

文檔序號:6363670閱讀:237來源:國知局
專利名稱:一種挖掘熱詞的方法與裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)聚類技術(shù),特別涉及一種挖掘熱詞的方法與裝置。
背景技術(shù)
隨著計(jì)算機(jī)通信技術(shù)的發(fā)展,尤其是3g網(wǎng)絡(luò)和智能移動(dòng)終端的發(fā)展,用戶的網(wǎng)絡(luò)生活越來越豐富,在社交網(wǎng)絡(luò)上聊天、瀏覽新聞、看電影、玩游戲、搜索、購物、發(fā)布信息等,越來越成為網(wǎng)絡(luò)生活的一部分。而如何讓用戶有效地從網(wǎng)絡(luò)社區(qū)中找到有價(jià)值的信息,成為信息領(lǐng)域一個(gè)重要的研究課題。目前,在社區(qū)中海量的各領(lǐng)域的網(wǎng)絡(luò)信息中,采用基于文檔進(jìn)行熱詞挖掘的方法,利用空間向量模型(VSM,Vector Space Model)將網(wǎng)絡(luò)中的文檔表示為由詞語組成的特征向量,每一維特征向量值對應(yīng)詞語的相關(guān)信息,可以是二值、詞語在文檔出現(xiàn)次數(shù)的詞頻(TF, Term Frequency)、詞頻反文檔頻率(TF-1DF, Term Frequency-1nverse DocumentFrequency)等。例如,在二值中,可以用0表示詞語在相關(guān)文檔出現(xiàn),用I表示詞語未出現(xiàn)在該相關(guān)文檔,在TF-1DF中,利用詞語在該文檔中出現(xiàn)的次數(shù)以及該詞語在歷史文檔中出現(xiàn)的次數(shù)作為特征向量值的相關(guān)信息。這樣,通過將文檔表示為由詞語組成的特征向量后,對文檔進(jìn)行聚類,過濾特征向量中的一些詞語,從而挖掘出文檔中有價(jià)值的詞語的信息,并選取一些過濾的到的詞語作為熱詞推薦給用戶,從而增加用戶的業(yè)務(wù)體驗(yàn)。但該方法以文檔中包含的詞語表示文檔,采用TF-1DF等方法進(jìn)行聚類,對于用戶比較關(guān)注的突發(fā)性熱點(diǎn)事件,由于該突發(fā)性熱點(diǎn)事件只與較短的時(shí)間信息相關(guān),其詞語在歷史文檔中幾乎沒有出現(xiàn),因而,在聚類過程中,容易被過濾掉,使得推薦給用戶的熱詞不能反映熱點(diǎn)事件,價(jià)值較低;進(jìn)一步地,由詞語組成的特征向量中,維度為非O值較多,且包含了大量與熱點(diǎn)事件無關(guān)的詞語,增加了聚類處理的復(fù)雜度,無法滿足社交網(wǎng)絡(luò)的實(shí)時(shí)性要求。為了有效降低以靜態(tài)表示文檔導(dǎo)致的缺少與熱點(diǎn)事件緊密相關(guān)的時(shí)間信息,現(xiàn)有技術(shù)提出了一種改進(jìn)的基于文檔挖掘熱詞的方法,即考慮熱點(diǎn)事件中詞語的動(dòng)態(tài)文檔表示方法:技術(shù)人員瀏覽文檔,當(dāng)文檔中的某個(gè)詞語在文檔所處時(shí)間段為與事件緊密相關(guān)的時(shí)間段時(shí),基于該文檔在原有TF-1DF基礎(chǔ)上,增加該詞語在文檔特征向量中的權(quán)重,這樣,可以提高該詞語在聚類結(jié)果中的優(yōu)先性,從而增大作為熱詞輸出并推薦給用戶的概率,以克服文檔靜態(tài)表示的缺陷。由上述可見,現(xiàn)有改進(jìn)的基于文檔挖掘熱詞的方法,雖然能夠有效降低以靜態(tài)表示文檔導(dǎo)致的缺少與事件緊密相關(guān)的時(shí)間信息,但在進(jìn)行聚類的詞語中,還是包含了大量與熱點(diǎn)事件無關(guān)的詞語,增加了聚類復(fù)雜度;進(jìn)一步地,需要人工識別文檔中熱點(diǎn)事件包含的詞語,且采用現(xiàn)有TF-1DF等聚類方法,而熱點(diǎn)事件一般具有突發(fā)性、持續(xù)時(shí)間短等特點(diǎn),使得考慮詞語歷史信息的聚類方法,雖然增加了熱點(diǎn)事件包含的詞語在文檔特征向量中的權(quán)重,但其聚類結(jié)果還是較容易過濾實(shí)時(shí)性熱點(diǎn)事件中包含的詞語,熱點(diǎn)挖掘效率較低,還是無法滿足社交網(wǎng)絡(luò)挖掘的實(shí)時(shí)性要求。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提出一種挖掘熱詞的方法,降低聚類復(fù)雜度、提高社交網(wǎng)絡(luò)熱點(diǎn)挖掘的效率。本發(fā)明的另一目的在于提出一種挖掘熱詞的裝置,降低聚類復(fù)雜度、提高社交網(wǎng)絡(luò)熱點(diǎn)挖掘的效率。為達(dá)到上述目的,本發(fā)明提供了一種挖掘熱詞的方法,該方法包括:預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重;根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表示;將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類;對預(yù)設(shè)數(shù)目的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類;對過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取。所述預(yù)設(shè)數(shù)目為用熱詞庫中熱詞進(jìn)行表示的文檔總數(shù)的平方根與預(yù)設(shè)的文檔類系數(shù)的乘積;所述將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類包括:將用熱詞庫中熱詞進(jìn)行表示的文檔設(shè)置為一個(gè)文檔類;采用貪心算法對設(shè)置的文檔類進(jìn)行分裂,使得當(dāng)前分裂后生成的兩個(gè)文檔類的平均距離最大;計(jì)算各文檔類的類內(nèi)距離以及各文檔類之間的類間距離,選取類內(nèi)距離與類間距離比值最大對應(yīng)的文檔類進(jìn)行再分裂;確認(rèn)分裂得到的所有文檔類數(shù)目達(dá)到預(yù)設(shè)數(shù)目。在得到預(yù)設(shè)數(shù)目的文檔類后,進(jìn)一步包括: 對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理;所述對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理包括:計(jì)算每一文檔類內(nèi)所有文檔的特征向量值的平均值,得到相應(yīng)文檔類重心;根據(jù)兩個(gè)文檔類的重心計(jì)算該兩文檔之間的歐氏距離;將計(jì)算得到的歐氏距離的倒數(shù)作為文檔類間相似度,如果文檔類間相似度超過預(yù)設(shè)的類間相似度閾值,合并該兩個(gè)文檔類。所述過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類之后,進(jìn)一步包括:獲取過濾得到的文檔類內(nèi)的文檔數(shù),將超過預(yù)先設(shè)置的最大文檔數(shù)閾值的文檔類、和/或,低于預(yù)先設(shè)置的最小文檔數(shù)閾值的文檔類進(jìn)行過濾。所述過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類之后,進(jìn)一步包括:計(jì)算文檔類內(nèi)各文檔間相似度,將文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔進(jìn)行過濾。所述計(jì)算文檔間相似度包括:獲取文檔類內(nèi)任意兩文檔中,具有的最長公共字符串的長度;獲取文檔類內(nèi)該兩文檔中,具有較多字符串的文檔所包含的字符串長度;計(jì)算最長公共字符串的長度與所包含的字符串長度的商,得到文檔間相似度。
所述計(jì)算文檔間相似度包括:對文檔類內(nèi)文檔按字符串長度進(jìn)行排序;獲取文檔類內(nèi)相鄰兩文檔中,具有的最長公共字符串的長度;獲取文檔類內(nèi)該兩文檔中,具有較多字符串的文檔所包含的字符串長度;計(jì)算最長公共字符串的長度與所包含的字符串長度的商,得到文檔間相似度。進(jìn)一步包括:統(tǒng)計(jì)文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔對,確定相似文檔對的數(shù)量超過預(yù)先設(shè)置的相似文檔對數(shù)量閾值,過濾該文檔類。所述按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取包括:統(tǒng)計(jì)每一文檔類內(nèi)各熱詞的詞頻以及每一文檔類的文檔數(shù);如果文檔類內(nèi)熱詞的詞頻與該文檔類的文檔數(shù)的比值超過預(yù)先設(shè)置的該文檔類熱詞閾值,選取該熱詞。所述按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取包括:統(tǒng)計(jì)每一文檔類內(nèi)各熱詞的詞頻以及該熱詞出現(xiàn)在各文檔類內(nèi)文檔的文檔數(shù);如果文檔類內(nèi)熱詞的詞頻與該熱詞出現(xiàn)在各文檔類內(nèi)文檔的文檔數(shù)的比值超過預(yù)先設(shè)置的文檔類間熱詞閾值,選取該熱詞。在所述選取該熱詞后,進(jìn)一步包括:計(jì)算最接近文檔類重心的文檔;匹配選取的熱詞以及最接近文檔類重心的文檔中的熱詞,獲取匹配的熱詞。進(jìn)一步包括:確定匹配的熱詞數(shù)量小于預(yù)先設(shè)置的熱詞數(shù)量閾值,根據(jù)預(yù)先設(shè)置的表意詞詞庫匹配該文檔類內(nèi)文檔,獲取候選表意詞;根據(jù)統(tǒng)計(jì)的候選表意詞詞頻過濾候選表意詞;計(jì)算最接近文檔類重心的文檔;匹配候選表意詞以及最接近文檔類重心的文檔中的表意詞,將匹配的表意詞放入已選取的熱詞中。進(jìn)一步包括:按照最接近文檔類重心的文檔中熱詞及表意詞的順序調(diào)整待輸出的熱詞以及表意詞的順序。進(jìn)一步包括:將選取的各文檔類的熱詞進(jìn)行切分,獲取各文檔類的切分結(jié)果,確定兩文檔類的切分結(jié)果滿足預(yù)先設(shè)置的切分條件,過濾文檔類重心較低的文檔類內(nèi)的熱詞。用熱詞庫中熱詞進(jìn)行表示的文檔的特征向量由文檔中與熱詞庫匹配成功的熱詞的特征向量值組成;所述獲取熱詞的特征向量值包括:統(tǒng)計(jì)熱詞在文檔中的詞頻;獲取熱詞詞頻的對數(shù)值與數(shù)值I相加的和;獲取預(yù)先設(shè)置的熱詞權(quán)重的對數(shù)值與所述和的乘積,作為該熱詞的特征向量值。一種挖掘熱詞的裝置,該裝置包括:文檔表示模塊、文檔聚類模塊、文檔類過濾模塊以及文檔類熱詞選取模塊,其中,文檔表示模塊,用于預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重,根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表不;文檔聚類模塊,用于將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類;文檔類過濾模塊,用于對文檔聚類模塊輸出的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類;文檔類熱詞選取模塊,用于對文檔類過濾模塊輸出的過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取,并將選取的熱詞輸出。所述文檔聚類模塊進(jìn)一步用于對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理;所述文檔類過濾模塊進(jìn)一步用于獲取過濾得到的文檔類內(nèi)的文檔數(shù),將超過預(yù)先設(shè)置的最大文檔數(shù)閾值的文檔類、和/或,低于預(yù)先設(shè)置的最小文檔數(shù)閾值的文檔類進(jìn)行過濾。所述文檔類過濾模塊進(jìn)一步用于計(jì)算文檔類內(nèi)各文檔間相似度,將文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔進(jìn)行過濾。所述文檔類熱詞選取模塊進(jìn)一步用于確定文檔類選取的熱詞數(shù)量小于預(yù)先設(shè)置的熱詞數(shù)量閾值,根據(jù)預(yù)先設(shè)置的表意詞詞庫匹配該文檔類內(nèi)文檔,獲取候選表意詞;根據(jù)統(tǒng)計(jì)的候選表意詞詞頻過濾候選表意詞;計(jì)算最接近文檔類重心的文檔;匹配候選表意詞以及最接近文檔類重心的文檔中的表意詞,將匹配的表意詞放入已選取的熱詞中;按照最接近文檔類重心的文檔中熱詞及表意詞的順序調(diào)整待輸出的熱詞以及表意詞的順序。進(jìn)一步包括:文檔類去重模塊,用于將文檔類熱詞選取模塊選取的各文檔類的熱詞進(jìn)行切分,獲取各文檔類的切分結(jié)果,確定兩文檔類的切分結(jié)果滿足預(yù)先設(shè)置的切分條件,過濾文檔類重心較低的文檔類內(nèi)的熱詞,并將過濾后的熱詞輸出。由上述的技術(shù)方案可見,本發(fā)明實(shí)施例提供的一種挖掘熱詞的方法及裝置,預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重;根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表示;將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類;對預(yù)設(shè)數(shù)目的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類;對過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取。這樣,以與熱點(diǎn)事件相關(guān)的熱詞表示文檔,有效降低了后續(xù)進(jìn)行聚類的復(fù)雜度;運(yùn)用文檔聚類的方式,將同一熱點(diǎn)事件下的熱詞進(jìn)行聚合以及過濾,按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取,減少了后續(xù)熱詞選取所需的時(shí)間,可以滿足社交網(wǎng)絡(luò)挖掘的實(shí)時(shí)性要求,并提高社交網(wǎng)絡(luò)熱點(diǎn)挖掘的效率。


圖1為本發(fā)明實(shí)施例挖掘熱詞的裝置結(jié)構(gòu)示意圖。圖2為本發(fā)明實(shí)施例挖掘熱詞的方法流程示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例對本發(fā)明作進(jìn)一步地詳細(xì)描述。熱詞是一段時(shí)間內(nèi)對社會熱點(diǎn)事件的重要提示信息,因而,本發(fā)明實(shí)施例中,通過預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重,并對熱詞庫進(jìn)行動(dòng)態(tài)維護(hù),將文檔用熱詞庫中熱詞進(jìn)行表示,然后基于本發(fā)明實(shí)施例的挖掘熱詞方法,對文檔進(jìn)行聚類形成文檔類,在文檔類中對聚類的社交網(wǎng)絡(luò)某個(gè)時(shí)間段內(nèi)描述同一熱點(diǎn)事件的熱詞進(jìn)行聚合過濾,最后將經(jīng)聚合過濾的熱詞進(jìn)行展示,從而可以實(shí)時(shí)挖掘出社交網(wǎng)絡(luò)上的熱門話題和熱點(diǎn)事件。圖1為本發(fā)明實(shí)施例挖掘熱詞的裝置結(jié)構(gòu)示意圖。參見圖1,該裝置用于實(shí)時(shí)社交網(wǎng)絡(luò)熱詞聚類、聚類展示以及熱點(diǎn)事件挖掘,包括:文檔表示模塊101、文檔聚類模塊102、文檔類過濾模塊103以及文檔類熱詞選取模塊104,其中,文檔表示模塊101,用于預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重,根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表示;本發(fā)明實(shí)施例中,考慮到挖掘社交網(wǎng)絡(luò)上文檔的實(shí)時(shí)需求,其熱門話題和熱點(diǎn)事件中包含的詞語對熱點(diǎn)挖掘貢獻(xiàn)較大,因而,預(yù)先從熱門話題和熱點(diǎn)事件中提取出熱詞,構(gòu)建熱詞庫,并對熱詞庫進(jìn)行動(dòng)態(tài)維護(hù)。進(jìn)一步地,考慮到每個(gè)熱詞對熱點(diǎn)挖掘的貢獻(xiàn)并不是均衡的,在構(gòu)建的熱詞庫中,還可以為各熱詞設(shè)置相應(yīng)的熱詞權(quán)重,當(dāng)然,也可以對各熱詞設(shè)置統(tǒng)一的熱詞權(quán)重。關(guān)于構(gòu)建熱詞庫的詳細(xì)過程,由于不屬于本發(fā)明的討論范疇,在此不再贅述。用預(yù)先獲取的熱詞庫中的熱詞表示文檔,即文檔向量特征只用熱詞的相關(guān)信息(詞頻以及熱詞權(quán)重)表示,而不是采用文檔中包含的全部詞語的相關(guān)信息(詞頻以及反文檔頻率)進(jìn)行表示,這樣,可以將文檔非O維度減小,同時(shí),將與熱詞無關(guān)的文檔進(jìn)行過濾,降低后續(xù)聚類處理的復(fù)雜度,提高了后續(xù)處理的效率,使得過濾后較少的文檔數(shù)量可滿足社交網(wǎng)絡(luò)事件挖掘的實(shí)時(shí)性要求。如前所述,由于文檔只采用熱詞表示,而熱詞的IDF值較小,因此傳統(tǒng)的TF-1DF方法并不適用表示文檔,本發(fā)明實(shí)施例采用TF與預(yù)設(shè)的熱詞權(quán)重相結(jié)合,提出了基于熱詞權(quán)重的文檔表示公式:(Ii = [dn,...(Iij,...din]
權(quán)利要求
1.一種挖掘熱詞的方法,其特征在于,該方法包括: 預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重; 根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表不; 將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類; 對預(yù)設(shè)數(shù)目的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類; 對過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取。
2.如權(quán)利要求1所述的方法,其特征在于,所述預(yù)設(shè)數(shù)目為用熱詞庫中熱詞進(jìn)行表示的文檔總數(shù)的平方根與預(yù)設(shè)的文檔類系數(shù)的乘積; 所述將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類包括: 將用熱詞庫中熱詞進(jìn)行表示的文檔設(shè)置為一個(gè)文檔類; 采用貪心算法對設(shè)置的文檔類進(jìn)行分裂,使得當(dāng)前分裂后生成的兩個(gè)文檔類的平均距離最大; 計(jì)算各文檔類的類內(nèi)距離以及各文檔類之間的類間距離,選取類內(nèi)距離與類間距離比值最大對應(yīng)的文檔類進(jìn)行再分裂; 確認(rèn)分裂得到的所有文檔類數(shù)目達(dá)到預(yù)設(shè)數(shù)目。
3.如權(quán)利要求2所述的方法,其特征在于,在得到預(yù)設(shè)數(shù)目的文檔類后,進(jìn)一步包括: 對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理; 所述對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理包括: 計(jì)算每一文檔類內(nèi)所有文檔的特征向量值的平均值,得到相應(yīng)文檔類重心; 根據(jù)兩個(gè)文檔類的重心計(jì)算該兩文檔之間的歐氏距離; 將計(jì)算得到的歐氏距離的倒數(shù)作為文檔類間相似度,如果文檔類間相似度超過預(yù)設(shè)的類間相似度閾值,合并該兩個(gè)文檔類。
4.如權(quán)利要求1所述的方法,其特征在于,所述過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類之后,進(jìn)一步包括: 獲取過濾得到的文檔類內(nèi)的文檔數(shù),將超過預(yù)先設(shè)置的最大文檔數(shù)閾值的文檔類、和/或,低于預(yù)先設(shè)置的最小文檔數(shù)閾值的文檔類進(jìn)行過濾。
5.如權(quán)利要求1所述的方法,其特征在于,所述過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類之后,進(jìn)一步包括: 計(jì)算文檔類內(nèi)各文檔間相似度,將文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔進(jìn)行過濾。
6.如權(quán)利要求5所述的方法,其特征在于,所述計(jì)算文檔間相似度包括: 獲取文檔類內(nèi)任意兩文檔中,具有的最長公共字符串的長度; 獲取文檔類內(nèi)該兩文檔中,具有較多字符串的文檔所包含的字符串長度; 計(jì)算最長公共字符串的長度與所包含的字符串長度的商,得到文檔間相似度。
7.如權(quán)利要求5所述的方法,其特征在于,所述計(jì)算文檔間相似度包括: 對文檔類內(nèi)文檔按字符串長度進(jìn)行排序; 獲取文檔類內(nèi)相鄰兩文檔中,具有的最長公共字符串的長度;獲取文檔類內(nèi)該兩文檔中,具有較多字符串的文檔所包含的字符串長度; 計(jì)算最長公共字符串的長度與所包含的字符串長度的商,得到文檔間相似度。
8.如權(quán)利要求7所述的方法,其特征在于,進(jìn)一步包括: 統(tǒng)計(jì)文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔對,確定相似文檔對的數(shù)量超過預(yù)先設(shè)置的相似文檔對數(shù)量閾值,過濾該文檔類。
9.如權(quán)利要求1所述的方法,其特征在于,所述按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取包括: 統(tǒng)計(jì)每一文檔類內(nèi)各熱詞的詞頻以及每一文檔類的文檔數(shù); 如果文檔類內(nèi)熱詞的詞頻與該文檔類的文檔數(shù)的比值超過預(yù)先設(shè)置的該文檔類熱詞閾值,選取該熱詞。
10.如權(quán)利要求1所述的方法,其特征在于,所述按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取包括: 統(tǒng)計(jì)每一文檔類內(nèi)各熱詞的詞頻以及該熱詞出現(xiàn)在各文檔類內(nèi)文檔的文檔數(shù); 如果文檔類內(nèi)熱詞的詞頻與該熱詞出現(xiàn)在各文檔類內(nèi)文檔的文檔數(shù)的比值超過預(yù)先設(shè)置的文檔類間熱詞閾值,選取該熱詞。
11.如權(quán)利要求9或10所述的方法,其特征在于,在所述選取該熱詞后,進(jìn)一步包括: 計(jì)算最接近文檔類重心的文檔; 匹配選取的熱詞以及最接近文檔類重心的文檔中的熱詞,獲取匹配的熱詞。
12.如權(quán)利要求11所述的方法,其特征在于,進(jìn)一步包括: 確定匹配的熱詞數(shù)量小于預(yù)先設(shè)置的熱詞數(shù)量閾值,根據(jù)預(yù)先設(shè)置的表意詞詞庫匹配該文檔類內(nèi)文檔,獲取候選表意詞; 根據(jù)統(tǒng)計(jì)的候選表意詞詞頻過濾候選表意詞; 計(jì)算最接近文檔類重心的文檔; 匹配候選表意詞以及最接近文檔類重心的文檔中的表意詞,將匹配的表意詞放入已選取的熱詞中。
13.如權(quán)利要求12所述的方法,其特征在于,進(jìn)一步包括: 按照最接近文檔類重心的文檔中熱詞及表意詞的順序調(diào)整待輸出的熱詞以及表意詞的順序。
14.如權(quán)利要求1所述的方法,其特征在于,進(jìn)一步包括: 將選取的各文檔類的熱詞進(jìn)行切分,獲取各文檔類的切分結(jié)果,確定兩文檔類的切分結(jié)果滿足預(yù)先設(shè)置的切分條件,過濾文檔類重心較低的文檔類內(nèi)的熱詞。
15.如權(quán)利要求14所述的方法,其特征在于,用熱詞庫中熱詞進(jìn)行表示的文檔的特征向量由文檔中與熱詞庫匹配成功的熱詞的特征向量值組成; 所述獲取熱詞的特征向量值包括: 統(tǒng)計(jì)熱詞在文檔中的詞頻; 獲取熱詞詞頻的對數(shù)值與數(shù)值I相加的和; 獲取預(yù)先設(shè)置的熱詞權(quán)重的對數(shù)值與所述和的乘積,作為該熱詞的特征向量值。
16.一種挖掘熱詞的裝置,其特征在于,該裝置包括:文檔表示模塊、文檔聚類模塊、文檔類過濾模塊以及文檔類熱詞選取模塊,其中,文檔表示模塊,用于預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重,根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表示; 文檔聚類模塊,用于將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類; 文檔類過濾模塊,用于對文檔聚類模塊輸出的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類; 文檔類熱詞選取模塊,用于對文檔類過濾模塊輸出的過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取,并將選取的熱詞輸出。
17.如權(quán)利要求16所述的裝置,其特征在于,所述文檔聚類模塊進(jìn)一步用于對預(yù)設(shè)數(shù)目的文檔類中的相似文檔類進(jìn)行合并處理; 所述文檔類過濾模塊進(jìn)一步用于獲取過濾得到的文檔類內(nèi)的文檔數(shù),將超過預(yù)先設(shè)置的最大文檔數(shù)閾值的文檔類、和/或,低于預(yù)先設(shè)置的最小文檔數(shù)閾值的文檔類進(jìn)行過濾。
18.如權(quán)利要求16所述的裝置,其特征在于,所述文檔類過濾模塊進(jìn)一步用于計(jì)算文檔類內(nèi)各文檔間相似度,將文檔間相似度超過預(yù)先設(shè)置的文檔相似度閾值的文檔進(jìn)行過濾。
19.如權(quán)利要求16所述的裝置,其特征在于,所述文檔類熱詞選取模塊進(jìn)一步用于確定文檔類選取的熱詞數(shù)量小于預(yù)先設(shè)置的熱詞數(shù)量閾值,根據(jù)預(yù)先設(shè)置的表意詞詞庫匹配該文檔類內(nèi)文檔,獲取候選表意詞;根據(jù)統(tǒng)計(jì)的候選表意詞詞頻過濾候選表意詞;計(jì)算最接近文檔類重心的文檔;匹配候選表意詞以及最接近文檔類重心的文檔中的表意詞,將匹配的表意詞放入已選取的熱詞中;按照最接近文檔類重心的文檔中熱詞及表意詞的順序調(diào)整待輸出的熱詞以及表意詞的順序。
20.如權(quán)利要求16至19任一項(xiàng)所述的裝置,其特征在于,進(jìn)一步包括: 文檔類去重模塊,用于將文檔類熱詞選取模塊選取的各文檔類的熱詞進(jìn)行切分,獲取各文檔類的切分結(jié)果,確定兩文檔類的切分結(jié)果滿足預(yù)先設(shè)置的切分條件,過濾文檔類重心較低的文檔類內(nèi)的熱詞,并將過濾后的熱詞輸出。
全文摘要
本發(fā)明公開了一種挖掘熱詞的方法及裝置。該方法包括預(yù)先設(shè)置熱詞庫并對熱詞庫中的各熱詞設(shè)置相應(yīng)的熱詞權(quán)重;根據(jù)熱詞在文檔中的詞頻以及熱詞庫中設(shè)置的熱詞權(quán)重,將文檔用熱詞庫中熱詞進(jìn)行表示;將用熱詞庫中熱詞進(jìn)行表示的文檔聚類為預(yù)設(shè)數(shù)目的文檔類;對預(yù)設(shè)數(shù)目的文檔類進(jìn)行重心排序,過濾掉文檔類重心值小于預(yù)先設(shè)置的重心閾值的文檔類;對過濾后的文檔類按照預(yù)先設(shè)置的熱詞選取策略進(jìn)行熱詞選取。應(yīng)用本發(fā)明,可以降低聚類復(fù)雜度、提高社交網(wǎng)絡(luò)熱點(diǎn)挖掘的效率。
文檔編號G06F17/30GK103218368SQ20121001878
公開日2013年7月24日 申請日期2012年1月20日 優(yōu)先權(quán)日2012年1月20日
發(fā)明者邸楠 申請人:深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1