亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本挖掘方法和文本挖掘裝置制造方法

文檔序號(hào):6488764閱讀:319來(lái)源:國(guó)知局
文本挖掘方法和文本挖掘裝置制造方法
【專利摘要】本發(fā)明涉及文本挖掘方法和文本挖掘裝置。文本挖掘方法包括:提取文檔中的多個(gè)關(guān)鍵詞;計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值;按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表文檔的分值序列;以及利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
【專利說(shuō)明】文本挖掘方法和文本挖掘裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本處理領(lǐng)域,具體涉及文本挖掘方法和文本挖掘裝置。
【背景技術(shù)】
[0002]自從新的媒體產(chǎn)生了越來(lái)越多的文本信息(如微博)以來(lái),文本挖掘已成為熱門課題。所使用的最流行的語(yǔ)言模型是矢量空間模型?,F(xiàn)存的技術(shù)主要存在兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是數(shù)據(jù)稀疏。第二個(gè)問(wèn)題是丟失了長(zhǎng)距離詞語(yǔ)依賴性。
[0003]鑒于此,需要一種能夠解決上述技術(shù)問(wèn)題的技術(shù)方案。

【發(fā)明內(nèi)容】

[0004]在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解,這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念,以此作為稍后論述的更詳細(xì)描述的前序。
[0005]本發(fā)明的一個(gè)主要目的在于,提供一種文本挖掘方法和文本挖掘裝置。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種文本挖掘方法,包括:提取文檔中的多個(gè)關(guān)鍵詞;計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值;按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表文檔的分值序列;以及利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0007]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種文本挖掘裝置,包括:關(guān)鍵詞提取單元,被配置用于提取文檔中的多個(gè)關(guān)鍵詞;分值計(jì)算單元,被配置用于計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值;分值排列單元,被配置用于按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表文檔的分值序列;以及操作執(zhí)行單元,被配置用于利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0008]另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0009]此外,本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品,其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0010]通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明,本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
【專利附圖】

【附圖說(shuō)明】
[0011]參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明,會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來(lái)表示。
[0012]圖1是示出根據(jù)本發(fā)明的實(shí)施例的文本挖掘方法的流程圖;
[0013]圖2是示出根據(jù)本發(fā)明的實(shí)施例的文本挖掘裝置的框圖;[0014]圖3是示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的文本挖掘裝置的框圖;
[0015]圖4是示出根據(jù)本發(fā)明的又一個(gè)實(shí)施例的文本挖掘裝置的框圖;以及
[0016]圖5是示出可以用于實(shí)施本發(fā)明的文本挖掘方法和文本挖掘裝置的計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0017]下面參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。 [0018]圖1示出了根據(jù)本發(fā)明的實(shí)施例的文本挖掘方法100的流程圖。
[0019]如圖1所示,在步驟S102中,可以提取文檔中的多個(gè)關(guān)鍵詞。對(duì)于不同的任務(wù)而言,所要提取的關(guān)鍵詞可能會(huì)有所不同。例如,如果要對(duì)文檔進(jìn)行分類,則所要提取的關(guān)鍵詞可以是更有含義的詞語(yǔ)。如果要對(duì)本文進(jìn)行觀點(diǎn)分析,則所要提取的關(guān)鍵詞可以是表達(dá)情感的詞語(yǔ)。
[0020]可選地,在如圖1所示的方法100中,在提取文檔中的多個(gè)關(guān)鍵詞的步驟S102之前還可以先對(duì)文檔進(jìn)行分割。例如,可以利用任意適當(dāng)?shù)耐ㄓ梅指钇鲗?duì)文檔進(jìn)行分割,然后從分割后得到的各個(gè)詞匯中提取關(guān)鍵詞。但是,可以理解到,可以不對(duì)文檔進(jìn)行分割,而在步驟S102中直接從文檔中提取關(guān)鍵詞。
[0021]在步驟S104中,可以計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值。關(guān)于代表特定屬性,稍后將描述幾種示例。
[0022]在步驟S106中,可以按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表文檔的分值序列。例如,如果特定關(guān)鍵詞在文檔中出現(xiàn)在第一位,則代表該關(guān)鍵詞的特定屬性的分值在分值序列中被排在第一位。
[0023]在步驟S108中,可以利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0024]具體而言,在將文檔轉(zhuǎn)換為分值序列之后,可以將分值序列應(yīng)用于多種任務(wù),例如,在文檔分類、聚類以及信息檢索等任務(wù)。在這些任務(wù)中,可能涉及到文檔之間相似度計(jì)算和傾向性判斷。
[0025]例如,在文檔分類中,可以通過(guò)相似度計(jì)算確定文檔所屬的類別。在信息檢索中,可以通過(guò)計(jì)算輸入查詢和文檔的相似度來(lái)得到檢索結(jié)果。
[0026]傾向性預(yù)測(cè)是指根據(jù)文檔中前η個(gè)傾向性已知的詞匯(或句子),可以對(duì)第n+1個(gè)詞(或句子)的傾向性進(jìn)行預(yù)測(cè)。例如,在將文檔轉(zhuǎn)換為分值之后,可以根據(jù)前η個(gè)分值來(lái)預(yù)測(cè)第n+1個(gè)分值所對(duì)應(yīng)的詞(或句子)的傾向性。
[0027]在需要計(jì)算相似度的情況下,可以通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的分值序列之間的距離來(lái)計(jì)算兩個(gè)文檔之間的相似度。以下將描述相似度計(jì)算的一個(gè)示例。
[0028]假設(shè)要計(jì)算文檔TX和文檔TY之間的相似度。通過(guò)計(jì)算分值并按照分值所對(duì)應(yīng)的關(guān)鍵詞在文檔中出現(xiàn)的順序?qū)Ψ种颠M(jìn)行排序,分別得到代表文檔TX的分值序列Xlx1, X2,……,xj、以及代表文檔TY的分值序列Y Iy1, y2,......,Y1J。
[0029]例如,可以根據(jù)以下公式來(lái)計(jì)算分值序列X和分值序列Y之間的距離。
【權(quán)利要求】
1.一種文本挖掘方法,包括: 提取文檔中的多個(gè)關(guān)鍵詞; 計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值; 按照所述多個(gè)關(guān)鍵詞在所述文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表所述文檔的分值序列;以及 利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
2.根據(jù)權(quán)利要求1所述的方法,其中,所述利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作的步驟包括: 通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的所述分值序列之間的距離來(lái)計(jì)算所述兩個(gè)文檔之間的相似度。
3.根據(jù)權(quán)利要求2所述的方法,其中: 在計(jì)算所述分值序列之間的距離時(shí),根據(jù)所比較的兩個(gè)分值的位置差異以及所述兩個(gè)分值的大小差異來(lái)計(jì)算替換代價(jià)。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,其中: 所述文檔為文檔群中的一篇文檔,所述特定屬性為所述關(guān)鍵詞在所述文檔群中的統(tǒng)計(jì)重要性。
5.根據(jù)權(quán)利要求4所述的方法,其中: 所述統(tǒng)計(jì)重要性為詞頻與逆向文檔頻率之積、詞頻、術(shù)語(yǔ)度以及詞語(yǔ)傾向性之一。
6.一種文本挖掘裝置,包括: 關(guān)鍵詞提取單元,被配置用于提取文檔中的多個(gè)關(guān)鍵詞; 分值計(jì)算單元,被配置用于計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值; 分值排列單元,被配置用于按照所述多個(gè)關(guān)鍵詞在所述文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列,以得到代表所述文檔的分值序列;以及 操作執(zhí)行單元,被配置用于利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
7.根據(jù)權(quán)利要求6所述的裝置,其中,所述操作執(zhí)行單元包括: 相似度計(jì)算子單元,被配置用于通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的所述分值序列之間的距離來(lái)計(jì)算所述兩個(gè)文檔之間的相似度。
8.根據(jù)權(quán)利要求7所述的裝置,其中,所述相似度計(jì)算子單元被配置用于在計(jì)算所述分值序列之間的距離時(shí),根據(jù)所比較的兩個(gè)分值的位置差異以及所述兩個(gè)分值的大小差異來(lái)計(jì)算替換代價(jià)。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的裝置,其中,所述文檔為文檔群中的一篇文檔,所述特定屬性為所述關(guān)鍵詞在所述文檔群中的統(tǒng)計(jì)重要性。
10.根據(jù)權(quán)利要求10所述的裝置,其中,所述統(tǒng)計(jì)重要性為詞頻與逆向文檔頻率之積、詞頻、術(shù)語(yǔ)度以及詞語(yǔ)傾向性之一。
【文檔編號(hào)】G06F17/27GK103678355SQ201210335708
【公開日】2014年3月26日 申請(qǐng)日期:2012年9月11日 優(yōu)先權(quán)日:2012年9月11日
【發(fā)明者】楊宇航, 夏迎炬, 于浩 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1