文本挖掘方法和文本挖掘裝置制造方法

文檔序號(hào)：6488764閱讀：319來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文本挖掘方法和文本挖掘裝置制造方法
【專利摘要】本發(fā)明涉及文本挖掘方法和文本挖掘裝置。文本挖掘方法包括：提取文檔中的多個(gè)關(guān)鍵詞；計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值；按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表文檔的分值序列；以及利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
【專利說(shuō)明】文本挖掘方法和文本挖掘裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本處理領(lǐng)域，具體涉及文本挖掘方法和文本挖掘裝置。
【背景技術(shù)】
[0002]自從新的媒體產(chǎn)生了越來(lái)越多的文本信息(如微博)以來(lái),文本挖掘已成為熱門課題。所使用的最流行的語(yǔ)言模型是矢量空間模型?，F(xiàn)存的技術(shù)主要存在兩個(gè)問(wèn)題。第一個(gè)問(wèn)題是數(shù)據(jù)稀疏。第二個(gè)問(wèn)題是丟失了長(zhǎng)距離詞語(yǔ)依賴性。
[0003]鑒于此，需要一種能夠解決上述技術(shù)問(wèn)題的技術(shù)方案。

【發(fā)明內(nèi)容】

[0004]在下文中給出關(guān)于本發(fā)明的簡(jiǎn)要概述，以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解，這個(gè)概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān)鍵或重要部分，也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡(jiǎn)化的形式給出某些概念，以此作為稍后論述的更詳細(xì)描述的前序。
[0005]本發(fā)明的一個(gè)主要目的在于，提供一種文本挖掘方法和文本挖掘裝置。
[0006]根據(jù)本發(fā)明的一個(gè)方面，提供了一種文本挖掘方法，包括:提取文檔中的多個(gè)關(guān)鍵詞；計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值；按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表文檔的分值序列；以及利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0007]根據(jù)本發(fā)明的另一個(gè)方面，提供了一種文本挖掘裝置，包括:關(guān)鍵詞提取單元，被配置用于提取文檔中的多個(gè)關(guān)鍵詞；分值計(jì)算單元，被配置用于計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值；分值排列單元，被配置用于按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表文檔的分值序列；以及操作執(zhí)行單元，被配置用于利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0008]另外，本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序。
[0009]此外，本發(fā)明的實(shí)施例還提供了至少計(jì)算機(jī)可讀介質(zhì)形式的計(jì)算機(jī)程序產(chǎn)品，其上記錄有用于實(shí)現(xiàn)上述方法的計(jì)算機(jī)程序代碼。
[0010]通過(guò)以下結(jié)合附圖對(duì)本發(fā)明的最佳實(shí)施例的詳細(xì)說(shuō)明，本發(fā)明的這些以及其他優(yōu)點(diǎn)將更加明顯。
【專利附圖】

【附圖說(shuō)明】
[0011]參照下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例的說(shuō)明，會(huì)更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中，相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來(lái)表示。
[0012]圖1是示出根據(jù)本發(fā)明的實(shí)施例的文本挖掘方法的流程圖；
[0013]圖2是示出根據(jù)本發(fā)明的實(shí)施例的文本挖掘裝置的框圖；[0014]圖3是示出根據(jù)本發(fā)明的另一個(gè)實(shí)施例的文本挖掘裝置的框圖；
[0015]圖4是示出根據(jù)本發(fā)明的又一個(gè)實(shí)施例的文本挖掘裝置的框圖；以及
[0016]圖5是示出可以用于實(shí)施本發(fā)明的文本挖掘方法和文本挖掘裝置的計(jì)算設(shè)備的舉例的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0017]下面參照附圖來(lái)說(shuō)明本發(fā)明的實(shí)施例。在本發(fā)明的一個(gè)附圖或一種實(shí)施方式中描述的元素和特征可以與一個(gè)或更多個(gè)其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意，為了清楚的目的，附圖和說(shuō)明中省略了與本發(fā)明無(wú)關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。 [0018]圖1示出了根據(jù)本發(fā)明的實(shí)施例的文本挖掘方法100的流程圖。
[0019]如圖1所示，在步驟S102中，可以提取文檔中的多個(gè)關(guān)鍵詞。對(duì)于不同的任務(wù)而言，所要提取的關(guān)鍵詞可能會(huì)有所不同。例如，如果要對(duì)文檔進(jìn)行分類，則所要提取的關(guān)鍵詞可以是更有含義的詞語(yǔ)。如果要對(duì)本文進(jìn)行觀點(diǎn)分析，則所要提取的關(guān)鍵詞可以是表達(dá)情感的詞語(yǔ)。
[0020]可選地，在如圖1所示的方法100中，在提取文檔中的多個(gè)關(guān)鍵詞的步驟S102之前還可以先對(duì)文檔進(jìn)行分割。例如，可以利用任意適當(dāng)?shù)耐ㄓ梅指钇鲗?duì)文檔進(jìn)行分割，然后從分割后得到的各個(gè)詞匯中提取關(guān)鍵詞。但是，可以理解到，可以不對(duì)文檔進(jìn)行分割，而在步驟S102中直接從文檔中提取關(guān)鍵詞。
[0021]在步驟S104中，可以計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值。關(guān)于代表特定屬性，稍后將描述幾種示例。
[0022]在步驟S106中，可以按照多個(gè)關(guān)鍵詞在文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表文檔的分值序列。例如，如果特定關(guān)鍵詞在文檔中出現(xiàn)在第一位，則代表該關(guān)鍵詞的特定屬性的分值在分值序列中被排在第一位。
[0023]在步驟S108中，可以利用分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
[0024]具體而言，在將文檔轉(zhuǎn)換為分值序列之后，可以將分值序列應(yīng)用于多種任務(wù)，例如，在文檔分類、聚類以及信息檢索等任務(wù)。在這些任務(wù)中，可能涉及到文檔之間相似度計(jì)算和傾向性判斷。
[0025]例如，在文檔分類中，可以通過(guò)相似度計(jì)算確定文檔所屬的類別。在信息檢索中，可以通過(guò)計(jì)算輸入查詢和文檔的相似度來(lái)得到檢索結(jié)果。
[0026]傾向性預(yù)測(cè)是指根據(jù)文檔中前η個(gè)傾向性已知的詞匯(或句子)，可以對(duì)第n+1個(gè)詞(或句子)的傾向性進(jìn)行預(yù)測(cè)。例如，在將文檔轉(zhuǎn)換為分值之后，可以根據(jù)前η個(gè)分值來(lái)預(yù)測(cè)第n+1個(gè)分值所對(duì)應(yīng)的詞(或句子)的傾向性。
[0027]在需要計(jì)算相似度的情況下，可以通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的分值序列之間的距離來(lái)計(jì)算兩個(gè)文檔之間的相似度。以下將描述相似度計(jì)算的一個(gè)示例。
[0028]假設(shè)要計(jì)算文檔TX和文檔TY之間的相似度。通過(guò)計(jì)算分值并按照分值所對(duì)應(yīng)的關(guān)鍵詞在文檔中出現(xiàn)的順序?qū)Ψ种颠M(jìn)行排序，分別得到代表文檔TX的分值序列Xlx1, X2,……，xj、以及代表文檔TY的分值序列Y Iy1, y2，......，Y1J。
[0029]例如，可以根據(jù)以下公式來(lái)計(jì)算分值序列X和分值序列Y之間的距離。
【權(quán)利要求】
1.一種文本挖掘方法，包括: 提取文檔中的多個(gè)關(guān)鍵詞；計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值；按照所述多個(gè)關(guān)鍵詞在所述文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表所述文檔的分值序列；以及利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
2.根據(jù)權(quán)利要求1所述的方法，其中，所述利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作的步驟包括: 通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的所述分值序列之間的距離來(lái)計(jì)算所述兩個(gè)文檔之間的相似度。
3.根據(jù)權(quán)利要求2所述的方法，其中: 在計(jì)算所述分值序列之間的距離時(shí)，根據(jù)所比較的兩個(gè)分值的位置差異以及所述兩個(gè)分值的大小差異來(lái)計(jì)算替換代價(jià)。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法，其中: 所述文檔為文檔群中的一篇文檔，所述特定屬性為所述關(guān)鍵詞在所述文檔群中的統(tǒng)計(jì)重要性。
5.根據(jù)權(quán)利要求4所述的方法，其中: 所述統(tǒng)計(jì)重要性為詞頻與逆向文檔頻率之積、詞頻、術(shù)語(yǔ)度以及詞語(yǔ)傾向性之一。
6.一種文本挖掘裝置，包括: 關(guān)鍵詞提取單元，被配置用于提取文檔中的多個(gè)關(guān)鍵詞；分值計(jì)算單元，被配置用于計(jì)算代表每個(gè)關(guān)鍵詞的特定屬性的分值；分值排列單元，被配置用于按照所述多個(gè)關(guān)鍵詞在所述文檔中的出現(xiàn)順序?qū)τ?jì)算出的分值進(jìn)行排列，以得到代表所述文檔的分值序列；以及操作執(zhí)行單元，被配置用于利用所述分值序列進(jìn)行與文本挖掘相關(guān)聯(lián)的操作。
7.根據(jù)權(quán)利要求6所述的裝置，其中，所述操作執(zhí)行單元包括: 相似度計(jì)算子單元，被配置用于通過(guò)計(jì)算分別對(duì)應(yīng)于兩個(gè)文檔的所述分值序列之間的距離來(lái)計(jì)算所述兩個(gè)文檔之間的相似度。
8.根據(jù)權(quán)利要求7所述的裝置，其中，所述相似度計(jì)算子單元被配置用于在計(jì)算所述分值序列之間的距離時(shí)，根據(jù)所比較的兩個(gè)分值的位置差異以及所述兩個(gè)分值的大小差異來(lái)計(jì)算替換代價(jià)。
9.根據(jù)權(quán)利要求6至8中任一項(xiàng)所述的裝置，其中，所述文檔為文檔群中的一篇文檔，所述特定屬性為所述關(guān)鍵詞在所述文檔群中的統(tǒng)計(jì)重要性。
10.根據(jù)權(quán)利要求10所述的裝置，其中，所述統(tǒng)計(jì)重要性為詞頻與逆向文檔頻率之積、詞頻、術(shù)語(yǔ)度以及詞語(yǔ)傾向性之一。
【文檔編號(hào)】G06F17/27GK103678355SQ201210335708
【公開日】2014年3月26日申請(qǐng)日期:2012年9月11日優(yōu)先權(quán)日:2012年9月11日
【發(fā)明者】楊宇航, 夏迎炬, 于浩申請(qǐng)人:富士通株式會(huì)社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊宇航;夏迎炬;于浩
技術(shù)所有人：富士通株式會(huì)社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本挖掘方法相關(guān)技術(shù)

挖掘機(jī)回轉(zhuǎn)裝置相關(guān)技術(shù)

挖掘機(jī)工作裝置設(shè)計(jì)相關(guān)技術(shù)

挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)行走裝置相關(guān)技術(shù)

挖掘機(jī)快換裝置相關(guān)技術(shù)

挖掘機(jī)回轉(zhuǎn)裝置cad相關(guān)技術(shù)

液壓挖掘機(jī)工作裝置相關(guān)技術(shù)

挖掘機(jī)動(dòng)力裝置相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本挖掘方法和文本挖掘裝置制造方法