數(shù)據(jù)聚類方法和裝置的制作方法

文檔序號：6579527閱讀：200來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：數(shù)據(jù)聚類方法和裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及信息處理領(lǐng)域，具體地，涉及一種數(shù)據(jù)聚類方法和裝置以及一種文本分類方法和裝置。
背景技術(shù)：
隨著因特網(wǎng)的迅速發(fā)展，電子信息(如電子文檔等)呈現(xiàn)爆炸式的增長。如何迅速有效地組織和管理這些電子信息是一個亟待解決的問題。目前，數(shù)據(jù)聚類(包括文本聚類)的方法在業(yè)界倍受關(guān)注。

發(fā)明內(nèi)容
在下文中給出關(guān)于本發(fā)明的簡要概述，以便提供關(guān)于本發(fā)明的某些方面的基本理解。應(yīng)當(dāng)理解，這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān) 鍵或重要部分，也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念，以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的一個方面，提供了一種數(shù)據(jù)聚類方法。該數(shù)據(jù)聚類方法包括初始聚類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類；標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象；標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對象的標(biāo)注信息；及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類根據(jù)本發(fā)明的另一方面，提供了一種數(shù)據(jù)聚類裝置。該數(shù)據(jù)聚類裝置包括初始聚類模塊，用于對多個數(shù)據(jù)樣本進(jìn)行初始聚類；標(biāo)注對象選取模塊，用于根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象；標(biāo)注信息獲取模塊，用于獲取針對所述標(biāo)注對象的標(biāo)注信息；及二次聚類模塊，用于將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。根據(jù)本發(fā)明的另一方面，提供了一種文本分類方法。該文本分類方法包括統(tǒng)計文本中的特殊字符，并根據(jù)統(tǒng)計結(jié)果判斷所述文本的語言類別。根據(jù)本發(fā)明的另一方面，提供了一種文本分類裝置。該文本分類裝置包括統(tǒng)計模塊，用于統(tǒng)計文本中的特殊字符；以及分類模塊，用于根據(jù)統(tǒng)計結(jié)果來判斷所述文本的語言類別。另外，本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述數(shù)據(jù)聚類方法和/或文本分類方法的計算機(jī)程序。此外，本發(fā)明的實(shí)施例還提供了至少計算機(jī)可讀介質(zhì)形式的計算機(jī)程序產(chǎn)品，其上記錄有用于實(shí)現(xiàn)上述數(shù)據(jù)聚類方法和/或文本分類方法的計算機(jī)程序代碼。

參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明，會更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中，相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。圖1是示出了根據(jù)本發(fā)明一個實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖；圖2是示出了根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖；圖3是示出了根據(jù)本發(fā)明一個實(shí)施例的文本分類方法的示意性流程圖；圖4是示出了根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖；圖5-7分別是示出了根據(jù)本發(fā)明的實(shí)施例的文本分類方法的示意性流程圖；圖8-10分別是示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)聚類裝置的示意性框圖；圖11-12分別是示出了根據(jù)本發(fā)明的實(shí)施例的文本分類裝置的示意性框圖；以及圖13是示出了可用于實(shí)施根據(jù)本發(fā)明的實(shí)施例的計算機(jī)的示意性框圖。
具體實(shí)施例方式下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個附圖或一種實(shí)施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng) 當(dāng)注意，為了清楚的目的，附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。一些數(shù)據(jù)聚類方法采用完全自動化的手段對信息進(jìn)行管理，但是由于缺乏人工干預(yù)，聚類結(jié)果往往不能滿足用戶的需求。為了解決這個問題，出現(xiàn)了半監(jiān)督的聚類方法。半監(jiān)督的聚類方法通常隨機(jī)地選取數(shù)據(jù)樣本對提供給用戶進(jìn)行標(biāo)注，并將用戶提供的標(biāo)注信息作為數(shù)據(jù)聚類的約束條件。但是，在這些方法中，由于數(shù)據(jù)樣本是隨機(jī)選取的，往往會導(dǎo) 致大量的冗余標(biāo)注信息。另外，由于樣本選取的隨機(jī)性，也容易導(dǎo)致用戶標(biāo)注錯誤。下面描述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)聚類方法。圖1示出了根據(jù)本發(fā)明一個實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖。在該方法中，首先對待處理的數(shù)據(jù)樣本進(jìn)行初始聚類，然后根據(jù)初始聚類的結(jié)果選取一個或多個數(shù)據(jù)樣本作為標(biāo)注對象供用戶標(biāo)注，從而獲得用戶輸入的標(biāo)注信息。之后，將所述標(biāo)注信息作為約束條件對數(shù)據(jù)樣本進(jìn)行再次聚類。如圖1所示，該數(shù)據(jù)聚類方法可包括以下步驟106-112。在步驟106中，對多個數(shù)據(jù)樣本進(jìn)行初始聚類。為了描述方便，下文中也將這一步驟稱為初始聚類步驟。該初始聚類步驟可以采用任何適當(dāng)?shù)木垲惙椒▽?shù)據(jù)樣本進(jìn)行聚類。在一個示例中，出于效率的考慮，可以采用K均值(K-means)法。在其他示例中，還可以采用其他聚類方法，如模糊C均值(Fuzzy C-means)算法、單連接算法(Single Link Algorithm)、完全算法(CompleteAlgorithm)等等，這里不——列舉。通過所述初始聚類步驟，數(shù)據(jù)樣本被聚類成一個或多個初始簇。在步驟108中，根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個，作為標(biāo)注對象，用于提供給用戶進(jìn)行標(biāo)注。這一步驟也稱為標(biāo)注對象選取步驟?？梢岳枚喾N方法來選擇標(biāo)注對象。作為一個示例，可以在每個初始簇中隨機(jī)選擇一個或多個數(shù)據(jù)樣本作為標(biāo)注對象。在另一示例中，考慮到通常情況下簇的邊緣點(diǎn)(即位于簇的邊緣的數(shù)據(jù)樣本)是容易出錯的點(diǎn)，因此，可以在每個初始簇中選擇距離簇的中心點(diǎn)較遠(yuǎn)的數(shù)據(jù)點(diǎn)(數(shù)據(jù)樣本)作為標(biāo)注對象，從而進(jìn)一步降低后續(xù)步驟中用戶標(biāo)注的出錯概率。下面給出選擇簇的邊緣點(diǎn)的一個示例性方法。首先，可利用下面的公式(1)來計算簇的中心點(diǎn)的向量
權(quán)利要求
一種數(shù)據(jù)聚類方法，包括初始聚類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類；標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象；標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對象的標(biāo)注信息；及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法，其中，所述標(biāo)注對象選取步驟包括選擇在初始聚類步驟中獲得的每一個初始簇的邊緣的數(shù)據(jù)樣本中的一個或者多個作為所述標(biāo)注對象。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法，其中，所述標(biāo)注信息獲取步驟包括將所述標(biāo)注對象提供給用戶，以得到用戶輸入的標(biāo)注信息。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法，其中，所述多個數(shù)據(jù)樣本是多個文本，并且在所述初始聚類步驟之前，所述方法還包括向量化步驟根據(jù)所述多個文本的語言類別，將所述多個文本中的每一個轉(zhuǎn)換為空間向量表示。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)聚類方法，其中，在所述向量化步驟之前，所述方法還包括統(tǒng)一編碼步驟將所述多個文本轉(zhuǎn)換為統(tǒng)一的編碼格式；語言分類步驟統(tǒng)計各文本中的特殊字符，并根據(jù)統(tǒng)計結(jié)果將所述多個文本分類成至少兩個語言類別。
6.一種數(shù)據(jù)聚類裝置，包括初始聚類模塊，用于對多個數(shù)據(jù)樣本進(jìn)行初始聚類；標(biāo)注對象選取模塊，用于根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象；標(biāo)注信息獲取模塊，用于獲取針對所述標(biāo)注對象的標(biāo)注信息；及二次聚類模塊，用于將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置，其中，所述標(biāo)注對象選取模塊還被配置用于選擇在所述初始聚類模塊獲得的每一個初始簇的邊緣的數(shù)據(jù)樣本中的一個或者多個作為所述標(biāo)注對象。
8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置，其中，所述標(biāo)注信息獲取模塊還被配置用于將所述標(biāo)注對象提供給用戶，以得到用戶輸入的標(biāo)注信息。
9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置，其中，所述多個數(shù)據(jù)樣本是多個文本，所述數(shù) 據(jù)聚類裝置還包括向量化模塊，用于根據(jù)所述多個文本的語言類別，將所述多個文本中的每一個轉(zhuǎn)換為空間向量表示。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)聚類裝置，還包括統(tǒng)一編碼模塊，用于將所述多個文本轉(zhuǎn)換為統(tǒng)一的編碼格式；及語言分類模塊，用于根據(jù)所述統(tǒng)一編碼模塊輸出的經(jīng)統(tǒng)一編碼的文本來統(tǒng)計各文本中的特殊字符，并根據(jù)統(tǒng)計結(jié)果將所述多個文本分類成至少兩個語言類別。
全文摘要
本發(fā)明提供了數(shù)據(jù)聚類方法和裝置。所述數(shù)據(jù)聚類方法可包括初始聚類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類；標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象；標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對象的標(biāo)注信息；及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
文檔編號G06F17/30GK101989289SQ200910161158
公開日2011年3月23日申請日期2009年8月6日優(yōu)先權(quán)日2009年8月6日
發(fā)明者于浩, 吳科, 夏迎炬申請人:富士通株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：吳科;夏迎炬;于浩
技術(shù)所有人：富士通株式會社
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

數(shù)據(jù)聚類方法相關(guān)技術(shù)

聚類數(shù)據(jù)集相關(guān)技術(shù)

數(shù)據(jù)聚類相關(guān)技術(shù)

數(shù)據(jù)挖掘聚類分析案例相關(guān)技術(shù)

聚類分析數(shù)據(jù)相關(guān)技術(shù)

kmeans聚類算法數(shù)據(jù)集相關(guān)技術(shù)

聚類分析數(shù)據(jù)集相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)聚類方法和裝置的制作方法