專利名稱:數(shù)據(jù)聚類方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理領(lǐng)域,具體地,涉及一種數(shù)據(jù)聚類方法和裝置以及一種文本 分類方法和裝置。
背景技術(shù):
隨著因特網(wǎng)的迅速發(fā)展,電子信息(如電子文檔等)呈現(xiàn)爆炸式的增長。如何迅 速有效地組織和管理這些電子信息是一個亟待解決的問題。目前,數(shù)據(jù)聚類(包括文本聚 類)的方法在業(yè)界倍受關(guān)注。
發(fā)明內(nèi)容
在下文中給出關(guān)于本發(fā)明的簡要概述,以便提供關(guān)于本發(fā)明的某些方面的基本理 解。應(yīng)當(dāng)理解,這個概述并不是關(guān)于本發(fā)明的窮舉性概述。它并不是意圖確定本發(fā)明的關(guān) 鍵或重要部分,也不是意圖限定本發(fā)明的范圍。其目的僅僅是以簡化的形式給出某些概念, 以此作為稍后論述的更詳細(xì)描述的前序。根據(jù)本發(fā)明的一個方面,提供了一種數(shù)據(jù)聚類方法。該數(shù)據(jù)聚類方法包括初始聚 類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類;標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所 述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象;標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對 象的標(biāo)注信息;及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行 二次聚類根據(jù)本發(fā)明的另一方面,提供了一種數(shù)據(jù)聚類裝置。該數(shù)據(jù)聚類裝置包括初始聚 類模塊,用于對多個數(shù)據(jù)樣本進(jìn)行初始聚類;標(biāo)注對象選取模塊,用于根據(jù)初始聚類的結(jié)果 選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象;標(biāo)注信息獲取模塊,用于獲取針對 所述標(biāo)注對象的標(biāo)注信息;及二次聚類模塊,用于將所述標(biāo)注信息作為約束信息對所述多 個數(shù)據(jù)樣本進(jìn)行二次聚類。根據(jù)本發(fā)明的另一方面,提供了一種文本分類方法。該文本分類方法包括統(tǒng)計文 本中的特殊字符,并根據(jù)統(tǒng)計結(jié)果判斷所述文本的語言類別。根據(jù)本發(fā)明的另一方面,提供了一種文本分類裝置。該文本分類裝置包括統(tǒng)計模 塊,用于統(tǒng)計文本中的特殊字符;以及分類模塊,用于根據(jù)統(tǒng)計結(jié)果來判斷所述文本的語言 類別。另外,本發(fā)明的實(shí)施例還提供了用于實(shí)現(xiàn)上述數(shù)據(jù)聚類方法和/或文本分類方法 的計算機(jī)程序。此外,本發(fā)明的實(shí)施例還提供了至少計算機(jī)可讀介質(zhì)形式的計算機(jī)程序產(chǎn)品,其 上記錄有用于實(shí)現(xiàn)上述數(shù)據(jù)聚類方法和/或文本分類方法的計算機(jī)程序代碼。
參照下面結(jié)合附圖對本發(fā)明實(shí)施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點(diǎn)和優(yōu)點(diǎn)。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似 的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。圖1是示出了根據(jù)本發(fā)明一個實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖;圖2是示出了根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖;圖3是示出了根據(jù)本發(fā)明一個實(shí)施例的文本分類方法的示意性流程圖;圖4是示出了根據(jù)本發(fā)明另一實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖;圖5-7分別是示出了根據(jù)本發(fā)明的實(shí)施例的文本分類方法的示意性流程圖;圖8-10分別是示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)聚類裝置的示意性框圖;圖11-12分別是示出了根據(jù)本發(fā)明的實(shí)施例的文本分類裝置的示意性框圖;以及圖13是示出了可用于實(shí)施根據(jù)本發(fā)明的實(shí)施例的計算機(jī)的示意性框圖。
具體實(shí)施例方式下面參照附圖來說明本發(fā)明的實(shí)施例。在本發(fā)明的一個附圖或一種實(shí)施方式中描 述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng) 當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知 的部件和處理的表示和描述。一些數(shù)據(jù)聚類方法采用完全自動化的手段對信息進(jìn)行管理,但是由于缺乏人工干 預(yù),聚類結(jié)果往往不能滿足用戶的需求。為了解決這個問題,出現(xiàn)了半監(jiān)督的聚類方法。半 監(jiān)督的聚類方法通常隨機(jī)地選取數(shù)據(jù)樣本對提供給用戶進(jìn)行標(biāo)注,并將用戶提供的標(biāo)注信 息作為數(shù)據(jù)聚類的約束條件。但是,在這些方法中,由于數(shù)據(jù)樣本是隨機(jī)選取的,往往會導(dǎo) 致大量的冗余標(biāo)注信息。另外,由于樣本選取的隨機(jī)性,也容易導(dǎo)致用戶標(biāo)注錯誤。下面描 述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)聚類方法。圖1示出了根據(jù)本發(fā)明一個實(shí)施例的數(shù)據(jù)聚類方法的示意性流程圖。在該方法中,首先對待處理的數(shù)據(jù)樣本進(jìn)行初始聚類,然后根據(jù)初始聚類的結(jié)果 選取一個或多個數(shù)據(jù)樣本作為標(biāo)注對象供用戶標(biāo)注,從而獲得用戶輸入的標(biāo)注信息。之后, 將所述標(biāo)注信息作為約束條件對數(shù)據(jù)樣本進(jìn)行再次聚類。如圖1所示,該數(shù)據(jù)聚類方法可 包括以下步驟106-112。在步驟106中,對多個數(shù)據(jù)樣本進(jìn)行初始聚類。為了描述方便,下文中也將這一步 驟稱為初始聚類步驟。該初始聚類步驟可以采用任何適當(dāng)?shù)木垲惙椒▽?shù)據(jù)樣本進(jìn)行聚類。在一個示例 中,出于效率的考慮,可以采用K均值(K-means)法。在其他示例中,還可以采用其他聚類 方法,如模糊C均值(Fuzzy C-means)算法、單連接算法(Single Link Algorithm)、完全算 法(CompleteAlgorithm)等等,這里不——列舉。通過所述初始聚類步驟,數(shù)據(jù)樣本被聚類成一個或多個初始簇。在步驟108中,根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個,作 為標(biāo)注對象,用于提供給用戶進(jìn)行標(biāo)注。這一步驟也稱為標(biāo)注對象選取步驟??梢岳枚喾N方法來選擇標(biāo)注對象。作為一個示例,可以在每個初始簇中隨機(jī)選 擇一個或多個數(shù)據(jù)樣本作為標(biāo)注對象。在另一示例中,考慮到通常情況下簇的邊緣點(diǎn)(即 位于簇的邊緣的數(shù)據(jù)樣本)是容易出錯的點(diǎn),因此,可以在每個初始簇中選擇距離簇的中心點(diǎn)較遠(yuǎn)的數(shù)據(jù)點(diǎn)(數(shù)據(jù)樣本)作為標(biāo)注對象,從而進(jìn)一步降低后續(xù)步驟中用戶標(biāo)注的出 錯概率。 下面給出選擇簇的邊緣點(diǎn)的一個示例性方法。首先,可利用下面的公式(1)來計 算簇的中心點(diǎn)的向量
權(quán)利要求
一種數(shù)據(jù)聚類方法,包括初始聚類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類;標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象;標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對象的標(biāo)注信息;及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
2.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法,其中,所述標(biāo)注對象選取步驟包括選擇在初 始聚類步驟中獲得的每一個初始簇的邊緣的數(shù)據(jù)樣本中的一個或者多個作為所述標(biāo)注對象。
3.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法,其中,所述標(biāo)注信息獲取步驟包括 將所述標(biāo)注對象提供給用戶,以得到用戶輸入的標(biāo)注信息。
4.根據(jù)權(quán)利要求1所述的數(shù)據(jù)聚類方法,其中,所述多個數(shù)據(jù)樣本是多個文本,并且在 所述初始聚類步驟之前,所述方法還包括向量化步驟根據(jù)所述多個文本的語言類別,將所述多個文本中的每一個轉(zhuǎn)換為空間向量表示。
5.根據(jù)權(quán)利要求4所述的數(shù)據(jù)聚類方法,其中,在所述向量化步驟之前,所述方法還包括統(tǒng)一編碼步驟將所述多個文本轉(zhuǎn)換為統(tǒng)一的編碼格式;語言分類步驟統(tǒng)計各文本中的特殊字符,并根據(jù)統(tǒng)計結(jié)果將所述多個文本分類成至 少兩個語言類別。
6.一種數(shù)據(jù)聚類裝置,包括初始聚類模塊,用于對多個數(shù)據(jù)樣本進(jìn)行初始聚類;標(biāo)注對象選取模塊,用于根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個 作為標(biāo)注對象;標(biāo)注信息獲取模塊,用于獲取針對所述標(biāo)注對象的標(biāo)注信息;及二次聚類模塊,用于將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
7.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置,其中,所述標(biāo)注對象選取模塊還被配置用于 選擇在所述初始聚類模塊獲得的每一個初始簇的邊緣的數(shù)據(jù)樣本中的一個或者多個作為所述標(biāo)注對象。
8.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置,其中,所述標(biāo)注信息獲取模塊還被配置用于 將所述標(biāo)注對象提供給用戶,以得到用戶輸入的標(biāo)注信息。
9.根據(jù)權(quán)利要求6所述的數(shù)據(jù)聚類裝置,其中,所述多個數(shù)據(jù)樣本是多個文本,所述數(shù) 據(jù)聚類裝置還包括向量化模塊,用于根據(jù)所述多個文本的語言類別,將所述多個文本中的每一個轉(zhuǎn)換為 空間向量表示。
10.根據(jù)權(quán)利要求9所述的數(shù)據(jù)聚類裝置,還包括統(tǒng)一編碼模塊,用于將所述多個文本轉(zhuǎn)換為統(tǒng)一的編碼格式;及 語言分類模塊,用于根據(jù)所述統(tǒng)一編碼模塊輸出的經(jīng)統(tǒng)一編碼的文本來統(tǒng)計各文本中的特殊字符,并根據(jù)統(tǒng)計結(jié)果將所述多個文本分類成至少兩個語言類別。
全文摘要
本發(fā)明提供了數(shù)據(jù)聚類方法和裝置。所述數(shù)據(jù)聚類方法可包括初始聚類步驟對多個數(shù)據(jù)樣本進(jìn)行初始聚類;標(biāo)注對象選取步驟根據(jù)初始聚類的結(jié)果選取所述多個數(shù)據(jù)樣本中的一個或多個作為標(biāo)注對象;標(biāo)注信息獲取步驟獲取針對所述標(biāo)注對象的標(biāo)注信息;及二次聚類步驟將所述標(biāo)注信息作為約束信息對所述多個數(shù)據(jù)樣本進(jìn)行二次聚類。
文檔編號G06F17/30GK101989289SQ200910161158
公開日2011年3月23日 申請日期2009年8月6日 優(yōu)先權(quán)日2009年8月6日
發(fā)明者于浩, 吳科, 夏迎炬 申請人:富士通株式會社