亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本聚類方法和裝置與流程

文檔序號:11950670閱讀:197來源:國知局
文本聚類方法和裝置與流程
本發(fā)明涉及語義分析
技術(shù)領(lǐng)域
,具體涉及一種文本聚類方法和裝置。
背景技術(shù)
:文本聚類作為一種對文本信息進行有效地組織、摘要和導(dǎo)航的重要手段,為越來越多的研究人員所關(guān)注。現(xiàn)有的文本聚類方式是將文本轉(zhuǎn)化成向量模型,然后基于文本中詞的字面含義進行聚類。然而,同樣的字面含義可能通過多種依存句法結(jié)構(gòu)表達出來,其中有的依存句法結(jié)構(gòu)比較常用,有的則比較冷門,現(xiàn)有的文本聚類方法無法在依存句法的層面上對文本進行聚類。例如“你是幾歲呢?”和“幾歲了呢你?”的字面含義相同,但二者卻有著不同的依存句法結(jié)構(gòu),且“你是幾歲呢?”的依存句法結(jié)構(gòu)比較常用。若采用現(xiàn)有的文本聚類方法,根本無法將以上兩個字面含義相同的文本在依存句法層面上進行區(qū)分和分類。由此可見,急需一種能在依存句法層面上實現(xiàn)文本聚類的方式。技術(shù)實現(xiàn)要素:有鑒于此,本發(fā)明實施例提供了一種文本聚類方法和裝置,解決了現(xiàn)有技術(shù)中的文本聚類方式在無法依存句法層面上實現(xiàn)文本聚類的問題。本發(fā)明一實施例提供的一種文本聚類方法,包括:識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系;將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼;計算文本庫中不同待聚類文本的句法編碼之間的相似度;以及根據(jù)相似度的計算結(jié)果對文本庫中的待聚類文本進行聚類。其中,所述識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系包括:識別每個待聚類文本中的詞語和詞語的詞性;基于每個待聚類文本中每個詞語的詞性識別詞語之間的依存句法關(guān)系。其中,所述識別每個待聚類文本中的詞語和詞語的詞性包括:識別一個待聚類文本中每個字的狀態(tài)值,其中所述狀態(tài)值為以下幾項中的一項:詞語開頭字、詞語中間字、詞語結(jié)尾字和獨立成詞;根據(jù)狀態(tài)值的識別結(jié)果將所述一個待聚類文本分成多個詞語;以及標(biāo)注所述一個待聚類文本中詞語的詞性。其中,所述標(biāo)注所述一個待聚類文本中詞語的詞性包括:基于已知詞語庫中已知詞語的文本內(nèi)容、已知詞語的使用位置信息以及已知詞語的詞性使用概率信息判斷所述一個待聚類文本中詞語的詞性。其中,采用依存句法分析方法識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系,其中所述依存句法分析方法包括以下幾項中的一項:神經(jīng)網(wǎng)絡(luò)依存句法方法、條件隨機場依存句法方法和最大熵依存句法方法。其中,在識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系之前,進一步包括:去掉所述待聚類文本中的句法分析無意義詞語和/或預(yù)設(shè)禁止詞。其中,所述將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼包括:每個待聚類文本中的每個依存句法關(guān)系對應(yīng)所述句法編碼中的至少一個字符;和/或?qū)⒚總€待聚類文本中存在的依存句法關(guān)系按照預(yù)設(shè)的轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。其中,所述將每個待聚類文本中存在的依存句法關(guān)系按照預(yù)設(shè)的轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼包括:將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;以及根據(jù)所述依存句法樹的至少一種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為至少一種句法編碼;或?qū)⒚總€待聚類文本中存在的依存句法關(guān)系按照從左到右或從右到左的單向轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。其中,所述樹遍歷方法包括以下幾項中的一種:前序遍歷方法、后序遍歷方法和中序遍歷方法。其中,所述計算文本庫中不同待聚類文本的句法編碼之間的相似度包括:計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離;根據(jù)所述編輯距離確定所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度。其中,當(dāng)所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼的字符長度相同時,所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度=1-編輯距離/其中任一個待聚類文本的句法編碼的字符長度;當(dāng)所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼的字符長度不同時,所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度=1-編輯距離/所述一個待聚類文本與另一個待聚類文本的句法編碼中較長的句法編碼的字符長度。其中,所述將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼包括:將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;以及根據(jù)所述依存句法樹的M種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為M種句法編碼,M為大于或等于2的整數(shù);其中,所述計算文本庫中待聚類文本的句法編碼之間的相似度包括:計算一個待聚類文本與另一個待聚類文本的M個基于同一種樹遍歷方法得出的兩個句法編碼之間的編輯距離;根據(jù)每個所述編輯距離得出所述基于同一種樹遍歷方法得出的兩個句法編碼之間的相似度;以及將得到的M個所述相似度取平均值以作為所述一個待聚類文本與所述另一個待聚類文本之間的相似度。其中,所述計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離包括:采用動態(tài)規(guī)劃方法計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離。其中,所述根據(jù)相似度的計算結(jié)果對文本庫中的待聚類文本進行聚類包括:根據(jù)相似度的計算結(jié)果,采用密度聚類方法對文本庫中的待聚類文本進行聚類。其中,所述根據(jù)相似度的計算結(jié)果,采用密度聚類方法對文本庫中的待聚類文本進行聚類包括:將每個待聚類文本轉(zhuǎn)化為向量空間中的點;在向量空間中確定一個密度聚類中心點,其中所述密度聚類中心點的局部密度大于周圍的鄰居點,且所述密度聚類中心點距離更高局部密度的點的距離大于第一預(yù)設(shè)值或所述密度聚類中心點擁有最大的局部密度;以及將與所述密度聚類中心點所對應(yīng)待聚類文本的句法編碼的相似度大于預(yù)設(shè)閾值的待聚類文本歸為一個聚類。其中,所述密度聚類中心點的局部密度大于第二預(yù)設(shè)值;或所述密度聚類中心點的局部密度與所述密度聚類中心點距離更高局部密度的點的距離的乘積大于第三預(yù)設(shè)值。其中,所述方法進一步包括:將密度聚類中心點的局部密度高于第一密度閾值的聚類中所包括的待聚類文本定義為熱門句法;和/或?qū)⒚芏染垲愔行狞c的局部密度低于第二密度閾值的聚類中所包括的待聚類文本定義為冷門句法。其中,所述方法進一步包括:隨時間順序更新所述文本庫中的待聚類文本;以及對比更新后的待聚類文本的聚類結(jié)果與更新前的待聚類文本的聚類結(jié)果,將更新后新出現(xiàn)的文本聚類定義為新句法聚類,和/或?qū)⒏潞笙У奈谋揪垲惗x為過氣句法聚類待聚類文本的聚類結(jié)果待聚類文本的聚類結(jié)果。本發(fā)明一實施例還提供一種文本聚類裝置,包括:依存句法分析模塊,配置為識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系;句法編碼模塊,配置為將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼;相似度計算模塊,配置為計算文本庫中不同待聚類文本的句法編碼之間的相似度;以及聚類模塊,根據(jù)所述相似度計算模塊的計算結(jié)果對文本庫中的待聚類文本進行聚類。其中,所述依存句法分析模塊包括:分詞單元,配置為識別文本庫中每個待聚類文本中的詞語和詞語的詞性;以及識別單元,配置為基于每個待聚類文本中每個詞語的詞性識別詞語之間的依存句法關(guān)系。其中,所述裝置進一步包括:過濾模塊,配置為在識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系之前,去掉所述待聚類文本中的句法分析無意義詞語和/或預(yù)設(shè)禁止詞。其中,所述句法編碼模塊進一步配置為,所述預(yù)設(shè)轉(zhuǎn)化方法包括:每個待聚類文本中的每個依存句法關(guān)系對應(yīng)所述句法編碼中的至少一個字符;和/或?qū)⒚總€待聚類文本中存在的依存句法關(guān)系按照預(yù)設(shè)的轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。其中,所述句法編碼模塊包括:依存句法樹構(gòu)建單元,配置為將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;以及遍歷編碼單元,配置為根據(jù)所述依存句法樹的至少一種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為至少一種句法編碼;或所述句法編碼模塊進一步配置為:將每個待聚類文本中存在的依存句法關(guān)系按照從左到右或從右到左的單向轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。其中,所述相似度計算模塊包括:編輯距離計算單元,配置為計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離;以及相似度計算單元,配置為根據(jù)所述編輯距離計算單元的計算結(jié)果確定所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度。其中,所述句法編碼模塊包括:依存句法樹構(gòu)建單元,配置為將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;以及遍歷編碼單元,配置為根據(jù)所述依存句法樹的M種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為M種句法編碼,M為大于或等于2的整數(shù);其中,所述相似度計算模塊的編輯距離計算單元進一步配置為:計算一個待聚類文本與另一個待聚類文本的M個基于同一種樹遍歷方法得出的兩個句法編碼之間的編輯距離;所述相似度計算單元進一步配置為,根據(jù)每個所述編輯距離得出所述基于同一種樹遍歷方法得出的兩個句法編碼之間的相似度;以及將得到的M個所述相似度取平均值以作為所述一個待聚類文本與所述另一個待聚類文本之間的相似度。其中,所述聚類模塊進一步配置為:根據(jù)相似度的計算結(jié)果,采用密度聚類方法對文本庫中的待聚類文本進行聚類。其中,所述聚類模塊包括:轉(zhuǎn)化單元,配置為將每個待聚類文本轉(zhuǎn)化為向量空間中的點;密度聚類中心點獲取單元,配置為在向量空間中確定一個密度聚類中心點,其中所述密度聚類中心點的局部密度大于周圍的鄰居點,且所述密度聚類中心點距離更高局部密度的點的距離大于第一預(yù)設(shè)值或所述密度聚類中心點擁有最大的局部密度;以及聚類處理單元,配置為將與所述密度聚類中心點所對應(yīng)待聚類文本的句法編碼的相似度大于預(yù)設(shè)閾值的待聚類文本歸為一個聚類。其中,所述聚類模塊進一步配置為:將密度聚類中心點的局部密度高于第一密度閾值的聚類中所包括的待聚類文本定義為熱門句法;和/或?qū)⒚芏染垲愔行狞c的局部密度低于第二密度閾值的聚類中所包括的待聚類文本定義為冷門句法。其中,所述裝置進一步包括:更新模塊,配置為隨時間順序更新所述文本庫中的待聚類文本;以及對比模塊,配置為對比更新后的待聚類文本的聚類結(jié)果與更新前的待聚類文本的聚類結(jié)果,將更新后新出現(xiàn)的文本聚類定義為新句法聚類,和/或?qū)⒏潞笙У奈谋揪垲惗x為過氣句法聚類待聚類文本的聚類結(jié)果待聚類文本的聚類結(jié)果。本發(fā)明實施例提供的一種文本聚類方法和裝置,首先識別待聚類文本中詞語之間的依存句法關(guān)系,并將所識別出的依存句法關(guān)系轉(zhuǎn)化成句法編碼形式,再通過對比不同待聚類文本的句法編碼之間的相似度,實現(xiàn)了對不同待聚類文本在依存句法層面上的聚類。附圖說明圖1所示為本發(fā)明一實施例提供的一種文本聚類方法的流程示意圖。圖2所示為本發(fā)明一實施例提供的一種文本聚類方法中識別待聚類文本中詞語之間的依存句法關(guān)系的流程示意圖。圖3所示為本發(fā)明一實施例提供的一種文本聚類方法中識別待聚類文本中詞語和詞性的流程示意圖。圖4所示為本發(fā)明一實施例提供的一種文本聚類方法中將依存句法關(guān)系轉(zhuǎn)化為句法編碼的流程示意圖。圖5所示為本發(fā)明一實施例提供的一種依存句法樹的結(jié)構(gòu)示意圖。圖6所示為本發(fā)明一實施例提供的一種文本聚類方法中計算待聚類文本的句法編碼之間的相似度的流程示意圖。圖7所示為本發(fā)明另一實施例提供的一種文本聚類方法中計算待聚類文本的句法編碼之間的相似度的流程示意圖。圖8所示為本發(fā)明另一實施例提供的一種文本聚類方法中采用密度聚類方法對文本庫中的待聚類文本進行聚類的流程示意圖。圖9所示為本發(fā)明一實施例提供的一種文本聚類裝置的結(jié)構(gòu)示意圖。圖10所示為本發(fā)明另一實施例提供的一種文本聚類裝置的結(jié)構(gòu)示意圖。具體實施方式下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。圖1所示為本發(fā)明一實施例提供的一種文本聚類方法的流程示意圖。如圖1所示,該文本聚類方法包括:步驟101:識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系。具體而言,每個待聚類文本是由詞語構(gòu)成的,不同的詞語之間存在一定的依存句法關(guān)系,而這些待聚類文本中詞語之間的依存句法關(guān)系正是進行后續(xù)文本聚類的依據(jù)。在本發(fā)明一實施例中,用于識別這些依存句法關(guān)系的依存句法分析方法可采用以下幾項中的一項:神經(jīng)網(wǎng)絡(luò)依存句法方法、條件隨機場(CRF)依存句法方法和最大熵依存句法方法。為了便于理解,下面以文本庫包括“你是幾歲呢”、“幾歲了呢你”以及“你有照片嗎”三個待聚類文本為例進行闡述,該三個待聚類文本以一定的依存句法分析方法得出的結(jié)果如下表所示。如上表所示,三個待聚類文本中的每個待聚類文本由不同的詞語構(gòu)成,例如“你有照片嗎”就是由“你”、“有”、“照片”和“嗎”幾個詞語構(gòu)成。同時,每個待聚類文本中的詞語之間存在著一定的依存句法關(guān)系,其中依存編號列的內(nèi)容則為與當(dāng)前行的詞語存在依存句法關(guān)系的詞語編號,依存句法關(guān)系則為具體的依存句法關(guān)系內(nèi)容。例如“照片”的依存編號為2,則說明“照片”與編號為2的“有”存在動賓關(guān)系。依存編號為0的詞語為待聚類文本的核心詞語,不與其他詞語存在依存句法關(guān)系。在本發(fā)明一實施例中,待聚類文本中詞語之間的依存句法關(guān)系的識別是基于詞語的詞性進行的,具體而言,如圖2所示,該依存句法關(guān)系的識別過程可包括:步驟1011:識別每個待聚類文本中的詞語和詞語的詞性。步驟1012:基于每個待聚類文本中每個詞語的詞性識別詞語之間的依存句法關(guān)系。即,先要將由連續(xù)的字組成的待聚類文本分成具備各自詞性的詞語,才能基于這些詞語的詞性確定詞語之間的依存句法關(guān)系。在一進一步實施例中,如圖3所示,步驟1011中詞語和詞性的識別過程可具體通過如下步驟進行:步驟10111:識別一個待聚類文本中每個字的狀態(tài)值,其中狀態(tài)值為以下幾項中的一項:詞語開頭字、詞語中間字、詞語結(jié)尾字和獨立成詞。在本發(fā)明一實施例中,每個字狀態(tài)值的識別過程可具體通過維特比(Viterbi)方法完成。例如一個內(nèi)容為“你有自行車嗎”的待聚類文本中包含了六個字,若以S代表獨立成詞、以B代表詞語開頭字、以M代表詞語中間字,以E代表詞語結(jié)尾字,則“你有自行車嗎”所對應(yīng)的狀態(tài)值組合為SSBMES。步驟10112:根據(jù)狀態(tài)值的識別結(jié)果將該一個待聚類文本分成多個詞語。具體而言,將獨立成詞的字分成一個獨立詞語,將一個詞語開頭字、一個詞語結(jié)尾字、以及該詞語開頭字和詞語結(jié)尾字之間的詞語中間字分成一個詞語。例如,SSBMES的分詞結(jié)果就可為S/S/BME/S,即“你有自行車嗎”可被分成“你”、“有”、“自行車”和“嗎”幾個詞語。步驟10113:標(biāo)注該一個待聚類文本中詞語的詞性。在本發(fā)明一實施例中,可基于已知的詞語庫標(biāo)注該一個待聚類文本中詞語的詞性,具體而言,可基于該已知詞語庫中已知詞語的文本內(nèi)容、已知詞語的使用位置信息以及已知詞語的詞性使用概率信息可判斷出該一個待聚類文本中詞語的詞性。例如,在已知的詞語庫中“自行車”是一個名詞,則可將“自行車”標(biāo)注為名詞,以此類推“你”字可標(biāo)注為代詞,“有”字可標(biāo)注為動詞,“嗎”字可標(biāo)注為語氣詞。這樣根據(jù)這些詞語的詞性便可確定詞語之間的依存句法關(guān)系,例如“你”作為代詞,后面緊接的一個動詞“有”,則“你”和“有”之間就被認為存在主謂關(guān)系。應(yīng)當(dāng)理解,在本發(fā)明的其他實施例中,待聚類文本中詞語之間的依存句法關(guān)系也可不依據(jù)詞語的詞性進行識別,例如還可通過提前的預(yù)學(xué)習(xí)過程識別,本發(fā)明對待聚類文本中依次句法關(guān)系識別的具體過程并不做限定。步驟102:將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼。即,每個待聚類文本中存在的依存句法關(guān)系都通過一個句法編碼表征。在本發(fā)明一實施例中,可按照預(yù)設(shè)的轉(zhuǎn)化方法將待聚類文本中的依存句法關(guān)系轉(zhuǎn)化為句法編碼,該預(yù)設(shè)的轉(zhuǎn)化方法可包括:每個依存句法關(guān)系對應(yīng)句法編碼中的至少一個字符。這樣在識別一個待聚類文本中的依存句法關(guān)系并轉(zhuǎn)化為句法編碼后,該待聚類文本的句法編碼是由依存句法關(guān)系所各自對應(yīng)的字符構(gòu)成。在本發(fā)明另一實施例中,該預(yù)設(shè)轉(zhuǎn)化方法還可包括:將每個待聚類文本中存在的依存句法關(guān)系按照預(yù)設(shè)的轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。例如,按照從左到右或從右到左的單向轉(zhuǎn)化順序?qū)⒋垲愇谋局写嬖诘囊来婢浞P(guān)系轉(zhuǎn)化為句法編碼。應(yīng)當(dāng)理解,雖然每個依存句法關(guān)系可對應(yīng)句法編碼中的多個字符,但在計算資源有限的情況下有時并不是十分必要,因為在后續(xù)的不同待聚類文本句法編碼的相似度計算過程中,句法編碼的字符長度越短,相似度對比的計算量越小,計算資源的負擔(dān)越小,計算效率越高。因此,在本發(fā)明一進一步實施例中,每個依存句法關(guān)系僅對應(yīng)句法編碼中的一個字符。例如“幾歲了呢你”這句待聚類文本,以“歲”為核心詞語存在如下依存句法關(guān)系:定中關(guān)系、右附加關(guān)系、右附加關(guān)系和并列關(guān)系。若以字符F代表定中關(guān)系、以字符L代表有附加關(guān)系并以字符I代表并列關(guān)系,則“幾歲了呢你”按從左到右的單向轉(zhuǎn)化順序得出的句法編碼為FLLI。同理可得出“你是幾歲呢”和“你有照片嗎”的句法編碼可分別為AFBL和ABL,其中A代表主謂關(guān)系、B代表動賓關(guān)系。由于常見的依存句法關(guān)系種類有限,并未超過26種,因此在上述實施例描述中采用英文字母就足以表示常見的依存句法關(guān)系了,每種依存句法關(guān)系可對應(yīng)一個英文字母。但同時應(yīng)當(dāng)理解,用于表示依存句法關(guān)系的字符可由開發(fā)人員自定義,例如也可采用除英文字母外的其他字符,只要不同的依存句法關(guān)系對應(yīng)不同的字符即可,本發(fā)明對具體所采用的字符以及這些字符與依存句法關(guān)系的對應(yīng)關(guān)系并不做限定。本發(fā)明對句法編碼轉(zhuǎn)化的預(yù)設(shè)轉(zhuǎn)化方法的具體內(nèi)容同樣不做限定。此外還應(yīng)當(dāng)理解,雖然上述描述中在將待聚類文本中依存句法關(guān)系轉(zhuǎn)化為句法編碼時采用了簡單的從左到右的單向轉(zhuǎn)化順序,但對于內(nèi)容較為復(fù)雜的待聚類文本,這種簡單的單向轉(zhuǎn)化順序可能并不適用,原因在于內(nèi)容較為復(fù)雜的待聚類文本中所存在的依存句法關(guān)系也較為復(fù)雜,不同的依存句法關(guān)系之間甚至可能存在嵌套的邏輯關(guān)系。為了解決這一問題,本發(fā)明一實施例提供了一種基于樹結(jié)構(gòu)將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼的方法。如圖4所示,該方法包括如下步驟:步驟1021:將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹。由于復(fù)雜的待聚類文本中所存在的依存句法關(guān)系也較為復(fù)雜,因此將這些依存句法關(guān)系轉(zhuǎn)化成依存句法樹可清楚明確的表示不同依存句法關(guān)系之間的邏輯關(guān)系,樹結(jié)構(gòu)中的每個結(jié)點對應(yīng)一個詞語,結(jié)點之間的連接線代表詞語之間的依存句法關(guān)系。例如,“幾歲了呢你”中存在的依存句法關(guān)系所轉(zhuǎn)化成依存句法樹結(jié)構(gòu)可如圖5所示,其中的Root為根節(jié)點,HED為根節(jié)點與核心詞語之間的樹結(jié)構(gòu)關(guān)系,ATT為定中關(guān)系,RAD為右附加關(guān)系,COO為并列關(guān)系。由于的待聚類文本中都會存在一個核心詞語,因此核心詞語與根節(jié)點之間的樹結(jié)構(gòu)關(guān)系HED可不納入句法編碼中。步驟1022:根據(jù)依存句法樹的至少一種樹遍歷方法將該一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為至少一種句法編碼。由于依存句法樹的樹結(jié)構(gòu)可存在多種樹遍歷方法,例如前序遍歷方法、后序遍歷方法和中序遍歷方法等,因此當(dāng)依存句法樹的結(jié)構(gòu)比較復(fù)雜時,根據(jù)不同的樹遍歷方法所轉(zhuǎn)化成的句法編碼也會有所不同。但當(dāng)依存句法樹的結(jié)構(gòu)比較簡單時,根據(jù)不同樹遍歷方法所轉(zhuǎn)化成的句法編碼也可能會相同。例如,如圖5所示的依存句法樹的結(jié)構(gòu)就比較簡單,僅包括除Root根節(jié)點外的一層結(jié)點,即ATT、RAD、RAD和COO都位于同一結(jié)點層,因此在同一結(jié)點層中無論是采用前序遍歷方法還是后序遍歷方法都是按照從左到右的順序遍歷,因此按照前序遍歷方法或后序遍歷方法所得到的遍歷編碼都為ATT-RAD-RAD-COO。若以字符F代表定中關(guān)系、以字符L代表有附加關(guān)系并以字符I代表并列關(guān)系,則后序遍歷編碼ATT-RAD-RAD-COO簡化后的句法編碼為FLLI,前序遍歷編碼簡化后的句法編碼也為FLLI。簡化后的句法編碼中的每個字符對應(yīng)一個依存句法關(guān)系。步驟103:計算文本庫中不同待聚類文本的句法編碼之間的相似度。應(yīng)當(dāng)理解,這里所述的不同待聚類文本是不同的待聚類文本個體,而并非文本內(nèi)容上的不同。在得到了所有待聚類文本各自的句法編碼后,便可將這些句法編碼的字符進行對比以計算不同待聚類文本的句法編碼之間的相似度,而相似度的計算結(jié)果便為后續(xù)進行文本聚類的直接依據(jù)。仍以上面提到的三個待聚類文本為例,“你是幾歲呢”、“幾歲了呢你”和“你有照片嗎”分別對應(yīng)的句法編碼為AFBL、FLLI和ABL。從直觀的觀察就可看出,其中AFBL和ABL的字符內(nèi)容的相似度較高,這就說明AFBL和ABL所對應(yīng)的待聚類文本“你是幾歲呢”和“你有照片嗎”擁有較為相似依存句法結(jié)構(gòu),這樣在后續(xù)的聚類過程中“你是幾歲呢”與“你有照片嗎”就很可能被歸為一類。然而,對于相對復(fù)雜的待聚類文本內(nèi)容是無法通過直觀的觀察就得出相似度計算結(jié)果的。因此在實際的相似度計算過程中,仍是要通過一定的相似度計算方法完成不同待聚類文本各自句法編碼之間的相似度計算過程。在本發(fā)明一實施例中,可通過動態(tài)規(guī)劃方法的方式實現(xiàn)上述的相似度計算過程。具體而言,如圖6所示,可包括如下的兩個步驟:步驟1031:計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離。編輯距離是指一個字符串轉(zhuǎn)成另一個字符串所需的最少編輯操作次數(shù)。許可的編輯操作包括將一個字符替換成另一個字符,插入一個字符,刪除一個字符。一般來說,編輯距離越大,兩個字符串的相似度越低。若以edit(i,j)表示第一個長度為i個字符的字符串到另一個的長度為j個字符的字符串的編輯距離,則編輯距離的動態(tài)規(guī)劃公式可表示如下:ifi==0且j==0,edit(i,j)=0;ifi==0且j>0,edit(i,j)=j(luò);ifi>0且j==0,edit(i,j)=i;ifi≥1且j≥1,edit(i,j)==min{edit(i-1,j)+1,edit(i,j-1)+1,edit(i-1,j-1)+f(i,j)},其中,當(dāng)?shù)谝粋€字符串的第i個字符不等于第二個字符串的第j個字符時,f(i,j)=1;否則,f(i,j)=0。例如,若要計算“你是幾歲呢”和“你有照片嗎”各自句法編碼AFBL和ABL之間的相似度,根據(jù)上述動態(tài)規(guī)劃公式可得到以下矩陣:00AFBL001234A10123B21112L32221其中,矩陣的第一行和第一列分別表示用于計算編輯距離的兩個字符串,第一行靠左的第二個0表示橫向的字符串為零的情況,第一列靠上的第二個零表示縱向的字符串為零的情況,矩陣左上角的0僅用作矩陣補位。矩陣中的數(shù)字為相應(yīng)橫向的字符串與縱向的字符串之間的編輯距離。例如,由于橫向零字符串與縱向零字符串之間的編輯距離為零,故矩陣的第二行靠左的第二個值為0;由于字符串“A”轉(zhuǎn)成縱向零字符串僅需要1次字符插入操作,故第二行靠左的第三個值為1;橫向字符串“AFBL”轉(zhuǎn)成縱向字符串“AB”需要2次字符刪除操作,因此第四行最右端的數(shù)值為2。以此類推,可得出“AFBL”和“ABL”之間的編輯距離為矩陣最后一行的最后一個數(shù)值:1。若要計算“你是幾歲呢”和“幾歲了呢你”各自句法編碼AFBL和FLLI之間的相似度,則根據(jù)上述動態(tài)規(guī)劃公式可得到以下矩陣:00AFBL001234F11123L22222L33332I44445這樣得出AFBL和FLLI之間的編輯距離則為矩陣最后一行的最后一個數(shù)值:3。步驟1032:根據(jù)編輯距離確定該一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度。編輯距離的值越大,該一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度越低。如前所述,兩個字符串之間的編輯距離越大,二者的相似度越低,但對于相似度的具體數(shù)值量化方式可由開發(fā)者自行定義,本發(fā)明對相似度的具體數(shù)值量化方式不做限定。在本發(fā)明一實施例中,考慮到兩個文本的句法編碼之間編輯距離的最大值是由其中較長的句法編碼的字符長度決定的,因此當(dāng)兩個文本的句法編碼的字符長度不同時,該兩個文本的句法編碼之間的相似度的數(shù)值量化方式可為1-編輯距離/(該兩個文本的句法編碼中較長的句法編碼的字符長度)。例如,“你是幾歲呢”和“你有照片嗎”各自句法編碼AFBL和ABL的相似度可量化定義為1-編輯距離/“你是幾歲呢”和“幾歲了呢你”的中較長句法編碼的字符長度,即1-1/4=0.75。而當(dāng)兩個文本的句法編碼長度相同時,則二者之間的相似度可為1-編輯距離/(該兩個文本中任一個的句法編碼的字符長度)。以此類推可得出“你是幾歲呢”、“幾歲了呢你”和“你有照片嗎”分別對應(yīng)的句法編碼AFBL、FLLI和ABL之間兩兩對比的相似度結(jié)果,如下表所示。相似度對比項相似度數(shù)值(你是幾歲呢,AFBL),(幾歲了呢你,F(xiàn)LLI)0.25(你是幾歲呢,AFBL),(你有照片嗎,ABL)0.75(幾歲了呢你,F(xiàn)LLI),(你有照片嗎,ABL)0.25在本發(fā)明一實施例中,若文本庫中待聚類文本的句法編碼為基于依存句法樹的M個樹遍歷方法轉(zhuǎn)化而來(M為大于或等于2的整數(shù)),則一個待聚類文本可能會對應(yīng)由M個樹遍歷方法得出的M個句法編碼。由于基于不同種樹遍歷方法得出的兩個待聚類文本的句法編碼之間不具備相似度可比性,因此如圖7所示,本發(fā)明一實施例提供一種計算文本庫中待聚類文本的句法編碼之間的相似度的方法,包括:步驟1031’:計算一個待聚類文本與另一個待聚類文本的M個基于同一種樹遍歷方法得出的兩個句法編碼之間的編輯距離。步驟1032’:根據(jù)每個所述編輯距離得出所述基于同一種樹遍歷方法得出的兩個句法編碼之間的相似度。步驟1033’:將得到的M個所述相似度取平均值以作為所述一個待聚類文本與所述另一個待聚類文本之間的相似度。例如,待聚類文本A基于L1樹遍歷方法得出的句法編碼為A1,基于L2樹遍歷方法得出的句法編碼為A2;待聚類文本B基于L1樹遍歷方法得出的句法編碼為B1,基于L2樹遍歷方法得出的句法編碼為B2。當(dāng)要計算待聚類文本A與待聚類文本B之間句法編碼的相似度時,首先要計算A1和B1之間的相似度Q1,因為A1和B1是基于同一種樹遍歷方法L1得出的,基于不同種樹遍歷方法得出的兩個句法編碼沒有可比性;然后計算A2和B2之間的相似度Q2;最后取Q1和Q2的平均值作為待聚類文本A和待聚類文本B之間句法編碼的相似度。這樣可保證兩個待聚類文本的每個相似度的計算結(jié)果都是基于同一種樹遍歷方法得出,且最終得到的相似度平均值是基于所有樹遍歷方法得出的,相似度的最終計算結(jié)果更為全面和準(zhǔn)確。步驟104:根據(jù)相似度的計算結(jié)果對文本庫中的待聚類文本進行聚類。根據(jù)文本庫中所有待聚類文本各自句法編碼之間的相似度計算結(jié)果便可對待聚類文本在依存句法層面上進行聚類,兩個待聚類文本的句法編碼之間的相似度越高,該兩個待聚類文本歸為一類的可能性就越大。以上面提到的三個待聚類文本為例,由于“你是幾歲呢”與“你有照片嗎”的句法編碼的相似度較高,因此“你是幾歲呢”、“幾歲了呢你”和“你有照片嗎”三者在依存句法層面上的聚類結(jié)果可如下表所示:聚類編號待聚類文本內(nèi)容句法編碼Cluster_0你有照片嗎ABLCluster_0你是幾歲呢AFBLCluster_1幾歲了呢你FLLI在本發(fā)明一實施例中,可根據(jù)相似度的計算結(jié)果,采用密度聚類方法對文本庫中的待聚類文本進行聚類。具體而言,如圖8所示,該密度聚類方法可包括如下步驟:步驟1041:將每個待聚類文本轉(zhuǎn)化為向量空間中的點。待聚類文本為文本信息形式,為了進行后續(xù)的密度聚類處理,需要將處于文本信息形式的待聚類文本轉(zhuǎn)化為可進行數(shù)學(xué)處理的結(jié)構(gòu)形式,將每個待聚類文本轉(zhuǎn)化為向量空間中的點,即每個待聚類文本對應(yīng)向量空間中的一個點。應(yīng)當(dāng)理解,具體的轉(zhuǎn)換形式可采用向量空間模型(VSM:VectorSpaceModel)實現(xiàn),在此不再贅述。步驟1042:在向量空間中確定一個密度聚類中心點,其中密度聚類中心點的局部密度大于周圍的鄰居點,且密度聚類中心點距離更高局部密度的點的距離大于第一預(yù)設(shè)值。該第一預(yù)設(shè)值的具體大小可由開發(fā)人員根據(jù)實際需要調(diào)整,本發(fā)明對此不做限定。具體而言,密度聚類中心點可通過如下方法獲得:(1)當(dāng)前點i的局部密度ρi公式:ρi=Σj∈IS\{i}χ(dij-dc)]]>χ(x)=1,x<00,x≥0]]>其中,dij表示點j距離當(dāng)前點i的距離;dc表示截斷距離,可由開發(fā)者自定義;由此可見,局部密度ρi所表示的其實是距離當(dāng)前點i的距離在截斷距離之內(nèi)的點的數(shù)量,通過該數(shù)量來描述當(dāng)前點i的局部密度。(2)當(dāng)前點到具有更高局部密度的點的距離δi公式:假設(shè)表示的一個降序排列下標(biāo)序,即將按照降序排列,為按照降序排列后的下標(biāo)排序,即滿足:ρq1≥ρq2≥L≥ρqN]]>此時,所對應(yīng)的點具有最大的局部密度,所對應(yīng)的點的局部密度也肯定大于周圍的鄰居點,因此可被直接確定為一個密度聚類中心點;若所對應(yīng)的點的局部密度也大于周圍的鄰居點,且所對應(yīng)的點距離更高局部密度的點的距離都大于第一預(yù)設(shè)值,即大于第一預(yù)設(shè)值,則說明所對應(yīng)的點也為一個密度聚類中心點。在本發(fā)明一實施例中,考慮到文本庫中可能存在一些無意義文本甚至錯誤的文本,這些文本轉(zhuǎn)化到向量空間后所對應(yīng)的點是孤立的異常點,那么即使這些孤立的點距離更高局部密度的點的距離也大于第一預(yù)設(shè)值,也并不需要把這些孤立的異常點作為一個單獨的聚類。為了過濾掉這些孤立的異常點的聚類,可以設(shè)置為當(dāng)前點的ρi的值也較大時,才將當(dāng)前點作為密度聚類中心點。密度聚類中心點的局部密度ρi的衡量辦法可包括:密度聚類中心點的局部密度大于第二預(yù)設(shè)值;或密度聚類中心點的局部密度與所述密度聚類中心點距離更高局部密度的點的距離的乘積大于第三預(yù)設(shè)值。但應(yīng)當(dāng)理解,上述第二預(yù)設(shè)值和第三預(yù)設(shè)值的具體大小以及密度聚類中心點的局部密度ρi的衡量辦法均可由開發(fā)人員自定義,本發(fā)明對此不做限定。步驟1043:將與密度聚類中心點所對應(yīng)待聚類文本的句法編碼的相似度大于預(yù)設(shè)閾值的待聚類文本歸為一個聚類。應(yīng)當(dāng)理解,該相似度的預(yù)設(shè)閾值的大小也可由開發(fā)人員根據(jù)實際需要調(diào)整,本發(fā)明對此同樣不做限定。在本發(fā)明一實施例中,當(dāng)采用密度聚類方法對文本庫中的待聚類文本進行聚類時,可將密度聚類中心點的局部密度高于第一密度閾值的聚類中所包括的待聚類文本定義為熱門句法,將密度聚類中心點的局部密度低于第二密度閾值的聚類中所包括的待聚類文本定義為冷門句法。例如在日常生活中當(dāng)問及年齡問題時,常見的熱門句法為“你是幾歲呢?”,而“幾歲了呢你”則為很少被人使用的冷門句法,這與本發(fā)明上述實施例所得出的文本聚類結(jié)果也是相對應(yīng)的。應(yīng)當(dāng)理解,用于確定熱門句法和冷門句法的第一密度閾值和第二密度閾值的具體大小可由開發(fā)人員根據(jù)實際需要調(diào)整,本發(fā)明對此同樣不做限定。在本發(fā)明一實施例中,考慮到社會語言環(huán)境的不斷豐富,還可隨時間順序更新文本庫中的待聚類文本來得到具有新的依存句法的文本聚類,例如定期更新網(wǎng)絡(luò)熱門用語和新聞熱點用語,然后對比更新后的待聚類文本的聚類結(jié)果與更新前的待聚類文本的聚類結(jié)果,將更新后新出現(xiàn)的文本聚類定義為新句法聚類,和/或?qū)⒏潞笙У奈谋揪垲惗x為過氣句法聚類,從而使得文本聚類結(jié)果能夠體現(xiàn)社會語言環(huán)境的更新趨勢。例如,更新前的文本庫為基于2015年獲取的文本所生成,將該2015年的文本庫中的文本作為待聚類文本按照本發(fā)明實施例所提供的文本聚類方法得到了A、B、C、D四個聚類(分別對應(yīng)4種句法類型);當(dāng)時間到達2016年底時,文本庫中包含了2015年和2016年兩年時間內(nèi)獲取的文本內(nèi)容,此時可將2016年獲取的文本作為待聚類文本按照本發(fā)明實施例所提供的文本聚類方法得到B、C、D、E四個聚類;通過對比2015年的待聚類文本的聚類結(jié)果和2016年的待聚類文本的聚類結(jié)果,可知E聚類是2016年新出現(xiàn)的,所以說E聚類是2016年出現(xiàn)的新句法聚類,而A聚類在2016年的聚類結(jié)果中消失了,則說明A聚類為過氣句法聚類。應(yīng)當(dāng)理解,對于文本庫中的待聚類文本的更新機制可由開發(fā)人員根據(jù)實際需要進行調(diào)整,例如可在每次完成文本聚類后進行更新,也可定期更新,還可每次將文本庫更新為某一段時間內(nèi)獲取的待聚類文本,本發(fā)明對文本庫中的待聚類文本的具體更新機制并不做具體限定。應(yīng)當(dāng)理解,在本發(fā)明的其他實施例中,也可采用除密度聚類方法外的其他聚類方法對文本庫中的待聚類文本進行聚類,本發(fā)明對所采用的具體聚類方法并不做限定。在本發(fā)明另一實施例中,考慮到待聚類文本中的詞語可能存在句法分析無意義的詞語或預(yù)設(shè)禁止詞,例如疊字過多的詞語“哈哈哈哈哈”或不文明詞語等,因此在識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系之前,還可以去掉這些句法分析無意義詞語或預(yù)設(shè)禁止詞,以對待聚類文本中的詞語進行過濾。在一進一步實施例中,句法分析無意義詞語可被定義為已知詞語庫中所不包含的詞語。該已知詞語庫可通過預(yù)學(xué)習(xí)過程獲得。預(yù)設(shè)禁止詞可由開發(fā)者自定義,例如一些預(yù)設(shè)的敏感詞、不文明詞或停用詞等。然而,本發(fā)明對句法分析無意義詞語和預(yù)設(shè)禁止詞的具體內(nèi)容并不做限定。由此可見,通過采用本發(fā)明實施例提供的一種文本聚類方法,首先識別待聚類文本中詞語之間的依存句法關(guān)系,并將所識別出的依存句法關(guān)系轉(zhuǎn)化成句法編碼中的字符,再通過對比不同待聚類文本的句法編碼之間的相似度,實現(xiàn)了對不同待聚類文本在依存句法層面上的聚類,解決了現(xiàn)有技術(shù)中的文本聚類方式僅能實現(xiàn)基于文本字面含義進行聚類,而無法在依存句法的層面上進行聚類的問題。此外,還應(yīng)當(dāng)理解,本發(fā)明實施例所提供技術(shù)方案的有益效果還可體現(xiàn)在與基于字面含義的文本聚類的結(jié)合上。例如可將文本庫中的待聚類文本先基于字面含義進行一級文本聚類,然后再對一級文本聚類中的待聚類文本采用本發(fā)明實施例所提供的技術(shù)方案在依存句法層面上進行二級文本聚類,這樣便可得到字面含義相近的一級文本聚類中的熱門句法和冷門句法,從而實現(xiàn)了更細化的文本聚類,提高了最終文本聚類結(jié)果對文本信息的組織、摘要和導(dǎo)航的指導(dǎo)性。應(yīng)當(dāng)注意,盡管出于簡化說明的目的將本發(fā)明所述的方法表示和描述為一連串動作,但是應(yīng)理解和認識到要求保護的主題內(nèi)容將不受這些動作的執(zhí)行順序所限制,因為一些動作可以按照與這里示出和描述的順序不同的順序出現(xiàn)或者與其它動作并行地出現(xiàn),同時一些動作還可能包括若干子步驟,而這些子步驟之間可能出現(xiàn)時序上交叉執(zhí)行的可能。另外,可能并非所有圖示的動作是實施根據(jù)所附權(quán)利要求書所述的方法所必須的。再者,前述步驟的描述不排除該方法還可以包括可能取得附加效果的附加步驟。還應(yīng)當(dāng)理解,不同的實施方式或者流程中描述的方法步驟可以相互組合或者替換。圖9所示為本發(fā)明一實施例提供的一種文本聚類裝置90的結(jié)構(gòu)示意圖。如圖9所示,該文本聚類裝置90包括:依存句法分析模塊901,配置為識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系;句法編碼模塊902,配置為將每個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為句法編碼;相似度計算模塊903,配置為計算文本庫中不同待聚類文本的句法編碼之間的相似度;以及聚類模塊904,根據(jù)相似度計算模塊的計算結(jié)果對文本庫中的待聚類文本進行聚類。在本發(fā)明一實施例中,如圖10所示,該依存句法分析模塊901可包括:分詞單元9011,配置為識別文本庫中每個待聚類文本中的詞語和詞語的詞性;以及識別單元9012,配置為基于每個待聚類文本中每個詞語的詞性識別詞語之間的依存句法關(guān)系。在本發(fā)明一實施例中,句法編碼模塊902進一步配置為,所述預(yù)設(shè)轉(zhuǎn)化方法包括:每個待聚類文本中的每個依存句法關(guān)系對應(yīng)所述句法編碼中的至少一個字符;和/或?qū)⒚總€待聚類文本中存在的依存句法關(guān)系按照預(yù)設(shè)的轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。在本發(fā)明一實施例中,如圖10所示,句法編碼模塊902包括:依存句法樹構(gòu)建單元9021,配置為將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;以及遍歷編碼單元9022,配置為根據(jù)依存句法樹的至少一種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為至少一種句法編碼;或句法編碼模塊902進一步配置為:將每個待聚類文本中存在的依存句法關(guān)系按照從左到右或從右到左的單向轉(zhuǎn)化順序轉(zhuǎn)化為句法編碼。在本發(fā)明一實施例中,如圖10所示,相似度計算模塊903可包括:編輯距離計算單元9031,配置為計算一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的編輯距離;以及相似度計算單元9032,配置為根據(jù)編輯距離計算單元的計算結(jié)果確定一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度,其中編輯距離的值越大,所述一個待聚類文本的句法編碼與另一個待聚類文本的句法編碼之間的相似度越低。在本發(fā)明一實施例中,當(dāng)依存句法樹構(gòu)建單元9021配置為將一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化成依存句法樹;遍歷編碼單元9022配置為根據(jù)所述依存句法樹的M種樹遍歷方法將所述一個待聚類文本中存在的依存句法關(guān)系轉(zhuǎn)化為M種句法編碼,M為大于或等于2的整數(shù)時,編輯距離計算單元9031可進一步配置為:計算一個待聚類文本與另一個待聚類文本的M個基于同一種樹遍歷方法得出的兩個句法編碼之間的編輯距離。相似度計算單元9032可進一步配置為,根據(jù)每個所述編輯距離得出所述基于同一種樹遍歷方法得出的兩個句法編碼之間的相似度;以及將得到的M個所述相似度取平均值以作為所述一個待聚類文本與所述另一個待聚類文本之間的相似度。在本發(fā)明一實施例中,該文本聚類裝置90可進一步包括:過濾模塊,配置為在識別文本庫的每個待聚類文本中詞語之間的依存句法關(guān)系之前,去掉所述待聚類文本中的句法分析無意義詞語和/或預(yù)設(shè)禁止詞。在本發(fā)明一實施例中,聚類模塊904可進一步配置為:根據(jù)相似度的計算結(jié)果,采用密度聚類方法對文本庫中的待聚類文本進行聚類。如圖10所示,該聚類模塊904可包括:轉(zhuǎn)化單元9041,配置為將每個待聚類文本轉(zhuǎn)化為向量空間中的點;密度聚類中心點獲取單元9042,配置為在向量空間中確定一個密度聚類中心點,其中所述密度聚類中心點的局部密度大于周圍的鄰居點,且所述密度聚類中心點距離更高局部密度的點的距離大于第一預(yù)設(shè)值或所述密度聚類中心點擁有最大的局部密度;以及聚類處理單元9043,配置為將與所述密度聚類中心點所對應(yīng)待聚類文本的句法編碼的相似度大于預(yù)設(shè)閾值的待聚類文本歸為一個聚類。在一進一步實施例中,聚類模塊904可進一步配置為:將密度聚類中心點的局部密度高于第一密度閾值的聚類中所包括的待聚類文本定義為熱門句法;和/或?qū)⒚芏染垲愔行狞c的局部密度低于第二密度閾值的聚類中所包括的待聚類文本定義為冷門句法。在本發(fā)明一實施例中,該文本聚類裝置90可進一步包括:更新模塊,配置為隨時間順序更新所述文本庫中的待聚類文本;以及對比模塊,配置為對比更新后的待聚類文本的聚類結(jié)果與更新前的待聚類文本的聚類結(jié)果,將更新后新出現(xiàn)的文本聚類定義為新句法聚類,和/或?qū)⒏潞笙У奈谋揪垲惗x為過氣句法聚類。應(yīng)當(dāng)理解,上述實施例所提供的文本聚類裝置90中記載的每個模塊或單元都與前述的一個方法步驟相對應(yīng)。由此,前述的方法步驟描述的操作和特征同樣適用于裝置90及其中所包含的對應(yīng)的模塊和單元,重復(fù)的內(nèi)容在此不再贅述。本發(fā)明的教導(dǎo)還可以實現(xiàn)為一種計算機可讀存儲介質(zhì)的計算機程序產(chǎn)品,包括計算機程序代碼,當(dāng)計算機程序代碼由處理器執(zhí)行時,其使得處理器能夠按照本發(fā)明實施方式的方法來實現(xiàn)如本文實施方式所述的文本聚類方法。計算機存儲介質(zhì)可以為任何有形媒介,例如軟盤、CD-ROM、DVD、硬盤驅(qū)動器、甚至網(wǎng)絡(luò)介質(zhì)等。應(yīng)當(dāng)理解,雖然以上描述了本發(fā)明實施方式的一種實現(xiàn)形式可以是計算機程序產(chǎn)品,但是本發(fā)明的實施方式的方法或裝置可以被依軟件、硬件、或者軟件和硬件的結(jié)合來實現(xiàn)。硬件部分可以利用專用邏輯來實現(xiàn);軟件部分可以存儲在存儲器中,由適當(dāng)?shù)闹噶顖?zhí)行系統(tǒng),例如微處理器或者專用設(shè)計硬件來執(zhí)行。本領(lǐng)域的普通技術(shù)人員可以理解上述的方法和設(shè)備可以使用計算機可執(zhí)行指令和/或包含在處理器控制代碼中來實現(xiàn),例如在諸如磁盤、CD或DVD-ROM的載體介質(zhì)、諸如只讀存儲器(固件)的可編程的存儲器或者諸如光學(xué)或電子信號載體的數(shù)據(jù)載體上提供了這樣的代碼。本發(fā)明的方法和裝置可以由諸如超大規(guī)模集成電路或門陣列、諸如邏輯芯片、晶體管等的半導(dǎo)體、或者諸如現(xiàn)場可編程門陣列、可編程邏輯設(shè)備等的可編程硬件設(shè)備的硬件電路實現(xiàn),也可以用由各種類型的處理器執(zhí)行的軟件實現(xiàn),也可以由上述硬件電路和軟件的結(jié)合例如固件來實現(xiàn)。應(yīng)當(dāng)理解,盡管在上文的詳細描述中提及了裝置的若干模塊或單元,但是這種劃分僅僅是示例性而非強制性的。實際上,根據(jù)本發(fā)明的示例性實施方式,上文描述的兩個或更多模塊/單元的特征和功能可以在一個模塊/單元中實現(xiàn),反之,上文描述的一個模塊/單元的特征和功能可以進一步劃分為由多個模塊/單元來實現(xiàn)。此外,上文描述的某些模塊/單元在某些應(yīng)用場景下可被省略。例如當(dāng)不需要對文本庫進行更新或不需要過濾文本庫中的待聚類文本時,也可不包括更新模塊或過濾模塊。還應(yīng)當(dāng)理解,為了不模糊本發(fā)明的實施方式,說明書僅對一些關(guān)鍵、未必必要的技術(shù)和特征進行了描述,而可能未對一些本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)的特征做出說明以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1