本發(fā)明涉及文本分類領(lǐng)域,具體而言,涉及一種短文本分類方法和裝置。
背景技術(shù):
目前,由于短文本具有結(jié)構(gòu)松散、語法隨意、停用詞占比大等特點,針對于長文本的分類方法往往不適用?,F(xiàn)有的短文本分類技術(shù)方案主要根據(jù)短文本自身特點進(jìn)行特征擴充。比如,通過先借助分布表示,將短文本中的詞語利用語義相似模型投射到外部語料庫里,再利用上下文信息豐富短文本,其中,外部語料庫為大文本語料庫。這類短文本方法的分類精度雖然有一定的提升,但是只利用短文本自身特點進(jìn)行特征擴充存在很大的局限性。
圖1是根據(jù)相關(guān)技術(shù)中的短文本分類的示意圖,如圖1所示,短文本與短文本之間先用字符串編輯距離進(jìn)行計算,然后使用多維標(biāo)度分析(multidimensionalscaling,簡稱為mds)方法將短文本映射到維基語料庫,其中,維基語料庫也即外部語料庫。通過判別函數(shù)分析有助于分析短文本和對應(yīng)維基語料庫之間的簇類相似度和內(nèi)在一致性。其次根據(jù)潛在語義分析(latentsemanticanalysis,簡稱為lsa)來對所對應(yīng)的維基上下文進(jìn)行分類。最后再把分類情況逆向映射到短文本中去,從而實現(xiàn)了對短文本的分類。
但是,現(xiàn)有技術(shù)方案一方面受制于短文本與外部語料庫的上下文相互映射的關(guān)系,當(dāng)短文本與外部語料庫映射不準(zhǔn)確時,影響對短文本分類的準(zhǔn)確性。另外,對短文本分類的準(zhǔn)確性也受制于外部語料本身的分類效果的準(zhǔn)確性。目前,對短文本進(jìn)行分類時的類目體系需要預(yù)先根據(jù)外部語料 庫建立,無法針對短文本進(jìn)行擴展;每次進(jìn)行短文本分類時都需映射到較大的外部語料庫進(jìn)行分類,只能離線計算,無法實時對短文本進(jìn)行分類操作,在短文本中的數(shù)據(jù)分布不均勻時,短文本與外部語料庫的映射過程會受到嚴(yán)重影響,導(dǎo)致完全無法正確分類。
針對相關(guān)技術(shù)中短文本只能離線分類的問題,目前尚未提出有效的解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了一種短文本分類方法和裝置,以至少解決相關(guān)技術(shù)中短文本只能離線分類的技術(shù)問題。
根據(jù)本發(fā)明實施例的一個方面,提供了一種短文本分類方法,該方法包括:對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞;根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞;根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本;對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果;以及根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
根據(jù)本發(fā)明實施例的另一方面,還提供了短文本分類裝置,該裝置包括:分詞單元,用于對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞;提取單元,用于根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞;向量單元,用于根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本;聚類單元,用于對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果;以及分類單元,用于根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
在本發(fā)明實施例中,對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞;根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞;根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本;對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果,然后根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類,達(dá)到了短文本在線分類的目的,從而實現(xiàn)了提高短文本分類效率和準(zhǔn)確性的技術(shù)效果,進(jìn)而解決了相關(guān)技術(shù)中短文本只能離線分類的技術(shù)問 題。
附圖說明
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1是根據(jù)相關(guān)技術(shù)中的短文本分類的示意圖;
圖2是根據(jù)本發(fā)明實施例的短文本分類方法的計算機終端的硬件結(jié)構(gòu)框圖;
圖3是根據(jù)本發(fā)明實施例的短文本分類方法的流程圖;
圖4是根據(jù)本發(fā)明實施例的cbow模型的示意圖;
圖5是根據(jù)本發(fā)明實施例的霍夫曼樹的示意圖;
圖6是根據(jù)本發(fā)明實施例的skip-gram模型的示意圖;
圖7是根據(jù)本發(fā)明實施例的對目標(biāo)短文本執(zhí)行分詞處理方法的流程圖;
圖8是根據(jù)本發(fā)明實施例的對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取方法的流程圖;
圖9是根據(jù)本發(fā)明實施例的lda算法模型的示意圖;
圖10是根據(jù)本發(fā)明實施例的文本分類的示意圖;
圖11是根據(jù)本發(fā)明第一實施例的短文本分類裝置的示意圖;
圖12是根據(jù)本發(fā)明第二實施例的短文本分類裝置的示意圖;
圖13是根據(jù)本發(fā)明第三實施例的短文本分類裝置的示意圖;
圖14是根據(jù)本發(fā)明第四實施例的短文本分類裝置的示意圖;
圖15是根據(jù)本發(fā)明第五實施例的短文本分類裝置的示意圖;以及
圖16是根據(jù)本發(fā)明實施例的計算機終端的結(jié)構(gòu)框圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應(yīng)當(dāng)屬于本發(fā)明保護(hù)的范圍。
需要說明的是,本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
實施例1
根據(jù)本發(fā)明實施例,提供了一種短文本分類方法的實施例,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
本申請實施例一所提供的方法實施例可以在移動終端、計算機終端或者類似的運算裝置中執(zhí)行。以運行在計算機終端上為例,圖2是根據(jù)本發(fā)明實施例的短文本分類方法的計算機終端的硬件結(jié)構(gòu)框圖。如圖2所示,計算機終端100可以包括一個或多個(圖中僅示出一個)處理器102(處理器102可以包括但不限于微處理器mcu或可編程邏輯器件fpga等的處理裝置)、用于存儲數(shù)據(jù)的存儲器104、以及用于通信功能的傳輸裝置 106。本領(lǐng)域普通技術(shù)人員可以理解,圖2所示的結(jié)構(gòu)僅為示意,其并不對上述電子裝置的結(jié)構(gòu)造成限定。例如,計算機終端100還可包括比圖2中所示更多或者更少的組件,或者具有與圖2所示不同的配置。
存儲器104可用于存儲應(yīng)用軟件的軟件程序以及模塊,如本發(fā)明實施例中的短文本分類方法對應(yīng)的程序指令/模塊,處理器102通過運行存儲在存儲器104內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)上述的短文本分類方法。存儲器104可包括高速隨機存儲器,還可包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器104可進(jìn)一步包括相對于處理器102遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至計算機終端10。上述網(wǎng)絡(luò)的實例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
傳輸裝置106用于經(jīng)由一個網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實例可包括計算機終端100的通信供應(yīng)商提供的無線網(wǎng)絡(luò)。在一個實例中,傳輸裝置106包括一個網(wǎng)絡(luò)適配器(networkinterfacecontroller,簡稱為nic),其可通過基站與其他網(wǎng)絡(luò)設(shè)備相連從而可與互聯(lián)網(wǎng)進(jìn)行通訊。在一個實例中,傳輸裝置106可以為射頻(radiofrequency,簡稱為rf)模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
在上述運行環(huán)境下,本申請?zhí)峁┝巳鐖D3所示的短文本分類方法。該方法可以應(yīng)用于智能終端設(shè)備中,由智能終端設(shè)備中的處理器執(zhí)行,智能終端設(shè)備可以是智能手機、平板電腦等。智能終端設(shè)備中安裝有至少一個應(yīng)用程序,本發(fā)明實施例并不限定應(yīng)用程序的種類,可以為系統(tǒng)類應(yīng)用程序,也可以為軟件類應(yīng)用程序。
圖3是根據(jù)本發(fā)明實施例的短文本分類方法的流程圖。如圖3所示,該短文本分類方法的一種可選的方案包括如下步驟:
步驟s301,對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞。
在本申請上述步驟s301提供的方案中,短文本是相對于長文本而言比較短的文本。目標(biāo)短文本是進(jìn)行分類的短文本,例如,目標(biāo)短文本是用戶終端發(fā)布在即時通訊應(yīng)用qq社區(qū)上的狀態(tài)信息,例如,qq社區(qū)的說說或者狀態(tài)日志,說說的內(nèi)容可以是心情類、廣告類說說,或者旅游風(fēng)景類等;目標(biāo)短文本也可以是網(wǎng)頁片段、短消息,微型博客文本等,目標(biāo)短文本可以是中文短文本,也可以是英文短文本。
分詞處理可以是將目標(biāo)短文本中的文本內(nèi)容進(jìn)行劃分,劃分成多個詞,例如,讀取目標(biāo)短文本中的文本,將目標(biāo)短文本劃分成多個詞,在將目標(biāo)短文本劃分成多個詞時,根據(jù)上下文的語義進(jìn)行詞的劃分,以使對目標(biāo)短文本的分詞更加準(zhǔn)確。例如,對qq社區(qū)的說說“今天天氣很好”進(jìn)行分詞處理,得到“今天”,“天氣”和“很好”三個詞。在對目標(biāo)短文本執(zhí)行分詞處理時可以將劃分后的詞進(jìn)行詞性標(biāo)注,例如,將目標(biāo)短文本劃分后的詞標(biāo)注“名詞”,“形容詞”和“副詞”等,以便于提高短文本分類方法的效率和準(zhǔn)確性。
步驟s302,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞。
在本申請上述步驟s302提供的方案中,在對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞之后,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞。例如,在一段目標(biāo)短文本中,關(guān)鍵詞是與目標(biāo)短文本的主題含義相關(guān)的詞,能夠代表該目標(biāo)短文本的主題和類別,因此,提取目標(biāo)短文本的關(guān)鍵詞有助于對目標(biāo)短文本進(jìn)行準(zhǔn)確地分類。在提取目標(biāo)短文本的關(guān)鍵詞時,可以根據(jù)在目標(biāo)短文本中出現(xiàn)的頻率進(jìn)行提取。例如,在目標(biāo)短文本中出現(xiàn)次數(shù)多的詞往往是目標(biāo)短文本著重描述的詞,因此可以作為關(guān)鍵詞代表目標(biāo)短文本所表達(dá)的含義。優(yōu)選地,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞時,可以根據(jù)目標(biāo)短文本的分詞的詞性對目標(biāo)短文本的關(guān)鍵詞進(jìn)行提取,例如,在一段短文本中,“是”,“的”,“了”等詞出現(xiàn)的頻率很高,但目標(biāo)短文本所表達(dá)的含義并不能用上述詞表示,因此可以優(yōu)先對目標(biāo)短文本中的名詞進(jìn)行關(guān)鍵詞的提取,以使目標(biāo)短文本的關(guān)鍵 詞的提取更加準(zhǔn)確。
本發(fā)明實施例根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞,能夠快速準(zhǔn)確地獲取目標(biāo)短文本的含義,提高對目標(biāo)短文本進(jìn)行分類的準(zhǔn)確性。
步驟s303,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
在本申請上述步驟s303提供的方案中,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理可以是通過多種方法對目標(biāo)短文本執(zhí)行向量化處理,例如,通過詞袋模型(continuousbagofwordmodel,簡稱為cbow)計算詞向量,得到向量化短文本。詞向量的計算還可以通過skip-gram訓(xùn)練算法實現(xiàn),從而得到向量化短文本。可以使用詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
圖4是根據(jù)本發(fā)明實施例的cbow模型的示意圖,如圖4所示,忽略目標(biāo)短文本的詞序、語法和句法,將其看作是詞的集合,或者詞的組合,文本中每個詞的出現(xiàn)都不依賴于其它詞是否出現(xiàn)。對于目標(biāo)短文本,在任意一個位置選擇一個詞都不受前面句子的影響。例如,目標(biāo)短文本中“豬”、“馬”、“?!?、“羊”、“山谷”、“土地”、“拖拉機”這樣的詞匯多些,而“銀行”、“大廈”、“汽車”、“公園”這樣的詞匯少些,則傾向于判斷該目標(biāo)短文本是一篇描繪鄉(xiāng)村的文本,而不是描述城鎮(zhèn)的文本。將多個輸入的關(guān)鍵詞w(t-2)、w(t-1)、w(t+1)和w(t+2)映射到總的詞袋中,將各個詞出現(xiàn)的頻率以w(t)輸出。
圖5是根據(jù)本發(fā)明實施例的霍夫曼樹的示意圖,如圖5所示,每個詞對應(yīng)有從根節(jié)點到葉節(jié)點的路徑,在每條路徑上的分叉點都是一個二分類模型,例如,以“左根右”的遍歷順序?qū)舴蚵鼧溥M(jìn)行遍歷,整個霍夫曼樹的最左葉節(jié)點為“this”,然后遍歷根節(jié)點,其中,根節(jié)點為空,再遍歷右葉節(jié)點“film”,然后繼續(xù)遍歷根節(jié)點,以此類推,得到“thisfilmdoesn’tcareaboutcleverness,witoranyotherkindofintelligenthumor”??蛇x地,用 激勵函數(shù)sigmoid函數(shù)對短文本進(jìn)行分類,sigmoid函數(shù)表示人工神經(jīng)網(wǎng)絡(luò)中,單個神經(jīng)元的輸入和輸出之間的函數(shù)關(guān)系。由于采用sigmoid函數(shù)對目標(biāo)短文本進(jìn)行分類,因而總的概率函數(shù)就是路徑上各個函數(shù)的乘積。
圖6是根據(jù)本發(fā)明實施例的skip-gram模型的示意圖,如圖6所示,將當(dāng)前的w(t)輸入至skip-gram模型,通過預(yù)設(shè)的映射關(guān)系將當(dāng)前的w(t)轉(zhuǎn)化為w(t-2)、w(t-1)、w(t+1)和w(t+2)輸出。
該實施例采用skip-gram模型對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。所采用的目標(biāo)函數(shù)如下:
其中,l表示skip-gram的目標(biāo)函數(shù),
本發(fā)明實施例通過根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本,能夠提高對目標(biāo)短文本進(jìn)行分類的準(zhǔn)確性。
步驟s304,對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果。
在本申請上述步驟s304提供的方案中,在根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本之后,對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果。聚類計算可以用來對短文本進(jìn)行分析,用以計算目標(biāo)短文本之間的相似度。可選地,聚類算法可以是劃分聚類法,層次聚類法,基于密度的聚類方法,基于網(wǎng)格的聚類方法,基于模型的聚類方法等。
步驟s305,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
在本申請上述步驟s305提供的方案中,根據(jù)聚類結(jié)果對目標(biāo)短文本 進(jìn)行分類可以是根據(jù)聚類結(jié)果將相同類別的目標(biāo)短文本作為一類文本,可以根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行類別命名。在對目標(biāo)短文本執(zhí)行分詞處理后,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞,然后根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,再對向量化短文本執(zhí)行聚類計算,最后根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
可選地,在絕大部分短文本文的應(yīng)用場景中,例如,即時通訊應(yīng)用qq公眾號,在qq公眾平臺中,每日例行對新增公眾號進(jìn)行行業(yè)分類,對于每個新增的公眾號樣本,抽取標(biāo)題和公眾號描述作為目標(biāo)短文本,經(jīng)過上述方法實時計算得到該qq公眾號的分類結(jié)果。
本發(fā)明實施例可以采用多種方式提取目標(biāo)短文本的關(guān)鍵詞、對目標(biāo)短文本執(zhí)行向量化處理、對向量化短文本執(zhí)行聚類計算和根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類,上述短文本分類方法僅為本發(fā)明的優(yōu)選實施例,并不代表本發(fā)明實施例的短文本分類方法僅包括上述實施方式。為了提高短文本分類的準(zhǔn)確性,本發(fā)明實施例還可以包括其他能夠提高短文本分類方法的準(zhǔn)確性的方式,此處不再一一舉例說明。
本發(fā)明實施例根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類,能夠提高對目標(biāo)短文本進(jìn)行分類的準(zhǔn)確性。
通過上述步驟s301至步驟s305,本發(fā)明提供的方案可以實現(xiàn)通過對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞;根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞;根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本;對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果;以及根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類,提高了對目標(biāo)短文本進(jìn)行分類的效率,可以不再通過短文本與外部語料庫的相互映射對短文本進(jìn)行分類,實現(xiàn)了可以在線對短文本進(jìn)行分類,進(jìn)而解決了相關(guān)技術(shù)中短文本只能離線分類的技術(shù)問題。
作為一種可選的實施方式,本申請步驟s301對目標(biāo)短文本執(zhí)行分詞處理包括:掃描目標(biāo)短文本,得到掃描結(jié)果;根據(jù)掃描結(jié)果生成目標(biāo)短文 本的有向無環(huán)圖,其中,有向無環(huán)圖為根據(jù)目標(biāo)短文本中的不同的詞進(jìn)行組合的有向圖;在有向無環(huán)圖中查找最大概率路徑,其中,最大概率路徑為根據(jù)目標(biāo)短文本中不同的詞出現(xiàn)的頻數(shù)進(jìn)行組合的最優(yōu)路徑;以及將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞。圖7是根據(jù)本發(fā)明實施例的對目標(biāo)短文本執(zhí)行分詞處理方法的流程圖。如圖7所示,該對目標(biāo)短文本執(zhí)行分詞處理方法的一種可選的方案包括如下步驟:
步驟s701,掃描目標(biāo)短文本,得到掃描結(jié)果。
在對目標(biāo)短文本執(zhí)行分詞處理時,首先掃描目標(biāo)短文本,得到掃描結(jié)果??蛇x地,在對目標(biāo)短文本進(jìn)行掃描時,可以基于前綴詞典進(jìn)行詞圖掃描?;谇熬Y詞典進(jìn)行的詞圖掃描能夠更為高效地對短文本進(jìn)行掃描,例如,基于前綴詞典的數(shù)據(jù)庫對目標(biāo)短文本中的文本進(jìn)行遍歷,得到遍歷結(jié)果。
步驟s702,根據(jù)掃描結(jié)果生成目標(biāo)短文本的有向無環(huán)圖。
在掃描目標(biāo)短文本,得到掃描結(jié)果之后,根據(jù)掃描結(jié)果生成有向無環(huán)圖,可以是根據(jù)目標(biāo)短文本中句子中的漢字所有可能成詞情況所構(gòu)成的有向無環(huán)圖(directedacyclicgraph,簡稱為dag),其中,有向無環(huán)圖是指從有向圖中的一個頂點出發(fā)經(jīng)過若干條邊,無法回到該點的圖。
步驟s703,在有向無環(huán)圖中查找最大概率路徑。
該實施例的最大概率路徑為根據(jù)目標(biāo)短文本中不同的詞出現(xiàn)的頻數(shù)進(jìn)行組合的最優(yōu)路徑。例如,可以采用動態(tài)規(guī)劃查找最大概率路徑,其中,動態(tài)規(guī)劃是求解決策過程的最優(yōu)化的數(shù)學(xué)方法,動態(tài)規(guī)劃將多階段過程轉(zhuǎn)化為一系列單階段過程,利用各階段之間的關(guān)系,逐個求解。
步驟s704,將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞。
將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞??蛇x地,查找出基于詞頻的最大切分組合,也即,查找出目標(biāo)短文本中的詞頻度得分最大的切分組合。其中,對于未登錄詞,也即,新出現(xiàn)的詞,比如,新出現(xiàn)的 流行用語,公司的內(nèi)部技術(shù)用語等,采用了基于漢字成詞能力的模型,例如采用隱馬爾可夫模型(hiddenmarkovmodel,簡稱為hmm)進(jìn)行分詞,hmm是一種統(tǒng)計模型,用來描述一個含有隱含位置參數(shù)的馬爾可夫過程,從可觀察的參數(shù)中確定該過程的隱含參數(shù),然后利用這些參數(shù)來做進(jìn)一步的分析,例如模式識別等。在通過hmm進(jìn)行分詞時,可以使用維特比(viterbi)算法。
通過上述步驟s701至步驟s704,掃描目標(biāo)短文本,得到掃描結(jié)果,根據(jù)掃描結(jié)果生成目標(biāo)短文本的有向無環(huán)圖,在有向無環(huán)圖中查找最大概率路徑,將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞,實現(xiàn)了對目標(biāo)短文本執(zhí)行分詞處理的目的,提高了對目標(biāo)短文本執(zhí)行分詞處理的效率。
在一種可選的實施方式中,目標(biāo)短文本的分詞包括多個,根據(jù)分詞提取目標(biāo)短文本的關(guān)鍵詞包括對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取,得到目標(biāo)短文本的多個關(guān)鍵詞。其中,對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取可以是根據(jù)預(yù)設(shè)的權(quán)重對目標(biāo)短文本的分詞進(jìn)行抽取。
圖8是根據(jù)本發(fā)明實施例的對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取方法的流程圖,如圖8所示,在一種可選的實施方式中,對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取的方法可以包括:
步驟s801,分別計算目標(biāo)短文本的多個分詞的tfidf值。
詞頻逆文檔頻率值(termfrequency-inversedocumentfrequency,簡稱為tfidf)用于信息檢索與數(shù)據(jù)挖掘的加權(quán)處理,用以評估字詞對于一個文件集成一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著字詞在語料庫中出現(xiàn)的頻率成反比下降,tfidf加權(quán)的主要規(guī)則是如果某個詞或短語在一個文本中出現(xiàn)的頻率高,而且在其他文本中很少出現(xiàn),則認(rèn)為該詞或短語具有很好的類別區(qū)分能力,能夠代表該文本的類型,適合用來對文本進(jìn)行分類。
分別計算目標(biāo)短文本的多個分詞的tfidf值,可以通過以下公式計算每個詞的tfidf值:
其中,ni,j表示該詞在文本dj中出現(xiàn)的次數(shù)。|d|表示語料庫中的總文件數(shù),∑kni,j,表示文件中所有字詞出現(xiàn)次數(shù)之和。
步驟s802,分別計算目標(biāo)短文本的多個分詞的textrank值。
分別計算目標(biāo)短文本的多個分詞的textrank值可以是迭代計算目標(biāo)短文本的多個分詞的textrank值,可選地,所使用的迭代方程如下:
其中,
步驟s803,分別根據(jù)目標(biāo)短文本的多個分詞的tfidf值和目標(biāo)短文本的多個分詞的textrank值計算目標(biāo)短文本的多個分詞的平均權(quán)值。
分別根據(jù)目標(biāo)短文本的多個分詞的tfidf值和目標(biāo)短文本的多個分詞的textrank值計算目標(biāo)短文本的多個分詞的平均權(quán)值可以是對每個詞分別計算tfidf值和textrank值的平均權(quán)值作為其權(quán)值。
可選地,對于關(guān)鍵詞的提取方法也可以通過除了tfidf、textrank以外的方法進(jìn)行關(guān)鍵詞提取。
步驟s804,將預(yù)設(shè)個數(shù)的分詞的平均權(quán)值對應(yīng)的分詞作為目標(biāo)短文本的多個關(guān)鍵詞,其中,預(yù)設(shè)個數(shù)的分詞的平均權(quán)值大于預(yù)設(shè)個數(shù)的分詞之外的其它分詞的平均權(quán)值。
將預(yù)設(shè)個數(shù)的分詞的平均權(quán)值對應(yīng)的分詞作為目標(biāo)短文本的多個關(guān) 鍵詞可以是從多個關(guān)鍵詞中抽取權(quán)值最高的預(yù)設(shè)個數(shù)的關(guān)鍵詞,例如抽取前20個最高權(quán)值的關(guān)鍵詞。
該實施例中采用分別計算目標(biāo)短文本的多個分詞的tfidf值;分別計算目標(biāo)短文本的多個分詞的textrank值;分別根據(jù)目標(biāo)短文本的多個分詞的tfidf值和目標(biāo)短文本的多個分詞的textrank值計算目標(biāo)短文本的多個分詞的平均權(quán)值;以及將預(yù)設(shè)個數(shù)的分詞的平均權(quán)值對應(yīng)的分詞作為目標(biāo)短文本的多個關(guān)鍵詞,其中,預(yù)設(shè)個數(shù)的分詞的平均權(quán)值大于預(yù)設(shè)個數(shù)的分詞之外的其它分詞的平均權(quán)值,提高了短文本分類的擴展性,對短文本分類的實時計算能力,以及實現(xiàn)了對不均短文本進(jìn)行分類。
在一種可選的實施方式中,在根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理之前,通過外部語料庫計算詞嵌入向量模型,其中,詞嵌入向量模型為用于對目標(biāo)短文本執(zhí)行向量化處理的空間向量化模型,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理包括:通過目標(biāo)短文本的關(guān)鍵詞和詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本??蛇x地,詞嵌入向量模型是一種空間模型的向量化處理模型,例如,使用50萬詞匯構(gòu)成的詞嵌入向量模型。
本發(fā)明實施例可以應(yīng)用于對即時通訊應(yīng)用qq公眾平臺對公眾號的短文本分類,還可以應(yīng)用于對即時通訊應(yīng)用qq的空間對說說短文本進(jìn)行分類,實現(xiàn)了在線對短文本進(jìn)行分類的效果。
在一種可選的實施方式中,在步驟s304之前,通過外部語料庫計算主題權(quán)值矩陣,其中,主題權(quán)值矩陣為用于對向量化短文本執(zhí)行聚類計算的矩陣,其中,對向量化短文本執(zhí)行聚類計算包括:根據(jù)向量化短文本和主題權(quán)值矩陣獲取目標(biāo)短文本的類目體系,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類包括:根據(jù)類目體系對目標(biāo)短文本進(jìn)行分類。
可選地,主題權(quán)值矩陣通過以下方式來確定:通過gibbs算法執(zhí)行采樣,得到采樣結(jié)果;以及根據(jù)所述采樣結(jié)果建立文檔主題生成模型(latentdirichletallocation,簡稱為lda),lda模型也稱為三層貝葉斯概率模型, 包含詞、主題和文檔三層結(jié)構(gòu)。生成模型可以使一個文本的每個詞都通過以一定概率選擇某個主題,并從這個主題中以一定概率選擇某個詞語的過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布。
圖9是根據(jù)本發(fā)明實施例的lda算法模型的示意圖,如圖9所示,lda算法模型可以采用以下方法:其中,k為主題個數(shù),m為文檔總數(shù),nm是第m個文檔的單詞總數(shù)。β是每個topic下詞的多項分布的dirichlet先驗參數(shù),α是每個文檔下topic的多項分布的dirichlet先驗參數(shù)。zm,n是第m個文檔中第n個詞的主題,wm,n是m個文檔中的第n個詞。剩下來兩個隱含變量θm和
給定一個文檔集合,wm,n是可以觀察到的已知變量,α和β是根據(jù)經(jīng)驗給定的先驗參數(shù),其他的變量zm,n,θm和
可選地,用gibbs采樣的方法來訓(xùn)練lda模型。
可選地,對向量化短文本執(zhí)行馬氏距離軟聚類計算,得到類目體系的相似度,其中,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類包括:根據(jù)類目體系的相似度對目標(biāo)短文本進(jìn)行分類??蛇x地,可以通過馬氏距離以外的方法進(jìn)行相似度計算,也可以通過lda意外的方法進(jìn)行詞-主題權(quán)值矩陣的訓(xùn)練,從而實現(xiàn)對向量化短文本執(zhí)行聚類計算。
作為一種可選的實施方式,對向量化短文本執(zhí)行馬氏距離軟聚類計算包括:對類目體系執(zhí)行混合高斯模型處理,得到多維高斯簇,其中,多維 高斯簇中的均值和協(xié)方差矩陣由lda模型中對應(yīng)的詞的向量確定;獲取目標(biāo)短文本的樣本;分別計算目標(biāo)短文本的樣本與多維高斯簇的馬氏距離;以及對馬氏距離執(zhí)行歸一化處理,得到類目體系的相似度。
馬氏距離軟聚類的整個類目體系作為一個混合高斯模型m={g1,g2,...},每個類目標(biāo)簽為一個帶權(quán)多維高斯簇g={(v1,w1),(v2,w2)...},該簇的均值u和協(xié)方差矩陣s由lda中所對應(yīng)的詞的向量計算得出。在樣本在線聚類時,計算樣本與每個高斯簇的馬氏距離可以采用如下公式:
對得到的距離再做cosine歸一化,最終得到每個類目的相似度。
圖10是根據(jù)本發(fā)明實施例的文本分類的示意圖,該實施例可以作為本發(fā)明實施例的短文本分類方法的優(yōu)選實施例。如圖10所示,本發(fā)明的文本分類方法分為在線計算和離線計算兩大模塊。
將目標(biāo)短文本進(jìn)行分詞處理后,提取目標(biāo)短文本的關(guān)鍵詞,在提取目標(biāo)短文本關(guān)鍵詞時可以采用tfidf和textrank方法,然后根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,可以通過詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理,例如,word2vecdict詞嵌入向量模型,然后通過類別體系對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果,最后根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類,可以通過對類別體系余弦歸一化進(jìn)行相似度度量,最終對目標(biāo)短文本進(jìn)行分類,得到分類結(jié)果。除了word2vecdict詞嵌入向量模型外,也可以通過其他詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理。
在離線計算模塊中,通過引入外部語料庫來計算巨量詞-主題權(quán)值矩陣和詞嵌入向量模型,并且通過帶全隨機采樣結(jié)合類目關(guān)鍵詞和權(quán)重來獲得類別體系。其中,巨量詞-主題權(quán)值矩陣可以采用50萬詞。
在線計算模塊中,對目標(biāo)短文本的主題和關(guān)鍵詞進(jìn)行主題識別,然后通過tf-idf和textrank方法來提取關(guān)鍵詞并利用離線獲得的詞嵌入向量 模型進(jìn)行向量化。在向量化之后進(jìn)行相似度計算得到分類結(jié)果。
本發(fā)明實施例提供了一種可擴展式的短文本快速在線分類方法,該方法包括對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞;根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞;根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本;對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果;以及根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。其中,主要步驟包括:分詞和詞性標(biāo)注;離線巨量詞-主題權(quán)值矩陣訓(xùn)練;類別體系高斯模型擬合;基于馬氏距離的相似度計算;短文本快速向量化并軟聚類。通過以上步驟,本發(fā)明支持?jǐn)U展式類別體系,能夠在線分類,實時計算,能夠?qū)崿F(xiàn)多類別軟分類,從而可以有效地應(yīng)對數(shù)據(jù)傾斜、長尾分布的情況,由于可以不通過外部語料庫對目標(biāo)短文本進(jìn)行分類,因此能夠在線分類,實時計算。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到根據(jù)上述實施例的方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲介質(zhì)(如rom/ram、磁碟、光盤)中,包括若干指令用以使得一臺終端設(shè)備(可以是手機,計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
實施例2
根據(jù)本發(fā)明實施例,還提供了一種用于實施上述短文本分類方法的裝置。圖11是根據(jù)本發(fā)明第一實施例的短文本分類裝置的示意圖,如圖11所示,該裝置包括:分詞單元10,提取單元20,向量單元30,聚類單元40和分類單元50。
分詞單元10,用于對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞.
提取單元20,用于根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞。
向量單元30,用于根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
聚類單元40,用于對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果。
分類單元50,用于根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
該實施例的短文本分類的裝置中,分詞單元10可以用于執(zhí)行本發(fā)明實施例中的步驟s301,提取單元20可以用于執(zhí)行本發(fā)明實施例中的步驟s302,向量單元30可以用于執(zhí)行本發(fā)明實施例中的步驟s303,聚類單元40用于執(zhí)行本發(fā)明實施例中的步驟s304,分類單元50可以用于執(zhí)行本發(fā)明實施例中的步驟s305。
作為一種可選的實施例,圖12是根據(jù)本發(fā)明第二實施例的短文本分類裝置的示意圖,如圖12所示,該裝置包括:分詞單元10,提取單元20,向量單元30,聚類單元40和分類單元50。其中,分詞單元10包括掃描模塊101,生成模塊102,查找模塊103和確定模塊104。
該實施例中的分詞單元10,提取單元20,向量單元30,聚類單元40和分類單元50的作用與本發(fā)明第一實施例相同。
掃描模塊101,用于掃描目標(biāo)短文本,得到掃描結(jié)果。
生成模塊102,用于根據(jù)掃描結(jié)果生成目標(biāo)短文本的有向無環(huán)圖,其中,有向無環(huán)圖為根據(jù)目標(biāo)短文本中的不同的詞進(jìn)行組合的有向圖。
查找模塊103,用于在有向無環(huán)圖中查找最大概率路徑,其中,最大概率路徑為根據(jù)目標(biāo)短文本中不同的詞出現(xiàn)的頻數(shù)進(jìn)行組合的最優(yōu)路徑。
確定模塊104,用于將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞。
作為一種可選的實施例,圖13是根據(jù)本發(fā)明第三實施例的短文本分類裝置的示意圖,如圖13所示,該裝置包括:分詞單元10,提取單元20,向量單元30,聚類單元40和分類單元50。其中,分詞單元10包括掃描模塊101,生成模塊102,查找模塊103和確定模塊104。提取單元20包括加權(quán)模塊201。
目標(biāo)短文本的分詞包括多個,加權(quán)模塊201,用于對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取,得到目標(biāo)短文本的多個關(guān)鍵詞。
作為一種可選的實施例,圖14是根據(jù)本發(fā)明第四實施例的短文本分類裝置的示意圖,如圖14所示,該裝置包括:分詞單元10,提取單元20,向量單元30,聚類單元40和分類單元50。其中,分詞單元10包括掃描模塊101,生成模塊102,查找模塊103和確定模塊104,提取單元20包括加權(quán)模塊201,加權(quán)模塊201包括第一計算子模塊2011,第二計算子模塊2012,第三計算子模塊2013和確定子模塊2014。
第一計算子模塊2011,用于分別計算目標(biāo)短文本的多個分詞的tfidf值。
第二計算子模塊2012,用于分別計算目標(biāo)短文本的多個分詞的textrank值。
第三計算子模塊2013,用于分別根據(jù)目標(biāo)短文本的多個分詞的tfidf值和目標(biāo)短文本的多個分詞的textrank值計算目標(biāo)短文本的多個分詞的平均權(quán)值。
確定子模塊2014,用于將預(yù)設(shè)個數(shù)的分詞的平均權(quán)值對應(yīng)的分詞作為目標(biāo)短文本的多個關(guān)鍵詞,其中,預(yù)設(shè)個數(shù)的分詞的平均權(quán)值大于預(yù)設(shè)個 數(shù)的分詞之外的其它分詞的平均權(quán)值。
作為一種可選的實施例,圖15是根據(jù)本發(fā)明第五實施例的短文本分類裝置的示意圖,如圖15所示,該裝置包括:分詞單元10,提取單元20,向量單元30,聚類單元40,分類單元50和嵌入單元60。其中,向量單元30包括向量模塊301。
嵌入單元60用于在根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理之前,通過外部語料庫計算詞嵌入向量模型,其中,詞嵌入向量模型為用于對目標(biāo)短文本執(zhí)行向量化處理的空間向量化模型,
向量模塊301,用于通過目標(biāo)短文本的關(guān)鍵詞和詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
實施例3
本發(fā)明的實施例還提供了一種存儲介質(zhì)??蛇x地,在本實施例中,上述存儲介質(zhì)可以用于保存上述實施例一種短文本分類方法所執(zhí)行的程序代碼。
可選地,在本實施例中,上述存儲介質(zhì)可以位于計算機網(wǎng)絡(luò)的多個網(wǎng)絡(luò)設(shè)備中的至少一個網(wǎng)絡(luò)設(shè)備。
可選地,在本實施例中,存儲介質(zhì)被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:
第一步,對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞。
第二步,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞。
第三步,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
第四步,對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果。
第五步,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:掃描目標(biāo)短文本,得到掃描結(jié)果;根據(jù)掃描結(jié)果生成目標(biāo)短文本的有向無環(huán)圖,其中,有向無環(huán)圖為根據(jù)目標(biāo)短文本中的不同的詞進(jìn)行組合的有向圖;在有向無環(huán)圖中查找最大概率路徑,其中,最大概率路徑為根據(jù)目標(biāo)短文本中不同的詞出現(xiàn)的頻數(shù)進(jìn)行組合的最優(yōu)路徑;以及將最大概率路徑上出現(xiàn)的詞作為目標(biāo)短文本的分詞。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對目標(biāo)短文本的多個分詞執(zhí)行加權(quán)抽取,得到目標(biāo)短文本的多個關(guān)鍵詞。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:分別計算目標(biāo)短文本的多個分詞的tfidf值;分別計算目標(biāo)短文本的多個分詞的textrank值;分別根據(jù)目標(biāo)短文本的多個分詞的tfidf值和目標(biāo)短文本的多個分詞的textrank值計算目標(biāo)短文本的多個分詞的平均權(quán)值;以及將預(yù)設(shè)個數(shù)的分詞的平均權(quán)值對應(yīng)的分詞作為目標(biāo)短文本的多個關(guān)鍵詞,其中,預(yù)設(shè)個數(shù)的分詞的平均權(quán)值大于預(yù)設(shè)個數(shù)的分詞之外的其它分詞的平均權(quán)值。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過外部語料庫計算詞嵌入向量模型,其中,詞嵌入向量模型為用于對目標(biāo)短文本執(zhí)行向量化處理的空間向量化模型,其中,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理包括:通過目標(biāo)短文本的關(guān)鍵詞和詞嵌入向量模型對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過外部語料庫計算主題權(quán)值矩陣,其中,主題權(quán)值矩陣為用于對向量化短文本執(zhí)行聚類計算的矩陣,其中,對向量化短文本執(zhí)行聚類計算包括:根據(jù)向量化短文本和主題權(quán)值矩陣獲取目標(biāo)短文本的類目體系,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類包括:根據(jù)類目體系對目標(biāo)短文本進(jìn)行分類。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:通過gibbs算法執(zhí)行采樣,得到采樣結(jié)果;以及根據(jù)采樣結(jié)果建立lda模 型。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對向量化短文本執(zhí)行馬氏距離軟聚類計算,得到類目體系的相似度,其中,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類包括:根據(jù)類目體系的相似度對目標(biāo)短文本進(jìn)行分類。
可選地,存儲介質(zhì)還被設(shè)置為存儲用于執(zhí)行以下步驟的程序代碼:對類目體系執(zhí)行混合高斯模型處理,得到多維高斯簇,其中,多維高斯簇中的均值和協(xié)方差矩陣由lda模型中對應(yīng)的詞的向量確定;獲取目標(biāo)短文本的樣本;分別計算目標(biāo)短文本的樣本與多維高斯簇的馬氏距離;以及對馬氏距離執(zhí)行歸一化處理,得到類目體系的相似度。
可選地,在本實施例中,上述存儲介質(zhì)可以包括但不限于:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
實施例4
本發(fā)明的實施例還提供一種計算機終端,該計算機終端可以是計算機終端群中的任意一個計算機終端設(shè)備。可選地,在本實施例中,上述計算機終端也可以替換為移動終端等終端設(shè)備。
可選地,在本實施例中,上述計算機終端可以位于計算機網(wǎng)絡(luò)的多個網(wǎng)絡(luò)設(shè)備中的至少一個網(wǎng)絡(luò)設(shè)備。
可選地,圖16是根據(jù)本發(fā)明實施例的計算機終端的結(jié)構(gòu)框圖。如圖16所示,該計算機終端a可以包括:一個或多個(圖中僅示出一個)處理器161、存儲器163、以及傳輸裝置165。
其中,存儲器163可用于存儲軟件程序以及模塊,如本發(fā)明實施例中的短文本分類的方法和裝置對應(yīng)的程序指令/模塊,處理器161通過運行存儲在存儲器163內(nèi)的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù) 處理,即實現(xiàn)上述的短文本分類。存儲器163可包括高速隨機存儲器,還可以包括非易失性存儲器,如一個或者多個磁性存儲裝置、閃存、或者其他非易失性固態(tài)存儲器。在一些實例中,存儲器163可進(jìn)一步包括相對于處理器161遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至計算機終端a。上述網(wǎng)絡(luò)的實例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。
上述的傳輸裝置165用于經(jīng)由一個網(wǎng)絡(luò)接收或者發(fā)送數(shù)據(jù)。上述的網(wǎng)絡(luò)具體實例可包括有線網(wǎng)絡(luò)及無線網(wǎng)絡(luò)。在一個實例中,傳輸裝置165包括一個網(wǎng)絡(luò)適配器,其可通過網(wǎng)線與其他網(wǎng)絡(luò)設(shè)備與路由器相連從而可與互聯(lián)網(wǎng)或局域網(wǎng)進(jìn)行通訊。在一個實例中,傳輸裝置165為射頻模塊,其用于通過無線方式與互聯(lián)網(wǎng)進(jìn)行通訊。
其中,具體地,存儲器163用于存儲預(yù)設(shè)動作條件和預(yù)設(shè)權(quán)限用戶的信息、以及應(yīng)用程序。
處理器161可以通過傳輸裝置調(diào)用存儲器163存儲的信息及應(yīng)用程序,以執(zhí)行下述步驟:
可選的,上述處理器161還可以執(zhí)行如下步驟的程序代碼:
第一步,對目標(biāo)短文本執(zhí)行分詞處理,得到目標(biāo)短文本的分詞。
第二步,根據(jù)目標(biāo)短文本的分詞提取目標(biāo)短文本的關(guān)鍵詞。
第三步,根據(jù)目標(biāo)短文本的關(guān)鍵詞對目標(biāo)短文本執(zhí)行向量化處理,得到向量化短文本。
第四步,對向量化短文本執(zhí)行聚類計算,得到聚類結(jié)果。
第五步,根據(jù)聚類結(jié)果對目標(biāo)短文本進(jìn)行分類。
可選地,本實施例中的具體示例可以參考上述實施例1和實施例2中所描述的示例,本實施例在此不再贅述。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
上述實施例中的集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在上述計算機可讀取的存儲介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在存儲介質(zhì)中,包括若干指令用以使得一臺或多臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述方法的全部或部分步驟。
在本發(fā)明的上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的客戶端,可通過其它的方式實現(xiàn)。其中,以上所描述的裝置實施例僅僅是示意性的,例如所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。