識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,尤其設(shè)及一種識別社交短文本類別的方法、 分類模型訓(xùn)練方法及裝置。
【背景技術(shù)】
[0002] 隨著微博、貼吧和微信等應(yīng)用的廣泛使用,在互聯(lián)網(wǎng)范圍內(nèi)產(chǎn)生了大量的文本數(shù) 據(jù),大多是片斷性的說明描述或觀點評論,因其文字內(nèi)容很短,該些文字內(nèi)容被稱為社交短 文本。面對海量文本數(shù)據(jù),如何準確有效地對其分類,已成為互聯(lián)網(wǎng)行業(yè)普遍關(guān)注和研究的 課題。
[0003] 通常,采用對短文本構(gòu)建基于詞的向量空間模型,該會使得短文本的空間模塊太 過稀疏。再者,使用單一模型進行訓(xùn)練與學(xué)習(xí),其分類效果和準確率較低。此外,W微博為 例,通常按照微博的主題將微博分類到為經(jīng)濟、體育、娛樂、生活、游戲動漫、健康、科技和汽 車八個類別之一??蒞看出,該種分類方法僅考慮了微博的文本內(nèi)容屬性,而輿情用戶更為 關(guān)屯、的是新聞或事件資源本身,現(xiàn)有的方法無法對此進行有效識別,進而使得應(yīng)用場景比 較有限。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明實施例的目的在于,提供一種識別社交短文本類別的方法、分類模型訓(xùn)練 方法及裝置,W自動、準確地識別社交短文本的類別信息。
[0005] 為實現(xiàn)上述發(fā)明目的,本發(fā)明的實施例提供了一種用于識別社交短文本的類別的 方法,包括:獲取社交短文本數(shù)據(jù);從所述社交短文本數(shù)據(jù)提取文本特征數(shù)據(jù);W所述文本 特征數(shù)據(jù)作為輸入,從經(jīng)訓(xùn)練的至少兩個短文本分類模型分別獲取所述社交短文本數(shù)據(jù)的 第一類別信息;根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù) 的第二類別信息。
[0006] 優(yōu)選地,所述文本特征數(shù)據(jù)包括W下至少一種;純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)。
[0007] 優(yōu)選地,所述純文本特征數(shù)據(jù)包括從所述社交短文本數(shù)據(jù)切出的字的重要性指數(shù) 的數(shù)據(jù),所述撰寫習(xí)慣特征數(shù)據(jù)包括預(yù)定的表情符號在所述社交短文本數(shù)據(jù)中出現(xiàn)的頻率 的數(shù)據(jù),所述社交特征數(shù)據(jù)包括W下至少一種反饋的數(shù)量帶發(fā)、評論、點贊、回復(fù)、跟蹤、頂 和踩,所述用戶特征數(shù)據(jù)包括W下至少一種關(guān)聯(lián)用戶的數(shù)量:粉絲、關(guān)注、朋友、互粉、發(fā)布 短文本和發(fā)表評論。
[000引優(yōu)選地,所述多個短文本分類模型基于至少兩個W下分類模型;支持向量機分類 模型、邏輯斯蒂回歸分類模型和隨機森林分類模型。
[0009] 優(yōu)選地,所述第二類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0010] 優(yōu)選地,所述第一類別信息包括所述社交短文本數(shù)據(jù)為各個所述第二類別信息的 置信度值,所述根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù) 的第二類別信息的處理包括:分別計算每個所述第二類別信息對應(yīng)于從各個所述短文本分 類模型獲取的置信度值的平均值,并將平均值中的最大值對應(yīng)的第二類別信息作為所述社 交短文本數(shù)據(jù)的第二類別信息。
[0011] 優(yōu)選地,所述從所述社交短文本數(shù)據(jù)提取文本特征數(shù)據(jù)的處理包括;對所述社 交短文本數(shù)據(jù)進行切字,并根據(jù)詞頻逆向文件頻率(TF-ID巧算法分別計算切出的字的 TF-IDF值作為所述社交短文本數(shù)據(jù)的純文本特征數(shù)據(jù)
[0012] 本發(fā)明的實施例還提供了一種短文本分類模型的訓(xùn)練方法,包括;獲取多個標注 的樣本數(shù)據(jù),每個所述標注的樣本數(shù)據(jù)包括社交短文本數(shù)據(jù)、標注的文本特征數(shù)據(jù)及類別 信息;利用所述多個標注的樣本數(shù)據(jù)對短文本分類模型進行訓(xùn)練,W學(xué)習(xí)社交短文本數(shù)據(jù) 的類別信息。
[0013] 優(yōu)選地,所述文本特征數(shù)據(jù)包括W下至少一種;純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)。
[0014] 優(yōu)選地,所述類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0015] 優(yōu)選地,所述短文本分類模型是支持向量機分類模型、邏輯斯蒂回歸分類模型或 隨機森林分類模型。
[0016] 本發(fā)明的實施例還提供了一種用于識別社交短文本的類別的裝置,包括;文本數(shù) 據(jù)獲取模塊,用于獲取社交短文本數(shù)據(jù);特征數(shù)據(jù)提取模塊,用于從所述社交短文本數(shù)據(jù)提 取文本特征數(shù)據(jù);類別信息獲取模塊,用于W所述文本特征數(shù)據(jù)作為輸入,從經(jīng)訓(xùn)練的至少 兩個短文本分類模型分別獲取所述社交短文本數(shù)據(jù)的第一類別信息;類別信息確定模塊, 用于根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù)的第二類 別f目息。
[0017] 優(yōu)選地,所述文本特征數(shù)據(jù)包括W下至少一種;純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù),所述第二類別信息是新聞事件類、廣告類、非商業(yè)分享 類或私人對話類。
[0018] 優(yōu)選地,所述純文本特征數(shù)據(jù)包括從所述社交短文本數(shù)據(jù)切出的字的重要性指數(shù) 的數(shù)據(jù),所述撰寫習(xí)慣特征數(shù)據(jù)包括預(yù)定的表情符號在所述社交短文本數(shù)據(jù)中出現(xiàn)的頻率 的數(shù)據(jù),所述社交特征數(shù)據(jù)包括W下至少一種反饋的數(shù)量帶發(fā)、評論、點贊、回復(fù)、跟蹤、頂 和踩,所述用戶特征數(shù)據(jù)包括W下至少一種關(guān)聯(lián)用戶的數(shù)量:粉絲、關(guān)注、朋友、互粉、發(fā)布 短文本和發(fā)表評論。
[0019] 優(yōu)選地,所述多個短文本分類模型基于至少兩個W下分類模型;支持向量機分類 模型、邏輯斯蒂回歸分類模型和隨機森林分類模型。
[0020] 優(yōu)選地,所述第一類別信息包括所述社交短文本數(shù)據(jù)為各個所述第二類別信息的 置信度值,所述類別信息確定模塊用于分別計算每個所述第二類別信息對應(yīng)于從各個所述 短文本分類模型獲取的置信度值的平均值,并將平均值中的最大值對應(yīng)的第二類別信息作 為所述社交短文本數(shù)據(jù)的第二類別信息。
[0021] 優(yōu)選地,所述特征數(shù)據(jù)提取模塊用于對所述社交短文本數(shù)據(jù)進行切字,并根據(jù)詞 頻逆向文件頻率(TF-ID巧算法分別計算切出的字的TF-IDF值作為所述社交短文本數(shù)據(jù)的 純文本特征數(shù)據(jù)。
[0022] 本發(fā)明的實施例還提供了一種短文本分類模型的訓(xùn)練裝置,包括;樣本數(shù)據(jù)獲取 模塊,用于獲取多個標注的樣本數(shù)據(jù),每個所述標注的樣本數(shù)據(jù)包括社交短文本數(shù)據(jù)、標注 的文本特征數(shù)據(jù)及類別信息;分類模型訓(xùn)練模塊,用于利用所述多個標注的樣本數(shù)據(jù)對短 文本分類模型進行訓(xùn)練,W學(xué)習(xí)社交短文本數(shù)據(jù)的類別信息。
[0023] 優(yōu)選地,所述文本特征數(shù)據(jù)包括W下至少一種;純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù),所述類別信息是新聞事件類、廣告類、非商業(yè)分享類或 私人對話類。
[0024] 優(yōu)選地,所述短文本分類模型是支持向量機分類模型、邏輯斯蒂回歸分類模型或 隨機森林分類模型。
[0025] 本發(fā)明實施例提供的識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置,將 從獲取到的社交短文本數(shù)據(jù)中提取的文本特征數(shù)據(jù)輸入經(jīng)訓(xùn)練的至少兩個短文本分類模 型,分別得到每個短文本分類模型輸出的類別信息,再W多個類別信息為識別依據(jù),從而自 動、準確地識別社交短文本的類別信息,進而提高了對海量社交短文本的分類效果及準確 率,廣泛應(yīng)用于各種短文本分析場景。
[0026] 此外,準確分類后的海量社交短文本中,對于識別為廣告類的社交短文本進行降 權(quán)或直接濾除的處理,使得輿情用戶能夠方便了解相關(guān)的新聞或事件資源,極大豐富了用 戶體驗。
【附圖說明】
[0027] 圖1是示出本發(fā)明實施例一的用于識別社交短文本的類別的方法的流程圖;
[002引圖2是示出本發(fā)明實施例二的短文本分類模型的訓(xùn)練方法的流程圖;
[0029] 圖3是示出本發(fā)明實施例S的用于識別社交短文本的類別的裝置的邏輯框圖;
[0030] 圖4是示出本發(fā)明實施例四的短文本分類模型的訓(xùn)練裝置的邏輯框圖。
【具體實施方式】
[0031] 本發(fā)明的基本構(gòu)思是,在獲取社交短文本數(shù)據(jù)之后,進一步對社交短文本數(shù)據(jù)進 行特征提取,并將提取到的文本特征數(shù)據(jù)作為經(jīng)訓(xùn)練的至少兩個短文本分類模型的輸入, 分別得到每個短文本分類模型輸出的類別信息;此后,再根據(jù)獲得的所述多個類別信息確 定所述社交短文本數(shù)據(jù)的類別,從而自動、準確地識別社交短文本的類別信息,提高了對海 量社交短文本的分類效果及準確率。
[0032] 該里,所述社交短文本數(shù)據(jù)可W是例如微博、微信、貼吧等社交互動類的文本數(shù) 據(jù)。所述類別信息可W是新聞事件類