識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置的制造方法

文檔序號：9235518閱讀：371來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域，尤其設(shè)及一種識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置。
【背景技術(shù)】
[0002] 隨著微博、貼吧和微信等應(yīng)用的廣泛使用，在互聯(lián)網(wǎng)范圍內(nèi)產(chǎn)生了大量的文本數(shù) 據(jù)，大多是片斷性的說明描述或觀點評論，因其文字內(nèi)容很短，該些文字內(nèi)容被稱為社交短文本。面對海量文本數(shù)據(jù)，如何準確有效地對其分類，已成為互聯(lián)網(wǎng)行業(yè)普遍關(guān)注和研究的課題。
[0003] 通常，采用對短文本構(gòu)建基于詞的向量空間模型，該會使得短文本的空間模塊太過稀疏。再者，使用單一模型進行訓(xùn)練與學(xué)習(xí)，其分類效果和準確率較低。此外，W微博為例，通常按照微博的主題將微博分類到為經(jīng)濟、體育、娛樂、生活、游戲動漫、健康、科技和汽車八個類別之一?？蒞看出，該種分類方法僅考慮了微博的文本內(nèi)容屬性，而輿情用戶更為關(guān)屯、的是新聞或事件資源本身，現(xiàn)有的方法無法對此進行有效識別，進而使得應(yīng)用場景比較有限。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明實施例的目的在于，提供一種識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置，W自動、準確地識別社交短文本的類別信息。
[0005] 為實現(xiàn)上述發(fā)明目的，本發(fā)明的實施例提供了一種用于識別社交短文本的類別的方法，包括：獲取社交短文本數(shù)據(jù)；從所述社交短文本數(shù)據(jù)提取文本特征數(shù)據(jù)；W所述文本特征數(shù)據(jù)作為輸入，從經(jīng)訓(xùn)練的至少兩個短文本分類模型分別獲取所述社交短文本數(shù)據(jù)的第一類別信息；根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù) 的第二類別信息。
[0006] 優(yōu)選地，所述文本特征數(shù)據(jù)包括W下至少一種；純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)。
[0007] 優(yōu)選地，所述純文本特征數(shù)據(jù)包括從所述社交短文本數(shù)據(jù)切出的字的重要性指數(shù) 的數(shù)據(jù)，所述撰寫習(xí)慣特征數(shù)據(jù)包括預(yù)定的表情符號在所述社交短文本數(shù)據(jù)中出現(xiàn)的頻率的數(shù)據(jù)，所述社交特征數(shù)據(jù)包括W下至少一種反饋的數(shù)量帶發(fā)、評論、點贊、回復(fù)、跟蹤、頂和踩，所述用戶特征數(shù)據(jù)包括W下至少一種關(guān)聯(lián)用戶的數(shù)量：粉絲、關(guān)注、朋友、互粉、發(fā)布短文本和發(fā)表評論。
[000引優(yōu)選地，所述多個短文本分類模型基于至少兩個W下分類模型；支持向量機分類模型、邏輯斯蒂回歸分類模型和隨機森林分類模型。
[0009] 優(yōu)選地，所述第二類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0010] 優(yōu)選地，所述第一類別信息包括所述社交短文本數(shù)據(jù)為各個所述第二類別信息的置信度值，所述根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù) 的第二類別信息的處理包括：分別計算每個所述第二類別信息對應(yīng)于從各個所述短文本分類模型獲取的置信度值的平均值，并將平均值中的最大值對應(yīng)的第二類別信息作為所述社交短文本數(shù)據(jù)的第二類別信息。
[0011] 優(yōu)選地，所述從所述社交短文本數(shù)據(jù)提取文本特征數(shù)據(jù)的處理包括；對所述社交短文本數(shù)據(jù)進行切字，并根據(jù)詞頻逆向文件頻率（TF-ID巧算法分別計算切出的字的 TF-IDF值作為所述社交短文本數(shù)據(jù)的純文本特征數(shù)據(jù)
[0012] 本發(fā)明的實施例還提供了一種短文本分類模型的訓(xùn)練方法，包括；獲取多個標注的樣本數(shù)據(jù)，每個所述標注的樣本數(shù)據(jù)包括社交短文本數(shù)據(jù)、標注的文本特征數(shù)據(jù)及類別信息；利用所述多個標注的樣本數(shù)據(jù)對短文本分類模型進行訓(xùn)練，W學(xué)習(xí)社交短文本數(shù)據(jù) 的類別信息。
[0013] 優(yōu)選地，所述文本特征數(shù)據(jù)包括W下至少一種；純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)。
[0014] 優(yōu)選地，所述類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0015] 優(yōu)選地，所述短文本分類模型是支持向量機分類模型、邏輯斯蒂回歸分類模型或隨機森林分類模型。
[0016] 本發(fā)明的實施例還提供了一種用于識別社交短文本的類別的裝置，包括；文本數(shù) 據(jù)獲取模塊，用于獲取社交短文本數(shù)據(jù)；特征數(shù)據(jù)提取模塊，用于從所述社交短文本數(shù)據(jù)提取文本特征數(shù)據(jù)；類別信息獲取模塊，用于W所述文本特征數(shù)據(jù)作為輸入，從經(jīng)訓(xùn)練的至少兩個短文本分類模型分別獲取所述社交短文本數(shù)據(jù)的第一類別信息；類別信息確定模塊，用于根據(jù)獲取的所述社交短文本數(shù)據(jù)的第一類別信息確定所述社交短文本數(shù)據(jù)的第二類別f目息。
[0017] 優(yōu)選地，所述文本特征數(shù)據(jù)包括W下至少一種；純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)，所述第二類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0018] 優(yōu)選地，所述純文本特征數(shù)據(jù)包括從所述社交短文本數(shù)據(jù)切出的字的重要性指數(shù) 的數(shù)據(jù)，所述撰寫習(xí)慣特征數(shù)據(jù)包括預(yù)定的表情符號在所述社交短文本數(shù)據(jù)中出現(xiàn)的頻率的數(shù)據(jù)，所述社交特征數(shù)據(jù)包括W下至少一種反饋的數(shù)量帶發(fā)、評論、點贊、回復(fù)、跟蹤、頂和踩，所述用戶特征數(shù)據(jù)包括W下至少一種關(guān)聯(lián)用戶的數(shù)量：粉絲、關(guān)注、朋友、互粉、發(fā)布短文本和發(fā)表評論。
[0019] 優(yōu)選地，所述多個短文本分類模型基于至少兩個W下分類模型；支持向量機分類模型、邏輯斯蒂回歸分類模型和隨機森林分類模型。
[0020] 優(yōu)選地，所述第一類別信息包括所述社交短文本數(shù)據(jù)為各個所述第二類別信息的置信度值，所述類別信息確定模塊用于分別計算每個所述第二類別信息對應(yīng)于從各個所述短文本分類模型獲取的置信度值的平均值，并將平均值中的最大值對應(yīng)的第二類別信息作為所述社交短文本數(shù)據(jù)的第二類別信息。
[0021] 優(yōu)選地，所述特征數(shù)據(jù)提取模塊用于對所述社交短文本數(shù)據(jù)進行切字，并根據(jù)詞頻逆向文件頻率（TF-ID巧算法分別計算切出的字的TF-IDF值作為所述社交短文本數(shù)據(jù)的純文本特征數(shù)據(jù)。
[0022] 本發(fā)明的實施例還提供了一種短文本分類模型的訓(xùn)練裝置，包括；樣本數(shù)據(jù)獲取模塊，用于獲取多個標注的樣本數(shù)據(jù)，每個所述標注的樣本數(shù)據(jù)包括社交短文本數(shù)據(jù)、標注的文本特征數(shù)據(jù)及類別信息；分類模型訓(xùn)練模塊，用于利用所述多個標注的樣本數(shù)據(jù)對短文本分類模型進行訓(xùn)練，W學(xué)習(xí)社交短文本數(shù)據(jù)的類別信息。
[0023] 優(yōu)選地，所述文本特征數(shù)據(jù)包括W下至少一種；純文本特征數(shù)據(jù)、撰寫習(xí)慣特征數(shù) 據(jù)、社交特征數(shù)據(jù)和用戶特征數(shù)據(jù)，所述類別信息是新聞事件類、廣告類、非商業(yè)分享類或私人對話類。
[0024] 優(yōu)選地，所述短文本分類模型是支持向量機分類模型、邏輯斯蒂回歸分類模型或隨機森林分類模型。
[0025] 本發(fā)明實施例提供的識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置，將從獲取到的社交短文本數(shù)據(jù)中提取的文本特征數(shù)據(jù)輸入經(jīng)訓(xùn)練的至少兩個短文本分類模型，分別得到每個短文本分類模型輸出的類別信息，再W多個類別信息為識別依據(jù)，從而自動、準確地識別社交短文本的類別信息，進而提高了對海量社交短文本的分類效果及準確率，廣泛應(yīng)用于各種短文本分析場景。
[0026] 此外，準確分類后的海量社交短文本中，對于識別為廣告類的社交短文本進行降權(quán)或直接濾除的處理，使得輿情用戶能夠方便了解相關(guān)的新聞或事件資源，極大豐富了用戶體驗。
【附圖說明】
[0027] 圖1是示出本發(fā)明實施例一的用于識別社交短文本的類別的方法的流程圖；
[002引圖2是示出本發(fā)明實施例二的短文本分類模型的訓(xùn)練方法的流程圖；
[0029] 圖3是示出本發(fā)明實施例S的用于識別社交短文本的類別的裝置的邏輯框圖；
[0030] 圖4是示出本發(fā)明實施例四的短文本分類模型的訓(xùn)練裝置的邏輯框圖。
【具體實施方式】
[0031] 本發(fā)明的基本構(gòu)思是，在獲取社交短文本數(shù)據(jù)之后，進一步對社交短文本數(shù)據(jù)進行特征提取，并將提取到的文本特征數(shù)據(jù)作為經(jīng)訓(xùn)練的至少兩個短文本分類模型的輸入，分別得到每個短文本分類模型輸出的類別信息；此后，再根據(jù)獲得的所述多個類別信息確定所述社交短文本數(shù)據(jù)的類別，從而自動、準確地識別社交短文本的類別信息，提高了對海量社交短文本的分類效果及準確率。
[0032] 該里，所述社交短文本數(shù)據(jù)可W是例如微博、微信、貼吧等社交互動類的文本數(shù) 據(jù)。所述類別信息可W是新聞事件類

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：莫洋;沈劍平;李炫;宋元峰;駱金昌;陳玉光;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

裝置類別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置的制造方法

識別社交短文本類別的方法、分類模型訓(xùn)練方法及裝置的制造方法