亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用戶畫像的短文本分類方法與流程

文檔序號(hào):11864761閱讀:565來源:國知局
本發(fā)明屬于計(jì)算機(jī)數(shù)據(jù)挖掘領(lǐng)域中的文本挖掘領(lǐng)域,涉及海量文本數(shù)據(jù)分類方法分析,本發(fā)明著重解決的問題是在海量數(shù)據(jù)環(huán)境中基于用戶畫像的短文本分類。
背景技術(shù)
:分類是一種重要的信息組織方式,研究的目標(biāo)是對(duì)文本自動(dòng)歸類?;ヂ?lián)網(wǎng)正悄然無息地影響著人們的生活習(xí)慣,由于社交網(wǎng)絡(luò)的出現(xiàn),短文本形式的信息大量涌入人們的生活中。面對(duì)大規(guī)模的短文本形式的數(shù)據(jù),如何快速而準(zhǔn)確地從中獲取所需的關(guān)鍵信息,進(jìn)行文本挖掘或商業(yè)挖掘,短文本分類技術(shù)發(fā)揮著非常重要的作用,并且在用戶興趣挖掘、熱點(diǎn)話題追蹤、流行語分析等領(lǐng)域都有著廣泛的應(yīng)用前景。目前的文本分類技術(shù)多是針對(duì)長文本進(jìn)行,雖然性能較好但由于短文本字?jǐn)?shù)少、數(shù)量龐大,并多數(shù)依存于網(wǎng)絡(luò),并不一定適用。國內(nèi)針對(duì)短文本的研究多集中在語義擴(kuò)展、特征處理等方面,并沒有特別深入系統(tǒng)的研究。據(jù)此,基于用戶畫像的短文本分類方法具有極其重要的研究意義:從理論上看,文本分類作為一種有效的組織和管理方法,得到了廣泛應(yīng)用和快速發(fā)展。文本分類是信息處理的主要研究方向,有著極其重要的應(yīng)用價(jià)值。由于其能快速、全面、準(zhǔn)確地處理各種雜亂信息,在信息檢索、信息過濾、搜索引擎、數(shù)字圖書館管理和文本管理等領(lǐng)域中有著廣泛的應(yīng)用。從商業(yè)活動(dòng)上來看,將產(chǎn)品評(píng)論中的產(chǎn)品特征、觀點(diǎn)詞作為語義內(nèi)容,并將語義內(nèi)容數(shù)量和評(píng)論文本長度等加入分類特征進(jìn)行產(chǎn)品評(píng)論的挖掘,進(jìn)而獲得產(chǎn)品相關(guān)的反饋以改進(jìn)產(chǎn)品質(zhì)量的針對(duì)性意見。從文化生活的角度看,分類技術(shù)可以挖掘世界各地用戶對(duì)生活中的各類人文地理文化自動(dòng)分類,有利于用戶按照分類信息快速瀏覽查閱自己想知道的內(nèi)容。此外分類技術(shù)還可以用于社交網(wǎng)絡(luò)中的個(gè)性化推薦功能,比如根據(jù)用戶好友平時(shí)經(jīng)常瀏覽的類別信息對(duì)用戶進(jìn)行圖書、電影、音樂等推薦。通常情況下,文本經(jīng)過預(yù)處理、降維、向量化后文本被轉(zhuǎn)換為向量,先對(duì)訓(xùn)練集通過某種分類方法訓(xùn)練得到一分類器,再用分類器對(duì)測試集數(shù)據(jù)進(jìn)行分類。通常的分類方法有兩類:第一類是借助外部文本如搜索引擎結(jié)果,擴(kuò)展短文本;第二類是借助知識(shí)庫挖掘短文本中詞語之間的內(nèi)在聯(lián)系。第一類方法不是很理想,一方面消耗較長時(shí)間,另一方面對(duì)搜索引擎的結(jié)果非常依賴;第二類方法利用知識(shí)庫可以發(fā)現(xiàn)大部分分詞之間的語義關(guān)系,但對(duì)于知識(shí)庫中不存在的詞無能為力。分類的準(zhǔn)確率一直都是大家關(guān)注的重點(diǎn),短文本由于其長度較短,特征較少,使得其分類準(zhǔn)確率一直很難提升。有些方法比如擴(kuò)展短文本的特征,其方法的準(zhǔn)確率受限于擴(kuò)展的方法,也不能很好的解決短文本分類問題。短文本分類主要存在以下問題:短文本本身含有的特征太少。在一篇短文本中,詞的數(shù)量非常有限,而拓展詞匯雖然擴(kuò)展了短文本的特征,但其擴(kuò)展方法的準(zhǔn)確性仍然有待考證。綜上所述,為了解決短文本分類,提高判斷短文本分類的準(zhǔn)確率,本發(fā)明提出了一種基于用戶畫像的短文本分類方法。技術(shù)實(shí)現(xiàn)要素:為了解決上述問題,我提出使用用戶歷史數(shù)據(jù)來預(yù)測當(dāng)前文本。本發(fā)明的目的在于提供一種短文本分類處理方法及系統(tǒng),使用人工標(biāo)注的用戶歷史數(shù)據(jù),來預(yù)測該用戶一條新的短文本所屬類別,既使用用戶畫像輔助分類。本發(fā)明主要包含兩個(gè)方面:(1)首先,定義并使用用戶畫像。(2)其次,綜合用戶畫像與分類器結(jié)果進(jìn)行分類。用戶發(fā)出來的短文本有這樣一個(gè)現(xiàn)象,這些短文本往往屬于一個(gè)或幾個(gè)類別,而該用戶的一條新的短文本,往往很大程度上在這些類別之中。因此,我們可以使用歷史數(shù)據(jù)來刻畫用戶畫像,進(jìn)而輔助分類。令U={u1,...,uk}表示一個(gè)用戶集合,對(duì)于該集合中的任意一個(gè)用戶ui,假設(shè)該用戶ui的歷史短文本信息集合是每條短文本信息對(duì)應(yīng)的類別標(biāo)簽是其中C是類別集合,共有m=|C|個(gè)類別,那么對(duì)于所有類別C={c1,...,cj,...,cm},用戶ui的用戶畫像是:其中,num(ci)是用戶ui短文本信息的集合中標(biāo)簽的個(gè)數(shù)。對(duì)于分類器給出的短文本TS所屬類別的可能性F={f1,...,fm},進(jìn)行歸一化,得到G={g1,...,gm},與用戶畫像結(jié)合得到所屬可能性為P={p1,...,pm},pi=gi*pfi,即相對(duì)應(yīng)類別的可能性與畫像相乘,選出最大的類別結(jié)果作為該短文本的類別標(biāo)簽?;诖耍景l(fā)明的技術(shù)方案為:一種基于用戶畫像的短文本分類方法,其步驟為:1)基于用戶發(fā)出的短文本數(shù)據(jù)生成對(duì)應(yīng)用戶的用戶畫像;其中,用戶ui的用戶畫像為用戶ui屬于類別ci的值;2)采用分類器對(duì)該用戶ui的短文本TS進(jìn)行分類,得到該短文本TS所屬類別的可能性F={f1,...,fi,...,fm};3)根據(jù)用戶ui的用戶畫像與F={f1,...,fi,...,fm}計(jì)算該短文本TS屬于各類別的值,選出最大的類別結(jié)果作為該短文本TS的類別標(biāo)簽。進(jìn)一步的,生成該用戶ui的用戶畫像的方法為:設(shè)該用戶ui的歷史短文本信息集合是每條短文本信息對(duì)應(yīng)的類別標(biāo)簽是其中,C是類別集合,共有m=|C|個(gè)類別;那么對(duì)于所有類別C={c1,...,cj,...,cm},用戶ui的用戶畫像是其中,num(ci)是用戶ui短文本信息的集合中標(biāo)簽的個(gè)數(shù)。進(jìn)一步的,步驟2)中,對(duì)該短文本TS所屬類別的可能性F={f1,...,fi,...,fm}進(jìn)行歸一化,得到G={g1,...,gi,...,gm},其中,fi為該短文本TS屬于類別ci的可能性。進(jìn)一步的,步驟3)中,根據(jù)用戶ui的用戶畫像與F={f1,...,fi,...,fm}計(jì)算該短文本TS屬于各類別的值的方法為:將用戶ui的用戶畫像與F={f1,...,fi,...,fm}相乘,得到P={p1,...,pi,...,pm},其中,pi=gi*pfi。進(jìn)一步的,步驟1)中,對(duì)該用戶畫像進(jìn)行一次平滑操作,然后進(jìn)行步驟2)。進(jìn)一步的,所述分類器為SVM或樸素貝葉斯分類器。進(jìn)一步的,所述類別包括體育、娛樂、教育。本發(fā)明使用歷史數(shù)據(jù)對(duì)用戶刻畫用戶畫像,根據(jù)用戶畫像,結(jié)合分類器分類結(jié)果,給出短文本的分類結(jié)果。與現(xiàn)有技術(shù)向,本發(fā)明的積極效果為:本發(fā)明提出的基于用戶畫像的短文本分類方法,綜合考慮了句子的文本和用戶歷史信息,增加了分類的準(zhǔn)確率。實(shí)驗(yàn)證明,見表1,將用戶畫像與傳統(tǒng)的SVM方法進(jìn)行融合后效果有明顯提升。表1為實(shí)驗(yàn)結(jié)果對(duì)比表MethodAccuracySVM81.4%SVM-PR85.6%附圖說明圖1為本發(fā)明的方法流程圖。具體實(shí)施方式本發(fā)明公開了一種有監(jiān)督的短文本分類方法,其流程如圖1所示,其包括如下步驟:對(duì)于每個(gè)用戶和用戶的歷史數(shù)據(jù),選出20條進(jìn)行人工標(biāo)注。假設(shè)短文本共有三類(體育,娛樂,教育)。如對(duì)于用戶A,選取歷史短文本數(shù)據(jù)20條,經(jīng)過人工標(biāo)注后,共有5條體育類別,15條娛樂類別的短文本數(shù)據(jù)。那么用戶A的歷史數(shù)據(jù)就是(5,15,0)。根據(jù)上述公式計(jì)算每個(gè)用戶的用戶畫像。對(duì)于用戶A,體育類別的用戶畫像概率就是log(5)=2.32,娛樂類別的用戶畫像概率就是log(15)=3.91,以此可得用戶A的用戶畫像是(2.32,3.91,0),經(jīng)過一次平滑的操作,得到用戶A的用戶畫像(2.32,3.91,1)預(yù)測:給出一個(gè)短文本,計(jì)算分類器(如SVM,樸素貝葉斯等)給出的結(jié)果。如有兩條用戶A的短文本a、b,經(jīng)過SVM分類后,屬于三個(gè)類別的概率分別為a:(0.8,0.1,0.1),b:(0.4,0.3,0.3)。綜合用戶畫像與分類器分出來的結(jié)果,計(jì)算,并選出p總最大的值的類別標(biāo)簽作為該短文本的類別。對(duì)于a,將用戶A的用戶畫像與分類器分類結(jié)果進(jìn)行相乘,得到(0.8*2.32,0.1*3.91,0.1*1),得到(1.856,0.391,0.01),則得出結(jié)論短文本a屬于第一類;對(duì)于短文本b,經(jīng)過同樣的運(yùn)算,得到(0.928,1.173,0.03),則我們認(rèn)為短文本b屬于第二類。當(dāng)前第1頁1 2 3 
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1