亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于詞矢量的短文本分類(lèi)模型生成方法與分類(lèi)方法

文檔序號(hào):9579334閱讀:274來(lái)源:國(guó)知局
一種基于詞矢量的短文本分類(lèi)模型生成方法與分類(lèi)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本挖掘領(lǐng)域,特別涉及一種基于詞矢量的短文本分類(lèi)模型生成方法與分類(lèi)方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,大量文本信息及數(shù)據(jù)涌現(xiàn)。為了有效地管理和利用這些信息,基于內(nèi)容的信息檢索和數(shù)據(jù)挖掘逐漸成為備受關(guān)注的領(lǐng)域。其中,文本分類(lèi)技術(shù)是信息檢索和文本挖掘的重要基礎(chǔ),其主要任務(wù)是在預(yù)先給定的類(lèi)別標(biāo)記集合下,根據(jù)文本內(nèi)容判定它的類(lèi)別。文本分類(lèi)在自然語(yǔ)言處理與理解、信息組織與管理、內(nèi)容信息過(guò)濾等領(lǐng)域發(fā)揮著重要的作用。
[0003]然而,最近由于社交網(wǎng)絡(luò)和電子商務(wù)的發(fā)展,諸如微博、即時(shí)信息、商品評(píng)價(jià)、影評(píng)等短文本形式的文本數(shù)據(jù)爆炸式地增長(zhǎng),所謂的短文本通常是一句簡(jiǎn)單的話,它具有包含的字?jǐn)?shù)較少,不便于統(tǒng)計(jì)等特點(diǎn)。如何能夠從這些短文本中提取出有用信息,根據(jù)這些有用信息更好地為用戶提供服務(wù)成為互聯(lián)網(wǎng)服務(wù)的關(guān)鍵。例如,如果一個(gè)用戶在微博中經(jīng)常發(fā)一些關(guān)于計(jì)算機(jī)方面的狀態(tài),那么我們可以自動(dòng)地向他推薦一些計(jì)算機(jī)方面的產(chǎn)品、文章、評(píng)論等,更好地滿足用戶的需求。傳統(tǒng)的文本分類(lèi)方法通常是通過(guò)計(jì)算每個(gè)字、詞或短語(yǔ)在特定領(lǐng)域下出現(xiàn)的次數(shù)及概率(即簡(jiǎn)單地來(lái)講是數(shù)數(shù)機(jī)制)來(lái)實(shí)現(xiàn)文本分類(lèi),但是對(duì)于新的文本數(shù)據(jù),由于有些字或詞未在之前出現(xiàn)過(guò),那么往往會(huì)被忽略。這種簡(jiǎn)單的計(jì)數(shù)機(jī)制沒(méi)有充分地考慮文本語(yǔ)義層面上的信息。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于克服現(xiàn)有技術(shù)中的文本分類(lèi)方法不適用于短文本的缺陷,從而提供一種適用于短文本的分類(lèi)方法。
[0005]為了實(shí)現(xiàn)上述目的,本發(fā)明提供了一種基于詞矢量的短文本分類(lèi)模型生成方法,包括:
[0006]步驟101)、采集數(shù)據(jù),并對(duì)所采集的數(shù)據(jù)進(jìn)行領(lǐng)域標(biāo)注,將這些已標(biāo)注的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù);
[0007]步驟102)、對(duì)訓(xùn)練數(shù)據(jù)做預(yù)處理;
[0008]步驟103)、查詢?cè)~矢量詞典,將訓(xùn)練數(shù)據(jù)中所包含的文本數(shù)據(jù)轉(zhuǎn)化為向量數(shù)據(jù),并且將所述向量數(shù)據(jù)按照領(lǐng)域進(jìn)行分隔;
[0009]步驟104)、對(duì)每一個(gè)領(lǐng)域內(nèi)的向量數(shù)據(jù)采用高斯模型進(jìn)行模型訓(xùn)練,得到高斯模型參數(shù)的最優(yōu)值,從而得到該領(lǐng)域所對(duì)應(yīng)的高斯模型;所有訓(xùn)練數(shù)據(jù)的各個(gè)領(lǐng)域所對(duì)應(yīng)的高斯模型組成分類(lèi)模型。
[0010]上述技術(shù)方案中,還包括:
[0011]步驟105)、采集并標(biāo)注數(shù)據(jù),將這些已標(biāo)注的數(shù)據(jù)作為測(cè)試數(shù)據(jù);將所述測(cè)試數(shù)據(jù)應(yīng)用于步驟104)所得到的訓(xùn)練模型,由所述訓(xùn)練模型所生成的結(jié)果驗(yàn)證訓(xùn)練模型的有效性,如果訓(xùn)練模型不合適,進(jìn)行參數(shù)調(diào)優(yōu)。
[0012]上述技術(shù)方案中,在步驟101)之前還包括:
[0013]從互聯(lián)網(wǎng)中抓取大量的網(wǎng)頁(yè)文本文件,對(duì)網(wǎng)頁(yè)文本文件中的文本數(shù)據(jù)進(jìn)行詞矢量訓(xùn)練,得到一個(gè)包含有描述詞與矢量對(duì)應(yīng)關(guān)系的詞典。
[0014]上述技術(shù)方案中,在步驟102)中,所述預(yù)處理包括:剔除訓(xùn)練數(shù)據(jù)中的無(wú)效數(shù)據(jù),去除停用詞。
[0015]上述技術(shù)方案中,在步驟102)中,所述預(yù)處理還包括對(duì)中文數(shù)據(jù)做分詞操作。
[0016]上述技術(shù)方案中,所述高斯模型的參數(shù)包括高斯均值與方差,高斯模型參數(shù)的最優(yōu)值是指能夠使準(zhǔn)確率達(dá)到最高的參數(shù)值。
[0017]本發(fā)明還提供了一種基于詞矢量的短文本分類(lèi)方法,包括:
[0018]步驟201)、輸入所要檢測(cè)的文本數(shù)據(jù),對(duì)這些待檢測(cè)的文本數(shù)據(jù)做預(yù)處理;
[0019]步驟202)、將待檢測(cè)的文本數(shù)據(jù)輸入所述基于詞矢量的短文本分類(lèi)模型生成方法所得到的訓(xùn)練模型中與各個(gè)領(lǐng)域相對(duì)應(yīng)的高斯模型,得到這一文本數(shù)據(jù)通過(guò)各個(gè)高斯模型后所生成的后驗(yàn)概率,將后驗(yàn)概率最大的那個(gè)高斯模型所對(duì)應(yīng)的領(lǐng)域信息作為待檢測(cè)文本數(shù)據(jù)的分類(lèi)結(jié)果。
[0020]上述技術(shù)方案中,所述預(yù)處理包括:剔除訓(xùn)練數(shù)據(jù)中的無(wú)效數(shù)據(jù),去除停用詞。[0021 ] 上述技術(shù)方案中,所述預(yù)處理還包括對(duì)中文數(shù)據(jù)做分詞操作。
[0022]本發(fā)明的優(yōu)點(diǎn)在于:
[0023]本發(fā)明的方法通過(guò)建立基于詞矢量的分類(lèi)模型實(shí)現(xiàn)短文本的分類(lèi),具有分類(lèi)較高好、識(shí)別度高的優(yōu)點(diǎn)。
【附圖說(shuō)明】
[0024]圖1是本發(fā)明的分類(lèi)模型生成方法的流程圖;
[0025]圖2是本發(fā)明的分類(lèi)方法的流程圖。
【具體實(shí)施方式】
[0026]為了便于理解,首先對(duì)本發(fā)明中所涉及的概念加以說(shuō)明。
[0027]詞矢量:用一個(gè)數(shù)學(xué)上的列向量來(lái)表示一個(gè)詞。一個(gè)詞所對(duì)應(yīng)的列向量可通過(guò)訓(xùn)練大批量的語(yǔ)料,然后利用諸如word2vec的開(kāi)源工具處理這些語(yǔ)料得到。
[0028]詞矢量詞典:用于記錄詞矢量的詞典。
[0029]現(xiàn)結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的描述。
[0030]本發(fā)明的方法包括訓(xùn)練階段與分類(lèi)階段,所述分類(lèi)階段主要利用已標(biāo)注的數(shù)據(jù)訓(xùn)練分類(lèi)模型,而在分類(lèi)階段則利用已訓(xùn)練的分類(lèi)模型對(duì)所要檢測(cè)的文本數(shù)據(jù)進(jìn)行分類(lèi)。下面分別對(duì)這兩個(gè)階段所要完成的工作分別加以說(shuō)明。
[0031]參考圖1,本發(fā)明的方法在訓(xùn)練階段包括下列步驟:
[0032]步驟101)、采集數(shù)據(jù),并對(duì)所采集的數(shù)據(jù)進(jìn)行標(biāo)注,將這些已標(biāo)注的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。
[0033]本步驟在采集數(shù)據(jù)時(shí),可根據(jù)應(yīng)用的需求確定所采集數(shù)據(jù)的類(lèi)型。例如,若本發(fā)明的方法需應(yīng)用于一與金融業(yè)有關(guān)的應(yīng)用,則在采集數(shù)據(jù)時(shí)應(yīng)當(dāng)盡可能地采集一些金融領(lǐng)域的短文本。所采集數(shù)據(jù)的數(shù)量可根據(jù)需要而定,一般來(lái)說(shuō),數(shù)據(jù)的采集量越大,訓(xùn)練得到的分類(lèi)模型越準(zhǔn)確。
[0034]對(duì)所采集的數(shù)據(jù)進(jìn)行標(biāo)注是指對(duì)收集到的短文本打上領(lǐng)域標(biāo)簽,所述的領(lǐng)域標(biāo)簽?zāi)軌蚍从硵?shù)據(jù)所處的領(lǐng)域。比如,對(duì)于如下的一個(gè)短文本:“Fitbit推出WP應(yīng)用:成首款支持WP的智能手環(huán)”可標(biāo)注“計(jì)算機(jī)”領(lǐng)域標(biāo)簽。
[0035]步驟102)、對(duì)訓(xùn)練數(shù)據(jù)做預(yù)處理,所述預(yù)處理包括:剔除訓(xùn)練數(shù)據(jù)中的無(wú)效數(shù)據(jù)(如標(biāo)點(diǎn)、格式符等),去除停用詞(如“的”、“這個(gè)”、“那個(gè)”等一些沒(méi)有實(shí)質(zhì)意義的詞)。
[0036]特別的,對(duì)于中文數(shù)據(jù)還需要做分詞操作,如何對(duì)中文數(shù)據(jù)做分詞操作為本領(lǐng)域技術(shù)人員所公知,此處不再重復(fù)。
[0037]步驟103)、查詢?cè)~矢量詞典,將訓(xùn)練數(shù)據(jù)中所包含的文本數(shù)據(jù)轉(zhuǎn)化為向量數(shù)據(jù),并且按照領(lǐng)域進(jìn)行分隔。
[0038]在之前的步驟101)中,訓(xùn)練數(shù)據(jù)中所包含的文本數(shù)據(jù)帶有領(lǐng)域標(biāo)簽,在將文本數(shù)據(jù)轉(zhuǎn)化為向量數(shù)據(jù)后,這些向量數(shù)據(jù)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1