亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種詞語分析方法及裝置與流程

文檔序號:12906479閱讀:247來源:國知局
一種詞語分析方法及裝置與流程

本發(fā)明涉及信息處理技術(shù),尤其涉及一種詞語分析方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)和社交媒體的迅速發(fā)展,互聯(lián)網(wǎng)和社交媒體上每天都會有很多的新詞出現(xiàn)。所謂新詞指的是還未被收集到現(xiàn)有的詞典中的詞語。其中,有些新詞被用來表達(dá)網(wǎng)絡(luò)用戶對某一事物的觀點和態(tài)度,在此將其稱為新的情感詞。無論是已有的情感詞還是新的情感詞都是具有極性的。根據(jù)表達(dá)的情感不同,情感詞可分為表達(dá)正面情感的情感詞和表達(dá)負(fù)面情感的情感詞。

現(xiàn)有技術(shù)中提供了一種詞語分析方法。在該方法中,主要是利用了候選詞和種子情感詞之間的相似性來判斷該候選詞是否是情感詞。但是,在實際應(yīng)用中,即使是相同的情感詞在不同的上下文中也可能表示不同的情感。因此,僅通過兩個詞之間相似性分析而獲得的對候選詞的分析結(jié)果是不準(zhǔn)確的。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供一種詞語分析方法及裝置,能夠提高詞語分析結(jié)果的準(zhǔn)確性。

為解決上述技術(shù)問題,本發(fā)明提供一種詞語分析方法,包括:

獲取訓(xùn)練好的支持向量機分類器;其中,所述訓(xùn)練好的支持向量機分類器是利用種子情感詞對應(yīng)的第一詞向量和種子非情感詞對應(yīng)的第二詞向量訓(xùn)練得到的;所述第一詞向量通過對所述種子情感詞所在句子進(jìn)行分析獲得,所述第二詞向量通過對所述種子非情感詞所在句子進(jìn)行分析獲得;且所述種子情感詞和種子非情感詞都存在于現(xiàn)有詞典中;

獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量;

利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

其中,所述獲取訓(xùn)練好的支持向量機分類器,包括:

獲取所述種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量;

獲取所述種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量;

利用所述第一詞向量、所述第二詞向量訓(xùn)練支持向量機分類器,獲取所述訓(xùn)練好的支持向量機分類器。

其中,所述獲取所述種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量,包括:

對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的情感詞,并從所述情感詞中選擇種子情感詞;

獲取所述種子情感詞所在句子,并獲取所述種子情感詞所在句子的依存句法結(jié)構(gòu);

根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子情感詞的距離符合第一預(yù)設(shè)距離條件且與所述種子情感詞具有直接依存關(guān)系的第一候選詞語;

根據(jù)所述第一候選詞語和所述種子情感詞獲得所述第一詞向量。

其中,所述獲取所述種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量,包括:

對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的非情感詞,并從所述非情感詞中選擇種子非情感詞;

獲取所述種子非情感詞所在句子,并獲取所述種子非情感詞所在句子的依存句法結(jié)構(gòu);

根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子非情感詞的距離符合第二預(yù)設(shè)距離條件且與所述種子非情感詞具有直接依存關(guān)系的第二候選詞語;

根據(jù)所述第二候選詞語和所述種子非情感詞獲得所述第二詞向量。

其中,所述獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量,包括:

對第二預(yù)設(shè)文檔進(jìn)行分析,獲取所述第二預(yù)設(shè)文檔中的新詞,其中所述新詞未存在于所述現(xiàn)有詞典中;

從所述新詞中獲取新的待識別情感詞以及所述新的待識別情感詞所在句子;

獲取所述新的待識別情感詞所在句子的依存句法結(jié)構(gòu),并根據(jù)所述依存句法結(jié)構(gòu)選擇與所述新的待識別情感詞的距離符合第三預(yù)設(shè)距離條件且與所述新的待識別情感詞具有直接依存關(guān)系的第三候選詞語;

根據(jù)所述第三候選詞語和所述新的待識別情感詞獲得所述第三詞向量。

其中,所述利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性,包括:

將所述第三詞向量輸入到所述訓(xùn)練好的支持向量機分類器;

根據(jù)所述訓(xùn)練好的支持向量機分類器的輸出確定所述新的待識別情感詞的極性。

第二方面,本發(fā)明提供一種詞語分析裝置,包括:

第一獲取模塊,用于獲取訓(xùn)練好的支持向量機分類器;其中,所述訓(xùn)練好的支持向量機分類器是利用種子情感詞對應(yīng)的第一詞向量和種子非情感詞對應(yīng)的第二詞向量訓(xùn)練得到的;所述第一詞向量通過對所述種子情感詞所在句子進(jìn)行分析獲得,所述第二詞向量通過對所述種子非情感詞所在句子進(jìn)行分析獲得;且所述種子情感詞和種子非情感詞都存在于現(xiàn)有詞典中;

第二獲取模塊,用于獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量;

分析模塊,用于利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

其中,所述第一獲取模塊包括:

第一獲取子模塊,用于獲取所述種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量;

第二獲取子模塊,用于獲取所述種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量;

第三獲取子模塊,用于利用所述第一詞向量、所述第二詞向量訓(xùn)練支持向 量機分類器,獲取訓(xùn)練好的支持向量機分類器。

其中,所述第一獲取子模塊包括:

第一獲取單元,用于對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的情感詞;

第一選擇單元,用于從所述情感詞中選擇種子情感詞;

第二獲取單元,用于獲取所述種子情感詞所在句子,并獲取所述種子情感詞所在句子的依存句法結(jié)構(gòu);

第二選擇單元,用于根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子情感詞的距離符合第一預(yù)設(shè)距離條件且與所述種子情感詞具有直接依存關(guān)系的第一候選詞語;

第一詞向量獲取單元,用于根據(jù)所述第一候選詞語和所述種子情感詞獲得所述第一詞向量。

其中,所述第二獲取子模塊包括:

第三獲取單元,用于對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的非情感詞;

第三選擇單元,用于從所述非情感詞中選擇種子非情感詞;

第四獲取單元,用于獲取所述種子非情感詞所在句子,并獲取所述種子非情感詞所在句子的依存句法結(jié)構(gòu);

第四選擇單元,用于根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子非情感詞的距離符合第二預(yù)設(shè)距離條件且與所述種子非情感詞具有直接依存關(guān)系的第二候選詞語;

第二詞向量獲取單元,用于根據(jù)所述第二候選詞語和所述種子非情感詞獲得所述第二詞向量。

其中,所述第二獲取模塊包括:

第五獲取子模塊,用于對第二預(yù)設(shè)文檔進(jìn)行分析,獲取所述第二預(yù)設(shè)文檔中的新詞,其中所述新詞未存在于現(xiàn)有詞典中;

第六獲取子模塊,用于從所述新詞中獲取新的待識別情感詞以及所述新的待識別情感詞所在句子;

第七獲取子模塊,用于獲取所述新的待識別情感詞所在句子的依存句法結(jié) 構(gòu),并根據(jù)所述依存句法結(jié)構(gòu)選擇與所述新的待識別情感詞的距離符合第三預(yù)設(shè)距離條件且與所述新的待識別情感詞具有直接依存關(guān)系的第三候選詞語;

第三詞向量獲取子模塊,用于根據(jù)所述第三候選詞語和所述新的待識別情感詞獲得所述第三詞向量。

其中,所述分析模塊包括:

輸入子模塊,用于將所述第三詞向量輸入到所述訓(xùn)練好的支持向量機分類器;

分析子模塊,用于根據(jù)所述訓(xùn)練好的支持向量機分類器的輸出確定所述新的待識別情感詞的極性。

本發(fā)明的上述技術(shù)方案的有益效果如下:

在本發(fā)明實施例中,利用現(xiàn)有詞典中的種子情感詞和種子非情感詞對應(yīng)的第一詞向量和第二詞向量,訓(xùn)練支持向量機分類器,獲取訓(xùn)練好的支持向量機分類器。然后,再利用所述訓(xùn)練好的支持向量機分類器和新的待識別情感詞對應(yīng)的第三詞向量確定所述新的待識別情感詞的極性。其中,第一詞向量、第二詞向量、第三詞向量分別是通過對所述種子情感詞所在句子、種子非情感詞、新的待識別情感詞所在句子進(jìn)行分析獲得的,也就是說本發(fā)明實施例中獲得的詞向量考慮了種子情感詞、種子非情感詞、新的待識別情感詞所在的上下文環(huán)境,因而在利用訓(xùn)練好的支持向量機分類器對新的待識別情感詞進(jìn)行分析時結(jié)果更準(zhǔn)確。

附圖說明

圖1為本發(fā)明第一實施例的詞語分析方法的流程圖;

圖2為本發(fā)明第二實施例的詞語分析方法的流程圖;

圖3為本發(fā)明第二實施例中步驟21的過程示意圖;

圖4為本發(fā)明第二實施例中步驟22的過程示意圖;

圖5為本發(fā)明第二實施例中步驟24的過程示意圖;

圖6為本發(fā)明第三實施例的詞語分析裝置的示意圖;

圖7為本發(fā)明第四實施例的電子設(shè)備的示意圖;

圖8為本發(fā)明第五實施例的電子設(shè)備的示意圖。

具體實施方式

下面將結(jié)合附圖和實施例,對本發(fā)明的具體實施方式作進(jìn)一步詳細(xì)描述。以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。

如圖1所示,本發(fā)明第一實施例的詞語分析方法,包括:

步驟11、獲取訓(xùn)練好的支持向量機分類器。

在本發(fā)明實施例中,主要是利用支持向量機(supportvectormachine,svm)分類器來對詞語進(jìn)行分類。所述訓(xùn)練好的支持向量機分類器是利用種子情感詞對應(yīng)的第一詞向量和種子非情感詞對應(yīng)的第二詞向量訓(xùn)練得到的;所述第一詞向量通過對所述種子情感詞所在句子進(jìn)行分析獲得,所述第二詞向量通過對所述種子非情感詞所在句子進(jìn)行分析獲得。

在此步驟中,通過如下過程獲得訓(xùn)練好的支持向量機分類器。

步驟111、獲取種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量。

步驟112、獲取種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量。

在本發(fā)明實施例中,種子情感詞和種子非情感詞都來源于現(xiàn)有詞典。其中,現(xiàn)有詞典可包括現(xiàn)有情感詞典,現(xiàn)有非情感詞典等等。也就是說,種子情感詞和種子非情感詞都是現(xiàn)有的詞語。其中,現(xiàn)有的情感詞典中的詞語是通過對大量社交媒體的詞語進(jìn)行分析獲得,如微博,網(wǎng)絡(luò)等。在此,假設(shè)種子情感詞和種子非情感詞來自于某個給定的文檔,在此將其稱為第一預(yù)設(shè)文檔。

步驟113、利用所述第一詞向量、所述第二詞向量訓(xùn)練支持向量機分類器,獲取所述訓(xùn)練好的支持向量機分類器。

在此,將第一詞向量、第二詞向量作為輸入,訓(xùn)練svm分類器,對各詞向量進(jìn)行標(biāo)注。其中,對詞向量進(jìn)行標(biāo)注的結(jié)果也即svm的輸出為1,-1,0。其中1表示某個情感詞是正面情感詞,-1表示某個情感詞是負(fù)面情感詞,0表示某個情感詞不是情感詞。

步驟12、獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量。

其中,所述新的待識別情感詞指的是不存在于現(xiàn)有詞典中的待識別情感詞。在此步驟中,包括如下過程:

步驟121、對第二預(yù)設(shè)文檔進(jìn)行分析,獲取所述第二預(yù)設(shè)文檔中的新詞,其中所述新詞未存在于所述現(xiàn)有詞典中。

在此,可將第二預(yù)設(shè)文檔中出現(xiàn)的詞語和現(xiàn)有詞典中的詞進(jìn)行比較,以確定第二預(yù)設(shè)文檔中的新詞。其中,該第二預(yù)設(shè)文檔與第一預(yù)設(shè)文檔不存在基于交集。也即,第二預(yù)設(shè)文檔可以是不同于第一預(yù)設(shè)文檔的文檔。

步驟122、在從所述新詞中獲取新的待識別情感詞,并確定所述新的待識別情感詞所在句子。其中新的待識別情感詞多為形容詞,副詞等。其中,新的待識別情感詞指的是未存在于現(xiàn)有情感詞典中的詞。

步驟123、對于新的待識別情感詞所在的句子,獲取所述新的待識別情感詞所在句子的依存句法結(jié)構(gòu),并根據(jù)所述依存句法結(jié)構(gòu)選擇與所述新的待識別情感詞的距離符合預(yù)設(shè)距離條件且與所述新的待識別情感詞具有直接依存關(guān)系的候選詞語。

其中,某個詞語與新的待識別情感詞的距離指的是該某個詞語與新的待識別情感詞之間間隔詞語的個數(shù);具有直接依存關(guān)系指的是該詞語可以直接和新的待識別情感詞形成一個句法結(jié)構(gòu)。在具體應(yīng)用中,該預(yù)設(shè)距離條件可任意設(shè)置。例如該預(yù)設(shè)距離條件可以是距離值,如1等。

步驟124、根據(jù)所述候選詞語和所述新的待識別情感詞獲得所述第三詞向量。

步驟13、利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

在此步驟中,將所述第三詞向量輸入到所述訓(xùn)練好的支持向量機分類器,并根據(jù)所述訓(xùn)練好的支持向量機分類器的輸出確定所述新的待識別情感詞的極性。

其中分類器的輸出為1,-1,0。其中1表示新的待識別情感詞是正面情感詞,-1表示新的待識別情感詞是負(fù)面情感詞,0表示新的待識別情感詞不是情感詞。

由上可以看出,在本發(fā)明實施例中,利用現(xiàn)有詞典中的種子情感詞和種子 非情感詞對應(yīng)的第一詞向量和第二詞向量,訓(xùn)練支持向量機分類器,獲取訓(xùn)練好的支持向量機分類器。然后,再利用所述訓(xùn)練好的支持向量機分類器和新的待識別情感詞對應(yīng)的第三詞向量確定所述新的待識別情感詞的極性。其中,第一詞向量、第二詞向量、第三詞向量分別是通過對所述種子情感詞所在句子、種子非情感詞、新的待識別情感詞所在句子進(jìn)行分析獲得的,也就是說本發(fā)明實施例中獲得的詞向量考慮了種子情感詞、種子非情感詞、新的待識別情感詞所在的上下文環(huán)境,因而在利用訓(xùn)練好的支持向量機分類器對新的待識別情感詞進(jìn)行分析時結(jié)果更準(zhǔn)確。

如圖2所示,本發(fā)明第二實施例的詞語分析方法,包括:

步驟21、獲取種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量。

如前所述,在本發(fā)明實施例中,種子情感詞和種子非情感詞都來源于現(xiàn)有詞典,例如現(xiàn)有情感詞典。也就是說,種子情感詞和種子非情感詞都是現(xiàn)有的詞語。其中,現(xiàn)有的情感詞典中的詞語是通過對大量社交媒體的詞語進(jìn)行分析獲得,如微博,網(wǎng)絡(luò)等。

假定在本發(fā)明實施例中給定一篇文檔,在此將其稱為第一預(yù)設(shè)文檔。在具體應(yīng)用中,如圖3所示,此步驟可包括如下內(nèi)容:

步驟211、在該第一預(yù)設(shè)文檔中,將該文檔中的詞語和現(xiàn)有的情感詞典中的詞語進(jìn)行比較,獲取第一預(yù)設(shè)文檔中的情感詞。其中情感詞多為形容詞,副詞等。

步驟212、基于各情感詞的出現(xiàn)頻率或者基于概率的統(tǒng)計方法等從各情感詞中選擇種子情感詞。其中,該種子情感詞可以為1個或者多個。

步驟213、在確定了種子情感詞之后,在該第一預(yù)設(shè)文檔中獲取該種子情感詞所在的句子,并確定種子情感詞所在句子的依存句法結(jié)構(gòu)。

其中,該依存句法結(jié)構(gòu)包括主謂關(guān)系,動賓關(guān)系等。

步驟214、根據(jù)確定所述依存句法結(jié)構(gòu),選擇與所述種子情感詞的距離符合第一預(yù)設(shè)距離條件且與所述種子情感詞具有直接依存關(guān)系的第一候選詞語。

其中,某個詞語與種子情感詞的距離指的是該某個詞語與種子情感詞之間間隔詞語的個數(shù);具有直接依存關(guān)系指的是該詞語可以直接和種子情感詞形成 一個句法結(jié)構(gòu)。在具體應(yīng)用中,該第一預(yù)設(shè)距離條件可任意設(shè)置。例如該第一預(yù)設(shè)距離條件可以是距離值,如1等。

步驟215、根據(jù)所述第一候選詞語和所述種子情感詞獲得所述第一詞向量。

假設(shè),通過步驟211和212確定的種子情感詞為“高興的”、“不得了”,它所在的句子為“這個可愛的小寶貝高興的真是不得了”。其中,“小寶貝”、“不得了”都能和“高興的”組成獨立的句法結(jié)構(gòu),且“小寶貝”和“高興的”、“不得了”和“高興的”具有直接的依存關(guān)系,而“小寶貝”和“不得了”則不具有直接的依存關(guān)系。在這句話中,“小寶貝”和“高興的”、“不得了”和“高興的”之間的距離分別是0和1。

步驟22、獲取種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量。如圖4所示,該步驟包括:

步驟221、在上述第一預(yù)設(shè)文檔中,可以將該文檔中的詞語和現(xiàn)有的情感詞典中的詞語進(jìn)行比較,獲取第一預(yù)設(shè)文檔中的非情感詞。其中非情感詞多為名詞等。

步驟222、基于各非情感詞的出現(xiàn)頻率或者基于概率的統(tǒng)計方法等從各非情感詞中選擇種子非情感詞。

其中,該種子非情感詞可以為1個或者多個。

步驟223、在確定了種子非情感詞之后,在該第一預(yù)設(shè)文檔中獲取該種子非情感詞所在的句子,并確定種子非情感詞所在句子的依存句法結(jié)構(gòu)。

其中,該依存句法結(jié)構(gòu)包括主謂關(guān)系,動賓關(guān)系等。

步驟224、根據(jù)確定的所述依存句法結(jié)構(gòu),選擇與所述種子非情感詞的距離符合第二預(yù)設(shè)距離條件且與所述種子非情感詞具有直接依存關(guān)系的第二候選詞語。

同理,某個詞語與種子非情感詞的距離指的是該某個詞語與種子非情感詞之間間隔詞語的個數(shù);具有直接依存關(guān)系指的是該詞語可以直接和種子非情感詞形成一個句法結(jié)構(gòu)。在具體應(yīng)用中,該第二預(yù)設(shè)距離條件可任意設(shè)置,且可與第一預(yù)設(shè)距離條件設(shè)置為相同或者不同。例如該第二預(yù)設(shè)距離條件可以是距離值,如1等。

步驟225、根據(jù)所述第二候選詞語和所述種子非情感詞獲得所述第二詞向量。

假設(shè),通過步驟221和222確定的種子非情感詞為“小寶貝”。它所在的句子為“這個可愛的小寶貝高興的不得了”。其中,“可愛的”、“高興的”、“這個”都能和“小寶貝”組成獨立的句法結(jié)構(gòu),且“可愛的”和“小寶貝”、“高興的”和“小寶貝”、“這個”和“小寶貝”具有直接的依存關(guān)系。在這句話中,“可愛的”和“小寶貝”、“高興的”和“小寶貝”、“這個”和“小寶貝”之間的距離分別是0、1、0。

在步驟21和22中,種子情感詞和種子非情感詞可統(tǒng)稱為種子詞。通過步驟21或22所確定的第一詞向量或第二詞向量可表示為如下的形式:

(pv1,pv2,...,pvk,vi,nv1,nv2,...,nvj),其中vi是種子詞的詞向量,pv1,pv2,...,pvk是種子詞所在的句子中位于種子詞前面k個詞的詞向量,nv1,nv2,...,nvj是種子詞所在的句子中位于種子詞后面j個詞的詞向量,k,j均為整數(shù)。在此,pv1,pv2,...,pvk,vi,nv1,nv2,...,nvj等都可利用word2vector訓(xùn)練得到。

步驟23、利用所述第一詞向量、所述第二詞向量訓(xùn)練支持向量機分類器,獲得訓(xùn)練好的支持向量機分類器。

在本發(fā)明實施例中,主要是利用支持向量機(supportvectormachine,svm)分類器來對詞語進(jìn)行分類。在此,將第一詞向量、第二詞向量作為輸入,訓(xùn)練svm分類器,對各詞向量進(jìn)行標(biāo)注。其中,對詞向量進(jìn)行標(biāo)注的結(jié)果也即svm的輸出為1,-1,0。其中1表示某個情感詞是正面情感詞,-1表示某個情感詞是負(fù)面情感詞,0表示某個情感詞不是情感詞。

步驟24、獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量。

在此步驟中,如圖5所示,包括如下過程:

步驟241、對第二預(yù)設(shè)文檔進(jìn)行分析,獲取所述第二預(yù)設(shè)文檔中的新詞,其中所述新詞未存在于所述現(xiàn)有詞典中。

其中,該第二預(yù)設(shè)文檔與第一預(yù)設(shè)文檔不存在基于交集。也即,第二預(yù)設(shè)文檔可以是不同于第一預(yù)設(shè)文檔的文檔。在此,可將第二文檔中出現(xiàn)的詞語和 現(xiàn)有詞典中的詞進(jìn)行比較,以確定第二文檔中的新詞。

步驟242、從所述新詞中獲取新的待識別情感詞,并確定所述新的待識別情感詞所在句子。其中新的待識別情感詞多為形容詞,副詞等。

步驟243、對于新的待識別情感詞所在的句子,獲取所述新的待識別情感詞所在句子的依存句法結(jié)構(gòu),并根據(jù)所述依存句法結(jié)構(gòu)選擇與所述新的待識別情感詞的距離符合第三預(yù)設(shè)距離條件且與所述新的待識別情感詞具有直接依存關(guān)系的第三候選詞語。

其中,某個詞語與其中,某個詞語與種子情感詞的距離指的是該某個詞語與新的待識別情感詞之間間隔詞語的個數(shù);具有直接依存關(guān)系指的是該詞語可以直接和新的待識別情感詞形成一個句法結(jié)構(gòu)。在具體應(yīng)用中,該第三預(yù)設(shè)距離條件可任意設(shè)置。例如該第三預(yù)設(shè)距離條件可以是距離值,如1等。其中,該第三預(yù)設(shè)距離條件可以與前述的第一、第二預(yù)設(shè)距離條件相同或者不同。

步驟244、根據(jù)所述第三候選詞語和所述新的待識別情感詞獲得所述第三詞向量。

步驟25、利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

在此步驟中,將所述第三詞向量輸入到所述訓(xùn)練好的支持向量機分類器,并根據(jù)所述訓(xùn)練好的支持向量機分類器的輸出確定所述新的待識別情感詞的極性。

其中分類器的輸出為1,-1,0。其中1表示新的待識別情感詞是正面情感詞,-1表示新的待識別情感詞是負(fù)面情感詞,0表示新的待識別情感詞不是情感詞。

在本發(fā)明實施例中,所述種子情感詞的詞向量、所述種子非情感詞的詞向量、所述新的待識別情感詞的詞向量,以及分別與所述種子情感詞、所述種子非情感詞、所述新的待識別情感詞具有依存句法結(jié)構(gòu)的詞語所對應(yīng)的詞向量等都可利用word2vector訓(xùn)練得到。而由第一詞向量或第二詞向量的表示形式可以看出,第一詞向量是由種子情感詞的詞向量和與所述種子情感詞具有依存句法結(jié)構(gòu)的詞語所對應(yīng)的詞向量形成,第二詞向量是由種子非情感詞的詞向量和與所述種子非情感詞具有依存句法結(jié)構(gòu)的詞語所對應(yīng)的詞向量形成,第三詞向 量是由新的待識別情感詞的詞向量和與所述新的待識別情感詞具有依存句法結(jié)構(gòu)的詞語所對應(yīng)的詞向量形成。

由上可以看出,在本發(fā)明實施例中,利用現(xiàn)有詞典中的種子情感詞和種子非情感詞對應(yīng)的第一詞向量和第二詞向量,訓(xùn)練支持向量機分類器,獲得訓(xùn)練好的支持向量機分類器。然后,再利用所述訓(xùn)練好的支持向量機分類器和新的待識別情感詞對應(yīng)的第三詞向量確定所述新的待識別情感詞的極性。其中,第一詞向量、第二詞向量、第三詞向量分別是通過對所述種子情感詞所在句子、種子非情感詞、新的待識別情感詞所在句子進(jìn)行分析獲得的,也就是說本發(fā)明實施例中獲得的詞向量考慮了種子情感詞、種子非情感詞、新的待識別情感詞所在的上下文環(huán)境,因而在利用訓(xùn)練好的支持向量機分類器對新的待識別情感詞進(jìn)行分析時結(jié)果更準(zhǔn)確。

如圖6所示,本發(fā)明第三實施例的詞語分析裝置包括:

第一獲取模塊31,用于獲取訓(xùn)練好的支持向量機分類器;其中,所述訓(xùn)練好的支持向量機分類器是利用種子情感詞對應(yīng)的第一詞向量和種子非情感詞對應(yīng)的第二詞向量訓(xùn)練得到的;所述第一詞向量通過對所述種子情感詞所在句子進(jìn)行分析獲得,所述第二詞向量通過對所述種子非情感詞所在句子進(jìn)行分析獲得;且所述種子情感詞和種子非情感詞都存在于現(xiàn)有詞典中;第二獲取模塊32,用于獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量;分析模塊33,用于利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

其中,所述第一獲取模塊31可包括:

第一獲取子模塊,用于獲取種子情感詞,并通過對所述種子情感詞所在句子進(jìn)行分析獲得所述種子情感詞對應(yīng)的第一詞向量;

第二獲取子模塊,用于獲取種子非情感詞,并通過對所述種子非情感詞所在句子進(jìn)行分析獲得所述種子非情感詞對應(yīng)的第二詞向量;其中,所述種子情感詞和種子非情感詞均存在于現(xiàn)有詞典中;

第三獲取子模塊,用于利用所述第一詞向量、所述第二詞向量訓(xùn)練支持向量機分類器,獲取訓(xùn)練好的支持向量機分類器。

在具體應(yīng)用中,所述第一獲取子模塊包括:第一獲取單元,用于對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的情感詞;第一選擇單元,用于從所述情感詞中選擇種子情感詞;第二獲取單元,用于獲取所述種子情感詞所在句子,并獲取所述種子情感詞所在句子的依存句法結(jié)構(gòu);第二選擇單元,用于根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子情感詞的距離符合第一預(yù)設(shè)距離條件且與所述種子情感詞具有直接依存關(guān)系的第一候選詞語;第一詞向量獲取單元,用于根據(jù)所述第一候選詞語和所述種子情感詞獲得所述第一詞向量。

在具體應(yīng)用中,所述第二獲取子模塊包括:第三獲取單元,用于對第一預(yù)設(shè)文檔進(jìn)行分析,獲取所述第一預(yù)設(shè)文檔中的非情感詞;第三選擇單元,用于從所述非情感詞中選擇種子非情感詞;第四獲取單元,用于獲取所述種子非情感詞所在句子,并獲取所述種子非情感詞所在句子的依存句法結(jié)構(gòu);第四選擇單元,用于根據(jù)所述依存句法結(jié)構(gòu),選擇與所述種子非情感詞的距離符合第二預(yù)設(shè)距離條件且與所述種子非情感詞具有直接依存關(guān)系的第二候選詞語;第二詞向量獲取單元,用于根據(jù)所述第二候選詞語和所述種子非情感詞獲得所述第二詞向量。

其中,所述第二獲取模塊32可包括:

第五獲取子模塊,用于對第二預(yù)設(shè)文檔進(jìn)行分析,獲取所述第二預(yù)設(shè)文檔中的新詞,其中所述新詞未存在于現(xiàn)有詞典中;

第六獲取子模塊,用于從所述新詞中獲取新的待識別情感詞以及所述新的待識別情感詞所在句子;

第七獲取子模塊,用于獲取所述新的待識別情感詞所在句子的依存句法結(jié)構(gòu),并根據(jù)所述依存句法結(jié)構(gòu)選擇與所述新的待識別情感詞的距離符合第三預(yù)設(shè)距離條件且與所述新的待識別情感詞具有直接依存關(guān)系的第三候選詞語;

第三詞向量獲取子模塊,用于根據(jù)所述第三候選詞語和所述新的待識別情感詞獲得所述第三詞向量。

其中,所述分析模塊33可包括:

輸入子模塊,用于將所述第三詞向量輸入到所述訓(xùn)練好的支持向量機分類器;分析子模塊,用于根據(jù)所述訓(xùn)練好的支持向量機分類器的輸出確定所述新的待識別情感詞的極性。

本發(fā)明所述裝置的工作原理可參照前述方法實施例的描述。

由上可以看出,在本發(fā)明實施例中,第一詞向量、第二詞向量、第三詞向量分別是通過對所述種子情感詞所在句子、種子非情感詞、新的待識別情感詞所在句子進(jìn)行分析獲得的,也就是說本發(fā)明實施例中獲得的詞向量考慮了種子情感詞、種子非情感詞、新的待識別情感詞所在的上下文環(huán)境,因而在利用訓(xùn)練好的支持向量機分類器對新的待識別情感詞進(jìn)行分析時結(jié)果更準(zhǔn)確。

如圖7所示,本發(fā)明第四實施例還提供了一種電子設(shè)備,可以實現(xiàn)本發(fā)明圖1-5所示實施例的流程。所述電子設(shè)備可以是個人電腦(pc),平板電腦以及各種智能設(shè)備(包括智能手機)等。如圖4所示,上述電子設(shè)備可以包括:殼體41、處理器42、存儲器43、電路板44和電源電路45,其中,電路板44安置在殼體41圍成的空間內(nèi)部,處理器42和存儲器43設(shè)置在電路板44上;電源電路45,用于為上述電子設(shè)備的各個電路或器件供電;存儲器43用于存儲可執(zhí)行程序代碼;處理器42通過讀取存儲器43中存儲的可執(zhí)行程序代碼來運行與可執(zhí)行程序代碼對應(yīng)的程序,用于執(zhí)行以下步驟:

獲取訓(xùn)練好的支持向量機分類器;其中,所述訓(xùn)練好的支持向量機分類器是利用種子情感詞對應(yīng)的第一詞向量和種子非情感詞對應(yīng)的第二詞向量訓(xùn)練得到的;所述第一詞向量通過對所述種子情感詞所在句子進(jìn)行分析獲得,所述第二詞向量通過對所述種子非情感詞所在句子進(jìn)行分析獲得;且所述種子情感詞和種子非情感詞都存在于現(xiàn)有詞典中;

獲取新的待識別情感詞,并通過對所述新的待識別情感詞所在句子進(jìn)行分析獲得所述新的待識別情感詞對應(yīng)的第三詞向量;

利用所述訓(xùn)練好的支持向量機分類器和所述第三詞向量確定所述新的待識別情感詞的極性。

由上可以看出,在本發(fā)明實施例中,第一詞向量、第二詞向量、第三詞向量分別是通過對所述種子情感詞所在句子、種子非情感詞、新的待識別情感詞所在句子進(jìn)行分析獲得的,也就是說本發(fā)明實施例中獲得的詞向量考慮了種子情感詞、種子非情感詞、新的待識別情感詞所在的上下文環(huán)境,因而在利用訓(xùn)練好的支持向量機分類器對新的待識別情感詞進(jìn)行分析時結(jié)果更準(zhǔn)確。

如圖8所示,本發(fā)明實施例五提供了一種電子設(shè)備,包括:文檔收集裝置 510,輸入裝置520,硬盤530,cpu(centralprocessingunit,中央處理單元)540,內(nèi)存550和顯示裝置560。文檔收集裝置510用于連接互聯(lián)網(wǎng)以用來從社交媒體中抓取數(shù)據(jù)。輸入裝置520用于輸入抓取的社交媒體數(shù)據(jù)。硬盤530用于存儲510收集的社交媒體數(shù)據(jù)。cpu540用于訓(xùn)練分類器并識別新的情感詞。內(nèi)存550用于存儲模型訓(xùn)練和數(shù)據(jù)處理中的臨時變量。顯示裝置560用來顯示識別的新情感詞。

以上所述是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1