情感分類方法及裝置的制造方法
【專利摘要】本公開實施例提供了一種情感分類方法及裝置,包括:獲取待處理文檔中的多個關(guān)鍵詞,按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞,利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別,統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量,將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。本公開能夠通過提取文檔關(guān)鍵詞,獲取情感主體關(guān)鍵詞集合,有效的利用文檔情感主體信息,忽略與待處理文檔情感主體無關(guān)的噪音,通過關(guān)聯(lián)規(guī)則算法,挖掘文檔中與關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞的集合,將文檔中詞與詞的語義結(jié)構(gòu)關(guān)系利用起來,有效的提高文檔情感分類的準(zhǔn)確度。
【專利說明】
情感分類方法及裝置
技術(shù)領(lǐng)域
[0001]本公開涉及計算機(jī)技術(shù)領(lǐng)域,尤其涉及一種情感分類方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的普遍發(fā)展,在每部電影上映后,互聯(lián)網(wǎng)上會產(chǎn)生大量的帶有用戶各種情感色彩或情感傾向性的新聞評論,這不僅可以給商家提供了一個關(guān)于電影輿論信息的平臺,也可以為消費(fèi)者提供了觀影依據(jù)。
[0003]目前商家和消費(fèi)者一般是通過手動搜索、瀏覽網(wǎng)絡(luò)上的所有關(guān)于影片的信息,在搜索過程中還要人工篩選并甄別一些無用信息,篩選效率低、速度慢,這將浪費(fèi)消費(fèi)者及商家的大量時間和精力。
【發(fā)明內(nèi)容】
[0004]為克服相關(guān)技術(shù)中存在的問題,本公開提供一種情感分類方法及裝置。
[0005]根據(jù)本公開實施例的第一方面,提供一種情感分類方法,包括:
[0006]獲取待處理文檔中的多個關(guān)鍵詞;
[0007]按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞;
[0008]利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別;
[0009]統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量;
[0010]將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。
[0011]可選地,所述按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞,包括:
[0012]獲取待處理文檔中所有詞語的詞性;
[0013]將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除;
[0014]判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對;
[0015]當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對;
[0016]當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。
[0017]可選地,所述方法還包括:
[0018]將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式;
[0019]利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型;
[0020]獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞;
[0021]根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞;
[0022]選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞;
[0023]根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。
[0024]可選地,所述獲取待處理文檔中的多個關(guān)鍵詞,包括:
[0025]獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞;
[0026]或者,獲取用戶輸入的關(guān)鍵詞。
[0027]可選地,所述獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞,包括:
[0028]將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除;
[0029]計算每個詞語的詞頻;
[0030]計算每個詞語的逆文檔頻率;
[0031]根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。
[0032]根據(jù)本公開實施例的第二方面,提供一種情感分類裝置,包括:
[0033]第一獲取模塊,用于獲取待處理文檔中的多個關(guān)鍵詞;
[0034]查找模塊,用于按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞;
[0035]第一確定模塊,用于利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別;
[0036]統(tǒng)計模塊,用于統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量;
[0037]第二確定模塊,用于將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。
[0038]可選地,所述查找模塊包括:
[0039]第一獲取子模塊,用于獲取待處理文檔中所有詞語的詞性;
[0040]刪除子模塊,用于將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除;
[0041]第一判斷子模塊,用于判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對;
[0042]第二判斷子模塊,用于當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對;
[0043]確定子模塊,用于當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。
[0044]可選地,所述裝置還包括:
[0045]轉(zhuǎn)化模塊,用于將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式;
[0046]訓(xùn)練模塊,用于利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型;
[0047]第二獲取模塊,用于獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞;
[0048]計算模塊,用于根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞;
[0049]選取模塊,用于選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞;
[0050]構(gòu)建模塊,用于根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。
[0051]可選地,所述第一獲取模塊包括:
[0052]第二獲取子模塊,用于獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞;
[0053]或者,第三獲取子模塊,用于獲取用戶輸入的關(guān)鍵詞。
[0054]可選地,所述第二獲取子模塊包括:
[0055]刪除單元,用于將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除;
[0056]第一計算單元,用于計算每個詞語的詞頻;
[0057]第二計算單元,用于計算每個詞語的逆文檔頻率;
[0058]確定單元,用于根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。
[0059]本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
[0060]本公開通過獲取待處理文檔中的多個關(guān)鍵詞,按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞,利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別,統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量,可以將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。
[0061]本公開提供的該方法,能夠通過提取文檔關(guān)鍵詞,獲取情感主體關(guān)鍵詞集合,有效的利用文檔情感主體信息,忽略與待處理文檔情感主體無關(guān)的噪音,通過關(guān)聯(lián)規(guī)則算法,挖掘文檔中與關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞的集合,將文檔中詞與詞的語義結(jié)構(gòu)關(guān)系利用起來,有效的提高文檔情感分類的準(zhǔn)確度。
[0062]應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0063]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本發(fā)明的實施例,并與說明書一起用于解釋本發(fā)明的原理。
[0064]圖1是根據(jù)一示例性實施例示出的一種情感分類方法的流程圖;
[0065]圖2是圖1中步驟S102的流程圖;
[0066]圖3是根據(jù)一示例性實施例示出的一種情感分類方法的另一種流程圖;
[0067]圖4是圖1中步驟SlOl的流程圖;
[0068]圖5是根據(jù)一示例性實施例示出的一種情感分類裝置的結(jié)構(gòu)圖。
【具體實施方式】
[0069]這里將詳細(xì)地對示例性實施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本發(fā)明相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
[0070]為了能夠根據(jù)文檔的情感主題對文檔進(jìn)行情感分類,如圖1所示,在本公開的一個實施例中,提供一種情感分類方法,包括以下步驟。
[0071]在步驟SlOl中,獲取待處理文檔中的多個關(guān)鍵詞。
[0072]在實際應(yīng)用中,如果某個詞語在某篇文本中出現(xiàn)次數(shù)越多,則這個詞語可能對該文本越重要,出現(xiàn)次數(shù)通過詞頻(Term Frequency,縮寫為TF)統(tǒng)計得到。但是對于所有文本來說,某個詞出現(xiàn)的次越多,該詞語對所有文本越?jīng)]有區(qū)分性,反而越不重要,因此,需要找到一個權(quán)重系數(shù),衡量該詞的重要性。如果一個詞不常見,但是它在該文本中多次出現(xiàn),那么它在一定程度上體現(xiàn)了該文本的特性,即可以作為關(guān)鍵詞,可以使用逆檔頻率(Inverse Document Frequency,縮寫為IDF)作為權(quán)重系數(shù),將詞頻(TF)和逆文檔頻率(IDF)這兩個值相乘,就得到了一個詞的TF-1DF值,某個詞的TF-1DF值越大,則該詞對文章的重要性越高,本公開實施例對一部電影下的所有新聞,計算其所有詞語的TF-1DF值,通過設(shè)置一個閾值,構(gòu)成一個關(guān)鍵詞集合K。
[0073]在該步驟中,可以在待處理文檔中提取多個出現(xiàn)頻率最高得到多個關(guān)鍵詞,也可以在待處理文檔中提取最重要的多個關(guān)鍵詞,還可以獲取用戶輸入的多個關(guān)鍵詞。
[0074]在步驟S102中,按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)
Τ.κ| ο
[0075]在本公開實施例中,預(yù)設(shè)關(guān)聯(lián)方式可以指Apr1ri關(guān)聯(lián)規(guī)則算法,關(guān)聯(lián)詞可以指與關(guān)鍵詞關(guān)聯(lián)的詞語,關(guān)聯(lián)是指支持度和置信度大于等于給定的最小支持度閾值和最小置信度閾值。
[0076]在該步驟中,可以利用Apr1ri關(guān)聯(lián)規(guī)則算法在待處理文檔中查找與關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞。
[0077]在步驟S103中,利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別。
[0078]在本公開實施例中,預(yù)設(shè)情感詞典中的詞語可以分為三個情感類別,正面情感類另O、中性情感類別和負(fù)面情感類別,例如:喜歡、好、優(yōu)秀、經(jīng)典和愛不釋手等可以為正面情感類別的詞語,一般、不好不壞等可以為中性情感類別的詞語,無聊、差、乏味等可以為負(fù)面情感類別的詞語等。
[0079]在該步驟中,可以將每個關(guān)鍵詞和關(guān)聯(lián)詞分別于預(yù)設(shè)情感詞典中的所有詞語進(jìn)行對比,若當(dāng)前關(guān)鍵詞或者是關(guān)聯(lián)詞與預(yù)設(shè)情感詞典中的任意一個詞語相同,則可以將當(dāng)前關(guān)鍵詞或者關(guān)聯(lián)詞的情感類別確定為該預(yù)設(shè)情感詞典中的詞語所屬的情感類別。
[0080]在步驟S104中,統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量。
[0081]在該步驟中,可以針對每個情感類別設(shè)置一個情感變量,例如:countP、countM和countN,在每檢測到任何一個與預(yù)設(shè)情感詞典中的詞語相同的關(guān)鍵詞或者關(guān)聯(lián)詞時,可以根據(jù)當(dāng)前關(guān)鍵詞或者關(guān)聯(lián)詞所屬的情感類別對情感變量加I。
[0082]在步驟S105中,將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。
[0083]在該步驟中,可以通過將每個情感類別對應(yīng)的情感變量進(jìn)行對比,將情感變量最大的情感類別確定為待處理文檔的情感類別。
[0084]本公開實施例提供的該方法,能夠通過提取文檔關(guān)鍵詞,獲取情感主體關(guān)鍵詞集合,有效的利用文檔情感主體信息,忽略與待處理文檔情感主體無關(guān)的噪音,通過關(guān)聯(lián)規(guī)則算法,挖掘文檔中與關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞的集合,將文檔中詞與詞的語義結(jié)構(gòu)關(guān)系利用起來,有效的提高文檔情感分類的準(zhǔn)確度。
[0085]如圖2所示,在本公開的又一實施例中,所述步驟S102包括以下步驟。
[0086]在步驟S201中,獲取待處理文檔中所有詞語的詞性。
[0087]在本公開實施例中,詞性可以指名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、嘆詞和擬聲詞等。
[0088]在該步驟中,可以將待處理文檔按照標(biāo)點(diǎn)符號進(jìn)行切分,得到包含η個句子的集合S = {si, s2,..., sn},對每個句子si (I < i < η)進(jìn)行分詞,對每個詞語進(jìn)行詞性標(biāo)注,然后獲取所有詞語的詞性。
[0089]在步驟S202中,將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除。
[0090]在本公開實施例中,預(yù)設(shè)詞性可以指嘆詞、介詞、擬聲詞和數(shù)量詞等,預(yù)設(shè)黑名單可以指預(yù)先設(shè)定的與文檔的情感分類過程無關(guān)的詞語等。
[0091]在該步驟中,可以將詞性為預(yù)設(shè)詞性的詞語,以及與黑名單中的詞語相同的詞語進(jìn)行刪除,得到包含η個詞語的集合W,W = {wl, w2,..., wn}。
[0092]在步驟S203中,判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對。
[0093]對W中的每個元素wi (I < i < η),分別計算任意兩個詞語wordA、wordB構(gòu)成的詞語對的支持度和置信度。計算支持度,即A與B的聯(lián)合概率。計算公式如下:
[0094]P (A, B) = count (A Π B) / (count (A) +count (B))
[0095]其中,count (A (? B)表示A和B同時出現(xiàn)的頻次,count (A)表示A出現(xiàn)的頻次,count (B)表示B出現(xiàn)的頻次,將支持度P (A,B)大于等于預(yù)先設(shè)定最小支持度閾值的(A,B)詞語對作為頻繁項集,計算置信度,即在A發(fā)生條件下B發(fā)生的概率,計算公式如下:
[0096]P (B IA) = P (A, B) /P (A)
[0097]其中,P (A,B)為上一步計算得到的支持度,P(A)為A發(fā)生的概率,獲取關(guān)聯(lián)項集,在前述得到的頻繁項集中,將滿足置信度P(BlA)大于預(yù)先設(shè)定最小置信度閾值的詞語對(wordA,wordB)加入到關(guān)聯(lián)項集合C中。
[0098]當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,在步驟S204中,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對。
[0099]在該步驟中,可以對關(guān)聯(lián)項集合C進(jìn)行過濾,判斷集合C中每個詞語對里面的兩個詞語,是否包含前面提取的關(guān)鍵詞集合K中的元素,如果不是,則將該詞語對從集合C中去掉。集合C最后剩下元組組成的集合記作D。
[0100]當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,在步驟S205中,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。
[0101]本公開實施例提供的該方法,能夠利用關(guān)聯(lián)規(guī)則自動查找與關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,方法簡單且高效、計算量小。
[0102]如圖3所示,在本公開的又一實施例中,所述方法還包括以下步驟。
[0103]在步驟S301中,將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式。
[0104]在該步驟中,可以將從網(wǎng)上搜集的大量文本,作為訓(xùn)練文檔,將訓(xùn)練文檔處理成word2vec工具要求的輸入格式。word2vec是一款將詞表征為實數(shù)值向量的工具,其利用深度學(xué)習(xí)的思想,將每個詞映射成K維實數(shù)向量(K 一般為模型中的超參數(shù)),通過詞之間的距離(比如cosine相似度、歐氏距離等)來判斷它們之間的語義相似度。
[0105]在步驟S302中,利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型。
[0106]在步驟S303中,獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞。
[0107]在該步驟之前,可以通過人工等的方式,搜集一些情感詞語作為種子詞。
[0108]在步驟S304中,根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞。
[0109]在步驟S305中,選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞O
[0110]例如,可以選取相似度最大的前5個相似詞作為候選詞,然后以選取的5個候選詞作為種子詞,重復(fù)步驟S304和步驟S305,可以迭代3次,選取迭代后的每個情感類別下的一定數(shù)量的相似詞,例如15個,作為不同情感類別下的候選詞。
[0111]在步驟S306中,根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。
[0112]在該步驟中,可以將每個情感類別下的所有候選詞分別構(gòu)建成對應(yīng)的子情感詞典,例如:正面詞典P、中性詞典M和負(fù)面詞典N等,這些子情感詞典構(gòu)成完整的情感詞典。
[0113]本公開實施例提供的該方法,能夠利用大量的訓(xùn)練文本作為訓(xùn)練素材,不斷根據(jù)種子詞生成相似詞,并選取相似度最高的相似詞作為候選詞構(gòu)建情感詞典,構(gòu)建的詞典應(yīng)用面更廣,更適宜大數(shù)據(jù)條件下作為情感分類的依據(jù)。
[0114]在本公開的又一實施例中,所述步驟SlOl包括以下步驟。
[0115]在步驟S401中,獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞。
[0116]在該步驟中,可以通過計算詞語在待處理文檔中出現(xiàn)的次數(shù)也就是詞頻,來判斷詞語在待處理文檔中的重要程度。
[0117]或者,在步驟S402中,獲取用戶輸入的關(guān)鍵詞。
[0118]在該步驟中,用戶可以自定義一些關(guān)鍵詞,比如,用戶想要看與關(guān)于特定關(guān)鍵詞的文章的情感分類,如:用戶輸入的關(guān)鍵詞是導(dǎo)演A,那么可以將導(dǎo)演A作為待處理文檔的關(guān)鍵詞等。
[0119]本公開實施例提供的該方法,能夠提取文檔的關(guān)鍵詞,以便能夠根據(jù)提取的關(guān)鍵詞確定文檔的情感分類。
[0120]如圖4所示,在本公開的又一實施例中,所述步驟S401包括以下步驟。
[0121]在步驟S501中,將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除。
[0122]在步驟S502中,計算每個詞語的詞頻。
[0123]在該步驟中,詞頻(TF)=某個詞語在待處理文檔中出現(xiàn)的次數(shù)/待處理文檔的總詞數(shù),詞頻可以取商的整數(shù)部分,并且這里由于片文本的長度不一,除以文本總詞數(shù)是為了將詞頻進(jìn)行標(biāo)準(zhǔn)化。
[0124]在步驟S503中,計算每個詞語的逆文檔頻率。
[0125]逆文檔頻率(IDF) = log (文本總數(shù)/(包含該詞的文本數(shù)+1)),如果一個詞越常見,那么分母就越大,逆文檔頻率就越小越接近O。
[0126]在步驟S504中,根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。
[0127]在該步驟中,TF-1DF =詞頻(TF)*逆文檔頻率(IDF),在這里可以設(shè)置一個閾值a = 0.7,當(dāng)TF-1DF>a時,則將詞加入關(guān)鍵詞集合K中,集合K中每個元素可以由關(guān)鍵詞語本身和該詞語的TF-1DF值〈keyword, score〉組成,其中,keyword表示關(guān)鍵詞,score表示TF-1DF 值。
[0128]本公開實施例提供的該方法,可以根據(jù)逆文檔頻率及詞頻計算每個詞語在待處理文檔中的重要程度,計算量小,結(jié)果準(zhǔn)確。
[0129]如圖5所示,在本公開的又一實施例中,提供一種情感分類裝置,包括:第一獲取模塊601、查找模塊602、第一確定模塊603、統(tǒng)計模塊604和第二確定模塊605。
[0130]第一獲取模塊601,用于獲取待處理文檔中的多個關(guān)鍵詞。
[0131]查找模塊602,用于按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞。
[0132]第一確定模塊603,用于利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別。
[0133]統(tǒng)計模塊604,用于統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量。
[0134]第二確定模塊605,用于將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。
[0135]在本公開的又一實施例中,所述查找模塊包括:第一獲取子模塊、刪除子模塊、第一判斷子模塊、第二判斷子模塊和確定子模塊。
[0136]第一獲取子模塊,用于獲取待處理文檔中所有詞語的詞性。
[0137]刪除子模塊,用于將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除。
[0138]第一判斷子模塊,用于判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對。
[0139]第二判斷子模塊,用于當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對。
[0140]確定子模塊,用于當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。
[0141]在本公開的又一實施例中,所述裝置還包括:轉(zhuǎn)化模塊、訓(xùn)練模塊、第二獲取模塊、計算模塊、選取模塊和構(gòu)建模塊。
[0142]轉(zhuǎn)化模塊,用于將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式。
[0143]訓(xùn)練模塊,用于利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型。
[0144]第二獲取模塊,用于獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞。
[0145]計算模塊,用于根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞。
[0146]選取模塊,用于選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞O
[0147]構(gòu)建模塊,用于根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。
[0148]在本公開的又一實施例中,所述第一獲取模塊包括:第二獲取子模塊或第三獲取子模塊。
[0149]第二獲取子模塊,用于獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞。
[0150]或者,第三獲取子模塊,用于獲取用戶輸入的關(guān)鍵詞。
[0151]在本公開的又一實施例中,所述第二獲取子模塊包括:刪除單元、第一計算單元、第二計算單元和確定單元。
[0152]刪除單元,用于將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除。
[0153]第一計算單元,用于計算每個詞語的詞頻。
[0154]第二計算單元,用于計算每個詞語的逆文檔頻率。
[0155]確定單元,用于根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。
[0156]本領(lǐng)域技術(shù)人員在考慮說明書及實踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實施方案。本申請旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本公開未公開的本技術(shù)領(lǐng)域中的公知常識或慣用技術(shù)手段。說明書和實施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。
[0157]應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。
【主權(quán)項】
1.一種情感分類方法,其特征在于,包括: 獲取待處理文檔中的多個關(guān)鍵詞; 按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞; 利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別; 統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量; 將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。2.根據(jù)權(quán)利要求1所述的情感分類方法,其特征在于,所述按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞,包括: 獲取待處理文檔中所有詞語的詞性; 將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除; 判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對; 當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對;當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。3.根據(jù)權(quán)利要求1所述的情感分類方法,其特征在于,所述方法還包括: 將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式; 利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型; 獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞; 根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞; 選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞; 根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。4.根據(jù)權(quán)利要求1所述的情感分類方法,其特征在于,所述獲取待處理文檔中的多個關(guān)鍵詞,包括: 獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞; 或者,獲取用戶輸入的關(guān)鍵詞。5.根據(jù)權(quán)利要求4所述的情感分類方法,其特征在于,所述獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞,包括: 將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除; 計算每個詞語的詞頻; 計算每個詞語的逆文檔頻率; 根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。6.一種情感分類裝置,其特征在于,包括: 第一獲取模塊,用于獲取待處理文檔中的多個關(guān)鍵詞; 查找模塊,用于按照預(yù)設(shè)關(guān)聯(lián)方式查找與每個所述關(guān)鍵詞關(guān)聯(lián)的至少一個關(guān)聯(lián)詞; 第一確定模塊,用于利用預(yù)設(shè)情感詞典確定查找的每個關(guān)鍵詞和關(guān)聯(lián)詞的情感類別; 統(tǒng)計模塊,用于統(tǒng)計每個情感類別對應(yīng)的詞語的總數(shù)量; 第二確定模塊,用于將詞語總數(shù)量最多的情感類別確定為所述待處理文檔的情感類別。7.根據(jù)權(quán)利要求6所述的情感分類裝置,其特征在于,所述查找模塊包括: 第一獲取子模塊,用于獲取待處理文檔中所有詞語的詞性; 刪除子模塊,用于將所有詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除; 第一判斷子模塊,用于判斷刪除后的詞語中是否存在滿足關(guān)聯(lián)規(guī)則的詞語對; 第二判斷子模塊,用于當(dāng)存在滿足關(guān)聯(lián)規(guī)則的詞語對時,判斷是否存在包含任意一個所述關(guān)鍵詞的詞語對; 確定子模塊,用于當(dāng)存在包含任意一個所述關(guān)鍵詞的詞語對時,將每個詞語對中除所述關(guān)鍵詞之外的詞語確定為所述詞語對中與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞。8.根據(jù)權(quán)利要求6所述的情感分類裝置,其特征在于,所述裝置還包括: 轉(zhuǎn)化模塊,用于將獲取的多個訓(xùn)練文檔轉(zhuǎn)化成目標(biāo)格式; 訓(xùn)練模塊,用于利用目標(biāo)格式的訓(xùn)練文檔訓(xùn)練詞向量模型; 第二獲取模塊,用于獲取屬于不同情感類別的預(yù)設(shè)數(shù)量個種子詞; 計算模塊,用于根據(jù)不同情感類別的種子詞通過所述詞向量模型計算屬于不同情感類別的相似詞; 選取模塊,用于選取相似度最大的預(yù)設(shè)數(shù)量個相似詞作為屬于不同情感類別的候選詞; 構(gòu)建模塊,用于根據(jù)所有屬于不同情感類別的所述候選詞構(gòu)建所述情感詞典。9.根據(jù)權(quán)利要求6所述的情感分類裝置,其特征在于,所述第一獲取模塊包括: 第二獲取子模塊,用于獲取待處理文檔中重要程度大于預(yù)設(shè)重要程度的關(guān)鍵詞; 或者,第三獲取子模塊,用于獲取用戶輸入的關(guān)鍵詞。10.根據(jù)權(quán)利要求9所述的情感分類裝置,其特征在于,所述第二獲取子模塊包括: 刪除單元,用于將待處理文檔中所有詞語中詞性為預(yù)設(shè)詞性的詞語,以及,位于預(yù)設(shè)黑名單中的詞語刪除; 第一計算單元,用于計算每個詞語的詞頻; 第二計算單元,用于計算每個詞語的逆文檔頻率; 確定單元,用于根據(jù)每個詞語對應(yīng)的所述詞頻和所述逆文檔頻率確定每個詞語在所述待處理文檔的重要程度。
【文檔編號】G06F17/30GK105893444SQ201510938180
【公開日】2016年8月24日
【申請日】2015年12月15日
【發(fā)明人】康潮明
【申請人】樂視網(wǎng)信息技術(shù)(北京)股份有限公司