本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種文本處理方法及裝置。
背景技術(shù):
隨著通信技術(shù)的發(fā)展,各種即時(shí)通訊應(yīng)用應(yīng)運(yùn)而生,用戶之間可以利用即時(shí)通訊應(yīng)用進(jìn)行文本信息交互,例如,用戶之間可以利用即時(shí)通訊應(yīng)用進(jìn)行聊天信息的交互;用戶也可以利用即時(shí)通訊應(yīng)用發(fā)表文本消息,例如,用戶可以在自己的朋友圈發(fā)表各種文本消息。然而目前,各種即時(shí)通訊應(yīng)用中的文本消息均是以文本的形式進(jìn)行顯示的,用戶必須打開(kāi)終端屏幕才能查看到相應(yīng)的文本消息,這種方式使用起來(lái)極其不方便,增加用戶的用眼時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種文本處理方法及裝置,可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
本發(fā)明第一方面提供一種文本處理方法,可包括:
獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
將所述文本消息劃分為至少一個(gè)分詞;
分別計(jì)算所述至少一個(gè)分詞中每一個(gè)分詞的情感極性;
將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
本發(fā)明第二方面提供一種文本處理裝置,可包括:
第一獲取模塊,用于獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
劃分模塊,用于將所述文本消息劃分為至少一個(gè)分詞;
計(jì)算模塊,用于分別計(jì)算所述至少一個(gè)分詞中每一個(gè)分詞的情感極性;
播放模塊,用于將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
實(shí)施本發(fā)明實(shí)施例,具有如下有益效果:
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種文本處理方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的另一種文本處理方法的流程圖;
圖3為本發(fā)明實(shí)施例提供的又一種文本處理方法的流程圖;
圖4為本發(fā)明實(shí)施例提供的一種義原相似度算法流程圖;
圖5為本發(fā)明實(shí)施例提供的一種詞語(yǔ)相似度算法流程圖;
圖6為本發(fā)明實(shí)施例提供的一種情感語(yǔ)音合成框圖;
圖7為本發(fā)明實(shí)施例提供的一種文本處理裝置的結(jié)構(gòu)示意圖;
圖8為本發(fā)明實(shí)施例提供的一種計(jì)算模塊的結(jié)構(gòu)示意圖;
圖9為本發(fā)明實(shí)施例提供的一種播放模塊的結(jié)構(gòu)示意圖;
圖10為本發(fā)明實(shí)施例提供的另一種文本處理裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
下面將結(jié)合附圖1-附圖6,對(duì)本發(fā)明實(shí)施例提供的文本處理方法進(jìn)行詳細(xì)介紹。
請(qǐng)參照?qǐng)D1,為本發(fā)明實(shí)施例提供的一種文本處理方法的流程圖;該方法可 包括以下步驟S100-步驟S103。
S100,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
具體實(shí)施例中,與目標(biāo)用戶關(guān)聯(lián)的文本消息可以是,與目標(biāo)用戶交互的聊天信息,也可以是目標(biāo)用戶在朋友圈發(fā)布的更新消息、動(dòng)態(tài)消息等等。
S101,將所述文本消息劃分為至少一個(gè)分詞;
具體實(shí)施例中,使用ANSJ系統(tǒng)將所獲取的文本消息進(jìn)行分詞,劃分為至少一個(gè)分詞,例如,若文本信息為“我愛(ài)母?!?,則可以將該文本消息劃分為三個(gè)分詞,分別為“我”、“愛(ài)”、“母?!?。
S102,分別計(jì)算所述至少一個(gè)分詞中每一個(gè)分詞的情感極性;
具體實(shí)施例中,分別計(jì)算所劃分的至少一個(gè)分詞中每一個(gè)分詞的情感極性,情感極性用于表明該分詞的感情色彩,情感極性可以包括高興、悲傷、厭惡以及發(fā)怒等等。
分別計(jì)算所劃分的至少一個(gè)分詞中每一個(gè)分詞的情感極性,針對(duì)每一個(gè)分詞的情感極性計(jì)算方法可以是首先獲取該分詞的詞性,詞性可以包括名詞、形容詞、動(dòng)詞、副詞等等,然后在Hownet詞庫(kù)中選擇具有代表意義且與該分詞的詞性相同的正向情感詞與反向情感詞各5個(gè)(這里5個(gè)僅為舉例),將選擇出的10個(gè)代表詞語(yǔ)分別與該分詞進(jìn)行比較計(jì)算,獲得與該分詞的相似度,最后將相似度最大的代表詞對(duì)應(yīng)的情感極性確定為該分詞的情感極性。
具體的,針對(duì)分詞與某一個(gè)代表詞之間詞語(yǔ)相似度的計(jì)算如圖5所示,假設(shè)分詞與代表詞分別為W1和W2,將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,這里以W1的其中一個(gè)概念C1與W2的其中一個(gè)概念C2計(jì)算為例進(jìn)行說(shuō)明,計(jì)算C1與C2的第一基本義原相似度Sim1,通過(guò)集合計(jì)算方式計(jì)算C1與C2的其他基本義原相似度Sim2,通過(guò)特征結(jié)構(gòu)計(jì)算方式計(jì)算C1與C2的關(guān)系基本義原相似度Sim3,通過(guò)以特征結(jié)構(gòu)為元素的集合計(jì)算方式計(jì)算C1與C2的符號(hào)基本義原相似度Sim4,通過(guò)綜合Sim1,Sim2,Sim3,Sim4計(jì)算得到概念C1與C2的概念相似度。按照上述方法將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,取最大的概念相似度作為該分詞與該代表詞的詞語(yǔ)相似度。
需要說(shuō)明的是,上述方法在計(jì)算義原相似度時(shí),可以采用圖4的計(jì)算方法,通過(guò)對(duì)Hownet自帶文件semdict.dat,計(jì)算義原之間的相互關(guān)系,hownet通過(guò)符 號(hào)定義包含、空間、可能等15種關(guān)系。若義原之間有相互關(guān)系則直接返回預(yù)設(shè)的邏輯距離,若無(wú)相互關(guān)系則根據(jù)義原在層次樹(shù)中的位置來(lái)確定邏輯距離,具體的根據(jù)義原的位置確定邏輯距離的方式為,根據(jù)義原在樹(shù)中的深度(距離跟結(jié)點(diǎn)的邊數(shù))、密度(兄弟節(jié)點(diǎn)的多寡)、兩義原在層次樹(shù)上的物理距離(義原之間的邊數(shù)),來(lái)計(jì)算義原之間的邏輯距離。最后,根據(jù)邏輯距離計(jì)算義原相似度。
S103,將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
具體實(shí)施例中,當(dāng)計(jì)算出每一個(gè)分詞的情感極性后,即按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音播放該分詞,例如,若某一個(gè)分詞的情感極性為高興,則按照高興的情感語(yǔ)音進(jìn)行播放,若某一個(gè)分詞的情感極性為悲傷,則按照悲傷的情感語(yǔ)音進(jìn)行播放。需要說(shuō)明的是,對(duì)于情感語(yǔ)音的合成,可以采用基于隱馬爾科夫模型的情感語(yǔ)音合成方法進(jìn)行合成,也可以采用基音同步疊加技術(shù)算法合成情感語(yǔ)音。
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
請(qǐng)參照?qǐng)D2,為本發(fā)明實(shí)施例提供的另一種文本處理方法的流程圖;該方法可包括以下步驟S200-步驟S206。
S200,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
S201,將所述文本消息劃分為至少一個(gè)分詞;
本發(fā)明實(shí)施例步驟S200-S201,請(qǐng)參照?qǐng)D1的實(shí)施例步驟S100-S101,在此不再贅述。
S202,針對(duì)每一個(gè)所述分詞,獲取所述分詞的目標(biāo)詞性;
具體實(shí)施例中,在對(duì)分詞進(jìn)行情感極性計(jì)算時(shí),首先獲取分詞的目標(biāo)詞性,詞性可以包括名詞、形容詞、動(dòng)詞、副詞等等。
S203,從預(yù)設(shè)數(shù)據(jù)庫(kù)中選擇與所述目標(biāo)詞性相同的預(yù)設(shè)個(gè)數(shù)的代表詞,每 個(gè)所述代表詞對(duì)應(yīng)不同的情感極性;
具體實(shí)施例中,從預(yù)設(shè)數(shù)據(jù)庫(kù)中選擇與目標(biāo)詞性相同的預(yù)設(shè)個(gè)數(shù)的代表詞,該代表詞可以包括具有代表意義的正向情感詞與反向情感詞各5個(gè),將該分詞與對(duì)應(yīng)詞性的10個(gè)代表詞進(jìn)行比較計(jì)算,得到該分詞的情感極性。
S204,計(jì)算所述分詞與每個(gè)所述代表詞之間的詞語(yǔ)相似度;
具體實(shí)施例中,各個(gè)代表詞都具有相應(yīng)的情感極性,為了獲取分詞的情感極性,需要計(jì)算該分詞與每個(gè)代表詞之間的詞語(yǔ)相似度。
可選的,所述計(jì)算所述分詞與每個(gè)所述代表詞之間的詞語(yǔ)相似度,包括:
S20,針對(duì)所述分詞與每一個(gè)所述代表詞,分別獲取所述分詞的多個(gè)概念與所述代表詞的多個(gè)概念;
具體實(shí)施例中,如圖5所示,在計(jì)算兩個(gè)詞語(yǔ)(比如為W1和W2)的相似度時(shí),首先需要獲取W1的多個(gè)概念和W2的多個(gè)概念。
S21,計(jì)算所述分詞的多個(gè)概念中每個(gè)概念與所述代表詞的多個(gè)概念中每個(gè)概念之間的相似度,并選取其中最大的相似度作為所述分詞與所述代表詞之間的詞語(yǔ)相似度。
具體實(shí)施例中,計(jì)算W1的多個(gè)概念中每個(gè)概念和W2的多個(gè)概念中每個(gè)概念之間的相似度,這里以計(jì)算W1的多個(gè)概念中的C1和W2的多個(gè)概念中的C2之間的相似度為例進(jìn)行說(shuō)明,如圖5所示,計(jì)算C1和與C2的第一基本義原相似度Sim1,通過(guò)集合計(jì)算方式計(jì)算C1與C2的其他基本義原相似度Sim2,通過(guò)特征結(jié)構(gòu)計(jì)算方式計(jì)算C1與C2的關(guān)系基本義原相似度Sim3,通過(guò)以特征結(jié)構(gòu)為元素的集合計(jì)算方式計(jì)算C1與C2的符號(hào)基本義原相似度Sim4,通過(guò)綜合Sim1,Sim2,Sim3,Sim4計(jì)算得到概念C1與C2的概念相似度。按照上述方法將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,取最大的概念相似度作為該分詞與該代表詞的詞語(yǔ)相似度。
S205,將與所述分詞之間詞語(yǔ)相似度最大的代表詞所對(duì)應(yīng)的情感極性確定為所述分詞的情感極性。
具體實(shí)施例,計(jì)算出某個(gè)分詞與所有代表詞之間的詞語(yǔ)相似度后,將相似度最大的代表詞所對(duì)應(yīng)的情感極性確定為該分詞的情感極性。各個(gè)代表詞的情感極性可以由用戶根據(jù)具體應(yīng)用進(jìn)行預(yù)先設(shè)置。
S206,基于隱馬爾科夫模型將每一個(gè)所述分詞轉(zhuǎn)化為所述分詞的情感極性 對(duì)應(yīng)的情感語(yǔ)音,并播放所述情感語(yǔ)音;或者,
基于基音同步疊加技術(shù)將每一個(gè)所述分詞轉(zhuǎn)化為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音,并播放所述情感語(yǔ)音。
具體實(shí)施例中,對(duì)于情感語(yǔ)音的合成,可以采用基于隱馬爾科夫模型(Hidden Markov Model,HMM)的情感語(yǔ)音合成方法或基音同步疊加算法合成情感語(yǔ)音。如圖6所示,為基于隱馬爾可夫模型的情感語(yǔ)音合成方法的基本結(jié)構(gòu),情感語(yǔ)音合成方法分為三個(gè)模塊:基于HMM的語(yǔ)音合成模塊、韻律參數(shù)修改模塊和情感語(yǔ)句生成模塊。
在本系統(tǒng)中,首先由基于HMM的語(yǔ)音合成系統(tǒng)合成出"中立"狀態(tài)的語(yǔ)音語(yǔ)句,然后對(duì)合成出的"中立"情感狀態(tài)的語(yǔ)句進(jìn)行韻律參數(shù)提取。按照不同情感極性下韻律參數(shù)的變化規(guī)律,對(duì)"中立"情感的韻律參數(shù)進(jìn)行修改。最后根據(jù)修改好的情感韻律參數(shù),合成帶有情感的語(yǔ)音,并播放該語(yǔ)音。
基音同步疊加技術(shù)是用波形編輯合成語(yǔ)音技術(shù)中對(duì)合成語(yǔ)音的韻律進(jìn)行修改的一種算法,既保持原始語(yǔ)音的主要音段特征,又可以在語(yǔ)音拼接時(shí)靈活調(diào)整其基音、能量和音長(zhǎng)等韻律特征,因而很適合于漢語(yǔ)語(yǔ)音的規(guī)則合成。
可選的,所述基于隱馬爾科夫模型將每一個(gè)所述分詞轉(zhuǎn)化為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音,包括:
S22,基于隱馬爾科夫模型的語(yǔ)音合成系統(tǒng),將每一個(gè)所述分詞轉(zhuǎn)換為備選語(yǔ)音;
具體實(shí)施例中,基于HMM的語(yǔ)音合成系統(tǒng)將每一個(gè)分詞轉(zhuǎn)換為備選語(yǔ)音,HMM的語(yǔ)音合成系統(tǒng)由特征提取部分、模型訓(xùn)練部分、上下文標(biāo)注序列以及合成引擎幾部分組成。
S23,獲取所述分詞的情感極性對(duì)應(yīng)的目標(biāo)韻律參數(shù);
具體實(shí)施例中,各種情感極性對(duì)應(yīng)不同的韻律參數(shù),獲取該分詞的情感極性對(duì)應(yīng)的目標(biāo)韻律參數(shù)。根據(jù)研究,韻律參數(shù)中基頻、語(yǔ)速和能量強(qiáng)度為三個(gè)基本情感特征。
S24,將所述備選語(yǔ)音的韻律參數(shù)修改為所述目標(biāo)韻律參數(shù),并將修改后的所述備選語(yǔ)音確定為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音。
具體實(shí)施例中,合成情感語(yǔ)音的關(guān)鍵在于韻律參數(shù)修改模塊。人之所以能從語(yǔ)音中辨別出不同的情感,是因?yàn)檎Z(yǔ)音包含有能體現(xiàn)情感的韻律參數(shù),情感 的變化通過(guò)韻律參數(shù)的差異而體現(xiàn)。通常認(rèn)為韻律參數(shù)是表征語(yǔ)音情感最典型也是最簡(jiǎn)單的特征。根據(jù)研究,基頻、語(yǔ)速和能量強(qiáng)度為三個(gè)基本情感特征,并總結(jié)出以下幾條規(guī)律:
①基頻的規(guī)律:“高興”情感的基頻平均值較高,基頻范圍較寬,表現(xiàn)為說(shuō)話時(shí)聲音的尖銳;“生氣”時(shí)基頻的平均值很高,基頻范圍也較寬,表現(xiàn)為在極為生氣的狀況下聲音刺耳;“悲傷”情感時(shí)基頻的平均值非常低,基頻范圍略窄,表現(xiàn)為聲音很低沉。
②語(yǔ)速的規(guī)律:“高興”情感的語(yǔ)速較快;“生氣”時(shí)語(yǔ)速比“高興”時(shí)略慢;“悲傷”情感時(shí)語(yǔ)速緩慢。
③能量強(qiáng)度的規(guī)律:“高興”情感與“生氣”情感的能量都交高,表現(xiàn)為處于這兩種情感時(shí)的音量的較大,尤其是在“生氣”情感時(shí),每個(gè)重音都表現(xiàn)的比較明顯;“悲傷”情感能量較低,表現(xiàn)為此時(shí)說(shuō)話聲音較小。
根據(jù)基頻、語(yǔ)速、及能量強(qiáng)度在“高興”、“生氣”和“悲傷”三種情感中的規(guī)律,修改每種備選語(yǔ)音對(duì)應(yīng)的韻律參數(shù)。其中基頻、語(yǔ)速參數(shù)利用Praat軟件修改,能量強(qiáng)度利用Cooledit軟件修改。將修改后的韻律參數(shù)分別送入合成系統(tǒng),最終合成出“高興”、“生氣”和“悲傷”這些情感語(yǔ)音。
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
請(qǐng)參照?qǐng)D3,為本發(fā)明實(shí)施例提供的又一種文本處理方法的流程圖;該方法可包括以下步驟S300-步驟S304。
S300,從預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中獲取所述目標(biāo)用戶對(duì)應(yīng)的目標(biāo)語(yǔ)音特征,所述預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)多個(gè)用戶中每個(gè)用戶的語(yǔ)音特征;
具體實(shí)施例中,在預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中為每個(gè)用戶建立語(yǔ)音特征集合,具體的當(dāng)某個(gè)用戶發(fā)送語(yǔ)音時(shí),系統(tǒng)自動(dòng)基于Hilbert(希爾伯特變換)譜估計(jì)的語(yǔ)音特征提取方法提取每個(gè)用戶的語(yǔ)音特征,并保存在預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)的該用戶對(duì)應(yīng)的集合中。基于Hilbert譜估計(jì)的特征提取過(guò)程主要包括預(yù)加重、 分幀與加窗及特征提取過(guò)程。
本實(shí)施例中需要播放目標(biāo)用戶的文本消息,自動(dòng)從預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中調(diào)出該目標(biāo)用戶的目標(biāo)語(yǔ)音特征。
S301,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
S302,將所述文本消息劃分為至少一個(gè)分詞;
S303,分別計(jì)算所述至少一個(gè)分詞中每一個(gè)分詞的情感極性;
S304,利用所述目標(biāo)語(yǔ)音特征,將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
具體實(shí)施例中,在采用各個(gè)分詞的情感極性播放時(shí),系統(tǒng)用類似目標(biāo)用戶的目標(biāo)語(yǔ)音特征進(jìn)行播放。
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
下面將結(jié)合附圖7-附圖10,對(duì)本發(fā)明實(shí)施例提供的一種文本處理裝置進(jìn)行詳細(xì)介紹。
請(qǐng)參閱圖7,為本發(fā)明實(shí)施例提供的一種文本處理裝置的結(jié)構(gòu)示意圖;該裝置可包括:第一獲取模塊100、劃分模塊101、計(jì)算模塊102以及播放模塊103;
第一獲取模塊100,用于獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息;
具體實(shí)施例中,與目標(biāo)用戶關(guān)聯(lián)的文本消息可以是,與目標(biāo)用戶交互的聊天信息,也可以是目標(biāo)用戶在朋友圈發(fā)布的更新消息、動(dòng)態(tài)消息等等。
劃分模塊101,用于將所述文本消息劃分為至少一個(gè)分詞;
具體實(shí)施例中,劃分模塊101使用ANSJ系統(tǒng)將所獲取的文本消息進(jìn)行分詞,劃分為至少一個(gè)分詞,例如,若文本信息為“我愛(ài)母校”,則可以將該文本消息劃分為三個(gè)分詞,分別為“我”、“愛(ài)”、“母校”。
計(jì)算模塊102,用于分別計(jì)算所述至少一個(gè)分詞中每一個(gè)分詞的情感極性;
具體實(shí)施例中,計(jì)算模塊102分別計(jì)算所劃分的至少一個(gè)分詞中每一個(gè)分詞的情感極性,情感極性用于表明該分詞的感情色彩,情感極性可以包括高興、 悲傷、厭惡以及發(fā)怒等等。
分別計(jì)算所劃分的至少一個(gè)分詞中每一個(gè)分詞的情感極性,針對(duì)每一個(gè)分詞的情感極性計(jì)算方法可以是首先獲取該分詞的詞性,詞性可以包括名詞、形容詞、動(dòng)詞、副詞等等,然后在Hownet詞庫(kù)中選擇具有代表意義且與該分詞的詞性相同的正向情感詞與反向情感詞各5個(gè)(這里5個(gè)僅為舉例),將選擇出的10個(gè)代表詞語(yǔ)分別與該分詞進(jìn)行比較計(jì)算,獲得與該分詞的相似度,最后將相似度最大的代表詞對(duì)應(yīng)的情感極性確定為該分詞的情感極性。
具體的,針對(duì)分詞與某一個(gè)代表詞之間詞語(yǔ)相似度的計(jì)算如圖5所示,假設(shè)分詞與代表詞分別為W1和W2,將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,這里以W1的其中一個(gè)概念C1與W2的其中一個(gè)概念C2計(jì)算為例進(jìn)行說(shuō)明,計(jì)算C1與C2的第一基本義原相似度Sim1,通過(guò)集合計(jì)算方式計(jì)算C1與C2的其他基本義原相似度Sim2,通過(guò)特征結(jié)構(gòu)計(jì)算方式計(jì)算C1與C2的關(guān)系基本義原相似度Sim3,通過(guò)以特征結(jié)構(gòu)為元素的集合計(jì)算方式計(jì)算C1與C2的符號(hào)基本義原相似度Sim4,通過(guò)綜合Sim1,Sim2,Sim3,Sim4計(jì)算得到概念C1與C2的概念相似度。按照上述方法將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,取最大的概念相似度作為該分詞與該代表詞的詞語(yǔ)相似度。
需要說(shuō)明的是,上述方法在計(jì)算義原相似度時(shí),可以采用圖4的計(jì)算方法,通過(guò)對(duì)Hownet自帶文件semdict.dat,計(jì)算義原之間的相互關(guān)系,hownet通過(guò)符號(hào)定義包含、空間、可能等15種關(guān)系。若義原之間有相互關(guān)系則直接返回預(yù)設(shè)的邏輯距離,若無(wú)相互關(guān)系則根據(jù)義原在層次樹(shù)中的位置來(lái)確定邏輯距離,具體的根據(jù)義原的位置確定邏輯距離的方式為,根據(jù)義原在樹(shù)中的深度(距離跟結(jié)點(diǎn)的邊數(shù))、密度(兄弟節(jié)點(diǎn)的多寡)、兩義原在層次樹(shù)上的物理距離(義原之間的邊數(shù)),來(lái)計(jì)算義原之間的邏輯距離。最后,根據(jù)邏輯距離計(jì)算義原相似度。
可選的,如圖8所示,計(jì)算模塊102可以包括第一獲取單元1020、選擇單元1021、計(jì)算單元1022、確定單元1023;
第一獲取單元1020,用于針對(duì)每一個(gè)所述分詞,獲取所述分詞的目標(biāo)詞性;
具體實(shí)施例中,在對(duì)分詞進(jìn)行情感極性計(jì)算時(shí),首先獲取分詞的目標(biāo)詞性,詞性可以包括名詞、形容詞、動(dòng)詞、副詞等等。
選擇單元1021,用于從預(yù)設(shè)數(shù)據(jù)庫(kù)中選擇與所述目標(biāo)詞性相同的預(yù)設(shè)個(gè)數(shù)的代表詞,每個(gè)所述代表詞對(duì)應(yīng)不同的情感極性;
具體實(shí)施例中,選擇單元1021從預(yù)設(shè)數(shù)據(jù)庫(kù)中選擇與目標(biāo)詞性相同的預(yù)設(shè)個(gè)數(shù)的代表詞,該代表詞可以包括具有代表意義的正向情感詞與反向情感詞各5個(gè),將該分詞與對(duì)應(yīng)詞性的10個(gè)代表詞進(jìn)行比較計(jì)算,得到該分詞的情感極性。
計(jì)算單元1022,用于計(jì)算所述分詞與每個(gè)所述代表詞之間的詞語(yǔ)相似度;
具體實(shí)施例中,各個(gè)代表詞都具有相應(yīng)的情感極性,為了獲取分詞的情感極性,計(jì)算單元1022需要計(jì)算該分詞與每個(gè)代表詞之間的詞語(yǔ)相似度。
進(jìn)一步的,計(jì)算單元可以包括獲取子單元和計(jì)算子單元;
獲取子單元,用于針對(duì)所述分詞與每一個(gè)所述代表詞,分別獲取所述分詞的多個(gè)概念與所述代表詞的多個(gè)概念;
具體實(shí)施例中,如圖5所示,在計(jì)算兩個(gè)詞語(yǔ)(比如為W1和W2)的相似度時(shí),首先需要獲取W1的多個(gè)概念和W2的多個(gè)概念。
計(jì)算子單元,用于計(jì)算所述分詞的多個(gè)概念中每個(gè)概念與所述代表詞的多個(gè)概念中每個(gè)概念之間的相似度,并選取其中最大的相似度作為所述分詞與所述代表詞之間的詞語(yǔ)相似度。
具體實(shí)施例中,計(jì)算W1的多個(gè)概念中每個(gè)概念和W2的多個(gè)概念中每個(gè)概念之間的相似度,這里以計(jì)算W1的多個(gè)概念中的C1和W2的多個(gè)概念中的C2之間的相似度為例進(jìn)行說(shuō)明,如圖5所示,計(jì)算C1和與C2的第一基本義原相似度Sim1,通過(guò)集合計(jì)算方式計(jì)算C1與C2的其他基本義原相似度Sim2,通過(guò)特征結(jié)構(gòu)計(jì)算方式計(jì)算C1與C2的關(guān)系基本義原相似度Sim3,通過(guò)以特征結(jié)構(gòu)為元素的集合計(jì)算方式計(jì)算C1與C2的符號(hào)基本義原相似度Sim4,通過(guò)綜合Sim1,Sim2,Sim3,Sim4計(jì)算得到概念C1與C2的概念相似度。按照上述方法將W1的所有概念和W2的所有概念兩兩計(jì)算概念相似度,取最大的概念相似度作為該分詞與該代表詞的詞語(yǔ)相似度。
確定單元1023,用于將與所述分詞之間詞語(yǔ)相似度最大的代表詞所對(duì)應(yīng)的情感極性確定為所述分詞的情感極性。
具體實(shí)施例,計(jì)算出某個(gè)分詞與所有代表詞之間的詞語(yǔ)相似度后,將相似度最大的代表詞所對(duì)應(yīng)的情感極性確定為該分詞的情感極性。各個(gè)代表詞的情感極性可以由用戶根據(jù)具體應(yīng)用進(jìn)行預(yù)先設(shè)置。
播放模塊103,用于將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
具體實(shí)施例中,當(dāng)計(jì)算出每一個(gè)分詞的情感極性后,播放模塊103即按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音播放該分詞,例如,若某一個(gè)分詞的情感極性為高興,則按照高興的情感語(yǔ)音進(jìn)行播放,若某一個(gè)分詞的情感極性為悲傷,則按照悲傷的情感語(yǔ)音進(jìn)行播放。需要說(shuō)明的是,對(duì)于情感語(yǔ)音的合成,可以采用基于隱馬爾科夫模型的情感語(yǔ)音合成方法進(jìn)行合成,也可以采用基音同步疊加技術(shù)算法合成情感語(yǔ)音。
具體可選的,所述播放模塊103用于基于隱馬爾科夫模型將每一個(gè)所述分詞轉(zhuǎn)化為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音,并播放所述情感語(yǔ)音;或者,
所述播放模塊103用于基于基音同步疊加技術(shù)將每一個(gè)所述分詞轉(zhuǎn)化為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音,并播放所述情感語(yǔ)音。
具體實(shí)施例中,對(duì)于情感語(yǔ)音的合成,可以采用基于隱馬爾科夫模型(Hidden Markov Model,HMM)的情感語(yǔ)音合成方法或基音同步疊加算法合成情感語(yǔ)音。如圖6所示,為基于隱馬爾可夫模型的情感語(yǔ)音合成方法的基本結(jié)構(gòu),情感語(yǔ)音合成方法分為三個(gè)模塊:基于HMM的語(yǔ)音合成模塊、韻律參數(shù)修改模塊和情感語(yǔ)句生成模塊。
在本系統(tǒng)中,首先由基于HMM的語(yǔ)音合成系統(tǒng)合成出"中立"狀態(tài)的語(yǔ)音語(yǔ)句,然后對(duì)合成出的"中立"情感狀態(tài)的語(yǔ)句進(jìn)行韻律參數(shù)提取。按照不同情感極性下韻律參數(shù)的變化規(guī)律,對(duì)"中立"情感的韻律參數(shù)進(jìn)行修改。最后根據(jù)修改好的情感韻律參數(shù),合成帶有情感的語(yǔ)音,并播放該語(yǔ)音。
基音同步疊加技術(shù)是用波形編輯合成語(yǔ)音技術(shù)中對(duì)合成語(yǔ)音的韻律進(jìn)行修改的一種算法,既保持原始語(yǔ)音的主要音段特征,又可以在語(yǔ)音拼接時(shí)靈活調(diào)整其基音、能量和音長(zhǎng)等韻律特征,因而很適合于漢語(yǔ)語(yǔ)音的規(guī)則合成。
如圖9所示,播放模塊103可以包括轉(zhuǎn)換單元1030、第二獲取單元1031以及修改單元1032;
轉(zhuǎn)換單元1030,用于基于隱馬爾科夫模型的語(yǔ)音合成系統(tǒng),將每一個(gè)所述分詞轉(zhuǎn)換為備選語(yǔ)音;
具體實(shí)施例中,轉(zhuǎn)換單元1030基于HMM的語(yǔ)音合成系統(tǒng)將每一個(gè)分詞轉(zhuǎn)換為備選語(yǔ)音,HMM的語(yǔ)音合成系統(tǒng)由特征提取部分、模型訓(xùn)練部分、上下文 標(biāo)注序列以及合成引擎幾部分組成。
第二獲取單元1031,用于獲取所述分詞的情感極性對(duì)應(yīng)的目標(biāo)韻律參數(shù);
具體實(shí)施例中,各種情感極性對(duì)應(yīng)不同的韻律參數(shù),第二獲取單元1031獲取該分詞的情感極性對(duì)應(yīng)的目標(biāo)韻律參數(shù)。根據(jù)研究,韻律參數(shù)中基頻、語(yǔ)速和能量強(qiáng)度為三個(gè)基本情感特征。
修改單元1032,用于將所述備選語(yǔ)音的韻律參數(shù)修改為所述目標(biāo)韻律參數(shù),并將修改后的所述備選語(yǔ)音確定為所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音。
具體實(shí)施例中,合成情感語(yǔ)音的關(guān)鍵在于韻律參數(shù)修改模塊。人之所以能從語(yǔ)音中辨別出不同的情感,是因?yàn)檎Z(yǔ)音包含有能體現(xiàn)情感的韻律參數(shù),情感的變化通過(guò)韻律參數(shù)的差異而體現(xiàn)。通常認(rèn)為韻律參數(shù)是表征語(yǔ)音情感最典型也是最簡(jiǎn)單的特征。根據(jù)研究,基頻、語(yǔ)速和能量強(qiáng)度為三個(gè)基本情感特征,并總結(jié)出以下幾條規(guī)律:
①基頻的規(guī)律:“高興”情感的基頻平均值較高,基頻范圍較寬,表現(xiàn)為說(shuō)話時(shí)聲音的尖銳;“生氣”時(shí)基頻的平均值很高,基頻范圍也較寬,表現(xiàn)為在極為生氣的狀況下聲音刺耳;“悲傷”情感時(shí)基頻的平均值非常低,基頻范圍略窄,表現(xiàn)為聲音很低沉。
②語(yǔ)速的規(guī)律:“高興”情感的語(yǔ)速較快;“生氣”時(shí)語(yǔ)速比“高興”時(shí)略慢;“悲傷”情感時(shí)語(yǔ)速緩慢。
③能量強(qiáng)度的規(guī)律:“高興”情感與“生氣”情感的能量都交高,表現(xiàn)為處于這兩種情感時(shí)的音量的較大,尤其是在“生氣”情感時(shí),每個(gè)重音都表現(xiàn)的比較明顯;“悲傷”情感能量較低,表現(xiàn)為此時(shí)說(shuō)話聲音較小。
根據(jù)基頻、語(yǔ)速、及能量強(qiáng)度在“高興”、“生氣”和“悲傷”三種情感中的規(guī)律,修改每種備選語(yǔ)音對(duì)應(yīng)的韻律參數(shù)。其中基頻、語(yǔ)速參數(shù)利用Praat軟件修改,能量強(qiáng)度利用Cooledit軟件修改。將修改后的韻律參數(shù)分別送入合成系統(tǒng),最終合成出“高興”、“生氣”和“悲傷”這些情感語(yǔ)音。
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
請(qǐng)參閱圖10,為本發(fā)明實(shí)施例提供的另一種文本處理裝置的結(jié)構(gòu)示意圖,如圖所示,該文本處理裝置包括第一獲取模塊200、劃分模塊201、計(jì)算模塊202、播放模塊203以及第二獲取模塊204,其中,第一獲取模塊200、劃分模塊201、計(jì)算模塊202、播放模塊203請(qǐng)參照?qǐng)D9的描述,在此不再贅述。
第二獲取模塊204,用于從預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中獲取所述目標(biāo)用戶對(duì)應(yīng)的目標(biāo)語(yǔ)音特征,所述預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中預(yù)先存儲(chǔ)多個(gè)用戶中每個(gè)用戶的語(yǔ)音特征;
具體實(shí)施例中,在預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中為每個(gè)用戶建立語(yǔ)音特征集合,具體的當(dāng)某個(gè)用戶發(fā)送語(yǔ)音時(shí),系統(tǒng)自動(dòng)基于Hilbert(希爾伯特變換)譜估計(jì)的語(yǔ)音特征提取方法提取每個(gè)用戶的語(yǔ)音特征,并保存在預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)的該用戶對(duì)應(yīng)的集合中?;贖ilbert譜估計(jì)的特征提取過(guò)程主要包括預(yù)加重、分幀與加窗及特征提取過(guò)程。
本實(shí)施例中需要播放目標(biāo)用戶的文本消息,第二獲取模塊204自動(dòng)從預(yù)設(shè)語(yǔ)音特征數(shù)據(jù)庫(kù)中調(diào)出該目標(biāo)用戶的目標(biāo)語(yǔ)音特征。
所述播放模塊203具體用于利用所述目標(biāo)語(yǔ)音特征,將每一個(gè)所述分詞按照所述分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放。
具體實(shí)施例中,在采用各個(gè)分詞的情感極性播放時(shí),系統(tǒng)用類似目標(biāo)用戶的目標(biāo)語(yǔ)音特征進(jìn)行播放。
本發(fā)明實(shí)施例,獲取即時(shí)通訊應(yīng)用中與目標(biāo)用戶關(guān)聯(lián)的文本消息,將該文本消息劃分為至少一個(gè)分詞,分別計(jì)算該至少一個(gè)分詞中每一個(gè)分詞的情感極性,將每一個(gè)分詞按照該分詞的情感極性對(duì)應(yīng)的情感語(yǔ)音進(jìn)行播放,這種方式可將即時(shí)通訊應(yīng)用中的文本消息采用情感語(yǔ)音進(jìn)行播放,不僅提高了文本消息展示的趣味性,而且減少用戶的用眼時(shí)間,使用極其方便。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過(guò)計(jì)算機(jī)程序指令相關(guān)的硬件來(lái)完成,所述的程序可存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,附圖7-附圖10所示文本處理裝置的模塊對(duì)應(yīng)的程序可存儲(chǔ)在文本處理裝置的可讀存儲(chǔ)介質(zhì)內(nèi),并被該文本處理裝置中的至少一個(gè)處理器執(zhí)行,以實(shí)現(xiàn)上述文本處理方法,該方法包括圖1至圖6中各方法實(shí)施例所述的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤(pán)、只讀存儲(chǔ)記憶體(Read-Only Memory,ROM)或隨機(jī)存儲(chǔ)記憶體(Random Access Memory,RAM)等。
以上所揭露的僅為本發(fā)明較佳實(shí)施例而已,當(dāng)然不能以此來(lái)限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明權(quán)利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。