一種語音轉(zhuǎn)換方法、裝置及移動終端的制作方法

文檔序號：10654555閱讀：444來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種語音轉(zhuǎn)換方法、裝置及移動終端的制作方法
【專利摘要】本發(fā)明公開了一種語音轉(zhuǎn)換方法、裝置及移動終端，在接收到語音信息后，通過對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，然后根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號并進(jìn)行顯示，其有益效果是使得用戶在使用移動終端的過程中，可直接將接收到的語音信息以表情符號的形式進(jìn)行顯示，直觀的表達(dá)用戶的情緒，也增加了聊天的趣味性。同時，也使得用戶不受環(huán)境因素的影響，能時刻關(guān)注到重要信息，相應(yīng)的，也避免了用戶長期使用單一的語音聊天模式，極大程度的提升了用戶體驗。
【專利說明】
一種語音轉(zhuǎn)換方法、裝置及移動終端
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及網(wǎng)絡(luò)通信技術(shù)領(lǐng)域，更具體地說，涉及一種語音轉(zhuǎn)換方法、裝置及移動終端。
【背景技術(shù)】
[0002] 近些年通信技術(shù)和電子終端的快速發(fā)展，已使得各種終端可以提供網(wǎng)絡(luò)服務(wù)，越來越多的人通過網(wǎng)絡(luò)進(jìn)行交流溝通，傳統(tǒng)的聊天方式是通過語音的形式進(jìn)行交流溝通，當(dāng) 用戶不便接聽語音或者在嘈雜環(huán)境中無法聽清語音時，可直接將語音轉(zhuǎn)換成文字進(jìn)行顯示，如微信的語音轉(zhuǎn)文字功能。但是，在將語音轉(zhuǎn)換成文字時，無法將語音信息以表情符號的形式進(jìn)行顯示，如，無法將語音中的語氣以表情符號的形式進(jìn)行顯示，從而使語音接收者無法通過文字體會語音發(fā)送者的情緒，在影響用戶體驗的同時，也缺乏趣味性。

【發(fā)明內(nèi)容】

[0003] 本發(fā)明實施例要解決的技術(shù)問題在于現(xiàn)有技術(shù)中無法將語音信息轉(zhuǎn)換成表情符號進(jìn)行顯示，從而影響用戶體驗，針對該技術(shù)問題，提出一種語音轉(zhuǎn)換方法、裝置及移動終端。
[0004] 為解決上述技術(shù)問題，本發(fā)明實施例提供一種語音轉(zhuǎn)換裝置，包括：
[0005] 接收模塊，用于接收語音信息；
[0006] 文本轉(zhuǎn)換模塊，用于對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息；
[0007] 表情轉(zhuǎn)換模塊，用于根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號；
[0008] 顯示模塊，用于顯示表情符號。
[0009] 其中，所述文本轉(zhuǎn)換模塊用于從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽；
[0010]和/或，所述文本轉(zhuǎn)換模塊用于從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0011 ]其中，還包括:存儲模塊，用于存儲所述表情庫。
[0012]其中，還包括:處理模塊，用于接收轉(zhuǎn)換權(quán)限指令，根據(jù)所述轉(zhuǎn)換權(quán)限指令確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。
[0013] 進(jìn)一步地，本發(fā)明實施例還提供一種移動終端，包括:如上所述的語音轉(zhuǎn)換裝置。
[0014] 進(jìn)一步地，本發(fā)明實施例還提供一種語音轉(zhuǎn)換方法，包括：
[0015] 接收語音信息；
[0016] 對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息；
[0017] 根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號；
[0018] 顯不表情符號。
[0019] 其中，所述將語音信息轉(zhuǎn)換成對應(yīng)的文本信息包括：
[0020] 從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽；
[0021 ]和/或，從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0022] 其中，在所述接收語音信息之前，還包括:存儲所述表情庫。
[0023] 其中，在所述接收語音信息之前，還包括:接收轉(zhuǎn)換權(quán)限指令，根據(jù)所述轉(zhuǎn)換權(quán)限指令確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。
[0024] 其中，在云端或本端將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，并將文本信息轉(zhuǎn)換成表情符號。
[0025]有益效果
[0026] 本發(fā)明實施例提出的語音轉(zhuǎn)換方法、裝置及移動終端，在接收到語音信息后，通過對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，然后根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號并進(jìn)行顯示，使得用戶在使用移動終端的過程中，可直接將接收到的語音信息以表情符號的形式進(jìn)行顯示，直觀的表達(dá)用戶的情緒，也增加了聊天的趣味性。同時，也使得用戶不受環(huán)境因素的影響，能時刻關(guān)注到重要信息，相應(yīng)的，也避免了用戶長期使用單一的語音聊天模式，極大程度的提升了用戶體驗。
【附圖說明】
[0027] 下面將結(jié)合附圖及實施例對本發(fā)明作進(jìn)一步說明，附圖中：
[0028] 圖1為實現(xiàn)本發(fā)明各個實施例一個可選的移動終端的硬件結(jié)構(gòu)示意圖；
[0029] 圖2為本發(fā)明第一實施例提供的語音轉(zhuǎn)換裝置示意圖；
[0030] 圖3為本發(fā)明第二實施例提供的移動終端示意圖；
[0031 ]圖4為本發(fā)明第三實施例提供的語音轉(zhuǎn)換方法流程圖；
[0032] 圖5為本發(fā)明第四實施例提供的將語氣標(biāo)簽轉(zhuǎn)換為表情符號的流程圖；
[0033] 圖6為本發(fā)明第五實施例提供的將文本內(nèi)容轉(zhuǎn)換為表情符號的流程圖。
【具體實施方式】
[0034] 應(yīng)當(dāng)理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0035] 現(xiàn)在將參考附圖描述實現(xiàn)本發(fā)明各個實施例的移動終端。在后續(xù)的描述中，使用用于表示元件的諸如"模塊"或"單元"的后綴僅為了有利于本發(fā)明的說明，其本身并沒有特定的意義。因此，〃模塊〃與〃單元〃可以混合地使用。
[0036] 移動終端可以以各種形式來實施。例如，本發(fā)明中描述的終端可以包括諸如移動電話、智能電話、筆記本電腦、PDA(個人數(shù)字助理）、PAD(平板電腦）、導(dǎo)航裝置等等的移動終端以及諸如數(shù)字TV、臺式計算機(jī)等等的固定終端。下面，假設(shè)終端是移動終端。然而，本領(lǐng)域技術(shù)人員將理解的是，除了特別用于移動目的的元件之外，根據(jù)本實施例的構(gòu)造也能夠應(yīng) 用于固定類型的終端。
[0037] 圖1為實現(xiàn)本發(fā)明各個實施例一個可選的移動終端的硬件結(jié)構(gòu)示意圖。
[0038] 移動終端100包括無線通信單元110、A/V(音頻/視頻)輸入單元120、用戶輸入單元 130、輸出單元150、存儲器160、接口單元170、控制器180和電源單元190等等。圖2示出了具有各種組件的移動終端，但是應(yīng)理解的是，并不要求實施所有示出的組件。可以替代地實施更多或更少的組件。將在下面詳細(xì)描述移動終端的元件。
[0039] 無線通信單元110通常包括一個或多個組件，其允許移動終端100與無線通信系統(tǒng) 或網(wǎng)絡(luò)之間的無線電通信。例如，無線通信單元可以包括移動通信模塊112、無線互聯(lián)網(wǎng)模塊113、短程通信模塊114和位置信息模塊115中的至少一個。
[0040] 移動通信模塊112將無線電信號發(fā)送到基站(例如，接入點、節(jié)點B等等）、外部終端以及服務(wù)器中的至少一個和/或從其接收無線電信號。這樣的無線電信號可以包括語音通話信號、視頻通話信號、或者根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類型的數(shù)據(jù)。 [0041 ]無線互聯(lián)網(wǎng)模塊113支持移動終端的無線互聯(lián)網(wǎng)接入。該模塊可以內(nèi)部或外部地耦接到終端。該模塊所涉及的無線互聯(lián)網(wǎng)接入技術(shù)可以包括WLAN(無線LAN) (Wi-Fi)、Wibro (無線寬帶）、Wimax(全球微波互聯(lián)接入）、HSDPA(高速下行鏈路分組接入)等等。
[0042] A/V輸入單元120用于接收音頻或視頻信號。A/V輸入單元120可以包括麥克風(fēng)122，麥克風(fēng)122可以在電話通話模式、記錄模式、語音識別模式等等運行模式中經(jīng)由麥克風(fēng)接收聲音(音頻數(shù)據(jù)），并且能夠?qū)⑦@樣的聲音處理為音頻數(shù)據(jù)。處理后的音頻(語音)數(shù)據(jù)可以在電話通話模式的情況下轉(zhuǎn)換為可經(jīng)由移動通信模塊112發(fā)送到移動通信基站的格式輸出。麥克風(fēng)122可以實施各種類型的噪聲消除(或抑制）算法以消除(或抑制）在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾。
[0043] 用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息，并且可以包括鍵盤、鍋仔片、觸摸板(例如，檢測由于被接觸而導(dǎo)致的電阻、壓力、電容等等的變化的觸敏組件）、滾輪、搖桿等等。特別地，當(dāng)觸摸板以層的形式疊加在顯示單元151上時，可以形成觸摸屏。
[0044] 接口單元170用作至少一個外部裝置與移動終端100連接可以通過的接口。例如，外部裝置可以包括有線或無線頭戴式耳機(jī)端口、外部電源(或電池充電器)端口、有線或無線數(shù)據(jù)端口、存儲卡端口、用于連接具有識別模塊的裝置的端口、音頻輸入/輸出（I/O)端口、視頻I/O端口、耳機(jī)端口等等。識別模塊可以是存儲用于驗證用戶使用移動終端100的各種信息并且可以包括用戶識別模塊(UIM)、客戶識別模塊(SIM)、通用客戶識別模塊(USM) 等等。另外，具有識別模塊的裝置(下面稱為"識別裝置")可以采取智能卡的形式，因此，識別裝置可以經(jīng)由端口或其它連接裝置與移動終端100連接。接口單元170可以用于接收來自外部裝置的輸入(例如，數(shù)據(jù)信息、電力等等)并且將接收到的輸入傳輸?shù)揭苿咏K端100內(nèi)的一個或多個元件或者可以用于在移動終端和外部裝置之間傳輸數(shù)據(jù)。
[0045] 另外，當(dāng)移動終端100與外部底座連接時，接口單元170可以用作允許通過其將電力從底座提供到移動終端100的路徑或者可以用作允許從底座輸入的各種命令信號通過其傳輸?shù)揭苿咏K端的路徑。從底座輸入的各種命令信號或電力可以用作用于識別移動終端是否準(zhǔn)確地安裝在底座上的信號。輸出單元150被構(gòu)造為以視覺、音頻和/或觸覺方式提供輸出信號（例如，音頻信號、視頻信號、警報信號、振動信號等等）。輸出單元150可以包括顯示單元151、音頻輸出模塊152、警報單元153等等。
[0046] 顯示單元151可以顯示在移動終端100中處理的信息。例如，當(dāng)移動終端100處于電話通話模式時，顯示單元151可以顯示與通話或其它通信(例如，文本消息收發(fā)、多媒體文件下載等等)相關(guān)的用戶界面(UI)或圖形用戶界面(GUI)。當(dāng)移動終端100處于視頻通話模式或者圖像捕獲模式時，顯示單元151可以顯示捕獲的圖像和/或接收的圖像、示出視頻或圖像以及相關(guān)功能的UI或GUI等等。
[0047]同時，當(dāng)顯示單元151和觸摸板以層的形式彼此疊加以形成觸摸屏?xí)r，顯示單元 151可以用作輸入裝置和輸出裝置。顯示單元151可以包括液晶顯示器(LCD)、薄膜晶體管 IXD(TFT-IXD)、有機(jī)發(fā)光二極管(0LED)顯示器、柔性顯示器、三維(3D)顯示器等等中的至少一種。這些顯示器中的一些可以被構(gòu)造為透明狀以允許用戶從外部觀看，這可以稱為透明顯示器，典型的透明顯示器可以例如為T0LED(透明有機(jī)發(fā)光二極管）顯示器等等。根據(jù)特定想要的實施方式，移動終端100可以包括兩個或更多顯示單元(或其它顯示裝置），例如，移動終端可以包括外部顯示單元(未示出）和內(nèi)部顯示單元(未示出）。觸摸屏可用于檢測觸摸輸入壓力以及觸摸輸入位置和觸摸輸入面積。
[0048] 音頻輸出模塊152可以在移動終端處于呼叫信號接收模式、通話模式、記錄模式、語音識別模式、廣播接收模式等等模式下時，將無線通信單元110接收的或者在存儲器160 中存儲的音頻數(shù)據(jù)轉(zhuǎn)換音頻信號并且輸出為聲音。而且，音頻輸出模塊152可以提供與移動終端100執(zhí)行的特定功能相關(guān)的音頻輸出（例如，呼叫信號接收聲音、消息接收聲音等等）。音頻輸出模塊152可以包括揚聲器、蜂鳴器等等。
[0049] 警報單元153可以提供輸出以將事件的發(fā)生通知給移動終端100。典型的事件可以包括呼叫接收、消息接收、鍵信號輸入、觸摸輸入等等。除了音頻或視頻輸出之外，警報單元 153可以以不同的方式提供輸出以通知事件的發(fā)生。例如，警報單元153可以以振動的形式提供輸出，當(dāng)接收到呼叫、消息或一些其它進(jìn)入通信（in coming communication)時，警報單元153可以提供觸覺輸出（即，振動）以將其通知給用戶。通過提供這樣的觸覺輸出，即使在用戶的移動電話處于用戶的口袋中時，用戶也能夠識別出各種事件的發(fā)生。警報單元153 也可以經(jīng)由顯示單元151或音頻輸出模塊152提供通知事件的發(fā)生的輸出。
[0050] 存儲器160可以存儲由控制器180執(zhí)行的處理和控制操作的軟件程序等等，或者可以暫時地存儲己經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如，電話簿、消息、靜態(tài)圖像、視頻等等）。而且，存儲器160可以存儲關(guān)于當(dāng)觸摸施加到觸摸屏?xí)r輸出的各種方式的振動和音頻信號的數(shù)據(jù)。
[0051] 存儲器160可以包括至少一種類型的存儲介質(zhì)，所述存儲介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲器(例如，SD或DX存儲器等等）、隨機(jī)訪問存儲器(RAM)、靜態(tài)隨機(jī)訪問存儲器（SRAM)、只讀存儲器(R0M)、電可擦除可編程只讀存儲器(EEPR0M)、可編程只讀存儲器 (PR0M)、磁性存儲器、磁盤、光盤等等。而且，移動終端100可以與通過網(wǎng)絡(luò)連接執(zhí)行存儲器 160的存儲功能的網(wǎng)絡(luò)存儲裝置協(xié)作。
[0052] 控制器180通?？刂埔苿咏K端的總體操作。例如，控制器180執(zhí)行與語音通話、數(shù)據(jù) 通信等等相關(guān)的控制和處理。
[0053]電源單元190在控制器180的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當(dāng)?shù)碾娏Α?br>[0054]這里描述的各種實施方式可以以使用例如計算機(jī)軟件、硬件或其任何組合的計算機(jī)可讀介質(zhì)來實施。對于硬件實施，這里描述的實施方式可以通過使用特定用途集成電路 (ASIC)、數(shù)字信號處理器(DSP)、數(shù)字信號處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設(shè)計為執(zhí)行這里描述的功能的電子單元中的至少一種來實施，在一些情況下，這樣的實施方式可以在控制器180中實施。對于軟件實施，諸如過程或功能的實施方式可以與允許執(zhí)行至少一種功能或操作的單獨的軟件模塊來實施。軟件代碼可以由以任何適當(dāng)?shù)木幊陶Z言編寫的軟件應(yīng)用程序(或程序)來實施，軟件代碼可以存儲在存儲器160中并且由控制器180執(zhí)行。
[0055] 至此，己經(jīng)按照其功能描述了移動終端。下面，為了簡要起見，將描述諸如折疊型、直板型、擺動型、滑動型移動終端等等的各種類型的移動終端中的滑動型移動終端作為示例。因此，本發(fā)明能夠應(yīng)用于任何類型的移動終端，并且不限于滑動型移動終端。
[0056] 以下通過具體實施例進(jìn)行詳細(xì)說明。
[0057] 第一實施例
[0058]本實施例提供了一種語音轉(zhuǎn)換裝置，該裝置能夠在周邊嘈雜、正在開會、語音信息中存在敏感字詞等不便接聽語音的場景下，將語音信息轉(zhuǎn)換成文本信息，然后將文本信息轉(zhuǎn)換成表情符號，使得用戶及時獲取到重要信息的同時，可以根據(jù)表情符號直觀的感受語音發(fā)送者的情緒，相應(yīng)的也增加了聊天的趣味性，進(jìn)一步的提升用戶體驗。
[0059]請參見圖2,圖2為本實施例提供的語音轉(zhuǎn)換裝置示意圖，該裝置包括：
[0060] 接收模塊201，用于接收語音信息；
[0061] 文本轉(zhuǎn)換模塊202,用于對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息；
[0062] 表情轉(zhuǎn)換模塊203,用于根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號；
[0063] 顯示模塊204,用于顯示表情符號。
[0064] 文本轉(zhuǎn)換模塊202用于從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽；
[0065] 和/或，文本轉(zhuǎn)換模塊202用于從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0066]該語音轉(zhuǎn)換裝置還包括：
[0067]存儲模塊205,用于存儲所述表情庫；
[0068]處理模塊206,用于接收轉(zhuǎn)換權(quán)限指令，根據(jù)轉(zhuǎn)換權(quán)限指令確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。
[0069]上述各功能模塊執(zhí)行的功能可通過圖1中的部分硬件來實現(xiàn)，并在后續(xù)的描述中以具體硬件對本發(fā)明各實施例進(jìn)行說明，當(dāng)然，各硬件執(zhí)行的功能也可由上述功能模塊實現(xiàn)。上述各功能模塊的功能具體由如下硬件實現(xiàn)：
[0070]接收模塊201的功能可通過A/V輸入單元120實現(xiàn)。A/V輸入單元120采集語音信息，并將語音信息發(fā)送至控制器180進(jìn)行語音轉(zhuǎn)換處理。其中，A/V輸入單元120可以包括麥克風(fēng) 122,麥克風(fēng)122可以在語音識別模式中經(jīng)由麥克風(fēng)122接收語音，并且能夠?qū)⑦@樣的語音處理為音頻數(shù)據(jù)。麥克風(fēng)122可以實施各種類型的噪聲消除（或抑制）算法以消除（或抑制)在接收和發(fā)送音頻信號的過程中產(chǎn)生的噪聲或者干擾?；蛘?，通過無線通信單元110提供的網(wǎng) 絡(luò)接收其他移動終端發(fā)送的語音信息，并將語音信息發(fā)送至控制器180進(jìn)行語音轉(zhuǎn)換處理。其中，無線通信單元110通常包括一個或多個組件，其允許移動終端100與無線通信系統(tǒng)或網(wǎng)絡(luò)之間的無線電通信。例如，無線通信單元可以包括移動通信模塊112、無線互聯(lián)網(wǎng)模塊 113、短程通信模塊114和位置信息模塊115中的至少一個。
[0071]文本轉(zhuǎn)換模塊202、表情轉(zhuǎn)換模塊203以及處理模塊206的功能可通過控制器180實現(xiàn)。控制器180執(zhí)行與數(shù)據(jù)通信等等相關(guān)的控制和處理，如對語音信息的轉(zhuǎn)換過程進(jìn)行處理。此外，文本轉(zhuǎn)換模塊202的功能也可由語音處理器來實現(xiàn)。
[0072] 顯示模塊204的表情符號顯示功能可通過顯示單元151實現(xiàn)。顯示單元151可以顯示與通信(例如，語音消息收發(fā)、文本消息收發(fā)等等)相關(guān)的用戶界面(UI)或圖形用戶界面 (GUI)〇
[0073] 存儲模塊205存儲表情庫的功能可通過存儲器160實現(xiàn)，存儲器160可以包括至少一種類型的存儲介質(zhì)，該存儲介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲器(例如，SD或DX存儲器等等）、隨機(jī)訪問存儲器(RAM)、靜態(tài)隨機(jī)訪問存儲器(SRAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPR0M)、可編程只讀存儲器(PR0M)、磁性存儲器、磁盤、光盤等等。
[0074] A/V輸入單元120在接收用戶輸入的語音信息之前，首先通過控制器180接收用戶發(fā)送的轉(zhuǎn)換權(quán)限指令，基于該轉(zhuǎn)換權(quán)限指令，確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。具體的，當(dāng)接收到語音信息時，判斷接收語音信息的應(yīng)用程序是否具備觸發(fā)語音轉(zhuǎn)換操作的權(quán)限，在具備該權(quán)限的情況下，啟用語音轉(zhuǎn)換操作，實現(xiàn)語音轉(zhuǎn)表情符號的功能。
[0075] 具體的，用戶事先設(shè)置能夠進(jìn)行語音轉(zhuǎn)換的應(yīng)用程序、應(yīng)用程序中的聯(lián)系人等轉(zhuǎn) 換列表，以更人性化的滿足用戶需求。控制器180依據(jù)該轉(zhuǎn)換列表確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，當(dāng)然，轉(zhuǎn)換列表可存儲于存儲器160中方便調(diào)用。控制器180在將語音信息轉(zhuǎn)換為文本信息之前，控制器180首先從存儲器160中調(diào)用轉(zhuǎn)換列表，以判斷接收語音信息的應(yīng)用程序是否擁有語音轉(zhuǎn)換權(quán)限，若不具備該權(quán)限，則終止語音轉(zhuǎn)換為文本信息的操作;若具備該權(quán)限，判斷應(yīng)用程序中該語音信息對應(yīng)的聯(lián)系人是否擁有語音轉(zhuǎn)換的權(quán)限，若具備該權(quán) 限，則對此聯(lián)系人發(fā)送的語音信息進(jìn)行轉(zhuǎn)換，并以圖文結(jié)合（即文字與表情符號結(jié)合）的形式進(jìn)行顯示;若不具備該權(quán)限，則終止語音轉(zhuǎn)換操作。
[0076] 控制器180在判斷接收語音信息的應(yīng)用程序或應(yīng)用程序中的聯(lián)系人是否擁有語音轉(zhuǎn)換權(quán)限時，一種實施方式中，在接收語音信息之前判斷該應(yīng)用程序或者應(yīng)用程序中的聯(lián) 系人是否擁有語音轉(zhuǎn)換權(quán)限，在擁有權(quán)限的情況下，接收該語音信息并進(jìn)行轉(zhuǎn)換;反之，接收該語音信息但不做處理。在另一種實施方式中，在接收語音信息之后判斷接收語音信息的應(yīng)用程序或應(yīng)用程序中的聯(lián)系人是否擁有語音轉(zhuǎn)換權(quán)限，在擁有權(quán)限的情況下，將接收的語音信息進(jìn)行轉(zhuǎn)換;反之，不對語音信息做處理。需要注意的是，在對語音信息進(jìn)行轉(zhuǎn)換時，可在云端進(jìn)行轉(zhuǎn)換，如，接收到一條語音消息后，在數(shù)據(jù)網(wǎng)絡(luò)連接的情況下，在通過云端實現(xiàn)語音轉(zhuǎn)換，轉(zhuǎn)換完畢后將轉(zhuǎn)換結(jié)果反饋給本端;或者直接由本端完成語音轉(zhuǎn)換的處理。參見表1，為用戶設(shè)置的轉(zhuǎn)換列表。
[0077] 表 1
[0079] 表1中，支持將語音轉(zhuǎn)換為帶有表情符號的文字的聯(lián)系人包括QQ中的張三和李四，以及微信中的張三。假設(shè)微信中聯(lián)系人李四發(fā)送了一條語音消息，控制器180判斷李四不屬于表1，則轉(zhuǎn)換模塊(包括文本轉(zhuǎn)換模塊202和表情轉(zhuǎn)換模塊103)不會對該語音消息做任何處理;假設(shè)微信中QQ中聯(lián)系人張三發(fā)送了一條語音消息，控制器180判斷張三處于表1中，則轉(zhuǎn)換模塊將該語音信息轉(zhuǎn)換成表情符號和文字以供用戶及時查看重要信息。
[0080] 當(dāng)確定微信中的張三發(fā)來語音消息時，檢測當(dāng)前微信所處聊天模式，若當(dāng)前聊天模式為語音模式，觸發(fā)語音轉(zhuǎn)文字和表情符號的操作;若當(dāng)前聊天模式為文本輸入模式，則不對語音信息做任何處理。需要注意的是，觸發(fā)語音轉(zhuǎn)換成文字和表情符號的操作可以為手動模式，即逐條將語音信息轉(zhuǎn)換成文字和表情符號，或者增加一鍵轉(zhuǎn)化功能，觸發(fā)一次轉(zhuǎn) 化操作，即可將接收的所有語音信息轉(zhuǎn)換成文字和表情符號;也可以為自動模式，一旦確定在語音聊天模式下，若預(yù)設(shè)時間內(nèi)沒有接聽語音信息，則語音轉(zhuǎn)換裝置自動將接收的語音信息通過控制器180轉(zhuǎn)換成文字和表情符號，從而解放用戶雙手，無需主動觸發(fā)語音轉(zhuǎn)換操作。例如，在語音聊天模式下，接收到張三發(fā)送的微信語音消息，1分鐘后，該語音消息仍未被用戶手動觸發(fā)接聽操作，則裝置自動將該語音消息通過轉(zhuǎn)換模塊轉(zhuǎn)換成文字和表情符號以方便用戶查看，從而避免用戶因為環(huán)境因素不便接聽語音消息的情況發(fā)生，同時也增加了用戶聊天的趣味性。其中，預(yù)設(shè)時間是指用戶根據(jù)實際情況設(shè)定的時間。
[0081] 進(jìn)一步地，控制器180在將語音信息轉(zhuǎn)換成對應(yīng)的文本信息時，存在如下兩種實施方式，兩種實施方式可相互結(jié)合，在將文本內(nèi)容轉(zhuǎn)換成表情符號的同時，將語氣標(biāo)簽轉(zhuǎn)換為表情符號；也可單獨執(zhí)行，僅將本文內(nèi)容轉(zhuǎn)換成表情符號，或僅將語氣標(biāo)簽轉(zhuǎn)換成表情符號。
[0082] -種實施方式中，從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽，語氣標(biāo)簽包括表達(dá)喜、怒、哀、樂等情緒的語氣特征，如音量高低、語速急緩、聲音長短、聲音強(qiáng)弱等。
[0083] 另一種實施方式中，從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識另IJ，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。該文本內(nèi)容中包括與表情庫中的表情符號存在映射關(guān)系的文字，和與表情符號不存在映射關(guān)系的文字。
[0084] 語音轉(zhuǎn)換完畢，顯示單元151在顯示表情符號時，包括兩種顯示方式：
[0085] -種實施方式中，將接收的語音消息在當(dāng)前界面進(jìn)行顯示，然后觸發(fā)語音轉(zhuǎn)換操作，在當(dāng)前界面顯示另一條文字消息，即該文字消息為重新生成的一條信息，語音信息與文字、表情符號同時存在，用戶也可在合適的場景下接聽語音，避免因為語音識別的誤差導(dǎo)致部分信息不準(zhǔn)確。
[0086] 另一種實施方式中，將接收的語音信息在當(dāng)前界面進(jìn)行顯示，然后觸發(fā)語音轉(zhuǎn)換操作，將語音信息直接以文字和表情符號的形式進(jìn)行顯示，即轉(zhuǎn)換后的文字和表情符號覆蓋語音信息，使得聊天界面簡潔直觀。
[0087] 需要注意的是，對于上述語音庫、語氣庫以及表情庫可部分存儲于本端或云端，也可全部存儲與本端或云端。同時，在將語音信息轉(zhuǎn)換成對應(yīng)的文本信息時，可通過調(diào)用本端存儲的語音庫、語氣庫以及表情庫中的至少一個庫的信息在本端實現(xiàn)轉(zhuǎn)換;或者直接通過云端在線語音轉(zhuǎn)換，進(jìn)一步的提升用戶體驗。
[0088]通過本實施例的語音轉(zhuǎn)換裝置，用戶在嘈雜環(huán)境無法聽清語音或者因為某種原因不便接聽語音時，直接將語音信息轉(zhuǎn)換為文字和表情符號，避免錯過重要信息，從而提升用戶體驗；同時，將語音中的語氣在文字中直觀的以表情符號的形式進(jìn)行顯示，在增加趣味性的同時，更直觀的表達(dá)了用戶情緒，進(jìn)一步的提升用戶滿意度。
[0089] 第二實施例
[0090] 請參見圖3,圖3為本實施例提供的移動終端示意圖。該移動終端包括第一實施例中的語音轉(zhuǎn)換裝置。語音轉(zhuǎn)換裝置中接收模塊201的功能通過麥克風(fēng)122實現(xiàn)，麥克風(fēng)122采集用戶的語音信息;或者，通過無線通信單元110提供的網(wǎng)絡(luò)接收其他移動終端發(fā)送的語音信息，實現(xiàn)語音轉(zhuǎn)換裝置中接收模塊201的功能。
[0091] 語音轉(zhuǎn)換裝置中文本轉(zhuǎn)換模塊102和表情轉(zhuǎn)換模塊103的功能通過控制器180實現(xiàn)，也即控制器180將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，然后根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號，實現(xiàn)。語音轉(zhuǎn)換裝置中處理模塊206 的功能也可由控制器180實現(xiàn)，控制器180接收轉(zhuǎn)換權(quán)限指令，根據(jù)轉(zhuǎn)換權(quán)限指令確定觸發(fā) 語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。
[0092]語音轉(zhuǎn)換裝置中顯示模塊104的功能通過輸出單元150中的顯示單元151實現(xiàn)，顯示單元151顯示控制器180轉(zhuǎn)換后得到的文字和表情符號。
[0093] 此外，當(dāng)移動終端接收到其他移動終端發(fā)送的語音信息時，通過輸出單元150中的音頻輸出模塊152輸出聲音，以提醒用戶收到新信息。
[0094] 移動終端在電源單元190供電的情況下，通過無線通信單元110接收到語音發(fā)送者發(fā)送的語音信息，或者通過麥克風(fēng)122(麥克風(fēng)122通過接口單元170與移動終端連接)采集用戶輸入的語音信息，將語音信息傳輸至控制器180,控制器180對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，然后根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號，最后控制器180將轉(zhuǎn)換后的表情符號和文字通過顯示單元 150進(jìn)行顯示。此外，控制器180從文本內(nèi)容中提取如地址、電話、郵件等關(guān)鍵詞保存至存儲器160中，通過警報單元153或音頻輸出模塊152提醒用戶關(guān)鍵事件;或者音頻輸出模塊152 提醒用戶收到一條新消息。
[0095]控制器180在對語音信息進(jìn)行識別時，包括兩種實施方式，兩種實施方式可在云端進(jìn)行轉(zhuǎn)換，如，接收到一條語音消息后，在數(shù)據(jù)網(wǎng)絡(luò)連接的情況下，在通過云端實現(xiàn)語音轉(zhuǎn) 換，轉(zhuǎn)換完畢后將轉(zhuǎn)換結(jié)果反饋給本端;或者直接由本端完成語音轉(zhuǎn)換的處理。
[0096] -種實施方式中，控制器180從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽。
[0097] 具體的，由于語氣存在音高、音長和音強(qiáng)等特征，因此控制器180從語音信息中提取語氣特征，將語氣特征與語氣庫(聲學(xué)模型）中預(yù)存的語氣特征進(jìn)行匹配，語氣庫中的語氣特征與語氣標(biāo)簽存在映射關(guān)系，基于該映射關(guān)系，將語氣特征轉(zhuǎn)換成語氣標(biāo)簽，并將該語氣標(biāo)簽插入轉(zhuǎn)換后的文字中，對于具體插入位置，可根據(jù)語氣出現(xiàn)的位置進(jìn)行插入，或者隨機(jī)插入。語氣標(biāo)簽與表情庫中的表情符號存在映射關(guān)系，基于該映射關(guān)系，從表情庫中調(diào)用對應(yīng)的表情符號，將調(diào)用的表情符號替換該語氣標(biāo)簽。例如:假設(shè)微信接收到張三發(fā)送的語音信息"今天好開心呀!"，控制器180將該語音信息通過語氣庫進(jìn)行識別，確定對應(yīng)的語氣標(biāo)簽為"高興"，同時，將語音信息通過語音庫進(jìn)行識別，確定對應(yīng)的文本內(nèi)容為"今天好開心呀"，將語氣標(biāo)簽插入到文本內(nèi)容中，得到"今天好開心呀（高興)"。然后從表情庫中調(diào)用與"高興"對應(yīng)的表情符號"高興的樣子"，將語氣標(biāo)簽"高興"替換為表情符號"高興的樣子"，最終轉(zhuǎn)換后的效果為"今天好開心呀（高興的樣子)"。當(dāng)然，"高興的樣子"的表情符號存在多種，可隨機(jī)或者根據(jù)用戶習(xí)慣選擇一個進(jìn)行顯示。通過本實施方式，用戶通過轉(zhuǎn)換的表情符號直觀的確認(rèn)語音發(fā)送者的情緒，從而給出較為妥當(dāng)?shù)奶幚矸绞剑M(jìn)一步的提升用戶體驗。
[0098] 另一種實施方式中，控制器180從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0099] 具體的，控制器180將提取的語音特征與語音庫（即聲學(xué)模型）中預(yù)設(shè)的語音特征進(jìn)行匹配，將匹配成功后的語音特征轉(zhuǎn)換成文本內(nèi)容，文本內(nèi)容與表情庫中的表情符號存在映射關(guān)系，基于該映射關(guān)系，從表情庫中調(diào)用與文本內(nèi)容對應(yīng)的表情符號，將調(diào)用的表情符號替換該文本內(nèi)容。語音庫中存有語音特征與文字的關(guān)系表。需要明白的是，并非將所有文本內(nèi)容均以表情符號進(jìn)行替換，對于不存在映射關(guān)系的表情符號，則不對文本內(nèi)容進(jìn)行轉(zhuǎn)換。將轉(zhuǎn)換后的表情符號插入文本內(nèi)容中，具體插入位置可依據(jù)該表情符號對應(yīng)的文本內(nèi)容所處的位置，或者任意插入文本內(nèi)容中，不對位置做出限定。例如:假設(shè)微信接收到張三發(fā)送的語音信息"你吃飯了嗎?"，將該語音信息通過語音庫進(jìn)行識別，根據(jù)識別結(jié)果從字詞庫中找到對應(yīng)的文本內(nèi)容，該文本內(nèi)容為"你吃飯了嗎"，從表情庫中調(diào)用與"吃飯"存在映射關(guān)系的表情符號"米飯"，將文本內(nèi)容中的"吃飯"替換為表情符號"米飯"。當(dāng)然，文本內(nèi) 容"吃飯"對應(yīng)的表情內(nèi)容可以多個，且以不同形式進(jìn)行體現(xiàn)，移動終端根據(jù)用戶之前的選擇習(xí)慣或者隨機(jī)選擇一個進(jìn)行替換或者插入，最終轉(zhuǎn)換后的效果為"你(米飯）了嗎"或者 "你吃飯(米飯）了嗎"。通過本實施方式，能夠?qū)⑽谋緝?nèi)容中的文字以表情符號的形式進(jìn)行體現(xiàn)，將圖文很好的進(jìn)行結(jié)合，在增加聊天趣味性的同時，也提升了用戶體驗。
[0100] 更具體的，控制器180將接收到的語音信息進(jìn)行轉(zhuǎn)換形成音頻文件，然后將音頻文件轉(zhuǎn)錄為文本文件。具體的，語音信息轉(zhuǎn)換得到的音頻文件有多個，類似于將語音信息拆分成多個片段，每個片段可以為一個字、一個詞或者簡短的一句話等等，然后將各音頻文件轉(zhuǎn) 錄成文本文件，最后將文本文件合并成一段完整的文字。其具體轉(zhuǎn)錄過程如下：
[0101] 從轉(zhuǎn)換后形成的音頻文件中提取語音信號的語音特征，根據(jù)提取的語音特征，對語音信號進(jìn)行分析處理，去掉與語音識別無關(guān)的冗余信息并獲得影響語音識別的重要信息，同時對語音信號進(jìn)行壓縮處理。對語音信號處理的目的在于，避免冗余信息影響語音識另IJ，使得識別準(zhǔn)確率降低。
[0102] 對語音信號處理完成后，進(jìn)行語音識別。將提取的語音特征與語音庫中記錄的語音特征進(jìn)行匹配，找出與提取的語音特征相似度較高的語音特征，從而識別出該語音特征對應(yīng)的文字。具體的，聲學(xué)模型中記錄了大量的語音特征，且各語音特征的音頻譜線與文字存在映射關(guān)系，只要提取的語音特征可以與聲學(xué)模型中的語音特征匹配，就能查出該語音特征對應(yīng)的文字。應(yīng)該明白的是，提取的語音特征的音頻譜線與聲學(xué)模型中的語音特征的音頻譜線越接近，識別的準(zhǔn)確性也越高。
[0103] 對于上述語音特征與文本內(nèi)容的映射關(guān)系、文本內(nèi)容與表情符號的映射關(guān)系、語氣特征與語氣標(biāo)簽的映射關(guān)系以及語氣標(biāo)簽與表情符號的映射關(guān)系可以一對一、一對多或者多對一。如："不高興"的語氣標(biāo)簽對應(yīng)的表情符號可以是"哭"、"大哭"、"傷心"等等；"吃飯"的文本內(nèi)容對應(yīng)的表情符號可以是"米飯"、"飯碗"、"筷子"等等；"生氣"的表情符號對應(yīng)的文本內(nèi)容"憤怒"、"咒罵"等等。通過上述映射關(guān)系，實現(xiàn)語音到文字和表情符號的轉(zhuǎn) 換。
[0104] 將音頻文件轉(zhuǎn)錄成文本文件后，每個音頻文件都存在一個時間戳，將該時間戳添加到對應(yīng)的文本文件上，然后根據(jù)添加的時間戳，將各個文本文件按照時間的先后順序拼接成一份完整的文本內(nèi)容，同時，在將時間戳添加到對應(yīng)文本文件上時，在該文本文件中添加表征語音中的喜怒哀樂的語氣標(biāo)簽，也即文本文件對應(yīng)一條音頻文件，音頻文件中的語氣經(jīng)過分析得到表情符號，將該表情符號插入文本文件中，形成一段帶有表情符號的文字，為通話雙方的會話提供了一份通話的"歷史記錄"。
[0105] 文本內(nèi)容和表情符號整合完成后，分析文本內(nèi)容，將滿足預(yù)設(shè)條件的內(nèi)容進(jìn)行記錄，形成備忘錄，將備忘錄存儲于存儲器160中，并通過音頻輸出模塊152重點提醒用戶，避免用戶錯過重要信息。所述預(yù)設(shè)條件包括但不限于設(shè)定時間日期、地址、電話等等關(guān)鍵詞，一旦文本信息中存在關(guān)鍵詞，就將該內(nèi)容添加至備忘錄并提醒用戶。
[0106] 語音轉(zhuǎn)換完畢，通過顯示單元151顯示表情符號。
[0107] 通過本發(fā)明提供的移動終端，將語音信息轉(zhuǎn)換成表情符號和文字，使得用戶能夠及時了解到語音發(fā)送者的消息，同時，語音中的語氣在文字中以表情符號的形式進(jìn)行顯示，在增加趣味性的同時，更直觀的表達(dá)了用戶情緒，進(jìn)一步的提升用戶滿意度。
[0108] 第三實施例
[0109] 如圖4所示，圖4為本實施例提供的語音轉(zhuǎn)換方法流程圖，該方法包括以下步驟：
[0110] S401，接收語音信息。
[0111] 具體的，語音信息中包括表征人情緒的語氣、表征人意圖的語義，將語氣通過語氣庫轉(zhuǎn)換為表情符號，直觀的表現(xiàn)語音發(fā)送者的喜怒哀樂，將語義通過語音庫轉(zhuǎn)換為文本內(nèi) 容，清楚的表述語音發(fā)送者要表述的意思。在文本內(nèi)容中插入表情符號，或者將文本內(nèi)容中的部分文字替換成表情符號，實現(xiàn)圖文結(jié)合的良好體驗。
[0112] 進(jìn)一步的，當(dāng)接收到語音信息時，判斷接收語音信息的應(yīng)用程序是否具備觸發(fā)語音轉(zhuǎn)換操作的權(quán)限，在具備該權(quán)限的情況下，啟用語音轉(zhuǎn)換操作，實現(xiàn)語音轉(zhuǎn)表情符號的功能。
[0113] 在判斷接收的語音信息的應(yīng)用程序或應(yīng)用程序中的聯(lián)系人是否擁有語音轉(zhuǎn)換權(quán) 限時，一種實施方式中，在接收語音信息之前判斷該聯(lián)系人或應(yīng)用是否具備語音轉(zhuǎn)換條件，在具備轉(zhuǎn)換條件的情況下，接收該語音信息并進(jìn)行本地轉(zhuǎn)換;在不具備轉(zhuǎn)換條件的情況下，接收該語音信息但不做處理。在另一種實施方式中，在接收語音信息之后判斷該聯(lián)系人或應(yīng)用是否具備轉(zhuǎn)換條件，在具備轉(zhuǎn)換條件的情況下，將接收的語音信息進(jìn)行本地轉(zhuǎn)換;在不具備轉(zhuǎn)換條件的情況下，不對語音信息做處理。
[0114] 當(dāng)確定接收語音信息的應(yīng)用程序或應(yīng)用程序中的聯(lián)系人擁有語音轉(zhuǎn)換權(quán)限時，檢測應(yīng)用程序當(dāng)前所處的聊天模式，也即檢測該聊天模式為語音模式還是文本輸入模式。聊天模式為語音模式的情況下，在觸發(fā)語音轉(zhuǎn)換操作時可以為手動模式或自動模式。
[0115] S402,對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息。
[0116] 具體的，在將語音信息轉(zhuǎn)換成對應(yīng)的文本信息時，存在如下兩種實施方式，兩種實施方式可相互結(jié)合，在將文本內(nèi)容轉(zhuǎn)換成表情符號的同時，將語氣標(biāo)簽轉(zhuǎn)換為表情符號，也可單獨執(zhí)行，僅將本文內(nèi)容轉(zhuǎn)換成表情符號，或僅將語氣標(biāo)簽轉(zhuǎn)換成表情符號，具體實施過程如下：
[0117] -種實施方式中，從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽，語氣標(biāo)簽包括表達(dá)喜、怒、哀、樂等情緒的語氣特征，如音量高低、語速急緩、聲音長短、聲音強(qiáng)弱等。
[0118] 另一種實施方式中，從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識另IJ，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0119] S403,根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號。
[0120] 具體的，文本信息包括本文內(nèi)容和語氣標(biāo)簽，將文本內(nèi)容中與表情符號存在映射關(guān)系的文字替換成表情符號，將文本內(nèi)容中插入的語氣標(biāo)簽通過調(diào)用表情庫中的表情符號進(jìn)行替換，然后將文本內(nèi)容和表情符號整合成一段完整的帶有表情符號的文字。
[0121 ]更具體的，將音頻文件轉(zhuǎn)錄成文本文件后，每個音頻文件都存在一個時間戳，將該時間戳添加到對應(yīng)的文本文件上，然后根據(jù)添加的時間戳，將各個文本文件按照時間的先后順序拼接成一份完整的文本內(nèi)容，同時，在將時間戳添加到對應(yīng)文本文件上時，在該文本文件中添加表征語音中的喜怒哀樂的語氣標(biāo)簽，也即文本文件對應(yīng)一條音頻文件，音頻文件中的語氣經(jīng)過分析得到表情符號，將該表情符號插入文本文件中，形成一段帶有表情符號的文字，為通話雙方的會話提供了一份通話的"歷史記錄"。
[0122] 文本內(nèi)容和表情符號整合完成后，分析文本內(nèi)容，將滿足預(yù)設(shè)條件的內(nèi)容進(jìn)行記錄，形成備忘錄，重點提醒用戶，避免用戶錯過重要信息。所述預(yù)設(shè)條件包括但不限于設(shè)定時間日期、地址、電話等等關(guān)鍵詞，一旦文本信息中存在關(guān)鍵詞，就將該內(nèi)容添加至備忘錄并提醒用戶。
[0123] S404,顯示表情符號。
[0124] 具體的，將接收的語音消息在當(dāng)前界面進(jìn)行顯示，然后通過觸發(fā)語音轉(zhuǎn)換操作，在當(dāng)前界面或其他界面顯示另一條文字消息，即該文字消息為重新獲取的一條信息，語音信息與文字、表情符號同時存在，用戶也可在合適的場景下接聽語音，避免因為語音識別的誤差導(dǎo)致部分信息不準(zhǔn)確。另一種實施方式中，將接收的語音信息在當(dāng)前界面進(jìn)行顯示，然后通過觸發(fā)語音轉(zhuǎn)換操作，將語音信息直接以文字和表情符號的形式進(jìn)行顯示，即轉(zhuǎn)換后的文字和表情符號覆蓋語音信息，使得聊天界面簡潔直觀。需要注意的是，本實施例提供的語音轉(zhuǎn)換方法可應(yīng)用第一實施例提供的語音轉(zhuǎn)換裝置中。
[0125] 進(jìn)一步的，對于上述語音庫、語氣庫以及表情庫可部分存儲于本端或云端，也可全部存儲與本端或云端。同時，在將語音信息轉(zhuǎn)換成對應(yīng)的文本信息時，可通過調(diào)用本端存儲的語音庫、語氣庫以及表情庫中的至少一個庫的信息在本端實現(xiàn)轉(zhuǎn)換;或者直接通過云端在線語音轉(zhuǎn)換，進(jìn)一步的提升用戶體驗。
[0126] 基于上述步驟的實施，通過將語音信息轉(zhuǎn)換為帶有表情符號的文字，避免了用戶錯過重要信息，從而提升用戶體驗；同時，通過語音中的語氣在文本中直觀的以表情符號的形式進(jìn)行顯示，在增加趣味性的同時，更直觀的表達(dá)了用戶情緒，進(jìn)一步的提升用戶滿意度。
[0127] 第四實施例
[0128] 本實施例以第三實施例提供語音轉(zhuǎn)換方法為基礎(chǔ)，以語氣標(biāo)簽轉(zhuǎn)換為表情符號為場景對本發(fā)明進(jìn)行說明，具體請參見圖5,圖5為本實施例提供的將語氣標(biāo)簽轉(zhuǎn)換為表情符號的流程圖。具體轉(zhuǎn)換過程如下：
[0129] S501，確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序。
[0130]具體的，用戶事先設(shè)置能夠進(jìn)行語音轉(zhuǎn)換的應(yīng)用程序、應(yīng)用程序中的聯(lián)系人等轉(zhuǎn) 換列表，以更人性化的滿足用戶需求?？刂破?80依據(jù)該轉(zhuǎn)換列表確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，當(dāng)然，轉(zhuǎn)換列表可存儲于存儲器160中方便調(diào)用?？刂破?80在將語音信息轉(zhuǎn)換為文本信息之前，控制器180首先從存儲器160中調(diào)用轉(zhuǎn)換列表，以判斷接收語音信息的應(yīng)用程序是否擁有語音轉(zhuǎn)換權(quán)限，若不具備該權(quán)限，則終止語音轉(zhuǎn)換為文本信息的操作;若具備該權(quán)限，判斷應(yīng)用程序中該語音信息對應(yīng)的聯(lián)系人是否擁有語音轉(zhuǎn)換的權(quán)限，若具備該權(quán) 限，則對此聯(lián)系人發(fā)送的語音信息進(jìn)行轉(zhuǎn)換，并以圖文結(jié)合（即文字與表情符號結(jié)合）的形式進(jìn)行顯示;若不具備該權(quán)限，則終止語音轉(zhuǎn)換操作。
[0131] S502,檢測該應(yīng)用程序所處的聊天模式。
[0132] 具體的，當(dāng)確定微信中的張三發(fā)來語音消息時，檢測當(dāng)前微信所處聊天模式，若當(dāng) 前聊天模式為語音模式，觸發(fā)語音轉(zhuǎn)文字和表情符號的操作;若當(dāng)前聊天模式為文本輸入模式，則不對語音信息做任何處理。需要注意的是，觸發(fā)語音轉(zhuǎn)換成文字和表情符號的操作可以為主動模式，即逐條將語音信息轉(zhuǎn)換成文字和表情符號，或者增加一鍵轉(zhuǎn)化功能，觸發(fā) 一次轉(zhuǎn)化操作，即可將接收的所有語音信息轉(zhuǎn)換成文字和表情符號;也可以為自動模式，一旦確定在語音聊天模式下，若預(yù)設(shè)時間內(nèi)沒有接聽語音信息，則自動將接收的語音信息轉(zhuǎn) 換成文字和表情符號，從而解放用戶雙手，無需主動觸發(fā)語音轉(zhuǎn)換操作。例如，在語音聊天模式下，接收到張三發(fā)送的微信語音消息，1分鐘后，該語音消息仍未被用戶手動觸發(fā)接聽操作，則裝置自動將該語音消息通過轉(zhuǎn)換模塊轉(zhuǎn)換成文字和表情符號以方便用戶查看，從而避免用戶因為環(huán)境因素不便接聽語音消息的情況發(fā)生，同時也增加了用戶聊天的趣味性。其中，預(yù)設(shè)時間是指用戶根據(jù)實際情況設(shè)定的時間。
[0133] S503,接收語音信息。
[0134] S504,對語音信息進(jìn)行識別，從語音信息中提取語氣特征，將語氣特征轉(zhuǎn)換成對應(yīng) 的語氣標(biāo)簽，將語氣標(biāo)簽轉(zhuǎn)換為表情符號。
[0135] 具體的，由于語氣存在音高、音長和音強(qiáng)等特征，因此從語音信息中提取語氣特征，將語氣特征與語氣庫(聲學(xué)模型）中預(yù)存的語氣特征進(jìn)行匹配，語氣庫中的語氣特征與語氣標(biāo)簽存在映射關(guān)系，基于該映射關(guān)系，將語氣特征轉(zhuǎn)換成語氣標(biāo)簽，并將該語氣標(biāo)簽插入轉(zhuǎn)換后的文字中，對于具體插入位置，可根據(jù)語氣出現(xiàn)的位置進(jìn)行插入，或者隨機(jī)插入。語氣標(biāo)簽與表情庫中的表情符號存在映射關(guān)系，基于該映射關(guān)系，從表情庫中調(diào)用對應(yīng)的表情符號，將調(diào)用的表情符號替換該語氣標(biāo)簽。例如:假設(shè)微信接收到張三發(fā)送的語音信息 "今天好開心呀!"，將該語音信息通過語氣庫進(jìn)行識別，確定對應(yīng)的語氣標(biāo)簽為"高興"，同時，將語音信息通過語音庫進(jìn)行識別，確定對應(yīng)的文本內(nèi)容為"今天好開心呀"，將語氣標(biāo)簽插入到文本內(nèi)容中，得到"今天好開心呀（高興)"。然后從表情庫中調(diào)用與高興"對應(yīng)的表情符號"高興的樣子"，將語氣標(biāo)簽"高興"替換為表情符號"高興的樣子"，最終轉(zhuǎn)換后的效果為"今天好開心呀（高興的樣子)"。當(dāng)然，"高興的樣子"的表情符號存在多種，可隨機(jī)或者根據(jù)用戶習(xí)慣選擇一個進(jìn)行顯示。
[0136] 對于上述語氣特征與語氣標(biāo)簽的映射關(guān)系以及語氣標(biāo)簽與表情符號的映射個按需可以一對一、一對多或者多對一。如："不高興"的語氣標(biāo)簽對應(yīng)的表情符號可以是"哭"、 "大哭"、"傷心"等等。
[0137] S505,顯示表情符號。
[0138] 具體的，在顯示表情符號時，包括兩種顯示方式：
[0139] -種實施方式中，將接收的語音消息在當(dāng)前界面進(jìn)行顯示，然后觸發(fā)語音轉(zhuǎn)換操作，在當(dāng)前界面顯示另一條文字消息，即該文字消息為重新生成的一條信息，語音信息與文字、表情符號同時存在，用戶也可在合適的場景下接聽語音，避免因為語音識別的誤差導(dǎo)致部分信息不準(zhǔn)確。
[0140] 另一種實施方式中，將接收的語音信息在當(dāng)前界面進(jìn)行顯示，然后觸發(fā)語音轉(zhuǎn)換操作，將語音信息直接以文字和表情符號的形式進(jìn)行顯示，即轉(zhuǎn)換后的文字和表情符號覆蓋語音信息，使得聊天界面簡潔直觀。
[0141] 通過本實施方式，用戶通過轉(zhuǎn)換的表情符號直觀的確認(rèn)語音發(fā)送者的情緒，從而給出較為妥當(dāng)?shù)奶幚矸绞?，進(jìn)一步的提升用戶體驗。
[0142] 第五實施例
[0143] 本實施例以第三實施例提供語音轉(zhuǎn)換方法為基礎(chǔ)，以文本內(nèi)容轉(zhuǎn)換為表情符號為場景對本發(fā)明進(jìn)行說明，具體請參見圖6,圖6為本實施例提供的將文本內(nèi)容轉(zhuǎn)換為表情符號的流程圖。部分步驟與圖5中的步驟類似，故本實施例將不再做詳細(xì)說明。具體轉(zhuǎn)換過程如下：
[0144] S601，確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序。
[0145] S602,檢測該應(yīng)用程序所處的聊天模式。
[0146] S603,接收語音信息。
[0147] S604,對語音信息進(jìn)行識別，從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。
[0148] 具體的，將提取的語音特征與語音庫（即聲學(xué)模型）中預(yù)設(shè)的語音特征進(jìn)行匹配，將匹配成功后的語音特征轉(zhuǎn)換成文本內(nèi)容，文本內(nèi)容與表情庫中的表情符號存在映射關(guān) 系，基于該映射關(guān)系，從表情庫中調(diào)用與文本內(nèi)容對應(yīng)的表情符號，將調(diào)用的表情符號替換該文本內(nèi)容。語音庫中存有語音特征與文字的關(guān)系表。需要明白的是，并非將所有文本內(nèi)容均以表情符號進(jìn)行替換，對于不存在映射關(guān)系的表情符號，則不對文本內(nèi)容進(jìn)行轉(zhuǎn)換。將轉(zhuǎn) 換后的表情符號插入文本內(nèi)容中，具體插入位置可依據(jù)該表情符號對應(yīng)的文本內(nèi)容所處的位置，或者任意插入文本內(nèi)容中，不對位置做出限定。例如:假設(shè)微信接收到張三發(fā)送的語音信息"你吃飯了嗎?"，將該語音信息通過語音庫進(jìn)行識別，根據(jù)識別結(jié)果從字詞庫中找到對應(yīng)的文本內(nèi)容，該文本內(nèi)容為"你吃飯了嗎"，從表情庫中調(diào)用與"吃飯"存在映射關(guān)系的表情符號"米飯"，將文本內(nèi)容中的"吃飯"替換為表情符號"米飯"。當(dāng)然，文本內(nèi)容"吃飯"對應(yīng)的表情內(nèi)容可以多個，且以不同形式進(jìn)行體現(xiàn)，移動終端根據(jù)用戶之前的選擇習(xí)慣或者隨機(jī)選擇一個進(jìn)行替換或者插入，最終轉(zhuǎn)換后的效果為"你(米飯）了嗎"或者"你吃飯(米飯）了嗎"。
[0149] 更具體的，將接收到的語音信息進(jìn)行轉(zhuǎn)換形成音頻文件，然后將音頻文件轉(zhuǎn)錄為文本文件。具體的，語音信息轉(zhuǎn)換得到的音頻文件有多個，類似于將語音信息拆分成多個片段，每個片段可以為一個字、一個詞或者簡短的一句話等等，然后將各音頻文件轉(zhuǎn)錄成文本文件，最后將文本文件合并成一段完整的文字。其具體轉(zhuǎn)錄過程如下：
[0150] 從轉(zhuǎn)換后形成的音頻文件中提取語音信號的語音特征，根據(jù)提取的語音特征，對語音信號進(jìn)行分析處理，去掉與語音識別無關(guān)的冗余信息并獲得影響語音識別的重要信息，同時對語音信號進(jìn)行壓縮處理。對語音信號處理的目的在于，避免冗余信息影響語音識另IJ，使得識別準(zhǔn)確率降低。
[0151] 對語音信號處理完成后，進(jìn)行語音識別。將提取的語音特征與語音庫中記錄的語音特征進(jìn)行匹配，找出與提取的語音特征相似度較高的語音特征，從而識別出該語音特征對應(yīng)的文字。具體的，聲學(xué)模型中記錄了大量的語音特征，且各語音特征的音頻譜線與文字存在映射關(guān)系，只要提取的語音特征可以與聲學(xué)模型中的語音特征匹配，就能查出該語音特征對應(yīng)的文字。應(yīng)該明白的是，提取的語音特征的音頻譜線與聲學(xué)模型中的語音特征的音頻譜線越接近，識別的準(zhǔn)確性也越高。
[0152] 將音頻文件轉(zhuǎn)錄成文本文件后，每個音頻文件都存在一個時間戳，將該時間戳添加到對應(yīng)的文本文件上，然后根據(jù)添加的時間戳，將各個文本文件按照時間的先后順序拼接成一份完整的文本內(nèi)容，同時，在將時間戳添加到對應(yīng)文本文件上時，在該文本文件中添加表征語音中的喜怒哀樂的語氣標(biāo)簽，也即文本文件對應(yīng)一條音頻文件，音頻文件中的語氣經(jīng)過分析得到表情符號，將該表情符號插入文本文件中，形成一段帶有表情符號的文字，為通話雙方的會話提供了一份通話的"歷史記錄"。
[0153] 對于上述語音特征與文本內(nèi)容的映射關(guān)系以及文本內(nèi)容與表情符號的映射關(guān)系可以一對一、一對多或者多對一。如："生氣"的表情符號對應(yīng)的文本內(nèi)容"憤怒"、"咒罵"等等。通過上述映射關(guān)系，實現(xiàn)語音到文字和表情符號的轉(zhuǎn)換。
[0154] S605,顯示表情符號。
[0155] 通過本實施方式，能夠?qū)⑽谋緝?nèi)容中的文字以表情符號的形式進(jìn)行體現(xiàn)，將圖文很好的進(jìn)行結(jié)合，在增加聊天趣味性的同時，也提升了用戶體驗。
[0156]需要說明的是，在本文中，術(shù)語"包括"、"包含"或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素，而且還包括沒有明確列出的其他要素，或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下，由語句"包括一個……"限定的要素，并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0157] 上述本發(fā)明實施例序號僅僅為了描述，不代表實施例的優(yōu)劣。
[0158] 通過以上的實施方式的描述，本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現(xiàn)，當(dāng)然也可以通過硬件，但很多情況下前者是更佳的實施方式?；谶@樣的理解，本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來，該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì) (如R0M/RAM、磁碟、光盤)中，包括若干指令用以使得一臺終端設(shè)備(可以是手機(jī)，計算機(jī)，月艮務(wù)器，空調(diào)器，或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0159]以上僅為本發(fā)明的優(yōu)選實施例，并非因此限制本發(fā)明的專利范圍，凡是利用本發(fā) 明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或等效流程變換，或直接或間接運用在其他相關(guān)的技術(shù)領(lǐng)域，均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種語音轉(zhuǎn)換裝置，其特征在于，包括：接收模塊，用于接收語音信息；文本轉(zhuǎn)換模塊，用于對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息；表情轉(zhuǎn)換模塊，用于根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號；顯示模塊，用于顯示表情符號。2. 如權(quán)利要求1所述的語音轉(zhuǎn)換裝置，其特征在于，所述文本轉(zhuǎn)換模塊用于從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽；和/或，所述文本轉(zhuǎn)換模塊用于從語音信息中提取語音特征，通過語音庫對語音特征進(jìn) 行識別，將語音特征轉(zhuǎn)換成對應(yīng)的文本內(nèi)容。3. 如權(quán)利要求1所述的語音轉(zhuǎn)換裝置，其特征在于，還包括：存儲模塊，用于存儲所述表情庫。4. 如權(quán)利要求1-3任一項所述的語音轉(zhuǎn)換裝置，其特征在于，還包括：處理模塊，用于接收轉(zhuǎn)換權(quán)限指令，根據(jù)所述轉(zhuǎn)換權(quán)限指令確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。5. -種移動終端，其特征在于，包括如權(quán)利要求1-4任一項所述的語音轉(zhuǎn)換裝置。6. -種語音轉(zhuǎn)換方法，其特征在于，包括：接收語音信息；對語音信息進(jìn)行識別，將語音信息轉(zhuǎn)換成對應(yīng)的文本信息；根據(jù)文本信息從表情庫中調(diào)用對應(yīng)的表情符號，將文本信息轉(zhuǎn)換成對應(yīng)的表情符號；顯不表情符號。7. 如權(quán)利要求6所述的語音轉(zhuǎn)換方法，其特征在于，所述將語音信息轉(zhuǎn)換成對應(yīng)的文本信息包括：從語音信息中提取語氣特征，通過語氣庫對語氣特征進(jìn)行識別，將語氣特征轉(zhuǎn)換成對應(yīng)的語氣標(biāo)簽；和/或，從語音信息中提取語音特征，通過語音庫對語音特征進(jìn)行識別，將語音特征轉(zhuǎn) 換成對應(yīng)的文本內(nèi)容。8. 如權(quán)利要求6所述的語音轉(zhuǎn)換方法，其特征在于，在所述接收語音信息之前，還包括：存儲所述表情庫。9. 如權(quán)利要求6-8任一項所述的語音轉(zhuǎn)換方法，其特征在于，在所述接收語音信息之前，還包括：接收轉(zhuǎn)換權(quán)限指令，根據(jù)所述轉(zhuǎn)換權(quán)限指令確定觸發(fā)語音轉(zhuǎn)換操作的應(yīng)用程序，并在所述應(yīng)用程序中啟用語音轉(zhuǎn)換操作。10. 如權(quán)利要求6-8任一項所述的語音轉(zhuǎn)換方法，其特征在于，在云端或本端將語音信息轉(zhuǎn)換成對應(yīng)的文本信息，并將文本信息轉(zhuǎn)換成表情符號。
【文檔編號】G10L25/63GK106024014SQ201610350035
【公開日】2016年10月12日
【申請日】2016年5月24日
【發(fā)明人】張濤
【申請人】努比亞技術(shù)有限公司

完整全部詳細(xì)技術(shù)資料下載