語音信息傳送方法及裝置的制作方法

文檔序號：2833112閱讀：359來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音信息傳送方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及通訊領(lǐng)域，特別是涉及一種語音信息傳送方法及裝置。
背景技術(shù)：
在現(xiàn)有技術(shù)中，即時通信技術(shù)是互聯(lián)網(wǎng)的一項基本技術(shù)，目前常見的即時通信軟件通常集成了文本、語音、視頻等多種實時通信方式，以滿足用戶多樣化的溝通需求。對于雙向?qū)崟r通信而言，相比于文本方式，高質(zhì)量的語音通話對于網(wǎng)絡(luò)和終端設(shè)備要求更高。一方面，網(wǎng)絡(luò)的丟包、延時和抖動會嚴重影響通話質(zhì)量，另外終端的麥克風(fēng)、耳機、揚聲器以及噪聲環(huán)境也會影響通話質(zhì)量。因此，如何在復(fù)雜的網(wǎng)絡(luò)和終端環(huán)境下，提升即時通信系統(tǒng)中語音通話質(zhì)量，是一個有待解決的問題。

發(fā)明內(nèi)容
本發(fā)明提供一種語音信息傳送方法及裝置，以解決現(xiàn)有技術(shù)中即時通信系統(tǒng)的語音通話質(zhì)量低的問題。本發(fā)明提供一種語音信息傳送方法，包括在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；終端通過語音識別模塊對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，終端通過語音識別模塊將語音信號發(fā)送到語音識別云端，并從語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。本發(fā)明還提供了一種語音信息傳送裝置，包括啟動模塊，用于在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；語音識別模塊，用于對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，將語音信號發(fā)送到語音識別云端，并從語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。本發(fā)明有益效果如下當(dāng)網(wǎng)絡(luò)或終端環(huán)境不能保證良好的語音通話質(zhì)量時，利用語音識別技術(shù)，將語音轉(zhuǎn)化為對應(yīng)的文本信息進行傳輸，解決了現(xiàn)有技術(shù)中即時通信系統(tǒng)的語音通話質(zhì)量低的問題，能夠提高語音信息傳送的有效性和及時性，提升用戶體驗質(zhì)量。

圖I是本發(fā)明實施例的語音信息傳送方法的流程圖；圖2是本發(fā)明實施例的語音信息傳送方法的詳細處理流程圖；圖3是本發(fā)明實施例的發(fā)送端接收端的示意圖；圖4是本發(fā)明實施例的實例I的流程圖；圖5是本發(fā)明實施例的實例2的流程圖；圖6是本發(fā)明實施例的實例3的場景示意圖7是本發(fā)明實施例的實例3的流程圖；圖8是本發(fā)明實施例的語音信息傳送裝置的結(jié)構(gòu)示意圖。
具體實施例方式為了解決現(xiàn)有技術(shù)中即時通信系統(tǒng)的語音通話質(zhì)量低的問題，本發(fā)明提供了一種語音信息傳送方法及裝置，對于即時通信系統(tǒng)中的語音通話應(yīng)用，無論是網(wǎng)絡(luò)出現(xiàn)質(zhì)量下降，或是終端環(huán)境出現(xiàn)不利于實時語音通訊的故障或問題，均可自動滿足基本的溝通需求，大大提升了用戶的體驗質(zhì)量。以下結(jié)合附圖以及實施例，對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解，此處所描述的具體實施例僅僅用以解釋本發(fā)明，并不限定本發(fā)明。方法實施例根據(jù)本發(fā)明的實施例，提供了一種語音信息傳送方法，圖I是本發(fā)明實施例的語音信息傳送方法的流程圖，如圖I所示，根據(jù)本發(fā)明實施例的語音信息傳送方法包括如下處理步驟101，在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；步驟101具體包括如下處理在終端確定當(dāng)前網(wǎng)絡(luò)狀況、和/或?qū)Χ说慕K端環(huán)境導(dǎo)致語音通話質(zhì)量降低的情況下，自動啟動語音識別模塊；或者，根據(jù)用戶的操作手動啟動語音識別模塊。在步驟101中，終端確定當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低具體包括如下處理I、獲取對端發(fā)送的反饋信息中攜帶的網(wǎng)絡(luò)質(zhì)量指標(biāo)，其中，網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值是否超過預(yù)先設(shè)置的第一閾值的信息；在實際應(yīng)用中，該第一閾值可以包括分別對應(yīng)于丟包率、網(wǎng)絡(luò)抖動、以及延時值的多個閾值。2、如果網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值超過預(yù)先設(shè)置的第一閾值的信息，則確定當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低；在步驟101中，終端確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低具體包括如下處理I、獲取對端發(fā)送的反饋信息，根據(jù)反饋信息確定對端的語音輸出設(shè)備無法正常工作，則確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低；或者2、獲取對端發(fā)送的反饋信息，根據(jù)反饋信息確定對端的環(huán)境噪聲值超過預(yù)先設(shè)置的第二閾值，則確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低。具體地，上述對端的環(huán)境噪聲值可以通過對端檢測輸入語音信號的信噪比并發(fā)送反饋信息得到。優(yōu)選地，在啟動語音識別模塊之前，還可以輸出提示信息，提示用戶選擇是否啟動語音識別模塊；在用戶選擇否的情況下，禁止啟動語音識別模塊，以節(jié)省資源，如果用戶選擇是，則啟動語音識別模塊。步驟102，終端通過語音識別模塊對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，終端通過語音識別模塊將語音信號發(fā)送到語音識別云端，并從語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。具體地，語音識別模塊對本地語音輸入設(shè)備采集到的語音信號可以進行分段語音識別。
在步驟102中，生成對應(yīng)的文本信息之后，還可以記錄文本信息對應(yīng)的時間信息，其中，時間信息包括起始時間、持續(xù)時間；在步驟102中，將文本信息發(fā)送到對端具體包括將攜帶有時間信息的文本信息通過單獨的文本通道或插入語音流通道發(fā)送到對端，其中，文本信息中攜帶有語音識別生成屬性。在執(zhí)行了步驟102之后，對端需要接收并展現(xiàn)文本信息。具體地，對端判斷文本信息的屬性為語音識別生成，則可以通過文本語音轉(zhuǎn)換模塊將文本信息轉(zhuǎn)換為語音信息，并根據(jù)時間信息對轉(zhuǎn)換的語音信息進行播放；其中，根據(jù)時間信息對轉(zhuǎn)換的語音信息進行播放具體包括1、根據(jù)時間信息判斷文本信息所對應(yīng)的時間段內(nèi)的語音包是否仍待播出；2、在判斷有語音包待播出的情況下，判斷語音包的丟包率是否大于預(yù)先設(shè)置的第三閾值，如果判斷為是，則使用轉(zhuǎn)換后的語音信息替換語音包，并播放語音信息，如果判斷為否，則結(jié)束操作。
對端也可以通過文本方式直接顯示文本信息。需要說明的是，在對端為轉(zhuǎn)發(fā)設(shè)備的情況下，則轉(zhuǎn)發(fā)文本信息或者轉(zhuǎn)發(fā)轉(zhuǎn)換的語
音信息。以下結(jié)合附圖，對本發(fā)明實施例的上述技術(shù)方案進行詳細說明。圖2是本發(fā)明實施例的語音信息傳送方法的詳細處理流程圖，如圖2所示，包括如下處理步驟201，判斷網(wǎng)絡(luò)質(zhì)量是否能夠保證通話質(zhì)量，如果判斷為否，則執(zhí)行步驟204，否則，執(zhí)行步驟202;步驟202，判斷對端的終端環(huán)境是否能夠保證通話質(zhì)量，如果判斷為否，則執(zhí)行步驟204，否則，執(zhí)行步驟203 ；步驟203，判斷用戶是否選擇手動開啟語音識別模塊，如果判斷為是，則執(zhí)行步驟204，否則，結(jié)束操作；步驟204，開啟語音識別模塊；步驟205，對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本
信息；步驟206，將文本信息發(fā)送到對端；步驟207，對端接收并展現(xiàn)該文本信息。圖3是本發(fā)明實施例的發(fā)送端接收端的示意圖，如圖3所示，發(fā)送端通過網(wǎng)絡(luò)質(zhì)量檢測、終端環(huán)境檢測、以及用戶設(shè)置檢測，確定是否將采集的語音信息進行語音識別，如果需要進行語音識別，則將語音信息轉(zhuǎn)換為文本信息并發(fā)送到對端，如果不需要進行語音識另IJ，則直接發(fā)送該語音信息(語音編碼)。接收端如果接收到語音數(shù)據(jù)包，則對該語音數(shù)據(jù)包進行解碼，生成語音數(shù)據(jù)，并對其進行播放,如果接收端收到了文本數(shù)據(jù),可以直接對該文本數(shù)據(jù)進行顯示，也可以將該文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)進行播放。以下結(jié)合實例，對本發(fā)明實施例的上述技術(shù)方案進行詳細說明。實例I客戶端A在獲知當(dāng)前網(wǎng)絡(luò)狀況不佳的情況下，通過語音識別模塊獲取語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到客戶端B，客戶端B接收到文本信息后，可以展現(xiàn)給用戶，并嘗試轉(zhuǎn)換為語音輸出。圖4是本發(fā)明實施例的實例I的流程圖，如圖4所示，包括如下處理步驟401，客戶端A和客戶端B進行語音通話，客戶端B統(tǒng)計收包丟包率，若丟包率高于設(shè)定閾值，則跳轉(zhuǎn)402，否則結(jié)束操作。步驟402，客戶端B發(fā)送反饋信息給客戶端A。步驟403，客戶端A接收和解析該反饋信息，并啟動語音識別模塊。步驟404，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信肩、O步驟405，客戶端A通過文本傳輸信道將產(chǎn)生的文本信息打包傳送到客戶端B。打包的所述文本信息包括文本信息本身、對應(yīng)的起始時間，持續(xù)時長、“語音識別生成”屬性。
步驟406，客戶端B接收到該文本信息包，解析出文本信息、起始時間、持續(xù)時長、屬性值。步驟407，客戶端B在文本對話窗口中顯示該文本信息。步驟408，如果該文本信息屬性值為“語音識別生成”，則跳轉(zhuǎn)409，否則結(jié)束操作。步驟409，根據(jù)該文本信息起始時間、持續(xù)時長，查找所接收到的對應(yīng)時間段內(nèi)的語音數(shù)據(jù)包是否待播出，若仍未播出，跳轉(zhuǎn)410，否則結(jié)束操作。步驟410，判斷該段語音數(shù)據(jù)包的丟包率是否大于設(shè)定閾值，若是，則跳轉(zhuǎn)411，否則結(jié)束操作。步驟411，丟棄該文本信息時間段內(nèi)所有的語音數(shù)據(jù)包，將上述文本信息進行文本語音轉(zhuǎn)換后進行替換。實例2客戶端A的用戶在聽到對方用戶告知無法聽到聲音時，主動開啟語音識別模塊，通過語音識別模塊獲取語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到客戶端B，客戶端B接收到文本信息后，可以展現(xiàn)給用戶。圖5是本發(fā)明實施例的實例2的流程圖，如圖5所示，包括如下處理步驟501，客戶端A和客戶端B間語音開始通話，客戶端B的用戶無法聽到對方語音，則發(fā)送話音“聽不到”；步驟502，若客戶端A的用戶聽到客戶端B用戶語音為“聽不到”，則跳轉(zhuǎn)503，否則
結(jié)束操作。步驟503，客戶端A用戶選擇開啟語音識別功能。步驟504，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信息，客戶端A通過文本傳輸信道將文本信息傳送到客戶端B。步驟505，客戶端B接收和解析文本信息包。步驟506，客戶端B在文本對話窗口中顯示該文本信息。實例3圖6是本發(fā)明實施例的實例3的場景示意圖，如圖6所示，即時通訊(InstantMessenger,簡稱為頂)客戶端A通過語音網(wǎng)關(guān)服務(wù)器B呼叫固定電話C，并與C進行語音通話。客戶端A在獲知當(dāng)前網(wǎng)絡(luò)狀況不佳的情況下，通過語音識別模塊獲取到語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到語音網(wǎng)關(guān)服務(wù)器B，語音網(wǎng)關(guān)服務(wù)器B接收到文本信息后，嘗試轉(zhuǎn)換為語音信息，并轉(zhuǎn)發(fā)到固定電話C。圖7是本發(fā)明實施例的實例3的流程圖，如圖7所示，包括如下處理步驟701，客戶端A和固定電話C通過語音網(wǎng)關(guān)服務(wù)器B進行語音通話，語音網(wǎng)關(guān)服務(wù)器B統(tǒng)計從A接收的收包丟包率，若丟包率高于設(shè)定閾值，則跳轉(zhuǎn)702，否則結(jié)束操作。步驟702，語音網(wǎng)關(guān)服務(wù)器B發(fā)送反饋信息給客戶端A。步驟703，客戶端A接收和解析該反饋信息，啟動語音識別模塊。步驟704，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信肩、O步驟705，客戶端A通過文本傳輸信道將產(chǎn)生的文本信息打包傳送到網(wǎng)關(guān)B。所述文本信息打包包括文本信息本身、對應(yīng)的起始時間，持續(xù)時長。步驟706，語音網(wǎng)關(guān)服務(wù)器B接收到該文本信息包，解析出文本信息、起始時間、持續(xù)時長。步驟707，語音網(wǎng)關(guān)服務(wù)器B根據(jù)該文本信息起始時間、持續(xù)時長，查找所接收到的對應(yīng)時間段內(nèi)語音數(shù)據(jù)包，若仍未過時，跳轉(zhuǎn)708，否則結(jié)束操作。步驟708，判斷該段語音數(shù)據(jù)包的丟包率是否大于設(shè)定閾值，若是，則跳轉(zhuǎn)709，否則結(jié)束操作。步驟709，丟棄該文本信息對應(yīng)時間段內(nèi)所有的語音數(shù)據(jù)包，將上述文本信息進行文本語音轉(zhuǎn)換后，進行替換。并轉(zhuǎn)發(fā)到固定電話C。綜上所述，借助于本發(fā)明實施例的技術(shù)方案，當(dāng)網(wǎng)絡(luò)或終端環(huán)境不能保證良好的語音通話質(zhì)量時，利用語音識別技術(shù)，將語音轉(zhuǎn)化為對應(yīng)的文本信息進行傳輸，解決了現(xiàn)有技術(shù)中即時通信系統(tǒng)的語音通話質(zhì)量低的問題，能夠提高語音信息傳送的有效性和及時性，提升用戶體驗質(zhì)量。裝置實施例根據(jù)本發(fā)明的實施例，提供了一種語音信息傳送裝置，圖8是本發(fā)明實施例的語音信息傳送裝置的結(jié)構(gòu)示意圖，如圖8所示，根據(jù)本發(fā)明實施例的語音信息傳送裝置包括啟動模塊80、以及語音識別模塊82，以下對本發(fā)明實施例的各個模塊進行詳細的說明。啟動模塊80，用于在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊82；啟動模塊80具體用于在終端確定當(dāng)前網(wǎng)絡(luò)狀況、和/或?qū)Χ说慕K端環(huán)境導(dǎo)致語音通話質(zhì)量降低的情況下，自動啟動語音識別模塊82 ;或者，根據(jù)用戶的操作手動啟動語音識別模塊82 ；啟動模塊80具體包括網(wǎng)絡(luò)狀況確定子模塊、以及終端環(huán)境確定子模塊，其中網(wǎng)絡(luò)狀況確定子模塊，用于獲取對端發(fā)送的反饋信息中攜帶的網(wǎng)絡(luò)質(zhì)量指標(biāo)，其中，網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值是否超過預(yù)先設(shè)置的第一閾值的信息；在實際應(yīng)用中，該第一閾值可以包括分別對應(yīng)于丟包率、網(wǎng)絡(luò)抖動、以及延時值的多個閾值；如果網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值超過預(yù)先設(shè)置的第一閾值的信息，則確定當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低；終端環(huán)境確定子模塊，用于獲取對端發(fā)送的反饋信息，根據(jù)反饋信息確定對端的語音輸出設(shè)備無法正常工作，則確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低；或者獲取對端發(fā)送的反饋信息，根據(jù)反饋信息確定對端的環(huán)境噪聲值超過預(yù)先設(shè)置的第二閾值，則確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低。
語音識別模塊82，用于對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，將語音信號發(fā)送到語音識別云端，并從語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。語音識別模塊82具體用于對本地語音輸入設(shè)備采集到的語音信號進行分段語音識別；語音識別模塊82還用于記錄文本信息對應(yīng)的時間信息，其中，時間信息包括起始時間、持續(xù)時間；將攜帶有時間信息的文本信息通過單獨的文本通道或插入語音流通道發(fā)送到對端，其中，文本信息中攜帶有語音識別生成屬性；優(yōu)選地，上述裝置還包括提示模塊、展現(xiàn)模塊、以及轉(zhuǎn)發(fā)模塊。其中，
提示模塊，用于在啟動模塊80啟動語音識別模塊82之前，輸出提示信息，提示用戶選擇是否啟動語音識別模塊82 ;在用戶選擇否的情況下，禁止啟動語音識別模塊82 ；展現(xiàn)模塊，用于接收并展現(xiàn)語音識別模塊82發(fā)送的文本信息；其中，展現(xiàn)模塊具體包括語音展現(xiàn)子模塊，用于判斷文本信息的屬性為語音識別生成，則通過文本語音轉(zhuǎn)換模塊將文本信息轉(zhuǎn)換為語音信息，并根據(jù)時間信息對轉(zhuǎn)換的語音信息進行播放；文本展現(xiàn)子模塊，用于通過文本方式直接顯示文本信息；語音展現(xiàn)子模塊具體用于根據(jù)時間信息判斷文本信息所對應(yīng)的時間段內(nèi)的語音包是否仍待播出；在判斷有語音包待播出的情況下，判斷語音包的丟包率是否大于預(yù)先設(shè)置的第三閾值，如果判斷為是，則使用轉(zhuǎn)換到的語音信息替換語音包，并播放語音信息；轉(zhuǎn)發(fā)模塊，用于在對端為轉(zhuǎn)發(fā)設(shè)備的情況下，則轉(zhuǎn)發(fā)文本信息或者轉(zhuǎn)發(fā)轉(zhuǎn)換的語音信息。以下結(jié)合附圖，對本發(fā)明實施例的上述技術(shù)方案進行詳細說明。圖2是本發(fā)明實施例的語音信息傳送方法的詳細處理流程圖，如圖2所示，包括如下處理步驟201，確定模塊80判斷網(wǎng)絡(luò)質(zhì)量是否能夠保證通話質(zhì)量，如果判斷為否，則執(zhí)行步驟204，否則，執(zhí)行步驟202 ；步驟202，確定模塊80判斷對端的終端環(huán)境是否能夠保證通話質(zhì)量，如果判斷為否，則執(zhí)行步驟204，否則，執(zhí)行步驟203 ；步驟203，啟動模塊82判斷用戶是否選擇手動開啟語音識別模塊，如果判斷為是，則執(zhí)行步驟204，否則，結(jié)束操作；步驟204，啟動模塊82開啟語音識別模塊；步驟205，語音識別模塊84對本地語音輸入設(shè)備采集到的語音信號進行語音識另O,生成對應(yīng)的文本信息；步驟206，語音識別模塊84將文本信息發(fā)送到對端；步驟207，對端的展現(xiàn)模塊86接收并展現(xiàn)該文本信息。圖3是本發(fā)明實施例的發(fā)送端接收端的示意圖，如圖3所示，發(fā)送端通過網(wǎng)絡(luò)質(zhì)量檢測、終端環(huán)境檢測、以及用戶設(shè)置檢測，確定是否將采集的語音信息進行語音識別，如果需要進行語音識別，則將語音信息轉(zhuǎn)換為文本信息并發(fā)送到對端，如果不需要進行語音識另IJ，則直接發(fā)送該語音信息(語音編碼)。接收端如果接收到語音數(shù)據(jù)包，則對該語音數(shù)據(jù)包進行解碼，生成語音數(shù)據(jù)，并對其進行播放，如果接收端收到了文本數(shù)據(jù)，可以直接對該文本數(shù)據(jù)進行顯示，也可以將該文本數(shù)據(jù)轉(zhuǎn)換為語音數(shù)據(jù)進行播放。以下結(jié)合實例，對本發(fā)明實施例的上述技術(shù)方案進行詳細說明。實例I客戶端A在獲知當(dāng)前網(wǎng)絡(luò)狀況不佳的情況下，通過語音識別模塊獲取語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到客戶端B，客戶端B接收到文本信息后，可以展現(xiàn)給用戶，并嘗試轉(zhuǎn)換為語音輸出。圖4是本發(fā)明實施例的實例I的流程圖，如圖4所示，包括如下處理步驟401，客戶端A和客戶端B進行語音通話，客戶端B統(tǒng)計收包丟包率，若丟包率高于設(shè)定閾值，則跳轉(zhuǎn)402，否則結(jié)束操作。步驟402，客戶端B發(fā)送反饋信息給客戶端A。步驟403，客戶端A接收和解析該反饋信息，并啟動語音識別模塊。步驟404，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信肩、O步驟405，客戶端A通過文本傳輸信道將產(chǎn)生的文本信息打包傳送到客戶端B。打包的所述文本信息包括文本信息本身、對應(yīng)的起始時間，持續(xù)時長、“語音識別生成”屬性。
步驟406，客戶端B接收到該文本信息包，解析出文本信息、起始時間、持續(xù)時長、屬性值。步驟407，客戶端B在文本對話窗口中顯示該文本信息。步驟408，如果該文本信息屬性值為“語音識別生成”，則跳轉(zhuǎn)409，否則結(jié)束操作。步驟409，根據(jù)該文本信息起始時間、持續(xù)時長，查找所接收到的對應(yīng)時間段內(nèi)的語音數(shù)據(jù)包是否待播出，若仍未播出，跳轉(zhuǎn)410，否則結(jié)束操作。步驟410，判斷該段語音數(shù)據(jù)包的丟包率是否大于設(shè)定閾值，若是，則跳轉(zhuǎn)411，否則結(jié)束操作。步驟411，丟棄該文本信息時間段內(nèi)所有的語音數(shù)據(jù)包，將上述文本信息進行文本語音轉(zhuǎn)換后進行替換。實例2客戶端A的用戶在聽到對方用戶告知無法聽到聲音時，主動開啟語音識別模塊，通過語音識別模塊獲取語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到客戶端B，客戶端B接收到文本信息后，可以展現(xiàn)給用戶。圖5是本發(fā)明實施例的實例2的流程圖，如圖5所示，包括如下處理步驟501，客戶端A和客戶端B間語音開始通話，客戶端B的用戶無法聽到對方語音，則發(fā)送話音“聽不到”；步驟502，若客戶端A的用戶聽到客戶端B用戶語音為“聽不到”，則跳轉(zhuǎn)503，否則
結(jié)束操作。步驟503，客戶端A用戶選擇開啟語音識別功能。步驟504，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信息，客戶端A通過文本傳輸信道將文本信息傳送到客戶端B。步驟505，客戶端B接收和解析文本信息包。步驟506，客戶端B在文本對話窗口中顯示該文本信息。
實例3圖6是本發(fā)明實施例的實例3的場景示意圖，如圖6所示，即時通訊(InstantMessenger,簡稱為頂)客戶端A通過語音網(wǎng)關(guān)服務(wù)器B呼叫固定電話C，并與C進行語音通話?？蛻舳薃在獲知當(dāng)前網(wǎng)絡(luò)狀況不佳的情況下，通過語音識別模塊獲取到語音數(shù)據(jù)段對應(yīng)的文本信息，并發(fā)送到語音網(wǎng)關(guān)服務(wù)器B，語音網(wǎng)關(guān)服務(wù)器B接收到文本信息后，嘗試轉(zhuǎn)換為語音信息，并轉(zhuǎn)發(fā)到固定電話C。圖7是本發(fā)明實施例的實例3的流程圖，如圖7所示，包括如下處理步驟701，客戶端A和固定電話C通過語音網(wǎng)關(guān)服務(wù)器B進行語音通話，語音網(wǎng)關(guān)服務(wù)器B統(tǒng)計從A接收的收包丟包率，若丟包率高于設(shè)定閾值，則跳轉(zhuǎn)702，否則結(jié)束操作。步驟702，語音網(wǎng)關(guān)服務(wù)器B發(fā)送反饋信息給客戶端A。步驟703，客戶端A接收和解析該反饋信息，啟動語音識別模塊。步驟704，客戶端A將采集的語音信號傳入語音識別模塊，解析得到對應(yīng)的文本信肩、O步驟705，客戶端A通過文本傳輸信道將產(chǎn)生的文本信息打包傳送到網(wǎng)關(guān)B。所述文本信息打包包括文本信息本身、對應(yīng)的起始時間，持續(xù)時長。步驟706，語音網(wǎng)關(guān)服務(wù)器B接收到該文本信息包，解析出文本信息、起始時間、持續(xù)時長。步驟707，語音網(wǎng)關(guān)服務(wù)器B根據(jù)該文本信息起始時間、持續(xù)時長，查找所接收到的對應(yīng)時間段內(nèi)語音數(shù)據(jù)包，若仍未過時，跳轉(zhuǎn)708，否則結(jié)束操作。步驟708，判斷該段語音數(shù)據(jù)包的丟包率是否大于設(shè)定閾值，若是，則跳轉(zhuǎn)709，否則結(jié)束操作。步驟709，丟棄該文本信息對應(yīng)時間段內(nèi)所有的語音數(shù)據(jù)包，將上述文本信息進行文本語音轉(zhuǎn)換后，進行替換。并轉(zhuǎn)發(fā)到固定電話C。綜上所述，借助于本發(fā)明實施例的技術(shù)方案，當(dāng)網(wǎng)絡(luò)或終端環(huán)境不能保證良好的語音通話質(zhì)量時，利用語音識別技術(shù)，將語音轉(zhuǎn)化為對應(yīng)的文本信息進行傳輸，解決了現(xiàn)有技術(shù)中即時通信系統(tǒng)的語音通話質(zhì)量低的問題，能夠提高語音信息傳送的有效性和及時性，提升用戶體驗質(zhì)量。盡管為示例目的，已經(jīng)公開了本發(fā)明的優(yōu)選實施例，本領(lǐng)域的技術(shù)人員將意識到各種改進、增加和取代也是可能的，因此，本發(fā)明的范圍應(yīng)當(dāng)不限于上述實施例。
權(quán)利要求
1.一種語音信息傳送方法,其特征在于,包括在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；終端通過所述語音識別模塊對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，終端通過所述語音識別模塊將所述語音信號發(fā)送到語音識別云端，并從所述語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。
2.如權(quán)利要求I所述的方法，其特征在于，在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊具體包括在終端確定當(dāng)前網(wǎng)絡(luò)狀況、和/或?qū)Χ说慕K端環(huán)境導(dǎo)致語音通話質(zhì)量降低的情況下，自動啟動所述語音識別模塊；或者根據(jù)用戶的操作手動啟動所述語音識別模塊。
3.如權(quán)利要求2所述的方法，其特征在于，終端確定當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低具體包括獲取所述對端發(fā)送的反饋信息中攜帶的網(wǎng)絡(luò)質(zhì)量指標(biāo)，其中，所述網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值是否超過預(yù)先設(shè)置的第一閾值的信息；如果所述網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值超過預(yù)先設(shè)置的第一閾值的信息，則確定所述當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低；終端確定對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低具體包括獲取所述對端發(fā)送的反饋信息，根據(jù)所述反饋信息確定所述對端的語音輸出設(shè)備無法正常工作，則確定所述對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低；或者，獲取所述對端發(fā)送的反饋信息，根據(jù)所述反饋信息確定對端的環(huán)境噪聲值超過預(yù)先設(shè)置的第二閾值，則確定所述對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低。
4.如權(quán)利要求2所述的方法，其特征在于，自動啟動所述語音識別模塊之前，所述方法還包括輸出提示信息，提示用戶選擇是否啟動所述語音識別模塊；在用戶選擇否的情況下，禁止啟動所述語音識別模塊；生成對應(yīng)的文本信息之后，所述方法還包括記錄所述文本信息對應(yīng)的時間信息，其中，所述時間信息包括起始時間、持續(xù)時間；將所述文本信息發(fā)送到對端具體包括將攜帶有所述時間信息的所述文本信息通過單獨的文本通道或插入語音流通道發(fā)送到所述對端，其中，所述文本信息中攜帶有語音識別生成屬性。
5.如權(quán)利要求4所述的方法，其特征在于，所述方法還包括所述對端接收并展現(xiàn)所述文本信息；所述對端接收并展現(xiàn)所述文本信息具體包括所述對端判斷所述文本信息的屬性為所述語音識別生成，則通過文本語音轉(zhuǎn)換模塊將所述文本信息轉(zhuǎn)換為語音信息，并根據(jù)所述時間信息對轉(zhuǎn)換的所述語音信息進行播放；或者所述對端通過文本方式直接顯示所述文本信息。
6.如權(quán)利要求5所述的方法，其特征在于，根據(jù)所述時間信息對轉(zhuǎn)換的所述語音信息進行播放具體包括根據(jù)所述時間信息判斷所述文本信息所對應(yīng)的時間段內(nèi)的語音包是否仍待播出；在判斷有語音包待播出的情況下，判斷所述語音包的丟包率是否大于預(yù)先設(shè)置的第三閾值，如果判斷為是，則使用轉(zhuǎn)換到的所述語音信息替換所述語音包，并播放所述語音信肩、O
7.如權(quán)利要求5所述的方法，其特征在于，所述方法還包括在所述對端為轉(zhuǎn)發(fā)設(shè)備的情況下，則轉(zhuǎn)發(fā)所述文本信息或者轉(zhuǎn)發(fā)轉(zhuǎn)換的所述語音信肩、O
8.一種語音信息傳送裝置，其特征在于，包括啟動模塊，用于在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；所述語音識別模塊，用于對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，將所述語音信號發(fā)送到語音識別云端，并從所述語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。
9.如權(quán)利要求8所述的裝置，其特征在于，所述啟動模塊具體用于在終端確定當(dāng)前網(wǎng)絡(luò)狀況、和/或?qū)Χ说慕K端環(huán)境導(dǎo)致語音通話質(zhì)量降低的情況下，自動啟動所述語音識別模塊；或者，根據(jù)用戶的操作手動啟動所述語音識別模塊；所述啟動模塊具體包括網(wǎng)絡(luò)狀況確定子模塊，用于獲取所述對端發(fā)送的反饋信息中攜帶的網(wǎng)絡(luò)質(zhì)量指標(biāo)，其中，所述網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值是否超過預(yù)先設(shè)置的第一閾值的信息；如果所述網(wǎng)絡(luò)質(zhì)量指標(biāo)中攜帶有丟包率、網(wǎng)絡(luò)抖動、和/或延時值超過預(yù)先設(shè)置的第一閾值的信息，則確定所述當(dāng)前網(wǎng)絡(luò)狀況導(dǎo)致語音通話質(zhì)量降低；終端環(huán)境確定子模塊，用于獲取所述對端發(fā)送的反饋信息，根據(jù)所述反饋信息確定所述對端的語音輸出設(shè)備無法正常工作，則確定所述對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低；或者獲取所述對端發(fā)送的反饋信息，根據(jù)所述反饋信息確定對端的環(huán)境噪聲值超過預(yù)先設(shè)置的第二閾值，則確定所述對端的終端環(huán)境導(dǎo)致語音通話質(zhì)量降低。
10.如權(quán)利要求9所述的裝置，其特征在于，所述語音識別模塊具體用于對所述本地語音輸入設(shè)備采集到的語音信號進行分段語音識別；所述語音識別模塊還用于記錄所述文本信息對應(yīng)的時間信息，其中，所述時間信息包括起始時間、持續(xù)時間；將攜帶有所述時間信息的所述文本信息通過單獨的文本通道或插入語音流通道發(fā)送到所述對端，其中，所述文本信息中攜帶有語音識別生成屬性；所述裝置還包括提示模塊，用于在所述啟動模塊啟動所述語音識別模塊之前，輸出提示信息，提示用戶選擇是否啟動所述語音識別模塊；在用戶選擇否的情況下，禁止啟動所述語音識別模塊；展現(xiàn)模塊，用于接收并展現(xiàn)所述語音識別模塊發(fā)送的文本信息；所述展現(xiàn)模塊具體包括語音展現(xiàn)子模塊，用于判斷所述文本信息的屬性為所述語音識別生成，則通過文本語音轉(zhuǎn)換模塊將所述文本信息轉(zhuǎn)換為語音信息，并根據(jù)所述時間信息對轉(zhuǎn)換的所述語音信息進行播放；文本展現(xiàn)子模塊，用于通過文本方式直接顯示所述文本信息；所述語音展現(xiàn)子模塊具體用于根據(jù)所述時間信息判斷所述文本信息所對應(yīng)的時間段內(nèi)的語音包是否仍待播出；在判斷有語音包待播出的情況下，判斷所述語音包的丟包率是否大于預(yù)先設(shè)置的第三閾值，如果判斷為是，則使用轉(zhuǎn)換到的所述語音信息替換所述語音包，并播放所述語音信息；所述裝置還包括轉(zhuǎn)發(fā)模塊，用于在所述對端為轉(zhuǎn)發(fā)設(shè)備的情況下，則轉(zhuǎn)發(fā)所述文本信息或者轉(zhuǎn)發(fā)轉(zhuǎn)換的所述語音信息。
全文摘要
本發(fā)明公開了一種語音信息傳送方法及裝置。該方法包括在確定語音通話質(zhì)量降低的情況下，啟動語音識別模塊；終端通過語音識別模塊對本地語音輸入設(shè)備采集到的語音信號進行語音識別，生成對應(yīng)的文本信息并發(fā)送到對端；或者，終端通過語音識別模塊將語音信號發(fā)送到語音識別云端，并從語音識別云端獲取對應(yīng)的文本信息并發(fā)送到對端。借助于本發(fā)明的技術(shù)方案，能夠提高語音信息傳送的有效性和及時性，提升用戶體驗質(zhì)量。
文檔編號G10L15/26GK102710539SQ20121013351
公開日2012年10月3日申請日期2012年5月2日優(yōu)先權(quán)日2012年5月2日
發(fā)明者李加周, 阮亞平申請人:中興通訊股份有限公司

完整全部詳細技術(shù)資料下載