專利名稱:語音服務(wù)器及其語音處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,尤其涉及一種語音服務(wù)器及其語音處理方法。
背景技術(shù):
現(xiàn)有的語音主要有混音和透傳兩種處理方式,而且在同一語音處理系統(tǒng)中,大多只采用單一的處理方式來處理所有的語音,處理方式固定。由于固定的處理方式大多只針對常見的一般情況進行折中考慮,因此容易導(dǎo)致在某些情況下處理效果的不佳,例如在一個網(wǎng)絡(luò)聊天室系統(tǒng)中,語音服務(wù)器通常采用混音的方式處理混音數(shù)據(jù),然而,即使該聊天室中只有固定的一或兩個用戶聊天時,采用的還是固定的混音方式,對有些可以直接通過透傳方式處理的語音還是采用固定的混音的處理機制進行處理,由于混音操作復(fù)雜,從而造成某些語音數(shù)據(jù)傳輸?shù)臅r延大,且對服務(wù)器增加了不必要的開銷。而且當網(wǎng)絡(luò)聊天室用戶的上麥用戶在兩個以上時,由語音服務(wù)器以透傳方式處理語音,并由目的客戶端進行混音處理,也可以在確保用戶體驗的前提下優(yōu)化語音服務(wù)器及其客戶端的資源配置。
發(fā)明內(nèi)容
本發(fā)明的主要目的在于公開一種語音服務(wù)器及其語音處理方法,以靈活地處理多情況下的語音。為達上述目的,本發(fā)明公開了一種語音處理方法,應(yīng)用于聊天室的語音服務(wù)器側(cè),包括以下步驟:將麥上活躍用戶數(shù)分成至少三個不同的區(qū)段,并對應(yīng)麥上活躍用戶數(shù)的不同區(qū)段設(shè)置相應(yīng)的語音處理方式,所述語音處理方式包括透傳、混音和半透傳半混音三種方式;根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶;根據(jù)所述麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式。可選的,上述根據(jù)所述麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式包括:設(shè)置切換語音處理方式的第一及第二閾值;以及當所述麥上活躍用戶數(shù)小于所述第一閾值時,所述語音服務(wù)器以透傳的方式處理所述聊天室的所有語音數(shù)據(jù);當所述麥上活躍用戶數(shù)大于或等于所述第一閾值且小于所述第二閾值時,所述語音服務(wù)器以半透傳半混音的方式處理所述聊天室中的語音數(shù)據(jù),即以透傳方式處理麥上活躍用戶之間的語音數(shù)據(jù),并將所有麥上活躍用戶的語音數(shù)據(jù)混音后發(fā)送給聊天室中的其它芳聽用戶;當所述麥上活躍用戶數(shù)大于或等于所述第二閾值時,所述語音服務(wù)器以混音的方式處理所述聊天室中的語音數(shù)據(jù)。為達上述目的,本發(fā)明還公開一種與上述處理方法相對應(yīng)的語音服務(wù)器,包括:與透傳模塊、混音模塊和半透傳半混音模塊建立通信連接的切換模塊,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,獲取麥上活躍用戶數(shù),判斷麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段,并針對麥上活躍用戶數(shù)的不同區(qū)段的動態(tài)變化調(diào)用相應(yīng)的透傳模塊、混音模塊或半透傳半混音模塊以相應(yīng)的透傳、混音或半透傳半混音方式處理語音??蛇x的,上述切換模塊包括:設(shè)置單元,用于設(shè)置切換語音處理方式的第一及第二閾值;分類單元,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小實時分類麥上活躍用戶和麥上沉默用戶;切換單元,用于從所述分類單元獲取當前的麥上活躍用戶數(shù),根據(jù)上述設(shè)置單元設(shè)置的第一和第二閾值判斷該麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段;當所述麥上活躍用戶數(shù)小于所述第一閾值時,觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數(shù)據(jù);當所述麥上活躍用戶數(shù)大于或等于所述第一閾值且小于所述第二閾值時,觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數(shù)據(jù),即以透傳方式處理上麥用戶之間的語音數(shù)據(jù),并將所有麥上的語音數(shù)據(jù)混音后發(fā)送給聊天室中的其它用戶;以及當所述麥上活躍用戶數(shù)大于或等于所述第二閾值時,觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數(shù)據(jù)。與現(xiàn)有技術(shù)相比,本發(fā)明實施例至少具有以下優(yōu)點:將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾,并根據(jù)麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式,實現(xiàn)了各情況下語音的靈活處理,減少服務(wù)器混音操作的開銷。
圖1是本發(fā)明實施例公開的語音處理方法的流程圖;圖2是本發(fā)明實施例公開的語音服務(wù)器的功能結(jié)構(gòu)框圖。
具體實施例方式下面結(jié)合說明書附圖對本發(fā)明的具體實現(xiàn)方式做一詳細描述。實施例一本實施例公開一種語音的處理方法,如圖1所示,包括以下步驟:步驟S1、將麥上活躍用戶數(shù)分成至少三個不同的區(qū)段,并對應(yīng)麥上活躍用戶數(shù)的不同區(qū)段設(shè)置相應(yīng)的語音處理方式,該語音處理方式至少包括透傳、混音和半透傳半混音三種方式。所謂半透傳半混音方式,即以透傳方式處理麥上活躍用戶之間的語音數(shù)據(jù),并將所有麥上活躍用戶的語音數(shù)據(jù)混音后發(fā)送給聊天室中的其它用戶,值得說明的是,該方式中“半”的理解不應(yīng)狹義的限制在1/2,而應(yīng)做廣義的“一部分”理解,后續(xù)不再贅述?,F(xiàn)有語音服務(wù)器的混音處理可以是先解碼源客戶端發(fā)送的語音編碼數(shù)據(jù),解碼后的數(shù)據(jù)統(tǒng)一為PCM格式,然后判斷所有源客戶端所傳送的語音編碼數(shù)據(jù)的采樣率和聲道是否與標準一致,如果不一致,基于標準采樣率對與之不同的源客戶端的語音數(shù)據(jù)進行重新采樣,并基于標準聲道對與之不同的所有源客戶端的語音數(shù)據(jù)進行擴展或合并;根據(jù)時間戳對齊所述采樣率和聲道統(tǒng)一的語音數(shù)據(jù);最后再將對齊后的語音數(shù)據(jù)進行混音處理后發(fā)送給宿客戶端。有關(guān)混音的處理方法,可以參考本案申請人于2011年5月25日被受理的201110136353.0號專利申請(申請公布日:2011.10.26,公告號:CN102226944A),在此不作贅述。所謂透傳,即是透明傳送,也就是語音服務(wù)器不管傳輸?shù)臉I(yè)務(wù)如何,只負責將接收的源客戶端的語音數(shù)據(jù)中轉(zhuǎn)到宿客戶端,而不對傳輸?shù)臉I(yè)務(wù)進行處理,由此省略了編解碼及幀對齊等處理,相比較混音而言,各路數(shù)據(jù)的傳輸時延更小。步驟S2、根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶。本發(fā)明中,所謂上麥用戶即指打開麥克風、建立有向語音服務(wù)器輸送音頻數(shù)據(jù)通道的用戶。麥上活躍用戶與麥上沉默用戶是構(gòu)成上麥用戶的兩大用戶組,麥上活躍用戶即指一段時間內(nèi)發(fā)言音量達標且發(fā)言具有可持續(xù)性的上麥用戶,反之,其它的上麥用戶則為麥上沉默用戶。麥上活躍用戶和麥上沉默用戶的用戶數(shù)是兩個動態(tài)的變量。其中,在用戶剛上麥時,默認將該用戶設(shè)置為麥上沉默用戶。該步驟中,劃分麥上活躍用戶的方法包括但不限于下述兩種方式:方式一、設(shè)置第一振幅閾值,當任一上麥用戶在M個檢測周期內(nèi)有N個大于所述第一振幅閾值的抽樣值,則將該上麥用戶界定為麥上活躍用戶;其中正整數(shù)M>N。方式二、設(shè)置第二振幅閾值,當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值,則將該上麥用戶界定為麥上活躍用戶;其中L為正整數(shù)。步驟S3、根據(jù)麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式。本實施例中,可選的,語音服務(wù)器設(shè)置有切換語音處理方式的第一及第二閾值;當麥上活躍用戶數(shù)小于第一閾值時,以透傳的方式處理聊天室的所有語音數(shù)據(jù);當麥上活躍用戶數(shù)大于或等于第一閾值且小于第二閾值時,以半透傳半混音的方式處理聊天室中的語音數(shù)據(jù);以及當麥上活躍用戶數(shù)大于或等于第二閾值時,以混音的方式處理聊天室中的語音數(shù)據(jù)。舉例說明:在一個簡單的網(wǎng)絡(luò)聊天室系統(tǒng)中,該第一閾值可以設(shè)置為2,第二閾值可以設(shè)置為3 ;藉此,則在該網(wǎng)絡(luò)聊天室中,當一個麥上活躍用戶發(fā)言時,直接以透傳的方式對該用戶的語音數(shù)據(jù)廣播給聊天室中的其它用戶,當兩個麥上活躍用戶發(fā)言時,該兩活躍用戶之間的語音數(shù)據(jù)以透傳方式進行傳輸,延時短,而對聊天室中的其它用戶,由于這部分用戶都是聽眾,對語音傳輸?shù)募皶r性要求不高,則接收的是語音服務(wù)器對該兩上麥用戶混音后的語音數(shù)據(jù)。在其他具體的應(yīng)用場景中,當網(wǎng)絡(luò)聊天室用戶的麥上活躍用戶在兩個以上時,通過合理設(shè)置第一閾值,即由語音服務(wù)器以透傳方式處理語音,并由目的客戶端進行混音處理,也可以在確保用戶體驗并減少時延的前提下優(yōu)化語音服務(wù)器及其客戶端的資源配置。同理,通過第二閾值的合理設(shè)置,可以進一步優(yōu)化語音服務(wù)器及其客戶端的資源配置,極大地提高了語音服務(wù)器處理語音的靈活度。綜上,本實施例公開的語音處理方法,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾,并根據(jù)麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式,實現(xiàn)了各情況下語音的靈活處理,減少服務(wù)器混音操作的開銷。
實施例二本實施例公開一種執(zhí)行上述實施例一所公開方法的語音服務(wù)器,如圖2所示,包括:與透傳模塊1、混音模塊2和半透傳半混音模塊3建立通信連接的切換模塊4,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,獲取麥上活躍用戶數(shù),判斷麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段,并針對麥上活躍用戶數(shù)的不同區(qū)段的動態(tài)變化調(diào)用相應(yīng)的透傳模塊、混音模塊或半透傳半混音模塊以相應(yīng)的透傳、混音或半透傳半混音方式處理語音??蛇x的,如圖2所示,上述切換模塊包括:設(shè)置單元41,用于設(shè)置切換語音處理方式的第一及第二閾值;分類單元42,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小實時分類麥上活躍用戶和麥上沉默用戶;切換單元43,用于從所述分類單元獲取當前的麥上活躍用戶數(shù),根據(jù)上述設(shè)置單元設(shè)置的第一和第二閾值判斷該麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段;當所述麥上活躍用戶數(shù)小于所述第一閾值時,觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數(shù)據(jù);當所述麥上活躍用戶數(shù)大于或等于所述第一閾值且小于所述第二閾值時,觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數(shù)據(jù),即以透傳方式處理上麥用戶之間的語音數(shù)據(jù),并將所有麥上的語音數(shù)據(jù)混音后發(fā)送給聊天室中的其它旁聽用戶;以及當所述麥上活躍用戶數(shù)大于或等于所述第二閾值時,觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數(shù)據(jù)。本實施例中,可選的,上述分類單元設(shè)置有第一振幅閾值,當任一上麥用戶在M個檢測周期內(nèi)有N個大于該第一振幅閾值的抽樣值,則將該上麥用戶界定為麥上活躍用戶;其中正整數(shù)M>N?;蛘撸鲜龇诸悊卧O(shè)置有第二振幅閾值,當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值,則將該上麥用戶界定為麥上活躍用戶;其中L為正整數(shù)。舉例說明:在一個簡單的網(wǎng)絡(luò)聊天室系統(tǒng)中,該第一閾值可以設(shè)置為2,第二閾值可以設(shè)置為3 ;藉此,則在該網(wǎng)絡(luò)聊天室中,當一個麥上活躍用戶發(fā)言時,直接以透傳的方式對該用戶的語音數(shù)據(jù)廣播給聊天室中的其它旁聽用戶,當兩個麥上活躍用戶發(fā)言時,該兩活躍用戶之間的語音數(shù)據(jù)以透傳方式進行傳輸,延時短,而對聊天室中的其它用戶,由于這部分用戶都是聽眾,對語音傳輸?shù)募皶r性要求不高,則接收的是語音服務(wù)器對該兩上麥用戶混音后的語音數(shù)據(jù)。在其他具體的應(yīng)用場景中,當網(wǎng)絡(luò)聊天室用戶的麥上活躍用戶在兩個以上時,通過合理設(shè)置第一閾值,即由語音服務(wù)器以透傳方式處理語音,并由目的客戶端進行混音處理,也可以在確保用戶體驗并減少時延的前提下優(yōu)化語音服務(wù)器及其客戶端的資源配置。同理,通過第二閾值的合理設(shè)置,可以進一步優(yōu)化語音服務(wù)器及其客戶端的資源配置,極大地提高了語音服務(wù)器處理語音的靈活度。綜上,本實施例公開的語音服務(wù)器,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,剔除了麥上沉默用戶上傳的噪音等對語音處理的干擾,并根據(jù)麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式,實現(xiàn)了各情況下語音的靈活處理,減少服務(wù)器混音操作的開銷。以上公開的僅為本發(fā)明的幾個具體實施例,但是,本發(fā)明并非局限于此,任何本領(lǐng)域的技術(shù)人員能思之的變化都應(yīng)落入本發(fā)明的保護范圍。
權(quán)利要求
1.一種語音處理方法,應(yīng)用于聊天室的語音服務(wù)器側(cè),其特征在于,包括以下步驟: 將麥上活躍用戶數(shù)分成至少三個不同的區(qū)段,并對應(yīng)麥上活躍用戶數(shù)的不同區(qū)段設(shè)置相應(yīng)的語音處理方式,所述語音處理方式包括透傳、混音和半透傳半混音三種方式; 根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶; 根據(jù)所述麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式。
2.根據(jù)權(quán)利要求1所述的語音處理方法,其特征在于,所述根據(jù)所述麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式包括: 設(shè)置切換語音處理方式的第一及第二閾值;以及 當所述麥上活躍用戶數(shù)小于所述第一閾值時,所述語音服務(wù)器以透傳的方式處理所述聊天室的所有語音數(shù)據(jù); 當所述麥上活躍用戶數(shù)大于或等于所述第一閾值且小于所述第二閾值時,所述語音服務(wù)器以半透傳半混音的方式處理所述聊天室中的語音數(shù)據(jù); 當所述麥上活躍用戶數(shù)大于或等于所述第二閾值時,所述語音服務(wù)器以混音的方式處理所述聊天室中的語音數(shù)據(jù)。
3.根據(jù)權(quán)利要求1或2所述的語音處理方法,其特征在于,所述根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶包括: 設(shè)置第一振幅閾值,當任一上麥用戶在M個檢測周期內(nèi)有N個大于所述第一振幅閾值的抽樣值,則將該上麥用戶界定為麥上活躍用戶; 其中正整數(shù)M>N。
4.根據(jù)權(quán)利要求1或2所述的語音處理方法,其特征在于,所述根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶包括: 設(shè)置第二振幅閾值,當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值,則將該上麥用戶界定為麥上活躍用戶; 其中L為正整數(shù)。
5.—種語音服務(wù)器,其特征在于,包括: 與透傳模塊、混音模塊和半透傳半混音模塊建立通信連接的切換模塊,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶,獲取麥上活躍用戶數(shù),判斷麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段,并針對麥上活躍用戶數(shù)的不同區(qū)段的動態(tài)變化調(diào)用相應(yīng)的透傳模塊、混音模塊或半透傳半混音模塊以相應(yīng)的透傳、混音或半透傳半混音方式處理語音。
6.根據(jù)權(quán)利要求5所述的語音服務(wù)器,其特征在于,所述切換模塊包括: 設(shè)置單元,用于設(shè)置切換語音處理方式的第一及第二閾值; 分類單元,用于根據(jù)上傳語音數(shù)據(jù)的振幅大小實時分類麥上活躍用戶和麥上沉默用戶; 切換單元,用于從所述分類單元獲取當前的麥上活躍用戶數(shù),根據(jù)上述設(shè)置單元設(shè)置的第一和第二閾值判斷該麥上活躍用戶數(shù)所處的切換語音處理方式的區(qū)段;當所述麥上活躍用戶數(shù)小于所述第一閾值時,觸發(fā)所述透傳模塊以透傳的方式處理所述聊天室的所有語音數(shù)據(jù);當所述麥上活躍用戶數(shù)大于或等于所述第一閾值且小于所述第二閾值時,觸發(fā)所述半透傳半混音模塊以半透傳半混音的方式處理所述聊天室中的語音數(shù)據(jù),即以透傳方式處理上麥用戶之間的語音數(shù)據(jù),并將所有麥上的語音數(shù)據(jù)混音后發(fā)送給聊天室中的其它旁聽用戶;以及當所述麥上活躍用戶數(shù)大于或等于所述第二閾值時,觸發(fā)所述混音模塊以混音的方式處理所述聊天室中的語音數(shù)據(jù)。
7.根據(jù)權(quán)利要求6所述的語音服務(wù)器,其特征在于,所述分類單元設(shè)置有第一振幅閾值,當任一上麥用戶在M個檢測周期內(nèi)有N個大于該第一振幅閾值的抽樣值,則將該上麥用戶界定為麥上活躍用戶;其中正整數(shù)M>N。
8.根據(jù)權(quán)利要求6所述的語音服務(wù)器,其特征在于,所述分類單元設(shè)置有第二振幅閾值,當任一上麥用戶持續(xù)L個振幅的抽樣檢測值大于所述第二振幅閾值,則將該上麥用戶界定為麥上活躍用戶;其中 L為正整數(shù)。
全文摘要
本發(fā)明公開一種語音服務(wù)器及其語音處理方法,以靈活地處理多情況下的語音。該語音處理方法可應(yīng)用于聊天室的語音服務(wù)器側(cè),包括將麥上活躍用戶數(shù)分成至少三個不同的區(qū)段,并對應(yīng)麥上活躍用戶數(shù)的不同區(qū)段設(shè)置相應(yīng)的語音處理方式,所述語音處理方式包括透傳、混音和半透傳半混音三種方式;根據(jù)上傳語音數(shù)據(jù)的振幅大小,將上麥用戶細分為麥上活躍用戶和麥上沉默用戶;根據(jù)所述麥上活躍用戶數(shù)區(qū)段的變化動態(tài)切換語音處理方式。
文檔編號H04H60/04GK103151046SQ20131005528
公開日2013年6月12日 申請日期2013年2月21日 優(yōu)先權(quán)日2012年10月30日
發(fā)明者李曉鵬, 王海, 張健, 史紅軍, 周平, 晏利平, 羅光喜, 楊平, 羅洋, 彭佳琦, 袁孟全, 張云 申請人:貴陽朗瑪信息技術(shù)股份有限公司