亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

會(huì)議系統(tǒng)的音頻處理方法及裝置與流程

文檔序號(hào):11778183閱讀:529來源:國(guó)知局
會(huì)議系統(tǒng)的音頻處理方法及裝置與流程

本發(fā)明涉及通信技術(shù)領(lǐng)域,具體涉及一種會(huì)議系統(tǒng)的音頻處理方法及裝置。



背景技術(shù):

在信息化越來越發(fā)達(dá)的今天,視頻會(huì)議系統(tǒng)(包括如qq、msn等即時(shí)通訊的多人視頻對(duì)話)也越來越重要,其中,聲音作為視頻系統(tǒng)中的一個(gè)組成部分有著舉足輕重的地位。

當(dāng)下大多數(shù)會(huì)議系統(tǒng)都將所有與會(huì)終端的音頻數(shù)據(jù)發(fā)送到一個(gè)媒體平臺(tái)即媒體處理單元(mediaprocessunit,簡(jiǎn)稱為mpu),由該媒體處理單元統(tǒng)一進(jìn)行解碼、混音、編碼的處理。

在終端數(shù)量不多的情況下,該設(shè)計(jì)模式具有較好的工作性能。然而隨著現(xiàn)在會(huì)議系統(tǒng)越來越大,接入的終端越來越多,從而導(dǎo)致流入中心媒體處理單元的待解碼音頻數(shù)據(jù)越來越多。因此,在進(jìn)行數(shù)據(jù)解碼的過程中,占用大量的系統(tǒng)核心處理器性能,使得整個(gè)系統(tǒng)的性能下降。例如,一個(gè)8方會(huì)議,音頻解碼的核心處理器占用比率只有8%;一個(gè)192方會(huì)議,音頻解碼的核心處理器占用比率達(dá)到300%。由此可見,隨著與會(huì)終端數(shù)量的上升,即便與會(huì)終端中絕大多數(shù)都是不說話的,語(yǔ)音數(shù)據(jù)是靜音雜音的終端,但是系統(tǒng)性能下降非常明顯。

為解決上述技術(shù)問題,目前采用的技術(shù)是:在接收到音頻碼流之后通過音量值判斷是否對(duì)相應(yīng)的音頻碼流進(jìn)行解碼。如公開號(hào)cn101489091a的專利文獻(xiàn)公開了,發(fā)送端獲取語(yǔ)音數(shù)據(jù)碼流及其對(duì)應(yīng)的音量值;將語(yǔ)音數(shù)據(jù)碼流及對(duì)應(yīng)的音量值一起發(fā)送給接收端,其中所述的語(yǔ)音數(shù)據(jù)碼流實(shí)質(zhì)上是指接收端接收到的音頻數(shù)據(jù)碼流。在該方案中,接收端接收語(yǔ)音數(shù)據(jù)碼流及其對(duì)應(yīng)的音量值之后,判斷音量值的大小,如果大于業(yè)務(wù)策略所需的音量在值,則對(duì)該音量值對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)碼流進(jìn)行解碼。然而,該方案對(duì)于人聲音量很小的終端則會(huì)產(chǎn)生問題,導(dǎo)致該類音頻直接被丟棄,而不會(huì)進(jìn)行相應(yīng)的解碼處理。例如電話的采集的人聲音量通常都比較小,而采用上述技術(shù)方案在進(jìn)行語(yǔ)音信息的處理過程中,會(huì)將電話的聲音直接丟棄,從而導(dǎo)致其他終端都無法獲取到電話的聲音。



技術(shù)實(shí)現(xiàn)要素:

因此,本發(fā)明要解決的技術(shù)問題在于現(xiàn)有技術(shù)中容易將包含有人聲但音量比較小的終端發(fā)送過來的音頻碼流丟棄、不解碼,從而提供一種會(huì)議系統(tǒng)的音頻處理方法及裝置。

根據(jù)第一方面,本發(fā)明實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法,包括如下步驟:

接收終端側(cè)發(fā)送的音頻碼流,所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;

對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果;

判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息,其中,所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻;

當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地,當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí),獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值;

判斷所述能量值是否大于等于預(yù)設(shè)閾值;

當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地,當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí),判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼;

當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼,則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼,其中,n為預(yù)設(shè)值。

可選地,對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼包括:

對(duì)所述當(dāng)前音頻幀進(jìn)行解碼,并且解碼狀態(tài)值加1;

判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值;

當(dāng)所述解碼狀態(tài)值未達(dá)到所述預(yù)設(shè)值時(shí),則獲取下一音頻幀,將所述下一音頻幀作為當(dāng)前音頻幀,返回對(duì)所述當(dāng)前音頻幀進(jìn)行解碼的步驟。

可選地,當(dāng)所述解碼狀態(tài)值達(dá)到所述預(yù)設(shè)值時(shí),則將當(dāng)前音頻幀丟棄,將所述解碼狀態(tài)值復(fù)位;獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回所述對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果的步驟。

根據(jù)第二方面,本發(fā)明提供一種會(huì)議系統(tǒng)的音頻處理裝置,包括:

接收單元,用于接收終端側(cè)發(fā)送的音頻碼流,所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;

解析單元,用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果;

第一判斷單元,用于判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息,其中,所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻;

第一解碼單元,用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地,該音頻處理裝置還包括:

獲取單元,用于當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí),獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值;

第二判斷單元,用于判斷所述能量值是否大于等于預(yù)設(shè)閾值;

第二解碼單元,用于當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地,該音頻處理裝置還包括:

第三判斷單元,用于當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí),判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼;

第三解碼單元,用于當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼,則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼,其中,n為預(yù)設(shè)值。

可選地,所述第三解碼單元包括:

解碼子單元,用于對(duì)所述當(dāng)前音頻幀進(jìn)行解碼,并且解碼狀態(tài)值加1;

判斷子單元,用于判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值;

獲取子單元,用于當(dāng)所述解碼狀態(tài)值未達(dá)到所述預(yù)設(shè)值時(shí),則獲取下一音頻幀,將所述下一音頻幀作為當(dāng)前音頻幀,返回對(duì)所述當(dāng)前音頻幀進(jìn)行解碼的步驟。

根據(jù)第三方面,本發(fā)明實(shí)施例提供一種媒體平臺(tái),包括至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其中,所述存儲(chǔ)器存儲(chǔ)有可被所述一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器執(zhí)行本發(fā)明第一方面任一項(xiàng)所述的音頻處理方法。

本發(fā)明技術(shù)方案,具有如下優(yōu)點(diǎn):

1.本發(fā)明提供的會(huì)議系統(tǒng)的音頻處理方法,包括如下步驟:接收終端側(cè)發(fā)送的音頻碼流,音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果;判斷解析結(jié)果中是否存在有效語(yǔ)音信息,其中,有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻;當(dāng)解析結(jié)果中存在有效語(yǔ)音信息時(shí),對(duì)當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明通過判斷音頻碼流中是否包含有效語(yǔ)音信息,即是否包含有人聲,從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼,一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼,進(jìn)而減小了媒體處理單元的資源消耗;另一方面,能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼,進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

2.本發(fā)明提供的音頻處理方法,當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí),獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值;判斷所述能量值是否大于等于預(yù)設(shè)閾值;當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明通過在判斷出音頻碼流中不存在有效語(yǔ)音時(shí),再次對(duì)不存在有效語(yǔ)音的音頻碼流進(jìn)行能量值的判斷,將能量值大于等于預(yù)設(shè)閾值的音頻信息進(jìn)行解碼,從而能夠避免在有效語(yǔ)音判斷過程中出現(xiàn)誤差,進(jìn)而提高了會(huì)議系統(tǒng)音頻處理的效果。

3.本發(fā)明提供的音頻處理方法,當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí),判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼;當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼,則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼,其中,n為預(yù)設(shè)值。通過對(duì)能量值小于預(yù)設(shè)閾值的音頻信息進(jìn)行連續(xù)解碼的判斷,一方面能夠?yàn)橐纛l碼流的能量值判斷提供一定的誤差范圍,另一方面連續(xù)的解碼能夠保證會(huì)議系統(tǒng)的音頻的連貫性。

4.本發(fā)明提供的音頻處理裝置,包括:接收單元,用于接收終端側(cè)發(fā)送的音頻碼流,所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;解析單元,用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果;第一判斷單元,用于判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息,其中,所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻;第一解碼單元,用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明提供的音頻處理裝置通過判斷音頻碼流中是否包含有效語(yǔ)音信息,即是否包含有人聲,從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼,一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼,進(jìn)而減小了媒體處理單元的資源消耗;另一方面,能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼,進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

附圖說明

為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施方式,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例的應(yīng)用場(chǎng)景示意圖;

圖2為本發(fā)明實(shí)施例1中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖;

圖3為本發(fā)明實(shí)施例2中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖;

圖4為本發(fā)明實(shí)施例3中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖;

圖5為本發(fā)明實(shí)施例3中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖;

圖6為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖;

圖7為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖;

圖8為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖;

圖9為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖;

圖10為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例結(jié)構(gòu)框圖;

圖11為本發(fā)明實(shí)施例5中媒體平臺(tái)的一個(gè)具體示例的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

在本發(fā)明的描述中,需要說明的是,術(shù)語(yǔ)“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。

此外,下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

圖1示出了本發(fā)明實(shí)施例的應(yīng)用場(chǎng)景示意圖。會(huì)議系統(tǒng)包括終端側(cè)和媒體平臺(tái),其中終端可以為多臺(tái)。圖1中示出了包括兩個(gè)會(huì)議終端的情況,即會(huì)議系統(tǒng)包括媒體平臺(tái)、第一終端和第二終端。其中,第一終端和第二終端可以是音頻碼流采集終端,例如智能手機(jī)、平板電腦等移動(dòng)客戶端,也可以是專用的音視頻會(huì)議系統(tǒng)終端。

通常情況下,會(huì)議系統(tǒng)的工作過程如下,終端側(cè)實(shí)時(shí)采集與會(huì)人員的音頻信息,將其轉(zhuǎn)換成音頻幀封裝后發(fā)送給媒體平臺(tái),媒體平臺(tái)對(duì)所接收的音頻幀進(jìn)行音頻處理后,發(fā)送給其他終端。

具體地,在本發(fā)明實(shí)施例中,終端側(cè)實(shí)時(shí)采集參會(huì)人員的音頻,對(duì)該音頻信息進(jìn)行采樣、量化和編碼轉(zhuǎn)換為離散的數(shù)字音頻碼流。在將數(shù)字音頻碼流封裝成數(shù)據(jù)幀進(jìn)行發(fā)送時(shí),是根據(jù)傳輸協(xié)議進(jìn)行的。常用的音頻傳輸協(xié)議有基于http的流媒體傳輸協(xié)議,(httplivestreaming)、實(shí)時(shí)消息傳送協(xié)議(realtimemessagingprotocol,簡(jiǎn)稱為rtmp)以及實(shí)時(shí)傳輸協(xié)議(real-timetransportprotocol,簡(jiǎn)稱為rtp)等等。在本發(fā)明實(shí)施例中,根據(jù)rtp協(xié)議進(jìn)行音頻幀的封裝。在該音頻幀除了包括有音頻數(shù)據(jù)的內(nèi)容,在幀的rtp擴(kuò)展頭上增加有效狀態(tài)值的變量標(biāo)記bhasvioce,用于表示該音頻幀中是否包含有效語(yǔ)音信息,以及能量值的變量標(biāo)記byrms,用于表示該音頻幀的能量值。

其中,有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻,本發(fā)明實(shí)施例中的有效語(yǔ)音信息是通過語(yǔ)音活動(dòng)檢測(cè)(voiceactivitydetection,簡(jiǎn)稱為vad)來識(shí)別的,具體地,對(duì)音頻碼流的頻率進(jìn)行采樣,通過分析采樣點(diǎn)中的頻率信息來識(shí)別,由于人的有效發(fā)生頻率基本不超過4khz,因此,只需要檢測(cè)4khz以下頻率中攜帶的能量值大小即可,從而能夠簡(jiǎn)化計(jì)算過程,提高工作效率。若通過vad識(shí)別出該音頻碼流中存在有效語(yǔ)音,則將bhasvioce設(shè)置為第一參數(shù);若通過vad識(shí)別出該音頻碼流中不存在有效語(yǔ)音,則將bhasvioce設(shè)置為第二參數(shù);其中,第一參數(shù)、第二參數(shù)可以為任意字符或數(shù)字。作為一種可選的實(shí)施方式,本實(shí)施例中,第一參數(shù)設(shè)置為1,表示該音頻幀中存在有效語(yǔ)音;第二參數(shù)設(shè)置為0,表示該音頻幀中不存在有效語(yǔ)音。通過1、0分別表示第一參數(shù)和第二參數(shù),從而能夠簡(jiǎn)化音頻幀的封裝,為媒體平臺(tái)的解碼提供了便利。

此外,本發(fā)明實(shí)施例中對(duì)音頻幀的音量進(jìn)行采樣,對(duì)采樣值進(jìn)行處理后,形成上述的變量byrms的具體數(shù)值。作為一種可選的實(shí)施方式,對(duì)該音頻碼流的能量值進(jìn)行均方根歸一化處理,具體采用如下公式計(jì)算:

其中,byrms為能量值,n為采樣點(diǎn)的個(gè)數(shù),ai為能量的各采樣值。

作為另一種可選的實(shí)施方式,對(duì)該音頻幀的能量值進(jìn)行對(duì)數(shù)歸一化處理,具體采用如下公式計(jì)算:

其中,a為常數(shù),byrms為能量值,n為采樣點(diǎn)的個(gè)數(shù),ai為能量的各采樣值,m為采樣深度。

本發(fā)明實(shí)施例中,將音頻幀的能量值通過上述公式進(jìn)行歸一化處理,即將能量值的數(shù)值設(shè)置為(-∞,0)。作為一種可選的實(shí)施方式,將能量值的最小值歸一化處理為-127,即能量值的數(shù)值為(-127,0)。由于音頻能量值在-127以下時(shí),人耳不能識(shí)別出該音頻,因此,選用-127作為能量值的最小值能夠簡(jiǎn)化計(jì)算過程,提高工作效率。

本發(fā)明實(shí)施例中,a可以為5、10或20等等,采樣深度可以為8位、16位,也可以為24位,本發(fā)明實(shí)施例中采用的采樣深度為16位,a=20,既能保證采樣精度,又能簡(jiǎn)化計(jì)算過程,提高工作效率。

本發(fā)明實(shí)施例中的終端側(cè),通過將有效語(yǔ)音狀態(tài)值以及能量值的變量標(biāo)記以及對(duì)應(yīng)的數(shù)值封裝至音頻幀中。終端側(cè)實(shí)時(shí)采集參會(huì)人員的音頻,經(jīng)過采樣、量化編碼后,形成由音頻幀構(gòu)成的音頻碼流,發(fā)送至媒體平臺(tái)。

實(shí)施例1

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法,應(yīng)用于媒體平臺(tái)的音頻處理裝置中,流程圖如圖2所示,包括如下步驟:

步驟s11,接收終端側(cè)發(fā)送的音頻碼流,音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;其中,該音頻信息可以是封裝在音頻幀內(nèi)的音頻碼流的屬性信息,例如能量值、有效語(yǔ)音狀態(tài)值等等。

步驟s12,對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果。

本實(shí)施例中,通過對(duì)當(dāng)前音頻幀所攜帶的音頻信息進(jìn)行解析,提取出當(dāng)前音頻幀幀頭上的音頻信息。

步驟s13,判斷解析結(jié)果中是否存在有效語(yǔ)音信息,若是則進(jìn)入步驟s14,否則執(zhí)行其他操作。

本實(shí)施例中的有效語(yǔ)音信息是通過音頻幀幀頭上的有效狀態(tài)值對(duì)應(yīng)的變量標(biāo)記bhasvioce進(jìn)行標(biāo)記的,作為本實(shí)施例的一種可選實(shí)施方式,當(dāng)bhasvioce=1時(shí),表示該音頻幀中存在有效語(yǔ)音;當(dāng)bhasvioce=0時(shí),表示該音頻幀中不存在有效語(yǔ)音。因此,在步驟s13中,只需判斷解析結(jié)果中變量bhasvioce的數(shù)值,即可判斷出該音頻幀中是否存在有效語(yǔ)音。

此外,本實(shí)施例中的其他操作,可以是將不存在有效語(yǔ)音信息的音頻幀丟棄,也可以是根據(jù)解析結(jié)果中的其他音頻信息,例如能量值,對(duì)該音頻幀進(jìn)行解碼。

步驟s14,對(duì)當(dāng)前音頻幀進(jìn)行解碼。

本實(shí)施例中,可以采用pcm解碼、mp3解碼、ogg解碼以及mpc解碼方式對(duì)當(dāng)前音頻幀進(jìn)行解碼。作為一種可選的實(shí)施方式,本實(shí)施例中采用pcm解碼方式進(jìn)行,能夠保證解碼過程具有很強(qiáng)的抗干擾性,而且可以很方便的利用計(jì)算機(jī)編程,不增加或少增加成本,實(shí)現(xiàn)該會(huì)議系統(tǒng)的各種智能化設(shè)計(jì)。

上述會(huì)議系統(tǒng)的音頻處理方法,通過判斷音頻碼流中是否包含有效語(yǔ)音信息,即是否包含有人聲,從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼,一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼,進(jìn)而減小了媒體處理單元的資源消耗;另一方面,能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼,進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

實(shí)施例2

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法,應(yīng)用于媒體平臺(tái)的音頻處理裝置中,流程圖如圖3所示,包括如下步驟:

步驟s21,接收終端側(cè)發(fā)送的音頻碼流,音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息。與實(shí)施例1中的步驟s11相同,不再贅述。

步驟s22,對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果。與實(shí)施例1中的步驟s12相同,不再贅述。

步驟s23,判斷解析結(jié)果中是否存在有效語(yǔ)音信息,若是則進(jìn)入步驟s24,否則執(zhí)行步驟s25。

步驟s24,對(duì)當(dāng)前音頻幀進(jìn)行解碼。與實(shí)施例1中的步驟s14相同,不再贅述。

步驟s25,獲取解析結(jié)果中用于表示當(dāng)前音頻幀能量的能量值。

本實(shí)施例中,音頻幀的能量值是通過在該音頻幀幀頭上的能量值的變量標(biāo)記byrms進(jìn)行表示的。通過對(duì)能量值進(jìn)行歸一化處理,轉(zhuǎn)換為(-127,0)之間的數(shù)值,即byrms∈(-127,0)。

步驟s26,判斷能量值是否大于等于預(yù)設(shè)閾值,若是則進(jìn)入步驟s24,否則執(zhí)行其他操作。

本實(shí)施例中,將上述步驟s25中所獲取的當(dāng)前音頻幀能量的能量值與預(yù)設(shè)閾值進(jìn)行比較。該預(yù)設(shè)閾值為[-55,-45],作為本實(shí)施例的一種可選實(shí)施方式,預(yù)設(shè)閾值為-50,從而既能夠較好地隔絕當(dāng)前音頻幀中噪音,又能夠保證在終端側(cè)誤判為無效語(yǔ)音值的音頻幀信號(hào)提取出,進(jìn)而提高了音頻處理的效果。因此,在步驟s26中,僅需判斷音頻幀幀頭上的能量值的變量標(biāo)記byrms的具體數(shù)值是否大于等于-50,即可將能量值較小但屬于有效語(yǔ)音的音頻幀提取出來。

此外,本實(shí)施例中的其他操作,可以是將能量值小于預(yù)設(shè)閾值的音頻幀丟棄,也可以是根據(jù)前一音頻幀的解碼狀態(tài),對(duì)該音頻幀進(jìn)行解碼。

實(shí)施例3

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法,應(yīng)用于媒體平臺(tái)的音頻處理裝置中,流程圖如圖4所示,包括如下步驟:

步驟s31,接收終端側(cè)發(fā)送的音頻碼流,音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息。與實(shí)施例2中的步驟s21相同,不再贅述。

步驟s32,對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果。與實(shí)施例2中的步驟s22相同,不再贅述。

步驟s33,判斷解析結(jié)果中是否存在有效語(yǔ)音信息,若是則進(jìn)入步驟s34,否則執(zhí)行步驟s35。與實(shí)施例2中的步驟s23相同,不再贅述。

步驟s34,對(duì)當(dāng)前音頻幀進(jìn)行解碼。與實(shí)施例2中的步驟s24相同,不再贅述。

步驟s35,獲取解析結(jié)果中用于表示當(dāng)前音頻幀能量的能量值。與實(shí)施例2中的步驟s25相同,不再贅述。

步驟s36,判斷能量值是否大于等于預(yù)設(shè)閾值,若是則進(jìn)入步驟s34,否則執(zhí)行步驟s37。

步驟s37,判斷當(dāng)前音頻幀的前一音頻幀是否解碼,若是則進(jìn)入步驟s38,否則執(zhí)行步驟s39。

步驟s38,對(duì)當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼,其中,n為預(yù)設(shè)值。

其中,預(yù)設(shè)值根據(jù)終端側(cè)與媒體平臺(tái)之間的音頻傳輸協(xié)議進(jìn)行設(shè)置的。本實(shí)施例中的音頻傳輸協(xié)議采用rtp協(xié)議,每一幀rtp數(shù)據(jù)就對(duì)應(yīng)著一幀音頻數(shù)據(jù)。作為本實(shí)施例的一種可選實(shí)施方式,預(yù)設(shè)值為20,即本實(shí)施例中的音頻處理方法可以對(duì)當(dāng)前音頻幀及后續(xù)連續(xù)20幀音頻幀進(jìn)行解碼。上述20幀對(duì)應(yīng)著一個(gè)時(shí)間概念,一般20幀的時(shí)間長(zhǎng)度就能達(dá)到500ms。而人說話吐字間隔基本在100ms-300ms,只有持續(xù)的解碼超過300ms才能保證該終端不會(huì)被頻繁替換。因此,本實(shí)施例中的保證連續(xù)20幀音頻幀解碼的音頻處理方法,從而能夠保證音頻質(zhì)量與處理之前無差別。

作為本實(shí)施例的一種可選實(shí)施方式,如圖5所示,步驟s38具體包括以下步驟:

步驟s381,對(duì)當(dāng)前音頻幀進(jìn)行解碼,并且解碼狀態(tài)值加1。

本實(shí)施例中,在對(duì)音頻幀進(jìn)行處理之前,解碼狀態(tài)值設(shè)置為0,在音頻處理過程中,每執(zhí)行一次解碼操作,解碼狀態(tài)值加1。作為本實(shí)施例的一種可選實(shí)施方式,可以在步驟s381之前,對(duì)當(dāng)前音頻幀的能量值進(jìn)行放大,然后在執(zhí)行步驟s381,從而使得媒體平臺(tái)輸出的處理后音頻幀的能量能夠滿足與會(huì)人員的需求。

步驟s382,判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值,若是則進(jìn)入步驟s383,否則執(zhí)行步驟s384。

本實(shí)施例中解碼狀態(tài)值對(duì)應(yīng)的預(yù)設(shè)值為20,即在上述步驟s382中,只需判斷解碼狀態(tài)值是否達(dá)到20,即可判斷出是否需要連續(xù)解碼。

步驟s383,將當(dāng)前音頻幀丟棄,將解碼狀態(tài)值復(fù)位;獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回步驟s32。

在解碼狀態(tài)值大于20的情況下,表示已經(jīng)完成連續(xù)20幀的音頻幀的解碼,連續(xù)解碼完成。同時(shí),當(dāng)前音頻幀不滿足解碼條件,即當(dāng)前音頻幀中不存在有效語(yǔ)音,且當(dāng)前音頻幀的能量值小于-50,表示當(dāng)前音頻幀中不存在聲音,將當(dāng)前音頻幀丟棄,從而保證在大量與會(huì)終端存在時(shí),該以媒體平臺(tái)集中進(jìn)行音頻解碼的會(huì)議系統(tǒng)的核心處理器占用率下降,進(jìn)而提升會(huì)議接入能力,降低成本并保證音頻質(zhì)量與處理之前無差別。

本實(shí)施例中,將當(dāng)前幀丟棄后,需要將解碼狀態(tài)值復(fù)位,即將解碼狀態(tài)值設(shè)置為0,為下一音頻幀的解碼做準(zhǔn)備。同時(shí),獲取下一音頻幀,并將該下一音頻幀作為當(dāng)前音頻幀,返回對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果的步驟,即返回步驟s32。

步驟s384,獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟s381。

在解碼狀態(tài)值小于或等于20的情況下,表示連續(xù)20幀的音頻幀的解碼尚未完成,可以繼續(xù)進(jìn)行連續(xù)解碼操作。即,獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟s381。

步驟s39,將當(dāng)前音頻幀丟棄,將解碼狀態(tài)值復(fù)位;獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回步驟s32。與實(shí)施例3中的步驟s383相同,不再贅述。

實(shí)施例4

本施例提供一種會(huì)議系統(tǒng)的音頻處理裝置,用于執(zhí)行實(shí)施例1中的會(huì)議系統(tǒng)的音頻處理方法。如圖6所示,該音頻處理裝置包括:

接收單元41,用于接收終端側(cè)發(fā)送的音頻碼流,該音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息;

解析單元42,用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果;

第一判斷單元43,用于判斷解析結(jié)果中是否存在有效語(yǔ)音信息,其中,所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻;

第一解碼單元44,用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

作為本實(shí)施例的一種可選實(shí)施方式,如圖7所示,該音頻處理裝置還包括:

獲取單元45,用于當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí),獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值;

第二判斷單元46,用于判斷所述能量值是否大于等于預(yù)設(shè)閾值;

第二解碼單元47,用于當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí),對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

作為本實(shí)施例的一種可選實(shí)施方式,如圖8所示,該音頻處理裝置還包括:

第三判斷單元48,用于當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí),判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼;

第三解碼單元49,用于當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼,則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼,其中,n為預(yù)設(shè)值。如圖9所示,該第三解碼單元具體包括:

解碼子單元491,用于對(duì)當(dāng)前音頻幀進(jìn)行解碼,并且解碼狀態(tài)值加1;

判斷子單元492,用于判斷解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值;

獲取子單元493,用于當(dāng)解碼狀態(tài)值未達(dá)到預(yù)設(shè)值時(shí),則獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟。

作為本實(shí)施例的另一種可選實(shí)施方式,如圖10所示,上述第三解碼單元還包括:

復(fù)位子單元494,用于當(dāng)解碼狀態(tài)值達(dá)到預(yù)設(shè)值時(shí),則將當(dāng)前音頻幀丟棄,將解碼狀態(tài)值復(fù)位;獲取下一音頻幀,將下一音頻幀作為當(dāng)前音頻幀,返回對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析,得到解析結(jié)果的步驟。

本實(shí)施例提供的音頻處理裝置,通過判斷音頻碼流中是否包含有效語(yǔ)音信息,即是否包含有人聲,從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼,一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼,進(jìn)而減小了媒體處理單元的資源消耗;另一方面,能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼,進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

實(shí)施例5

圖11是本發(fā)明實(shí)施例提供的媒體平臺(tái)的硬件結(jié)構(gòu)示意圖,如圖11所示,該設(shè)備包括一個(gè)或多個(gè)處理器51以及存儲(chǔ)器52,圖11中以一個(gè)處理器51為例。

媒體平臺(tái)還可以包括:音頻圖像顯示器(未示出),用于顯示音頻的電平幅值圖像。處理器51、存儲(chǔ)器52和音頻圖像顯示器可以通過總線或者其他方式連接,圖5中以通過總線連接為例。

處理器51可以為中央處理器(centralprocessingunit,cpu)。處理器51還可以為其他通用處理器、數(shù)字信號(hào)處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)場(chǎng)可編程門陣列(field-programmablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等芯片,或者上述各類芯片的組合。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。

存儲(chǔ)器52作為一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),可用于存儲(chǔ)非暫態(tài)軟件程序、非暫態(tài)計(jì)算機(jī)可執(zhí)行程序以及模塊,如本發(fā)明實(shí)施例中的會(huì)議系統(tǒng)的音頻處理方法對(duì)應(yīng)的程序指令/模塊。處理器51通過運(yùn)行存儲(chǔ)在存儲(chǔ)器52中的非暫態(tài)軟件程序、指令以及模塊,從而執(zhí)行服務(wù)器的各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述實(shí)施例中,會(huì)議系統(tǒng)的音頻處理方法。

存儲(chǔ)器52可以包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū),其中,存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需要的應(yīng)用程序;存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)回聲消除的測(cè)試裝置的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲(chǔ)器52可以包括高速隨機(jī)存取存儲(chǔ)器,還可以包括非暫態(tài)存儲(chǔ)器,例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他非暫態(tài)固態(tài)存儲(chǔ)器件。在一些實(shí)施例中,存儲(chǔ)器52可選包括相對(duì)于處理器51遠(yuǎn)程設(shè)置的存儲(chǔ)器,這些遠(yuǎn)程存儲(chǔ)器可以通過網(wǎng)絡(luò)連接至?xí)h系統(tǒng)的音頻處理裝置。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。

所述一個(gè)或者多個(gè)模塊存儲(chǔ)在所述存儲(chǔ)器52中,當(dāng)被所述一個(gè)或者多個(gè)處理器51執(zhí)行時(shí),執(zhí)行實(shí)施例1中所述的會(huì)議系統(tǒng)的音頻處理方法。

上述產(chǎn)品可執(zhí)行本發(fā)明實(shí)施例所提供的方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),具體可參見如圖2所示的實(shí)施例中的相關(guān)描述。

實(shí)施例6

本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)存儲(chǔ)介質(zhì),所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令,該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行實(shí)施例1中所述的會(huì)議系統(tǒng)的音頻處理方法。其中,所述存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory,rom)、隨機(jī)存儲(chǔ)記憶體(randomaccessmemory,ram)、快閃存儲(chǔ)器(flashmemory)、硬盤(harddiskdrive,縮寫:hdd)或固態(tài)硬盤(solid-statedrive,ssd)等;所述存儲(chǔ)介質(zhì)還可以包括上述種類的存儲(chǔ)器的組合。

本領(lǐng)域技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲(chǔ)于一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(rom)或隨機(jī)存儲(chǔ)記憶體(ram)等。

顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1