會(huì)議系統(tǒng)的音頻處理方法及裝置與流程

文檔序號(hào)：11778183閱讀：529來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

本發(fā)明涉及通信技術(shù)領(lǐng)域，具體涉及一種會(huì)議系統(tǒng)的音頻處理方法及裝置。

背景技術(shù)：

在信息化越來越發(fā)達(dá)的今天，視頻會(huì)議系統(tǒng)(包括如qq、msn等即時(shí)通訊的多人視頻對(duì)話)也越來越重要，其中，聲音作為視頻系統(tǒng)中的一個(gè)組成部分有著舉足輕重的地位。

當(dāng)下大多數(shù)會(huì)議系統(tǒng)都將所有與會(huì)終端的音頻數(shù)據(jù)發(fā)送到一個(gè)媒體平臺(tái)即媒體處理單元(mediaprocessunit，簡(jiǎn)稱為mpu)，由該媒體處理單元統(tǒng)一進(jìn)行解碼、混音、編碼的處理。

在終端數(shù)量不多的情況下，該設(shè)計(jì)模式具有較好的工作性能。然而隨著現(xiàn)在會(huì)議系統(tǒng)越來越大，接入的終端越來越多，從而導(dǎo)致流入中心媒體處理單元的待解碼音頻數(shù)據(jù)越來越多。因此，在進(jìn)行數(shù)據(jù)解碼的過程中，占用大量的系統(tǒng)核心處理器性能，使得整個(gè)系統(tǒng)的性能下降。例如，一個(gè)8方會(huì)議，音頻解碼的核心處理器占用比率只有8％；一個(gè)192方會(huì)議，音頻解碼的核心處理器占用比率達(dá)到300％。由此可見，隨著與會(huì)終端數(shù)量的上升，即便與會(huì)終端中絕大多數(shù)都是不說話的，語(yǔ)音數(shù)據(jù)是靜音雜音的終端，但是系統(tǒng)性能下降非常明顯。

為解決上述技術(shù)問題，目前采用的技術(shù)是：在接收到音頻碼流之后通過音量值判斷是否對(duì)相應(yīng)的音頻碼流進(jìn)行解碼。如公開號(hào)cn101489091a的專利文獻(xiàn)公開了，發(fā)送端獲取語(yǔ)音數(shù)據(jù)碼流及其對(duì)應(yīng)的音量值；將語(yǔ)音數(shù)據(jù)碼流及對(duì)應(yīng)的音量值一起發(fā)送給接收端，其中所述的語(yǔ)音數(shù)據(jù)碼流實(shí)質(zhì)上是指接收端接收到的音頻數(shù)據(jù)碼流。在該方案中，接收端接收語(yǔ)音數(shù)據(jù)碼流及其對(duì)應(yīng)的音量值之后，判斷音量值的大小，如果大于業(yè)務(wù)策略所需的音量在值，則對(duì)該音量值對(duì)應(yīng)的語(yǔ)音數(shù)據(jù)碼流進(jìn)行解碼。然而，該方案對(duì)于人聲音量很小的終端則會(huì)產(chǎn)生問題，導(dǎo)致該類音頻直接被丟棄，而不會(huì)進(jìn)行相應(yīng)的解碼處理。例如電話的采集的人聲音量通常都比較小，而采用上述技術(shù)方案在進(jìn)行語(yǔ)音信息的處理過程中，會(huì)將電話的聲音直接丟棄，從而導(dǎo)致其他終端都無法獲取到電話的聲音。

技術(shù)實(shí)現(xiàn)要素：

因此，本發(fā)明要解決的技術(shù)問題在于現(xiàn)有技術(shù)中容易將包含有人聲但音量比較小的終端發(fā)送過來的音頻碼流丟棄、不解碼，從而提供一種會(huì)議系統(tǒng)的音頻處理方法及裝置。

根據(jù)第一方面，本發(fā)明實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法，包括如下步驟：

接收終端側(cè)發(fā)送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；

對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果；

判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息，其中，所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻；

當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地，當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí)，獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值；

判斷所述能量值是否大于等于預(yù)設(shè)閾值；

當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地，當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí)，判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼；

當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼，則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼，其中，n為預(yù)設(shè)值。

可選地，對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼包括：

對(duì)所述當(dāng)前音頻幀進(jìn)行解碼，并且解碼狀態(tài)值加1；

判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值；

當(dāng)所述解碼狀態(tài)值未達(dá)到所述預(yù)設(shè)值時(shí)，則獲取下一音頻幀，將所述下一音頻幀作為當(dāng)前音頻幀，返回對(duì)所述當(dāng)前音頻幀進(jìn)行解碼的步驟。

可選地，當(dāng)所述解碼狀態(tài)值達(dá)到所述預(yù)設(shè)值時(shí)，則將當(dāng)前音頻幀丟棄，將所述解碼狀態(tài)值復(fù)位；獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回所述對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果的步驟。

根據(jù)第二方面，本發(fā)明提供一種會(huì)議系統(tǒng)的音頻處理裝置，包括：

接收單元，用于接收終端側(cè)發(fā)送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；

解析單元，用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果；

第一判斷單元，用于判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息，其中，所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻；

第一解碼單元，用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地，該音頻處理裝置還包括：

獲取單元，用于當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí)，獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值；

第二判斷單元，用于判斷所述能量值是否大于等于預(yù)設(shè)閾值；

第二解碼單元，用于當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

可選地，該音頻處理裝置還包括：

第三判斷單元，用于當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí)，判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼；

第三解碼單元，用于當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼，則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼，其中，n為預(yù)設(shè)值。

可選地，所述第三解碼單元包括：

解碼子單元，用于對(duì)所述當(dāng)前音頻幀進(jìn)行解碼，并且解碼狀態(tài)值加1；

判斷子單元，用于判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值；

獲取子單元，用于當(dāng)所述解碼狀態(tài)值未達(dá)到所述預(yù)設(shè)值時(shí)，則獲取下一音頻幀，將所述下一音頻幀作為當(dāng)前音頻幀，返回對(duì)所述當(dāng)前音頻幀進(jìn)行解碼的步驟。

根據(jù)第三方面，本發(fā)明實(shí)施例提供一種媒體平臺(tái)，包括至少一個(gè)處理器；以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器；其中，所述存儲(chǔ)器存儲(chǔ)有可被所述一個(gè)處理器執(zhí)行的指令，所述指令被所述至少一個(gè)處理器執(zhí)行，以使所述至少一個(gè)處理器執(zhí)行本發(fā)明第一方面任一項(xiàng)所述的音頻處理方法。

本發(fā)明技術(shù)方案，具有如下優(yōu)點(diǎn)：

1.本發(fā)明提供的會(huì)議系統(tǒng)的音頻處理方法，包括如下步驟：接收終端側(cè)發(fā)送的音頻碼流，音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果；判斷解析結(jié)果中是否存在有效語(yǔ)音信息，其中，有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻；當(dāng)解析結(jié)果中存在有效語(yǔ)音信息時(shí)，對(duì)當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明通過判斷音頻碼流中是否包含有效語(yǔ)音信息，即是否包含有人聲，從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼，一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼，進(jìn)而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼，進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

2.本發(fā)明提供的音頻處理方法，當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí)，獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值；判斷所述能量值是否大于等于預(yù)設(shè)閾值；當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明通過在判斷出音頻碼流中不存在有效語(yǔ)音時(shí)，再次對(duì)不存在有效語(yǔ)音的音頻碼流進(jìn)行能量值的判斷，將能量值大于等于預(yù)設(shè)閾值的音頻信息進(jìn)行解碼，從而能夠避免在有效語(yǔ)音判斷過程中出現(xiàn)誤差，進(jìn)而提高了會(huì)議系統(tǒng)音頻處理的效果。

3.本發(fā)明提供的音頻處理方法，當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí)，判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼；當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼，則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼，其中，n為預(yù)設(shè)值。通過對(duì)能量值小于預(yù)設(shè)閾值的音頻信息進(jìn)行連續(xù)解碼的判斷，一方面能夠?yàn)橐纛l碼流的能量值判斷提供一定的誤差范圍，另一方面連續(xù)的解碼能夠保證會(huì)議系統(tǒng)的音頻的連貫性。

4.本發(fā)明提供的音頻處理裝置，包括：接收單元，用于接收終端側(cè)發(fā)送的音頻碼流，所述音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；解析單元，用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果；第一判斷單元，用于判斷所述解析結(jié)果中是否存在有效語(yǔ)音信息，其中，所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻；第一解碼單元，用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。本發(fā)明提供的音頻處理裝置通過判斷音頻碼流中是否包含有效語(yǔ)音信息，即是否包含有人聲，從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼，一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼，進(jìn)而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼，進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

附圖說明

為了更清楚地說明本發(fā)明具體實(shí)施方式或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)具體實(shí)施方式或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見地，下面描述中的附圖是本發(fā)明的一些實(shí)施方式，對(duì)于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例的應(yīng)用場(chǎng)景示意圖；

圖2為本發(fā)明實(shí)施例1中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖；

圖3為本發(fā)明實(shí)施例2中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖；

圖4為本發(fā)明實(shí)施例3中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖；

圖5為本發(fā)明實(shí)施例3中會(huì)議系統(tǒng)的音頻處理方法的一個(gè)具體示例的方法流程圖；

圖6為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖；

圖7為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖；

圖8為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖；

圖9為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例的結(jié)構(gòu)框圖；

圖10為本發(fā)明實(shí)施例4中會(huì)議系統(tǒng)的音頻處理裝置的一個(gè)具體示例結(jié)構(gòu)框圖；

圖11為本發(fā)明實(shí)施例5中媒體平臺(tái)的一個(gè)具體示例的結(jié)構(gòu)框圖。

具體實(shí)施方式

下面將結(jié)合附圖對(duì)本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例?；诒景l(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

在本發(fā)明的描述中，需要說明的是，術(shù)語(yǔ)“第一”、“第二”、“第三”僅用于描述目的，而不能理解為指示或暗示相對(duì)重要性。

此外，下面所描述的本發(fā)明不同實(shí)施方式中所涉及的技術(shù)特征只要彼此之間未構(gòu)成沖突就可以相互結(jié)合。

圖1示出了本發(fā)明實(shí)施例的應(yīng)用場(chǎng)景示意圖。會(huì)議系統(tǒng)包括終端側(cè)和媒體平臺(tái)，其中終端可以為多臺(tái)。圖1中示出了包括兩個(gè)會(huì)議終端的情況，即會(huì)議系統(tǒng)包括媒體平臺(tái)、第一終端和第二終端。其中，第一終端和第二終端可以是音頻碼流采集終端，例如智能手機(jī)、平板電腦等移動(dòng)客戶端，也可以是專用的音視頻會(huì)議系統(tǒng)終端。

通常情況下，會(huì)議系統(tǒng)的工作過程如下，終端側(cè)實(shí)時(shí)采集與會(huì)人員的音頻信息，將其轉(zhuǎn)換成音頻幀封裝后發(fā)送給媒體平臺(tái)，媒體平臺(tái)對(duì)所接收的音頻幀進(jìn)行音頻處理后，發(fā)送給其他終端。

具體地，在本發(fā)明實(shí)施例中，終端側(cè)實(shí)時(shí)采集參會(huì)人員的音頻，對(duì)該音頻信息進(jìn)行采樣、量化和編碼轉(zhuǎn)換為離散的數(shù)字音頻碼流。在將數(shù)字音頻碼流封裝成數(shù)據(jù)幀進(jìn)行發(fā)送時(shí)，是根據(jù)傳輸協(xié)議進(jìn)行的。常用的音頻傳輸協(xié)議有基于http的流媒體傳輸協(xié)議，(httplivestreaming)、實(shí)時(shí)消息傳送協(xié)議(realtimemessagingprotocol，簡(jiǎn)稱為rtmp)以及實(shí)時(shí)傳輸協(xié)議(real-timetransportprotocol，簡(jiǎn)稱為rtp)等等。在本發(fā)明實(shí)施例中，根據(jù)rtp協(xié)議進(jìn)行音頻幀的封裝。在該音頻幀除了包括有音頻數(shù)據(jù)的內(nèi)容，在幀的rtp擴(kuò)展頭上增加有效狀態(tài)值的變量標(biāo)記bhasvioce，用于表示該音頻幀中是否包含有效語(yǔ)音信息，以及能量值的變量標(biāo)記byrms，用于表示該音頻幀的能量值。

其中，有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻，本發(fā)明實(shí)施例中的有效語(yǔ)音信息是通過語(yǔ)音活動(dòng)檢測(cè)(voiceactivitydetection，簡(jiǎn)稱為vad)來識(shí)別的，具體地，對(duì)音頻碼流的頻率進(jìn)行采樣，通過分析采樣點(diǎn)中的頻率信息來識(shí)別，由于人的有效發(fā)生頻率基本不超過4khz，因此，只需要檢測(cè)4khz以下頻率中攜帶的能量值大小即可，從而能夠簡(jiǎn)化計(jì)算過程，提高工作效率。若通過vad識(shí)別出該音頻碼流中存在有效語(yǔ)音，則將bhasvioce設(shè)置為第一參數(shù)；若通過vad識(shí)別出該音頻碼流中不存在有效語(yǔ)音，則將bhasvioce設(shè)置為第二參數(shù)；其中，第一參數(shù)、第二參數(shù)可以為任意字符或數(shù)字。作為一種可選的實(shí)施方式，本實(shí)施例中，第一參數(shù)設(shè)置為1，表示該音頻幀中存在有效語(yǔ)音；第二參數(shù)設(shè)置為0，表示該音頻幀中不存在有效語(yǔ)音。通過1、0分別表示第一參數(shù)和第二參數(shù)，從而能夠簡(jiǎn)化音頻幀的封裝，為媒體平臺(tái)的解碼提供了便利。

此外，本發(fā)明實(shí)施例中對(duì)音頻幀的音量進(jìn)行采樣，對(duì)采樣值進(jìn)行處理后，形成上述的變量byrms的具體數(shù)值。作為一種可選的實(shí)施方式，對(duì)該音頻碼流的能量值進(jìn)行均方根歸一化處理，具體采用如下公式計(jì)算：

其中，byrms為能量值，n為采樣點(diǎn)的個(gè)數(shù)，ai為能量的各采樣值。

作為另一種可選的實(shí)施方式，對(duì)該音頻幀的能量值進(jìn)行對(duì)數(shù)歸一化處理，具體采用如下公式計(jì)算：

其中，a為常數(shù)，byrms為能量值，n為采樣點(diǎn)的個(gè)數(shù)，ai為能量的各采樣值，m為采樣深度。

本發(fā)明實(shí)施例中，將音頻幀的能量值通過上述公式進(jìn)行歸一化處理，即將能量值的數(shù)值設(shè)置為(-∞，0)。作為一種可選的實(shí)施方式，將能量值的最小值歸一化處理為-127，即能量值的數(shù)值為(-127，0)。由于音頻能量值在-127以下時(shí)，人耳不能識(shí)別出該音頻，因此，選用-127作為能量值的最小值能夠簡(jiǎn)化計(jì)算過程，提高工作效率。

本發(fā)明實(shí)施例中，a可以為5、10或20等等，采樣深度可以為8位、16位，也可以為24位，本發(fā)明實(shí)施例中采用的采樣深度為16位，a＝20，既能保證采樣精度，又能簡(jiǎn)化計(jì)算過程，提高工作效率。

本發(fā)明實(shí)施例中的終端側(cè)，通過將有效語(yǔ)音狀態(tài)值以及能量值的變量標(biāo)記以及對(duì)應(yīng)的數(shù)值封裝至音頻幀中。終端側(cè)實(shí)時(shí)采集參會(huì)人員的音頻，經(jīng)過采樣、量化編碼后，形成由音頻幀構(gòu)成的音頻碼流，發(fā)送至媒體平臺(tái)。

實(shí)施例1

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法，應(yīng)用于媒體平臺(tái)的音頻處理裝置中，流程圖如圖2所示，包括如下步驟：

步驟s11，接收終端側(cè)發(fā)送的音頻碼流，音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；其中，該音頻信息可以是封裝在音頻幀內(nèi)的音頻碼流的屬性信息，例如能量值、有效語(yǔ)音狀態(tài)值等等。

步驟s12，對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果。

本實(shí)施例中，通過對(duì)當(dāng)前音頻幀所攜帶的音頻信息進(jìn)行解析，提取出當(dāng)前音頻幀幀頭上的音頻信息。

步驟s13，判斷解析結(jié)果中是否存在有效語(yǔ)音信息，若是則進(jìn)入步驟s14，否則執(zhí)行其他操作。

本實(shí)施例中的有效語(yǔ)音信息是通過音頻幀幀頭上的有效狀態(tài)值對(duì)應(yīng)的變量標(biāo)記bhasvioce進(jìn)行標(biāo)記的，作為本實(shí)施例的一種可選實(shí)施方式，當(dāng)bhasvioce＝1時(shí)，表示該音頻幀中存在有效語(yǔ)音；當(dāng)bhasvioce＝0時(shí)，表示該音頻幀中不存在有效語(yǔ)音。因此，在步驟s13中，只需判斷解析結(jié)果中變量bhasvioce的數(shù)值，即可判斷出該音頻幀中是否存在有效語(yǔ)音。

此外，本實(shí)施例中的其他操作，可以是將不存在有效語(yǔ)音信息的音頻幀丟棄，也可以是根據(jù)解析結(jié)果中的其他音頻信息，例如能量值，對(duì)該音頻幀進(jìn)行解碼。

步驟s14，對(duì)當(dāng)前音頻幀進(jìn)行解碼。

本實(shí)施例中，可以采用pcm解碼、mp3解碼、ogg解碼以及mpc解碼方式對(duì)當(dāng)前音頻幀進(jìn)行解碼。作為一種可選的實(shí)施方式，本實(shí)施例中采用pcm解碼方式進(jìn)行，能夠保證解碼過程具有很強(qiáng)的抗干擾性，而且可以很方便的利用計(jì)算機(jī)編程，不增加或少增加成本，實(shí)現(xiàn)該會(huì)議系統(tǒng)的各種智能化設(shè)計(jì)。

上述會(huì)議系統(tǒng)的音頻處理方法，通過判斷音頻碼流中是否包含有效語(yǔ)音信息，即是否包含有人聲，從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼，一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼，進(jìn)而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼，進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

實(shí)施例2

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法，應(yīng)用于媒體平臺(tái)的音頻處理裝置中，流程圖如圖3所示，包括如下步驟：

步驟s21，接收終端側(cè)發(fā)送的音頻碼流，音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息。與實(shí)施例1中的步驟s11相同，不再贅述。

步驟s22，對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果。與實(shí)施例1中的步驟s12相同，不再贅述。

步驟s23，判斷解析結(jié)果中是否存在有效語(yǔ)音信息，若是則進(jìn)入步驟s24，否則執(zhí)行步驟s25。

步驟s24，對(duì)當(dāng)前音頻幀進(jìn)行解碼。與實(shí)施例1中的步驟s14相同，不再贅述。

步驟s25，獲取解析結(jié)果中用于表示當(dāng)前音頻幀能量的能量值。

本實(shí)施例中，音頻幀的能量值是通過在該音頻幀幀頭上的能量值的變量標(biāo)記byrms進(jìn)行表示的。通過對(duì)能量值進(jìn)行歸一化處理，轉(zhuǎn)換為(-127,0)之間的數(shù)值，即byrms∈(-127,0)。

步驟s26，判斷能量值是否大于等于預(yù)設(shè)閾值，若是則進(jìn)入步驟s24，否則執(zhí)行其他操作。

本實(shí)施例中，將上述步驟s25中所獲取的當(dāng)前音頻幀能量的能量值與預(yù)設(shè)閾值進(jìn)行比較。該預(yù)設(shè)閾值為[-55，-45]，作為本實(shí)施例的一種可選實(shí)施方式，預(yù)設(shè)閾值為-50，從而既能夠較好地隔絕當(dāng)前音頻幀中噪音，又能夠保證在終端側(cè)誤判為無效語(yǔ)音值的音頻幀信號(hào)提取出，進(jìn)而提高了音頻處理的效果。因此，在步驟s26中，僅需判斷音頻幀幀頭上的能量值的變量標(biāo)記byrms的具體數(shù)值是否大于等于-50，即可將能量值較小但屬于有效語(yǔ)音的音頻幀提取出來。

此外，本實(shí)施例中的其他操作，可以是將能量值小于預(yù)設(shè)閾值的音頻幀丟棄，也可以是根據(jù)前一音頻幀的解碼狀態(tài)，對(duì)該音頻幀進(jìn)行解碼。

實(shí)施例3

本實(shí)施例提供一種會(huì)議系統(tǒng)的音頻處理方法，應(yīng)用于媒體平臺(tái)的音頻處理裝置中，流程圖如圖4所示，包括如下步驟：

步驟s31，接收終端側(cè)發(fā)送的音頻碼流，音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息。與實(shí)施例2中的步驟s21相同，不再贅述。

步驟s32，對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果。與實(shí)施例2中的步驟s22相同，不再贅述。

步驟s33，判斷解析結(jié)果中是否存在有效語(yǔ)音信息，若是則進(jìn)入步驟s34，否則執(zhí)行步驟s35。與實(shí)施例2中的步驟s23相同，不再贅述。

步驟s34，對(duì)當(dāng)前音頻幀進(jìn)行解碼。與實(shí)施例2中的步驟s24相同，不再贅述。

步驟s35，獲取解析結(jié)果中用于表示當(dāng)前音頻幀能量的能量值。與實(shí)施例2中的步驟s25相同，不再贅述。

步驟s36，判斷能量值是否大于等于預(yù)設(shè)閾值，若是則進(jìn)入步驟s34，否則執(zhí)行步驟s37。

步驟s37，判斷當(dāng)前音頻幀的前一音頻幀是否解碼，若是則進(jìn)入步驟s38，否則執(zhí)行步驟s39。

步驟s38，對(duì)當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼，其中，n為預(yù)設(shè)值。

其中，預(yù)設(shè)值根據(jù)終端側(cè)與媒體平臺(tái)之間的音頻傳輸協(xié)議進(jìn)行設(shè)置的。本實(shí)施例中的音頻傳輸協(xié)議采用rtp協(xié)議，每一幀rtp數(shù)據(jù)就對(duì)應(yīng)著一幀音頻數(shù)據(jù)。作為本實(shí)施例的一種可選實(shí)施方式，預(yù)設(shè)值為20，即本實(shí)施例中的音頻處理方法可以對(duì)當(dāng)前音頻幀及后續(xù)連續(xù)20幀音頻幀進(jìn)行解碼。上述20幀對(duì)應(yīng)著一個(gè)時(shí)間概念，一般20幀的時(shí)間長(zhǎng)度就能達(dá)到500ms。而人說話吐字間隔基本在100ms-300ms，只有持續(xù)的解碼超過300ms才能保證該終端不會(huì)被頻繁替換。因此，本實(shí)施例中的保證連續(xù)20幀音頻幀解碼的音頻處理方法，從而能夠保證音頻質(zhì)量與處理之前無差別。

作為本實(shí)施例的一種可選實(shí)施方式，如圖5所示，步驟s38具體包括以下步驟：

步驟s381，對(duì)當(dāng)前音頻幀進(jìn)行解碼，并且解碼狀態(tài)值加1。

本實(shí)施例中，在對(duì)音頻幀進(jìn)行處理之前，解碼狀態(tài)值設(shè)置為0，在音頻處理過程中，每執(zhí)行一次解碼操作，解碼狀態(tài)值加1。作為本實(shí)施例的一種可選實(shí)施方式，可以在步驟s381之前，對(duì)當(dāng)前音頻幀的能量值進(jìn)行放大，然后在執(zhí)行步驟s381，從而使得媒體平臺(tái)輸出的處理后音頻幀的能量能夠滿足與會(huì)人員的需求。

步驟s382，判斷所述解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值，若是則進(jìn)入步驟s383，否則執(zhí)行步驟s384。

本實(shí)施例中解碼狀態(tài)值對(duì)應(yīng)的預(yù)設(shè)值為20，即在上述步驟s382中，只需判斷解碼狀態(tài)值是否達(dá)到20，即可判斷出是否需要連續(xù)解碼。

步驟s383，將當(dāng)前音頻幀丟棄，將解碼狀態(tài)值復(fù)位；獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回步驟s32。

在解碼狀態(tài)值大于20的情況下，表示已經(jīng)完成連續(xù)20幀的音頻幀的解碼，連續(xù)解碼完成。同時(shí)，當(dāng)前音頻幀不滿足解碼條件，即當(dāng)前音頻幀中不存在有效語(yǔ)音，且當(dāng)前音頻幀的能量值小于-50，表示當(dāng)前音頻幀中不存在聲音，將當(dāng)前音頻幀丟棄，從而保證在大量與會(huì)終端存在時(shí)，該以媒體平臺(tái)集中進(jìn)行音頻解碼的會(huì)議系統(tǒng)的核心處理器占用率下降，進(jìn)而提升會(huì)議接入能力，降低成本并保證音頻質(zhì)量與處理之前無差別。

本實(shí)施例中，將當(dāng)前幀丟棄后，需要將解碼狀態(tài)值復(fù)位，即將解碼狀態(tài)值設(shè)置為0，為下一音頻幀的解碼做準(zhǔn)備。同時(shí)，獲取下一音頻幀，并將該下一音頻幀作為當(dāng)前音頻幀，返回對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果的步驟，即返回步驟s32。

步驟s384，獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟s381。

在解碼狀態(tài)值小于或等于20的情況下，表示連續(xù)20幀的音頻幀的解碼尚未完成，可以繼續(xù)進(jìn)行連續(xù)解碼操作。即，獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟s381。

步驟s39，將當(dāng)前音頻幀丟棄，將解碼狀態(tài)值復(fù)位；獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回步驟s32。與實(shí)施例3中的步驟s383相同，不再贅述。

實(shí)施例4

本施例提供一種會(huì)議系統(tǒng)的音頻處理裝置，用于執(zhí)行實(shí)施例1中的會(huì)議系統(tǒng)的音頻處理方法。如圖6所示，該音頻處理裝置包括：

接收單元41，用于接收終端側(cè)發(fā)送的音頻碼流，該音頻碼流的每一音頻幀攜帶有對(duì)應(yīng)的音頻信息；

解析單元42，用于對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果；

第一判斷單元43，用于判斷解析結(jié)果中是否存在有效語(yǔ)音信息，其中，所述有效語(yǔ)音信息用于表示參會(huì)人員講話發(fā)出的音頻；

第一解碼單元44，用于當(dāng)所述解析結(jié)果中存在所述有效語(yǔ)音信息時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

作為本實(shí)施例的一種可選實(shí)施方式，如圖7所示，該音頻處理裝置還包括：

獲取單元45，用于當(dāng)所述解析結(jié)果中不存在所述有效語(yǔ)音信息時(shí)，獲取所述解析結(jié)果中用于表示所述當(dāng)前音頻幀能量的能量值；

第二判斷單元46，用于判斷所述能量值是否大于等于預(yù)設(shè)閾值；

第二解碼單元47，用于當(dāng)所述能量值大于等于所述預(yù)設(shè)閾值時(shí)，對(duì)所述當(dāng)前音頻幀進(jìn)行解碼。

作為本實(shí)施例的一種可選實(shí)施方式，如圖8所示，該音頻處理裝置還包括：

第三判斷單元48，用于當(dāng)所述能量值小于所述預(yù)設(shè)閾值時(shí)，判斷所述當(dāng)前音頻幀的前一音頻幀是否解碼；

第三解碼單元49，用于當(dāng)所述當(dāng)前音頻幀的前一音頻幀已經(jīng)解碼，則對(duì)所述當(dāng)前音頻幀及后續(xù)連續(xù)n幀音頻幀進(jìn)行解碼，其中，n為預(yù)設(shè)值。如圖9所示，該第三解碼單元具體包括：

解碼子單元491，用于對(duì)當(dāng)前音頻幀進(jìn)行解碼，并且解碼狀態(tài)值加1；

判斷子單元492，用于判斷解碼狀態(tài)值是否達(dá)到預(yù)設(shè)值；

獲取子單元493，用于當(dāng)解碼狀態(tài)值未達(dá)到預(yù)設(shè)值時(shí)，則獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回對(duì)當(dāng)前音頻幀進(jìn)行解碼的步驟。

作為本實(shí)施例的另一種可選實(shí)施方式，如圖10所示，上述第三解碼單元還包括：

復(fù)位子單元494，用于當(dāng)解碼狀態(tài)值達(dá)到預(yù)設(shè)值時(shí)，則將當(dāng)前音頻幀丟棄，將解碼狀態(tài)值復(fù)位；獲取下一音頻幀，將下一音頻幀作為當(dāng)前音頻幀，返回對(duì)當(dāng)前音頻幀對(duì)應(yīng)的音頻信息進(jìn)行解析，得到解析結(jié)果的步驟。

本實(shí)施例提供的音頻處理裝置，通過判斷音頻碼流中是否包含有效語(yǔ)音信息，即是否包含有人聲，從而能夠?qū)?huì)人員的所有講話信息進(jìn)行解碼，一方面能夠避免將終端側(cè)發(fā)送的音頻碼流全部解碼，進(jìn)而減小了媒體處理單元的資源消耗；另一方面，能夠避免將音量比較小且屬于人聲音的音頻碼流丟棄、不解碼，進(jìn)而提高了會(huì)議系統(tǒng)的音頻處理效果。

實(shí)施例5

圖11是本發(fā)明實(shí)施例提供的媒體平臺(tái)的硬件結(jié)構(gòu)示意圖，如圖11所示，該設(shè)備包括一個(gè)或多個(gè)處理器51以及存儲(chǔ)器52，圖11中以一個(gè)處理器51為例。

媒體平臺(tái)還可以包括：音頻圖像顯示器(未示出)，用于顯示音頻的電平幅值圖像。處理器51、存儲(chǔ)器52和音頻圖像顯示器可以通過總線或者其他方式連接，圖5中以通過總線連接為例。

處理器51可以為中央處理器(centralprocessingunit，cpu)。處理器51還可以為其他通用處理器、數(shù)字信號(hào)處理器(digitalsignalprocessor，dsp)、專用集成電路(applicationspecificintegratedcircuit，asic)、現(xiàn)場(chǎng)可編程門陣列(field-programmablegatearray，fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等芯片，或者上述各類芯片的組合。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。

存儲(chǔ)器52作為一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，可用于存儲(chǔ)非暫態(tài)軟件程序、非暫態(tài)計(jì)算機(jī)可執(zhí)行程序以及模塊，如本發(fā)明實(shí)施例中的會(huì)議系統(tǒng)的音頻處理方法對(duì)應(yīng)的程序指令/模塊。處理器51通過運(yùn)行存儲(chǔ)在存儲(chǔ)器52中的非暫態(tài)軟件程序、指令以及模塊，從而執(zhí)行服務(wù)器的各種功能應(yīng)用以及數(shù)據(jù)處理，即實(shí)現(xiàn)上述實(shí)施例中，會(huì)議系統(tǒng)的音頻處理方法。

存儲(chǔ)器52可以包括存儲(chǔ)程序區(qū)和存儲(chǔ)數(shù)據(jù)區(qū)，其中，存儲(chǔ)程序區(qū)可存儲(chǔ)操作系統(tǒng)、至少一個(gè)功能所需要的應(yīng)用程序；存儲(chǔ)數(shù)據(jù)區(qū)可存儲(chǔ)根據(jù)回聲消除的測(cè)試裝置的使用所創(chuàng)建的數(shù)據(jù)等。此外，存儲(chǔ)器52可以包括高速隨機(jī)存取存儲(chǔ)器，還可以包括非暫態(tài)存儲(chǔ)器，例如至少一個(gè)磁盤存儲(chǔ)器件、閃存器件、或其他非暫態(tài)固態(tài)存儲(chǔ)器件。在一些實(shí)施例中，存儲(chǔ)器52可選包括相對(duì)于處理器51遠(yuǎn)程設(shè)置的存儲(chǔ)器，這些遠(yuǎn)程存儲(chǔ)器可以通過網(wǎng)絡(luò)連接至?xí)h系統(tǒng)的音頻處理裝置。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動(dòng)通信網(wǎng)及其組合。

所述一個(gè)或者多個(gè)模塊存儲(chǔ)在所述存儲(chǔ)器52中，當(dāng)被所述一個(gè)或者多個(gè)處理器51執(zhí)行時(shí)，執(zhí)行實(shí)施例1中所述的會(huì)議系統(tǒng)的音頻處理方法。

上述產(chǎn)品可執(zhí)行本發(fā)明實(shí)施例所提供的方法，具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié)，具體可參見如圖2所示的實(shí)施例中的相關(guān)描述。

實(shí)施例6

本發(fā)明實(shí)施例還提供了一種非暫態(tài)計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述計(jì)算機(jī)存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，該計(jì)算機(jī)可執(zhí)行指令可執(zhí)行實(shí)施例1中所述的會(huì)議系統(tǒng)的音頻處理方法。其中，所述存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(read-onlymemory，rom)、隨機(jī)存儲(chǔ)記憶體(randomaccessmemory，ram)、快閃存儲(chǔ)器(flashmemory)、硬盤(harddiskdrive，縮寫：hdd)或固態(tài)硬盤(solid-statedrive，ssd)等；所述存儲(chǔ)介質(zhì)還可以包括上述種類的存儲(chǔ)器的組合。

本領(lǐng)域技術(shù)人員可以理解，實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程，是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成，所述的程序可存儲(chǔ)于一種計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中，該程序在執(zhí)行時(shí)，可包括如上述各方法的實(shí)施例的流程。其中，所述的存儲(chǔ)介質(zhì)可為磁碟、光盤、只讀存儲(chǔ)記憶體(rom)或隨機(jī)存儲(chǔ)記憶體(ram)等。

顯然，上述實(shí)施例僅僅是為清楚地說明所作的舉例，而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：尚德建;胡小鵬;陳衛(wèi)東
技術(shù)所有人：蘇州科達(dá)科技股份有限公司;蘇州市科遠(yuǎn)軟件技術(shù)開發(fā)有限公司;上海領(lǐng)世通信技術(shù)發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：一種端口控制的方法和裝置與流程
上一篇：一種社區(qū)智能廣播系統(tǒng)及其工作方法與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

簡(jiǎn)單的音頻處理軟件相關(guān)技術(shù)

好用的音頻處理軟件相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

會(huì)議系統(tǒng)的音頻處理方法及裝置與流程