電話會(huì)議中的在感知上連續(xù)的混合的制作方法
【專利摘要】一種在音頻電話會(huì)議混合系統(tǒng)中將多個(gè)當(dāng)前音頻上行傳輸流混合在一起以產(chǎn)生至少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系統(tǒng)是混合多個(gè)第一音頻上行傳輸輸入流以產(chǎn)生用于下行傳輸?shù)街辽僖粋€(gè)會(huì)議參與者的至少一個(gè)音頻下行傳輸輸出流的類型,其中所述多個(gè)第一音頻上行傳輸輸入流包含包括被感測(cè)到的音頻的音頻信息以及相關(guān)聯(lián)的控制信息,其中所述音頻上行傳輸輸入流可以潛在地包括連續(xù)傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方法包括以下步驟:(a)確定指示每個(gè)當(dāng)前音頻上行傳輸流的可能重要性的冗長(zhǎng)量度;以及(b)當(dāng)至少一個(gè)當(dāng)前音頻上行傳輸流可以包括CTX流時(shí),在混合中利用至少一個(gè)CTX流以產(chǎn)生所述至少一個(gè)音頻輸出流。
【專利說(shuō)明】
電話會(huì)議中的在感知上連續(xù)的混合
[0001] 對(duì)相關(guān)申請(qǐng)的交叉引用
[0002] 本申請(qǐng)要求于2014年2月28日提交的、標(biāo)題為"Perc邱tually Continuous Mixing in a Teleconference"的美國(guó)臨時(shí)申請(qǐng)No.61/946042的優(yōu)先權(quán),該申請(qǐng)通過(guò)引用被并入于 此。
技術(shù)領(lǐng)域
[0003] 本發(fā)明設(shè)及音頻電話會(huì)議領(lǐng)域,并且特別公開了用于混合音頻電話會(huì)議中的多個(gè) 音頻流的方法。
【背景技術(shù)】
[0004] 在整個(gè)說(shuō)明書中對(duì)【背景技術(shù)】的討論絕對(duì)不應(yīng)該被認(rèn)為是承認(rèn)運(yùn)種技術(shù)在本領(lǐng)域 中是眾所周知的或者形成公知常識(shí)的一部分。
[0005] 其中多個(gè)參與方遠(yuǎn)程地交互W舉行會(huì)議的視頻和音頻電話會(huì)議系統(tǒng)是重要的資 源。已知許多運(yùn)種系統(tǒng)。大多數(shù)系統(tǒng)依賴于集中式或分布式的服務(wù)器資源來(lái)確保每個(gè)參與 者通過(guò)使用例如專用的電話會(huì)議設(shè)備、具有音頻/輸入輸出設(shè)備的標(biāo)準(zhǔn)計(jì)算機(jī)資源或智能 電話類型的設(shè)備而能夠聽到和/或看到其他參與者。集中式或分布式的服務(wù)器資源負(fù)責(zé)將 來(lái)自每個(gè)會(huì)議參與者的上行傳輸音頻信號(hào)適當(dāng)?shù)鼗旌显谝黄穑⑶蚁滦袀鬏斢糜谟擅總€(gè)音 頻輸出設(shè)備回放的音頻信號(hào)。
[0006] 作為背景,在典型的(已知的)電話會(huì)議系統(tǒng)中,混合器從每個(gè)電話端點(diǎn)接收攜帶 有該電話端點(diǎn)捕獲的音頻信號(hào)的相應(yīng)的"上行傳輸流(uplink stream)",并且向每個(gè)電話 端點(diǎn)發(fā)送相應(yīng)的"下行傳輸流(downlink S化earn)",因此每個(gè)電話端點(diǎn)接收到能夠攜帶其 它電話端點(diǎn)捕獲的相應(yīng)音頻信號(hào)的混合的下行傳輸流。因此,當(dāng)電話會(huì)議中的兩個(gè)或更多 個(gè)參與者同時(shí)講話時(shí),其它的參與者可W聽到全部參與者講話。
[0007] 已知(并且通常期望)混合器采用自適應(yīng)方法,由此它響應(yīng)于感知到一個(gè)或多個(gè)音 頻信號(hào)中的某些變化而改變混合。例如,響應(yīng)于確定音頻信號(hào)不包含語(yǔ)音(即,只包含背景 噪聲),可W從混合中省略該音頻信號(hào)。
[000引考慮其中電話端點(diǎn)各自將上行傳輸音頻流發(fā)送到電話會(huì)議混合器的電話會(huì)議系 統(tǒng)。在運(yùn)種系統(tǒng)中,上行傳輸和下行傳輸可W被數(shù)字地編碼并且經(jīng)由諸如互聯(lián)網(wǎng)協(xié)議電話 (Voice over Internet Protocol,VoIP)網(wǎng)絡(luò)之類的合適的包交換網(wǎng)絡(luò)傳送,或者它們可 W在諸如公共交換電話網(wǎng)(PSTN)之類的電路交換網(wǎng)絡(luò)上傳輸。無(wú)論哪種方式,混合器的責(zé) 任都是產(chǎn)生下行傳輸音頻流W發(fā)送回到每個(gè)端點(diǎn),使得通常每個(gè)參與者聽到除自己W外的 每個(gè)其他參與者。
[0009]運(yùn)種系統(tǒng)中的一類端點(diǎn)在上行傳輸上采用非連續(xù)傳輸(DTX)。運(yùn)種端點(diǎn)試圖通過(guò) W下中的一項(xiàng)或多項(xiàng)來(lái)在最小化網(wǎng)絡(luò)資源使用的同時(shí)最大化可懂度(intelligibility): 采用靠近講話者嘴己的麥克風(fēng)布置;去除背景噪聲的噪聲抑制信號(hào)處理;僅發(fā)送存在人類 語(yǔ)音時(shí)的上行傳輸流。
[0010] 運(yùn)種策略可能使得收聽者聽到較少的異常噪聲,但是也可能導(dǎo)致較少的自然發(fā)聲 體驗(yàn),首先是因?yàn)楫?dāng)背景噪聲是非平穩(wěn)的時(shí),噪聲抑制信號(hào)處理典型地導(dǎo)致引入煩擾的動(dòng) 態(tài)偽像(adefact),其次是因?yàn)樵肼曇种朴绊懥苏Z(yǔ)音的均衡,第Ξ是因?yàn)榛趤?lái)自話音活 動(dòng)檢測(cè)器(VAD)的不完善信息的二元的發(fā)射/不發(fā)射判定將有時(shí)候?qū)е抡Z(yǔ)音被截?cái)郬及在 其它時(shí)候?qū)е職堄嘣肼暠粋鬏敒檎Z(yǔ)音。因此,從DTX設(shè)備接收的音頻流是被期望包含不多于 可忽略量的人類可感知的背景噪聲的音頻輸入流的示例。
[0011] 第二類端點(diǎn)在上行傳輸上采用連續(xù)傳輸(CTX)。即,不管VAD(如果有的話)確定語(yǔ) 音存在與否,CTX端點(diǎn)都發(fā)送音頻流。在運(yùn)里,意圖往往是最大化收聽體驗(yàn)的自然度 (naturalness) W及允許遠(yuǎn)程收聽者執(zhí)行眾所周知的雙聲道處理的雞尾酒會(huì)問(wèn)題 (coclaail party problem),就好像他或她親自在現(xiàn)場(chǎng)一樣。因此,CTX端點(diǎn)可W采用多個(gè) 麥克風(fēng)來(lái)保持空間多樣性,W允許雙聲道免于掩蔽。CTX設(shè)備的設(shè)計(jì)者也可W力圖限制設(shè)備 所執(zhí)行的噪聲抑制處理的量,W便最小化煩擾的動(dòng)態(tài)偽影和頻譜染色(spectral colouration)的可能性。因此,從CTX設(shè)備接收的音頻流是被期望包含多于可忽略量的能被 人類感知的背景噪聲的音頻輸入流的示例。
【發(fā)明內(nèi)容】
[0012] 一般地,DTX設(shè)備力圖去除、抑制或W其它方式避免傳輸它認(rèn)為不構(gòu)成人類語(yǔ)音的 任何東西,而CTX設(shè)備力圖是透明的、W盡可能在感知上最連續(xù)且相關(guān)的方式傳輸一切東 西。任何混合器必須將此考慮在內(nèi)。由于在未檢測(cè)到語(yǔ)音時(shí)DTX端點(diǎn)的上行傳輸基本上是靜 默的,因此當(dāng)未檢測(cè)到語(yǔ)音時(shí),混合器可W能夠隨意地丟棄它的上行傳輸流,而不會(huì)為收聽 者帶來(lái)感知影響。但是,當(dāng)形成包含CTX流的下行傳輸混合時(shí),混合器必須在它如何對(duì)流應(yīng) 用混合轉(zhuǎn)換方面小屯、。例如,在未檢測(cè)到講話時(shí)丟棄CTX流可能容易被收聽者注意到,因?yàn)?與該流相關(guān)聯(lián)的背景噪聲可能聽起來(lái)被關(guān)掉了,尤其是當(dāng)沒(méi)有其它CTX流存在來(lái)掩蓋轉(zhuǎn)換 時(shí)。收聽者可能疑惑系統(tǒng)是否已出現(xiàn)故障,或CTX端點(diǎn)是否已從會(huì)議斷開連接。在運(yùn)種情況 下將無(wú)法滿足提供自然的收聽體驗(yàn)的目標(biāo)。
[0013] 通常,電話會(huì)議混合器的目標(biāo)是允許每個(gè)參與者聽到來(lái)自除自己W外的每個(gè)其他 參與者的語(yǔ)音。但是,對(duì)運(yùn)個(gè)目標(biāo),存在一些細(xì)微區(qū)別。例如,如果各自包含背景噪聲的許多 CTX流同時(shí)被收聽者聽到,則所聽到的總背景噪聲功率會(huì)增大到令人分散注意力或有損可 懂度的程度。考慮其中多個(gè)上行傳輸流全都同時(shí)講話的進(jìn)一步示例。其結(jié)果可能是太雜亂 而無(wú)助于有用的交流。
[0014] 本文所公開的各種創(chuàng)造性的方法、設(shè)備、裝置和系統(tǒng)提供了音頻會(huì)議混合的改善 形式。
[0015] 根據(jù)本公開內(nèi)容的第一方面,提供了一種在音頻電話會(huì)議混合系統(tǒng)中將多個(gè)當(dāng)前 音頻上行傳輸流混合在一起W產(chǎn)生至少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系 統(tǒng)是混合第一多個(gè)音頻上行傳輸輸入流W產(chǎn)生用于下行傳輸?shù)街辽僖粋€(gè)會(huì)議參與者的至 少一個(gè)音頻下行傳輸輸出流的類型,其中所述音頻上行傳輸輸入流包含包括被感測(cè)到的音 頻的音頻信息W及相關(guān)聯(lián)的控制信息,其中所述音頻上行傳輸輸入流可W潛在地包括連續(xù) 傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方法包括W下步驟:(a)確定指示每個(gè)當(dāng)前音頻上 行傳輸流的可能重要性(Ukely importance)的冗長(zhǎng)(verbosity)量度;W及(b)當(dāng)至少一 個(gè)當(dāng)前音頻上行傳輸流可W包括CTX流時(shí),在混合中利用至少一個(gè)CTX流來(lái)產(chǎn)生至少一個(gè)當(dāng) 前下行傳輸輸出流。
[0016] 在一些實(shí)施例中,所述方法包括在混合中利用具有最高冗長(zhǎng)量度的CTX流來(lái)產(chǎn)生 至少一個(gè)當(dāng)前下行傳輸輸出流的步驟。優(yōu)選地,步驟(b)還可W包括如下步驟:(i)當(dāng)優(yōu)選地 存在其上未檢測(cè)到語(yǔ)音的輔助CTX流時(shí),衰減該輔助CTX流。優(yōu)選地,步驟(b)還可W包括如 下步驟:(ii)當(dāng)具有最高冗長(zhǎng)量度的當(dāng)前CTX流未被提供話音長(zhǎng)達(dá)延長(zhǎng)的時(shí)間段時(shí),衰減該 當(dāng)前CTX流。
[0017] 在一些實(shí)施例中,所述方法還包括如下步驟:(c)當(dāng)音頻輸入流的數(shù)量超過(guò)預(yù)定的 限制時(shí),丟棄具有最低冗長(zhǎng)量度的CTX流。
[0018] 本公開內(nèi)容的第二方面提供了一種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸 入流產(chǎn)生至少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多 個(gè)音頻輸入流W由此產(chǎn)生用于發(fā)送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類 型,所述方法包括:確定所述多個(gè)音頻輸入流包括至少一個(gè)被期望包含多于可忽略量的人 類可感知的背景噪聲的音頻輸入流(在下文中稱為"攜帶噪聲的音頻輸入流"),并且所述攜 帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個(gè)是其中當(dāng)前未檢測(cè)到語(yǔ)音 的音頻流;W及將所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的至少一個(gè) 包括在所述至少一個(gè)音頻輸出流中。
[0019] 盡管即使當(dāng)包含可聽到的背景噪聲的至少一個(gè)音頻輸入流不包括語(yǔ)音時(shí)將所述 音頻輸入流包括在音頻輸出流中也可能被認(rèn)為是違反直覺(jué)的,本發(fā)明人認(rèn)識(shí)到,可聽到的 背景噪聲的存在會(huì)導(dǎo)致提供更自然的收聽體驗(yàn)的"氛圍"(例如,紙張翻頁(yè)、打呵欠、玩鋼筆 等)。
[0020] 在一些實(shí)施例中,所述方法包括:確定所述多個(gè)音頻輸入流包括多個(gè)其中當(dāng)前未 檢測(cè)到語(yǔ)音的攜帶噪聲的音頻輸入流并且所述攜帶噪聲的音頻輸入流中的每一個(gè)是的音 頻流;針對(duì)所述攜帶噪聲的音頻輸入流中的每個(gè)攜帶噪聲的音頻輸入流,確定各自的感知 重要性量度;基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪 聲的音頻輸入流的子集;W及將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一 個(gè)音頻輸出流中。
[0021] 在一些實(shí)施例中,所述方法包括:選擇感知重要性量度最高的一個(gè)或多個(gè)攜帶噪 聲的音頻輸入流;W及將所選擇的攜帶噪聲的音頻輸入流包括在所述至少一個(gè)音頻輸出流 中。
[0022] 本公開內(nèi)容的第Ξ方面提供了一種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸 入流產(chǎn)生至少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多 個(gè)音頻輸入流W由此產(chǎn)生用于發(fā)送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類 型,所述方法包括:確定所述多個(gè)音頻輸入流包括至少一個(gè)被期望包括不多于可忽略量的 人類可感知的背景噪聲的音頻輸入流(在下文中稱為"噪聲可忽略的音頻輸入流")并且所 述噪聲可忽略的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個(gè)是其中當(dāng)前未檢測(cè) 到語(yǔ)音的音頻流;W及將所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中 的至少一個(gè)包括在所述至少一個(gè)音頻輸出流中。
[0023] 在一些實(shí)施例中,所述方法包括:將所有噪聲可忽略的音頻輸入流都包括在所述 至少一個(gè)音頻輸出流中。盡管將所有的噪聲可忽略的音頻輸入流都包括在所述至少一個(gè)音 頻輸出流中會(huì)被認(rèn)為是違反直覺(jué)的,但是本發(fā)明人認(rèn)識(shí)到,運(yùn)不會(huì)顯著地?fù)p害呼叫的"自然 度",并且不省略運(yùn)些音頻信號(hào)會(huì)導(dǎo)致音頻信號(hào)的較少交換。
[0024] 本公開內(nèi)容的第四方面提供了一種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸 入流產(chǎn)生至少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多 個(gè)音頻輸入流W由此產(chǎn)生用于發(fā)送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類 型,所述方法包括:確定所述多個(gè)音頻輸入流包括多于闊值數(shù)量的其中當(dāng)前檢測(cè)到語(yǔ)音的 攜帶噪聲的音頻輸入流;針對(duì)所述攜帶噪聲的音頻輸入流中的每個(gè)攜帶噪聲的音頻輸入 流,確定各自的感知重要性量度;基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量 度,選擇所述攜帶噪聲的音頻輸入流的子集;W及將所述攜帶噪聲的音頻輸入流的所述子 集包括在所述至少一個(gè)音頻輸出流中。
[0025] 本發(fā)明人意識(shí)到,在音頻輸出流中存在過(guò)多(例如,多于五個(gè))攜帶噪聲的音頻輸 入流在某些情況下將顯著地?fù)p害呼叫的"自然度"。
[0026] 在一些實(shí)施例中,所述方法包括:確定所述多個(gè)音頻輸入流還包括其中當(dāng)前檢測(cè) 到語(yǔ)音的噪聲可忽略的音頻輸入流;W及將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲 的音頻輸入流的所述子集一起包括在所述至少一個(gè)音頻輸出流中。
[0027] 在一些實(shí)施例中,所述方法包括:確定所述多個(gè)音頻輸入流還包括多個(gè)其中當(dāng)前 檢測(cè)到語(yǔ)音的噪聲可忽略的音頻輸入流;W及將所述噪聲可忽略的音頻輸入流與所述攜帶 噪聲的音頻輸入流的所述子集包括在所述至少一個(gè)音頻輸出流中。
[0028] 在一些實(shí)施例中,針對(duì)音頻輸入流確定感知重要性量度包括指示該音頻輸入流在 當(dāng)前呼叫期間已包括多少語(yǔ)音的量度。運(yùn)可能有助于參與者聽到的"氛圍"的感知連續(xù)性。
[0029] 在一些實(shí)施例中,所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的 每個(gè)是連續(xù)傳輸(CTX)音頻輸入流。
[0030] 在一些實(shí)施例中,所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流 中的每個(gè)是非連續(xù)傳輸(DTX)音頻輸入流。
[0031] 本公開內(nèi)容的第五方面提供了用于在電話會(huì)議混合系統(tǒng)中使用的裝置,該裝置被 配置為接收多個(gè)音頻輸入流并基于音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流,該裝置包括被配 置為執(zhí)行上述方法中的至少一個(gè)方法的處理器。
[0032] 本公開內(nèi)容的第六方面提供了攜帶有計(jì)算機(jī)可解釋指令的計(jì)算機(jī)可讀介質(zhì),當(dāng)所 述計(jì)算機(jī)可解釋指令被用于在電話會(huì)議混合系統(tǒng)中使用的裝置的處理器執(zhí)行時(shí),其中該裝 置被配置為接收多個(gè)音頻輸入流并基于音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流,使得該裝置 執(zhí)行上述方法中的至少一個(gè)方法。
[0033] 在各種實(shí)施例中,如果攜帶噪聲的音頻輸入流在超過(guò)預(yù)定的最大時(shí)間內(nèi)不包含語(yǔ) 音,則它將淡出(fade out),而不是突然從音頻輸出流中省略。
[0034] 本公開內(nèi)容的運(yùn)些方面和其它方面可W從示例性實(shí)施例的W下描述中得W理解。
【附圖說(shuō)明】
[0035] 現(xiàn)在將參照附圖,W舉例的方式描述各種實(shí)施例,其中:
[0036] 圖1示意性地例示了優(yōu)選實(shí)施例的自適應(yīng)混合布置的一種形式;
[0037] 圖2示意性地例示了優(yōu)選實(shí)施例的電話會(huì)議混合器;W及
[0038] 圖3是示出了電話會(huì)議混合器元件的示例的框圖。
【具體實(shí)施方式】
[0039] 優(yōu)選實(shí)施例在用于音頻電話會(huì)議(具有或不具有相關(guān)聯(lián)的視頻流)的環(huán)境中操作, 并且提供了用于混合多個(gè)上行傳輸流的方法,W確保在CTX和DTX環(huán)境中對(duì)輸出信號(hào)進(jìn)行高 效的混合。
[0040] 在圖1中示出了示例性的音頻電話會(huì)議系統(tǒng)。在運(yùn)種布置中,一系列會(huì)議參與者共 同提供音頻輸入與輸出。例如,在布置1中,第一參與者2使用互連到計(jì)算機(jī)6的一對(duì)耳機(jī)5和 輸入麥克風(fēng)3來(lái)參與會(huì)議。計(jì)算機(jī)6通過(guò)網(wǎng)絡(luò)9提供與混合器11的上行傳輸8和下行傳輸7連 接。
[0041] 第二組參與者(例如,20)使用音頻設(shè)備21,音頻設(shè)備21提供包括空間化信息的音 頻輸出。音頻設(shè)備21也提供內(nèi)部計(jì)算和通信能力,并且包括經(jīng)由網(wǎng)絡(luò)25與混合器11互連的 上行傳輸23和下行傳輸24通道。
[0042] 其它參與者也可W通過(guò)其它手段互連到混合器11。
[0043] 圖1的布置包括使用DTX端點(diǎn)具有懸掛式麥克風(fēng)(boom microphone)3的雙耳耳 機(jī)5為例)的多個(gè)會(huì)議參與者2。所述多個(gè)DTX端點(diǎn)中的每個(gè)DTX端點(diǎn)典型地經(jīng)由網(wǎng)絡(luò)9來(lái)向電 話會(huì)議混合器11斷言DTX上行傳輸流8?;旌掀鳟a(chǎn)生用于每個(gè)DTX端點(diǎn)的下行傳輸流7,下行 傳輸流7通過(guò)網(wǎng)絡(luò)9被傳輸回到端點(diǎn)2W被參與者2聽到。
[0044] 多個(gè)CTX端點(diǎn)揚(yáng)聲電話設(shè)備21為例)中的每個(gè)CTX端點(diǎn)捕獲另外的多個(gè)參與者 20的語(yǔ)音27。不平凡的背景噪聲也可W被運(yùn)種設(shè)備捕獲。所述多個(gè)CTX端點(diǎn)中的每個(gè)CTX端 點(diǎn)典型地經(jīng)由網(wǎng)絡(luò)25向混合器11斷言CTX上行傳輸流24。不失一般性,網(wǎng)絡(luò)25可W是由DTX 端點(diǎn)使用的網(wǎng)絡(luò)相同的網(wǎng)絡(luò)。混合器11為每個(gè)CTX端點(diǎn)產(chǎn)生下行傳輸流23,下行傳輸流23通 過(guò)網(wǎng)絡(luò)25被傳輸回到端點(diǎn)21W便回放給多個(gè)參與者20。
[0045] 在電話會(huì)議系統(tǒng)中,每個(gè)參與者端點(diǎn)發(fā)送上行傳輸音頻流到電話會(huì)議混合器并且 從其接收下行傳輸流。在運(yùn)種系統(tǒng)中,上行傳輸和下行傳輸可W被數(shù)字地編碼并且經(jīng)由諸 如互聯(lián)網(wǎng)協(xié)議電話(VoIP)網(wǎng)絡(luò)之類的合適的包交換網(wǎng)絡(luò)傳輸,或者它們可W通過(guò)諸如公共 交換電話網(wǎng)(PSTN)之類的電路交換網(wǎng)絡(luò)傳送。無(wú)論哪種方式,混合器11的責(zé)任都是產(chǎn)生下 行傳輸音頻流W發(fā)送回給每個(gè)端點(diǎn)5、21,使得通常每個(gè)參與者聽到除自己W外的每個(gè)其他 參與者。
[0046] 但是,對(duì)于運(yùn)個(gè)目標(biāo),存在一些細(xì)微區(qū)別。例如,如果各自包含背景噪聲的許多CTX 流同時(shí)被收聽者聽到,則所聽到的總背景噪音功率會(huì)增加到令人分散注意力或有損可懂度 的程度。作為進(jìn)一步的示例,考慮多個(gè)上行傳輸流全部同時(shí)講話。其結(jié)果可能是太雜亂而不 便于進(jìn)行有用的交流。在運(yùn)種情況下,只讓兩個(gè)或Ξ個(gè)在感知上最相關(guān)的流通過(guò)可能更好。 包括本作者在內(nèi)的許多作者已提議了用于實(shí)現(xiàn)運(yùn)個(gè)的方法。例如,Enbom等人的歐洲專利申 請(qǐng)EP 1855455B1公開了一種運(yùn)樣的方法。
[0047] 雖然混合器按照需要管理電話會(huì)議呼叫,但是圖2示意性地例示了電話會(huì)議混合 器11的說(shuō)明性形式。
[004引如圖2中所示,多個(gè)上行傳輸流(一些DTX(31,32),一些CTX(33))被斷言到混合器 11。每個(gè)上行傳輸流經(jīng)過(guò)相應(yīng)的解包單元35、36、37。取決于上行傳輸編碼信息,每個(gè)解包單 元對(duì)相應(yīng)的上行傳輸流進(jìn)行解包,并且從上行傳輸流中提取VAD 38、掩蔽事件信息和音頻 信息40,并且如下所述地識(shí)別掩蔽事件39。
[0049] 混合器11產(chǎn)生多個(gè)下行傳輸流42、43、44。在圖2中示出了與下行傳輸流43之一相 關(guān)聯(lián)的子混合裝置46。為每個(gè)其它下行傳輸流42、44存在的各個(gè)類似的子混合裝置未被示 出。用于該下行傳輸?shù)幕旌峡刂茊卧?7對(duì)由與其它下行傳輸相關(guān)聯(lián)的解包單元35、37產(chǎn)生 的VAD和掩蔽事件信號(hào)進(jìn)行操作,并且為除上行傳輸36之外的每個(gè)上行傳輸產(chǎn)生增益,因?yàn)?下行傳輸43將會(huì)被生成上行傳輸32的同一端點(diǎn)Y聽到。運(yùn)些增益被用于縮放48、49和混合50 來(lái)自上行傳輸?shù)囊纛l,W產(chǎn)生適合通過(guò)下行傳輸43重新打包和編碼51回去的最終音頻流。
[0050] 優(yōu)選實(shí)施例提供了用于在電話會(huì)議系統(tǒng)中將DTX和CTX上行傳輸混合在一起W形 成具有整體唯一混合策略的一系列在感知上連續(xù)的下行傳輸?shù)姆椒ā?br>[0051] 考慮服務(wù)多個(gè)DTX端點(diǎn)(即,僅當(dāng)估計(jì)存在語(yǔ)音時(shí)才在上行傳輸上傳輸音頻的端 點(diǎn))和多個(gè)CTX端點(diǎn)(即,連續(xù)地在上行傳輸上傳輸音頻的端點(diǎn))的VoIP(互聯(lián)網(wǎng)協(xié)議電話)電 話會(huì)議服務(wù)器。周期性地(例如每20ms),服務(wù)器需要分析自從上次之后已通過(guò)網(wǎng)絡(luò)接收到 的編碼音頻的上行傳輸包,并且產(chǎn)生包含編碼音頻的新的下行傳輸包W發(fā)送給每個(gè)端點(diǎn)。 由于發(fā)送端點(diǎn)上的時(shí)鐘和服務(wù)器上的時(shí)鐘之間的偏差W及由于網(wǎng)絡(luò)中引入的抖動(dòng)和包丟 失,所W上行傳輸包可能不是W服務(wù)器需要它們的正好相同的速率(例如每20ms巧Ij達(dá)。因 此,服務(wù)器將需要采用如本領(lǐng)域技術(shù)人員已知的抖動(dòng)緩沖方案。在抖動(dòng)緩沖之后,應(yīng)該在任 何端點(diǎn)處的收聽者聽到來(lái)自除他自己W外的每個(gè)其它端點(diǎn)的語(yǔ)音的總體目標(biāo)下、基于輸入 包來(lái)形成下行傳輸包。
[0052] 優(yōu)選實(shí)施例提供了通過(guò)根據(jù)W下原則W在感知上連續(xù)的方式處理DTX和CTX流運(yùn) 兩者來(lái)延伸先前技術(shù)的方法。
[0053] 關(guān)于哪些流被聽到和哪些流不被聽到的判定基于冗長(zhǎng)度量,冗長(zhǎng)度量是描述對(duì)話 中特定上行傳輸?shù)闹匾缘亩攘?。可W使用不同表征形式的冗長(zhǎng)度量或類似物,包括諸如 每個(gè)通道的功率譜分析之類的簡(jiǎn)單的量度。冗長(zhǎng)的一種較復(fù)雜的量度在于2012年9月27日 提交的、標(biāo)題為('Method for Improving Perceptual Continuity in 曰 Spatial Teleconferencing System"的美國(guó)專利申請(qǐng)61/706315中獲得,該申請(qǐng)的內(nèi)容通過(guò)交叉引 用被并入于此。
[0054] 當(dāng)人們講話時(shí),除非存在極端條件,否則他們期望被聽到。因此,每當(dāng)與CTX流相關(guān) 聯(lián)的VAD估計(jì)流中存在語(yǔ)音時(shí),該CTX流將被聽到,除非超過(guò)了包含活動(dòng)語(yǔ)音的CTX流的某個(gè) 最大計(jì)數(shù)N_MAX(例如,5)。在多于N_MAX個(gè)CTX流同時(shí)包含語(yǔ)音的情況下,具有最高冗長(zhǎng)的N_ MAX個(gè)流將被聽到,而其它的流可W被剔除。如果許多CTX流被聽到,則結(jié)果立即很可能變得 雜亂或增雜,并且還會(huì)消耗顯著的服務(wù)器資源來(lái)進(jìn)行混合。
[0055] 期望的是:當(dāng)CTX流都未包含活動(dòng)語(yǔ)音時(shí),在大部分時(shí)間,單個(gè)CTX上行傳輸在每個(gè) 下行傳輸中可聽到。如果CTX流在講話一停止就突然被關(guān)閉,則運(yùn)將立即被注意到并且將聽 起來(lái)不自然。另一方面,如果許多CTX流被聽到,則結(jié)果立即可能是令人分屯、地雜亂或增雜, 并且也將消耗顯著的服務(wù)器資源來(lái)混合。
[0056] 在優(yōu)選實(shí)施例中,期望具有在任何時(shí)間在每個(gè)下行傳輸中活動(dòng)的至少單個(gè)CTX流。 運(yùn)個(gè)流被表示為發(fā)言者。選擇最冗長(zhǎng)(即,最高冗長(zhǎng))的流成為發(fā)言者是合乎邏輯的,因?yàn)榭?慮到那是在最近的歷史中在會(huì)議中已包含最多語(yǔ)音的數(shù)據(jù)流,所w它最有可能是收聽者的 關(guān)注焦點(diǎn)。
[0057] 期望的是CTX流被文雅地中斷。運(yùn)意味著,當(dāng)沒(méi)有語(yǔ)音存在時(shí),不是直接將其關(guān)閉, 而是服務(wù)器應(yīng)該在等待某個(gè)最小保持時(shí)間W查看是否即將到來(lái)更多語(yǔ)音之后將它淡出。但 是,更重要的是,人們被聽到。因此,當(dāng)多于N_MX個(gè)CTX流活動(dòng)時(shí),不應(yīng)該應(yīng)用此原則。
[0058] 如果CTX流全都在長(zhǎng)時(shí)間段(例如,1分鐘)內(nèi)不包含語(yǔ)音,則可逐漸降低"所聽 到的最后一個(gè)CTX流。運(yùn)可W通過(guò)每次聲明掩蔽事件時(shí)應(yīng)用量值G_STEP(例如,-2地)的離散 衰減步驟來(lái)完成。當(dāng)端點(diǎn)在長(zhǎng)度1'_1451((例如,3秒)的靜默時(shí)間段之后開始講話時(shí),掩蔽事 件被檢測(cè)到。一旦流被衰減超過(guò)一定量,例如G_THRES冊(cè)LD(例如,-18地),它就可W被淡出 和中止。確定流已長(zhǎng)時(shí)間段處于非活動(dòng)狀態(tài)的簡(jiǎn)單方法是檢查其冗長(zhǎng)是否處于某個(gè)小的闊 值¥_1'皿65冊(cè)LD (例如,0.05) W下。
[0059] 具體實(shí)施例
[0060] 現(xiàn)在將描述圖2的子混合單元46的實(shí)現(xiàn)的具體實(shí)施例的一種形式。
[0061] 對(duì)于每個(gè)連接的端點(diǎn)或下行傳輸,維護(hù)場(chǎng)景對(duì)象作為從帖到帖的狀態(tài)。場(chǎng)景對(duì)象 可W包括:1.對(duì)輸入流的一組引用(即,來(lái)自其它被連接的端點(diǎn)的上行傳輸流);2. -組輸出 流定義,其中每個(gè)輸出流定義又包括:a)對(duì)所分配的輸入流的一組引用;b)關(guān)于對(duì)所分配輸 入流的每個(gè)引用,相關(guān)聯(lián)的混合增益。
[0062] 周期性地(例如,每20ms):
[0063] 1)將集合D(該帖將需要被執(zhí)行解碼的輸入流的集合)初始化為空集合。
[0064] 2)將集合S(該帖將需要被混合和重新編碼的場(chǎng)景的集合)初始化為空集合。
[0065] 3)執(zhí)行準(zhǔn)備遍歷;對(duì)于每個(gè)被連接的端點(diǎn):
[0066] a)從抖動(dòng)緩沖區(qū)獲取下一個(gè)上行傳輸音頻包。
[0067] b)確定音頻包中是否存在語(yǔ)音(講話標(biāo)志)。
[0068] 運(yùn)可W通過(guò)對(duì)包進(jìn)行解碼并且應(yīng)用合適的VAD或者通過(guò)提取已由發(fā)送端點(diǎn)在音頻 包中提供的講話標(biāo)志元數(shù)據(jù)來(lái)完成。
[0069] 4)執(zhí)行冗長(zhǎng)更新遍歷;對(duì)于每個(gè)被連接的端點(diǎn):
[0070] 基于講話標(biāo)志為運(yùn)個(gè)端點(diǎn)更新冗長(zhǎng)度量。
[0071] 由于冗長(zhǎng)是長(zhǎng)期聚合體,因此使用來(lái)自先前帖的講話標(biāo)志也是能接受的,使得冗 長(zhǎng)可W被計(jì)算為第一遍歷的一部分。
[0072] 5)執(zhí)行計(jì)劃遍歷;對(duì)于每個(gè)被連接的端點(diǎn),更新場(chǎng)景對(duì)象:
[0073] a)在第一子遍歷中,有必要確定哪些輸入流要啟用:
[0074] i .記錄已斷言其講話標(biāo)志的CTX輸入流的數(shù)量n_ctx。
[0075] ii.創(chuàng)建不超過(guò)N_MAX個(gè)具有當(dāng)前被斷言的講話標(biāo)志的最冗長(zhǎng)(即,最高冗長(zhǎng))輸入 流的集合L。
[0076] iii.記錄其講話標(biāo)志被設(shè)置、但不是集合L的成員的輸入流的數(shù)量11_(31111。
[0077] iv.如果有的話,則找到哪個(gè)CTX輸入流當(dāng)前具有最高冗長(zhǎng)(至少為¥_1'皿65冊(cè)LD)。 指定運(yùn)個(gè)流為發(fā)言者。
[0078] V.如果在不活動(dòng)至少T_MASK的時(shí)間段之后,任何輸入流的講話標(biāo)志經(jīng)歷從被清除 到被斷言該帖,則聲明與此場(chǎng)景相關(guān)聯(lián)的掩蔽事件。
[0079] b)在第二子遍歷中,有必要在場(chǎng)景中啟用輸入流。對(duì)于集合L中的每個(gè)輸入流:
[0080] i.將混合增益設(shè)置為0地(一致)。
[0081] ii.確保輸入流被分配給輸出流。如果多個(gè)輸入流被分配給相同的輸出流,則它們 可W在服務(wù)器處被解碼和混合。僅被分配單個(gè)輸入流的任何輸出流可W在不解碼的情況下 被轉(zhuǎn)發(fā)。輸出包可W包含多個(gè)輸出流,在運(yùn)種情況下,它們被混合在一起并且在接收端點(diǎn)處 被呈現(xiàn)。
[0082] C)在第Ξ子遍歷中,從場(chǎng)景中剔除之前聽到的輸入流。對(duì)于當(dāng)前被分配給輸出流 但不是集合L的成員的每個(gè)輸入流:
[0083] i.如果輸入流是DTX,則立即將它從其輸出流解除分配。
[0084] ii.如果輸入流是CTX并且n_cull非零,則將該流在運(yùn)個(gè)輸出流中標(biāo)記為淡出。否 則:
[0085] iii.如果輸入流沒(méi)有被指定為發(fā)言者、n_ctx大于1并且該流已經(jīng)不活動(dòng)長(zhǎng)達(dá)至少 T_H0LD,則將該輸入流在其輸出流中標(biāo)記為淡出。
[0086] iv.如果輸入流沒(méi)有被指定為發(fā)言者并且11_(3*《是1(運(yùn)是當(dāng)前聽到的唯一CTX流, 但它不是發(fā)言者),則在掩蔽事件已被聲明時(shí)將其混合增益減少6_5了6?。如果混合增益現(xiàn)在 小于G_THRES冊(cè)LD,則將運(yùn)個(gè)輸入流在其輸出流中標(biāo)記為淡出。
[0087] d)在第四子遍歷中,對(duì)正在淡出的流的增益進(jìn)行更新。對(duì)于當(dāng)前被分配給輸出流 的每個(gè)輸入流:
[008引i .如果輸入流被標(biāo)記為淡出,則將其混合增益減少6_曰406。
[0089] ii.如果輸入流的混合增益小于G_CUT,則將它從輸出流解除分配。
[0090] iii.在第五子遍歷中,我們把為了對(duì)場(chǎng)景進(jìn)行混合而需要執(zhí)行解碼的任何輸入流 添加到集合D,如果它們還不是成員的話。
[0091] iv.如果所得到的場(chǎng)景不是空的,則將它添加到集合S。
[0092] 6)可選地,通過(guò)定位和合并集合S中的相同場(chǎng)景來(lái)執(zhí)行場(chǎng)景共享遍歷。如果每個(gè)輸 出流由具有相同混合增益的一組相同的輸入流形成,則兩個(gè)場(chǎng)景應(yīng)該被視為相同的。相同 的場(chǎng)景應(yīng)該被合并成單個(gè)場(chǎng)景對(duì)象,該單個(gè)場(chǎng)景對(duì)象記錄了它應(yīng)該被發(fā)送到哪些端點(diǎn)。
[0093] 7)執(zhí)行集合D中的每個(gè)輸入流解碼,使得解碼的音頻數(shù)據(jù)可用于混合。
[0094] 8)執(zhí)行混合遍歷;對(duì)于S中的每個(gè)場(chǎng)景:
[00M] (a)對(duì)于場(chǎng)景中的每個(gè)輸出流:
[0096] i.如果輸出流具有分配給它的多個(gè)輸入流,則將在解碼遍歷(7)中從輸入流導(dǎo)出 的解碼音頻混合在一起,并且重新編碼混合后的音頻,W準(zhǔn)備用于在下行傳輸包中傳輸。
[0097] ii.否則,如果輸出流具有分配給它的單個(gè)輸入流:則復(fù)制或引用該輸入流,W準(zhǔn) 備用于在下行傳輸包中發(fā)送,而無(wú)需重新編碼。
[0098] 9)執(zhí)行發(fā)送遍歷;對(duì)于S中的每個(gè)場(chǎng)景,并且對(duì)于要接收運(yùn)個(gè)場(chǎng)景的每個(gè)端點(diǎn):
[0099] (a)通過(guò)利用任何所需要的特定于端點(diǎn)的頭部信息(例如,序列號(hào))預(yù)先考慮在混 合遍歷(8)中產(chǎn)生的輸出流數(shù)據(jù)來(lái)形成完整的下行傳輸包。
[0100] (b)將下行傳輸包發(fā)送到端點(diǎn)。
[0101] 10)當(dāng)接收到下行傳輸包時(shí),端點(diǎn)應(yīng)該解碼在其中發(fā)現(xiàn)的每個(gè)流、將它們混合在一 起、并且通過(guò)揚(yáng)聲器或耳機(jī)呈現(xiàn)它們。
[0102] 假設(shè)20毫秒的帖時(shí)段,在W上討論中W斜體大寫字母示出的每個(gè)常數(shù)的建議值在 下表中給出。
[0103]
圖3是示出了電話會(huì)議混合器元件的示例的框圖。圖3中示出的部件的類型和數(shù)量I 僅僅W示例的方式示出??商娲膶?shí)現(xiàn)可W包括更多、更少和/或不同的部件。電話會(huì)議混 合器300例如可W是電話會(huì)議服務(wù)器的實(shí)例。在一些示例中,電話會(huì)議混合器300可W是另 一個(gè)設(shè)備的部件。例如,在一些實(shí)現(xiàn)中,電話會(huì)議混合器300可W是遠(yuǎn)程會(huì)議服務(wù)器的部件, 例如,線卡(line card)。電話會(huì)議混合器300可W至少部分地由如下控制系統(tǒng)來(lái)實(shí)現(xiàn):該控 制系統(tǒng)可W包括通用的單忍片或多忍片處理器、數(shù)字信號(hào)處理器(DSP)、專用集成電路 (ASIC)、現(xiàn)場(chǎng)可編程口陣列(FPGA)或其它可編程邏輯器件、分立口或晶體管邏輯和/或分立 硬件部件。在一些實(shí)現(xiàn)中,電話會(huì)議混合器300可W根據(jù)存儲(chǔ)在一個(gè)或多個(gè)非臨時(shí)性介質(zhì)上 的指令(例如,軟件)來(lái)實(shí)現(xiàn)。運(yùn)種非臨時(shí)性介質(zhì)可W包括存儲(chǔ)器設(shè)備,諸如本文所描述的那 些,包括但不限于:隨機(jī)存取存儲(chǔ)器(RAM)設(shè)備、只讀存儲(chǔ)器(ROM)設(shè)備,等等。
[0105] 在圖3示出的示例中,電話會(huì)議混合器300包括解包單元303A-303C,解包單元 303A-303C被示出為接收DTX上行傳輸流301A-301C。運(yùn)里,電話會(huì)議混合器300還包括解包 單元304A-304C,解包單元304A-304C被示出接收CTX上行傳輸流302A-302C。在一些實(shí)現(xiàn)中, 解包單元303A-303C可W是圖2和W上所述的解包單元35和36的實(shí)例,并且解包單元304A- 304C可W是圖2和W上所述的解包單元37的實(shí)例。
[0106] 雖然解包單元303A-303C和解包單元304A-304C都沒(méi)有示出輸出事件信息(諸如在 圖2中示出的X事件、Y事件和Z事件信息),但是,在一些實(shí)現(xiàn)中,解包單元303A-303C和/或解 包單元304A-304C可W能夠確定所接收的上行傳輸流中的事件W及能夠輸出事件信息。根 據(jù)一些運(yùn)種實(shí)現(xiàn),解包單元303A-303C和/或解包單元304A-304C可W能夠根據(jù)所接收的上 行傳輸流中的事件標(biāo)志(或類似指示)確定事件。可替代地或附加地,在一些實(shí)現(xiàn)中,解包單 元303A-303C和/或解包單元304A-304C可W能夠通過(guò)其它手段確定事件,諸如通過(guò)對(duì)所接 收的上行傳輸流進(jìn)行分析。
[0107] -些此類示例可W包括特征提取器和事件檢測(cè)器。在一些實(shí)現(xiàn)中,特征提取器和 事件檢測(cè)器運(yùn)兩者都可W在解包單元或在電話會(huì)議混合器的一個(gè)或多個(gè)其它部件中實(shí)現(xiàn)。 在可替代的實(shí)現(xiàn)中,特征提取器和事件檢測(cè)器運(yùn)兩者都可W在電話端點(diǎn)中實(shí)現(xiàn)。在其它實(shí) 現(xiàn)中,特征提取器可W在電話端點(diǎn)中實(shí)現(xiàn),而事件檢測(cè)器可W在解包單元中或在電話會(huì)議 混合器的一個(gè)或多個(gè)其它部件中實(shí)現(xiàn)。
[0108] 特征提取器可W能夠分析輸入波形W及產(chǎn)生對(duì)應(yīng)于一種或多種特征的輸出,諸如 等級(jí)的變化和/或譜通量的變化(例如,節(jié)距的變化)。在一些示例中,特征提取器可w能夠 有VAD功能。根據(jù)一些運(yùn)種示例,特征提取器可W能夠分析輸入波形W及能夠輸出VAD結(jié)果。
[0109] 事件檢測(cè)器402可W能夠分析由特征提取器提取的特征W及能夠產(chǎn)生對(duì)應(yīng)于一種 或多種事件的輸出。在一些實(shí)現(xiàn)中,事件可W與語(yǔ)音的開始、語(yǔ)音的停止、特別音節(jié)的出現(xiàn)、 語(yǔ)音的詞或類別、音量的變化、譜通量的變化或其它類似變化、和/或根據(jù)聽覺(jué)場(chǎng)景分析而 確定的標(biāo)準(zhǔn)對(duì)應(yīng)。在一些實(shí)現(xiàn)中,事件檢測(cè)器的輸出可W是"二元的",僅指示事件是否存在 或不存在。但是,在一些示例中,事件檢測(cè)器的輸出也可W指示事件量值。
[0110] 根據(jù)一些示例,解包單元303A-303C可W能夠只處理DTX上行傳輸流并且解包單元 304A-304C可W能夠只處理CTX上行傳輸流。但是,在一些實(shí)現(xiàn)中,解包單元303A-303C和/或 解包單元304A-304C可W能夠處理CTX上行傳輸流和DTX上行傳輸流運(yùn)兩者。根據(jù)一些運(yùn)種 實(shí)現(xiàn),解包單元303A-303C和/或解包單元304A-304C可W能夠根據(jù)標(biāo)志、上行傳輸流中的頭 部或其它信息來(lái)確定把上行傳輸流作為CTX上行傳輸流還是DTX上行傳輸流來(lái)處理。在一些 實(shí)現(xiàn)中,關(guān)于把上行傳輸流作為CTX上行傳輸流還是DTX上行傳輸流來(lái)處理的信息可W在上 行傳輸流的外部。在一些運(yùn)種實(shí)現(xiàn)中,關(guān)于把上行傳輸流作為CTX上行傳輸流還是DTX上行 傳輸流來(lái)處理的信息可W在會(huì)話發(fā)起過(guò)程期間交換,例如,在端點(diǎn)和電話會(huì)議服務(wù)器(或其 一部分,諸如解包單元)之間根據(jù)會(huì)話發(fā)起協(xié)議(SIP)的協(xié)商期間。可替代地,關(guān)于把上行傳 輸流作為CTX上行傳輸流還是DTX上行傳輸流來(lái)處理的信息可能在上行傳輸流中或在會(huì)話 發(fā)起過(guò)程期間沒(méi)有被顯式地指示,但是可W根據(jù)對(duì)于上行傳輸流的包中的諸如VAD標(biāo)志之 類的信息的分析來(lái)確定。在一個(gè)運(yùn)種示例中,CTX上行傳輸流可W通過(guò)兩個(gè)連續(xù)包的兩個(gè) VAD標(biāo)志被設(shè)置為零的實(shí)例來(lái)識(shí)別。
[0111] 根據(jù)一些實(shí)現(xiàn),解包單元的數(shù)量將取決于上行傳輸流的數(shù)量并且解包單元的功能 將取決于上行傳輸流是CTX上行傳輸流還是DTX上行傳輸流。例如,在一些運(yùn)種實(shí)現(xiàn)中,控制 系統(tǒng)可W調(diào)用對(duì)應(yīng)于上行傳輸流的數(shù)量的多個(gè)軟件模塊。每個(gè)軟件模塊可W具有取決于對(duì) 應(yīng)的上行傳輸流是CTX上行傳輸流還是DTX上行傳輸流的解包單元功能。
[0112] 在圖3中所示的示例中,解包單元303A-303C和解包單元304A-304C能夠輸出音頻 信息306A-306F,每個(gè)音頻信息306A-306F來(lái)自對(duì)應(yīng)的上行傳輸流。取決于特定的實(shí)現(xiàn),音頻 信息306A-306F可W是在時(shí)域或頻域中。在一些示例中,音頻信息306A-306F可W被修改為 離散余弦變換(MDCT)音頻數(shù)據(jù)。取決于特定的實(shí)現(xiàn),音頻信息306A-306F可W被編碼或解 碼。在本示例中,至少音頻信息30抓-306F可W被解碼。
[0113] 在本示例中,解包單元303A-303C和解包單元304A-304C能夠輸出語(yǔ)音活動(dòng)信息 305A-305F,指示對(duì)應(yīng)的上行傳輸流中的語(yǔ)音。在一些實(shí)現(xiàn)中,當(dāng)DTX端點(diǎn)已檢測(cè)到語(yǔ)音時(shí), DTX端點(diǎn)將只發(fā)送上行傳輸流。根據(jù)一些此類示例,解包單元303A-303C可W能夠輸出與在 其間接收到DTX上行傳輸流的時(shí)間間隔對(duì)應(yīng)的語(yǔ)音活動(dòng)信息。
[0114] 在一些實(shí)現(xiàn)中,CTX端點(diǎn)可W能夠進(jìn)行語(yǔ)音活動(dòng)檢測(cè),并且可W將諸如VAD標(biāo)志之 類的信息包括在CTX上行傳輸流中,W指示CTX上行傳輸流中音頻數(shù)據(jù)的哪些部分對(duì)應(yīng)于語(yǔ) 音。根據(jù)一些運(yùn)種示例,解包單元304A-304C可W能夠輸出與CTX上行傳輸流302A-302C中檢 測(cè)到的VAD標(biāo)志或其它運(yùn)種信息對(duì)應(yīng)的語(yǔ)音活動(dòng)信息。但是,在可替代的示例中,解包單元 304A-304C可W能夠進(jìn)行語(yǔ)音活動(dòng)檢測(cè),并且可W能夠輸出與CTX上行傳輸流302A-302C中 檢測(cè)到的語(yǔ)音對(duì)應(yīng)的語(yǔ)音活動(dòng)信息。
[0115] 在本示例中,解包單元303A-303C和解包單元304A-304C能夠?qū)⒄Z(yǔ)音活動(dòng)信息 305A-305F輸出到冗長(zhǎng)估計(jì)器模塊308。因此,在運(yùn)個(gè)實(shí)現(xiàn)中,來(lái)自電話會(huì)議中設(shè)及的所有上 行傳輸流的語(yǔ)音活動(dòng)信息被輸入到冗長(zhǎng)估計(jì)器模塊308。在本示例中,冗長(zhǎng)估計(jì)器模塊308 能夠?yàn)镃TX端點(diǎn)計(jì)算冗長(zhǎng)度量,諸如對(duì)應(yīng)于CTX上行傳輸流302A-302C的Ξ個(gè)CTX端點(diǎn)。如本 文其它地方所指出的,冗長(zhǎng)度量可W指示上行傳輸流的可能重要性。
[0116] 計(jì)算冗長(zhǎng)度量的過(guò)程和/或冗長(zhǎng)度量本身可W根據(jù)實(shí)現(xiàn)而變化。在一些實(shí)現(xiàn)中,冗 長(zhǎng)估計(jì)器模塊308可W能夠至少部分地基于每個(gè)上行傳輸流的功率譜分析來(lái)計(jì)算冗長(zhǎng)度 量。在一些實(shí)現(xiàn)中,冗長(zhǎng)估計(jì)器模塊308可W能夠根據(jù)在于2013年9月25日提交的國(guó)際專利 申請(qǐng)NO.PCT/US2013/061648中例如第24-29頁(yè)描述的一種或多種方法來(lái)計(jì)算冗長(zhǎng)量度,該 申請(qǐng)的內(nèi)容通過(guò)引用被并入于此。
[0117] -些運(yùn)種實(shí)現(xiàn)可能設(shè)及隨著時(shí)間積累(例如,每個(gè)會(huì)話參與者或每個(gè)上行傳輸流 的)每個(gè)輸入聲場(chǎng)信號(hào)的冗長(zhǎng)度量。運(yùn)種實(shí)現(xiàn)可能設(shè)及為每個(gè)端點(diǎn)i的輸入聲場(chǎng)信號(hào)確定冗 長(zhǎng)值Vi。冗長(zhǎng)值Vi可W取決于會(huì)議中的活動(dòng)而被修改。Vi的相對(duì)高的值可W指示端點(diǎn)i已更 加活躍,并且因此更可能或更適于被維持為多路復(fù)用輸出聲場(chǎng)信號(hào)中的最近活動(dòng)的聲場(chǎng)。 冗長(zhǎng)度量Vi可W在每帖或根據(jù)一組規(guī)則和參數(shù)的時(shí)刻被修改。規(guī)則和參數(shù)的示例在下面表 1中列出。特別地,表1例示了機(jī)制和對(duì)冗長(zhǎng)度量的建議修改。
[011 引
[0119] 表 1
[0120] -般而言,根據(jù)上面的一組參數(shù),當(dāng)端點(diǎn)i活動(dòng)時(shí),用于端點(diǎn)i的冗長(zhǎng)Vi可W增加, 并且如果端點(diǎn)i是唯一的活動(dòng)端點(diǎn),則增加得更快。當(dāng)端點(diǎn)i不活動(dòng)時(shí),并且至少一個(gè)其它端 點(diǎn)活動(dòng)時(shí),冗長(zhǎng)Vi可W減少。如果只有一個(gè)活動(dòng)端點(diǎn),則冗長(zhǎng)Vi可W減少得更快。在會(huì)議中沒(méi) 有活動(dòng)的情況下,在一些示例中當(dāng)前冗長(zhǎng)等級(jí)可W被維持。在一些實(shí)施例中,可W優(yōu)選地應(yīng) 用冗長(zhǎng)Vi的適當(dāng)衰減并且將衰減鏈接到端點(diǎn)i的相關(guān)聯(lián)的聲場(chǎng)信號(hào)的淡出。
[0121] 根據(jù)一些示例,如果第一會(huì)議參與者在第一時(shí)間間隔期間已比其他會(huì)議參與者講 得更多,并且然后在第二時(shí)間間隔期間停止講話,但是在第二時(shí)間間隔期間,沒(méi)有其他會(huì)議 參與者在講話,則第一會(huì)議參與者的冗長(zhǎng)可W在該時(shí)間間隔期間保持恒定。但是,如果另一 個(gè)會(huì)議參與者在第二時(shí)間間隔期間開始講話,則第一會(huì)議參與者的冗長(zhǎng)可W在該時(shí)間間隔 期間減少。根據(jù)一些實(shí)現(xiàn),如果多于一個(gè)其它會(huì)議參與者在第二時(shí)間間隔期間開始講話,貝U 第一會(huì)議參與者的冗長(zhǎng)可W在第二時(shí)間間隔期間減少得更快。
[0122] 在圖3所示的示例中,冗長(zhǎng)估計(jì)器模塊308被示為輸出冗長(zhǎng)度量V1-V3,冗長(zhǎng)度量 V1-V3分別對(duì)應(yīng)于CTX上行傳輸流302A-302C之一。在一些實(shí)現(xiàn)中,冗長(zhǎng)估計(jì)器模塊308可W 能夠輸出〇(意味著交談參與者在至少預(yù)定長(zhǎng)度的時(shí)間內(nèi)根本沒(méi)有講話)和1(意味著交談參 與者在至少預(yù)定長(zhǎng)度的時(shí)間內(nèi)已是最主要的講話者)之間的數(shù)字。
[0123] 根據(jù)本示例,冗長(zhǎng)度量V1-V3被輸入到增益控制單元309。在運(yùn)個(gè)實(shí)現(xiàn)中,增益控制 單元309能夠確定混合策略,混合策略包括用于CTX上行傳輸流302A-302C中的每一個(gè)CTX上 行傳輸流的至少部分基于冗長(zhǎng)度量V1-V3的增益。運(yùn)里,增益控制單元309能夠?qū)?duì)應(yīng)于冗 長(zhǎng)度量V1-V3的增益信息314A-314C提供給對(duì)應(yīng)的增益單元310A-310C。因此,在本示例中, 增益控制單元309可W為具有相對(duì)較高的冗長(zhǎng)度量的CTX上行傳輸流確定相對(duì)較高的增益, 并且可W為具有相對(duì)較低的冗長(zhǎng)度量的CTX上行傳輸流確定相對(duì)較低的增益。
[0124] 混合策略也可W基于其它因素。例如,在圖3所示的示例中,為簡(jiǎn)單起見,只有單個(gè) 下行傳輸流320被示為正在從多路復(fù)用器313中輸出。下行傳輸流320對(duì)應(yīng)于電話會(huì)議中設(shè) 及的單個(gè)端點(diǎn)。電話會(huì)議混合器300將一般地輸出多個(gè)下行傳輸流,電話會(huì)議中設(shè)及的每個(gè) 端點(diǎn)一個(gè)下行傳輸流。在一些實(shí)現(xiàn)中,電話會(huì)議混合器300可W能夠允許每個(gè)會(huì)議參與者聽 到來(lái)自除她或他自己W外的每個(gè)其他會(huì)議參與者的講話(具有一些可能的約束)。因此,在 一些運(yùn)種實(shí)現(xiàn)中,混合策略還可W包括為來(lái)自對(duì)應(yīng)于下行傳輸流320的端點(diǎn)的CTX上行傳輸 流確定低(或零)增益。
[0125] 在一些示例中,增益控制單元309可W能夠提供與W上參照?qǐng)D2描述的混合控制單 元47的功能類似的功能。根據(jù)一些運(yùn)種示例,增益控制單元309可W能夠至少部分地實(shí)現(xiàn)W 上描述的本公開內(nèi)容的各個(gè)方面。例如,在一些實(shí)現(xiàn)中,增益控制單元309可W能夠根據(jù)各 種標(biāo)準(zhǔn)(諸如本文所公開的那些標(biāo)準(zhǔn))來(lái)衰減一個(gè)或多個(gè)CTX上行傳輸流、丟棄一個(gè)或多個(gè) CTX流、即使在輸入流中當(dāng)前未檢測(cè)到講話也將攜帶噪聲的CTX上行傳輸流包括在輸出流 中、將當(dāng)前檢測(cè)到其中有講話的攜帶噪聲的CTX上行傳輸流的子集包括在輸出流中、即使在 CTX上行傳輸流中當(dāng)前未檢測(cè)到講話也將噪聲可忽略的CTX上行傳輸流包括在輸出流中,等 等。盡管在圖3所示的示例中,增益控制單元309沒(méi)有被示出從解包單元接收事件信息,但是 在可替代的示例中,增益控制單元309可W至少部分地基于由解包單元產(chǎn)生的事件信號(hào)來(lái) 確定混合策略。
[01%] 在本示例中,對(duì)應(yīng)的增益單元310A-310C能夠基于由增益控制單元309提供的增益 信息來(lái)將增益應(yīng)用到CTX上行傳輸流中對(duì)應(yīng)的一個(gè)。在運(yùn)個(gè)實(shí)現(xiàn)中,CTX混合器311能夠混合 從增益單元310A-310C輸出的CTX上行傳輸流。在一些示例中,CTX混合器311可W能夠提供 與W上參照?qǐng)D2描述的混合單元50的功能類似的功能。
[0127]在運(yùn)個(gè)實(shí)現(xiàn)中,CTX混合器311能夠?qū)⒒旌虾蟮腃TX流315提供給重新編碼/重新打 包單元312。重新編碼/重新打包單元312可W能夠?qū)旌虾蟮腃TX流315進(jìn)行編碼并且能夠 將混合后的編碼CTX流317提供給多路復(fù)用器313。
[0128] 在圖3所示的示例中,DTX混合器307從解包單元303A-303C接收對(duì)應(yīng)于DTX上行傳 輸流301A-301C的音頻信息306A-306C。在一些實(shí)現(xiàn)中,音頻信息306A-306C可W被編碼,而 在其它實(shí)現(xiàn)中,音頻信息306A-306C可W被解碼。
[0129] 根據(jù)一些實(shí)現(xiàn),DTX混合器307可W允許多達(dá)最大數(shù)量的編碼DTX流被包括在下行 傳輸流320中。在一些運(yùn)種實(shí)現(xiàn)中,DTX混合器307可W在虛擬空間中向每個(gè)編碼DTX流分配 相關(guān)聯(lián)的位置。根據(jù)一些實(shí)現(xiàn),DTX混合器307可W能夠根據(jù)一組規(guī)則,諸如在標(biāo)題為 "Placement of Talkers in 2D or 3D Conference Scene"的國(guó)際申請(qǐng)?zhí)朠CT/US2013/ 033270中例如第1-10和22-36頁(yè)描述的那些規(guī)則,將會(huì)議參與者語(yǔ)音分配到虛擬空間中的 位置。在圖3所示的實(shí)現(xiàn)中,多路復(fù)用器313能夠向多路復(fù)用器313提供混合后的DTX流319。 在本示例中,多路復(fù)用器313能夠?qū)⒒旌虾蟮木幋aCTX流317與混合后的DTX流319多路復(fù)用, W產(chǎn)生下行傳輸流320。
[0130] 解釋
[0131] 貫穿本說(shuō)明書,對(duì)"一種實(shí)施例"、"一些實(shí)施例"或"實(shí)施例"的引用意味著聯(lián)系該 實(shí)施例描述的特定特征、結(jié)構(gòu)或特性被包括在本發(fā)明的至少一個(gè)實(shí)施例中。因此,在貫穿本 說(shuō)明書的不同位置中,短語(yǔ)"在一種實(shí)施例中"、"在一些實(shí)施例中"或"在實(shí)施例中"的出現(xiàn) 不一定都指代相同的實(shí)施例,但是可W指代相同的實(shí)施例。此外,在一個(gè)或多個(gè)實(shí)施例中, 如本領(lǐng)域普通技術(shù)人員根據(jù)本公開內(nèi)容而顯而易見的,特定特征、結(jié)構(gòu)或特性可任何 合適的方式進(jìn)行組合,。
[0132] 在下面的權(quán)利要求和本文的描述中,術(shù)語(yǔ)"包括"、"包含"中的任何一個(gè)是意味著 至少包括后面的要素/特征但不排除其它要素/特征的開放性術(shù)語(yǔ)。因此,當(dāng)在權(quán)利要求中 使用時(shí),術(shù)語(yǔ)"包括"不應(yīng)該被解釋為受限于之后列出的手段或要素或步驟。例如,表述設(shè)備 包括A和B的范圍不應(yīng)該被限制為設(shè)備只由元素 A和B組成。如本文中所使用的術(shù)語(yǔ)"包括"或 "包含"中的任何一個(gè)也是開放性術(shù)語(yǔ),其也意味著至少包括該術(shù)語(yǔ)之后的要素/特征,但不 排除其它的要素/特征。因此,包含與包括是同義詞并且意味著包括。
[0133] 如本文中所使用的,術(shù)語(yǔ)"示例性"是在提供示例的意義上被使用,而不是指示質(zhì) 量。即,"示例性實(shí)施例"是作為示例提供的實(shí)施例,而不一定是示例性質(zhì)量的實(shí)施例。
[0134] 應(yīng)當(dāng)理解,在本發(fā)明的示例性實(shí)施例的W上描述中,出于組織本公開內(nèi)容和幫助 對(duì)各種創(chuàng)造性方面中的一個(gè)或多個(gè)方面的理解的目的,本發(fā)明的各種特征有時(shí)在單個(gè)實(shí)施 例、附圖或其描述中被組合在一起。但是,運(yùn)種公開方法不應(yīng)該被解釋為反映所要求保護(hù)的 發(fā)明需要的特征要多于在每個(gè)權(quán)利要求中明確描述的特征的意圖。相反,如W下權(quán)利要求 反映的,創(chuàng)造性方面在于少于單個(gè)上述公開實(shí)施例的所有特征。因此,【具體實(shí)施方式】后面的 權(quán)利要求由此被明確地結(jié)合到【具體實(shí)施方式】中,其中每項(xiàng)權(quán)利要求獨(dú)立地作為本發(fā)明的單 獨(dú)實(shí)施例。
[0135] 此外,雖然本文中所描述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征,而 不包括其它特征,但是如本領(lǐng)域技術(shù)人員將理解的,不同實(shí)施例的特征的組合意味著要在 本發(fā)明的范圍之內(nèi),并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求中,要求保護(hù)的任何 實(shí)施例可W W任何組合被使用。
[0136] 此外,一些實(shí)施例在本文中被描述為可由計(jì)算機(jī)系統(tǒng)的處理器或由執(zhí)行功能的其 他手段實(shí)現(xiàn)的方法或方法要素的組合。因此,具有用于執(zhí)行運(yùn)種方法或方法要素的必要指 令的處理器形成用于執(zhí)行方法或方法要素的裝置。此外,裝置實(shí)施例的在本文中所描述的 元件是用于執(zhí)行由該元件執(zhí)行的功能W便執(zhí)行本發(fā)明的裝置的示例。
[0137] 可W采用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可W是計(jì)算機(jī) 可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可W是但不限于電、磁、 光、電磁、紅外、或半導(dǎo)體的系統(tǒng)、裝置或設(shè)備,或者W上各項(xiàng)的任何合適的組合。計(jì)算機(jī)可 讀存儲(chǔ)介質(zhì)的更具體的示例(非窮舉的列表)包括W下:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便 攜式計(jì)算機(jī)盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(ROM)、可擦可編程只讀存儲(chǔ)器 化PROM或閃存)、光纖、便攜式緊湊盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)設(shè)備、磁存儲(chǔ)設(shè)備、或者 W上各項(xiàng)的任何合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可W是包含或存儲(chǔ)程序的 任何有形介質(zhì),該程序可W被指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與其結(jié)合使用。
[0138] 計(jì)算機(jī)可讀信號(hào)介質(zhì)可W包括基帶中的或者作為載波一部分的、其中包含了計(jì)算 機(jī)可讀程序代碼的傳播數(shù)據(jù)信號(hào)。運(yùn)種傳播數(shù)據(jù)信號(hào)可W采用各種形式中的任何形式,包 括但不限于:電磁信號(hào)、光信號(hào)或其任何合適的組合。
[0139] 計(jì)算機(jī)可讀信號(hào)介質(zhì)還可W是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)W外的、可W傳送、傳播或者 傳輸用于由指令執(zhí)行系統(tǒng)、裝置或設(shè)備使用或者與其結(jié)合使用的程序的任何計(jì)算機(jī)可讀介 質(zhì)。
[0140] 計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可W用任何適當(dāng)?shù)慕橘|(zhì)傳送,包括但不限于: 無(wú)線、有線、光纜、RF等等,或者W上各項(xiàng)的任何合適的組合。
[0141] 用于執(zhí)行本申請(qǐng)的各方面的操作的計(jì)算機(jī)程序代碼可-種或多種編程語(yǔ)言 的任何組合來(lái)編寫,編程語(yǔ)言包括:面向?qū)ο蟮木幊陶Z(yǔ)言,諸如化va、Smallta化、C++等;W 及常規(guī)的過(guò)程式編程語(yǔ)言,諸如"C"編程語(yǔ)言或類似的編程語(yǔ)言。程序代碼可W作為獨(dú)立的 軟件包完全地在用戶計(jì)算機(jī)上執(zhí)行、或者部分地在用戶計(jì)算機(jī)上和部分地在遠(yuǎn)程計(jì)算機(jī)上 執(zhí)行或完全地在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在后者的情形中,遠(yuǎn)程計(jì)算機(jī)可W通過(guò)任何 類型的網(wǎng)絡(luò)(包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN))連接到用戶計(jì)算機(jī),或者可W連接到外部計(jì) 算機(jī)(例如,利用互聯(lián)網(wǎng)服務(wù)提供商通過(guò)互聯(lián)網(wǎng))。
[0142] 在本文提供的描述中,闡述了許多具體細(xì)節(jié)。但是,應(yīng)該理解,本發(fā)明的實(shí)施例可 W在沒(méi)有運(yùn)些具體細(xì)節(jié)的情況下實(shí)踐。在其它實(shí)例中,眾所周知的方法、結(jié)構(gòu)和技術(shù)沒(méi)有被 詳細(xì)示出,W免混淆對(duì)本描述的理解。
[0143] 雖然已描述了被認(rèn)為是本發(fā)明的優(yōu)選實(shí)施例的內(nèi)容,但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí) 到,在不脫離本發(fā)明的精神的情況下,可W對(duì)其做出其它和進(jìn)一步的修改,并且意在要求所 有運(yùn)種變化和修改落入本發(fā)明的范圍之內(nèi)。例如,W上給出的任何公式僅僅代表可W使用 的過(guò)程。可W從框圖中添加或刪除功能,并且操作可W在功能塊之間互換。在本發(fā)明的范圍 之內(nèi)可W對(duì)所描述的方法添加或刪除步驟。
【主權(quán)項(xiàng)】
1. 一種在音頻電話會(huì)議混合系統(tǒng)中將多個(gè)當(dāng)前音頻上行傳輸流混合在一起以產(chǎn)生至 少一個(gè)音頻輸出流的方法,所述音頻電話會(huì)議混合系統(tǒng)是混合第一多個(gè)音頻上行傳輸輸入 流以產(chǎn)生用于下行傳輸?shù)街辽僖粋€(gè)會(huì)議參與者的至少一個(gè)音頻下行傳輸輸出流的類型,其 中所述音頻上行傳輸輸入流包含包括被感測(cè)到的音頻的音頻信息以及相關(guān)聯(lián)的控制信息, 其中所述音頻上行傳輸輸入流潛在地包括連續(xù)傳輸(CTX)流和非連續(xù)傳輸(DTX)流,所述方 法包括以下步驟: (a) 確定指示每個(gè)當(dāng)前音頻上行傳輸流的可能重要性的冗長(zhǎng)量度;以及 (b) 當(dāng)所述當(dāng)前音頻上行傳輸流中的至少一個(gè)包括CTX流時(shí),在混合中利用至少一個(gè) CTX流來(lái)產(chǎn)生所述至少一個(gè)音頻輸出流。2. 如權(quán)利要求1所述的方法,還包括在步驟(b)中利用混合中的具有最高冗長(zhǎng)量度的 CTX流來(lái)產(chǎn)生至少一個(gè)當(dāng)前下行傳輸輸出流的步驟。3. 如權(quán)利要求1所述的方法,其中步驟(b)還包括如下步驟: (i)當(dāng)存在其上未檢測(cè)到語(yǔ)音的輔助CTX流時(shí),在時(shí)間上衰減該輔助CTX流。4. 如權(quán)利要求3所述的方法,其中步驟(b)還包括如下步驟: (i i)當(dāng)具有最高冗長(zhǎng)量度的當(dāng)前CTX流未被提供話音長(zhǎng)達(dá)延長(zhǎng)的時(shí)間段時(shí),在時(shí)間上 衰減該當(dāng)前CTX流。5. 如任何在前的權(quán)利要求所述的方法,還包括如下步驟: (c) 當(dāng)音頻輸入流的數(shù)量超過(guò)預(yù)定的限制時(shí),丟棄具有最低冗長(zhǎng)量度的CTX流。6. -種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流的 方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多個(gè)音頻輸入流以由此產(chǎn)生用于發(fā) 送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類型,所述方法包括: 確定所述多個(gè)音頻輸入流包括至少一個(gè)被期望包含多于可忽略量的人類可感知的背 景噪聲的、被稱為"攜帶噪聲的音頻輸入流"的音頻輸入流并且所述攜帶噪聲的音頻輸入流 或所述攜帶噪聲的音頻輸入流中的每一個(gè)是當(dāng)前未檢測(cè)到語(yǔ)音的音頻流;以及 將所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的至少一個(gè)包括在所 述至少一個(gè)音頻輸出流中。7. 如權(quán)利要求6所述的方法,包括: 確定所述多個(gè)音頻輸入流包括多個(gè)攜帶噪聲的音頻輸入流并且所述攜帶噪聲的音頻 輸入流中的每一個(gè)是其中當(dāng)前未檢測(cè)到語(yǔ)音的音頻流; 針對(duì)所述攜帶噪聲的音頻輸入流中的每個(gè)攜帶噪聲的音頻輸入流,確定各自的感知重 要性量度; 基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪聲的音頻 輸入流的子集;以及 將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一個(gè)音頻輸出流中。8. 如權(quán)利要求7所述的方法,包括: 選擇感知重要性量度最高的一個(gè)或多個(gè)攜帶噪聲的音頻輸入流;以及 將所選擇的攜帶噪聲的音頻輸入流包括在所述至少一個(gè)音頻輸出流中。9. 一種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流的 方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多個(gè)音頻輸入流以由此產(chǎn)生用于發(fā) 送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類型,所述方法包括: 確定所述多個(gè)音頻輸入流包括至少一個(gè)被期望包括不多于可忽略量的人類可感知的 背景噪聲的、被稱為"噪聲可忽略的音頻輸入流"的音頻輸入流并且所述噪聲可忽略的音頻 輸入流或所述攜帶噪聲的音頻輸入流中的每一個(gè)是其中當(dāng)前未檢測(cè)到語(yǔ)音的音頻流;以及 將所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中的至少一個(gè)包括 在所述至少一個(gè)音頻輸出流中。10. 如權(quán)利要求9所述的方法,包括:將所有噪聲可忽略的音頻輸入流都包括在所述至 少一個(gè)音頻輸出流中。11. 一種在音頻電話會(huì)議混合系統(tǒng)中基于多個(gè)音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流的 方法,所述音頻電話會(huì)議混合系統(tǒng)是被配置為混合所述多個(gè)音頻輸入流以由此產(chǎn)生用于發(fā) 送到至少一個(gè)電話端點(diǎn)的所述至少一個(gè)音頻輸出流的類型,所述方法包括: 確定所述多個(gè)音頻輸入流包括多于閾值數(shù)量的其中當(dāng)前檢測(cè)到語(yǔ)音的攜帶噪聲的音 頻輸入流; 針對(duì)所述攜帶噪聲的音頻輸入流中的每個(gè)攜帶噪聲的音頻輸入流,確定各自的感知重 要性量度; 基于所述攜帶噪聲的音頻輸入流的各自的感知重要性量度,選擇所述攜帶噪聲的音頻 輸入流的子集;以及 將所述攜帶噪聲的音頻輸入流的所述子集包括在所述至少一個(gè)音頻輸出流中。12. 如權(quán)利要求11所述的方法,包括: 確定所述多個(gè)音頻輸入流還包括其中當(dāng)前檢測(cè)到語(yǔ)音的噪聲可忽略的音頻輸入流;以 及 將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲的音頻輸入流的所述子集一起包括 在所述至少一個(gè)音頻輸出流中。13. 如權(quán)利要求12所述的方法,包括: 確定所述多個(gè)音頻輸入流還包括多個(gè)其中當(dāng)前檢測(cè)到語(yǔ)音的噪聲可忽略的音頻輸入 流;以及 將所述噪聲可忽略的音頻輸入流與所述攜帶噪聲的音頻輸入流的所述子集一起包括 在所述至少一個(gè)音頻輸出流中。14. 如權(quán)利要求7或11或者從屬于權(quán)利要求7或11的任何在前的權(quán)利要求所述的方法, 其中針對(duì)音頻輸入流確定感知重要性量度包括指示該音頻輸入流在當(dāng)前呼叫期間已包括 多少語(yǔ)音的量度。15. 如權(quán)利要求6或11或者從屬于權(quán)利要求6或11的任何在前的權(quán)利要求所述的方法, 其中所述攜帶噪聲的音頻輸入流或所述攜帶噪聲的音頻輸入流中的每一個(gè)是連續(xù)傳輸 (CTX)音頻輸入流。16. 如權(quán)利要求9或12或者從屬于權(quán)利要求9或12的任何在前的權(quán)利要求所述的方法, 其中所述噪聲可忽略的音頻輸入流或所述噪聲可忽略的音頻輸入流中的每一個(gè)是非連續(xù) 傳輸(DTX)音頻輸入流。17. -種用于在電話會(huì)議混合系統(tǒng)中使用的裝置,該裝置被配置為接收多個(gè)音頻輸入 流并基于音頻輸入流產(chǎn)生至少一個(gè)音頻輸出流,該裝置包括被配置為執(zhí)行以下方法中的至 少一個(gè)方法的處理器: 權(quán)利要求1至5中任一項(xiàng)所述的方法; 權(quán)利要求6至8中任一項(xiàng)或者從屬于權(quán)利要求6至8的任何在前的權(quán)利要求所述的方法; 權(quán)利要求9或10中任一項(xiàng)或者從屬于權(quán)利要求9或10的任何在前的權(quán)利要求所述的方 法;以及 權(quán)利要求11至13中任一項(xiàng)或者從屬于權(quán)利要求11至13的任何在前的權(quán)利要求所述的 方法。18.-種攜帶計(jì)算機(jī)可解釋指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可解釋指令當(dāng)被用于 在電話會(huì)議混合系統(tǒng)中使用的裝置的處理器執(zhí)行時(shí),使得該裝置執(zhí)行以下方法中的至少一 個(gè)方法,其中該裝置被配置為接收多個(gè)音頻輸入流并基于音頻輸入流產(chǎn)生至少一個(gè)音頻輸 出流: 權(quán)利要求1至5中任一項(xiàng)所述的方法; 權(quán)利要求6至8中任一項(xiàng)或者從屬于權(quán)利要求6至8的任何在前的權(quán)利要求所述的方法; 權(quán)利要求9或10中任一項(xiàng)或者從屬于權(quán)利要求9或10的任何在前的權(quán)利要求所述的方 法;以及 權(quán)利要求11至13中任一項(xiàng)或者從屬于權(quán)利要求11至13的任何在前的權(quán)利要求所述的 方法。
【文檔編號(hào)】H04M3/56GK106063238SQ201580010640
【公開日】2016年10月26日
【申請(qǐng)日】2015年2月17日
【發(fā)明人】R·J·卡特萊特
【申請(qǐng)人】杜比實(shí)驗(yàn)室特許公司