基于對延遲抖動和對話動態(tài)的監(jiān)視的抖動緩沖器控制的制作方法
【技術(shù)領(lǐng)域】
[0001] 本公開內(nèi)容涉及音頻信號處理。具體地,本公開內(nèi)容涉及對遠程通信的音頻信號 的處理,包括但不限于對電話會議或視頻會議的音頻信號的處理。
【背景技術(shù)】
[0002] 分組網(wǎng)絡(luò)上的語音傳輸會遭遇延遲變化,通常稱為抖動。例如,可以根據(jù)到達間隔 時間(IAT)變化或分組延遲變化(PDV)來測量抖動。可以根據(jù)相鄰分組的接收時間差來測 量IAT變化。例如,可以參照來自數(shù)據(jù)或"錨"分組接收時間的時間間隔來測量rov。在基于 因特網(wǎng)協(xié)議(IP)的網(wǎng)絡(luò)中,固定延遲可以歸因于由于材料和距離導(dǎo)致的算法、處理和傳播 延遲,而可變延遲是由于IP網(wǎng)絡(luò)信息業(yè)務(wù)量的波動、因特網(wǎng)上不同的傳輸路徑等引起的。
[0003] VoIP (網(wǎng)絡(luò)電話)接收機通常依賴"抖動緩沖器"來對抗抖動的負面影響。通過引 入接收音頻數(shù)據(jù)的分組的時刻與再現(xiàn)該分組的時刻之間的附加延遲,抖動緩沖器旨在將到 達分組的不均勻流轉(zhuǎn)換成規(guī)則的分組流,使得延遲變化不會對終端用戶造成可感知的音質(zhì) 下降。語音通信對于延遲非常敏感。例如,根據(jù)ITU推薦G. 114,對于正常的對話,單向延遲 應(yīng)當保持低于150ms,超過400ms被認為不可接受。因此,由抖動緩沖器添加的附加延遲需 要足夠小以避免造成可感知的音質(zhì)下降。不幸的是,當分組由于網(wǎng)絡(luò)延遲而比預(yù)期晚到達 時,小的抖動緩沖器會導(dǎo)致更頻繁的分組丟失。
【發(fā)明內(nèi)容】
[0004] 根據(jù)本文中所描述的一些實現(xiàn),方法可以涉及接收音頻數(shù)據(jù)。音頻數(shù)據(jù)可以包括 在時間間隔期間在實際分組達到時間接收到的音頻分組,該時間間隔可以對應(yīng)于對話分析 片段。對話分析片段可以包括多個談話突峰(talkspurt)。該方法可以涉及分析對話分析 片段的音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)和對話交互性數(shù)據(jù)。網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以提供 中繼音頻數(shù)據(jù)分組的網(wǎng)絡(luò)中的抖動的指示。對話交互性數(shù)據(jù)可以提供由音頻數(shù)據(jù)表示的對 話的參與者之間的交互性的指示。該方法可以涉及根據(jù)網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)和對話交互性數(shù) 據(jù)兩者控制抖動緩沖器大小。
[0005] 分析音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以涉及至少部分地基于實際分組到達 時間確定分組延遲變化(PDV)或到達間隔時間(IAT)變化中的至少之一。確定PDV可以涉 及將預(yù)期分組到達時間與實際分組到達時間進行比較。
[0006] 根據(jù)一些實現(xiàn),分析音頻數(shù)據(jù)可以涉及確定分組延遲時間的百分位范圍。確定 網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以涉及確定對應(yīng)于第一百分位范圍的第一分組延遲時間與第二百分 位范圍的第二分組延遲時間之間的差的分組延遲的百分位間距范圍(inter-percentile range)。在一些示例中,分析音頻數(shù)據(jù)可以涉及根據(jù)分組延遲變化的次序統(tǒng)計確定分組延 遲時間的范圍。分組延遲時間的范圍可以包括最短分組延遲時間、中間分組延遲時間和最 長分組延遲時間。確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以包括確定最大分組延遲時間之一與中間分組 延遲時間之一之間的差。在一些實現(xiàn)中,分析音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以包括 確定延遲尖峰出現(xiàn)概率和/或延遲尖峰強度。
[0007] 在一些示例中,分析音頻數(shù)據(jù)以確定對話交互性數(shù)據(jù)可以涉及確定其間可能僅單 個對話參與者在講話的單向談話時間、其間可能有兩個或更多個對話參與者在講話的雙向 談話時間、以及其間可能沒有對話參與者講話的相互靜默時間。分析音頻數(shù)據(jù)以確定對話 交互性數(shù)據(jù)可以涉及講話者交替率或講話者中斷率中的至少之一。
[0008] -些方法可以涉及接收講話者靜音指示和/或演講指示。確定對話交互性數(shù)據(jù)可 以涉及根據(jù)講話者靜音指示或演講指示中的至少之一來確定對話交互性。
[0009] 在一些實現(xiàn)中,分析音頻數(shù)據(jù)以確定對話交互性數(shù)據(jù)可以涉及確定對話交互性度 量(cn〇。cm例如可以基于啟發(fā)式規(guī)則和/或?qū)υ捪鄬亍?br>[0010] 例如,(ΠΜ可以至少部分地基于啟發(fā)式規(guī)則,啟發(fā)式規(guī)則涉及對講話者交替率的閾 值、其間可能僅單個對話參與者在講話的單向談話時間的閾值、其間可能有兩個或更多個 對話參與者在講話的雙向談話時間的閾值、和/或其間可能沒有對話參與者在講話的相互 靜默時間的閾值的應(yīng)用。
[0011] 在一些實現(xiàn)中,(ΠΜ可以至少部分地基于對話相對熵??梢灾辽俨糠值馗鶕?jù)對話 狀態(tài)的概率來確定對話相對熵。對話狀態(tài)可以包括其間可能僅單個對話參與者在講話的單 向談話時間的概率、其間可能有兩個或更多個對話參與者在講話的雙向談話時間的概率、 以及其間可能沒有對話參與者在講話的相互靜默時間的概率。
[0012] 根據(jù)一些實現(xiàn),確定對話交互性數(shù)據(jù)可以涉及分析僅單個對話參與者的對話活 動。例如,分析單個對話參與者的對話活動可以涉及確定單個對話參與者是否在談話。控 制抖動緩沖器大小可以涉及:當單個對話參與者在談話時,將抖動緩沖器設(shè)置成相對較小 的大小,以及當單個對話參與者沒有談話時,將抖動緩沖器設(shè)置成相對較大的大小。
[0013] 在一些實現(xiàn)中,控制抖動緩沖器大小可以涉及當網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)指示大于網(wǎng)絡(luò) 抖動的閾值量時將抖動緩沖器設(shè)置成相對較大的大小。例如,控制抖動緩沖器大小可以涉 及:當網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)指示大于網(wǎng)絡(luò)抖動的閾值量時或當對話交互性數(shù)據(jù)指示小于第一 對話參與者的對話參與的閾值量時,將第一對話參與者的抖動緩沖器設(shè)置成相對較大的大 小。
[0014] 根據(jù)一些實現(xiàn),控制抖動緩沖器大小可以涉及:當網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)指示小于網(wǎng) 絡(luò)抖動的閾值量時或當對話交互性數(shù)據(jù)指示至少對話交互性的閾值量時,將抖動緩沖器設(shè) 置成相對較小的大小。在一些示例中,控制抖動緩沖器大小可以涉及:當網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù) 指示小于網(wǎng)絡(luò)抖動的閾值量時或當對話交互性數(shù)據(jù)指示至少第一對話參與者的對話參與 的閾值量時,將第一對話參與者的抖動緩沖器設(shè)置成相對較小的大小。在一些示例中,控制 抖動緩沖器大小可以涉及給網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)分配相對較小的權(quán)重以及給對話交互性數(shù) 據(jù)分配相對較大的權(quán)重。
[0015] 根據(jù)一些實現(xiàn),控制抖動緩沖器大小可以涉及根據(jù)至少三個抖動緩沖器控制模式 之一來設(shè)置抖動緩沖器大小。例如,抖動緩沖器控制模式可以包括峰值模式、低丟失模式和 正常模式。在一些這種實現(xiàn)中,每個抖動緩沖器控制模式可以對應(yīng)于抖動緩沖器大小。然 而,在一些示例中,每個抖動緩沖器控制模式可以對應(yīng)于抖動緩沖器大小的范圍。
[0016] 抖動緩沖器控制模式中至少之一可以對應(yīng)于至少指示網(wǎng)絡(luò)抖動的閾值量的網(wǎng)絡(luò) 抖動動態(tài)數(shù)據(jù)以及至少指示對話交互性的閾值量的對話交互性數(shù)據(jù)。抖動緩沖器控制模式 中至少之一可以對應(yīng)于至少指示網(wǎng)絡(luò)抖動的閾值量的網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)以及指示小于對 話交互性的閾值量的對話交互性數(shù)據(jù)。抖動緩沖器控制模式中至少之一可以對應(yīng)于指示小 于網(wǎng)絡(luò)抖動的閾值量的網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)以及至少指示對話交互性的閾值量的對話交互 性數(shù)據(jù)。抖動緩沖器控制模式中至少之一可以對應(yīng)于指示小于網(wǎng)絡(luò)抖動的閾值量的網(wǎng)絡(luò)抖 動動態(tài)數(shù)據(jù)以及指示小于對話交互性的閾值量的對話交互性數(shù)據(jù)。
[0017] 根據(jù)一些實現(xiàn),本文中所公開的這些方法和/或其他方法可以經(jīng)由存儲有軟件的 一個或更多個非暫態(tài)介質(zhì)來實現(xiàn)。軟件可以包括用于控制一個或更多個裝置至少部分地執(zhí) 行這種方法的指令。
[0018] 本公開內(nèi)容的至少一些方面可以經(jīng)由設(shè)備來實現(xiàn)。例如,一個或更多個裝置能夠 至少部分地執(zhí)行本文中所公開的方法。在一些實現(xiàn)中,設(shè)備可以包括接口系統(tǒng)、可以包括抖 動緩沖器的存儲器系統(tǒng)、以及邏輯系統(tǒng)。邏輯系統(tǒng)能夠經(jīng)由接口系統(tǒng)接收音頻數(shù)據(jù)。音頻 數(shù)據(jù)可以包括在可以對應(yīng)于對話分析分段的時間間隔期間在實際分組到達時間接收到的 音頻分組。
[0019] 接口系統(tǒng)可以包括網(wǎng)路接口、邏輯系統(tǒng)與存儲器系統(tǒng)之間的接口、和/或外部裝 置接口。邏輯系統(tǒng)可以包括通用單芯片處理器或多芯片處理器、數(shù)字信號處理器(DSP)、專 用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或其他可編程邏輯器件、分立的門或晶體管 邏輯、或分立的硬件部件中的至少之一。
[0020] 邏輯系統(tǒng)能夠分析對話分析片段的音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)和對話交 互性數(shù)據(jù)。網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以提供對中繼音頻數(shù)據(jù)分組的網(wǎng)絡(luò)中的抖動的指示。對話 交互性數(shù)據(jù)可以提供由音頻數(shù)據(jù)表示的對話的參與者之間的交互性的指示。邏輯系統(tǒng)能夠 根據(jù)網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)和對話交互性數(shù)據(jù)來控制抖動緩沖器大小。時間間隔可以對應(yīng)于包 括多個談話突峰的對話分析片段。
[0021] 在一些實現(xiàn)中,分析音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以涉及通過將預(yù)期分組 到達時間與實際分組到達時間進行比較來確定分組延遲變化(PDV)或到達間隔時間(IAT) 變化中的至少之一。在一些示例中,分析音頻數(shù)據(jù)以確定網(wǎng)絡(luò)抖動動態(tài)數(shù)據(jù)可以涉及確定 延遲尖峰出現(xiàn)概率或延遲尖峰強度中的至少之一。
[0022] 根據(jù)一些實現(xiàn),分析音頻數(shù)據(jù)以確定對話交互性數(shù)據(jù)可以涉及確定其間可能僅單 個對話參與者在講話的單向談話時間、其間可能有兩個或更多個對話參與者在講話的雙向 談話時間、以及其間可能沒有對話參與者在講話的相互靜默時間。分析音頻數(shù)據(jù)以確定對 話交互性數(shù)據(jù)可以涉及基于啟發(fā)式規(guī)則或?qū)υ捪鄬刂兄辽僦粊泶_定對話交互性度量 (CIM) 0
[0023] 在附圖和下面的描述中闡述了本說明書中所描述的主題的一個或更多個實現(xiàn)的 細節(jié)。根據(jù)該描述、附圖和權(quán)利要求,其他特征、方面和優(yōu)點將變得明顯。注意,可能沒有按 比例繪制下面的附圖的相對尺寸。
【附圖說明】
[0024] 圖IA是示意性地示出可以應(yīng)用本申請的實施方式的語音通信系統(tǒng)的示例的圖;
[0025] 圖IB是示意性地示出可以實現(xiàn)本申請的方面的語音通信系統(tǒng)的另一示例的圖;
[0026] 圖2是示出本文所提供的一些抖動緩沖器控制方法的塊的流程圖;
[0027] 圖3提供了兩方對話模式的示例,該兩方對話模式提供了對話狀態(tài)的一些示例;
[0028] 圖4是示出本文所提供的一些抖動緩沖器控制方法的塊的流程圖;
[0029] 圖5是提供能夠?qū)崿F(xiàn)本公開內(nèi)容的各個方面的設(shè)備的部件示例的框圖;以及
[0030] 圖6是提供音頻處理設(shè)備的部件示例的框圖。
[0031] 各個圖中的相似的附圖標記和名稱指示相似的元素。
【具體實施方式】
[0032] 下面的描述針對用于描述本公開內(nèi)容的一些創(chuàng)新方面的某些實現(xiàn),以及可以實現(xiàn) 這些創(chuàng)新方面的上下文的示例。然而,可以以各種不同的方式來應(yīng)用本文中的教示。例如, 盡管就音頻數(shù)據(jù)處理的具體示例描