專利名稱:用于在分組網(wǎng)絡(luò)中檢測(cè)和抑制回聲的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信網(wǎng)絡(luò)領(lǐng)域,更具體地,涉及回聲檢測(cè)和抑制。
背景技術(shù):
由于基于分組的語(yǔ)音技術(shù)已經(jīng)成熟,服務(wù)提供商為了降低操作費(fèi)用已經(jīng)開始實(shí)施 基于分組的語(yǔ)音實(shí)現(xiàn)。在語(yǔ)音呼叫期間,由于語(yǔ)音呼叫遠(yuǎn)端的回聲,呼叫方可能聽到他自己 的語(yǔ)音。在語(yǔ)音呼叫方使用免提通信能力(例如揚(yáng)聲器電話)時(shí),這類回聲出現(xiàn)的可能性 增大。消除這類回聲的最普通的方法是聲學(xué)回聲消除(AEC)。盡管時(shí)分復(fù)用(TDM)網(wǎng)絡(luò)中 很好地利用了聲學(xué)回聲消除,然而,不利的是,當(dāng)前還沒(méi)有公認(rèn)的方式用于在諸如基于互聯(lián) 網(wǎng)協(xié)議的語(yǔ)音(VoIP)網(wǎng)絡(luò)之類的分組網(wǎng)絡(luò)中執(zhí)行聲學(xué)回聲消除。此外,聲學(xué)回聲的問(wèn)題由 于分組網(wǎng)絡(luò)(由于網(wǎng)絡(luò)分組延遲在分組之間的變化很大)以及分組網(wǎng)絡(luò)中的典型分組傳播 等待時(shí)間與TDM網(wǎng)絡(luò)相比顯著增大的事實(shí)而加劇。
發(fā)明內(nèi)容
通過(guò)本發(fā)明的一種用于在分組網(wǎng)絡(luò)中檢測(cè)和抑制回聲的方法和設(shè)備來(lái)解決現(xiàn)有 技術(shù)中的多個(gè)不足。根據(jù)一個(gè)實(shí)施例的方法包括從參考分組流的分組中提取語(yǔ)音編碼參 數(shù);從目標(biāo)分組流的分組中提取語(yǔ)音編碼參數(shù);通過(guò)使用參考分組流的語(yǔ)音編碼參數(shù)和目 標(biāo)分組流的語(yǔ)音編碼參數(shù)來(lái)確定目標(biāo)分組流的語(yǔ)音內(nèi)容是否與參考分組流的語(yǔ)音內(nèi)容相 似;以及基于關(guān)于目標(biāo)分組流的語(yǔ)音內(nèi)容是否與參考分組流的語(yǔ)音內(nèi)容相似的確定,確定 目標(biāo)分組流是否包括參考分組流的回聲。
通過(guò)結(jié)合附圖考慮下列詳細(xì)描述,可以很容易理解本發(fā)明的教導(dǎo),在附圖中圖1示出了通信網(wǎng)絡(luò)的高層框圖,其中在該通信網(wǎng)絡(luò)內(nèi)實(shí)現(xiàn)本發(fā)明的回聲檢測(cè)和 抑制功能;圖2示出了圖1中的語(yǔ)音呼叫的用于為圖1中的語(yǔ)音呼叫的一個(gè)傳輸方向提供回 聲檢測(cè)和抑制的表示;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的用于檢測(cè)和抑制回聲的方法;圖4示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定目標(biāo)語(yǔ)音內(nèi)容與參考語(yǔ)音內(nèi)容之間的 相似性的方法;圖5示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的確定目標(biāo)語(yǔ)音內(nèi)容與參考語(yǔ)音內(nèi)容之間的 相似性的方法;圖6示出了表示目標(biāo)分組流中的語(yǔ)音分組與參考分組流中的語(yǔ)音分組之間的關(guān) 系的高層框圖;圖7示出了用于描述速率模式匹配處理的速率模式匹配示例;圖8示出了通信網(wǎng)絡(luò)的高層框圖,其中在最終用戶終端內(nèi)實(shí)現(xiàn)本發(fā)明的回聲檢測(cè)和抑制功能;圖9示出了通信網(wǎng)絡(luò)的高層框圖,其中在最終用戶終端內(nèi)實(shí)現(xiàn)本發(fā)明的回聲檢測(cè) 和抑制功能;以及圖10示出了適于執(zhí)行這里所描述的功能的通用計(jì)算機(jī)的高層框圖。為了有助于理解,使用相同的附圖標(biāo)記(可能的話)來(lái)指示附圖中共有的相同元
ο
具體實(shí)施例方式本發(fā)明提供了分組網(wǎng)絡(luò)中的回聲檢測(cè)和回聲抑制,在分組網(wǎng)絡(luò)中使用聲碼器分組 在最終用戶終端之間傳送語(yǔ)音內(nèi)容。聲碼器典型地包括編碼器和解碼器,使用從攜帶語(yǔ)音 的分組中提取的語(yǔ)音編碼參數(shù)在分組網(wǎng)絡(luò)上傳送語(yǔ)音內(nèi)容。編碼器將輸入的語(yǔ)音信息分割 成語(yǔ)音段,分析語(yǔ)音段以確定語(yǔ)音編碼參數(shù),將語(yǔ)音編碼參數(shù)量化為比特表示,將比特表示 打包為編碼語(yǔ)音分組,將分組格式化為傳輸幀,并通過(guò)分組網(wǎng)絡(luò)對(duì)傳輸幀進(jìn)行傳輸。解碼器 通過(guò)分組網(wǎng)絡(luò)接收傳輸幀,從傳輸幀中提取分組,取出比特表示,對(duì)比特表示進(jìn)行解量化以 恢復(fù)出語(yǔ)音編碼參數(shù),并根據(jù)語(yǔ)音編碼參數(shù)再合成語(yǔ)音段。利用本發(fā)明,從參考分組流的編碼語(yǔ)音分組中提取出參考分組流的編碼語(yǔ)音分組 中所包括的語(yǔ)音內(nèi)容的語(yǔ)音編碼參數(shù),從目標(biāo)分組流的編碼語(yǔ)音分組中提取出目標(biāo)分組流 的編碼語(yǔ)音分組中所包括的語(yǔ)音內(nèi)容的語(yǔ)音編碼參數(shù),對(duì)提取的語(yǔ)音編碼參數(shù)進(jìn)行處理以 識(shí)別參考分組流的語(yǔ)音內(nèi)容與目標(biāo)分組流的語(yǔ)音內(nèi)容之間的相似性,并基于對(duì)目標(biāo)分組流 的語(yǔ)音內(nèi)容與參考分組流的語(yǔ)音內(nèi)容之間的相似性的識(shí)別來(lái)確定是否檢測(cè)到回聲。利用本 發(fā)明,可以將與目標(biāo)分組流相關(guān)聯(lián)的回聲路徑延遲(表示參考分組流與目標(biāo)分組流之間的 時(shí)間上的偏移)自動(dòng)確定為回聲檢測(cè)過(guò)程的副產(chǎn)物。圖1示出了通信網(wǎng)絡(luò)的高層框圖。具體而言,圖1中的通信網(wǎng)絡(luò)100包括分組網(wǎng) 絡(luò)102,分組網(wǎng)絡(luò)102有利于使用最終用戶終端103a的最終用戶A與使用最終用戶終端103z 的最終用戶Z之間的通信(最終用戶終端103a和最終用戶終端103z統(tǒng)稱為最終用戶終端 103)。具體地,分組網(wǎng)絡(luò)102支持最終用戶A與最終用戶Z之間的語(yǔ)音呼叫。分組網(wǎng)絡(luò)102 通過(guò)將語(yǔ)音內(nèi)容編碼為編碼語(yǔ)音分組并在分組網(wǎng)絡(luò)102上傳輸編碼語(yǔ)音分組來(lái)傳送語(yǔ)音 內(nèi)容(從最終用戶A到最終用戶Z,以及從最終用戶Z到最終用戶A)。如圖1所示,語(yǔ)音呼 叫穿過(guò)聲學(xué)回聲處理模塊(AEPM) 120,AEPM 120適于檢測(cè)并抑制/消除語(yǔ)音呼叫中的聲學(xué) 回聲。如圖1所示,最終用戶終端103包括用于支持分組網(wǎng)絡(luò)上的語(yǔ)音通信的組件,例 如,音頻輸入/輸出設(shè)備(例如,麥克風(fēng)、揚(yáng)聲器等)、分組網(wǎng)絡(luò)接口(例如,包括發(fā)射機(jī)/接 收機(jī)能力、聲碼器能力等等)等。具體而言,最終用戶終端103A包括音頻輸入設(shè)備104A、網(wǎng) 絡(luò)接口 105a以及音頻輸出設(shè)備106A,最終用戶終端103z包括音頻輸入設(shè)備104z、網(wǎng)絡(luò)接口 105z以及音頻輸出設(shè)備106z。最終用戶終端103的組件可以是獨(dú)立的物理設(shè)備,或者可以 合并到一個(gè)或多個(gè)物理設(shè)備中。例如,最終用戶終端103可以包括具有語(yǔ)音能力的計(jì)算機(jī)、 VoIP電話等等、及其各種組合。在語(yǔ)音呼叫中,例如圖1所示的語(yǔ)音呼叫,最終用戶終端的語(yǔ)音輸入設(shè)備可以拾 取下列兩種話音(1)本地最終用戶的話音;以及(2)接收自遠(yuǎn)程最終用戶的、在本地最終用戶的語(yǔ)音輸出設(shè)備上播放的話音。例如,在本地最終用戶正在使用揚(yáng)聲器電話的情況下, 本地最終用戶設(shè)備的麥克風(fēng)不僅可以拾取本地最終用戶的話音,還可以拾取從揚(yáng)聲器電話 發(fā)出的遠(yuǎn)程最終用戶的話音。本地最終用戶的語(yǔ)音輸入設(shè)備所接收到的遠(yuǎn)程最終用戶的話 音可以是來(lái)自揚(yáng)聲器電話的話音直接耦合到麥克風(fēng),和/或可以是當(dāng)來(lái)自遠(yuǎn)程最終用戶的 話音在本地最終用戶位置處產(chǎn)生回聲時(shí)的來(lái)自揚(yáng)聲器電話的話音間接耦合到麥克風(fēng)。就圖1而言,從最終用戶A傳播到最終用戶Z的語(yǔ)音內(nèi)容在最終用戶Z的位置處 產(chǎn)生回聲,并且通過(guò)最終用戶ζ的最終用戶終端來(lái)拾取來(lái)自最終用戶A的作為回聲的語(yǔ)音 內(nèi)容,因此從最終用戶Z傳播到最終用戶A的語(yǔ)音內(nèi)容可以是最終用戶Z的話音與最終用 戶A的話音的回聲的組合。類似地,從最終用戶Z傳播到最終用戶A的語(yǔ)音內(nèi)容在最終用 戶A的位置處產(chǎn)生回聲,并且通過(guò)最終用戶A的最終用戶終端來(lái)拾取來(lái)自最終用戶Z的作 為回聲的語(yǔ)音內(nèi)容,因此從最終用戶A傳播到最終用戶Z的語(yǔ)音內(nèi)容可以是最終用戶A的 話音與最終用戶Z的話音的回聲的組合。換言之,可以在雙向通信信道的兩個(gè)方向都引入 回聲。對(duì)于在最終用戶設(shè)備1034處引入的回聲,最終用戶設(shè)備103A拾取最終用戶A的話 音,可選地拾取語(yǔ)音輸出設(shè)備106A所播放的最終用戶Z的話音(表示為回聲耦合)。該話 音由語(yǔ)音輸入設(shè)備104A拾取,并提供給網(wǎng)絡(luò)接口 105a,網(wǎng)絡(luò)接口 105A對(duì)該話音進(jìn)行處理,以 確定語(yǔ)音編碼參數(shù),并對(duì)所確定的語(yǔ)音編碼參數(shù)進(jìn)行分組化以形成語(yǔ)音分組流112。最終用 戶設(shè)備103a將語(yǔ)音分組流112傳播到AEPM 120。AEPM 120對(duì)語(yǔ)音分組流112進(jìn)行處理, 以檢測(cè)并抑制最終用戶Z的所有話音,由此防止最終用戶Z聽到任何回聲。AEPM 120將語(yǔ) 音分組流112’(可以是,或者可以不是語(yǔ)音分組流112的修改版本,這取決于是否檢測(cè)到回 聲)傳播到最終用戶設(shè)備103z。語(yǔ)音分組流112’由網(wǎng)絡(luò)接口 10、接收,網(wǎng)絡(luò)接口 10、對(duì) 語(yǔ)音分組流112’進(jìn)行解分組化,并對(duì)編碼語(yǔ)音參數(shù)進(jìn)行處理以恢復(fù)最終用戶A的話音,并 將所恢復(fù)的最終用戶A的話音提供給語(yǔ)音輸出設(shè)備106z,語(yǔ)音輸出設(shè)備106z為最終用戶Z 播放最終用戶A的話音。對(duì)于在最終用戶設(shè)備1032處引入的回聲,最終用戶設(shè)備103z拾取最終用戶Z的話 音,可選地拾取語(yǔ)音輸出設(shè)備106z所播放的最終用戶A的話音(表示為回聲耦合)。該話 音由語(yǔ)音輸入設(shè)備104z拾取,并提供給網(wǎng)絡(luò)接口 105z,網(wǎng)絡(luò)接口 105z對(duì)該話音進(jìn)行處理,以 確定語(yǔ)音編碼參數(shù),并對(duì)所確定的語(yǔ)音編碼參數(shù)進(jìn)行分組化以形成語(yǔ)音分組流114。最終用 戶設(shè)備103z將語(yǔ)音分組流114傳播到AEPM 120。AEPM 120對(duì)語(yǔ)音分組流114進(jìn)行處理, 以檢測(cè)并抑制最終用戶Z的所有話音,由此防止最終用戶A聽到任何回聲。AEPM 120將語(yǔ) 音分組流114’(可以是,或者可以不是語(yǔ)音分組流114的修改版本,這取決于是否檢測(cè)到回 聲)傳播到最終用戶設(shè)備103a。語(yǔ)音分組流114’由網(wǎng)絡(luò)接口 1054接收,網(wǎng)絡(luò)接口 1054對(duì) 語(yǔ)音分組流114’進(jìn)行解分組化,并對(duì)編碼語(yǔ)音參數(shù)進(jìn)行處理以恢復(fù)最終用戶Z的話音,并 將所恢復(fù)的最終用戶Z的話音提供給語(yǔ)音輸出設(shè)備106A,語(yǔ)音輸出設(shè)備106a為最終用戶A 播放最終用戶Z的話音。因此,如圖1所示,語(yǔ)音呼叫的兩個(gè)方向都穿過(guò)部署在分組網(wǎng)絡(luò)102內(nèi)的AEPM 120。AEPM 120適于檢測(cè)在最終用戶A與最終用戶Z之間傳播的語(yǔ)音內(nèi)容中的回聲,以及在 檢測(cè)到回聲的情況下,抑制或消除檢測(cè)到的回聲,以使得接收該語(yǔ)音內(nèi)容的最終用戶聽不 到回聲。AEPM 120通過(guò)從參考分組流的編碼語(yǔ)音分組和目標(biāo)分組流的編碼語(yǔ)音分組中提取語(yǔ)音編碼參數(shù)、并利用確定目標(biāo)分組流所傳送的語(yǔ)音內(nèi)容是否與參考分組流所傳送的語(yǔ)音 內(nèi)容相似的方式對(duì)所提取的語(yǔ)音編碼參數(shù)進(jìn)行處理,來(lái)檢測(cè)回聲。參考圖2-圖6,可以更好 地理解AEPM120在從目標(biāo)分組流和參考分組流所傳送的編碼語(yǔ)音分組中提取語(yǔ)音編碼參 數(shù)、并使用所提取的語(yǔ)音編碼參數(shù)來(lái)檢測(cè)并抑制回聲中的操作。圖2示出了圖1中的語(yǔ)音呼叫的用于為圖1中的語(yǔ)音呼叫的一個(gè)傳輸方向提供回 聲檢測(cè)和抑制(用于檢測(cè)并抑制在最終用戶終端103z處引入的回聲)的表示。最終用戶 終端103A將編碼語(yǔ)音分組流(表示為參考分組流202)傳播到AEPM 120。AEPM 120維持 對(duì)于最近接收到的參考分組流202的編碼語(yǔ)音分組的緩沖,并繼續(xù)將參考分組流202的語(yǔ) 音分組傳播到最終用戶終端103z。最終用戶終端103z將語(yǔ)音分組流(表示為目標(biāo)分組流 204)傳播到AEPM 120。AEPM 120維持對(duì)于最近接收到的目標(biāo)分組流204的編碼語(yǔ)音分組 的緩沖。AEPM 120對(duì)所緩沖的目標(biāo)分組和所緩沖的參考分組進(jìn)行處理,以確定目標(biāo)分組流 204的語(yǔ)音分組所傳送的語(yǔ)音內(nèi)容是否包括參考分組流202的語(yǔ)音分組所傳送的語(yǔ)音內(nèi)容 的回聲。AEPM 120將目標(biāo)分組流204,提供給最終用戶終端103A。如果目標(biāo)分組流204的 編碼語(yǔ)音分組所傳播的語(yǔ)音內(nèi)容沒(méi)有被確定為包括參考分組流202的編碼語(yǔ)音分組所傳 送的語(yǔ)音內(nèi)容,那么AEPM 120繼續(xù)將目標(biāo)分組流204的編碼語(yǔ)音分組傳播到最終用戶終端 103a(即,沒(méi)有用抑制回聲的方式來(lái)適配目標(biāo)分組流204的編碼語(yǔ)音分組)。如果目標(biāo)分組 流204的編碼語(yǔ)音分組所傳送的語(yǔ)音內(nèi)容被確定為包括參考分組流202的編碼語(yǔ)音分組所 傳送的語(yǔ)音內(nèi)容的回聲,那么AEPM 120利用抑制回聲的方式來(lái)對(duì)包括參考分組流202的編 碼語(yǔ)音分組所傳送的語(yǔ)音內(nèi)容的回聲在內(nèi)的目標(biāo)分組流204的編碼語(yǔ)音分組進(jìn)行適配,并 將適配的目標(biāo)分組流204’的編碼語(yǔ)音分組傳播到最終用戶終端103a。如這里所描述的,圖2示出了圖1中的語(yǔ)音呼叫的用于針對(duì)一個(gè)傳輸方向提供回 聲檢測(cè)和抑制的表示,即,針對(duì)在最終用戶終端1032處引入的、朝向最終用戶終端103A傳播 的回聲。因此,針對(duì)另一傳輸方向的回聲檢測(cè)和抑制(即,針對(duì)在最終用戶終端103A處引 入的、朝向最終用戶終端103z傳播的回聲),可以使用參考分組流202作為目標(biāo)分組流,以 及可以使用目標(biāo)分組流204作為參考分組流。因此,由于在語(yǔ)音呼叫的兩個(gè)傳輸方向上都 可以引入回聲,為了描述本發(fā)明的回聲檢測(cè)和抑制,忽略參考分組流202中可能存在的任 何回聲分量。圖3示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。具體而言,圖3中的方法300包括 如下方法檢測(cè)目標(biāo)分組流的語(yǔ)音內(nèi)容中的參考分組流的語(yǔ)音內(nèi)容的回聲,如果檢測(cè)到,則 從目標(biāo)分組流的語(yǔ)音內(nèi)容中抑制回聲。盡管所描述的是順序執(zhí)行,然而,圖3中的方法300 中的至少一部分步驟可以同時(shí)執(zhí)行,或者以不同于關(guān)于圖3所描述的次序來(lái)執(zhí)行。方法300 在步驟302開始,并前進(jìn)到步驟304。在步驟304,確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相 似性。目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性是通過(guò)下列步驟 確定的從目標(biāo)語(yǔ)音分組中提取語(yǔ)音編碼參數(shù),從參考語(yǔ)音分組中提取語(yǔ)音編碼參數(shù);以 及對(duì)所提取的語(yǔ)音編碼參數(shù)進(jìn)行處理,以確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分 組的語(yǔ)音內(nèi)容相似。圖4示出了一種使用從目標(biāo)語(yǔ)音分組和參考語(yǔ)音分組提取的語(yǔ)音編碼 參數(shù)來(lái)確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性的方法。
7
在步驟306,確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否包括參考語(yǔ)音分組的語(yǔ)音內(nèi)容的 回聲。關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否包括參考語(yǔ)音分組的語(yǔ)音內(nèi)容的回聲確定是利用 關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容相似的確定來(lái)進(jìn)行的。如果 目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容不包括參考語(yǔ)音分組的語(yǔ)音內(nèi)容的回聲,則方法300返回至步驟 304(即,當(dāng)前目標(biāo)語(yǔ)音分組不適用)。如果目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容確實(shí)包括參考語(yǔ)音分 組的語(yǔ)音內(nèi)容的回聲,則方法300前進(jìn)到步驟308。 在步驟308,給目標(biāo)語(yǔ)音分組應(yīng)用回聲抑制。將目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容適配為抑 制或消除檢測(cè)到的回聲??梢岳萌我庖种苹蛳鶛z測(cè)的回聲的方式來(lái)對(duì)目標(biāo)語(yǔ)音分組 的語(yǔ)音內(nèi)容進(jìn)行適配。在一個(gè)實(shí)施例中,目標(biāo)分組的語(yǔ)音內(nèi)容可以通過(guò)減小目標(biāo)語(yǔ)音分組 的語(yǔ)音內(nèi)容的增益來(lái)適配。在一個(gè)實(shí)施例中,可以用替代分組來(lái)代替目標(biāo)語(yǔ)音分組。替代 分組可以是噪聲分組(例如,包括諸如白噪聲、舒適噪聲等之類的特定類型噪聲的分組)、 靜默分組(例如,空閑噪聲)等、及其各種組合。如圖3所示,方法300從步驟308前進(jìn)到步驟310。在步驟310,確定語(yǔ)音呼叫是 否是激活的。如果語(yǔ)音呼叫仍然是激活的,則方法300返回步驟304( S卩,回聲檢測(cè)和抑制 處理繼續(xù),以便從呼叫的語(yǔ)音內(nèi)容中檢測(cè)并抑制回聲)。如果語(yǔ)音呼叫不是激活的,則方法 300前進(jìn)到步驟312,方法300在步驟312結(jié)束。因此,方法300在語(yǔ)音呼叫的持續(xù)時(shí)間內(nèi) 重復(fù)。盡管所描述的是在應(yīng)用回聲抑制之后執(zhí)行方法300,然后方法300可以響應(yīng)于語(yǔ)音呼 叫不再激活而在方法300中的任意點(diǎn)結(jié)束。圖4示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。具體而言,圖4中的方法400包括 一種用于確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性的方法。 盡管所描述的是順序執(zhí)行,然而,圖4中的方法400中的至少一部分步驟可以同時(shí)執(zhí)行,或 者以不同于關(guān)于圖4所描述的次序執(zhí)行。方法400在步驟402開始,并前進(jìn)到步驟404。在步驟404,從目標(biāo)語(yǔ)音分組中提取語(yǔ)音編碼參數(shù)。在一個(gè)實(shí)施例中,從N個(gè)最近 目標(biāo)語(yǔ)音分組(即,N是與目標(biāo)分組流相關(guān)聯(lián)的目標(biāo)窗的大小)的每一個(gè)中提取出語(yǔ)音編碼 參數(shù)。在一個(gè)實(shí)施例中,從K+N個(gè)最近參考語(yǔ)音分組的每一個(gè)中提取出語(yǔ)音編碼參數(shù)???以利用任意從語(yǔ)音分組中提取語(yǔ)音編碼參數(shù)的方式從語(yǔ)音分組中提取語(yǔ)音編碼參數(shù)。從目 標(biāo)語(yǔ)音分組和參考語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù)可以包括任意語(yǔ)音編碼參數(shù),例如頻率 參數(shù)、音量參數(shù)、等等。如這里所描述的,從語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù)可以基于許多因素而變化, 例如,用于對(duì)語(yǔ)音內(nèi)容進(jìn)行編碼/解碼的編解碼器類型、用于傳送語(yǔ)音內(nèi)容的傳輸技術(shù)等 因素、及其各種組合。例如,從語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù)可以因本發(fā)明所應(yīng)用的不同 編碼類型而不同,例如碼激勵(lì)線性預(yù)測(cè)(CELP)編碼、原型基音預(yù)測(cè)(PPP)編碼、噪聲激勵(lì)線 性預(yù)測(cè)(NELP)編碼等。例如,針對(duì)基于CELP的編碼,語(yǔ)音編碼參數(shù)可以包括線譜對(duì)(LSP)、固定碼本增益 (FCG)、自適應(yīng)碼本增益(ACG)、編碼速率等中的一個(gè)或多個(gè)、及其各種組合。例如,針對(duì)基于 PPP的編碼,語(yǔ)音編碼參數(shù)可以包括LSP、幅度參數(shù)等。例如,針對(duì)基于NELP的編碼,語(yǔ)音編 碼參數(shù)可以包括LSP、能量VQ等。此外,可以使用其他語(yǔ)音編碼參數(shù)(例如,基音延遲、固定 碼本形狀(例如固定碼本自身)等、及其各種組合)。例如,基于CELP的編碼的一個(gè)形式是增強(qiáng)的可變速率編碼(EVRC),EVRC是在碼分多址(CDMA)網(wǎng)絡(luò)中使用的基于CELP的編碼器的特定實(shí)現(xiàn)。例如,在CDMA網(wǎng)絡(luò)和其他網(wǎng)絡(luò) 中使用EVRC的增強(qiáng)版本,即EVRC-B。在EVRC-B語(yǔ)音編碼中,可以針對(duì)不同壓縮類型(例 如,PPP或NELP)使用語(yǔ)音編碼參數(shù)(即,除了典型的基于CELP的語(yǔ)音編碼參數(shù)之外),例 如幅度、全局對(duì)齊、以及針對(duì)PPP幀的邊帶對(duì)齊。例如,針對(duì)全球移動(dòng)通信系統(tǒng)(GSM)使用 自適應(yīng)多速率(AMR)壓縮,AMR壓縮使用代數(shù)CELP(ACELP)。此外,例如,可以從編碼語(yǔ)音分 組中提取TeleType (TTY)的終端數(shù)據(jù)。在步驟407(可選步驟)中,可以執(zhí)行預(yù)處理。在一個(gè)實(shí)施例中,可以針對(duì)所提取 的語(yǔ)音編碼參數(shù)中的一些或全部執(zhí)行預(yù)處理。例如,可以對(duì)從目標(biāo)語(yǔ)音分組和參考語(yǔ)音分 組中提取的原始語(yǔ)音編碼參數(shù)進(jìn)行處理以平滑所提取的語(yǔ)音編碼參數(shù),以用于確定目標(biāo)語(yǔ) 音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性。在一個(gè)實(shí)施例中,可以基于 從相應(yīng)的目標(biāo)語(yǔ)音分組和參考語(yǔ)音分組中提取的關(guān)聯(lián)語(yǔ)音編碼參數(shù)來(lái)對(duì)目標(biāo)語(yǔ)音分組和/ 或參考語(yǔ)音分組的一些或全部執(zhí)行預(yù)處理。在一個(gè)實(shí)施中,可以基于對(duì)從相應(yīng)的語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù)中的一些或 全部的預(yù)處理,來(lái)對(duì)在確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音內(nèi)容之間是否具有相似 性中利用的一個(gè)或多個(gè)閾值進(jìn)行自動(dòng)調(diào)整。在一個(gè)實(shí)施例中,例如,可以確定每一目標(biāo)窗的 平均音量(即,利用從目標(biāo)窗中的每一個(gè)目標(biāo)分組中所提取的音量信息),并將其用于調(diào)整 一個(gè)或多個(gè)閾值。在一個(gè)這樣的實(shí)施例中,可以使用每一目標(biāo)窗的平均音量來(lái)自動(dòng)調(diào)整為 了確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音內(nèi)容之間的相似性而使用的閾值(例如,如 圖5所示的那樣來(lái)自動(dòng)調(diào)整LSP相似性閾值)。在步驟408,利用從目標(biāo)語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù)和參考語(yǔ)音分組中提取 的語(yǔ)音編碼參數(shù)來(lái)確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似 性。在一個(gè)實(shí)施例中,相似性確定是二進(jìn)制確定(例如,檢測(cè)到相似性或沒(méi)有檢測(cè)到相似 性)。在這個(gè)實(shí)施例中,例如,可以基于相似性確定的結(jié)果來(lái)針對(duì)每一個(gè)目標(biāo)分組設(shè)置相似 性指示符(例如,相似性=是,或者相似性=否)。在一個(gè)實(shí)施例中,相似性確定可以是關(guān)于 目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性的水平。在這個(gè)實(shí)施例 中,例如,語(yǔ)音內(nèi)容相似性可以利用特定的值范圍來(lái)表示(例如,0-10的范圍,其中0表示目 標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間沒(méi)有相似性,而10表示目標(biāo)語(yǔ)音 分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的完美匹配)。在一個(gè)實(shí)施例中,關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容是否 相似的確定可以僅僅利用頻率信息(或者至少主要利用頻率信息,并結(jié)合可以用于評(píng)估利 用頻率信息所確定的結(jié)果的有效性的其他語(yǔ)音特性信息)來(lái)執(zhí)行。在一個(gè)這樣的實(shí)施例 中,例如,關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容相似的確定可以 僅僅利用LSP (例如,針對(duì)利用基于CELP的編碼來(lái)進(jìn)行編碼的語(yǔ)音分組)來(lái)執(zhí)行。圖5示 出了一種用于使用LSP來(lái)確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容 相似的方法。在一個(gè)實(shí)施例中,關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容 相似的確定可以利用速率模式匹配結(jié)合LSP比較來(lái)執(zhí)行。在一個(gè)這樣的實(shí)施例中,可以使 用速率模式匹配來(lái)確定利用LSP比較所進(jìn)行的相似性確定的有效性??梢詤⒖紙D7來(lái)更好 地理解速率模式匹配在確定相似性確定的有效性中的使用。
在一個(gè)實(shí)施例中,關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容 相似的確定可以利用速率/類型匹配結(jié)合LSP比較來(lái)執(zhí)行。在一個(gè)這樣的實(shí)施例中,速率 /類型匹配可以用于確定利用LSP比較所進(jìn)行的相似性確定的有效性。在另一實(shí)施例中, 關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容相似的確定可以利用速率/ 類型匹配代替LSP比較來(lái)執(zhí)行。在一個(gè)實(shí)施例中,作為預(yù)處理所執(zhí)行的處理中的一些(即,參考圖7所描述的)可 以在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容相似的確定期間執(zhí)行。 例如,在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容是否與參考語(yǔ)音分組的語(yǔ)音內(nèi)容相似的確定期間, 可以使用從目標(biāo)分組和/或參考分組中提取的其他語(yǔ)音編碼參數(shù)(例如,用以忽略語(yǔ)音分 組中所選擇的那些語(yǔ)音分組,以便在目標(biāo)語(yǔ)音分組與參考語(yǔ)音分組之間的比較中不使用那 些語(yǔ)音分組;用以給語(yǔ)音分組中所選擇的那些語(yǔ)音分組分配權(quán)重,以便動(dòng)態(tài)地修改在執(zhí)行 相似性確定中所使用的一個(gè)或多個(gè)閾值,等等;及其各種組合)。在步驟409 (可選步驟),可以執(zhí)行后處理。在一個(gè)實(shí)施例中,可以針對(duì)相似性確定 的結(jié)果執(zhí)行后處理。后處理可以利用從目標(biāo)語(yǔ)音分組和參考語(yǔ)音分組中提取的語(yǔ)音編碼參 數(shù)中的一些或全部來(lái)執(zhí)行。在一個(gè)實(shí)施例中,后處理可以包括評(píng)估相似性確定的結(jié)果。在 一個(gè)這樣的實(shí)施例中,例如,可以采用二進(jìn)制方式來(lái)評(píng)估相似性確定的結(jié)果(例如,采用聲 明結(jié)果有效或無(wú)效的方式,即,聲明結(jié)果正確肯定或錯(cuò)誤肯定的方法)。在一個(gè)實(shí)施例中, 例如,相似性確定的結(jié)果可以采用給相似性確定的結(jié)果分配權(quán)重或重要性的方式來(lái)進(jìn)行評(píng) 估。相似性確定的結(jié)果可以采用各種其他方式來(lái)評(píng)估。在一些這樣的實(shí)施例中,對(duì)于相似性確定結(jié)果的評(píng)估可以基于目標(biāo)語(yǔ)音分組被認(rèn) 為有效/有用的百分比和/或參考語(yǔ)音分組被認(rèn)為有效/有用的百分比。在一個(gè)實(shí)施例 中,用于執(zhí)行相似性確定的語(yǔ)音分組的音量特性可以用于確定相應(yīng)語(yǔ)音分組的有效性/可 用性。例如,在特定百分比的目標(biāo)語(yǔ)音分組具有低于閾值的音量和/或特定百分比的參考 語(yǔ)音分組具有低于閾值的音量的情況下,可以作出相似性確定結(jié)果無(wú)效的確定,或者至少 沒(méi)有較高百分比的語(yǔ)音分組被確定為有效/有用時(shí)的相似性確定那么有用。盡管主要關(guān)于 音量進(jìn)行描述,然而,可以使用各種其他的提取的語(yǔ)音編碼參數(shù)來(lái)評(píng)估相似性確定的結(jié)果。如圖4所示,方法400從步驟408 (可選地,從步驟409)返回步驟404,以重復(fù)方法 400 (即,提取語(yǔ)音編碼參數(shù),并對(duì)語(yǔ)音編碼參數(shù)進(jìn)行處理,以確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容 與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間是否有相似性)。方法400可以按照需要的頻率重復(fù)。例 如,在一個(gè)實(shí)施例中,方法400可以針對(duì)每一個(gè)目標(biāo)語(yǔ)音分組重復(fù)。在一個(gè)這樣的實(shí)施例 中,所緩沖的目標(biāo)分組流中的N個(gè)目標(biāo)語(yǔ)音分組可以操作為滑動(dòng)窗,以便針對(duì)每一個(gè)接收 到的目標(biāo)語(yǔ)音分組,將N個(gè)最近接收到的目標(biāo)語(yǔ)音分組與最近接收到的每個(gè)集合包括K+N 個(gè)參考語(yǔ)音分組的K個(gè)集合進(jìn)行比較,以確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的 語(yǔ)音內(nèi)容的相似性。方法400可以以更高或者更低頻率重復(fù)。圖5示出了根據(jù)本發(fā)明的一個(gè)實(shí)施例的方法。具體而言,圖5中的方法500包括 利用從目標(biāo)語(yǔ)音分組和參考語(yǔ)音分組中提取的頻率信息來(lái)確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容 與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間的相似性的方法。在一個(gè)實(shí)施例中,方法500可以如圖3 的方法300中的步驟304那樣地執(zhí)行。盡管所描述的是順序執(zhí)行,然而,圖5的方法500中 的至少一部分步驟可以同時(shí)執(zhí)行,或者以不同于關(guān)于圖5所述的次序執(zhí)行。方法500在步驟502開始,并前進(jìn)到步驟504。 在步驟504,從目標(biāo)分組流中的包括N個(gè)目標(biāo)分組的集合中的目標(biāo)分組中提取線
個(gè)實(shí)施例中,從包括N個(gè)目標(biāo)分組的集合中的N個(gè)目標(biāo)分組的每一
性譜對(duì)(LSP)值。在 個(gè)中提取包括M個(gè)LSP值的集合。
在
N是與目標(biāo)分組流相關(guān)聯(lián)的目標(biāo)窗的大/J
個(gè)實(shí)施例中,包括N個(gè)目標(biāo)分組的集合是連續(xù)的目標(biāo)分組。在這個(gè)實(shí)施例中,
N的值可以設(shè)置為任意值。在-
如,M可以設(shè)置在5-10個(gè)目標(biāo)分組的范圍內(nèi)(盡管N的值可以更大或更/J 例中,N的值可以動(dòng)態(tài)適配(例如,動(dòng)態(tài)增大或減小)。
-個(gè)實(shí)施例中,例 )。在一個(gè)實(shí)施
個(gè)實(shí)施例中,從N個(gè)目標(biāo)分組的每-
卜目標(biāo)分組中提取M個(gè)LSP值。在-
-個(gè)目標(biāo)分組的值。在-
個(gè)目標(biāo)分組10個(gè)LSP值(盡管,可以從每-
卜實(shí)施例中,例如,M可以設(shè)
-個(gè)目標(biāo)分組中提取出更少或更多在
實(shí)施例中,M的值可以設(shè)置為針對(duì)每 置為針對(duì)每 LSP 值)。在一個(gè)實(shí)施例中,從N個(gè)目標(biāo)分組中提取的LSP值的集合可以表示為二維矩陣。 該二維矩陣的尺寸是基于M和N設(shè)定的,其中M是從每一個(gè)目標(biāo)分組中提取的LSP值的數(shù) 目,N是從中提取LSP的連續(xù)目標(biāo)分組的數(shù)目(即,N是與目標(biāo)分組流相關(guān)聯(lián)的滑動(dòng)窗的大 小)。針對(duì)從N個(gè)目標(biāo)分組中提取的每個(gè)集合包括M個(gè)LSP值的N個(gè)集合所定義的示例性維矩陣可以表示為 如針對(duì)從N個(gè)連續(xù)目標(biāo)分組中提取的LSP值的集合所定義的二維矩陣所示,1是 LSP值,T指示LSP值是從目標(biāo)分組中提取的,第一下標(biāo)標(biāo)識(shí)從中提取出LSP值的目標(biāo)分組 (在從i到i+N的范圍內(nèi)),以及第二下標(biāo)標(biāo)識(shí)從第一下標(biāo)所標(biāo)識(shí)的目標(biāo)分組中提取出的 LSP值。換言之,《表示針對(duì)目標(biāo)分組i所創(chuàng)建的二維矩陣,并且該二維矩陣中的每一行包 括從與該二維矩陣的該行中的每一個(gè)LSP值相關(guān)聯(lián)的第一下標(biāo)所標(biāo)識(shí)的目標(biāo)分組中提取 出的M個(gè)LSP值。在步驟506,從參考分組流的包括K+N個(gè)參考分組的集合中的參考分組中提取線 性譜對(duì)(LSP)值。在一個(gè)實(shí)施例中,從包括K+N個(gè)參考分組的群中的K+N個(gè)參考分組的每 一個(gè)參考分組中提取包括M個(gè)LSP值的集合。包括K+N個(gè)參考分組的群構(gòu)成參考分組的K個(gè)集合,其中參考分組的K個(gè)集合中 的每一個(gè)集合包括N個(gè)參考分組,由此從參考分組的K個(gè)集合得到LSP值的K個(gè)集合。這 使得能夠利用每個(gè)集合包括N個(gè)參考分組的K個(gè)集合中的每一個(gè)集合來(lái)成對(duì)地評(píng)估包括N 個(gè)目標(biāo)分組的集合。在一個(gè)實(shí)施例中,參考分組的K個(gè)集合的每一個(gè)集合中的N個(gè)參考分 組是連續(xù)的參考分組。如關(guān)于目標(biāo)分組所描述的,N的值可以設(shè)置為任意值,并且在一些實(shí) 施例中,可以動(dòng)態(tài)地適配N的值。在一個(gè)實(shí)施例中,從參考分組的K個(gè)集合的每一個(gè)集合中的N個(gè)參考分組的每一個(gè)參考分組中提取M個(gè)LSP值。在一個(gè)實(shí)施例中,M的值等于與目標(biāo)分組相關(guān)聯(lián)的M的值, 由此使得能夠利用參考分組的K個(gè)集合的每一個(gè)集合中所包括的N個(gè)參考分組的每一個(gè)參 考分組中的LSP值來(lái)成對(duì)地評(píng)估N個(gè)目標(biāo)分組中的每一個(gè)目標(biāo)分組的LSP值。如關(guān)于目標(biāo) 分組所描述的,M的值可以設(shè)置為任意值,并且在一些實(shí)施例中,可以在參考分組之間變化。K的值是一個(gè)可配置的參數(shù),可以表示為參考分組的數(shù)目。K的值表示需要支持的 回聲路徑延遲?;芈暵窂窖舆t(以時(shí)間為單位)應(yīng)具有分組采樣間隔的粒度。例如,針對(duì) EVRC編碼,分組采樣間隔為20ms。因此,在本示例中,其中需要根據(jù)本發(fā)明的聲學(xué)回聲消除 模塊來(lái)檢測(cè)高達(dá)500ms的回聲路徑延遲(例如,在EVRC編碼中),K的值應(yīng)設(shè)置為至少25 個(gè)語(yǔ)音分組(或更大)。在一個(gè)實(shí)施例中,從參考分組的K個(gè)集合中提取的LSP值的KXN個(gè)集合可以表示 為一個(gè)三維矩陣(MXNXK)或者K個(gè)二維矩陣(針對(duì)k的特定值,每一個(gè)為MXN),其中N 是目標(biāo)窗的大小(因而可知參考窗),K是參考分組集合的數(shù)目(其中,1( = 1(_-1(_+1),并 且j G (i-Kmin. . . i-Kmax)。Kmin和Kmax的值可以設(shè)置為任意值(只要值滿足K = Kmax-Kmin+1)。 例如,在K = 25的情況下,Kfflin和K_可以分別設(shè)置為0和24。針對(duì)從參考分組的K個(gè)集 合中提取出的LSP值的K個(gè)集合中的每一個(gè)集合所定義的示例性二維矩陣可以表示為
pReRfiR
j+NA ( j+Nt2 ( j+NtM ’ 如針對(duì)從K個(gè)連續(xù)參考分組中提取出的LSP值的K個(gè)集合所定義的K個(gè)二維矩陣 中的每一個(gè)矩陣所示,1是LSP值,R指示LSP值是從參考分組中提取出的,第一下標(biāo)標(biāo)識(shí)從 中提取出LSP值的參考分組(在從j到j(luò)+N的范圍內(nèi)),以及第二下標(biāo)標(biāo)識(shí)從第一下標(biāo)所標(biāo) 識(shí)的參考分組中提取出的LSP值。換言之,Zf表示針對(duì)參考分組j所創(chuàng)建的二維矩陣,以及 該二維矩陣中的每一行包括從與該二維矩陣的該行中的每一個(gè)LSP值相關(guān)聯(lián)的第一下標(biāo) 所標(biāo)識(shí)的參考分組中提取出的M個(gè)LSP值。參考圖6,可以更好地理解從目標(biāo)分組中提取LSP值(或其他語(yǔ)音編碼參數(shù))、從 參考分組中提取LSP值(或其他語(yǔ)音編碼參數(shù))、以及對(duì)所提取的LSP值的評(píng)估(例如,采 取成對(duì)的方式)。圖6示出了表示目標(biāo)分組流中的語(yǔ)音分組與參考分組流中的語(yǔ)音分組之間的關(guān) 系的高層框圖,以便對(duì)目標(biāo)分組流和參考分組流的處理進(jìn)行說(shuō)明。目標(biāo)分組流包括目標(biāo)語(yǔ) 音分組。目標(biāo)語(yǔ)音分組由AEPM(為了清楚起見省略對(duì)其的說(shuō)明)利用目標(biāo)流緩沖器來(lái)進(jìn)行 緩沖。目標(biāo)流緩沖器存儲(chǔ)至少N個(gè)目標(biāo)分組,其中N是用于評(píng)估目標(biāo)分組(以便根據(jù)目標(biāo) 分組流來(lái)檢測(cè)和抑制回聲)的滑動(dòng)窗的大小。參考分組流包括參考語(yǔ)音分組。參考語(yǔ)音分 組由AEPM利用參考流緩沖器來(lái)進(jìn)行緩沖。參考流緩沖器存儲(chǔ)至少K+N個(gè)參考分組,其中K 是用于與存儲(chǔ)在目標(biāo)緩沖器中的N個(gè)目標(biāo)分組進(jìn)行比較的每個(gè)集合包括N個(gè)參考分組的集 合的數(shù)目。
如圖6所示,目標(biāo)流緩沖器存儲(chǔ)4個(gè)(N)分組(表示為PI、P2、P3和P4),以及參
考流緩沖器存儲(chǔ)11個(gè)(K+N)分組(表示為P1、P2.....P10、P11)。換言之,在本示例中,K
等于7 (可以表示為0到10)針對(duì)當(dāng)前目標(biāo)窗,通過(guò)將參考窗滑動(dòng)K次(S卩,每次一個(gè)分組) 來(lái)執(zhí)行分組比較的K集合。具體而言,針對(duì)第一比較,將目標(biāo)分組P1、P2、P3和P4與相應(yīng)的 參考分組PI、P2、P3和P4進(jìn)行比較,針對(duì)第二比較,將目標(biāo)分組PI、P2、P3和P4與相應(yīng)的 參考分組P2、P3、P4和P5,等等,一直到第K次比較,在第K次比較中,將目標(biāo)分組PI、P2、 P3和P4與相應(yīng)的參考分組P8、P9、P10和P11 (即,參考分組PK_PK+N)進(jìn)行比較。如這里所描述的,分組之間的比較可以包括正在比較的目標(biāo)分組和參考分組中可 用的一種或多種不同類型語(yǔ)音編碼參數(shù)(例如,利用LSP比較、音量比較等、及其組合中的 一個(gè)或多個(gè))。參考圖5,可以更好地理解利用目標(biāo)分組與參考分組之間的這種成對(duì)關(guān)聯(lián)對(duì) 目標(biāo)分組的語(yǔ)音編碼參數(shù)和參考分組的語(yǔ)音編碼參數(shù)的評(píng)估,因此返回參考圖5。在步驟507 (可選步驟),執(zhí)行預(yù)處理。預(yù)處理可以包括任意預(yù)處理(例如,參照?qǐng)D 4的方法400中的步驟407所描述的不同形式的預(yù)處理中的一個(gè)或多個(gè))。例如,可以忽略 所選的目標(biāo)分組和/或參考分組(例如,執(zhí)行速率模式匹配,以便忽略被認(rèn)為不適于比較的 語(yǔ)音分組,例如1/8速率語(yǔ)音分組、具有誤差的語(yǔ)音分組、包括TeleType信息的語(yǔ)音分組、 以及其他被認(rèn)為不適于比較的語(yǔ)音分組),可以給目標(biāo)語(yǔ)音分組和/或參考語(yǔ)音分組中的 不同分組分配不同的權(quán)重,可以動(dòng)態(tài)調(diào)整在執(zhí)行相似性確定中使用的一個(gè)或多個(gè)閾值,可 以搶先給相似性確定的結(jié)果分配權(quán)重,等等,以及上述情況的各種組合。如這里所描述的,在一個(gè)實(shí)施例中,在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音 分組的語(yǔ)音內(nèi)容之間是否具有相似性的確定期間,可以使用速率模式匹配。速率模式匹配處理的結(jié)果可以在多種情形下使用。在一個(gè)實(shí)施例中,速率模式匹 配處理的結(jié)果可以用于減小在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容 之間是否具有相似性的確定期間所執(zhí)行的LSP比較的次數(shù)(即,不適合的目標(biāo)分組和參考 分組對(duì)被忽略,并且不在LSP比較中使用)。在一個(gè)實(shí)施例中,速率模式匹配處理的結(jié)果可 以用于確定相似性確定的結(jié)果是有效還是無(wú)效。速率模式匹配處理的結(jié)果可以用于多種其 他目的。在一個(gè)實(shí)施例中,通過(guò)關(guān)于相應(yīng)分組在確定目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音 分組的語(yǔ)音內(nèi)容之間是否具有相似性中使用的適用性來(lái)對(duì)分組(目標(biāo)和/或參考分組)進(jìn) 行分類,執(zhí)行速率模式匹配處理??梢詫⒎纸M分配為可比較的(即,適用于確定是否具有相 似性)或者不可比較的(即,不適于確定是否具有相似性)。可以利用各種準(zhǔn)則來(lái)對(duì)分組進(jìn)行分類。在一個(gè)實(shí)施例中,可以利用分別從正在被 分類的分組中提取的語(yǔ)音編碼參數(shù)來(lái)對(duì)分組進(jìn)行分類。例如,在一個(gè)實(shí)施例中,可以利用從 分組中提取的分組速率信息來(lái)對(duì)分組進(jìn)行分類。例如,在這樣的一個(gè)實(shí)施例中,將全速率分 組和半速率分組分類為可比較的,而將靜默(1/8速率)分組、誤差分組和TeleType分組分 類為不可比較的。如這里所描述的,可以使用其他準(zhǔn)則來(lái)將目標(biāo)和/或參考分組分類為可 比較的或不可比較的。在一個(gè)實(shí)施例中,其中使用速率模式匹配處理的結(jié)果來(lái)減小在關(guān)于目標(biāo)語(yǔ)音分組 的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi)容之間是否具有相似性的確定期間所執(zhí)行的LSP比 較的次數(shù),僅將可比較的分組用于LSP比較(即,將丟棄或忽略不可比較的分組)。
在一個(gè)實(shí)施例中,其中使用速率模式匹配處理的結(jié)果來(lái)確定相似性確定結(jié)果的有 效性,可以通過(guò)下列操作執(zhí)行速率模式匹配確定被認(rèn)為是匹配的相應(yīng)目標(biāo)分組和參考分 組的數(shù)目;確定被認(rèn)為是可比較的目標(biāo)分組的數(shù)目(相對(duì)于不可比較的);通過(guò)將具有匹配 速率的相應(yīng)目標(biāo)分組和參考分組的數(shù)目除以被認(rèn)為是可比較的目標(biāo)分組的數(shù)目來(lái)確定速 率模式匹配值;以及將速率模式匹配值與速率模式匹配閾值進(jìn)行比較。如果目標(biāo)分組和參 考分組都被認(rèn)為是可比較的,則目標(biāo)分組和參考分組被認(rèn)為是匹配的(如果目標(biāo)分組和參 考分組之一或二者被認(rèn)為是不可比較的,則不存在匹配)。可以參考圖7的示例來(lái)更好地理 解這一過(guò)程.圖7示出了用于描述速率模式匹配處理的速率模式匹配示例。具體而言,示出了 4個(gè)速率模式匹配的示例(標(biāo)注為比較示例710、720、730和740)。如圖7所示,每一個(gè)比 較示例包括4個(gè)目標(biāo)分組(由“T”和分組編號(hào)P1、P2、P3和P4表示,并且包括表示相應(yīng)分 組的分組速率的信息)和4個(gè)參考分組(由“R”和分組編號(hào)P1、P2、P3和P4表示,并且包 括表示相應(yīng)分組的分組速率的信息)的比較。在比較示例710中,目標(biāo)分組P1、P2、P3和P4的速率分別為1、1/2、1/8和1/2,以 及參考分組PI、P2、P3和P4的速率分別為1/2、1、1和1/2。在本示例中,目標(biāo)分組與參考 分組有3個(gè)匹配(P1、P2和P4),并且存在3個(gè)可比較的目標(biāo)分組(P3是不可比較的),因此 速率模式匹配值是3/3 = 100%。由于本示例中的閾值為75%,因此可以認(rèn)為相關(guān)聯(lián)的相 似性確定是有效的(這是因?yàn)樗俾誓J狡ヅ渲禎M足速率模式匹配閾值)。在比較示例720中,目標(biāo)分組P1、P2、P3和P4的速率分別為1、1/2、1/2和1/2,以 及參考分組PI、P2、P3和P4的速率分別為1/2、1、1/8和1/2。在本示例中,目標(biāo)分組與參 考分組有3個(gè)匹配(PI、P2和P4),并且存在4個(gè)可比較的目標(biāo)分組,因此速率模式匹配值 是3/4 = 75%。由于本示例中的閾值為75%,因此可以認(rèn)為相關(guān)聯(lián)的相似性確定是有效的 (這是因?yàn)樗俾誓J狡ヅ渲禎M足速率模式匹配閾值)。在比較示例730中,目標(biāo)分組P1、P2、P3和P4的速率分別為1、1/2、1/8和1/2,以 及參考分組P1、P2、P3和P4的速率分別為1/8、1/2、1和1/2。在本示例中,目標(biāo)分組與參考 分組之間存在2個(gè)匹配(P2和P4),并且存在3個(gè)可比較的目標(biāo)分組(P3是不可比較的), 因此速率模式匹配值是2/3 = 67%。由于本示例中的閾值為75%,因此可以認(rèn)為相關(guān)聯(lián)的 相似性確定是無(wú)效的(這是因?yàn)樗俾誓J狡ヅ渲挡粷M足速率模式匹配閾值)。在比較示例740中,目標(biāo)分組P1、P2、P3和P4的速率分別為1/8、1/2、1/8和1/2, 以及參考分組PI、P2、P3和P4的速率分別為1/8、1/2、1和1/2。在本示例中,目標(biāo)分組與 參考分組之間存在2個(gè)匹配(P2和P4),并且存在2個(gè)可比較的目標(biāo)分組(P1和P3都是不 可比較的),因此速率模式匹配值是2/2 = 100%。由于本示例中的閾值為75%,因此可以 認(rèn)為相關(guān)聯(lián)的相似性確定是有效的(這是因?yàn)樗俾誓J狡ヅ渲禎M足速率模式匹配閾值)。盡管描述了確定速率模式匹配值的特定方式,然而,可以采用多種其他方式來(lái)確 定速率模式匹配值。例如,在一個(gè)實(shí)施例中,可以利用被認(rèn)為是可比較的參考分組的數(shù)目來(lái) 計(jì)算速率模式匹配值(而不是如上所述的利用被認(rèn)為是可比較的目標(biāo)分組的數(shù)目來(lái)計(jì)算 速率模式匹配值)。可以利用其他方式來(lái)計(jì)算速率模式匹配值。盡管主要描述了速率模式匹配閾值為特定值(即,速率模式匹配閾值=75% )的 實(shí)施例,然而,速率模式匹配閾值可以是任意值。此外,在一些實(shí)施例中,速率模式匹配閾值可以是靜態(tài)的,而在其他實(shí)施例中,速率模式匹配閾值可以動(dòng)態(tài)更新(例如,基于所提取的 語(yǔ)音編碼參數(shù)、預(yù)處理結(jié)果等中的一個(gè)或多個(gè)、及其各種組合)。 盡管主要描述了分類為可比較的分組或不可比較的分組,然而,可以利用不同的 分組類別和/或利用其他分組類別來(lái)對(duì)語(yǔ)音分組進(jìn)行分類。盡管主要描述了基于與每一個(gè) 語(yǔ)音分組相關(guān)聯(lián)的特定信息來(lái)進(jìn)行分類,然而,可以基于各種其他準(zhǔn)則和準(zhǔn)則的組合(可 以包括,或者可以不包括從相應(yīng)的語(yǔ)音分組中提取的語(yǔ)音編碼參數(shù))來(lái)對(duì)每一個(gè)語(yǔ)音分組 進(jìn)行分類。 在一個(gè)實(shí)施例中,可以在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音內(nèi) 容之間是否具有相似性的確定期間使用速率/類型匹配。速率/類型匹配處理的結(jié)果可以在多種情形下使用。在一個(gè)實(shí)施例中,速率/類 型匹配處理的結(jié)果可以用于減小在關(guān)于目標(biāo)語(yǔ)音分組的語(yǔ)音內(nèi)容與參考語(yǔ)音分組的語(yǔ)音 內(nèi)容之間是否具有相似性的確定期間所執(zhí)行的LSP比較的次數(shù)(即,不適合的目標(biāo)分組和 參考分組對(duì)被忽略)。在一個(gè)實(shí)施例中,速率/類型匹配處理的結(jié)果可以用于確定相似性確 定的結(jié)果是有效還是無(wú)效。速率/類型匹配處理的結(jié)果可以用于多種其他目的。在一個(gè)實(shí)施例中,通過(guò)對(duì)分組進(jìn)行分類來(lái)執(zhí)行速率/類型匹配,其中,利用分組速 率和分組類型的組合來(lái)對(duì)每一個(gè)分組進(jìn)行分類??梢曰诜纸M的一個(gè)或多個(gè)特性來(lái)分配類 型。例如,在一個(gè)實(shí)施例中,可以基于分組的編碼類型來(lái)分配分組類型。將目標(biāo)窗中的目標(biāo) 分組的分組類別與參考窗中的相應(yīng)參考分組的分組類別進(jìn)行比較。給分組比較的不同的可 能組合分配相應(yīng)的權(quán)重。將與目標(biāo)窗中的目標(biāo)分組與參考窗中的參考分組之間的分組比 較相關(guān)聯(lián)的權(quán)重之和與閾值進(jìn)行比較,以確定關(guān)聯(lián)的相似性確定被認(rèn)為是有效的還是無(wú)效 的。例如,在EVRC-B中,存在不同的分組速率(例如,全、半、四分之一、八分之一)和 不同的分組編碼(例如,CELP、PPP、NELP)。利用分組速率和分組類型的組合,當(dāng)前存在9 種分組類別(例如,全速率、半速率、以及特定的半速率CELP ;全速率、特定的半速率、以及 四分之一速率的PPP ;特定的半速率和四分之一速率的NELP ;以及八分之一速率的靜默), 可以提供81種可能的置換。在這個(gè)EVRC-B示例中,可以給每一個(gè)分組類型比較分配權(quán)重。 例如,給作為全速率CELP的目標(biāo)分組與作為全速率CELP的參考分組的比較分配權(quán)重,給作 為四分之一速率的NELP的目標(biāo)分組與作為特定的半速率PPP的參考分組的比較分配權(quán)重, 等等。通過(guò)下列方式來(lái)對(duì)目標(biāo)分組的目標(biāo)窗與參考分組的參考窗的相似性確定進(jìn)行評(píng)估 將在將目標(biāo)分組與參考分組進(jìn)行比較時(shí)所識(shí)別的比較類型的權(quán)重求和,并將權(quán)重之和與閾 值進(jìn)行比較。由于本EVRC-B示例導(dǎo)致至少9種不同的分組類別,為了清楚地描述速率/類型匹 配,假設(shè)存在三種分組類別,表示為A、B和C。在這個(gè)簡(jiǎn)化的示例中,目標(biāo)分組與參考分組 之間存在9種可能的分組比較組合,即,A-A (0)、A-B (1)、A-C (2)、B-A(l)、B-B (0)、B-C (3)、 C-A(2)、C-B(3)和C-C(O),其中每一種都被分配了關(guān)聯(lián)權(quán)重(在緊跟在比較類型之后的括 號(hào)中列出)。在本示例中,假定閾值是2,以使得在權(quán)重之和小于或等于2時(shí),相似性確定是 有效的,而在權(quán)重之和大于2時(shí),相似性確定是無(wú)效的。結(jié)合本示例,假定存在目標(biāo)窗與參考窗的第一比較。目標(biāo)窗是(B、A、C、A),參考窗 是(A、B、C、A),這使得分組比較(B-A、A-B、C-C、A-A)的關(guān)聯(lián)權(quán)重為(1、1、0、0)。在本示例中,權(quán)重之和為2,這等于閾值。因此,在本示例中,確定相似性確定是有效的。繼續(xù)本示例,假定存在目標(biāo)窗與參考窗的第二比較。目標(biāo)窗是(C、B、C、A),參考窗 是(A、B、C、A),這使得分組比較(C-A、B-B、C-C、A-A)的關(guān)聯(lián)權(quán)重為(2、0、0、0)。在本示例 中,權(quán)重之和為2,這等于閾值。因此,在本示例中,確定相似性確定是有效的。繼續(xù)本示例,假定存在目標(biāo)窗與參考窗的第三比較。目標(biāo)窗是(A、C、C、A),參考窗 是(A、B、C、A),這使得分組比較(A-A、C-B、C-C、A-A)的關(guān)聯(lián)權(quán)重為(0、3、0、0)。在本示例 中,權(quán)重之和為3,這大于閾值。因此,在本示例中,確定相似性確定是無(wú)效的。盡管主要描述了權(quán)重均勻的示例(例如,A-B的權(quán)重為1,以及B-A的權(quán)重為1),然 而,在其他實(shí)施例中可以使用不均勻的權(quán)重(例如,A-B的權(quán)重為1,以及B-A的權(quán)重為3)。 盡管關(guān)于權(quán)重之和低于閾值指示相似性確定為有效的實(shí)施例進(jìn)行描述,然而,在其他實(shí)施 例中,可以給分組比較分配權(quán)重,以使得權(quán)重之和高于閾值指示相似性確定是有效的。盡管 描述了權(quán)重和閾值的特定值,然而,可以使用權(quán)重和閾值的各種其他值(包括靜態(tài)閾值和/ 或動(dòng)態(tài)閾值)。盡管主要描述了使用速率/類型匹配結(jié)合LSP比較來(lái)確定目標(biāo)分組的語(yǔ)音內(nèi)容與 參考分組中的語(yǔ)音分組之間是否具有相似性(例如,用于確定利用LSP比較所進(jìn)行的相似 性確定是有效的還是無(wú)效的),然而,在一個(gè)實(shí)施例中,也可以使用速率/類型匹配代替LSP 比較來(lái)確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組中的語(yǔ)音分組之間是否具有相似性。在本實(shí)施 例中,權(quán)重之和與閾值的比較用于確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組中的語(yǔ)音分組之間 是否具有相似性(而并非如上所述的用于確定利用LSP比較所進(jìn)行的相似性確定的有效 性)。在步驟508,產(chǎn)生距離向量(表示為五f)。距離向量五f包括K個(gè)距離值,這K個(gè)距 離值被計(jì)算為從N個(gè)目標(biāo)分組中提取的LSP值與從在窗口 i-Kmin. . . i-K_期間接收到的每 個(gè)集合包括N個(gè)參考分組的K個(gè)集合中提取的LSP值的K個(gè)集合中的每一個(gè)集合之間的距 離。具體而言,將與以目標(biāo)分組i開始的N個(gè)目標(biāo)分組的窗相對(duì)應(yīng)的距離向量爲(wèi)『定義為如
下的K個(gè)距離值的向量(其中K = Kmax-Kmin+1) Ef,, ,<■ _,其中每一個(gè)
距離值< (Kmin彡k彡Kmax)如下定義為在步驟510,識(shí)別距離向量Ef的最小距離值心(針對(duì)el € E!的min[ e{k ], V KmlnSk玄Kmax)。在步驟512,將最小距離值min[<t]與閾值(表示為L(zhǎng)SP相似性閾 值eth)進(jìn)行比較,以確定該最小距離值minte^]是否滿足LSP相似性閾值eth。該比較可以 如下執(zhí)行min [ejj < ^或陽(yáng)切> 。在一個(gè)實(shí)施例中,LSP相似性閾值eth是預(yù)定閾值。在一個(gè)實(shí)施例中,LSP相似性 閾值eth是動(dòng)態(tài)可調(diào)的。在一個(gè)實(shí)施例中,LSP相似性閾值eth可以基于提取的語(yǔ)音編碼參 數(shù)而動(dòng)態(tài)適配。例如,在一個(gè)這樣的實(shí)施例中,LSP相似性閾值eth可以是對(duì)所提取的語(yǔ)音 編碼參數(shù)的動(dòng)態(tài)適配處理(例如,所提取的語(yǔ)音編碼參數(shù)可以在預(yù)處理器期間、在LSP相似 性確定處理期間等、及其各種組合期間處理)。
例如,在一個(gè)實(shí)施例中,LSP相似性閾值eth可以基于從目標(biāo)分組和/或參考分組 提取的音量信息而動(dòng)態(tài)適配。例如,在一個(gè)這樣的實(shí)施例中,當(dāng)目標(biāo)分組的語(yǔ)音內(nèi)容的音量 較低(例如,低于閾值)時(shí),LSP相似性閾值eth可以增大(這是因?yàn)椋绻繕?biāo)分組的語(yǔ)音 內(nèi)容的音量較低,編碼后的語(yǔ)音可能由于量化/編碼效應(yīng)而失真)。盡管主要關(guān)于基于語(yǔ)音 內(nèi)容的音量來(lái)適配LSP相似性閾值eth進(jìn)行描述,然而,LSP相似性閾值eth可以基于各種其 他參數(shù)來(lái)適配(即,增大或減小)。如這里所描述的,將距離向量< 的最小距離值與LSP相似性閾值eth進(jìn)行比較, 以確定是否針對(duì)當(dāng)前目標(biāo)分組(即,目標(biāo)分組i)檢測(cè)到了相似性。如果minCeJJ〉^*,則針 對(duì)當(dāng)前目標(biāo)分組沒(méi)有檢測(cè)到相似性(如步驟514所示),并且方法500從步驟514返回步驟 504,以針對(duì)下一個(gè)當(dāng)前目標(biāo)分組(即,i = i+i)而重新執(zhí)行方法500。如果mir^gjjce決, 則針對(duì)當(dāng)前目標(biāo)分組檢測(cè)到相似性(如步驟516所示),則方法500從步驟516返回步驟 504,以針對(duì)下一個(gè)當(dāng)前目標(biāo)分組(即,i = i+1)而重新執(zhí)行方法500。盡管主要描述了對(duì)從目標(biāo)分組和參考分組集合中提取的LSP值的矩陣的維持,然 而,可以利用能夠?qū)λ崛〉腖SP值進(jìn)行評(píng)估的任意方式來(lái)維持所提取的LSP值。盡管主 要描述了產(chǎn)生包括K個(gè)距離值在內(nèi)的距離向量7■,然而,可以在不利用向量維持K個(gè)距離值 的情況下,計(jì)算分別與LSP值的K個(gè)集合相關(guān)聯(lián)的K個(gè)距離值(例如,可以將K個(gè)距離值簡(jiǎn) 單地存儲(chǔ)在存儲(chǔ)器中用于對(duì)K個(gè)距離值進(jìn)行處理,以確定是否識(shí)別出相似性)。盡管這里主要描述了在其中將最小距離值(即,唯一一個(gè)距離值)與LSP相似性 閾值進(jìn)行比較以確定是否識(shí)別出相似性的實(shí)施例,然而,在其他實(shí)施例中,可以將多個(gè)距離 值與LSP相似性閾值進(jìn)行比較,以確定是否識(shí)別出相似性。例如,在一個(gè)這樣的實(shí)施例中, 為了識(shí)別出相似性,特定數(shù)目的距離值可以低于LSP相似性閾值(即,為了識(shí)別出相似性, 距離值的閾值數(shù)目必須小于LSP相似性閾值)。盡管這里主要描述了其中在執(zhí)行與LSP相似性閾值的比較之前計(jì)算距離向量中 的所有距離值的實(shí)施例,然而,在一個(gè)實(shí)施例中,在計(jì)算距離值時(shí),可以將距離向量中的每 一個(gè)距離值與LSP相似性閾值進(jìn)行比較。在一個(gè)這樣的實(shí)施例中,其中為了識(shí)別出相似性而需要唯一一個(gè)距離值小于LSP 相似性閾值,可以響應(yīng)于距離值之一小于LSP相似性閾值的確定(S卩,不是計(jì)算距離向量中 的剩余距離值)來(lái)識(shí)別相似性。例如,在K = 25的情況下,在檢測(cè)到小于LSP相似性閾值 的第一個(gè)距離值(這可以在計(jì)算從1到25個(gè)距離值中的任意距離值之后確定)時(shí),認(rèn)為已 經(jīng)識(shí)別出相似性。在另一個(gè)這樣的實(shí)施例中,其中為了識(shí)別出相似性而需要多個(gè)距離值小于LSP相 似性閾值(例如,閾值數(shù)目個(gè)距離值必須小于LSP相似性閾值),可以響應(yīng)于關(guān)于閾值數(shù)目 個(gè)距離值小于LSP相似性閾值的確定(即,不是計(jì)算距離向量中的剩余距離值)來(lái)識(shí)別相 似性。例如,在K = 25,以及為了識(shí)別相似性,25個(gè)距離值中的至少10個(gè)必須小于LSP相 似性閾值的情況下,在檢測(cè)到小于LSP相似性閾值的第十個(gè)距離值(這可以在計(jì)算從10到 25個(gè)距離值中的任意距離值之后確定)時(shí),認(rèn)為已經(jīng)識(shí)別出相似性。盡管主要描述了利用所提取的LSP值計(jì)算距離值的實(shí)施例,然而,在其他實(shí)施例 中,可以利用加權(quán)的LSP值來(lái)計(jì)算距離值。
例如,在一個(gè)實(shí)施例中,在計(jì)算距離值之前,可以給從每一個(gè)目標(biāo)分組和每一個(gè)參 考分組中提取的M個(gè)LSP值中的每一個(gè)分配權(quán)重,并根據(jù)所分配的權(quán)重來(lái)調(diào)整LSP值。例如,在另一個(gè)實(shí)施例中,針對(duì)每一個(gè)語(yǔ)音分組,可以基于語(yǔ)音分組的一個(gè)或多個(gè) 其他特性給從語(yǔ)音分組中提取的LSP值的和分配權(quán)重。例如,可以基于分組類型(例如,半 速率、全速率等等)、分組類別(例如,可比較的和/不可比較的,以及其他類別)、置信度 (例如,可以與所提取的語(yǔ)音編碼參數(shù)(例如,音量、速率等)、一個(gè)或多個(gè)順序?qū)С龅亩攘?等等中的一個(gè)或多個(gè)及其各種組合成比例)中的一個(gè)或多個(gè)來(lái)給從語(yǔ)音分組中提取的LSP 值的和分配權(quán)重。盡管主要描述了距離值是Euclidean距離值的實(shí)施例,然而,在其他實(shí)施例中,可 以使用其他類型的距離值來(lái)確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音內(nèi)容之間是否具 有相似性。例如,可以使用諸如線性距離值、立方距離值等之類的其他類型的距離值來(lái)確定 目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音內(nèi)容之間是否具有相似性。此外,盡管主要描述了使用距離值來(lái)確定目標(biāo)分組的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音 內(nèi)容之間是否具有相似性的實(shí)施例,然而,可以利用其它類型的比較來(lái)執(zhí)行關(guān)于目標(biāo)分組 的語(yǔ)音內(nèi)容與參考分組的語(yǔ)音內(nèi)容之間是否具有相似性的確定。如圖5所示,在一個(gè)實(shí)施例中,可以執(zhí)行可選的后處理。后處理可以包括任意優(yōu)化 啟發(fā)。在一個(gè)實(shí)施例中,后處理可以在進(jìn)行關(guān)于識(shí)別相似性的最終確定之前執(zhí)行。在一個(gè) 這樣的實(shí)施例中,后處理是利用確定所識(shí)別的相似性是有效或是無(wú)效的方式來(lái)執(zhí)行的。換 言之,后處理可以采用試圖消除錯(cuò)誤肯定來(lái)執(zhí)行(即,以便消除對(duì)于目標(biāo)分組的語(yǔ)音內(nèi)容 與參考分組的語(yǔ)音內(nèi)容之間的相似性的錯(cuò)誤識(shí)別)。如圖5所示,在執(zhí)行后處理的實(shí)施例中,如果在步驟512識(shí)別相似性,方法500從 步驟512前進(jìn)到步驟515 (并不是直接前進(jìn)到步驟516).在步驟515A,執(zhí)行可以包括一個(gè)或 多個(gè)優(yōu)化啟發(fā)的后處理,以評(píng)估對(duì)所識(shí)別的相似性的有效性(即,以確定在步驟512識(shí)別的 相似性是否是錯(cuò)誤肯定)。在步驟515B,確定所識(shí)別的相似性是否有效。關(guān)于所識(shí)別的相 似性是否有效的確定是基于后處理進(jìn)行的。如果所識(shí)別的相似性不是有效的(即,確定所識(shí)別的相似性是錯(cuò)誤肯定),那么針 對(duì)當(dāng)前目標(biāo)分組沒(méi)有識(shí)別相似性(即,方法500前進(jìn)到步驟514),并且方法500從步驟514 返回步驟504,以針對(duì)下一個(gè)當(dāng)前目標(biāo)分組(即,i = i+1)而重新執(zhí)行方法500。如果所識(shí) 別的相似性是有效的(即,確定所識(shí)別的相似性不是錯(cuò)誤肯定),針對(duì)當(dāng)前目標(biāo)分組識(shí)別相 似性(即,方法500前進(jìn)到步驟516),并且方法500從步驟516返回步驟504,以針對(duì)下一 個(gè)當(dāng)前目標(biāo)分組(即,i = i+1)而重新執(zhí)行方法500。后處理可以采用任意評(píng)估所識(shí)別的相似性是否有效的方法來(lái)執(zhí)行。在一個(gè)實(shí)施例 中,后處理可以利用從目標(biāo)分組和參考分組中提取的LSP值來(lái)執(zhí)行。在一個(gè)實(shí)施例中,后處 理可以利用從目標(biāo)分組和/或參考分組(例如,速率信息、編碼類型信息、音量/功率信息、 增益信息等及其各種組合)所提取的其他語(yǔ)音編碼參數(shù)來(lái)執(zhí)行??梢噪S時(shí)(例如,在提取 LSP值時(shí)、在利用所提取的LSP值識(shí)別相似性之后等等)從目標(biāo)分組和參考分組中提取其他 語(yǔ)音編碼參數(shù)。在一個(gè)實(shí)施例中,可以如圖4的方法400中的步驟409所示意地執(zhí)行后處 理。在一個(gè)實(shí)施例中,在識(shí)別目標(biāo)分組流的語(yǔ)音內(nèi)容與參考分組流的語(yǔ)音內(nèi)容之間的
18相似性時(shí),可以評(píng)估所識(shí)別的相似性的有效性??梢岳枚喾N不同的方式來(lái)執(zhí)行對(duì)于所識(shí) 別的相似性的有效性的評(píng)估。如這里所描述的,對(duì)于所識(shí)別的相似性的有效性的評(píng)估可以 利用對(duì)于目標(biāo)語(yǔ)音分組和參考語(yǔ)音分組、速率模式匹配、速率/類型匹配等、及其各種組合 的評(píng)估來(lái)執(zhí)行。在一個(gè)實(shí)施例中,對(duì)于所識(shí)別的相似性的有效性的評(píng)估可以利用目標(biāo)分組的語(yǔ)音 內(nèi)容的音量特性與參考分組的語(yǔ)音內(nèi)容的音量特性的比較來(lái)執(zhí)行。對(duì)于所識(shí)別的相似性的 有效性的評(píng)估可以利用音量特性的比較結(jié)合或代替其他評(píng)估所識(shí)別的相似性的有效性的 方法來(lái)執(zhí)行。在一個(gè)這樣的實(shí)施例中,從每一個(gè)目標(biāo)分組中提取音量信息,以及從每一個(gè)參考 分組中提取音量信息,以及對(duì)所提取的音量信息進(jìn)行評(píng)估。所提取的音量信息可以采取成 對(duì)方式來(lái)評(píng)估(即,采用與參照?qǐng)D5所示的成對(duì)LSP比較相似的方式)。音量信息可以采取 任意方式、在過(guò)程中的任意點(diǎn)提取。例如,可以如同提取LSP信息一樣地提取音量信息,或 者可以僅在識(shí)別相似性之后提取音量信息(例如,以防止在不需要執(zhí)行音量比較的情況下 提取音量信息)。在一個(gè)實(shí)施例中,執(zhí)行K次音量比較,即,針對(duì)N個(gè)目標(biāo)分組之一與每個(gè)集合包括 N個(gè)參考分組的K個(gè)集合之一的每一個(gè)組合執(zhí)行一次音量比較。在本實(shí)施例中,針對(duì)N個(gè) 目標(biāo)分組之一與每個(gè)集合包括N個(gè)參考分組的K個(gè)集合之一的每一個(gè)組合,計(jì)算音量比較 值,由此產(chǎn)生包括K個(gè)音量比較值的集合(或向量)。在一個(gè)實(shí)施例中,將K個(gè)音量比較值 中的每一個(gè)與音量閾值vTH進(jìn)行比較。如果音量比較值滿足vTH,則認(rèn)為針對(duì)N個(gè)目標(biāo)分組 與每個(gè)集合包括N個(gè)參考分組的K個(gè)集合中的關(guān)聯(lián)集合的組合的關(guān)聯(lián)LSP比較是有效的; 以及如果音量比較值不滿足vTH,則認(rèn)為針對(duì)N個(gè)目標(biāo)分組與每個(gè)集合包括N個(gè)參考分組的 K個(gè)集合中的關(guān)聯(lián)集合的組合的關(guān)聯(lián)LSP比較是無(wú)效的。在一個(gè)實(shí)施例中,將K個(gè)音量比較值計(jì)算為從N個(gè)目標(biāo)分組中提取的音量值與 在窗i-Kmin. . . i-K_-N期間接收到的每個(gè)集合包括N個(gè)參考分組的K個(gè)集合中提取的K 個(gè)音量值集合中的每一個(gè)集合中提取的音量值之間的比值。在一個(gè)實(shí)施例中,K個(gè)音量 比較值形成音量比較向量(表示為V/)。在本實(shí)施例中,將對(duì)應(yīng)于以目標(biāo)分量i開始的N 個(gè)目標(biāo)分組的窗的音量比較向量V/如下定義為K(其中K = Kfflax-Kfflin+1)個(gè)音量比較值的 向量-[v^.v^,<4_。在一個(gè)實(shí)施例中,如下計(jì)算音量比較值》^ (其中 K .彡k彡K ) 盡管主要就使用速率模式匹配、速率/類型匹配、和/或音量比較技術(shù)來(lái)確定所識(shí) 別的相似性是否有效來(lái)進(jìn)行描述,然而,可以使用從目標(biāo)語(yǔ)音分組和/或參考語(yǔ)音分組提 取的各種其他語(yǔ)音編碼參數(shù)來(lái)確定所識(shí)別的相似性是否有效。例如,F(xiàn)CB增益信息、ACB增 益信息、基音信息等中的一個(gè)或多個(gè)、及其各種組合,可以用于確定所識(shí)別的相似性是否有 效。如圖5所示,如果針對(duì)當(dāng)前目標(biāo)分組識(shí)別出相似性(如步驟516所示),則自動(dòng)將 回聲尾識(shí)別為相似性確定的副產(chǎn)物。將回聲路徑延遲計(jì)算為DELAY = k * f,其中k是與最小距離值相關(guān)聯(lián)的k的值(S卩,在圖5的方法500中的步驟510處所識(shí)別的mill [efj ), f是根據(jù)所使用的編碼類型而變化的采樣間隔(例如,針對(duì)EVRC編碼為20ms)。因此,利用 本發(fā)明,可以將回聲路徑延遲確定為關(guān)于目標(biāo)分組流的目標(biāo)分組所傳送的語(yǔ)音內(nèi)容與參考 分組流的參考分組所傳送的語(yǔ)音內(nèi)容之間是否具有相似性的確定的副產(chǎn)物。如這里所描述的,在確定目標(biāo)分組的語(yǔ)音內(nèi)容是否包括參考分組的語(yǔ)音內(nèi)容的回 聲中,可以利用或者可以不利用滯后現(xiàn)象。在不利用滯后現(xiàn)象的實(shí)施例中,基于針對(duì)當(dāng)前目 標(biāo)分組所執(zhí)行的處理來(lái)識(shí)別相似性被認(rèn)為是對(duì)目標(biāo)分組流的語(yǔ)音內(nèi)容中的參考分組流的 語(yǔ)音內(nèi)容的回聲的識(shí)別。在利用滯后現(xiàn)象的實(shí)施例中,基于針對(duì)當(dāng)前目標(biāo)分組所執(zhí)行的處 理來(lái)識(shí)別相似性可以被認(rèn)為是對(duì)目標(biāo)分組流的語(yǔ)音內(nèi)容中的參考分組流的語(yǔ)音內(nèi)容的回 聲的識(shí)別,也可以被認(rèn)為不是(即,確定將取決于一個(gè)或多個(gè)滯后現(xiàn)象的條件)。在一個(gè)實(shí)施例中,滯后現(xiàn)象在本發(fā)明的回聲檢測(cè)中的應(yīng)用可能需要在確定是否檢 測(cè)到回聲之前,針對(duì)h個(gè)連續(xù)目標(biāo)分組識(shí)別相似性(即,識(shí)別相似性的方法500的h次連續(xù) 執(zhí)行)。在一個(gè)實(shí)施例中,只要在連續(xù)目標(biāo)分組中繼續(xù)識(shí)別相似性(例如,針對(duì)多于h個(gè)連 續(xù)目標(biāo)分組中的每一個(gè)目標(biāo)分組),目標(biāo)分組的語(yǔ)音內(nèi)容可以被認(rèn)為包括參考分組的語(yǔ)音 內(nèi)容的回聲。在一個(gè)實(shí)施例中,目標(biāo)分組的語(yǔ)音內(nèi)容可以被認(rèn)為包括參考分組的語(yǔ)音內(nèi)容 的回聲,直到處理完h個(gè)連續(xù)目標(biāo)分組而沒(méi)有識(shí)別出相似性為止。換言之,在h= 1的情況 下,識(shí)別單個(gè)相似性被認(rèn)為是檢測(cè)到回聲(即,h = 1是無(wú)滯后現(xiàn)象的實(shí)施例)。 在一個(gè)實(shí)施例中,可以利用與每一個(gè)目標(biāo)分組流相關(guān)聯(lián)的狀態(tài)來(lái)管理滯后現(xiàn)象確 定。在一個(gè)這樣的實(shí)施例中,每一個(gè)目標(biāo)分組流可以一直處于下列兩種狀態(tài)之一無(wú)回聲狀 態(tài)(即,認(rèn)為沒(méi)有檢測(cè)到回聲的狀態(tài));以及回聲狀態(tài)(即,認(rèn)為已檢測(cè)到回聲的狀態(tài))。如 果目標(biāo)分組流處于無(wú)回聲狀態(tài),則目標(biāo)分組流在針對(duì)h個(gè)連續(xù)分組識(shí)別出相似性之前保持 在無(wú)回聲狀態(tài),在針對(duì)h個(gè)連續(xù)分組識(shí)別出相似性時(shí),將目標(biāo)分組流切換到回聲狀態(tài)。如果 目標(biāo)分組流處于回聲狀態(tài),則目標(biāo)分組流在已經(jīng)處理完h個(gè)(或者某個(gè)其他數(shù)目)的連續(xù) 目標(biāo)分組而沒(méi)有識(shí)別出相似性之前保持在回聲狀態(tài),在已經(jīng)處理完h個(gè)(或者某個(gè)其他數(shù) 目)的連續(xù)目標(biāo)分組而沒(méi)有識(shí)別出相似性時(shí),將目標(biāo)分組流切換到無(wú)回聲狀態(tài)。因此,關(guān)于需要在檢測(cè)到回聲之前針對(duì)h個(gè)連續(xù)目標(biāo)分組識(shí)別出相似性的滯后現(xiàn) 象,在這種情況下方法500依照?qǐng)D3的方法300中的步驟304執(zhí)行,在圖5中的方法500的 h次連續(xù)執(zhí)行導(dǎo)致識(shí)別出相似性之前,需要重復(fù)圖3的方法300中的步驟。換言之,盡管為 了清除起見沒(méi)有進(jìn)行說(shuō)明,然而,方法300中的步驟306可以通過(guò)防止在圖5中的方法500 的h次連續(xù)執(zhí)行導(dǎo)致識(shí)別出相似性之前檢測(cè)到回聲來(lái)實(shí)現(xiàn)滯后現(xiàn)象。此外,在利用滯后檢 測(cè)回聲的情況下,在向目標(biāo)分組應(yīng)用回聲抑制之前,可以響應(yīng)于已檢測(cè)到回聲的首次確定 來(lái)執(zhí)行附加的后處理。附加的后處理(可以操作為排在圖3中的步驟306與步驟308之前 的附加處理步驟)可以是任意類型的后處理,包括與參考圖4中的步驟409和圖5中的步 驟515所描述的后處理類似的后處理,但不局限于此。盡管主要描述了利用分組網(wǎng)絡(luò)內(nèi)部署的聲學(xué)回聲處理模塊(示意性地,利用部署 在圖1的分組網(wǎng)絡(luò)102內(nèi)的AEPM 120)來(lái)提供回聲檢測(cè)和抑制,然而,本發(fā)明的回聲檢測(cè)和 抑制功能可以在最終用戶終端(這里,指的是基于終端的工具)上實(shí)現(xiàn)。參考圖7和8,可 以更好地理解對(duì)于本發(fā)明的基于終端的工具的使用。圖8示出了通信網(wǎng)絡(luò)的高層框圖,在該通信網(wǎng)絡(luò)中,在最終用戶終端內(nèi)實(shí)現(xiàn)本發(fā)明的回聲檢測(cè)和抑制功能。具體而言,圖8中的通信網(wǎng)絡(luò)800包括通過(guò)分組網(wǎng)絡(luò)802進(jìn)行 通信的最終用戶終端803,和最終用戶終端803z。具體地說(shuō),分組網(wǎng)絡(luò)802支持最終用戶終 端803a與最終用戶終端8032之間的基于分組的語(yǔ)音呼叫。如圖8所示,最終用戶終端803a 包括AEPM 813A,最終用戶終端803z包括AEPM 813z。AEPM 813A為終端103A的最終用戶A 提供本發(fā)明的回聲檢測(cè)和抑制功能(以及可選地,可以為終端103z的最終用戶Z提供回聲 檢測(cè)和抑制),以及類似地,AEPM 813z為終端103z的最終用戶Z提供本發(fā)明的回聲檢測(cè)和 抑制功能(以及可選地,可以為終端103a的最終用戶A提供回聲檢測(cè)和抑制)。盡管主要描述了基于分組的語(yǔ)音呼叫的每一個(gè)最終用戶終端803包括AEPM 813 的語(yǔ)音呼叫,然而,在基于分組的語(yǔ)音呼叫中所涉及的最終用戶中的僅有一個(gè)最終用戶正 在使用包括AEPM 813的最終用戶終端803的情況下,也可以提供本發(fā)明的回聲檢測(cè)和抑制 功能。在一個(gè)這樣的實(shí)施例中,當(dāng)最終用戶終端803的AEPM 813支持單向回聲檢測(cè)和抑制, 最終用戶中只有一個(gè)最終用戶會(huì)意識(shí)到本發(fā)明的回聲檢測(cè)和抑制功能的好處(即,與最終 用戶終端803相關(guān)聯(lián)的本地最終用戶很可能包括AEPM 813,盡管可以向遠(yuǎn)程終端用戶提供 回聲檢測(cè)和抑制作為替代)。在另一個(gè)這樣的實(shí)施例中,在最終用戶終端803的AEPM813 支持雙向回聲檢測(cè)和抑制的情況下,最終用戶雙方將認(rèn)識(shí)到本發(fā)明的回聲檢測(cè)和抑制的好 處。圖9示出了通信網(wǎng)絡(luò)的高層框圖,在通信網(wǎng)絡(luò)中,在最終用戶終端內(nèi)實(shí)現(xiàn)本發(fā)明 的回聲檢測(cè)和抑制功能。具體而言,圖9中的通信網(wǎng)絡(luò)900包括通過(guò)分組網(wǎng)絡(luò)902進(jìn)行通 信的最終用戶終端803a和最終用戶終端803z,其中每一個(gè)最終用戶終端803包括用于支持 語(yǔ)音通信的組件。如圖9所示,最終用戶終端803包括用于支持通過(guò)分組網(wǎng)絡(luò)的語(yǔ)音通信 的組件,例如音頻輸入設(shè)備(例如,麥克風(fēng))、音頻輸出設(shè)備(例如,揚(yáng)聲器)以及網(wǎng)絡(luò)接口。具體而言,最終用戶終端803A包括音頻輸入設(shè)備804A、網(wǎng)絡(luò)接口 805A以及音頻輸 出設(shè)備806A,最終用戶終端803z包括音頻輸入設(shè)備804z、網(wǎng)絡(luò)接口 805z以及音頻輸出設(shè)備 806z。音頻輸入設(shè)備804和音頻輸出設(shè)備利用與圖1的最終用戶終端103中的音頻輸入設(shè) 備104和音頻輸出設(shè)備106相似的方式進(jìn)行操作。最終用戶終端803中的組件可以是單獨(dú) 的物理設(shè)備,或者可以組合在一個(gè)或多個(gè)物理設(shè)備中。例如,最終用戶終端803可以包括計(jì) 算機(jī)、VoIP電話等。網(wǎng)絡(luò)接口 805利用與圖1中的網(wǎng)絡(luò)接口 105關(guān)于編碼/解碼能力、分組化能力等 相似的方式進(jìn)行操作;然而,與圖1中的最終用戶終端103不同的是,圖9中的最終用戶終 端803a(以及,可選地為最終用戶終端803z)適于包括支持本發(fā)明的回聲檢測(cè)和抑制/消除 功能的AEPM。網(wǎng)絡(luò)接口 805a包括編碼器811A、網(wǎng)絡(luò)流化傳輸模塊812a、AEPM 813A和解碼 器814a。最終用戶終端803z包括編碼器811z、網(wǎng)絡(luò)流化傳輸模塊812Z、AEPM 813z和解碼器 814z。最終用戶終端803a向最終用戶終端803z提供話音。音頻輸入設(shè)備804A拾取最終 用戶A的話音(為了清楚起見,假設(shè)最終用戶終端803,處沒(méi)有回聲耦合)。音頻輸入設(shè)備 804a將話音提供給編碼器811A,編碼器811a對(duì)話音進(jìn)行編碼。編碼器811a將編碼后的話音 提供給網(wǎng)絡(luò)流化傳輸模塊812a,以通過(guò)分組網(wǎng)絡(luò)802面向最終用戶終端803z對(duì)編碼后的話 音進(jìn)行流化傳輸。編碼器還將編碼后的話音提供給AEPM 813A,以用作檢測(cè)和抑制/消除目 標(biāo)分組流(接收自最終用戶終端803z)中的最終用戶A的話音的回聲的參考分組流。最終用戶終端803z接收來(lái)自最終用戶終端803a的流化傳輸?shù)木幋a后的話音。網(wǎng)絡(luò)流化傳輸模 塊812z接收來(lái)自最終用戶終端803a的流化傳輸?shù)木幋a后的話音。網(wǎng)絡(luò)流化傳輸模塊812z 將編碼后的話音提供給解碼器814a。解碼器814z對(duì)編碼后的話音進(jìn)行解碼,并將解碼后的 最終用戶A的話音提供給音頻輸出設(shè)備806z,音頻輸出設(shè)備806z播放最終用戶A的話音。最終用戶終端803z向最終用戶終端803A提供話音。音頻輸入設(shè)備804z拾取最終 用戶Z的話音。最終用戶A的話音(即,音頻輸出設(shè)備806z所播放的話音)也可以由音頻 輸入設(shè)備804z拾取(S卩,作為回聲)。音頻輸入設(shè)備804z將話音提供給編碼器811z,編碼器 Sllz對(duì)話音進(jìn)行編碼。編碼器Sllz將編碼后的話音提供給網(wǎng)絡(luò)流化傳輸模塊812z,以通過(guò) 分組網(wǎng)絡(luò)802面向最終用戶終端803A對(duì)編碼后的話音進(jìn)行流化傳輸。最終用戶終端803a 接收來(lái)自最終用戶終端803z的流化傳輸?shù)木幋a后的話音。網(wǎng)絡(luò)流化傳輸模塊812a接收來(lái) 自最終用戶終端803z的流化傳輸?shù)木幋a后的話音。網(wǎng)絡(luò)流化傳輸模塊812a將編碼后的話 音提供給AEPM 813a,以用作檢測(cè)和抑制目標(biāo)分組流中的最終用戶A的話音的回聲的目標(biāo)分 組流。AEPM 813A檢測(cè)并抑制/消除任意回聲,并將適配的目標(biāo)分組流提供給解碼器814z。 解碼器81\對(duì)編碼后的話音進(jìn)行解碼,并將解碼后的最終用戶Z的話音提供給音頻輸出設(shè) 備806A,音頻輸出設(shè)備806A播放最終用戶Z的話音。如圖9所示,由于最終用戶終端803A可以使用從最終用戶終端803A發(fā)送到最終 用戶終端803z的語(yǔ)音分組的原始流(表示為參考分組流),并且可以使用從最終用戶終端 803z發(fā)送到最終用戶終端803a的語(yǔ)音分組的返回流(表示為目標(biāo)分組流),因此最終用戶 終端803a能夠應(yīng)用本發(fā)明的回聲檢測(cè)和抑制功能來(lái)檢測(cè)并抑制與最終用戶終端803a相關(guān) 聯(lián)的最終用戶A的回聲。然而,如圖9所示,最終用戶終端通過(guò)以執(zhí)行本發(fā)明的回聲檢測(cè)和 抑制/消除處理的為目的的各種其他方式來(lái)訪問(wèn)參考分組流和目標(biāo)分組流。參照?qǐng)D9,在一個(gè)在最終用戶終端上實(shí)現(xiàn)回聲檢測(cè)和抑制/消除的實(shí)施例中,可以 將本發(fā)明的回聲檢測(cè)和抑制/消除功能應(yīng)用于處于接收中的最終用戶終端上的目標(biāo)分組 流。例如,最終用戶終端803A中的AEPM 8134可以應(yīng)用回聲處理來(lái)防止回聲被包括在從最 終用戶終端803a播出的音頻中(即,在目標(biāo)分組流已經(jīng)從最終用戶終端803z穿過(guò)分組網(wǎng)絡(luò) 802之后應(yīng)用回聲處理)。類似地,例如,最終用戶終端803z中的AEPM 813z可以應(yīng)用回聲 處理來(lái)防止回聲被包括在從最終用戶終端803z播出的音頻中(即,在目標(biāo)分組流已經(jīng)從最 終用戶終端803a穿過(guò)分組網(wǎng)絡(luò)802之后應(yīng)用回聲處理)。參照?qǐng)D9,在一個(gè)在最終用戶終端上實(shí)現(xiàn)回聲檢測(cè)和抑制/消除的實(shí)施例中,可以 對(duì)于處于接收中的最終用戶終端上的目標(biāo)分組流實(shí)現(xiàn)本發(fā)明的回聲檢測(cè)和抑制/消除功 能。例如,最終用戶終端803z中的AEPM 8132可以應(yīng)用回聲處理來(lái)防止回聲被包括在從最 終用戶終端803a播出的音頻中(即,在目標(biāo)分組流已經(jīng)從最終用戶終端803z穿過(guò)分組網(wǎng)絡(luò) 802到達(dá)最終用戶終端803A之后前應(yīng)用回聲處理)。類似地,例如,最終用戶終端803A中的 AEPM 813A可以應(yīng)用回聲處理來(lái)防止回聲被包括在從最終用戶終端803z播出的音頻中(即, 在目標(biāo)分組流已經(jīng)從最終用戶終端803a穿過(guò)分組網(wǎng)絡(luò)802到達(dá)最終用戶終端803z之前應(yīng) 用回聲處理)。此外,盡管主要作為備選實(shí)施例進(jìn)行描述,然而,在一個(gè)實(shí)施例中,最終用戶終端 可以支持兩個(gè)傳輸方向上的回聲檢測(cè)和抑制。在一個(gè)這樣的實(shí)施例中,可以在下列情況下 實(shí)現(xiàn)單個(gè)AEPM = (I)在編碼器與網(wǎng)絡(luò)流化傳輸模塊之間,用于在目標(biāo)分組流穿過(guò)網(wǎng)絡(luò)之前提供發(fā)送方向的回聲檢測(cè)和抑制;以及(2)在網(wǎng)絡(luò)流化傳輸模塊與解碼器之間,用于在目 標(biāo)分組流穿過(guò)網(wǎng)絡(luò)之后提供接收方向的回聲檢測(cè)和抑制。在另一個(gè)實(shí)施例中,最終用戶終 端可以利用分別針對(duì)發(fā)送方向和接收方向的分離的AEPM來(lái)實(shí)現(xiàn)。因此,應(yīng)注意,在兩個(gè)最終用戶終端通過(guò)分組網(wǎng)絡(luò)參與基于分組的語(yǔ)音呼叫的情 況下,兩個(gè)最終用戶終端中只有一個(gè)包括本發(fā)明的回聲檢測(cè)和抑制功能,但是,一個(gè)最終用 戶終端能夠在兩個(gè)傳輸方向上提供回聲檢測(cè)和抑制,因此使用不支持基于分組的回聲檢測(cè) 和抑制的最終用戶仍然可以享受基于分組的回聲檢測(cè)和抑制的好處。盡管主要關(guān)于在雙向語(yǔ)音呼叫中的一個(gè)傳輸方向上提供回聲檢測(cè)和抑制進(jìn)行描 述,然而,可以在雙向語(yǔ)音呼叫中的兩個(gè)傳輸方向上提供根據(jù)本發(fā)明的回聲檢測(cè)和抑制。在 一個(gè)實(shí)施例中,利用基于網(wǎng)絡(luò)的實(shí)現(xiàn),可以在兩個(gè)傳輸方向上提供回聲檢測(cè)和抑制(即,在 兩個(gè)傳輸方向都穿過(guò)基于網(wǎng)絡(luò)的AECM)。在一個(gè)實(shí)施例中,利用基于終端的實(shí)現(xiàn),可以在兩 個(gè)傳輸方向上提供回聲檢測(cè)和抑制(即,兩個(gè)最終用戶終端都包括AECM)。在一個(gè)實(shí)施例 中,利用基于網(wǎng)絡(luò)的實(shí)現(xiàn)與基于終端的實(shí)現(xiàn)的組合,可以在兩個(gè)傳輸方向上提供回聲檢測(cè) 和抑制。例如,在僅有一個(gè)最終用戶終端包括AECM的情況下,可以由最終用戶終端在一個(gè) 傳輸方向上以及由網(wǎng)絡(luò)在另一傳輸方向上(或者由網(wǎng)絡(luò)在兩個(gè)傳輸方向上)提供回聲消除 和抑制。盡管主要關(guān)于兩個(gè)最終用戶之間的基于分組的語(yǔ)音呼叫進(jìn)行描述,然而,本發(fā)明 的回聲檢測(cè)和抑制功能可以用于兩個(gè)以上最終用戶之間的基于分組的語(yǔ)音呼叫之間的回 聲檢測(cè)和抑制。在一個(gè)這樣的實(shí)施例中,為了檢測(cè)并抑制參與基于分組的語(yǔ)音呼叫的最終 用戶的不同組合之間的回聲,可以利用基于網(wǎng)絡(luò)的回聲檢測(cè)和抑制和/或基于終端的回聲 檢測(cè)和抑制。盡管主要關(guān)于一個(gè)語(yǔ)音呼叫進(jìn)行描述,然而,可以針對(duì)網(wǎng)絡(luò)所支持的每一個(gè)語(yǔ)音 呼叫來(lái)執(zhí)行本發(fā)明。針對(duì)基于網(wǎng)絡(luò)的實(shí)現(xiàn),根據(jù)AEPM的設(shè)計(jì),一個(gè)AEPM能夠支持網(wǎng)絡(luò)所能 夠支持的音量,或者備選地,可以在網(wǎng)絡(luò)內(nèi)部署多個(gè)AEPM,以便針對(duì)網(wǎng)路所能夠支持的所有 語(yǔ)音呼叫,都可以支持本發(fā)明的回聲檢測(cè)和抑制功能。針對(duì)基于終端的實(shí)現(xiàn),當(dāng)最終用戶以 包括提供本發(fā)明的回聲檢測(cè)和抑制功能的AEPM的增強(qiáng)的用戶終端來(lái)代替現(xiàn)有的用戶終端 時(shí),對(duì)于本發(fā)明的回聲檢測(cè)和抑制功能的支持的縮放將出現(xiàn)變化。在一個(gè)實(shí)施例中,采用本發(fā)明的回聲檢測(cè)和抑制功能的基于網(wǎng)絡(luò)的實(shí)現(xiàn)與基于終 端的實(shí)現(xiàn)的組合。該組合的實(shí)現(xiàn)可以針對(duì)多種不同的原因?qū)崿F(xiàn),例如,為了在用戶終端從現(xiàn) 有的最終用戶終端(不包括本發(fā)明的AEPM)切換到包括提供本發(fā)明的回聲檢測(cè)和抑制功能 的AEPM的最終用戶終端的轉(zhuǎn)換期間提供回聲檢測(cè)和抑制?;诰W(wǎng)絡(luò)的實(shí)現(xiàn)與基于終端的 實(shí)現(xiàn)之間的平衡可以采用多種不同方式管理。在一個(gè)這樣的實(shí)施例中,例如,基于終端的實(shí)現(xiàn)的估計(jì)可以用于對(duì)基于網(wǎng)絡(luò)的實(shí) 現(xiàn)進(jìn)行縮放(例如,在使用基于網(wǎng)絡(luò)的實(shí)現(xiàn)給不具有支持本發(fā)明的回聲檢測(cè)和抑制能力的 最終用戶終端的最終用戶提供回聲檢測(cè)和抑制的情況下)。換言之,在最終用戶開始從現(xiàn)有 的最終用戶終端(不包括本發(fā)明的AEPM)切換到包括提供本發(fā)明的回聲檢測(cè)和抑制功能的 AEPM的最終用戶終端時(shí),可以將基于網(wǎng)絡(luò)的實(shí)現(xiàn)的范圍相應(yīng)地縮放回去。盡管主要關(guān)于為點(diǎn)到點(diǎn)呼叫的語(yǔ)音內(nèi)容提供回聲檢測(cè)和抑制進(jìn)行描述,然而,可 以使用本發(fā)明的回聲檢測(cè)和抑制功能為多方呼叫(例如,召開語(yǔ)音會(huì)議)的語(yǔ)音內(nèi)容提供回聲檢測(cè)和抑制。盡管主要關(guān)于為語(yǔ)音內(nèi)容提供回聲檢測(cè)和抑制,然而,可以使用本發(fā)明的 回聲檢測(cè)和抑制功能來(lái)給其他類型的音頻內(nèi)容提供回聲檢測(cè)和抑制。類似地,盡管這里主 要關(guān)于為音頻內(nèi)容提供回聲檢測(cè)和抑制,然而,可以使用本發(fā)明的回聲檢測(cè)和抑制功能來(lái) 給其他類型的內(nèi)容(可以包括回聲)提供回聲檢測(cè)和抑制。例如,盡管主要關(guān)于聲學(xué)回聲 的檢測(cè)和抑制進(jìn)行描述,然而,本發(fā)明可以用于檢測(cè)并抑制可以被引入到基于音頻的通信 系統(tǒng)的其他類型的回聲(例如,線性回聲、混合回聲等,以及各種組合)。換言之,本發(fā)明并 不旨在局限于回聲類型或可以引入回聲的內(nèi)容類型。圖10示出了適于執(zhí)行這里所描述的功能的通用計(jì)算機(jī)的高層框圖。如圖10所 描述的,系統(tǒng)1000包括處理器元件1002 (例如,CPU)、存儲(chǔ)器1004 (例如隨機(jī)存取存儲(chǔ)器 (RAM)、和/或只讀存儲(chǔ)器(ROM))、聲學(xué)回聲處理模塊(AEPM) 1005、以及各種輸入/輸出設(shè) 備1006 (例如,包括但不局限于磁帶驅(qū)動(dòng)器、軟盤驅(qū)動(dòng)器、硬盤驅(qū)動(dòng)器或致密盤驅(qū)動(dòng)器的存 儲(chǔ)設(shè)備、接收機(jī)、發(fā)送機(jī)、揚(yáng)聲器、顯示器、輸出端口和用戶輸入設(shè)備(例如,鍵盤、鍵區(qū)、鼠 標(biāo)等))。應(yīng)注意,本發(fā)明可以利用軟件和/或軟件和硬件的組合來(lái)實(shí)現(xiàn),例如,使用專用集 成電路(ASIC)、通用計(jì)算機(jī)或任意其他硬件等同物。在一個(gè)實(shí)施例中,本發(fā)明的AEC處理 1005可以加載到存儲(chǔ)器1004內(nèi),并由處理器1002執(zhí)行用于實(shí)現(xiàn)上述功能。這樣的話,本發(fā) 明的AEC處理1005 (包括關(guān)聯(lián)數(shù)據(jù)結(jié)構(gòu))可以存儲(chǔ)在計(jì)算機(jī)只讀介質(zhì)或載體中,例如RAM 存儲(chǔ)器、磁盤或光盤或磁碟等??梢韵氲?,這里所討論的作為軟件方法的步驟中的一些可以在硬件內(nèi)實(shí)現(xiàn),例如 作為與處理器協(xié)作執(zhí)行各種方法步驟的電路。本發(fā)明的一部分可以實(shí)現(xiàn)為計(jì)算機(jī)程序產(chǎn) 品,其中計(jì)算機(jī)處理的計(jì)算機(jī)指令將計(jì)算機(jī)的操作適配為調(diào)用或以其他方式提供本發(fā)明的 方法和/或計(jì)算。調(diào)用本發(fā)明的指令可以存儲(chǔ)在固定或可移動(dòng)的媒體中、在廣播或其他信 號(hào)承載介質(zhì)中的數(shù)據(jù)流發(fā)送、和/或存儲(chǔ)在根據(jù)指令進(jìn)行操作的計(jì)算設(shè)備內(nèi)的處理設(shè)備 內(nèi)。盡管這里詳細(xì)描述了結(jié)合本發(fā)明教導(dǎo)的各個(gè)實(shí)施例,然而,本領(lǐng)域技術(shù)人員可以 很容易想到仍然結(jié)合這些教導(dǎo)的許多其他變化的實(shí)施例。
權(quán)利要求
一種用于在基于分組的通信網(wǎng)絡(luò)中檢測(cè)回聲的方法,包括從目標(biāo)分組流的目標(biāo)分組中提取語(yǔ)音編碼參數(shù);從參考分組流的參考分組中提取語(yǔ)音編碼參數(shù);通過(guò)對(duì)所述目標(biāo)分組的語(yǔ)音編碼參數(shù)和所述參考分組的語(yǔ)音編碼參數(shù)進(jìn)行處理來(lái)確定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似;以及基于關(guān)于所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似的確定,確定所述目標(biāo)分組流是否包括所述參考分組流的回聲。
2.根據(jù)權(quán)利要求1所述的方法,還包括響應(yīng)對(duì)所述目標(biāo)分組流包括所述參考分組流的回聲的確定,抑制所述目標(biāo)分組流中的回聲。
3.根據(jù)權(quán)利要求1所述的方法,其中,確定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參 考分組流的語(yǔ)音內(nèi)容相似包括(a)從所述目標(biāo)分組流的目標(biāo)分組中與滑動(dòng)窗相關(guān)聯(lián)的連續(xù)目標(biāo)分組的集合中提取 LSP集合;(b)從所述參考分組流的參考分組中的連續(xù)參考分組的K個(gè)集合中提取K個(gè)LSP集合;(c)將來(lái)自所述目標(biāo)分組流的LSP集合與來(lái)自所述參考分組流的K個(gè)LSP集合中的每 一個(gè)集合進(jìn)行比較;以及(d)使用來(lái)自所述目標(biāo)分組流的LSP集合與來(lái)自所述參考分組流的K個(gè)LSP集合中的 每一個(gè)集合的比較,確定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相 似。
4.根據(jù)權(quán)利要求3所述的方法,其中,將來(lái)自所述目標(biāo)分組流的LSP集合與來(lái)自所述參 考分組流的K個(gè)LSP集合中的每一個(gè)集合進(jìn)行比較的步驟(c)包括(cl)選擇來(lái)自所述參考分組流的K個(gè)LSP集合中的一個(gè)集合; (c2)計(jì)算來(lái)自所述目標(biāo)分組流的LSP集合與來(lái)自所述參考分組流的K個(gè)LSP集合中的 所選集合的距離值;(c3)針對(duì)來(lái)自所述參考分組流的K個(gè)LSP集合中的每一個(gè)集合重復(fù)步驟(cl)-(c2); (c4)將所述距離值中的至少一個(gè)與LSP相似性閾值進(jìn)行比較; (c5)響應(yīng)對(duì)所述距離值中的至少一個(gè)滿足所述LSP相似性閾值的確定,識(shí)別所述目標(biāo) 分組流的語(yǔ)音內(nèi)容與所述參考分組流的語(yǔ)音內(nèi)容之間的相似性。
5.根據(jù)權(quán)利要求1所述的方法,其中,關(guān)于所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參 考分組流的語(yǔ)音內(nèi)容相似的確定是利用速率/模式匹配、速率/類型匹配和音量比較中的 至少一個(gè)來(lái)執(zhí)行的。
6.根據(jù)權(quán)利要求5所述的方法,其中,速率/模式匹配包括從所述目標(biāo)分組流的目標(biāo)分組中與滑動(dòng)窗相關(guān)聯(lián)的連續(xù)目標(biāo)分組的集合中提取語(yǔ)音 編碼參數(shù)的集合;從所述參考分組流的參考分組中的連續(xù)參考分組的K個(gè)集合中提取語(yǔ)音編碼參數(shù)的K 個(gè)集合;將所述目標(biāo)分組和所述參考分組中的每一個(gè)分類為可比較的或不可比較的,其中,利 用從相應(yīng)分組提取的分組速率信息來(lái)對(duì)所述目標(biāo)分組和所述參考分組進(jìn)行分類;將來(lái)自所述目標(biāo)分組流的語(yǔ)音編碼參數(shù)的集合與來(lái)自所述參考分組流的語(yǔ)音編碼參 數(shù)的K個(gè)集合中的每一個(gè)集合進(jìn)行比較,而忽略從被分類為不可比較的分組中提取的語(yǔ)音 編碼參數(shù);以及使用來(lái)自所述目標(biāo)分組流的語(yǔ)音編碼參數(shù)的集合與來(lái)自所述參考分組流的語(yǔ)音編碼 參數(shù)的K個(gè)集合中的每一個(gè)集合的比較,確定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考 分組流的語(yǔ)音內(nèi)容相似。
7.根據(jù)權(quán)利要求5所述的方法,其中,速率/類型匹配包括使用分組速率和分組類型對(duì)所述目標(biāo)分組流的目標(biāo)分組中的連續(xù)目標(biāo)分組的集合中 的每一個(gè)目標(biāo)分組進(jìn)行分類;使用分組速率和分組類型對(duì)所述參考分組流的參考分組中的連續(xù)參考分組的K個(gè)集 合中的每一個(gè)目標(biāo)分組進(jìn)行分類;以及針對(duì)參考分組的K個(gè)集合中的每一個(gè)集合,執(zhí)行以下步驟 將目標(biāo)分組的分組類別與所述參考分組集合中的參考分組的分組類別進(jìn)行比較; 確定與所述目標(biāo)分組的分組類別和所述參考分組的分組類別的每一比較相關(guān)聯(lián)的權(quán)重;通過(guò)將相應(yīng)比較的權(quán)重求和來(lái)計(jì)算速率/類型匹配值;以及 將所述速率/類型匹配值與速率/類型匹配閾值進(jìn)行比較。
8.根據(jù)權(quán)利要求5所述的方法,其中,所述音量比較技術(shù)包括從所述目標(biāo)分組流的目標(biāo)分組中的連續(xù)目標(biāo)分組的集合中提取音量值的集合; 從所述參考分組流的參考分組中的連續(xù)參考分組的K個(gè)集合中提取音量值的K個(gè)集合;利用來(lái)自所述目標(biāo)分組的音量值集合和來(lái)自所述參考分組的K個(gè)集合的音量值集合 來(lái)計(jì)算K個(gè)音量比較值;以及將所述K個(gè)音量比較值中的每一個(gè)與音量閾值進(jìn)行比較。
9.一種用于在基于分組的通信網(wǎng)絡(luò)中檢測(cè)回聲的設(shè)備,包括 用于從目標(biāo)分組流的目標(biāo)分組中提取語(yǔ)音編碼參數(shù)的裝置; 用于從參考分組流的參考分組中提取語(yǔ)音編碼參數(shù)的裝置;用于通過(guò)對(duì)所述目標(biāo)分組的語(yǔ)音編碼參數(shù)和所述參考分組的語(yǔ)音編碼參數(shù)進(jìn)行處理 來(lái)確定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似的裝置;以及用于基于關(guān)于所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似的 確定來(lái)確定所述目標(biāo)分組流是否包括所述參考分組流的回聲的裝置。
10.一種存儲(chǔ)有指令的計(jì)算機(jī)可讀介質(zhì),所述指令在由計(jì)算機(jī)執(zhí)行時(shí)使得計(jì)算機(jī)執(zhí)行 用于在基于分組的通信網(wǎng)絡(luò)中檢測(cè)回聲的方法,所述方法包括從目標(biāo)分組流的目標(biāo)分組中提取語(yǔ)音編碼參數(shù); 從參考分組流的參考分組中提取語(yǔ)音編碼參數(shù);通過(guò)對(duì)所述目標(biāo)分組的語(yǔ)音編碼參數(shù)和所述參考分組的語(yǔ)音編碼參數(shù)進(jìn)行處理來(lái)確 定所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似;以及基于關(guān)于所述目標(biāo)分組流的語(yǔ)音內(nèi)容是否與所述參考分組流的語(yǔ)音內(nèi)容相似的確定, 確定所述目標(biāo)分組流是否包括所述參考分組流的回聲。
全文摘要
本發(fā)明包括一種用于在分組網(wǎng)絡(luò)中檢測(cè)和抑制回聲的方法及設(shè)備。根據(jù)一個(gè)實(shí)施例的方法包括從參考分組流的分組中提取語(yǔ)音編碼參數(shù);從目標(biāo)分組流的分組中提取語(yǔ)音編碼參數(shù);通過(guò)對(duì)參考分組流的語(yǔ)音編碼參數(shù)和目標(biāo)分組流的語(yǔ)音編碼參數(shù)進(jìn)行處理來(lái)確定目標(biāo)分組流的語(yǔ)音內(nèi)容是否與參考分組流的語(yǔ)音內(nèi)容相似;以及基于關(guān)于目標(biāo)分組流的語(yǔ)音內(nèi)容是否與參考分組流的語(yǔ)音內(nèi)容相似的確定,確定目標(biāo)分組流是否包括參考分組流的回聲。
文檔編號(hào)G10L19/00GK101933306SQ200880123600
公開日2010年12月29日 申請(qǐng)日期2008年12月17日 優(yōu)先權(quán)日2007年12月31日
發(fā)明者蘭普洛斯·卡蘭鮑卡斯, 謝苗·索辛 申請(qǐng)人:阿爾卡特朗訊美國(guó)公司