本發(fā)明涉及一種對(duì)從音頻傳輸系統(tǒng)接收的劣化語(yǔ)音信號(hào)的質(zhì)量進(jìn)行評(píng)估的方法,通過(guò)經(jīng)由所述音頻傳輸系統(tǒng)傳遞參考語(yǔ)音信號(hào)以提供所述劣化語(yǔ)音信號(hào),其中,所述方法包括:將所述參考語(yǔ)音信號(hào)采樣為多個(gè)參考信號(hào)幀,以及針對(duì)每個(gè)參考信號(hào)幀確定參考信號(hào)表示;將所述劣化語(yǔ)音信號(hào)采樣為多個(gè)劣化信號(hào)幀,以及為每個(gè)劣化信號(hào)幀確定劣化信號(hào)表示;通過(guò)將每個(gè)參考信號(hào)幀與相應(yīng)的劣化信號(hào)幀彼此相關(guān)聯(lián)來(lái)形成幀對(duì);為每個(gè)幀對(duì)提供差函數(shù),所述差函數(shù)代表所述劣化信號(hào)幀與所述相關(guān)聯(lián)的參考信號(hào)幀的差。
本發(fā)明進(jìn)一步涉及一種用于實(shí)現(xiàn)上述方法的裝置,以及涉及一種計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
在過(guò)去的幾十年間,使用感知測(cè)量方式開(kāi)發(fā)和部署了客觀語(yǔ)音質(zhì)量測(cè)量方法。在該方式中,基于感知的算法模擬了受測(cè)者的行為,受測(cè)者在聽(tīng)音測(cè)試中對(duì)音頻片段的質(zhì)量進(jìn)行評(píng)級(jí)。對(duì)于語(yǔ)音質(zhì)量,人們大多使用所謂的絕對(duì)分類評(píng)級(jí)聽(tīng)音測(cè)試,其中,受測(cè)者在沒(méi)有獲知(access to)清晰的參考語(yǔ)音片段的情況下判斷劣化語(yǔ)音片段的質(zhì)量。國(guó)際電信聯(lián)盟(International Telecommunication Union,ITU)所進(jìn)行的聽(tīng)音測(cè)試大多使用絕對(duì)分類評(píng)級(jí)(ACR)5分評(píng)價(jià)尺度(5point opinion scale),ACR 5分評(píng)分尺度因此也用在客觀語(yǔ)音質(zhì)量測(cè)量方法中,客觀語(yǔ)音質(zhì)量測(cè)量方法被ITU的以下算法所標(biāo)準(zhǔn)化:感知語(yǔ)音質(zhì)量測(cè)量(Perceptual Speech Quality Measure,PSQM(ITU-T建議P.861,1996))及其后續(xù)的語(yǔ)音質(zhì)量感知評(píng)估(Perceptual Evaluation of Speech Quality,PESQ(ITU-T建議P.862,2000))。這些測(cè)量標(biāo)準(zhǔn)重點(diǎn)在于窄帶語(yǔ)音質(zhì)量(音頻帶寬100-3500Hz),盡管在2005年還設(shè)計(jì)出了寬帶擴(kuò)展(50-7000Hz)。對(duì)于窄帶語(yǔ)音數(shù)據(jù)而言,PESQ和主觀聽(tīng)音測(cè)試具有較好的相關(guān)性,并且對(duì)于寬帶數(shù)據(jù)而言,PESQ和主觀聽(tīng)音測(cè)試具有可接受的相關(guān)性。
隨著新的寬帶語(yǔ)音業(yè)務(wù)被電信產(chǎn)業(yè)投放到市場(chǎng)中,需要一種性能得到驗(yàn)證且能夠適應(yīng)更大音頻帶寬的先進(jìn)測(cè)量標(biāo)準(zhǔn)。因此,ITU-T(ITU的電信分部)研究組12提出了作為PESQ的技術(shù)更新的一種新的語(yǔ)音質(zhì)量評(píng)價(jià)算法的標(biāo)準(zhǔn)化。新的第三代測(cè)量標(biāo)準(zhǔn)POLQA(Perceptual Objective Listening Quality Assessment,感知客觀聽(tīng)音質(zhì)量評(píng)估)克服了PESQ P.862標(biāo)準(zhǔn)的缺陷,比如,對(duì)線性頻率響應(yīng)失真的影響的不正確評(píng)價(jià)、在網(wǎng)絡(luò)語(yǔ)音電話業(yè)務(wù)(Voice-over-IP)中所發(fā)現(xiàn)的時(shí)間擴(kuò)展/壓縮(time stretching/compression)、某些類型的編解碼器失真和混響。
相對(duì)于先前的質(zhì)量評(píng)估算法PSQM(P.861)和PESQ(P.862),POLQA(P.863)提供了大量改進(jìn),使得能夠在存在大范圍失真的情況下預(yù)測(cè)語(yǔ)音質(zhì)量。然而,在某些類型的前置語(yǔ)音信號(hào)處理的情況下,當(dāng)前版本的POLQA無(wú)法正確預(yù)測(cè)某些類型的失真的影響。一個(gè)問(wèn)題為在所謂的空語(yǔ)音帶(empty speech bands)中噪聲的影響。沒(méi)有正確地預(yù)測(cè)出在語(yǔ)音帶寬小于掩蔽噪聲(masking noise)的帶寬的情形下噪聲對(duì)所感知的語(yǔ)音質(zhì)量的影響。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于尋求上述不足的解決方案,以及提供一種用于評(píng)估(劣化)語(yǔ)音信號(hào)的質(zhì)量評(píng)估算法,該算法正確地解決了噪聲的影響。
本發(fā)明通過(guò)以下方式實(shí)現(xiàn)該目的和其他目的:提供了一種對(duì)從音頻傳輸系統(tǒng)接收的劣化語(yǔ)音信號(hào)的質(zhì)量進(jìn)行評(píng)估的方法,通過(guò)經(jīng)由所述音頻傳輸系統(tǒng)傳遞參考語(yǔ)音信號(hào)以提供所述劣化語(yǔ)音信號(hào)。所述方法包括:將所述參考語(yǔ)音信號(hào)采樣為多個(gè)參考信號(hào)幀,將所述劣化語(yǔ)音信號(hào)采樣為多個(gè)劣化信號(hào)幀,以及通過(guò)將所述參考信號(hào)幀和所述劣化信號(hào)幀彼此相關(guān)聯(lián)來(lái)形成幀對(duì)。為每個(gè)幀對(duì)提供差函數(shù),所述差函數(shù)表示所述劣化信號(hào)幀與所述相關(guān)聯(lián)的參考信號(hào)幀的差。針對(duì)一個(gè)或多個(gè)干擾類型補(bǔ)償所述差函數(shù),從而為每個(gè)幀對(duì)提供干擾密度函數(shù),所述干擾密度函數(shù)適用于人類聽(tīng)覺(jué)感知模型。根據(jù)多個(gè)幀對(duì)的所述干擾密度函數(shù)得到總體質(zhì)量參數(shù),其中,所述質(zhì)量參數(shù)至少指示所述劣化語(yǔ)音信號(hào)的所述質(zhì)量。所述方法還包括以下步驟:識(shí)別所述多個(gè)劣化信號(hào)幀的一個(gè)或多個(gè)靜音幀。為所述靜音幀確定噪聲水平參數(shù)值,所述噪聲水平參數(shù)值指示所述靜音幀在高于頻率閾值的頻率處存在的信號(hào)功率的平均量?;谒鲈肼曀絽?shù)值確定高頻帶噪聲水平補(bǔ)償因子。所述高頻帶噪聲水平補(bǔ)償因子用于針對(duì)高于所述頻率閾值的噪聲補(bǔ)償所述總體質(zhì)量參數(shù)。
本發(fā)明通過(guò)將劣化信號(hào)的較高頻帶中所存在的噪聲考慮在內(nèi)而主要提高了POLQA方法的效果。按照本發(fā)明并且對(duì)應(yīng)于第一估計(jì),這可以通過(guò)以下方式得到:將高頻帶中的噪聲成分(noise contribution)量化,并且確定補(bǔ)償因子,該補(bǔ)償因子可用于對(duì)POLQA方法的輸出處的總體質(zhì)量參數(shù)(即,MOQ-LQO分?jǐn)?shù))進(jìn)行補(bǔ)償。盡管優(yōu)選的是直接補(bǔ)償POLQA方法的(例如在方法的結(jié)束處的)MOS-LQO分?jǐn)?shù),但是當(dāng)然也可以在模型的其他位置進(jìn)行補(bǔ)償(然而這需要一些適應(yīng)性修改,以根據(jù)該方法中替代性考慮的補(bǔ)償所處位置來(lái)進(jìn)行正確地補(bǔ)償)。
通過(guò)識(shí)別劣化信號(hào)幀中的安靜或靜音幀來(lái)量化噪聲。正如將在下文中所進(jìn)一步解釋的,靜音幀的識(shí)別可優(yōu)選地通過(guò)以下方式來(lái)實(shí)現(xiàn):首先將參考信號(hào)幀中的靜音幀識(shí)別為候選幀,然后將經(jīng)由幀對(duì)與候選幀相關(guān)聯(lián)的劣化信號(hào)幀識(shí)別為靜音幀,以供本發(fā)明的方法所使用。然而,盡管準(zhǔn)確度較低,但是如果需要可直接識(shí)別靜音幀。
用于測(cè)量較高頻帶中信號(hào)功率的平均量的頻率閾值可設(shè)定為任意優(yōu)選值,然而,優(yōu)選地該閾值設(shè)定在2500Hz至4000Hz之間,更優(yōu)選地設(shè)定在3000Hz。
根據(jù)一個(gè)實(shí)施例,本發(fā)明還包括:識(shí)別所述多個(gè)劣化信號(hào)幀的一個(gè)或多個(gè)語(yǔ)音活動(dòng)幀;為所述語(yǔ)音活動(dòng)幀確定活動(dòng)水平參數(shù)值,所述活動(dòng)水平參數(shù)值指示所述語(yǔ)音活動(dòng)幀在所述頻率閾值以上存在的信號(hào)功率的平均量;將所述活動(dòng)水平參數(shù)值與所述噪聲水平參數(shù)值相比較以確定加權(quán)因子,所述加權(quán)值被確定以使得當(dāng)所述活動(dòng)水平參數(shù)值與所述噪聲水平參數(shù)值之差增大時(shí),所述加權(quán)值減小;其中,確定高頻帶噪聲水平補(bǔ)償因子的步驟包括:使用所述加權(quán)值來(lái)加權(quán)所述噪聲水平參數(shù)值。
在本發(fā)明的該優(yōu)選實(shí)施例中,通過(guò)進(jìn)一步根據(jù)劣化信號(hào)的較高頻帶中語(yǔ)音活動(dòng)幀中是否存在語(yǔ)音分量來(lái)對(duì)這些較高頻帶中的噪聲的影響進(jìn)行更好的估計(jì)。語(yǔ)音活動(dòng)幀可通過(guò)與靜音幀相似的方式進(jìn)行選擇,例如通過(guò)借助于參考信號(hào)幀和幀對(duì)相關(guān)性來(lái)進(jìn)行識(shí)別這些語(yǔ)音活動(dòng)幀??商娲?,如果通過(guò)估計(jì)候選幀的信號(hào)功率是否低于閾值水平來(lái)選擇靜音幀,則可以預(yù)測(cè)得到劣化信號(hào)幀中的剩余幀為語(yǔ)音活動(dòng)幀。
根據(jù)該實(shí)施例,確定了高于頻率閾值的語(yǔ)音活動(dòng)幀的信號(hào)平均功率,該頻率閾值優(yōu)選地為針對(duì)靜音幀所使用的同一頻率閾值,以使得在噪聲水平參數(shù)值與活動(dòng)水平參數(shù)值之間能夠進(jìn)行有意義的比較。例如,通過(guò)從活動(dòng)水平參數(shù)值中減去噪聲水平參數(shù)值來(lái)將活動(dòng)水平參數(shù)值與噪聲水平參數(shù)值進(jìn)行比較。據(jù)此得到加權(quán)值,以使得:當(dāng)較高頻帶中存在較少活動(dòng)語(yǔ)音分量時(shí),加權(quán)值增加。這樣建議的原因在于,已經(jīng)發(fā)現(xiàn)在較高頻帶中不存在語(yǔ)音的情況下或者如果語(yǔ)音活動(dòng)頻帶僅與存在所要考慮的噪聲的較高頻帶輕微重疊,較高頻帶中的噪聲的影響較大。例如,對(duì)于在高于3000Hz的頻率范圍內(nèi)不存在語(yǔ)音分量的窄帶語(yǔ)音信號(hào)而言,所接收的劣化語(yǔ)音信號(hào)中這些頻帶中的噪聲的影響與在0至7000Hz范圍內(nèi)存在分量的寬帶語(yǔ)音信號(hào)相比被認(rèn)為更為惱人。所知的最佳示例為將標(biāo)準(zhǔn)清晰度語(yǔ)音傳輸(帶寬50-3500Hz)中所發(fā)現(xiàn)的窄帶語(yǔ)音信號(hào)適配為在具有寬帶掩蔽噪聲背景的環(huán)境中使用這些信號(hào)。其他示例為在語(yǔ)音會(huì)議中將標(biāo)準(zhǔn)清晰度窄帶語(yǔ)音與高清晰度寬帶語(yǔ)音(帶寬50-7000Hz)相混合。由于POLQA涉及對(duì)人類所評(píng)估的質(zhì)量感知進(jìn)行建模,所以對(duì)用于補(bǔ)償MOS-LQO分?jǐn)?shù)(即,總體質(zhì)量參數(shù))的補(bǔ)償因子的加權(quán)為本發(fā)明該實(shí)施例的重要改進(jìn)。
根據(jù)另一實(shí)施例,本發(fā)明還包括下列步驟:針對(duì)高于所述頻率閾值的噪聲,使用所述高頻帶噪聲水平補(bǔ)償因子來(lái)補(bǔ)償所述總體質(zhì)量參數(shù),其中,所述高頻帶噪聲水平補(bǔ)償因子被從所述總體質(zhì)量參數(shù)中減去以提供總體質(zhì)量分?jǐn)?shù)??梢园凑杖缟纤龅姆椒ǚ奖愕赜?jì)算高頻帶噪聲水平補(bǔ)償因子,以使得可從上述POLQA過(guò)程的結(jié)束處所得到的MOS-LQO分?jǐn)?shù)中減去該高頻帶噪聲水平補(bǔ)償因子。這使得能夠?qū)?duì)POLQA方法的當(dāng)前改進(jìn)實(shí)施為對(duì)該方法的擴(kuò)展。
根據(jù)另一實(shí)施例,識(shí)別一個(gè)或多個(gè)靜音幀的步驟包括:當(dāng)幀平均信號(hào)功率低于閾值水平時(shí),將所述多個(gè)參考信號(hào)幀中的一個(gè)或多個(gè)識(shí)別為候選幀;以及將經(jīng)由所述幀對(duì)與所述候選幀相關(guān)聯(lián)的劣化信號(hào)幀識(shí)別為所述靜音幀。使用參考信號(hào)幀來(lái)識(shí)別候選幀以用于確定劣化幀中的哪些幀被識(shí)別為靜音幀比從劣化語(yǔ)音信號(hào)中直接識(shí)別靜音幀(例如,直接評(píng)估其中的信號(hào)功率水平)更準(zhǔn)確。例如,使用參考信號(hào)幀避免了將包含很多干擾但信號(hào)功率仍然相對(duì)大的某些靜音幀被從靜音幀中丟棄(即,假陰性(false negatives))。類似地,這還有助于避免評(píng)估中出現(xiàn)假陽(yáng)性(false positive)。由于這些假陰性或誤報(bào)會(huì)大大影響評(píng)估的結(jié)果,因此根據(jù)本發(fā)明基于參考信號(hào)幀中的候選幀來(lái)選擇靜音幀是優(yōu)選的。為了根據(jù)本實(shí)施方式的具體實(shí)施例選擇候選幀,第一閾值水平被設(shè)定在所述多個(gè)參考信號(hào)幀的平均信號(hào)功率水平之下20dB處。
本發(fā)明的又一具體實(shí)施例區(qū)分了靜音幀和超級(jí)靜音幀,并且使得能夠使用靜音幀和超級(jí)靜音幀中的任一個(gè)或兩者作為上述靜音幀。根據(jù)本實(shí)施例,識(shí)別一個(gè)或多個(gè)靜音幀的步驟包括以下步驟至少之一:將一個(gè)或多個(gè)參考信號(hào)幀識(shí)別為中等靜音候選幀,對(duì)于所述中等靜音候選幀,所述參考信號(hào)的幀平均信號(hào)功率介于比所述多個(gè)參考信號(hào)幀的平均信號(hào)功率水平低35dB與低20dB之間;或者將一個(gè)或多個(gè)參考信號(hào)幀識(shí)別為超級(jí)靜音幀,對(duì)于所述超級(jí)靜音幀,所述參考信號(hào)的幀平均信號(hào)功率比所述多個(gè)參考信號(hào)幀的平均信號(hào)功率水平低至少35dB。此外,在該實(shí)施例中,確定所述噪聲水平參數(shù)值的步驟是通過(guò)使用所述中等靜音幀和所述超級(jí)靜音幀中的至少一個(gè)或兩者來(lái)進(jìn)行。例如,在參考信號(hào)(因而劣化信號(hào))包括軟語(yǔ)音(soft spoken speech)或耳語(yǔ)(whispering)的情況下,使用超級(jí)靜音幀能夠?qū)υ肼曀教峁└玫脑u(píng)估。
根據(jù)本發(fā)明,本領(lǐng)域普通技術(shù)人員可適當(dāng)?shù)剡x擇頻率閾值以限定哪些較高頻帶頻率被包括在噪聲影響的評(píng)估中以及哪些較高頻帶頻率被排除在噪聲影響的評(píng)估之外。然而,本發(fā)明的優(yōu)選實(shí)施例所使用的閾值頻率為3000Hz。根據(jù)其他實(shí)施例,頻率閾值的可替代性取值可例如選自以下范圍:2500Hz至4000Hz。
根據(jù)又一實(shí)施例,確定所述噪聲水平參數(shù)值的步驟可進(jìn)一步包括:當(dāng)所計(jì)算的噪聲水平參數(shù)值超過(guò)最大值時(shí),將所述噪聲水平參數(shù)值設(shè)定在所述最大值處。所述最大值可以是任一合適值,但優(yōu)選地可在1.5與2.5之間進(jìn)行選擇,最優(yōu)選地被選擇為2.0。最大值避免對(duì)POLQA方法的MOS-LQO分?jǐn)?shù)進(jìn)行過(guò)度補(bǔ)償。
如上文已經(jīng)表明的那樣,將所述活動(dòng)水平參數(shù)值與所述噪聲水平參數(shù)值相比較的步驟可包括:從所述活動(dòng)水平參數(shù)值中減去所述噪聲水平參數(shù)值以得到高頻帶差值。在具體實(shí)施例中,當(dāng)從所述活動(dòng)水平參數(shù)值中減去所述噪聲水平參數(shù)值所計(jì)算出的高頻帶差值小于最小值時(shí),所述高頻帶差值被設(shè)定為所述最小值。在高頻帶差值被用作除數(shù)值用于確定加權(quán)值的情況下,這具有如下優(yōu)點(diǎn):當(dāng)指示較高頻帶中的活動(dòng)語(yǔ)音信號(hào)的量的活動(dòng)水平參數(shù)值接近于噪聲水平參數(shù)值(即,指示該頻率范圍中僅存在微不足道的語(yǔ)音分量或不存在語(yǔ)音分量,或者指示針對(duì)較高頻帶水平的大噪聲水平)時(shí),避免加權(quán)值變得過(guò)大。高頻帶差值的最小值可被設(shè)定為7.0與15.0之間的任一值,例如11.0。加權(quán)值可確定如下:
加權(quán)值=1.2/高頻帶差值。
根據(jù)第二方面,本發(fā)明涉及一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可執(zhí)行代碼,當(dāng)被在計(jì)算機(jī)上執(zhí)行時(shí),所述計(jì)算機(jī)可執(zhí)行代碼用于實(shí)現(xiàn)上述方法。
根據(jù)第三方面,本發(fā)明涉及一種用于執(zhí)行上述方法的裝置,所述裝置用于評(píng)估劣化語(yǔ)音信號(hào)的質(zhì)量,所述裝置包括:接收單元,用于從傳遞參考語(yǔ)音信號(hào)的音頻傳輸系統(tǒng)接收所述劣化語(yǔ)音信號(hào),所述參考語(yǔ)音信號(hào)至少表示由輔音和元音的結(jié)合所組成的一個(gè)或多個(gè)詞,并且所述接收單元還被設(shè)置成用于接收所述參考語(yǔ)音信號(hào);采樣單元,用于將所述參考語(yǔ)音信號(hào)采樣為多個(gè)參考信號(hào)幀,并且用于將所述劣化語(yǔ)音信號(hào)采樣為多個(gè)劣化信號(hào)幀;處理單元,用于通過(guò)將所述參考信號(hào)幀與所述劣化信號(hào)幀彼此相關(guān)聯(lián)來(lái)形成幀對(duì),并且用于針對(duì)每個(gè)幀對(duì)提供差函數(shù),所述差函數(shù)表示所述劣化信號(hào)幀與所述參考信號(hào)幀的差;補(bǔ)償器單元,用于針對(duì)一個(gè)或多個(gè)干擾類型,補(bǔ)償所述差函數(shù)從而為每個(gè)幀對(duì)提供干擾密度函數(shù),所述干擾密度函數(shù)適用于人類聽(tīng)覺(jué)感知模型;以及所述處理單元還被設(shè)置成根據(jù)多個(gè)幀對(duì)的所述干擾密度函數(shù)得到總體質(zhì)量參數(shù),所述質(zhì)量參數(shù)至少指示所述劣化語(yǔ)音信號(hào)的所述質(zhì)量;其中,所述處理單元還被設(shè)置成:識(shí)別所述多個(gè)參考信號(hào)幀的一個(gè)或多個(gè)靜音幀;為所述靜音幀確定噪聲水平參數(shù)值,所述噪聲水平參數(shù)值指示所述靜音幀在高于頻率閾值的頻率處存在的信號(hào)功率的平均量;基于所述噪聲水平參數(shù)值確定高頻帶噪聲水平補(bǔ)償因子,以針對(duì)高于所述頻率閾值的噪聲補(bǔ)償所述總體質(zhì)量參數(shù);以及針對(duì)高于所述頻率閾值的噪聲,使用所述高頻帶噪聲水平補(bǔ)償因子來(lái)補(bǔ)償所述總體質(zhì)量參數(shù)。
附圖說(shuō)明
參考附圖通過(guò)具體實(shí)施例對(duì)本發(fā)明進(jìn)行了進(jìn)一步解釋,在附圖中:
圖1提供了根據(jù)本發(fā)明實(shí)施例的POLQA感知模型的第一部分的概覽;
圖2提供了根據(jù)本發(fā)明實(shí)施例的POLQA感知模型中所使用的頻率對(duì)齊的示意性概覽;
圖3提供了根據(jù)本發(fā)明實(shí)施例的POLQA感知模型的、位于圖1中所示的第一部分之后的第二部分的概覽;
圖4是根據(jù)本發(fā)明實(shí)施例的POLQA感知模型的第三部分的概覽;
圖5是根據(jù)本發(fā)明實(shí)施例的POLQA感知模型中所使用的掩蔽方式的示意性概覽;
圖6是根據(jù)本發(fā)明的方法對(duì)總體質(zhì)量參數(shù)進(jìn)行補(bǔ)償?shù)姆绞降氖疽鈭D;以及
圖7是本發(fā)明的高頻帶噪聲補(bǔ)償方法的示意圖。
具體實(shí)施方式
總的POLQA感知模型
POLQA(ITU-T建議P.863)的基本方式與PESQ(ITU-T建議P.862)中所用的方式相同,即,使用人類感知(human perception)模型將參考輸入信號(hào)和劣化輸出語(yǔ)音信號(hào)均映射到內(nèi)部表征。感知模型使用這兩種內(nèi)部表征之間的差異來(lái)預(yù)測(cè)劣化信號(hào)的被感知的語(yǔ)音質(zhì)量。POLQA所實(shí)現(xiàn)的一個(gè)重要新思路為一種理想化(idealisation)方式,該理想化方式移除了參考輸入信號(hào)中的低水平噪聲,并且優(yōu)化了音色。POLQA感知模型的其他主要改進(jìn)包括:將重放水平(play back level)對(duì)所感知的質(zhì)量所造成的影響進(jìn)行建模,以及將對(duì)低水平失真的處理與對(duì)高水平失真的處理分離開(kāi)來(lái)。
POLQA中所使用的感知模型的概覽在圖1至圖4中給出。圖1提供了感知模型的第一部分,該第一部分用于計(jì)算參考輸入信號(hào)X(t)3和劣化輸出信號(hào)Y(t)5的內(nèi)部表征。參考輸入信號(hào)X(t)3和劣化輸出信號(hào)Y(t)5二者被縮放(scaled)17、46,并且按照下述多個(gè)步驟計(jì)算關(guān)于音調(diào)-響度-時(shí)間的內(nèi)部表征13、14,之后計(jì)算差函數(shù)(difference function)12,圖1中通過(guò)差計(jì)算算子7表示該計(jì)算差函數(shù)。計(jì)算了兩種不同類型的感知差函數(shù),一種為使用算子7和8的被測(cè)試系統(tǒng)所引入的總體干擾,另一種為使用算子9和10的干擾的增加部分。這對(duì)從參考信號(hào)中省去時(shí)頻分量所導(dǎo)致的劣化影響與引入新的時(shí)頻分量所導(dǎo)致的劣化的不對(duì)稱性進(jìn)行了建模。在POLQA中,兩種類型的感知差函數(shù)按照兩種不同的方式進(jìn)行計(jì)算,一種方式重點(diǎn)在于正常范圍的劣化,以及另一種方式重點(diǎn)在于響度劣化(loud degradations),響度劣化造成了圖1中所標(biāo)出的4種差函數(shù)計(jì)算7、8、9和10。
對(duì)于具有頻域扭曲的劣化輸出信號(hào)49,使用了對(duì)齊算法(align algorithm)52,這在圖2中給出。圖3和圖4給出了用于得到MOS-LQO分?jǐn)?shù)(MOS-LQO scores)的最終處理。
POLQA開(kāi)始于計(jì)算一些基本常數(shù)設(shè)置,然后從時(shí)頻對(duì)齊的(time and frequency aligned)時(shí)間信號(hào)中得到參考信號(hào)的音調(diào)功率密度和劣化信號(hào)的音調(diào)功率密度(作為時(shí)間和頻率的函數(shù)的功率)。根據(jù)音調(diào)功率密度,通過(guò)多個(gè)步驟來(lái)得到參考信號(hào)的內(nèi)部表征和劣化信號(hào)的內(nèi)部表征。此外,這些密度還被用來(lái)得到前三個(gè)POLQA質(zhì)量指示符,即,頻率響應(yīng)失真的質(zhì)量指示符41(FREQ)、加性噪聲(additive noise)的質(zhì)量指示符42(噪聲)以及室內(nèi)混響的質(zhì)量指示符43(混響)。這三個(gè)質(zhì)量指示符41、42和43根據(jù)主要干擾指示符來(lái)分別進(jìn)行計(jì)算以使得能夠?qū)Χ喾N不同失真類型進(jìn)行平衡影響分析。這些指示符還可被用來(lái)使用劣化分解方式對(duì)在語(yǔ)音信號(hào)中所存在的劣化的類型進(jìn)行更詳細(xì)的分析。
如上所述,在7、8、9和10計(jì)算了參考信號(hào)和劣化信號(hào)的內(nèi)部表征的四個(gè)不同變型:兩個(gè)變型重點(diǎn)在于針對(duì)正常和大的失真的干擾,以及另外兩個(gè)變型重點(diǎn)在于針對(duì)正常和大的失真所增加的干擾。這四個(gè)不同的變型7、8、9和10是計(jì)算最終干擾密度的輸入。
參考輸入信號(hào)3的內(nèi)部表征被稱為理想表示,因?yàn)閰⒖驾斎胄盘?hào)中的低水平噪聲被移除(步驟33)并且針對(duì)其部分地補(bǔ)償了劣化信號(hào)中所存在的可能由原參考錄制(reference recordings)的非最優(yōu)音色所導(dǎo)致的音色失真(步驟35)。
使用算子7、8、9和10所計(jì)算的理想內(nèi)部表征和劣化內(nèi)部表征的四個(gè)不同變型被用來(lái)計(jì)算兩個(gè)最終干擾密度142和143,一個(gè)代表了作為時(shí)間和頻率的函數(shù)、重點(diǎn)在于總體劣化的最終干擾142,以及另一個(gè)代表了作為時(shí)間和頻率的函數(shù)但卻重點(diǎn)在于增加的劣化的處理的最終干擾143。
圖4給出了根據(jù)兩個(gè)最終干擾密度142和143以及FREQ指示符41、噪聲指示符42和混響指示符43來(lái)計(jì)算MOS-LQO分?jǐn)?shù)(即,客觀MOS分?jǐn)?shù))的概覽。
常數(shù)設(shè)置的預(yù)計(jì)算
取決于采樣頻率的FFT窗大小
POLQA以不同的采樣率8、16和48kHz進(jìn)行操作,針對(duì)不同采樣率,窗大小W分別設(shè)定為256、512和2048個(gè)樣本,從而匹配人類聽(tīng)覺(jué)系統(tǒng)的時(shí)間分析窗。使用漢寧窗(Hann window)時(shí),連續(xù)幀之間的重疊為50%。對(duì)于參考信號(hào)和劣化信號(hào),功率譜——復(fù)FFT分量的實(shí)部的平方與虛部的平方之和——被存儲(chǔ)在單獨(dú)的實(shí)值陣列中。POLQA算法將單個(gè)幀內(nèi)的相位信息丟棄,并且所有計(jì)算僅基于功率表示。
開(kāi)始結(jié)束點(diǎn)計(jì)算
在主觀測(cè)試中,噪聲的發(fā)生通常在參考信號(hào)中的語(yǔ)音活動(dòng)開(kāi)始之前。然而,人們可以預(yù)想到主觀測(cè)試中的前端穩(wěn)態(tài)噪聲(leading steady state noise)會(huì)降低穩(wěn)態(tài)噪聲的影響,而在將前端噪聲考慮在內(nèi)的客觀測(cè)量中,前端噪聲將增加該影響;因此,可以預(yù)想到省略前端噪聲和后端噪聲(trailing noise)是正確的感知方式。因此,在使用可用訓(xùn)練數(shù)據(jù)驗(yàn)證了預(yù)期之后,POLQA處理中所用的開(kāi)始點(diǎn)和終止點(diǎn)是按照參考文件的開(kāi)始和結(jié)尾來(lái)計(jì)算的。從原始語(yǔ)音文件的開(kāi)始至結(jié)尾的五個(gè)連續(xù)絕對(duì)采樣值(使用正常16位PCM范圍-+32,000)之和必須超過(guò)500,以將該位置指定為開(kāi)始或結(jié)尾。開(kāi)始和結(jié)尾之間的間隔被限定為活動(dòng)處理間隔。在POLQA處理中將該間隔之外的失真忽略。
功率縮放因子SP和響度縮放因子SL
為了校準(zhǔn)FFT時(shí)頻變換,使用被朝向73dB SPL校準(zhǔn)的參考信號(hào)X(t)來(lái)生成具有1000Hz頻率和40dB SPL幅值的正弦波。在步驟18和49中使用加窗FFT分別采用針對(duì)X(t)和Y(t)的采樣頻率所確定的長(zhǎng)度將該正弦波變換到頻域。在21和54中將頻率軸轉(zhuǎn)換為巴克尺度(Bark scale),所得到的音調(diào)功率密度(pitch power density)的峰值幅值則通過(guò)與針對(duì)X(t)和Y(t)的功率縮放因子SP 20和50分別相乘被歸一化為功率值104。
同一40dB SPL的參考音(reference tone)被用來(lái)校準(zhǔn)心理聲學(xué)(宋)響度尺度。在使用Zwicker定律(Zwicker’s law)將強(qiáng)度軸扭曲為響度尺度后,在30和58中,分別使用針對(duì)X(t)和Y(t)的響度縮放因子SL 31和59將響度密度在巴克頻率尺度上的積分歸一化為1宋(Sone)。
音調(diào)功率密度的縮放和計(jì)算
劣化信號(hào)Y(t)5被乘以46校準(zhǔn)因子C 47,然后采用50%重疊FFT幀被變換49到時(shí)頻域,校準(zhǔn)因子負(fù)責(zé)將數(shù)字域中的dB過(guò)載(dB overload)映射到聽(tīng)覺(jué)域(acoustic domain)中的dB SPL。在被變換18到時(shí)頻域之前,參考信號(hào)X(t)3被朝向大約等同于73dB SPL的預(yù)定固定最優(yōu)水平縮放17。該校準(zhǔn)步驟完全不同于PESQ中所用的校準(zhǔn)步驟,在PESQ中,劣化信號(hào)和參考信號(hào)兩者被朝向預(yù)定固定最優(yōu)水平縮放。PESQ預(yù)先假定所有播放在同一最優(yōu)播放水平處進(jìn)行,而在POLQA主觀測(cè)試中,所使用的是相對(duì)于最優(yōu)水平介于20dB至+6之間的水平。在POLQA感知模型中,人們因而不同使用朝向預(yù)定固定最優(yōu)水平的縮放。
水平縮放后,使用加窗FFT方式將參考信號(hào)和劣化信號(hào)變換18、49到時(shí)頻域。對(duì)于與參考信號(hào)相比,劣化信號(hào)的頻率軸被扭曲的文件,在FFT幀上進(jìn)行頻域去扭曲。在該去扭曲的第一步驟中,對(duì)參考和劣化FFT功率譜兩者進(jìn)行預(yù)處理以減小兩者非常窄的頻率響應(yīng)失真連同總體頻譜形狀差異對(duì)以下計(jì)算的影響。預(yù)處理77可包括對(duì)功率譜進(jìn)行平滑(smoothing)、壓縮(compressing)和整平(flattening)。在78中,平滑操作使用在FFT頻帶上的功率的滑動(dòng)窗平均(sliding window average)進(jìn)行,而壓縮則簡(jiǎn)單地通過(guò)對(duì)每個(gè)頻帶中的經(jīng)平滑功率求對(duì)數(shù)79來(lái)完成。在80中,通過(guò)在FFT頻帶上對(duì)經(jīng)平滑對(duì)數(shù)功率進(jìn)行滑動(dòng)窗歸一化來(lái)進(jìn)一步整平功率譜的總體形狀。接下來(lái),使用隨機(jī)次諧波音調(diào)算法(stochastic subharmonic pitch algorithm)來(lái)計(jì)算當(dāng)前參考幀和劣化幀的音調(diào)。參考音調(diào)與劣化音調(diào)定量(pitch ration)的比74則被用來(lái)(在步驟84中)確定可能的扭曲因子的范圍。如果可能,使用前一幀對(duì)和后一幀對(duì)的音調(diào)比來(lái)擴(kuò)展該搜索范圍。
然后,頻率對(duì)齊算法在搜索范圍中進(jìn)行迭代,并且使用當(dāng)前迭代的扭曲因子來(lái)扭曲85劣化功率譜,并使用上述預(yù)處理77對(duì)經(jīng)扭曲的功率譜進(jìn)行處理88。然后,針對(duì)1500Hz以下的頻段(bins),(在步驟89中)計(jì)算經(jīng)處理參考譜與經(jīng)處理和扭曲劣化譜之間的相關(guān)性。在完成搜索范圍內(nèi)的迭代之后,在步驟90中得到“最佳”(即,產(chǎn)生最高相關(guān)性)的扭曲因子。然后,將經(jīng)處理參考譜與最佳的經(jīng)扭曲劣化譜之間的相關(guān)性和原始經(jīng)處理參考譜與劣化譜之間的相關(guān)性進(jìn)行比較。如果相關(guān)性增加了設(shè)定閾值,則保留97該“最佳”扭曲因子。如果有必要,扭曲因子在98中被限定為相對(duì)于針對(duì)前一幀對(duì)所確定的扭曲因子具有最大相對(duì)變化。
在執(zhí)行了用于將參考信號(hào)的頻率軸和劣化信號(hào)的頻率軸對(duì)齊所可能需要的去扭曲之后,在步驟21和54中,以Hz為單位的頻率尺度被扭曲為以巴克(Bark)為單位的音調(diào)尺度,這反映出:相對(duì)于高頻而言,人類聽(tīng)力系統(tǒng)對(duì)于低頻會(huì)具有更精細(xì)的頻率分辨率。這通過(guò)以下方式來(lái)實(shí)現(xiàn):對(duì)FFT頻帶進(jìn)行統(tǒng)計(jì)(binning),并且在對(duì)求和部分進(jìn)行歸一化的情況下對(duì)FFT頻帶的相應(yīng)頻率進(jìn)行求和。出于此目的,通過(guò)以赫茲為單位的頻率尺度映射到以巴克為單位的音調(diào)尺度的扭曲函數(shù)來(lái)對(duì)文獻(xiàn)中所給的值進(jìn)行近似,該近似為本領(lǐng)域普通技術(shù)人員所公知。所得到的參考信號(hào)和劣化信號(hào)被稱為音調(diào)功率密度PPX(f)n(未在圖1中示出)和PPY(f)n 56,其中,f是單位為巴克的頻率,以及索引n代表幀索引。
語(yǔ)音活動(dòng)幀、靜音幀和超級(jí)靜音幀的計(jì)算(步驟25)
在步驟25中,POLQA對(duì)三類幀進(jìn)行了操作,這三類幀的區(qū)別如下:
語(yǔ)音活動(dòng)幀,其中,參考信號(hào)的幀水平高于比平均值低大約20dB的水平;
靜音幀,其中,參考信號(hào)的幀水平低于比平均值低大約20dB的水平;以及
超級(jí)靜音幀,其中,參考信號(hào)的水平低于比平均值低大約35dB的水平。
頻率、噪聲和混響指示符的計(jì)算
在步驟40中,單獨(dú)對(duì)頻率響應(yīng)失真、噪聲和室內(nèi)混響的全局影響進(jìn)行量化。對(duì)于總體全局頻率響應(yīng)失真的影響,根據(jù)參考信號(hào)和劣化信號(hào)的平均譜計(jì)算出指示符41。為了使對(duì)頻率響應(yīng)失真的影響所進(jìn)行的估計(jì)獨(dú)立于加性噪聲,劣化信號(hào)在參考信號(hào)的靜音幀上的平均噪聲譜密度被從該劣化信號(hào)的音調(diào)響度密度中減去。然后,在針對(duì)參考文件和劣化文件的所有語(yǔ)音活動(dòng)幀上在每個(gè)巴克頻帶中將所得到的劣化信號(hào)的音調(diào)響度密度與參考信號(hào)的音調(diào)響度密度進(jìn)行平均。然后,在音調(diào)上對(duì)這兩種密度之間的音調(diào)響度密度之差求積分以得到用于將頻率響應(yīng)失真的影響量化的指示符41(頻率)。
對(duì)于加性噪聲的影響,根據(jù)劣化信號(hào)在參考信號(hào)的靜音幀上的平均譜計(jì)算出指示符42。劣化信號(hào)在靜音幀上的平均音調(diào)響度密度與零參考音調(diào)響度密度之差確定了將加性噪聲的影響量化的噪聲響度密度函數(shù)。然后,在音調(diào)上對(duì)噪聲響度密度函數(shù)求積分以得到平均噪聲影響指示符42(噪聲)。因此,根據(jù)理想靜音計(jì)算出指示符42,以使得使用有噪(noisy)參考信號(hào)所測(cè)量的透明鏈因而不在最終POLQA端到端語(yǔ)音質(zhì)量測(cè)量中提供最大MOS分?jǐn)?shù)。
對(duì)于室內(nèi)混響的影響,根據(jù)參考和劣化時(shí)間序列計(jì)算出能量與時(shí)間的函數(shù)(energy over time function,ETC)。ETC代表了系統(tǒng)H(f)的脈沖響應(yīng)h(t)的包絡(luò),被定義為Ya(f)=H(f)·X(f),其中,Ya(f)為劣化信號(hào)的水平對(duì)齊表示的頻譜,以及X(f)是參考信號(hào)的頻譜。水平對(duì)齊用于抑制參考信號(hào)與劣化信號(hào)之間的全局增益差和局部增益差。根據(jù)H(f)使用離散傅里葉逆變換來(lái)計(jì)算脈沖響應(yīng)h(t)。根據(jù)h(t)的絕對(duì)值通過(guò)歸一化和限幅來(lái)計(jì)算ETC。基于ETC,搜索多達(dá)三種反射。在第一步驟中,通過(guò)簡(jiǎn)單確定ETC曲線在直達(dá)聲(direct sound)后的最大值來(lái)計(jì)算最響反射。在POLQA模型中,直達(dá)聲被定義為在60毫秒內(nèi)到達(dá)的所有聲音。接下來(lái),根據(jù)最響反射在沒(méi)有直達(dá)聲并且未將100毫秒內(nèi)達(dá)到的反射考慮在內(nèi)的間隔內(nèi)確定第二最響反射。然后,根據(jù)最響反射和第二最響反射在沒(méi)有直達(dá)聲并且未將100毫秒內(nèi)達(dá)到的反射考慮在內(nèi)的間隔內(nèi)確定第三最響反射。三種反射的能量和時(shí)延隨后被結(jié)合為單個(gè)混響指示符43(混響)。
參考信號(hào)朝向劣化信號(hào)的全局和局部縮放(步驟26)
此時(shí),根據(jù)步驟17,參考信號(hào)處于內(nèi)部理想水平,即,等同于大約73dB SPL,而劣化信號(hào)由于步驟46被表示成處于與播放水平一致的水平。在對(duì)參考信號(hào)和劣化信號(hào)進(jìn)行比較之前,在步驟26中對(duì)全局水平差進(jìn)行補(bǔ)償。此外,局部水平的小變化也被部分地補(bǔ)償,以將以下事實(shí)考慮在內(nèi):對(duì)受測(cè)者而言在只進(jìn)行聽(tīng)的情況(listening-only situation)下發(fā)生足夠小的水平變動(dòng)是不易察覺(jué)的。基于參考信號(hào)和劣化信號(hào)的平均功率使用介于400至3500Hz之間的頻率分量進(jìn)行全局水平均衡26。參考信號(hào)被全局地朝向劣化信號(hào)縮放,并且因而全局播放水平差的影響在該處理階段得以保持。相似地,對(duì)于變化慢的增益失真,使用參考語(yǔ)音文件和劣化語(yǔ)音文件兩者的全部帶寬針對(duì)高達(dá)大約3dB的水平變化進(jìn)行局部縮放。
針對(duì)線性頻率響應(yīng)失真的原始音調(diào)功率密度的部分補(bǔ)償(步驟27)
為了對(duì)被測(cè)試系統(tǒng)中由于濾波所引起的線性頻率響應(yīng)失真的影響進(jìn)行正確地建模,在步驟27中使用部分補(bǔ)償方式。為了對(duì)主觀測(cè)試中的中等線性頻率響應(yīng)失真的不可感知性進(jìn)行建模,使用被測(cè)試系統(tǒng)的轉(zhuǎn)移特性對(duì)參考信號(hào)進(jìn)行部分濾波。這通過(guò)以下方式來(lái)實(shí)現(xiàn):針對(duì)所有語(yǔ)音活動(dòng)幀計(jì)算原始音調(diào)功率密度和劣化音調(diào)功率密度的平均功率譜。根據(jù)劣化譜與原始譜之比來(lái)計(jì)算27每個(gè)巴克頻段(Bark bin)的部分補(bǔ)償因子。
掩蔽效應(yīng)的建模,音調(diào)響度密度激活的計(jì)算
在步驟30和58中,通過(guò)計(jì)算音調(diào)功率密度的模糊化表示來(lái)對(duì)掩蔽進(jìn)行建模。時(shí)域模糊化(smearing)和頻域模糊化兩者按照如圖5a至圖5c所示的原理被考慮在內(nèi)。時(shí)頻域模糊化使用了卷積方式。根據(jù)該模糊化表示,參考音調(diào)功率密度和劣化音調(diào)功率密度的表示被重新計(jì)算,從而抑制了低幅值時(shí)頻分量,低幅值時(shí)頻分量在時(shí)間-頻率平面中被鄰近的大響度分量部分地掩蔽。抑制通過(guò)兩種方式實(shí)現(xiàn):從非模糊化表示中減去模糊化表示;以及非模糊化表示除以模糊化表示。然后,使用下述Zwicker功率定律的改進(jìn)版將所得到的音調(diào)功率密度的銳化表示變換為音調(diào)響度密度表示:
其中,SL為響度縮放因子,P0(f)為絕對(duì)聽(tīng)覺(jué)閾值,fB和Pfn為定義如下的基于頻率和響度的校正:
fB=-0.03*f+1.06當(dāng)f<2.0巴克
fB=1.0當(dāng)2.0≤f≤22巴克
fB=-0.2*(f-22.0)+1.0當(dāng)f>22.0巴克
Pfn=(PPX(f)n+600)0.008
其中,f表示單位為巴克的頻率,PPX(f)n為頻率時(shí)間單元(frequency time cell)f,n中的音調(diào)功率密度。在針對(duì)參考信號(hào)X(t)的步驟30的輸出處以及在針對(duì)劣化信號(hào)Y(t)的步驟58的輸出處,所分別得到的二維陣列LX(f)n和LY(f)n被稱為音調(diào)響度密度。
參考信號(hào)和劣化信號(hào)中的全局低水平噪聲抑制
由于絕對(duì)分類評(píng)級(jí)測(cè)試步驟,受測(cè)者將參考信號(hào)中未受到被測(cè)試系統(tǒng)(例如,透明系統(tǒng))影響的低水平噪聲歸因于該被測(cè)試系統(tǒng)。因此,在計(jì)算參考信號(hào)的內(nèi)部表征的過(guò)程中,必須將這些低水平噪聲抑制。在步驟33中,通過(guò)針對(duì)超級(jí)靜音幀計(jì)算作為音調(diào)函數(shù)的、參考信號(hào)的平均穩(wěn)態(tài)噪聲響度密度LX(f)n來(lái)進(jìn)行“理想化處理”。然后,從參考信號(hào)的所有音調(diào)響度密度幀中部分地減去平均噪聲響度密度。在步驟33的輸出處,其結(jié)果為參考信號(hào)的理想化內(nèi)部表征。
劣化信號(hào)中可被聽(tīng)到的穩(wěn)態(tài)噪聲相對(duì)于較非穩(wěn)態(tài)噪聲而言造成較低的影響。這適用于所有水平的噪聲,該效應(yīng)的影響可通過(guò)將穩(wěn)態(tài)噪聲從劣化信號(hào)中部分地移除來(lái)進(jìn)行建模。這在步驟60中,通過(guò)針對(duì)一些幀計(jì)算作為音調(diào)函數(shù)的、劣化信號(hào)的平均穩(wěn)態(tài)噪聲響度密度LY(f)n來(lái)實(shí)現(xiàn),針對(duì)這些幀,參考信號(hào)的與這些幀對(duì)應(yīng)的幀被歸類為超級(jí)靜音。然后,從劣化信號(hào)的所有音調(diào)響度密度幀中部分地減去平均噪聲響度密度。對(duì)于低水平噪聲和高水平噪聲,使用不同的策略進(jìn)行部分補(bǔ)償。對(duì)于低水平噪聲,補(bǔ)償是微不足道的,而所使用的抑制對(duì)于大響度加性噪聲而言變得更強(qiáng)。結(jié)果為具有加性噪聲的劣化信號(hào)的內(nèi)部表征61,該加性噪聲適用于表示使用參考信號(hào)的理想化無(wú)噪聲表示的聽(tīng)音測(cè)試中所觀察到的主觀影響。
在上述步驟33種,除了進(jìn)行全局低水平噪聲抑制,還針對(duì)參考信號(hào)幀中的每一個(gè)確定響度指示符32。響度指示符或響度值可被用來(lái)確定用于對(duì)特定類型失真進(jìn)行加權(quán)的基于響度的加權(quán)因子。一旦提供了最終干擾密度142和143,針對(duì)算子7、8、9和10所提供的失真的四種表示,可在步驟125和125’中實(shí)現(xiàn)加權(quán)。
此處,響度水平指示符已在步驟33中進(jìn)行確定,但是應(yīng)當(dāng)理解,可在方法的其他部分中針對(duì)每個(gè)參考信號(hào)幀確定響度水平指示符。在步驟33中,由于以下事實(shí),確定響度水平指示符是可能的:已經(jīng)針對(duì)超級(jí)靜音幀確定了參考信號(hào)的平均穩(wěn)態(tài)噪聲響度密度LX(f)n,超級(jí)靜音幀則被用來(lái)針對(duì)所有參考幀構(gòu)建無(wú)噪聲參考信號(hào)。然而,這盡管有可能在步驟33中實(shí)現(xiàn),但卻不是最佳實(shí)施方式。
替代性地,可在步驟35之后的附加步驟中根據(jù)參考信號(hào)得到響度水平指示符(響度)。該附加步驟在圖1中被表示為具有虛線輸出(響度)32’的虛線框35’。如本領(lǐng)域普通技術(shù)人員所理解的,如果執(zhí)行了步驟35’,則不再需要從步驟33中得到響度水平指示符。
針對(duì)劣化信號(hào)與參考信號(hào)之間時(shí)變?cè)鲆娴氖д嬉粽{(diào)響度密度的局部縮放(步驟34和步驟63)
增益的緩慢變化是聽(tīng)不到的,并且小的改變?cè)谟?jì)算參考信號(hào)表示的過(guò)程中已經(jīng)得到了補(bǔ)償。在正確地計(jì)算出內(nèi)部表征之前,按照在以下兩個(gè)步驟進(jìn)行所需的剩余補(bǔ)償:第一,在步驟34中針對(duì)劣化信號(hào)響度低于參考信號(hào)響度的信號(hào)水平,對(duì)參考信號(hào)進(jìn)行補(bǔ)償;第二,在步驟63中針對(duì)參考信號(hào)響度低于劣化信號(hào)響度的信號(hào)水平,對(duì)劣化信號(hào)進(jìn)行補(bǔ)償。
對(duì)于劣化信號(hào)顯示出嚴(yán)重信號(hào)損失(例如,在時(shí)間限幅情形下)的信號(hào)部分,第一補(bǔ)償34將參考信號(hào)朝向較低水平縮放??s放使得參考信號(hào)與劣化信號(hào)之間的剩余差表示時(shí)間限幅對(duì)局部感知語(yǔ)音質(zhì)量的影響。參考信號(hào)響度低于劣化信號(hào)響度的部分未被補(bǔ)償,因此,在該第一步驟中,加性噪聲和大響度的咔嗒聲(clicks)未被補(bǔ)償。
對(duì)于劣化信號(hào)顯示出咔嗒聲的信號(hào)部分以及對(duì)于靜音間隔中存在噪聲的信號(hào)部分,第二補(bǔ)償63將劣化信號(hào)朝向較低水平縮放??s放使得參考信號(hào)與劣化信號(hào)之間的剩余差表示咔嗒聲和緩慢變化加性噪聲對(duì)局部感知語(yǔ)音質(zhì)量的影響。盡管在靜音部分和語(yǔ)音活動(dòng)部分兩者中補(bǔ)償了咔嗒聲,但是僅在靜音部分補(bǔ)償噪聲。
針對(duì)頻率響應(yīng)失真的原始音調(diào)響度密度的部分補(bǔ)償(步驟35)
在步驟27中,已經(jīng)通過(guò)在音調(diào)功率密度域中對(duì)參考信號(hào)進(jìn)行部分濾波對(duì)無(wú)法感知的線性頻率響應(yīng)失真進(jìn)行了補(bǔ)償。為了進(jìn)一步糾正線性失真比非線性失真更不令人反感的事實(shí),在步驟35中,在音調(diào)響度域中,對(duì)參考信號(hào)進(jìn)行部分濾波。這通過(guò)以下方式來(lái)實(shí)現(xiàn):針對(duì)所有語(yǔ)音活動(dòng)幀計(jì)算原始音調(diào)響度密度和劣化音調(diào)響度密度的平均功率譜。根據(jù)劣化響度譜與原始限度譜之比來(lái)計(jì)算每個(gè)巴克頻段的部分補(bǔ)償因子。該部分補(bǔ)償因子被用來(lái)對(duì)參考信號(hào)進(jìn)行濾波,該參考信號(hào)具有被測(cè)試系統(tǒng)的經(jīng)平滑較低幅值的頻率響應(yīng)。在該濾波之后,由線性頻率響應(yīng)失真所導(dǎo)致的參考音調(diào)響度密度與劣化音調(diào)響度密度之間的差被減小到一水平,該水平表示線性頻率響應(yīng)失真對(duì)所感知的語(yǔ)音質(zhì)量的影響。
音調(diào)響度密度的最終縮放和噪聲抑制
到此點(diǎn)為止,如在主觀試驗(yàn)中所使用的那樣,對(duì)信號(hào)的所有計(jì)算在播放水平上進(jìn)行。對(duì)于低播放水平,這將在參考音調(diào)響度密度與劣化音調(diào)響度密度之間產(chǎn)生小的差,并且通常產(chǎn)生對(duì)聽(tīng)音語(yǔ)音質(zhì)量的樂(lè)觀得多的估計(jì)。為了對(duì)該效應(yīng)進(jìn)行補(bǔ)償,現(xiàn)在在步驟64中,將劣化信號(hào)朝向“虛擬”固定內(nèi)部水平縮放。在該縮放之后,在步驟36中,將參考信號(hào)朝向劣化信號(hào)水平縮放,并且此時(shí)參考信號(hào)和劣化信號(hào)兩者準(zhǔn)備好分別用于在步驟37和65中進(jìn)行最終噪聲抑制操作。噪聲抑制對(duì)響度域中的穩(wěn)態(tài)噪聲水平中、仍然對(duì)語(yǔ)音質(zhì)量計(jì)算具有很大影響的最后部分進(jìn)行處理。所得到的信號(hào)13和14處于感知相關(guān)內(nèi)部表征域(perceptual relevant internal representation domain),并且根據(jù)理想音調(diào)-響度-時(shí)間函數(shù)LX理想(f)n 13和劣化音調(diào)-響度-信號(hào)函數(shù)LY劣化(f)n 14,可計(jì)算出干擾密度142和143。理想音調(diào)-響度-時(shí)間函數(shù)和劣化音調(diào)-響度-信號(hào)函數(shù)的四個(gè)不同變型在7、8、9和10中計(jì)算,兩個(gè)變型(7和8)重點(diǎn)在于針對(duì)正常和大失真的干擾,以及兩個(gè)變型(9和10)重點(diǎn)在于針對(duì)正常和大失真的增加的干擾。
最終干擾密度的計(jì)算
計(jì)算兩種不同的干擾密度142和143。第一種,即正常干擾密度在7和8中根據(jù)理想音調(diào)-響度-時(shí)間函數(shù)LX理想(f)n與劣化音調(diào)-響度-信號(hào)函數(shù)LY劣化(f)n的差得到。第二種在9和10中使用相對(duì)于所引入的劣化已經(jīng)被優(yōu)化的版本根據(jù)理想音調(diào)-響度-時(shí)間函數(shù)和劣化音調(diào)-響度-信號(hào)函數(shù)得到并且被稱為增加的干擾。在該增加的干擾的計(jì)算中,劣化功率密度大于參考功率密度的信號(hào)部分被加權(quán)一因子(非對(duì)稱因子),該因子取決于每個(gè)音調(diào)-時(shí)間單元中的功率比。
為了能夠應(yīng)對(duì)大范圍失真,進(jìn)行了兩種不同版本的處理,一種基于7和9重點(diǎn)在于小失真至中等失真,以及一種基于8和10重點(diǎn)在于中等失真至大失真。兩者之間的切換基于第一估計(jì),第一估計(jì)來(lái)自重點(diǎn)在于小水平失真至中等水平失真的干擾。這一處理方式導(dǎo)致需要計(jì)算四種不同的理想音調(diào)-響度-時(shí)間函數(shù)和四種不同的劣化音質(zhì)-響度-時(shí)間函數(shù)以能夠計(jì)算單個(gè)干擾和單個(gè)增加的干擾函數(shù)(見(jiàn)圖3),而單個(gè)干擾和單個(gè)增加的干擾函數(shù)則針對(duì)多種不同類型的大量具體失真得到補(bǔ)償。
最佳聽(tīng)音水平的嚴(yán)重偏移在127和127’中通過(guò)直接由劣化信號(hào)的信號(hào)水平得到的指示符進(jìn)行量化。在MOS-LQO的計(jì)算中也使用了全局指示符(水平)。
幀重復(fù)所引入的嚴(yán)重失真在128和128’中通過(guò)一指示符進(jìn)行量化,該指示符由參考信號(hào)的連續(xù)幀的相關(guān)性與劣化信號(hào)的連續(xù)幀的相關(guān)性的比較來(lái)得到。
與劣化信號(hào)的最佳“理想”音色的嚴(yán)重偏移在129和129’中通過(guò)一指示符進(jìn)行量化,該指示符由較高頻帶與較低頻帶之間的響度差得到。音色指示符根據(jù)劣化信號(hào)的巴克頻帶低頻部分的2巴克至12巴克與較高范圍的7至17巴克之間的響度差(即,使用5巴克重疊)來(lái)進(jìn)行計(jì)算,響度差“處罰”了任何嚴(yán)重的不平衡,而不考慮以下事實(shí):這可能是參考信號(hào)我那件的不正確聲音音色的結(jié)果。針對(duì)每個(gè)幀并且在全局水平上進(jìn)行補(bǔ)償。該補(bǔ)償計(jì)算了劣化信號(hào)的較低巴克頻帶和較高巴克頻帶(小于12巴克并且大于7巴克,即使用5巴克重疊)中的功率,并且響度差“處罰”了任何嚴(yán)重的不平衡,而不考慮以下事實(shí):這可能是參考信號(hào)我那件的不正確聲音音色的結(jié)果。應(yīng)當(dāng)注意,在POLQA端到端語(yǔ)音質(zhì)量測(cè)量中,使用記錄不佳的參考信號(hào)的、包含過(guò)多噪聲和/或不正確聲音音色的透明鏈因此不會(huì)提供最大MOS分?jǐn)?shù)。當(dāng)測(cè)量透明裝置的質(zhì)量時(shí),該補(bǔ)償同樣具有影響。當(dāng)所使用的參考信號(hào)顯示出與最佳“理想”音色的很多偏移時(shí),被測(cè)試系統(tǒng)將被判定為不透明,即使該系統(tǒng)未在參考信號(hào)中引入任何劣化。
干擾中的嚴(yán)重的影響在130和130'中通過(guò)平整度(FLATNESS)指示符被量化,平整度指示符也用在MOS-LQO的計(jì)算中。
將受測(cè)者的注意力集中到噪聲的嚴(yán)重噪聲水平變化在131和131'中通過(guò)噪聲對(duì)比度指示符被量化,噪聲對(duì)比度指示符由對(duì)應(yīng)的參考信號(hào)幀為靜音幀的劣化信號(hào)幀得到。
在步驟133和133'中,進(jìn)行加權(quán)操作以基于干擾是否與實(shí)際口頭聲音(spoken voice)相一致來(lái)對(duì)該干擾進(jìn)行加權(quán)。為了評(píng)估劣化信號(hào)的質(zhì)量,靜音階段期間所感知的干擾并不被認(rèn)為與實(shí)際口頭聲音期間所感知的干擾一樣不利。因此,基于在步驟33(或者可替代地步驟35')中根據(jù)參考信號(hào)所確定的響度指示符,確定加權(quán)值以對(duì)干擾進(jìn)行加權(quán)。加權(quán)值被用于對(duì)差函數(shù)(即,干擾)進(jìn)行加權(quán)從而將干擾對(duì)劣化語(yǔ)音信號(hào)的質(zhì)量的影響合并到評(píng)估中。特別地,由于加權(quán)值是基于響度指示符進(jìn)行確定的,所以加權(quán)值可被表示為基于響度的函數(shù)。基于響度的加權(quán)值可通過(guò)將響度與閾值相比較來(lái)確定。如果響度指示符超過(guò)閾值,則在進(jìn)行評(píng)估時(shí)將所感知的干擾完全考慮在內(nèi)。另一方面,如果響度值小于閾值,則加權(quán)值基于響度級(jí)指示符;即,在本示例中,加權(quán)值等于響度級(jí)指示符(在響度小于閾值的體系中)。優(yōu)點(diǎn)為:對(duì)于語(yǔ)音信號(hào)的例如在暫?;蜢o音之前所說(shuō)出的詞(spoken word)的末端處的微弱部分,干擾被部分地認(rèn)為對(duì)質(zhì)量不利。作為一個(gè)示例,應(yīng)當(dāng)理解的是,在詞末說(shuō)出字母“f”時(shí)所感知的一定量的噪聲可能會(huì)使聽(tīng)者將其感知為字母“s”。這將對(duì)質(zhì)量不利。另一方面,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解,當(dāng)響度值低于上述閾值時(shí),也可以通過(guò)將加權(quán)值變?yōu)榱銇?lái)簡(jiǎn)單地忽略靜音或暫停期間的任何噪聲。
再次回到圖3,在對(duì)齊過(guò)程期間,對(duì)該對(duì)齊過(guò)程期間發(fā)生的嚴(yán)重跳變進(jìn)行檢測(cè),并且在步驟136和136'中通過(guò)補(bǔ)償因子對(duì)該影響進(jìn)行量化。
最后,將干擾密度和增加的干擾密度在137和137'中限幅到最大水平,并且使用干擾138和138'的方差以及跳變140和140'對(duì)參考信號(hào)的響度的影響來(lái)對(duì)干擾的特定時(shí)間結(jié)構(gòu)進(jìn)行補(bǔ)償。
這得到針對(duì)規(guī)則干擾的最終干擾密度D(f)n 142和針對(duì)增加的干擾的最終干擾密度DA(f)n 143。
干擾隨音調(diào)、突發(fā)和時(shí)間的聚集,到中間MOS得分的映射
在音調(diào)軸上針對(duì)每一幀的最終干擾密度D(f)n 142和最終增加的干擾密度DA(f)n143求積分,從而產(chǎn)生兩個(gè)不同的每幀干擾,一個(gè)使用L1積分153并且由干擾得到,以及另一個(gè)使用L1積分159并且由增加的干擾得到(參見(jiàn)圖4):
其中,Wf為與巴克頻段成比列的一系列常數(shù)。
接下來(lái),在6個(gè)連續(xù)的語(yǔ)音幀上分別使用針對(duì)干擾的L4 155加權(quán)和針對(duì)增加的干擾的L1 160加權(quán)對(duì)這兩個(gè)每幀干擾求平均值,定義為語(yǔ)音突發(fā)。
最后,針對(duì)每個(gè)文件根據(jù)L2 156和161隨時(shí)間的平均值(averaging over time)來(lái)計(jì)算干擾和增加的干擾。
針對(duì)大響度混響和大響度加性噪聲使用混響指示符42和噪聲指示符43在步驟161中對(duì)增加的干擾進(jìn)行補(bǔ)償。然而,兩種干擾與頻率指示符41(頻率)結(jié)合170以得到內(nèi)部指示符,該內(nèi)部指示符通過(guò)三階回歸多項(xiàng)式進(jìn)行線性化以得到類MOS(MOS like)中間指示符171。
最終POLQA MOS-LQO的計(jì)算
在步驟175中使用以下四種不同的補(bǔ)償根據(jù)類MOS中間指示符得到未處理POLQA分?jǐn)?shù):
針對(duì)干擾的特定時(shí)頻特性的兩種補(bǔ)償,一種使用在頻率148、突發(fā)149和時(shí)間150上的L511聚集來(lái)進(jìn)行計(jì)算,以及一種使用在頻率145、突發(fā)146和時(shí)間147上的L313聚集來(lái)進(jìn)行計(jì)算;
針對(duì)很低呈現(xiàn)(presentation)水平使用水平指示符的一種補(bǔ)償;
針對(duì)大的音色失真在頻域中使用平整度指示符的一種補(bǔ)償。
該映射的訓(xùn)練在大集合劣化上進(jìn)行,包括不是POLQA基準(zhǔn)的一部分的劣化。這些未處理MOS分?jǐn)?shù)176所針對(duì)的是主要部分,該主要部分已經(jīng)被類MOS中間指示符171的計(jì)算中使用的三階多項(xiàng)式映射所線性化。
最后,在180中,使用三階多項(xiàng)式將未處理POLQA MOS分?jǐn)?shù)176映射到MOS-LQO分?jǐn)?shù)181',針對(duì)POLQA標(biāo)準(zhǔn)化的最終階段中可用的62個(gè)數(shù)據(jù)庫(kù)對(duì)該多項(xiàng)式進(jìn)行了優(yōu)化。在輸出處提供MOS-LQO分?jǐn)?shù)181之前,可針對(duì)某些特定類型的干擾補(bǔ)償從步驟180得到的分?jǐn)?shù)181'。例如,在步驟182種,MOS-LQO分?jǐn)?shù)可被乘以CVC補(bǔ)償因子270(其可如下文所述進(jìn)行計(jì)算)。此外,根據(jù)本發(fā)明的高頻帶噪聲補(bǔ)償因子(即,MOS噪聲補(bǔ)償因子CF噪聲,高頻)可在步驟183中被減去以在輸出處提供MOS-LQO 181。盡管在下文所述的圖7的實(shí)施例中所計(jì)算的高頻帶噪聲補(bǔ)償因子CF噪聲,高頻被縮放以使用CF噪聲,高頻從而將其從分?jǐn)?shù)181'中減去(或者可選地,從圖4所示的步驟182的經(jīng)補(bǔ)償輸出中減去),但是在不同的實(shí)施例中,高頻帶噪聲補(bǔ)償因子可被替代性地提供為乘數(shù)。
在窄帶模式中,最大POLQA MOS-LQO分?jǐn)?shù)為4.5,而在超寬帶模型中,該分?jǐn)?shù)為4.75。理想化處理的重要結(jié)果為在某些情況下,當(dāng)參考信號(hào)包含噪聲或者當(dāng)聲音音色被嚴(yán)重失真時(shí),透明鏈將不會(huì)提供窄帶模式中的最大MOS分?jǐn)?shù)4.5或者超寬帶模式中的4.75。
輔音-元音-輔音補(bǔ)償
可選地,POLQA方法可包括輔音-元音-輔音補(bǔ)償,按照如下方式來(lái)實(shí)現(xiàn)。在圖1中,參考信號(hào)幀220和劣化信號(hào)幀240可按上文所述的方式得到。例如,可從將參考信號(hào)扭曲到巴克的步驟21中得到參考信號(hào)幀220,而可從針對(duì)劣化信號(hào)所進(jìn)行的相應(yīng)步驟54中得到劣化信號(hào)幀。如圖1所示的、根據(jù)本發(fā)明的方法得到參考信號(hào)幀和/或劣化信號(hào)幀的精確位置僅僅是示例。參考信號(hào)幀220和劣化信號(hào)幀240可從圖1中的任何其他步驟中得到,特別是從介于參考信號(hào)X(t)3的輸入與步驟26中到劣化水平的全局和局部縮放(global and local scaling to the degraded level)之間的某一處中得到。劣化信號(hào)幀可從介于劣化信號(hào)Y(t)5的輸入與步驟54之間的任一處中得到。
輔音-元音-輔音補(bǔ)償如圖6所示。首先,在步驟222中,在期望的頻域內(nèi)計(jì)算參考信號(hào)幀220的信號(hào)功率。對(duì)于參考幀,最佳情形下的該頻域僅包括語(yǔ)音信號(hào)(例如,介于300赫茲與3500赫茲的頻率范圍)。然而,在步驟224中,通過(guò)將所計(jì)算的信號(hào)功率與第一閾值228和第二閾值229相比較來(lái)就是否包括該參考幀作為活動(dòng)語(yǔ)音參考幀進(jìn)行選擇。如POLQA(ITU-T推薦P.863)中所述,當(dāng)使用參考信號(hào)的縮放時(shí),第一閾值例如可以等于7.0×104,并且相似地第二閾值可以等于2.0×2×108,在步驟225中,通過(guò)將所計(jì)算的信號(hào)功率與第三閾值230和第四閾值231相比較來(lái)選擇對(duì)應(yīng)于軟語(yǔ)音參考信號(hào)(輔音的關(guān)鍵部分)的參考信號(hào)幀以進(jìn)行處理。第三閾值230可例如等于2.0×107,以及第四閾值可等于7.0×107。
步驟224和225得到分別對(duì)應(yīng)于活動(dòng)幀部分和軟語(yǔ)音幀部分的參考信號(hào)幀,即,活動(dòng)語(yǔ)音參考信號(hào)部分幀234和軟語(yǔ)音參考信號(hào)部分幀235。這些幀被提供到下文中將要討論的步驟260。
與參考信號(hào)的相關(guān)信號(hào)部分的計(jì)算完全相似,首先,在步驟242中,劣化信號(hào)幀240被分析以用于計(jì)算期望的頻域中的信號(hào)功率。對(duì)于劣化信號(hào)幀,有利的是在包括口頭聲音頻率范圍的頻率范圍內(nèi)以及在存在大多數(shù)可聽(tīng)噪聲的頻率范圍內(nèi)計(jì)算信號(hào)功率,例如介于300赫茲與8000赫茲的頻率范圍。
根據(jù)步驟242中所計(jì)算的信號(hào)功率,相關(guān)幀(即,與相關(guān)參考幀相關(guān)聯(lián)的幀)被選擇。選擇發(fā)生在步驟244和245中。在步驟245中,針對(duì)每個(gè)劣化信號(hào)幀,確定其是否與步驟225中被選擇為軟語(yǔ)音參考信號(hào)幀的參考信號(hào)幀時(shí)間對(duì)齊。如果劣化幀與軟語(yǔ)音參考信號(hào)幀時(shí)間對(duì)齊,則該劣化幀被識(shí)別為軟語(yǔ)音劣化信號(hào)幀,并且所計(jì)算的信號(hào)功率將在步驟260中的計(jì)算中使用。否則,該幀被丟棄作為軟語(yǔ)音劣化信號(hào)幀用于在步驟247中計(jì)算補(bǔ)償因子。在步驟244中,針對(duì)每個(gè)劣化信號(hào)幀,確定其是否與步驟224中被選擇為活動(dòng)語(yǔ)音參考信號(hào)幀的參考信號(hào)幀時(shí)間對(duì)齊。如果劣化幀與活動(dòng)語(yǔ)音參考信號(hào)幀時(shí)間對(duì)齊,則該劣化幀被識(shí)別為活動(dòng)語(yǔ)音劣化信號(hào)幀,并且所計(jì)算的信號(hào)功率將在步驟260中的計(jì)算中使用。否則,該幀被丟棄作為活動(dòng)語(yǔ)音劣化信號(hào)幀用于在步驟247中計(jì)算補(bǔ)償因子。這得到被提供到步驟260的軟語(yǔ)音劣化信號(hào)部分幀254和活動(dòng)語(yǔ)音劣化信號(hào)部分幀255。
步驟260接收以下各項(xiàng)作為輸入:活動(dòng)語(yǔ)音參考信號(hào)部分幀234、軟語(yǔ)音參考信號(hào)部分幀235、軟語(yǔ)音劣化信號(hào)部分幀254和活動(dòng)語(yǔ)音劣化信號(hào)部分幀255。在步驟260中,這些幀的信號(hào)功率被處理以確定針對(duì)活動(dòng)語(yǔ)音參考信號(hào)部分和軟語(yǔ)音參考信號(hào)部分以及針對(duì)活動(dòng)語(yǔ)音劣化信號(hào)部分和軟語(yǔ)音劣化信號(hào)部分的平均功率,并且據(jù)此(同樣在步驟260中)計(jì)算輔音-元音-輔音信噪比補(bǔ)償參數(shù)(CVCSNR_因子)如下:
參數(shù)Δ1和Δ2為用來(lái)適配模型的行為與受測(cè)者的行為的常數(shù)值。該公式中的其他參數(shù)如下:P活動(dòng),參考,平均為平均活動(dòng)語(yǔ)音參考信號(hào)部分信號(hào)功率。參數(shù)P軟,參考,平均為平均軟語(yǔ)音參考信號(hào)部分信號(hào)功率。參數(shù)P活動(dòng),劣化,平均為平均活動(dòng)語(yǔ)音劣化信號(hào)部分信號(hào)功率,以及參數(shù)P軟,劣化,平均為平均軟語(yǔ)音劣化信號(hào)部分信號(hào)功率。在步驟260的輸出處,提供了輔音-元音-輔音信噪比補(bǔ)償參數(shù)CVCSNR_因子。
在步驟262中,將CVCSNR_因子與本示例中的閾值0.75相比較。如果CVCSNR_因子大于該閾值,則在步驟265中將補(bǔ)償因子確定為等于1.0(不發(fā)生補(bǔ)償)。在CVCSNR_因子小于閾值(此處為0.75)的情況下,在步驟267中補(bǔ)償因子計(jì)算如下:補(bǔ)償因子=(CVCSNR_因子+0.25)1/2(注意,值0.25取值為等于1.0-0.75得到,其中,0.75為用于比較CVCSNR_因子的閾值)。由此提供的補(bǔ)償因子270在圖4的步驟182中被用作針對(duì)MOS-LQO分?jǐn)?shù)(即,總體質(zhì)量參數(shù))的乘數(shù)。正如將要理解的那樣,補(bǔ)償(例如,相乘)不必須在步驟182中發(fā)生,而可被合并到步驟175或180之一中(在這種情況下步驟182將從圖4的示圖中消失)。然而,在本示例中,補(bǔ)償通過(guò)將MOS-LQO分?jǐn)?shù)乘以如上所述計(jì)算的補(bǔ)償因子來(lái)實(shí)現(xiàn)。應(yīng)當(dāng)理解的是,補(bǔ)償也可采用另一形式。例如,同樣有可能取決于CVCSNR_因子而從所得到的MOS-LQO中減去一個(gè)變量或者在其上加上一個(gè)變量。本領(lǐng)域普通技術(shù)人員將按照本本發(fā)明的教示理解和識(shí)別補(bǔ)償?shù)钠渌饬x。
高頻帶噪聲影響補(bǔ)償
根據(jù)本發(fā)明,POLQA方法還包括補(bǔ)償MOS-LQO分?jǐn)?shù)以適當(dāng)解決噪聲在較高頻率范圍(即大于3000Hz)的影響。ITU-T建議P.863-POLQA-使得能夠?qū)挿秶д嬷械恼Z(yǔ)音失真進(jìn)行預(yù)測(cè)。然而,在某些類型的高級(jí)語(yǔ)音信號(hào)處理的情況下,某些失真的影響未被正確預(yù)測(cè)。本發(fā)明通過(guò)補(bǔ)償MOS-LQO分?jǐn)?shù)來(lái)解決該問(wèn)題。一個(gè)問(wèn)題為噪聲對(duì)所謂的空語(yǔ)音帶(empty speech bands)的影響。在語(yǔ)音帶寬小于掩蔽噪聲(masking noise)的帶寬的情形下,噪聲對(duì)所感知的語(yǔ)音質(zhì)量的影響未被正確預(yù)測(cè)。然而,補(bǔ)償MOS-LQO在以下情況下不太重要:語(yǔ)音信號(hào)在3000Hz以上頻率范圍同樣具有很大的非零分量。
本發(fā)明使得能夠?qū)υ谖窗l(fā)現(xiàn)語(yǔ)音能量或發(fā)現(xiàn)很少語(yǔ)音能量的頻帶中所發(fā)現(xiàn)的噪聲的影響進(jìn)行正確的預(yù)測(cè)。所知的最佳示例為將標(biāo)準(zhǔn)清晰度語(yǔ)音傳輸(帶寬50-3500Hz)中所發(fā)現(xiàn)的窄帶語(yǔ)音信號(hào)適配為在具有寬帶掩蔽噪聲背景的環(huán)境中使用這些信號(hào)。其他示例為在語(yǔ)音會(huì)議中將標(biāo)準(zhǔn)清晰度窄帶語(yǔ)音與高清晰度寬帶語(yǔ)音(帶寬50-7000Hz)相混合。
在本發(fā)明的方法中,正如圖7中的實(shí)施例所示,計(jì)算了校正因子300,在步驟183中,校正因子300被用來(lái)對(duì)由POLQA P.863所輸出的最終客觀平均評(píng)分(Objective Mean Opinion Score,MOS-LQO)進(jìn)行校正。然而,該補(bǔ)償在客觀語(yǔ)音質(zhì)量測(cè)量系統(tǒng)所作的任何預(yù)測(cè)模型中也可被更普遍地使用。例如,本發(fā)明可被應(yīng)用于補(bǔ)償較早的預(yù)測(cè)模型PSQM(ITU-T建議P.861,1996)或PESQ(ITU-T建議P.862,2000)。此處所述的實(shí)施例可被方便地用于通過(guò)提供補(bǔ)償因子(即,高頻帶噪聲水平補(bǔ)償因子)來(lái)校正這些預(yù)測(cè)的分?jǐn)?shù),補(bǔ)償因子可被從所得到的預(yù)測(cè)的分?jǐn)?shù)中減去。該因子可被計(jì)算如下。
首先,參考語(yǔ)音文件被用來(lái)確定一組靜音幀,在經(jīng)對(duì)齊的劣化語(yǔ)音文件中的該組靜音幀處未發(fā)現(xiàn)語(yǔ)音活動(dòng)或者發(fā)現(xiàn)微不足道的語(yǔ)音活動(dòng)。如上所述,在圖1的步驟25中進(jìn)行對(duì)參考系你好幀的靜音幀或超級(jí)靜音幀的識(shí)別。靜音幀和/或超級(jí)靜音幀(其中的一個(gè)或另一個(gè)或者兩者)可被用作候選幀275以供圖7的步驟277使用。這些候選幀275和劣化信號(hào)幀240被輸入到識(shí)別步驟277。在步驟277中,劣化信號(hào)幀要么被分類為靜音劣化信號(hào)幀279要么被分類為非靜音劣化信號(hào)幀280。劣化信號(hào)幀240的該分類基于:步驟277的輸入處的劣化信號(hào)幀240通過(guò)步驟6中所得到的幀對(duì)是否與步驟25中所確定的被分類為候選幀275的參考信號(hào)幀相關(guān)聯(lián)。
在步驟282處,針對(duì)劣化信號(hào)的所有靜音幀279,確定較高頻帶(高于3000Hz)中的噪聲量,并且根據(jù)該組幀,確定較高頻帶中的平均噪聲水平。這可在步驟282中通過(guò)以下方式來(lái)完成:計(jì)算這些幀在頻率閾值3000Hz以上的信號(hào)功率,對(duì)所有靜音幀的所有信號(hào)功率求和,并且除以靜音幀的數(shù)量以將靜音幀的平均信號(hào)功率建立為噪聲水平參數(shù)值(P噪聲,劣化,高頻,平均)。可選地,在步驟285中,噪聲水平參數(shù)值286可通過(guò)閾值最大值(MAX)283來(lái)最大化以避免后續(xù)步驟中對(duì)MOS過(guò)度補(bǔ)償。在本實(shí)施例中,閾值最大值283可例如被設(shè)定為2.0;然而,噪聲水平參數(shù)值286的任何期望最大值(例如,1.5≤最大值≤2.5)可被使用。如果需要,可省去步驟285。噪聲水平參數(shù)值286將被用作步驟288和295的輸入。
相似地,在步驟284處,針對(duì)所有非靜音幀280,確定較高頻帶(高于頻率閾值;例如3000Hz)中的能量的量,并且根據(jù)該組幀,確定較高頻帶中的平均活動(dòng)水平。與步驟282中確定平均噪聲水平類似,可在步驟284中通過(guò)如下方式確定平均活動(dòng)水平:計(jì)算這些非靜音(即,語(yǔ)音活動(dòng))幀在頻率閾值(3000Hz)以上的信號(hào)功率,對(duì)所有非靜音語(yǔ)音活動(dòng)幀的所有信號(hào)功率求和,并且除以語(yǔ)音活動(dòng)幀的數(shù)量以將語(yǔ)音活動(dòng)幀的平均信號(hào)功率建立為活動(dòng)水平參數(shù)值287(P活動(dòng),劣化,高頻,平均)。
該方法通過(guò)從語(yǔ)音活動(dòng)幀的較高頻帶中的平均活動(dòng)水平287中減去靜音幀的較高頻帶中的平均噪聲水平286進(jìn)行到步驟288。這產(chǎn)生了高頻帶差值(ΔP高頻=P活動(dòng),劣化,高頻,平均–P噪聲,劣化,高頻,平均),其為后續(xù)用于計(jì)算加權(quán)因子w的輔助參數(shù)。如果高頻帶差值ΔP高頻小于下界(最小值)291,則該值在步驟290中被設(shè)定為該下界。在實(shí)際實(shí)施例中,下界291可例如被設(shè)定為最小值=11.0。
為了計(jì)算高頻帶噪聲水平補(bǔ)償300,在步驟293中使用高頻差值(ΔP高頻)計(jì)算加權(quán)因子w 294如下,其中,Cwf為乘數(shù)常數(shù)(針對(duì)質(zhì)量評(píng)估Cwf=1.2):
w=Cwf/ΔPh高頻
為了得到MOS-LQO補(bǔ)償因子300(在本發(fā)明中也被稱為“高頻帶噪聲水平補(bǔ)償因子”),在步驟295中,靜音幀中的平均噪聲水平286被乘以加權(quán)因子w,從而得到:
CF噪聲,高頻=w*P噪聲,劣化,高頻,平均=(Cwf*P噪聲,劣化,高頻,平均)/ΔP高頻
在步驟183中從POLQA所輸入的客觀平均評(píng)分MOS-LQO中減去MOS噪聲補(bǔ)償因子CF噪聲,高頻300從而得到經(jīng)修正MOS-LQO 181,經(jīng)修正MOS-LQO181示出了與主觀感知的語(yǔ)音質(zhì)量更好的相關(guān)性。
針對(duì)所述實(shí)施例如上所示的使用參數(shù)的高頻帶噪聲影響補(bǔ)償被調(diào)節(jié)和優(yōu)化以對(duì)針對(duì)高頻噪聲對(duì)劣化信號(hào)的質(zhì)量評(píng)估的影響的MOS LQO分?jǐn)?shù)進(jìn)行補(bǔ)償。在不同的實(shí)施方式中,高頻帶噪聲影響補(bǔ)償可被相似地應(yīng)用以對(duì)針對(duì)高頻帶噪聲對(duì)清晰度(intelligibility)評(píng)估的影響的MOS LQO分?jǐn)?shù)進(jìn)行補(bǔ)償。劣化信號(hào)的清晰度和質(zhì)量相互的區(qū)別在于這些特性以不同方式進(jìn)行評(píng)估,正如人類所感知的那樣。其中,質(zhì)量涉及音頻信號(hào)本身,清晰度涉及信息的轉(zhuǎn)移。因此,在補(bǔ)償被應(yīng)用于清晰度評(píng)估的情況下,將使用高頻帶噪聲影響補(bǔ)償?shù)膮?shù)的不同優(yōu)化。因此,將理解的是,示例性參數(shù)值和乘數(shù)可根據(jù)應(yīng)用的不同而取不同值,示例性參數(shù)比如為頻率閾值、高頻帶差值ΔP高頻的下界(最小值)、噪聲水平參數(shù)值P噪聲,劣化,高頻,平均的上界(最大值)或者用于計(jì)算加權(quán)值w的乘數(shù)常數(shù)(大于1.2)。
此處,提供上面提及的參數(shù)的指示性范圍,這些參數(shù)在這些范圍之間可被優(yōu)化。示例性范圍不應(yīng)當(dāng)被解釋為限制本發(fā)明,而應(yīng)當(dāng)被解釋為向應(yīng)用本發(fā)明的本領(lǐng)域普通技術(shù)人員指示實(shí)現(xiàn)合適結(jié)果的范圍。與質(zhì)量的評(píng)估相比,針對(duì)清晰度的評(píng)估所選擇的值可以不同。例如,頻率閾值可在2500Hz余4000Hz之間進(jìn)行選擇,優(yōu)選地在2700Hz與4000Hz之間進(jìn)行選擇,盡管對(duì)于清晰度評(píng)估以及質(zhì)量評(píng)估,已經(jīng)使用3000Hz得到了好的結(jié)果。此外,高頻帶差值ΔP高頻的下界(最小值)可以為8.0≤最小值≤11.0;對(duì)于質(zhì)量評(píng)估,最佳值在11.0處,而對(duì)于清晰度評(píng)估,最佳值在9.0處。此外,噪聲水平參數(shù)值P噪聲,劣化,高頻,平均的上界(最大值)可以為1.0≤最大值≤3.0;對(duì)于質(zhì)量評(píng)估,最佳值在2.0處,而對(duì)于清晰度評(píng)估,最佳值在1.5處。此外,用于計(jì)算加權(quán)值w的乘數(shù)常數(shù)Cwf可以介于1.0與2.0之間,優(yōu)選地介于1.2與1.7之間。對(duì)于質(zhì)量評(píng)估,最佳值在Cwf=1.2,而對(duì)于清晰度評(píng)估,最佳值在Cwf=1.5處。
本發(fā)明可以按照不同于本文中的具體描述的方式進(jìn)行實(shí)施,并且本發(fā)明的范圍不受上述具體實(shí)施例和所附附圖的限制,而是可在如權(quán)利要求所限定的范圍內(nèi)變化。
附圖標(biāo)記
3 參考信號(hào)X(t)
5 劣化信號(hào)Y(t),幅值-時(shí)間
6 時(shí)延標(biāo)識(shí),形成幀對(duì)
7 差計(jì)算
8 差計(jì)算的第一變型
9 差計(jì)算的第二變型
10 差計(jì)算的第三變型
12 差信號(hào)
13 內(nèi)部理想音調(diào)-響度-時(shí)間LX理想(f)n
14 內(nèi)部劣化音調(diào)-響度-時(shí)間LY劣化(f)n
17 朝向固定水平的全局縮放
18 加窗FFT
20 縮放因子SP
21 扭曲到巴克
25 (超級(jí))靜音幀檢測(cè)
26 全局及局部縮放到劣化水平
27 部分頻率補(bǔ)償
30 激活和扭曲到宋
31 絕對(duì)閾值縮放因子SL
32 響度
32’ (根據(jù)替代性步驟35’所確定的)響度
33 全局低水平噪聲抑制
34 Y<X情況下的局部補(bǔ)償
35 部分頻率補(bǔ)償
35’ (替代性)確定響度
36 朝向劣化水平的縮放
37 全局低水平噪聲抑制
40 頻率、噪聲、混響指示符
41 頻率指示符
42 噪聲指示符
43 混響指示符
44 PW_R總體指示符(劣化信號(hào)與參考信號(hào)之間的總體音頻功率比)
45 PW_R總體指示符(劣化信號(hào)與參考信號(hào)之間的每幀音頻功率比)
46 朝向播放水平的縮放
47 校準(zhǔn)因子C
49 加窗FFT
52 頻率對(duì)齊
54 扭曲到巴克
55 縮放因子SP
56 劣化信號(hào)音調(diào)-功率-時(shí)間PPY(f)n
58 激活和扭曲到宋
59 絕對(duì)閾值縮放因子SL
60 全局高水平噪聲抑制
61 劣化信號(hào)音調(diào)-響度-時(shí)間
63 Y>X情況下的局部補(bǔ)償
64 朝向固定內(nèi)部水平的縮放
65 全局高水平噪聲抑制
70 參考頻譜
72 劣化頻譜
74 當(dāng)前幀和+/-1周圍幀的參考音調(diào)和劣化音調(diào)之比
77 預(yù)處理
78 消除FFT譜中的窄的尖峰和下降
79 對(duì)譜取對(duì)數(shù),應(yīng)用針對(duì)最小強(qiáng)度的閾值
80 使用滑動(dòng)窗來(lái)整平總體對(duì)數(shù)譜形狀
83 優(yōu)化環(huán)
84 扭曲因子的范圍:[最小音調(diào)比<=1<=最大音調(diào)比]
85 扭曲劣化頻譜
88 應(yīng)用預(yù)處理
89 針對(duì)小于1500Hz的頻段計(jì)算譜的相關(guān)性
90 追蹤最佳扭曲因子
93 扭曲劣化頻譜
94 應(yīng)用預(yù)處理
95 針對(duì)小于3000Hz的頻段計(jì)算譜的相關(guān)性
97 如果相關(guān)性足夠大,則保留經(jīng)扭曲的劣化譜;否則,恢復(fù)原始
98 限制扭曲因子從一個(gè)幀到下一幀的變化
100 理想常規(guī)
101 劣化常規(guī)
104 理想大失真
105 劣化大失真
108 理想增加
109 劣化增加
112 理想增加的大失真
113 劣化增加的大失真
116 干擾密度常規(guī)選擇
117 干擾密度大失真選擇
119 增加的干擾密度選擇
120 增加的干擾密度大失真選擇
121 切換函數(shù)123的PW_R總體輸入
122 切換函數(shù)123的PW_R幀輸入
123 大失真判定
125 針對(duì)大量特定失真的校正因子
125’ 針對(duì)大量特定失真的校正因子
127 水平
127’ 水平
128 幀重復(fù)
128’ 幀重復(fù)
129 音色
129’ 音色
130 譜平整度
130’ 譜平整度
131 靜音時(shí)段的噪聲對(duì)比度
131’ 靜音時(shí)段的噪聲對(duì)比度
133 基于響度的干擾加權(quán)
133’ 基于響度的干擾加權(quán)
134 參考信號(hào)的響度
134’ 參考信號(hào)的響度
136 對(duì)齊跳變
136’ 對(duì)齊跳變
137 限幅到最大劣化
137’ 限幅到最大劣化
138 干擾方差
138’ 干擾方差
140 響度跳變
140’ 響度跳變
142 最終干擾密度D(f)n
143 最終增加的干擾密度DA(f)n
145 L3頻率積分
146 L1突發(fā)積分
147 L3時(shí)間積分
148 L5頻率積分
149 L1突發(fā)積分
150 L1時(shí)間積分
153 L1頻率積分
155 L4突發(fā)積分
156 L2時(shí)間積分
159 L1頻率積分
160 L1突發(fā)積分
161 L2時(shí)間積分
170 映射到中間MOS分?jǐn)?shù)
171 類MOS中間指示符
175 MOS尺度補(bǔ)償
176 未處理MOS分?jǐn)?shù)
180 映射到MOS-LQO
181 MOS LQO
181’ 通過(guò)步驟182和/或步驟183校正之前的MOS LQO
182 CVC清晰度補(bǔ)償
183 高頻帶噪聲影響補(bǔ)償
185 短正弦音強(qiáng)度隨時(shí)間的變化
187 短正弦音
188 第二短正弦音的掩蔽閾值
195 短正弦音強(qiáng)度隨頻率的變化
198 短正弦音
199 第二短正弦音的掩蔽閾值
205 3D圖中強(qiáng)度隨頻率和時(shí)間的變化
211 導(dǎo)致銳化內(nèi)部表征的被用作抑制強(qiáng)度的掩蔽閾值
220 參考信號(hào)幀(另見(jiàn)圖1)
222 確定語(yǔ)音域(例如300Hz-3500Hz)的信號(hào)功率
224 將信號(hào)功率與第一和第二閾值相比較,如果在范圍內(nèi),則選擇
225 將信號(hào)功率與第三和第四閾值相比較,如果在范圍內(nèi),則選擇
228 第一閾值
229 第二閾值
230 第三閾值
231 第四閾值
234 活動(dòng)語(yǔ)音參考信號(hào)幀的功率平均
235 軟語(yǔ)音參考信號(hào)幀的功率平均
240 劣化信號(hào)幀(另見(jiàn)圖1)
242 確定針對(duì)語(yǔ)音和可聽(tīng)干擾的域(例如300Hz-8000Hz)中的信號(hào)功
244 劣化幀與所選擇的活動(dòng)語(yǔ)音參考信號(hào)幀在時(shí)間上對(duì)齊?
245 劣化幀與所選擇的軟語(yǔ)音參考信號(hào)幀在時(shí)間上對(duì)齊?
247 作為活動(dòng)/軟語(yǔ)音劣化信號(hào)幀被丟棄的幀
254 軟語(yǔ)音劣化信號(hào)幀的功率平均
255 活動(dòng)語(yǔ)音劣化信號(hào)幀的功率平均
260 計(jì)算輔音-元音-輔音信噪比補(bǔ)償因子(CVCSNR_因子)
262 CVCSNR_因子是否小于補(bǔ)償閾值(例如0,75)
265 否→補(bǔ)償因子=1.0(不補(bǔ)償)
267 是→補(bǔ)償因子為(CVCSNR_因子+0.25)1/2
270 向步驟182提供補(bǔ)償值以用于補(bǔ)償MOS-LQO
275 通過(guò)(超級(jí))靜音幀檢測(cè)(步驟25)所識(shí)別的候選幀
277 劣化信號(hào)幀的分類:靜音/非靜音
279 靜音幀
280 語(yǔ)音活動(dòng)幀
282 確定頻率高于3000Hz的靜音幀的信號(hào)平均功率
283 針對(duì)噪聲水平參數(shù)值286的閾值(MAX)
284 確定頻率高于3000Hz的語(yǔ)音活動(dòng)幀的信號(hào)平均功率
285 使噪聲水平參數(shù)值最大化
286 噪聲水平參數(shù)值
287 活動(dòng)水平參數(shù)值
288 高頻帶差值
290 使高頻帶差值最小化
291 針對(duì)高頻帶差值的閾值(MIN)
293 計(jì)算加權(quán)值w
294 加權(quán)值w
295 將噪聲水平參數(shù)值乘以加權(quán)值w
300 高頻帶噪聲補(bǔ)償因子CF噪聲,高頻