語(yǔ)音信號(hào)的處理方法及裝置的制造方法

文檔序號(hào)：9525221閱讀：457來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

語(yǔ)音信號(hào)的處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及終端技術(shù)領(lǐng)域，特別設(shè)及一種語(yǔ)音信號(hào)的處理方法及裝置。
【背景技術(shù)】
[0002] 語(yǔ)音可懂度是指用戶聽(tīng)懂聲音系統(tǒng)所傳遞的語(yǔ)音信號(hào)的百分比，例如，如果用戶聽(tīng)到聲音系統(tǒng)傳遞了 100個(gè)單詞，但僅聽(tīng)懂了 50個(gè)單詞，則用戶的語(yǔ)音可懂度為50%。隨著便攜式移動(dòng)終端的外形尺寸逐漸向小型化方向發(fā)展，移動(dòng)終端所能輸出的最大聲音功率逐漸減小，相應(yīng)地用戶使用移動(dòng)終端進(jìn)行通信時(shí)的語(yǔ)音可懂度也受到了影響。由于語(yǔ)音可懂度是衡量移動(dòng)終端性能的一項(xiàng)重要指標(biāo)，因此，移動(dòng)終端如何處理語(yǔ)音信號(hào)，W改善語(yǔ)音可懂度，成為其發(fā)展的關(guān)鍵。
[0003] 目前，在由移動(dòng)終端、用戶、噪聲源所構(gòu)成的典型聲學(xué)應(yīng)用場(chǎng)景下，現(xiàn)有技術(shù)采用自動(dòng)增益控制算法檢測(cè)待播放的播音信號(hào)，并對(duì)待播放的播音信號(hào)中的小信號(hào)進(jìn)行放大，將放大后的播音信號(hào)轉(zhuǎn)化為電信號(hào)，并將電信號(hào)傳送到揚(yáng)聲器。通過(guò)上述放大處理，使得送到揚(yáng)聲器的電信號(hào)達(dá)到揚(yáng)聲器所允許的最大值，揚(yáng)聲器工作在最大輸出功率的狀態(tài)下，此時(shí)揚(yáng)聲器W最大的輸出聲壓級(jí)輸出語(yǔ)音信號(hào)。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中，發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)至少存在W下問(wèn)題：
[0005] 由于通常播音信號(hào)的平均波動(dòng)幅度遠(yuǎn)小于峰值波動(dòng)幅度，對(duì)于一個(gè)最大額定輸出功率為1瓦的揚(yáng)聲器來(lái)說(shuō)，在正常語(yǔ)音信號(hào)的激勵(lì)下，它正常工作時(shí)的平均輸出功率一般僅達(dá)到最大額定輸出功率的10%左右（也就是0. 1W)。在正常工作狀態(tài)下，如果繼續(xù)加大輸入到揚(yáng)聲器的電信號(hào)幅度，則播音信號(hào)中幅度較大的信號(hào)部分將導(dǎo)致?lián)P聲器過(guò)載，形成飽和失真，反而降低了語(yǔ)音可懂度與清晰度；另外，如果僅對(duì)播音信號(hào)中的小信號(hào)作放大處理，則將縮小播音信號(hào)的有效動(dòng)態(tài)范圍，對(duì)應(yīng)的語(yǔ)音可懂度同樣也得不到明顯提高。

【發(fā)明內(nèi)容】

[0006] 為了解決相關(guān)技術(shù)的問(wèn)題，本發(fā)明實(shí)施例提供了一種語(yǔ)音信號(hào)的處理方法及裝置。所述技術(shù)方案如下：
[0007] -方面，提供了一種語(yǔ)音信號(hào)的處理方法，所述方法包括：
[0008] 從近端采集錄音信號(hào)并接收對(duì)端發(fā)送的播音信號(hào)，所述錄音信號(hào)中至少包括噪聲信號(hào)及回聲信號(hào)；
[0009] 根據(jù)所述錄音信號(hào)和所述播音信號(hào)，計(jì)算環(huán)路傳遞函數(shù)；
[0010] 計(jì)算所述錄音信號(hào)的功率譜；
[0011] 根據(jù)所述錄音信號(hào)的功率譜、所述播音信號(hào)及所述環(huán)路傳遞函數(shù)，計(jì)算所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜；
[0012] 根據(jù)所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜，計(jì)算頻率加重系數(shù)；
[0013] 基于所述頻率加重系數(shù)，對(duì)所述播音信號(hào)的頻點(diǎn)幅值進(jìn)行調(diào)節(jié)；
[0014] 輸出調(diào)節(jié)后的播音信號(hào)。
[0015] 另一方面，提供了一種語(yǔ)音信號(hào)的處理裝置，所述裝置包括：
[0016] 采集模塊，用于從近端采集錄音信號(hào)，所述錄音信號(hào)中至少包括噪聲信號(hào)及回聲信號(hào)；
[0017] 接收模塊，用于接收對(duì)端發(fā)送的播音信號(hào)；
[0018] 第一計(jì)算模塊，用于根據(jù)所述錄音信號(hào)和所述播音信號(hào)，計(jì)算環(huán)路傳遞函數(shù)；
[0019] 第二計(jì)算模塊，用于計(jì)算所述錄音信號(hào)的功率譜；
[0020] 第Ξ計(jì)算模塊，用于根據(jù)所述錄音信號(hào)的功率譜、所述播音信號(hào)及所述環(huán)路傳遞函數(shù)，計(jì)算所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜；
[0021] 第四計(jì)算模塊，用于根據(jù)所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜，計(jì)算頻率加重系數(shù)；
[0022] 調(diào)節(jié)模塊，用于基于所述頻率加重系數(shù)，對(duì)所述播音信號(hào)的頻點(diǎn)幅值進(jìn)行調(diào)節(jié)；
[0023] 輸出模塊，用于輸出調(diào)節(jié)后的播音信號(hào)。
[0024] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是：
[0025] 在確保揚(yáng)聲器不過(guò)載，且不破壞原始播音信號(hào)的動(dòng)態(tài)幅度的前提下，自動(dòng)根據(jù)噪聲信號(hào)與播音信號(hào)的頻率分布，調(diào)整播音信號(hào)的頻點(diǎn)幅值，明顯提高了語(yǔ)音可懂度。
【附圖說(shuō)明】
[0026] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案，下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可W根據(jù)運(yùn)些附圖獲得其他的附圖。
[0027] 圖1是本發(fā)明一實(shí)施例提供的語(yǔ)音信號(hào)的處理方法所設(shè)及的實(shí)施環(huán)境的示意圖；
[0028] 圖2是本發(fā)明另一實(shí)施例提供的語(yǔ)音信號(hào)的處理方法的系統(tǒng)架構(gòu)圖；
[0029] 圖3是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法流程圖；
[0030] 圖4是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法流程圖；
[0031] 圖5是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法對(duì)應(yīng)的信號(hào)流的示意圖；
[0032] 圖6是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法對(duì)應(yīng)的軟件實(shí)現(xiàn)流程圖；
[0033] 圖7是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理裝置的結(jié)構(gòu)示意圖；
[0034] 圖8是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理終端的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0035] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚，下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方式作進(jìn)一步地詳細(xì)描述。
[0036] 語(yǔ)音即時(shí)通訊應(yīng)用是一種能夠撥打網(wǎng)絡(luò)電話或網(wǎng)絡(luò)音頻會(huì)議的應(yīng)用，被廣泛地安裝在智能手機(jī)、平板電腦、筆記本電腦、可穿戴電子產(chǎn)品等便攜式移動(dòng)終端設(shè)備上。隨著運(yùn) 些便攜式移動(dòng)終端的外形尺寸逐漸向小型化方向發(fā)展，移動(dòng)終端設(shè)備中的微型揚(yáng)聲器所能夠輸出的最大聲功率也遇到了瓶頸。
[0037] 造成移動(dòng)終端所輸出的最大聲功率遇到瓶頸的主要原因有W下兩方面：
[0038] 第一方面、現(xiàn)有的電聲擴(kuò)音技術(shù)主要依靠功放、揚(yáng)聲器、音腔Ξ個(gè)部分共同作用實(shí) 現(xiàn)聲波的產(chǎn)生，當(dāng)揚(yáng)聲器與音腔的物理尺寸與聲波的波長(zhǎng)成正比時(shí)，移動(dòng)終端設(shè)備中的揚(yáng) 聲器才能最大效率地實(shí)現(xiàn)電聲轉(zhuǎn)換。然而，隨著便攜式移動(dòng)設(shè)備的外形尺寸向小型化發(fā)展，移動(dòng)終端的外形尺寸往往比聲波的波長(zhǎng)要小得多，W波長(zhǎng)為340化的聲波為例，若想實(shí)現(xiàn) 最大的聲電轉(zhuǎn)換效率，移動(dòng)終端的尺寸需要達(dá)到1米，揚(yáng)聲器尺寸的微型化導(dǎo)致移動(dòng)終端輸出的最大聲音功率減小。另外，目前普遍使用的動(dòng)圈式揚(yáng)聲器需要達(dá)到一定的尺寸厚度， W保證震膜有足夠的運(yùn)動(dòng)空間，然而，隨著移動(dòng)終端的外形尺寸的減小，揚(yáng)聲器的厚度也相應(yīng)地變薄，由于移動(dòng)終端內(nèi)的整體聲學(xué)設(shè)計(jì)受到了物理尺寸的限制，使得移動(dòng)終端輸出的最大聲功率受到了限制。
[0039] 第二方面、通常移動(dòng)終端中所安裝的語(yǔ)音即時(shí)通訊應(yīng)用一般運(yùn)行于操作系統(tǒng)之上，需要通過(guò)操作系統(tǒng)提供的應(yīng)用程序接口才能實(shí)現(xiàn)對(duì)硬件的音量控制。對(duì)于音頻輸入輸出而言，目前主流的實(shí)現(xiàn)方法是語(yǔ)音即時(shí)通訊應(yīng)用向操作系統(tǒng)聲明要求的音頻配置模式由操作系統(tǒng)對(duì)相關(guān)硬件作出設(shè)置，完成配置之后，語(yǔ)音即時(shí)通訊應(yīng)用只需要定時(shí)地將播音信號(hào)所對(duì)應(yīng)的數(shù)據(jù)寫(xiě)入操作系統(tǒng)的錄音API,再?gòu)牟僮飨到y(tǒng)的錄音API中讀取數(shù)據(jù)即可。然而操作系統(tǒng)所支持的音頻配置模式的類(lèi)型是有限的，運(yùn)些有限的音頻配置模式是由移動(dòng)終端生產(chǎn)商在硬件底層（固件firmware)中實(shí)現(xiàn)的，應(yīng)用程序?qū)τ布敵鲆袅康目刂剖艿竭\(yùn) 一因素的制約，此外硬件廠商往往僅針對(duì)正常的使用場(chǎng)景做底層的音頻優(yōu)化，對(duì)于極端環(huán) 境（比如存在很大環(huán)境噪聲）下的使用場(chǎng)景，移動(dòng)終端生產(chǎn)商一般不會(huì)對(duì)此作針對(duì)性的優(yōu) 化（比如提供可W提高硬件輸出音量的專用軟件接口）。
[0040] 在常見(jiàn)的移動(dòng)終端中，輸出音量從大到小排序依次是：筆記本電腦、平板電腦、智能手機(jī)（免提模式）、可穿戴設(shè)備等。在采用運(yùn)些移動(dòng)終端進(jìn)行通信時(shí)，運(yùn)幾種移動(dòng)終端面臨的環(huán)境噪聲問(wèn)題卻呈相反的變化趨勢(shì)：通常筆記本電腦在室內(nèi)使用的使用頻率比較高，接觸到的噪聲也W室內(nèi)低分貝的小噪聲為主；平板電腦和智能手機(jī)在室外、公共場(chǎng)所使用的頻度要更高，接觸到的噪聲W高分貝的大噪聲為主；可穿戴設(shè)備由于長(zhǎng)時(shí)間佩戴在人體上，接觸到的噪聲場(chǎng)景最多、最復(fù)雜。隨著移動(dòng)終端的外形尺寸向小型化發(fā)展，移動(dòng)終端所面臨的環(huán)境噪聲問(wèn)題越來(lái)越突出，嚴(yán)重影響了用戶使用移動(dòng)終端進(jìn)行通信時(shí)的體驗(yàn)效果。
[0041] 為了解決上述移動(dòng)終端所輸出的最大聲功率遇到瓶頸的問(wèn)題，本發(fā)明實(shí)施例提供了一種在不對(duì)移動(dòng)終端作改動(dòng)的前提下，通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行處理，來(lái)提高移動(dòng)終端的語(yǔ) 音可懂度的方法，采用本實(shí)施例提供的方法用戶即便處于增雜的場(chǎng)景下，也能夠聽(tīng)清通話對(duì)端的語(yǔ)音內(nèi)容。
[0042] 圖1為本發(fā)明提供的語(yǔ)音信號(hào)的處理方法所設(shè)及到的實(shí)施環(huán)境示意圖。參見(jiàn)圖 1，該實(shí)施環(huán)境包括移動(dòng)終端P、用戶U及噪聲源N運(yùn)3個(gè)聲學(xué)主體，還包括揚(yáng)聲器S和麥克風(fēng)M。該移動(dòng)終端P中安裝多個(gè)語(yǔ)音即時(shí)通訊應(yīng)用（App)，基于運(yùn)些語(yǔ)音即時(shí)通訊應(yīng)用，用戶可隨時(shí)隨地與其他用戶進(jìn)行通信。揚(yáng)聲器S作為音頻輸出設(shè)備，既可W內(nèi)置于智能手機(jī)、平板電腦、筆記本電腦、可穿戴設(shè)備等移動(dòng)終端內(nèi)，也可外接設(shè)備如外接音響、外接揚(yáng) 聲器、藍(lán)牙音箱、藍(lán)牙耳機(jī)的形式連接在移動(dòng)終端上；同理，麥克風(fēng)Μ作為音頻輸入設(shè)備，既可W內(nèi)置于智能手機(jī)、平板電腦、筆記本電腦、可穿戴設(shè)備等移動(dòng)終端內(nèi)，也可外接設(shè) 備如外接麥克風(fēng)、藍(lán)牙耳機(jī)的形式連接在移動(dòng)終端上。由圖1可知，麥克風(fēng)Μ可W拾取到整個(gè)場(chǎng)景中的聲音，包括：噪聲源N發(fā)出的噪聲、用戶U說(shuō)話時(shí)發(fā)出的語(yǔ)音、揚(yáng)聲器S播出的聲音。當(dāng)用戶通過(guò)語(yǔ)音即時(shí)通訊軟件與對(duì)端用戶進(jìn)行通信時(shí)，移動(dòng)終端接收對(duì)端發(fā)送的播音信號(hào)，將該播音信號(hào)處理之后，由揚(yáng)聲器轉(zhuǎn)換成聲波，通過(guò)空氣傳播給用戶U并被用戶U所感知；與此同時(shí)噪聲源N發(fā)出的聲波也通過(guò)空氣傳播給用戶U，同時(shí)也被用戶U感知，該噪聲源N發(fā)出的聲波會(huì)對(duì)用戶U形成干擾，降低了用戶收聽(tīng)時(shí)的語(yǔ)音可懂度。
[0043] 在聲學(xué)領(lǐng)域，根據(jù)屯、理聲學(xué)的掩蔽效應(yīng)原理，當(dāng)兩個(gè)頻率相近、幅值差別較大的信號(hào)同時(shí)出現(xiàn)時(shí)，幅值較大的信號(hào)會(huì)對(duì)幅值較小的信號(hào)形成掩蔽作用。也即是，當(dāng)噪聲源N發(fā) 出的噪聲強(qiáng)度很大時(shí)，用戶U無(wú)法聽(tīng)清揚(yáng)聲器S中正在播放的語(yǔ)音內(nèi)容。此時(shí)若想加大揚(yáng) 聲器S的輸出功率，則需要加大S的物理尺寸，而運(yùn)又與便攜式移動(dòng)終端小型化、輕薄化的設(shè)計(jì)相矛盾。鑒于此，本發(fā)明將利用屯、理聲學(xué)的掩蔽效應(yīng)解決噪聲信號(hào)對(duì)播音信號(hào)的干擾問(wèn)題。
[0044] 通常播音信號(hào)、噪聲信號(hào)都不是單頻信號(hào)，它們各自占據(jù)不同的頻帶范圍，并且它們?cè)诟鱾€(gè)頻點(diǎn)上的能量分布也不是均勻的。通過(guò)對(duì)比播音信號(hào)、噪聲信號(hào)的功率譜分布，可找到噪聲信號(hào)中能量最低的那些頻點(diǎn)，記為f_weak。本實(shí)施例在不超過(guò)揚(yáng)聲器輸出功率的前提下，將播音信號(hào)能量集中到f_weak附近播放出去，與此同時(shí)衰減遠(yuǎn)離f_weak的頻點(diǎn)上的語(yǔ)音能量，W避免揚(yáng)聲器過(guò)載。通過(guò)運(yùn)種處理方式，在臨近f_weak的頻點(diǎn)上，噪聲信號(hào)被播音信號(hào)所掩蔽，用戶所感知到的是播音信號(hào)的內(nèi)容。在遠(yuǎn)離f_weak的頻點(diǎn)上，播音信號(hào) 仍舊被噪聲信號(hào)所掩蔽。綜合上述內(nèi)容，增強(qiáng)后的播音信號(hào)在部分頻點(diǎn)上將噪聲信號(hào)掩蔽，使得噪聲不再對(duì)播音信號(hào)形成整體掩蔽，此時(shí)用戶可W聽(tīng)清播音信號(hào)的內(nèi)容。
[0045] 圖2為本發(fā)明提供的語(yǔ)音信號(hào)的處理方法的系統(tǒng)架構(gòu)圖。參見(jiàn)圖2,該系統(tǒng)架構(gòu)包括用戶U、揚(yáng)聲器S、麥克風(fēng)ΜW及各種功能模塊。其中，功能模塊包括信號(hào)檢測(cè)和分類(lèi)模塊、頻譜估計(jì)模塊、環(huán)路函數(shù)傳遞模塊、語(yǔ)音可懂度估計(jì)模塊等，對(duì)于系統(tǒng)的各個(gè)模塊的作用及模塊間的相互關(guān)系如下：
[0046] 其中，麥克風(fēng)Μ用于拾取環(huán)境聲音，在本實(shí)施例中將環(huán)境聲音稱為錄音信號(hào)（記為 X)，并將錄音信號(hào)X送入信號(hào)檢測(cè)與分類(lèi)模塊。
[0047] 信號(hào)檢測(cè)與分類(lèi)模塊用于對(duì)錄音信號(hào)進(jìn)行檢測(cè)與區(qū)分。通過(guò)信號(hào)檢測(cè)與分類(lèi)模塊的檢測(cè)和區(qū)分，可輸出Ξ類(lèi)信號(hào)：用戶U講話時(shí)

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5 6