語(yǔ)音信號(hào)的處理方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及終端技術(shù)領(lǐng)域,特別設(shè)及一種語(yǔ)音信號(hào)的處理方法及裝置。
【背景技術(shù)】
[0002] 語(yǔ)音可懂度是指用戶聽(tīng)懂聲音系統(tǒng)所傳遞的語(yǔ)音信號(hào)的百分比,例如,如果用戶 聽(tīng)到聲音系統(tǒng)傳遞了 100個(gè)單詞,但僅聽(tīng)懂了 50個(gè)單詞,則用戶的語(yǔ)音可懂度為50%。隨 著便攜式移動(dòng)終端的外形尺寸逐漸向小型化方向發(fā)展,移動(dòng)終端所能輸出的最大聲音功率 逐漸減小,相應(yīng)地用戶使用移動(dòng)終端進(jìn)行通信時(shí)的語(yǔ)音可懂度也受到了影響。由于語(yǔ)音可 懂度是衡量移動(dòng)終端性能的一項(xiàng)重要指標(biāo),因此,移動(dòng)終端如何處理語(yǔ)音信號(hào),W改善語(yǔ)音 可懂度,成為其發(fā)展的關(guān)鍵。
[0003] 目前,在由移動(dòng)終端、用戶、噪聲源所構(gòu)成的典型聲學(xué)應(yīng)用場(chǎng)景下,現(xiàn)有技術(shù)采用 自動(dòng)增益控制算法檢測(cè)待播放的播音信號(hào),并對(duì)待播放的播音信號(hào)中的小信號(hào)進(jìn)行放大, 將放大后的播音信號(hào)轉(zhuǎn)化為電信號(hào),并將電信號(hào)傳送到揚(yáng)聲器。通過(guò)上述放大處理,使得送 到揚(yáng)聲器的電信號(hào)達(dá)到揚(yáng)聲器所允許的最大值,揚(yáng)聲器工作在最大輸出功率的狀態(tài)下,此 時(shí)揚(yáng)聲器W最大的輸出聲壓級(jí)輸出語(yǔ)音信號(hào)。
[0004] 在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)相關(guān)技術(shù)至少存在W下問(wèn)題:
[0005] 由于通常播音信號(hào)的平均波動(dòng)幅度遠(yuǎn)小于峰值波動(dòng)幅度,對(duì)于一個(gè)最大額定輸出 功率為1瓦的揚(yáng)聲器來(lái)說(shuō),在正常語(yǔ)音信號(hào)的激勵(lì)下,它正常工作時(shí)的平均輸出功率一般 僅達(dá)到最大額定輸出功率的10%左右(也就是0. 1W)。在正常工作狀態(tài)下,如果繼續(xù)加大 輸入到揚(yáng)聲器的電信號(hào)幅度,則播音信號(hào)中幅度較大的信號(hào)部分將導(dǎo)致?lián)P聲器過(guò)載,形成 飽和失真,反而降低了語(yǔ)音可懂度與清晰度;另外,如果僅對(duì)播音信號(hào)中的小信號(hào)作放大處 理,則將縮小播音信號(hào)的有效動(dòng)態(tài)范圍,對(duì)應(yīng)的語(yǔ)音可懂度同樣也得不到明顯提高。
【發(fā)明內(nèi)容】
[0006] 為了解決相關(guān)技術(shù)的問(wèn)題,本發(fā)明實(shí)施例提供了一種語(yǔ)音信號(hào)的處理方法及裝 置。所述技術(shù)方案如下:
[0007] -方面,提供了一種語(yǔ)音信號(hào)的處理方法,所述方法包括:
[0008] 從近端采集錄音信號(hào)并接收對(duì)端發(fā)送的播音信號(hào),所述錄音信號(hào)中至少包括噪聲 信號(hào)及回聲信號(hào);
[0009] 根據(jù)所述錄音信號(hào)和所述播音信號(hào),計(jì)算環(huán)路傳遞函數(shù);
[0010] 計(jì)算所述錄音信號(hào)的功率譜;
[0011] 根據(jù)所述錄音信號(hào)的功率譜、所述播音信號(hào)及所述環(huán)路傳遞函數(shù),計(jì)算所述回聲 信號(hào)的功率譜和所述噪聲信號(hào)的功率譜;
[0012] 根據(jù)所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜,計(jì)算頻率加重系數(shù);
[0013] 基于所述頻率加重系數(shù),對(duì)所述播音信號(hào)的頻點(diǎn)幅值進(jìn)行調(diào)節(jié);
[0014] 輸出調(diào)節(jié)后的播音信號(hào)。
[0015] 另一方面,提供了一種語(yǔ)音信號(hào)的處理裝置,所述裝置包括:
[0016] 采集模塊,用于從近端采集錄音信號(hào),所述錄音信號(hào)中至少包括噪聲信號(hào)及回聲 信號(hào);
[0017] 接收模塊,用于接收對(duì)端發(fā)送的播音信號(hào);
[0018] 第一計(jì)算模塊,用于根據(jù)所述錄音信號(hào)和所述播音信號(hào),計(jì)算環(huán)路傳遞函數(shù);
[0019] 第二計(jì)算模塊,用于計(jì)算所述錄音信號(hào)的功率譜;
[0020] 第Ξ計(jì)算模塊,用于根據(jù)所述錄音信號(hào)的功率譜、所述播音信號(hào)及所述環(huán)路傳遞 函數(shù),計(jì)算所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜;
[0021] 第四計(jì)算模塊,用于根據(jù)所述回聲信號(hào)的功率譜和所述噪聲信號(hào)的功率譜,計(jì)算 頻率加重系數(shù);
[0022] 調(diào)節(jié)模塊,用于基于所述頻率加重系數(shù),對(duì)所述播音信號(hào)的頻點(diǎn)幅值進(jìn)行調(diào)節(jié);
[0023] 輸出模塊,用于輸出調(diào)節(jié)后的播音信號(hào)。
[0024] 本發(fā)明實(shí)施例提供的技術(shù)方案帶來(lái)的有益效果是:
[0025] 在確保揚(yáng)聲器不過(guò)載,且不破壞原始播音信號(hào)的動(dòng)態(tài)幅度的前提下,自動(dòng)根據(jù)噪 聲信號(hào)與播音信號(hào)的頻率分布,調(diào)整播音信號(hào)的頻點(diǎn)幅值,明顯提高了語(yǔ)音可懂度。
【附圖說(shuō)明】
[0026] 為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使 用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可W根據(jù)運(yùn)些附圖獲得其他 的附圖。
[0027] 圖1是本發(fā)明一實(shí)施例提供的語(yǔ)音信號(hào)的處理方法所設(shè)及的實(shí)施環(huán)境的示意圖;
[0028] 圖2是本發(fā)明另一實(shí)施例提供的語(yǔ)音信號(hào)的處理方法的系統(tǒng)架構(gòu)圖;
[0029] 圖3是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法流程圖;
[0030] 圖4是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法流程圖;
[0031] 圖5是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法對(duì)應(yīng)的信號(hào)流的示 意圖;
[0032] 圖6是本發(fā)明的另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理方法對(duì)應(yīng)的軟件實(shí)現(xiàn)流 程圖;
[0033] 圖7是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理裝置的結(jié)構(gòu)示意圖;
[0034] 圖8是本發(fā)明另一實(shí)施例提供的一種語(yǔ)音信號(hào)的處理終端的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0035] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。
[0036] 語(yǔ)音即時(shí)通訊應(yīng)用是一種能夠撥打網(wǎng)絡(luò)電話或網(wǎng)絡(luò)音頻會(huì)議的應(yīng)用,被廣泛地安 裝在智能手機(jī)、平板電腦、筆記本電腦、可穿戴電子產(chǎn)品等便攜式移動(dòng)終端設(shè)備上。隨著運(yùn) 些便攜式移動(dòng)終端的外形尺寸逐漸向小型化方向發(fā)展,移動(dòng)終端設(shè)備中的微型揚(yáng)聲器所能 夠輸出的最大聲功率也遇到了瓶頸。
[0037] 造成移動(dòng)終端所輸出的最大聲功率遇到瓶頸的主要原因有W下兩方面:
[0038] 第一方面、現(xiàn)有的電聲擴(kuò)音技術(shù)主要依靠功放、揚(yáng)聲器、音腔Ξ個(gè)部分共同作用實(shí) 現(xiàn)聲波的產(chǎn)生,當(dāng)揚(yáng)聲器與音腔的物理尺寸與聲波的波長(zhǎng)成正比時(shí),移動(dòng)終端設(shè)備中的揚(yáng) 聲器才能最大效率地實(shí)現(xiàn)電聲轉(zhuǎn)換。然而,隨著便攜式移動(dòng)設(shè)備的外形尺寸向小型化發(fā)展, 移動(dòng)終端的外形尺寸往往比聲波的波長(zhǎng)要小得多,W波長(zhǎng)為340化的聲波為例,若想實(shí)現(xiàn) 最大的聲電轉(zhuǎn)換效率,移動(dòng)終端的尺寸需要達(dá)到1米,揚(yáng)聲器尺寸的微型化導(dǎo)致移動(dòng)終端 輸出的最大聲音功率減小。另外,目前普遍使用的動(dòng)圈式揚(yáng)聲器需要達(dá)到一定的尺寸厚度, W保證震膜有足夠的運(yùn)動(dòng)空間,然而,隨著移動(dòng)終端的外形尺寸的減小,揚(yáng)聲器的厚度也相 應(yīng)地變薄,由于移動(dòng)終端內(nèi)的整體聲學(xué)設(shè)計(jì)受到了物理尺寸的限制,使得移動(dòng)終端輸出的 最大聲功率受到了限制。
[0039] 第二方面、通常移動(dòng)終端中所安裝的語(yǔ)音即時(shí)通訊應(yīng)用一般運(yùn)行于操作系統(tǒng)之 上,需要通過(guò)操作系統(tǒng)提供的應(yīng)用程序接口才能實(shí)現(xiàn)對(duì)硬件的音量控制。對(duì)于音頻輸入輸 出而言,目前主流的實(shí)現(xiàn)方法是語(yǔ)音即時(shí)通訊應(yīng)用向操作系統(tǒng)聲明要求的音頻配置模式由 操作系統(tǒng)對(duì)相關(guān)硬件作出設(shè)置,完成配置之后,語(yǔ)音即時(shí)通訊應(yīng)用只需要定時(shí)地將播音信 號(hào)所對(duì)應(yīng)的數(shù)據(jù)寫(xiě)入操作系統(tǒng)的錄音API,再?gòu)牟僮飨到y(tǒng)的錄音API中讀取數(shù)據(jù)即可。然 而操作系統(tǒng)所支持的音頻配置模式的類(lèi)型是有限的,運(yùn)些有限的音頻配置模式是由移動(dòng)終 端生產(chǎn)商在硬件底層(固件firmware)中實(shí)現(xiàn)的,應(yīng)用程序?qū)τ布敵鲆袅康目刂剖艿竭\(yùn) 一因素的制約,此外硬件廠商往往僅針對(duì)正常的使用場(chǎng)景做底層的音頻優(yōu)化,對(duì)于極端環(huán) 境(比如存在很大環(huán)境噪聲)下的使用場(chǎng)景,移動(dòng)終端生產(chǎn)商一般不會(huì)對(duì)此作針對(duì)性的優(yōu) 化(比如提供可W提高硬件輸出音量的專用軟件接口)。
[0040] 在常見(jiàn)的移動(dòng)終端中,輸出音量從大到小排序依次是:筆記本電腦、平板電腦、智 能手機(jī)(免提模式)、可穿戴設(shè)備等。在采用運(yùn)些移動(dòng)終端進(jìn)行通信時(shí),運(yùn)幾種移動(dòng)終端面 臨的環(huán)境噪聲問(wèn)題卻呈相反的變化趨勢(shì):通常筆記本電腦在室內(nèi)使用的使用頻率比較高, 接觸到的噪聲也W室內(nèi)低分貝的小噪聲為主;平板電腦和智能手機(jī)在室外、公共場(chǎng)所使用 的頻度要更高,接觸到的噪聲W高分貝的大噪聲為主;可穿戴設(shè)備由于長(zhǎng)時(shí)間佩戴在人體 上,接觸到的噪聲場(chǎng)景最多、最復(fù)雜。隨著移動(dòng)終端的外形尺寸向小型化發(fā)展,移動(dòng)終端所 面臨的環(huán)境噪聲問(wèn)題越來(lái)越突出,嚴(yán)重影響了用戶使用移動(dòng)終端進(jìn)行通信時(shí)的體驗(yàn)效果。
[0041] 為了解決上述移動(dòng)終端所輸出的最大聲功率遇到瓶頸的問(wèn)題,本發(fā)明實(shí)施例提供 了一種在不對(duì)移動(dòng)終端作改動(dòng)的前提下,通過(guò)對(duì)語(yǔ)音信號(hào)進(jìn)行處理,來(lái)提高移動(dòng)終端的語(yǔ) 音可懂度的方法,采用本實(shí)施例提供的方法用戶即便處于增雜的場(chǎng)景下,也能夠聽(tīng)清通話 對(duì)端的語(yǔ)音內(nèi)容。
[0042] 圖1為本發(fā)明提供的語(yǔ)音信號(hào)的處理方法所設(shè)及到的實(shí)施環(huán)境示意圖。參見(jiàn)圖 1,該實(shí)施環(huán)境包括移動(dòng)終端P、用戶U及噪聲源N運(yùn)3個(gè)聲學(xué)主體,還包括揚(yáng)聲器S和麥克 風(fēng)M。該移動(dòng)終端P中安裝多個(gè)語(yǔ)音即時(shí)通訊應(yīng)用(App),基于運(yùn)些語(yǔ)音即時(shí)通訊應(yīng)用,用 戶可隨時(shí)隨地與其他用戶進(jìn)行通信。揚(yáng)聲器S作為音頻輸出設(shè)備,既可W內(nèi)置于智能手機(jī)、 平板電腦、筆記本電腦、可穿戴設(shè)備等移動(dòng)終端內(nèi),也可外接設(shè)備如外接音響、外接揚(yáng) 聲器、藍(lán)牙音箱、藍(lán)牙耳機(jī)的形式連接在移動(dòng)終端上;同理,麥克風(fēng)Μ作為音頻輸入設(shè)備,既 可W內(nèi)置于智能手機(jī)、平板電腦、筆記本電腦、可穿戴設(shè)備等移動(dòng)終端內(nèi),也可外接設(shè) 備如外接麥克風(fēng)、藍(lán)牙耳機(jī)的形式連接在移動(dòng)終端上。由圖1可知,麥克風(fēng)Μ可W拾取到整 個(gè)場(chǎng)景中的聲音,包括:噪聲源N發(fā)出的噪聲、用戶U說(shuō)話時(shí)發(fā)出的語(yǔ)音、揚(yáng)聲器S播出的聲 音。當(dāng)用戶通過(guò)語(yǔ)音即時(shí)通訊軟件與對(duì)端用戶進(jìn)行通信時(shí),移動(dòng)終端接收對(duì)端發(fā)送的播音 信號(hào),將該播音信號(hào)處理之后,由揚(yáng)聲器轉(zhuǎn)換成聲波,通過(guò)空氣傳播給用戶U并被用戶U所 感知;與此同時(shí)噪聲源N發(fā)出的聲波也通過(guò)空氣傳播給用戶U,同時(shí)也被用戶U感知,該噪 聲源N發(fā)出的聲波會(huì)對(duì)用戶U形成干擾,降低了用戶收聽(tīng)時(shí)的語(yǔ)音可懂度。
[0043] 在聲學(xué)領(lǐng)域,根據(jù)屯、理聲學(xué)的掩蔽效應(yīng)原理,當(dāng)兩個(gè)頻率相近、幅值差別較大的信 號(hào)同時(shí)出現(xiàn)時(shí),幅值較大的信號(hào)會(huì)對(duì)幅值較小的信號(hào)形成掩蔽作用。也即是,當(dāng)噪聲源N發(fā) 出的噪聲強(qiáng)度很大時(shí),用戶U無(wú)法聽(tīng)清揚(yáng)聲器S中正在播放的語(yǔ)音內(nèi)容。此時(shí)若想加大揚(yáng) 聲器S的輸出功率,則需要加大S的物理尺寸,而運(yùn)又與便攜式移動(dòng)終端小型化、輕薄化的 設(shè)計(jì)相矛盾。鑒于此,本發(fā)明將利用屯、理聲學(xué)的掩蔽效應(yīng)解決噪聲信號(hào)對(duì)播音信號(hào)的干擾 問(wèn)題。
[0044] 通常播音信號(hào)、噪聲信號(hào)都不是單頻信號(hào),它們各自占據(jù)不同的頻帶范圍,并且它 們?cè)诟鱾€(gè)頻點(diǎn)上的能量分布也不是均勻的。通過(guò)對(duì)比播音信號(hào)、噪聲信號(hào)的功率譜分布,可 找到噪聲信號(hào)中能量最低的那些頻點(diǎn),記為f_weak。本實(shí)施例在不超過(guò)揚(yáng)聲器輸出功率的 前提下,將播音信號(hào)能量集中到f_weak附近播放出去,與此同時(shí)衰減遠(yuǎn)離f_weak的頻點(diǎn)上 的語(yǔ)音能量,W避免揚(yáng)聲器過(guò)載。通過(guò)運(yùn)種處理方式,在臨近f_weak的頻點(diǎn)上,噪聲信號(hào)被 播音信號(hào)所掩蔽,用戶所感知到的是播音信號(hào)的內(nèi)容。在遠(yuǎn)離f_weak的頻點(diǎn)上,播音信號(hào) 仍舊被噪聲信號(hào)所掩蔽。綜合上述內(nèi)容,增強(qiáng)后的播音信號(hào)在部分頻點(diǎn)上將噪聲信號(hào)掩蔽, 使得噪聲不再對(duì)播音信號(hào)形成整體掩蔽,此時(shí)用戶可W聽(tīng)清播音信號(hào)的內(nèi)容。
[0045] 圖2為本發(fā)明提供的語(yǔ)音信號(hào)的處理方法的系統(tǒng)架構(gòu)圖。參見(jiàn)圖2,該系統(tǒng)架構(gòu)包 括用戶U、揚(yáng)聲器S、麥克風(fēng)ΜW及各種功能模塊。其中,功能模塊包括信號(hào)檢測(cè)和分類(lèi)模塊、 頻譜估計(jì)模塊、環(huán)路函數(shù)傳遞模塊、語(yǔ)音可懂度估計(jì)模塊等,對(duì)于系統(tǒng)的各個(gè)模塊的作用及 模塊間的相互關(guān)系如下:
[0046] 其中,麥克風(fēng)Μ用于拾取環(huán)境聲音,在本實(shí)施例中將環(huán)境聲音稱為錄音信號(hào)(記為 X),并將錄音信號(hào)X送入信號(hào)檢測(cè)與分類(lèi)模塊。
[0047] 信號(hào)檢測(cè)與分類(lèi)模塊用于對(duì)錄音信號(hào)進(jìn)行檢測(cè)與區(qū)分。通過(guò)信號(hào)檢測(cè)與分類(lèi)模塊 的檢測(cè)和區(qū)分,可輸出Ξ類(lèi)信號(hào):用戶U講話時(shí)