一種語音信號清晰度的確定方法及裝置的制造方法
【專利摘要】本發(fā)明實(shí)施例公開了一種語音信號清晰度的確定方法及裝置。該方法包括:獲取帶噪聲語音信號的語音信號動態(tài)范圍;基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確定所述帶噪聲語音信號的語言清晰度。本發(fā)明實(shí)施例通過采用上述技術(shù)方案,采用語音信號的動態(tài)范圍作為特征計(jì)算噪聲環(huán)境下的語音信號清晰度,計(jì)算過程不需要使用干凈的無噪聲語音信號,能夠有效地減少計(jì)算噪聲環(huán)境下語音信號清晰度時(shí)所需的操作步驟,提高語音信號清晰度的獲取速度,減小噪聲環(huán)境下語音信號清晰度的計(jì)算難度,增大語音信號清晰度確定方法的適用范圍。
【專利說明】
一種語音信號清晰度的確定方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及信號處理技術(shù)領(lǐng)域,尤其涉及一種語音信號清晰度的確定方法及裝 置。
【背景技術(shù)】
[0002] 現(xiàn)實(shí)環(huán)境中噪聲對人們的言語識別存在極大的影響,語言清晰度(Speech Intelligibility)是衡量噪音環(huán)境下語音信號的清晰度的一個(gè)重要指標(biāo)。
[0003] 語言清晰度是指一個(gè)或幾個(gè)發(fā)音人所發(fā)出的、經(jīng)過通信系統(tǒng)能被一個(gè)或幾個(gè)聽音 人所確定的意義不連貫的語言單位百分?jǐn)?shù)?,F(xiàn)有的許多語言信號清晰度的計(jì)算方法,需要 獲取受到噪聲污染后的帶噪聲語音信號和干凈的、未受到噪聲污染的無噪聲語音信號,然 后對這兩個(gè)信號在時(shí)域/頻域做分析,計(jì)算出兩個(gè)信號的時(shí)域/頻域特征的量化差異。
[0004] 但是,在現(xiàn)實(shí)應(yīng)用場景中,語音信號往往是受到噪音污染的帶噪聲信號,并不存在 真正干凈的、未受到噪聲污染的無噪聲語音信號,使得現(xiàn)有語言信號清晰度的計(jì)算方法存 在很大的局限性,大大縮小了語言信號清晰度的使用范圍。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明實(shí)施例提供一種語音信號清晰度的確定方法及裝置,以解決現(xiàn) 有技術(shù)中語言信號清晰度計(jì)算方法不具有普遍實(shí)用性的技術(shù)問題。
[0006] 第一方面,本發(fā)明實(shí)施例提供了一種語音信號清晰度的確定方法,包括:
[0007] 獲取帶噪聲語音信號的語音信號動態(tài)范圍;
[0008] 基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確定所 述帶噪聲語音信號的語言清晰度。
[0009] 第二方面,本發(fā)明實(shí)施例還提供了一種語音信號清晰度的確定裝置,包括:
[0010]動態(tài)范圍獲取模塊,用于獲取帶噪聲語音信號的語音信號動態(tài)范圍;
[0011] 語言清晰度確定模塊,用于基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰 度之間的數(shù)學(xué)模型確定所述帶噪聲語音信號的語言清晰度。
[0012] 本發(fā)明實(shí)施例提供的語音信號清晰度的確定方案,獲取帶噪聲語音信號的語音信 號動態(tài)范圍,根據(jù)帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確定 該帶噪聲語音信號的語言清晰度。本發(fā)明實(shí)施例通過采用上述技術(shù)方案,采用語音信號的 動態(tài)范圍作為特征計(jì)算噪聲環(huán)境下的語音信號清晰度,計(jì)算過程不需要使用干凈的無噪聲 語音信號,能夠有效地減少計(jì)算噪聲環(huán)境下語音信號清晰度時(shí)所需的操作步驟,提高語音 信號清晰度的獲取速度,減小噪聲環(huán)境下語音信號清晰度的計(jì)算難度,增大語音信號清晰 度確定方法的適用范圍。
【附圖說明】
[0013] 通過閱讀參照以下附圖所作的對非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它 特征、目的和優(yōu)點(diǎn)將會變得更明顯:
[0014] 圖1為本發(fā)明實(shí)施例一提供的一種語音信號清晰度的確定方法的流程示意圖;
[0015] 圖2為本發(fā)明實(shí)施例二提供的一種語音信號清晰度的確定方法的流程示意圖;
[0016] 圖3A為本發(fā)明實(shí)施例二提供的一種語音信號的信號幅度示意圖;
[0017]圖3B為本發(fā)明實(shí)施例二提供的一種語音信號的16ms語音信號子區(qū)間的能量示意 圖;
[0018] 圖4為本發(fā)明實(shí)施例二提供的一種語音信號動態(tài)范圍與語言清晰度的關(guān)系曲線;
[0019] 圖5為本發(fā)明實(shí)施例三提供的一種語音信號清晰度的確定方法的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0020] 下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是,此處所描 述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便 于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。
[0021] 實(shí)施例一
[0022] 本發(fā)明實(shí)施例一提供一種語音信號清晰度的確定方法。該確定方法可以由語音信 號清晰度的確定裝置執(zhí)行,其中,該裝置可由軟件和/或硬件實(shí)現(xiàn)。圖1是本發(fā)明實(shí)施例一提 供的語音信號清晰度的確定方法的流程示意圖。如圖1所示,該確定方法包括:
[0023] S110、獲取帶噪聲語音信號的語音信號動態(tài)范圍。
[0024]在此,帶噪聲語音信號指的是攜帶有噪聲的語音信號。帶噪聲語音信號可以通過 記錄說話人的說話來獲取,也可以通過記錄電腦或手機(jī)等具有語音播放功能的語音播放設(shè) 備播放的說話聲來獲取。帶噪聲語音信號所攜帶的噪聲包括除目標(biāo)語音信號之外的所有聲 音,即,除所需要獲取的目標(biāo)語音,其他所有聲音都可以稱之為噪聲,例如,除目標(biāo)語音之外 的其他語音信號、風(fēng)聲、汽車鳴笛聲或者呼吸聲,等等。帶噪聲語音信號所攜帶的噪聲可以 是單噪聲,也可以是多噪聲,即,帶噪聲語音信號可以只攜帶一個(gè)噪聲信號,也可以攜帶多 個(gè)噪聲信號,此處不作限制。
[0025] 本實(shí)施例中,帶噪聲語音信號的語音信號動態(tài)范圍可以是帶噪聲語音信號的任意 與其語言清晰度之間具有相關(guān)性的物理性的變化量,如,帶噪聲語音信號的振幅或能量等, 此處不作限制。
[0026] S120、基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確 定所述帶噪聲語音信號的語言清晰度。
[0027] 示例性的,帶噪聲語音信號的語音信號動態(tài)范圍與該帶噪聲語音信號的語言清晰 度之間的數(shù)學(xué)模型可以是表示二者關(guān)系的數(shù)學(xué)關(guān)系式,該數(shù)學(xué)關(guān)系式可以是線性關(guān)系式, 也可以是非線性關(guān)系式,只要能夠準(zhǔn)確地描述帶噪聲語音信號的語音信號動態(tài)范圍與其語 言清晰度之間的對應(yīng)關(guān)系即可,一般可以基于經(jīng)驗(yàn)或?qū)嶒?yàn)進(jìn)行確定。
[0028] 本發(fā)明實(shí)施例一提供的語音信號清晰度的確定方法,獲取帶噪聲語音信號的語音 信號動態(tài)范圍,根據(jù)帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型計(jì) 算該帶噪聲語音信號的語言清晰度。本實(shí)施例通過采用上述技術(shù)方案,采用語音信號的動 態(tài)范圍作為特征計(jì)算噪聲環(huán)境下的語音信號清晰度,計(jì)算過程不需要使用干凈的無噪聲語 音信號,能夠有效地減少計(jì)算噪聲環(huán)境下語音信號清晰度時(shí)所需的操作步驟,提高語音信 號清晰度的獲取速度,減小噪聲環(huán)境下語音信號清晰度的計(jì)算難度,增大語音信號清晰度 確定方法的適用范圍。
[0029] 實(shí)施例二
[0030] 圖2為本發(fā)明實(shí)施例二提供的一種語音信號清晰度的確定方法的流程示意圖,本 實(shí)施例在上述實(shí)施例的基礎(chǔ)上進(jìn)行優(yōu)化,進(jìn)一步的,所述獲取帶噪聲語音信號的語音信號 動態(tài)范圍,包括:在噪聲環(huán)境下,獲取一段帶噪聲語音信號;將所述帶噪聲語音信號分割為 預(yù)設(shè)時(shí)間長度的語音信號子區(qū)間,并計(jì)算所述語音信號子區(qū)間的能量;根據(jù)所述語音信號 子區(qū)間的能量獲取所述帶噪聲語音信號預(yù)設(shè)時(shí)間長度的能量曲線并根據(jù)所述能量曲線計(jì) 算所述帶噪聲語音信號的語音信號動態(tài)范圍。
[0031 ]相應(yīng)的,如圖2所示,本實(shí)施例的語音信號清晰度的確定方法包括:
[0032] S210、在噪聲環(huán)境下,獲取一段帶噪聲語音信號。
[0033] 示例性的,可以通過麥克風(fēng)或錄音機(jī)等能夠?qū)⒙曇粜盘栟D(zhuǎn)換為電信號的設(shè)備在噪 聲環(huán)境下直接記錄帶噪聲語音信號,例如,可以直接記錄說話人說的一段話等,如圖3A所 示,其中,橫坐標(biāo)為時(shí)間(s),縱坐標(biāo)為語音信號的信號幅度。
[0034] S220、將所述帶噪聲語音信號分割為預(yù)設(shè)時(shí)間長度的語音信號子區(qū)間,并計(jì)算所 述語音信號子區(qū)間的能量。
[0035] 本實(shí)施例中,可以將帶噪聲語音信號分割為相同時(shí)間長度的語音信號子區(qū)間,所 分割的每個(gè)語音信號子區(qū)間的預(yù)設(shè)時(shí)間長度可以根據(jù)需要靈活設(shè)置,例如,可以將帶噪聲 語音信號分割為時(shí)間長度為16m S、32ms或64ms的語音信號子區(qū)間,此處不作限制。優(yōu)選的, 所述預(yù)設(shè)時(shí)間長度為16ms,即,優(yōu)選將帶噪聲語音信號分割為時(shí)間長度為16ms的語音信號 子區(qū)間,以增大后續(xù)操作與計(jì)算的準(zhǔn)確性。
[0036] 示例性的,帶噪聲語音信號可以以離散時(shí)間信號的形式進(jìn)行存儲與傳輸,此時(shí),相 應(yīng)的,所分割的語音信號子區(qū)間也是由一個(gè)個(gè)離散時(shí)間信號組成的,計(jì)算語音信號子區(qū)間 的能量時(shí),可以首先通過信號幅度與能量之間的關(guān)系式計(jì)算該語音信號子區(qū)間中的每個(gè)離 散信號的能量值,然后將該語音信號子區(qū)間包含的所有離散信號的能量值進(jìn)行求和以得到 該語音信號子區(qū)間的總能量值。
[0037]優(yōu)選的,在計(jì)算得到語音信號子區(qū)間的能量值之后,可以將該能量值轉(zhuǎn)換為以分 貝的形式進(jìn)行表示,以減小后續(xù)計(jì)算步驟的復(fù)雜程序。在將語音信號子區(qū)間的能量值轉(zhuǎn)換 為以分貝的形式進(jìn)行表示時(shí),可以在計(jì)算完所有語音信號子區(qū)間的能量值之后再講每個(gè)能 量值轉(zhuǎn)換為以分貝的形式進(jìn)行表示,也可以在計(jì)算完一個(gè)或幾個(gè)語音信號子區(qū)間的能量值 或者一個(gè)或幾個(gè)離散時(shí)間信號的能量值之后即進(jìn)行將能量值轉(zhuǎn)換為以分貝的形式進(jìn)行表 示的操作,此處不作限制。示例性的,可以采用公式E = 101og1Q(A)將語音信號子區(qū)間的能量 值轉(zhuǎn)換為以分貝的形式進(jìn)行表示,其中,E表示轉(zhuǎn)換后以分貝表示的能量值,A表示轉(zhuǎn)換之前 的能量值。
[0038] S230、根據(jù)所述語音信號子區(qū)間的能量獲取所述帶噪聲語音信號預(yù)設(shè)時(shí)間長度的 能量曲線并根據(jù)所述能量曲線計(jì)算所述帶噪聲語音信號的語音信號動態(tài)范圍。
[0039]考慮到帶噪聲語音信號的物理量與該帶噪聲語音信號的語言清晰度指數(shù)之間相 關(guān)性的大小以及后續(xù)計(jì)算的復(fù)雜程度,優(yōu)選的,所述語音信號動態(tài)范圍為所述帶噪聲語音 信號具有最大能量的語音信號子區(qū)間和具有最小能量的語音信號子區(qū)間之間的能量差。
[0040] 在計(jì)算得到各語音信號子區(qū)間的能量值之后,可以通過MATLAB等軟件對其進(jìn)行擬 合以得到帶噪聲語音信號預(yù)設(shè)時(shí)間長度的能量曲線,然后根據(jù)擬合得到的能量曲線確定帶 噪聲語音信號的具有最大能量的語音信號子區(qū)間的能量值和具有最小能量的語音信號子 區(qū)間的能量值,并將得到的最大能量值和最小能量值做差以得到該帶噪聲語音信號的語音 信號動態(tài)范圍。示例性的,當(dāng)預(yù)設(shè)時(shí)間長度為16ms時(shí),對于圖3A中所示的帶噪聲語音信號的 每個(gè)語音信號子區(qū)間進(jìn)行擬合得到的該語音信號16ms語音信號子區(qū)間的能量圖如圖3B所 示,其中,橫坐標(biāo)為時(shí)間,縱坐標(biāo)為該帶噪聲語音信號16ms語音信號子區(qū)間的能量。
[0041] S240、基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確 定所述帶噪聲語音信號的語言清晰度。
[0042] 示例性的,各不同帶噪聲信號的語音信號動態(tài)范圍對應(yīng)的語言清晰度如表1所示 (表1中只列出了部分?jǐn)?shù)值),進(jìn)一步的,所述帶噪聲語音信號動態(tài)范圍與語言清晰度之間的
,其中,X為帶噪聲語音信號的語音信號動態(tài)范 圍,y為所述帶噪聲語音信號的語言清晰度(如圖4所示)。
[0043] 表 1
[0046]本發(fā)明實(shí)施例二提供的語音信號清晰度的確定方法,在噪聲環(huán)境下獲取一段帶噪 聲語音信號,將該帶噪聲語音信號分割為預(yù)設(shè)時(shí)間長度的語音信號子區(qū)間,計(jì)算每個(gè)語音 信號子區(qū)間的能量,根據(jù)計(jì)算得到的每個(gè)語音信號子區(qū)間的能量擬合該帶噪聲語音信號預(yù) 設(shè)時(shí)間長度的能量曲線并根據(jù)該能量曲線計(jì)算該帶噪聲語音信號的語音信號動態(tài)范圍,根 據(jù)帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確定該帶噪聲語音 信號的語言清晰度。本實(shí)施例通過采用上述技術(shù)方案,采用語音信號的動態(tài)范圍作為特征 計(jì)算噪聲環(huán)境下的語音信號清晰度,計(jì)算過程不需要使用干凈的無噪聲語音信號,能夠有 效地減少計(jì)算噪聲環(huán)境下語音信號清晰度時(shí)所需的操作步驟,提高語音信號清晰度的獲取 速度,減小噪聲環(huán)境下語音信號清晰度的計(jì)算難度,增大語音信號清晰度確定方法的適用 范圍。
[0047] 實(shí)施例三
[0048]圖5為本發(fā)明實(shí)施例三提供的一種語音信號清晰度的確定裝置的結(jié)構(gòu)框圖,該裝 置可由軟件和/或硬件實(shí)現(xiàn),可通過執(zhí)行語音信號清晰度的確定方法來確定語音信號的清 晰度。如圖5所示,該裝置包括:
[0049]動態(tài)范圍獲取模塊510,用于獲取帶噪聲語音信號的語音信號動態(tài)范圍;
[0050] 語言清晰度確定模塊520,用于基于帶噪聲語音信號的語音信號動態(tài)范圍與語言 清晰度之間的數(shù)學(xué)模型確定所述帶噪聲信號的語言清晰度。
[0051] 進(jìn)一步的,所述語音信號動態(tài)范圍為所述帶噪聲語音信號具有最大能量的語音信 號子區(qū)間和具有最小能量的語音信號子區(qū)間之間的能量差。
[0052] 進(jìn)一步的,所述動態(tài)范圍獲取模塊510包括:帶噪聲信號獲取單元,用于在噪聲環(huán) 境下,獲取一段帶噪聲語音信號;信號能量計(jì)算單元,用于將所述帶噪聲語音信號分割為預(yù) 設(shè)時(shí)間長度的語音信號子區(qū)間,并計(jì)算所述語音信號子區(qū)間的能量;動態(tài)范圍計(jì)算單元,用 于根據(jù)所述語音信號子區(qū)間的能量獲取所述帶噪聲語音信號預(yù)設(shè)時(shí)間長度的能量曲線并 根據(jù)所述能量曲線計(jì)算所述帶噪聲語音信號的語音信號動態(tài)范圍。
[0053]進(jìn)一步的,所述預(yù)設(shè)時(shí)間長度為16ms。
[0054] 進(jìn)一步的,所述帶噪聲語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型具體為:
,其中,X為帶噪聲語音信號的語音信號動態(tài)范圍,y為所述帶噪聲 語音信號的語言清晰度。
[0055] 本發(fā)明實(shí)施例三提供的語音信號清晰度的確定裝置可執(zhí)行本發(fā)明任意實(shí)施例所 提供的語音信號清晰度的確定方法,具備執(zhí)行語音信號清晰度的確定方法相應(yīng)的功能模塊 和有益效果,未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見本發(fā)明任意實(shí)施例所提供的語 音信號清晰度的確定方法。
[0056]注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解, 本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、 重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行 了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還 可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。
【主權(quán)項(xiàng)】
1. 一種語音信號清晰度的確定方法,其特征在于,包括: 獲取帶噪聲語音信號的語音信號動態(tài)范圍; 基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之間的數(shù)學(xué)模型確定所述帶 噪聲語音信號的語言清晰度。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語音信號動態(tài)范圍為所述帶噪聲語音 信號具有最大能量的語音信號子區(qū)間和具有最小能量的語音信號子區(qū)間之間的能量差。3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取帶噪聲語音信號的語音信號動態(tài) 范圍,包括: 在噪聲環(huán)境下,獲取一段帶噪聲語音信號; 將所述帶噪聲語音信號分割為預(yù)設(shè)時(shí)間長度的語音信號子區(qū)間,并計(jì)算所述語音信號 子區(qū)間的能量; 根據(jù)所述語音信號子區(qū)間的能量獲取所述帶噪聲語音信號預(yù)設(shè)時(shí)間長度的能量曲線 并根據(jù)所述能量曲線計(jì)算所述帶噪聲語音信號的語音信號動態(tài)范圍。4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述預(yù)設(shè)時(shí)間長度為16ms。5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述帶噪聲語音信號動態(tài)范圍與語言清晰 度之間的數(shù)學(xué)模型具體為:y = -~7.7Ι χ?οο, 1 Η- Β 其中,X為帶噪聲語音信號的語音信號動態(tài)范圍,y為所述帶噪聲語音信號的語言清晰 度。6. -種語音信號清晰度的確定裝置,其特征在于,包括: 動態(tài)范圍獲取模塊,用于獲取帶噪聲語音信號的語音信號動態(tài)范圍; 語言清晰度確定模塊,用于基于帶噪聲語音信號的語音信號動態(tài)范圍與語言清晰度之 間的數(shù)學(xué)模型確定所述帶噪聲信號的語言清晰度。7. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述語音信號動態(tài)范圍為所述帶噪聲語音 信號具有最大能量的語音信號子區(qū)間和具有最小能量的語音信號子區(qū)間之間的能量差。8. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述動態(tài)范圍獲取模塊包括: 帶噪聲信號獲取單元,用于在噪聲環(huán)境下,獲取一段帶噪聲語音信號; 信號能量計(jì)算單元,用于將所述帶噪聲語音信號分割為預(yù)設(shè)時(shí)間長度的語音信號子區(qū) 間,并計(jì)算所述語音信號子區(qū)間的能量; 動態(tài)范圍計(jì)算單元,用于根據(jù)所述語音信號子區(qū)間的能量獲取所述帶噪聲語音信號預(yù) 設(shè)時(shí)間長度的能量曲線并根據(jù)所述能量曲線計(jì)算所述帶噪聲語音信號的語音信號動態(tài)范 圍。9. 根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述預(yù)設(shè)時(shí)間長度為16ms。10. 根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述帶噪聲語音信號動態(tài)范圍與語言清 晰度之間的數(shù)學(xué)模型具體為:y = ;^:L.r:77). X 1Q0:, 1 +掃: 其中,X為帶噪聲語音信號的語音信號動態(tài)范圍,y為所述帶噪聲語音信號的語言清晰 度。
【文檔編號】G10L25/51GK105869656SQ201610387091
【公開日】2016年8月17日
【申請日】2016年6月1日
【發(fā)明人】陳霏
【申請人】南方科技大學(xué)