一種基于生理特征的全頻段3D虛擬聲定制方法及裝置與流程

文檔序號：12136553閱讀：210來源：國知局

本發(fā)明涉及3D虛擬聲技術領域，具體涉及一種基于生理特征的3D虛擬聲定制的方法及裝置，其生成為滿足個體聽覺特性的虛擬聲。

背景技術：

隨著三維(3D)電視、電影以及虛擬現(xiàn)實(virtual reality，VR)技術的發(fā)展，3D虛擬聲技術成為多媒體和消費電子領域的研究熱點。顧名思義，虛擬聲技術是采用信號處理的方法形成虛擬的聲源(或聲像)，從而使聽者獲得和真實聲源相同的主觀感受。頭相關傳輸函數(shù)(head-related transfer function,HRTF)是虛擬聲算法的核心；它表征了聲波從聲源到雙耳的傳輸過程中，人體生理器官(如頭部、耳廓)對聲波的改變。HRTF是聲源空間方位的函數(shù)；當聲源位于一個特定空間方位時，聲波到達雙耳的傳播途徑對應一對HRTF(左右耳各一)。由于不同聽者具有個性化生理形態(tài)(如頭部大小、耳廓微結構)，所以HRTF是一個因人而異的個性化物理量?，F(xiàn)有研究表明，為了獲得高沉浸感的虛擬重放效果，虛擬聲合成需要采用聽者自己的個性化HRTF數(shù)據(jù)。個性化HRTF可以通過實驗室測量或數(shù)值計算獲取。然而，這兩種方法都需要專業(yè)設備且非常耗時，很難將其應用到實際的虛擬聲產(chǎn)品中。實際的虛擬聲產(chǎn)品往往采用固定的非個性化HRTF數(shù)據(jù)，因而存在定位精度偏低、前后聲像混亂率高等缺陷。

個性化生理特征是形成個性化HRTF的根源，兩者具有一定的對應性，故可以借助生理特征的相似性，找到和聽者個性化HRTF最相似的HRTF數(shù)據(jù)，作為定制的HRTF數(shù)據(jù)。這就是基于生理特征的個性化HRTF定制的基本思路，其基本實現(xiàn)步驟為：(1)測量聽者生理參數(shù)；(2)計算聽者生理參數(shù)和已有HRTF數(shù)據(jù)庫(即基線數(shù)據(jù)庫)中每個受試者的相似度；(3)挑選相似度最大的受試者為最相似受試者；(4)采用最相似受試者的HRTF數(shù)據(jù)作為聽者的最相似HRTF數(shù)據(jù)，實現(xiàn)聽者個性化HRTF的定制。雖然上述定制(或最相似)HRTF和個性化HRTF存在一定的細節(jié)差異，但由于人類有限的聽覺分辨能力，這些細節(jié)差異通常不會導致聽覺差異?，F(xiàn)有的相關研究主要是Zotkin等的工作(D.N.Zotkin et al.“HRTF personalization using anthropometric measurements”,in Proceedings of the 2003IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,157-160,2003)。Zotkin等從照片中提取出七個耳廓生理參數(shù)，通過耳廓參數(shù)的相似度比較，找到聽者的最相似HRTF，進行虛擬聲合成。相應的心理聲學實驗結果表明該方法可以明顯改善非個性化虛擬聲的缺陷，增強聽者的沉浸感。然而，現(xiàn)有研究存在以下不足：(1)Zotkin的工作選取了基線數(shù)據(jù)庫中已有的七個耳廓參數(shù)，沒有對其進行篩選，所以定制所需的生理參數(shù)的數(shù)目尚未優(yōu)化；(2)現(xiàn)有工作僅限于耳廓作用明顯的高頻(5kHz以上)，缺乏全頻段(人類聽覺頻段為0～20kHz)的定制HRTF的獲取策略。這些不足制約了基于生理特征的虛擬聲技術的發(fā)展和相關產(chǎn)品性能的進一步提高。

技術實現(xiàn)要素：

本發(fā)明為解決上述現(xiàn)有基于生理特征的3D虛擬聲技術中存在的缺陷，提供一種基于生理特征的全頻段3D虛擬聲定制方法及裝置。本發(fā)明提供從已有的HRTF基線數(shù)據(jù)庫中，通過五個頭部和耳廓的生理特征的相似度計算和分析，找出聽者全頻段(包括低頻和高頻)的定制HRTF數(shù)據(jù)進行虛擬聲合成。該方法可在全頻段實現(xiàn)虛擬聲效果的提升，包括定位精度的提高和前后混亂率的下降。

本發(fā)明的目的通過以下技術方案實現(xiàn)。

一種基于生理特征的全頻段3D虛擬聲定制方法，包括如下步驟：

步驟1、輸入初始數(shù)據(jù)，包括原始單通路信號、基線HRTF數(shù)據(jù)庫、耳機均衡響應；

步驟2、采用拍攝裝置獲取聽者頭部和耳廓的圖像，利用軟件從中提取出五個生理參數(shù)，包括一個頭部生理參數(shù)和四個耳廓生理參數(shù)，所述的頭部生理參數(shù)為兩耳屏間寬，所述的四個耳廓生理參數(shù)為耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角；

步驟3、通過生理參數(shù)的相似度分析，從基線HRTF數(shù)據(jù)庫中找出聽者的低頻最相似HRTF數(shù)據(jù)和高頻最相似HRTF數(shù)據(jù)分別作為低頻段的定制HRTF數(shù)據(jù)和高頻段的定制HRTF數(shù)據(jù)，將兩者進行組合，得到聽者全頻段的定制HRTF數(shù)據(jù)；

步驟4、將全頻段的定制HRTF數(shù)據(jù)、原始單通路信號、耳機均衡響應依次進行時間域卷積處理或等價地頻率域濾波處理，得到合成的雙耳虛擬聲信號，輸出到耳機進行重放。

進一步地，步驟1中的所述基線HRTF數(shù)據(jù)庫包含受試者HRTF數(shù)據(jù)和生理參數(shù)測量數(shù)據(jù)，例如美國加利福尼亞大學戴維斯分校CIPIC數(shù)據(jù)庫、中國華南理工大學中國人樣本HRTF數(shù)據(jù)庫。

進一步地，所述基線HRTF數(shù)據(jù)庫包括美國加利福尼亞大學戴維斯分校CIPIC數(shù)據(jù)庫、中國華南理工大學中國人樣本HRTF數(shù)據(jù)庫。

進一步地，步驟3具體包括：

步驟301、將聽者和基線數(shù)據(jù)庫中受試者的所述四個耳廓生理參數(shù)代入

(1)式中P_n(n＝1,2,3,4)分別表示聽者的所述四個耳廓生理參數(shù)(耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角)；P'_n(n＝1,2,3,4)分別表示基線數(shù)據(jù)庫中受試者的所述四個耳廓生理參數(shù)(耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角)；σ_n表示基線數(shù)據(jù)庫全體受試者生理參數(shù)n的標準差；E_high就是在耳廓作用明顯的高頻段，聽者和基線數(shù)據(jù)庫中受試者的生理參數(shù)偏差；重復步驟301，得到聽者和基線數(shù)據(jù)庫中每個受試者的E_high；

步驟302、挑選E_high最小值所對應的受試者，從基線HRTF數(shù)據(jù)庫中取其頻率為4kHz≤f≤20kHz的高頻HRTF數(shù)據(jù)H_high，作為高頻段的定制HRTF；

步驟303、將聽者和基線數(shù)據(jù)庫中受試者的所述頭部生理參數(shù)代入

(2)式中q和q'分別表示聽者和基線數(shù)據(jù)庫中受試者的所述頭部生理參數(shù)(兩耳屏間寬)；σ表示基線數(shù)據(jù)庫全體受試者所述頭部生理參數(shù)(兩耳屏間寬)的標準差；E_low就是在頭部作用明顯的低頻段，聽者和基線數(shù)據(jù)庫中受試者的生理參數(shù)偏差；重復步驟303，得到聽者和基線數(shù)據(jù)庫中每個受試者的E_low；

步驟304、挑選E_low最小值所對應的受試者，從基線HRTF數(shù)據(jù)庫中取其頻率為0Hz≤f≤5kHz的低頻HRTF數(shù)據(jù)H_low，作為低頻段的定制HRTF；

步驟305、因上述H_high和H_low未必取自同一個受試者，故采用頻率為4kHz≤f≤5kHz的過渡區(qū)取幾何平均值的方法，獲得聽者全頻段的定制HRTF數(shù)據(jù)H_full，即：

步驟306、對左、右耳分別實施步驟301～步驟305，得到雙耳的全頻段定制HRTF數(shù)據(jù)。

上述H_high和H_low可能取自兩個不同的受試者A和B。因此，為了得到全頻段定制HRTF數(shù)據(jù)，需要分別截取受試者A的全頻段HRTF數(shù)據(jù)的高頻部分H_high和受試者B的全頻段HRTF數(shù)據(jù)的低頻部分H_low，并將兩者在頻率域進行組合。此時，在實施組合的頻率處極易出現(xiàn)HRTF特征(包括相位和幅度)的突變，引起聽覺感知畸變，導致聲像不自然、不易定位的現(xiàn)象。為了克服上述缺陷，公式(3)中在組合的頻率處設置了平滑過渡區(qū)，過渡區(qū)中的HRTF取H_high和H_low的幾何平均值。如果對H_high和H_low的幾何平均值取對數(shù)，就得到(lgH_low+lgH_high)/2。也就是說，這里的幾何平均值對應對數(shù)域上的算數(shù)平均值?？紤]到人耳的聽覺感知和信號的對數(shù)幅度密切相關，因此這里過渡區(qū)采用幾何平均值是符合聽覺特性的。

一種用于實現(xiàn)所述方法的裝置，包括：

圖像獲取模塊，用于拍攝聽者正面、背面、左側面(含左耳)、右側面(含右耳)的圖像；

運算控制模塊，用于從已有的HRTF基線數(shù)據(jù)庫中，通過五個頭部和耳廓的生理特征的相似度計算和分析，找出聽者全頻段(包括低頻和高頻)的定制HRTF數(shù)據(jù)進行虛擬聲合成；

虛擬聲播放模塊，由聲卡和耳機組成，用于播放合成的虛擬聲信號。

進一步地，所述的運算控制模塊包括：

生理參數(shù)提取模塊，用于從圖像獲取模塊拍攝的圖像中提取出五個生理參數(shù)，包括一個頭部生理參數(shù)和四個耳廓生理參數(shù)，所述的頭部生理參數(shù)為兩耳屏間寬，所述的四個耳廓生理參數(shù)為耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角；

HRTF定制模塊，通過生理參數(shù)的相似度分析，從基線HRTF數(shù)據(jù)庫中找出聽者的低頻最相似HRTF數(shù)據(jù)和高頻最相似HRTF數(shù)據(jù)分別作為低頻段的定制HRTF數(shù)據(jù)和高頻段的定制HRTF數(shù)據(jù)，將兩者進行組合，得到聽者全頻段的定制HRTF數(shù)據(jù)；

虛擬聲信號合成模塊，用于將全頻段的定制HRTF數(shù)據(jù)、原始單通路信號、耳機均衡響應依次進行時間域卷積處理或等價地頻率域濾波處理，得到合成的雙耳虛擬聲信號，輸出到耳機進行重放。

本發(fā)明的原理是：HRTF反映了生理結構和聲波的相互作用；只有當生理尺寸和聲波波長比較接近時，生理結構對聲波的作用才顯著。因此，對于波長較長的低頻聲波，頭部參數(shù)對HRTF的影響顯著；而對于波長較短的高頻聲波，耳廓參數(shù)對HRTF的影響顯著。由于高質(zhì)量的虛擬聲重放需要采用和聽者生理形態(tài)相符的HRTF數(shù)據(jù)進行信號處理，所以本發(fā)明提出分別根據(jù)頭部和耳廓參數(shù)的相似性，從基線HRTF數(shù)據(jù)庫中尋找聽者的低頻和高頻定制HRTF數(shù)據(jù)，進而獲得聽者全頻段的定制HRTF數(shù)據(jù)。通常，基線HRTF數(shù)據(jù)庫包含多個頭部和耳廓生理參數(shù)，我們統(tǒng)計分析了不同生理參數(shù)之間的相關性，從中挑選出一個頭部生理參數(shù)(兩耳屏間寬)和四個耳廓生理參數(shù)(耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角)進行上述基于生理特征的全頻段3D虛擬聲定制。

本發(fā)明與現(xiàn)有技術相比，具有如下優(yōu)點和有益效果：

1.本發(fā)明采用全頻段的定制HRTF進行虛擬聲合成，可進一步提高定位準確性，減少前后虛擬聲像的混淆，增強3D虛擬聲重放的沉浸感。

2.本發(fā)明僅采用五個頭部和耳廓的生理參數(shù)進行HRTF定制。由于生理參數(shù)數(shù)量減少，相應的生理參數(shù)提取和相似性分析的過程得到簡化，便于實際應用。

3.本發(fā)明可采用算法語言編制的軟件在多媒體計算機上實現(xiàn)，也可以采用通用信號處理芯片(DSP硬件)電路或專用的集成電路實現(xiàn)，用于各種便攜式播放設備包括智能手機、虛擬現(xiàn)實等方面的聲音重放。

附圖說明

圖1是本發(fā)明實施例的原理圖；

圖2是頭部和耳廓的五個生理參數(shù)示意圖；

圖3是本發(fā)明實施例的模塊連接示意圖；

圖4是本發(fā)明實施例的多媒體計算機實現(xiàn)的信號流程圖。

具體實施方式

下面結合附圖對本發(fā)明作進一步的說明，但本發(fā)明要求保護范圍并不局限于實施例表示的范圍。

圖1是本發(fā)明的基于生理特征的全頻段3D虛擬聲定制方法的原理方框圖。它分別采用頭部參數(shù)和耳廓參數(shù)的相似度分析，獲取低頻和高頻的定制HRTF，進一步采用逐漸過渡合成的方法得到全頻段定制HRTF。采用全頻段定制HRTF合成的虛擬聲信號，其重放效果優(yōu)于現(xiàn)有技術，表現(xiàn)為聽者定位準確性的提高以及沉浸感的增強。

一種基于生理特征的全頻段3D虛擬聲定制方法，包括如下步驟：

步驟1、輸入初始數(shù)據(jù)，包括原始單通路信號、基線HRTF數(shù)據(jù)庫、耳機均衡響應；

具體而言，本實施例所述基線HRTF數(shù)據(jù)庫包含受試者HRTF數(shù)據(jù)和生理參數(shù)測量數(shù)據(jù)，例如美國加利福尼亞大學戴維斯分校CIPIC數(shù)據(jù)庫、中國華南理工大學中國人樣本HRTF數(shù)據(jù)庫。

具體而言，所述步驟3具體包括：

步驟301、將聽者和基線數(shù)據(jù)庫中受試者的四個耳廓生理參數(shù)代入

(1)式中P_n(n＝1,2,3,4)分別表示聽者的四個耳廓生理參數(shù)(耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角)；P'_n(n＝1,2,3,4)分別表示基線數(shù)據(jù)庫中受試者的四個耳廓生理參數(shù)(耳甲腔高度、耳甲腔寬度、耳前后偏轉角、耳凸起角)；σ_n表示基線數(shù)據(jù)庫全體受試者生理參數(shù)n的標準差；E_high就是在耳廓作用明顯的高頻段，聽者和基線數(shù)據(jù)庫中受試者的生理參數(shù)偏差；重復步驟301，得到聽者和基線數(shù)據(jù)庫中每個受試者的E_high；

步驟302、挑選E_high最小值所對應的受試者，從基線HRTF數(shù)據(jù)庫中取其高頻HRTF數(shù)據(jù)H_high(4kHz≤f≤20kHz)，作為高頻段的定制HRTF；

步驟303、將聽者和基線數(shù)據(jù)庫中受試者的所述頭部生理參數(shù)代入

(2)式中q和q'分別表示聽者和基線數(shù)據(jù)庫中受試者的頭部生理參數(shù)(兩耳屏間寬)；σ表示基線數(shù)據(jù)庫全體受試者頭部生理參數(shù)(兩耳屏間寬)的標準差；E_low就是在頭部作用明顯的低頻段，聽者和基線數(shù)據(jù)庫中受試者的生理參數(shù)偏差。重復步驟303，得到聽者和基線數(shù)據(jù)庫中每個受試者的E_low；

步驟304、挑選E_low最小值所對應的受試者，從基線HRTF數(shù)據(jù)庫中取其低頻HRTF數(shù)據(jù)H_low(0Hz≤f≤5kHz)，作為低頻段的定制HRTF；

步驟305、因上述H_high和H_low未必取自同一個受試者，故采用過渡區(qū)(4kHz≤f≤5kHz)取幾何平均值的方法，獲得聽者全頻段的定制HRTF數(shù)據(jù)H_full，即：

步驟306、對左、右耳分別實施步驟301～步驟305，得到雙耳的全頻段定制HRTF數(shù)據(jù)。

其中，步驟2中需要提取的五個生理參數(shù)如圖2所示。從左至右，a點和b點分別代表左、右耳屏點，線段ab代表兩耳屏間寬。線段cd和ef分別表示耳甲腔高度和耳甲腔寬度。由于耳甲腔并非一個規(guī)則的圓形腔體，上述線段cd和ef分別取最大高度和最大寬度。g為耳垂點，線段gh為過g點的垂線，線段gi為耳廓最大長度，∠hgi為耳前后偏轉角。線段jl貼近且平行于頭表，k為耳廓相對于頭表的最高點，∠kjl為耳凸起角。上述生理參數(shù)的提取可以采用現(xiàn)有軟件，如solidworks，也可根據(jù)上述定義自行編寫軟件進行提取。

如圖3所示，一種用于實現(xiàn)所述方法的裝置，包括：

圖像獲取模塊，用于拍攝聽者正面、背面、左側面(含左耳)、右側面(含右耳)的圖像；

虛擬聲播放模塊，由聲卡和耳機組成，用于播放合成的虛擬聲信號。

其中，所述的運算控制模塊包括：

其中，圖像獲取模塊可以采用多媒體計算機的內(nèi)置或者外置(USB接口)攝像機實現(xiàn)；近期，隨著3D打印技術的興起，手持3D掃描儀也逐漸普及，它也可以實現(xiàn)聽者頭部圖像的獲取。運算控制模塊可以采用個人多媒體計算機實現(xiàn)，其中的三個模塊(生理參數(shù)提取模塊、HRTF定制模塊、虛擬聲信號合成模塊)可以采用matlab或者C++語言編程。圖4是相應編程的信號流程圖，合成某個空間方位的虛擬聲像需要一對定制HRTF(左右耳各一)。虛擬聲播放模塊可以采用計算機的內(nèi)置或者外置聲卡，外置聲卡的效果往往優(yōu)于內(nèi)置聲卡，可以根據(jù)具體應用需求進行選擇。

其中，運算控制模塊也可以設計成專用的集成電路芯片實現(xiàn)，還可以利用通用信號處理芯片所做成的硬件電路實現(xiàn)，應用于各種手持移動終端、便攜式播放設備。

本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例，而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說，在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等，均應包含在本發(fā)明權利要求的保護范圍之內(nèi)。

完整全部詳細技術資料下載

當前第1頁1 2 3