本發(fā)明屬于助盲領(lǐng)域,涉及圖聲轉(zhuǎn)換領(lǐng)域的信息技術(shù),特別是一種改進(jìn)的IFFT圖聲轉(zhuǎn)換方法。
背景技術(shù):圖聲轉(zhuǎn)換是用非語(yǔ)言的聲音表示圖像信息,可用于電子行走輔助(electronictravelaid)系統(tǒng)和視覺替代(visionsubstitution)系統(tǒng),為盲人和視覺損傷患者提供基于聽覺通路的無(wú)損傷視覺補(bǔ)償。目前圖聲轉(zhuǎn)換方法有vOICe系統(tǒng)和IFFT(InversefastFouriertransform)圖聲轉(zhuǎn)換方法。Meijer1992年提出vOICe系統(tǒng),它的內(nèi)部工作方式是先將輸入圖像(M×N)轉(zhuǎn)換為灰度圖像,使像素值介于0-255之間。逐列掃描灰度圖像,1秒一次,從左至右。如圖1,每列圖像的每一個(gè)像素轉(zhuǎn)換為一個(gè)聲音信號(hào),聲音的振幅用像素值表示,聲音的頻率與像素的位置有關(guān),將圖像頂部像素映射成高頻,圖像底部像素映射成低頻,由圖像頂部到底部,頻率線性降低。圖像第j列的像素由(1)式轉(zhuǎn)換成聲音:式中和分別為圖像第j列第i行的像素轉(zhuǎn)換成聲音的振幅和頻率,N為圖像總行數(shù),n為聲音的持續(xù)時(shí)間。其中聲音信號(hào)的頻率范圍為f∈[fmin,fmax]Hz,根據(jù)采樣定理,采樣率fs=2*fmaxHz,故又c=fmax-fmin,是一個(gè)常數(shù),故公式(1)可以表示為這種方法計(jì)算量大,實(shí)時(shí)性較差。張璇等在vOICe系統(tǒng)的基礎(chǔ)上提出一種有效的基于IFFT圖聲轉(zhuǎn)換的盲人視覺輔助方法(AnEfficientMethodofImage-SoundConversionBasedonIFFTforVisionAidfortheBlind)。通過對(duì)每列圖像的每一個(gè)像素值進(jìn)行IDFT(InverseDiscreteFourierTransform),即可得到該列圖像對(duì)應(yīng)的聲音信號(hào)。將圖像從左至右逐列變換輸出,最終將整幅圖像轉(zhuǎn)換為聲音信號(hào)。IDFT變換公式為由歐拉公式,只取IDFT的實(shí)部即可得到故圖像第j列的像素由(6)式轉(zhuǎn)換成聲音:這里xj(n)是第j列像素經(jīng)過IDFT變換后的聲音信號(hào),Xj(i)為輸入圖像(M×N)第j列第i行的像素值,與式(1)中對(duì)應(yīng)。由于系數(shù)為常數(shù),在圖聲轉(zhuǎn)換中不會(huì)影響數(shù)據(jù)變化的本質(zhì),只是在幅度上產(chǎn)生波動(dòng),因此可忽略不計(jì)。式(6)與vOICe系統(tǒng)轉(zhuǎn)換公式(1)比較,結(jié)構(gòu)一致,故可用IDFT方法擬合vOICe系統(tǒng)。文中用IFFT代替IDFT,可將計(jì)算復(fù)雜度由o(N2)降為o(N*logN)。論文中設(shè)轉(zhuǎn)換后的聲音信號(hào)時(shí)間為T=1s,采樣點(diǎn)數(shù)為NS。采樣率為最小頻率間隔,即頻率分辨率為經(jīng)過IFFT變換后的聲音信號(hào)的頻率范圍為f∈[0,fN]=[0,N*Δf]=[0,N]Hz。這種方法雖較vOICe系統(tǒng)有所改進(jìn),計(jì)算量有所降低,但沒有考慮人耳最佳接受的頻率范圍,轉(zhuǎn)換完的聲音信號(hào)頻帶過窄、頻率過低,聲音的豐滿度和聽覺舒適度均較差。
技術(shù)實(shí)現(xiàn)要素:本方法要解決的技術(shù)問題是針對(duì)現(xiàn)有圖聲轉(zhuǎn)換方法計(jì)算量大、實(shí)時(shí)性差,未能充分考慮人耳最佳接受的頻率范圍,聲音表達(dá)的豐滿度和聽覺舒適度均較差的問題,提出一種改進(jìn)的IFFT圖聲轉(zhuǎn)換方法。本發(fā)明采用如下的技術(shù)方案,如圖2,步驟如下:(1)設(shè)定參數(shù),設(shè)定圖聲轉(zhuǎn)換后聲音信號(hào)持續(xù)時(shí)間為T,采樣點(diǎn)數(shù)為NS,采樣頻率為最小頻率間隔,即頻率分辨率為(2)輸入一幅M×N的圖像,將其轉(zhuǎn)換為灰度圖像,使像素值介于0-255之間;(3)提取(2)中的一列像素,該列像素的像素值為Xj(0),Xj(1),…,Xj(N-1),j為提取圖像像素所在列序號(hào);(4)根據(jù)vOICe系統(tǒng)的映射原理,將圖像像素映射為聲音信號(hào)的頻域幅值;如圖3,將Xj(0)和Xj(N-1)分別映射為聲音信號(hào)中最高頻與最低頻對(duì)應(yīng)的幅值,相鄰像素對(duì)應(yīng)的頻率分辨率為Δf;定義頻帶寬度為圖聲轉(zhuǎn)換后聲音信號(hào)的最高頻率與最低頻率之差,圖像映射為聲音后頻帶寬度為N*ΔfHz,聲音信號(hào)頻帶寬度過窄,人耳不易分辨,因此需要進(jìn)一步拓寬頻帶,以提高聲音的豐滿度;(5)對(duì)(4)中提取的像素進(jìn)行數(shù)據(jù)變換,如圖4,具體步驟如下:(a)拓寬頻帶提高聲音信號(hào)的豐滿度;設(shè)滿足要求的聲音信號(hào)的頻帶寬度為ΔFHz,其對(duì)應(yīng)的頻率分量個(gè)數(shù)為為拓寬頻帶,相鄰像素間插入個(gè)幅值為“0”的頻率分量,如圖4②;此時(shí)聲音信號(hào)的頻率范圍為f∈[0,fmax′]=[0,N′*Δf]=[0,ΔF]Hz,但聲音信號(hào)中含有許多低頻信息,影響聲音的舒適度,因此需要進(jìn)行移頻;(b)對(duì)聲音信號(hào)進(jìn)行移頻,提高聽覺舒適度;定義圖聲轉(zhuǎn)換的有效頻率范圍為聲音信號(hào)的能夠滿足人耳聽覺舒適度的最低有效頻率與最高有效頻率之間的范圍;根據(jù)采樣定理,聲音信號(hào)的最大頻率為為了提高聲音信號(hào)的聽覺舒適度,將(a)中的數(shù)據(jù)頻移至圖聲轉(zhuǎn)換的有效頻率范圍f∈[f1,f2]=[f1,f1+ΔF]Hz內(nèi),其中f2<fmax;為了獲得聲音信號(hào)完整的頻域響應(yīng),在f1前補(bǔ)充個(gè)頻率分量,f2后補(bǔ)充個(gè)頻率分量,幅值均設(shè)為“0”,如圖4④;(c)根據(jù)實(shí)數(shù)信號(hào)FFT結(jié)果的對(duì)稱性,將(b)中進(jìn)行對(duì)稱變換,如圖5;為了減少計(jì)算量,將對(duì)稱部分(圖5①)用“0”代替,如圖4⑥;由IFFT轉(zhuǎn)換原理,用“0”代替對(duì)稱數(shù)據(jù),對(duì)其進(jìn)行IFFT變換后取實(shí)部,與傳統(tǒng)IFFT變換取實(shí)部相比,得到的頻率成分一致,幅值為一半,因此不影響聲音的頻帶寬度以及聲音表達(dá)的豐滿度和聽覺舒適度,即不影響轉(zhuǎn)換后聲音信號(hào)的最終結(jié)果;(6)對(duì)數(shù)據(jù)變化后的(5)中的數(shù)據(jù)進(jìn)行IFFT變換,將圖像轉(zhuǎn)換為成聲音時(shí)域信號(hào);(7)判斷(6)中的數(shù)據(jù)是否為圖像的最后一列,若是則圖聲轉(zhuǎn)換完成;若不是,則取圖像的下一列,重復(fù)步驟(3)到(6),直到整幅圖像轉(zhuǎn)換成聲音;本發(fā)明的有益結(jié)果是該方法考慮人耳的聽力范圍,通過拓寬頻帶和移頻,使轉(zhuǎn)換后的聲音信號(hào)達(dá)到需要的頻率范圍f∈[f1,f2]Hz,提高了聲音表達(dá)的豐滿度和聽覺舒適度;并用“0”代替對(duì)稱數(shù)據(jù),可大大減少計(jì)算量。附圖說明圖1為vOICe系統(tǒng)的原理圖,其中①為一個(gè)像素,像素值為②為逐列掃描圖像,③為第j列圖像的每一個(gè)像素都轉(zhuǎn)換為一個(gè)聲音信號(hào),聲音的振幅用像素值表示,頻率與像素的位置有關(guān),將圖像頂部像素映射成高頻,圖像底部像素映射成低頻,由圖像頂部到底部,頻率線性降低,③為第j列像素轉(zhuǎn)換的聲音信號(hào)圖2為改進(jìn)的IFFT圖聲轉(zhuǎn)換方法的算法流程;圖3為將圖像中的一列像素映射為聲音信號(hào)的頻域幅值,其中①、②分別為聲音信號(hào)中最高頻與最低頻對(duì)應(yīng)的幅值;圖4是圖2中的數(shù)據(jù)變換部分,其中①為拓寬頻帶,②為插入頻率分量,每個(gè)頻率分量對(duì)應(yīng)幅值為“0”,③為移頻,④為補(bǔ)充頻率分量,并將其幅值設(shè)為“0”,⑤為對(duì)稱變換,⑥為對(duì)稱部分用“0”代替;圖5是圖4中的對(duì)稱變換部分,其中①為對(duì)稱部分。具體實(shí)施方式本發(fā)明是考慮人耳聽力范圍的改進(jìn)的IFFT圖聲轉(zhuǎn)換方法,下面參照附圖和實(shí)施例對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行說明。該發(fā)明的步驟如下:(1)設(shè)定參數(shù)。設(shè)定轉(zhuǎn)換后聲音信號(hào)的時(shí)間T=Is,采樣點(diǎn)數(shù)NS=40002。采樣頻率為最小的頻率間隔,即頻率分辨率為(2)輸入一幅501*501的圖像,即M=N=501,將其轉(zhuǎn)換為灰度圖像,使像素值介于0-255之間。(3)提取(2)中的一列像素,該列像素的像素值為Xj(0),Xj(1),…,Xj(N-1),j為提取圖像像素所在列序號(hào)。(4)根據(jù)vOICe系統(tǒng)的映射原理,將圖像像素映射為聲音的頻域幅值。將Xj(0)和Xj(N-1)分別映射為聲音信號(hào)中最高頻與最低頻對(duì)應(yīng)的幅值,相鄰像素對(duì)應(yīng)的頻率分辨率為Δf。定義頻帶寬度為圖聲轉(zhuǎn)換后聲音信號(hào)的最高頻率與最低頻率之差。圖像映射為聲音后頻帶寬度為N*Δf=501Hz,聲音信號(hào)頻帶寬度過窄,人耳不易分辨,因此需要進(jìn)一步拓寬頻帶,以提高聲音的豐滿度。(5)對(duì)(4)中提取的像素進(jìn)行數(shù)據(jù)變換,具體步驟如下:(a)拓寬頻帶提高聲音信號(hào)的豐滿度。設(shè)滿足要求的聲音信號(hào)的頻帶寬度為ΔF=9001Hz,其對(duì)應(yīng)的頻率分量數(shù)為為拓寬頻帶,相鄰像素間插入個(gè)頻率分量,其幅值為“0”,如圖4②。此時(shí)聲音信號(hào)的頻率范圍為f∈[0,fmax′]=[0,ΔF]=[0,9001]Hz,聲音信號(hào)中含有許多低頻信息,影響聲音的舒適度,因此需要進(jìn)行移頻。(b)對(duì)聲音信號(hào)進(jìn)行移頻,提高聽覺舒適度。定義圖聲轉(zhuǎn)換的有效頻率范圍為聲音信號(hào)的能夠滿足人耳聽覺舒適度的最低有效頻率與最高有效頻率之間的范圍。根據(jù)采樣定理,聲音信號(hào)的最大頻率為為了提高聲音信號(hào)的聽覺舒適度,將(a)中的數(shù)據(jù)頻移至圖聲轉(zhuǎn)換的有效頻率范圍f∈[f1,f2]=[f1,f1+ΔF]=[1000,10001]Hz內(nèi),滿足f2<fmax。為了獲得聲音信號(hào)完整的頻域響應(yīng),在f1前補(bǔ)充個(gè)頻率分量,f2后補(bǔ)充個(gè)頻率分量,將其幅值均設(shè)為“0”,如圖4④。(c)根據(jù)實(shí)數(shù)信號(hào)FFT結(jié)果的對(duì)稱性,將(b)中進(jìn)行對(duì)稱變換,如圖5。為了減少計(jì)算量,將對(duì)稱部分(圖5①)用“0”代替,如圖4⑥。(6)對(duì)數(shù)據(jù)變化后的(5)中的數(shù)據(jù)進(jìn)行IFFT變換,將圖像轉(zhuǎn)換成聲音信號(hào)。(7)判斷(6)中的數(shù)據(jù)是否為圖像的最后一列,若是則圖聲轉(zhuǎn)換完成;若不是,則取圖像的下一列,重復(fù)步驟(3)到(6),直到整幅圖像轉(zhuǎn)換成聲音。