專利名稱:聲音區(qū)域的檢測方法及其裝置,以及利用這個(gè)方法及裝置的話速變換方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及話速變換及其裝置,在電視、無線電、帶式錄音機(jī)、帶式錄像機(jī)、碟片放像機(jī)、助聽器等映像機(jī)器、音響機(jī)器、醫(yī)療機(jī)器中,在不延長時(shí)間情況下,經(jīng)話速變換實(shí)現(xiàn)所期待的容易聽取。
本發(fā)明還涉及在廣播頻道和錄音帶或日常生活中對(duì)伴有雜音或背景音發(fā)聲的聲音進(jìn)行加工既變更聲音的高低或說話速度、又將意思內(nèi)容作機(jī)械識(shí)別,在符號(hào)化傳送或者記錄場合等等,將輸入信號(hào)中的聲音區(qū)域和非聲音區(qū)域加以判別的聲音區(qū)域檢測方法及其裝置。
本發(fā)明是關(guān)于將人的發(fā)出聲音進(jìn)行加工、實(shí)時(shí)變換發(fā)話速度的話速變換方法及其裝置的發(fā)明。在遲緩收聽聲音的發(fā)音速度(話速)時(shí),本發(fā)明進(jìn)行了一系列處理,一面用一定的處理單位時(shí)常監(jiān)視輸入聲音的數(shù)據(jù)長和根據(jù)有關(guān)的事先給出的伸縮倍率的變換系數(shù)預(yù)先計(jì)算出的輸出數(shù)據(jù)長以及實(shí)際輸出的聲音數(shù)據(jù)長,一面不丟失信息。
在這個(gè)話速變換方法及其裝置中,本發(fā)明能自動(dòng)生成下述功能比如使用于電視的視聽時(shí),利用延伸聲音以達(dá)到圖像和聲音的時(shí)間差最小為目的,將有著與話速變換中期待的遲緩程度(變換倍率)相適應(yīng)而被設(shè)定的可變下框界值以上長度的非聲音區(qū)域加以適當(dāng)?shù)乜s短,進(jìn)而依據(jù)相對(duì)于輸入數(shù)據(jù)長的輸出數(shù)據(jù)長的時(shí)間差的程度通過適應(yīng)性變化變換倍率,一面將變換聲音的發(fā)話時(shí)間幾乎保持在原發(fā)生音的發(fā)話時(shí)間內(nèi),一面在所決定的時(shí)間限界里能實(shí)現(xiàn)最大的舒適感。
本發(fā)明對(duì)于輸入信號(hào)數(shù)據(jù),在每一個(gè)設(shè)定的時(shí)間間隔中,用具有所設(shè)定的時(shí)間間隔的幀單位將其功率算出,在保持住過去所設(shè)定的時(shí)間內(nèi)的功率最大值和最小值同時(shí),利用和相應(yīng)于保持著的最大值以及最大值與最小值的差而變化的功率有關(guān)的下框界值,一面逐次適應(yīng)輸入信號(hào)中聲音和背景音的各自功率的變化,一面在每個(gè)幀中,依據(jù)進(jìn)行聲音區(qū)域和非聲音區(qū)域的判別,正確檢測出輸入信號(hào)中的聲音區(qū)域,對(duì)廣播頻道、錄音帶或者日常生活中伴有雜音和背景音的已發(fā)出的聲音予以加工、變換聲音的高低和話語速度,機(jī)械認(rèn)識(shí)意思內(nèi)容,在符號(hào)化后傳送或記錄等的場合中,謀求加工聲音的音質(zhì)提高,聲音認(rèn)識(shí)率的改善,符號(hào)化效率的上升或譯碼化聲音品質(zhì)的提高。
而且,由于僅利用了功率比較簡便求得的特征量,因此在縮短運(yùn)算時(shí)間的同時(shí)降低了造價(jià),并可能實(shí)時(shí)進(jìn)行聲音的處理。
把話速變換方法適用于實(shí)際的傳播的場合、緊急播送等,會(huì)有比原聲音遲緩的問題,特別伴有影像的媒體,這種遲緩會(huì)帶來與話速變換中所期待的效果相反的壞影響。
因此,不使比原聲音遲緩的發(fā)生,作為實(shí)現(xiàn)話速變換效果(舒適感)的手法,一種不是均衡地慢慢變換,而以從一口氣說話發(fā)音的開始點(diǎn)到終了點(diǎn)的所經(jīng)過的時(shí)間的函數(shù)、用話速從慢到快變化、或?qū)⒕渥娱g的非聲音部區(qū)適當(dāng)?shù)乜s短的方法(池澤龍等,平成4年日本音響學(xué)會(huì)春期研究發(fā)表會(huì)“吸收與話速變換相應(yīng)的時(shí)間伸張的一種方法”2-6-2,PP,331~332)和將這一方法實(shí)時(shí)處理化的方法(今井篤等,平成7年電子情報(bào)通信學(xué)會(huì),綜合大會(huì)講演論文集“與話速變換相應(yīng)的時(shí)間伸張的實(shí)時(shí)吸收法”D-694、PP300)等有所報(bào)告。
前者是,在完全知曉發(fā)話樣式的基礎(chǔ)上,以適當(dāng)?shù)暮瘮?shù)用手動(dòng)設(shè)定的,后者也將給與倍率的函數(shù)用手動(dòng)規(guī)定,在一次設(shè)定以后,把這固定起來的。
另外,非聲音區(qū)域的縮短也是僅把一定的殘留時(shí)間,用手動(dòng)加以規(guī)定的,例如“偏移”累計(jì)多了時(shí)就將在緩沖存儲(chǔ)器中積蓄的伸張部分的聲音用手動(dòng)加以清除。
因此,傳統(tǒng)的話速變換裝置中的播放聲音的發(fā)話形態(tài)(話速、間隔的取法等)由發(fā)話者不一而各種各樣,利用手動(dòng)形式,則必須設(shè)定出每個(gè)都要適應(yīng)的參數(shù),因此伴隨操作點(diǎn)多不但使設(shè)定本身困難、而且一般用戶安裝起來也困難,這是言不為過的問題。
而且在上述的話速變換裝置中有必要把聲音區(qū)域和非聲音區(qū)域識(shí)別后認(rèn)識(shí),傳統(tǒng)的聲音區(qū)域控制方式有各種各樣。
作為傳統(tǒng)的聲音區(qū)域檢測方式之一,是以聲音信號(hào)的功率等為基礎(chǔ),計(jì)算出雜音能級(jí)、聲音能級(jí),以這個(gè)計(jì)算結(jié)果為基準(zhǔn)設(shè)定能級(jí)的下框界值、將這個(gè)能級(jí)下框界值與輸入信號(hào)加以比較、輸入信號(hào)的能級(jí)大時(shí),將這判定成聲音區(qū)域,能級(jí)小時(shí)將這判定非聲音區(qū)域。采用這種方式的能級(jí)下框界值設(shè)定方法有代表性的是第1~第3種方式,第1種方式中在聲音輸入時(shí)的雜音能級(jí)值里加入預(yù)設(shè)的常數(shù)所得到的值作為能級(jí)下框值。而將這改良的第2種方式,是從輸入聲音信號(hào)能級(jí)最大值中減去雜音能級(jí)值。所得值大時(shí),在比較大值中設(shè)定上述的能級(jí)下框值,所得值小時(shí),將比較小值定上述能級(jí)下框界值(如特開昭58-130395號(hào)公報(bào)、特開昭61-272796號(hào)公報(bào)等)。又第3種方式中,是在這些能級(jí)下框界值的設(shè)定方法里添加對(duì)以上輸入信號(hào)的連續(xù)觀測、這一能級(jí)經(jīng)一定時(shí)間保持一定時(shí),則把這視為雜音能級(jí)、而后一面逐次更新雜音能級(jí),一面設(shè)定為檢測出聲音區(qū)域的下框界值(平成7年、電子情報(bào)通信學(xué)會(huì)綜合大會(huì)講演論文集D-695.301頁)。
但是上述傳統(tǒng)的聲音區(qū)域檢出方式中,存在有下述的問題,首先第1種方式雖有簡便的優(yōu)點(diǎn),在聲音的平均能級(jí)為中等程度時(shí),其機(jī)能優(yōu)越,但存在有聲音的平均能級(jí)過大時(shí)容易將雜音等作為聲音誤檢出來、而且在過小時(shí)又容易丟失聲音的一部分后再檢測等問題。
其次,第2種方式,雖能將這樣的第1種方式的問題加以解決,但是因?yàn)槭且暂斎胄盘?hào)中的雜音、背景音的能級(jí)差不多一定為前提,所以面對(duì)聲音的能級(jí)變動(dòng)雖可將其追蹤,但在雜音和背景音的能級(jí)時(shí)時(shí)刻刻變化的場合則有無法保證正確的聲音區(qū)域被檢出的問題。
再次,第3種方式中,由于考慮到這樣雜音能級(jí)的變動(dòng),雜音能級(jí)逐次變化著,也不會(huì)發(fā)生誤檢出。
但是在播放頻道等里也不是僅存雜音,作為效果音的音樂和擬音等的背景音也存在,而一般情況下這些的音能級(jí)時(shí)刻在變動(dòng),而且與此同時(shí),聲音通常是持續(xù)發(fā)生的,輸入信號(hào)能級(jí)過了一定時(shí)間幾乎不會(huì)是固定的,在這樣場合下,即使是第3種方式也不能正確地設(shè)定雜音能級(jí),聲音區(qū)域的正確檢出成為難題。
本發(fā)明有鑒于上述問題,以提供具有下述功能的話速變換方法及其裝置為目的使用者僅是一次設(shè)定操作作為數(shù)階段大致標(biāo)準(zhǔn)的變換倍率,適應(yīng)性地控制與被設(shè)定的條件相適應(yīng)的話速變換倍率和非聲音區(qū)域。在實(shí)際發(fā)話的時(shí)間段內(nèi),話速變換中所期待的效果就能穩(wěn)定地得到。
而且以提供具有下述功能的聲音區(qū)域檢測方法及其裝置為目的僅僅應(yīng)用功率比較簡便地求得特征量、運(yùn)算時(shí)間縮短的同時(shí)、成本隨著降低而且逐次適應(yīng)輸入聲音、背景音和各自的能級(jí)變化、實(shí)時(shí)進(jìn)行聲音處理,能判別聲音區(qū)域和非聲音區(qū)域。
為達(dá)到上述的目的,本發(fā)明權(quán)利要求1中記載的聲音區(qū)域檢測方法,其特征是對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù)在每一所設(shè)定的時(shí)間間隔中,以所設(shè)定的幀幅計(jì)算出幀功率,與此同時(shí),保持住過去所設(shè)定的時(shí)間內(nèi)的幀功率的最大值及最小值,決定下框界值,這個(gè)下框界值和相應(yīng)于被保持著的最大值以及最大值與最小值的差而變化的功率有關(guān),將這個(gè)下框界值與現(xiàn)在的幀的功率作一比較,以決定現(xiàn)在的幀是聲音區(qū)間還是非聲音區(qū)間。
由于上述的構(gòu)成,權(quán)利要求1記載的聲音區(qū)域檢測方法,對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù)在每一所設(shè)定的時(shí)間間隔內(nèi)以所設(shè)定的幀幅算出幀功率,同時(shí)保持住過去所設(shè)定時(shí)間內(nèi)的幀功率的最大值及最小值,決定下框界值,這個(gè)下框界值和相應(yīng)于被保持著的最大值以及最大值與最小值的差而變化的功率有關(guān),將這個(gè)下框界值與現(xiàn)在的幀的功率作一比較,依據(jù)決定現(xiàn)在的幀是聲音區(qū)域還是非聲音區(qū)域,逐次對(duì)應(yīng)輸入聲音和背景音各自能級(jí)的變化進(jìn)行實(shí)時(shí)聲音處理、判別聲音區(qū)域非聲音區(qū)域。
權(quán)利要求2記載的聲音區(qū)間檢測方法的特征是在權(quán)利要求1中記載的聲音區(qū)域檢測方法里,最大值與最小值的差未達(dá)到所設(shè)定的值的場合,相比于最大值與最小值的差在所設(shè)定值以上的場合將上述下框界值決定為接近最大值。
為了達(dá)到上述的目的,權(quán)利要求3中記載的聲音區(qū)域檢測裝置,其特征是具備對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù),在所設(shè)定的時(shí)間間隔中在所設(shè)定的幀幅把幀功率計(jì)算出的功率運(yùn)算器和把過去所設(shè)定的時(shí)間內(nèi)的幀功率最大值保持著的瞬時(shí)功率最大值保持器及把過去所設(shè)定時(shí)間內(nèi)的幀功率最小值保持著的瞬時(shí)功率最小值保持器以及,決定下框界值的功率下框界值決定器,這個(gè)下框界值和保持在這些瞬時(shí)功率最大值保持器、瞬時(shí)功率最小值保持器里的最大值以及最大值與最小值的差二者而變化的功率有關(guān),還有依據(jù)這個(gè)功率下框界值決定器得出的下框界值同現(xiàn)在的幀的功率作一比較,把是聲音區(qū)域還是非聲音區(qū)域加以決定的判定器。
根據(jù)上述的構(gòu)成,權(quán)利要求3記載的聲音區(qū)域檢測裝置中利用功率運(yùn)算器,在每一所設(shè)定的時(shí)間間隔里,用具有所設(shè)定的時(shí)間幅的幀單位把輸入進(jìn)來的信號(hào)數(shù)據(jù)加以處理,將其功率計(jì)算出來的同時(shí),利用瞬時(shí)功率最大值保持器及瞬時(shí)功率最小值保持器,保持住在過去所設(shè)定時(shí)間內(nèi)的功率最大值和功率最小值,同時(shí)利用功率下框界值決定器決定下框界值,這個(gè)下框界值和相應(yīng)予被保持著的最大值以及最大值與最小值的差而變化的功率有關(guān),根據(jù)判定器、基于上述下框界值將上述輸入信號(hào)數(shù)據(jù)區(qū)分幀單位屬于聲音區(qū)域和非聲音區(qū)域。由于僅將功率比較簡便地作特征量于以利用,在縮短運(yùn)算時(shí)間的同時(shí),降低了成本,同時(shí)將輸入聲音同背景聲各自的能級(jí)的變化逐次適應(yīng),進(jìn)而實(shí)時(shí)進(jìn)行聲音處理,判別聲音區(qū)間和非聲音區(qū)間。
權(quán)利要求4記載的聲音區(qū)域檢測裝置其特征是在權(quán)利要求3里記載的聲音區(qū)域檢測裝置里上述功率下框界值決定器中最大值與最小值的差未達(dá)到所設(shè)定值時(shí),相比于最大值與最小值的差在所設(shè)定值以上的場合,把上述下框界值決定為接近最大值。
而且為達(dá)到上述的目的,權(quán)利要求5中記載的話速變換方法,包括在時(shí)間變化的任意比率下當(dāng)將輸入數(shù)據(jù)伸張合成而得出的輸出數(shù)據(jù)中出現(xiàn)某非聲音區(qū)域,這個(gè)非聲音區(qū)間的繼續(xù)時(shí)間超越所設(shè)定的下框界值時(shí),削減對(duì)應(yīng)于輸入數(shù)據(jù)的輸出數(shù)據(jù)伸張時(shí)間,此削減的只是這個(gè)伸張時(shí)間內(nèi)的任意時(shí)間。
上述的構(gòu)成中,權(quán)利要求5記載的話速變換方法,在時(shí)間變化的任意比率下當(dāng)將輸入數(shù)據(jù)伸張合成而得出的輸出數(shù)據(jù)中出現(xiàn)非聲音區(qū)域,這個(gè)非聲音區(qū)域的繼續(xù)時(shí)間超越所設(shè)定的下框界值時(shí),削減對(duì)應(yīng)于這個(gè)輸入數(shù)據(jù)的輸出數(shù)據(jù)伸張時(shí)間,此削減的只是這個(gè)伸張時(shí)間內(nèi)的任意時(shí)間,使用者只需僅僅一次設(shè)定操作成為數(shù)階段大體目標(biāo)的變換倍率,與被設(shè)定的條件相適應(yīng),適應(yīng)性地控制非聲音區(qū)域和話速變換倍率,在實(shí)際上發(fā)話時(shí)間的范圍內(nèi)話速變換中能穩(wěn)定獲得期待的效果。
權(quán)利要求6記載的話速變換方法中,其特征是在權(quán)利要求5記載的話速變換方法里當(dāng)輸入數(shù)據(jù)伸張合成之時(shí),輸入數(shù)據(jù)長和將任意的伸縮倍率乘以這個(gè)輸入數(shù)據(jù)長而計(jì)算出的目標(biāo)數(shù)據(jù)長及實(shí)際的輸出數(shù)據(jù)長的關(guān)系沒有矛盾、一邊逐次監(jiān)視一邊進(jìn)行合成處理、相對(duì)于時(shí)間變化的任意伸縮合成比率,關(guān)于聲音部分,在達(dá)到信息不會(huì)丟失的同時(shí)使對(duì)于伴隨著話速變換的伸張的正確時(shí)間信息得以保持。
在上述構(gòu)成里,權(quán)利要求6記載的話速變換方法中,將輸入數(shù)據(jù)進(jìn)行伸縮合成時(shí),輸入數(shù)據(jù)和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而計(jì)算出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一邊逐次監(jiān)視一邊進(jìn)行合成處理,對(duì)于隨時(shí)間變化的任意的伸縮合成比率,關(guān)系到聲音部分,在以不發(fā)生信息丟失的同時(shí),由于相對(duì)于伴隨話速變換的伸張的正確時(shí)間信息保持住,因此用戶只要僅一次設(shè)定操作作為數(shù)階段的大體目標(biāo)的變換倍率就能相應(yīng)于被設(shè)定的條件適應(yīng)性地控制話速變換倍率和非聲音區(qū)域,在實(shí)際發(fā)話的時(shí)間范圍內(nèi),在話速變換中能穩(wěn)定獲得所期待的效果。
權(quán)利要求7中記載的話速變換方法的特征是在權(quán)利要求5中記載的話速變換方法里將伴隨話速變換的輸入數(shù)據(jù)長的伸張部分解除時(shí),把繼續(xù)一定時(shí)間以上的非聲音區(qū)域的一部分消除,對(duì)應(yīng)于話速變換倍率、伸張量等,使非聲音區(qū)域的殘存比率發(fā)生適應(yīng)性的變化。
上述構(gòu)成中權(quán)利要求7記載的話速變換方法里伴隨著話速變換的輸入數(shù)據(jù)長的伸張部分解除時(shí)、把繼續(xù)一定時(shí)間以上的非聲音區(qū)域一部分清除,對(duì)應(yīng)于話速變換倍率、伸張量等,根據(jù)非聲音區(qū)域的殘存比率發(fā)生適應(yīng)性變化、用戶僅僅只一次設(shè)定操作作為數(shù)階段的大體目標(biāo)的變換倍率,就能相應(yīng)于被設(shè)定了的條件適應(yīng)性地控制話速變換倍率和非聲音區(qū)域,在實(shí)際上發(fā)話的時(shí)間范圍內(nèi),在話速速變換中能穩(wěn)定獲得所期待的效果。
權(quán)利要求8記載的話速變換方法其特征是在權(quán)利要求5記載的話速變換方法里,在被限定了的時(shí)間范圍內(nèi)進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而算出的目標(biāo)數(shù)據(jù)長和與實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一面逐次監(jiān)視一面用預(yù)先設(shè)定的時(shí)間間隔測定伸張量,根據(jù)這個(gè)測定結(jié)果,在時(shí)間差少時(shí),把話速變換倍率暫時(shí)上升,而在時(shí)間差多時(shí),把話速變換倍率暫時(shí)下降,依此適應(yīng)性地變化話速變換倍率。
上述的構(gòu)成中權(quán)利要求8記載的話速變換方法里在所限定的時(shí)間范圍內(nèi)進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而得出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不矛盾,所以一面逐次監(jiān)視一面用予先設(shè)定的時(shí)間間隔測定伸張量,基于這個(gè)測定結(jié)果,時(shí)間差少的時(shí)候,將話速變換倍率暫時(shí)上升,而時(shí)間差多的時(shí)候,將話速變換倍率暫時(shí)下降,由于話速變換倍率發(fā)生適應(yīng)性改變,用戶只要僅僅一次設(shè)定操作作為數(shù)階段的大體目標(biāo)之變換倍率,就能適應(yīng)地控制話速變換倍率和非聲音區(qū)域,在實(shí)際上發(fā)話的時(shí)間范圍內(nèi),在話速變換中能穩(wěn)定獲得所期待的效果。
權(quán)利要求9記載的話速變換方法的特征是在權(quán)利要求5記載的話速變換方法里,識(shí)別聲音區(qū)域和非聲音區(qū)域時(shí),相對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù),在每個(gè)設(shè)定的時(shí)間間隔里,用所設(shè)定的幀幅計(jì)算出幀功率的同時(shí),保持住過去設(shè)定時(shí)間內(nèi)的幀功率的最大值和最小值,決定下框界值,此下框界值和對(duì)應(yīng)于被保持的最大值和最大值與最小值之差而變化的功率有關(guān),將這個(gè)下框界值和現(xiàn)在的幀功率作比較,決定現(xiàn)在的幀是聲音區(qū)域還是非聲音區(qū)域。
權(quán)利要求10記載的話速變換方法的特征是在權(quán)利要求9記載的話速變換方法里,最大值與最小值的差未達(dá)到所設(shè)定值時(shí),相比于最大值與最小值的差在所定值以上的場合,將上述下框界值決定為接近最大值。
而且,為達(dá)到上述的目的權(quán)利要求11記載的話速變換裝置的特征是在把輸入數(shù)據(jù)分割成各塊而生成各數(shù)據(jù)塊的同時(shí)具備下列手段基于各數(shù)據(jù)塊生成連接數(shù)據(jù)的分割處理/連接數(shù)據(jù)生成手段;以及基于輸入進(jìn)來的所期待的話速,根據(jù)上述分割處理連接生成手段而生成的各數(shù)據(jù)塊,決定各連接數(shù)據(jù)的連接順序,把這些連接起來,生成輸出數(shù)據(jù)的連接處理手段;這個(gè)連接處理手段在時(shí)間變化的任意比率下將各數(shù)據(jù)塊伸張合成而得出的輸出數(shù)據(jù)中出現(xiàn)非聲音區(qū)域,這個(gè)非聲音區(qū)域的繼續(xù)時(shí)間超越所設(shè)定的下框界值時(shí)將削減對(duì)應(yīng)于這個(gè)數(shù)據(jù)塊的輸出數(shù)據(jù)的伸張時(shí)間,此削減的僅僅是這個(gè)伸張時(shí)間內(nèi)的任意時(shí)間。
上述的構(gòu)成中權(quán)利要求11記載的話速變換裝置里將輸入數(shù)據(jù)分割成各塊生成數(shù)據(jù)塊時(shí)具有基于各數(shù)據(jù)塊,生成連接數(shù)據(jù)的分割處理/連接數(shù)據(jù)生成手段和基于輸入進(jìn)來的所期望的話速、根據(jù)上述分割處理/連接數(shù)據(jù)生成手段而生成的各數(shù)據(jù)塊決定各連接數(shù)據(jù)的連接順序,把這些連接起來,生成輸出數(shù)據(jù)的連接處理手段,依據(jù)上述連接處理手段,當(dāng)在時(shí)間上變化的任意比率下將伸張合成各數(shù)據(jù)塊而得到的輸出數(shù)據(jù)中出現(xiàn)非聲音區(qū)域,這個(gè)非聲音區(qū)域的繼續(xù)時(shí)間超越所設(shè)定的下框界值的時(shí)候?qū)⑾鳒p把對(duì)應(yīng)于這個(gè)數(shù)據(jù)塊的輸出數(shù)據(jù)的伸張時(shí)間、由于僅僅削減這個(gè)伸張時(shí)間內(nèi)的任意的時(shí)間,用戶僅僅只一次設(shè)定操作作為數(shù)階段的大體目標(biāo)的變換倍率,就能相應(yīng)于被設(shè)定的條件,適應(yīng)性地控制話速變換倍率和非聲音區(qū)域、在實(shí)際上發(fā)話的時(shí)間范圍內(nèi),能穩(wěn)定獲得在話速變換中所期待的效果。
權(quán)利要求12記載的話速變換裝置的特征是在權(quán)利要求11記載的話速變換裝置里上述連接處理手段作伸縮合成輸入數(shù)據(jù)時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而算出的目標(biāo)數(shù)據(jù)長及實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以逐次監(jiān)視、同時(shí)進(jìn)行合成處理,對(duì)于時(shí)間變化的任意的伸縮合成比率,有關(guān)聲音部分在達(dá)到信息不會(huì)丟失目的的同時(shí)、對(duì)于伴隨著話速變化的伸張的正確時(shí)間信息被保持住。
上述的構(gòu)成里權(quán)利要求12記載的話速變換裝置中,用上述連接處理手段伸縮合成輸入數(shù)據(jù)時(shí)、輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意伸縮倍率而算出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一面逐次監(jiān)視、一面進(jìn)行合成處理、對(duì)于時(shí)間變化的任意的伸縮合成比率,關(guān)于聲音部分、在達(dá)到信息不會(huì)丟失的目的同時(shí)因?yàn)閷?duì)于伴隨著話速變化的伸張的正確時(shí)間信息被保持住,因此用戶僅僅只一次設(shè)定操作成為數(shù)階段的大體目標(biāo)的變換倍率,相應(yīng)于被設(shè)定的條件,適應(yīng)性地控制話速變換倍率和非聲音區(qū)域,實(shí)際發(fā)話的時(shí)間范圍里,能穩(wěn)定獲得在話速變換中期待的效果。
權(quán)利要求13記載的話速變換裝置的特征是在權(quán)利要求11記載的話速變換裝置里,上述連接處理手段,在把從伴隨著話速變換的輸入數(shù)據(jù)長的伸張部分解除時(shí),把繼續(xù)一定時(shí)間以上的非聲音區(qū)域的一部分消除,而對(duì)應(yīng)于話速變換倍率、伸張量等,使非聲音區(qū)域的殘存比例發(fā)生適應(yīng)性變化。
上述構(gòu)成里,權(quán)利要求13記載的話速變換裝置中,采用上述連接處理手段、在把伴隨著從話速變換的輸入數(shù)據(jù)長的伸長部分解除時(shí)、把繼續(xù)一定時(shí)間以上的非聲音區(qū)域的一部分消除,而對(duì)應(yīng)于話速變換倍率、伸張量等、由于非聲音區(qū)域的殘存比例發(fā)生適應(yīng)性變化,因此用戶僅僅一次設(shè)定操作成為數(shù)階段大體目標(biāo)的變換倍率,對(duì)應(yīng)于設(shè)定條件,適應(yīng)性控制話速變換率或非聲音區(qū)、在實(shí)際上發(fā)話的時(shí)間范圍里,在話速變換中能穩(wěn)定獲得期待的效果。
權(quán)利要求14記載的話速變換裝置的特征是在權(quán)利要求11記載的話速變換裝置里,上述連接處理手段在限定的時(shí)間范圍進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而算出的目標(biāo)數(shù)據(jù)長與實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以便一面逐次監(jiān)視一面用予先設(shè)定的時(shí)間間隔測定伸張量,基于這個(gè)測定結(jié)果,在時(shí)間差少的時(shí)候、使話速變換倍率暫時(shí)上升,而在時(shí)間差多的時(shí)候使話速變換倍率暫時(shí)下降、因此使話速變換倍率發(fā)生適應(yīng)性變化。
上述構(gòu)成中、權(quán)利要求14記載的話速變換裝置里依據(jù)上述連接處理手段在限定的時(shí)間范圍進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的倍率而算出的目標(biāo)數(shù)據(jù)長與實(shí)際的輸出數(shù)據(jù)長的關(guān)系不矛盾,所以便一面逐次監(jiān)視一面用預(yù)先設(shè)定的時(shí)間間隔測定伸張量,基于這個(gè)測定結(jié)果,由于在時(shí)間差少的時(shí)候,使話速變換倍率暫時(shí)上升而在時(shí)間差多的時(shí)候使話速變換倍率暫時(shí)下降致使話速變換倍率發(fā)生適應(yīng)性變化,因此用戶僅僅一次設(shè)定操作成為數(shù)階段大體目標(biāo)的變換倍率,對(duì)應(yīng)于設(shè)定條件適應(yīng)性控制話速變換率和非聲音區(qū)域,實(shí)際發(fā)話的時(shí)間范圍內(nèi),在話速變換中能穩(wěn)定獲得所期待的效果。
權(quán)利要求15記載的話速變換裝置的特征是在權(quán)利要求11記載的話速變換裝置里還具備分折處理手段;對(duì)于上述輸入數(shù)據(jù),在每個(gè)所設(shè)定的時(shí)間間隔里,用所設(shè)定的幀幅運(yùn)算幀功率的同時(shí),保持過去所設(shè)定的時(shí)間內(nèi)幀功率的最大值及最小值,決定下框界值,這個(gè)下框界值和相應(yīng)于被保持著的最大值以及最大值與最小值的差的變化的功率有關(guān),將這個(gè)下框界值與現(xiàn)在的幀功率作一比較,現(xiàn)在的幀由上述分折處理手段決定是聲音區(qū)域或非聲音區(qū)域。
權(quán)利要求16記載的話速變換裝置的特征是在權(quán)利要求15記載的話速變換裝置里,上述分析處理手段在最大值與最小值的差未達(dá)到所設(shè)定值的場合,相比于最大值與最小值的差在所設(shè)定值以上的場合,將上述的下框界值決定為接近最大值。
圖1是表示本發(fā)明話速變換裝置的一種實(shí)施例的方框圖。
圖2是表示本發(fā)明聲音區(qū)域檢測裝置的一種實(shí)施例的方框圖。
圖3是表示在圖2中表示的聲音區(qū)域檢測裝置的動(dòng)作的示意圖。
圖4是顯示在圖1中表示的連接數(shù)據(jù)生成器中反復(fù)連接同一塊時(shí)采用連接數(shù)據(jù)生成法的示意圖。
圖5是表示在圖1中表示的連接順序生成器里輸出入數(shù)據(jù)長監(jiān)視比較部分的詳細(xì)構(gòu)成例子的方框圖。
圖6是在圖1中表示的連接順序生成器中生成的連接順序一個(gè)例子的示意圖。
下面,根據(jù)附圖詳細(xì)說明本發(fā)明。
圖1是表示本發(fā)明話速變換裝置的一種實(shí)施例的方框圖。
表示在這個(gè)圖中的話速變換裝置具備端子1、A/D變換器2、分析處理器3、數(shù)據(jù)塊分割器4、數(shù)據(jù)塊存儲(chǔ)器5、連接數(shù)據(jù)生成器6、連接數(shù)據(jù)存儲(chǔ)器7、連接順序生成器8、聲音數(shù)據(jù)連接器9、D/A變換器10、端子11等,從發(fā)話者來的輸入聲音數(shù)據(jù)、基于聲音數(shù)據(jù)屬性施加分析處理,使用該分析信息所希望的函數(shù)合成話速變換聲音數(shù)據(jù)時(shí),將輸入聲音數(shù)據(jù)的數(shù)據(jù)長(輸入數(shù)據(jù)長)和在這里乘上任意的伸縮倍率而運(yùn)算出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出聲音數(shù)據(jù)的數(shù)據(jù)長(輸出數(shù)據(jù)長)作一比較,不產(chǎn)生矛盾便對(duì)這些進(jìn)行處理,面對(duì)伸縮倍率的變化也不會(huì)發(fā)生聲音信息的丟失現(xiàn)象,而且時(shí)時(shí)刻刻監(jiān)視變化的原聲音與變換聲音的時(shí)間差。在時(shí)間差少的場合將使話速變換倍率暫時(shí)上升,與此相反,時(shí)間差多的場合使話速變換倍率暫時(shí)下降,使倍率發(fā)生適應(yīng)性變化,進(jìn)而基于話速變換倍率或伸張量等,使非聲音區(qū)域的殘存比例發(fā)生適應(yīng)性變化,將從伴隨話速變換的原聲音來的時(shí)間差適應(yīng)性地解除。
在A/D變換器2中在所設(shè)定的抽樣速度(例如32KHz)下對(duì),輸入進(jìn)端子1中的聲音信號(hào),例如將從話筒、電視、無線電、其它的映像機(jī)器、音響機(jī)器的模擬聲音輸出端子輸出的聲音信號(hào)進(jìn)行A/D變換的同時(shí)把利用這些得到的聲音數(shù)據(jù)緩沖寄存到先進(jìn)先出存儲(chǔ)器中、既不過多也不過少,供給到后續(xù)的分析處理器3和數(shù)據(jù)塊分割器4里。
在分析處理器3里,分析從A/D變換器2來的輸出聲音數(shù)據(jù),抽出聲音區(qū)域以及非聲音區(qū)域的同時(shí),基于這些區(qū)域在數(shù)據(jù)塊分割器4進(jìn)行的聲音數(shù)據(jù)的分割處理生成決定必要的各塊時(shí)間長的分割信息,并將這些供給到數(shù)據(jù)塊分割器4中。
在此說明本發(fā)明的聲音區(qū)域檢測方法及其裝置的一個(gè)實(shí)施例。
本發(fā)明的聲音區(qū)域檢測方法及其裝置中,以輸入信號(hào)的功率作為指標(biāo)時(shí),有關(guān)輸入信號(hào)中的聲音的能級(jí)變動(dòng)被反映在當(dāng)前為止的輸入功率的最大值中,有關(guān)背景音的能級(jí)變動(dòng),則被反映在當(dāng)前為止輸入功率的最小值中。以此作為著眼點(diǎn)、決定聲音/非聲音判別的下框界值時(shí),雜音幾乎不存在時(shí),從當(dāng)前為止輸入功率的最大值中僅減去所設(shè)定值,將所得的值作為基本的下框界值。隨著從當(dāng)前為止輸入的功率最大值中扣除最小值而得到的值變小時(shí)(S/N隨著變小)、下框界值則變得大了,加以修正處理后決定下框界值。
而后,在所定的每一時(shí)間間隔用具備所定的時(shí)間幅的幀單位運(yùn)算出輸入聲音數(shù)據(jù)的功率,一面保持過去所設(shè)定時(shí)間內(nèi)的功率最大值和最小值,一面利用和對(duì)應(yīng)于最大值以及最大值與最小值的差而變化的功率有關(guān)的下框界值,逐次適應(yīng)輸入聲音、背景聲各自功率變化,在每個(gè)幀里進(jìn)行聲音區(qū)域與非聲音區(qū)域的判別。
以下利用圖作具體說明圖2是表示聲音區(qū)域檢測裝置一個(gè)例子的框圖。
圖中表示的聲音區(qū)域檢測裝置31具備對(duì)于數(shù)字化后的輸入進(jìn)來的輸入信號(hào)數(shù)據(jù)在每一時(shí)間間隔里用所設(shè)定的幀幅將功率運(yùn)算出來的功率運(yùn)算器32;保持住過去的所設(shè)定的時(shí)間內(nèi)幀功率的最大值的瞬時(shí)功率最大值保持器33;保持在過去所設(shè)定時(shí)間內(nèi)幀功率最小值的瞬時(shí)功率最小值保持器34;決定與對(duì)應(yīng)于在這些瞬時(shí)功率最大值保持器33、瞬時(shí)功率最小值保持器34中保持著的最大值、以及最大值與最小值差這二者而變化的功率有關(guān)的下框界的功率的下框界值決定器35;由這個(gè)功率下框界值決定器35決定的下框界值與現(xiàn)在的幀的功率進(jìn)行比較而決定是聲音區(qū)域還是非聲音區(qū)域的判定器36。
而后在這個(gè)聲音區(qū)域檢測裝置31中,對(duì)于輸入信號(hào)數(shù)據(jù)所設(shè)定的每一時(shí)間間隔里用具備所設(shè)定的時(shí)間幅值的幀單位運(yùn)算出輸入信號(hào)的功率,在保持住過去所設(shè)定時(shí)間內(nèi)的功率最大值和最小值的同時(shí),利用與相應(yīng)最大值及最大值與最小值的差而變化的功率有關(guān)的下框界值,逐次適應(yīng)輸入聲音和背景聲音的各自功率的變化、在每個(gè)幀里進(jìn)行聲音區(qū)域與非聲音區(qū)域的判別。
在功率運(yùn)算器32中,例如對(duì)20ms的幀幅利用5ms的時(shí)間間隔運(yùn)算出信號(hào)的平方和乃至平方平均值,將其對(duì)數(shù)化,即分貝化,將那一時(shí)刻的幀功率取作“P”供給瞬時(shí)功率最大值保持器33和瞬時(shí)功率最小值保持器34及判定器36。
瞬時(shí)功率最大值保持器33設(shè)計(jì)來保持住所設(shè)定時(shí)間內(nèi)(例如6秒)的幀功率“P”的最大值,通常那個(gè)保持值“Pupper”供給到功率下框界值決定器35中。但是一旦在幀功率P滿足“P>Pupper”狀態(tài)被從功率運(yùn)算器32提供,則立即更改最大值“Pupper”。
瞬時(shí)功率最小值保持器34設(shè)計(jì)來保持住過去所設(shè)定的時(shí)間內(nèi)(如4秒)的幀功率“P”最小值,通常那個(gè)保持值“Plower”供給到功率下框界值決定器35中。但是下框界功率“P”是“P<Plower”狀態(tài),被從功率運(yùn)算器32提供,則立即更改那個(gè)最小值“Plower”。
功率下框界值決定器35是利用保持在瞬時(shí)功率最大值保持器33及瞬時(shí)功率最小值保持器34中的最大值“Pupper”和最小值“Plower”,例如,進(jìn)行下式所示的運(yùn)算決定關(guān)系到功率的下框界值“Pthr”,將結(jié)果提供到判定器36。
Pupper-Plower≥60[dB]時(shí)Pthr=Pupper-35……(1)Pupper-Plower<60[dB]時(shí)Pthr=Pupper-35+35×{1-(Pupper-Plower)/60}……(2)但是背景音的能級(jí)接近聲音的能級(jí)場合為防止本發(fā)明裝置的誤動(dòng)作,希望Pthr以Pthr=Pupper-13作為上限。而且上式中的常數(shù)35是在上述的雜音幾乎不存在時(shí)的基本下框界值。
在判定器36,從功率運(yùn)算器32來的供給每個(gè)幀的功率“P”和從功率下框界值決定器35來的下框界值“Pthr”作一比較,每一幀里如果“P>Pthr”則該幀判定為聲音區(qū)域、如果“P≤Pthr”則該幀判定為非聲音區(qū)域、基于這些各判定結(jié)果、輸出聲音/非聲音的判別信號(hào)。
因此,如圖3所示。輸入信號(hào)數(shù)據(jù)值變化時(shí),基于從功率運(yùn)算器32輸出的功率“P”,瞬時(shí)功率最大值保持器33和瞬時(shí)功率最小值保持器34中各自保持住最大值“Pupper”和最小值“Plower”的同時(shí),基于這些最大值“Pupper”和最小值“Plower”決定下框界值“Pthr”、基于這個(gè)下框界值、各幀終將會(huì)判定是聲音區(qū)域還是非聲音區(qū)域。
這樣,于這個(gè)實(shí)施例中,在所定的時(shí)間間隔里用具有所定的時(shí)間幅的幀單位運(yùn)算出輸入信號(hào)數(shù)據(jù)的功率,在保持住過去所定的時(shí)間內(nèi)的功率最大值和最小值的同時(shí),最大值以及利用有關(guān)相應(yīng)于最大值和最小值之差而變化的功率的下框界值,逐次適應(yīng)輸入聲音和背景音的各自功率的變化,在每個(gè)幀里進(jìn)行聲音區(qū)域與非聲音區(qū)域的判別,因此在廣播節(jié)目、錄音帶或日常生活中面對(duì)伴有雜音和背景音的發(fā)聲、都能正確判別出在每一個(gè)幀里是聲音區(qū)域還是非聲音區(qū)域。而且在這個(gè)實(shí)施例中,基于過去所定的時(shí)間內(nèi)瞬時(shí)功率最小值,而將背景音的能級(jí)推定,因此,廣播節(jié)目等中即使背景聲時(shí)刻都在變動(dòng)、并持續(xù)不斷發(fā)聲也能判別輸入信號(hào)是聲音區(qū)域還是非聲音區(qū)域。
這一結(jié)果,對(duì)于輸入信號(hào)中的聲音處于(a)被聲音的處理改變了聲的高低和話速;(b)機(jī)械地認(rèn)識(shí)聲音意思內(nèi)容;(c)符號(hào)化傳送或記錄;等場合,都有可能提高加工聲音的音質(zhì)、改善聲音認(rèn)識(shí)率、符號(hào)化效率的提高、改善譯碼化聲音的品質(zhì)。
而且由于功率方面利用的僅僅是比較簡便求得的特征量,因此能縮短演算的時(shí)間,同時(shí)也使裝置整體構(gòu)成簡單,降低了成本,可能進(jìn)行實(shí)時(shí)聲音處理。
本發(fā)明話速變換中接著作如下的處理功率在所設(shè)定的下框界值Pthr以上的區(qū)域即聲音區(qū)域進(jìn)行著伴隨聲帶振動(dòng)的聲音為有聲音還是未伴隨著聲帶振動(dòng)的聲音為無聲音的判定。在這里不僅僅是功率的大小,還同時(shí)使用了零交叉分析、自相關(guān)分析等。
而且為了分析聲音數(shù)據(jù),在決定各塊的時(shí)間長時(shí),聲音區(qū)域(有聲音區(qū)域、無聲音區(qū)域)以及非聲音區(qū)域進(jìn)行既定的自相關(guān)分析且檢測周期性,基于這個(gè)周期性決定塊長。在有聲音區(qū)域,檢測聲帶振動(dòng)周期的音調(diào)周期、各音調(diào)周期按各塊長進(jìn)行分割。這時(shí)由于有聲音區(qū)域的音調(diào)周期分布在1.25~28.0ms左右廣大范圍,因此進(jìn)行長短各異的窗幅的自相關(guān)分析,盡可能檢測正確的音調(diào)周期。另外作為有聲音區(qū)域的塊長,利用了音調(diào)周期,防止了起因于塊單位的反復(fù)而引起的聲高的變化(變成低聲)對(duì)于無聲音區(qū)域、非聲音區(qū)域,檢測5ms以內(nèi)的周期性繼而檢測塊長。
數(shù)據(jù)塊分割器4,按照用分析處理器3決定的塊長、分割從A/D變換器2輸出的聲音數(shù)據(jù),把從這個(gè)分割處理得到的塊單位的聲音數(shù)據(jù)和那個(gè)塊長提供給數(shù)據(jù)塊存儲(chǔ)器5中,同時(shí)把用分割處理得到的各塊單位聲音數(shù)據(jù)的兩端部即把從開始部分所設(shè)定的時(shí)間長(如2ms程度)和終了部分所設(shè)定的時(shí)間長(如2ms程度)的前面部分提供給連接數(shù)據(jù)生成器6。
塊存儲(chǔ)器5中,利用環(huán)形緩沖存儲(chǔ)器將從數(shù)據(jù)塊分割器4提供的塊單位聲音數(shù)據(jù)及塊長暫時(shí)收納、必要時(shí)將暫時(shí)記憶著的塊單位聲音數(shù)據(jù)提供給聲音數(shù)據(jù)連接器9中,同時(shí)必要時(shí)將暫時(shí)記憶著的塊長提供給連接順序生成器8。
連接數(shù)據(jù)生成器6中,在各塊里,如圖4所示對(duì)即將完結(jié)的塊的終了部分、本塊的開始部分的聲音、緊接其后的塊開始部分的聲音數(shù)據(jù)進(jìn)行加窗以后、即將完結(jié)的塊的終了部分和本塊的終了部分進(jìn)行重復(fù)相加以及該塊的開始部分和緊接其后的塊開始部分也進(jìn)行重復(fù)相加、與此同時(shí)將這些連接起來、在各塊里生成連接數(shù)據(jù),隨之把這些提供給連接數(shù)據(jù)存儲(chǔ)器7。
連接數(shù)據(jù)存儲(chǔ)器7中利用環(huán)形緩沖存儲(chǔ)器把連接數(shù)據(jù)生成器6提供的各塊每一連接數(shù)據(jù)暫時(shí)記憶,同時(shí),必要的話將暫時(shí)記憶著的連接數(shù)據(jù)提供給聲音數(shù)據(jù)連接器9。
連接順序生成器8中,為了實(shí)現(xiàn)受聽者設(shè)定的期望話速、生成塊單位的聲音數(shù)據(jù)以及連接數(shù)據(jù)的連接順序。這時(shí)受聽者將數(shù)字存儲(chǔ)媒體(digital volume)作為轉(zhuǎn)換界面接口,可以設(shè)定各屬性(有聲音區(qū)域、無聲音區(qū)域或非聲音區(qū)域)各自的時(shí)間伸張倍率。這個(gè)值收存在可以重錄的存儲(chǔ)器中。而且,這個(gè)值可提供兩種工作方式;固定的伸張倍率的處理方法(=均勻伸張模式)和一面以這個(gè)固定的伸張倍率為目標(biāo),一面不累計(jì)一定時(shí)間以上的偏移而是把各聲音屬性綜合并加以適應(yīng)性地控制,在所限的時(shí)間范圍實(shí)現(xiàn)話速變換效果的方法(=時(shí)間伸張吸收模式),這兩種方式可以任選。
如若采用這個(gè)連接順序生成器8則對(duì)于設(shè)定在上述存儲(chǔ)器里的伸張倍率進(jìn)行實(shí)際聲音合成時(shí),因?yàn)閷⑼瑫r(shí)刻的輸入聲音數(shù)據(jù)長和輸出聲音數(shù)據(jù)長以及將來希望合成的聲音數(shù)據(jù)長的各時(shí)間關(guān)系采用實(shí)時(shí)加以把握、所以通??梢员O(jiān)視原聲音的發(fā)話時(shí)刻和變換聲音的輸出時(shí)刻之間的時(shí)間差,反饋這個(gè)信息就能夠把時(shí)間差自動(dòng)地抑制在一定長的時(shí)間里。同時(shí)對(duì)于用任意的時(shí)刻變更到任意值的伸縮倍率在其實(shí)行時(shí),可以校對(duì)是否發(fā)生時(shí)間上矛盾(例如與輸入聲音數(shù)據(jù)長相比要求縮短輸出聲音數(shù)據(jù)長),能夠防止合成時(shí)聲音信息的丟失。
其次具體說明這個(gè)連接順序生成器的處理。設(shè)定采用任意函數(shù)的聲音伸縮倍率時(shí)基于由數(shù)據(jù)塊存儲(chǔ)器5提供的各塊長、逐次運(yùn)算出數(shù)據(jù)塊分割器4規(guī)定的處理單位聲音數(shù)據(jù)長(=輸入數(shù)據(jù)長),這個(gè)輸入數(shù)據(jù)長,乘以由受聽者設(shè)定的伸縮倍率所得結(jié)果作為目標(biāo)數(shù)據(jù)長。在聲音數(shù)據(jù)連接器9與這個(gè)目標(biāo)數(shù)據(jù)值一致為目的進(jìn)行聲音數(shù)據(jù)的連接,同時(shí)把實(shí)際上變成輸出了的輸出聲音數(shù)據(jù)長的聲音數(shù)據(jù)長(=輸出數(shù)據(jù)長)逐次反饋到連接順序生成器8中。
如圖5所示由設(shè)置在連接順序生成器8中的輸出入數(shù)據(jù)長監(jiān)視比較器20生成的目標(biāo)長作為連接順序信息送到聲音數(shù)據(jù)連接器9中。輸出入數(shù)據(jù)長監(jiān)視比較器20由輸入數(shù)據(jù)長監(jiān)視器21、輸出目標(biāo)運(yùn)算器22、比較器23、輸出數(shù)據(jù)長監(jiān)視器24以及比較器25構(gòu)成。監(jiān)視器21、監(jiān)視輸入數(shù)據(jù)長。運(yùn)算器22,對(duì)采用以輸入數(shù)據(jù)長監(jiān)視器21得到的輸入數(shù)據(jù)長和由受聽者(或裝置中內(nèi)藏的函數(shù)存儲(chǔ)器)給于的值為基準(zhǔn)進(jìn)行的話速倍率變換生成的輸出數(shù)據(jù)目標(biāo)長(目標(biāo)數(shù)據(jù)長)做出運(yùn)算的同時(shí),還對(duì)這個(gè)目標(biāo)數(shù)據(jù)長自動(dòng)進(jìn)行修正。比較器23功能是由這個(gè)輸出目標(biāo)長運(yùn)算器22得出的目標(biāo)數(shù)據(jù)長和輸入數(shù)據(jù)長監(jiān)視器21得出的輸入數(shù)據(jù)長作一比較,目標(biāo)數(shù)據(jù)長比輸入數(shù)據(jù)長較短時(shí),則將目標(biāo)數(shù)據(jù)長調(diào)到與輸入數(shù)據(jù)長一致,當(dāng)目標(biāo)數(shù)據(jù)長比輸入數(shù)據(jù)長較長時(shí)則把目標(biāo)數(shù)據(jù)長照原樣輸出。監(jiān)視器24對(duì)與由聲音數(shù)據(jù)連接器9來的輸出數(shù)據(jù)有關(guān)的既有連接信息作為輸入的輸出數(shù)據(jù)長進(jìn)行監(jiān)視。比較器25的功能是從輸出數(shù)據(jù)長監(jiān)視器24得到的輸出數(shù)據(jù)長和由比較器23得到的目標(biāo)數(shù)據(jù)長進(jìn)行比較,目標(biāo)數(shù)據(jù)長比輸出數(shù)據(jù)長較短時(shí),將目標(biāo)數(shù)據(jù)長調(diào)到與輸出數(shù)據(jù)長一致,而目標(biāo)數(shù)據(jù)長比輸出數(shù)據(jù)長較長時(shí)則將目標(biāo)數(shù)據(jù)長按原樣輸出。然后,如下所述,用所設(shè)定的時(shí)間間隔讀出設(shè)定的每個(gè)聲音屬性的存儲(chǔ)器值,同時(shí)為了實(shí)現(xiàn)讀出屬性的每個(gè)伸張倍率,在求目標(biāo)數(shù)據(jù)長的同時(shí),根據(jù)這個(gè)目標(biāo)數(shù)據(jù)長和在輸出數(shù)據(jù)長監(jiān)視器24得出的輸出數(shù)據(jù)長、時(shí)時(shí)刻刻生成附加聲音的伸縮信息的連接信息,且如圖6所示把各塊的聲音數(shù)據(jù)及連接數(shù)據(jù)連接起來。
首先把輸入數(shù)據(jù)長與目標(biāo)數(shù)據(jù)長逐次比較,當(dāng)判定輸入數(shù)據(jù)長在目標(biāo)數(shù)長之上時(shí),將目標(biāo)數(shù)據(jù)長修正到與輸入數(shù)據(jù)長一致,而判定輸入數(shù)據(jù)長未達(dá)到目標(biāo)數(shù)據(jù)長時(shí),則中止目標(biāo)數(shù)據(jù)長的變更。
其次對(duì)目標(biāo)數(shù)據(jù)長與實(shí)際輸出數(shù)據(jù)長進(jìn)行比較,當(dāng)判斷輸出數(shù)據(jù)長在目標(biāo)數(shù)據(jù)長之上時(shí),則修正目標(biāo)數(shù)據(jù)長以達(dá)到與輸出數(shù)據(jù)長一致,而判定輸出數(shù)據(jù)長未達(dá)到目標(biāo)數(shù)據(jù)長時(shí)則中止目標(biāo)數(shù)據(jù)長的變更。
為了使這些經(jīng)比較處理后得到的目標(biāo)數(shù)據(jù)長一致,生成了顯示伸張信息和連接信息等等的連接指令,并將其提供到聲音數(shù)據(jù)連接器9中。
其次說明連接順序生成器8中話速變換倍率的控制條件。例如,廣播的時(shí)間范圍等,在限定的時(shí)間范圍內(nèi),將進(jìn)行的話速變換工作處于所期望的場合中逐次監(jiān)視輸入數(shù)據(jù)長和輸出數(shù)據(jù)長,用預(yù)先任意設(shè)定的時(shí)間間隔測兩個(gè)數(shù)據(jù)的時(shí)間差,依此,延遲量少的時(shí)候,暫時(shí)升高話速變換倍率、相反,多的時(shí)候進(jìn)行下降話速變換的處理、如果設(shè)定出可適應(yīng)的倍率變化則控制良好。
例如在這個(gè)實(shí)施的例中,在出現(xiàn)200ms以上的非聲音區(qū)域時(shí)點(diǎn),將這之后出現(xiàn)的最初有聲開始的時(shí)刻當(dāng)作“t=0”、把“0≤t≤T”范圍出現(xiàn)的各有聲音的開始時(shí)刻相對(duì)應(yīng)的倍率作為設(shè)定條件的函數(shù)、可以使用下式的余弦函數(shù)f(t)=rs+0.5(rs-re)(cosπt/T+1.0)………(3)式中t:0≤t≤Trs受聽者決定的外部輸入值(1.0≤rs≤1.6)re作為初始值設(shè)定的值(如re=1.0)在此輸入數(shù)據(jù)長與輸出數(shù)據(jù)長的時(shí)間差以等于一定的時(shí)間間隔例如1秒計(jì)算,對(duì)應(yīng)于此時(shí)的時(shí)間差將初始值re從“1.0”開始以“0.05”持續(xù)增加、相反時(shí)減少到“0.95”程度。但是在超越周期T時(shí)點(diǎn)而200ms以上的非聲音區(qū)域尚未出現(xiàn)的場合中,其以下的有聲音區(qū)域里例如適用1.0倍的倍率,此處以音調(diào)或功率等的變化量作為指標(biāo)也可以重新設(shè)定倍率。致于非聲音區(qū)域的殘存比率也可以借鑒話速變換倍率或伸張量等等進(jìn)行適應(yīng)性變化。這個(gè)作為函數(shù)也可以任意設(shè)定。
與外部輸入值re相對(duì)應(yīng),設(shè)定非聲音區(qū)域的縮短容許限(顯示最低應(yīng)保存的不消減的值),以上述那樣函數(shù)表現(xiàn)自然好,但也能如下所述離散設(shè)定。
rs=1.0時(shí)可以削減到300msrs=1.1時(shí)可以削減到250msrs=1.2時(shí)可以削減到230msrs=1.3時(shí)可以削減到200msrs=1.4時(shí)可以削減到200msrs=1.5時(shí)可以削減到150msrs=1.6時(shí)可以削減到100ms等設(shè)定也很好。
又,非聲音區(qū)域的削減方式可以在環(huán)形緩沖存儲(chǔ)器上的任意地址上移動(dòng)指針來實(shí)現(xiàn)。在這個(gè)實(shí)施例中,利用移動(dòng)指針到緊隨該非聲音區(qū)域之后的有聲音的開始部分使聲音信息的丟失得以防止。
聲音數(shù)據(jù)連接器9隨著在連接順序生成器8決定的連接順序,把數(shù)據(jù)塊存儲(chǔ)器5來的塊單位的聲音數(shù)據(jù)讀出,將指定塊的聲音數(shù)據(jù)伸張,同時(shí),一面讀出由連接數(shù)據(jù)存儲(chǔ)器7來的連接數(shù)據(jù),一面抑制連接處理,使D/A變換器10中設(shè)置的先入先出存儲(chǔ)器中不會(huì)引起過大或不足,把聲音數(shù)據(jù)和連接數(shù)據(jù)連接起來,生成輸出聲音數(shù)據(jù),繼而將這提供給D/A變換器10。
D/A變換器10中利用先入先出存儲(chǔ)器一面寄存從聲音數(shù)據(jù)連接器9提供的輸出聲音數(shù)據(jù),一面用所設(shè)定的抽樣速度(如32KHz)將輸出聲音數(shù)據(jù)D/A變換、生成輸出聲音信號(hào),并從端子11輸出。
這樣,在這個(gè)實(shí)施例中,對(duì)于從發(fā)話者來的輸入聲音數(shù)據(jù),基于聲音數(shù)據(jù)的屬性施加分析處理,使用對(duì)應(yīng)于該分析信息的所期望的函數(shù)合成話速變換聲音數(shù)據(jù)時(shí),一面將輸入數(shù)據(jù)長和對(duì)它乘以任意的伸縮倍率而算出的目標(biāo)數(shù)據(jù)長以及實(shí)際的輸出聲音數(shù)據(jù)長進(jìn)行比較,使其不發(fā)生矛盾,由于有目的地進(jìn)行了這些處理,即使面對(duì)伸縮倍率的變化也能做到聲音信息不會(huì)丟失。而且監(jiān)視時(shí)刻變化的原聲音與變換聲音的時(shí)間差,時(shí)間差少的場合話速變換倍率暫時(shí)上升,相反,多的場合,話速變換倍率暫下降等等,使倍率適應(yīng)性變化,進(jìn)而基于話速變換倍率和伸張量、使非聲音區(qū)域的殘存比率發(fā)生適應(yīng)性變化,從伴隨話速變換的原聲音來的時(shí)間差進(jìn)行了有目的適應(yīng)性消除,因此用戶只要僅僅一次設(shè)定操作作為數(shù)階段大體目標(biāo)的變換倍率,相應(yīng)于被設(shè)定的條件,適應(yīng)性地控制話速變換倍率和非聲音區(qū)域,在實(shí)際發(fā)話的時(shí)間范圍內(nèi),在話速變換中能穩(wěn)定獲得所期待效果。
根據(jù)這些即使在話者頻繁交替進(jìn)入的廣播節(jié)目中,也能夠自動(dòng)地提供對(duì)發(fā)話者最適宜的話速變換效果,用極其簡單的操作,對(duì)于說的快時(shí)感到聽起來困難的老人或視聽障礙者,即使面對(duì)有實(shí)時(shí)性的緊急廣播或電視等附有畫面的媒體聲音也能夠時(shí)間上不遲緩且穩(wěn)定舒服地聽取。
如以上說明那樣如果采用本發(fā)明的話速變換方法及其裝置,用戶只要僅僅一次設(shè)定操作作為數(shù)階段的大體目標(biāo)的變換倍率、可相應(yīng)于設(shè)定的條件而適應(yīng)性控制話速變換倍率和非聲音區(qū)域,在實(shí)際發(fā)話的時(shí)間范圍內(nèi)在話速變換中能穩(wěn)定獲得所期待的效果。
而且如果采用本發(fā)明的話速變換方法及其裝置,功率方面,由于僅僅使用了比較簡便得到的特征量、因此在縮短運(yùn)算時(shí)間的同時(shí)一方面可以降低成本、另一方面輸入聲音和背景音逐次適應(yīng)各自的能級(jí)變化、以實(shí)時(shí)進(jìn)行聲音處理,可以判別聲音區(qū)域和非聲音區(qū)域。
權(quán)利要求
1.一種聲音區(qū)域檢測方法,其特征是對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù),在每一所設(shè)定的時(shí)間間隔中以所設(shè)定的幀幅計(jì)算出幀功率,與此同時(shí),保持住過去所設(shè)定的時(shí)間內(nèi)的幀功率的最大值及最小值;決定下框界值,這個(gè)下框界值和相應(yīng)予被保持著的最大值以及最大值與最小值的差而變化的功率有關(guān);將這個(gè)下框界值與現(xiàn)在的幀功率作一比較以決定現(xiàn)在的幀是聲音區(qū)域還是非聲音區(qū)域。
2.根據(jù)權(quán)利要求1中記載的聲音區(qū)域檢測方法,其特征是最大值與最小值差未達(dá)到所設(shè)定值的時(shí)候,相比于最大值與最小值的差在所設(shè)定值的以上的場合,上述下框界值決定為接近最大值。
3.一種聲音區(qū)域檢測裝置,其特征是具備對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù),在所設(shè)定的時(shí)間間隔、在所設(shè)定的幀幅運(yùn)算出幀功率的功率運(yùn)算器(32);保持過去的所設(shè)定的時(shí)間內(nèi)幀功率最大值的瞬間功率最大值保持器(33);保持過去的所設(shè)定的時(shí)間內(nèi)幀功率最小值的瞬時(shí)功率最小值保持器(34);決定下框界值的功率下框界值決定器(35),這個(gè)下框界值和保持在瞬時(shí)功率最大值保持器及瞬時(shí)功率最小值保持器里保持的最大值、及最大值與最小值的差二者而變化的功率有關(guān);由這個(gè)功率下框界值決定器得出的下框界值與現(xiàn)在的幀功率作一比較,決定是聲音區(qū)域或非聲音區(qū)的判定器(36)。
4.根據(jù)權(quán)利要求3中記載的聲音區(qū)域檢測裝置,其特征是上述功率下框界值決定器(35)、在最大值與最小值的差未達(dá)到所設(shè)定的值時(shí)、相比于最大值與最小值的差在所定值以上的場合,把上述下框界值決定為接近最大值。
5.一種話速變換方法,其特征是在時(shí)間變化的任意比率下當(dāng)將伸張合成輸入數(shù)據(jù)而得到的輸出數(shù)據(jù)中出現(xiàn)非聲音區(qū)域、這個(gè)非聲音區(qū)域持續(xù)時(shí)間超越所設(shè)定的下框界值時(shí)削減與這個(gè)輸入數(shù)據(jù)相對(duì)應(yīng)的輸出數(shù)據(jù)的伸張時(shí)間,此削減的只是這個(gè)伸張時(shí)間內(nèi)的任意時(shí)間。
6.根據(jù)權(quán)利要求5中記載的話速變換方法,其特征是在輸入數(shù)據(jù)伸縮合成時(shí),輸入數(shù)據(jù)長和以任意的伸縮倍率乘以這個(gè)輸入數(shù)據(jù)長而運(yùn)算出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不矛盾,一面逐次監(jiān)視一面進(jìn)行合成處理;關(guān)于聲音部分對(duì)于時(shí)間變化的任意的伸縮合成比率在做到信息的丟失不會(huì)發(fā)生的同時(shí)保持住相對(duì)于伴有話速變換的伸張的正確時(shí)間信息。
7.根據(jù)權(quán)利要求5中記載的話速變換方法,其特征是把從伴隨著話速變換的輸入數(shù)據(jù)長的伸長部分解除時(shí)、把持續(xù)一定時(shí)間以上的非聲音區(qū)域的一部分消除,相應(yīng)于話速變換倍率、伸張量等、使非聲音區(qū)域殘存比率發(fā)生適應(yīng)性變化。
8.根據(jù)權(quán)利要求5中記載的話速變換方法,其特征是在所限制的時(shí)間范圍內(nèi)進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而得出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一面逐次監(jiān)視一面用預(yù)先設(shè)定的時(shí)間間隔測定伸長量,基于這個(gè)測定結(jié)果,在時(shí)間差少的時(shí)候?qū)⒃捤僮儞Q倍率暫時(shí)上升,而時(shí)間差多的時(shí)候,將話速變換倍率暫時(shí)下降,依此,話速變換倍率發(fā)生適應(yīng)性變化。
9.根據(jù)權(quán)利要求5中記載的話速變換方法,其特征是識(shí)別聲音區(qū)域和非聲音區(qū)域時(shí),相對(duì)于輸入進(jìn)來的信號(hào)數(shù)據(jù),在每個(gè)所設(shè)定的時(shí)間間隔里,用所設(shè)定的幀幅計(jì)算出幀功率的同時(shí),保持住過去所設(shè)定時(shí)間內(nèi)的幀功率最大值和最小值、決定下框界值,這個(gè)下框界值和相應(yīng)于被保持著的最大值以及最大值與最小值的差而變化的功率有關(guān);這個(gè)下框界值和現(xiàn)在的幀功率作比較決定現(xiàn)在的幀是聲音區(qū)域或非聲音區(qū)域。
10.根據(jù)權(quán)利要求9中記載的話速變換方法,其特征是最大值與最小值的差未達(dá)到所設(shè)定值時(shí),相比于最大值與最小值的差在所設(shè)定值以上的場合,將上述下框界值決定為接近最大值附近。
11.一種話速變換裝置,其特征是把輸入數(shù)據(jù)分割成各塊而生成各數(shù)據(jù)塊的同時(shí),具備下列各種手段基于各數(shù)據(jù)塊生成連接數(shù)據(jù)的分割處理/連接數(shù)據(jù)生成手段;以及基于輸入進(jìn)來的所期待的話速,根據(jù)上述分割處理/連接數(shù)據(jù)生成手段而生成的各數(shù)據(jù)塊,決定各連接數(shù)據(jù)的連接順序,把這些連接起來,生成輸出數(shù)據(jù)的連接處理手段;其中這個(gè)連接處理手段在時(shí)間變化的任意比率下將各數(shù)據(jù)塊伸張合成而得到的輸出數(shù)據(jù)中出現(xiàn)非聲音區(qū)域,這個(gè)非聲音區(qū)域的持續(xù)時(shí)間超越所設(shè)定的下框界值時(shí),將削減對(duì)應(yīng)于這個(gè)數(shù)據(jù)塊的輸出數(shù)據(jù)的伸張時(shí)間,此削減的僅僅是這個(gè)伸張時(shí)間內(nèi)的任意的時(shí)間。
12.根據(jù)權(quán)利要求11中記載的話速變換裝置,其特征是上述連接處理手段在伸縮合成輸入數(shù)據(jù)時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意伸縮倍率而算出的目標(biāo)數(shù)據(jù)長和實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一面逐次監(jiān)視一面進(jìn)行合成處理;對(duì)于時(shí)間變化的任意伸縮合成比率,有關(guān)聲音部分在達(dá)到信息不會(huì)丟失的同時(shí)、對(duì)于伴隨著話速變化的伸張的正確時(shí)間信息被保持住。
13.根據(jù)權(quán)利要求11中記載的話速變換裝置,其特征是上述連接處理手段,在把從伴隨著話速變換的輸入數(shù)據(jù)長的伸張部分解除時(shí),把持續(xù)一定時(shí)間以上的非聲音區(qū)域的一部分消除,而對(duì)應(yīng)于話速變換倍率、伸張量等,使非聲音區(qū)域的殘存比例發(fā)生適應(yīng)性變化。
14.根據(jù)權(quán)利要求11中記載的話速變換裝置,其特征是上述的連接處理手段,在限定的時(shí)間范圍進(jìn)行話速變換時(shí),輸入數(shù)據(jù)長和這個(gè)輸入數(shù)據(jù)長乘以任意的伸縮倍率而算出的目標(biāo)數(shù)據(jù)長與實(shí)際的輸出數(shù)據(jù)長的關(guān)系不發(fā)生矛盾,所以一面逐次監(jiān)視,一面用預(yù)先設(shè)定的時(shí)間間隔測定伸張量,基于這個(gè)測定結(jié)果,在時(shí)間差少的時(shí)候,使話速變換倍率暫時(shí)上升,而在時(shí)間差多的時(shí)候使話速變換倍率暫時(shí)下降,因此話速變換倍率發(fā)生適應(yīng)性變化。
15.根據(jù)權(quán)利要求11中記載的話速變換裝置,其特征是還具備分析處理手段;對(duì)于上述的輸入數(shù)據(jù)在每個(gè)所設(shè)定的時(shí)間間隔里,用所設(shè)定的幀幅運(yùn)算幀功率的同時(shí),保持過去所設(shè)定的時(shí)間內(nèi)幀功率的最大值和最小值,決定下框界值,這個(gè)下框界值和相應(yīng)于被保持著的最大值以及最大值與最小值差的變化的功率有關(guān),將這個(gè)下框界值與現(xiàn)在的幀功率作一比較,現(xiàn)在的幀由上述分析處理手段決定是聲音區(qū)域或非聲音區(qū)域。
16.根據(jù)權(quán)利要求15中記載的話速變換裝置,其特征是上述分析處理手段在最大值與最小值的差未達(dá)到所設(shè)定值的場合,相比于最大值與最小值的差在所設(shè)定值以上的場合,將上述的下框界值決定為接近最大值。
全文摘要
遲緩收聽聲音的發(fā)音速度(話速)的時(shí)候,利用連接順序生成器(8)把輸入聲音的數(shù)據(jù)長和根據(jù)事先給出的伸縮倍率有關(guān)的變換系數(shù)而預(yù)先計(jì)算出的輸出聲音長和實(shí)際輸出的聲音數(shù)據(jù)長用一定的處理單位時(shí)常加以監(jiān)視,由此決定不生成矛盾的連接順序,控制聲音數(shù)據(jù)連接器(9),不丟失聲音信息,連接聲音數(shù)據(jù)和連接數(shù)據(jù)。此外運(yùn)算輸出信號(hào)數(shù)據(jù)的功率,識(shí)別聲音區(qū)和非聲音區(qū)時(shí),與那個(gè)最大值及最大值和最小值的差相對(duì)應(yīng),決定下框界值。
文檔編號(hào)G10L25/78GK1225737SQ9880056
公開日1999年8月11日 申請(qǐng)日期1998年4月30日 優(yōu)先權(quán)日1997年4月30日
發(fā)明者今井篤, 清山信正, 都木徹 申請(qǐng)人:日本放送協(xié)會(huì)