語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法

文檔序號(hào)：2819163閱讀：268來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，尤指一種分布式語音/語者識(shí)別系統(tǒng)依據(jù)負(fù)載動(dòng)態(tài)調(diào)整的方法。
背景技術(shù)：
在這個(gè)網(wǎng)絡(luò)(尤其是全球信息網(wǎng))盛行的時(shí)代，有越來越多的商務(wù)行為和娛樂活動(dòng)已經(jīng)轉(zhuǎn)由通過網(wǎng)絡(luò)提供人們所需要的服務(wù)。然而，大多數(shù)全球信息網(wǎng)的使用者都受限于使用以非語音輸入/輸出裝置為基礎(chǔ)的設(shè)備，例如鼠標(biāo)、鍵盤、觸控板、軌跡球、打印機(jī)、屏幕等等，由于這些使用者設(shè)備并不符合人類以語音溝通的自然天性和方便性，使得通過全球信息網(wǎng)進(jìn)行互動(dòng)的發(fā)展遇到了一些瓶頸，于是科學(xué)家開始著手進(jìn)行語音/語者識(shí)別系統(tǒng)作為使用者與機(jī)器的溝通接口，使得這些在網(wǎng)絡(luò)上的互動(dòng)行為能更符合人性化需求。
近年來語音/語者識(shí)別系統(tǒng)以及電信技術(shù)的快速發(fā)展使得這方面技術(shù)的應(yīng)用更為廣泛，而不僅僅只是限制在單一的個(gè)人計(jì)算機(jī)上使用，分布式語音/語者識(shí)別系統(tǒng)允許使用者在不同的位置以不同的裝置輸入語音，所輸入的語音傳輸至中央處理系統(tǒng)，經(jīng)中央處理系統(tǒng)識(shí)別后以適當(dāng)?shù)姆绞?文字、畫而、語音)對(duì)使用者做出響應(yīng)。
在語音/語者識(shí)別技術(shù)中，特征參數(shù)擷取(feature extraction)的處理非常重要，借助對(duì)分析處理過的特征信號(hào)所具備的特性與建立好的模塊進(jìn)行相互對(duì)比，即可得到正確的識(shí)別結(jié)果。
請(qǐng)參閱圖1，其是現(xiàn)有的語音/語者識(shí)別系統(tǒng)識(shí)別語音信號(hào)的流程圖。使用者利用輸入裝置(例如麥克風(fēng))輸入語音信號(hào)，該語音信號(hào)經(jīng)過適當(dāng)步驟的前處理(例如信號(hào)放大、正規(guī)化(normalization)、預(yù)強(qiáng)調(diào)(pre-emphasis)、乘上漢明窗(Hamming Window)、通過低通濾波器或高通濾波器..等)，接著便進(jìn)入特征參數(shù)擷取處理的步驟。特征參數(shù)擷取處理系以幀為單位，針對(duì)每一幀先進(jìn)行例如快速傅立葉變換(Fast Fourier Transform，F(xiàn)FT)處理將語音信號(hào)轉(zhuǎn)為頻譜，接著進(jìn)一步對(duì)該頻譜求得梅爾倒頻譜參數(shù)(Mel-FrequencyCepstrum Coefficients，MFCC)或是進(jìn)行明亮度(Brightness)、過零點(diǎn)率(ZeroCrossing Rate)或基頻等的分析。最后，將特征參數(shù)與數(shù)據(jù)庫(kù)的所建立的特征數(shù)據(jù)做對(duì)比，由服務(wù)器回傳適當(dāng)?shù)捻憫?yīng)給使用者。
現(xiàn)有的語音/語者識(shí)別系統(tǒng)在特征參數(shù)擷取處理上相當(dāng)依賴連接至識(shí)別引擎的中央處理器的運(yùn)算能力，且傳輸時(shí)間的多寡也視網(wǎng)絡(luò)帶寬而決定，由于過去語音/語者識(shí)別系統(tǒng)在應(yīng)用上尚未普及，因此中央處理器及網(wǎng)絡(luò)的負(fù)載過重的情形并不常發(fā)生；然而隨著該系統(tǒng)的應(yīng)用越來越廣泛，使用者的激增使得中央處理器及網(wǎng)絡(luò)的負(fù)載越來越大，造成許多使用者在隊(duì)列中等待中央處理器完成識(shí)別回傳結(jié)果的時(shí)間過長(zhǎng)，也因此無法滿足實(shí)時(shí)(real time)響應(yīng)使用者的需求。
目前解決上述問題的方法主要有兩種，一種是由服務(wù)器和客戶端(例如PDA、機(jī)上盒等)分別負(fù)擔(dān)一部份的運(yùn)算?；旧掀渥鞣ㄊ歉鶕?jù)服務(wù)器端和客戶端的處理能力而預(yù)先決定各自需要負(fù)擔(dān)的運(yùn)算量，但是這種方式并沒有動(dòng)態(tài)調(diào)整負(fù)載的功能，客戶端并不能隨著負(fù)載驟增而多分擔(dān)一點(diǎn)運(yùn)算使整體的等待時(shí)間最短，一旦輸入的裝置增多，則每個(gè)客戶端等待的時(shí)間也隨之增加，因此對(duì)于大量的輸入造成等待時(shí)間過長(zhǎng)的問題并無法有效解決。
另一種方式是在負(fù)載過重時(shí)調(diào)整每一級(jí)特征的效能，亦即犧牲特征的正確性來獲取更快的運(yùn)算時(shí)間，這種方式雖然是屬于動(dòng)態(tài)調(diào)整負(fù)載，且能減少整體等待時(shí)間，但是相對(duì)地識(shí)別語音/語者的正確率也會(huì)因此降低。
所以，申請(qǐng)人鑒于現(xiàn)有技術(shù)的缺陷，經(jīng)悉心試驗(yàn)與研究，并一本鍥而不舍的精神，終于研發(fā)出一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化方法。

發(fā)明內(nèi)容
本申請(qǐng)的主要目的是提供一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，該方法主要是根據(jù)網(wǎng)絡(luò)及服務(wù)器的負(fù)載動(dòng)態(tài)分配服務(wù)器端及客戶端所需負(fù)擔(dān)的運(yùn)算，使客戶端等待語音/語者識(shí)別結(jié)果所需時(shí)間為最小。
根據(jù)上述構(gòu)想，本申請(qǐng)?zhí)峁┮环N語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò)，其通過對(duì)一語音進(jìn)行總共N級(jí)的語音特征(feature)運(yùn)算完成識(shí)別，其中N為一正整數(shù)，其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征運(yùn)算，其步驟包含(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間，其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)；(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間，其中在該服務(wù)器端該第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)；(c)估算該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d；(d)在該N的范圍內(nèi)決定一n值，使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最小；(e)輸入一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一輸入時(shí)間(Tinput)；(f)由該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該語音之第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算；以及(g)重復(fù)步驟(e)-(f)。
根據(jù)上述構(gòu)想，其中該步驟(c)更包含(c1)輸入一第一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第一輸入時(shí)間Tinput1，且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間Toutput1；以及(c2)輸入一第二語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第二輸入時(shí)間Tinput2，且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間Toutput2。
根據(jù)上述構(gòu)想，其中該第一語音具有一數(shù)據(jù)量Dn(Tinput1)。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間為Dn(Tinput1)/d。
根據(jù)上述構(gòu)想，其中該第二語音具有一數(shù)據(jù)量Dn(Tinput2)。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間為Dn(Tinput2)/d。
根據(jù)上述構(gòu)想，其中該輸入的語音具有一數(shù)據(jù)量Dn(Tinput)。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d。
根據(jù)上述構(gòu)想，其中該步驟(c1)更包含(c11)提供一n1值，其在該N的范圍內(nèi)；以及(c12)由該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該第一語音的第(n1+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想，其中該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput1*Σi=1n1Ta(i).]]>根據(jù)上述構(gòu)想，其中該服務(wù)器端進(jìn)行該第一語音的第(n1+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput1*1cΣi=n1+1NTb(i).]]>根據(jù)上述構(gòu)想，其中運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)之時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，亦即Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i)).]]>根據(jù)上述構(gòu)想，其中該第一輸出時(shí)間為運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)之時(shí)間之和，即Toutput1=Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i))+1dDn(Tinput1)+1dK.]]>根據(jù)上述構(gòu)想，其中該步驟(c2)還包含(c21)提供一n2值，在該N的范圍內(nèi)；以及(c22)由該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該第一語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想，其中該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput2*Σi=1n2Ta(i).]]>根據(jù)上述構(gòu)想，其中該服務(wù)器端進(jìn)行該第二語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征之運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput2*1cΣi=n2+1NTb(i).]]>根據(jù)上述構(gòu)想，其中運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，即Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i)).]]>根據(jù)上述構(gòu)想，其中該第二輸出時(shí)間為運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和，即Toutput2=Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i))+1dDn(Tinput2)+1dK.]]>根據(jù)上述構(gòu)想，其中識(shí)別該語音所耗費(fèi)的時(shí)間為運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和，即Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK.]]>本申請(qǐng)的另一目的在提供一種錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法，該方法可在錄音同時(shí)，動(dòng)態(tài)分配服務(wù)器端及客戶端所需負(fù)擔(dān)的運(yùn)算，使客戶端等待語音/語者識(shí)別結(jié)果所需時(shí)間為最小。
根據(jù)上述構(gòu)想，本申請(qǐng)?zhí)峁┝艘环N錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法，其用于一錄音同步語音特征計(jì)算系統(tǒng)，其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò)，該方法通過對(duì)一由N’個(gè)幀(frame)所組成的語音進(jìn)行總共N級(jí)的語音特征(feature)運(yùn)算完成識(shí)別，其中N及N’分別為一正整數(shù)，其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征，其中在該N’的范圍內(nèi)任取一n’值用以代表第n’個(gè)幀，其步驟包含(a)提供一適當(dāng)?shù)膎值，在該N的范圍內(nèi)；(b)輸入該語音，該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算，其中由該客戶端進(jìn)行該語音的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該語音的各該幀的第(n+1)級(jí)語音特征至第N級(jí)語音特征的運(yùn)算；(c)當(dāng)該語音輸入結(jié)束，其耗費(fèi)一輸入時(shí)間(Tinput)，且該錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的運(yùn)算，且第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算，則根據(jù)該n1值可經(jīng)由一適當(dāng)方式修正該n值，其使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最小；以及(d)依據(jù)步驟(c)所修正的該n值，由該客戶端進(jìn)行尚未完成運(yùn)算的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行尚未完成運(yùn)算的各該幀的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想，其中步驟(a)中的該n值利用權(quán)利要求1的方法求得。
根據(jù)上述構(gòu)想，其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)。
根據(jù)上述構(gòu)想，其中在該服務(wù)器端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)。
根據(jù)上述構(gòu)想，其中該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間的和，即Tinput*Σi=1nTa(i).]]>根據(jù)上述構(gòu)想，其中該服務(wù)器端進(jìn)行該語音的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput*1cΣi=n+1NTb(i).]]>根據(jù)上述構(gòu)想，其中運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，即Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>根據(jù)上述構(gòu)想，其中該語音具有一數(shù)據(jù)量Dn(Tinput)。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d。
根據(jù)上述構(gòu)想，其中該步驟(c)中的該適當(dāng)方式為(c1)若該n1值小于該n值時(shí)，則利用
n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n+1NTb(i)]+1dDn(Tinut)+1dK))]]>求取所欲修正的該n值；以及(c2)若該n1值大于或等于該n值時(shí)，則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1NTb(i)]+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值，其中c為該服務(wù)器之負(fù)載，而d系為該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想，其中該服務(wù)器的負(fù)載c及該網(wǎng)絡(luò)的負(fù)載d，是利用上述的方法求得。
本申請(qǐng)的再一目的在于提供一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，其用于一語音/語者識(shí)別系統(tǒng)，其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò)，其通過對(duì)一語音進(jìn)行多級(jí)語音特征(feature)運(yùn)算完成識(shí)別，其步驟包含(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間；(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間；(c)估算該服務(wù)器端的一負(fù)載及該網(wǎng)絡(luò)的一負(fù)載；(d)依據(jù)該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載，計(jì)算一適當(dāng)量，使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??；以及(e)根據(jù)該適當(dāng)量，在識(shí)別一語音所需運(yùn)算的該多級(jí)特征中，決定分別于該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算。
根據(jù)上述構(gòu)想，其中步驟(c)更包含(c1)輸入一第一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第一輸入時(shí)間，且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間；(c2)輸入一第二語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第二輸入時(shí)間，且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間；以及(c3)根據(jù)(c1)及(c2)所得的結(jié)果，估算該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想，其中在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想，其中在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想，其中該語音包含一數(shù)據(jù)量。
根據(jù)上述構(gòu)想，其中網(wǎng)絡(luò)傳輸該語音所需時(shí)間為該語音的數(shù)據(jù)量除以該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想，其中該多級(jí)特征運(yùn)算所需時(shí)間為在該客戶端運(yùn)算該多級(jí)特征與該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和。
根據(jù)上述構(gòu)想，其中該輸出時(shí)間系為該多級(jí)特征運(yùn)算所需時(shí)間、該網(wǎng)絡(luò)傳輸該語音所需時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
本申請(qǐng)的再一目的在于提供一種錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法，其用于一錄音同步語音特征計(jì)算系統(tǒng)，其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò)，該方法由對(duì)由多個(gè)幀(frame)所組成的一語音進(jìn)行總共多級(jí)的語音特征(feature)運(yùn)算完成識(shí)別，其步驟包含(a)提供一適當(dāng)量；(b)輸入該語音，則該錄音同步語音特征計(jì)算系統(tǒng)系同步對(duì)該語音進(jìn)行語音特征運(yùn)算，其中該系統(tǒng)系依據(jù)該適當(dāng)量，分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算；(c)當(dāng)該語音輸入結(jié)束，其耗費(fèi)一輸入時(shí)間，其中該多個(gè)幀中有部分幀尚未完成運(yùn)算，且該尚未完成運(yùn)算的幀中的一第一幀僅完成部分該多級(jí)特征的運(yùn)算，則由一適當(dāng)方式修正該適當(dāng)量，使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??；以及(d)依據(jù)步驟(c)所修改的該適當(dāng)量，分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算，以進(jìn)行尚未完成運(yùn)算的各該幀的語音特征運(yùn)算完成識(shí)別。
根據(jù)上述構(gòu)想，其中步驟(a)中的該適當(dāng)量是利用上述方法求得。
根據(jù)上述構(gòu)想，其中該客戶端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想，其中該服務(wù)器端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想，其中該語音具有一數(shù)據(jù)量。
根據(jù)上述構(gòu)想，其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間，為該數(shù)據(jù)量除以該網(wǎng)絡(luò)的一負(fù)載。
根據(jù)上述構(gòu)想，其中該運(yùn)算多級(jí)特征所需時(shí)間，為該客戶端處理該多級(jí)特征及該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和。
根據(jù)上述構(gòu)想，其中識(shí)別該語音所耗費(fèi)的該時(shí)間為該運(yùn)算多級(jí)特征所需時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。

圖1所示是現(xiàn)有的語音/語者識(shí)別系統(tǒng)識(shí)別語音信號(hào)的流程圖；圖2所示為本申請(qǐng)的語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法的一較佳實(shí)施例流程圖；以及圖3所示為本申請(qǐng)的錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法的一較佳實(shí)施例流程圖。
具體實(shí)施例方式
本申請(qǐng)將可由以下的實(shí)施例說明而得到充分了解，使得熟習(xí)本領(lǐng)域的人士可以據(jù)以完成，然本申請(qǐng)的實(shí)施并非可由下列實(shí)施例而被限制其實(shí)施方式。
請(qǐng)參閱圖2，其為本申請(qǐng)的語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法的一較佳實(shí)施例流程圖。首先，由于客戶端和服務(wù)器端所搭載的中央處理器信息可事先得知，因此便可以于步驟A中提供客戶端和服務(wù)器端各自對(duì)識(shí)別引擎處理每一級(jí)的特征(feature)所花的時(shí)間，該時(shí)間必與輸入時(shí)間的實(shí)時(shí)(real time)呈一倍數(shù)關(guān)系，因此當(dāng)客戶端處理第i級(jí)特征時(shí)，便可得知其運(yùn)算時(shí)間為Ta(i)倍的實(shí)時(shí)；客戶端若為如PDA等使用者所自備的硬件，則Ta(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均后得到，客戶端若為如機(jī)上盒(setup-box)等由系統(tǒng)廠商所提供的硬件，則Ta(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到。同樣地，當(dāng)服務(wù)器端處理第i級(jí)特征時(shí)，也可得知其運(yùn)算時(shí)間為Tb(i)倍的實(shí)時(shí)，服務(wù)器端通常是由系統(tǒng)廠商提供的硬件，因此Tb(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到，但若服務(wù)器端不是由系統(tǒng)廠商所提供的硬件，則Tb(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均測(cè)到。接著，在步驟B中估算該服務(wù)器及網(wǎng)絡(luò)目前的負(fù)載。在步驟C中，根據(jù)步驟A及步驟B所得的信息，亦即Ta(i)、Tb(i)和目前的服務(wù)器負(fù)載c及目前的網(wǎng)絡(luò)負(fù)載d，便能決定可使輸出時(shí)間最小的分配值n。最后，在步驟D中，往后的語音識(shí)別就可以依據(jù)該n值分配服務(wù)器端和客戶端各自需要負(fù)擔(dān)的運(yùn)算，直到再一次修改上述的n值為止，因此便能達(dá)到動(dòng)態(tài)調(diào)整使得客戶端等待時(shí)間為最短的功能。
在實(shí)際執(zhí)行上，步驟B中的服務(wù)器及網(wǎng)絡(luò)目前的負(fù)載可經(jīng)由下述程序求得。首先，輸入一第一語音進(jìn)行識(shí)別，可測(cè)得輸入該第一語音所需耗費(fèi)的時(shí)間Tinput1以及完成識(shí)別傳回結(jié)果所需耗費(fèi)的輸出時(shí)間Toutput1。接著，輸入一第二語音進(jìn)行識(shí)別，可測(cè)得輸入該第二語音所需耗費(fèi)的時(shí)間Tinput2以及完成識(shí)別傳回結(jié)果所需耗費(fèi)的輸出時(shí)間Toutput2。利用上述步驟所測(cè)得的輸入時(shí)間(Tinput1、Tinput2)及輸出時(shí)間(Toutput1、Toutput2)，可代入下列的方程式(1)建立聯(lián)立方程式而分別求得目前服務(wù)器的負(fù)載c及網(wǎng)絡(luò)負(fù)載d，方程式(1)Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK]]>其中N表示總共有N級(jí)的特征處理；c表示服務(wù)器目前的負(fù)載；d表示網(wǎng)絡(luò)目前的負(fù)載；Tinput*Σi=1n1Ta(i)]]>表示在客戶端運(yùn)算第1級(jí)至第n級(jí)特征所耗費(fèi)的時(shí)間；Tinput1*1cΣi=n1+1NTb(i)]]>則表示在具有c負(fù)載的服務(wù)器端運(yùn)算第(n+1)級(jí)至第N級(jí)特征所耗費(fèi)的時(shí)間；Dn(Tinput)表示語音所具有的數(shù)據(jù)量，因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間；K為傳回識(shí)別結(jié)果的大小，K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間，由于識(shí)別結(jié)果的大小通常變化不大，可視為常數(shù)；而完成識(shí)別所需的輸出時(shí)間(Toutput)即為在客戶端運(yùn)算特征所耗費(fèi)的時(shí)間、在服務(wù)器端運(yùn)算特征所耗費(fèi)的時(shí)間、網(wǎng)絡(luò)傳輸語音所需的時(shí)間以及傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間的總和。此外，步驟C中決定可使輸出時(shí)間(Toutput)最小的n值則可根據(jù)下列的方程式(2)求得，方程式(2)n=Argn(Min(Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK))]]>本發(fā)明也可視實(shí)際情況設(shè)定每隔一段時(shí)間便重新計(jì)算服務(wù)器和網(wǎng)絡(luò)的負(fù)載，以估測(cè)在下一段時(shí)間中要如何取n值才能使整體識(shí)別時(shí)間最佳化。再者，假設(shè)服務(wù)器負(fù)載變化不大的話，便可在前一次響應(yīng)中得知服務(wù)器的負(fù)載，或是服務(wù)器也可以固定每隔一段時(shí)間廣播其所估測(cè)的下一段時(shí)間的負(fù)載，如此一來，僅需花一次實(shí)際測(cè)量時(shí)間就可以計(jì)算出網(wǎng)絡(luò)的負(fù)載，由此估測(cè)在下一段時(shí)間中所要取的n值。此外，若尚未有足夠信息進(jìn)行網(wǎng)絡(luò)及服務(wù)器的負(fù)載計(jì)算之前，亦可憑經(jīng)驗(yàn)任取一n值使用，直到有足夠的信息進(jìn)行網(wǎng)絡(luò)及服務(wù)器的負(fù)載評(píng)估為止。
請(qǐng)參閱圖3，其為本申請(qǐng)的錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法的一較佳實(shí)施例流程圖。由于錄音同步語音特征計(jì)算系統(tǒng)是在錄音同時(shí)進(jìn)行同步識(shí)別，因此錄音一旦開始，識(shí)別引擎便會(huì)循序針對(duì)組成該語音的每一個(gè)幀(frame)做特征運(yùn)算，而非等到錄音完成后才對(duì)語音幀做處理。首先，由于可事先得知在客戶端和服務(wù)器端中所搭載的中央處理器信息，因此便可以在步驟A中預(yù)先提供客戶端和服務(wù)器端各自對(duì)識(shí)別引擎處理每一級(jí)的特征(feature)所花的時(shí)間，該時(shí)間必與輸入時(shí)間的實(shí)時(shí)(real time)呈一倍數(shù)關(guān)系，因此當(dāng)客戶端處理第i級(jí)特征時(shí)，便可得知其運(yùn)算時(shí)間為Ta(i)倍的實(shí)時(shí)；客戶端若為如PDA等使用者所自備的硬件，則Ta(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均后得到，客戶端若為如機(jī)上盒(setup-box)等由系統(tǒng)廠商所提供的硬件，則Ta(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到。同樣地，當(dāng)服務(wù)器端處理第i級(jí)特征時(shí)，便可估算其運(yùn)算時(shí)間為Tb(i)倍的實(shí)時(shí)，服務(wù)器端通常是由系統(tǒng)廠商提供的硬件，因此Tb(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到，但若服務(wù)器端不是由系統(tǒng)廠商所提供的硬件，則Tb(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均測(cè)到。接著在步驟B中，輸入一語音進(jìn)行語音識(shí)別，由于在錄音結(jié)束前并無法得知輸入語音所需耗費(fèi)的總時(shí)間(Tinput)，因此在錄音尚未完成的處理階段，先依據(jù)上述方法所選定的n值或是依據(jù)經(jīng)驗(yàn)自行給定n值，來分配客戶端和服務(wù)器端所需負(fù)擔(dān)的特征運(yùn)算。在步驟C中，一旦錄音完成，便可測(cè)得輸入所耗費(fèi)的時(shí)間(Tinput)，且假設(shè)當(dāng)時(shí)錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的所有特征運(yùn)算，而第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算，此時(shí)若n1值小于步驟B中所給定的n值時(shí)，便依據(jù)下列的方程式(3)修正該n值，使整體識(shí)別時(shí)間(Toutput)最小，方程式(3)
n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n-1NTb(i)]+1dDn(Tinput)+1dK))]]>其中N表示總共有N級(jí)的特征處理；c表示服務(wù)器目前的負(fù)載；d表示網(wǎng)絡(luò)目前的負(fù)載；Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>代表尚未運(yùn)算的語音特征運(yùn)算，依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間；Tinput*(Σi=n1nTa(i)+1cΣi=n+1NTb(i))]]>代表第(n’+1)個(gè)幀尚未完成處理的特征運(yùn)算，依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間；Dn(Tinput)表示語音所具有的數(shù)據(jù)量，因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間；而K為傳回識(shí)別結(jié)果的大小，K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間，由于識(shí)別結(jié)果的大小通常變化不大，可視為常數(shù)。若在步驟C中的n1值大于或等于步驟B中所給定的n值時(shí)，便依據(jù)下列的方程式(4)修正該n值，使整體識(shí)別時(shí)間(Toutput)最小，方程式(4)n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1NTb(i)]+1dDn(Tinput)+1dK))]]>其中N表示總共有N級(jí)特征處理；c表示服務(wù)器目前的負(fù)載；d表示網(wǎng)絡(luò)目前的負(fù)載；Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>代表尚未運(yùn)算的語音特征運(yùn)算，依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間；Tinput*(1cΣi=n1+1NTb(i))]]>代表進(jìn)行第(n’+1)個(gè)幀尚未完成處理的特征運(yùn)算所需耗費(fèi)的時(shí)間，在此就完全交由服務(wù)器端運(yùn)算；Dn(Tinput)表示語音所具有的數(shù)據(jù)量，因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間；而K為傳回識(shí)別結(jié)果的大小，K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間，由于識(shí)別結(jié)果的大小通常變化不大，可視為常數(shù)。
綜上所述，本申請(qǐng)的語音/語者識(shí)別系統(tǒng)負(fù)載最佳化方法，通過估算服務(wù)器端和網(wǎng)絡(luò)目前的負(fù)載，動(dòng)態(tài)調(diào)整客戶端分擔(dān)的服務(wù)器端的工作，使得整體識(shí)別時(shí)間及客戶端等待時(shí)間最短?？v使本發(fā)明已由上述的實(shí)施例詳細(xì)敘述而可由本技術(shù)領(lǐng)域的普通技術(shù)人員作出各種等效變換，但是均不超出本發(fā)明的范圍。
權(quán)利要求
1.一種語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法，用于一語音/語者識(shí)別系統(tǒng)，其包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò)，通過對(duì)一語音進(jìn)行總共N級(jí)的語音特征運(yùn)算完成識(shí)別，其中N為一正整數(shù)，其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征，其特征在于，該方法包含如下步驟(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間，其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)；(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間，其中在該服務(wù)器端該第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)；(c)提供該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d；(d)在該N的范圍內(nèi)決定一n值，其使得識(shí)別該語音所耗費(fèi)的時(shí)間Toutput為最??；(e)輸入一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一輸入時(shí)間Tinput；(f)由該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該語音的第n+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算；以及(g)重復(fù)步驟(e)-(f)。
2.如權(quán)利要求1所述的方法，其特征在于，該步驟(c)更包含(c1)輸入一第一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第一輸入時(shí)間Tinput1，且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間Toutput1；以及(c2)輸入一第二語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第二輸入時(shí)間Tinput2，且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間Toutput2。
3.如權(quán)利要求2所述的方法，其特征在于該第一語音具有一數(shù)據(jù)量Dn(Tinput1)；該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間為Dn(Tinput1)/d；該第二語音具有一數(shù)據(jù)量Dn(Tinput2)；該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間為Dn(Tinput2)/d，及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d，其中傳回該設(shè)備結(jié)果的大小為K。
4.如權(quán)利要求3所述的方法，其特征在于該步驟(c1)更包含(c11)提供一n1值，其在該N的范圍內(nèi)；以及(c12)由該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該第一語音的第n1+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算；該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinpuut1*Σi=1n1Ta(i);]]>該服務(wù)器端進(jìn)行該第一語音的第n1+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput1*1cΣi=n1+1NTb(i);]]>運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，即Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i));]]>及/或該第一輸出時(shí)間為運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和，即Toutput1=Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i))+1dDn(Tinput1)+1dK.]]>
5.如權(quán)利要求3所述的方法，其特征在于該步驟(c2)還包含(c21)提供一n2值，其在該N的范圍內(nèi)；以及(c22)由該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該第一語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算；該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput2*Σi=1n2Ta(i);]]>該服務(wù)器端進(jìn)行該第二語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput2*1cΣi=n2+1NTb(i);]]>運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，即Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i));]]>及/或該第二輸出時(shí)間為運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和，即Toutput2=Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i))+1dDn(Tinput2)+1dK.]]>
6.如權(quán)利要求1所述的方法，其特征在于該輸入的語音具有一數(shù)據(jù)量Dn(Tinput)；該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d；及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d，其中傳回該設(shè)備結(jié)果的大小為K。
7.如權(quán)利要求6所述的方法，其特征在于，該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput*Σi=1nTa(i);]]>該服務(wù)器端進(jìn)行該第二語音的第n+1級(jí)語音特征至該第N級(jí)語音特征運(yùn)算所耗費(fèi)的時(shí)間，為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和，即Tinput*1cΣi=n+1NTb(i);]]>運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間，為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和，即Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i));]]>及/或識(shí)別該語音所耗費(fèi)的時(shí)間為運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和，即Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK.]]>
8.如權(quán)利要求7所述的方法，其特征在于該步驟(d)是利用n=Argn(Min(Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK))]]>求取該n值。
9.一種錄音同步語音特征計(jì)算最佳化的方法，其用于一錄音同步語音特征計(jì)算系統(tǒng)，該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò)，該方法通過對(duì)一由N’個(gè)幀所組成的語音進(jìn)行總共N級(jí)的語音特征運(yùn)算完成識(shí)別，其中N及N’分別為一正整數(shù)，其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征，其中在該N’的范圍內(nèi)任取一n’值用以代表第n’個(gè)幀，其特征在于，包含如下步驟(a)提供一適當(dāng)?shù)膎值，其位于該N的范圍內(nèi)；(b)輸入該語音，該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算，其中由該客戶端進(jìn)行該語音的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行該語音的各該幀的第(n+1)級(jí)語音特征至第N級(jí)語音特征的運(yùn)算；(c)當(dāng)該語音輸入結(jié)束，其耗費(fèi)一輸入時(shí)間(Tinput)，且該錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的運(yùn)算，且第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算，則根據(jù)該n1值可經(jīng)由一適當(dāng)方式修正該n值，其使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最?。灰约?d)依據(jù)步驟(c)所修正的該n值，由該客戶端進(jìn)行尚未完成運(yùn)算的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算，而由該服務(wù)器端進(jìn)行尚未完成運(yùn)算的各該幀的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
10.如權(quán)利要求9所述的方法，其特征在于，步驟(a)中的該n值利用權(quán)利要求1的方法求得。
11.如權(quán)利要求9所述的方法，其特征在于，在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)。
12.如權(quán)利要求11所述的方法，其特征在于，在該服務(wù)器端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)。
13.如權(quán)利要求12所述的方法，其特征在于，該步驟(c)中的該適當(dāng)方式為(c1)若該n1值小于該n值時(shí)，則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n+1NTb(i)]+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值；以及(c2)若該n1值大于或等于該n值時(shí)，則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1nTa(i)+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值，其中c為該服務(wù)器的負(fù)載，而d為該網(wǎng)絡(luò)的負(fù)載，該輸入的語音具有一數(shù)據(jù)量Dn(Tinput)；該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d；及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d，其中傳回該識(shí)別結(jié)果的大小為K。
14.如權(quán)利要求9所述的方法，其特征在于該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d；及/或該服務(wù)器的負(fù)載c及該網(wǎng)絡(luò)的負(fù)載d，是利用權(quán)利要求1的方法求得。
15.一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，其用于一語音/語者識(shí)別系統(tǒng)，該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò)，其通過對(duì)一語音進(jìn)行多級(jí)語音特征運(yùn)算完成識(shí)別，該方法包括如下步驟(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間；(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間；(c)提供該服務(wù)器端的一負(fù)載及該網(wǎng)絡(luò)的一負(fù)載；(f)依據(jù)該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載，計(jì)算一適當(dāng)量，使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??；以及(g)根據(jù)該適當(dāng)量，在識(shí)別一語音所需運(yùn)算的該多級(jí)特征中，決定分別在該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算。
16.如權(quán)利要求15所述的方法，其特征在于，步驟(c)更包含(c1)輸入一第一語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第一輸入時(shí)間，且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間；(c2)輸入一第二語音，以進(jìn)行語音識(shí)別，其中該輸入需耗費(fèi)一第二輸入時(shí)間，且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間；以及(c3)根據(jù)(c1)及(c2)所得的結(jié)果，估算該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載。
17.如權(quán)利要求15所述的方法，其特征在于在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與輸入時(shí)間成正比；及/或在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與輸入時(shí)間成正比。
18.如權(quán)利要求15所述的方法，其特征在于該語音包含一數(shù)據(jù)量；及/或網(wǎng)絡(luò)傳輸該語音所需時(shí)間為該語音的數(shù)據(jù)量除以該網(wǎng)絡(luò)的負(fù)載。
19.如權(quán)利要求15所述的方法，其特征在于該多級(jí)特征運(yùn)算所需時(shí)間為在該客戶端運(yùn)算該多級(jí)特征與該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和；及/或該輸出時(shí)間為該多級(jí)特征運(yùn)算所需時(shí)間、該網(wǎng)絡(luò)傳輸該語音所需時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
20.一種錄音同步語音特征計(jì)算最佳化的方法，其用于一錄音同步語音特征計(jì)算系統(tǒng)，該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò)，該方法通過對(duì)由多個(gè)幀所組成的一語音進(jìn)行總共多級(jí)的語音特征運(yùn)算完成識(shí)別，該方法包括如下步驟(a)提供一適當(dāng)量；(b)輸入該語音，則該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算，其中該系統(tǒng)是依據(jù)該適當(dāng)量，分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算；(c)當(dāng)該語音輸入結(jié)束，其耗費(fèi)一輸入時(shí)間，其中該多個(gè)幀中有部分幀尚未完成運(yùn)算，且該尚未完成運(yùn)算的幀中的一第一幀僅完成部分該多級(jí)特征運(yùn)算，則經(jīng)由一適當(dāng)方式修正該適當(dāng)量，使得識(shí)別該語音所耗費(fèi)的時(shí)間為最?。灰约?d)依據(jù)步驟(c)所修改的該適當(dāng)量，分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算，以進(jìn)行尚未完成運(yùn)算的各該幀的語音特征運(yùn)算完成識(shí)別。
21.如權(quán)利要求20所述的方法，其特征在于，步驟(a)中的該適當(dāng)量是利用權(quán)利要求1的方法求得。
22.如權(quán)利要求20所述的方法，其特征在于該客戶端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比；及/或該服務(wù)器端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
23.如權(quán)利要求20所述的方法，其特征在于，識(shí)別該語音所耗費(fèi)的該時(shí)間為該運(yùn)算多級(jí)特征所需時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
全文摘要
本發(fā)明提供了一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法，用于一語音/語者識(shí)別系統(tǒng)。該方法包含(a)提供在客戶端運(yùn)算各級(jí)的語音特征所耗費(fèi)的時(shí)間，其中在該客戶端運(yùn)算第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)；(b)提供在服務(wù)器端運(yùn)算各級(jí)語音特征所耗費(fèi)時(shí)間，其中在服務(wù)器端第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)；(c)提供該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d；(d)在該N的范圍內(nèi)決定一n值，其使得識(shí)別該語音所耗費(fèi)的時(shí)間(T
文檔編號(hào)G10L15/00GK1801323SQ20051000425
公開日2006年7月12日申請(qǐng)日期2005年1月6日優(yōu)先權(quán)日2005年1月6日
發(fā)明者李允文申請(qǐng)人:臺(tái)達(dá)電子工業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載