專利名稱:語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,尤指一種分布式語音/語者識(shí)別系統(tǒng)依據(jù)負(fù)載動(dòng)態(tài)調(diào)整的方法。
背景技術(shù):
在這個(gè)網(wǎng)絡(luò)(尤其是全球信息網(wǎng))盛行的時(shí)代,有越來越多的商務(wù)行為和娛樂活動(dòng)已經(jīng)轉(zhuǎn)由通過網(wǎng)絡(luò)提供人們所需要的服務(wù)。然而,大多數(shù)全球信息網(wǎng)的使用者都受限于使用以非語音輸入/輸出裝置為基礎(chǔ)的設(shè)備,例如鼠標(biāo)、鍵盤、觸控板、軌跡球、打印機(jī)、屏幕等等,由于這些使用者設(shè)備并不符合人類以語音溝通的自然天性和方便性,使得通過全球信息網(wǎng)進(jìn)行互動(dòng)的發(fā)展遇到了一些瓶頸,于是科學(xué)家開始著手進(jìn)行語音/語者識(shí)別系統(tǒng)作為使用者與機(jī)器的溝通接口,使得這些在網(wǎng)絡(luò)上的互動(dòng)行為能更符合人性化需求。
近年來語音/語者識(shí)別系統(tǒng)以及電信技術(shù)的快速發(fā)展使得這方面技術(shù)的應(yīng)用更為廣泛,而不僅僅只是限制在單一的個(gè)人計(jì)算機(jī)上使用,分布式語音/語者識(shí)別系統(tǒng)允許使用者在不同的位置以不同的裝置輸入語音,所輸入的語音傳輸至中央處理系統(tǒng),經(jīng)中央處理系統(tǒng)識(shí)別后以適當(dāng)?shù)姆绞?文字、畫而、語音)對(duì)使用者做出響應(yīng)。
在語音/語者識(shí)別技術(shù)中,特征參數(shù)擷取(feature extraction)的處理非常重要,借助對(duì)分析處理過的特征信號(hào)所具備的特性與建立好的模塊進(jìn)行相互對(duì)比,即可得到正確的識(shí)別結(jié)果。
請(qǐng)參閱圖1,其是現(xiàn)有的語音/語者識(shí)別系統(tǒng)識(shí)別語音信號(hào)的流程圖。使用者利用輸入裝置(例如麥克風(fēng))輸入語音信號(hào),該語音信號(hào)經(jīng)過適當(dāng)步驟的前處理(例如信號(hào)放大、正規(guī)化(normalization)、預(yù)強(qiáng)調(diào)(pre-emphasis)、乘上漢明窗(Hamming Window)、通過低通濾波器或高通濾波器..等),接著便進(jìn)入特征參數(shù)擷取處理的步驟。特征參數(shù)擷取處理系以幀為單位,針對(duì)每一幀先進(jìn)行例如快速傅立葉變換(Fast Fourier Transform,F(xiàn)FT)處理將語音信號(hào)轉(zhuǎn)為頻譜,接著進(jìn)一步對(duì)該頻譜求得梅爾倒頻譜參數(shù)(Mel-FrequencyCepstrum Coefficients,MFCC)或是進(jìn)行明亮度(Brightness)、過零點(diǎn)率(ZeroCrossing Rate)或基頻等的分析。最后,將特征參數(shù)與數(shù)據(jù)庫(kù)的所建立的特征數(shù)據(jù)做對(duì)比,由服務(wù)器回傳適當(dāng)?shù)捻憫?yīng)給使用者。
現(xiàn)有的語音/語者識(shí)別系統(tǒng)在特征參數(shù)擷取處理上相當(dāng)依賴連接至識(shí)別引擎的中央處理器的運(yùn)算能力,且傳輸時(shí)間的多寡也視網(wǎng)絡(luò)帶寬而決定,由于過去語音/語者識(shí)別系統(tǒng)在應(yīng)用上尚未普及,因此中央處理器及網(wǎng)絡(luò)的負(fù)載過重的情形并不常發(fā)生;然而隨著該系統(tǒng)的應(yīng)用越來越廣泛,使用者的激增使得中央處理器及網(wǎng)絡(luò)的負(fù)載越來越大,造成許多使用者在隊(duì)列中等待中央處理器完成識(shí)別回傳結(jié)果的時(shí)間過長(zhǎng),也因此無法滿足實(shí)時(shí)(real time)響應(yīng)使用者的需求。
目前解決上述問題的方法主要有兩種,一種是由服務(wù)器和客戶端(例如PDA、機(jī)上盒等)分別負(fù)擔(dān)一部份的運(yùn)算?;旧掀渥鞣ㄊ歉鶕?jù)服務(wù)器端和客戶端的處理能力而預(yù)先決定各自需要負(fù)擔(dān)的運(yùn)算量,但是這種方式并沒有動(dòng)態(tài)調(diào)整負(fù)載的功能,客戶端并不能隨著負(fù)載驟增而多分擔(dān)一點(diǎn)運(yùn)算使整體的等待時(shí)間最短,一旦輸入的裝置增多,則每個(gè)客戶端等待的時(shí)間也隨之增加,因此對(duì)于大量的輸入造成等待時(shí)間過長(zhǎng)的問題并無法有效解決。
另一種方式是在負(fù)載過重時(shí)調(diào)整每一級(jí)特征的效能,亦即犧牲特征的正確性來獲取更快的運(yùn)算時(shí)間,這種方式雖然是屬于動(dòng)態(tài)調(diào)整負(fù)載,且能減少整體等待時(shí)間,但是相對(duì)地識(shí)別語音/語者的正確率也會(huì)因此降低。
所以,申請(qǐng)人鑒于現(xiàn)有技術(shù)的缺陷,經(jīng)悉心試驗(yàn)與研究,并一本鍥而不舍的精神,終于研發(fā)出一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化方法。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的是提供一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,該方法主要是根據(jù)網(wǎng)絡(luò)及服務(wù)器的負(fù)載動(dòng)態(tài)分配服務(wù)器端及客戶端所需負(fù)擔(dān)的運(yùn)算,使客戶端等待語音/語者識(shí)別結(jié)果所需時(shí)間為最小。
根據(jù)上述構(gòu)想,本申請(qǐng)?zhí)峁┮环N語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò),其通過對(duì)一語音進(jìn)行總共N級(jí)的語音特征(feature)運(yùn)算完成識(shí)別,其中N為一正整數(shù),其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征運(yùn)算,其步驟包含(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間,其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i);(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間,其中在該服務(wù)器端該第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i);(c)估算該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d;(d)在該N的范圍內(nèi)決定一n值,使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最小;(e)輸入一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一輸入時(shí)間(Tinput);(f)由該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該語音之第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算;以及(g)重復(fù)步驟(e)-(f)。
根據(jù)上述構(gòu)想,其中該步驟(c)更包含(c1)輸入一第一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第一輸入時(shí)間Tinput1,且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間Toutput1;以及(c2)輸入一第二語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第二輸入時(shí)間Tinput2,且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間Toutput2。
根據(jù)上述構(gòu)想,其中該第一語音具有一數(shù)據(jù)量Dn(Tinput1)。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間為Dn(Tinput1)/d。
根據(jù)上述構(gòu)想,其中該第二語音具有一數(shù)據(jù)量Dn(Tinput2)。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間為Dn(Tinput2)/d。
根據(jù)上述構(gòu)想,其中該輸入的語音具有一數(shù)據(jù)量Dn(Tinput)。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d。
根據(jù)上述構(gòu)想,其中該步驟(c1)更包含(c11)提供一n1值,其在該N的范圍內(nèi);以及(c12)由該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該第一語音的第(n1+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想,其中該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput1*Σi=1n1Ta(i).]]>根據(jù)上述構(gòu)想,其中該服務(wù)器端進(jìn)行該第一語音的第(n1+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput1*1cΣi=n1+1NTb(i).]]>根據(jù)上述構(gòu)想,其中運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)之時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,亦即Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i)).]]>根據(jù)上述構(gòu)想,其中該第一輸出時(shí)間為運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)之時(shí)間之和,即Toutput1=Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i))+1dDn(Tinput1)+1dK.]]>根據(jù)上述構(gòu)想,其中該步驟(c2)還包含(c21)提供一n2值,在該N的范圍內(nèi);以及(c22)由該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該第一語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想,其中該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput2*Σi=1n2Ta(i).]]>根據(jù)上述構(gòu)想,其中該服務(wù)器端進(jìn)行該第二語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征之運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput2*1cΣi=n2+1NTb(i).]]>根據(jù)上述構(gòu)想,其中運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,即Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i)).]]>根據(jù)上述構(gòu)想,其中該第二輸出時(shí)間為運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和,即Toutput2=Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i))+1dDn(Tinput2)+1dK.]]>根據(jù)上述構(gòu)想,其中識(shí)別該語音所耗費(fèi)的時(shí)間為運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和,即Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK.]]>本申請(qǐng)的另一目的在提供一種錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法,該方法可在錄音同時(shí),動(dòng)態(tài)分配服務(wù)器端及客戶端所需負(fù)擔(dān)的運(yùn)算,使客戶端等待語音/語者識(shí)別結(jié)果所需時(shí)間為最小。
根據(jù)上述構(gòu)想,本申請(qǐng)?zhí)峁┝艘环N錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法,其用于一錄音同步語音特征計(jì)算系統(tǒng),其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò),該方法通過對(duì)一由N’個(gè)幀(frame)所組成的語音進(jìn)行總共N級(jí)的語音特征(feature)運(yùn)算完成識(shí)別,其中N及N’分別為一正整數(shù),其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征,其中在該N’的范圍內(nèi)任取一n’值用以代表第n’個(gè)幀,其步驟包含(a)提供一適當(dāng)?shù)膎值,在該N的范圍內(nèi);(b)輸入該語音,該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算,其中由該客戶端進(jìn)行該語音的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該語音的各該幀的第(n+1)級(jí)語音特征至第N級(jí)語音特征的運(yùn)算;(c)當(dāng)該語音輸入結(jié)束,其耗費(fèi)一輸入時(shí)間(Tinput),且該錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的運(yùn)算,且第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算,則根據(jù)該n1值可經(jīng)由一適當(dāng)方式修正該n值,其使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最小;以及(d)依據(jù)步驟(c)所修正的該n值,由該客戶端進(jìn)行尚未完成運(yùn)算的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行尚未完成運(yùn)算的各該幀的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
根據(jù)上述構(gòu)想,其中步驟(a)中的該n值利用權(quán)利要求1的方法求得。
根據(jù)上述構(gòu)想,其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)。
根據(jù)上述構(gòu)想,其中在該服務(wù)器端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)。
根據(jù)上述構(gòu)想,其中該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間的和,即Tinput*Σi=1nTa(i).]]>根據(jù)上述構(gòu)想,其中該服務(wù)器端進(jìn)行該語音的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput*1cΣi=n+1NTb(i).]]>根據(jù)上述構(gòu)想,其中運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,即Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>根據(jù)上述構(gòu)想,其中該語音具有一數(shù)據(jù)量Dn(Tinput)。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d。
根據(jù)上述構(gòu)想,其中該步驟(c)中的該適當(dāng)方式為(c1)若該n1值小于該n值時(shí),則利用
n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n+1NTb(i)]+1dDn(Tinut)+1dK))]]>求取所欲修正的該n值;以及(c2)若該n1值大于或等于該n值時(shí),則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1NTb(i)]+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值,其中c為該服務(wù)器之負(fù)載,而d系為該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想,其中該服務(wù)器的負(fù)載c及該網(wǎng)絡(luò)的負(fù)載d,是利用上述的方法求得。
本申請(qǐng)的再一目的在于提供一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,其用于一語音/語者識(shí)別系統(tǒng),其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò),其通過對(duì)一語音進(jìn)行多級(jí)語音特征(feature)運(yùn)算完成識(shí)別,其步驟包含(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間;(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間;(c)估算該服務(wù)器端的一負(fù)載及該網(wǎng)絡(luò)的一負(fù)載;(d)依據(jù)該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載,計(jì)算一適當(dāng)量,使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??;以及(e)根據(jù)該適當(dāng)量,在識(shí)別一語音所需運(yùn)算的該多級(jí)特征中,決定分別于該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算。
根據(jù)上述構(gòu)想,其中步驟(c)更包含(c1)輸入一第一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第一輸入時(shí)間,且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間;(c2)輸入一第二語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第二輸入時(shí)間,且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間;以及(c3)根據(jù)(c1)及(c2)所得的結(jié)果,估算該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想,其中在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想,其中在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想,其中該語音包含一數(shù)據(jù)量。
根據(jù)上述構(gòu)想,其中網(wǎng)絡(luò)傳輸該語音所需時(shí)間為該語音的數(shù)據(jù)量除以該網(wǎng)絡(luò)的負(fù)載。
根據(jù)上述構(gòu)想,其中該多級(jí)特征運(yùn)算所需時(shí)間為在該客戶端運(yùn)算該多級(jí)特征與該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和。
根據(jù)上述構(gòu)想,其中該輸出時(shí)間系為該多級(jí)特征運(yùn)算所需時(shí)間、該網(wǎng)絡(luò)傳輸該語音所需時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
本申請(qǐng)的再一目的在于提供一種錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法,其用于一錄音同步語音特征計(jì)算系統(tǒng),其包含一服務(wù)器端(server)、一客戶端(client)及一網(wǎng)絡(luò),該方法由對(duì)由多個(gè)幀(frame)所組成的一語音進(jìn)行總共多級(jí)的語音特征(feature)運(yùn)算完成識(shí)別,其步驟包含(a)提供一適當(dāng)量;(b)輸入該語音,則該錄音同步語音特征計(jì)算系統(tǒng)系同步對(duì)該語音進(jìn)行語音特征運(yùn)算,其中該系統(tǒng)系依據(jù)該適當(dāng)量,分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算;(c)當(dāng)該語音輸入結(jié)束,其耗費(fèi)一輸入時(shí)間,其中該多個(gè)幀中有部分幀尚未完成運(yùn)算,且該尚未完成運(yùn)算的幀中的一第一幀僅完成部分該多級(jí)特征的運(yùn)算,則由一適當(dāng)方式修正該適當(dāng)量,使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??;以及(d)依據(jù)步驟(c)所修改的該適當(dāng)量,分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算,以進(jìn)行尚未完成運(yùn)算的各該幀的語音特征運(yùn)算完成識(shí)別。
根據(jù)上述構(gòu)想,其中步驟(a)中的該適當(dāng)量是利用上述方法求得。
根據(jù)上述構(gòu)想,其中該客戶端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想,其中該服務(wù)器端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
根據(jù)上述構(gòu)想,其中該語音具有一數(shù)據(jù)量。
根據(jù)上述構(gòu)想,其中該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間,為該數(shù)據(jù)量除以該網(wǎng)絡(luò)的一負(fù)載。
根據(jù)上述構(gòu)想,其中該運(yùn)算多級(jí)特征所需時(shí)間,為該客戶端處理該多級(jí)特征及該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和。
根據(jù)上述構(gòu)想,其中識(shí)別該語音所耗費(fèi)的該時(shí)間為該運(yùn)算多級(jí)特征所需時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
圖1所示是現(xiàn)有的語音/語者識(shí)別系統(tǒng)識(shí)別語音信號(hào)的流程圖;圖2所示為本申請(qǐng)的語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法的一較佳實(shí)施例流程圖;以及圖3所示為本申請(qǐng)的錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法的一較佳實(shí)施例流程圖。
具體實(shí)施例方式
本申請(qǐng)將可由以下的實(shí)施例說明而得到充分了解,使得熟習(xí)本領(lǐng)域的人士可以據(jù)以完成,然本申請(qǐng)的實(shí)施并非可由下列實(shí)施例而被限制其實(shí)施方式。
請(qǐng)參閱圖2,其為本申請(qǐng)的語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法的一較佳實(shí)施例流程圖。首先,由于客戶端和服務(wù)器端所搭載的中央處理器信息可事先得知,因此便可以于步驟A中提供客戶端和服務(wù)器端各自對(duì)識(shí)別引擎處理每一級(jí)的特征(feature)所花的時(shí)間,該時(shí)間必與輸入時(shí)間的實(shí)時(shí)(real time)呈一倍數(shù)關(guān)系,因此當(dāng)客戶端處理第i級(jí)特征時(shí),便可得知其運(yùn)算時(shí)間為Ta(i)倍的實(shí)時(shí);客戶端若為如PDA等使用者所自備的硬件,則Ta(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均后得到,客戶端若為如機(jī)上盒(setup-box)等由系統(tǒng)廠商所提供的硬件,則Ta(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到。同樣地,當(dāng)服務(wù)器端處理第i級(jí)特征時(shí),也可得知其運(yùn)算時(shí)間為Tb(i)倍的實(shí)時(shí),服務(wù)器端通常是由系統(tǒng)廠商提供的硬件,因此Tb(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到,但若服務(wù)器端不是由系統(tǒng)廠商所提供的硬件,則Tb(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均測(cè)到。接著,在步驟B中估算該服務(wù)器及網(wǎng)絡(luò)目前的負(fù)載。在步驟C中,根據(jù)步驟A及步驟B所得的信息,亦即Ta(i)、Tb(i)和目前的服務(wù)器負(fù)載c及目前的網(wǎng)絡(luò)負(fù)載d,便能決定可使輸出時(shí)間最小的分配值n。最后,在步驟D中,往后的語音識(shí)別就可以依據(jù)該n值分配服務(wù)器端和客戶端各自需要負(fù)擔(dān)的運(yùn)算,直到再一次修改上述的n值為止,因此便能達(dá)到動(dòng)態(tài)調(diào)整使得客戶端等待時(shí)間為最短的功能。
在實(shí)際執(zhí)行上,步驟B中的服務(wù)器及網(wǎng)絡(luò)目前的負(fù)載可經(jīng)由下述程序求得。首先,輸入一第一語音進(jìn)行識(shí)別,可測(cè)得輸入該第一語音所需耗費(fèi)的時(shí)間Tinput1以及完成識(shí)別傳回結(jié)果所需耗費(fèi)的輸出時(shí)間Toutput1。接著,輸入一第二語音進(jìn)行識(shí)別,可測(cè)得輸入該第二語音所需耗費(fèi)的時(shí)間Tinput2以及完成識(shí)別傳回結(jié)果所需耗費(fèi)的輸出時(shí)間Toutput2。利用上述步驟所測(cè)得的輸入時(shí)間(Tinput1、Tinput2)及輸出時(shí)間(Toutput1、Toutput2),可代入下列的方程式(1)建立聯(lián)立方程式而分別求得目前服務(wù)器的負(fù)載c及網(wǎng)絡(luò)負(fù)載d,方程式(1)Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK]]>其中N表示總共有N級(jí)的特征處理;c表示服務(wù)器目前的負(fù)載;d表示網(wǎng)絡(luò)目前的負(fù)載;Tinput*Σi=1n1Ta(i)]]>表示在客戶端運(yùn)算第1級(jí)至第n級(jí)特征所耗費(fèi)的時(shí)間;Tinput1*1cΣi=n1+1NTb(i)]]>則表示在具有c負(fù)載的服務(wù)器端運(yùn)算第(n+1)級(jí)至第N級(jí)特征所耗費(fèi)的時(shí)間;Dn(Tinput)表示語音所具有的數(shù)據(jù)量,因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間;K為傳回識(shí)別結(jié)果的大小,K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間,由于識(shí)別結(jié)果的大小通常變化不大,可視為常數(shù);而完成識(shí)別所需的輸出時(shí)間(Toutput)即為在客戶端運(yùn)算特征所耗費(fèi)的時(shí)間、在服務(wù)器端運(yùn)算特征所耗費(fèi)的時(shí)間、網(wǎng)絡(luò)傳輸語音所需的時(shí)間以及傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間的總和。此外,步驟C中決定可使輸出時(shí)間(Toutput)最小的n值則可根據(jù)下列的方程式(2)求得,方程式(2)n=Argn(Min(Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK))]]>本發(fā)明也可視實(shí)際情況設(shè)定每隔一段時(shí)間便重新計(jì)算服務(wù)器和網(wǎng)絡(luò)的負(fù)載,以估測(cè)在下一段時(shí)間中要如何取n值才能使整體識(shí)別時(shí)間最佳化。再者,假設(shè)服務(wù)器負(fù)載變化不大的話,便可在前一次響應(yīng)中得知服務(wù)器的負(fù)載,或是服務(wù)器也可以固定每隔一段時(shí)間廣播其所估測(cè)的下一段時(shí)間的負(fù)載,如此一來,僅需花一次實(shí)際測(cè)量時(shí)間就可以計(jì)算出網(wǎng)絡(luò)的負(fù)載,由此估測(cè)在下一段時(shí)間中所要取的n值。此外,若尚未有足夠信息進(jìn)行網(wǎng)絡(luò)及服務(wù)器的負(fù)載計(jì)算之前,亦可憑經(jīng)驗(yàn)任取一n值使用,直到有足夠的信息進(jìn)行網(wǎng)絡(luò)及服務(wù)器的負(fù)載評(píng)估為止。
請(qǐng)參閱圖3,其為本申請(qǐng)的錄音同步語音特征計(jì)算(frame-synchronized)最佳化的方法的一較佳實(shí)施例流程圖。由于錄音同步語音特征計(jì)算系統(tǒng)是在錄音同時(shí)進(jìn)行同步識(shí)別,因此錄音一旦開始,識(shí)別引擎便會(huì)循序針對(duì)組成該語音的每一個(gè)幀(frame)做特征運(yùn)算,而非等到錄音完成后才對(duì)語音幀做處理。首先,由于可事先得知在客戶端和服務(wù)器端中所搭載的中央處理器信息,因此便可以在步驟A中預(yù)先提供客戶端和服務(wù)器端各自對(duì)識(shí)別引擎處理每一級(jí)的特征(feature)所花的時(shí)間,該時(shí)間必與輸入時(shí)間的實(shí)時(shí)(real time)呈一倍數(shù)關(guān)系,因此當(dāng)客戶端處理第i級(jí)特征時(shí),便可得知其運(yùn)算時(shí)間為Ta(i)倍的實(shí)時(shí);客戶端若為如PDA等使用者所自備的硬件,則Ta(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均后得到,客戶端若為如機(jī)上盒(setup-box)等由系統(tǒng)廠商所提供的硬件,則Ta(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到。同樣地,當(dāng)服務(wù)器端處理第i級(jí)特征時(shí),便可估算其運(yùn)算時(shí)間為Tb(i)倍的實(shí)時(shí),服務(wù)器端通常是由系統(tǒng)廠商提供的硬件,因此Tb(i)可由系統(tǒng)廠商事先經(jīng)數(shù)次實(shí)際運(yùn)算時(shí)間平均估測(cè)得到,但若服務(wù)器端不是由系統(tǒng)廠商所提供的硬件,則Tb(i)可由前數(shù)次的實(shí)際運(yùn)算時(shí)間平均測(cè)到。接著在步驟B中,輸入一語音進(jìn)行語音識(shí)別,由于在錄音結(jié)束前并無法得知輸入語音所需耗費(fèi)的總時(shí)間(Tinput),因此在錄音尚未完成的處理階段,先依據(jù)上述方法所選定的n值或是依據(jù)經(jīng)驗(yàn)自行給定n值,來分配客戶端和服務(wù)器端所需負(fù)擔(dān)的特征運(yùn)算。在步驟C中,一旦錄音完成,便可測(cè)得輸入所耗費(fèi)的時(shí)間(Tinput),且假設(shè)當(dāng)時(shí)錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的所有特征運(yùn)算,而第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算,此時(shí)若n1值小于步驟B中所給定的n值時(shí),便依據(jù)下列的方程式(3)修正該n值,使整體識(shí)別時(shí)間(Toutput)最小,方程式(3)
n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n-1NTb(i)]+1dDn(Tinput)+1dK))]]>其中N表示總共有N級(jí)的特征處理;c表示服務(wù)器目前的負(fù)載;d表示網(wǎng)絡(luò)目前的負(fù)載;Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>代表尚未運(yùn)算的語音特征運(yùn)算,依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間;Tinput*(Σi=n1nTa(i)+1cΣi=n+1NTb(i))]]>代表第(n’+1)個(gè)幀尚未完成處理的特征運(yùn)算,依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間;Dn(Tinput)表示語音所具有的數(shù)據(jù)量,因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間;而K為傳回識(shí)別結(jié)果的大小,K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間,由于識(shí)別結(jié)果的大小通常變化不大,可視為常數(shù)。若在步驟C中的n1值大于或等于步驟B中所給定的n值時(shí),便依據(jù)下列的方程式(4)修正該n值,使整體識(shí)別時(shí)間(Toutput)最小,方程式(4)n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1NTb(i)]+1dDn(Tinput)+1dK))]]>其中N表示總共有N級(jí)特征處理;c表示服務(wù)器目前的負(fù)載;d表示網(wǎng)絡(luò)目前的負(fù)載;Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))]]>代表尚未運(yùn)算的語音特征運(yùn)算,依據(jù)所修正的n值分配給客戶端和服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間;Tinput*(1cΣi=n1+1NTb(i))]]>代表進(jìn)行第(n’+1)個(gè)幀尚未完成處理的特征運(yùn)算所需耗費(fèi)的時(shí)間,在此就完全交由服務(wù)器端運(yùn)算;Dn(Tinput)表示語音所具有的數(shù)據(jù)量,因此Dn(Tinput)/d即表示具有d負(fù)載的網(wǎng)絡(luò)傳輸語音所需的時(shí)間;而K為傳回識(shí)別結(jié)果的大小,K/d則表示具有d負(fù)載的該網(wǎng)絡(luò)傳回識(shí)別結(jié)果所花費(fèi)的時(shí)間,由于識(shí)別結(jié)果的大小通常變化不大,可視為常數(shù)。
綜上所述,本申請(qǐng)的語音/語者識(shí)別系統(tǒng)負(fù)載最佳化方法,通過估算服務(wù)器端和網(wǎng)絡(luò)目前的負(fù)載,動(dòng)態(tài)調(diào)整客戶端分擔(dān)的服務(wù)器端的工作,使得整體識(shí)別時(shí)間及客戶端等待時(shí)間最短??v使本發(fā)明已由上述的實(shí)施例詳細(xì)敘述而可由本技術(shù)領(lǐng)域的普通技術(shù)人員作出各種等效變換,但是均不超出本發(fā)明的范圍。
權(quán)利要求
1.一種語音/語者識(shí)別系統(tǒng)的負(fù)載最佳化方法,用于一語音/語者識(shí)別系統(tǒng),其包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò),通過對(duì)一語音進(jìn)行總共N級(jí)的語音特征運(yùn)算完成識(shí)別,其中N為一正整數(shù),其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征,其特征在于,該方法包含如下步驟(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間,其中在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i);(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間,其中在該服務(wù)器端該第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i);(c)提供該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d;(d)在該N的范圍內(nèi)決定一n值,其使得識(shí)別該語音所耗費(fèi)的時(shí)間Toutput為最??;(e)輸入一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一輸入時(shí)間Tinput;(f)由該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該語音的第n+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算;以及(g)重復(fù)步驟(e)-(f)。
2.如權(quán)利要求1所述的方法,其特征在于,該步驟(c)更包含(c1)輸入一第一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第一輸入時(shí)間Tinput1,且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間Toutput1;以及(c2)輸入一第二語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第二輸入時(shí)間Tinput2,且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間Toutput2。
3.如權(quán)利要求2所述的方法,其特征在于該第一語音具有一數(shù)據(jù)量Dn(Tinput1);該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間為Dn(Tinput1)/d;該第二語音具有一數(shù)據(jù)量Dn(Tinput2);該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間為Dn(Tinput2)/d,及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d,其中傳回該設(shè)備結(jié)果的大小為K。
4.如權(quán)利要求3所述的方法,其特征在于該步驟(c1)更包含(c11)提供一n1值,其在該N的范圍內(nèi);以及(c12)由該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該第一語音的第n1+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算;該客戶端進(jìn)行該第一語音的第1級(jí)語音特征至第n1級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinpuut1*Σi=1n1Ta(i);]]>該服務(wù)器端進(jìn)行該第一語音的第n1+1級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput1*1cΣi=n1+1NTb(i);]]>運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,即Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i));]]>及/或該第一輸出時(shí)間為運(yùn)算該第一語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第一語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和,即Toutput1=Tinput1*(Σi=1n1Ta(i)+1cΣi=n1+1NTb(i))+1dDn(Tinput1)+1dK.]]>
5.如權(quán)利要求3所述的方法,其特征在于該步驟(c2)還包含(c21)提供一n2值,其在該N的范圍內(nèi);以及(c22)由該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該第一語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算;該客戶端進(jìn)行該第二語音的第1級(jí)語音特征至第n2級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput2*Σi=1n2Ta(i);]]>該服務(wù)器端進(jìn)行該第二語音的第(n2+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算所耗費(fèi)之時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput2*1cΣi=n2+1NTb(i);]]>運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,即Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i));]]>及/或該第二輸出時(shí)間為運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該第二語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和,即Toutput2=Tinput2*(Σi=1n2Ta(i)+1cΣi=n2+1NTb(i))+1dDn(Tinput2)+1dK.]]>
6.如權(quán)利要求1所述的方法,其特征在于該輸入的語音具有一數(shù)據(jù)量Dn(Tinput);該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d;及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d,其中傳回該設(shè)備結(jié)果的大小為K。
7.如權(quán)利要求6所述的方法,其特征在于,該客戶端進(jìn)行該語音的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput*Σi=1nTa(i);]]>該服務(wù)器端進(jìn)行該第二語音的第n+1級(jí)語音特征至該第N級(jí)語音特征運(yùn)算所耗費(fèi)的時(shí)間,為運(yùn)算各該級(jí)語音特征所耗費(fèi)時(shí)間之和,即Tinput*1cΣi=n+1NTb(i);]]>運(yùn)算該第二語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間,為在該客戶端運(yùn)算所耗費(fèi)的時(shí)間與在服務(wù)器端運(yùn)算所耗費(fèi)的時(shí)間之和,即Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i));]]>及/或識(shí)別該語音所耗費(fèi)的時(shí)間為運(yùn)算該語音的該共N級(jí)語音特征所耗費(fèi)的時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間之和,即Toutput=Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK.]]>
8.如權(quán)利要求7所述的方法,其特征在于該步驟(d)是利用n=Argn(Min(Tinput*(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1dDn(Tinput)+1dK))]]>求取該n值。
9.一種錄音同步語音特征計(jì)算最佳化的方法,其用于一錄音同步語音特征計(jì)算系統(tǒng),該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò),該方法通過對(duì)一由N’個(gè)幀所組成的語音進(jìn)行總共N級(jí)的語音特征運(yùn)算完成識(shí)別,其中N及N’分別為一正整數(shù),其中在該N的范圍內(nèi)任取一i值用以代表第i級(jí)語音特征,其中在該N’的范圍內(nèi)任取一n’值用以代表第n’個(gè)幀,其特征在于,包含如下步驟(a)提供一適當(dāng)?shù)膎值,其位于該N的范圍內(nèi);(b)輸入該語音,該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算,其中由該客戶端進(jìn)行該語音的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行該語音的各該幀的第(n+1)級(jí)語音特征至第N級(jí)語音特征的運(yùn)算;(c)當(dāng)該語音輸入結(jié)束,其耗費(fèi)一輸入時(shí)間(Tinput),且該錄音同步語音特征計(jì)算系統(tǒng)已完成n’個(gè)幀的運(yùn)算,且第(n’+1)個(gè)幀已完成第n1級(jí)的語音特征運(yùn)算,則根據(jù)該n1值可經(jīng)由一適當(dāng)方式修正該n值,其使得識(shí)別該語音所耗費(fèi)的時(shí)間(Toutput)為最?。灰约?d)依據(jù)步驟(c)所修正的該n值,由該客戶端進(jìn)行尚未完成運(yùn)算的各該幀的第1級(jí)語音特征至第n級(jí)語音特征的運(yùn)算,而由該服務(wù)器端進(jìn)行尚未完成運(yùn)算的各該幀的第(n+1)級(jí)語音特征至該第N級(jí)語音特征的運(yùn)算。
10.如權(quán)利要求9所述的方法,其特征在于,步驟(a)中的該n值利用權(quán)利要求1的方法求得。
11.如權(quán)利要求9所述的方法,其特征在于,在該客戶端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i)。
12.如權(quán)利要求11所述的方法,其特征在于,在該服務(wù)器端運(yùn)算該第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i)。
13.如權(quán)利要求12所述的方法,其特征在于,該步驟(c)中的該適當(dāng)方式為(c1)若該n1值小于該n值時(shí),則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+Σi=n1nTa(i)+1cΣi=n+1NTb(i)]+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值;以及(c2)若該n1值大于或等于該n值時(shí),則利用n=Argn(Min(Tinput*[(Σi=1nTa(i)+1cΣi=n+1NTb(i))+1cΣi=n1+1nTa(i)+1dDn(Tinput)+1dK))]]>求取所欲修正的該n值,其中c為該服務(wù)器的負(fù)載,而d為該網(wǎng)絡(luò)的負(fù)載,該輸入的語音具有一數(shù)據(jù)量Dn(Tinput);該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間為Dn(Tinput)/d;及/或該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d,其中傳回該識(shí)別結(jié)果的大小為K。
14.如權(quán)利要求9所述的方法,其特征在于該網(wǎng)絡(luò)傳回一識(shí)別結(jié)果所耗費(fèi)的時(shí)間為K/d;及/或該服務(wù)器的負(fù)載c及該網(wǎng)絡(luò)的負(fù)載d,是利用權(quán)利要求1的方法求得。
15.一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,其用于一語音/語者識(shí)別系統(tǒng),該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò),其通過對(duì)一語音進(jìn)行多級(jí)語音特征運(yùn)算完成識(shí)別,該方法包括如下步驟(a)提供在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間;(b)提供在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)時(shí)間;(c)提供該服務(wù)器端的一負(fù)載及該網(wǎng)絡(luò)的一負(fù)載;(f)依據(jù)該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載,計(jì)算一適當(dāng)量,使得識(shí)別該語音所耗費(fèi)的時(shí)間為最??;以及(g)根據(jù)該適當(dāng)量,在識(shí)別一語音所需運(yùn)算的該多級(jí)特征中,決定分別在該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算。
16.如權(quán)利要求15所述的方法,其特征在于,步驟(c)更包含(c1)輸入一第一語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第一輸入時(shí)間,且完成該語音識(shí)別需耗費(fèi)一第一輸出時(shí)間;(c2)輸入一第二語音,以進(jìn)行語音識(shí)別,其中該輸入需耗費(fèi)一第二輸入時(shí)間,且完成該語音識(shí)別需耗費(fèi)一第二輸出時(shí)間;以及(c3)根據(jù)(c1)及(c2)所得的結(jié)果,估算該服務(wù)器端的負(fù)載及該網(wǎng)絡(luò)的負(fù)載。
17.如權(quán)利要求15所述的方法,其特征在于在該客戶端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與輸入時(shí)間成正比;及/或在該服務(wù)器端運(yùn)算各級(jí)的該語音特征所耗費(fèi)的時(shí)間與輸入時(shí)間成正比。
18.如權(quán)利要求15所述的方法,其特征在于該語音包含一數(shù)據(jù)量;及/或網(wǎng)絡(luò)傳輸該語音所需時(shí)間為該語音的數(shù)據(jù)量除以該網(wǎng)絡(luò)的負(fù)載。
19.如權(quán)利要求15所述的方法,其特征在于該多級(jí)特征運(yùn)算所需時(shí)間為在該客戶端運(yùn)算該多級(jí)特征與該服務(wù)器端處理該多級(jí)特征所需時(shí)間之和;及/或該輸出時(shí)間為該多級(jí)特征運(yùn)算所需時(shí)間、該網(wǎng)絡(luò)傳輸該語音所需時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
20.一種錄音同步語音特征計(jì)算最佳化的方法,其用于一錄音同步語音特征計(jì)算系統(tǒng),該系統(tǒng)包含一服務(wù)器端、一客戶端及一網(wǎng)絡(luò),該方法通過對(duì)由多個(gè)幀所組成的一語音進(jìn)行總共多級(jí)的語音特征運(yùn)算完成識(shí)別,該方法包括如下步驟(a)提供一適當(dāng)量;(b)輸入該語音,則該錄音同步語音特征計(jì)算系統(tǒng)同步對(duì)該語音進(jìn)行語音特征運(yùn)算,其中該系統(tǒng)是依據(jù)該適當(dāng)量,分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算;(c)當(dāng)該語音輸入結(jié)束,其耗費(fèi)一輸入時(shí)間,其中該多個(gè)幀中有部分幀尚未完成運(yùn)算,且該尚未完成運(yùn)算的幀中的一第一幀僅完成部分該多級(jí)特征運(yùn)算,則經(jīng)由一適當(dāng)方式修正該適當(dāng)量,使得識(shí)別該語音所耗費(fèi)的時(shí)間為最?。灰约?d)依據(jù)步驟(c)所修改的該適當(dāng)量,分配該客戶端及該服務(wù)器端所需負(fù)擔(dān)的運(yùn)算,以進(jìn)行尚未完成運(yùn)算的各該幀的語音特征運(yùn)算完成識(shí)別。
21.如權(quán)利要求20所述的方法,其特征在于,步驟(a)中的該適當(dāng)量是利用權(quán)利要求1的方法求得。
22.如權(quán)利要求20所述的方法,其特征在于該客戶端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比;及/或該服務(wù)器端處理該多級(jí)特征的一所需的時(shí)間與該輸入時(shí)間成正比。
23.如權(quán)利要求20所述的方法,其特征在于,識(shí)別該語音所耗費(fèi)的該時(shí)間為該運(yùn)算多級(jí)特征所需時(shí)間、該網(wǎng)絡(luò)傳送該語音所耗費(fèi)的時(shí)間以及該網(wǎng)絡(luò)傳輸一識(shí)別結(jié)果所需時(shí)間之和。
全文摘要
本發(fā)明提供了一種語音/語者識(shí)別系統(tǒng)負(fù)載最佳化的方法,用于一語音/語者識(shí)別系統(tǒng)。該方法包含(a)提供在客戶端運(yùn)算各級(jí)的語音特征所耗費(fèi)的時(shí)間,其中在該客戶端運(yùn)算第i級(jí)語音特征所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Ta(i);(b)提供在服務(wù)器端運(yùn)算各級(jí)語音特征所耗費(fèi)時(shí)間,其中在服務(wù)器端第i級(jí)語音特征運(yùn)算所耗費(fèi)時(shí)間相對(duì)于輸入該語音所耗費(fèi)時(shí)間的倍數(shù)為Tb(i);(c)提供該服務(wù)器的一負(fù)載c及該網(wǎng)絡(luò)的一負(fù)載d;(d)在該N的范圍內(nèi)決定一n值,其使得識(shí)別該語音所耗費(fèi)的時(shí)間(T
文檔編號(hào)G10L15/00GK1801323SQ20051000425
公開日2006年7月12日 申請(qǐng)日期2005年1月6日 優(yōu)先權(quán)日2005年1月6日
發(fā)明者李允文 申請(qǐng)人:臺(tái)達(dá)電子工業(yè)股份有限公司