亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

借助壓縮分配和定域格式存取的大詞匯量語(yǔ)音識(shí)別的模式匹配的制作方法

文檔序號(hào):2821064閱讀:218來(lái)源:國(guó)知局
專利名稱:借助壓縮分配和定域格式存取的大詞匯量語(yǔ)音識(shí)別的模式匹配的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng),更具體地說(shuō),涉及改進(jìn)大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法。
模式匹配是語(yǔ)音識(shí)別過(guò)程中,計(jì)算量最大的方面之一。常規(guī)的模式匹配包括相對(duì)于每種聲音模型,計(jì)算每個(gè)聲音特征矢量的相似性量度。但是,由于聲音模型的數(shù)目很大,在任意指定時(shí)間,只能把一部分聲音模型裝入可用存儲(chǔ)器中。為了計(jì)算指定聲音特征矢量的相似性量度,常規(guī)的模式匹配需要大量的I/O操作,把每個(gè)聲音模型裝入可用存儲(chǔ)空間,以及從可用存儲(chǔ)空間卸載每個(gè)聲音模型。
于是,最好提供一種改進(jìn)的模式匹配方法,所述方法減少與把每種聲音模型裝入存儲(chǔ)器,以及從存儲(chǔ)器卸載每種聲音模型相關(guān)的I/O操作的數(shù)目。

發(fā)明內(nèi)容
根據(jù)本發(fā)明,提供一種改進(jìn)具有多個(gè)聲音模型的語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法。該改進(jìn)方法包括接收連續(xù)語(yǔ)音輸入;產(chǎn)生代表語(yǔ)音輸入的時(shí)間和頻譜特性的聲音特征矢量序列;把出自所述聲音特征矢量序列的第一組聲音特征矢量裝入處理器可訪問(wèn)的存儲(chǔ)工作區(qū)中;把出自多個(gè)聲音模型的一個(gè)聲音模型裝入所述存儲(chǔ)工作區(qū)中;并關(guān)于所述聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度。在取回另一組聲音特征矢量之前,關(guān)于語(yǔ)音識(shí)別系統(tǒng)采用的每個(gè)聲音模型,計(jì)算第一組聲音特征矢量的相似性量度。這樣,改進(jìn)的方法減少與把每個(gè)聲音模型裝入存儲(chǔ)器,和從存儲(chǔ)器卸載每個(gè)聲音模型相關(guān)的I/O操作的次數(shù)。
根據(jù)本發(fā)明的另一方面,提供一種利用高速緩沖存儲(chǔ)器處理語(yǔ)音數(shù)據(jù)的方法。該高速緩沖存儲(chǔ)器具有根據(jù)處理器提供的特征,把數(shù)據(jù)從系統(tǒng)存儲(chǔ)器傳遞到可自動(dòng)工作或者在程序控制下工作的高速緩沖存儲(chǔ)器中的相關(guān)高速緩存機(jī)構(gòu)。首先,提供系統(tǒng)存儲(chǔ)器中的語(yǔ)音數(shù)據(jù)的主表,同時(shí)提供建立所述語(yǔ)音數(shù)據(jù)的子集的處理順序的列表。在這方面,術(shù)語(yǔ)“列表”意圖包含能夠代表順序信息(例如在口述話語(yǔ)中發(fā)現(xiàn)的順序信息)的任意數(shù)據(jù)結(jié)構(gòu)。
該方法涉及把所述語(yǔ)音數(shù)據(jù)的子集復(fù)制到子表中,所述子表被處理,使得所述子表中的各項(xiàng)占據(jù)連續(xù)的存儲(chǔ)單元。隨后利用語(yǔ)音處理算法處理子表,并(自動(dòng)地或者編程地)采用與所述高速緩沖存儲(chǔ)器相關(guān)的高速緩存機(jī)構(gòu)把子表傳遞到所述高速緩沖存儲(chǔ)器中。這樣,語(yǔ)音處理算法以高速緩沖存儲(chǔ)器存取速率訪問(wèn)該語(yǔ)音數(shù)據(jù)子集,從而顯著提高速度。
參考下面的說(shuō)明書以及附圖,可更徹底地理解本發(fā)明,及其目的和優(yōu)點(diǎn)。


圖1是描述例證的語(yǔ)音識(shí)別系統(tǒng)的方框圖;圖2是圖解說(shuō)明根據(jù)本發(fā)明的,改進(jìn)大詞匯量語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法的流程圖;圖3是圖解說(shuō)明根據(jù)本發(fā)明,如何在多個(gè)處理節(jié)點(diǎn)間分配改進(jìn)的模式匹配方法的方框圖;圖4A-4C圖解說(shuō)明根據(jù)本發(fā)明,如何在各個(gè)處理節(jié)點(diǎn)之間分配解碼處理;圖5描述例證的詞匯搜索空間;
圖6和7是描述根據(jù)本發(fā)明的大詞匯量語(yǔ)音識(shí)別系統(tǒng)的分布式體系結(jié)構(gòu)的方框圖;圖8是圖解說(shuō)明主系統(tǒng)存儲(chǔ)器和高速緩沖存儲(chǔ)器之間的一般關(guān)系的方框圖;圖9是圖解說(shuō)明壓縮分配和定域格式存取方法的優(yōu)選實(shí)施例的算法方框圖;圖10是圖解說(shuō)明如何從說(shuō)出的言詞中抽取處理順序的例證單詞圖;圖11是提供如何利用壓縮分配和定域格式存取技術(shù),壓縮壓縮混合表(子表)的例子的數(shù)據(jù)流程圖;和圖12是描述實(shí)現(xiàn)壓縮分配和定域格式存取技術(shù)的當(dāng)前優(yōu)選方法的流程圖。
具體實(shí)施例方式
圖1圖解說(shuō)明例證的語(yǔ)音識(shí)別系統(tǒng)。該系統(tǒng)分兩個(gè)階段工作訓(xùn)練階段,其間,系統(tǒng)學(xué)習(xí)代表構(gòu)成應(yīng)用的詞匯量的不同語(yǔ)音聲音(例如短語(yǔ)、單詞、音素(phone))的參考模式;和識(shí)別階段,其間通過(guò)考慮該組參考模式,識(shí)別未知的輸入模式。在訓(xùn)練階段中,根據(jù)口語(yǔ)例子學(xué)習(xí)每個(gè)參考模式,并且或者以由某一求平均值方法獲得的模板的形式(在模板匹配系統(tǒng)中),或者以表征模式的統(tǒng)計(jì)性質(zhì)的聲音模型的形式(例如在隨機(jī)系統(tǒng)中),保存參考模式。最流行的隨機(jī)系統(tǒng)之一利用采用隱馬爾可夫模型(HMM)的統(tǒng)計(jì)建模方法。
例證的語(yǔ)音識(shí)別器分三步執(zhí)行識(shí)別過(guò)程,如圖1中所示。首先,對(duì)輸入的語(yǔ)音進(jìn)行語(yǔ)音分析和特征抽取10。該步驟產(chǎn)生代表語(yǔ)音輸入的時(shí)間和頻譜特性的聲音特征矢量序列。通常,輸入的語(yǔ)音信號(hào)被分成時(shí)間片斷序列或幀序列。隨后利用各種公知技術(shù),從每幀中抽取頻譜特征。
隨后,在步驟12進(jìn)行聲音模式匹配。在該步驟中,計(jì)算每幀輸入語(yǔ)音和每種參考模式之間的相似性量度(measure)。該過(guò)程定義聲音特征矢量之間的接近度的局部(local)量度,還包括對(duì)準(zhǔn)講話持續(xù)時(shí)間和速度不同的兩個(gè)語(yǔ)音模式。該模式分類步驟使用在訓(xùn)練階段中產(chǎn)生的多個(gè)聲音模型14。
在圖1的20處,表示了簡(jiǎn)單的隱馬爾可夫模型的圖。如上所述,隱馬爾可夫模型通常被語(yǔ)音識(shí)別系統(tǒng)用作聲音模型。為了便于說(shuō)明,描述了具有指定為s1、s2和s3的狀態(tài)的三態(tài)隱馬爾可夫模型。易于理解HHM可采用不同數(shù)目的狀態(tài)。此外,本發(fā)明顯然并不局限于HHM,相反,適用于采用其它類型的聲音模型的語(yǔ)音識(shí)別系統(tǒng)。
每種隱馬爾可夫模型包括與狀態(tài)本身和狀態(tài)間的轉(zhuǎn)變相關(guān)的一組概率。由于與每種狀態(tài)相關(guān)的概率值比單一值所能代表的更為復(fù)雜,因此一些系統(tǒng)利用高斯分布表示概率。為了提供更穩(wěn)健的模型,可按照混合方式使用高斯分布的混合來(lái)表示概率值,如在26圖解所示,并由混合索引指針(pointer)28引用。從而,與每種狀態(tài)相關(guān)的是混合索引指針,混合索引指針再識(shí)別該狀態(tài)的高斯混合密度。
狀態(tài)間的轉(zhuǎn)變(transition)由箭頭圖解說(shuō)明。每種自循環(huán)轉(zhuǎn)變具有相關(guān)的轉(zhuǎn)變概率,如在22所示;而相對(duì)于另一種狀態(tài)的每種轉(zhuǎn)變也具有相關(guān)的轉(zhuǎn)變概率,如在24所示。同樣地,轉(zhuǎn)變概率可由高斯分布數(shù)據(jù)或高斯混合密度數(shù)據(jù)表示。
在大詞匯量語(yǔ)音識(shí)別的語(yǔ)境中,隱馬爾可夫模型一般被用于模擬(model)子詞單元,例如音素(phoneme)。但是,采用基于另一語(yǔ)音子組分的單詞級(jí)聲音模型的語(yǔ)音識(shí)別系統(tǒng)也在本發(fā)明的范圍之內(nèi)。有關(guān)隱馬爾可夫建模的基本結(jié)構(gòu)的更多信息,參見(jiàn)Junqua,Jean-Claude和Haton,Jean-Paul,Robustness in Automatic Speech Recognition,F(xiàn)undamentalsand Applications,Kluwer Academic Publishers,1996。
語(yǔ)音識(shí)別終止于解碼步驟16。作為模式匹配過(guò)程的一部分,聲音模型提供說(shuō)出特定音素的概率。隨后通過(guò)連接在模式匹配過(guò)程中觀察到的音素,能夠構(gòu)成一系列的單詞。組合每個(gè)可能路徑的概率,并搜索可能路徑,以便選擇概率最高的一條路徑的過(guò)程通常被稱為解碼或搜索。換句話說(shuō),在已知觀察到的輸入語(yǔ)音的情況下,解碼過(guò)程選擇概率最大的一系列單詞??墒褂酶鞣N公知的搜索算法來(lái)實(shí)現(xiàn)解碼過(guò)程。
在本發(fā)明的一個(gè)方面,提供一種如圖2中所示的,在大詞匯量連續(xù)語(yǔ)音識(shí)別系統(tǒng)中進(jìn)行模式匹配的改進(jìn)方法。一組聲音特征矢量被緩沖到數(shù)據(jù)處理器可存取的高速緩沖存儲(chǔ)器中,而不是當(dāng)收到聲音特征矢量時(shí),確定每個(gè)聲音特征矢量的相似性量度。隨后確定該組矢量中的每個(gè)聲音特征矢量的相似性量度。這里,可把這種改進(jìn)方法稱為“水平高速緩沖存儲(chǔ)”。
參見(jiàn)圖2,在步驟32,第一組聲音特征矢量被取回到存儲(chǔ)工作區(qū)(workspace)中。類似地,在步驟34,一個(gè)或多個(gè)聲音模型也被裝入存儲(chǔ)工作區(qū)中,這里裝入存儲(chǔ)器的聲音模型的數(shù)目是語(yǔ)音識(shí)別系統(tǒng)采用的聲音模型的子集。就HMM來(lái)說(shuō),用作聲音模型的基礎(chǔ)的高斯分布數(shù)據(jù)或高斯混合密度數(shù)據(jù)被裝入存儲(chǔ)器。本領(lǐng)域的技術(shù)人員會(huì)認(rèn)識(shí)到術(shù)語(yǔ)“存儲(chǔ)工作區(qū)”優(yōu)選指的是高速緩沖存儲(chǔ)器,或者易于被數(shù)據(jù)處理器訪問(wèn)的其它一些數(shù)據(jù)存儲(chǔ)器。可預(yù)見(jiàn)的是應(yīng)選擇與第一組相關(guān)的聲音特征矢量的數(shù)目,以及裝入存儲(chǔ)工作區(qū)的聲音模型的數(shù)目,以便優(yōu)化可用存儲(chǔ)空間的使用。
隨后在步驟S36,可對(duì)第一組矢量中的每個(gè)聲音特征矢量,計(jì)算相似性量度。例如,如同本領(lǐng)域公知的那樣,可對(duì)每個(gè)聲音特征矢量進(jìn)行高斯計(jì)算。所得到的相似性量度可保存在同樣可被進(jìn)行計(jì)算的處理器訪問(wèn)的輸出存儲(chǔ)空間中。通過(guò)對(duì)一組聲音特征矢量進(jìn)行相似性計(jì)算,本發(fā)明減少了裝入和卸載每個(gè)聲音模型所需的I/O操作的數(shù)目。
在取回另外的聲音模型之前,在步驟38,除去目前駐留在存儲(chǔ)工作區(qū)中的聲音模型。隨后在步驟42,把另外的聲音模型裝入存儲(chǔ)區(qū)。如果需要,除去步驟38可與裝入步驟42同時(shí)進(jìn)行;裝入步驟能夠重寫已保存在存儲(chǔ)工作區(qū)中的內(nèi)容,從而除去當(dāng)時(shí)駐留的模型。在步驟36,關(guān)于駐留在存儲(chǔ)工作區(qū)中的每個(gè)另外的聲音模型,計(jì)算第一矢量組中的每個(gè)聲音特征矢量的相似性量度。同樣,所得到的相似性量度可保存在也可被進(jìn)行計(jì)算的處理器訪問(wèn)的輸出存儲(chǔ)空間中。經(jīng)由步驟40,重復(fù)該過(guò)程,直到關(guān)于語(yǔ)音識(shí)別系統(tǒng)采用的每種聲音模型,計(jì)算了第一組聲音特征矢量的相似性量度為止。
一旦確定了第一組聲音特征矢量的相似性量度,在步驟44執(zhí)行搜索過(guò)程。具體地說(shuō),搜索過(guò)程根據(jù)第一組聲音特征矢量的相似性量度,更新搜索空間。顯然本發(fā)明的這一方面并不局限于特定的搜索算法,相反,可利用各種公知的搜索算法來(lái)實(shí)現(xiàn)。
與搜索過(guò)程同時(shí),在步驟48,可把隨后一組聲音特征矢量取回到存儲(chǔ)工作區(qū)中。如上所述,計(jì)算所述后一組中的每個(gè)聲音特征矢量的相似性量度。換句話說(shuō),聲音模型被裝入存儲(chǔ)工作區(qū),和從存儲(chǔ)工作區(qū)卸載,關(guān)于駐留在存儲(chǔ)工作區(qū)中的聲音模型,對(duì)每個(gè)聲音特征矢量進(jìn)行高斯計(jì)算。經(jīng)由步驟40重復(fù)該過(guò)程,直到關(guān)于語(yǔ)音識(shí)別系統(tǒng)采用的每種聲音模型,計(jì)算了所述后一組聲音特征矢量的相似性量度為止。可以預(yù)見(jiàn)的是在把所述后一組聲音特征矢量裝入存儲(chǔ)工作區(qū)之前,從存儲(chǔ)工作區(qū)中除去第一組聲音特征矢量。本領(lǐng)域的技術(shù)人員會(huì)認(rèn)識(shí)到這是一個(gè)對(duì)代表輸入語(yǔ)音的每個(gè)聲音特征矢量執(zhí)行的反復(fù)過(guò)程。
還可預(yù)見(jiàn)的是如圖3中所示,可在多個(gè)處理節(jié)點(diǎn)之間分配實(shí)現(xiàn)模式匹配的改進(jìn)方法。不是在單個(gè)數(shù)據(jù)處理器上執(zhí)行模式匹配過(guò)程,而是在多個(gè)處理節(jié)點(diǎn)間分配模式匹配過(guò)程。如下進(jìn)一步所述,每個(gè)處理節(jié)點(diǎn)負(fù)責(zé)關(guān)于特定聲音模型或特定一組聲音模型計(jì)算相似性量度。
聲音前端節(jié)點(diǎn)52能接收語(yǔ)音輸入,并產(chǎn)生一系列的聲音特征矢量,如同本領(lǐng)域公知的那樣。聲音前端節(jié)點(diǎn)52還能夠復(fù)制該系列聲音特征矢量54,并在多個(gè)模式匹配節(jié)點(diǎn)56間分配復(fù)制的系列54??梢灶A(yù)見(jiàn)的是復(fù)制的聲音特征矢量序列可被分成多組矢量,所述多組矢量被定期地或者應(yīng)請(qǐng)求傳送給多個(gè)模式匹配節(jié)點(diǎn)。
每個(gè)模式匹配節(jié)點(diǎn)56由一個(gè)數(shù)據(jù)處理器58,和數(shù)據(jù)處理器58可訪問(wèn)的一個(gè)存儲(chǔ)空間59組成。為了執(zhí)行模式匹配,每個(gè)模式匹配節(jié)點(diǎn)56適合于從聲音前端節(jié)點(diǎn)52接收復(fù)制的聲音特征矢量序列54。如上所述,每個(gè)模式匹配節(jié)點(diǎn)56能夠把一個(gè)或多個(gè)聲音模型60裝入駐留存儲(chǔ)空間中,隨后關(guān)于裝入的聲音模型,確定每個(gè)聲音特征矢量的相似性量度。按照這種方法,每個(gè)模式匹配節(jié)點(diǎn)56負(fù)責(zé)預(yù)先確定范圍的聲音模型,使得能夠并行進(jìn)行一個(gè)指定的聲音特征矢量或者一組聲音特征矢量的相似性量度的計(jì)算,從而進(jìn)一步提高語(yǔ)音識(shí)別處理的整體性能。
在本發(fā)明的另一方面,可在多個(gè)處理節(jié)點(diǎn)之間分配解碼處理(process)。一般來(lái)說(shuō),搜索空間由觀察到的聲音數(shù)據(jù)(也稱為潛在搜索空間)組成。參見(jiàn)圖4A,搜索空間可被圖示表示成多個(gè)節(jié)點(diǎn)62,每個(gè)節(jié)點(diǎn)表示用于語(yǔ)言模型調(diào)整的某一單詞歷史的某一單詞的某一音素的狀態(tài)。所有單詞的所有音素的狀態(tài)構(gòu)成搜索空間。搜索可被進(jìn)一步分割(segment),使得包括潛在搜索空間和活動(dòng)搜索空間。活動(dòng)搜索空間是在指定時(shí)間,搜索算法正在研究的區(qū)域。相反,潛在搜索空間被定義成最大的可能活動(dòng)搜索空間。在圖4A中,黑色的節(jié)點(diǎn)表示現(xiàn)有搜索空間;而所有節(jié)點(diǎn)構(gòu)成潛在搜索空間。
為了進(jìn)一步減少計(jì)算處理,可在多個(gè)處理節(jié)點(diǎn)之間劃分觀察到的聲音數(shù)據(jù),如圖4B中所示。隨后對(duì)分配給每個(gè)處理節(jié)點(diǎn)的觀察到的聲音數(shù)據(jù)進(jìn)行搜索操作,從而在不同的處理節(jié)點(diǎn)上,同時(shí)發(fā)生至少一些搜索操作。雖然目前優(yōu)選Viterbi(維特比)搜索算法,不過(guò)易于理解,其它已知的搜索算法,例如堆棧解碼算法,多遍搜索算法或前向-后向搜索算法都在本發(fā)明的范圍內(nèi)。
劃分觀察到的聲音數(shù)據(jù)還包括定義鏈接數(shù)據(jù)64,鏈接數(shù)據(jù)64表示駐留在不同的處理節(jié)點(diǎn)的分割聲音數(shù)據(jù)之間的關(guān)系。由于每個(gè)處理節(jié)點(diǎn)只評(píng)估觀察到的聲音數(shù)據(jù)的子集,因此鏈接數(shù)據(jù)保持在每個(gè)處理節(jié)點(diǎn)。如上進(jìn)一步所述,在多個(gè)處理節(jié)點(diǎn)之間傳遞鏈接數(shù)據(jù)的變化。
圖4B中,按照使分割聲音數(shù)據(jù)中的所需鏈接的數(shù)目降至最小的方式,分割搜索空間。但是,這種分割不會(huì)使可用處理能力最大化。與第三個(gè)處理節(jié)點(diǎn)68相關(guān)的搜索操作依賴于與第一個(gè)處理節(jié)點(diǎn)66和第二個(gè)處理節(jié)點(diǎn)67相關(guān)的搜索操作的完成。另一方面,可如圖4C中所示劃分搜索空間。這種情況下,某一音素的每種狀態(tài)被順序分配給一個(gè)不同的處理節(jié)點(diǎn)。雖然這種例證的分割提供可用處理能力的更好利用,但是它還需要相當(dāng)大量的鏈接數(shù)據(jù)。類似地,可以預(yù)見(jiàn)的是可與和每個(gè)處理節(jié)點(diǎn)相關(guān)的處理能力成比例地分配觀察到的聲音數(shù)據(jù)。根據(jù)上述說(shuō)明,易于理解可根據(jù)預(yù)定的標(biāo)準(zhǔn)劃分搜索空間,所述預(yù)定標(biāo)準(zhǔn)包括(但不限于)上面討論的標(biāo)準(zhǔn)(或者它們的組合)。
為了便于說(shuō)明,下面進(jìn)一步說(shuō)明基于詞法樹(shù)(lexical tree)的解碼過(guò)程。詞法樹(shù)一般代表詞匯表中的單詞的發(fā)音,并且可通過(guò)連接在模式匹配過(guò)程內(nèi)觀察到的音素來(lái)構(gòu)成。詞法樹(shù)中的每個(gè)節(jié)點(diǎn)與用于語(yǔ)言模型調(diào)整的某一單詞歷史的某一單詞的某一音素的狀態(tài)相關(guān)。所有單詞的所有音素的狀態(tài)已被編輯成詞法樹(shù)。為單詞歷史語(yǔ)言模型調(diào)整復(fù)制這些樹(shù)。
參見(jiàn)圖5,搜索空間70由多個(gè)詞法樹(shù)72構(gòu)成。這種情況下,一個(gè)或多個(gè)詞法樹(shù)可被分配給一個(gè)特定的處理節(jié)點(diǎn)。詞法樹(shù)中的端接節(jié)點(diǎn)(terminating node)表示詞典中的唯一單詞。鏈接74被用于相互連接不同詞法樹(shù)72的選擇的端接節(jié)點(diǎn),從而形成可能的單詞序列。為了得到最可能的單詞序列,諸如Vertibi搜索算法之類的搜索算法被用于按照本領(lǐng)域公知的方式遍歷詞法樹(shù)。
圖6圖解說(shuō)明了根據(jù)本發(fā)明,在多個(gè)處理節(jié)點(diǎn)間進(jìn)一步分配語(yǔ)音識(shí)別過(guò)程的體系結(jié)構(gòu)。分布式體系結(jié)構(gòu)80由通過(guò)通信鏈路86互連的模式匹配子系統(tǒng)82和詞法搜索子系統(tǒng)84構(gòu)成。
模式匹配子系統(tǒng)82由多個(gè)模式匹配節(jié)點(diǎn)88組成。為了執(zhí)行模式匹配,每個(gè)模式匹配節(jié)點(diǎn)88適合于從聲音前端節(jié)點(diǎn)(未示出)接收復(fù)制的聲音特征矢量序列。如上所述,每個(gè)模式匹配節(jié)點(diǎn)88對(duì)預(yù)定范圍的聲音模型,確定相似性量度,從而并行進(jìn)行關(guān)于指定聲音特征矢量的相似性量度的計(jì)算。隨后通過(guò)通信鏈路86,把所得到的相似性量度從每個(gè)模式匹配節(jié)點(diǎn)88傳送給詞法搜索子系統(tǒng)84。
最好通過(guò)不可靠的鏈路,以組播方式傳送所得到的相似性量度??煽挎溌芬话阈枰WC信息被預(yù)定接收者接收的連接協(xié)議,例如TCP??煽挎溌芬话阍趲捄偷却龝r(shí)間方面更昂貴,從而只有當(dāng)數(shù)據(jù)需要被接收時(shí)才使用。相反,不可靠的鏈路一般不要求連接被打開(kāi),但是不保證所有傳送的數(shù)據(jù)被接收者收到。在例證實(shí)施例中,通信鏈路86是標(biāo)準(zhǔn)以太網(wǎng)鏈路(例如100 Mbits/sec)。雖然為了使通過(guò)量達(dá)到最大,目前優(yōu)選不可靠鏈路,不過(guò)也可使用可靠鏈路在模式匹配子系統(tǒng)和詞法搜索子系統(tǒng)之間傳遞(communicate)相似性量度。
類似地,詞法搜索子系統(tǒng)84由多個(gè)搜索節(jié)點(diǎn)90組成。搜索空間被劃分,使得每個(gè)搜索節(jié)點(diǎn)90負(fù)責(zé)評(píng)估定義搜索空間的一個(gè)或多個(gè)詞法樹(shù)。為此,每個(gè)搜索節(jié)點(diǎn)90適合于從模式匹配子系統(tǒng)82中的每個(gè)模式匹配節(jié)點(diǎn)88接收相似性量度。
如果搜索節(jié)點(diǎn)沒(méi)有收到它所需要的某一相似性量度數(shù)據(jù),那么該節(jié)點(diǎn)或者能夠計(jì)算所述該相似性量度數(shù)據(jù),或者要求重發(fā)所述該相似性量度數(shù)據(jù)。為了重新計(jì)算相似性量度,搜索節(jié)點(diǎn)需要訪問(wèn)所有聲音模型,這會(huì)構(gòu)成相當(dāng)大的存儲(chǔ)器使用。另一方面,重發(fā)相似性量度等同于實(shí)現(xiàn)可靠的組播。雖然這種方法在帶寬方面,尤其在等待時(shí)間方面比較昂貴,不過(guò)在一些應(yīng)用中,它是切實(shí)可行的。
例如,由可靠組播模式固有的重發(fā)引起的等待時(shí)間問(wèn)題在上述水平高速緩沖存儲(chǔ)技術(shù)中可能不是一個(gè)問(wèn)題。為了使通信鏈路上的通過(guò)量最大化,假定由模式匹配節(jié)點(diǎn)88之間的可行鏈路構(gòu)成菊花鏈。菊花鏈被用于利用循環(huán)方法,使相似性量度的傳輸同步。這種方法的優(yōu)點(diǎn)在于模式匹配節(jié)點(diǎn)不會(huì)同時(shí)試圖在共享鏈路上寫入,使得造成沖突和可能的重發(fā)。
利用這種方法,第一個(gè)模式匹配節(jié)點(diǎn)會(huì)把其輸出高速緩沖存儲(chǔ)器的前10幀(等于100毫秒的語(yǔ)音)寫在共享的不可靠鏈路上。第一節(jié)點(diǎn)隨后用信號(hào)通知菊花鏈上的下一節(jié)點(diǎn),現(xiàn)在輪到它傳送數(shù)據(jù)。所述下一節(jié)點(diǎn)將傳送它的數(shù)據(jù),隨后用信號(hào)通知另一節(jié)點(diǎn)。假定8個(gè)模式匹配節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)不得不在共享媒體上發(fā)送的數(shù)據(jù)的總量為10幀×10kminutes/8nodes×4bytes=50Kbytes=0.4Mbits。為了對(duì)8個(gè)節(jié)點(diǎn)完成該過(guò)程,在不考慮由菊花鏈的傳輸和同步引起的開(kāi)銷、等待時(shí)間的情況下,在每秒100Mbits的共享鏈路上,它需要32毫秒。由于只使用了通信鏈路的總累積帶寬的1/3,因此剩余的帶寬可被用于與可靠組播相關(guān)的重發(fā)。本領(lǐng)域的技術(shù)人員易于認(rèn)識(shí)到如果等待時(shí)間過(guò)大,那么水平高速緩沖存儲(chǔ)提供把批處理大小增大到10幀以上的靈活性,從而降低對(duì)等待時(shí)間的敏感性。
每個(gè)搜索節(jié)點(diǎn)90只處理搜索空間中的詞法樹(shù)的子集。為此,每個(gè)搜索節(jié)點(diǎn)90需要了解其相關(guān)詞法樹(shù)的狀態(tài),以及指示搜索空間中的所有詞法樹(shù)之間的鏈接的數(shù)據(jù)。從而,每個(gè)搜索節(jié)點(diǎn)還包括保持鏈接數(shù)據(jù)的數(shù)據(jù)存儲(chǔ)器。
由于搜索節(jié)點(diǎn)進(jìn)行的相關(guān)詞法樹(shù)的處理會(huì)導(dǎo)致鏈接數(shù)據(jù)的改變,因此每個(gè)搜索節(jié)點(diǎn)90還把鏈接數(shù)據(jù)的改變傳遞給詞法搜索子系統(tǒng)中的每個(gè)其它搜索節(jié)點(diǎn)。這里,通信問(wèn)題更困難,因?yàn)楸仨毐WC等于幀時(shí)間(例如10毫秒)的同步和可靠性。雖然共享通信鏈路可行,不過(guò)最好使用交換網(wǎng)絡(luò)來(lái)鏈接詞法搜索子系統(tǒng)中的搜索節(jié)點(diǎn)。特別地,每個(gè)搜索節(jié)點(diǎn)80由具有專用鏈路的交換架構(gòu)(fabric)92互連。
操作上,每個(gè)搜索節(jié)點(diǎn)90將監(jiān)聽(tīng)并從模式匹配子系統(tǒng)82讀取相似性量度。這種情況下,每個(gè)搜索節(jié)點(diǎn)90是多線程的,從而能夠與詞法樹(shù)的處理平行地完成從通信鏈路的讀取。在每幀的結(jié)尾,每個(gè)搜索節(jié)點(diǎn)90將把可能的單詞結(jié)尾和不多的其它統(tǒng)計(jì)數(shù)字(例如,用于適應(yīng)集束搜索的似然直方圖)發(fā)送給搜索縮減(reduction)服務(wù)器94。搜索縮減服務(wù)器94組合關(guān)于詞尾的信息,應(yīng)用語(yǔ)言模型產(chǎn)生新的(全局的)搜索狀態(tài),并(以組播方式)把搜索狀態(tài)回送給每個(gè)搜索節(jié)點(diǎn)90。整個(gè)該過(guò)程必須在小于幀速率的時(shí)間窗口中,以可靠的方式完成,因?yàn)樵谒泄?jié)點(diǎn)間,搜索狀態(tài)必須保持一致。于是,最好采用高效的可靠組播。另外,搜索縮減服務(wù)器還產(chǎn)生識(shí)別的句子,計(jì)算統(tǒng)計(jì)數(shù)字,例如置信度或說(shuō)話者ID,作為后處理。
圖7圖解說(shuō)明了一種備選的分布式體系結(jié)構(gòu),其中借助共享媒體98直接鏈接搜索節(jié)點(diǎn)90。假定每個(gè)搜索節(jié)點(diǎn)90按照分布式方式獨(dú)立執(zhí)行搜索縮減過(guò)程,不需要搜索縮減服務(wù)器。但是,每個(gè)節(jié)點(diǎn)將不得不保存語(yǔ)言模型,并采用N-N可靠組播通信模式。這種解決方案可能不太昂貴,但是更難以實(shí)現(xiàn)。
減小搜索空間的大小是減小與解碼處理相關(guān)的計(jì)算處理的另一種已知技術(shù)。直方圖修剪(pruning)是減少駐留在搜索空間中的活動(dòng)節(jié)點(diǎn)的數(shù)目的一種已知技術(shù)。實(shí)現(xiàn)N最佳(或近似N最佳)修剪的一種已知技術(shù)是通過(guò)直方圖的計(jì)算。直方圖代表節(jié)點(diǎn)的得分的概率密度函數(shù)。它被定義為y=f(X),這里X是得分,y是在指定(given)時(shí)間t具有該得分的節(jié)點(diǎn)的數(shù)目。由于得分是實(shí)數(shù)(real number),X不代表具體的值,而是一個(gè)范圍。
為了便于說(shuō)明,下面提供直方圖修剪的一個(gè)過(guò)分簡(jiǎn)單的例子。假定在時(shí)間t,我們具有10個(gè)活動(dòng)狀態(tài),并且我們希望只保留它們中的5個(gè)。假定所述活動(dòng)狀態(tài)如下s0與節(jié)點(diǎn)n0相關(guān)的得分3s1與節(jié)點(diǎn)n1相關(guān)的得分2s2與節(jié)點(diǎn)n2相關(guān)的得分5s3與節(jié)點(diǎn)n3相關(guān)的得分4s4與節(jié)點(diǎn)n4相關(guān)的得分4s5與節(jié)點(diǎn)n5相關(guān)的得分3s6與節(jié)點(diǎn)n6相關(guān)的得分5s7與節(jié)點(diǎn)n7相關(guān)的得分3s8與節(jié)點(diǎn)n8相關(guān)的得分2s9與節(jié)點(diǎn)n9相關(guān)的得分5從而,直方圖映射f(2)=2(狀態(tài)s1,和s8)f(3)=3(狀態(tài)s0,s5,s7)f(4)=2(狀態(tài)s3,和s3)f(5)=3(狀態(tài)s2,s6,s9)我們不必知道哪個(gè)狀態(tài)與X的哪個(gè)值相關(guān),于是,簡(jiǎn)單的陣列y=f(X)就足夠了。
隨后,為了識(shí)別N=5最佳,我們只查看直方圖,從而計(jì)算與修剪對(duì)應(yīng)的閾值T。如果T=6或更大,那么沒(méi)有狀態(tài)滿足得分(s)>=T。如果T=5,那么回加滿足得分(s)>=T的節(jié)點(diǎn)的數(shù)目sf(5)=3。這種情況下,只有三個(gè)節(jié)點(diǎn)滿足該閾值。由于三個(gè)節(jié)點(diǎn)不足以滿足我們的修剪標(biāo)準(zhǔn)(3<N=5),隨后我們通過(guò)設(shè)置T=4繼續(xù)下去。這種情況下,5個(gè)節(jié)點(diǎn)滿足該閾值。從而,該閾值(T=4)可被應(yīng)用于該序列的節(jié)點(diǎn),如下所示s0與節(jié)點(diǎn)n0相關(guān)的得分3===>去除s1與節(jié)點(diǎn)n1相關(guān)的得分2===>去除
s2與節(jié)點(diǎn)n2相關(guān)的得分5===>保持s3與節(jié)點(diǎn)n3相關(guān)的得分4===>保持s4與節(jié)點(diǎn)n4相關(guān)的得分4===>保持s5與節(jié)點(diǎn)n5相關(guān)的得分3===>去除s6與節(jié)點(diǎn)n6相關(guān)的得分5===>保持s7與節(jié)點(diǎn)n7相關(guān)的得分3===>去除s8與節(jié)點(diǎn)n8相關(guān)的得分2===>去除s9與節(jié)點(diǎn)n9相關(guān)的得分5===>保持如下所述,可在本發(fā)明的分布式環(huán)境中實(shí)現(xiàn)直方圖修剪。假定在三個(gè)搜索節(jié)點(diǎn)K1,K2和K3之間劃分搜索空間,從而s0得分3由節(jié)點(diǎn)K1處理s1得分2由節(jié)點(diǎn)K2處理s2得分5由節(jié)點(diǎn)K3處理s3得分4由節(jié)點(diǎn)K1處理s4得分4由節(jié)點(diǎn)K1處理s5得分3由節(jié)點(diǎn)K1處理s6得分5由節(jié)點(diǎn)K2處理s7得分3由節(jié)點(diǎn)K2處理s8得分2由節(jié)點(diǎn)K3處理s9得分5由節(jié)點(diǎn)K3處理為了識(shí)別5種活動(dòng)狀態(tài),每個(gè)搜索處理節(jié)點(diǎn)如下計(jì)算它自己的直方圖K1f(3)=2(s0 and s5),f(4)=2(s3 and s4)K2f(2)=1(s1),f(3)=1(s6),f(5)=1(s6)K3f(2)=1(s8),f(5)=2(s2,s9)不幸的是,該例子不是很能代表得分的分布。所述分布一般采取可識(shí)別的形式,例如指數(shù)分布。換句話說(shuō),y=f(M-X)=alpha*exp(1/alpha*(M-X))。這種情況下,可根據(jù)參數(shù)alpha和M的估計(jì)量,計(jì)算閾值。具體地說(shuō),閾值為T=M-1/alpha*logN,這里M是最大得分,期望(平均值)為M-1/alpha。
為了計(jì)算閾值,在每個(gè)搜索節(jié)點(diǎn)執(zhí)行一種算法。所述算法涉及在所有節(jié)點(diǎn)內(nèi)循環(huán),并計(jì)算所有得分的平均值和最大值。假定Mk代表搜索處理節(jié)點(diǎn)Kk上的最大得分,Ek表示節(jié)點(diǎn)Kk上的得分的平均值,Wk是Kk上的活動(dòng)節(jié)點(diǎn)的數(shù)目,這里k=1,2...n。
通過(guò)利用來(lái)自每個(gè)搜索節(jié)點(diǎn)的Mk,Ek和Wk,能夠恢復(fù)總閾值??傞撝礛等于最大的Mk,并且總平均值為1/(sum Wk)*(Wk*Ek的和)。由于Mk,Ek和Wk是需要傳送的唯一實(shí)體,它們被稱為用于計(jì)算閾值T的充分統(tǒng)計(jì)量。此外,這些統(tǒng)計(jì)量遠(yuǎn)遠(yuǎn)小于大陣列y=f(X)。
根據(jù)這些充分統(tǒng)計(jì)量,在處理節(jié)點(diǎn)之一(可能是根節(jié)點(diǎn))完成閾值的計(jì)算,隨后回傳給每個(gè)搜索節(jié)點(diǎn)。如前所述,閾值被應(yīng)用于位于每個(gè)處理節(jié)點(diǎn)的活動(dòng)節(jié)點(diǎn)。
壓縮分配(packed distribution)和定域格式存取(localized trellis access)大詞匯量語(yǔ)音應(yīng)用(application)一般采用非常大量的語(yǔ)音參數(shù)。例如,例證的大詞匯量語(yǔ)音識(shí)別系統(tǒng)需要包含100000或者更多的Gaussians的高斯混合表。存在一類語(yǔ)音處理問(wèn)題,即最初要求存取整個(gè)高斯混合表,但是稍后約束對(duì)整個(gè)高斯混合表的子集的存取。例如,在多遍識(shí)別器中,語(yǔ)音處理算法使用第一遍約束后續(xù)各遍使用的搜索空間。
處理海量數(shù)據(jù)的需要使大詞匯量語(yǔ)音應(yīng)用非常信賴于強(qiáng)大處理器。不幸的是,傳統(tǒng)的處理算法沒(méi)有辦法解決該問(wèn)題,而是把計(jì)算負(fù)擔(dān)放在相當(dāng)昂貴的處理器上。這種傳統(tǒng)的“強(qiáng)力”方法限制了大詞匯量應(yīng)用在各種不具有強(qiáng)力處理器的消費(fèi)產(chǎn)品上的應(yīng)用。但是,如同這里更充分地說(shuō)明的那樣,通過(guò)利用許多語(yǔ)音應(yīng)用中固有的時(shí)間順序或說(shuō)話順序的現(xiàn)有知識(shí),能夠顯著提高處理通過(guò)量,并顯著降低處理器開(kāi)銷。如同下面更充分說(shuō)明的那樣,通過(guò)壓縮分配和定域格式存取方法實(shí)現(xiàn)這些改進(jìn),從而全部參數(shù)數(shù)據(jù)空間的子集被選擇、排序和壓縮到新的數(shù)據(jù)結(jié)構(gòu)中。這種新的數(shù)據(jù)結(jié)構(gòu)被設(shè)計(jì)成使得處理器能夠把其裝入它的更快速的高速緩沖存儲(chǔ)器中,隨后非常高效地利用高速緩沖存儲(chǔ)的信息。具體地說(shuō),信息被排序和壓縮,以便允許處理器基本上按照順序次序存取數(shù)據(jù),同時(shí)高速緩沖存儲(chǔ)器需要被刷新和再裝入(一個(gè)耗時(shí)并且低效的過(guò)程)的可能性顯著降低。
微處理器高速緩沖存儲(chǔ)技術(shù)的一些知識(shí)有助于理解壓縮分配和定域格式存取方法如何能夠產(chǎn)生處理速度改進(jìn)(10倍或更高)。圖8圖解說(shuō)明了在目前的處理器中常見(jiàn)的那種高速緩沖存儲(chǔ)器體系結(jié)構(gòu)。但是,要認(rèn)識(shí)到為了圖解說(shuō)明高速緩沖存儲(chǔ)原理,圖8已被簡(jiǎn)化。顯然存在多種在各種不同的微處理器體系結(jié)構(gòu)中實(shí)現(xiàn)高速緩沖存儲(chǔ)的不同方式。
高速緩沖存儲(chǔ)之后的基本概念是把最頻繁使用的程序指令和/或最頻繁使用的數(shù)據(jù)放入處理器可利用的最快存儲(chǔ)器中。在隨機(jī)存取存儲(chǔ)器件中,數(shù)據(jù)存取由時(shí)鐘調(diào)停(mediate)。該時(shí)鐘指示在其控制下,能夠多快地從存儲(chǔ)器件中讀出信息,或者能夠多快地把信息寫入存儲(chǔ)器件中。在典型的微處理器體系結(jié)構(gòu)中,微處理器本身可在高速時(shí)鐘的控制下工作,而計(jì)算機(jī)系統(tǒng)的主存儲(chǔ)器一般利用較慢的時(shí)鐘工作。這是因?yàn)閺慕?jīng)濟(jì)上來(lái)說(shuō),構(gòu)造能夠以和微處理器相同的時(shí)鐘速度工作的隨機(jī)存取主存儲(chǔ)器電路通常不可行。
如圖8中所示,可在不同的階段層實(shí)現(xiàn)高速緩沖存儲(chǔ)器,以便在比系統(tǒng)的主存儲(chǔ)器快的存儲(chǔ)電路中,為處理器指令和/或數(shù)據(jù)值提供臨時(shí)存儲(chǔ)。從而,在圖8中,主存儲(chǔ)器100被圖解表示成在時(shí)鐘102的控制之下。如在104圖解所示,在微處理器核心本身上實(shí)現(xiàn)所謂的第一級(jí)高速緩沖存儲(chǔ)器或L1高速緩沖存儲(chǔ)器。從而,L1高速緩沖存儲(chǔ)器在時(shí)鐘106的控制下工作,時(shí)鐘106還調(diào)停微處理器的控制。在一些微處理器系統(tǒng)設(shè)計(jì)中,還包括另外的中間級(jí)高速緩沖存儲(chǔ)器。圖8中圖解說(shuō)明的是第二級(jí)高速緩沖存儲(chǔ)器或L2高速緩沖存儲(chǔ)器108,及其相關(guān)時(shí)鐘110;和第三級(jí)高速緩沖存儲(chǔ)器或L3高速緩沖存儲(chǔ)器112,及其相關(guān)時(shí)鐘114。要認(rèn)識(shí)到顯然存在許多不同的高速緩沖存儲(chǔ)器電路體系結(jié)構(gòu),從而圖8只是意圖簡(jiǎn)單介紹高速緩沖存儲(chǔ)概念。
通常,圖8中圖解說(shuō)明的存儲(chǔ)器體系結(jié)構(gòu)稍微起漏斗的作用。主存儲(chǔ)器100巨大,但是相對(duì)緩慢。L1高速緩沖存儲(chǔ)器比較小,但是工作速度很高。中間的第二級(jí)和第三級(jí)高速緩沖存儲(chǔ)器一般比主存儲(chǔ)器100小,但是更快,同時(shí)第二級(jí)高速緩沖存儲(chǔ)器一般比第三級(jí)高速緩沖存儲(chǔ)器快。這些電路被設(shè)計(jì)成使得信息(程序指令和/或數(shù)據(jù))被自動(dòng)從主存儲(chǔ)器100裝入連續(xù)的各級(jí)高速緩沖存儲(chǔ)器中,希望會(huì)提高處理速度。當(dāng)程序指令和數(shù)據(jù)可被成塊裝入,并且隨后用于許多連續(xù)的微處理器核心時(shí)鐘周期,而不需要補(bǔ)充時(shí),這種原理發(fā)生作用。當(dāng)處理算法需要未預(yù)先裝入高速緩沖存儲(chǔ)器的程序指令或數(shù)據(jù)時(shí),高速緩沖存儲(chǔ)概念不起作用,因?yàn)檫@些將要求訪問(wèn)較慢的存儲(chǔ)器。
在典型的語(yǔ)音處理應(yīng)用,例如大詞匯量應(yīng)用中,語(yǔ)音參數(shù)將被保存在占據(jù)主存儲(chǔ)器100的一部分的表格中。當(dāng)語(yǔ)音處理算法執(zhí)行其任務(wù)時(shí),通過(guò)利用這些參數(shù),作為被語(yǔ)音處理算法訪問(wèn)的自然結(jié)果,參數(shù)表的各個(gè)部分將被裝入微處理器的高速緩沖存儲(chǔ)器中。但是,在常規(guī)的語(yǔ)音處理算法中,沒(méi)有進(jìn)行任何優(yōu)化哪些內(nèi)容被裝入高速緩沖存儲(chǔ)器中的嘗試。
根據(jù)本發(fā)明,能夠優(yōu)化哪些內(nèi)容被裝入高速緩沖存儲(chǔ)器,從而顯著提高執(zhí)行語(yǔ)音處理任務(wù)的速度。參見(jiàn)圖9,圖9給出了本發(fā)明的壓縮分配和定域格式存取技術(shù)的一個(gè)例子。為了便于陳述,假定語(yǔ)音應(yīng)用以大的高斯混合表的形式采用參數(shù)。該表包含用于定義系統(tǒng)被用于處理的每個(gè)單詞或話語(yǔ)(utterance)的所有隱馬爾可夫模型的狀態(tài)的高斯混合參數(shù)。在一種典型的大詞匯量語(yǔ)音識(shí)別應(yīng)用中,高斯混合表可包含100000個(gè)不同的值,所述100000個(gè)不同的值被表示成浮點(diǎn)數(shù),并按照預(yù)定的順序組織,所述預(yù)定順序一般以單詞或話語(yǔ)是如何保存在系統(tǒng)的字典或詞典中的為基礎(chǔ)。雖然保存高斯混合值的順序事先已知,但是不能假定該順序?qū)?duì)應(yīng)于當(dāng)使用識(shí)別應(yīng)用時(shí),需要被訪問(wèn)的混合值的順序。為了理解其原因,研究在按字母順序排列的字典中,是如何保存單詞的。雖然單詞順序已知,但是使用這些單詞中的一部分的句子的順序不一定遵循相同的按字母順序排序。相反,句子中的單詞的順序理應(yīng)由語(yǔ)法規(guī)則,以及由句子作者的語(yǔ)義要求規(guī)定。
本發(fā)明選擇與識(shí)別過(guò)程中實(shí)際使用的高斯混合值對(duì)應(yīng)的高斯混合表的子集,并把該子集保存在壓縮混合表中。圖9中,在120圖解說(shuō)明了整個(gè)高斯混合表,在130圖解說(shuō)明了壓縮混合表。作為用于處理壓縮混合表中的數(shù)據(jù)的語(yǔ)音處理算法的自然結(jié)果,將被裝入高速緩沖存儲(chǔ)器104的正是壓縮混合表的內(nèi)容。
語(yǔ)音數(shù)據(jù)不同于其它形式的數(shù)據(jù),例如財(cái)務(wù)數(shù)據(jù),因?yàn)閷?duì)于語(yǔ)音數(shù)據(jù)來(lái)說(shuō),存在順序次序或口述順序。這可由定向圖122圖解說(shuō)明。定向圖表示一個(gè)聲音單元接著另一聲音單元的所有可能順序。在這方面,聲音單元可以是單個(gè)音素,或者它們可以是更大的結(jié)構(gòu),例如音節(jié),單詞等。為了舉例說(shuō)明定向圖的概念,參見(jiàn)圖10。圖10中,聲音單元對(duì)應(yīng)于連接在一起,從而形成句子的單個(gè)單詞。通過(guò)一般從左到右遍歷,能夠構(gòu)成短語(yǔ)或句子,例如“The large roof...”或者“The large truck roundedthe bend。”在許多語(yǔ)音識(shí)別應(yīng)用中,例如在多遍識(shí)別應(yīng)用中,在某一階段,處理算法將了解被處理數(shù)據(jù)的時(shí)間順序或口述順序。如圖9中所示,順序的知識(shí)(如利用單詞/音素圖122圖解所示)將建立本發(fā)明的處理算法在步驟或模塊124確定的存取順序。例如,時(shí)間順序會(huì)要求訪問(wèn)高斯混合數(shù)據(jù)值1...2...3...4。但是,這些值(a)可能不是順序存在于高斯混合表中,(b)可能不是保存在連續(xù)的或相鄰的存儲(chǔ)單元中。在圖9中,數(shù)據(jù)元素4以高斯混合表中的第一項(xiàng)的形式出現(xiàn)(從上到下讀取),而數(shù)據(jù)元素1位于高斯混合表的中部。
不是利用直接從混合表120選擇的高斯混合值,而是如壓縮分配和定域格式存取技術(shù)對(duì)選擇的混合表120的子集重新排序(resort),并將其壓縮(pack)到壓縮混合表130中。這是通過(guò)利用處理步驟或模塊128來(lái)實(shí)現(xiàn)的。從混合表120選擇的子集(a)按照與圖122描述的順序次序或口述順序?qū)?yīng)的順序次序放置,并且(b)被壓縮,使得相應(yīng)的排序值在存儲(chǔ)器中相鄰或者連續(xù)。
在執(zhí)行重新排序和壓縮操作之后,算法把控制轉(zhuǎn)移給將利用該數(shù)據(jù)的語(yǔ)音處理算法。這是通過(guò)把壓縮混合表130的地址傳送給處理算法,使得處理算法將處理保存在壓縮混合表130中的數(shù)據(jù),而不是處理高斯混合表120中的數(shù)據(jù)來(lái)實(shí)現(xiàn)的。在這期間,微處理器將把壓縮混合表130裝入其高速緩沖存儲(chǔ)器104中,在高速緩沖存儲(chǔ)器104,將比如果利用主存儲(chǔ)器可能得到的速度大得多的速度執(zhí)行利用高速緩存值的所有操作。
進(jìn)一步闡述圖9提供的解釋,現(xiàn)在參見(jiàn)圖11,圖11給出了借助HMM高斯混合模型參數(shù)模擬單個(gè)單詞,并且應(yīng)用正在處理口述話語(yǔ),例如口述短語(yǔ)或句子的具體例子。在該例子中,每個(gè)單詞可由多個(gè)高斯混合參數(shù)表示,它們本身遵守時(shí)間順序(例如,構(gòu)成該單詞的音素的時(shí)間順序)。
圖11中,例證的短語(yǔ)“This is a...”正被處理,以便識(shí)別。圖解說(shuō)明的口述順序是從左到右。第一個(gè)口述單詞發(fā)音“This”包含分別具有保存在高斯混合表120中的存儲(chǔ)單元500,10000和1的高斯混合參數(shù)的三個(gè)狀態(tài)1、2和3。注意,表120內(nèi)的存儲(chǔ)順序并不對(duì)應(yīng)于口述話語(yǔ)的時(shí)間順序。在語(yǔ)音應(yīng)用中,情況經(jīng)常是這樣。相反,多數(shù)其它數(shù)據(jù)處理應(yīng)用,例如財(cái)務(wù)應(yīng)用經(jīng)常能夠按照數(shù)據(jù)被保存的順序,訪問(wèn)保存的數(shù)據(jù)。
重新排序和壓縮步驟或模塊128(圖9)的操作由圖11中的排序和保存線140表示。保存在表120中的存儲(chǔ)單元500的高斯混合值被復(fù)制到壓縮混合表130中的存儲(chǔ)單元1。隨后,保存在存儲(chǔ)單元10000的混合值被復(fù)制并保存在壓縮混合表130內(nèi)的存儲(chǔ)單元2。最后,保存在表120中的存儲(chǔ)單元1的值被復(fù)制到表130中的存儲(chǔ)單元3。之后,用與隨后出現(xiàn)的下一口述話語(yǔ)(單詞“is”)的第一狀態(tài)對(duì)應(yīng)的數(shù)據(jù)值壓縮到表130中的存儲(chǔ)單元4。從而注意表130包含根據(jù)由輸入話語(yǔ)的口述順序指示的確定訪問(wèn)順序排序的數(shù)據(jù),并且數(shù)據(jù)值被壓縮到連續(xù)的存儲(chǔ)單元中。
為了進(jìn)一步理解目前優(yōu)選的處理方法,參見(jiàn)圖12,圖12圖解說(shuō)明了一種利用高速緩沖存儲(chǔ)器處理語(yǔ)音數(shù)據(jù)的方法,所述高速緩沖存儲(chǔ)器具有把數(shù)據(jù)從系統(tǒng)存儲(chǔ)器傳遞(transfer)到高速緩沖存儲(chǔ)器中的相關(guān)高速緩存機(jī)構(gòu)。圖12中圖解說(shuō)明的步驟的順序可不同于圖中所示的順序,而不會(huì)脫離在附加權(quán)利要求中更充分陳述的本發(fā)明的精神。在步驟200,提供語(yǔ)音參數(shù)的主表。這些語(yǔ)音參數(shù)最好保存在主系統(tǒng)存儲(chǔ)器(主存儲(chǔ)器100,圖8)中。另外,在步驟202提供列表,以便建立保存在主表中的至少一部分的語(yǔ)音參數(shù)數(shù)據(jù)的處理順序。保存在主表中的參數(shù)可以是語(yǔ)音參數(shù),例如與對(duì)應(yīng)的隱馬爾可夫模型相關(guān)的高斯混合參數(shù),在步驟202提供的列表可以采取與口述話語(yǔ)對(duì)應(yīng)的一組順序數(shù)據(jù),或者具有時(shí)間結(jié)構(gòu)的其它序列的形式。
在步驟204,根據(jù)列表順序,從主表選擇數(shù)據(jù)項(xiàng),并把它們復(fù)制到子表中。如約束步驟206和208所示,子表被處理,使得各項(xiàng)被保存在連續(xù)的存儲(chǔ)單元中。在目前優(yōu)選的實(shí)施例中,可在主系統(tǒng)存儲(chǔ)器中實(shí)現(xiàn)子表。另外,子表被處理,使得根據(jù)在步驟202中,由列表建立的處理處理排序數(shù)據(jù)項(xiàng)。要認(rèn)識(shí)到可按照任一順序,或者同時(shí)處理約束步驟206和208。在目前優(yōu)選的實(shí)施例中,通過(guò)在連續(xù)的存儲(chǔ)單元中,順序把各個(gè)數(shù)據(jù)項(xiàng)添加到子表中,構(gòu)成子表,各數(shù)據(jù)項(xiàng)的順序是通過(guò)按照列表建立的順序,從主表選擇所述各數(shù)據(jù)項(xiàng)來(lái)建立的。當(dāng)然,可以想象最初按照不連續(xù)的方式構(gòu)成子表,隨后壓縮子表,或者最初依據(jù)一種排序順序構(gòu)成子表,之后根據(jù)列表重新排序的備選實(shí)施例。
在步驟204,把各項(xiàng)復(fù)制到子表之后,隨后在步驟210,使用適用的語(yǔ)音處理算法處理子表。通過(guò)處理子表,通過(guò)利用與高速緩沖存儲(chǔ)器相關(guān)的高速緩存機(jī)構(gòu),子表被傳遞到高速緩沖存儲(chǔ)器中。在這方面,現(xiàn)在的多數(shù)微處理器將自動(dòng)把指定的一塊信息傳遞到高速緩沖存儲(chǔ)器中,從而能夠更快速地處理該塊數(shù)據(jù)。當(dāng)然,如果需要,也可由明確的處理器命令實(shí)現(xiàn)到高速緩沖存儲(chǔ)器的傳遞。
圖8-11中圖示并在上面說(shuō)明的壓縮分配和定域格式存取方法可用在各種不同的語(yǔ)音處理應(yīng)用中。這樣的應(yīng)用的例子包括□Viterbi和Baum-Welch類型算法的局部(local)距離計(jì)算和格式擴(kuò)展。這些計(jì)算是許多大詞匯量連續(xù)語(yǔ)音識(shí)別訓(xùn)練和識(shí)別應(yīng)用的中心;□用于實(shí)時(shí)識(shí)別的Viterbi集束搜索算法;□關(guān)于單詞/音素圖或集中(focused)語(yǔ)言模型的受約束搜索;□用于聲音模型自適應(yīng)的詞格(lattice)的重新記分;□最大相互信息估計(jì)(MMIE)聲音模型訓(xùn)練;□基于期望值最大化的最大似然性聲音模型訓(xùn)練;□多遍識(shí)別處理(process)。
在如上列舉的應(yīng)用中,和常規(guī)的方法相比,壓縮分配和定域格式存取方法至少提供一個(gè)數(shù)量級(jí)的速度提高。準(zhǔn)確的速度提高倍數(shù)部分取決于和系統(tǒng)存儲(chǔ)器相比,高速緩沖存儲(chǔ)器產(chǎn)生的速度優(yōu)點(diǎn)。從而,當(dāng)利用該技術(shù)時(shí),具有更快高速緩沖存儲(chǔ)器的處理器將表現(xiàn)出更大的速度提高。在這方面,要認(rèn)識(shí)到該技術(shù)通過(guò)(a)根據(jù)擴(kuò)展算法或其它語(yǔ)音處理算法處理(trellis)格的順序,使存儲(chǔ)器存取局部化(localizing),和(b)對(duì)高斯參數(shù)(或者其它語(yǔ)音參數(shù))的存儲(chǔ)器表現(xiàn)(representation)排序(sort),使得按照遞增順序訪問(wèn)存儲(chǔ)器,利用了高速緩沖存儲(chǔ)器的速度優(yōu)點(diǎn)。
一般來(lái)說(shuō),在系統(tǒng)預(yù)先具有將需要哪些語(yǔ)音參數(shù)的一些了解,并且那些參數(shù)的大小足夠小,以便裝入高速緩沖存儲(chǔ)器的應(yīng)用中,能夠享有該技術(shù)的優(yōu)點(diǎn)。對(duì)于典型的大詞匯量連續(xù)語(yǔ)音識(shí)別應(yīng)用來(lái)說(shuō),在訓(xùn)練期間,以及在第一遍之后進(jìn)行的多遍識(shí)別(例如修改或重新記分)期間,這些條件被滿足。對(duì)于每種狀態(tài)與特定的詞匯相關(guān)的對(duì)話系統(tǒng),以及每個(gè)提示文本引起一組特定的語(yǔ)音參數(shù)的文本提示說(shuō)話者識(shí)別系統(tǒng)來(lái)說(shuō),這些條件也被滿足。最后,這里描述的算法可與本文中前面描述的其它算法結(jié)合,以便通過(guò)降低在主CPU和系統(tǒng)存儲(chǔ)器之間使用的帶寬,進(jìn)一步改進(jìn)存儲(chǔ)器存取。
上面僅僅公開(kāi)和說(shuō)明了本發(fā)明的例證實(shí)施例。根據(jù)上述討論,以及根據(jù)附圖和權(quán)利要求,本領(lǐng)域的技術(shù)人員易于認(rèn)識(shí)到在不脫離本發(fā)明的精神和范圍的情況下,可對(duì)其做出各種改變、修改和變化。
權(quán)利要求
1.一種改進(jìn)具有多個(gè)聲音模型的語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法,所述方法包括(a)接收連續(xù)語(yǔ)音輸入;(b)產(chǎn)生代表語(yǔ)音輸入的時(shí)間和頻譜特性的聲音特征矢量序列;(c)把出自所述聲音特征矢量序列的第一組聲音特征矢量裝入處理器可訪問(wèn)的存儲(chǔ)工作區(qū)中;(d)把出自多個(gè)聲音模型的一個(gè)聲音模型裝入所述存儲(chǔ)工作區(qū)中;和(e)關(guān)于所述聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度。
2.按照權(quán)利要求1所述的方法,還包括把出自多個(gè)聲音模型的下一聲音模型裝入所述存儲(chǔ)工作區(qū),并關(guān)于所述下一聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度,直到關(guān)于多個(gè)聲音模型中的每一個(gè),確定第一組聲音特征矢量的相似性量度為止。
3.按照權(quán)利要求2所述的方法,還包括在從多個(gè)聲音模型取回下一聲音模型之前,從存儲(chǔ)工作區(qū)去除聲音模型。
4.按照權(quán)利要求2所述的方法,還包括把第一組聲音特征矢量的相似性量度保存在輸出存儲(chǔ)空間中。
5.按照權(quán)利要求2所述的方法,還包括根據(jù)第一組聲音特征矢量的相似性量度,更新搜索空間;和隨后對(duì)搜索空間執(zhí)行搜索操作。
6.按照權(quán)利要求2所述的方法,還包括把出自所述聲音特征矢量序列的第二組聲音特征矢量裝入存儲(chǔ)工作區(qū);和關(guān)于多個(gè)聲音模型中的每一個(gè),確定第二組聲音特征矢量的相似性量度。
7.按照權(quán)利要求1所述的方法,其中聲音模型還被定義成具有多個(gè)狀態(tài)的隱馬爾可夫模型,使得在多個(gè)狀態(tài)之間轉(zhuǎn)變的概率值由高斯數(shù)據(jù)表示。
8.按照權(quán)利要求7所述的方法,其中確定相似性量度的步驟還包括執(zhí)行高斯計(jì)算。
9.一種具有駐留在數(shù)據(jù)存儲(chǔ)器中的多個(gè)聲音模型的語(yǔ)音識(shí)別系統(tǒng)的體系結(jié)構(gòu),包括能接收連續(xù)語(yǔ)音輸入的聲音前端節(jié)點(diǎn),聲音前端節(jié)點(diǎn)產(chǎn)生代表語(yǔ)音輸入的時(shí)間和頻譜特性的聲音特征矢量序列;具有第一數(shù)據(jù)處理器和第一數(shù)據(jù)處理器能夠訪問(wèn)的第一存儲(chǔ)空間的第一模式匹配節(jié)點(diǎn),第一模式匹配節(jié)點(diǎn)適合于把出自所述聲音特征矢量序列的第一組聲音特征矢量接收到第一存儲(chǔ)空間中,第一模式匹配節(jié)點(diǎn)還把第一聲音模型從數(shù)據(jù)存儲(chǔ)器裝入第一存儲(chǔ)空間,并利用第一數(shù)據(jù)處理器,關(guān)于第一聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度;和具有第二數(shù)據(jù)處理器和第二數(shù)據(jù)處理器能夠訪問(wèn)的第二存儲(chǔ)空間的第二模式匹配節(jié)點(diǎn),第二模式匹配節(jié)點(diǎn)適合于把第一組聲音特征矢量接收到第二存儲(chǔ)空間中,第二模式匹配節(jié)點(diǎn)還把第二聲音模型從數(shù)據(jù)存儲(chǔ)器裝入第二存儲(chǔ)空間,并利用第二數(shù)據(jù)處理器,關(guān)于第二聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度。
10.一種改進(jìn)具有多個(gè)聲音模型的語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法,包括接收連續(xù)語(yǔ)音輸入;產(chǎn)生代表語(yǔ)音輸入的時(shí)間和頻譜特性的聲音特征矢量序列;把出自所述聲音特征矢量序列的第一組聲音特征矢量取回到第一處理器可訪問(wèn)的第一存儲(chǔ)工作區(qū);把出自多個(gè)聲音模型的第一聲音模型取回到第一存儲(chǔ)工作區(qū);把出自所述聲音特征矢量序列的第一組聲音特征矢量取回到第二處理器可訪問(wèn)的第二存儲(chǔ)工作區(qū);把出自多個(gè)聲音模型的第二聲音模型取回到第二存儲(chǔ)工作區(qū);和第一處理器關(guān)于第一聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度,同時(shí)第二處理器關(guān)于第二聲音模型,確定第一組聲音特征矢量中的每個(gè)聲音特征矢量的相似性量度。
11.一種改進(jìn)語(yǔ)音識(shí)別系統(tǒng)中的解碼處理的方法,包括產(chǎn)生由觀察到的聲音數(shù)據(jù)組成的搜索空間,所述搜索空間具有活動(dòng)搜索空間;在多個(gè)處理節(jié)點(diǎn)之間劃分活動(dòng)搜索空間;對(duì)分配給每個(gè)處理節(jié)點(diǎn)的活動(dòng)搜索空間執(zhí)行搜索操作,使得在多個(gè)處理節(jié)點(diǎn)中的至少兩個(gè)處理節(jié)點(diǎn)上,同時(shí)發(fā)生搜索操作。
12.按照權(quán)利要求11所述的方法,還包括把活動(dòng)搜索空間定義成多個(gè)詞法樹(shù),并在多個(gè)處理節(jié)點(diǎn)之間分配多個(gè)詞法樹(shù)。
13.按照權(quán)利要求12所述的方法,還包括在多個(gè)處理節(jié)點(diǎn)中的每一個(gè)保持表示詞法樹(shù)之間的鏈接的鏈接數(shù)據(jù),并在多個(gè)處理節(jié)點(diǎn)之間傳遞鏈接數(shù)據(jù)的變化。
14.按照權(quán)利要求11所述的方法,其中劃分活動(dòng)搜索空間的步驟還包括根據(jù)與每個(gè)處理節(jié)點(diǎn)相關(guān)的可用處理能力,在多個(gè)處理節(jié)點(diǎn)之間分配活動(dòng)搜索空間。
15.按照權(quán)利要求11所述的方法,其中劃分活動(dòng)搜索空間的步驟還包括按照使鏈接最小化的方式分割活動(dòng)搜索空間,并與和每個(gè)處理節(jié)點(diǎn)相關(guān)的處理能力成比例地在多個(gè)處理節(jié)點(diǎn)之間分配分割的活動(dòng)搜索空間。
16.按照權(quán)利要求11所述的方法,其中對(duì)觀察到的聲音數(shù)據(jù)執(zhí)行搜索操作的步驟還包括把搜索操作定義為Viterbi搜索算法、堆棧解碼算法、多遍搜索算法和前向-后向搜索算法中的至少一個(gè)。
17.一種語(yǔ)音識(shí)別系統(tǒng)的分布式體系結(jié)構(gòu),所述語(yǔ)音識(shí)別系統(tǒng)能夠產(chǎn)生由多個(gè)詞法樹(shù)定義的搜索空間,包括具有第一數(shù)據(jù)處理器和第一數(shù)據(jù)處理器能夠訪問(wèn)的第一存儲(chǔ)空間的第一搜索節(jié)點(diǎn),第一搜索節(jié)點(diǎn)適合于接收使語(yǔ)音輸入與多個(gè)聲音模型相關(guān)聯(lián)的相似性量度,并且能夠根據(jù)相似性量度,評(píng)估第一詞法樹(shù);具有第二數(shù)據(jù)處理器和第二數(shù)據(jù)處理器能夠訪問(wèn)的第二存儲(chǔ)空間的第二搜索節(jié)點(diǎn),第二搜索節(jié)點(diǎn)適合于接收相似性量度,并且能夠根據(jù)相似性量度,評(píng)估第二詞法樹(shù);和互連第一和第二搜索節(jié)點(diǎn)的通信鏈路。
18.按照權(quán)利要求17所述的分布式體系結(jié)構(gòu),其中多個(gè)詞法樹(shù)由一個(gè)或多個(gè)鏈接互連,每個(gè)搜索節(jié)點(diǎn)保持表示多個(gè)詞法樹(shù)之間的鏈接的鏈接數(shù)據(jù)。
19.按照權(quán)利要求18所述的分布式體系結(jié)構(gòu),其中第一搜索節(jié)點(diǎn)對(duì)第一詞法樹(shù)的評(píng)估導(dǎo)致鏈接數(shù)據(jù)的改變,從而第一搜索節(jié)點(diǎn)還能夠通過(guò)通信鏈路,把鏈接數(shù)據(jù)的改變傳遞給第二搜索節(jié)點(diǎn)。
20.按照權(quán)利要求18所述的分布式體系結(jié)構(gòu),其中在完成第一詞法樹(shù)的評(píng)估之前,第一搜索節(jié)點(diǎn)啟動(dòng)鏈路數(shù)據(jù)的變化的傳遞。
21.按照權(quán)利要求17所述的分布式體系結(jié)構(gòu),還包括適合于接收表示語(yǔ)音輸入的聲音特征矢量數(shù)據(jù)、并且能夠關(guān)于多個(gè)聲音模型確定聲音特征矢量數(shù)據(jù)的相似性量度的模式匹配節(jié)點(diǎn),模式匹配節(jié)點(diǎn)還能夠通過(guò)不可靠的第二通信鏈路,把相似性量度傳遞給第一搜索節(jié)點(diǎn)和第二搜索節(jié)點(diǎn)的每一個(gè)。
22.按照權(quán)利要求21所述的分布式體系結(jié)構(gòu),其中當(dāng)在來(lái)自模式匹配節(jié)點(diǎn)的相似性量度的傳輸中檢測(cè)到錯(cuò)誤時(shí),第一搜索節(jié)點(diǎn)和第二搜索節(jié)點(diǎn)至少之一能夠向模式匹配節(jié)點(diǎn)請(qǐng)求相似性量度的重新傳輸。
23.按照權(quán)利要求22所述的分布式體系結(jié)構(gòu),其中當(dāng)在來(lái)自模式匹配節(jié)點(diǎn)的相似性量度的傳輸中檢測(cè)到錯(cuò)誤時(shí),第一搜索節(jié)點(diǎn)和第二搜索節(jié)點(diǎn)至少之一能夠重新計(jì)算相似性量度。
24.按照權(quán)利要求18所述的分布式體系結(jié)構(gòu),其中第一搜索節(jié)點(diǎn)和第二搜索節(jié)點(diǎn)至少之一能夠通過(guò)執(zhí)行直方圖修剪,減小搜索空間。
25.按照權(quán)利要求24所述的分布式體系結(jié)構(gòu),其中每個(gè)搜索節(jié)點(diǎn)能夠計(jì)算與其處理相關(guān)的直方圖,并把表示該直方圖的統(tǒng)計(jì)量傳遞給另一搜索節(jié)點(diǎn)。
26.按照權(quán)利要求24所述的分布式體系結(jié)構(gòu),其中直方圖統(tǒng)計(jì)量還被定義成最大得分值,平均得分值和與搜索節(jié)點(diǎn)相關(guān)的活動(dòng)節(jié)點(diǎn)的數(shù)目。
27.一種利用高速緩沖存儲(chǔ)器處理語(yǔ)音數(shù)據(jù)的方法,所述高速緩沖存儲(chǔ)器具有把數(shù)據(jù)從系統(tǒng)存儲(chǔ)器傳遞到高速緩沖存儲(chǔ)器中的相關(guān)高速緩存機(jī)構(gòu),所述方法包括提供系統(tǒng)存儲(chǔ)器中的語(yǔ)音數(shù)據(jù)的主表;提供建立定所述語(yǔ)音數(shù)據(jù)的子集的處理順序的列表;把所述語(yǔ)音數(shù)據(jù)的所述子集復(fù)制到子表中,所述子表被處理,使得所述子表中的各項(xiàng)占據(jù)連續(xù)的存儲(chǔ)單元;利用語(yǔ)音處理算法處理所述子表;和采用與所述高速緩沖存儲(chǔ)器相關(guān)的高速緩存機(jī)構(gòu)把所述子表傳遞到所述高速緩沖存儲(chǔ)器中,從而允許所述語(yǔ)音處理算法以高速緩沖存儲(chǔ)器存取速率訪問(wèn)語(yǔ)音數(shù)據(jù)的所述子集。
28.按照權(quán)利要求27所述的方法,其中所述主表保存語(yǔ)音參數(shù)。
29.按照權(quán)利要求27所述的方法,其中所述主表保存高斯參數(shù)。
30.按照權(quán)利要求27所述的方法,其中建立處理順序的所述列表由具有時(shí)間順序的口述話語(yǔ)形成。
31.按照權(quán)利要求27所述的方法,其中所述子表駐留在系統(tǒng)存儲(chǔ)器中。
32.按照權(quán)利要求27所述的方法,其中執(zhí)行所述復(fù)制步驟,使得按照所述列表建立的所述處理順序定義的順序,排序所述子表中的所述各項(xiàng)。
33.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是包括建立所述列表的一遍的多遍處理。
34.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是多遍識(shí)別處理。
35.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是聲音模型自適應(yīng)處理。
36.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是詞格重新記分處理。
37.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是語(yǔ)音模型訓(xùn)練處理。
38.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是關(guān)于單詞/音素圖的受約束搜索。
39.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是關(guān)于集中語(yǔ)言模型的受約束搜索。
40.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是Viterbi或Baum-Welch局部距離計(jì)算。
41.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是格式擴(kuò)展算法。
42.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是是集束搜索算法。
43.按照權(quán)利要求27所述的方法,其中根據(jù)語(yǔ)言約束條件,形成建立處理順序的所述列表,根據(jù)所述語(yǔ)言約束條件,能夠得出訪問(wèn)的時(shí)間順序。
44.按照權(quán)利要求27所述的方法,其中根據(jù)搜索空間約束條件,形成建立處理順序的所述列表,根據(jù)所述搜索空間約束條件,能夠得出訪問(wèn)的時(shí)間順序。
45.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是包括輸出用于建立所述列表的語(yǔ)言約束條件的一遍的多遍處理。
46.按照權(quán)利要求27所述的方法,其中所述語(yǔ)音處理算法是包括輸出用于建立所述列表的搜索空間約束條件的一遍的多遍處理。
全文摘要
提供一種改進(jìn)具有多個(gè)聲音模型(20)的語(yǔ)音識(shí)別系統(tǒng)中的模式匹配的方法。成組地確定聲音特征矢量(54)的相似性量度,隨后被緩存到高速緩沖存儲(chǔ)器(59)中。為了進(jìn)一步減少計(jì)算處理,可在多個(gè)處理節(jié)點(diǎn)(66、67、68)之間分配聲音數(shù)據(jù)。另外,說(shuō)話順序的現(xiàn)有知識(shí)可被用于確定訪問(wèn)順序(124),訪問(wèn)順序(124)被用于把記錄從主語(yǔ)音參數(shù)表(120、200)復(fù)制到子表(130、204)中。子表被處理,使得各項(xiàng)位于連續(xù)的存儲(chǔ)單元(206)中,并且按照處理順序被排序(208)。隨后指令語(yǔ)音處理算法處理子表(210),導(dǎo)致處理器把子表裝入高速緩沖存儲(chǔ)器(104,212)。
文檔編號(hào)G10L15/10GK1662955SQ03814000
公開(kāi)日2005年8月31日 申請(qǐng)日期2003年3月19日 優(yōu)先權(quán)日2002年4月22日
發(fā)明者盧卡·里加茲奧, 帕特里克·恩古伊恩 申請(qǐng)人:松下電器產(chǎn)業(yè)株式會(huì)社
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1