分布式語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音模型檢索的制作方法

文檔序號(hào)：9402042閱讀：583來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

分布式語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音模型檢索的制作方法
【專利說明】
【背景技術(shù)】
[0001]現(xiàn)代語(yǔ)音識(shí)別系統(tǒng)通常包含聲學(xué)模型和語(yǔ)言模型。聲學(xué)模型用來生成關(guān)于哪些字詞或子字單元(例如，音素)基于話語(yǔ)的聲學(xué)特征對(duì)應(yīng)于話語(yǔ)的假設(shè)。語(yǔ)言模型用來基于說出話語(yǔ)的語(yǔ)言的詞匯特征來確定使用聲學(xué)模型生成的哪個(gè)假設(shè)最有可能是話語(yǔ)的轉(zhuǎn)錄。
[0002]語(yǔ)音識(shí)別中使用的聲學(xué)模型、語(yǔ)言模型及其它模型(統(tǒng)稱為語(yǔ)音識(shí)別模型)可在各種程度上專門化或自定義。例如，語(yǔ)音識(shí)別系統(tǒng)可具有并不采用任何特定方式自定義的通用模型或基礎(chǔ)模型，以及用于特定性別、年齡范圍、地域口音或其任何組合的任何數(shù)量的額外模型。一些系統(tǒng)可具有用于特定主題(例如，醫(yī)學(xué)術(shù)語(yǔ))乃至特定用戶的模型。
[0003]語(yǔ)音識(shí)別系統(tǒng)可以基于客戶端或基于客戶端-服務(wù)器。例如，膝上型計(jì)算機(jī)等計(jì)算裝置可包含應(yīng)用軟件和數(shù)據(jù)，以便將音頻輸入處理成文本輸出或音頻輸入的可能轉(zhuǎn)錄的列表。一些語(yǔ)音識(shí)別通過個(gè)人或移動(dòng)計(jì)算裝置來接受音頻輸入，并將音頻輸入傳遞到網(wǎng)絡(luò)可訪問的服務(wù)器，在該網(wǎng)絡(luò)可訪問的服務(wù)器中，音頻輸入被轉(zhuǎn)錄或執(zhí)行其它處理。
【附圖說明】
[0004]現(xiàn)在將參考以下圖式來描述各種發(fā)明特征的實(shí)施例。貫穿附圖中，參考編號(hào)可再用來表示所參考元件之間的對(duì)應(yīng)關(guān)系。提供圖式是為了說明本文中描述的示例性實(shí)施例，而不意圖限制本發(fā)明的范圍。
[0005]圖1為其中可實(shí)施分布式語(yǔ)音識(shí)別系統(tǒng)的說明性網(wǎng)絡(luò)環(huán)境的框圖，示出了客戶端裝置、語(yǔ)音識(shí)別服務(wù)器與模型存儲(chǔ)服務(wù)器之間的說明性交互。
[0006]圖2為說明性語(yǔ)音識(shí)別服務(wù)器的框圖，示出了各種模型和數(shù)據(jù)存儲(chǔ)區(qū)。
[0007]圖3為用于管理分布式語(yǔ)音識(shí)別系統(tǒng)中的語(yǔ)音識(shí)別會(huì)話的說明性過程的流程圖。
[0008]圖4為用于在分布式語(yǔ)音識(shí)別系統(tǒng)中利用模型的預(yù)先高速緩存的說明性過程的流程圖。
[0009]圖5A和圖5B為客戶端裝置、語(yǔ)音識(shí)別服務(wù)器、模型高速緩存與模型存儲(chǔ)服務(wù)器之間的說明性交互的框圖。
【具體實(shí)施方式】
[0010]MM
[0011]大體而言，本發(fā)明涉及管理分布式語(yǔ)音識(shí)別系統(tǒng)的操作，所述分布式語(yǔ)音識(shí)別系統(tǒng)包含專用或自定義語(yǔ)言模型、專用或自定義聲學(xué)模型以及其它數(shù)據(jù)，統(tǒng)稱為語(yǔ)音識(shí)別模型。語(yǔ)音識(shí)別系統(tǒng)使用語(yǔ)音識(shí)別模型將用戶的話語(yǔ)處理成話語(yǔ)的轉(zhuǎn)錄或可能轉(zhuǎn)錄的列表。一些語(yǔ)音識(shí)別系統(tǒng)使用適用于大量用戶的通用或基礎(chǔ)語(yǔ)音識(shí)別模型。在一些情況下，對(duì)于個(gè)別用戶或一組用戶而言，語(yǔ)音識(shí)別系統(tǒng)可使用額外的模型來提供比基礎(chǔ)模型更準(zhǔn)確的結(jié)果。此類額外的模型可包含或強(qiáng)調(diào)特定用戶通常使用的詞匯，或者其可能與語(yǔ)音識(shí)別處理期間以數(shù)字方法表示特定用戶的語(yǔ)音的方式更緊密匹配。然而，額外的模型(以及一般而言，語(yǔ)音識(shí)別模型)可消耗大量的存儲(chǔ)空間，因此，語(yǔ)音識(shí)別系統(tǒng)在可本地存儲(chǔ)在進(jìn)行語(yǔ)音識(shí)別處理的裝置上的模型數(shù)量方面受到限制。此外，由于尺寸較大，因此，從其它裝置(例如，存儲(chǔ)服務(wù)器)中檢索額外的模型可能會(huì)不利地影響用戶感知的性能。例如，從存儲(chǔ)服務(wù)器中檢索較大額外模型所需的時(shí)間會(huì)增加用戶在說出話語(yǔ)與接收結(jié)果之間經(jīng)歷的延遲。
[0012]本發(fā)明的方面涉及用于對(duì)話語(yǔ)執(zhí)行語(yǔ)音識(shí)別的額外語(yǔ)音識(shí)別模型的異步檢索。在開始處理話語(yǔ)之前或與此并行，語(yǔ)音識(shí)別服務(wù)器或引擎可從數(shù)據(jù)存儲(chǔ)區(qū)請(qǐng)求語(yǔ)音識(shí)別模型，從而使得語(yǔ)音識(shí)別模型的檢索不會(huì)干擾初始處理。例如，在多線程系統(tǒng)中，語(yǔ)音識(shí)別模型的線程管理檢索并不妨礙處理線程。
[0013]在一些實(shí)施例中，語(yǔ)音識(shí)別系統(tǒng)可實(shí)施為分布式系統(tǒng)，其包含用于執(zhí)行語(yǔ)音識(shí)別的部件(例如，語(yǔ)音識(shí)別服務(wù)器)和用于存儲(chǔ)額外語(yǔ)音識(shí)別模型的部件(例如，長(zhǎng)期存儲(chǔ)服務(wù)器)。語(yǔ)音識(shí)別服務(wù)器可接收來自用戶的音頻輸入，并且從存儲(chǔ)部件中檢索不同程度自定義或?qū)ｉT化的一個(gè)或多個(gè)語(yǔ)音識(shí)別模型(例如，一個(gè)用于用戶的性別、一個(gè)用于用戶的地域口音、一個(gè)用于特定用戶等)。語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型，同時(shí)還用基礎(chǔ)語(yǔ)音識(shí)別模型來處理所接收的音頻輸入。在一些情況下，當(dāng)請(qǐng)求額外的模型時(shí)，可能會(huì)有延遲，直到通過網(wǎng)絡(luò)接收到所述模型為止。這可導(dǎo)致響應(yīng)于用戶話語(yǔ)提供轉(zhuǎn)錄或執(zhí)行動(dòng)作時(shí)出現(xiàn)延遲。用戶可能認(rèn)為這種延遲是無法接受的。然而，如果能足夠快地接收到可以使用的額外模型，同時(shí)仍為用戶提供滿意的性能(例如，延遲<100ms、<500ms等)，那么額外的模型可用來提高語(yǔ)音識(shí)別的準(zhǔn)確性。例如，在用基礎(chǔ)模型開始處理音頻輸入之前，可接收到額外的語(yǔ)音識(shí)別模型，且在這種情況下，從一開始就可使用額外的語(yǔ)音識(shí)別模型。作為另一實(shí)例，所述模型可能會(huì)在用基礎(chǔ)模型處理音頻輸入的過程中或在處理已經(jīng)完成之后到達(dá)。額外的模型可用來再處理音頻輸入或初始處理的結(jié)果，前提是這種再處理可以足夠快地完成，以向用戶提供滿意的性能。
[0014]除了在處理之前或處理過程中請(qǐng)求額外的語(yǔ)音識(shí)別模型之外，語(yǔ)音識(shí)別服務(wù)器還可異步請(qǐng)求統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù)，以更新額外的語(yǔ)音識(shí)別模型。額外的語(yǔ)音識(shí)別模型可在語(yǔ)音識(shí)別服務(wù)器處理話語(yǔ)之后被更新。用來更新額外語(yǔ)音識(shí)別模型的數(shù)據(jù)量通常顯著大于額外語(yǔ)音識(shí)別模型本身中的數(shù)據(jù)量。有利的是，通過異步請(qǐng)求統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù)來更新額外語(yǔ)音識(shí)別模型，所述額外語(yǔ)音識(shí)別模型可在統(tǒng)計(jì)數(shù)據(jù)和其它數(shù)據(jù)一旦被接收后就更新。經(jīng)更新的語(yǔ)音識(shí)別模型隨后可再次用來提供更準(zhǔn)確或在其它方面更好的結(jié)果。例如，經(jīng)更新的語(yǔ)音識(shí)別模型可用來再處理更新所依據(jù)的當(dāng)前話語(yǔ)，或者經(jīng)更新的語(yǔ)音識(shí)別模型可用來處理隨后的話語(yǔ)，或進(jìn)行這兩者。
[0015]本發(fā)明的另外方面涉及高速緩存額外的語(yǔ)音識(shí)別模型。通過高速緩存額外的語(yǔ)音識(shí)別模型，它們可被立即使用或大體更快地使用，以用于處理隨后接收的話語(yǔ)，從而在與使用基礎(chǔ)語(yǔ)音識(shí)別模型處理話語(yǔ)大體相同的時(shí)間量?jī)?nèi)提供更準(zhǔn)確的結(jié)果。例如，語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型來處理關(guān)于從客戶端裝置接收的話語(yǔ)的音頻數(shù)據(jù)。不論額外的語(yǔ)音識(shí)別模型是否在將要處理第一話語(yǔ)的時(shí)間到達(dá)，它們都可被高速緩存并用來處理關(guān)于第二話語(yǔ)的隨后接收的音頻數(shù)據(jù)。
[0016]本發(fā)明的其它方面涉及基于對(duì)可請(qǐng)求哪些額外模型以及可請(qǐng)求額外模型的時(shí)間的預(yù)測(cè)，預(yù)先高速緩存額外的語(yǔ)音識(shí)別模型。例如，可監(jiān)視用戶與語(yǔ)音識(shí)別系統(tǒng)的交互，從而語(yǔ)音識(shí)別系統(tǒng)的部件可檢測(cè)用戶可能使用語(yǔ)音識(shí)別系統(tǒng)的模式，或者預(yù)測(cè)用戶將來可能使用語(yǔ)音識(shí)別系統(tǒng)的時(shí)間。在預(yù)期此類使用的情況下，可能將被請(qǐng)求的額外語(yǔ)音識(shí)別模型可被預(yù)先高速緩存(例如，從長(zhǎng)期存儲(chǔ)中檢索并存儲(chǔ)在語(yǔ)音識(shí)別服務(wù)器或某一網(wǎng)絡(luò)可訪問的高速緩存部件上)。
[0017]盡管出于說明的目的，本發(fā)明所描述的實(shí)施例的各方面將著重于語(yǔ)音識(shí)別服務(wù)器接收關(guān)于話語(yǔ)的音頻數(shù)據(jù)，以及異步檢索額外的語(yǔ)音識(shí)別模型來處理音頻數(shù)據(jù)，但所屬領(lǐng)域的技術(shù)人員將了解，本文中公開的技術(shù)可應(yīng)用于任何數(shù)量的軟件處理或應(yīng)用。例如，用戶的個(gè)人移動(dòng)裝置可包含語(yǔ)音識(shí)別引擎，并且在話語(yǔ)的本地處理過程中，異步請(qǐng)求待使用的額外的語(yǔ)音識(shí)別模型。現(xiàn)在將相對(duì)于某些實(shí)例和實(shí)施例來描述本發(fā)明的各方面，這些實(shí)例和實(shí)施例意圖說明而非限制本發(fā)明。
[0018]參考說明性實(shí)例，用戶可發(fā)出聲音命令或以其它方式口頭上與客戶端裝置(例如，移動(dòng)電話或平板計(jì)算機(jī))交互?？蛻舳搜b置可將關(guān)于用戶話語(yǔ)的數(shù)據(jù)傳輸?shù)骄W(wǎng)絡(luò)可訪問的語(yǔ)音識(shí)別服務(wù)器，所述語(yǔ)音識(shí)別服務(wù)器作為分布式自動(dòng)化語(yǔ)音識(shí)別(“分布式ASR”)系統(tǒng)的一部分。語(yǔ)音識(shí)別服務(wù)器可使用各種類型的語(yǔ)音識(shí)別模型(例如，聲學(xué)模型和語(yǔ)言模型)，以處理話語(yǔ)并且轉(zhuǎn)錄或以其它方式確定用戶說了什么。為了提高準(zhǔn)確性，模型可在各個(gè)層次為用戶自定義。語(yǔ)音識(shí)別服務(wù)器可使用基礎(chǔ)模型、用于性別、年齡、地域口音、術(shù)語(yǔ)等的模型。語(yǔ)音識(shí)別模型還可針對(duì)特定用戶或針對(duì)特定時(shí)間、日期等自定義(例如，用于假日術(shù)語(yǔ)的語(yǔ)言模型)。額外的語(yǔ)音識(shí)別模型可能比較大，因此，語(yǔ)音識(shí)別服務(wù)器可能沒有足夠的存儲(chǔ)容量來存儲(chǔ)每個(gè)額外的模型。利用額外語(yǔ)音識(shí)別模型的分布式ASR系統(tǒng)可針對(duì)額外模型實(shí)施長(zhǎng)期存儲(chǔ)，從而使得語(yǔ)音識(shí)別引擎可使用的每個(gè)額外語(yǔ)音識(shí)別模型均可被存儲(chǔ)并根據(jù)需要提供到語(yǔ)音識(shí)別引擎。
[0019]分布式ASR系統(tǒng)的用戶體驗(yàn)可在質(zhì)量(例如，結(jié)果的準(zhǔn)確性)和所感知性能(例如，說出話語(yǔ)與接收到結(jié)果之間的等待時(shí)間和逝去的時(shí)間)兩個(gè)方面進(jìn)來定義。分布式ASR系統(tǒng)努力盡快返回結(jié)果。然而，分布式和其它網(wǎng)絡(luò)系統(tǒng)固有的等待時(shí)間會(huì)直接影響用戶體驗(yàn)。因此，由于從長(zhǎng)期存儲(chǔ)中檢索額外的語(yǔ)音識(shí)別模型而造成的任何額外延遲都可能導(dǎo)致并非令人滿意的用戶體驗(yàn)。
[0020]為了最小化使用額外的語(yǔ)音識(shí)別模型可能對(duì)分布式ASR系統(tǒng)帶來的負(fù)面影響，可異步請(qǐng)求額外的模型(例如，額外語(yǔ)音識(shí)別模型的檢索不會(huì)妨礙用其它模型來執(zhí)行語(yǔ)音識(shí)別過程，且反之亦然)。例如，語(yǔ)音識(shí)別服務(wù)器可利用多線程處理來請(qǐng)求額外的模型，并且以并行或異步的方式用基礎(chǔ)模型來執(zhí)行語(yǔ)音識(shí)別。當(dāng)接收到話語(yǔ)或關(guān)于話語(yǔ)的數(shù)據(jù)時(shí)，語(yǔ)音識(shí)別服務(wù)器可確定說話人的身份和/或說話人的特性(例如，性別)。在處理話語(yǔ)之前、并行或之后，語(yǔ)音識(shí)別服務(wù)器可檢索額外的語(yǔ)音識(shí)別模型。由于檢索不同種類的額外語(yǔ)音識(shí)別模型可能具有不同的等待時(shí)間，因此，語(yǔ)音識(shí)別服務(wù)器或分布式ASR系統(tǒng)的某一其它部件可請(qǐng)求任何數(shù)量的不同額外模型，并且使用在將要使用模型的時(shí)間接收到的一個(gè)最好的模型且在不會(huì)不利影響用戶體驗(yàn)的情況下返回結(jié)果。例如，語(yǔ)音識(shí)別服務(wù)器可請(qǐng)求用于個(gè)別用戶的模型，且還請(qǐng)求用于用戶性別的模型。如果用于性別的模型首先被接收到，那么語(yǔ)音識(shí)別服務(wù)器可繼續(xù)使用性別特定的額外語(yǔ)音識(shí)別模型來處理話語(yǔ)。然而，如果在將要使用用于特定用戶的模型的時(shí)間接收到所述模型而未造成令人不滿的延遲，那么語(yǔ)音識(shí)別服務(wù)可使用所述更大程度上自定義的額外模型，即使已經(jīng)用另一模型開始或完成語(yǔ)音識(shí)別處理也是如此。
[0021]在一些實(shí)施例中，內(nèi)容服務(wù)器可對(duì)話語(yǔ)進(jìn)行再處理(例如，多遍次ASR系統(tǒng)經(jīng)配置以對(duì)單個(gè)話語(yǔ)執(zhí)行多次語(yǔ)音識(shí)別)。語(yǔ)音識(shí)別服務(wù)器或執(zhí)行ASR的某一其它裝置可具有至少一組可用的基礎(chǔ)語(yǔ)音識(shí)別模型，或者可具有少量可用的額外選擇(例如，性別特性的語(yǔ)音識(shí)別模型)。在用可用的模型(例如，基礎(chǔ)模型)執(zhí)行第一遍語(yǔ)音識(shí)別處理之后，可進(jìn)行第二遍(如果及時(shí)檢索到額外模型的話)。如果在第一遍之后沒有返回額外或更特定的額外語(yǔ)音識(shí)別模型，那么結(jié)果可被返回到客戶端裝置。
[0022]對(duì)于很多更大的語(yǔ)音識(shí)別模型(例如，語(yǔ)言模型)而言，可能難以足夠快地檢索到額外模型，因而無法將其用于實(shí)時(shí)語(yǔ)音識(shí)別。高速緩存額外的語(yǔ)音識(shí)別模型允許更快地檢索到它們。例如，任何用戶特定或以其它方式自定義的額外語(yǔ)音識(shí)別模

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5