分布式語音識(shí)別系統(tǒng)中的語音模型檢索的制作方法_4

文檔序號(hào)：9402042閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)>分布式語音識(shí)別系統(tǒng)中的語音模型檢索的制作方法

負(fù)載平衡部件或分布式ASR系統(tǒng)的某一其它部件可確定:用戶已經(jīng)與用于會(huì)話的特定ASR服務(wù)器104相關(guān)聯(lián)，并且如果高速緩存尚未失效，或者如果在閾值時(shí)間段已經(jīng)過去之后用戶沒有意外開始ASR會(huì)話，那么話語數(shù)據(jù)可被發(fā)送到主動(dòng)分配的ASR服務(wù)器104。例如，如果用戶在上午7:30到上午8:30之間開始會(huì)話，那么用戶可連接到主動(dòng)分配的ASR服務(wù)器104，并實(shí)現(xiàn)預(yù)先高速緩存帶來的好處。然而，如果用戶直到上午9:00才開始會(huì)話，或者如果高速緩存的模型已經(jīng)被釋放以為最近請(qǐng)求或使用的模型騰出空間，那么用戶的ASR會(huì)話可處理作為任何其他用戶的ASR會(huì)話，例如，如上文參考圖3所描述。
[0065]在一些實(shí)施例中，基于最近用戶交互或環(huán)境因素，語音識(shí)別模型可以肯定地加載或預(yù)先高速緩存。例如，客戶端裝置102可以監(jiān)測來自麥克風(fēng)的輸入，并且經(jīng)配置以識(shí)別用戶說出的某個(gè)單詞或短語，以在不與裝置物理交互(例如，不用按下按鈕或與觸摸屏交互)的情況下開始ASR會(huì)話。在一些情況下，當(dāng)滿足某些條件時(shí)(例如，初步分析表明，這是與環(huán)境噪音不同的話語)，來自麥克風(fēng)的音頻輸入可以傳輸?shù)椒植际紸SR系統(tǒng)，以確定用戶是否說出了指示開始ASR會(huì)話的單詞或短語。在一些情況下，客戶端裝置102可監(jiān)測一定空間中是否出現(xiàn)用戶，因?yàn)橛脩暨M(jìn)入空間后可能會(huì)很快對(duì)著客戶端裝置102說話。當(dāng)客戶端裝置102檢測到用戶出現(xiàn)(例如，使用傳感器、對(duì)視頻信號(hào)使用圖像處理，或?qū)σ纛l信號(hào)使用信號(hào)處理)時(shí)，消息可被發(fā)送到分布式ASR系統(tǒng)，以表明用戶可能會(huì)很快通過客戶端裝置102開始語音識(shí)別。在這些和其它情況下，在完整的話語被傳輸?shù)椒植际紸SR系統(tǒng)以用于處理之前，可針對(duì)用戶加載額外的語音識(shí)別模型。
[0066]圖5A和圖5B示出用于分布式ASR系統(tǒng)110中的多層ASR模型存儲(chǔ)和高速緩存的說明性結(jié)構(gòu)。分布式ASR系統(tǒng)110可包含多個(gè)ASR服務(wù)器104a、104b、長期ASR模型存儲(chǔ)服務(wù)器106，以及高速ASR模型高速緩存108。以物理接近度測量或就交換通信所需的時(shí)間量或網(wǎng)絡(luò)躍點(diǎn)數(shù)目而言，比起接近ASR模型存儲(chǔ)服務(wù)器108，ASR服務(wù)器104a、104b可以更接近高速ASR模型高速緩存108。此外，與ASR模型存儲(chǔ)服務(wù)器106相比，ASR模型高速緩存108可利用不同的硬件來提供更快的性能，但容量更少。在一些實(shí)施例中，分布式ASR系統(tǒng)110可包含多個(gè)ASR模型高速緩存108，例如，用于每η個(gè)ASR服務(wù)器104的一個(gè)ASR模型高速緩存108，其中η可以是任何數(shù)字。
[0067]在(A)處，客戶端裝置102a可將語音數(shù)據(jù)發(fā)送到分布式ASR系統(tǒng)110以用于處理。在(B)處，針對(duì)額外語音識(shí)別模型的請(qǐng)求可以從ASR服務(wù)器104a發(fā)出到ASR模型高速緩存108，而非發(fā)出到ASR模型存儲(chǔ)服務(wù)器106。如果ASR模型高速緩存108具有可用的所請(qǐng)求模型，那么高速緩存的模型可以返回到ASR服務(wù)器104a，比從長期ASR模型存儲(chǔ)服務(wù)器106檢索語音識(shí)別模型明顯更快。如果ASR模型高速緩存108不具有所請(qǐng)求的模型，那么ASR模型高速緩存108可在(C)處從ASR模型存儲(chǔ)服務(wù)器106檢索所請(qǐng)求的模型，在(D)處高速緩存語音識(shí)別模型的副本，并且在(E)處將副本轉(zhuǎn)發(fā)到發(fā)出請(qǐng)求的ASR服務(wù)器104a。ASR模型高速緩存108可應(yīng)用各種高速緩存技術(shù)，包含使用存活時(shí)間(“TTL”)和最近最少使用(“LRU”)標(biāo)準(zhǔn)。ASR服務(wù)器104a可在(F)處將結(jié)果傳輸?shù)娇蛻舳搜b置102a或基于ASR結(jié)果來執(zhí)行某一動(dòng)作。
[0068]有利的是，針對(duì)最新高速緩存的語音識(shí)別模型的隨后請(qǐng)求可從ASR模型高速緩存108得到服務(wù)，而不是從ASR模型存儲(chǔ)服務(wù)器108得到服務(wù)。例如，客戶端裝置102a可將語音數(shù)據(jù)提交到同一 ASR服務(wù)器104a或不同的ASR服務(wù)器104b，并且在任一種情況下，額外的語音識(shí)別模型均可從ASR模型高速緩存108檢索，而無需從ASR模型存儲(chǔ)服務(wù)器106檢索。作為另一實(shí)例，語音數(shù)據(jù)可從不同的客戶端裝置102b接收，并由同一 ASR服務(wù)器104a或不同的ASR服務(wù)器104b處理。如圖5B所示，第二客戶端裝置102b可在(G)處將語音數(shù)據(jù)傳輸?shù)椒植际紸SR系統(tǒng)110。在(H)處，第二 ASR服務(wù)器104b可處理語音數(shù)據(jù)，請(qǐng)求來自ASR模型高速緩存108的相同額外語音識(shí)別模型。由于先前已高速緩存了模型，因此，所請(qǐng)求的模型可在(I)處返回到ASR服務(wù)器104B，而不用從ASR模型存儲(chǔ)服務(wù)器106檢索。ASR服務(wù)器104b可在(J)處將結(jié)果傳輸?shù)娇蛻舳搜b置102b或基于ASR結(jié)果來執(zhí)行某一動(dòng)作。
[0069]術(shù)語
[0070]根據(jù)實(shí)施例，本文所描述的過程或算法中的任一個(gè)的某些動(dòng)作、事件或功能可用不同的序列來執(zhí)行，可被添加、合并或完全忽略(例如，并非所有所描述的操作或事件都是實(shí)踐算法所必需的)。此外，在某些實(shí)施例中，操作或事件可同時(shí)執(zhí)行(例如，通過多線程處理、中斷處理，或者多個(gè)處理器或處理器芯，或者在其它并行結(jié)構(gòu)上)，而非循序執(zhí)行。
[0071]結(jié)合本文中公開的實(shí)施例描述的各種說明性邏輯塊、模塊、例程和算法步驟可實(shí)施為電子硬件、計(jì)算機(jī)軟件，或是這兩個(gè)的組合。為了清楚地說明硬件和軟件的這種互換性，上文就其功能性描述了各種說明性部件、塊、模塊和步驟。此類功能性是實(shí)施為硬件還是軟件取決于特定應(yīng)用和強(qiáng)加于整個(gè)系統(tǒng)的設(shè)計(jì)約束。所描述的功能性可針對(duì)每個(gè)特定應(yīng)用用不同的方式實(shí)施，但此類實(shí)施決策不應(yīng)被解釋為導(dǎo)致脫離本發(fā)明的范圍。
[0072]結(jié)合本文公開的實(shí)施例描述的方法、過程、例程或算法的步驟可直接體現(xiàn)在硬件、處理器執(zhí)行的軟件模塊或這兩個(gè)的組合中。軟件模塊可駐留于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬磁盤、可移動(dòng)磁盤、CD-ROM或任何其它形式的非臨時(shí)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中。示例性存儲(chǔ)介質(zhì)可耦合到處理器，從而使得處理器可從存儲(chǔ)介質(zhì)中讀取信息并將信息寫入到存儲(chǔ)介質(zhì)。在替代方案中，存儲(chǔ)介質(zhì)可以與處理器成一體式。處理器和存儲(chǔ)介質(zhì)可駐留于ASIC中。ASIC可駐留于用戶終端中。在替代方案中，處理器和存儲(chǔ)介質(zhì)可以作為離散部件駐留在用戶終端中。
[0073]除非另外特別說明，或者根據(jù)所使用的上下文可用其它方式理解，否則本文中所用的條件性語言，例如，“可”、“可以”、“可能”、“也許”、“例如”等，大體意圖傳達(dá)以下內(nèi)容:某些實(shí)施例包含(但其它實(shí)施例不包含)某些特征、元件和/或步驟。因此，這些條件性語言大體并不意圖暗示:特征、元件和/或步驟是一個(gè)或多個(gè)實(shí)施例無論如何都需要的，或者在有或沒有作者輸入或提示的情況下，一個(gè)或多個(gè)實(shí)施例必然包含用于決策的邏輯，不論這些特征、元件和/或步驟均包含其中還是將在任何特定的實(shí)施例中執(zhí)行。術(shù)語“包括”、“包含”、“具有”等是同義詞，且在包含性意義上以開放的形式使用，并且并不排除額外的元件、特征、動(dòng)作、操作等等。此外，術(shù)語“或”在包含性意義(而并非排除性意義)上使用，因此在用于(例如)連接一系列元件時(shí)，術(shù)語“或”表示所述系列中的元件的一個(gè)、一些或所有元件。
[0074]除非另外特別說明，否則連接性語言(例如，短語“X、Y和Z中的至少一個(gè)”)將在所使用的上下文中被理解為大體表示一個(gè)項(xiàng)目、術(shù)語等可以是X、Y或Z中任一者或者其組合。因此，這些連接性語言通常并不意圖暗示某些實(shí)施例要求分別存在X中的至少一個(gè)、Y中的至少一個(gè)以及Z中的至少一個(gè)。
[0075]雖然上文的【具體實(shí)施方式】已展示、描述并指出應(yīng)用于各種實(shí)施例的新穎特征，但是應(yīng)理解，在不脫離本發(fā)明的精神的情況下，可作出所說明的裝置或算法的形式和細(xì)節(jié)上的各種省略、取代和改變。應(yīng)認(rèn)識(shí)到，本文描述的本發(fā)明的某些實(shí)施例可采用不提供本文所陳述的所有特征和益處的方式體現(xiàn)，因?yàn)橐恍┨卣骺瑟?dú)立于其它特征單獨(dú)使用或?qū)嵺`。本文公開的特定發(fā)明的范圍由所附權(quán)利要求書指示，而非由上述實(shí)施方式指示。權(quán)利要求書的范圍涵蓋其等效意義和范圍內(nèi)的所有變化。
[0076]錢
[0077]1.—種系統(tǒng)，其包括:
[0078]存儲(chǔ)可執(zhí)行指令的計(jì)算機(jī)可讀存儲(chǔ)器；以及
[0079]與所述計(jì)算機(jī)可讀存儲(chǔ)器通信的一個(gè)或多個(gè)處理器，其中所述一個(gè)或多個(gè)處理器經(jīng)所述可執(zhí)行指令編程以:
[0080]從客戶端裝置接收包括用戶話語的音頻數(shù)據(jù)；
[0081]確定額外語音識(shí)別模型不可用；
[0082]使用基礎(chǔ)語音識(shí)別模型來對(duì)所述音頻數(shù)據(jù)執(zhí)行第一語音識(shí)別處理，以產(chǎn)生第一語音識(shí)別結(jié)果；
[0083]從網(wǎng)絡(luò)可訪問的數(shù)據(jù)存儲(chǔ)區(qū)請(qǐng)求所述額外語音識(shí)別模型，其中所述請(qǐng)求是在完成所述第一語音識(shí)別處理之前開始的；
[0084]從所述網(wǎng)絡(luò)可訪問的數(shù)據(jù)存儲(chǔ)區(qū)接收所述額外語音識(shí)別模型；
[0085]使用所述額外語音識(shí)別模型以及使用所述音頻數(shù)據(jù)或所述語音識(shí)別結(jié)果中的至少一個(gè)來執(zhí)行第二語音識(shí)別處理；以及
[0086]至少部分基于所述第二語音識(shí)別處理，將響應(yīng)傳輸?shù)剿隹蛻舳搜b置。
[0087]2.根據(jù)條款I(lǐng)所述的系統(tǒng)，其中所述基礎(chǔ)語音識(shí)別模型包括通用聲學(xué)模型、性別特定聲學(xué)模型或通用語言模型中的至少一個(gè)，并且其中至少部分基于與所述用戶話語相關(guān)聯(lián)的用戶的特性來選擇所述額外語音識(shí)別模型。
[0088]3.根據(jù)條款I(lǐng)所述的系統(tǒng)，其中所述一個(gè)或多個(gè)處理器還經(jīng)所述可執(zhí)行指令編程以:
[0089]從所述客戶端裝置接收包括第二用戶話語的第二音頻數(shù)據(jù)；
[0090]確定所述額外語音識(shí)別模型可用；以及
[0091]使用所述額外語音識(shí)別模型對(duì)所述第二音頻數(shù)據(jù)執(zhí)行語音識(shí)別處理。
[0092]4.根據(jù)條款I(lǐng)所述的系統(tǒng)，其中所述一個(gè)或多個(gè)處理器還經(jīng)所述可執(zhí)行指令編程，以使用多線程處理以與所述第一語音識(shí)別處理的執(zhí)行并行檢索所述額外語音識(shí)別模型。
[0093]5.根據(jù)條款I(lǐng)所述的系統(tǒng)，其中所述一個(gè)或多個(gè)處理器還經(jīng)所述可執(zhí)行指令編程以高速緩存所述額外語音識(shí)別模型。
[0094]6.—種計(jì)算機(jī)實(shí)施的方法，其包括:
[0095]在以特定計(jì)算機(jī)可執(zhí)行指令配置的一個(gè)或多個(gè)計(jì)算裝置的控制下，
[0096]對(duì)關(guān)于用戶話語的音頻數(shù)據(jù)執(zhí)行第一語音處理，以產(chǎn)生語音處理結(jié)果；
[0097]從網(wǎng)絡(luò)可訪問的數(shù)據(jù)存儲(chǔ)區(qū)請(qǐng)求語音處理數(shù)據(jù)，其中所述請(qǐng)求是在完成所述第一語音處理之前開始的；
[0098]從所述網(wǎng)絡(luò)可訪問的數(shù)據(jù)存儲(chǔ)區(qū)接收所述語音處理數(shù)據(jù)；以及
[0099]使用所述語音處理數(shù)據(jù)以及所述音頻數(shù)據(jù)或所述語音處理結(jié)果中的至少一個(gè)來

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第4頁1 2 3 4 5

相關(guān)技術(shù)