用于增量地生成的語音識別假設(shè)的增強的穩(wěn)定性預(yù)測的制作方法

文檔序號：2825830閱讀：186來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

用于增量地生成的語音識別假設(shè)的增強的穩(wěn)定性預(yù)測的制作方法
【專利摘要】包括在計算機(jī)存儲介質(zhì)上被編碼的計算機(jī)程序在內(nèi)的用于預(yù)測語音識別結(jié)果的穩(wěn)定性的方法、系統(tǒng)和裝置。在一個方面，一種方法包括確定詞保持在增量語音識別器的頂端假設(shè)中的時間長度或者時機(jī)數(shù)量，并且基于該時間長度或者時機(jī)數(shù)量向該詞分配穩(wěn)定性度量。
【專利說明】用于增量地生成的語音識別假設(shè)的增強的穩(wěn)定性預(yù)測
[0001]相關(guān)申請的交叉引用
[0002]本申請要求2011年11月I日提交的第61/554，039號美國臨時專利申請以及2012年5月2日提交的第13/461，033號美國專利申請的權(quán)益，它們通過引用結(jié)合于此。
【技術(shù)領(lǐng)域】
[0003]本說明書總體上涉及語音識別。
【背景技術(shù)】
[0004]在某些自動語音識別(ASR)實施方式中，用戶在識別結(jié)果被顯示或者被遵照執(zhí)行之前完成講話。

【發(fā)明內(nèi)容】

[0005]在增量語音識別(incremental speech recognition)中，能夠在用戶講話的同時從識別器流輸出部分結(jié)果，因此例如實現(xiàn)用于口頭語言接口的若干有用特征。例如，識別器能夠在假設(shè)(hypothesis)完全形成之前遵照該假設(shè)執(zhí)行或者向用戶顯示該假設(shè)。此外，在識別結(jié)果完全確定之前預(yù)先計算響應(yīng)可以具有計算上的優(yōu)勢。連同這些特征和其它有用的特征，口頭語言界面能夠感覺更自然并且對用戶易于響應(yīng)。
[0006]根據(jù)本說明書所描述主題的一個總體實施方式，一種系統(tǒng)可以基于例如與持續(xù)時間相關(guān)的特征的各種特征向增量語音識別結(jié)果的分段(segment)分配穩(wěn)定性度量(stability metric)。代替估計該分段已經(jīng)被識別器正確解碼的概率或者除此之外，該系統(tǒng)能夠估計直至并包括最近解碼的分段的增量結(jié)果中的分段穩(wěn)定(即，將保持在未來的增量結(jié)果中而沒有變化)的概率。表現(xiàn)出所期望的穩(wěn)定性特性的分段例如能夠被顯示給用戶。
[0007]總體上，本說明書中所描述主題的一個方面可以體現(xiàn)在如下的方法中，這些方法包括如下動作:接收各自表示增量語音識別器在不同時間點的頂端增量語音識別假設(shè)的多個部分增量語音識別假設(shè)，并且從該多個部分增量語音識別假設(shè)之一識別分段。該方法還包括從該多個部分增量語音識別假設(shè)確定該分段在增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久，并且由一個或多個計算機(jī)基于該分段在增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久來向該分段分配穩(wěn)定性度量。
[0008]總體上，本說明書中所描述主題的另一個方面可以體現(xiàn)在如下的方法中，這些方法包括如下動作:識別在特定時間點、在語音識別器的輸出中出現(xiàn)的詞或子詞，確定該詞或子詞在語音識別器的輸出中出現(xiàn)而沒有后續(xù)變化的最早時間點，并且基于該特定時間點和最早時間點計算該詞或子詞的壽命度量(age metric)。
[0009]總體上，本說明書中所描述主題的另一個方面可以體現(xiàn)在如下的方法中，這些方法包括如下動作:確定詞保持在增量語音識別器的頂端假設(shè)中的時間長度或者時機(jī)數(shù)量，并且基于該時間長度或者時機(jī)數(shù)量向該詞分配穩(wěn)定性度量。[0010]這些方面的其它實施例包括對應(yīng)的系統(tǒng)、裝置，以及在計算機(jī)存儲設(shè)備上被編碼的、被配置為執(zhí)行該方法的動作的計算機(jī)程序。
[0011]這些實施例和其它實施例各自可以可選地包括一個或多個以下特征。例如，向分段分配穩(wěn)定性度量進(jìn)一步基于該分段的右側(cè)上下文；該分段是詞或子詞；確定該分段持續(xù)了多久包括確定該分段在沒有變化的情況下持續(xù)了多久；穩(wěn)定性度量在所識別的、包括該分段的特定增量語音識別假設(shè)從增量語音識別器輸出之后被分配給該分段；該方法包括接收與話語(utterance)相對應(yīng)的音頻信號，并且對該音頻信號執(zhí)行增量語音識別以生成多個部分增量語音識別假設(shè)；該方法包括確定穩(wěn)定性度量是否滿足閾值，并且基于確定穩(wěn)定性度量是否滿足閾值來改變用戶界面上該分段的表示的視覺特征；該方法包括確定穩(wěn)定性度量是否滿足閾值，并且基于確定穩(wěn)定性度量是否滿足閾值來將該分段翻譯為不同語言；該方法包括確定穩(wěn)定性度量是否滿足閾值，并且基于確定穩(wěn)定性度量是否滿足閾值來將該分段作為搜索查詢的一部分提交至搜索引擎；該方法包括確定穩(wěn)定性度量是否滿足閾值，并且基于確定穩(wěn)定性度量是否滿足閾值來在用戶界面上顯示該分段的表示；以及/或者該接收、識別、確定和分配由一個或多個計算機(jī)來執(zhí)行。
[0012]該說明書中所描述主題的一個或多個實施例的細(xì)節(jié)在附圖和以下描述中給出。主題的其它可能的特征、方面和優(yōu)勢將從描述、附圖和權(quán)利要求變得顯而易見。
【專利附圖】

【附圖說明】
[0013]圖1是能夠評估增量地生成的語音識別假設(shè)的穩(wěn)定性的示例系統(tǒng)的示圖。
[0014]圖2A是由增量語音識別器在各個時刻生成的頂端假設(shè)的示例。
[0015]圖2B圖示了用于確定對應(yīng)于來自圖2A的頂端假設(shè)的分段的穩(wěn)定性度量是否滿足閾值的樣本過程。
[0016]圖3是用于基于分段的持續(xù)時間向其分配穩(wěn)定性度量的示例過程的流程圖。
[0017]圖4是用于基于詞或子詞首次被識別而沒有后續(xù)變化的時間來計算該詞或子詞的壽命度量的示例過程的流程圖。
[0018]圖5是用于基于詞的時間長度向其分配穩(wěn)定性度量的示例過程的流程圖。
[0019]圖6和圖7圖示了作為樣本測試集合的延遲的函數(shù)的穩(wěn)定性改進(jìn)。
[0020]圖8圖示了使用相對圖6和圖7的樣本測試集合的真實分布而繪制的、使用壽命特征得出的示例回歸曲線。
[0021]各附圖中同樣的附圖標(biāo)記表示同樣的要素。
【具體實施方式】
[0022]圖1是能夠評估增量地生成的語音識別假設(shè)的穩(wěn)定性的示例系統(tǒng)100的示圖。例如，示例系統(tǒng)100可以從用戶102所說的話語112增量地生成語音識別假設(shè)，評估該假設(shè)內(nèi)的分段的穩(wěn)定性，并且輸出滿足穩(wěn)定性閾值的分段。圖1還圖示了在狀態(tài)(a)至狀態(tài)(d)期間、系統(tǒng)100內(nèi)的數(shù)據(jù)流的示例，以及在狀態(tài)(d)期間、在用戶設(shè)備106上顯示的用戶界面104a、104b。狀態(tài)(a)至狀態(tài)⑷可以是時間順序的狀態(tài)，或者它們可以以不同于圖示順序的順序出現(xiàn)。
[0023]更為詳細(xì)地，系統(tǒng)100包括與自動語音識別(ASR)引擎108通信的用戶設(shè)備106。用戶設(shè)備106可以是任意適當(dāng)類型的計算設(shè)備，包括但不限于移動電話、智能電話、PDA、音樂播放器、電子書閱讀器、平板計算機(jī)、膝上型計算機(jī)或臺式計算機(jī)，或者包括一個或多個處理器和計算機(jī)可讀介質(zhì)的其它固定設(shè)備或便攜設(shè)備。ASR引擎108可以是移動設(shè)備106的組件。在一些實施方式中，ASR引擎108可以處于用戶設(shè)備106之外，并且用戶設(shè)備106和ASR引擎108之間的通信可以通過電話和/或計算機(jī)網(wǎng)絡(luò)進(jìn)行，該計算機(jī)網(wǎng)絡(luò)包括無線蜂窩網(wǎng)絡(luò)、無線局域網(wǎng)(WLAN)或W1-Fi網(wǎng)絡(luò)、第三代(3G)或第四代(4G)移動電信網(wǎng)絡(luò)或者其任意適當(dāng)?shù)慕M合。
[0024]參考示例數(shù)據(jù)流，在狀態(tài)(a)期間，音頻信號110被發(fā)送至ASR引擎108。例如，當(dāng)用戶 102 開始說出句子(例如，“peter piper picked a peck of pickled peppers”)時，話語112被編碼并且作為音頻信號110被傳達(dá)至ASR引擎108。在一些實施方式中，例如在寫電子郵件時，話語112可以表示到用戶設(shè)備106的基于語音的輸入。除此之外或可替換地，話語112可以表示被發(fā)送至搜索引擎、命令引擎、對話系統(tǒng)或者使用經(jīng)轉(zhuǎn)錄的語音或者調(diào)用使用經(jīng)轉(zhuǎn)錄的語音的軟件應(yīng)用以執(zhí)行一些動作的任意其它引擎或系統(tǒng)。
[0025]在狀態(tài)(b)期間，ASR引擎108接收并處理音頻信號110。ASR引擎108可以被配置為執(zhí)行與各種軟件組件(例如，模塊、對象、庫、服務(wù)等)相關(guān)聯(lián)的應(yīng)用代碼，以實施穩(wěn)定的分段生成系統(tǒng)114，分段生成系統(tǒng)114包括識別器116、增量識別器緩沖器118、穩(wěn)定性評估器120和輸出模塊122。
[0026]當(dāng)ASR引擎108接收音頻信號110時，識別器116增量地識別話語112并且將其轉(zhuǎn)換成文本。經(jīng)增量地轉(zhuǎn)換的文本可以表示識別器116的頂端增量語音識別假設(shè)，并且能夠被存儲在增量識別器緩沖器118中。在示例系統(tǒng)100中，增量識別器緩沖器118在頂端增量語音識別假設(shè)124隨時間而變?yōu)閺淖R別器116可用時保持對它們的追蹤。如以下更為詳細(xì)描述的，穩(wěn)定性評估器120隨后增量地識別頂端增量語音識別假設(shè)124的分段并且確定每個分段的穩(wěn)定性。穩(wěn)定性評估器120已經(jīng)將其評估為穩(wěn)定的分段被發(fā)送至輸出模塊122。在這里，分段或前綴可以指的是子詞、詞或一組詞。
[0027]對于圖1中所示的頂端增量語音識別假設(shè)124，如果所有未來的增量結(jié)構(gòu)包括相同的分段，則可以認(rèn)為處于特定時幀(例如，如所圖示的以毫秒被時間排序的時幀(I)、
(10)、(20)等)的分段表現(xiàn)出期望的穩(wěn)定性特征。例如，最佳路徑線126指示不隨后續(xù)增量分段被增加到頂端假設(shè)124而變化的穩(wěn)定分段的輪廓。在一些實施方式中，穩(wěn)定性評估器120可以使用計時器128來測量特定詞在頂端假設(shè)中持續(xù)了多久(S卩，持久性(persistence)或壽命)，并且隨后可以基于該測量結(jié)果來分配穩(wěn)定性度量。例如，穩(wěn)定性評估器120可以被配置為在特定詞或分段在頂端假設(shè)124中持續(xù)了 IOOms或者更長時間而沒有變化的情況下確定其是穩(wěn)定的。如以下進(jìn)一步討論的，穩(wěn)定性評估器120能夠使用用于確立穩(wěn)定性的其它穩(wěn)定性度量和方法。
[0028]在狀態(tài)(C)期間，來自輸出122的一個或多個穩(wěn)定分段作為轉(zhuǎn)錄130被傳達(dá)至用戶設(shè)備106。轉(zhuǎn)錄130可以以預(yù)定的時間間隔發(fā)送至用戶設(shè)備106，或者隨著頂端增量語音識別假設(shè)124內(nèi)的穩(wěn)定分段被ASR引擎108的穩(wěn)定分段生成系統(tǒng)114識別而實時地發(fā)送。在一些實施方式中，轉(zhuǎn)錄130可以包括頂端假設(shè)124的穩(wěn)定分段和不穩(wěn)定分段兩者。
[0029]在狀態(tài)(d)期間，用戶界面104a、104b顯示由用戶設(shè)備106接收的轉(zhuǎn)錄130。在示出的示例中，用戶界面104a、104b僅增量地顯示頂端假設(shè)124內(nèi)、穩(wěn)定性評估器120已經(jīng)確定其穩(wěn)定的分段。對于以上所提到的IOOms或更大的示例穩(wěn)定性閾值而言，用戶界面104a在時刻(230)指示“PETER PIPER”是穩(wěn)定的。這是因為雖然識別器116在時刻(230)已經(jīng)生成了假設(shè)“peter piper picked a stack”,但是僅“peter”和“piper”在頂端假設(shè)124中持續(xù)了 IOOms或更長而沒有發(fā)生變化(分別為190ms和130ms)。類似地，用戶界面104b 在時刻(250)指示 “PETER PIPER PICKED” 是穩(wěn)定的，因為僅有 “peter”、“piper” 和“picked”在頂端假設(shè)124中持續(xù)了 IOOms或更長而沒有發(fā)生變化(分別為210ms、150ms和100ms)。除此之外或可替換地，用戶界面104a、104b能夠在具體時幀顯示整個頂端增量假設(shè)，同時在視覺上在穩(wěn)定部分和不穩(wěn)定部分之間進(jìn)行區(qū)分。例如，具有高穩(wěn)定性的詞可以以黑色示出，而低穩(wěn)定性的詞則能夠以灰色示出。在一些實施方式中，所顯示的詞的暗度能夠響應(yīng)于該詞的特定穩(wěn)定性數(shù)值而變化。
[0030]圖2A是由增量語音識別器在各個時刻所生成的頂端假設(shè)200的示例。例如，用戶102 所說出的句子(例如，“peter piper picked a peck of pickled peppers”)可以被識別器116增量地解碼，并且如以上關(guān)于圖1中所示的頂端假設(shè)124所描述的，作為頂端假設(shè)200而被存儲在增量識別器緩沖器118中。頂端假設(shè)200包括在特定時幀(例如，經(jīng)時間排序的、以毫秒進(jìn)行測量的時幀(I)、(10)、(20)等)的頂端增量假設(shè)。
[0031]圖2B圖示了用于確定對應(yīng)于來自圖2A的頂端假設(shè)200的分段的穩(wěn)定性度量是否滿足閾值的樣本過程。作為示例，穩(wěn)定性評估圖202圖示了對應(yīng)于來自圖2A的頂端假設(shè)200的詞“piper”的樣本穩(wěn)定性度量的依賴于時間的變化。
[0032]在示例圖202中，穩(wěn)定性曲線206表示詞“piper”在增量語音識別過程期間的各個時刻的穩(wěn)定性。這里，例如由圖1所示的穩(wěn)定性評估器120和計時器128通過測量詞或分段在頂端假設(shè)200中持續(xù)了多久而沒有變化來評估頂端假設(shè)200內(nèi)的詞或分段的穩(wěn)定性或穩(wěn)定性度量。在一些實施方式中，穩(wěn)定性度量可以進(jìn)一步考慮除分段的壽命或持久性以外的測量。例如，如以下進(jìn)一步討論的，可以基于持久性以及分段的右側(cè)上下文來評估穩(wěn)定性度量，其中右側(cè)上下文是指自首次識別該分段以來所流逝的總時間。
[0033]參考圖2A和圖2B兩者，詞“piper”在時刻(10)和時刻(20)還沒有被識別。結(jié)果，穩(wěn)定性曲線206在該時間間隔期間指示最小穩(wěn)定性數(shù)值(例如，零或空值)。在時刻(30)，詞“piper”被首次識別，但是穩(wěn)定性曲線206在此時刻仍然指示最小穩(wěn)定性數(shù)值，因為該詞還沒有在頂端假設(shè)200內(nèi)持續(xù)任何時間跨度。在時刻(40)，“piper”現(xiàn)在在頂端假設(shè)200中持續(xù)了 IOms而沒有變化。所導(dǎo)致的穩(wěn)定性增加被指示為穩(wěn)定性曲線206在時刻(40)的上升。類似地，在時刻(50) ,“piper”在頂端假設(shè)200中持續(xù)了 20ms而沒有變化。結(jié)果，穩(wěn)定性曲線206在時刻(50)繼續(xù)增加。雖然示例圖202將穩(wěn)定性閾值示為以IOms的間隔采樣，但是例如可以根據(jù)ASR引擎108的約束條件和/或要求而更為頻繁或更不頻繁地對穩(wěn)定性進(jìn)行評估。
[0034]在時刻(60)的頂端假設(shè)200中，之前所識別的詞“piper”已經(jīng)被更新為“pipeper”。結(jié)果，穩(wěn)定性曲線206在時刻(60)下降回到最小穩(wěn)定性數(shù)值，因為詞語“piper”不再出現(xiàn)在頂端假設(shè)中。在時刻(70)，再次識別詞“piper”。即使詞“piper”在時刻(70)被再次識別之前早在時刻(30)被識別過，但是與詞“piper”相關(guān)聯(lián)的穩(wěn)定性數(shù)值不高于時刻
(70)處的穩(wěn)定性閾值，因為“piper”在時亥Ij (60)變?yōu)榱?“pipe per”，因此在時刻(70)變回到“piper”之前重新設(shè)置相關(guān)聯(lián)的持久性數(shù)值。在時刻(70)被識別之后，詞“piper”保持在頂端假設(shè)200中直至?xí)r刻(100)。結(jié)果，穩(wěn)定性曲線206在時刻(70)開始升高并且繼續(xù)升高直至?xí)r刻(100)?；诜€(wěn)定性閾值線204所指示的穩(wěn)定性閾值，詞“piper”在時刻(90)和時刻(100)之間的某時被首次評估為是穩(wěn)定的，此時穩(wěn)定性曲線206與穩(wěn)定性閾值線204相交。一旦詞或分段的穩(wěn)定性超過了穩(wěn)定性閾值，則無論所識別的詞或分段是否已經(jīng)像用戶102所預(yù)期的那樣被識別器116正確地識別，該特定詞或分段都能夠被認(rèn)為是穩(wěn)定的。
[0035]圖3是用于基于分段的持久性來對其分配穩(wěn)定性度量的示例過程300的流程圖。簡言之，過程300包括在各個時幀存儲可能的語音識別結(jié)果(302)，從語音識別結(jié)果選擇感興趣時幀處的一個或多個分段(303)，測量每個所選擇的分段的持久性(304)，并且使用基于該分段的持久性所計算的穩(wěn)定性數(shù)值來標(biāo)記每個所選擇的分段(305)。在一些實施方式中，過程300可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的而進(jìn)行描述。
[0036]更為詳細(xì)地，過程300在音頻信號110被ASR引擎108接收并且被識別器116解碼時開始(301)。每個時幀處的頂端假設(shè)隨后由增量語音識別器緩沖器118接收并且存儲為頂端增量語音識別假設(shè)，其反映了每個時幀處最可能的語音識別結(jié)果(302)。
[0037]在感興趣時幀處，從頂端增量語音識別假設(shè)中識別一個或多個分段(303)。例如，特定時幀處的頂端假設(shè)中的每個詞可以單獨地被選擇為多個分段。可替換地或者除此之夕卜，出現(xiàn)在頂端假設(shè)中的一組詞可以共同地被選擇為單個分段。
[0038]確定一個或多個分段在頂端假設(shè)中持續(xù)了多久(304)。如以上關(guān)于圖1所討論的，能夠通過測量識別該分段的感興趣時幀和該分段首次出現(xiàn)在頂端假設(shè)中而后續(xù)沒有變化的時幀之間的時間間隔來獲得分段的持久性。例如，暫時往回參考圖2A，所識別的分段“piper”在時刻(30)首次出現(xiàn)在頂端假設(shè)中但是隨后在時刻(60)變?yōu)椤皃ipe per”。直到“piper”再次出現(xiàn)在頂端假設(shè)中的時刻(70)，該分段才能夠被認(rèn)為首次出現(xiàn)而后續(xù)沒有變化。在一些實施方式中，可以通過對分段在識別該分段的感興趣幀與該分段首次出現(xiàn)在頂端假設(shè)中而后續(xù)沒有變化的較早幀之間出現(xiàn)在頂端假設(shè)中的次數(shù)計數(shù)來獲得該分段的持久性。
[0039]在(303)中所選擇的一個或多個分段各自基于持久性測量被分配以穩(wěn)定性度量(305)。此外，可以使用分段的其它與持續(xù)時間相關(guān)的特征(諸如其右側(cè)上下文)來向該分段分配穩(wěn)定性數(shù)值。在分配穩(wěn)定性數(shù)值時，還可以使用分段的與持續(xù)時間不相關(guān)的特征。在一些實施方式中，可以使用分段的各個與持續(xù)時間相關(guān)的特征之間的與持續(xù)時間相關(guān)和與持續(xù)時間無關(guān)的簡單加權(quán)插值?？商鎿Q地，如以下進(jìn)一步描述的，給定其各種特征，能夠使用回歸(例如邏輯回歸)來估計分段的穩(wěn)定性。過程300可以在已經(jīng)被評估為穩(wěn)定的分段被發(fā)送至輸出模塊122時結(jié)束(306)。
[0040]圖4是用于基于詞或子詞首次被識別而沒有后續(xù)變化的時刻來計算詞或子詞的壽命度量的示例過程400的流程圖。簡言之，過程400包括在具體時幀從頂端增量語音識別假設(shè)來選擇詞或子詞(402)，找出該詞或子詞首次被識別而沒有后續(xù)變化時的第一時幀(403),并且基于該具體時巾貞和第一時巾貞評估該詞或子詞的壽命度量(404)。在一些實施方式中，過程400可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的進(jìn)行描述。
[0041]更為詳細(xì)地，過程400在識別器116開始將音頻信號110解碼為增量語音識別假設(shè)時開始(401)。如以上關(guān)于圖3所描述的，來自識別器116的解碼輸出能夠在增量時幀被存儲在增量識別器緩沖器118中。
[0042]在感興趣的時幀，識別出現(xiàn)在識別器116的輸出中的詞或子詞或者一組詞或子詞(402)。例如，增量輸出中在特定時幀處的每個詞或子詞能夠被單獨地識別?？商鎿Q地或者除此之外，增量輸出中的一組詞或子詞可以被共同地識別。
[0043]確定以上所識別的詞或子詞在(402)中被識別之前出現(xiàn)在輸出中而沒有后續(xù)變化的最早時間點(403)。例如，如果詞或子詞在時刻(80)被識別，首次出現(xiàn)在時刻(20)，在時刻(40)被修改為另一個詞或子詞，并且隨后在時刻(60)變回為所識別的詞或子詞，則時刻(60)被確定為該詞或子詞出現(xiàn)而沒有后續(xù)變化的最早時間點。在該示例中，該詞或子詞的持久性將為(80)-(60)或者20ms。
[0044]基于特定感興趣時幀和最早時間點計算所識別的詞或子詞的壽命度量(404)。例如，如果通過找出特定時幀與最早時幀之間的時間差來計算壽命度量，則該壽命度量等于該特定時幀處的所識別的詞或子詞的壽命或持久性。在一些實施方式中，壽命度量等于穩(wěn)定性度量?？商鎿Q地，壽命度量可以與其它度量相結(jié)合以規(guī)定穩(wěn)定性度量。過程400能夠在已經(jīng)計算了增量假設(shè)內(nèi)、在特定時幀處的所有詞或子詞的壽命度量時結(jié)束(405)。
[0045]圖5是用于基于詞的時間長度來向其分配穩(wěn)定性度量的示例過程500的流程圖。簡言之，過程500包括確定詞出現(xiàn)在頂端增量語音識別假設(shè)中的時間長度或出現(xiàn)次數(shù)(502)，并且使用基于該時間長度或出現(xiàn)次數(shù)的穩(wěn)定性度量來標(biāo)記該詞(503)。在一些實施方式中，過程500可以由系統(tǒng)100執(zhí)行并且因此將在下文出于清楚的目的而進(jìn)行描述。
[0046]更為詳細(xì)地，過程500當(dāng)如在(303)和(402)中識別頂端增量語音識別假設(shè)內(nèi)的詞時開始(501)。確定該詞保留在頂端假設(shè)中的時間長度或者該詞在頂端假設(shè)中顯露的出現(xiàn)次數(shù)(502)。與詞的壽命或持久性相比，相關(guān)聯(lián)的時間長度衡量了詞出現(xiàn)在頂端假設(shè)中的總時間長度。例如，如果詞或子詞在時刻(80)被識別，首次出現(xiàn)在時刻(20)，在時刻(40)被修改為另一詞或子詞，并且隨后在時刻(60)變回為所識別的詞或子詞，則所識別的詞或子詞保持在頂端假設(shè)中的時間長度將為[(40)-(20)]+ [(80)-(60)]或40ms。出現(xiàn)次數(shù)的測量通常是不依賴于時間的特征，該特征對特定詞在頂端假設(shè)中出現(xiàn)的次數(shù)計數(shù)。
[0047]來自(502)的詞基于所計算的時間長度而被分配以穩(wěn)定性度量(503)。此外，該詞的其它與持續(xù)時間相關(guān)的特征(諸如其持久性和/或右側(cè)上下文)可以被用來向該詞分配穩(wěn)定性數(shù)值。過程500能夠在該詞及其穩(wěn)定性度量被發(fā)送至輸出模塊122時結(jié)束(504)。
[0048]在以上關(guān)于圖1-圖5所描述的樣本過程中，當(dāng)給定一組與增量假設(shè)內(nèi)的前綴相關(guān)聯(lián)的特征時，能夠使用回歸來估計增量結(jié)果的前綴穩(wěn)定的概率。例如，能夠使用邏輯回歸。給定<wt，yt>形式的數(shù)據(jù)，其中&是增量假設(shè)內(nèi)的詞并且yt是二進(jìn)制響應(yīng)，大小為M的特征
矢量f OO能夠被填充以訓(xùn)練參數(shù)集合Hm。單個幀可以從訓(xùn)練集合的增量結(jié)果中的每個假設(shè)詞被隨機(jī)采樣，并且能夠計算該幀處的特征f (wt)。可以記錄二進(jìn)制響應(yīng)yt以表示在wt中結(jié)束的前綴的真實穩(wěn)定性。
[0049]一旦參數(shù)被訓(xùn)練，就能夠通過使用等式(I)來預(yù)測穩(wěn)定性統(tǒng)計s:
[0050]s = logit-1 (^f (Wt)).(I)
[0051]穩(wěn)定性評估器120隨后能夠使用穩(wěn)定性閾值來提取增量結(jié)果的穩(wěn)定前綴。為了防止在穩(wěn)定性圍繞閾值振蕩的情況下可能出現(xiàn)的虛假刪除，能夠做出關(guān)于是否允許詞的穩(wěn)定性隨時間減小的設(shè)計決策。可替換地或者除此之外，能夠做出確保穩(wěn)定性在增量結(jié)果中從左向右減小的設(shè)計決策。
[0052]圖6和圖7圖示了作為樣本測試集合的延時的函數(shù)的穩(wěn)定性改善。即使在理想的語音識別條件下，在用戶102講出詞的時刻與該詞可從識別器116獲得的時刻之間也可能存在某種程度的延時。圖6的圖600反映了例如表示由用戶在計算機(jī)、移動設(shè)備等上執(zhí)行基于語音的搜索時形成的話語112的樣本測試集合。圖7的圖700反映了例如表示由用戶102在向計算機(jī)、移動設(shè)備等提供基于語音的輸入時形成的話語112的樣本測試集合。來自圖6的樣本中的示例話語通常比來自圖7的樣本中的示例話語更長。
[0053]參考圖6和圖7，諭示(oracle)穩(wěn)定性點601、701表示測試集合中的增量結(jié)果的理想前綴集合的穩(wěn)定性和延時。曲線602、603、604、702、703、704表示處于從三個不同特征集合學(xué)習(xí)的回歸上的穩(wěn)定性閾值掃描。由曲線602、702所指示的第一特征集合為Cw(或者詞的右側(cè)上下文)。由曲線603、703所指示的第二特征集合為aw(或者詞的壽命)。在生成圖600、700時,針對這些單特征集合中的每一個集合上的回歸允許截距項(intercept term)。在圖6和圖7的示例中，壽命通常比右側(cè)上下文更多地表示穩(wěn)定性。該結(jié)果可能是直觀的，因為即使詞具有大量的右側(cè)上下文，但是年輕的壽命能夠暗示該詞在近期發(fā)生過變化并且可能再次變化。除了基于持續(xù)時間的特征之外，還可以使用諸如詞級后部(posterior)之類的其它與詞相關(guān)的特征。例如，能夠從表示當(dāng)前假設(shè)的點陣(lattice)計算給定聲學(xué)證據(jù)的詞正確的概率Pw并且進(jìn)行計分直至所解碼的最后幀。除此之外或者可替換地，能夠捕捉詞w出現(xiàn)的確切時刻的搜索空間大小的簡單度量sw。這樣的特征能夠大致捕捉搜索空間相對于其過去的大小有多大。
[0054]考慮到基于圖600、700，壽命能夠比右側(cè)上下文更多地指示穩(wěn)定性，所以壽命能夠與第三特征集合中的其它特征相結(jié)合。除了諸如曰￥\卩￥和awX Sw之類的交互項之外,還能夠包括之前所提到的其它與詞相關(guān)的特征。包括基于后部(P)、壽命(A)、詞(W)和搜索統(tǒng)計(S)的特征的該特征選擇可以被稱作PAWS特征集合，并且由曲線604、704所指示。
[0055]對于圖6所示的樣本測試集合，PAWS特征集合實現(xiàn)了最接近于諭示點601的操作點。然而，對于圖7所示的樣本測試集合，改進(jìn)似乎是微不足道的。兩個樣本測試集合的話語長度的差可能是這種變化的原因。雖然圖6和圖7所示的權(quán)衡分析能夠提供閾值前綴的語料庫的穩(wěn)定性與所引入的延時如何相關(guān)的清晰畫面，但是其可能未明確示出穩(wěn)定性自身是多么地準(zhǔn)確。
[0056]圖8圖示了使用相對圖6和圖7的樣本測試集合的真實分布所繪制的壽命特征而得出的示例回歸曲線801。樣本測試集合802對應(yīng)于來自圖6的語音搜索話語，并且樣本測試集合803對應(yīng)于來自圖7的語音輸入話語。在樣本圖800中，來自以與訓(xùn)練集合相同的方式采樣的測試集合的前綴被示出為根據(jù)其壽命被裝箱(binned)。每個均勻間隔的箱子(bin)的平均壽命相對在該箱子中穩(wěn)定的前綴的小數(shù)而被繪制。被裝箱的測試數(shù)據(jù)顯示經(jīng)學(xué)習(xí)的曲線801總體上擬合真實數(shù)據(jù)802、803。例如，樣本圖800顯示低于大約0.9的概率可能被低估，而較高的概率則更準(zhǔn)確。
[0057]能夠通過對特征空間自身裝箱來獲得更準(zhǔn)確的估計。此外，存在能夠被使用的許多特征表示。邏輯回歸框架能夠靈活地處理大量的特征，同時在出現(xiàn)數(shù)據(jù)稀疏問題時魯棒地對其進(jìn)行處理。
[0058]本說明書中所描述的主題、功能操作和過程的實施例能夠以數(shù)字電子電路、以有形地體現(xiàn)的計算機(jī)軟件或固件、以計算機(jī)硬件來實施，或者以它們中的一個或多個的組合來實施，該計算機(jī)硬件包括在該說明書中公開的結(jié)構(gòu)及其結(jié)構(gòu)的等同形式。本說明書中所描述主題的實施例能夠被實施為一個或多個計算機(jī)程序，即在有形的非易失性程序載體上被編碼用于由數(shù)據(jù)處理裝置執(zhí)行或者用于控制其操作的計算機(jī)程序指令的一個或多個模塊?？商鎿Q地或者除此之外，該程序指令能夠在人為生成的傳播信號(例如機(jī)器生成的電信號、光信號或電磁信號)上被編碼，其被生成以對信息進(jìn)行編碼，用于傳輸?shù)竭m當(dāng)接收器裝置以供數(shù)據(jù)處理裝置執(zhí)行。計算機(jī)存儲介質(zhì)可以是機(jī)器可讀存儲設(shè)備、機(jī)器可讀存儲襯底、隨機(jī)或串行存取存儲器設(shè)備或者它們中的一個或多個的組合。
[0059]術(shù)語“數(shù)據(jù)處理裝置”包含用于處理數(shù)據(jù)的所有類型的裝置、設(shè)備和機(jī)器，通過示例包括可編程處理器、計算機(jī)或者多個處理器或計算機(jī)。該裝置可以包括專用邏輯電路，例如FPGA(現(xiàn)場可編程門陣列)或ASIC(專用集成電路)。除了硬件之外，該裝置還可以包括創(chuàng)建用于所討論的計算機(jī)程序的執(zhí)行環(huán)境的代碼，例如構(gòu)成處理器固件、協(xié)議棧、數(shù)據(jù)庫管理系統(tǒng)、操作系統(tǒng)或者它們中的一個或多個的組合的代碼。
[0060]計算機(jī)程序(也可以被稱作或描述為程序、軟件、軟件應(yīng)用、模塊、軟件模塊、腳本或代碼)可以以任意形式的編程語言(包括編譯語言或解釋語言，或者聲明語言或過程語言)進(jìn)行編寫，并且其能夠以任意形式部署，包括作為獨立程序或者作為模塊、組件、子程序或者適用于計算環(huán)境中的其它單元。計算機(jī)程序可以(但不需要)對應(yīng)于文件系統(tǒng)中的文件。程序可以存儲在文件中保存其它程序或數(shù)據(jù)的部分中(例如，存儲在標(biāo)記語言文檔中的一個或多個腳本)，存儲在專用于所討論的程序的單個文件中，或者存儲在多個協(xié)同文件(例如，存儲一個或多個模塊、子程序或代碼部分的文件)中。計算機(jī)程序能夠被部署為在一臺計算機(jī)上或者在多臺計算機(jī)上執(zhí)行，該多臺計算機(jī)位于一個地點或者跨多個地點分布，并且通過通信網(wǎng)絡(luò)互連。
[0061]該說明書中所描述的過程和邏輯流程能夠由一個或多個可編程計算機(jī)來執(zhí)行，該一個或多個可編程計算機(jī)執(zhí)行一個或多個計算機(jī)程序以通過對輸入數(shù)據(jù)進(jìn)行操作并且生成輸出來執(zhí)行功能。過程和邏輯流程還能夠由專用邏輯電路來執(zhí)行，并且裝置也能夠被實施為專用邏輯電路(例如，F(xiàn)PGA(現(xiàn)場可編程門陣列)或ASIC(專用集成電路)。
[0062]通過示例，適于執(zhí)行計算機(jī)程序的計算機(jī)包括能夠基于通用或?qū)Ｓ梦⑻幚砥骰蛘咂涠撸蛘呷我馄渌愋偷闹醒胩幚韱卧?。一般地，中央處理單元將從只讀存儲器或隨機(jī)存取存儲器或者其二者接收指令和數(shù)據(jù)。計算機(jī)的基本要素是用于執(zhí)行或?qū)嵤┲噶畹闹醒胩幚韱卧约坝糜诖鎯χ噶詈蛿?shù)據(jù)的一個或多個存儲器設(shè)備。一般地，計算機(jī)還將包括用于存儲數(shù)據(jù)的一個或多個海量存儲設(shè)備(例如磁盤、磁性光盤或光盤)，或者被操作地耦合以從其接收數(shù)據(jù)或者向其傳送數(shù)據(jù)或者此二者。然而，計算機(jī)不需要具有這樣的設(shè)備。此夕卜，計算機(jī)可以嵌入另一設(shè)備(給出幾個示例，例如移動電話、個人數(shù)字助理(PDA)、移動音頻或視頻播放器、游戲機(jī)、全球定位系統(tǒng)(GPS)接收器或者便攜式存儲設(shè)備(例如通用串行總線(USB)閃存驅(qū)動器))中。
[0063]適于存儲計算機(jī)程序指令和數(shù)據(jù)的計算機(jī)可讀介質(zhì)包括所有形式的非易失性存儲器、介質(zhì)和存儲器設(shè)備，通過示例包括半導(dǎo)體存儲器設(shè)備，例如EPROM、EEPROM和閃存設(shè)備；磁盤，例如內(nèi)部硬盤或可移動盤；磁性光盤；以及⑶ROM和DVD-ROM盤。處理器和存儲器可以被補充以專用邏輯電路或者被整合在其中。[0064]為了提供與用戶的交互，該說明書中所描述主題的實施例可以在具有用于向用戶顯示信息的顯示設(shè)備(例如CRT (陰極射線管)監(jiān)視器或LCD (液晶顯示器)監(jiān)視器)以及用戶能夠通過其向計算機(jī)提供輸入的鍵盤和指點設(shè)備(例如鼠標(biāo)或軌跡球)的計算機(jī)上實施。也能夠使用其它類型的設(shè)備來提供與用戶的交互；例如，向用戶提供的反饋可以是任意形式的感官反饋，例如視覺反饋、聽覺反饋或觸覺反饋；并且來自用戶的輸入可以以任意形式(包括聲學(xué)輸入、語音輸入或觸覺輸入)被接收。此外，計算機(jī)能夠通過往來于用戶所使用的設(shè)備發(fā)送和接收文檔而與用戶交互；例如，通過響應(yīng)于從web瀏覽器接收的請求向用戶的客戶端設(shè)備上的web瀏覽器發(fā)送網(wǎng)頁。
[0065]本說明書中所描述主題的實施例能夠在計算系統(tǒng)中實施，該計算系統(tǒng)包括例如作為數(shù)據(jù)服務(wù)器的后端組件或者包括例如應(yīng)用服務(wù)器的中間件組件，或者包括例如客戶端計算機(jī)的前端組件，或者一個或多個這樣的后端組件、中間件組件或前端組件的任意組合，該客戶端計算機(jī)具有用戶能夠通過其與本說明書中所描述主題的實施方式交互的圖形用戶界面或Web瀏覽器。該系統(tǒng)的組件能夠通過任意形式或介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信(例如通信網(wǎng)絡(luò))互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(LAN)以及廣域網(wǎng)(WAN)(例如互聯(lián)網(wǎng))。
[0066]計算系統(tǒng)可以包括客戶端和服務(wù)器?？蛻舳撕头?wù)器通常彼此遠(yuǎn)離并且典型地通過通信網(wǎng)絡(luò)交互?？蛻舳撕头?wù)器的關(guān)系憑借在各自的計算機(jī)上運行并且互相具有客戶端-服務(wù)器關(guān)系的計算機(jī)程序而產(chǎn)生。
[0067]雖然本說明書包含許多具體的實施細(xì)節(jié)，但是這些細(xì)節(jié)不應(yīng)當(dāng)被理解為對可能請求保護(hù)的范圍的限制，而是作為可能特定于特定實施例的特征的描述。在該說明書中以單獨的實施例為背景所描述的某些特征還可以在單個實施例中組合實施。相反地，以單個實施例為背景所描述的各種特征還能夠在多個實施例中單獨地或者以任意適當(dāng)?shù)淖咏M合來實施。此外，雖然特征可以在上文被描述為以某種組合的方式起作用并且甚至最初如此要求保護(hù)，但是來自所要求保護(hù)的組合的一個或多個特征在某些情況下可以與該組合脫離，并且所要求保護(hù)的組合可以針對子組合或者子組合的變化形式。
[0068]類似地，雖然在圖中以特定順序描繪了操作，但是這不應(yīng)當(dāng)被理解為要求這樣的操作應(yīng)當(dāng)以所示出的特定順序或者以連續(xù)的順序來執(zhí)行，或者所有圖示的操作應(yīng)當(dāng)被執(zhí)行以實現(xiàn)所期望的結(jié)果。在某些情況下，多任務(wù)和并行處理可能是有利的。此外，上述實施例中各種系統(tǒng)組件的劃分不應(yīng)當(dāng)被理解為在所有實施例中要求這樣的劃分，并且應(yīng)當(dāng)理解的是，所描述的程序組件和系統(tǒng)一般可以在單個軟件產(chǎn)品中被集成在一起，或者被封裝到多個軟件產(chǎn)品之中。
[0069]已經(jīng)對主題的特定實施例進(jìn)行了描述。其它實施例處于以下權(quán)利要求的范圍之內(nèi)。例如，權(quán)利要求中所記載的動作能夠以不同的順序執(zhí)行并且仍然實現(xiàn)所期望的結(jié)果。作為一個示例，附圖中描繪的過程并非必然要求所示出的特定順序或連續(xù)順序來實現(xiàn)所期望的結(jié)果。在某些實施方式中，多任務(wù)和并行處理可能是有利的?？梢蕴峁┢渌襟E，或者可以從所描述的過程中去除步驟。因此，其它實施方式處于以下權(quán)利要求的范圍之內(nèi)。
【權(quán)利要求】
1.一種計算機(jī)實施的方法，包括: 接收各自表示增量語音識別器在不同時間點的頂端增量語音識別假設(shè)的多個部分增量語音識別假設(shè)；從所述多個部分增量語音識別假設(shè)之一識別分段；從所述多個部分增量語音識別假設(shè)確定所述分段在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久；并且由一個或多個計算機(jī)基于所述分段在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
2.根據(jù)權(quán)利要求1所述的方法，其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
3.根據(jù)權(quán)利要求1所述的方法，其中所述分段包括詞或子詞。
4.根據(jù)權(quán)利要求1所述的方法，其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
5.根據(jù)權(quán)利要求1所述的方法，其中所述穩(wěn)定性度量在所識別的、包括所述分段的特定增量語音識別假設(shè)從所述增量語音識別器輸出之后被分配給所述分段。
6.根據(jù)權(quán)利要求1所述的方法，包括: 接收與話語相對應(yīng)的音頻信號；并且對所述音頻信號執(zhí)行增量語音識別以生成所述多個部分增量語音識別假設(shè)。
7.根據(jù)權(quán)利要求1所述的方法，包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
8.根據(jù)權(quán)利要求1所述的方法，包括: 確定所述穩(wěn)定性度量是否滿足閾值，并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段翻譯為不同語言。
9.根據(jù)權(quán)利要求1所述的方法，包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
10.根據(jù)權(quán)利要求1所述的方法，包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來在用戶界面上顯示所述分段的表示。
11.根據(jù)權(quán)利要求1所述的方法，其中所述接收、識別、確定和分配由一個或多個計算機(jī)來執(zhí)行。
12.—種系統(tǒng),包括: 一個或多個計算機(jī)以及存儲指令的一個或多個存儲設(shè)備，如果被所述一個或多個計算機(jī)執(zhí)行，所述指令可操作為使得所述一個或多個計算機(jī)執(zhí)行操作，所述操作包括: 接收各自表示增量語音識別器在不同時間點的頂端增量語音識別假設(shè)的多個部分增量語音識別假設(shè)；從所述多個部分增量語音識別假設(shè)之一識別分段；從所述多個部分增量語音識別假設(shè)確定所述分段在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久；并且基于所述分段在沒有變化的情況下在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
13.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
14.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述分段包括詞或子詞。
15.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
16.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述穩(wěn)定性度量在所識別的、包括所述分段的特定增量語音識別假設(shè)從所述增量語音識別器輸出之后被分配給所述分段。
17.根據(jù)權(quán)利要求 12所述的系統(tǒng)，其中所述操作包括: 接收與話語相對應(yīng)的音頻信號；并且對所述音頻信號執(zhí)行增量語音識別以生成所述多個部分增量語音識別假設(shè)。
18.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
19.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值，并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段翻譯為不同語言。
20.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
21.根據(jù)權(quán)利要求12所述的系統(tǒng)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來在用戶界面上顯示所述分段的表示。
22.—種計算機(jī)可讀介質(zhì)，其存儲包括可由一個或多個計算機(jī)執(zhí)行的指令的軟件，所述指令在這樣執(zhí)行時使得所述一個或多個計算機(jī)執(zhí)行操作，所述操作包括: 接收各自表示增量語音識別器在不同時間點的頂端增量語音識別假設(shè)的多個部分增量語音識別假設(shè)；從所述多個部分增量語音識別假設(shè)之一識別分段；從所述多個部分增量語音識別假設(shè)確定所述分段在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久；并且基于所述分段在沒有變化的情況下在所述增量語音識別器的頂端增量語音識別假設(shè)中持續(xù)了多久來向所述分段分配穩(wěn)定性度量。
23.根據(jù)權(quán)利要求22所述的介質(zhì)，其中向所述分段分配所述穩(wěn)定性度量進(jìn)一步基于所述分段的右側(cè)上下文。
24.根據(jù)權(quán)利要求22所述的介質(zhì)，其中所述分段包括詞或子詞。
25.根據(jù)權(quán)利要求22所述的介質(zhì)，其中確定所述分段持續(xù)了多久包括確定所述分段在沒有變化的情況下持續(xù)了多久。
26.根據(jù)權(quán)利要求22所述的介質(zhì)，其中所述穩(wěn)定性度量在所識別的、包括所述分段的特定增量語音識別假設(shè)從所述增量語音識別器輸出之后被分配給所述分段。
27.根據(jù)權(quán)利要求22所述的介質(zhì)，其中所述操作包括: 接收與話語相對應(yīng)的音頻信號；并且對所述音頻信號執(zhí)行增量語音識別以生成所述多個部分增量語音識別假設(shè)。
28.根據(jù)權(quán)利要求22所述的介質(zhì)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來改變用戶界面上所述分段的表示的視覺特征。
29.根據(jù)權(quán)利要求22所述的介質(zhì)，其中所述操作包括: 確定所述穩(wěn)定性度量是否滿足閾值；并且基于確定所述穩(wěn)定性度量是否滿足所述閾值來將所述分段作為搜索查詢的一部分提交至搜索引擎。
30.一種計算機(jī)實施的方法，包括: 識別語音識別器的輸出中在特定時間點出現(xiàn)的詞或子詞；確定所述詞或所述子詞在所述增量語音識別器的所述輸出中出現(xiàn)而沒有后續(xù)變化的最早時間點；并且基于所述特定時間點和所述最早時間點來計算所述詞或所述子詞的壽命度量。
【文檔編號】G10L15/22GK103918026SQ201280053938
【公開日】2014年7月9日申請日期:2012年8月13日優(yōu)先權(quán)日:2011年11月1日
【發(fā)明者】I·C·麥格勞, A·H·格倫斯坦申請人:谷歌公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：I·C·麥格勞;A·H·格倫斯坦
技術(shù)所有人：谷歌公司
我是此專利的發(fā)明人

上一篇：計算上有效的寬帶濾波和相加陣列聚焦的制作方法
上一篇：音頻對象編碼和解碼的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

語音識別自動生成字幕相關(guān)技術(shù)

語音識別生成字幕相關(guān)技術(shù)

語音識別影片生成字幕相關(guān)技術(shù)

語音識別相關(guān)技術(shù)

百度語音識別相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于增量地生成的語音識別假設(shè)的增強的穩(wěn)定性預(yù)測的制作方法