實施數(shù)據(jù)庫、數(shù)據(jù)服務(wù)、文件系統(tǒng)等以增加、刪除并維護系統(tǒng)100所使用的數(shù)據(jù)。
[0023]在當前示例中,熱詞強度評估引擎120中的一個或多個可以對音頻源數(shù)據(jù)112進行評估以按照幀(即,基于時間的音頻分段)來確定詞長度。例如,后選熱詞“Pizza”可以被認為與其它詞相比相對簡短,或者特定講話者可能與其它詞或其它講話者相比恰好相對快速地表達出詞“pizza”。例如,基于詞長度準則,熱詞長度評估引擎120之一可以產(chǎn)生相對應(yīng)的特征分數(shù)124a (例如,低分數(shù))。
[0024]繼續(xù)當前示例,熱詞強度評估引擎120之一可以對音素集合114和/或轉(zhuǎn)錄116進行評估以識別候選熱詞與講話者的語言中的其它詞或短語的編輯距離或音素混淆度。例如,為了識別編輯距離,可以使用有限狀態(tài)換能器、音素至音素換能器和/或語言模型來確定可能與候選熱詞相混淆的最可能的詞或短語。在當前示例中,可以確定諸如“visa”、“piece of”和“beet saw”(除其它之外)之類的若干個詞或短語很可能與候選熱詞“pizza”相混淆?;诰庉嬀嚯x準則,例如,熱詞強度評估引擎120之一可以確定有中等數(shù)量的詞或短語與候選熱詞“pizza”具有小的編輯距離,并且因此可以產(chǎn)生相對應(yīng)的特征分數(shù)124b (例如,中等或低等分)。
[0025]另外,在當前示例中,熱詞強度評估引擎120之一可以對轉(zhuǎn)錄116和/或訓練示例數(shù)據(jù)存儲庫122所提供的數(shù)據(jù)進行評估以識別針對候選熱詞所指定的發(fā)音數(shù)量。例如,為了識別詞“pizza”的可能發(fā)音,熱詞強度評估引擎可以基于轉(zhuǎn)錄116參考詞典或發(fā)音指南中的詞。作為另一個示例,熱詞強度評估引擎可以參考訓練示例數(shù)據(jù)存儲庫122中的詞“pizza”,并且可以識別各個講話者如何對該詞進行發(fā)音的變化。在當前示例中,可以確定的是,雖然在詞典或發(fā)音指南中僅找到了詞“pizza”的一種官方美式英語發(fā)音,但是美國講話者如何對該詞發(fā)音則存在一些變化。例如,一些美國講話者可能會使用詞“pizza”的本土意大利講話者的發(fā)音。例如,基于發(fā)音數(shù)量準則,熱詞強度評估引擎120之一可以確定針對候選詞“pizza”存在少量到中等數(shù)量的發(fā)音,并且因此可以產(chǎn)生相對應(yīng)的特征分數(shù)124c (例如,高或中等分數(shù))。
[0026]在階段(C)期間,生成熱詞適合度分數(shù)。例如,在生成每個特征分數(shù)124a、124b和124c時,特征分數(shù)的集合126可以被提供至熱詞分數(shù)生成器128。熱詞分數(shù)生成器128例如可以對分數(shù)124a、124b和124c進行匯總并且提供經(jīng)匯總的特征分數(shù)作為熱詞適合度分數(shù)。例如,為了生成熱詞適合度分數(shù),熱詞分數(shù)生成器128可以使用邏輯回歸或可替換分類器來訓練用于估計候選熱詞(例如,詞“pizza”)的置信度值的模型。通常,高的置信度值可以與可能適合的熱詞相關(guān)聯(lián)。作為另一個示例,熱詞分數(shù)生成器可以為每個特征分數(shù)124a、124b和124c指定適當權(quán)重(例如,基于經(jīng)驗分析)并且可以執(zhí)行匯總操作。
[0027]在階段(D)期間,提供熱詞適合度分數(shù)的表示以便向用戶顯示。例如,計算設(shè)備102 (在這里被示為設(shè)備102b)可以經(jīng)由界面(這里被示為界面104b)向用戶提供熱詞適合度的一個或多個指示(例如,視覺和/或音頻的)。在當前示例中,界面104b可以向用戶呈現(xiàn)消息(例如,候選熱詞“pizza”相對“弱”),以及與各種熱詞打分準則(例如,匯總熱詞適合度分數(shù)12/100)相關(guān)聯(lián)的特征和/或匯總分數(shù)的一種或多種文本或圖形表示(例如,線狀圖、柱狀圖、象限圖等)。此外,在當前示例中,用戶可以被呈現(xiàn)以提交另一個候選熱詞的提示(例如,“請重試”)。該提示例如可以在熱詞適合度分數(shù)低于預定閾值的情況下被提供。
[0028]同樣參考該示例數(shù)據(jù)流,類似于階段(A),在階段(E)期間,用戶再次被提示提供候選熱詞。在當前示例中,用戶表達出候選熱詞“smorgasborcK自助餐)”,并且計算設(shè)備102基于該表達捕獲、編碼和/或生成語音數(shù)據(jù)130。例如,類似于語音數(shù)據(jù)110,語音數(shù)據(jù)130可以包括音頻源數(shù)據(jù)132、相對應(yīng)的音素集合134,以及可選地包括轉(zhuǎn)錄136。例如,在捕獲、編碼和/或生成語音數(shù)據(jù)130時,可以向一個或多個熱詞強度評估引擎120提供該數(shù)據(jù)。
[0029]類似于階段(B),在階段(F)期間,對語音數(shù)據(jù)進行處理和評估。在當前示例中,熱詞強度評估引擎120可以對語音數(shù)據(jù)130進行處理和評估。例如,熱詞強度評估引擎120可以對音頻源數(shù)據(jù)132、音素集合134、轉(zhuǎn)錄136以及與候選熱詞“smorgasbord”相關(guān)聯(lián)的其它適當語音數(shù)據(jù)進行評估。
[0030]在當前示例中,熱詞強度評估引擎120之一可以對音頻源數(shù)據(jù)132進行評估以按幀確定詞長度。例如,候選熱詞“smorgasbord”可以被認為與其它詞相比相對更長(例如,基于平均詞長度),或者特定講話者恰好與其它詞或其它講話者相比相對緩慢地表達出詞“pizza”。例如,基于詞長度準則,一個或多個熱詞強度評估引擎120可以產(chǎn)生相對應(yīng)的特征分數(shù)124a (例如,高分數(shù))。
[0031]繼續(xù)當前示例,熱詞強度評估引擎120之一可以對音素集合134和/或轉(zhuǎn)錄136進行評估以識別候選熱詞與講話者語言中的其它詞或短語的編輯距離。在當前示例中,可以確定詞“harpsichord”具有與候選熱詞“smorgasbord”相混淆的極小可能性。例如,基于編輯距離準則,熱詞強度評估引擎120之一可以確定少量詞或短語與候選熱詞“smorgasbord”具有中等的編輯距離,并且因此可以產(chǎn)生相對應(yīng)的特征分數(shù)124b (例如,高分數(shù))。
[0032]另外,在當前示例中,熱詞強度評估引擎120之一可以對轉(zhuǎn)錄136和/或訓練示例數(shù)據(jù)存儲庫122所提供的數(shù)據(jù)進行評估以識別針對該候選熱詞所指定的發(fā)音數(shù)量。例如,類似于詞“pizza”,可以確定的是,雖然在詞典或發(fā)音指南中僅找到了詞“smorgasbord”的一種官方美式英語發(fā)音,但是美國講話者如何對該詞進行發(fā)音具有一些變化。例如,一些美國講話者可能會使用詞“ smorgasbord”的瑞典發(fā)音。例如,基于發(fā)音數(shù)量準則,熱詞強度評估引擎120之一可以確定針對候選熱詞“smorgasbord”存在少量到中等數(shù)量的發(fā)音,并且因此可以產(chǎn)生相對應(yīng)的特征分數(shù)124c (例如,高或中等分數(shù))。
[0033]類似于階段(C),在階段(G)期間,生成熱詞適合度分數(shù)。例如,在針對語音數(shù)據(jù)130生成每個特征分數(shù)124a、124b和124c時,特征分數(shù)的集合126可以被提供至熱詞分數(shù)生成器128。另外,類似于階段(D),在階段(H)期間,提供熱地適合度分數(shù)的表示以便向用戶顯示。在當前示例中,界面104(這里被示為界面104c)可以向用戶呈現(xiàn)消息(例如,候選熱詞“smorgasbord”相對“強”),以及與各種熱詞打分準則(例如,匯總熱詞適合度分數(shù)93/100)相關(guān)聯(lián)的特征和/或匯總分數(shù)的一種或多種文本或圖形表示。此外,在當前示例中,用戶可以被呈現(xiàn)有候選熱詞被指定為設(shè)備熱詞的消息(例如,熱詞“被接受”)。該消息例如可以在熱詞適合度分數(shù)高于預定閾值的情況下被提供。
[0034]如之前示例中所描述的,在對熱詞進行評估時可以考慮與候選熱詞以及特定講話者相關(guān)的準則。設(shè)備用戶可以對計算設(shè)備102所提供的熱詞適合度信息進行審閱以選擇熱詞。使用適當?shù)臒嵩~可以改善設(shè)備所進行的熱詞檢測,因此提高設(shè)備性能并節(jié)約設(shè)備資源。在之前示例中已經(jīng)描述了用于評估語音數(shù)據(jù)并且用于生成熱詞適合度分數(shù)的若干準貝1J。然而,如以下另外的示例中將要描述的,可以考慮另外的準則、較少的準則和/或不同的準則。
[0035]圖2是可以確定所講出的熱詞的適合度的示例系統(tǒng)200的示圖。例如,系統(tǒng)200可以包括一個或多個客戶端計算設(shè)備和/或后端服務(wù)器的硬件和/或軟件組件??傮w上,系統(tǒng)200可以接收對用戶所講出的候選熱詞進行編碼的語音數(shù)據(jù),并且能夠?qū)υ撜Z音數(shù)據(jù)進行評估和轉(zhuǎn)錄,能夠針對候選熱詞生成熱詞適合度分數(shù),并且能夠提供熱詞適合度分數(shù)的表示以便向用戶顯示。
[0036]系統(tǒng)200可以包括計算機可讀介質(zhì)202 (例如,一個或多個軟盤設(shè)備、硬盤設(shè)備、光盤設(shè)備、帶式設(shè)備、閃存設(shè)備或其它類似固態(tài)存儲器設(shè)備,或者設(shè)備的陣列)以用于存儲執(zhí)行這里所描述的處理的指令(例如,應(yīng)用程序代碼)。另外,系統(tǒng)200可以包括一個或多個處理器204,其被配置為執(zhí)行指令并且實施各種設(shè)備操作,諸如輸入/輸出、通信、數(shù)據(jù)處理等。
[0037]系統(tǒng)200可以包括用戶界面生成器206,其用于在系統(tǒng)200和用戶之間提供接口(例如,圖形、音頻和/或觸覺)界面。例如,用戶界面生成器206可以提供(圖1所示的)界面104a、104b和104c以便向用戶提供提示、消息以及熱詞適合度的表示。另外,系統(tǒng)200可以包括音頻接口 208。音頻接口 208例如可以包括一個或多個用于從用戶接收所講出的詞和短語的麥克風,以及一個或多個用于向用戶提供音頻提示和反饋(例如,音調(diào)、錄音、計算機所生成的語音等)的揚聲器。此外,音頻接口 208可以向處理器204提供與所接收的所講出的詞和短語相關(guān)聯(lián)的音頻信號以便進行數(shù)字采樣和編碼。
[0038]系統(tǒng)200可以包括n-gram/音素生成器210。例如,n-gram/音素生成器210可以對經(jīng)由音頻接口 208和處理器204提供的編碼語音數(shù)據(jù)進行分析,并且可以識別相對應(yīng)的一系列n-gram和/或音素。例如,n-gram/音素可以被語音識別引擎212用來執(zhí)行機器翻譯和轉(zhuǎn)錄。
[0039]系統(tǒng)200可以包括多個熱詞強度評估引擎214。熱詞強度評估引擎214可以考慮各種預定的準則來評估語音數(shù)據(jù)。例如,準則可以包括詞或短語的長度、詞或短語中所包括的音節(jié)或音素的數(shù)量、特定音素的出現(xiàn)、針對詞或短語所識別的發(fā)音的數(shù)量、講話者對詞或短語的發(fā)音可變性、來自各個講話者的詞或短語的訓練示例的可用性和/或所講出的詞或短語與共享語