1.一種用于在數(shù)字助理中處理語音的方法,所述方法包括:
在具有處理器和存儲用于由所述處理器執(zhí)行的一個或多個程序的存儲器的電子設(shè)備處:
從用戶接收第一語音輸入;
利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果;
從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入,其中所述輸入包括第二語音輸入;以及
利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其中所述第二語音輸入是所述第一語音輸入的至少一部分的重復。
3.根據(jù)權(quán)利要求1所述的方法,還包括:
確定所述第二語音輸入是否包括所述第一語音輸入的至少一部分的重復,其中響應于確定所述第二語音輸入包括所述第一語音輸入的至少一部分的重復,利用所述第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成所述第二識別結(jié)果。
4.根據(jù)權(quán)利要求3所述的方法,其中確定所述第二語音輸入是否包括所述第一語音輸入的至少一部分的重復包括:
相對于所述第一語音輸入的對應部分的音素轉(zhuǎn)錄來確定所述第二語音輸入的音素轉(zhuǎn)錄的錯誤率是否低于預先確定的值。
5.根據(jù)權(quán)利要求3所述的方法,其中確定所述第二語音輸入是否包括所述第一語音輸入的至少一部分的重復包括:
將所述第二語音輸入的音頻波形與所述第一語音輸入的對應部分的音頻波形進行比較。
6.根據(jù)權(quán)利要求1所述的方法,還包括:
執(zhí)行基于所述第一識別結(jié)果的動作。
7.根據(jù)權(quán)利要求6所述的方法,其中所述動作包括在所述電子設(shè)備上顯示所述第一識別結(jié)果的文本的至少一部分。
8.根據(jù)權(quán)利要求6所述的方法,其中所述第一語音輸入包含用戶請求,并且其中所述動作包括執(zhí)行用于滿足所述用戶請求的任務。
9.根據(jù)權(quán)利要求1所述的方法,其中所述第一自動語音識別系統(tǒng)和所述第二自動語音識別系統(tǒng)是相同的自動語音識別系統(tǒng)。
10.根據(jù)權(quán)利要求1所述的方法,其中所述第一自動語音識別系統(tǒng)和所述第二自動語音識別系統(tǒng)是不同的自動語音識別系統(tǒng)。
11.根據(jù)權(quán)利要求10所述的方法,其中所述第一自動語音識別系統(tǒng)包括一個或多個語音識別模型,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述一個或多個語音識別模型不同的一個或多個語音識別模型。
12.根據(jù)權(quán)利要求10所述的方法,其中所述第一自動語音識別系統(tǒng)包括語音識別引擎,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述語音識別引擎不同的語音識別引擎。
13.根據(jù)權(quán)利要求1所述的方法,還包括:
基于所述第一識別結(jié)果和所述第二識別結(jié)果來確定組合結(jié)果。
14.根據(jù)權(quán)利要求13所述的方法,還包括:
執(zhí)行基于所述組合結(jié)果的動作。
15.根據(jù)權(quán)利要求13所述的方法,其中所述組合結(jié)果是通過利用所述第一識別結(jié)果和所述第二識別結(jié)果執(zhí)行自動語音識別系統(tǒng)組合來確定的。
16.根據(jù)權(quán)利要求15所述的方法,其中執(zhí)行自動語音識別系統(tǒng)組合包括實施以下中的至少一者:識別輸出表決錯誤減少、交叉適應、混淆網(wǎng)絡(luò)組合和網(wǎng)格組合。
17.根據(jù)權(quán)利要求1所述的方法,還包括:
執(zhí)行基于所述第二識別結(jié)果的動作。
18.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包含用于執(zhí)行根據(jù)權(quán)利要求1至17中任一項所述的方法的計算機可執(zhí)行指令。
19.一種系統(tǒng),所述系統(tǒng)包括:
根據(jù)權(quán)利要求18所述的計算機可讀存儲介質(zhì);和
能夠執(zhí)行所述計算機可執(zhí)行指令的處理器。
20.一種電子設(shè)備,所述電子設(shè)備包括:
用于從用戶接收第一語音輸入的裝置;
用于利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果的裝置;
用于從所述用戶接收指示第一文本中的潛在錯誤的輸入的裝置,其中所述輸入包括第二語音輸入;和
用于利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果的裝置。
21.一種用于在數(shù)字助理中處理語音的方法,所述方法包括:
在具有處理器和存儲用于由所述處理器執(zhí)行的一個或多個程序的存儲器的電子設(shè)備處:
從用戶接收第一語音輸入;
利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果;
從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入;
提示所述用戶重復所述第一語音輸入的至少一部分;
從所述用戶接收第二語音輸入;以及
利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果。
22.根據(jù)權(quán)利要求21所述的方法,其中所述輸入為包括預先確定的話語的語音輸入。
23.根據(jù)權(quán)利要求21所述的方法,其中所述輸入為所述電子設(shè)備的預先確定的運動。
24.根據(jù)權(quán)利要求21所述的方法,其中所述輸入為示能表示的選擇。
25.根據(jù)權(quán)利要求21所述的方法,其中所述第一識別結(jié)果的文本的至少一部分顯示在所述電子設(shè)備上,并且其中所述輸入是所顯示的文本的至少一部分的選擇。
26.根據(jù)權(quán)利要求21所述的方法,其中所述輸入與提議的任務的拒絕相關(guān)聯(lián)。
27.根據(jù)權(quán)利要求21所述的方法,還包括:
識別所述第一語音輸入的與所述第一識別結(jié)果中的所述潛在錯誤對應的部分。
28.根據(jù)權(quán)利要求27所述的方法,其中利用所述第一自動語音識別系統(tǒng)來處理所述第一語音輸入包括確定所述第一識別結(jié)果的文本中的每個字詞的置信度量度,并且其中所述第一語音輸入的與所述潛在錯誤相關(guān)聯(lián)的所述部分是基于所述文本中每個字詞的所述置信度量度來識別的。
29.根據(jù)權(quán)利要求27所述的方法,其中提示所述用戶重復所述第一語音輸入的與所述潛在錯誤對應的所識別的部分。
30.根據(jù)權(quán)利要求21所述的方法,還包括:
執(zhí)行與所述第一語音輸入相關(guān)聯(lián)的動作。
31.根據(jù)權(quán)利要求30所述的方法,其中所述動作包括在所述電子設(shè)備上顯示所述第一識別結(jié)果的文本的至少一部分。
32.根據(jù)權(quán)利要求30所述的方法,其中所述第一語音輸入包含用戶請求,并且其中所述動作包括執(zhí)行用于滿足所述用戶請求的任務。
33.根據(jù)權(quán)利要求21所述的方法,其中所述第一自動語音識別系統(tǒng)和所述第二自動語音識別系統(tǒng)是相同的自動語音識別系統(tǒng)。
34.根據(jù)權(quán)利要求21所述的方法,其中所述第一自動語音識別系統(tǒng)和所述第二自動語音識別系統(tǒng)是不同的自動語音識別系統(tǒng)。
35.根據(jù)權(quán)利要求34所述的方法,其中所述第一自動語音識別系統(tǒng)包括一個或多個語音識別模型,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述一個或多個語音識別模型不同的一個或多個語音識別模型。
36.根據(jù)權(quán)利要求34所述的方法,其中所述第一自動語音識別系統(tǒng)包括語音識別引擎,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述語音識別引擎不同的語音識別引擎。
37.根據(jù)權(quán)利要求21所述的方法,還包括:
基于所述第一識別結(jié)果和所述第二識別結(jié)果來確定組合結(jié)果。
38.根據(jù)權(quán)利要求37所述的方法,還包括:
執(zhí)行基于所述組合結(jié)果的動作。
39.根據(jù)權(quán)利要求37所述的方法,其中所述組合結(jié)果是通過利用所述第一識別結(jié)果和所述第二識別結(jié)果執(zhí)行自動語音識別系統(tǒng)組合來確定的。
40.根據(jù)權(quán)利要求39所述的方法,其中執(zhí)行自動語音識別系統(tǒng)組合包括實施以下中的至少一者:識別輸出表決錯誤減少、交叉適應、混淆網(wǎng)絡(luò)組合和網(wǎng)格組合。
41.根據(jù)權(quán)利要求21所述的方法,還包括:
執(zhí)行基于所述第二識別結(jié)果的動作。
42.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包含用于執(zhí)行根據(jù)權(quán)利要求21至41中任一項所述的方法的計算機可執(zhí)行指令。
43.一種系統(tǒng),所述系統(tǒng)包括:
根據(jù)權(quán)利要求42所述的計算機可讀存儲介質(zhì);和
能夠執(zhí)行所述計算機可執(zhí)行指令的處理器。
44.一種電子設(shè)備,所述電子設(shè)備包括:
用于從用戶接收第一語音輸入的裝置;
用于利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果的裝置;
用于從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入的裝置;
用于提示所述用戶重復所述第一語音輸入的至少一部分的裝置;
用于從所述用戶接收第二語音輸入的裝置;和
用于利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果的裝置。
45.一種用于在數(shù)字助理中處理語音的方法,所述方法包括:
在具有處理器和存儲用于由所述處理器執(zhí)行的一個或多個程序的存儲器的電子設(shè)備處:
從用戶接收語音輸入;
利用第一自動語音識別系統(tǒng)來處理所述語音輸入以生成第一識別結(jié)果;
從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入;和
利用第二自動語音識別系統(tǒng)來處理所述語音輸入的至少一部分以生成第二識別結(jié)果。
46.根據(jù)權(quán)利要求45所述的方法,其中所述第二自動語音識別系統(tǒng)的錯誤率比所述第一自動語音識別系統(tǒng)的錯誤率低。
47.根據(jù)權(quán)利要求45所述的方法,其中所述第二自動語音識別系統(tǒng)的延遲比所述第一自動語音識別系統(tǒng)的延遲大。
48.根據(jù)權(quán)利要求45所述的方法,其中所述第一自動語音識別系統(tǒng)包括一個或多個語音識別模型,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述一個或多個語音識別模型不同的一個或多個語音識別模型。
49.根據(jù)權(quán)利要求45所述的方法,其中所述第一自動語音識別系統(tǒng)包括語音識別引擎,并且所述第二自動語音識別系統(tǒng)包括與所述第一自動語音識別系統(tǒng)的所述語音識別引擎不同的語音識別引擎。
50.根據(jù)權(quán)利要求45所述的方法,其中所述輸入為包含預先確定的話語的語音輸入。
51.根據(jù)權(quán)利要求45所述的方法,其中所述輸入為示能表示的選擇。
52.根據(jù)權(quán)利要求45所述的方法,其中所述輸入與所提議的任務的拒絕相關(guān)聯(lián)。
53.根據(jù)權(quán)利要求45所述的方法,還包括:
識別所述語音輸入的與所述第一識別結(jié)果中的所述潛在錯誤對應的部分。
54.根據(jù)權(quán)利要求53所述的方法,其中利用第二自動語音識別系統(tǒng)來處理所述語音輸入的與所述潛在錯誤對應的所識別的部分以生成第二識別結(jié)果。
55.根據(jù)權(quán)利要求45所述的方法,還包括:
基于所述第一識別結(jié)果和所述第二識別結(jié)果來確定組合結(jié)果。
56.根據(jù)權(quán)利要求55所述的方法,還包括:
執(zhí)行基于所述組合結(jié)果的動作。
57.根據(jù)權(quán)利要求55所述的方法,其中所述組合結(jié)果是通過利用所述第一識別結(jié)果和所述第二識別結(jié)果執(zhí)行自動語音識別系統(tǒng)組合來確定的。
58.根據(jù)權(quán)利要求57所述的方法,其中執(zhí)行系統(tǒng)組合包括實施以下中的至少一者:識別輸出表決錯誤減少、交叉適應、混淆網(wǎng)絡(luò)組合和網(wǎng)格組合。
59.根據(jù)權(quán)利要求45所述的方法,還包括:
執(zhí)行基于所述第一識別結(jié)果的動作。
60.根據(jù)權(quán)利要求45所述的方法,還包括:
執(zhí)行基于所述第二識別結(jié)果的動作。
61.一種計算機可讀存儲介質(zhì),所述計算機可讀存儲介質(zhì)包含用于執(zhí)行根據(jù)權(quán)利要求45至60中任一項所述的方法的計算機可執(zhí)行指令。
62.一種系統(tǒng),所述系統(tǒng)包括:
根據(jù)權(quán)利要求61所述的計算機可讀存儲介質(zhì);和
能夠執(zhí)行所述計算機可執(zhí)行指令的處理器。
63.一種電子設(shè)備,所述電子設(shè)備包括:
用于從用戶接收語音輸入的裝置;
用于利用第一自動語音識別系統(tǒng)來處理所述語音輸入以生成第一識別結(jié)果的裝置;
用于從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入的裝置;和
用于利用第二自動語音識別系統(tǒng)來處理所述語音輸入的至少一部分以生成第二識別結(jié)果的裝置。
64.一種用于在數(shù)字助理中處理語音的方法,所述方法包括:
在具有處理器和存儲用于由所述處理器執(zhí)行的一個或多個程序的存儲器的電子設(shè)備處:
從用戶接收第一語音輸入;
利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果;
從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入;
確定所述輸入是否包括重復所述第一語音輸入的至少一部分的第二語音輸入;
響應于確定所述輸入包括重復所述第一語音輸入的至少一部分的第二語音輸入:
利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果;以及
響應于確定所述輸入不包括重復所述第一語音輸入的至少一部分的第二語音輸入:
提示所述用戶重復所述第一語音輸入的至少一部分;
從所述用戶接收第三語音輸入;以及
利用所述第二自動語音識別系統(tǒng)來處理所述第三語音輸入以生成第三識別結(jié)果。
65.一種電子設(shè)備,所述電子設(shè)備包括:
用于從用戶接收第一語音輸入的裝置;
用于利用第一自動語音識別系統(tǒng)來處理所述第一語音輸入以生成第一識別結(jié)果的裝置;
用于從所述用戶接收指示所述第一識別結(jié)果中的潛在錯誤的輸入的裝置;
用于確定所述輸入是否包括重復所述第一語音輸入的至少一部分的第二語音輸入的裝置;
用于響應于確定所述輸入包括重復所述第一語音輸入的至少一部分的第二語音輸入而利用第二自動語音識別系統(tǒng)來處理所述第二語音輸入以生成第二識別結(jié)果的裝置;和
用于響應于確定所述輸入不包括重復所述第一語音輸入的至少一部分的第二語音輸入而進行以下動作的裝置:
提示所述用戶重復所述第一語音輸入的至少一部分;
從所述用戶接收第三語音輸入;以及
利用所述第二自動語音識別系統(tǒng)來處理所述第三語音輸入以生成第三識別結(jié)果。