背景技術(shù):
1、包括移動電話、個人計算機(jī)和平板計算機(jī)在內(nèi)的許多現(xiàn)代計算裝置包括裝置上輸入識別能力。這些裝置可捕獲和識別文本或語音輸入,并且向一個或多個下游應(yīng)用提供所識別的文本或語音。
2、移動電話應(yīng)用的可用計算資源的量有限。因此,使得用戶能夠在利用低計算資源的同時訪問有效的輸入識別工具是重大的技術(shù)改進(jìn)。
技術(shù)實(shí)現(xiàn)思路
1、當(dāng)輸入包括未被識別為常見術(shù)語的術(shù)語時,對用戶輸入的裝置上識別的準(zhǔn)確度可能具有挑戰(zhàn)性。例如,當(dāng)輸入是語音形式時,一個或多個短語的發(fā)音方式可能在很大程度上取決于說話者。在一些情況下,短語的語音變化、或術(shù)語的拼寫錯誤、語法偏好等可能是用戶的個人習(xí)慣(例如,由用戶輸入的姓名、位置、專有名詞)。在其他情況下,某些術(shù)語的使用可能帶來隱私方面的挑戰(zhàn),在生成用戶特定模型時尤為如此。例如,諸如“hernia”(疝氣)或“hemangioma”(血管瘤)的醫(yī)學(xué)術(shù)語可能難以使用聚合語音識別模型在語音中識別,并且此類醫(yī)學(xué)術(shù)語也可被認(rèn)為是高度個性化的內(nèi)容。
2、改進(jìn)輸入識別的一些現(xiàn)有技術(shù)涉及用戶反饋。例如,可提示用戶提供這些術(shù)語作為搜索術(shù)語,并且可基于這種用戶反饋來執(zhí)行個性化。然而,這種個性化并不能在語音被識別時實(shí)時地實(shí)現(xiàn)。其他技術(shù)可依賴于用戶生成的字詞或短語的重寫來識別正確轉(zhuǎn)錄的術(shù)語。然而,對于不常出現(xiàn)的術(shù)語和/或特定領(lǐng)域?qū)S玫男g(shù)語,這種用戶生成的重寫可能不夠充分。另外,例如,用戶可能用不同的口音、方言等說出術(shù)語,并且可能難以區(qū)分特定術(shù)語的不同語音表達(dá)。因此,需要一種裝置上輸入識別工具,該裝置上輸入識別工具包括用于在裝置處執(zhí)行輸入識別時進(jìn)行自動輸入識別的上下文感知校正模塊。
3、在一個方面,提供了一種計算機(jī)實(shí)現(xiàn)的方法。該方法包括由在計算裝置上運(yùn)行的裝置上系統(tǒng)接收用戶在與計算裝置交互期間的輸入。該方法進(jìn)一步包括從輸入識別模型接收該輸入的轉(zhuǎn)錄。該方法另外包括由裝置上系統(tǒng)標(biāo)識用于在輸入的轉(zhuǎn)錄中替換的候選術(shù)語,其中該候選術(shù)語可能已經(jīng)被錯誤轉(zhuǎn)錄。該方法還包括由裝置上系統(tǒng)并且基于候選術(shù)語來訪問多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,其中非常見術(shù)語可能被錯誤轉(zhuǎn)錄,并且其中錯誤轉(zhuǎn)錄的術(shù)語是非常見術(shù)語的不正確版本,這些錯誤轉(zhuǎn)錄的術(shù)語已經(jīng)由機(jī)器學(xué)習(xí)模型生成。該方法進(jìn)一步包括由裝置上系統(tǒng)并且基于多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,在輸入的轉(zhuǎn)錄中用非常見術(shù)語替換候選術(shù)語。
4、在另一方面,提供了一種計算裝置。該計算裝置包括一個或多個處理器和數(shù)據(jù)存儲裝置。該數(shù)據(jù)存儲裝置上存儲有計算機(jī)可執(zhí)行指令,這些計算機(jī)可執(zhí)行指令在由一個或多個處理器執(zhí)行時致使計算裝置執(zhí)行功能。這些功能包括由在計算裝置上運(yùn)行的裝置上系統(tǒng)接收用戶在與計算裝置交互期間的輸入。這些功能進(jìn)一步包括從輸入識別模型接收輸入的轉(zhuǎn)錄。這些功能另外包括由裝置上系統(tǒng)標(biāo)識用于在輸入的轉(zhuǎn)錄中替換的候選術(shù)語,其中該候選術(shù)語可能已經(jīng)被錯誤轉(zhuǎn)錄。這些功能還包括由裝置上系統(tǒng)并且基于候選術(shù)語來訪問多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,其中非常見術(shù)語可能被錯誤轉(zhuǎn)錄,并且其中錯誤轉(zhuǎn)錄的術(shù)語是非常見術(shù)語的不正確版本,這些錯誤轉(zhuǎn)錄的術(shù)語已經(jīng)由機(jī)器學(xué)習(xí)模型生成。這些功能進(jìn)一步包括由裝置上系統(tǒng)并且基于多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,在輸入的轉(zhuǎn)錄中用非常見術(shù)語替換候選術(shù)語。
5、在另一方面,提供了一種制品。該制品包括一個或多個計算機(jī)可讀介質(zhì),該一個或多個計算機(jī)可讀介質(zhì)上存儲有計算機(jī)可讀指令,這些計算機(jī)可讀指令在由計算裝置的一個或多個處理器執(zhí)行時致使計算裝置執(zhí)行功能。這些功能包括由在計算裝置上運(yùn)行的裝置上系統(tǒng)接收用戶在與計算裝置交互期間的輸入。這些功能進(jìn)一步包括從輸入識別模型接收輸入的轉(zhuǎn)錄。這些功能另外包括由裝置上系統(tǒng)標(biāo)識用于在輸入的轉(zhuǎn)錄中替換的候選術(shù)語,其中該候選術(shù)語可能已經(jīng)被錯誤轉(zhuǎn)錄。這些功能還包括由裝置上系統(tǒng)并且基于候選術(shù)語來訪問多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,其中非常見術(shù)語可能被錯誤轉(zhuǎn)錄,并且其中錯誤轉(zhuǎn)錄的術(shù)語是非常見術(shù)語的不正確版本,這些錯誤轉(zhuǎn)錄的術(shù)語已經(jīng)由機(jī)器學(xué)習(xí)模型生成。這些功能進(jìn)一步包括由裝置上系統(tǒng)并且基于多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,在輸入的轉(zhuǎn)錄中用非常見術(shù)語替換候選術(shù)語。
6、在另一方面,提供了一種系統(tǒng)。該系統(tǒng)包括:用于由在計算裝置上運(yùn)行的裝置上系統(tǒng)接收用戶在與計算裝置交互期間的輸入的裝置;用于從輸入識別模型接收輸入的轉(zhuǎn)錄的裝置;用于由裝置上系統(tǒng)標(biāo)識用于在輸入的轉(zhuǎn)錄中替換的候選術(shù)語的裝置,其中該候選術(shù)語可能已經(jīng)被錯誤轉(zhuǎn)錄;用于由裝置上系統(tǒng)并且基于候選術(shù)語來訪問多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語的裝置,其中非常見術(shù)語可能被錯誤轉(zhuǎn)錄,并且其中錯誤轉(zhuǎn)錄的術(shù)語是非常見術(shù)語的不正確版本,這些錯誤轉(zhuǎn)錄的術(shù)語已經(jīng)由機(jī)器學(xué)習(xí)模型生成;以及用于由裝置上系統(tǒng)并且基于多個對的錯誤轉(zhuǎn)錄的術(shù)語和非常見術(shù)語,在輸入的轉(zhuǎn)錄中用非常見術(shù)語替換候選術(shù)語的裝置。
7、前述
技術(shù)實(shí)現(xiàn)要素:
僅是說明性的,并且無意以任何方式進(jìn)行限制。除上文所述的說明性方面、實(shí)施例和特征之外,通過參考示圖以及以下詳細(xì)描述和附圖將明白另外的方面、實(shí)施例和特征。
1.一種計算機(jī)實(shí)現(xiàn)的方法,包括:
2.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,其中替換所述候選術(shù)語進(jìn)一步包括:
3.如權(quán)利要求2所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
4.如權(quán)利要求2所述的計算機(jī)實(shí)現(xiàn)的方法,其中替換所述候選術(shù)語進(jìn)一步包括:
5.如權(quán)利要求4所述的計算機(jī)實(shí)現(xiàn)的方法,其中替換所述候選術(shù)語進(jìn)一步包括:
6.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
7.如權(quán)利要求6所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
8.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
9.如權(quán)利要求8所述的計算機(jī)實(shí)現(xiàn)的方法,其中訓(xùn)練所述機(jī)器學(xué)習(xí)模型進(jìn)一步包括:
10.如權(quán)利要求8所述的計算機(jī)實(shí)現(xiàn)的方法,其中訓(xùn)練所述機(jī)器學(xué)習(xí)模型進(jìn)一步包括:
11.如權(quán)利要求10所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述一個或多個錯誤的所述綜合模擬基于利用噪聲通道模擬器的文本到語音模型。
12.如權(quán)利要求10所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述一個或多個錯誤的所述綜合模擬基于字素到音素的轉(zhuǎn)換模型,所述字素到音素的轉(zhuǎn)換模型被配置為基于字詞的文本版本生成所述字詞的發(fā)音。
13.如權(quán)利要求10所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述一個或多個錯誤的所述綜合模擬基于統(tǒng)計音素模型。
14.如權(quán)利要求8所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
15.如權(quán)利要求14所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述經(jīng)訓(xùn)練的機(jī)器學(xué)習(xí)模型的所述調(diào)整包括基于與所述應(yīng)用程序相關(guān)聯(lián)的一個或多個錯誤生成所述多個對中的所述錯誤轉(zhuǎn)錄的術(shù)語。
16.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括:
17.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,進(jìn)一步包括綜合模擬所述多個對中的所述非常見術(shù)語。
18.如權(quán)利要求1所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述多個對中的所述非常見術(shù)語是由所述裝置上系統(tǒng)在所述用戶與所述計算裝置的一個或多個過去交互中觀察到的。
19.如權(quán)利要求18所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述用戶與所述計算裝置的所述一個或多個過去交互包括與所述計算裝置的應(yīng)用程序的交互。
20.如權(quán)利要求18所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述用戶與所述計算裝置的所述一個或多個過去交互包括話音交互,并且其中所述多個對中的所述非常見術(shù)語基于對基于所述話音交互的轉(zhuǎn)錄的術(shù)語的用戶確認(rèn)。
21.如權(quán)利要求18所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述用戶與所述計算裝置的所述一個或多個過去交互包括與文本編輯器的交互,并且其中所述多個對中的所述非常見術(shù)語基于對所述文本編輯器中的文本術(shù)語的用戶確認(rèn)。
22.如權(quán)利要求18所述的計算機(jī)實(shí)現(xiàn)的方法,其中所述計算裝置包括查看器界面,并且其中所述用戶與所述計算裝置的所述一個或多個過去交互包括由所述查看器界面提供的文本內(nèi)容,并且其中所述多個對中的所述非常見術(shù)語出現(xiàn)在所述文本內(nèi)容中。
23.一種計算裝置,包括:
24.一種制品,包括:一個或多個計算機(jī)可讀介質(zhì),所述一個或多個計算機(jī)可讀介質(zhì)上存儲有計算機(jī)可讀指令,所述計算機(jī)可讀指令在由計算裝置的一個或多個處理器執(zhí)行時使所述計算裝置執(zhí)行功能,所述功能包括: