亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用外部數(shù)據(jù)源重新識(shí)別語(yǔ)音的制作方法

文檔序號(hào):11546301閱讀:398來源:國(guó)知局
利用外部數(shù)據(jù)源重新識(shí)別語(yǔ)音的制造方法與工藝

本說明書涉及到自動(dòng)語(yǔ)音識(shí)別。



背景技術(shù):

語(yǔ)音識(shí)別是指使用自動(dòng)語(yǔ)音識(shí)別器(asr)將所講出的詞轉(zhuǎn)錄為文本。在傳統(tǒng)的asr系統(tǒng)中,所接收的音頻被轉(zhuǎn)換為計(jì)算機(jī)可讀的聲音,其隨后可以與關(guān)聯(lián)于給定語(yǔ)言的詞詞典進(jìn)行比較。



技術(shù)實(shí)現(xiàn)要素:

總體上,該說明書中所描述主題的一個(gè)創(chuàng)新方面能夠以使用外部數(shù)據(jù)源改善語(yǔ)音識(shí)別的方法來體現(xiàn)。例如,一種自動(dòng)語(yǔ)音識(shí)別器可以接收對(duì)講話進(jìn)行編碼的音頻數(shù)據(jù)并且使用第一語(yǔ)言模型提供該講話的初始候選轉(zhuǎn)錄。該系統(tǒng)隨后可以對(duì)該初始候選轉(zhuǎn)錄應(yīng)用不同的第二語(yǔ)言模型以生成可替換候選轉(zhuǎn)錄,其(i)發(fā)音類似于初始候選轉(zhuǎn)錄,并且(ii)可能以給定語(yǔ)言所顯現(xiàn)。該系統(tǒng)隨后可以基于(i)該音頻數(shù)據(jù)和候選轉(zhuǎn)錄之間的發(fā)音相似性以及(ii)該候選轉(zhuǎn)錄以給定語(yǔ)言出現(xiàn)的可能性而從候選轉(zhuǎn)錄中選擇一個(gè)轉(zhuǎn)錄。

實(shí)施方式可以包括以下一個(gè)或多個(gè)特征。例如,在一些實(shí)施方式中,一種方法包括使用自動(dòng)語(yǔ)音識(shí)別器獲得講話的初始候選轉(zhuǎn)錄,基于該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型識(shí)別與出現(xiàn)在該初始候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞語(yǔ)發(fā)音相似的一個(gè)或多個(gè)詞語(yǔ),基于所識(shí)別的一個(gè)或多個(gè)詞語(yǔ)生成一個(gè)或多個(gè)附加的候選轉(zhuǎn)錄,并且從該候選轉(zhuǎn)錄中選擇一個(gè)轉(zhuǎn)錄。

其它多種版本包括相對(duì)應(yīng)的被配置為執(zhí)行在計(jì)算機(jī)存儲(chǔ)設(shè)備上所編碼的方法的動(dòng)作的系統(tǒng)、計(jì)算機(jī)程序,以及被配置為使得計(jì)算裝置執(zhí)行該方法的動(dòng)作的計(jì)算機(jī)程序。

一個(gè)或多個(gè)實(shí)施方式可以包括以下可選特征。例如,在一些實(shí)施方式中,該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型包括未處于該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)所使用的語(yǔ)言模型中的一個(gè)或多個(gè)詞語(yǔ)。在一些方面,該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型以及該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)所使用的語(yǔ)言模型都包括一個(gè)或多個(gè)詞語(yǔ)的序列,但是將該序列指示為具有不同的出現(xiàn)可能性。

在某些方面,該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型指示詞或詞序列出現(xiàn)的可能性。在一些實(shí)施方式中,動(dòng)作包括針對(duì)每種候選轉(zhuǎn)錄確定反映該候選轉(zhuǎn)錄預(yù)期被說出的頻繁程度的可能性分值,并且針對(duì)每個(gè)候選轉(zhuǎn)錄確定反映該候選轉(zhuǎn)錄與講話之間的發(fā)音相似度的聲音匹配分值,其中從候選轉(zhuǎn)錄中選擇該轉(zhuǎn)錄是基于該聲音匹配分值和可能性分值。在一些方面,確定反映該候選轉(zhuǎn)錄與講話之間的發(fā)音相似度的聲音匹配分值包括:從自動(dòng)語(yǔ)音識(shí)別器獲得子詞聲音匹配分值,識(shí)別與候選轉(zhuǎn)錄相對(duì)應(yīng)的子詞聲音匹配分值的子集,并且基于與候選轉(zhuǎn)錄相對(duì)應(yīng)的子詞聲音匹配分值的子集而生成該聲音匹配分值。

在某些方面,確定反映該候選轉(zhuǎn)錄預(yù)期被說出的頻繁程度的可能性分值包括基于該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型確定該可能性分值。在一些實(shí)施方式中,基于所識(shí)別的一個(gè)或多個(gè)詞語(yǔ)生成一個(gè)或多個(gè)附加候選轉(zhuǎn)錄包括利用出現(xiàn)在初始候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞語(yǔ)替代所識(shí)別的與出現(xiàn)在該初始候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞語(yǔ)發(fā)音相似的一個(gè)或多個(gè)詞語(yǔ)。

技術(shù)優(yōu)勢(shì)可以包括使得來自外部數(shù)據(jù)源的數(shù)據(jù)能夠在生成更為準(zhǔn)確的轉(zhuǎn)錄時(shí)得以被使用而并不修改現(xiàn)有的自動(dòng)語(yǔ)音識(shí)別器。例如,將自動(dòng)語(yǔ)音識(shí)別器的輸出應(yīng)用于經(jīng)更新的語(yǔ)言模型可以避免為了使用經(jīng)更新的語(yǔ)言模型而進(jìn)行計(jì)算上昂貴的自動(dòng)語(yǔ)音識(shí)別器的重新編譯。其它優(yōu)勢(shì)可以在于,系統(tǒng)可以識(shí)別出用來生成初始轉(zhuǎn)錄的自動(dòng)語(yǔ)音識(shí)別器所能夠識(shí)別的詞語(yǔ)以外的附加詞語(yǔ)。再一個(gè)優(yōu)勢(shì)可以在于,通??赡懿贿m用于實(shí)時(shí)語(yǔ)音識(shí)別解碼器的不同語(yǔ)言模型架構(gòu)可以被整合。例如,包括用戶經(jīng)常聽的每首歌的列表的文本文件可能難以有效地被實(shí)時(shí)整合到語(yǔ)音識(shí)別器中。然而,在該系統(tǒng)中,在語(yǔ)音識(shí)別器輸出初始候選轉(zhuǎn)錄之后,來自該文本文件的信息能夠被整合從而確定最終轉(zhuǎn)錄。

確定詞語(yǔ)發(fā)音是否相似能夠涉及到確定相似度的量度并且將該量度與閾值進(jìn)行比較,或者確定該相似度的量度是否大于與其它詞語(yǔ)配對(duì)相關(guān)的相似度的量度。

一個(gè)或多個(gè)實(shí)施方式的細(xì)節(jié)在附圖和以下描述中給出。其它可能的特征和優(yōu)勢(shì)將從描述、附圖和權(quán)利要求而變得顯而易見。

這些方面的其它實(shí)施方式包括被配置為執(zhí)行該方法的動(dòng)作的系統(tǒng)、裝置以及在計(jì)算機(jī)存儲(chǔ)設(shè)備上編碼的計(jì)算機(jī)程序。

附圖說明

圖1圖示了可以被用來使用外部數(shù)據(jù)源改進(jìn)語(yǔ)音識(shí)別的示例性系統(tǒng)。

圖2圖示了使用外部數(shù)據(jù)源改進(jìn)語(yǔ)音識(shí)別的示例性過程。

圖3是這里所描述的過程或者過程的多個(gè)部分可以在其上實(shí)施的計(jì)算設(shè)備的框圖。

在圖中,同樣的附圖標(biāo)記始終表示相對(duì)應(yīng)的部分。

具體實(shí)施方式

圖1圖示了可以被用來使用外部數(shù)據(jù)源改進(jìn)語(yǔ)音識(shí)別的示例性系統(tǒng)100。簡(jiǎn)言之,系統(tǒng)100可以包括自動(dòng)語(yǔ)音識(shí)別器(asr)110,后者包括聲音模型112和語(yǔ)言模型114、第二語(yǔ)言模型120、發(fā)音擴(kuò)展器130和重新評(píng)分器140。

更為詳細(xì)地,asr110可以接收對(duì)講話進(jìn)行編碼的聲音數(shù)據(jù)。例如,asr110可以接收對(duì)應(yīng)于講話“cityzenreservation”的聲音數(shù)據(jù)。該聲音數(shù)據(jù)例如可以包括原始波形數(shù)據(jù)、mel似然倒譜系數(shù),或者音頻的任意其它聲音或發(fā)音表示形式。

asr110的聲音模型112可以接收聲音數(shù)據(jù)并且針對(duì)對(duì)應(yīng)于該聲音數(shù)據(jù)的詞或子詞—例如,音位—生成聲音分值。該聲音分值可以反映出詞或子詞與聲音數(shù)據(jù)之間的發(fā)音相似度。例如,聲音模型可以接收“cityzenreservation”的聲音數(shù)據(jù)并且生成聲音分值“se-0.9/0/0/…,…ee-0/0/0.9/…i-0/0.7/0/…”。該示例聲音分值可以指示音位“se”針對(duì)講話中的第一子詞具有90%的聲音匹配,針對(duì)講話中的第二子詞具有0%的聲音匹配,并且針對(duì)講話中的第三子詞具有0%的聲音匹配;對(duì)于音位“ee”而言,針對(duì)講話中的第一子詞具有0%的聲音匹配,針對(duì)講話中的第二子詞具有0%的聲音匹配,并且針對(duì)講話中的第三子詞具有90%的聲音匹配;并且對(duì)于音位“i”而言,針對(duì)講話中的第一子詞具有0%的聲音匹配,針對(duì)講話中的第二子詞具有0%的聲音匹配,并且針對(duì)講話中的第三子詞具有70%的聲音匹配。在以上示例中,聲音模型112可以針對(duì)講話中的子詞的音位和位置的每種組合輸出聲音分值。

聲音模型112可以基于將聲音數(shù)據(jù)所指示的波形與被指示為對(duì)應(yīng)于特定子詞的波形進(jìn)行比較而生成聲音分值。例如,聲音模型112可以接收“cityzenreservation”的講話并且識(shí)別出該聲音數(shù)據(jù)的開頭表示與針對(duì)音位“se”所存儲(chǔ)的波形具有90%匹配的波形,并且作為響應(yīng),針對(duì)該講話中的第一音位是音位“se”生成聲音分值0.9。

asr110的語(yǔ)言模型可以接收該聲音分值并且基于該聲音分值生成初始候選轉(zhuǎn)錄。例如,asr110的語(yǔ)言模型114接收聲音分值“se-0.9/0/0/…,…ee-0/0/0.9/…i-0/0.7/0/…”,并且作為響應(yīng)而生成初始候選轉(zhuǎn)錄“citizenreservation”。

語(yǔ)言模型114可以基于詞序列出現(xiàn)的可能性以及聲音分值而生成該初始候選轉(zhuǎn)錄。例如,語(yǔ)言模型114可以基于詞“cityzenreservation”出現(xiàn)的可能性為0%—例如,因?yàn)樵~“cityzen”并不包括在語(yǔ)言模型114中;詞“citizenreservation”出現(xiàn)的可能性為70%;針對(duì)“cityzenreservation”的指示講話的聲音聽上去更類似于“city”后跟“zen”而不是“citizen”的聲音分值而生成“citizenreservation”的候選轉(zhuǎn)錄。

在一些實(shí)施方式中,語(yǔ)言模型114可以將詞序列的可能性指示為可能性分值,并且在生成初始候選轉(zhuǎn)錄時(shí),語(yǔ)言模型114可以將聲音匹配分值與可能性分值進(jìn)行相乘。例如,針對(duì)音位“se-et-ee-ze”,語(yǔ)言模型114可以將聲音匹配分值0.9、0.9、0.9、0.7與“city”后跟“zen”的可能性分值0.0相乘從而產(chǎn)生分值0;而針對(duì)音位“se-et-i-ze”,語(yǔ)言模型114可以將聲音匹配分值0.9、0.9、0.7、0.9與“citizen”的可能性分值0.9相乘從而產(chǎn)生分值0.45,并且因此選擇詞“citizen”,原因在于其分值0.45高于“city”后跟“zen”的分值0。

asr110可以輸出語(yǔ)言模型114所生成的初始轉(zhuǎn)錄。例如,asr110可以響應(yīng)于接收到基于講話“cityzenreservation”的聲音數(shù)據(jù)的聲音分值而輸出聲音模型114所生成的初始轉(zhuǎn)錄“citizenreservation”。

第二語(yǔ)言模型120可以接收該初始轉(zhuǎn)錄并且生成附加候選轉(zhuǎn)錄。例如,第二語(yǔ)言模型120可以接收初始轉(zhuǎn)錄“citizenreservation”,并且作為響應(yīng)而生成附加轉(zhuǎn)錄“cityzenreservation”和“sootybinreservation”。

第二語(yǔ)言模型120可以基于識(shí)別發(fā)音與出現(xiàn)在初始候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞語(yǔ)相似的一個(gè)或多個(gè)詞語(yǔ)并且將該出現(xiàn)在該初始候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞語(yǔ)替換為所識(shí)別的發(fā)音相似的一個(gè)或多個(gè)詞語(yǔ)來生成該附加候選轉(zhuǎn)錄。例如,第二語(yǔ)言模型120可以接收初始候選轉(zhuǎn)錄“citizenreservation”,識(shí)別出都與詞語(yǔ)“citizen”發(fā)音相似的詞語(yǔ)“cityzen”和“sootybin”,并且作為響應(yīng),通過將“citizen”分別替換為“cityzen”和“sootybin”而生成附加轉(zhuǎn)錄“cityzenreservation”和“sootybinreservation”。

在一些實(shí)施方式中,第二語(yǔ)言模型120可以基于存儲(chǔ)詞的發(fā)音表示形式并且基于所存儲(chǔ)的發(fā)音表示識(shí)別發(fā)音相似的詞語(yǔ)來識(shí)別發(fā)音相似的詞語(yǔ)。例如,第二語(yǔ)言模型可以存儲(chǔ)指示“citizen”可以由音位“se-et-i-ze-en”所表示并且“city”和“zen”可以由音位“se-et-ee-ze-en”所表示的信息,接收初始轉(zhuǎn)錄中的詞語(yǔ)“citizen”,確定該詞語(yǔ)對(duì)應(yīng)于音位“se-et-i-ze-en”,確定音位“se-et-i-ze-en”類似于與“city”和“zen”相關(guān)聯(lián)的音位“se-et-ee-ze-en”,并且作為響應(yīng)而確定識(shí)別出詞語(yǔ)“citizen”在發(fā)音上類似于詞語(yǔ)“cityzen”。

在一些實(shí)施方式中,第二語(yǔ)言模型120可以基于音位的聲音表示形式而確定音位聽上去有多么相似。例如,第二語(yǔ)言模型120可以基于確定音位“ee”的聲音表示形式與音位“za”的聲音表示形式相比更相似于音位“i”的聲音表示形式,而確定與音位“ee”和音位“za”相比,音位“ee”和音位“i”彼此更為相似。在一些實(shí)施方式中,除此之外或可替換地,第二語(yǔ)言模型可以基于聽上去相似的詞的明確指示來識(shí)別發(fā)音相似的詞語(yǔ)。例如,第二語(yǔ)言模型120可以包括明確指示“floor”和“flour”聽上去發(fā)音相似的信息。

第二語(yǔ)言模型120可以基于詞序列出現(xiàn)在候選轉(zhuǎn)錄中的可能性而生成附加候選轉(zhuǎn)錄。例如,第二語(yǔ)言模型可以確定詞序列“cityzenreservation”具有高的出現(xiàn)可能性,并且作為響應(yīng)而確定輸出“cityzenreservation”作為附加候選。在另一個(gè)示例中,第二語(yǔ)言模型120可以確定詞序列“sootyzenreservation”具有低的出現(xiàn)可能性,并且作為響應(yīng)而確定不輸出“sootyzenreservation”作為附加候選。

在一些實(shí)施方式中,第二語(yǔ)言模型120可以基于與初始候選轉(zhuǎn)錄的發(fā)音相似度和候選轉(zhuǎn)錄出現(xiàn)的可能性二者的組合來生成候選轉(zhuǎn)錄。例如,第二語(yǔ)言模型120可以確定不輸出“sootyzenreservation”而輸出“sootybinreservation”,這是因?yàn)殡m然“sootyzenreservation”在發(fā)音上與“citizenreservation”更為相似,但是“sootyzenreservation”根據(jù)第二語(yǔ)言模型120具有非常低的出現(xiàn)可能性,而“sootybinreservation”雖然與“citizenreservation”的相似度稍低但是卻具有適度的出現(xiàn)可能性。

第二語(yǔ)言模型120可以隨候選轉(zhuǎn)錄一起輸出相關(guān)聯(lián)的可能性分值。例如,響應(yīng)于接收到“citizenreservation”,第二語(yǔ)言模型120可以輸出與適度可能性分值0.6相關(guān)聯(lián)的“citizenreservation”,輸出與高可能性分值0.9相關(guān)聯(lián)的“cityzenreservation”,并且輸出具有適度可能性分值0.4的“sootybinreservation”。該可能性分值可以反映出候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞的序列在給定語(yǔ)言中出現(xiàn)的可能性。

在一些實(shí)施方式中,第二語(yǔ)言模型120可以基于存儲(chǔ)一個(gè)或多個(gè)詞的序列的可能性分值,識(shí)別處于候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞的序列,并且基于被識(shí)別為處于候選轉(zhuǎn)錄中的一個(gè)或多個(gè)詞的序列的可能性分值為候選轉(zhuǎn)錄生成可能性分值而針對(duì)候選轉(zhuǎn)錄確定可能性分值。在一個(gè)示例中,第二語(yǔ)言模型120可以確定序列“sootybin”和“reservation”處于候選轉(zhuǎn)錄“sootybinreservation”中并且預(yù)先分別與可能性分值0.8和0.5相關(guān)聯(lián),并且通過將可能性分值0.8和0.5相乘得到0.4而生成候選轉(zhuǎn)錄“sootybinreservation”的可能性分值。在另一個(gè)示例中,第二語(yǔ)言模型120可以確定序列“cityzenreservation”預(yù)先與可能性分值0.9相關(guān)聯(lián)且與候選轉(zhuǎn)錄“cityzenreservation”完全匹配,并且作為響應(yīng)而確定候選轉(zhuǎn)錄“cityzenreservation”的可能性分值為0.9。

發(fā)音擴(kuò)展器130可以從第二語(yǔ)言模型120接收候選轉(zhuǎn)錄并且將該候選轉(zhuǎn)錄擴(kuò)展為子詞。例如,發(fā)音擴(kuò)展器130可以接收“citizenreservation”并且生成發(fā)音擴(kuò)展“se-et-i-ze…”,接收“cityzenreservation”并且生成發(fā)音擴(kuò)展“se-et-ee-ze…”,接收“sootybinreservation”并且生成發(fā)音擴(kuò)展“so-ot-ee-bi…”。在一些實(shí)施方式中,發(fā)音擴(kuò)展器130可以基于預(yù)先確定的擴(kuò)展規(guī)則而將候選轉(zhuǎn)錄擴(kuò)展為子詞。例如,規(guī)則可以定義“soo”被擴(kuò)展為音位“so”。在另一個(gè)示例中,規(guī)則可以定義詞“sooty”被擴(kuò)展為音位“so-ot-ee”。

重新評(píng)分器140可以從發(fā)音擴(kuò)展器接收每個(gè)候選轉(zhuǎn)錄的發(fā)音擴(kuò)展,從第二語(yǔ)言模型120接收每個(gè)候選轉(zhuǎn)錄的相關(guān)聯(lián)可能性分值,從聲音模型112接收聲音分值,基于該可能性分值與來自聲音模型112的聲音分值的組合為候選轉(zhuǎn)錄生成整體分值,并且基于該整體分值從候選轉(zhuǎn)錄中選擇一個(gè)轉(zhuǎn)錄。例如,重新評(píng)分器可以接收與適度可能性分值0.6和發(fā)音擴(kuò)展“se-et-i-ze…”相關(guān)聯(lián)的候選轉(zhuǎn)錄“citizenreservation”,與高可能性分值0.9和發(fā)音擴(kuò)展“se-et-ee-ze…”相關(guān)聯(lián)的候選轉(zhuǎn)錄“cityzenreservation”,以及與適度可能性分值0.4和發(fā)音擴(kuò)展“so-ot-ee-bi…”相關(guān)聯(lián)的候選轉(zhuǎn)錄“sootybinreservation”,接收到聲音分值se-0.9/0/0/…,…ee-0/0/0.9/…i-0/0/0.7/…”,生成“cityzenreservation”的整體分值0.8,“citizenreservation”的整體分值0.6,以及“sootybinreservation”的整體分值0.3,并且由于其具有最高的整體分值而選擇“cityzenreservation”。

在一些實(shí)施方式中,在重新評(píng)分器140中可以基于候選講話的可能性分值和聲音匹配分值的組合而生成整體分值。例如,重新評(píng)分器140可以基于將候選轉(zhuǎn)錄的可能性分值0.9與該候選轉(zhuǎn)錄的聲音匹配分值0.8相乘而生成該候選轉(zhuǎn)錄的整體分值0.7。

在一些實(shí)施方式中,重新評(píng)分器140可以基于來自聲音模型112的聲音分值以及來自發(fā)音擴(kuò)展器130的發(fā)音擴(kuò)展而生成候選講話的聲音匹配分值。特別地,重新評(píng)分器140可以接收包括多個(gè)子詞的發(fā)音擴(kuò)展,識(shí)別對(duì)應(yīng)于多個(gè)子詞中的每一個(gè)的聲音分值,并且基于候選講話的發(fā)音擴(kuò)展中所包括的多個(gè)子詞的聲音分值而生成每個(gè)候選講話的聲音匹配分值。例如,重新評(píng)分器140可以接收“cityzenreservation”的發(fā)音擴(kuò)展“se-et-ee-ze…”,識(shí)別針對(duì)每個(gè)音位“se-et-ee-ze…”從聲音模型112所接收的聲音分值,并且乘以所識(shí)別的聲音分值從而生成“cityzenreservation”的聲音匹配分值。

在一些實(shí)施方式中,重新評(píng)分器140可以不從聲音模型112接收所有的聲音分值。相反,重新評(píng)分器140可以從發(fā)音擴(kuò)展器130接收發(fā)音擴(kuò)展并且向聲音模型112提供僅針對(duì)對(duì)應(yīng)于從發(fā)音擴(kuò)展器130所接收的發(fā)音擴(kuò)展中的子詞的聲音分值的請(qǐng)求。例如,重新評(píng)分器140可以請(qǐng)求聲音模型112提供音位“se”、“et”、“i”、“ze”以及發(fā)音擴(kuò)展中所出現(xiàn)的其它音位的聲音分值,而不提供音位“ba”、“fu”、“ka”以及未在發(fā)音擴(kuò)展中出現(xiàn)的其它音位的聲音分值。

在一些實(shí)施方式中,重新評(píng)分器140在從候選轉(zhuǎn)錄中選擇一個(gè)轉(zhuǎn)錄時(shí)可以考慮其它因素。例如,重新評(píng)分器140可以識(shí)別用戶的當(dāng)前位置并且針對(duì)識(shí)別出與用戶的當(dāng)前位置具有更為緊密的關(guān)聯(lián)的候選轉(zhuǎn)錄而對(duì)選擇進(jìn)行加權(quán)。在另一個(gè)示例中,重新評(píng)分器140可以識(shí)別一天中的當(dāng)前時(shí)間并且針對(duì)識(shí)別出與一天中的時(shí)間具有更為緊密的關(guān)聯(lián)的候選轉(zhuǎn)錄而對(duì)選擇進(jìn)行加權(quán)。在又一個(gè)示例中,重新評(píng)分器140可以識(shí)別出提供講話的用戶的存在并且針對(duì)識(shí)別出與該用戶的存在具有更為緊密的關(guān)聯(lián)的候選轉(zhuǎn)錄而對(duì)選擇進(jìn)行加權(quán)。

可以使用系統(tǒng)100的不同配置形式,其中聲音模型112、語(yǔ)言模型114、自動(dòng)語(yǔ)音識(shí)別器110、第二語(yǔ)言模型120、發(fā)音擴(kuò)展器130和重新評(píng)分器140的功能可以進(jìn)行組合、進(jìn)一步劃分、分布或互換。系統(tǒng)100可以在單個(gè)設(shè)備中實(shí)施或者跨多個(gè)設(shè)備進(jìn)行分布。

圖2是基于外部數(shù)據(jù)源改進(jìn)語(yǔ)音識(shí)別的示例過程200的流程圖。以下將過程200描述為由參考圖1所描述的系統(tǒng)100的組件來實(shí)施。然而,過程200可以由其它系統(tǒng)或系統(tǒng)配置所實(shí)施。

過程200可以包括使用自動(dòng)語(yǔ)音識(shí)別器獲得講話的初始候選轉(zhuǎn)錄(210)。例如,自動(dòng)語(yǔ)音識(shí)別器210可以接收講話“zaytinyareservation”的聲音數(shù)據(jù)并且輸出初始候選轉(zhuǎn)錄“saytinyareservation”。

過程200可以包括基于該自動(dòng)語(yǔ)音識(shí)別器在生成該初始候選轉(zhuǎn)錄時(shí)未使用的語(yǔ)言模型識(shí)別與該初始候選轉(zhuǎn)錄發(fā)音相似的一個(gè)或多個(gè)附加詞語(yǔ)(220)。例如,第二語(yǔ)言模型120可以識(shí)別出類似于“saytinya”的詞語(yǔ)“zaytinya”和“saytenya”。

過程200可以包括基于一個(gè)或多個(gè)附加詞語(yǔ)而生成一個(gè)或多個(gè)附加候選轉(zhuǎn)錄(230)。例如,第二語(yǔ)言模型120可以基于將候選講話“saytinyareservation”中的“saytinya”替換為“zaytinya”和“saytenya”而生成附加候選轉(zhuǎn)錄“zaytinyareservation”和“saytenyareservation”。

過程200可以包括從候選轉(zhuǎn)錄中選擇一個(gè)轉(zhuǎn)錄(240)。例如,重新評(píng)分器140可以從候選轉(zhuǎn)錄“saytinyareservation”、“zaytinyareservation”和“saytenyareservation”中選擇出轉(zhuǎn)錄“zaytinyareservation”。該選擇可以基于每種候選轉(zhuǎn)錄的可能性分值和聲音匹配分值。例如,該選擇可以基于識(shí)別具有指示該候選講話出現(xiàn)在給定語(yǔ)言中的高度可能性的可能性分值以及指示該候選講話與聲音數(shù)據(jù)具有相近的聲音相似度的聲音匹配分值的候選轉(zhuǎn)錄。

圖3是可以被用來作為客戶端或單個(gè)或者多個(gè)服務(wù)器來實(shí)施本文所描述的系統(tǒng)和方法的計(jì)算設(shè)備300、350的框圖。計(jì)算設(shè)備300意在表示各種形式的數(shù)字計(jì)算機(jī),諸如膝上電腦、臺(tái)式電腦、工作站、個(gè)人數(shù)字助理、服務(wù)器、刀片服務(wù)器、大型電腦或其它合適計(jì)算機(jī)。計(jì)算設(shè)備350意在表示各種形式的移動(dòng)設(shè)備,諸如個(gè)人數(shù)字助理、蜂窩電話、智能電話和其它類似計(jì)算設(shè)備。此外,計(jì)算設(shè)備300或350可以包括通用串行總線(usb)閃存驅(qū)動(dòng)器。usb閃存驅(qū)動(dòng)器可以存儲(chǔ)操作系統(tǒng)和其它應(yīng)用。usb閃存驅(qū)動(dòng)器能夠包括輸入/輸出組件,諸如無線發(fā)射器或usb連接器,其能夠被插入另一個(gè)計(jì)算設(shè)備的usb端口之中。這里所示的組件、其連接和關(guān)系以及其功能僅意在是示例性的,而并不意味著對(duì)本文中所描述和/或要求保護(hù)的發(fā)明的實(shí)施方式進(jìn)行限制。

計(jì)算設(shè)備300包括處理器302、存儲(chǔ)器304、存儲(chǔ)設(shè)備306、連接到存儲(chǔ)器304和高速擴(kuò)展端口310的高速接口308,以及連接到低速總線314和存儲(chǔ)設(shè)備306的低速接口312。部件302、304、306、308、310和312中的每一個(gè)都使用各種總線進(jìn)行互連,并且可以安裝在共用主板上或者以其它適當(dāng)方式進(jìn)行安裝。處理器302能夠?qū)τ糜谠谟?jì)算設(shè)備300內(nèi)執(zhí)行的指令進(jìn)行處理,包括存儲(chǔ)在存儲(chǔ)器304中或存儲(chǔ)設(shè)備306上的指令,以顯示用于外部輸入/輸出設(shè)備上的gui的圖形信息,所述外部輸入/輸出設(shè)備諸如耦合到高速接口308的顯示器316。在其它實(shí)施方式中,如果合適,可以使用多個(gè)處理器和/或多個(gè)總線,連同多個(gè)存儲(chǔ)器以及多種類型的存儲(chǔ)器。而且,可以連接多個(gè)計(jì)算設(shè)備300,每個(gè)設(shè)備提供部分必需的操作,例如作為服務(wù)器組、刀片服務(wù)器群或者多處理器系統(tǒng)。

存儲(chǔ)器304存儲(chǔ)計(jì)算設(shè)備300內(nèi)的信息。在一個(gè)實(shí)施方式中,存儲(chǔ)器304是一個(gè)或多個(gè)易失性存儲(chǔ)單元。在另一實(shí)施方式中,存儲(chǔ)器304是一個(gè)或多個(gè)非易失性存儲(chǔ)單元。存儲(chǔ)器304還可以是另一形式的計(jì)算機(jī)可讀介質(zhì),諸如磁盤或光盤。

存儲(chǔ)設(shè)備306能夠?yàn)橛?jì)算設(shè)備300提供大型存儲(chǔ)。在一個(gè)實(shí)施方式中,存儲(chǔ)設(shè)備306可以是計(jì)算機(jī)可讀介質(zhì)或包含計(jì)算機(jī)可讀介質(zhì),諸如軟盤設(shè)備、硬盤設(shè)備、光盤設(shè)備或磁帶設(shè)備、閃存或其它類似的固態(tài)存儲(chǔ)設(shè)備,或者設(shè)備陣列,包括存儲(chǔ)域網(wǎng)絡(luò)或其它配置中的設(shè)備。計(jì)算機(jī)程序產(chǎn)品能夠有形地在信息載體中進(jìn)行體現(xiàn)。計(jì)算機(jī)程序產(chǎn)品還可以包括指令,該指令在被執(zhí)行時(shí)實(shí)施諸如以上所描述的那些的一種或多種方法。該信息載體是計(jì)算機(jī)或機(jī)器可讀介質(zhì),諸如存儲(chǔ)器304、存儲(chǔ)設(shè)備306或者處理器302上的存儲(chǔ)器。

高速控制器308對(duì)計(jì)算設(shè)備300的帶寬密集操作進(jìn)行管理,而低速控制器312對(duì)較低帶寬密集的操作進(jìn)行管理。這樣的功能分配僅是示例性的。在一個(gè)實(shí)施方式中,高速控制器308例如通過圖形處理器或加速器耦合到存儲(chǔ)器304、顯示器316,并且耦合到可以接受各種擴(kuò)展卡(未示出)的高速擴(kuò)展端口310。在所述實(shí)施方式中,低速控制器312耦合到存儲(chǔ)設(shè)備306和低速擴(kuò)展端口314??砂ɡ鐄sb、藍(lán)牙、以太網(wǎng)、無線以太網(wǎng)的各種通信端口的低速擴(kuò)展端口例如可通過網(wǎng)絡(luò)適配器耦合到一個(gè)或多個(gè)輸入/輸出設(shè)備,諸如鍵盤、指示設(shè)備、麥克風(fēng)/揚(yáng)聲器對(duì)、掃描儀或者諸如交換機(jī)或路由器之類的網(wǎng)絡(luò)設(shè)備。如圖所示,可以以多種不同形式來實(shí)施計(jì)算設(shè)備300。例如,其可以實(shí)施為標(biāo)準(zhǔn)服務(wù)器320,或者這種服務(wù)器的群組中的多倍服務(wù)器。其還可以實(shí)施為機(jī)架式服務(wù)器系統(tǒng)324的一部分。此外,其可以在諸如膝上計(jì)算機(jī)322的個(gè)人計(jì)算機(jī)中實(shí)施。可替換地,來自計(jì)算設(shè)備300的組件可以與諸如設(shè)備350的移動(dòng)設(shè)備(未示出)中的其它組件進(jìn)行組合。這些設(shè)備中的每一個(gè)可包含一個(gè)或多個(gè)計(jì)算設(shè)備300、350,并且整個(gè)系統(tǒng)可由彼此通信的多個(gè)計(jì)算設(shè)備300、350所構(gòu)成。

如圖所示,可以以多種不同形式來實(shí)施計(jì)算設(shè)備300。例如,其可以實(shí)施為標(biāo)準(zhǔn)服務(wù)器320,或者這種服務(wù)器的群組中的多倍服務(wù)器。其還可以實(shí)施為機(jī)架式服務(wù)器系統(tǒng)324的一部分。此外,其可以在諸如膝上計(jì)算機(jī)322的個(gè)人計(jì)算機(jī)中實(shí)施。可替換地,來自計(jì)算設(shè)備300的組件可以與諸如移動(dòng)計(jì)算設(shè)備350的移動(dòng)設(shè)備(未示出)中的其它組件進(jìn)行組合。這些設(shè)備中的每一個(gè)可包含一個(gè)或多個(gè)計(jì)算設(shè)備300、350,并且整個(gè)系統(tǒng)可由彼此通信的多個(gè)計(jì)算設(shè)備300、350所構(gòu)成。

除其它組件之外,設(shè)備350包括處理器352、存儲(chǔ)器364、諸如顯示器354之類的輸入/輸出設(shè)備、通信接口366和收發(fā)器368。設(shè)備350還可被提供以存儲(chǔ)設(shè)備,諸如微驅(qū)動(dòng)器或其它設(shè)備,以提供附加存儲(chǔ)。組件350、352、364、354、366和368中的每一個(gè)使用各種總線進(jìn)行互連,并且若干組件可安裝在共用主板上或者以其它適當(dāng)方式進(jìn)行安裝。

處理器352能夠執(zhí)行計(jì)算設(shè)備350內(nèi)的指令,包括存儲(chǔ)在存儲(chǔ)器364中的指令。處理器可實(shí)施為包括單獨(dú)的多個(gè)模擬和數(shù)字處理器的芯片的芯片組。另外,處理器可以使用多種架構(gòu)中的任何一種來實(shí)現(xiàn)。例如,處理器310可以是cisc(復(fù)雜指令集計(jì)算機(jī))處理器,risc(精簡(jiǎn)指令集計(jì)算機(jī))處理器或misc(最小指令集計(jì)算機(jī))處理器。例如,處理器352可以提供設(shè)備350的其它組件的協(xié)調(diào),諸如用戶接口的控制、移動(dòng)計(jì)算設(shè)備350所運(yùn)行的應(yīng)用程序以及移動(dòng)計(jì)算設(shè)備350所進(jìn)行的無線通信。

處理器352可以通過控制接口358和耦合到顯示器354的顯示接口356與用戶進(jìn)行通信。顯示器354例如可以是tft(薄膜晶體管液晶顯示器)顯示器或oled(有機(jī)發(fā)光二極管)顯示器,或者其它合適的顯示技術(shù)。顯示接口356可包括用于驅(qū)動(dòng)顯示器354以向用戶呈現(xiàn)圖形和其它信息的合適電路。控制接口358可接收來自用戶的命令并且將其轉(zhuǎn)換以便向處理器352進(jìn)行提交。此外,可提供與處理器352進(jìn)行通信的外部接口362,以便使得設(shè)備350能夠與其它設(shè)備進(jìn)行近域通信。例如,可提供以太接口363,在一些實(shí)施方式中用于有線通信,或者在其它實(shí)施方式中用于無線通信,并且還可以使用多個(gè)接口。

存儲(chǔ)器364存儲(chǔ)計(jì)算設(shè)備350內(nèi)的信息。存儲(chǔ)器364可以實(shí)施為一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)或媒體、一個(gè)或多個(gè)易失性存儲(chǔ)單元或者一個(gè)或多個(gè)非易失性存儲(chǔ)單元。也可以提供擴(kuò)展存儲(chǔ)器374并通過擴(kuò)展接口372連接至設(shè)備350,所述擴(kuò)展接口可包括例如simm(單列直插內(nèi)存模塊)卡接口。這樣的擴(kuò)展存儲(chǔ)器174可為設(shè)備350提供額外的存儲(chǔ)空間,或者還可以存儲(chǔ)應(yīng)用程序和用于設(shè)備350的其它信息。具體地,擴(kuò)展存儲(chǔ)器374可包括指令以執(zhí)行或補(bǔ)充以上所描述的過程,并且還可包括安全信息。因此,擴(kuò)展存儲(chǔ)器374例如可以被提供為設(shè)備350的安全模塊,并且可以利用允許對(duì)設(shè)備350進(jìn)行安全使用的指令進(jìn)行編程。此外,可以經(jīng)由simm卡連同附加信息一起提供安全應(yīng)用程序,諸如以無法被攻擊的方式在simm卡設(shè)置識(shí)別信息。

如以下所討論的,存儲(chǔ)器例如可包括閃存和/或nvram存儲(chǔ)器。在一個(gè)實(shí)施方式中,計(jì)算機(jī)程序產(chǎn)品有形地體現(xiàn)在信息載體中。計(jì)算機(jī)程序產(chǎn)品包含當(dāng)被執(zhí)行時(shí)執(zhí)行一個(gè)或多個(gè)方法(例如上述方法)的指令。信息載體是計(jì)算機(jī)或機(jī)器可讀介質(zhì),例如存儲(chǔ)器364,擴(kuò)展存儲(chǔ)器374或處理器352上的存儲(chǔ)器,該指令可以例如通過收發(fā)器368或外部接口362接收。

設(shè)備350可通過通信接口366進(jìn)行無線通信,所述通信接口366可包括所必需的數(shù)字信號(hào)處理電路。通信接口366可在各種模式或協(xié)議下提供通信,除其它之外,諸如gsm語(yǔ)音呼叫、sms、ems或mms消息發(fā)送、cdma、tdma、pdc、wcdma、cdma2000或gprs。例如,這樣的通信可使用射頻而通過收發(fā)器368進(jìn)行。此外,諸如可使用藍(lán)牙、wifi或其它這樣的收發(fā)器(未示出)進(jìn)行短距離通信。此外,gps(全球定位系統(tǒng))接收器模塊370可以為設(shè)備350提供附加的導(dǎo)航和位置相關(guān)的無線數(shù)據(jù),所述無線數(shù)據(jù)可適當(dāng)由在設(shè)備350上運(yùn)行的應(yīng)用程序所使用。

設(shè)備350還可以使用音頻編解碼器360進(jìn)行可聽通信,所述音頻編解碼器360可接收來自用戶的語(yǔ)音信息并將其轉(zhuǎn)換為可用的數(shù)字信息。音頻編解碼器360同樣可諸如通過例如設(shè)備350的聽筒中的揚(yáng)聲器為用戶生成可聽的聲音。這樣的聲音可包括來自語(yǔ)音電話呼叫的聲音,可包括所錄制的聲音,例如語(yǔ)音消息、音樂文件等,并且可包括在設(shè)備350上運(yùn)行的應(yīng)用程序所生成的聲音。

如圖所示,可以以多種不同形式來實(shí)施計(jì)算設(shè)備350。例如,其可實(shí)施為蜂窩電話380。其還可實(shí)施為智能電話382、個(gè)人數(shù)字助理或其它類似移動(dòng)設(shè)備的一部分。

這里所描述的系統(tǒng)和技術(shù)的各種實(shí)施方式可以以數(shù)字電路、集成電路、專門設(shè)計(jì)的asic(專用集成電路)、計(jì)算機(jī)硬件、固件、軟件和/或其組合來實(shí)現(xiàn)。這些各種實(shí)施方式可包括一個(gè)或多個(gè)計(jì)算機(jī)程序中的實(shí)施方式,所述計(jì)算機(jī)程序可在包括至少一個(gè)可編程處理器、至少一個(gè)輸入設(shè)備和至少一個(gè)輸出設(shè)備的可編程系統(tǒng)上執(zhí)行和/或解釋,所述可編程處理器是專用或通用的,其耦合以從存儲(chǔ)系統(tǒng)接收數(shù)據(jù)和指令并且向所述存儲(chǔ)系統(tǒng)傳送數(shù)據(jù)和指令。

這些計(jì)算機(jī)程序(還稱作程序、軟件、軟件應(yīng)用程序或代碼)包括用于可編程處理器的機(jī)器指令,并且可以以高級(jí)程序和/或面向?qū)ο缶幊陶Z(yǔ)言和/或匯編/機(jī)器語(yǔ)言來實(shí)現(xiàn)。如這里所使用的,術(shù)語(yǔ)“機(jī)器可讀介質(zhì)”、“計(jì)算機(jī)可讀介質(zhì)”是指被用來向可編程處理器提供機(jī)器指令和/或數(shù)據(jù)的任意計(jì)算機(jī)程序產(chǎn)品、裝置和/或設(shè)備(例如,磁盤、光盤、存儲(chǔ)器、可編程邏輯器件(pld)),包括接收機(jī)器指令作為機(jī)器可讀信號(hào)的機(jī)器可讀介質(zhì)。術(shù)語(yǔ)“機(jī)器可讀信號(hào)”是指用來向可編程處理器提供機(jī)器指令和/或數(shù)據(jù)的任意信號(hào)。

為了提供與用戶的交互,這里所描述的系統(tǒng)和技術(shù)可在具有用于向用戶顯示信息的顯示設(shè)備(例如,crt(陰極射線管)或lcd(液晶顯示器)監(jiān)視器)以及用戶可通過其向計(jì)算機(jī)提供輸入的鍵盤和指示設(shè)備—例如,鼠標(biāo)或軌跡球—的計(jì)算機(jī)上實(shí)施。還可使用其它類型的設(shè)備來提供與用戶的交互;例如,提供給用戶的反饋可以為任意形式的感觀反饋,例如視覺反饋、聽覺反饋或觸覺反饋;并且可以以任意形式來接收來自用戶的輸入,包括聲音、語(yǔ)音或觸覺輸入。

這里所描述的系統(tǒng)和技術(shù)可以以計(jì)算系統(tǒng)來實(shí)現(xiàn),所述計(jì)算系統(tǒng)包括后端組件—例如,作為數(shù)據(jù)服務(wù)器,或者包括中間組件—例如,應(yīng)用服務(wù)器,或者包括前端組件—例如,具有用戶可通過其與這里所描述的系統(tǒng)和技術(shù)的實(shí)施方式進(jìn)行交互的圖形用戶界面或web瀏覽器的客戶端計(jì)算機(jī),或者這樣的后端、終端或前段組件的組合。所述系統(tǒng)的組件可通過任意形式或介質(zhì)的數(shù)字?jǐn)?shù)據(jù)通信—例如,通信網(wǎng)絡(luò)—進(jìn)行互連。通信網(wǎng)絡(luò)的示例包括局域網(wǎng)(“l(fā)an”)、廣域網(wǎng)(“wan”)和互聯(lián)網(wǎng)。

計(jì)算系統(tǒng)可以包括客戶端和服務(wù)器??蛻舳撕头?wù)器通常彼此遠(yuǎn)離并且典型地通過通信網(wǎng)絡(luò)進(jìn)行交互??蛻舳撕头?wù)器的關(guān)系通過在各自計(jì)算機(jī)上運(yùn)行的計(jì)算機(jī)程序所建立并且彼此具有客戶端-服務(wù)器關(guān)系。

已經(jīng)描述了多個(gè)實(shí)施例。然而,將要理解的是,可以進(jìn)行各種修改而并不背離本發(fā)明的精神和范圍。此外,在圖中所描繪的邏輯流程并不要求所示出的特定順序或連續(xù)順序來實(shí)現(xiàn)所期望的結(jié)果。此外,可以提供其它步驟,或者可以從所描述的流程中消除步驟,并且可以向所描述的系統(tǒng)增加組件或者從中去除組件。因此,其它實(shí)施例處于以下權(quán)利要求的范圍之內(nèi)。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1