亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在語音辨識中預(yù)測發(fā)音的制作方法

文檔序號:12288460閱讀:440來源:國知局
在語音辨識中預(yù)測發(fā)音的制作方法與工藝

本申請要求2014年3月4日提交的美國專利申請?zhí)?4/196,055的優(yōu)先權(quán),所述申請以全文引用方式并入本文中。

背景

人機(jī)交互已經(jīng)發(fā)展到這樣的程度:人類可以控制計(jì)算裝置,并且通過說話向這些裝置提供輸入。計(jì)算裝置采用技術(shù)來基于所接收音頻輸入的各種質(zhì)量來識別人類用戶說出的詞語。此類技術(shù)被稱為語音辨識或者自動語音辨識(ASR)。語音辨識與語言處理技術(shù)相結(jié)合可允許用戶控制計(jì)算裝置來基于用戶說出的命令執(zhí)行任務(wù)。語音辨識還可以將用戶的語音轉(zhuǎn)換成文本數(shù)據(jù),所述文本數(shù)據(jù)接著可被提供給各種基于文本的程序和應(yīng)用。

計(jì)算機(jī)、手持式裝置、電話計(jì)算機(jī)系統(tǒng)、信息亭以及用來改善人機(jī)交互的多種其他裝置可以使用語音辨識。

附圖簡述

為了更透徹地理解本公開,現(xiàn)參考以下結(jié)合附圖進(jìn)行的描述。

圖1示出根據(jù)本公開的一個(gè)方面的用于基于詞語的源語言來預(yù)測外源詞語的預(yù)期發(fā)音的語音辨識技術(shù)。

圖2示出根據(jù)本公開的一個(gè)方面的用于與分布式語音辨識一起使用的計(jì)算機(jī)網(wǎng)絡(luò)。

圖3是概念性地示出根據(jù)本公開的一個(gè)方面的用于語音辨識的裝置的框圖。

圖4示出根據(jù)本公開的一個(gè)方面加以處理的音頻波形。

圖5示出根據(jù)本公開的一個(gè)方面的語音辨識點(diǎn)陣。

圖6示出根據(jù)本公開的一個(gè)方面的用于基于詞語的源語言來預(yù)測外源詞語的預(yù)期發(fā)音的語音辨識方法。

圖7示出根據(jù)本公開的一個(gè)方面的用于處理包括文本標(biāo)識符的所說話語的語音辨識方法。

詳述

在與能夠執(zhí)行自動語音辨識(ASR)的裝置交互時(shí),用戶可說出命令來訪問內(nèi)容項(xiàng)。那些內(nèi)容項(xiàng)可由裝置在本地存儲,或者可遠(yuǎn)程存儲但是可由裝置訪問。例如,用戶可向計(jì)算裝置說出命令來“播放”特定的音樂項(xiàng)。所說命令可以被稱為話語。音樂項(xiàng)可由文本標(biāo)識符識別。文本標(biāo)識符可以是識別內(nèi)容項(xiàng)(諸如歌曲、視頻等)的文本。示例性文本標(biāo)識符包括藝術(shù)家的姓名、樂隊(duì)名稱、唱片標(biāo)題、歌曲標(biāo)題或識別將要播放的歌曲的某種其他標(biāo)簽。

ASR系統(tǒng)可具有所存儲文本標(biāo)識符(即,藝術(shù)家姓名、樂隊(duì)名稱、唱片標(biāo)題和歌曲標(biāo)題)的詞典,所述文本標(biāo)識符與它們對應(yīng)的預(yù)期發(fā)音相匹配,其中預(yù)期發(fā)音基于文本標(biāo)識符。所述詞典可在本地存儲或遠(yuǎn)程存儲。當(dāng)ASR系統(tǒng)接收話語時(shí),它可將所述話語的聲音匹配到所存儲的預(yù)期發(fā)音以便將所述話語與一個(gè)或多個(gè)內(nèi)容項(xiàng)相匹配以便檢索。例如,如果用戶說“通過AC/DC播放一些歌曲”,系統(tǒng)可將與“AC/DC”對應(yīng)的音頻匹配到相應(yīng)的預(yù)期發(fā)音并且接著匹配到樂隊(duì)名稱。一旦識別了樂隊(duì),裝置可接著回放與樂隊(duì)相關(guān)聯(lián)的歌曲。

典型的ASR系統(tǒng)各自獨(dú)立地與特定語言相關(guān)聯(lián)。例如,英語ASR系統(tǒng)可被配置來理解英語詞語,德語ASR系統(tǒng)可被配置來理解德語詞語等。一些文本標(biāo)識符可起源于外語,所述外語不是ASR系統(tǒng)的主要語言。如果用戶試圖使用外語文本標(biāo)識符的語言學(xué)特質(zhì)來發(fā)音所述文本標(biāo)識符,這可能會導(dǎo)致混亂。例如,使用德語歌曲標(biāo)題或德語樂隊(duì)名稱的德語發(fā)音來說出請求音樂的用戶可能使基于英語的ASR系統(tǒng)混亂。類似地,使用德語歌曲標(biāo)題的英語發(fā)音的用戶也可能使ASR系統(tǒng)混亂,這是由于ASR系統(tǒng)基于歌曲標(biāo)題的文本可能預(yù)期不同的發(fā)音。

提供了用于基于預(yù)測文本標(biāo)識符的源語言確定文本標(biāo)識符的預(yù)期發(fā)音的方法??苫谖谋緲?biāo)識符來確定源語言。在本公開的一些方面中,文本標(biāo)識符的預(yù)期發(fā)音也可以基于特定用戶或用戶類別的發(fā)音歷史。預(yù)期發(fā)音可包括基于源語言的預(yù)期發(fā)音的組合,例如,具有被預(yù)期為好像具有一種源語言的文本標(biāo)識符的特定音素以及被預(yù)期為好像具有不同源語言的文本標(biāo)識符的其他音素的預(yù)期發(fā)音。此外,可針對每一個(gè)文本標(biāo)識符確定多個(gè)預(yù)期發(fā)音,其中每一個(gè)預(yù)期發(fā)音可以與發(fā)生的可能性相關(guān)聯(lián)??赡苄钥梢曰谖谋緲?biāo)識符、用戶的行為、其他用戶的行為或其他因素。

文本標(biāo)識符的不同預(yù)期發(fā)音可以被添加到詞典并且適應(yīng)來自不同用戶的不同發(fā)音。預(yù)期發(fā)音可以鏈接到內(nèi)容項(xiàng),諸如存儲在音樂目錄中的歌曲。當(dāng)計(jì)算裝置接收包括文本標(biāo)識符的所說話語時(shí),所述計(jì)算裝置通過將所述話語匹配到預(yù)期發(fā)音的修改后詞典來確定所說話語是否包括文本標(biāo)識符。當(dāng)所說話語匹配預(yù)期發(fā)音時(shí),計(jì)算裝置按所述話語的命令部分中所指示,例如通過播放所請求歌曲,來作用于內(nèi)容。

圖1示出根據(jù)本公開的一個(gè)方面的用于基于文本標(biāo)識符的源語言預(yù)測文本標(biāo)識符的預(yù)期發(fā)音的語音辨識技術(shù)。圖1包括帶有預(yù)期發(fā)音預(yù)測模塊128和ASR模塊314的ASR裝置100,以及定位成接近ASR裝置100的用戶120。預(yù)期發(fā)音預(yù)測模塊128可被配置來訪問文本標(biāo)識符(諸如歌曲標(biāo)題),如在框102中所示,并且確定文本標(biāo)識符的源語言,如在框104中所示。預(yù)測模塊128可接著基于源語言確定文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音,如在框106中所示??山又鴮㈩A(yù)期發(fā)音匹配到內(nèi)容項(xiàng)(例如,歌曲),以便由系統(tǒng)檢索。預(yù)測模塊128可提前執(zhí)行這些動作,即,在接收話語之前配置或訓(xùn)練ASR系統(tǒng)的操作時(shí)執(zhí)行這些動作。

在裝置接收所說話語(在框108中示出)后,所述話語被傳遞到ASR模塊314。ASR模塊可接著將所述話語匹配到預(yù)期發(fā)音,如在框110中所示。可接著將所述預(yù)期發(fā)音匹配到在所述話語中涉及的內(nèi)容項(xiàng)(諸如歌曲),如在框112中所示。裝置可接著訪問所述內(nèi)容項(xiàng)(例如,播放所述歌曲),如在框114中所示。

盡管圖1示出由特定模塊執(zhí)行特定任務(wù),但是可以由具體ASR系統(tǒng)所配置的各種模塊執(zhí)行任務(wù)。

此外,這里描述的技術(shù)可以在諸如ASR裝置100的本地裝置、網(wǎng)絡(luò)裝置或者不同裝置的某種組合上執(zhí)行。例如,本地裝置和遠(yuǎn)程裝置可將本地裝置的文本標(biāo)識符與遠(yuǎn)程裝置交換以便實(shí)際上執(zhí)行對源語言和預(yù)期發(fā)音的確定。此外,盡管本地裝置可接收包括所說話語的音頻數(shù)據(jù),但是本地裝置可將音頻數(shù)據(jù)發(fā)送到遠(yuǎn)程裝置以便進(jìn)行處理。遠(yuǎn)程裝置接著可對音頻執(zhí)行ASR處理。可接著將ASR結(jié)果發(fā)送到本地裝置以便將話語匹配到內(nèi)容項(xiàng)并且訪問內(nèi)容項(xiàng),或者那些任務(wù)可由遠(yuǎn)程裝置執(zhí)行并且結(jié)果(例如,流式傳輸歌曲)被發(fā)送到本地裝置以便向用戶回放?;蛘?,本地裝置和遠(yuǎn)程裝置可能以其他方式一起工作。

這些多個(gè)ASR裝置可以通過網(wǎng)絡(luò)連接起來。如在圖2中所示,多個(gè)裝置可以通過網(wǎng)絡(luò)202連接起來。網(wǎng)絡(luò)202可以包括本地或者專用網(wǎng)絡(luò)或者可以包括諸如互聯(lián)網(wǎng)的廣域網(wǎng)絡(luò)??赏ㄟ^有線或無線連接將裝置連接到網(wǎng)絡(luò)202。例如,可通過無線服務(wù)提供商將無線裝置204連接到網(wǎng)絡(luò)202??赏ㄟ^有線連接將諸如計(jì)算機(jī)212的其他裝置連接到網(wǎng)絡(luò)202??赏ㄟ^有線或者無線連接將諸如冰箱218的其他裝置(例如,其定位在家里或者購物機(jī)構(gòu)中)連接到網(wǎng)絡(luò)202。其他裝置(諸如膝上型計(jì)算機(jī)208或者平板計(jì)算機(jī)210)可能能夠使用各種連接方法(包括通過無線服務(wù)提供商、通過WiFi連接等等)連接到網(wǎng)絡(luò)202。聯(lián)網(wǎng)的裝置可以通過多個(gè)音頻輸入裝置(包括通過耳機(jī)206或214)輸入說出的音頻??梢酝ㄟ^有線或者無線連接將音頻輸入裝置連接到聯(lián)網(wǎng)的裝置。聯(lián)網(wǎng)的裝置還可以包括嵌入式音頻輸入裝置,諸如膝上型計(jì)算機(jī)208、無線裝置204或者平板計(jì)算機(jī)210中的內(nèi)置麥克風(fēng)(未圖示)。

在特定ASR系統(tǒng)配置中,一個(gè)裝置可以捕獲音頻信號并且另一裝置可以執(zhí)行ASR處理。例如,對于耳機(jī)214的音頻輸入可以由計(jì)算機(jī)212捕獲并且通過網(wǎng)絡(luò)202發(fā)送到計(jì)算機(jī)220或者服務(wù)器216以便進(jìn)行處理?;蛘撸?jì)算機(jī)212可以在通過網(wǎng)絡(luò)202發(fā)送音頻信號之前部分地處理所述音頻信號。因?yàn)锳SR處理可以在存儲以及處理能力方面涉及大量計(jì)算資源,所以在捕獲音頻的裝置具有比遠(yuǎn)程裝置低的處理能力并且需要更高質(zhì)量的ASR結(jié)果的情況下,可以采用這樣的拆分配置。音頻捕獲可以在用戶附近發(fā)生并且所捕獲的音頻信號被發(fā)送到另一裝置以便進(jìn)行處理。例如,一個(gè)或多個(gè)麥克風(fēng)陣列可以定位在與ASR裝置不同的位置中,并且所捕獲的音頻可以從所述陣列發(fā)送到ASR裝置(或者多個(gè)裝置)以便進(jìn)行處理。

圖3示出用于執(zhí)行語音辨識的自動語音辨識(ASR)裝置302。本公開的方面包括可駐留在ASR裝置302上的計(jì)算機(jī)可讀以及計(jì)算機(jī)可執(zhí)行指令。圖3示出可被包括在ASR裝置302中的多個(gè)部件,然而也可包括其他未示出的部件。此外,所示出部件中的一些可能不存在于能夠采用本公開的方面的每一個(gè)裝置中。此外,在ASR裝置302中被示出為單個(gè)部件的一些部件也可以在單個(gè)裝置中多次出現(xiàn)。例如,ASR裝置302可以包括多個(gè)輸入裝置306、輸出裝置307或者多個(gè)控制器和/或處理器308。

可以在單個(gè)語音辨識系統(tǒng)中采用多個(gè)ASR裝置。在這樣的多裝置系統(tǒng)中,ASR裝置可以包括用于執(zhí)行語音辨識過程的不同方面的不同部件。多個(gè)裝置可以包括重疊的部件。如圖3中所示的ASR裝置是示例性的,并且可以是獨(dú)立裝置或者可整體或者部分地被包括為更大的裝置或者系統(tǒng)的部件。

本公開的教義可在多個(gè)不同的裝置和計(jì)算機(jī)系統(tǒng)內(nèi)應(yīng)用,所述裝置和計(jì)算機(jī)系統(tǒng)包括例如通用計(jì)算系統(tǒng)、服務(wù)器-客戶端計(jì)算系統(tǒng)、大型計(jì)算系統(tǒng)、電話計(jì)算系統(tǒng)、膝上型計(jì)算機(jī)、蜂窩電話、個(gè)人數(shù)字助理(PDA)、平板計(jì)算機(jī)、其他移動裝置等。ASR裝置302還可以是可提供語音辨別功能的其他裝置或系統(tǒng)的部件,所述其他裝置或系統(tǒng)諸如像自動柜員機(jī)(ATM)、信息亭、家用器具(諸如冰箱、烤箱等)、車輛(諸如汽車、公共汽車、摩托車等)和/或訓(xùn)練裝置。

如在圖3中所示,ASR裝置302可以包括用于捕獲所說話語以便進(jìn)行處理的音頻捕獲裝置304。音頻捕獲裝置304可以包括麥克風(fēng)或者用于捕獲聲音的其他合適部件。音頻捕獲裝置304可以集成到ASR裝置302中或者可以與ASR裝置302分離。ASR裝置302還可以包括用于在ASR裝置302的部件當(dāng)中傳輸數(shù)據(jù)的地址/數(shù)據(jù)總線324。除了(或者替代)通過總線324連接到其他部件,ASR裝置302內(nèi)的每一個(gè)部件還可以直接連接到其他部件。盡管某些部件在圖3中被示出為直接連接,但是這些連接僅僅是說明性的并且其他部件可以彼此直接連接(諸如ASR模塊314連接到控制器/處理器308)。

ASR裝置302可以包括可以是中央處理單元(CPU)的用于處理數(shù)據(jù)和計(jì)算機(jī)可讀指令的控制器/處理器308,以及用于存儲數(shù)據(jù)和指令的存儲器310。存儲器310可以包括易失性隨機(jī)存取存儲器(RAM)、非易失性只讀存儲器(ROM)和/或其他類型的存儲器。ASR裝置302還可以包括用于存儲數(shù)據(jù)和指令的數(shù)據(jù)存儲部件312。數(shù)據(jù)存儲部件312可包括一個(gè)或多個(gè)存儲類型,諸如磁性存儲裝置、光學(xué)存儲裝置、固態(tài)存儲裝置等。ASR裝置302還可通過輸入裝置306或輸出裝置307連接到可移動或外部存儲器和/或存儲裝置(諸如可移動存儲卡、閃存盤驅(qū)動器、聯(lián)網(wǎng)的存儲裝置等)。用于由控制器/處理器308處理以便操作ASR裝置302以及其各種部件的計(jì)算機(jī)指令可以由控制器/處理器308執(zhí)行,并且存儲在存儲器310、存儲裝置312、外部裝置中,或者存儲在下文討論的ASR模塊314中所包括的存儲器/存儲裝置中?;蛘?,除了軟件或者替代軟件,可執(zhí)行指令中的一些或全部可以嵌入硬件或者固件中。本公開的教義可以在例如軟件、固件和/或硬件的各種組合中實(shí)現(xiàn)。

ASR裝置302包括輸入裝置306和輸出裝置307。所述裝置中可以包括各種輸入/輸出裝置。示例性輸入裝置306包括音頻捕獲裝置304,諸如麥克風(fēng)(圖示為單獨(dú)的部件)、觸摸式輸入裝置、鍵盤、鼠標(biāo)、觸針或者其他輸入裝置。示例性輸出裝置307包括視覺顯示器、觸覺顯示器、音頻揚(yáng)聲器、耳機(jī)、打印機(jī)或者其他輸出裝置。輸入裝置306和/或輸出裝置307還可以包括用于外部外圍裝置連接(諸如通用串行總線(USB)、FireWire、Thunderbolt或者其他連接協(xié)議)的接口。輸入裝置306和/或輸出裝置307還可包括網(wǎng)絡(luò)連接,諸如以太網(wǎng)端口、調(diào)制解調(diào)器等。輸入裝置306和/或輸出裝置307還可包括無線通信裝置,諸如射頻(RF)、紅外、藍(lán)牙、無線局域網(wǎng)(WLAN)(諸如WiFi);或者無線網(wǎng)絡(luò)無線電裝置,諸如能夠與無線通信網(wǎng)絡(luò)通信的無線電裝置,所述無線通信網(wǎng)絡(luò)諸如長期演進(jìn)(LTE)網(wǎng)絡(luò)、WiMAX網(wǎng)絡(luò)、3G網(wǎng)絡(luò)等。通過輸入裝置306和/或輸出裝置307,ASR裝置302可連接到諸如互聯(lián)網(wǎng)或?qū)S镁W(wǎng)絡(luò)的網(wǎng)絡(luò),所述網(wǎng)絡(luò)可包括分布式計(jì)算環(huán)境。

裝置還可以包括用于將說出的音頻數(shù)據(jù)處理成文本的ASR模塊314。ASR模塊314將音頻數(shù)據(jù)轉(zhuǎn)錄成表示音頻數(shù)據(jù)中所包含語音的詞語的文本數(shù)據(jù)。文本數(shù)據(jù)接著可由其他部件用于各種目的,諸如執(zhí)行系統(tǒng)命令、輸入數(shù)據(jù)等。包括所說話語的音頻數(shù)據(jù)可被實(shí)時(shí)處理或者可被保存并且在隨后時(shí)間處理。音頻數(shù)據(jù)中的所說話語被輸入到ASR模塊314,所述ASR模塊314接著基于話語與ASR模塊314已知的模型之間的相似性來解釋所述話語。例如,ASR模塊314可以將輸入音頻數(shù)據(jù)與用于聲音(例如,語音單元或者音素)和聲音序列的模型相比較,以便識別匹配在音頻數(shù)據(jù)的話語中所說的聲音序列的詞語??梢越忉屗f話語的不同方式可以各自被分配概率或者辨識得分,所述概率或者辨識得分表示特定的一組詞語匹配在話語中所說的那些詞語的可能性。辨識得分可以基于多個(gè)因素,所述因素包括例如話語中的聲音與用于語言聲音的模型(例如,聲學(xué)模型)的相似性,以及匹配所述聲音的特定詞語將被包括在句子中特定位置處的可能性(例如,使用語言模型或者語法)?;谒紤]的因素以及所分配的辨識得分,ASR模塊314可以輸出最有可能在音頻數(shù)據(jù)中辨識的詞語。ASR模塊314還可能以點(diǎn)陣或者N最佳列表(在下文更詳細(xì)地描述)的形式輸出多個(gè)替代性所辨識詞語。

盡管辨識得分可以表示音頻數(shù)據(jù)的一部分對應(yīng)于特定音素或者詞語的概率,但是辨識得分還可以包含其他信息,所述其他信息指示被打分音頻數(shù)據(jù)相對于其他音頻數(shù)據(jù)的ASR處理的ASR處理質(zhì)量。辨識得分可以被表示為從1至100的尺度上的數(shù)字、從0至1的概率、對數(shù)概率或者其他指示符。辨識得分可以指示音頻數(shù)據(jù)的一部分對應(yīng)于特定音素、詞語等的相對置信度。

ASR模塊314可以連接到總線324、輸入裝置306和/或輸出裝置307、音頻捕獲裝置304、編碼器/解碼器322、控制器/處理器308和/或ASR裝置302的其他部件。發(fā)送到ASR模塊314的音頻數(shù)據(jù)可以來自音頻捕獲裝置304或者可以由輸入裝置306接收,諸如由遠(yuǎn)程實(shí)體捕獲并且通過網(wǎng)絡(luò)發(fā)送到ASR裝置302的音頻數(shù)據(jù)。音頻數(shù)據(jù)可以呈所說話語的音頻波形的數(shù)字化表示的形式。模數(shù)轉(zhuǎn)換過程的采樣率、過濾以及其他方面可以影響音頻數(shù)據(jù)的總體質(zhì)量。音頻捕獲裝置304和輸入裝置306的各種設(shè)置可以被配置來基于質(zhì)量與數(shù)據(jù)大小的傳統(tǒng)權(quán)衡或者其他考慮因素調(diào)整音頻數(shù)據(jù)。

ASR模塊314包括聲學(xué)前端(AFE)316、語音辨識引擎318以及語音存儲裝置320。AFE 316將音頻數(shù)據(jù)轉(zhuǎn)換成用于由語音辨識引擎318處理的數(shù)據(jù)。語音辨識引擎318將語音辨識數(shù)據(jù)與存儲在語音存儲裝置320中的聲學(xué)、語言以及其他數(shù)據(jù)模型和信息相比較,以便辨識原始音頻數(shù)據(jù)中所包含的語音。AFE 316和語音辨識引擎318可以包括它們自己的控制器/處理器和存儲器,或者它們可以使用例如ASR裝置302的控制器/處理器308和存儲器310。類似地,用于操作AFE 316和語音辨識引擎318的指令可以定位在ASR模塊314內(nèi)、ASR裝置302的存儲器310和/或存儲裝置312內(nèi)、或者外部裝置內(nèi)。

可以將所接收的音頻數(shù)據(jù)發(fā)送到AFE 316以便進(jìn)行處理。AFE316可以減少音頻數(shù)據(jù)中的噪聲,識別音頻數(shù)據(jù)的包含用于處理的語音的部分,并且分段并處理所識別的語音組分。AFE 316可以將數(shù)字化音頻數(shù)據(jù)分成幀或者音頻片段,其中每一個(gè)幀表示例如10毫秒(ms)的時(shí)間間隔。在所述幀期間,AFE 316確定被稱為特征矢量的一組值,這組值表示幀內(nèi)的話語部分的特征/質(zhì)量。特征矢量可以包含不同數(shù)量的值,例如40個(gè)。特征矢量可以表示幀內(nèi)的音頻數(shù)據(jù)的不同質(zhì)量。圖4示出在第一詞語404被處理時(shí)帶有第一詞語404的多個(gè)點(diǎn)406的數(shù)字化音頻數(shù)據(jù)波形402。這些點(diǎn)的音頻質(zhì)量可以被存儲到特征矢量中。特征矢量可以被流式傳輸或者組合到矩陣中,所述矩陣表示所說話語的時(shí)間周期。這些特征矢量矩陣接著可以被傳遞到語音辨識引擎318以便進(jìn)行處理。AFE 316可以使用多種方法來處理音頻數(shù)據(jù)。此類方法可以包括使用mel頻率倒譜系數(shù)(MFCC)、感知線性預(yù)測(PLP)技術(shù)、神經(jīng)網(wǎng)絡(luò)特征矢量技術(shù)、線性判別分析、半綁定的協(xié)方差矩陣、或者本領(lǐng)域技術(shù)人員已知的其他方法。

處理過的特征矢量可以從ASR模塊314輸出并且發(fā)送到輸出裝置307以便傳輸?shù)搅硪谎b置以便進(jìn)行進(jìn)一步處理。特征矢量可在傳輸之前由編碼器/解碼器322編碼和/或壓縮。編碼器/解碼器322可被定制用于編碼并且解碼ASR數(shù)據(jù),諸如數(shù)字化音頻數(shù)據(jù)、特征矢量等。編碼器/解碼器322還可例如使用通用編碼方案(諸如.zip等)來編碼ASR裝置302的非ASR數(shù)據(jù)。編碼器/解碼器322的功能可定位在單獨(dú)的部件中,如圖3中所示出,或者可由例如控制器/處理器308、ASR模塊314或其他部件執(zhí)行。

語音辨識引擎318可以參考存儲在語音存儲裝置320中的信息來處理來自AFE 316的輸出。或者,可以由ASR模塊314從除了內(nèi)部AFE 316之外的另一來源接收前端處理后的數(shù)據(jù)(諸如特征矢量)。例如,另一實(shí)體可以將音頻數(shù)據(jù)處理成特征矢量并且將所述信息通過輸入裝置306傳輸?shù)紸SR裝置302。被編碼的特征矢量可以到達(dá)ASR裝置302,在這種情況下,它們可在由語音辨識引擎318處理之前被解碼(例如由編碼器/解碼器322解碼)。

語音存儲裝置320包括用于語音辨識的各種信息,諸如將音素的發(fā)音與特定詞語相匹配的數(shù)據(jù)。此數(shù)據(jù)可以被稱為聲學(xué)模型。語音存儲裝置還可以包括詞語的字典或者詞典。語音存儲裝置還可包括將文本標(biāo)識符匹配到所述標(biāo)識符的預(yù)期發(fā)音的詞典。文本標(biāo)識符可識別數(shù)字內(nèi)容(諸如目錄中的音樂)、通訊簿中的內(nèi)容和/或存儲在ASR裝置處(或其他地方)的其他內(nèi)容。文本標(biāo)識符還可識別非數(shù)字項(xiàng),諸如食物項(xiàng)(即,原料、菜肴等)、餐館、事件或可具在可能不同于ASR系統(tǒng)和/或用戶的默認(rèn)語言的語言中起源的名稱的其他項(xiàng)。語音存儲裝置還可以包括描述有可能在特定情境中一起使用的詞語的數(shù)據(jù)。此數(shù)據(jù)可以被稱為語言或者語法模型。語音存儲裝置320還可以包括訓(xùn)練語料庫,所述訓(xùn)練語料庫可以包括所記錄的語音和/或?qū)?yīng)的轉(zhuǎn)錄,所述訓(xùn)練語料庫可以用來訓(xùn)練并且改善由ASR模塊314在語音辨識中使用的模型。訓(xùn)練語料庫可以用來預(yù)先訓(xùn)練語音辨識模型,所述語音辨識模型包括聲學(xué)模型和語言模型。接著可在ASR處理期間使用所述模型。

訓(xùn)練語料庫可以包括帶有相關(guān)聯(lián)的特征矢量以及相關(guān)聯(lián)的正確文本的多個(gè)樣本話語,所述樣本話語可以用來創(chuàng)建例如聲學(xué)模型和語言模型。樣本話語可以用來創(chuàng)建數(shù)學(xué)模型,所述數(shù)學(xué)模型對應(yīng)于用于特定語音單元的預(yù)期音頻。所述語音單元可包括音素、音節(jié)、音節(jié)的部分、詞語等。語音單元還可包括連貫的音素,諸如三音子、五音子等。在語音中常用的連貫的音素可以與它們自身的模型相關(guān)聯(lián)。不那么常見的連貫的音素可以聚集在一起以便具有群組模型。通過以這種方式聚集音素群組,訓(xùn)練語料庫中可以包括更少的模型,從而利于ASR處理。訓(xùn)練語料庫可以包括來自不同說話者的相同話語的多個(gè)版本以便為ASR模塊314提供不同話語比較。訓(xùn)練語料庫還可以包括正確辨識的話語以及未正確辨識的話語。這些未正確辨識的話語可以包括例如語法錯(cuò)誤、假性辨識錯(cuò)誤、噪聲或者給ASR模塊314提供錯(cuò)誤類型的實(shí)例的其他錯(cuò)誤以及對應(yīng)的修正。訓(xùn)練語料庫可包括外源的詞語以便訓(xùn)練ASR系統(tǒng)來辨識此類詞語。訓(xùn)練語料庫還可以適于包含特定用戶的傾向以便改善系統(tǒng)性能(如下文所描述)。

其他信息也可以存儲在語音存儲裝置320中以便在語音辨識中使用。語音存儲裝置320的內(nèi)容可以為通用ASR使用做好準(zhǔn)備,或者可以被定制來包括可能在特定應(yīng)用中使用的聲音和詞語。例如,對于在ATM(自動柜員機(jī))處的ASR處理來說,語音存儲裝置320可以包括特定于銀行交易的定制數(shù)據(jù)。在某些情況下,語音存儲裝置320可以針對單個(gè)用戶(基于他的/她的個(gè)性化語音輸入)加以定制。為了改善性能,ASR模塊314可以基于ASR處理的結(jié)果的反饋來校正/更新語音存儲裝置320的內(nèi)容,從而允許ASR模塊314改善語音辨識來超過在訓(xùn)練語料庫中提供的能力。

語音辨識引擎318試圖將所接收的特征矢量與在語音存儲裝置320中已知的詞語或者子詞語單元相匹配。子詞語單元可以是音素、連貫的音素、音節(jié)、音節(jié)的部分、連貫的音節(jié)或者詞語的任意其他此種部分。語音辨識引擎318基于聲學(xué)信息和語言信息來計(jì)算特征矢量的辨識得分。聲學(xué)信息被用來計(jì)算聲學(xué)得分,所述聲學(xué)得分表示由一組特征矢量所表示的預(yù)期聲音匹配子詞語單元的可能性。語言信息被用來通過考慮什么聲音和/或詞語彼此連貫地使用來調(diào)整聲學(xué)得分,從而改善ASR模塊輸出在語法上合理的語音結(jié)果的可能性。

語音辨識引擎318可以使用多種技術(shù)來將特征矢量與音素或者其他語音單元(諸如雙音子、三音子等)相匹配。一種常見技術(shù)使用隱馬爾可夫模型(HMM)。HMM被用來確定特征矢量可以匹配音素的概率。使用HMM,呈現(xiàn)多種狀態(tài),其中所述狀態(tài)一起表示可能的音素(或者其他語音單元,諸如三音子)并且每一個(gè)狀態(tài)與一個(gè)模型(諸如高斯混合模型)相關(guān)聯(lián)。狀態(tài)之間的轉(zhuǎn)變也可以具有相關(guān)聯(lián)的概率,其表示可以從先前狀態(tài)到達(dá)現(xiàn)在狀態(tài)的可能性。所接收的聲音可以被表示為HMM的狀態(tài)之間的路徑,并且多個(gè)路徑可以表示相同聲音的多個(gè)可能的文本匹配。每一個(gè)音素可以由多個(gè)可能的狀態(tài)表示,所述狀態(tài)對應(yīng)于所述音素以及它們的部分(諸如說出的語言聲音的開始、中間以及結(jié)束)的不同已知發(fā)音??赡艿囊羲氐母怕实淖畛醮_定可以與一個(gè)狀態(tài)相關(guān)聯(lián)。在語音辨識引擎318處理新的特征矢量時(shí),基于新的特征矢量的處理,狀態(tài)可以改變或者保持不變。Viterbi算法可以用來基于處理過的特征矢量找到最有可能的狀態(tài)序列。

可以使用多種技術(shù)來計(jì)算概率和狀態(tài)。例如,可以使用高斯模型、高斯混合模型或者基于特征矢量和語音存儲裝置320的內(nèi)容的其他技術(shù)來計(jì)算每一個(gè)狀態(tài)的概率。諸如最大似然估計(jì)(MLE)的技術(shù)可以用來估計(jì)音素狀態(tài)的概率。

除了計(jì)算一個(gè)音素的可能狀態(tài)來作為特征矢量的可能匹配之外,語音辨識引擎318還可以計(jì)算其他音素的可能狀態(tài)來作為特征矢量的可能匹配。以這種方式,可以計(jì)算多個(gè)狀態(tài)和狀態(tài)轉(zhuǎn)變概率。

由語音辨識引擎318計(jì)算出的可能的狀態(tài)和可能的狀態(tài)轉(zhuǎn)變可被形成為路徑。每一個(gè)路徑表示可能匹配由特征矢量表示的音頻數(shù)據(jù)的音素的級數(shù)。取決于針對每一個(gè)音素計(jì)算出的辨識得分,一個(gè)路徑可以與一個(gè)或多個(gè)其他路徑重疊。某些概率與從狀態(tài)到狀態(tài)的每一個(gè)轉(zhuǎn)變相關(guān)聯(lián)。也可以針對每一個(gè)路徑計(jì)算累積路徑得分。當(dāng)作為ASR處理的一部分對得分進(jìn)行組合時(shí),可以將得分相乘(或者以其他方式組合)以便得到所期望的組合得分,或者可以將概率轉(zhuǎn)換到對數(shù)域并且進(jìn)行相加來協(xié)助處理。

語音辨識引擎318可以將可能的路徑組合成表示語音辨識結(jié)果的點(diǎn)陣。在圖5中示出樣本點(diǎn)陣。點(diǎn)陣502示出語音辨識結(jié)果的多個(gè)可能路徑。大節(jié)點(diǎn)之間的路徑表示可能的詞語(例如“hello”、“yellow”等),并且較小節(jié)點(diǎn)之間的路徑表示可能的音素(例如“H”、“E”、“L”、“O”和“Y”、“E”、“L”、“O”)。出于說明目的,僅針對點(diǎn)陣的前兩個(gè)詞語示出了單個(gè)音素。節(jié)點(diǎn)504與節(jié)點(diǎn)506之間的兩個(gè)路徑表示兩個(gè)可能的詞語選擇:“hello how”或者“yellow now”。節(jié)點(diǎn)之間的每一個(gè)路徑點(diǎn)(諸如可能的詞語)與辨識得分相關(guān)聯(lián)??琰c(diǎn)陣的每一個(gè)路徑也可以被分配辨識得分。語音辨識引擎318可以將最高辨識得分路徑(其中辨識得分是聲學(xué)模型得分、語言模型得分和/或其他因素的組合)返回,來作為相關(guān)聯(lián)的特征矢量的ASR結(jié)果。

在ASR處理之后,ASR模塊314可以將ASR結(jié)果發(fā)送到ASR裝置302的另一部件,諸如控制器/處理器308,以便進(jìn)行進(jìn)一步處理(諸如執(zhí)行所解釋的文本中所包括的命令),或者發(fā)送到輸出裝置307,以便發(fā)送到外部裝置。

語音辨識引擎318還可以基于語言模型或者語法計(jì)算路徑的分支的得分。語言建模涉及確定有可能一起用來形成連貫的詞語和句子的詞語的得分。語言模型的應(yīng)用可以改善ASR模型314正確地解釋音頻數(shù)據(jù)中所包含語音的可能性。例如,返回“H E L O”、“H A L O”以及“Y E L O”的可能音素路徑的聲學(xué)模型處理可以由語言模型來調(diào)整,以便基于所說話語內(nèi)的每一個(gè)詞語的語言情境來調(diào)整“H E L O”(解釋為詞語“hello”)、“H A L O”(解釋為詞語“halo”)以及“Y E L O”(解釋為詞語“yellow”)的辨識得分。語言建??梢愿鶕?jù)存儲在語音存儲裝置320中的訓(xùn)練語料庫加以確定,并且可以針對特定的應(yīng)用加以定制??梢允褂弥T如N-gram模型的技術(shù)來執(zhí)行語言模型,其中看到特定的下一個(gè)詞語的可能性取決于前面n-1個(gè)詞語的情境歷史。N-gram模型還可以被結(jié)構(gòu)化為雙連詞(其中n=2)和三連詞(其中n=3)模型,其中看見下一個(gè)詞語的可能性取決于前面的詞語(在雙連詞模型的情況下)或者前面兩個(gè)詞語(在三連詞模型的情況下)。聲學(xué)模型也可以采用N-gram技術(shù)。

作為語言建模的一部分(或者在ASR處理的其他階段中),為了節(jié)省計(jì)算資源,語音辨識引擎318可以刪除和放棄低辨識得分狀態(tài)或者路徑,所述低辨識得分狀態(tài)或者路徑對應(yīng)于所說話語的可能性極小,這是由于依據(jù)語言模型的低辨識得分或者其他原因。此外,在ASR處理期間,語音辨識引擎318可以對先前處理過的話語部分迭代地執(zhí)行附加的處理遍次。后面的遍次可以包含前面的遍次的結(jié)果以便改進(jìn)并改善結(jié)果。當(dāng)語音辨識引擎318確定來自輸入音頻的可能的詞語時(shí),因?yàn)樵S多可能的聲音和詞語被認(rèn)為是對于輸入音頻的可能匹配,點(diǎn)陣可能變得非常大。可能的匹配可以被示出為詞語結(jié)果網(wǎng)絡(luò)。語音辨識結(jié)果網(wǎng)絡(luò)是弧和節(jié)點(diǎn)的連接網(wǎng)絡(luò),所述弧和節(jié)點(diǎn)表示可以被辨識的語音單元的可能序列以及每一個(gè)序列的可能性。詞語結(jié)果網(wǎng)絡(luò)是詞語級別上的語音辨識結(jié)果網(wǎng)絡(luò)。其他級別的語音辨識網(wǎng)絡(luò)也是可能的。結(jié)果網(wǎng)絡(luò)可以由任意類型的語音辨識解碼器(或者引擎)生成。例如,結(jié)果網(wǎng)絡(luò)可以由基于有限狀態(tài)轉(zhuǎn)換機(jī)(FST)的解碼器生成。結(jié)果網(wǎng)絡(luò)可以用來創(chuàng)建一組最終的語音辨識結(jié)果,諸如最高評分結(jié)果的點(diǎn)陣或者N最佳列表。神經(jīng)網(wǎng)絡(luò)也可用來執(zhí)行ASR處理。

語音辨識引擎318可以返回路徑的N最佳列表連同它們的各自辨識得分,所述辨識得分對應(yīng)于由語音辨識引擎318確定的前N個(gè)路徑。接收N最佳列表的應(yīng)用(諸如在ASR裝置302內(nèi)部或者外部的程序或者部件)接著可以根據(jù)所述列表以及相關(guān)聯(lián)的辨識得分對所述列表執(zhí)行進(jìn)一步的操作或者分析。例如,N最佳列表可以用于修正錯(cuò)誤以及訓(xùn)練ASR模塊314的各種選項(xiàng)和處理狀況。語音辨識引擎318可以將實(shí)際正確的話語與N最佳列表上的最佳結(jié)果相比較并且與其他結(jié)果相比較,以便確定為什么不正確的辨識接收到特定辨識得分。語音辨識引擎318可以修正它的方法(或者可以更新在語音存儲裝置320中的信息)以便在未來的處理嘗試中降低不正確方法的辨識得分。

ASR裝置可用來處理與內(nèi)容項(xiàng)有關(guān)的語音命令。內(nèi)容項(xiàng)自身可在本地存儲在ASR裝置(諸如移動電話上的音樂收藏)上或遠(yuǎn)程地存儲(諸如可從遠(yuǎn)程服務(wù)器流式傳輸?shù)碾娪?。所述內(nèi)容項(xiàng)可包括例如音樂、電子書籍(電子書)、電影、聯(lián)系信息、文件、短消息服務(wù)通信、電子郵件和/或其他音頻、視頻或文本信息。ASR裝置的用戶可出于各種目的請求訪問此類內(nèi)容項(xiàng),包括回放、編輯、轉(zhuǎn)發(fā)等。例如,用戶可請求移動電話可以響應(yīng)于來自用戶的所說請求而播放音樂。為了執(zhí)行來自用戶的請求,可以將內(nèi)容項(xiàng)的目錄鏈接到詞語的字典或詞典。所述詞典可包括文本標(biāo)識符,所述文本標(biāo)識符可以是鏈接到單獨(dú)內(nèi)容項(xiàng)的文本標(biāo)識符。例如,文本標(biāo)識符可包括藝術(shù)家的姓名、唱片標(biāo)題、歌曲/電影/電子書標(biāo)題等等。每一個(gè)文本標(biāo)識符可對應(yīng)于目錄中的一個(gè)或多個(gè)內(nèi)容項(xiàng)(諸如鏈接到多個(gè)歌曲的樂隊(duì)名稱)并且每一個(gè)內(nèi)容項(xiàng)可鏈接到一個(gè)或多個(gè)文本標(biāo)識符(諸如鏈接到歌曲標(biāo)題、樂隊(duì)名稱、唱片名稱等的歌曲)。文本標(biāo)識符還可以指除數(shù)字內(nèi)容以外的項(xiàng)目。

如所述,詞典還可包括每一個(gè)文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音,這允許用戶通過語音命令訪問相關(guān)聯(lián)的內(nèi)容項(xiàng)。例如,用戶可試圖通過說出藝術(shù)家的姓名、唱片或歌曲標(biāo)題來播放存儲在音樂目錄中的歌曲??苫谠~語的拼寫來確定預(yù)期發(fā)音?;谄磳憗泶_定詞語的預(yù)期發(fā)音的過程被定義為字素到音素(G2P)轉(zhuǎn)換或發(fā)音猜測(通常被稱為發(fā)音猜測)。在一些情況下,文本標(biāo)識符可包括外源詞語。出于說明目的,在本申請中引用的外源詞語(或外語詞語)被視為具有相對于ASR系統(tǒng)的默認(rèn)語言的外源。出于本目的,ASR系統(tǒng)默認(rèn)語言被示出為英語,但是本文論述的技術(shù)可應(yīng)用到基于不同語言的ASR系統(tǒng)。

為了協(xié)助包含不同語言的詞語或語言特征的文本標(biāo)識符的ASR處理,本公開提供一種系統(tǒng),其中ASR系統(tǒng)被配置來基于文本標(biāo)識符的源語言預(yù)期所述文本標(biāo)識符的一個(gè)或多個(gè)發(fā)音。在本公開的一個(gè)方面中,ASR系統(tǒng)基于文本標(biāo)識符確定所述文本標(biāo)識符的源語言。ASR系統(tǒng)接著基于文本和所識別源語言確定所述文本標(biāo)識符的預(yù)期發(fā)音。ASR系統(tǒng)可確定特定文本標(biāo)識符的多個(gè)預(yù)期發(fā)音,每一個(gè)預(yù)期發(fā)音具有相關(guān)聯(lián)的可能性。還可基于用戶或一組用戶的發(fā)音傾向來調(diào)整預(yù)期發(fā)音(和/或它們相關(guān)聯(lián)的可能性)??梢詫㈩A(yù)期發(fā)音添加到詞典并且鏈接到它們各自的內(nèi)容項(xiàng),以便由ASR系統(tǒng)最終檢索。

為了確定源語言,ASR系統(tǒng)可采用基于拼寫/文本標(biāo)識符來預(yù)測源語言的分類器。分類器可以是統(tǒng)計(jì)模型,諸如基于字符的統(tǒng)計(jì)模型。由于文本標(biāo)識符(例如,樂隊(duì)名稱)可以相對于長形式文本(諸如文獻(xiàn)、段落等)較短,用于預(yù)測源語言的分類器可集中注意力于短文本的基本語言單元,而不是基于串接一個(gè)段落的多個(gè)文本的檢測,所述檢測可由預(yù)測系統(tǒng)的其他語言使用。例如,分類器可被訓(xùn)練來識別一個(gè)或多個(gè)語言(例如,語言A、B或C)中的字母序列的可能性。在一些方面中,可以分別學(xué)習(xí)每一個(gè)語言的可能性。分類器還可針對來自不同語言的詞語實(shí)現(xiàn)基于n-gram的字符模型。根據(jù)ASR系統(tǒng)的不同配置,n-gram可以基于項(xiàng)目的序列,所述項(xiàng)目諸如音素、音節(jié)、字母、詞語或基對。

可以分配表示詞語的拼寫匹配特定語言的可能性的得分。例如,可以將得分分配給兩個(gè)或更多個(gè)語言,文本標(biāo)識符(或其部分)可能來源所述語言。在一些方面中,所述得分可以是分配給不同語言中的每一個(gè)以便改善對源語言的識別的概率性權(quán)重。帶有針對外語詞語的最高得分的一個(gè)或多個(gè)語言可被識別為源語言。如果文本是“Gotye”,例如,70%的概率性權(quán)重可被分配給法語并且30%的概率性權(quán)重被分配給德語?;诖舜_定,可以將所述詞語針對法語和德語的預(yù)期發(fā)音和對應(yīng)的概率性權(quán)重添加到詞典。這種實(shí)現(xiàn)方式允許選擇文本的最有可能的源語言。在一個(gè)方面中,文本標(biāo)識符的各部分可具有不同的源語言得分。例如,名稱“Ludwig van Beethoven”的第一個(gè)詞語可具有強(qiáng)烈的德語得分,而中間的詞語可具有強(qiáng)烈的荷蘭語得分,等等。詞語的各部分還可具有彼此不同的語言得分。此類不同得分可用來創(chuàng)建不同的預(yù)期發(fā)音,如下文所描述。

在一些方面中,可基于機(jī)器學(xué)習(xí)分類器來實(shí)現(xiàn)分類器,其中在所述機(jī)器學(xué)習(xí)分類器處開發(fā)語言的特征。特征可包括文本標(biāo)識符詞語串的開始、中間或結(jié)尾中的特定字母組合?;谶@些特征,可以將得分分配給很可能包含所述特征的不同語言。例如,分類器識別特征,例如,在詞語串的中間存在V-A-N可暗示源語言是荷蘭語。分類器基于起源于所述語言中的每一個(gè)的文本標(biāo)識符的可能性將分?jǐn)?shù)或權(quán)重分配給可能的源語言中的每一個(gè)。其他分類器模型包括支持矢量機(jī)器/模型或者最大熵模型、字符級別語言模型和條件隨機(jī)域模型。這些模型可組合用于不同語言的特征和得分以便對最有可能的源語言進(jìn)行評分。

在本公開的一些方面中,可基于與內(nèi)容項(xiàng)相關(guān)聯(lián)的其他文本標(biāo)識符的源語言確定外語詞語的源語言。例如,如果特定藝術(shù)家的一個(gè)或多個(gè)歌曲的名稱或歌曲的歌詞是德語,那么可以增加藝術(shù)家的姓名是德語源的可能性。在這種情況下,歌曲標(biāo)題可用作證據(jù)來確定藝術(shù)家的姓名的源語言。此外,其他文本標(biāo)識符可包括與將要識別的內(nèi)容相關(guān)聯(lián)的元數(shù)據(jù)。例如,數(shù)字內(nèi)容項(xiàng)可以與元數(shù)據(jù)相關(guān)聯(lián),所述元數(shù)據(jù)識別或可用來識別文本標(biāo)識符的源語言。可以研究文本標(biāo)識符之間的其他關(guān)系來調(diào)整源語言的確定。

一旦一個(gè)或多個(gè)源語言與文本標(biāo)識符(或其部分)相關(guān)聯(lián),系統(tǒng)可基于文本標(biāo)識符的源語言和文本確定所述文本標(biāo)識符的預(yù)期發(fā)音。

在本公開的一些方面中,可以針對每一個(gè)可能的源語言開發(fā)轉(zhuǎn)換模型(諸如字素到音素(G2P)轉(zhuǎn)換或發(fā)音猜測模型)。轉(zhuǎn)換模型從外語文本的拼寫得到外語文本的發(fā)音。每一個(gè)語言包括不同的語言單元,諸如音素??梢圆捎每缯Z言映射技術(shù)來確定外語詞語的預(yù)期發(fā)音。可以將第一語言(例如,德語)的音素映射到第二語言(例如,英語)的音素,所述第二語言的音素最類似于所述第一語言的音素。然而,德語中的一些發(fā)音/音素可能不類似于或?qū)?yīng)于任何標(biāo)準(zhǔn)英語音素。例如,Kraftwerk中的第一個(gè)字母‘r’的德語發(fā)音不對應(yīng)于英語音素。字母‘r’的德語發(fā)音實(shí)際上是‘uvular/r/’,這是字母‘h’的發(fā)音與字母‘r’的發(fā)音之間的交叉。在此類情況下,可以將德語發(fā)音映射到最接近的英語音素。

在本公開的一個(gè)方面中,使用語言學(xué)技術(shù)來確定外語詞語的最接近發(fā)音。例如,可以實(shí)現(xiàn)語言學(xué)發(fā)音特征(諸如‘后舌音(backness)’、‘圓唇音(roundness)’、發(fā)音部位等)來確定外語詞語的最接近發(fā)音。發(fā)音部位可以是口腔中的部位,其中發(fā)音器官(例如,舌頭、牙齒、軟腭等)在發(fā)聲期間對空氣流進(jìn)行限制、塑形或封閉。實(shí)例包括雙唇音(嘴唇之間)、唇齒音(嘴唇與牙齒之間)、齒槽音(緊接在牙齒后面)和小舌音(靠近小舌)?!笊嘁簟杀欢x為聲音(通常為元音)朝向喉嚨被發(fā)音的程度。后元音可包括‘caught’的‘a(chǎn)u’、‘rote’的‘o’和‘lute’的‘u’。‘圓唇音’或‘圓唇讀音’可被定義為聲音(通常為元音,但不總是元音)利用圓形嘴唇被發(fā)音的程度。圓唇元音包括‘rote’的‘o’、‘lute’的‘u’??梢詰?yīng)用語言學(xué)技術(shù)來使用第一語言辨識器(例如,英語音素辨識器)辨識帶有目標(biāo)音素的外語詞語的一些實(shí)例。辨識器接著確定外語詞語的可能發(fā)音。

可以使用一些語言學(xué)技術(shù)(例如,預(yù)期最大化算法、統(tǒng)計(jì)模型、隱馬爾可夫模型(HMM))來分析多個(gè)詞語和它們對應(yīng)的發(fā)音的關(guān)聯(lián)以便確定新的詞語的預(yù)期發(fā)音。例如,可以分析包括德語詞語和對應(yīng)的德語發(fā)音的詞典來確定字母序列、音素序列和每一個(gè)詞語的聲音之間的關(guān)聯(lián)。例如,預(yù)期最大化算法可學(xué)習(xí)到英語中的字母P-H可被發(fā)音為F,除非有一些例外。預(yù)期最大化算法還可學(xué)習(xí)到E什么時(shí)候被發(fā)音為“eh”與“ee”等等??苫陬A(yù)期最大化算法的分析來開發(fā)模型并且使用所述模型來預(yù)測新的音素序列并且隨后預(yù)測新的詞語的預(yù)期發(fā)音。語言學(xué)技術(shù)可與其他技術(shù)結(jié)合使用來確定外語詞語的預(yù)期發(fā)音。

語言學(xué)技術(shù)還允許基于源語言來預(yù)測文本標(biāo)識符的多個(gè)替代發(fā)音。例如,每一個(gè)文本標(biāo)識符的多個(gè)發(fā)音可由圖來表示。圖的不同部分可表示文本標(biāo)識符的不同部分的可能發(fā)音。圖的一些部分,例如圖的邊緣,可被分配得分或權(quán)重來指示圖上的路徑的可能性。可以開發(fā)不同的圖來表示不同的語言(例如,英語和德語)。例如,可以針對英語和德語發(fā)音開發(fā)單獨(dú)的圖。在一些方面中,然而,單獨(dú)的圖可組合在一起以便預(yù)測外語詞語的混合發(fā)音。隨著文本標(biāo)識符的發(fā)音的發(fā)展,組合的圖允許兩種語言之間的交換,這在用戶可對文本標(biāo)識符的偏愛一種語言的部分以及文本標(biāo)識符的偏愛另一種語言的其他部分進(jìn)行發(fā)音的情況下是令人滿意的。

例如,德國樂隊(duì)“Kraftwerk”可以用德語發(fā)音(例如,K HH AA F T V EH R K)。然而,一些用戶可能不熟悉德語發(fā)音并且可能將樂隊(duì)名稱“Kraftwerk”發(fā)音為就好像它是英語詞語(例如,K R AE F T W UR K)。此外,一些用戶可能并不堅(jiān)持他們對于樂隊(duì)名稱的發(fā)音的選擇。因此,可以將文本標(biāo)識符(諸如樂隊(duì)名稱“Kraftwerk”)匹配到多個(gè)預(yù)期發(fā)音,其中每一個(gè)預(yù)期發(fā)音自身可基于多個(gè)不同的語言,這些語言包括文本標(biāo)識符的源語言。

一些用戶可具有第一源語言但是住在用戶用不同的語言交流的國家(或操作ASR裝置)。這些用戶可使用來自多個(gè)語言(包括用戶的源語言)的發(fā)音的組合來對外語詞語進(jìn)行發(fā)音。用戶可以用第一語言對外語語言的一部分進(jìn)行發(fā)音并且用一個(gè)或多個(gè)不同語言對其他部分進(jìn)行發(fā)音。例如,用戶可以用英語對樂隊(duì)名稱Kraftwerk的第一部分進(jìn)行發(fā)音(例如,K R AE F T)并且用德語對第二部分進(jìn)行發(fā)音(例如,V EH R K。)

英語發(fā)音(K R AE F T W UR K)、德語發(fā)音(K HH AAF T V EH R K)和組合發(fā)音(K R AE F T V EH R K)中的每一個(gè)在被添加到詞典時(shí)可匹配到樂隊(duì)名稱。多個(gè)預(yù)期發(fā)音和樂隊(duì)名稱可鏈接到存儲在ASR裝置中或其他地方的樂隊(duì)演唱的歌曲。

外語詞語的預(yù)期發(fā)音也可以基于特定用戶的發(fā)音歷史。例如,ASR系統(tǒng)可被訓(xùn)練來辨識特定用戶的發(fā)音方式或個(gè)人喜好。如果詞語基于所述詞語的拼寫在法語上權(quán)重為80%并且在英語上權(quán)重為20%,分類器或語音辨識模型可基于特定用戶的個(gè)人喜好調(diào)整分配給語言的權(quán)重。發(fā)音方式還可基于特定用戶所偏愛的語言的等級。例如,可基于用戶所偏愛的語言來調(diào)整分配給語言的權(quán)重。例如,名稱Ludwig van Beethoven可具有不同的發(fā)音版本,這是由于它的德語和荷蘭語起源。在這種情況下,可以將權(quán)重分配給德語(例如,60%)和荷蘭語(例如,40%)??苫谔囟ㄓ脩粼诎l(fā)音諸如名稱Ludwig van Beethoven的外源詞語時(shí)是否偏愛英語、德語或荷蘭語來調(diào)整所分配權(quán)重。所得的發(fā)音可以是德語、荷蘭語和英語的混合或組合。

可基于用戶對相同或不同詞語的歷史發(fā)音來確定用戶的發(fā)音方式。基于發(fā)音方式或歷史,ASR裝置可預(yù)期用戶對相同或不同詞語的未來發(fā)音。ASR裝置還可基于用戶的發(fā)音方式學(xué)習(xí)到用戶是否熟悉一個(gè)或多個(gè)語言的發(fā)音。例如,基于樂隊(duì)名稱Kraftwerk的用戶發(fā)音歷史,ASR裝置可預(yù)期其他德語詞語(諸如“Einstürzende Neubauten”或“Gustav Mahler”)的用戶發(fā)音。ASR裝置還可針對特定用戶基于用戶的發(fā)音方式將權(quán)重分配給各種語言。例如,ASR裝置可將更多權(quán)重分配給用戶在發(fā)音外源詞語時(shí)所偏愛的發(fā)音(例如,用一種語言或語言的組合)。類似地,特定用戶的所偏愛語言或所偏愛路徑在圖上的表示可被分配更高的得分或權(quán)重。更高得分的分配允許圖的這些路徑變得更有可能表示用戶對外語詞語的預(yù)期發(fā)音。因此,預(yù)期發(fā)音可以與預(yù)期發(fā)音的圖、預(yù)期發(fā)音的N最佳列表或預(yù)期發(fā)音的一些其他組織相關(guān)聯(lián)。

此外,出于加權(quán)或確定預(yù)期發(fā)音的目的,可以將帶有類似行為的多個(gè)用戶可聚集在一起。基于所聚集用戶的行為來選擇用于所聚集用戶的自動語音辨識技術(shù)的特征。例如,用戶的群集可具有類似的音樂品味(例如,帶有印度來源的音樂)并且可以因此具有以印度音樂為主導(dǎo)的音樂目錄。因此,來自所述群集中所包括的新用戶的發(fā)音可類似于群集中的其他用戶被處理,或者可遵循沿著所述圖(表示外語詞語的可能發(fā)音)的類似途徑??梢詫?quán)重分配給與用戶群集相關(guān)聯(lián)的語音辨識技術(shù)(例如,發(fā)音、優(yōu)選語言等)的對應(yīng)特征。因此,可基于用戶的行為方式或帶有類似的行為方式的用戶群集來修整所述圖(表示外語詞語的可能發(fā)音)。

圖6示出根據(jù)本公開的一個(gè)方面的用于在語音辨識中基于源語言來預(yù)測外語文本的預(yù)期發(fā)音的方法的流程圖。所述方法可以在預(yù)期發(fā)音預(yù)測模塊128、ASR裝置100和/或遠(yuǎn)程語音處理裝置(例如,ASR裝置302)中實(shí)現(xiàn)。在框602處,可以將將要使用戶可獲得的內(nèi)容并入到可供ASR裝置100獲得的目錄中。在框604處,可以將一個(gè)或多個(gè)文本標(biāo)識符鏈接到內(nèi)容項(xiàng),如在框604中所示。在框606處,ASR系統(tǒng)可基于文本標(biāo)識符確定一個(gè)或多個(gè)源語言。源語言可各自與文本標(biāo)識符的得分和/或特定部分相關(guān)聯(lián)。在框608處,ASR系統(tǒng)可至少部分地基于所確定的源語言來確定文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音。基于源語言的預(yù)期發(fā)音可各自與文本標(biāo)識符的得分和/或特定部分相關(guān)聯(lián)。在框610處,ASR系統(tǒng)可至少部分地基于用戶信息和/或用戶歷史確定文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音。用戶歷史可包括用戶的母語或常用語言。用戶歷史還可包括用戶以前如何發(fā)音類似的詞語。用戶信息還可包括裝置或用戶的環(huán)境的語言。環(huán)境的語言可包括在裝置的位置處使用的語言,這可以通過使位置數(shù)據(jù)與地理區(qū)域的已知語言相關(guān)、通過確定在由裝置檢測到的其他語音中所識別的語言或通過其他手段來確定。環(huán)境的語言還可包括ASR系統(tǒng)的默認(rèn)語言?;谟脩舻恼Z言的預(yù)期發(fā)音可各自與文本標(biāo)識符的得分和/或特定部分相關(guān)聯(lián)。

在框612處,ASR系統(tǒng)可組合預(yù)期發(fā)音并且至少部分地基于文本標(biāo)識符的源語言與用戶的所確定語言的組合來確定文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音。基于用戶的語言組合的預(yù)期發(fā)音可各自與文本標(biāo)識符的得分和/或特定部分相關(guān)聯(lián)。在框614處,可基于用戶歷史(諸如用戶的典型發(fā)音或用戶類別)來調(diào)整每一個(gè)預(yù)期發(fā)音和/或其權(quán)重或優(yōu)先權(quán)。在框616處,可以將預(yù)期發(fā)音與詞典中的文本識別符和/或內(nèi)容項(xiàng)相關(guān)聯(lián)。

預(yù)期發(fā)音的上述確定可在ASR系統(tǒng)的訓(xùn)練或配置期間發(fā)生,或者可在新的內(nèi)容變得可供ASR裝置獲得(通過添加到本地存儲裝置,或通過變得可供ASR裝置獲得但是遠(yuǎn)程地存儲)時(shí)被執(zhí)行。預(yù)期發(fā)音的確定可由本地ASR裝置、遠(yuǎn)程ASR裝置或其組合來執(zhí)行。

在接收所說話語后,ASR系統(tǒng)可處理所述話語,如在圖7中所示。在框702處,接收包括所說文本標(biāo)識符的話語。在框704處,ASR系統(tǒng)可將所說文本標(biāo)識符與所述文本標(biāo)識符的一個(gè)或多個(gè)預(yù)期發(fā)音相匹配。所述匹配可包括返回可能的匹配的N最佳列表或直接返回最高評分匹配。在框706處,確定與最高評分匹配文本標(biāo)識符相關(guān)聯(lián)的內(nèi)容項(xiàng)。在框708處,訪問內(nèi)容項(xiàng)并且與話語相關(guān)聯(lián)的任意命令(諸如播放音樂)可由ASR系統(tǒng)或由另一裝置執(zhí)行。

本公開的上述方面意圖是說明性的。它們被選擇來解釋本公開的原理和應(yīng)用,并且不意圖是詳盡無遺的或者限制本公開。本公開的方面的許多修改和變形可以對本領(lǐng)域技術(shù)人員顯而易見。例如,基于存儲在語音存儲裝置中的語言信息,可以將本文描述的ASR技術(shù)應(yīng)用到許多不同的語言。

本公開的方面可以被實(shí)現(xiàn)為計(jì)算機(jī)實(shí)現(xiàn)的方法、系統(tǒng),或者實(shí)現(xiàn)為諸如存儲器裝置或者非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì)的制品。計(jì)算機(jī)可讀存儲介質(zhì)可由計(jì)算機(jī)讀取并且可以包括用于促使計(jì)算機(jī)或者其他裝置執(zhí)行本公開中描述的過程的指令。計(jì)算機(jī)可讀存儲介質(zhì)可以通過易失性計(jì)算機(jī)存儲器、非易失性計(jì)算機(jī)存儲器、硬盤驅(qū)動器、固態(tài)存儲器、閃存驅(qū)動器、可移動磁盤和/或其他介質(zhì)來實(shí)現(xiàn)。

本公開的方面可能以軟件、固件和/或硬件的不同形式來執(zhí)行。此外,本公開的教義可以通過例如專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)或者其他部件來執(zhí)行。

本公開的方面可以在單個(gè)裝置上執(zhí)行或者可以在多個(gè)裝置上執(zhí)行。例如,包括本文中描述的一個(gè)或多個(gè)部件的程序模塊可以定位在不同的裝置中并且可以各自執(zhí)行本公開的一個(gè)或多個(gè)方面。如在本公開中所使用,術(shù)語“一個(gè)(a)”或者“一個(gè)(one)”可以包括一個(gè)或多個(gè)項(xiàng)目,除非另外特別說明。此外,短語“基于”意圖指“至少部分地基于”,除非另外特別說明。

條款

1.一種用于處理所說話語的計(jì)算機(jī)實(shí)現(xiàn)的方法,所述方法包括::

至少部分地基于歌曲標(biāo)題的拼寫確定所述歌曲標(biāo)題的至少一個(gè)源語言;

至少部分地基于所述至少一個(gè)源語言和用戶所說的語言確定所述歌曲標(biāo)題的多個(gè)可能發(fā)音,其中所述多個(gè)可能發(fā)音中的每一個(gè)與得分相關(guān)聯(lián);

存儲所述多個(gè)可能發(fā)音中的每一個(gè)與所述歌曲標(biāo)題之間的關(guān)聯(lián);

接收包括對播放歌曲的請求的所說話語;

至少部分地基于所述多個(gè)可能發(fā)音中的一個(gè)的得分將所述所說話語的一部分與所述多個(gè)可能發(fā)音中的所述一個(gè)相匹配;

至少部分地基于所述多個(gè)可能發(fā)音中的所述一個(gè)識別所述歌曲;以及

促使所述歌曲在計(jì)算裝置上播放。

2.如條款1所述的方法,其中確定所述多個(gè)可能發(fā)音還至少部分地基于詞語的用戶發(fā)音歷史,所述詞語具有與所述歌曲標(biāo)題一樣的至少一個(gè)源語言。

3.如條款1所述的方法,其還包括通過將第一源語言與所述歌曲標(biāo)題的一部分相關(guān)聯(lián)并且將第二源語言與所述歌曲標(biāo)題的第二部分相關(guān)聯(lián)來確定至少一個(gè)可能發(fā)音。

4.如條款1所述的方法,其中確定所述歌曲標(biāo)題的所述至少一個(gè)源語言至少部分地基于能夠被所述計(jì)算裝置播放的其他歌曲的源語言。

5.一種計(jì)算系統(tǒng),其包括:

至少一個(gè)處理器;

存儲器裝置,其包括可操作來由所述至少一個(gè)處理器執(zhí)行以便執(zhí)行一組動作的指令,所述指令配置所述至少一個(gè)處理器:

來確定文本標(biāo)識符的可能源語言,其中所述可能源語言至少部分地基于文本標(biāo)識符;

來確定所述文本標(biāo)識符的可能發(fā)音,其中所述可能發(fā)音至少部分地基于所述可能源語言和可能的所說語言;并且

來存儲所述可能發(fā)音與所述文本標(biāo)識符之間的關(guān)聯(lián)。

6.如條款5所述的計(jì)算系統(tǒng),其中所述指令還配置所述至少一個(gè)處理器:

來確定所述文本標(biāo)識符的第二可能源語言,其中所述第二可能源語言至少部分地基于所述文本標(biāo)識符;

來確定所述文本標(biāo)識符的第二可能發(fā)音,其中所述第二可能發(fā)音至少部分地基于所述第二可能源語言;并且

來存儲所述第二可能發(fā)音與所述文本標(biāo)識符之間的關(guān)聯(lián)。

7.如條款6所述的計(jì)算系統(tǒng),其中所述可能源語言、第二可能源語言、可能發(fā)音和第二可能發(fā)音每一個(gè)均與各自得分相關(guān)聯(lián)。

8.如條款5所述的計(jì)算系統(tǒng),其中所述至少一個(gè)處理器還被配置來確定所述文本標(biāo)識符的第二可能源語言,并且其中:

所述可能源語言與所述文本標(biāo)識符的第一部分相關(guān)聯(lián),

所述第二可能源語言與所述文本標(biāo)識符的第二部分相關(guān)聯(lián),并且

所述可能發(fā)音還至少部分地基于所述第二可能源語言。

9.如條款5所述的計(jì)算系統(tǒng),其中所述至少一個(gè)處理器還被配置來還至少部分地基于用戶的發(fā)音歷史確定所述可能發(fā)音。

10.如條款9所述的計(jì)算系統(tǒng),其中用戶的所述發(fā)音歷史包括所述用戶所說的語言。

11.如條款5所述的計(jì)算系統(tǒng),其中所述至少一個(gè)處理器還被配置來還至少部分地基于與所述文本標(biāo)識符相關(guān)聯(lián)的第二文本標(biāo)識符的源語言確定所述可能源語言。

12.如條款5所述的計(jì)算系統(tǒng),其中所述指令還配置所述至少一個(gè)處理器:

來接收包括話語的音頻數(shù)據(jù);

來識別所述話語中的所述可能發(fā)音;

來基于所述所存儲關(guān)聯(lián)識別所述文本標(biāo)識符;并且

來檢索與所述文本標(biāo)識符相關(guān)聯(lián)的內(nèi)容項(xiàng)的至少一部分。

13.如條款5所述的計(jì)算系統(tǒng),其中所述文本標(biāo)識符包括將由所述計(jì)算裝置訪問的藝術(shù)家、唱片、樂隊(duì)、電影、書籍、歌曲和/或食物項(xiàng)的名稱。

14.如條款5所述的計(jì)算系統(tǒng),其中所述可能的所說語言包括與所述系統(tǒng)的裝置的位置相關(guān)聯(lián)的語言。

15.如條款5所述的計(jì)算系統(tǒng),其中所述至少一個(gè)處理器還被配置來使用有限狀態(tài)轉(zhuǎn)換機(jī)(FST)模型、最大熵模型、字符級別語言模型和/或條件隨機(jī)場模型中的至少一個(gè)確定所述文本標(biāo)識符的所述可能發(fā)音。

16.一種存儲用于控制計(jì)算裝置的處理器可執(zhí)行指令的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其包括:

用來確定文本標(biāo)識符的可能源語言的程序代碼,其中所述可能源語言至少部分地基于文本標(biāo)識符;

用來確定所述文本標(biāo)識符的可能發(fā)音的程序代碼,其中所述可能發(fā)音至少部分地基于所述可能源語言和可能的所說語言;以及

用來存儲所述可能發(fā)音與所述文本標(biāo)識符之間的關(guān)聯(lián)的程序代碼。

17.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其還包括::

用來確定所述文本標(biāo)識符的第二可能源語言的程序代碼,其中所述第二可能源語言至少部分地基于所述文本標(biāo)識符;

用來確定所述文本標(biāo)識符的第二可能發(fā)音的程序代碼,其中所述第二可能發(fā)音至少部分地基于所述第二可能源語言;以及

用來存儲所述第二可能發(fā)音與所述文本標(biāo)識符之間的關(guān)聯(lián)的程序代碼。

18.如條款17所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其中所述可能源語言、第二可能源語言、可能發(fā)音和第二可能發(fā)音每一個(gè)均與各自得分相關(guān)聯(lián)。

19.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其還包括用來確定所述文本標(biāo)識符的第二可能源語言的程序代碼,并且其中:

所述可能源語言與所述文本標(biāo)識符的第一部分相關(guān)聯(lián),

所述第二可能源語言與所述文本標(biāo)識符的第二部分相關(guān)聯(lián),并且

所述可能發(fā)音還至少部分地基于所述第二可能源語言。

20.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其還包括用來還至少部分地基于用戶的發(fā)音歷史確定所述可能發(fā)音的程序代碼。

21.如條款20所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其中用戶的所述發(fā)音歷史包括所述用戶所說的語言。

22.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其還包括用來還至少部分地基于與所述文本標(biāo)識符相關(guān)聯(lián)的第二文本標(biāo)識符的源語言確定所述可能源語言的程序代碼。

23.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其還包括::

用來接收包括話語的音頻數(shù)據(jù)的程序代碼;

用來識別所述話語中的所述可能發(fā)音的程序代碼;

用來基于所述所存儲關(guān)聯(lián)識別所述文本標(biāo)識符的程序代碼;以及

用來檢索與所述文本標(biāo)識符相關(guān)聯(lián)的內(nèi)容項(xiàng)的至少一部分的程序代碼。

24.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其中所述文本標(biāo)識符包括將由所述計(jì)算裝置訪問的藝術(shù)家、唱片、樂隊(duì)、電影、書籍、歌曲和/或食物項(xiàng)的名稱。

25.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其中所述可能的所說語言與所述系統(tǒng)的裝置的位置相關(guān)聯(lián)。

26.如條款16所述的非暫時(shí)性計(jì)算機(jī)可讀存儲介質(zhì),其中用來確定所述文本標(biāo)識符的所述可能發(fā)音的所述程序代碼至少部分地基于有限狀態(tài)轉(zhuǎn)換機(jī)(FST)模型、最大熵模型、字符級別語言模型和/或條件隨機(jī)場模型。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1