本說明書大體上涉及語音識別。
背景技術:
裝置的用戶可以按照多種不同的方式與裝置交互,方式包括,例如,使用鼠標或者觸控板從所顯示的一組項中做出選擇、經由鍵盤輸入字符、或者對著麥克風說出語音命令。當處理語音命令時,如果說話者使用偏離與在發(fā)音字典中的單詞相關聯(lián)的規(guī)范發(fā)音的特定單詞的發(fā)音,則自動語音識別器(asr)可能難以準確地識別語音命令。
技術實現要素:
本公開的方面可以促進基于用戶與移動裝置的交互實施可以存儲實體名稱的不同的、非規(guī)范發(fā)音的發(fā)音字典。在某些情況下,發(fā)音字典可以適應可能會更改用戶對某些單詞的發(fā)音的用戶語音的唯一特征。例如,可以對發(fā)音字典進行初始化,從而使實體名稱“mara”與音標發(fā)音“maw·rra”對應。然而,通過利用本公開的方面,發(fā)音字典可以學習特定用戶將實體名稱“mara”發(fā)音為“ma·ra”。因此,基于與特定用戶的交互,發(fā)音字典可以學習將發(fā)音“ma·ra”與實體名稱“mara”相關聯(lián)。通過利用本公開的方面,可以提供改進的語音識別和更高質量的轉錄。
在某些方面中,本說明書中所體現的主題可以體現為方法,該方法包括如下動作:接收與包括命令和實體名稱的講話對應的音頻數據。附加動作可以包括:通過自動語音識別器,生成音頻數據中與實體名稱相關聯(lián)的部分的初始轉錄,接收講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄,響應于接收到講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄,獲取與音頻數據中與實體名稱相關聯(lián)的部分相關聯(lián)的音標發(fā)音,對發(fā)音字典進行更新以將音標發(fā)音與實體名稱相關聯(lián),接收包括實體名稱的后續(xù)發(fā)言,以及至少部分地基于更新后的發(fā)音字典來對后續(xù)講話進行轉錄。
其它版本包括編碼在計算機存儲裝置上的、被配置為執(zhí)行方法的動作的對應系統(tǒng)、設備、計算機程序、以及該配置為使計算設備執(zhí)行方法的動作的計算機程序。
這些和其它版本可以分別可選地包括以下特征中的一個或者多個。例如,在某些實施方式中,接收對講話中與實體名稱相關聯(lián)的部分的、與初始轉錄不同的修正轉錄可以包括:接收指示從一個或者多個實體名稱的列表中選擇實體名稱的數據,或者接收指示經由小鍵盤輸入并且作為對實體名稱的指示的一個或者多個字符的數據。
在某些方面中,對發(fā)音字典進行更新可以包括:識別與實體名稱相關聯(lián)的發(fā)音字典條目,刪除該條目的與初始轉錄的音標發(fā)音對應的部分,以及將與獲取的音標發(fā)音相關聯(lián)的音標發(fā)音存儲在與實體名稱相關聯(lián)的發(fā)音字典條目中。
在某些實施方式中,該方法可以包括如下動作:將時間戳與接收到的音頻數據的至少一部分相關聯(lián);以及對接收到的音頻數據的一個或者多個部分進行緩存,直到識別到對講話的正確轉錄并且完成與接收到的講話相關聯(lián)的所述命令。在這種實施方式中,獲取與音頻數據中與實體名稱相關聯(lián)的部分相關聯(lián)的音標發(fā)音可以包括:基于與接收到的音頻數據的至少一部分相關聯(lián)的時間戳來獲取最近接收到的音頻數據的部分;以及基于通過使用聲學模型而獲取到的一組音素來生成所獲取的最近接收到的音頻數據的部分的音標發(fā)音。
在其它實施方式中,該方法可以包括動作,該動作包括:響應于將發(fā)音字典更新為包括獲取到的音標發(fā)音,增加與音標發(fā)音相關聯(lián)的全局計數器。
在這種實施方式中,確定與音標發(fā)音相關聯(lián)的全局計數器超過預定閾值,以及響應于確定與音標發(fā)音相關聯(lián)的全局計數器已經超過預定閾值,將在全局發(fā)音字典中與實體名稱相關聯(lián)的發(fā)音字典條目更新為包括與正確轉錄相關聯(lián)的音標發(fā)音。
在附圖和以下描述中陳述了一種或者多種實施方式的細節(jié)。其它特征和優(yōu)點將通過描述和附圖并且通過權利要求書變得顯而易見。
附圖說明
圖1a和圖1b是示出了用于學習個性化實體名稱發(fā)音的系統(tǒng)的特征的場境示意圖。
圖2是可以用來學習在個性化全局發(fā)音字典中的聯(lián)系人發(fā)音的過程的示例的流程圖。
圖3是可以用來學習在全局發(fā)音字典中的實體發(fā)音的過程的示例的流程圖。
具體實施方式
圖1a是示出了用于學習個性化實體名稱發(fā)音的系統(tǒng)100a的特征的場境示意圖。系統(tǒng)100a可以包括用戶100、用戶的移動裝置120、和服務器130。移動裝置120可以經由一個或者多個有線或者無線網絡與服務器130進行通信160、162、164。網絡可以包括,例如,無線蜂窩網絡、無線局域網(wlan)或者wi-fi網絡、第三代(3g)或者第四代(4g)移動通信網絡、專用網絡(諸如,內聯(lián)網)、公共網絡(諸如,互聯(lián)網)、或者其任何組合。移動裝置120可以是移動電話、智能電話、智能手表、平板計算機、膝上型計算機或者臺式計算機、電子書閱讀器、音樂播放器、pda、或者可以包括一個或者多個處理器和計算機可讀介質的其它固定式或者便攜式裝置。
用戶的移動裝置120可以包括一個或者多個物理按鈕121a、121b、121c、圖形用戶界面122、麥克風125、和輸出揚聲器126。物理按鈕121a、121b、121c中的每一個可以被配置為響應于用戶選擇物理按鈕來執(zhí)行特定功能。例如,物理按鈕121a、121b、121c可以是電源按鈕、音量按鈕、主頁按鈕等。在一種實施方式中,諸如物理按鈕121a的物理按鈕可以被配置為:在選擇了物理按鈕121a之后,啟動麥克風125。圖形用戶界面122可以包括電容式觸摸屏界面,該電容式觸摸屏界面被配置為接收由用戶100可以通過使用觸控筆、用戶100的手指、或者其它指向工具輸入的輕敲、姿勢等形式的輸入。
圖形用戶界面122可以由一個或者多個不同的部分組成。必要時,圖形用戶界面122的不同的部分中的每一個可以被單獨顯示、或者一次被顯示一個??商娲?,圖形用戶界面122的不同的部分中的一個或者多個可以同時被顯示為分開的屏幕,如圖1所示。例如,圖形用戶界面的第一部分可以提供一個或者多個可選圖標123的顯示??蛇x圖標123可以分別與特定命令、特定應用、對一個或者多個應用進行分組的文件夾等對應。在某些情況下,可以利用可選圖標來替代一個或者多個物理按鈕121a、121b、121c。例如,可以將可選圖標提供為充當主頁按鈕??商娲?,例如,可選圖標可以用于啟動麥克風125。在其它實施方式中,可選圖標可以被配置為響應于對可選圖標的選擇來打開特定應用。在其它實施方式中,對可選圖標的選擇可以打開文件夾,該文件夾觸發(fā)分別與特定應用或者嵌套文件夾對應的附加可選圖標的顯示。
圖形用戶界面122的其它部分可以包括可以針對來自用戶100的附加信息提供一個或者多個提示124的顯示。例如,該顯示可以針對與所說出的講話的至少一部分的轉錄有關的用戶輸入提供提示124??商娲?,顯示屏幕可以被配置為向用戶提供電話呼叫的當前狀態(tài)的指示(參見圖1b)。其它類型的數據可以被顯示在圖形用戶界面122的對應部分中。
服務器130可以由分別包括處理器132和存儲器134的一個或者多個計算裝置組成。處理器132可以由被配置為執(zhí)行與存儲在存儲器134中的應用相關聯(lián)的指令的一個或者多個處理器組成。存儲器134可以包括一個或者多個存儲器單元,該一個或者多個存儲器單元可以由相同或者不同類型的存儲裝置組成。例如,存儲器134可以包括被配置為存儲活躍運行的應用的ram部分??商娲?,或者另外,存儲器134必要時可以包括一個或者多個數據存儲單元,該一個或者多個數據存儲單元可以被配置為存儲可以被訪問和被傳遞至存儲器134的ram部分的數據。
存儲在存儲器130中的應用可以包括,例如,自動語音識別器140和個性化發(fā)音字典150。自動語音識別器140可以促進如下能力,諸如,例如,將從移動裝置120接收到160的音頻信號114的一個或者多個部分轉換為另一種形式的媒體。例如,自動語音識別器140可以將接收到的音頻114轉換為文本。將接收到的音頻信號114轉換為文本可以包括:例如,利用聲學模型來識別最有可能與接收到的音頻信號114的全部或者部分相關聯(lián)的一組音素。然后,可以將識別到的一組音素映射到音標字典。
在某些實施方式中,音標發(fā)音可以,例如,唯一地識別與個性化發(fā)音字典150的特定實體對應的特定實體名稱。因此,自動語音識別器140、或者服務器140的另一組件可以使用音標發(fā)音來根據用戶的個性化發(fā)音字典150檢索對應的實體名稱。然而,在某些實例中,自動語音識別器140可以確定個性化發(fā)音字典150不包括可以由獲取到的音標發(fā)音足以識別到的任何實體名稱。在這種情況下,自動語音識別器140可以將最好的可用轉錄116返回到162移動裝置120。最好的可用轉錄116可以是在個性化發(fā)音字典150中與獲取到的音標發(fā)音對應的最接近的實體名稱。可替代地,例如,最好的可用轉錄116可以是由自動語音識別器140通過使用一個或者多個其它語音轉換應用、字典等來生成的轉錄。
個性化發(fā)音字典150可以包括多個條目,每個條目包括與特定實體相關聯(lián)的信息。例如,在階段“a”中的個性化發(fā)音字典152可以包括一個或者多個條目,每個條目包括聯(lián)系人姓名152a和發(fā)音152b??梢岳妹總€實體名稱152a的一組默認音標發(fā)音152b來初始在階段“a”中的個性化發(fā)音字典152。該一組默認音標發(fā)音可以基于每個相應實體名稱152a的典型發(fā)音152b。典型發(fā)音可以是,例如,通過標準字典與單詞相關聯(lián)的發(fā)音。另外,應該認為,用戶的語音的唯一特性可以隨時間而變化,或者可能存在相同電話的多個用戶,該多個用戶分別具有不同的語音特性。因此,典型發(fā)音也可以是,例如,用戶在過去的某個時候與實體名稱相關聯(lián)的發(fā)音。
然而,個性化發(fā)音字典150可以被配置為:基于與系統(tǒng)100a的用戶100的交互,存儲不同的發(fā)音。結果,與特定實體相關聯(lián)的特定音標發(fā)音可以隨時間而變化。在圖1中,可以相對于從在第一階段“a”中的個性化發(fā)音字典152到在第二階段“b”中的對應的個性化發(fā)音字典154的轉變,描繪在第一階段“a”中的特定實體名稱152a的音標發(fā)音152b的這種變化。在第二階段“b”中的個性化發(fā)音字典154指示已經將實體“fuchun”的發(fā)音從先前與在階段“a”中的個性化發(fā)音字典152中的實體“fuchun”相關聯(lián)的典型發(fā)音“fyoo·chuh·n”更新為“fawr·chuh·n”。個性化發(fā)音字典150可以被配置為:基于任何類型的發(fā)音系統(tǒng)來存儲任何類型的發(fā)音,發(fā)音系統(tǒng)包括,例如,國際音標(ipa)、擴展語音評估方法音標(x-sampa)等。
在一個方面中,用戶100可以將輸入提供至移動裝置120,該輸入啟動移動裝置120的麥克風125。例如,用戶100可以選擇啟動麥克風125的物理按鈕121a??商娲兀溈孙L125可以由發(fā)出特定語音命令的用戶啟動。例如,麥克風125可以被配置為被動地聆聽在麥克風125范圍內的所有聲音,以檢測特定啟動命令。一旦麥克風125檢測到特定啟動命令,麥克風125就可以將其操作模式改變?yōu)槟軌虿蹲絹碜杂脩?00的后續(xù)語音命令的主動聆聽模式。
一旦已經啟動麥克風,用戶100就可以說出可以由與用戶的移動裝置120相關聯(lián)的麥克風125檢測到的講話110。講話110可以包括命令110a和實體名稱110b。例如,在圖1的示例中,用戶100可以說出講話,諸如,例如,“呼叫fuchun”110。與講話110相關聯(lián)的命令110a是“呼叫”命令?!昂艚小泵羁梢园l(fā)起與實體的語音或者視頻通信的連接。在這種情況下,講話110也將實體110b“fuchun”識別為待呼叫實體。
雖然在這種情況下將實體的示例陳述為可以被呼叫的個人聯(lián)系人的姓名,但是本文所描述的實體不應該限于此。相反,實體可以包括,例如,任何人、地方、或者事物的任何標識符。例如,實體名稱可以包括餐廳的名稱,諸如,例如,cityzen??商娲?,例如,實體名稱可以包括街道名稱,例如,washingtonpike(華盛頓派克),或者甚至街道地址,諸如,例如,washingtonpike1599(華盛頓派克1599號)。在其它實施方式中,實體名稱可以是城市和/或州,諸如,加州拉荷雅。在其它實施方式中,實體名稱可以包括地標,諸如,例如,約塞米蒂國家公園。本公開可以利用其它類型的實體名稱。
可以基于與用戶100的語音相關聯(lián)的特性來對講話110的每個部分唯一地發(fā)音。用戶100的語音的特性可以包括,例如,用戶100的口音、音素選擇、偏好等,并且每一個可以對特定實體名稱110b的用戶100的發(fā)音具有獨特影響。在該特定示例中,雖然實體“fuchun”的典型發(fā)音可以是“fyoo·chuh·n”,但是用戶100已經將實體名稱“fuchun”發(fā)音為“fawr·chuh·n”112。麥克風125可以捕捉與講話110相關聯(lián)的音頻信號,并且將與講話110相關聯(lián)的音頻信號114傳輸160至將用戶100的個性化語音字典152維持在第一階段“a”中的服務器130。音頻信號114可以包括音頻信號中與命令110a對應的第一部分和音頻信號中與實體名稱110b對應的第二部分。
服務器130可以接收與講話110對應的音頻信號114,并且將接收到的音頻信號114轉發(fā)至自動語音識別器140。自動語音識別器140然后可以提取音頻信號114中與實體名稱110b對應的部分。自動語音識別器140可以將時間戳與音頻信號114的所提取部分相關聯(lián),并且將音頻信號114的所提取部分存儲在存儲器134的被指定為對音頻信號114的傳入部分進行緩存的部分中,該傳入部分可以與一個或者多個用戶100的語音講話110對應。存儲器134可以無限期地存儲音頻信號114的所提取部分??商娲?,然而,存儲器134可以僅在預定時間段內存儲音頻信號114的所提取部分。例如,可以存儲音頻信號114的所提取部分,直到確定與音頻信號114的所提取部分相關聯(lián)的實體名稱的正確轉錄??商娲?,或者另外,可以存儲音頻信號114的所提取部分,直到完成命令110a。自動語音識別器140然后可以識別最有可能與音頻信號114的所提取部分相關聯(lián)的一組音素,并且然后將該一組音素映射到音標發(fā)音。
基于圖1a中所描繪的示例,自動語音識別器140可以為由用戶100發(fā)音為“fawr·chuh·n”的實體名稱110b“fuchun”生成音標轉錄。然后,在對與音標發(fā)音“fawr·chuh·n”相關聯(lián)的實體名稱進行任何更新之前,可以使用音標發(fā)音“fawr·chuh·n”來搜索存在于第一階段“a”中的用戶100的個性化發(fā)音字典152。在階段“a”中,個性化發(fā)音字典152不包括與音標發(fā)音“fawr·chuh·n”足以相關聯(lián)的任何條目。自動語音識別引擎140可以使用一個或者多個其它語音轉換過程來確定音標發(fā)音“fawr·chuh·n”的最接近的音標發(fā)音。在圖1a的示例中,自動語音識別引擎140可以確定與音標發(fā)音足以對應的實體名稱是“fortune”,并且因此對音頻信號114的所提取部分進行轉錄。自動語音識別引擎140然后可以請求服務器130將生成的轉錄116傳輸162回用戶100的移動裝置120。
服務器130也可以將附加信息傳輸162至可以與轉錄116相關聯(lián)的移動裝置120。例如,可以被傳輸162至移動裝置120的轉錄116也可以與用戶100的階段“a”中的個人發(fā)音字典152不包括與音標發(fā)音“fawr·chuh·n”對應的任何條目的指示相關聯(lián)??商娲?,或者另外,轉錄116也可以與階段“a”中的用戶100的個性化發(fā)音字典152中的一個或者多個聯(lián)系人的列表相關聯(lián),該一個或者多個聯(lián)系人可能和對應于音頻信號114的所提取部分的生成的音標發(fā)音最匹配??梢酝ㄟ^服務器130將附加信息提供至移動裝置120,以向用戶100提示可以用來幫助個性化發(fā)音字典150學習用戶100說出的唯一實體發(fā)音112的反饋信息。
響應于接收到轉錄116“fortune”和連同轉錄116一起傳輸的附加信息,移動裝置120可以向用戶100提示124與轉錄116有關的反饋信息。例如,響應于確定接收到的轉錄116與用戶100的階段“a”中的個人發(fā)音字典152不包括與轉錄“fortune”對應的任何條目的指示相關聯(lián),移動裝置120可以生成提示124。提示124可以,例如,提供一個或者多個聯(lián)系人姓名的列表,該一個或者多個聯(lián)系人姓名存儲在用戶100的階段“a”中的個人發(fā)音字典152中,該一個或者多個聯(lián)系人姓名與用于生成轉錄116的音標發(fā)音最匹配。在一個示例中,提示124可以要求用戶選擇用戶在以發(fā)音為“fawr·chuh·n”實體名稱112說出語音講話110時用戶100想要呼叫的聯(lián)系人姓名。例如,提供給用戶100的聯(lián)系人姓名的列表可以包括fuchini、fucili、和fuchun,它們中的每一個可以與在階段“a”中的用戶100的個性化發(fā)音字典152中的條目相關聯(lián)。在某些實施方式中,所提供的聯(lián)系人姓名的列表可以在發(fā)音上不接近用戶對實體名稱的唯一發(fā)音。例如,提示中所提供的聯(lián)系人姓名的列表可以在發(fā)音上是不相關的實體名稱,諸如,例如,edwin、fuchun、和steve。響應于提示124,由于用戶100知道用戶在講話110中說出的實體名稱是“fuchun”,用戶選擇了“fuchun”。響應于用戶100對“fuchun”的選擇,移動裝置120可以發(fā)起對“fuchun”的呼叫,并且也將反饋信息118傳輸164至服務器130。
為了獲取來自用戶100的反饋,移動裝置120也可以使用音頻提示。例如,響應于接收到轉錄116、和連同轉錄116一起傳輸的附加信息,移動裝置120可以詢問用戶100其是否想要“呼叫fortune?”172。在這種情況下,用戶100可以提供一個或者多個后續(xù)講話,該一個或者多個后續(xù)講話提供用戶100確認還是否認該用戶想要呼叫“fortune”的指示。可替代地,或者另外,用戶100可以鍵入用戶100正試圖呼叫的實體的實體名稱。其它類型的反饋信息也可以由用戶100提供。如下面所描述的,這種反饋信息可以按照與反饋信息118的方式相同的方式被類似地傳輸至服務器130,并且然后以與反饋信息118的方式類似的的方式被使用。
服務器130可以接收反饋信息118,并且將反饋信息118轉發(fā)至自動語音識別器140。反饋信息118可以包括,例如,用戶100響應于提示124而輸入的實體名稱的指示。在這種情況下,反饋信息118可以指示用戶已經選擇了實體名稱“fuchun”。另外,在此之前、之后、或者與此大體上同時,自動語音識別器140可以檢索音頻信號114中最初接收到的、存儲的、和時間標記的所提取部分。音頻信號114的所提取部分可以與由用戶100在說出講話110時該用戶唯一發(fā)音112的實體名稱110b對應。自動語音識別器140可以基于與音頻信號114的所提取部分相關聯(lián)的時間戳來檢索音頻信號114的所提取部分。例如,在一種實施方式中,自動語音識別器140可以基于相關聯(lián)的時間戳來獲取音頻信號140中最近接收到的、提取到的、和存儲的所提取部分。
自動語音識別器140可以使用音頻信號114的所提取部分和反饋信息118來將用戶100對實體名稱110b的唯一發(fā)音112教導給個性化發(fā)音字典150。例如,如上所述,自動語音識別器140可以為音頻信號114的所提取部分生成音標發(fā)音??商娲?,自動語音識別器140可以檢索先前生成的音標發(fā)音,該先前生成的音標發(fā)音與音頻信號114中可以響應于最初接收到音頻信號114而已經生成和存儲的所提取部分對應。在這種情況下,音頻信號114的所提取部分的生成的音標發(fā)音可以是“fawr·chuh·n”該所提取部分與用戶100在所說出講話110時對實體名稱110b的唯一發(fā)音112對應。自動語音識別器140然后可以在與實體名稱152“fuchun”對應的個性化發(fā)音字典152中識別實體。接下來,自動語音識別器140可以對與實體“fuchun”相關聯(lián)的個性化發(fā)音字典條目進行更新,從而以用戶100的唯一發(fā)音“fawr·chuh·n”代替條目的初始發(fā)音“fyoo·chuh·n”。以用戶100的唯一發(fā)音“fawr·chuh·n”代替對應于與實體名稱“fuchun”相關聯(lián)的條目的初始發(fā)音將用戶的個性化發(fā)音字典150轉變到階段“b”。在階段“b”中,用戶100的個性化發(fā)音字典154包括將實體名稱154a“fuchun”與用戶100的唯一發(fā)音“fawr·chuh·n”相關聯(lián)的條目。
圖1b是示出了用于學習個性化聯(lián)系人發(fā)音的系統(tǒng)100b的特征的場境示意圖。系統(tǒng)100b可以與圖1a中所描述的系統(tǒng)100a大體上相似。然而,在學習了用戶100對實體名稱“fuchun”的唯一發(fā)音112之后,系統(tǒng)100b可以利用已經轉變到階段“b”的用戶的個性化發(fā)音字典154。
一旦已經啟動麥克風,用戶100就可以說出可以由與用戶的移動裝置120相關聯(lián)的麥克風125檢測到的講話210。講話210可以與由用戶100在系統(tǒng)100a的示例中說出的講話110大體上相同。例如,用戶100可以按照與在系統(tǒng)100a的示例中用戶對實體名稱“fuchun”唯一地發(fā)音的方式相同或者大體上相似的方式,來將實體名稱210b“fuchun”唯一地發(fā)音為“fawr·chuh·n”。相似地,與所說出的講話210相關聯(lián)的命令210a是與所說出的講話110相關聯(lián)的相同的“呼叫”命令。然而,系統(tǒng)100b可以不同地對與講話210對應的音頻信號進行處理,這是因為在階段“b”中的用戶的個性化發(fā)音字典154已經學習了用戶100對實體名稱“fuchun”的唯一發(fā)音。
麥克風125可以捕捉與講話210相關聯(lián)的音頻信號,并且將與講話210相關聯(lián)的音頻信號214傳輸至將用戶的個性化發(fā)音字典154維持在第二階段“b”中的服務器130。音頻信號214可以包括音頻信號中與命令210a對應的第一部分和音頻信號中與實體名稱210b對應的第二部分。音頻信號214可以與音頻信號114大體上相似,因為音頻信號214對應于與所說出的講話110大體上相似的所說出講話210。
服務器130可以接收與講話210對應的音頻信號214,并且將接收到的音頻信號214轉發(fā)至自動語音識別器140。自動語音識別器140然后可以提取音頻信號214中與實體名稱210b對應的部分。自動語音識別器140可以將時間戳與音頻信號214的所提取部分相關聯(lián),并且將音頻信號214的所提取部分存儲在存儲器134中被指定為緩存音頻信號214的傳入部分的部分中,該傳入部分可以與一個或者多個用戶100語音講話110對應。存儲器134可以無限期地存儲音頻信號214的所提取部分??商娲兀欢?,存儲器134僅僅可以在預定時間段內存儲音頻信號214的所提取部分。例如,可以存儲音頻信號214的所提取部分,直到確定與音頻信號215的所提取部分相關聯(lián)的實體名稱的正確轉錄??商娲?,或者另外,可以存儲音頻信號214的所提取部分,直到完成命令210a。自動語音識別器140然后可以識別最有可能與音頻信號214的所提取部分相關聯(lián)的一組音素,并且然后將該一組音素映射到音標發(fā)音。
基于圖1b中所描繪的示例,自動語音識別器140可以對由用戶100發(fā)音為“fawr·chuh·n”的實體名稱210b“fuchun”生成音標轉錄。然后,在對與音標發(fā)音“fawr·chuh·n”相關聯(lián)的實體名稱進行至少一個更新之后,可以使用音標轉錄“fawr·chuh·n”來搜索目前存在于第二階段“b”中的用戶100的個性化發(fā)音字典154。在階段“b”中,個性化發(fā)音字典154包括與音標發(fā)音“fawr·chuh·n”足夠相關聯(lián)的條目。例如,個性化發(fā)音字典154包括具有聯(lián)系人姓名154a“fuchun”的條目,個性化發(fā)音字典154已經學習了該聯(lián)系人姓名154a“fuchun”以與用戶100的唯一發(fā)音“fawr·chuh·n”相關聯(lián)。匹配的音標發(fā)音指示可以將音頻214的所提取部分轉錄為“fuchun”。自動語音識別引擎140然后可以請求服務器130將生成的轉錄280傳輸262回用戶100的移動裝置120。
服務器130也可以將附加信息傳輸262至可以與轉錄280相關聯(lián)的移動裝置120。例如,在262中傳輸至移動裝置120的轉錄280也可以與在階段“b”中的用戶100的個人發(fā)音字典154包括特定實體名稱的指示相關聯(lián),該特定實體名稱與音標發(fā)音“fawr·chuh·n”對應。可替代地,或者另外,轉錄280也可以與音頻214的轉錄成功的指示和/或發(fā)起用戶的命令210a的指令相關聯(lián)。例如,可以返回特定數據標志、特定數據位等,以提供成功轉錄的指示。可以通過服務器130將附加信息提供至移動裝置120,以指示移動裝置120執(zhí)行命令210a。在系統(tǒng)100b的示例中,附加信息可以指示、或者觸發(fā)移動裝置120呼叫“fuchun”??梢越浻蓤D形用戶界面120顯示呼叫的狀態(tài)227??商娲兀蛘吡硗?,移動裝置的揚聲器126可以提供指示正在嘗試呼叫的輸出警告,該呼叫提到了例如“正在呼叫fuchun”。
關于圖1a和圖1b的系統(tǒng)100a和100b的示例分別利用包括“呼叫”命令110a、210a的所說出的講話110、210。然而,本公開并不一定限于此。例如,可以根據本公開說出、處理和執(zhí)行各種其它命令。例如,用戶100可以說出講話,諸如,“到約塞米蒂國家公園的方向”。移動裝置120的麥克風125可以捕捉與該講話對應的音頻信號,并且將該音頻信號傳輸至服務器130。服務器130同樣可以提取與實體名稱對應的音頻信號的部分——在這種情況下,該實體名稱可以是“約塞米蒂國家公園”,并且然后將音頻信號的所提取部分與時間戳相關聯(lián)。
服務器130可以將音頻信號的所提取部分傳遞至自動識別單元140。自動識別單元140然后可以通過使用聲學模型來獲取一組音素,并且然后基于該一組獲取到的音素來生成音頻中與“約塞米蒂國家公園”對應的所提取部分的音標發(fā)音。自動識別單元140可以基于生成的音標發(fā)音來進一步搜索包括各種不同的感興趣點的個性化地理數據庫。如果未將個性化地理數據庫的條目識別為關聯(lián)于與生成的音標發(fā)音對應的音標發(fā)音,則服務器130可以利用自動語音識別器140來識別生成的音標發(fā)音的最接近轉錄。最接近轉錄可以被傳輸至移動裝置120,并且經由提示呈現給用戶100,該提示包括對反饋信息的請求和/或可能已經經由對個性化地理數據庫的搜索而識別到的最接近匹配中的一個或者多個。任何接收到的反饋信息可以被傳輸回服務器130,并且用于按照上述方式,基于存儲的音頻信號和反饋信息來對個性化地理數據庫進行更新。一旦個性化地理數據庫已經學習了用戶如何對實體名稱“約塞米蒂國家公園”發(fā)音,自動語音識別器140就可以在接收到音頻信號時對實體名稱進行適當的轉錄,查找與所轉錄的實體名稱相關聯(lián)的位置信息,并且將移動裝置120可以用其來幫助將用戶導航到“約塞米蒂國家公園”的位置信息提供至移動裝置120。本公開可以利用其它各種類型的命令,諸如,例如,電子郵件命令、文本消息命令等。
因此,本公開的方面并不限于任何特定種類的應用,并且相反,可以應用各種不同類型的移動應用,該各種不同類型的移動應用可以被配置為接收語音命令,包括,例如,電話應用、消息傳遞應用、電子郵件應用、地圖應用、娛樂應用等。
關于圖1a和圖1b描述的示例描述了與服務器130交互的移動裝置120。然而,也考慮,也可以由移動裝置120來執(zhí)行被描述為由服務器130執(zhí)行的功能中的任何一種功能。例如,可以由移動裝置120來執(zhí)行由處理器132、自動語音識別器140、和/或發(fā)音字典150執(zhí)行的動作。在這種實施方式或者其它實施方式中,發(fā)音字典150的一部分和全部可以被存儲在移動裝置120上,而不是在服務器130上。
圖2是可以用來學習在個性化全局發(fā)音字典中的聯(lián)系人發(fā)音的過程200的示例的流程圖。
過程200可以開始于服務器230接收來自用戶的包括命令和實體的講話——202。講話可以是一組音頻信號的形式。服務器230可以將接收到的講話轉發(fā)至自動語音識別器,該自動語音識別器提取講話中與實體名稱相關聯(lián)的部分——204。然后可以將講話中與實體名稱對應的所提取部分與時間戳相關聯(lián),并且將其存儲在與服務器230相關聯(lián)的存儲器中。
自動語音識別器可以生成音頻信號的所提取部分的初始轉錄——206??梢酝ㄟ^實施一系列的一個或者多個階段來生成音頻信號的所提取部分的初始轉錄。例如,自動語音識別器可以使用諸如聲學模型的模型,以識別可以與音頻信號的所提取部分相關聯(lián)的一組音素。然后,可以將音素映射到與音頻信號的所提取部分相關聯(lián)的音標發(fā)音。然后,可以使用音標發(fā)音來從用戶的個性化發(fā)音字典中檢索實體名稱。只要無法找到與和所生成的音標發(fā)音足夠匹配的音標發(fā)音相關聯(lián)的該用戶的個性化語音字典的條目,則自動搜索識別單元可以挑選可用作初始轉錄的最接近匹配??商娲?,可以使用其它方法來識別音頻信號的所提取部分的最接近的可能初始轉錄。例如,可以實施某些語音至文本的轉換過程以生成獨立于用戶的個性化發(fā)音字典的初始轉錄。一旦生成,就可以將初始轉錄連同附加信息一起傳輸至用戶100的移動裝置120,該附加信息可以觸發(fā)移動裝置120向用戶100請求關于轉錄的反饋。
在某些實施方式中,在208中,服務器可以獲取音頻信號的所提取部分的正確轉錄。正確轉錄可以基于,例如,從用戶100接收到的反饋。例如,響應于由移動裝置120接收到的初始轉錄116,移動裝置120可以向用戶提示124與初始轉錄有關的反饋??商娲?,或者另外,如圖1a所示,提示124可以顯示一個或者多個正確轉錄的列表。用戶100可以選擇所提供的正確轉錄中的一個,并且可以將所選擇的正確轉錄傳輸164至服務器230,以作為反饋信息118。在某些情況下,反饋信息118可以包括與初始轉錄不同的正確轉錄。
可替代地,然而,可能存在初始轉錄是足夠適當的轉錄的情況。例如,用戶100可以確定初始轉錄116是正確的,并且需要將該初始轉錄116作為新條目添加至個性化發(fā)音字典。用戶可以通過,例如,確認移動裝置應該響應于來自移動裝置120的提示172而呼叫“fortune”,來發(fā)起對初始轉錄的選擇或者確認。如果用戶100確認呼叫“fortune”,則用戶100可以輸入fortune的聯(lián)系人信息以促進呼叫完成。然后,可以將fortune的姓名發(fā)送回服務器130,以將其連同生成的音標發(fā)音一起添加至個性化發(fā)音字典。因此,在某些實施方式中,反饋信息118可以包括指示初始轉錄116是足夠適當的轉錄的反饋。
服務器230可以接收正確轉錄,并且將該正確轉錄轉發(fā)至自動語音識別器。自動語音識別器可以基于時間戳獲取用戶100的先前存儲的音頻信號的提取部分。例如,自動語音識別器可以檢索用戶100的音頻信號中與最近時間戳相關聯(lián)的所提取部分。如上所述,自動語音識別器然后可以生成與用戶的音頻信號的所提取部分對應的音標發(fā)音。然后,自動語音識別器可以將生成的音標發(fā)音與接收到的正確轉錄相關聯(lián)——210。生成的音標發(fā)音可以與用戶100對實體名稱的唯一發(fā)音對應。
自動語音識別器然后可以基于生成的音標發(fā)音,來對在個性化發(fā)音字典中的、包括與正確轉錄對應的實體名稱的條目進行更新——212。在某些實施方式中,對在個性化發(fā)音字典中的條目進行更新可以包括:通過將生成的音標發(fā)音存儲在個性化發(fā)音字典中替代實體名稱的初始發(fā)音,以用戶對實體名稱的唯一發(fā)音代替實體名稱的初始發(fā)音。這可以包括,例如,從個性化發(fā)音字典刪除實體名稱的初始發(fā)音??商娲?,對在個性化發(fā)音字典中的條目進行更新可以包括:存儲實體的初始發(fā)音和生成的音標發(fā)音兩者,并且然后將更高的權重、排名、或者分值分配給生成的音標發(fā)音,該生成的音標發(fā)音指示用戶的唯一發(fā)音??商娲?,系統(tǒng)可以將實體的初始發(fā)音和生成的音標發(fā)音都存儲在個性化發(fā)音字典中,并且在對所說出的實體名稱進行轉錄期間語音識別器可以考慮這兩種發(fā)音??商娲?,然而,在某些實施方式中,可以將生成的音標發(fā)音存儲在與個性化發(fā)音字典分開并且大體上獨立于該個性化發(fā)音字典的位置中。在這種實施方式中,對在個性化發(fā)音字典中的條目進行更新可以包含:僅僅在與正確轉錄對應的個性化發(fā)音字典條目與維持一個或者多個生成的音標轉錄的另一存儲位置之間創(chuàng)建概念上的鏈路。
圖3是可以用來學習在全局發(fā)音字典中的實體發(fā)音的過程300的示例的流程圖。
在某些情況下,系統(tǒng)100a也可以包括可以在一組多個用戶當中共享的全局發(fā)音字典。這種全局發(fā)音字典在某些地理區(qū)域中可能是有利的,在該某些地理區(qū)域中,大量特定人口可以各自分別共享一種或者多種特定語音特色,諸如,例如,相同的音高、音調、情緒、口音等。在這種情況下,可以利用全局發(fā)音字典替代個性化語音字典150,或者,除了個性化語音字典150之外,還可以利用全局發(fā)音字典。例如,全局發(fā)音字典可以提供替代數據庫,自動語音識別器可以搜索該替代數據庫以獲取對音頻信號中與實體名稱對應的特定部分的最接近的轉錄匹配。可替代地,或者另外,可以將個性化語音字典150和全局發(fā)音字典視為使用一種或者多種存儲可視化技術的相同的數據池。全局發(fā)音字典可以按照與個性化發(fā)音字典150的方式大體上相似的方式運行,除了下面陳述的全局發(fā)音字典的特定功能之外。
用于學習全局發(fā)音字典中的實體發(fā)音的過程300可以開始于確定多個不同的獨立用戶已經修正了對特定講話的轉錄——302。服務器130然后可以分析為多個不同的用戶中的每個用戶生成的多個唯一音標發(fā)音中的每一個,以識別已經將相同的唯一音標發(fā)音與特定實體名稱相關聯(lián)的用戶的子集——304。特定實體名稱的唯一音標發(fā)音可以是,例如,實體名稱“chowderhouse”的唯一音標發(fā)音“chow·dahous”,該實體名稱“chowderhouse”通常可以與音標發(fā)音“chow·derhous”相關聯(lián)。服務器130可以維持追蹤個人用戶的數量的計數器,該個人用戶已經將相同的唯一音標發(fā)音與特定實體名稱相關聯(lián)。服務器130然后可以確定已經將相同的唯一音標發(fā)音與特定實體名稱相關聯(lián)的用戶的子集是否超過預定閾值。如果確定已經將相同的唯一音標發(fā)音與相同的實體名稱相關聯(lián)的用戶的數量超過了預定閾值(306),則可以基于唯一音標發(fā)音,使用唯一音標發(fā)音來對特定實體的全局發(fā)音字典進行更新——308。
術語“數據處理設備”涵蓋用于處理數據的各種設備、裝置和機器,包括,例如,可編程處理器、計算機、或者多個處理器或者計算機。設備可以包括專用邏輯電路系統(tǒng),例如,fpga(現場可編程門陣列)或者asic(專用集成電路)。除了硬件之外,設備還可以包括:為討論的計算機程序創(chuàng)建執(zhí)行環(huán)境的代碼,例如,構成處理器固件、協(xié)議棧、數據庫管理系統(tǒng)、操作系統(tǒng)、或者它們中的一個或者多個的組合的代碼。
可以用任何形式的編程語言——包括編譯語言或者解譯語言、或者說明性語言或者過程語言,來編寫計算機程序(也可以被稱為或者描述為程序、軟件、軟件應用、模塊、軟件模塊、腳本或者代碼),并且可以按照任何形式——包括作為獨立程序或者作為模塊、組件、子例程、或者適合用于計算環(huán)境的其它單元來部署該計算機程序。計算機程序可以但并非必須與文件系統(tǒng)中的文件對應。程序可以被存儲在保存其它程序或者數據的文件的部分中(例如,存儲在標記語言文檔中的一個或者多個腳本),或者在專用于討論的程序的單個文件中,或者在多個協(xié)作文件(例如,存儲一個或者多個模塊、子程序或者代碼部分的文件)中。計算機程序可以被部署為在一個計算機上或者在位于一個站點處或者分布到多個站點中并且通過通信網絡互相連接的多個計算機上執(zhí)行。
可以由一個或者多個可編程計算機執(zhí)行本說明書中所描述的過程和邏輯流程,該一個或者多個可編程計算機執(zhí)行一個或者多個計算機程序以通過對輸入數據進行操作和生成輸出來執(zhí)行功能。也可以由例如fpga(現場可編程門陣列)或者asic(專用集成電路)的專用邏輯電路系統(tǒng)來執(zhí)行過程和邏輯流程,并且設備也可以被實施為該專用邏輯電路系統(tǒng)。
適合于執(zhí)行計算機程序的計算機包括,例如,可以基于通用微處理器或者專用微處理器或者兩者、或者任何其它種類的中央處理單元。一般而言,中央處理單元將接收來自只讀存儲器或者隨機存取存儲器或者兩者的指令和數據。計算機的基本元件是用于進行或者執(zhí)行指令的中央處理單元和用于存儲指令和數據的一個或者多個存儲器。一般而言,計算機還包括用于存儲數據的一個或者多個海量存儲裝置,或者可以操作地耦合以接收來自該海量存儲裝置的數據或者將數據傳輸至該海量存儲裝置或者進行兩者,該海量存儲裝置例如為磁盤、磁光盤、或者光盤。然而,計算機無需具有這種裝置。此外,計算機可以嵌入另一裝置中,例如,僅舉幾例,移動電話、個人數字助理(pda)、移動音頻或者視頻播放器、游戲機、全球定位系統(tǒng)(gps)接收器、或者便攜式存儲裝置(例如,通用串行總線(usb)閃存驅動)。
適合于存儲計算機程序指令和數據的計算機可讀介質包括所有形式的非易失性存儲器、介質和存儲裝置,包括,例如,半導體存儲裝置,例如,eprom、eeprom和閃存裝置;例如,內部硬盤或者可移動磁盤的磁盤;磁光盤;以及cd-rom和dvd-rom盤??梢杂蓪S眠壿嬰娐废到y(tǒng)補充處理器和存儲器或者處理器和存儲器可以并入該專用邏輯電路系統(tǒng)中。
為了提供與用戶的交互,可以在計算機上實施本說明書中所描述的主題的實施例,該計算機具有:用于向用戶顯示信息的顯示裝置,例如,crt(陰極射線管)或者lcd(液晶顯示器)監(jiān)視器;以及例如鼠標或者軌跡球的鍵盤和指向裝置,用戶可以通過該鍵盤和該指向裝置將輸入提供至計算機。其它種類的裝置也可以用于提供與用戶的交互;例如,提供至用戶的反饋可以是任何形式的傳感反饋,例如,視覺反饋、聽覺反饋或者觸覺反饋;并且可以按照包括聲學輸入、語音輸入或者觸覺輸入的任何形式來接收來自用戶的輸入。另外,計算機可以,例如,通過將文件發(fā)送至用戶所使用的裝置并且接收來自該裝置的文件——例如,通過響應于從web瀏覽器接收到的請求來將網頁發(fā)送至在用戶的客戶端裝置上的文本瀏覽器,來與用戶交互。
可以在計算系統(tǒng)中實施本說明書中所描述的主題的實施例,該計算系統(tǒng)包括例如數據服務器的后端組件,或者包括例如應用服務器的中間件組件,或者包括前端組件,或者該后臺組件、該中間件組件或者該前端組件中的一個或者多個的任何組合,該前端組件例如為具有圖形用戶界面或者web瀏覽器的客戶端計算機,用戶可以通過該客戶端計算機與本發(fā)明中所描述的主題的實施方式交互??梢酝ㄟ^數字數據通信的任何形式或者介質——例如通信網絡,相互連接系統(tǒng)的部件。通信網絡的示例包括局域網(lan)和廣域網(wan),例如,互聯(lián)網。
計算系統(tǒng)可以包括客戶端和服務器。客戶端和服務器大體上彼此遠離并且通常通過通信網絡進行交互??蛻舳撕头掌鞯年P系借助在相應的計算機上運行并且彼此具有客戶端-服務器關系的計算機程序而產生。
雖然本說明書包含許多具體實施方式細節(jié),但是不應該將這些細節(jié)視作對可能要求保護的內容的范圍的限制,而是對可能特定于具體實施例的特征的描述。在本說明書中在單獨實施例的場境中描述的某些特征還可以組合形式實施在單個實施例中。相反,在單個實施例的場境中描述的各種特征也可以單獨地或者按照任何合適的子組合實施在多個實施例中。此外,雖然上面可能將特征描述為以某些組合形式起作用并且甚至最初如此對該特征要求保護,但是在某些情況下可以從組合中刪除來自所要求保護的組合的一個或者多個特征,并且所要求保護的組合可以指向子組合或者子組合的變化。
相似地,雖然按照特定順序在附圖中描繪了操作,但是不應該將此理解為:需要按照所示的特定順序或者按照相繼順序來進行這類操作,或者執(zhí)行所有所示操作,以實現期望結果。在某些情況下,多任務處理和并行處理可以是有利的。此外,不應該將在上述實施例中的各種系統(tǒng)部件的分離理解為在所有實施例中需要這種分離,并且應該理解,所描述的程序部件和系統(tǒng)通??梢砸黄鸺稍趩蝹€軟件產品中或者封裝到多個軟件產品中。
已經描述了主題的具體實施例。其他實施例在以下權利要求書的范圍內。例如,可以按照不同的順序進行在權利要求書中所引用的動作并且仍然實現期望結果。作為一個示例,附圖中所示的過程不一定需要所示的特定順序或者相繼順序來完成期望結果。在某些實施方式中,多任務處理和并行處理可以是有利的??梢蕴峁┢渌襟E,或者可以從所描述的過程中消除步驟。因此,其它實施方式在以下權利要求書的范圍內。