相關(guān)申請的交叉引用
本申請要求于2013年4月29日提交的美國專利申請第13/872,401號和于2013年2月20日提交的美國臨時申請第61/767,235號的優(yōu)先權(quán),通過引用將其全部公開內(nèi)容結(jié)合于此。
技術(shù)領(lǐng)域
本公開示例實施例涉及一種用于共享調(diào)適語音簡檔的方法和設(shè)備。
背景技術(shù):
諸如個人計算機(jī)、膝上型計算機(jī)、平板計算機(jī)、蜂窩電話之類的計算系統(tǒng)以及許多其他類型的計算系統(tǒng)在現(xiàn)代生活的許多方面中正越來越普遍。隨著計算機(jī)變得日益增多地與用戶的日常生活結(jié)合,用戶用來與計算設(shè)備交互的用戶界面的方便性、高效性和直觀性變得日益重要。
具體來說,“云計算”是指經(jīng)由計算機(jī)網(wǎng)絡(luò)提供計算資源。在傳統(tǒng)的計算模型中,數(shù)據(jù)和軟件兩者都被完全包含在用戶的計算機(jī)中。然而,在云計算中,用戶的計算機(jī)可包含相對較少的軟件或者數(shù)據(jù)(例如,可能最小限度的操作系統(tǒng)和web瀏覽器),并且可用作用于發(fā)生在計算機(jī)網(wǎng)絡(luò)上的過程的顯示終端。為云計算服務(wù)(或者甚至現(xiàn)有云服務(wù)的聚集)而提供的常見縮寫是“云”。
云計算被稱為“客戶端-服務(wù)器計算”,然而,在一般的云計算與客戶端-服務(wù)器計算之間可存在區(qū)別。例如,客戶端-服務(wù)器計算可包括在資源或者服務(wù)的提供者(例如,服務(wù)器)與服務(wù)請求者(例如,客戶端)之間分割任務(wù)或者工作負(fù)載的分布式應(yīng)用結(jié)構(gòu)??蛻舳?服務(wù)器計算一般涉及服務(wù)器與客戶端之間的一對一關(guān)系,而云計算包括通用客戶端可訪問的通用服務(wù)(例如,可能不要求一對一關(guān)系或者連接)。因此,云計算一般包括客戶端-服務(wù)器計算,以及額外的服務(wù)和功能。
云計算可通過在用戶的計算機(jī)上使用更簡單硬件、而該計算機(jī)訪問計算資源的巨大網(wǎng)絡(luò)(例如,處理器、硬盤等等)來使用戶免于某些硬件和軟件的安裝和維護(hù)任務(wù)。對資源的共享對于個人來說可降低成本。因此,任何連接到云的計算機(jī)可連接到同一個計算能力、應(yīng)用和文件的池。用戶可存儲和訪問諸如音樂、圖片、視頻和書簽之類的個人文件,或者玩游戲,或者使用遠(yuǎn)程服務(wù)器上的生產(chǎn)型應(yīng)用而非物理地攜帶諸如DVD或者USB閃存驅(qū)動之類的存儲介質(zhì)。
此外,云計算還可使得用戶能夠與其(一個或多個)計算設(shè)備也連接到云的其他用戶共享個人文件。作為示例,最初只有一個用戶可訪問特定文件或者文件組。用戶可授權(quán)(例如,經(jīng)由文件系統(tǒng)許可)另外的用戶或者用戶組以使其有相同的(或者限制的)對特定文件或文件組的訪問權(quán)限。其他(一個或多個)用戶則可依據(jù)原始用戶給他們的許可來查看、編輯和/或共享該特定文件或者文件組。
技術(shù)實現(xiàn)要素:
在一個方面中,描述了一種方法。該方法可包括在計算系統(tǒng)處接收一個或多個話音樣本(speech sample),并且一個或多個話音樣本包括多個口說話語(spoken utterance)。該方法還可包括在計算系統(tǒng)處確定與多個口說話語的語者相關(guān)聯(lián)的語音簡檔(voice profile),并且語音簡檔包括基于針對一個或多個話音樣本的話音模型的個性化的語者的調(diào)適語音(adapted voice)。更進(jìn)一步地,該方法可包括在計算系統(tǒng)處接收與所確定的語音簡檔相關(guān)聯(lián)的授權(quán)簡檔,并且授權(quán)簡檔包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。再進(jìn)一步地,該方法可包括,至少部分基于授權(quán)簡檔,計算系統(tǒng)向與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的至少一個計算設(shè)備提供語音簡檔。
在另一方面中,描述了一種計算機(jī)可讀介質(zhì),其上存儲有可由計算系統(tǒng)運行以使得該計算系統(tǒng)執(zhí)行功能的指令。所述功能可包括接收包括多個口說話語的一個或多個話音樣本。所述功能還可包括確定與多個口說話語的語者相關(guān)聯(lián)的語音簡檔,并且語音簡檔包括基于針對一個或多個話音樣本的話音模型的個性化的語者的調(diào)適語音。更進(jìn)一步地,所述功能可包括接收與所確定的語音簡檔相關(guān)聯(lián)的授權(quán)簡檔,并且授權(quán)簡檔包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。再進(jìn)一步地,所述功能可包括,至少部分基于授權(quán)簡檔,向與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的至少一個計算設(shè)備提供語音簡檔。
在又一個方面中,描述了一種系統(tǒng)。該系統(tǒng)可包括至少一個處理器。該系統(tǒng)還可包括數(shù)據(jù)存儲裝置,該數(shù)據(jù)存儲裝置包括可由至少一個處理器運行以使得系統(tǒng)執(zhí)行功能的指令。所述功能可包括接收一個或多個話音樣本,并且一個或多個話音樣本包括多個口說話語。所述功能還可包括確定與多個口說話語的語者相關(guān)聯(lián)的語音簡檔,并且語音簡檔包括基于針對一個或多個話音樣本的話音模型的個性化的語者的調(diào)適語音。更進(jìn)一步地,所述功能可包括接收與所確定的語音簡檔相關(guān)聯(lián)的授權(quán)簡檔,并且授權(quán)簡檔包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。再進(jìn)一步地,所述功能可包括,至少部分基于授權(quán)簡檔,向與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的至少一個計算設(shè)備提供語音簡檔。
在又一個方面中,可提供一種系統(tǒng),其包括用于接收一個或多個話音樣本的裝置,并且一個或多個話音樣本包括多個口說話語。所述系統(tǒng)還可包括用于確定與多個口說話語的語者相關(guān)聯(lián)的語音簡檔的裝置,并且語音簡檔包括基于針對一個或多個話音樣本的話音模型的個性化的語者的調(diào)適語音。更進(jìn)一步地,所述系統(tǒng)可包括用于接收與所確定的語音簡檔相關(guān)聯(lián)的授權(quán)簡檔的裝置,并且授權(quán)簡檔包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。再進(jìn)一步地,所述系統(tǒng)可包括,用于至少部分基于授權(quán)簡檔,向與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的至少一個計算設(shè)備提供語音簡檔的裝置。
在又一個方面中,描述了一種用于共享調(diào)適語音簡檔的方法。該方法包括:在計算系統(tǒng)處接收與語音簡檔相關(guān)聯(lián)的授權(quán)簡檔,所述語音簡檔包括語者的調(diào)適語音,該調(diào)適語音基于針對一個或多個話音樣本的話音模型的個性化,其中所述一個或多個話音樣本包括由所述語者口說的多個話語,其中所述授權(quán)簡檔標(biāo)識一個或多個相應(yīng)的其他用戶,所述一個或多個相應(yīng)的其他用戶與所述語者不同,并且被授權(quán)在與所述一個或多個相應(yīng)的其他用戶相關(guān)聯(lián)的至少一個其他計算系統(tǒng)上使用所述語音簡檔;以及至少部分基于所述授權(quán)簡檔,所述計算系統(tǒng)向與所述一個或多個相應(yīng)的其他用戶相關(guān)聯(lián)的所述至少一個其他計算系統(tǒng)提供所述語音簡檔。
在又一個方面中,描述了一種用于共享調(diào)適語音簡檔的設(shè)備。該設(shè)備包括:接收與語音簡檔相關(guān)聯(lián)的授權(quán)簡檔的部件,所述語音簡檔包括語者的調(diào)適語音,該調(diào)適語音基于針對一個或多個話音樣本的話音模型的個性化,其中所述一個或多個話音樣本包括由所述語者口說的多個話語,其中所述授權(quán)簡檔標(biāo)識一個或多個相應(yīng)的其他用戶,所述一個或多個相應(yīng)的其他用戶與所述語者不同,并且被授權(quán)在與所述一個或多個相應(yīng)的其他用戶相關(guān)聯(lián)的至少一個其他計算系統(tǒng)上使用所述語音簡檔;以及至少部分基于所述授權(quán)簡檔向與所述一個或多個相應(yīng)的其他用戶相關(guān)聯(lián)的所述至少一個其他計算系統(tǒng)提供所述語音簡檔的部件。
本領(lǐng)域普通技術(shù)人員通過閱讀一下酌情參照附圖的詳細(xì)描述將清楚這些和其他方面、優(yōu)點和替換方案。
附圖說明
圖1圖示了其中可實現(xiàn)示例方法的基于云的計算的示例系統(tǒng)。
圖2圖示了示例計算設(shè)備的示意圖。
圖3圖示了示例客戶端設(shè)備的示意圖。
圖4圖示了示例方法的流程圖。
圖5圖示了依照示例方法的示例系統(tǒng)。
圖6A-6B圖示了被配置成依照示例方法執(zhí)行功能的示例客戶端設(shè)備。
具體實施方式
在下列詳細(xì)描述中,參考形成該詳細(xì)描述的一部分的附圖。在圖中,類似的符號通常標(biāo)識類似的組件,除非上下文另外規(guī)定。在詳細(xì)描述、圖以及權(quán)利要求書中描述的說明性實施例并不意圖進(jìn)行限制。其他實施例可被利用,并且其他改變可被作出,而不脫離本文提出的主題的范圍。將容易理解,如本文一般描述的以及在圖中圖示的本公開的各方面可按多種不同的配置來布置、替代、組合、分離和設(shè)計,所有這些在本文中都被明確地設(shè)想到了。
特別地,下列詳細(xì)描述可在一些示例中公開可利用云計算的用于共享調(diào)適語音簡檔的系統(tǒng)和方法。在一個方面中,包括至少一個計算設(shè)備和至少一個客戶端或者移動設(shè)備的系統(tǒng)可被配置成執(zhí)行本文所述的方法。該計算系統(tǒng)可包括被配置成依照本方法來執(zhí)行功能的一個或多個基于云的計算設(shè)備??蛻舳嘶蛘?一個或多個)移動設(shè)備可包括一個或多個移動計算設(shè)備,諸如智能電話、平板計算機(jī)、膝上型計算機(jī)等等。(一個或多個)客戶端設(shè)備還可包括一個或多個非移動計算設(shè)備。
然而,“計算系統(tǒng)”、“計算設(shè)備”、“移動設(shè)備”和“客戶端設(shè)備”可被配置成執(zhí)行的功能可額外地或者可替換地由其他設(shè)備執(zhí)行。例如,這樣的設(shè)備可包括被配置成運行軟件應(yīng)用(例如,互聯(lián)網(wǎng)瀏覽器)內(nèi)的具備語音能力的應(yīng)用的臺式計算機(jī)。另外,這樣的設(shè)備可包括可穿戴設(shè)備,諸如手表或眼鏡;機(jī)器人設(shè)備,諸如具有機(jī)電能力的計算設(shè)備;或者裝置,諸如電視,其被配置成接收語音輸入(例如,經(jīng)由耦合到設(shè)備/裝置的麥克風(fēng)),產(chǎn)生語音輸出,和/或運行基于語音的應(yīng)用,諸如從文本到語音(text-to-speech,TTS)合成應(yīng)用。
一般而言,盡管“計算系統(tǒng)”、“計算設(shè)備”、“移動設(shè)備”和“客戶端設(shè)備”在本文中作為示例被提及和描述,但是應(yīng)當(dāng)理解,本文所述的系統(tǒng)和方法還可利用包括但不限于前述計算設(shè)備的各種類型的計算設(shè)備來實現(xiàn)。例如,如本文所述的“計算系統(tǒng)”所執(zhí)行的功能可由一個計算設(shè)備或者多個計算設(shè)備來執(zhí)行。另外,如本文所述的“計算設(shè)備”所執(zhí)行的功能可額外地或者可替換地由移動計算設(shè)備、服務(wù)器、可穿戴計算設(shè)備、計算裝置等等來執(zhí)行。作為另一示例,如本文所述的“移動設(shè)備”或“客戶端設(shè)備”所執(zhí)行的功能可額外地或者可替換地由臺式計算機(jī)、可穿戴計算設(shè)備、計算裝置或者其他計算設(shè)備,包括移動設(shè)備和非移動設(shè)備兩者來執(zhí)行。另外,本文所述的功能可由本文所述的一個設(shè)備或者任意設(shè)備的組合來執(zhí)行。
示例方法可包括接收一個或多個話音樣本。話音樣本可表示一個或多個口頭輸入,包括多個口說話語。例如,可提示(例如,通過移動設(shè)備上的應(yīng)用)移動設(shè)備的用戶記錄話音樣本,并且話音樣本可被以本地方式存儲在移動設(shè)備中和/或被提供給另外的計算設(shè)備,諸如服務(wù)器或者云。額外地,該方法可包括確定語音簡檔。語音簡檔可與口說話語的語者相關(guān)聯(lián),諸如與利用其記錄話音樣本的移動設(shè)備或者其他設(shè)備的用戶相關(guān)聯(lián)。另外,語音簡檔可包括語者的調(diào)適語音。在一些實例中,話音樣本可由計算設(shè)備編譯以生成類屬(generic)話音模型。話音模型然后可通過計算設(shè)備或者諸如語者調(diào)適服務(wù)器(speaker adaptation server)那樣的其他設(shè)備個性化,以便生成語者的調(diào)適語音。話音模型的個性化可基于給定語者的語音的獨有特性(例如,頻率、節(jié)拍、口音等等)。
該方法還可包括接收與所確定的語音簡檔相關(guān)聯(lián)的授權(quán)簡檔。授權(quán)簡檔可包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。例如,所確定的語音簡檔最初可與話音樣本的語者(例如,語音簡檔的“擁有者”)相關(guān)聯(lián)。另外,語者/用戶可提供與一個或多個其他用戶相關(guān)聯(lián)的用戶標(biāo)識符以便授權(quán)一個或多個其他用戶訪問語音簡檔(例如,共享語音簡檔)。因而,該方法還可包括向與一個或多個其他用戶相關(guān)聯(lián)的至少一個客戶端設(shè)備提供語音簡檔。例如,用戶A可創(chuàng)建語音簡檔,在語音簡檔的授權(quán)簡檔中指定用戶B,從而與用戶B共享語音簡檔。通過與用戶B共享語音簡檔,語音簡檔可由用戶A的移動設(shè)備或者由另外的計算設(shè)備(例如,經(jīng)由基于云的計算系統(tǒng))提供給與用戶B相關(guān)聯(lián)的一個或多個計算設(shè)備。作為類似的示例,用戶A的語音簡檔可被存儲在云中,并且只要用戶B被授權(quán)訪問該語音簡檔,則用戶B就可訪問(例如,下載)該語音簡檔。應(yīng)當(dāng)理解,本文所提及的“(一個或多個)客戶端設(shè)備”可包括前述計算設(shè)備中的一個或多個,諸如移動電話、個人計算機(jī)等等。
現(xiàn)在將更詳細(xì)地描述可實現(xiàn)示例實施例的方法、系統(tǒng)和設(shè)備。一般而言,所描述的方法可由本文所述的任何計算設(shè)備(或者計算設(shè)備的組合)和/或本文未描述的那些設(shè)備實現(xiàn)。示例系統(tǒng)可采取計算機(jī)可讀介質(zhì)的形式,該計算機(jī)可讀介質(zhì)上存儲有可由處理器運行以提供本文所述的功能的程序指令。因此,示例系統(tǒng)可采取諸如服務(wù)器那樣的設(shè)備或者這樣的設(shè)備的子系統(tǒng)的形式,其包括其上存儲有這種程序指令的這種計算機(jī)可讀介質(zhì)。
現(xiàn)在參照附圖,圖1圖示了其中可實現(xiàn)示例方法的用于基于云的計算的示例系統(tǒng)100?;谠频挠嬎惴褐冈谀撤N程度上可在客戶端與服務(wù)器設(shè)備之間劃分應(yīng)用運行和存儲的聯(lián)網(wǎng)計算機(jī)架構(gòu)?!霸啤笨梢允侵咐缬煽蛻舳撕头?wù)器設(shè)備通過網(wǎng)絡(luò)(例如,互聯(lián)網(wǎng))可訪問的服務(wù)或一組服務(wù)。
在一些情形中,連接到云的任何計算機(jī)可連接到同一個計算能力、應(yīng)用和文件的池。因此,云計算實現(xiàn)了可配置計算資源(例如,網(wǎng)絡(luò)、服務(wù)器、存儲裝置、應(yīng)用和服務(wù))的共享池,該共享池可利用最小的管理努力或服務(wù)提供者交互來提供和釋放。用戶可存儲和訪問諸如音樂、圖片、視頻和書簽之類的個人文件,或者玩游戲,或者使用遠(yuǎn)程服務(wù)器上的生產(chǎn)型應(yīng)用而非以物理方式帶著存儲介質(zhì)。
在其他情形中,與主要基于客戶端或基于服務(wù)器的應(yīng)用相比,基于云的應(yīng)用可在遠(yuǎn)程服務(wù)器設(shè)備處存儲數(shù)據(jù)和/或可運行程序邏輯的拷貝,同時允許客戶端設(shè)備按需要下載這些數(shù)據(jù)以及程序邏輯中的至少一些以供在客戶端設(shè)備處運行。在一些示例中,下載的數(shù)據(jù)和程序邏輯可定制為適合于訪問基于云的應(yīng)用的特定客戶端設(shè)備(例如,個人計算機(jī)、平板計算機(jī)、智能電話等等)的能力。此外,在客戶端與服務(wù)器設(shè)備之間劃分應(yīng)用運行和存儲例如允許了更多處理由服務(wù)器設(shè)備執(zhí)行,以利用服務(wù)器設(shè)備處理能力和容量。
基于云的計算還可以是指分布式計算架構(gòu),其中用于基于云的應(yīng)用的數(shù)據(jù)和程序邏輯在一個或多個客戶端設(shè)備和/或服務(wù)器設(shè)備之間在近乎實時的基礎(chǔ)上共享。這些數(shù)據(jù)和程序邏輯的一部分可被按需要或者以其他方式動態(tài)地遞送到訪問基于云的應(yīng)用的各種客戶端。這種架構(gòu)的細(xì)節(jié)對于客戶端設(shè)備的用戶可以是透明的。例如,訪問基于云的應(yīng)用的移動設(shè)備可能未察覺到移動設(shè)備從服務(wù)器設(shè)備接收程序邏輯和/或數(shù)據(jù),或者移動設(shè)備將處理或存儲功能轉(zhuǎn)移到服務(wù)器設(shè)備。
在圖1中,示例系統(tǒng)100包括云102,并且云102可包括云服務(wù)104、云平臺106、云基礎(chǔ)設(shè)施108和數(shù)據(jù)庫110。云102可包括更多或更少的組件,并且云服務(wù)104、云平臺106、云基礎(chǔ)設(shè)施108和數(shù)據(jù)庫110中的每一個也可包括多個元件。因此,系統(tǒng)100的所描述功能中的一個或多個可被劃分到額外的功能或物理組件中,或者可被組合到更少的功能或物理組件中。在其他示例中,額外的功能和/或物理組件可被添加到圖1所圖示的示例。云計算的遞送可涉及多個云組件通過諸如例如web服務(wù)和三層架構(gòu)之類的應(yīng)用編程接口來相互通信。
云102可表示聯(lián)網(wǎng)計算機(jī)架構(gòu),并且在一個示例中,云服務(wù)104表示用于處理來自客戶端設(shè)備的請求的隊列。云平臺106可包括云的前端并且可耦合到云服務(wù)104以執(zhí)行功能來與客戶端設(shè)備交互。云平臺106可包括用來經(jīng)由諸如web瀏覽器之類的用戶界面訪問云102的應(yīng)用。云基礎(chǔ)設(shè)施108可包括云102的計費組件的服務(wù)應(yīng)用,并且因此,可與云服務(wù)104交互。
數(shù)據(jù)庫110可表示云102的存儲能力,并且因此,可被云服務(wù)104、云平臺106和/或云基礎(chǔ)設(shè)施108中的任何一個訪問。關(guān)于本方法,數(shù)據(jù)庫可包括話音樣本數(shù)據(jù)庫、調(diào)適語音數(shù)據(jù)庫、語音簡檔數(shù)據(jù)庫等等中的一個或多個。
系統(tǒng)100還包括耦合到云102的組件或被配置成能夠與云102的組件通信的許多客戶端設(shè)備。例如,計算機(jī)112、主機(jī)118和移動設(shè)備114、116被示出為耦合到云102。更多或更少的客戶端設(shè)備可耦合到云102。此外,不同類型的客戶端設(shè)備可耦合到云102。例如,任何客戶端設(shè)備通??砂@示系統(tǒng)、存儲器和處理器。另外,客戶端設(shè)備中的任何一個可被配置成與任何其他一個或多個客戶端設(shè)備通信以及共享信息,而無需云充當(dāng)各客戶端設(shè)備之間的接口。
計算機(jī)112可以是任何類型的計算設(shè)備(例如,個人計算機(jī)、膝上型計算機(jī)等等),并且移動設(shè)備114、116可以是任何類型的移動計算設(shè)備(例如,膝上型計算機(jī)、智能電話、蜂窩電話等等)。主機(jī)118可以是任何類型的計算設(shè)備或發(fā)送器,包括膝上型計算機(jī)、移動電話等等,其被配置成向云102發(fā)送數(shù)據(jù)??蛻舳嗽O(shè)備中的任何一個可包括額外的組件,諸如例如全球定位系統(tǒng)(GPS)接收器、紅外傳感器、光學(xué)傳感器、生物傳感器、加速度計等等。
此外,客戶端設(shè)備中的任何一個可包括允許用戶與設(shè)備交互的集成用戶界面。例如,移動設(shè)備114、116中的一個或多個可包括允許用戶提供輸入的各種按鈕和/或觸摸屏界面。另外,客戶端設(shè)備可包括被配置成從用戶接收語音命令的麥克風(fēng)。更進(jìn)一步地,客戶端設(shè)備可包括語音用戶界面(voice-user-interface,VUI)(例如,“語音控制”),該VUI可允許客戶端設(shè)備的用戶向客戶端設(shè)備提供話音數(shù)據(jù)(例如,記錄話音樣本、提供語音命令等等)以便識別口頭輸入。話音數(shù)據(jù)然后可被轉(zhuǎn)變成文本和/或由話音識別系統(tǒng)處理,并且最終可被客戶端設(shè)備用作用于運行某些計算功能的基礎(chǔ)。再進(jìn)一步地,客戶端設(shè)備可包括一個或多個應(yīng)用,該一個或多個應(yīng)用可由客戶端設(shè)備的處理器運行,并且被配置成執(zhí)行TTS合成或其他基于文本/話音的功能。
在圖1中,客戶端設(shè)備與云102之間的通信鏈路可包括有線連接,諸如串行或并行總線。通信鏈路也可以是無線鏈路,諸如鏈路120,其可包括近距離無線鏈路、IEEE 802.11(IEEE 802.11可以指IEEE 802.11-2007、IEEE 802.11n-2009或者任何其他IEEE 802.11修訂版),或其他基于無線的通信鏈路。
在其他示例中,系統(tǒng)100可包括客戶端設(shè)備可通過其與云102通信的接入點。接入點可采取各種形式,例如,接入點可采取無線接入點(wireless access point,WAP)或無線路由器的形式。作為另一示例,如果客戶端設(shè)備使用蜂窩式空中接口協(xié)議(諸如CDMA、LTE或GSM協(xié)議)來連接,則接入點可以是經(jīng)由蜂窩網(wǎng)絡(luò)提供互聯(lián)網(wǎng)連接的蜂窩網(wǎng)絡(luò)中的基站。因而,客戶端設(shè)備可包括客戶端設(shè)備可通過其連接到云102(或接入點)的有線或無線網(wǎng)絡(luò)接口。作為示例,客戶端設(shè)備可被配置成使用一個或多個協(xié)議,諸如802.11、802.16(WiMAX)、LTE、GSM、GPRS、CDMA、EV-DO和/或HSPDA等等。此外,客戶端設(shè)備可被配置成使用多個有線和/或無線協(xié)議,諸如使用蜂窩式通信協(xié)議的“3G”或“4G”數(shù)據(jù)連接(例如,CDMA、GSM或WiMAX以及使用802.11的“WiFi”連接)。其他示例也是可能的。
圖2圖示了被配置成執(zhí)行基于云的計算的示例計算設(shè)備200的示意圖。在一些實施例中,圖2中圖示的一些組件可跨多個計算設(shè)備分布。然而,為了示例,這些組件被示出和描述為一個示例計算設(shè)備200的一部分。計算設(shè)備200可以是可被配置成執(zhí)行本文描述的功能的個人計算機(jī)、移動設(shè)備、膝上型計算機(jī)、云、服務(wù)器或者類似實體。
計算設(shè)備200可包括通信接口202、用戶界面204、處理器208、話音處理模塊20206和數(shù)據(jù)存儲裝置210。圖2中所圖示的所有組件可通過通信鏈路212鏈接在一起。計算設(shè)備200還可包括實現(xiàn)計算設(shè)備200內(nèi)的通信以及計算設(shè)備200與另外的計算設(shè)備(未示出)之間的通信的硬件。所述硬件例如可包括發(fā)送器、接收器和天線。
通信接口202可允許計算設(shè)備200與另外的設(shè)備(未示出)(諸如移動電話、服務(wù)器、云等等)通信。因此,通信接口202可被配置成從一個或多個計算設(shè)備接收輸入數(shù)據(jù),并且也可被配置成向一個或多個計算設(shè)備發(fā)送輸出數(shù)據(jù)。在一些示例中,通信接口202還可維護(hù)和管理由計算設(shè)備200接收及發(fā)送的數(shù)據(jù)的記錄。在其他示例中,數(shù)據(jù)的記錄可由計算設(shè)備200的其他組件維護(hù)和管理。
用戶界面204可包括用戶輸入設(shè)備,諸如鍵盤、鍵區(qū)、觸摸屏、無線計算機(jī)鼠標(biāo)、操縱桿和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。用戶界面204也可包括用戶顯示設(shè)備,諸如液晶顯示器(LCD)、發(fā)光二極管(LED)、打印機(jī)和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。在一些實施例中,用戶界面204可包括可向外部用戶輸入/輸出設(shè)備發(fā)送數(shù)據(jù)和/或從外部用戶輸入/輸出設(shè)備接收數(shù)據(jù)的軟件、電路或者另外形式的邏輯。
額外地,用戶界面204可包括VUI,該VUI被配置成接收口頭輸入(例如,語音命令、話音樣本)并且基于接收到的口頭輸入生成輸出數(shù)據(jù)(例如,經(jīng)由話音識別)。VUI可包括用于接收口頭輸入的麥克風(fēng)或類似的(一個或多個)設(shè)備。VUI還可包括被配置成生成可聽輸出的設(shè)備,諸如揚聲器、揚聲器插孔、音頻輸出端口、音頻輸出設(shè)備、耳機(jī)和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。在一些示例中,用戶界面204和VUI可被配置成基于非口頭輸入(例如經(jīng)由鍵盤或觸摸屏輸入的文本)產(chǎn)生可聽輸出。額外地或者可替換地,用戶界面204和VUI可被配置成基于口頭輸入產(chǎn)生非口頭輸出(例如,在計算機(jī)屏幕上顯示的文本)。
關(guān)于本文所述的方法,計算設(shè)備可從一個或多個客戶端設(shè)備接收諸如話音樣本和授權(quán)簡檔之類的數(shù)據(jù),計算設(shè)備被配置成與所述一個或多個客戶端設(shè)備通信(例如,經(jīng)由通信接口202)。額外地或者可替換地,計算設(shè)備可經(jīng)由用戶界面204直接接收數(shù)據(jù)。一般而言,輸入數(shù)據(jù)可由計算設(shè)備直接接收到、從另外的計算設(shè)備間接地接收到,或者是它們的某種組合。
話音調(diào)適模塊206可被配置成基于計算設(shè)備所接收到的一個或多個話音樣本(或話音樣本的集合)來使話音模型個性化,從而確定一個或多個調(diào)適語音。話音調(diào)適模塊206還可被配置成執(zhí)行一個或多個類型的話音調(diào)適,諸如跨語言調(diào)適。此外,話音調(diào)適模塊可包括話音識別模塊(例如,文本識別模塊),該話音識別模塊可被配置成解析接收到的輸入(諸如口頭的或文本的輸入)并且將接收到的輸入匹配到基于語法/基于規(guī)則的文本模式。因而,話音識別模塊可被配置成基于接收到的輸入(例如,包含文本或者一個或多個口說話語的指令)來執(zhí)行功能。
處理器208可包含一個或多個通用處理器(例如,微處理器)和/或一個或多個專用處理器(例如,DSP、GPU、FPU、網(wǎng)絡(luò)處理器或ASIC)。處理器208可能夠運行存儲在數(shù)據(jù)存儲裝置210中的程序指令214(例如,經(jīng)編譯或未經(jīng)編譯的程序邏輯和/或機(jī)器代碼)以執(zhí)行本文所述的各種功能。通過處理器208對程序指令214的運行可引起處理器208參照存儲在數(shù)據(jù)存儲裝置210中的參考數(shù)據(jù)216。
數(shù)據(jù)存儲裝置210可包括一個或多個易失性和/或非易失性存儲組件,諸如磁性、光學(xué)、閃存或有機(jī)存儲裝置,并且可整體或部分地與處理器208集成。數(shù)據(jù)存儲裝置210還可包括可移除和/或不可移除的組件。更進(jìn)一步地,數(shù)據(jù)存儲裝置210可包括其上存儲有程序指令214的非暫態(tài)計算機(jī)可讀介質(zhì),程序指令214在由計算設(shè)備200運行時使得計算設(shè)備200執(zhí)行本說明書和/或附圖中公開的方法、過程或功能中的任何一個。
存儲在數(shù)據(jù)存儲裝置210中的參考數(shù)據(jù)216可包括話音樣本218、調(diào)適語音220、語音簡檔222和/或授權(quán)簡檔224。例如,存儲在參考數(shù)據(jù)216中的一個或多個話音樣本可被話音處理模塊208訪問。話音處理模塊208然后可基于話音樣本確定話音模型和(一個或多個)調(diào)適語音。
計算設(shè)備200(例如,處理器208)可被配置成在接收到來自計算設(shè)備200的用戶的輸入或來自另外的計算設(shè)備的輸入后訪問參考數(shù)據(jù)216。在一些示例中,計算設(shè)備200可被包括在云中,并且參考數(shù)據(jù)216可用作云的數(shù)據(jù)庫。例如,用戶A(以及與用戶A相關(guān)聯(lián)的客戶端設(shè)備)可請求對與用戶B相關(guān)聯(lián)的語音簡檔的訪問。假如用戶A的用戶標(biāo)識符被用戶B包括在語音簡檔的授權(quán)簡檔中,則計算設(shè)備200然后可訪問參考數(shù)據(jù)216并且發(fā)送/共享用戶B的語音簡檔給用戶A的客戶端設(shè)備。一般而言,計算設(shè)備200可促進(jìn)各自都與計算設(shè)備200通信的一個或多個客戶端設(shè)備之間的語音簡檔的共享。然而,應(yīng)當(dāng)理解,客戶端設(shè)備(或多個客戶端設(shè)備)可被配置成與另一客戶端設(shè)備(或其他的客戶端設(shè)備)共享語音簡檔而無需中間設(shè)備(例如,計算設(shè)備200)介入。
通信鏈路212被圖示為有線連接,然而,也可使用無線連接。例如,通信鏈路212可以是諸如通用串行總線那樣的有線串行總線或者并行總線。有線連接也可以是專有連接。通信鏈路212也可以是使用藍(lán)牙無線電技術(shù)、蜂窩技術(shù)(諸如GSM、CDMA、UMTS、EV-DO、WiMAX或LTE)或紫蜂技術(shù)等等的無線連接。一個或多個遠(yuǎn)程計算設(shè)備可以是可經(jīng)由互聯(lián)網(wǎng)訪問的并且可包括與特定web服務(wù)(例如,社交網(wǎng)絡(luò)、照片共享、地址薄等等)相關(guān)聯(lián)的計算集群。
圖3圖示了示例客戶端設(shè)備300的示意圖。在一些示例中,圖3中所圖示的一些組件可跨多個計算設(shè)備分布。然而,為了示例,這些組件被示出和描述為一個示例客戶端設(shè)備300的一部分??蛻舳嗽O(shè)備300可以是可被配置成執(zhí)行本文所述的功能的智能電話、膝上型計算機(jī)、電子郵件/消息傳遞設(shè)備、平板計算機(jī)、個人計算機(jī)、視頻相機(jī)、家電(例如,電視、烤爐等等)、可穿戴計算設(shè)備或者某種其他類型的設(shè)備。
客戶端設(shè)備300可包括通信接口302、用戶界面304、話音處理模塊306、處理器308和數(shù)據(jù)存儲裝置310。圖3中所圖示的所有組件可通過通信鏈路312鏈接在一起??蛻舳嗽O(shè)備300還可包括實現(xiàn)客戶端設(shè)備300內(nèi)的通信以及客戶端設(shè)備300與一個或多個其他計算設(shè)備(未示出)之間的通信的硬件,所述其他計算設(shè)備諸如被配置成執(zhí)行基于云的計算的服務(wù)器、移動設(shè)備和/或任何計算設(shè)備。所述硬件例如可包括發(fā)送器、接收器和天線。通信鏈路312可與如圖2中所述的通信鏈路類似地配置。
通信接口302可允許客戶端設(shè)備300與一個或多個其他計算設(shè)備(諸如圖2的計算設(shè)備200)通信。因此,通信接口302可被配置成從一個或多個計算設(shè)備接收輸入數(shù)據(jù),并且也可被配置成向一個或多個計算設(shè)備發(fā)送輸出數(shù)據(jù)。在一些示例中,通信接口302還可維護(hù)和管理由客戶端設(shè)備300接收及發(fā)送的數(shù)據(jù)的記錄。在其他示例中,數(shù)據(jù)的記錄可由客戶端設(shè)備300的其他組件維護(hù)和管理。
用戶界面304可包括用戶輸入設(shè)備,諸如鍵盤、鍵區(qū)、觸摸屏、無線計算機(jī)鼠標(biāo)、操縱桿和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。用戶界面304也可包括用戶顯示設(shè)備,諸如液晶顯示器(LCD)、發(fā)光二極管(LED)、打印機(jī)和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。在一些實施例中,用戶界面304可包括可向外部用戶輸入/輸出設(shè)備發(fā)送數(shù)據(jù)和/或從外部用戶輸入/輸出設(shè)備接收數(shù)據(jù)的軟件、電路或者另外形式的邏輯。
額外地,用戶界面304可包括VUI,該VUI被配置成接收包含一個或多個口說話語的口頭輸入,并且基于接收到的口頭輸入生成輸出數(shù)據(jù)。VUI可包括可耦合到客戶端設(shè)備300的用于接收口頭輸入的麥克風(fēng)或類似的(一個或多個)設(shè)備。VUI還可包括可耦合到客戶端設(shè)備的被配置成生成可聽輸出的一個或多個設(shè)備,諸如揚聲器、揚聲器插孔、音頻輸出端口、音頻輸出設(shè)備、耳機(jī)和/或其他現(xiàn)在知道或以后開發(fā)的類似設(shè)備。在一些示例中,用戶界面304和VUI可被配置成基于非口頭輸入(例如經(jīng)由鍵盤或觸摸屏輸入的文本)產(chǎn)生可聽輸出。額外地或者可替換地,用戶界面304和VUI可被配置成基于口頭輸入產(chǎn)生非口頭輸出(例如,在計算機(jī)屏幕上顯示的文本)。一般而言,客戶端設(shè)備可直接經(jīng)由用戶界面304接收輸入數(shù)據(jù),諸如由客戶端設(shè)備的用戶說出的一個或多個話語。
話音調(diào)適模塊306可被配置成基于計算設(shè)備所接收到的一個或多個話音樣本(或話音樣本的集合)來使話音模型個性化,從而確定一個或多個調(diào)適語音。話音調(diào)適模塊306還可被配置成執(zhí)行一個或多個類型的話音調(diào)適。此外,話音調(diào)適模塊可包括話音識別模塊(例如,文本識別模塊),該話音識別模塊可被配置成執(zhí)行基于語法和/或基于規(guī)則的文本模式識別以及其他功能。
處理器308可包含一個或多個通用處理器(例如,微處理器)和/或一個或多個專用處理器(例如,DSP、GPU、FPU、網(wǎng)絡(luò)處理器或ASIC)。處理器306可能夠運行存儲在數(shù)據(jù)存儲裝置310中的程序指令314(例如,經(jīng)編譯或未經(jīng)編譯的程序邏輯和/或機(jī)器代碼)以執(zhí)行本文所述的各種功能。因此,數(shù)據(jù)存儲裝置310可包括其上存儲有程序指令的非暫態(tài)計算機(jī)可讀介質(zhì),這些程序指令在由客戶端設(shè)備300運行時使得客戶端設(shè)備300執(zhí)行本說明書和/或附圖中公開的方法、過程或功能中的任何一個。
數(shù)據(jù)存裝置儲310還可包括安裝在客戶端設(shè)備300上的一個或多個應(yīng)用程序316(例如,地址薄、電子郵件、web瀏覽、社交網(wǎng)絡(luò)和/或游戲應(yīng)用)。應(yīng)用程序316可訪問的數(shù)據(jù)可被布置在對客戶端設(shè)備300的用戶可見或隱藏的文件系統(tǒng)中。另外,應(yīng)用程序316可被配置成通過一個或多個應(yīng)用編程接口(API)與客戶端設(shè)備300的操作系統(tǒng)(未示出)通信。這些API可例如促進(jìn)應(yīng)用程序316讀取和/或?qū)懭霊?yīng)用數(shù)據(jù)318、經(jīng)由通信接口302發(fā)送或接收信息、在用戶界面/VUI 304上接收信息或顯示信息等等。額外地,客戶端設(shè)備300可通過一個或多個在線應(yīng)用商店或應(yīng)用市場下載應(yīng)用程序316。然而,應(yīng)用程序還可被按其他方式安裝在客戶端設(shè)備300上,諸如經(jīng)由web瀏覽器或通過客戶端設(shè)備300上的物理接口(例如,USB端口)。
數(shù)據(jù)存儲裝置310還可包括存儲的語音簡檔318。語音簡檔318例如可被應(yīng)用程序316訪問。作為示例,客戶端設(shè)備300可從另外的客戶端設(shè)備接收共享的語音簡檔,并且隨后可將語音簡檔存儲在數(shù)據(jù)存儲裝置310中。語音簡檔(例如,原始語音簡檔的拷貝)最初可被存儲在云中,然后被發(fā)送給客戶端設(shè)備300,或者語音簡檔可直接從其他客戶端設(shè)備發(fā)送到客戶端設(shè)備300??蛻舳嗽O(shè)備300可包括應(yīng)用程序316,應(yīng)用程序316被配置成使用作為語音簡檔的一部分被包括的調(diào)適語音來執(zhí)行TTS合成。另外,對TTS應(yīng)用程序的特定功能的運行可使得客戶端設(shè)備300以與從其接收到語音簡檔的其他客戶端設(shè)備相關(guān)聯(lián)的語者的語音的形式輸出文本的可聽表示。
作為另一示例,用戶A可與用戶B(例如,在語音簡檔的授權(quán)簡檔中指定用戶B的用戶標(biāo)識符)的客戶端設(shè)備共享語音簡檔,并且用戶B可依照用戶A的語音簡檔運行客戶端設(shè)備上的特定TTS應(yīng)用程序。另外,TTS應(yīng)用程序可以是電子郵件應(yīng)用,并且用戶B可向用戶A發(fā)送包含多個文本串的電子郵件消息??蛻舳嗽O(shè)備的電子郵件應(yīng)用然后可輸出多個文本串的音頻表示,并且該音頻可與用戶B的語音相同(或類似)??蛻舳嗽O(shè)備的語音簡檔用途的其他示例也是可能的。
圖4描繪了示例方法400的流程圖。方法400可包括如塊402-408中的一個或多個所圖示的一個或多個操作、功能或者動作。雖然這些塊被以連續(xù)順序圖示,但這些塊也可并行和/或以與本文所述的順序不同的順序執(zhí)行。另外,各個塊可基于期望的實現(xiàn)方式被組合成更少的塊,劃分成額外的塊,和/或被移除。
此外,對于方法400及本文公開的其他過程和方法,框圖示出了本實施例的一個可能的實現(xiàn)方式的功能和操作。在這點上,每個塊可表示程序代碼的模塊、片段或者部分,其包括用于實現(xiàn)過程中的特定邏輯功能或者步驟的處理器或計算設(shè)備可運行的一個或多個指令。程序代碼可被存儲在任何類型的計算機(jī)可讀介質(zhì)上,例如,存儲在諸如包括盤或者硬盤的存儲設(shè)備上。計算機(jī)可讀介質(zhì)可包括非暫態(tài)計算機(jī)可讀介質(zhì),例如,諸如短時間段內(nèi)存儲數(shù)據(jù)的計算機(jī)可讀介質(zhì),像寄存器存儲器、處理器高速緩存以及隨機(jī)存取存儲器(RAM)。計算機(jī)可讀介質(zhì)也可包括非暫態(tài)介質(zhì),例如,諸如輔助或者永久性長期儲存裝置,像只讀存儲器(ROM)、光盤或者磁盤、致密盤只讀存儲器(CD-ROM)。計算機(jī)可讀介質(zhì)也可以是任何其他易失性或者非易失性存儲系統(tǒng)。計算機(jī)可讀介質(zhì)可被認(rèn)為是例如計算機(jī)可讀存儲介質(zhì),或者有形存儲設(shè)備。
為了示例,圖4中所示的方法400將被描述為由示例計算系統(tǒng)(諸如圖2中所圖示的計算設(shè)備200)實現(xiàn)。然而,應(yīng)當(dāng)理解,其他計算實體(基于云的以及不基于云的兩者)以及這種實體的組合可實現(xiàn)示例方法400的一個或多個步驟,諸如圖3的客戶端設(shè)備。
最初,在塊402,方法400包括接收一個或多個話音樣本,并且這些樣本包括多個口說話語。多個口說話語可表示與一個或多個話音樣本相關(guān)聯(lián)的文本串。例如,計算系統(tǒng)可向用戶(例如口說話語的語者)提供文本串(或者多個文本串),并且作為響應(yīng)用戶可通過說出包括在文本串中的文本來提供話音樣本。一個或多個話音樣本可與給定文本串相關(guān)聯(lián)。
在接收到第一話音樣本之后,計算系統(tǒng)可向用戶提供相同的(一個或多個)文本串或者不同的(一個或多個)文本串,并且接收隨后的話音樣本,其包括表示隨后提供的(一個或多個)文本串的口說話語。文本串可通過計算系統(tǒng)的用戶界面提供給用戶。另外,文本串可由計算設(shè)備可運行的應(yīng)用程序來提供,諸如由圖3中所述的應(yīng)用程序來提供,并且應(yīng)用程序可以是被配置成使得用戶能夠創(chuàng)建/管理語音簡檔的應(yīng)用程序。
在一些示例中,每個話音樣本可在特定會話期間被計算系統(tǒng)接收到(例如,記錄),并且每個會話可與各自的會話標(biāo)識符相關(guān)聯(lián)。例如,一個會話可包含計算系統(tǒng)提供文本串給用戶以大聲朗讀。作為另一示例,特定會話可包含計算系統(tǒng)向用戶提供一系列文本串。計算系統(tǒng)接收一個或多個話音樣本的過程可包含貫穿多個會話接收多個話音樣本。一旦計算系統(tǒng)接收到給定數(shù)量的話音樣本,特定會話就可結(jié)束。每個話音樣本可與各自的話語的集合、各自的文本串(例如,文本提示)以及各自的會話標(biāo)識符相關(guān)聯(lián)。
在特定會話期間,或者在特定會話結(jié)束之后,計算系統(tǒng)可向用戶提示(或者提供選項來)記錄額外的話音樣本(例如,新的會話)。另外,計算系統(tǒng)也可向用戶提供選項以供用戶刪除先前記錄的話音樣本。更進(jìn)一步地,計算系統(tǒng)可向用戶提供選項以供用戶編輯所記錄的話音樣本(例如,調(diào)整頻率、幅度、音高(pitch)等等)。
除了諸如與基礎(chǔ)頻率、音高和韻律有關(guān)的那些之類的話音參數(shù)以外,特定話音樣本可包括其他話音特性。例如,特定話音樣本可與給定的語言(諸如英語、法語、意大利語、俄語等等)相關(guān)聯(lián)。作為另一示例,特定話音樣本可與給定情緒(諸如快樂、憂愁和憤怒)相關(guān)聯(lián)。另外,特定話音樣本可不與情緒相關(guān)聯(lián)(例如,情緒中性的和缺乏表情的)。話音特性的其他示例也是可能的(例如,性別)。在這樣的示例,用戶可按與一個或多個給定話音特性(例如,用戶說法語,用戶用快樂的語音音調(diào)來說等等)有關(guān)的方式來記錄特定話音樣本。在其他示例中,可在話音樣本中的一些或全部被計算系統(tǒng)接收到之后來管理話音樣本的這種話音特性(和/或參數(shù))。
接收話音樣本的功能可由記錄音頻(例如,口說話語)的計算系統(tǒng)來執(zhí)行??商鎿Q地,計算系統(tǒng)可記錄音頻并向另外的計算系統(tǒng)傳達(dá)音頻的話音樣本,該另外的計算系統(tǒng)可接收話音樣本并執(zhí)行進(jìn)一步的處理。
在塊404,方法400包括確定與口說話語的語者相關(guān)聯(lián)的語音簡檔,并且語音簡檔包括語者的調(diào)適語音。語者的調(diào)適語音基于針對一個或多個話音樣本的話音模型的個性化。例如,計算系統(tǒng)可基于一個或多個話音樣本來確定通用話音模型。通用話音模型可由計算系統(tǒng)基于給定語者的語音的獨有特性(例如,時間和/或頻譜特性)來個性化以便確定調(diào)適語音。在一些示例中,調(diào)適語音可基于多于一個語者的語音(例如,計算系統(tǒng)從每個語者接收到的一個或多個話音樣本)。另外,這樣的包括多個語者的語音的調(diào)適語音可基于在第一會話期間接收到的來自第一語者的至少一個話音樣本和在第二會話期間接收到的來自第二語者的至少一個話音樣本。
作為一個示例,塊404的功能可被如下執(zhí)行:計算系統(tǒng)可向服務(wù)器提供話音樣本,并且服務(wù)器可確定適當(dāng)?shù)恼Z音簡檔并且向計算系統(tǒng)提供該語音簡檔。因此,計算系統(tǒng)例如可通過與其他計算設(shè)備通信來確定語音簡檔。計算系統(tǒng)本身可額外或者可替換地在有或者沒有與其他計算設(shè)備的通信的情況下執(zhí)行處理來確定語音簡檔。
一般而言,調(diào)適語音可通過包括如下各項的方法或者方法的組合來確定:自動話音識別(automatic speech recognition,ASR)、統(tǒng)計調(diào)適(例如,基于隱式馬爾可夫模型(hidden Markov model,HMM)的合成/調(diào)適))、基于有約束多元線性回歸(constrained multiple linear regression,CMLR)的調(diào)適、跨語言語音調(diào)適(例如,使用日本語者的話音樣本來人為確定用于非日本語者的說日語的調(diào)適語音)以及已知及尚未知道的其他方法。調(diào)適語音可在所述計算系統(tǒng)處確定或者在諸如調(diào)適服務(wù)器那樣的其他計算設(shè)備處遠(yuǎn)程確定。語音簡檔也可在所述計算系統(tǒng)處確定或者在另外的計算設(shè)備處遠(yuǎn)程確定。
圖5圖示了被配置成如在塊404所述的依照方法400來確定語音簡檔的示例系統(tǒng)。如圖5中所示,來自第一語者的第一組口說話語502(例如,與第一文本串相關(guān)聯(lián))可與來自第一語者和/或不同的語者的第二組話語504(例如,與第二文本串相關(guān)聯(lián))一起被計算系統(tǒng)接收到??谡f話語502、504可被包括在一個或多個話音樣本中。
話音樣本506可以是話音調(diào)適模塊508的輸入,話音調(diào)適模塊508可被配置成使話音樣本506的一個或多個話音模型個性化,以便確定話音樣本506的調(diào)適語音。另外,所述話音調(diào)適模塊可與圖2和圖3的話音調(diào)適模塊類似地或者不同地配置。
話音調(diào)適模塊508也可被配置成訪問源數(shù)據(jù)510。源數(shù)據(jù)510可例如包括語者無關(guān)的訓(xùn)練數(shù)據(jù)(例如,諸如“語者無關(guān)的聲學(xué)模型”那樣的通用話音模型),所述語者無關(guān)的訓(xùn)練數(shù)據(jù)包含若干小時的預(yù)先存在的語者無關(guān)的話音樣本/數(shù)據(jù)。另外,源數(shù)據(jù)510可依照諸如統(tǒng)計/HMM話音調(diào)適那樣的特定話音調(diào)適方法來使用,以便確定調(diào)適語音。通用話音模型的個性化可至少部分基于口說話語的節(jié)奏、口說話語的變調(diào)、口說話語的韻律、口說話語的模式等等。最后,話音調(diào)適模塊508或者計算系統(tǒng)的其他(一個或多個)組件可確定包括調(diào)適語音的語音簡檔512。
語音簡檔可包括與一個或者多個語者相關(guān)聯(lián)的多個語音簡檔。例如每個語音簡檔可包括與相應(yīng)的一個或多個語者相關(guān)聯(lián)的相應(yīng)的調(diào)適語音。另外,各個調(diào)適語音可基于針對在由(一個或多個)會話標(biāo)識符標(biāo)識的給定的一個會話或多個會話期間由計算系統(tǒng)接收到的話音樣本的話音模型的個性化。更進(jìn)一步地,各個調(diào)適語音可基于話音模型的至少一個相應(yīng)的可調(diào)整參數(shù),諸如音高、音節(jié)持續(xù)時間、音調(diào)音量、泛音音量、節(jié)奏、韻律等等。因而,可確定多個語音簡檔,每個語音簡檔與相應(yīng)的可調(diào)整參數(shù)相關(guān)聯(lián)(例如,大聲說話的語音、緩慢說話的語音、有口音的語音等等)。額外地或者可替換地,各個調(diào)適語音可基于諸如語言和情緒之類的其他特性。因而,可確定多個語音簡檔,每個語音簡檔與相應(yīng)的語言和/或情緒相關(guān)聯(lián)(例如,快樂的意大利語語音、嚴(yán)肅/正式的英語語音等等)。在一些示例中,在語音簡檔被諸如語者或者與其共享語音簡檔的另外的用戶確定了之后,這樣的參數(shù)和/或特性可由用戶管理。
圖6A圖示了被配置成依照方法400執(zhí)行功能的示例計算設(shè)備,諸如客戶端設(shè)備600。具體來說,圖6A圖示了可使得客戶端設(shè)備600的用戶能夠確定或生成語音簡檔的用戶界面602??捎煽蛻舳嗽O(shè)備600的特定應(yīng)用程序提供的用戶界面602可包括可調(diào)整話音參數(shù)/特性604,諸如與基礎(chǔ)頻率、韻律和持續(xù)時間有關(guān)的參數(shù),所述參數(shù)可在用戶于客戶端設(shè)備600處記錄了話音樣本之后由用戶調(diào)整。如圖所示,每個參數(shù)604可由用戶界面602的“滑動條”來單獨修改。應(yīng)當(dāng)理解,與圖6A中所示的相比,更多、更少和/或不同的話音參數(shù)/特性可被管理。其他話音數(shù)據(jù)也可被管理。
一般而言,諸如圖6A中所示的用戶界面602那樣的用戶界面可被提供給用戶以使得用戶能夠回顧、更新(例如,保存)、刪除、編輯和/或插入話音樣本以及與話音樣本相關(guān)聯(lián)的話音參數(shù)/特性604。另外,可針對每個話音樣本和/或一組話音樣本(例如,樣本的會話)來管理這樣的話音參數(shù)/特性604。更進(jìn)一步地,可在調(diào)適語音已被客戶端設(shè)備或者其他計算設(shè)備確定之后管理這樣的話音參數(shù)/特性604。
返回參考圖4,在塊406,方法400包括接收與語音簡檔相關(guān)聯(lián)的授權(quán)簡檔,并且授權(quán)簡檔包括與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符。例如,用戶A可以是語音簡檔的語者/擁有者,可向計算系統(tǒng)提供用戶B的用戶標(biāo)識符和用戶C的用戶標(biāo)識符。通過包括用戶B和用戶C的用戶標(biāo)識符,用戶A可使能/授權(quán)用戶B和用戶C訪問用戶A的語音簡檔。作為另一示例,用戶A可向計算系統(tǒng)提供與用戶B和用戶C兩者都相關(guān)聯(lián)的一個用戶標(biāo)識符。一般而言,用戶標(biāo)識符可與一個特定用戶或者諸如存儲在移動電話上的聯(lián)系人列表(例如,“家庭”、“朋友”和“同事”)的一組用戶、用戶的名字、用戶的電話號碼等等相關(guān)聯(lián)。在其他示例中,語音簡檔也可與特定設(shè)備或設(shè)備標(biāo)識符相關(guān)聯(lián)。
在一些示例中,語音簡檔可包括多個語音簡檔,并且用戶可將每個語音簡檔分配給一個或多個用戶標(biāo)識符。因而,每個語音簡檔可包括各自的授權(quán)簡檔。例如,用戶A可確定兩個語音簡檔:具有說英語的調(diào)適語音的第一語音簡檔,以及具有說西班牙語的調(diào)適語音的第二語音簡檔。用戶A然后可將第一語音簡檔分配給與用戶B和用戶C相關(guān)聯(lián)的一個或多個用戶標(biāo)識符,用戶B和用戶C可以是說英語的用戶,并且用戶A可將第二語音簡檔分配給與用戶D和用戶E相關(guān)聯(lián)的一個或多個用戶標(biāo)識符,用戶D和用戶E可以是說西班牙語的用戶。每個語音簡檔可通過一個或多個諸如語言、口音和情緒之類的獨有特性來定義,并且可額外地或者可替換地通過諸如音量、頻率、持續(xù)時間等等之類的參數(shù)來定義。
圖6B圖示了依照方法400的圖6A的客戶端設(shè)備600的另一用戶界面610。如圖所示,客戶端設(shè)備600的用戶界面610(例如,智能電話的觸摸屏)可使得客戶端設(shè)備600的用戶能夠查看和創(chuàng)建語音簡檔612。在示出的示例中,用戶可基于調(diào)適語音的話音特性來將調(diào)適語音標(biāo)識為“正式語音”。用戶還可在語音簡檔612中包括調(diào)適語音的描述。此外,語音簡檔612可包括用戶所提供的授權(quán)簡檔614,并且授權(quán)簡檔614可包括與跟其共享所創(chuàng)建的語音簡檔612的一個或多個用戶相關(guān)聯(lián)的一個或多個用戶標(biāo)識符616(例如,電話上的聯(lián)系人)。其他語音簡檔選項也是可能的。
返回參考圖4,在塊408,方法400包括至少部分基于授權(quán)簡檔將語音簡檔提供給與一個或多個相應(yīng)的用戶相關(guān)聯(lián)的至少一個計算設(shè)備,諸如客戶端設(shè)備。然而,應(yīng)當(dāng)理解,可以不響應(yīng)于確定授權(quán)簡檔將給定用戶/語者的語音簡檔自動提供給其他用戶。作為替換方案,假如在語音簡檔的授權(quán)簡檔中標(biāo)識了其他用戶,則授權(quán)簡檔可使得所述其他用戶能夠訪問給定用戶的語音簡檔。另外,其他用戶可向服務(wù)器(或者存儲了語音簡檔的其他計算設(shè)備)發(fā)送請求,并且服務(wù)器然后可將語音簡檔發(fā)送給所述其他用戶和/或使得所述其他用戶能夠從服務(wù)器下載語音簡檔。作為另一替換方案,給定用戶的客戶端設(shè)備可直接與其他用戶的其他客戶端設(shè)備共享語音簡檔,而無需基于云的或者不基于云的服務(wù)器或者其他(一個或多個)計算設(shè)備的介入。其他替換方案也是可能的。
作為在塊408的方法400的示例,用戶A的第一語音簡檔可包括用戶A的第一調(diào)適語音(例如,快樂的語音),并且還可包括用戶B的用戶標(biāo)識符。另外,用戶A的第二語音簡檔可包括用戶A的第二調(diào)適語音(例如,憂愁的語音),并且還可包括用戶C的用戶標(biāo)識符。在這樣的示例中,計算系統(tǒng)(例如,服務(wù)器或者其他計算設(shè)備,諸如用戶A的客戶端設(shè)備)然后可將用戶A的第一語音簡檔提供給與用戶B相關(guān)聯(lián)的一個或多個客戶端設(shè)備,諸如全部都為用戶B所擁有的智能電話、膝上型計算機(jī)和個人計算機(jī)。額外地,計算系統(tǒng)可將用戶A的第二語音簡檔提供給與用戶C相關(guān)聯(lián)的一個或多個客戶端設(shè)備,諸如全部都為用戶C所擁有的智能電話、膝上型計算機(jī)和個人計算機(jī)。通過接收用戶A的語音簡檔,用戶B和/或用戶C可被許可來按各種方式和出于多種目的修改和/或使用用戶A的語音簡檔。
語音簡檔可包括與語音簡檔相關(guān)聯(lián)的應(yīng)用簡檔。應(yīng)用簡檔可被計算系統(tǒng)接收,并且應(yīng)用簡檔可包括與可由相同或不同的計算系統(tǒng)/設(shè)備運行的一個或多個應(yīng)用相關(guān)聯(lián)的一個或多個應(yīng)用標(biāo)識符。例如,應(yīng)用簡檔可被基于云的服務(wù)器從給定用戶/語者的客戶端設(shè)備或者其他計算設(shè)備接收,并且應(yīng)用簡檔然后可與語音簡檔一起被提供給與在語音簡檔的授權(quán)簡檔中標(biāo)識的其他用戶相關(guān)聯(lián)的至少一個客戶端設(shè)備。應(yīng)用簡檔可使得其他用戶能夠利用給定用戶的語音簡檔使一個或多個應(yīng)用個性化。
例如,用戶A的語音簡檔/應(yīng)用簡檔可包括電子郵件應(yīng)用和文本消息應(yīng)用的應(yīng)用標(biāo)識符,并且這兩個應(yīng)用都可被配置成執(zhí)行TTS合成(例如,將包括在電子郵件或者文本消息中的文本串轉(zhuǎn)換成話音)。用戶A可與用戶B的客戶端設(shè)備共享語音簡檔,并且應(yīng)用簡檔可使得用戶B能夠?qū)烧叨伎捎捎脩鬊的客戶端設(shè)備運行的電子郵件應(yīng)用和文本消息應(yīng)用個性化。例如,在從用戶A接收到電子郵件后,用戶B的客戶端設(shè)備可將電子郵件文本轉(zhuǎn)換成話音,并且該話音可與語音簡檔的調(diào)適語音相同。更具體地,電子郵件可被用戶B的客戶端設(shè)備以用戶A所確定的調(diào)適語音大聲朗讀。
在其他示例中,給定用戶(例如,用戶A)的語音簡檔可不包括應(yīng)用簡檔。另外,與其共享語音簡檔的用戶(例如,用戶B)可利用語音簡檔的調(diào)適語音將一個或多個應(yīng)用個性化。在其他示例中,調(diào)適語音/語音簡檔可基于調(diào)適語音的一個或多個可調(diào)整參數(shù)和/或話音特性而與給定應(yīng)用相關(guān)聯(lián)。例如,正式調(diào)適語音可與特定用戶同享。正式調(diào)適語音可具有獨有參數(shù),諸如特定音調(diào)、持續(xù)時間等等。因而,正式調(diào)適語音可與可由特定用戶的客戶端設(shè)備運行的特定應(yīng)用相關(guān)聯(lián),并且因此只有特定應(yīng)用才可被授權(quán)來利用正式調(diào)適語音個性化該應(yīng)用。其他示例也是可能的。其他對于語音簡檔的使用也是可能的。
應(yīng)當(dāng)理解,本文所述的布置僅是為了示例的目的。因而,本領(lǐng)域技術(shù)人員將會領(lǐng)會,根據(jù)期望的結(jié)果可轉(zhuǎn)而使用其他布置和其他元件(例如機(jī)器、接口、功能、順序和功能的分組等等),并且可一并省略一些元件。另外,所述的許多元件是可按任何適當(dāng)組合和位置實現(xiàn)為分立或分布式的組件或者與其他組件協(xié)同的功能實體。
盡管本文公開了各種方面和實施例,但其他方面和實施例對于本領(lǐng)域技術(shù)人員來說將是明顯的。本文公開的各種方面和實施例是為了說明的目的,并且并不意圖進(jìn)行限制,其中范圍由所附權(quán)利要求指示。