專利名稱:音頻用戶接口的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及音頻用戶接口,尤其涉及用于給計(jì)算設(shè)備提供音頻用戶接口的 技術(shù)。
背景技術(shù):
電子設(shè)備(例如便攜式媒體播放器、蜂窩電話、個人數(shù)字助理(PDA)等)在目前的 市場上很流行,對它們的使用提供支持的外圍電子設(shè)備(例如擴(kuò)展塢(docking station) 等)也是這樣。隨著個人電子裝置的競爭日益白熱化,消費(fèi)者在這些設(shè)備的功能和使用方 面要求越來越高。用戶們收聽、觀看或以其他方式在各種環(huán)境下接收和消費(fèi)內(nèi)容。例如,常常在駕 車、乘坐公共交通工具、鍛煉、遠(yuǎn)足、做家務(wù)等的同時(shí)收聽音樂。另外,除了對儲存在媒體播 放器上的內(nèi)容進(jìn)行回放之外,用戶們現(xiàn)在還更加經(jīng)常地使用媒體播放器來接收電臺、電視、 衛(wèi)星廣播、全球定位以及其他基于廣播的位置服務(wù),以進(jìn)行導(dǎo)航和消遣。傳統(tǒng)上,媒體播放器或便攜式媒體播放器可以具有為其用戶播放媒體的能力,這 些媒體例如音頻(例如歌曲)或視頻(例如電影)。在播放音頻時(shí),如果媒體播放器包含顯 示器,則顯示器可以呈現(xiàn)歌曲名稱、藝術(shù)家和與該歌曲有關(guān)的其他信息。在播放視頻的情形 下,顯示器可以用來呈現(xiàn)視頻。為了實(shí)現(xiàn)便攜性,許多手持式設(shè)備可以使用用戶接口,這些用戶接口向用戶呈現(xiàn) 各種顯示屏幕以進(jìn)行交互,交互以視覺方式為主。用戶們能夠與這些用戶接口進(jìn)行交互,以 操縱滾動輪和/或一組按鈕來對顯示屏幕進(jìn)行導(dǎo)航,從而訪問這些手持式設(shè)備的功能。但 是,這些用戶接口有時(shí)由于各種原因而難以使用。一種原因是這些顯示屏幕可能常常有小 的尺寸和形狀因素,因而難以看清。另一個原因是用戶可能具有不良的閱讀視力或者由于 其他原因而視覺較弱。即使能夠察覺這些顯示屏幕,在用戶不能將視覺焦點(diǎn)從重要的活動 轉(zhuǎn)向該用戶接口的情況下,用戶也會難以對用戶接口進(jìn)行導(dǎo)航。這些活動例如包括駕駛汽 車、鍛煉以及穿越街道。因此,需要改善的方法和裝置來解決上述問題中的一些。另外,還需要改善的方法 和裝置來減小上述缺點(diǎn)中的一些。
發(fā)明內(nèi)容
在各種實(shí)施例中,通過包含音頻用戶接口,能夠增強(qiáng)用戶與電子設(shè)備(例如媒體 播放器或便攜式媒體設(shè)備)間交互的體驗(yàn),所述用戶音頻接口提供了對用于該音頻用戶接口的合適音頻對話是否可用進(jìn)行判斷的智能途徑。例如,根據(jù)該電子設(shè)備是否具有到通信 網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))的寬帶連接,可以作出判斷以請求從語音服務(wù)器向該電子設(shè)備流送第 一類型或類別(例如高質(zhì)量語音記錄)的音頻文件,以由該音頻用戶接口進(jìn)行輸出。在另 一種示例中,可以作出判斷以僅僅使用第二類型或類別(例如低質(zhì)量語音記錄)的音頻文 件,這些音頻文件是該電子設(shè)備可訪問的媒體儲存設(shè)備上可用的。在再一種示例中,在預(yù)先 記錄的語音音頻數(shù)據(jù)欠缺可用性的情況下,可以作出判斷以使用一種或多種語音合成技術(shù) 或文本至語音技術(shù)來創(chuàng)建第三類別的音頻數(shù)據(jù),用于該音頻用戶接口的音頻提示。在一些實(shí)施例中,電子設(shè)備(例如媒體播放器或便攜式媒體設(shè)備)的用戶可以確 定對于該音頻用戶接口所要呈現(xiàn)(例如播放)的音頻提示的質(zhì)量。用戶可以提供一個或多 個用戶偏好,這些用戶偏好表示是否應(yīng)當(dāng)使用預(yù)先記錄的音頻數(shù)據(jù),是否應(yīng)當(dāng)使用用一項(xiàng) 或多項(xiàng)合成技術(shù)而合成的音頻提示,或者是否應(yīng)當(dāng)對于該音頻用戶接口使用傳統(tǒng)的蜂鳴或 其他非語音音頻數(shù)據(jù)。因此,帶有或不帶有顯示器的電子設(shè)備(例如媒體播放器或便攜式 媒體設(shè)備)都能由音頻用戶接口進(jìn)行增強(qiáng),以便于根據(jù)服務(wù)是否可用或根據(jù)其他選擇判據(jù) 來進(jìn)行用戶交互。在一種實(shí)施例中,輸入可以被接收,該輸入表示用戶與用戶接口的交互,該用戶接 口與電子設(shè)備(例如媒體播放器或便攜式媒體設(shè)備)相關(guān)聯(lián)。用戶可以通過對按鈕(例如 播放/暫停按鈕)進(jìn)行按壓或?qū)D形用戶接口的菜單條目進(jìn)行選擇/突出來與媒體播放器 進(jìn)行交互。該電子設(shè)備可以識別音頻提示,該音頻提示與把用戶與該用戶接口的交互聽覺 化(audibilizing)相關(guān)聯(lián)。該電子設(shè)備可以判斷多個音頻數(shù)據(jù)類別中與該音頻提示相對 應(yīng)的那個類別是否對于媒體播放器而言可用。例如,電子設(shè)備可以判斷內(nèi)部儲存裝置上是 否儲存了預(yù)先記錄的名人語音音頻文件,語音合成模塊或文本至語音引擎是否能夠合成數(shù) 字,或者語音服務(wù)器是否能夠針對該音頻用戶接口而向電子設(shè)備流送語音數(shù)據(jù)。然后,第一類別的音頻數(shù)據(jù)的一部分可以在電子設(shè)備處輸出或以其他方式呈現(xiàn)。 在一些實(shí)施例中,響應(yīng)于從第一源輸出該部分音頻數(shù)據(jù),媒體文件的回放可以被暫?;蛑?止。響應(yīng)于從第一源輸出該部分音頻數(shù)據(jù),媒體文件的回放音量可以被減小或被靜音。參考這份文獻(xiàn)的其他部分以及附圖,能夠?qū)τ杀旧暾堉兴_的這些發(fā)明提供的 性質(zhì)、優(yōu)點(diǎn)和改善有進(jìn)一步的了解。
為了更好地說明和闡述這份文獻(xiàn)中呈現(xiàn)的任何發(fā)明的實(shí)施例和/或示例,將參考 一副或多幅附圖。用來描述附圖的附加細(xì)節(jié)或示例不應(yīng)認(rèn)為是對所公開的發(fā)明中任一項(xiàng)的 范圍、當(dāng)前描述的實(shí)施例和/或示例中任一項(xiàng)、或當(dāng)前被認(rèn)為是這份文獻(xiàn)中呈現(xiàn)的任何發(fā) 明的最佳模式的限制。圖1是媒體播放器的框圖,該媒體播放器可以包含本發(fā)明的實(shí)施例;圖2是根據(jù)本發(fā)明的一種實(shí)施例中媒體播放器的框圖,該媒體播放器可以提供預(yù) 先記錄的或合成的音頻提示;圖3是根據(jù)本發(fā)明的一種實(shí)施例中音頻用戶接口管理系統(tǒng)的框圖,該系統(tǒng)可以提 供預(yù)先記錄的或合成的音頻提示;圖4是根據(jù)本發(fā)明的一種實(shí)施例中對音頻提示系統(tǒng)進(jìn)行流送的框圖5圖示了根據(jù)本發(fā)明的一種實(shí)施例中媒體播放器及其相關(guān)聯(lián)的用戶輸入控件 的示意圖;圖6圖示了根據(jù)本發(fā)明的可替換實(shí)施例中媒體播放器及其相關(guān)聯(lián)的用戶輸入控 件的示意圖;圖7是根據(jù)本發(fā)明的一種實(shí)施例中,用于向電子設(shè)備的用戶提供音頻用戶接口的 方法的簡化流程圖;圖8A和圖8B是根據(jù)本發(fā)明的一種實(shí)施例中,用于給電子設(shè)備提供音頻用戶接口 的方法的流程圖;圖9是根據(jù)本發(fā)明的一種實(shí)施例中對用于音頻用戶接口的音頻提示進(jìn)行流送的 方法的流程圖;圖10是根據(jù)本發(fā)明的一種實(shí)施例中用于使用一項(xiàng)或多項(xiàng)語音或文本至語音合成 技術(shù)來在主計(jì)算機(jī)系統(tǒng)創(chuàng)建音頻提示的方法的流程圖;圖11是根據(jù)本發(fā)明的可替換實(shí)施例,使用一種或多種語音或文本至語音合成技 術(shù)來創(chuàng)建音頻提示的方法的流程圖;圖12是可以包含本發(fā)明實(shí)施例的電子設(shè)備的框圖。
具體實(shí)施例方式各種實(shí)施例可以適用于具有音頻回放能力的電子設(shè)備,例如媒體設(shè)備(例如數(shù)字 媒體播放器或便攜式MP3播放器)或其他便攜式多功能設(shè)備(例如移動電話或個人數(shù)字助 理)。例如,便攜式設(shè)備常??梢詢Υ婧筒シ艛?shù)字媒體資料(媒體條目),例如音樂(例如 歌曲)、視頻(例如電影)、音頻書、播客(podcast)、會議記錄和/或其他多媒體記錄。便攜 式設(shè)備(例如便攜式媒體播放器或其他便攜式多功能設(shè)備)還可以是小巧而高度便攜的。 另外,便攜式設(shè)備是能夠容易的由用戶的一只手握持在內(nèi)的手持式設(shè)備,例如手持式媒體 播放器或手持式多功能設(shè)備。便攜式設(shè)備還可以是口袋尺寸、微型的或可佩戴的。在各種實(shí)施例中,通過包含音頻用戶接口,能夠增強(qiáng)用戶與電子設(shè)備(例如媒體 播放器或便攜式媒體設(shè)備)間交互的體驗(yàn),所述用戶音頻接口提供了對用于該音頻用戶接 口的合適音頻對話是否可用進(jìn)行判斷智能途徑。例如,根據(jù)該電子設(shè)備是否具有到通信網(wǎng) 絡(luò)(例如互聯(lián)網(wǎng))的寬帶連接,可以作出判斷以請求從語音服務(wù)器向該電子設(shè)備流送高質(zhì) 量語音記錄的音頻文件,以由該音頻用戶接口進(jìn)行輸出。在另一種示例中,可以作出判斷以 僅僅使用低質(zhì)量語音記錄的音頻文件,這些音頻文件是該電子設(shè)備可訪問的媒體儲存設(shè)備 上可用的。在再一種示例中,在預(yù)先記錄的語音音頻數(shù)據(jù)欠缺可用性的情況下,可以作出判 斷以使用一種或多種語音合成技術(shù)或文本至語音技術(shù)來創(chuàng)建用于該音頻用戶接口的音頻 提示。在一些實(shí)施例中,電子設(shè)備(例如媒體播放器或便攜式媒體設(shè)備)的用戶可以判 斷對于該音頻用戶接口所要呈現(xiàn)(例如播放)的音頻提示的質(zhì)量。用戶可以提供一個或多 個用戶偏好,這些用戶偏好表示是否應(yīng)當(dāng)使用預(yù)先記錄的音頻數(shù)據(jù),是否應(yīng)當(dāng)使用用一項(xiàng) 或多項(xiàng)合成技術(shù)而合成的音頻提示,或者是否應(yīng)當(dāng)對于該音頻用戶接口使用傳統(tǒng)的蜂鳴或 其他非語音音頻數(shù)據(jù)。因此,帶有或不帶有顯示器的電子設(shè)備(例如媒體播放器或便攜式 媒體設(shè)備)都能由音頻用戶接口進(jìn)行增強(qiáng),以便于根據(jù)服務(wù)是否可用或根據(jù)其他選擇判據(jù)來進(jìn)行用戶交互。首先將說明一些環(huán)境的方面,本申請中的發(fā)明的各種示例和/或?qū)嵤├谶@些環(huán) 境中工作。圖1是媒體播放器100的框圖,該媒體播放器可以包含本發(fā)明的實(shí)施例。大體上, 媒體播放器儲存內(nèi)容和/或媒體資料,例如能夠在該媒體播放器上播放或顯示的音頻軌、 電影或照片。媒體播放器100的一種示例可以是iPod. 媒體播放器,它可以從Cupertino, CA的Apple,Inc.買到。媒體播放器100的另一種示例可以是個人計(jì)算機(jī),例如膝上型電 腦或臺式機(jī)。在這種示例中,媒體播放器100包括處理器110、儲存設(shè)備120、用戶接口 130和通 信接口 140。處理器110可以控制與媒體播放器100相關(guān)聯(lián)的各種功能。媒體播放器100 可以輸出音頻內(nèi)容、視頻內(nèi)容、圖像內(nèi)容等。媒體播放器100還可以輸出與內(nèi)容相關(guān)聯(lián)的元 數(shù)據(jù)或其他信息,例如軌信息和作品集藝術(shù)家。通常,用戶可以使用儲存設(shè)備120將內(nèi)容裝載或儲存到媒體播放器100上。儲存 設(shè)備120可以包括只讀存儲器(ROM)、隨機(jī)存取存儲器(RAM)、非易失性存儲器、閃存、軟盤、 硬盤等。用戶可以與媒體播放器100的用戶接口 130進(jìn)行交互以對內(nèi)容進(jìn)行觀看或消費(fèi)。 用戶接口 130的一些示例可以包括按鈕、點(diǎn)擊輪、觸摸板、顯示器、觸摸屏、以及其他的輸入
/輸出設(shè)備。媒體播放器100可以包括一個或多個連接器或端口,這些連接器或端口可以用來 裝載內(nèi)容、取得內(nèi)容、與媒體播放器100上運(yùn)行的應(yīng)用進(jìn)行交互、與外部設(shè)備進(jìn)行對接等。 在該示例中,媒體播放器100包括通信接口 140。通信接口 140的一些示例可以包括通用 串行總線(USB)接口、IEEE 1394(即FireWire/iLink )接口、通用異步接收器/發(fā)送器 (UART)、有線的和無線的網(wǎng)絡(luò)接口、收發(fā)器等??梢杂猛ㄐ沤涌?140將媒體播放器100連接 到設(shè)備、附件、私有的和公共的通信網(wǎng)絡(luò)(例如互聯(lián)網(wǎng))等。在一種示例中,媒體播放器100可以經(jīng)過有線的和/或無線的連接器或端口而耦 合,以向揚(yáng)聲器150輸出音頻和/或其他信息。在另一種示例中,媒體播放器100可以經(jīng)過 有線的和/或無線的連接器或端口而耦合,以向耳機(jī)160輸出音頻和/或其他信息。在再 一種示例中,媒體播放器100可以經(jīng)過有線的和/或無線的連接器或端口而耦合,以與附件 170或主計(jì)算機(jī)180進(jìn)行對接??梢杂赏贿B接器或端口在不同的時(shí)候允許使用不同的連 接。媒體播放器100可以物理地插入到擴(kuò)展塢系統(tǒng)190中。媒體播放器100可以經(jīng)過 有線的和/或無線的連接器或端口而耦合,以與擴(kuò)展塢系統(tǒng)190進(jìn)行對接。擴(kuò)展塢系統(tǒng)190 也可以使一個或多個附件設(shè)備195能夠通過有線或無線方式耦合,以與媒體播放器100進(jìn) 行對接。附件設(shè)備170和195的許多不同類型和功能可以向或與媒體播放器100互連。例 如,附件可以允許遙控器以無線方式控制媒體播放器100。又例如,汽車可以包括連接器,媒 體播放器100可以插入到該連接器中,使得汽車媒體系統(tǒng)能夠與媒體播放器100進(jìn)行交互, 從而允許在汽車中播放儲存在媒體播放器100上的媒體內(nèi)容。在各種實(shí)施例中,媒體播放器100可以從計(jì)算機(jī)系統(tǒng)(例如主計(jì)算機(jī)160)接收內(nèi) 容或其他媒體資料。計(jì)算機(jī)系統(tǒng)可以用來使用戶能夠?qū)Υ嬖谟?jì)算機(jī)系統(tǒng)上和/或儲存在 媒體播放器100上的媒體資料進(jìn)行管理。例如,通信接口 140可以允許媒體播放器100與主計(jì)算機(jī)160進(jìn)行對接。主計(jì)算機(jī)160可以執(zhí)行媒體管理應(yīng)用,以對媒體資料進(jìn)行管理,例 如將歌曲、電影、照片等裝載到媒體播放器100上。媒體管理應(yīng)用還可以創(chuàng)建播放列表、記 錄或抓取內(nèi)容、對內(nèi)容進(jìn)行安排以進(jìn)行回放或記錄,等等。媒體管理應(yīng)用的一種示例可以是 由 Cupertino,California 的 Apple,Inc.生產(chǎn)的 iTunes 0在各種實(shí)施例中,媒體播放器100可以包括音頻用戶接口。在用戶與媒體播放器 100進(jìn)行交互時(shí)(例如在用戶按下按鈕、觸摸了觸摸屏、或者選擇了圖形用戶接口上的條目 時(shí)),音頻用戶接口的實(shí)施例可以呈現(xiàn)或以其他方式輸出從音頻對話選擇的音頻提示以進(jìn) 行回放。音頻提示可以包括音頻指示器,這些音頻指示器允許用戶將其視覺注意力集中在 其他任務(wù)(例如駕駛汽車、進(jìn)行鍛煉或穿越街道)上,而仍然使得用戶能夠與用戶接口 130 進(jìn)行交互。作為示例,音頻提示可以對被下壓的硬件按鈕的讀音名稱或描述、虛擬按鈕或控 件的讀音激活或者用戶接口的讀音版本(例如顯示菜單的所選(例如被突出的)菜單條目 或所選功能)進(jìn)行聽覺化。音頻提示可以包括預(yù)先記錄的語音數(shù)據(jù),也可以通過語音或語 音發(fā)生技術(shù)來產(chǎn)生。在一個方面,媒體播放器100的實(shí)施例可以包括用于給電子設(shè)備提供音頻用戶接 口的技術(shù),這些技術(shù)有效地改善了用于音頻用戶接口的音頻提示源的可用性。例如,媒體播 放器100可以根據(jù)音頻對話的源是否可用、更高質(zhì)量的源是否可用等等,來選擇性地從不 同的音頻對話輸出音頻提示。在一種示例中,在連接到互聯(lián)網(wǎng)之前,媒體播放器100的用 戶可以聽到低質(zhì)量的語音音頻提示或由媒體播放器100合成的音頻提示,在連接到互聯(lián)網(wǎng) 時(shí),更高質(zhì)量的、預(yù)先記錄的語音音頻提示可以被下載或流送到音頻用戶接口。這樣,在各 種實(shí)施例中,媒體播放器100可以判斷用于音頻用戶接口的音頻提示的源是否可用,并自 動地從一個源切換到另一個,以向用戶選擇性地提供一個最好的可用音頻反饋。圖2是根據(jù)本發(fā)明的一種實(shí)施例中媒體播放器200的框圖,該媒體播放器可以提 供預(yù)先記錄的或合成的音頻提示。在該示例中,媒體播放器200可以以媒體播放器100的 形式實(shí)施,并可以包括專用于對內(nèi)容或其他媒體資料(例如音頻、視頻或圖像)進(jìn)行處理的 便攜式計(jì)算設(shè)備。例如,媒體播放器200可以是音樂播放器(例如ΜΡ3播放器)、游戲播放 器、視頻播放器、視頻記錄器、相機(jī)、圖像觀看器、移動電話(例如蜂窩電話)、個人手持設(shè)備 等。這些設(shè)備通常使用電池來工作并有高度便攜性,以使得用戶無論旅行到哪里都能聽音 樂、播放游戲或視頻、記錄視頻或拍攝圖片。在一種實(shí)現(xiàn)方式中,媒體播放器200可以包括手持設(shè)備,該設(shè)備的尺寸可被放置 在用戶的口袋中或手中。通過手持方式,媒體播放器200可以較小,并容易由其用戶操縱和 使用。通過口袋尺寸,用戶無需直接拿著媒體播放器200,因此該設(shè)備能夠被帶到幾乎用戶 旅行到的任何地方(例如,用戶不受攜帶龐大、笨拙并且常常沉重的設(shè)備的限制(如便攜式 計(jì)算機(jī)的情形那樣))。此外,媒體播放器200愛可以由用戶的手操作,從而無需基準(zhǔn)表面 (例如桌面)。在可替換實(shí)施例中,媒體播放器200可以是并非被具體限制來播放媒體文件 的計(jì)算設(shè)備。例如,媒體播放器200也可以是移動電話或個人數(shù)字助理。在這種示例中,媒體播放器200可以包括用戶接口控制模塊210、音頻提示數(shù)據(jù)庫 220和文本至語音引擎230。用戶接口控制模塊210可以包括用于對用戶接口進(jìn)行管理的 硬件和/或軟件元件,該用戶接口允許用戶與媒體播放器200進(jìn)行交互(例如,導(dǎo)航、啟動 內(nèi)容回放等)。用戶接口例如可以允許媒體播放器200的用戶對媒體播放器200上駐留的或以其他方式可訪問的內(nèi)容或其他媒體資料進(jìn)行瀏覽、排序、搜索、播放等。用戶接口還可 以允許媒體播放器200的用戶從媒體播放器200下載(添加)或刪除(移除)媒體條目。與媒體播放器200的用戶接口進(jìn)行的交互可以造成用于音頻用戶接口的音頻提 示被回放(例如通過耳機(jī)或揚(yáng)聲器)。音頻提示數(shù)據(jù)庫220可以包括硬件和/或軟件元件, 用于儲存用于音頻提示的音頻文件和音頻數(shù)據(jù)。在一些實(shí)施例中,音頻文件可以包括被預(yù) 先記錄并被儲存在媒體播放器200上的音頻提示。在其他實(shí)施例中,音頻文件可以包括從 一個或多個計(jì)算機(jī)上流送、并被緩存在音頻提示數(shù)據(jù)庫220中以便隨后使用的音頻文件。 在各種實(shí)施例中,音頻文件可以包括使用一種或多種語音合成技術(shù)而由媒體播放器200或 由另一設(shè)備產(chǎn)生的音頻提示。音頻提示數(shù)據(jù)庫220可以包括其他內(nèi)容或媒體資料。文本至語音轉(zhuǎn)換引擎230可以包括硬件和/或軟件元件,用于將數(shù)據(jù)(例如文本) 轉(zhuǎn)換成能夠播放的音頻數(shù)據(jù)或音頻文件,以產(chǎn)生能夠?qū)?shù)據(jù)(例如文本串)聽覺化(例如 用類似人類的語音或以讀音形式進(jìn)行語言表達(dá))的用戶接口音頻提示。這樣的文本至語音 (TTS)引擎可以使用各種技術(shù)來創(chuàng)建音頻數(shù)據(jù)或音頻文件。例如,一些算法使用這樣的技 術(shù)將單詞分解成片段或音節(jié)、然后給這些片段或音節(jié)指定某個聲音。然后,可以通過將各 個聲音進(jìn)行組合來對單詞進(jìn)行語言表達(dá)。在媒體內(nèi)容涉及音樂的情況下,這些文本串例如 可以對應(yīng)于歌曲題目、作品集名稱、藝術(shù)家名稱、聯(lián)系人名稱、地址、電話號碼和播放列表名 稱。在一種操作示例中,媒體播放器200可以根據(jù)音頻提示對于音頻數(shù)據(jù)庫220和TTS 引擎230是否可用,來選擇性地提供用于音頻用戶接口的音頻提示。例如,當(dāng)預(yù)先記錄的音 頻提示可用或以其他方式儲存在音頻提示數(shù)據(jù)庫220中時(shí),媒體播放器200可以選擇性地 輸出來自音頻提示數(shù)據(jù)庫220的音頻提示。媒體播放器200還可以選擇性地在各種質(zhì)量的 音頻提示之間進(jìn)行選擇,例如呈現(xiàn)較高質(zhì)量或比特率的音頻提示而不是較低質(zhì)量或比特率 的音頻提示。在另一種示例中,由于缺少儲存在音頻提示數(shù)據(jù)庫220中的預(yù)先記錄的音頻 提示,或者響應(yīng)于用戶對于特定的模擬語音簡檔(profile)的偏好,媒體播放器100可以而 呈現(xiàn)由TTS引擎230合成的音頻提示或語音提示。在各種實(shí)施例中,媒體播放器100可以 動態(tài)地輸出來自音頻提示數(shù)據(jù)庫220、或TTS引擎230的、或二者的音頻提示。在其他實(shí)施例中,電子設(shè)備(例如媒體播放器或便攜式媒體設(shè)備)可以包括由音 頻用戶接口管理系統(tǒng)提供的音頻用戶接口。音頻用戶接口管理系統(tǒng)可以包括媒體回放設(shè) 備,并包括主計(jì)算機(jī)或服務(wù)器計(jì)算機(jī)系統(tǒng)中的一項(xiàng)或多項(xiàng)以便提供媒體回放設(shè)備上的音頻 用戶接口。例如,主計(jì)算機(jī)系統(tǒng)可以包括個人計(jì)算機(jī),媒體回放設(shè)備可以包括MP3播放器。 在一些實(shí)施例中,媒體回放設(shè)備可以容許與用戶接口進(jìn)行多模式交互。例如,用戶可以通過 音頻提示和視覺提示與用戶接口進(jìn)行交互。圖3是根據(jù)本發(fā)明的一種實(shí)施例中音頻用戶接口管理系統(tǒng)300的框圖,該系統(tǒng)可 以提供預(yù)先記錄的或合成的音頻提示。在這種示例中,管理系統(tǒng)300可以包括媒體播放器 310和個人計(jì)算機(jī)(主計(jì)算機(jī))340。媒體播放器310可以以上述媒體播放器100的形式實(shí) 施,并可以鏈接或耦合到個人計(jì)算機(jī)340。媒體播放器310可以以圖1的媒體播放器100的形式實(shí)施,并且例如可以包括用 電池工作的便攜式設(shè)備。在一種實(shí)施例中,媒體播放器310包括MP3播放器。通常,媒體播 放器310可以將內(nèi)容或其他媒體資料儲存到多個數(shù)據(jù)儲存設(shè)備(例如,盤驅(qū)動器)之一。媒體播放器310可以在媒體文件中儲存內(nèi)容或其他媒體資料。媒體播放器310可以包括用戶接口控制模塊320和音頻提示數(shù)據(jù)庫330。用戶接 口控制模塊320可以包括用于管理用戶接口的硬件和/或軟件元件,該用戶接口允許用戶 與媒體播放器310進(jìn)行交互(例如導(dǎo)航、啟動內(nèi)容回放等)。與媒體播放器310的用戶接口 進(jìn)行的交互可以造成用于音頻用戶接口的音頻提示被回放(例如通過耳機(jī)或揚(yáng)聲器)。音 頻提示數(shù)據(jù)庫330可以包括硬件和/或軟件元件,用于儲存用于音頻提示的音頻文件和音 頻數(shù)據(jù)。個人計(jì)算機(jī)340可以包括媒體管理器350、音頻提示數(shù)據(jù)庫360以及文本至語音 (TTS)引擎370。個人計(jì)算機(jī)340可以對于媒體播放器310用作主計(jì)算機(jī)系統(tǒng)。個人計(jì)算 機(jī)340也可以是相對于媒體播放器310(作為客戶機(jī))作為服務(wù)器的任何類型計(jì)算機(jī)。媒體管理器350可以包括硬件和/或軟件元件,使得個人計(jì)算機(jī)350的用戶能夠 直接對個人計(jì)算機(jī)340上儲存的內(nèi)容或其他媒體資料進(jìn)行管理。媒體管理器350還可以被 配置成以直接或間接方式管理媒體播放器310上儲存的內(nèi)容或其他媒體資料。在一種示例 中,媒體播放器310和個人計(jì)算機(jī)340可以由外圍設(shè)備電纜進(jìn)行耦合。通常,外圍設(shè)備電纜 可以把媒體播放器310上和個人計(jì)算機(jī)340上提供的數(shù)據(jù)端口耦合在一起。在一些實(shí)施例 中,這些數(shù)據(jù)端口可以是FIREWIRE端口,外圍設(shè)備電纜可以是FIREWIRE電纜。在另一示例 中,這些數(shù)據(jù)端口可以是通用串行總線(USB)端口,外圍設(shè)備電纜可以是USB電纜。更一般 而言,外部設(shè)備電纜可以用作數(shù)據(jù)鏈路。媒體條目可以通過外部設(shè)備電纜而在媒體播放器 310與個人計(jì)算機(jī)340之間傳輸,反之亦可。在各種實(shí)施例中,媒體管理器350還可以包括用戶接口,該用戶接口允許用戶對 個人計(jì)算機(jī)340上駐留的內(nèi)容或其他媒體資料進(jìn)行瀏覽、排序、搜索、播放、制作播放列表、 燒錄光盤(CD)等。該用戶接口還可以允許個人計(jì)算機(jī)340的用戶從個人計(jì)算機(jī)340下載 (添加)或刪除(移除)媒體條目。在一種實(shí)施例中,媒體管理器350及其相關(guān)聯(lián)的用戶接 口是由 Cupertino,California 的 Apple,Inc.的 iTunes 提供的。個人計(jì)算機(jī)340的音頻提示數(shù)據(jù)庫360可以包括硬件和/或軟件元件,用于儲存 與媒體播放器310或個人計(jì)算機(jī)340相關(guān)聯(lián)的音頻用戶接口的音頻提示的音頻文件或音頻 數(shù)據(jù)。音頻提示數(shù)據(jù)庫330可以包括用于音頻對話的音頻提示,這些音頻對話是從互聯(lián)網(wǎng) 下載、從⑶抓取、由用戶記錄或由TTS引擎370生成的。TTS引擎370可以包括硬件和/或 軟件元件,用于將信息或數(shù)據(jù)轉(zhuǎn)換成使該信息聽覺化的、能夠以音頻提示的形式播放的音 頻文件或語音數(shù)據(jù)。在一種示例中,個人計(jì)算機(jī)340與媒體播放器310之間可以發(fā)生同步操作,以將音 頻提示上載到媒體播放器310的音頻提示數(shù)據(jù)庫330中,或者用音頻提示數(shù)據(jù)庫360中儲 存的或由TTS引擎370產(chǎn)生的音頻提示對音頻提示數(shù)據(jù)庫330中儲存的音頻提示進(jìn)行更 新。在一種示例中,當(dāng)來自各個數(shù)據(jù)庫的內(nèi)容之間的比較表明個人計(jì)算機(jī)340上駐留有媒 體播放器330上未駐留的特定音頻提示時(shí),則該特定音頻提示可以被傳送(下載)到媒體 播放器310,例如使用無線鏈路或者通過外圍設(shè)備電纜進(jìn)行。因此,個人計(jì)算機(jī)340與媒體 播放器310之間的同步操作可以確保媒體播放器310包含有適于呈現(xiàn)可用音頻用戶接口的 音頻數(shù)據(jù)或音頻文件。要下載到媒體播放器310上的音頻文件的數(shù)據(jù)可以取決于針對音頻用戶接口的用戶設(shè)定。例如,用戶可能希望下載音頻提示數(shù)據(jù)庫360中儲存的音頻文件或其他音頻數(shù) 據(jù),以與媒體播放器310上的音頻用戶接口的全部或部分的選項(xiàng)或特征相關(guān)聯(lián)。圖4是根據(jù)本發(fā)明的一種實(shí)施例中對音頻提示系統(tǒng)400進(jìn)行流送的框圖。在這種 示例中,媒體播放器410鏈接到通信網(wǎng)絡(luò)420。媒體播放器410可以以圖2的媒體播放器 200的形式或圖3的媒體播放器310的形式實(shí)施。語音服務(wù)器430也鏈接到通信網(wǎng)絡(luò)420, 并能夠與媒體播放器410通信。在各種實(shí)施例中,媒體播放器410可以對經(jīng)過通信網(wǎng)絡(luò)420至語音服務(wù)器430的 連接的存在情況進(jìn)行判斷。在一種操作示例中,媒體播放器410可以選擇從語音服務(wù)器430 接收音頻提示以由媒體播放器410的音頻用戶接口呈現(xiàn)。媒體播放器410可以生成對于音 頻提示的一個或多個請求,語音服務(wù)器430在接收請求時(shí)可以向媒體播放器410流送相應(yīng) 的音頻提示以輸出給用戶。語音服務(wù)器430可以包括音頻提示數(shù)據(jù)庫440和TTS引擎450。語音服務(wù)器430 的音頻提示數(shù)據(jù)庫440可以包括硬件和/或軟件元件,用于儲存與媒體播放器410相關(guān)聯(lián) 的音頻用戶接口的音頻提示的音頻數(shù)據(jù)或音頻文件。音頻提示數(shù)據(jù)庫330可以包括用于音 頻對話的音頻提示,這些音頻對話是由一個或多個內(nèi)容生產(chǎn)商預(yù)先記錄的、由內(nèi)容發(fā)行商 提供的、或由TTS引擎450產(chǎn)生的。TTS引擎370可以包括硬件和/或軟件元件,用于將信 息或數(shù)據(jù)轉(zhuǎn)換成對該信息進(jìn)行聽覺化的、能夠以音頻提示的形式播放的音頻文件或語音數(shù) 據(jù)。因此,媒體播放器410可以選擇性地在用于音頻用戶接口的音頻提示的源之間進(jìn) 行選擇,以向用戶提供音頻語音反饋。媒體播放器410可以從語音服務(wù)器430接收音頻提 示(例如預(yù)先記錄的或合成的),直到失去連接。此時(shí),媒體播放器410可以自動地選擇來 自其他源(例如內(nèi)部音頻提示數(shù)據(jù)庫,或語音合成模塊)的音頻提示。圖5圖示了根據(jù)本發(fā)明的一種實(shí)施例中媒體播放器500及其相關(guān)聯(lián)的用戶輸入控 件的示意圖。媒體播放器500可以包括用于播放媒體文件(例如歌曲文件)的任意計(jì)算設(shè) 備。媒體播放器500可以包含存儲器和播放模塊,該存儲器儲存媒體數(shù)據(jù)庫,該播放模塊用 于對媒體數(shù)據(jù)庫中儲存的內(nèi)容或其他媒體資料進(jìn)行呈現(xiàn)或播放。一組嵌套菜單505可以呈 現(xiàn)用戶接口的至少一部分,該用戶接口允許用戶對所需的歌曲文件進(jìn)行導(dǎo)航、選擇并從而 收聽。使用這組嵌套菜單505可以通過不同的途徑到達(dá)某個媒體文件。用戶接口還可以允 許用戶對由媒體播放器500提供的所需功能進(jìn)行導(dǎo)航和選擇。圖5還圖示了媒體播放器500的用戶接口控件510。根據(jù)一種實(shí)施例,用戶接口控 件510包括“菜單”按鈕515、“下一個”按鈕520、“播放/暫停”按鈕525和“前一個”按鈕 530。用戶接口控件510可以包括滾動輪,該滾動輪以能夠旋轉(zhuǎn)的旋轉(zhuǎn)輪裝置、或理解旋轉(zhuǎn) 用戶手勢的觸摸板裝置的形式實(shí)現(xiàn)。用戶可以對用戶接口控件510進(jìn)行按壓、摩擦或以其 他方式進(jìn)行交互來對嵌套菜單505進(jìn)行導(dǎo)航。圖6圖示了根據(jù)本發(fā)明的可替換實(shí)施例中媒體播放器600及其相關(guān)聯(lián)的用戶輸入 控件的示意圖。媒體播放器600可以包括“前一個”按鈕610、“播放/暫停”按鈕620和“下 一個”按鈕630。LED 640和650可以用來向用戶傳遞信息,例如表明電能狀態(tài)或媒體回放 狀態(tài)。在這種示例中,媒體播放器600可以不包括被配置成圖形用戶接口(例如圖5的嵌 套菜單505)的顯示器。因此,以可聽方式傳遞與媒體播放器600的操作有關(guān)信息的用戶接口可以極大地增強(qiáng)用戶體驗(yàn)。圖7是根據(jù)本發(fā)明的一種實(shí)施例中,用于向電子設(shè)備的用戶提供音頻用戶接口的 方法的簡化流程圖。圖7所示方法700的處理可以由軟件(例如指令或代碼模塊)在由邏 輯機(jī)(例如計(jì)算機(jī)系統(tǒng)或信息處理設(shè)備)的中央處理單元(CPU或處理器)執(zhí)行時(shí)進(jìn)行,由 電子設(shè)備的硬件組件或?qū)S眉呻娐穪磉M(jìn)行,或者由軟件和硬件元件相結(jié)合來進(jìn)行。圖7 開始于步驟710。在步驟720,信息被接收,該信息表示用戶與用戶接口的交互。該信息可以包括信 號、消息、中斷、輸入等。該信息可以指明用戶按壓或壓下了按鈕、點(diǎn)擊了點(diǎn)擊輪、觸摸了觸 摸屏、比劃了手勢、突出或選擇了圖形用戶接口上的元素等。該信息可以代表用戶的單一動 作,或者代表多個動作的組合。在步驟730,與用戶的該交互相對應(yīng)的音頻提示被識別。音頻提示可以包括對音頻 數(shù)據(jù)進(jìn)行識別的信息,該音頻數(shù)據(jù)以發(fā)聲、聽覺化或其他方式向用戶提供對于所登記的交 互的反饋。在步驟740,對于該音頻提示判斷音頻數(shù)據(jù)的類型或類別。在各種實(shí)施例中,音 頻提示可以由音頻數(shù)據(jù)的不同類型或類別來代表。音頻數(shù)據(jù)的類型或類別例如可以包括 不同聽覺質(zhì)量的音頻數(shù)據(jù)、語音與非語音、比特率、壓縮、編碼、源、遞送機(jī)構(gòu)等。例如,由語 音合成模塊生成的合成音頻數(shù)據(jù)可以用來針對數(shù)字、日期等提供音頻提示。在另一種示例 中,經(jīng)過了壓縮的預(yù)先記錄音頻數(shù)據(jù)可以用來針對按鈕交互(例如播放、暫停、下一個、回 退、快進(jìn)、倒轉(zhuǎn)等)提供音頻提示。在再一種示例中,CD質(zhì)量的預(yù)先記錄音頻數(shù)據(jù)可以用來 針對數(shù)字、日期、按鈕下壓、菜單選擇以及給定的音頻用戶接口中可能包含的任何其他的用 戶交互來提供整套音頻提示。在步驟750,判斷對于該音頻提示判斷出的音頻數(shù)據(jù)的類型或類別是否可用。例 如,可以作出選擇,把預(yù)先記錄的音頻對話(例如,一組預(yù)先記錄的音頻文件)用于音頻用 戶接口的音頻提示。電子設(shè)備可以檢查其內(nèi)部儲存裝置,以判斷用于該音頻提示的音頻文 件是否存在?;蛘?,電子設(shè)備可以請求來自主計(jì)算機(jī)或流語音服務(wù)器的、用于該音頻提示的 音頻文件。在另一種示例中,如果預(yù)先記錄的音頻提示沒有在本地儲存在電子設(shè)備處,則可 以作出選擇,把預(yù)先記錄的音頻數(shù)據(jù)用于某些音頻提示,而把合成音頻數(shù)據(jù)用于其他音頻 提示。在步驟760,判斷出的類型或類別的音頻數(shù)據(jù)的一部分從可用的源輸出。因此,各 種實(shí)施例可以給音頻用戶接口的音頻提示提供不同類型或類別音頻數(shù)據(jù)的動態(tài)選擇。另 外,作為音頻用戶接口的一部分,一些實(shí)施例還可以提供機(jī)構(gòu),用于將所選擇或所識別的類 型或類別的音頻數(shù)據(jù)放置到電子設(shè)備供使用。圖7結(jié)束于步驟770。圖8A和圖8B是根據(jù)本發(fā)明的一種實(shí)施例中,用于給電子設(shè)備提供音頻用戶接口 的方法800的流程圖。方法800大體上包含智能判決途徑,該途徑判斷對于音頻用戶接口的 合適音頻對話是否可用,并獲得最佳的可用音頻對話以輸出給用戶。圖8A開始于步驟805。在步驟810,接收表示按鈕下壓的輸入。例如,用戶可以與圖5的媒體播放器500 的用戶接口控件510進(jìn)行對接。媒體播放器500可以生成一個或多個模擬或數(shù)字信號,這 些模擬或數(shù)字信號代表按鈕下壓、觸摸、壓力、手勢、運(yùn)動等。在步驟815,判斷是否對于該按鈕下壓呈現(xiàn)音頻提示。在一些實(shí)施例中,控件選擇 伴隨有向用戶輸出用于確認(rèn)選擇的音頻提示的指示。例如,可以使用戶能夠聽到“播放”,以對于真的壓下了播放/暫停按鈕525提供反饋。這些實(shí)施例可以包含對于用戶接口控制進(jìn) 行選擇的反復(fù)的用戶動作。例如,用戶可能要對于用戶接口控件進(jìn)行多次“點(diǎn)擊”以進(jìn)行選 擇。第一次“點(diǎn)擊”可以使媒體播放器500確定將所選的用戶接口控件聽覺化。例如,當(dāng)用 戶按壓播放按鈕時(shí),“播放”可以被聽覺化。這個第一音頻提示可以提供關(guān)于哪個按鈕受到 了下壓的音頻指導(dǎo),這在不將視覺注意力導(dǎo)向手持設(shè)備的時(shí)候?qū)τ谟脩艉苡袔椭?。然后,隨后的“點(diǎn)擊”可以使媒體播放器500執(zhí)行與該用戶接口控件相對應(yīng)的動 作。例如,第二次按壓播放按鈕可以使媒體文件被播放。另一方面,音頻提示可能已經(jīng)告知 用戶將要作出意圖之外的選擇。因此,用戶可以嘗試選擇不同的用戶接口控件。例如,用 戶可以在此后嘗試按壓“下一個”按鈕520,而不是繼續(xù)第二次按壓播放按鈕525。如果在步驟815確定對于按鈕按壓呈現(xiàn)音頻提示,則處理沿著智能判決途徑進(jìn) 行,該途徑判斷對于該音頻提示是否有合適的對話可用,并確定如何將這個合適的音頻對 話放置到電子設(shè)備上。該智能判決途徑例如可以包括發(fā)現(xiàn)或識別音頻數(shù)據(jù)的類型或類別 以及該音頻數(shù)據(jù)是否可用。在步驟820,對于高質(zhì)量源是否可用作出判斷。相對于低質(zhì)量源,高質(zhì)量源可以包 括數(shù)字音頻文件或下述音頻數(shù)據(jù)該音頻數(shù)據(jù)是以高于預(yù)先確定或認(rèn)可的頻率所采樣的, 處于給定比特率的,大小超過了預(yù)定閾值或限制,等等??梢愿鶕?jù)是否存在至下述通信網(wǎng)絡(luò) 的無線的或有線的連接來作出該判斷通過該通信網(wǎng)絡(luò)可訪問高質(zhì)量源。在一種實(shí)現(xiàn)方式 中,可以根據(jù)選擇判據(jù)或用戶偏好來作出該判斷。例如,在一種操作模式中,用戶可能希望 對于用戶所選擇的每個動作和菜單條目聽到音頻提示。在另一種模式中,用戶可能不激活 用于那些控件選擇(例如“播放”按鈕)的音頻提示,而僅僅對于被突出的菜單條目聽取音 頻提示。在另一種模式中,可以僅對于頂層的菜單條目輸出音頻提示。如果判斷為高質(zhì)量源可用,則在步驟825,從與該按鈕按壓相對應(yīng)的高質(zhì)量源取得 音頻提示。高質(zhì)量源的一個示例可以包括無損的或CD質(zhì)量的預(yù)先記錄的音頻數(shù)據(jù)或音頻 文件。預(yù)先記錄的音頻數(shù)據(jù)或音頻文件可以包括下列項(xiàng)的記錄專業(yè)制作的名人語音、卡通 角色、或來自電視節(jié)目、故事片的摘錄。或者,如果判斷為高質(zhì)量源不可用,則在步驟830,判斷低質(zhì)量源是否可用。如果判 斷為低質(zhì)量源可用,則在步驟835,從與該按鈕按壓相對應(yīng)的低質(zhì)量源取得音頻提示。低質(zhì) 量源的一種示例可以包括使用一種或多種壓縮或編碼技術(shù)(例如MP3、WMA, OGG等)壓縮 的、預(yù)先記錄的音頻數(shù)據(jù)或音頻文件。這些預(yù)先記錄的音頻數(shù)據(jù)或音頻文件可以包括人聲 的普通記錄,或者所儲存的、用一種或多種語音或文本合成技術(shù)生成的音頻文件或音頻數(shù) 據(jù)。現(xiàn)在參考圖8B,如果判斷為低質(zhì)量源不可用,則在步驟840,判斷文本至語音 (TTS)或語音合成是否可用。如果判斷為一個或多個合成源可用,則在步驟845,用語音合 成或TTS合成來合成或生成音頻提示。如果對于該音頻用戶接口沒有音頻提示的源可被確定或選擇,則在步驟850,可以 與按鈕按壓對應(yīng)地輸出一個或多個蜂鳴或其他的一般聲音。優(yōu)選地,在步驟855,與該按鈕 按壓對應(yīng)的音頻提示被輸出,該音頻提示是選擇性地在步驟825從高質(zhì)量源獲得、在步驟 835從低質(zhì)量源獲得、或者在步驟845中合成的。在一些實(shí)施例中,可以根據(jù)所選的音頻接 口模式來播放音頻提示。當(dāng)媒體播放器或便攜式媒體設(shè)備并非正在播放音頻文件時(shí),只有與用戶接口相對應(yīng)的音頻文件可以被播放并由用戶可聽到。在各種實(shí)施例中,當(dāng)媒體文件正在被回放時(shí),音頻接口模式可以被設(shè)定成以不同 的方式將該媒體文件與音頻提示回放相混合。根據(jù)一種設(shè)定,在要播放音頻提示時(shí),用于回 放媒體文件的音量可以被動態(tài)地減小。例如,在音頻提示的回放過程中,歌曲或電影剪輯的 回放音量可以被降低。根據(jù)另一種設(shè)定,在音頻提示的回放過程中,媒體文件的回放被暫 停,然后在播放音頻提示之后重新開始。如果用戶在某個期限內(nèi)作出了多個用戶控件選擇, 則媒體文件的回放可以被短時(shí)間暫停,使得媒體文件的回放不必多次被暫停和重新開始。 這可以避免反復(fù)中斷歌曲回放。例如,如果用戶在5秒內(nèi)作出了至少三個用戶控件選擇,則 媒體文件的回放可以被暫停五秒鐘。用戶控件選擇的時(shí)間長度和數(shù)目可以根據(jù)用戶的偏好 而改變。一些音頻接口模式可以指定通過左側(cè)、右側(cè)或雙側(cè)揚(yáng)聲器或耳機(jī)通道來播放音頻 提示。因此,對于下述情況進(jìn)行判斷合適的音頻對話(例如電子設(shè)備上或者與該設(shè)備 相連的主計(jì)算機(jī)/服務(wù)器計(jì)算機(jī)上的)是否可用,以及是否能夠獲得最佳的可用音頻對話 以輸出給用戶。圖8B結(jié)束于步驟860。圖9是根據(jù)本發(fā)明的一種實(shí)施例中對用于音頻用戶接口的音頻提示進(jìn)行流送的 方法900的流程圖。方法900大體上包括根據(jù)至語音服務(wù)器的連接來向媒體回放設(shè)備流送 音頻提示。圖9開始于步驟910。在步驟920,媒體回放設(shè)備(例如媒體播放器100)檢測到寬帶連接。例如,媒體回 放設(shè)備可以成功地與無線接入點(diǎn)相關(guān)聯(lián)。在另一種示例中,媒體回放設(shè)備可以認(rèn)可至互聯(lián) 網(wǎng)的有線連接。在步驟930,媒體回放設(shè)備確定使用語音服務(wù)器來獲得用于音頻用戶接口的語音 對話。例如,由媒體回放設(shè)備執(zhí)行的軟件程序可以啟動和完成與語音服務(wù)器托管的一個或 多個應(yīng)用的握手。在另一種示例中,媒體回放設(shè)備可以周期性地對語音服務(wù)器進(jìn)行輪詢以 判斷連接的可用性。在步驟940,媒體回放設(shè)備生成對于音頻提示的請求。該請求可以包括標(biāo)識了音頻 提示的信息、標(biāo)識了與所請求的音頻提示相對應(yīng)的用戶交互的信息等。該請求可以包括下 述一項(xiàng)或多項(xiàng)頭部、標(biāo)志、字段、校驗(yàn)、哈希等。在一種實(shí)施例中,該請求可以包括超文本傳 輸協(xié)議(HTTP)數(shù)據(jù)或?qū)崟r(shí)傳送協(xié)議(RTP)數(shù)據(jù)。在步驟950,語音服務(wù)器將音頻提示向媒體回放設(shè)備流送。在步驟960,媒體回放 設(shè)備輸出所流送的音頻提示。語音服務(wù)器可以使用一個或多個流傳輸協(xié)議(例如實(shí)時(shí)的或 比實(shí)時(shí)更快的),使得媒體回放設(shè)備在進(jìn)行回放之前對音頻提示的一部分進(jìn)行緩沖。在各種實(shí)施例中,可以按照每個條目或每個定購付費(fèi)的方式,來使語音服務(wù)器可 訪問。語音服務(wù)器可以支持對未壓縮的和經(jīng)壓縮的(例如,無損的或有損的)音頻數(shù)據(jù)進(jìn) 行流送。語音服務(wù)器還可以支持對與內(nèi)容或其他媒體資料相關(guān)聯(lián)的信息進(jìn)行傳送,用戶可 以根據(jù)所述內(nèi)容或其他媒體資料來進(jìn)行交互(例如導(dǎo)航),這些內(nèi)容或其他媒體資料例如 題目信息、作品集信息、藝術(shù)家信息、流派信息、元數(shù)據(jù)等。圖9結(jié)束于步驟970。圖10是根據(jù)本發(fā)明的一種實(shí)施例中用于使用一項(xiàng)或多項(xiàng)語音或文本至語音合成 技術(shù)來在主計(jì)算機(jī)系統(tǒng)創(chuàng)建音頻提示的方法1000的流程圖。方法1000大體上包括合成用 于音頻用戶接口的音頻提示以及向媒體回放設(shè)備傳送所合成的音頻提示。圖10開始于步驟 1010。在步驟1020,媒體回放設(shè)備(例如,圖1的媒體播放器100)檢測到至主計(jì)算機(jī)的 連接。例如,媒體回放設(shè)備可以對于該媒體回放設(shè)備是否用外圍設(shè)備電纜耦合到主計(jì)算機(jī) 進(jìn)行檢測。在另一種示例中,媒體回放設(shè)備可以對于主計(jì)算機(jī)的接近度進(jìn)行檢測并建立無 線連接,例如使用WiFi或藍(lán)牙模塊。在步驟1030,媒體回放設(shè)備確定使用主計(jì)算機(jī)來獲得用于音頻用戶接口的語音對 話。例如,當(dāng)媒體回放設(shè)備的內(nèi)部儲存裝置沒有足夠的空間來在內(nèi)容或其他媒體資料之外 再儲存音頻提示時(shí),媒體回放設(shè)備可以確定使用主計(jì)算機(jī)。在另一種示例中,當(dāng)媒體回放設(shè) 備不包含TTS引擎時(shí),媒體回放設(shè)備可以確定使用主計(jì)算機(jī)。在步驟1040,主計(jì)算機(jī)合成音頻提示。主計(jì)算機(jī)可以使用一項(xiàng)或多項(xiàng)語音合成或 文本至語音合成技術(shù)來生成音頻提示。例如,主計(jì)算機(jī)可以確定與媒體回放設(shè)備相關(guān)聯(lián)的 簡檔。該簡檔可以包括某電子設(shè)備所特有的、通過按鈕按壓、菜單選擇或其他用戶交互而登 記的事件的文字描述。主計(jì)算機(jī)可以通過生成并記錄合成語音閱讀,來使該簡檔的文字描 述聽覺化。主計(jì)算機(jī)可以給每個文字描述生成一個音頻提示。主計(jì)算機(jī)也可以生成一個音 頻提示,該音頻提示包含用于每個文字描述的音頻數(shù)據(jù),以及下述信息該信息表示這一個 音頻提示內(nèi)對于給定的文字描述的音頻數(shù)據(jù)。在步驟1050,主計(jì)算機(jī)向媒體回放設(shè)備傳送該音頻提示。在一種實(shí)現(xiàn)方式中,主計(jì) 算機(jī)為音頻用戶接口生成音頻對話的多個音頻提示。然后,主計(jì)算機(jī)向媒體回放設(shè)備傳送 整個音頻對話,例如在對設(shè)備上的內(nèi)容或其他媒體資料進(jìn)行管理的時(shí)候。在另一種示例中, 主計(jì)算機(jī)可以大體上實(shí)時(shí)地生成并向媒體回放設(shè)備傳送音頻提示。在步驟1060,媒體回放 設(shè)備輸出音頻提示。圖10結(jié)束于步驟1060。圖11是根據(jù)本發(fā)明的可替換實(shí)施例,使用一種或多種語音或文本至語音合成技 術(shù)來創(chuàng)建音頻提示的方法1100的流程圖。方法1100大體上包括創(chuàng)建或合成音頻數(shù)據(jù),該 音頻數(shù)據(jù)代表事件的文字描述。圖11開始于步驟1110。在步驟1120,事件被識別。事件可以包括對于電子設(shè)備可能進(jìn)行的任何用戶接口。 事件可以由用戶的按鈕按壓、點(diǎn)擊、滾動、觸摸、選擇、突出等來代表。在步驟1130,確定所識 別的事件的文本描述。文本描述可以包括對事件、設(shè)備、用戶、內(nèi)容的一部分等進(jìn)行描述的 字、句等。文字描述可以由用戶、開發(fā)者或其他的第三方來生成。在步驟1140,根據(jù)事件的文字描述,語音音頻被合成或以其他方式生成。在一種示 例中,計(jì)算機(jī)系統(tǒng)可以取得針對文本至語音轉(zhuǎn)換處理的配置設(shè)定。該配置設(shè)定可以對語音 合成或文本至語音轉(zhuǎn)換處理的各個方面進(jìn)行控制。例如,該配置設(shè)定可以確定要被轉(zhuǎn)換成 音頻文件的某些文本串、TTS轉(zhuǎn)換的質(zhì)量、對這些文本串進(jìn)行語言表達(dá)的語音性別、將音頻 提示聽覺化的速度(例如,隨著用戶越來越熟悉這些音頻提示,講話速度可以被提高),以 及對于不同的子任務(wù)的定制語音(例如,控件和功能可以用一種語音來聽覺化,而數(shù)據(jù)(例 如歌曲和聯(lián)系人名稱)可以用其他的語音來聽覺化)。此外,通過在用戶進(jìn)行導(dǎo)航時(shí)播放 音頻提示的僅一部分,配置設(shè)定還可以處理用戶接口控件的熟練操縱。例如,在以字典方式 瀏覽聯(lián)系人名稱時(shí),僅表現(xiàn)字母(a、b、C...),直到用戶到達(dá)以所需字母開頭的聯(lián)系人姓名。 例如,在Jones的情況下是j。因此應(yīng)當(dāng)理解,TTS配置設(shè)定可以具有與設(shè)備、配置或用戶期 望所對應(yīng)的各種設(shè)定。
各種聲音合成器規(guī)則和引擎可以被用來生成音頻文件。用于將詞轉(zhuǎn)換成音頻文件 的處理的一種大致示例可以按如下方式工作。用于對詞“browse”進(jìn)行轉(zhuǎn)換的處理開始于 將這個詞分解成代表雙連音(diphone)單元的片段或音節(jié),例如“b”、“r”、“0W”、“s”。然 后,各種技術(shù)對應(yīng)每個成分生成音頻提示,這些音頻提示然后可以被組合以形成可理解的 詞或短語。音頻文件通常被賦予于所創(chuàng)建的音頻文件的類型相對應(yīng)的擴(kuò)展名。例如,用于 “browse”的音頻文件可以由browse, aiff文件名來標(biāo)識,其中.aiff擴(kuò)展名標(biāo)識音頻文件。在步驟1150,語音音頻提示被輸出。語音音頻提示可以響應(yīng)于用戶與具有音頻用 戶接口的媒體回放設(shè)備的交互而被輸出。在一種實(shí)施例中,音頻用戶接口可以包括指示,該 指示指向?qū)?yīng)的音頻提示或音頻文件。例如,可以用對照表來保持指向音頻提示的相關(guān)指 示的軌跡。圖11結(jié)束于步驟1160。圖12是可以包含本發(fā)明實(shí)施例的計(jì)算機(jī)系統(tǒng)1200的簡化框圖。圖12僅僅是包 含本發(fā)明的實(shí)施例的舉例說明,而不應(yīng)限制權(quán)利要求所述的發(fā)明范圍。本領(lǐng)域普通技術(shù)人 員會想到各種變更、修改和替換形式。在一種實(shí)施例中,計(jì)算機(jī)系統(tǒng)1200包括(一個或多個)處理器1210、隨機(jī)存取存 儲器(RAM) 1220、盤驅(qū)動器1230、( 一個或多個)輸入設(shè)備1240、( 一個或多個)輸出設(shè)備 1250、顯示器1260、(一個或多個)通信接口 1270、以及將上述組件互連的系統(tǒng)總線1280。 也可以有其他組件(例如文件系統(tǒng)、儲存盤、只讀存儲器(ROM)、緩存存儲器、編解碼器等)。RAM 1220和盤驅(qū)動器1230是有形介質(zhì)的示例,這些有形介質(zhì)被配置來儲存數(shù) 據(jù)(例如音頻、圖像和電影文件)、操作系統(tǒng)代碼、本發(fā)明的實(shí)施例,包括可執(zhí)行計(jì)算機(jī)代 碼、人類可讀的代碼等。有形介質(zhì)的其他類型包括軟盤、可移動硬盤、光儲存介質(zhì)(例如 CD-R0M、DVD和條碼)、半導(dǎo)體存儲器(例如閃存)、只讀存儲器(ROM)、電池支持的易失性存 儲器、聯(lián)網(wǎng)儲存設(shè)備等。在各種實(shí)施例中,輸入設(shè)備1240通常以下述方式實(shí)施計(jì)算機(jī)鼠標(biāo)、軌跡球、跟蹤 板、游戲桿、無線遙控器、畫圖板、語音命令系統(tǒng)、眼睛跟蹤(eye tracking)系統(tǒng)、多點(diǎn)觸摸 接口、滾動輪、點(diǎn)擊輪、觸摸屏、FM/TV調(diào)諧器、音頻/視頻輸入裝置等。輸入設(shè)備1240可以 允許用戶通過命令(例如對按鈕進(jìn)行點(diǎn)擊等)來選擇對象、圖表、文本等。在各種實(shí)施例 中,輸出設(shè)備1250通常以下述方式實(shí)施顯示器、打印機(jī)、力反饋機(jī)構(gòu)、音頻輸出裝置、視頻 分量輸出等。顯示器1260可以包括CRT顯示器、LCD顯示器、等離子顯示器等。通信接口 1270的實(shí)施例可以包括計(jì)算機(jī)接口,例如包括以太網(wǎng)卡、調(diào)制解調(diào)器 (電話、微型、電纜、ISDN)、(異步)數(shù)字訂戶環(huán)路(DSL)單元、FireWire接口、USB接口等。 例如,這些計(jì)算機(jī)接口可以耦合到計(jì)算機(jī)網(wǎng)絡(luò)1290、FireWire總線等。在其他實(shí)施例中,這 些計(jì)算機(jī)接口可以在實(shí)體上集成在計(jì)算機(jī)系統(tǒng)1200的系統(tǒng)板或主板上,并可以是軟件程 序等。在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)1200還可以包括允許通過網(wǎng)絡(luò)進(jìn)行通信的軟件,例 如HTTP、TCP/IP、RTP/RTSP協(xié)議等。在本發(fā)明的可替換實(shí)施例中,也可以使用其他通信軟件 和傳輸協(xié)議,例如IPX、UDP等。在各種實(shí)施例中,計(jì)算機(jī)系統(tǒng)1200還可以包括操作系統(tǒng),例如Microsoft Windows 、Linux 、Mac OS X. 、實(shí)時(shí)操作系統(tǒng)(RTOS)、開源的和有產(chǎn)權(quán)的OS等。圖12是能夠?qū)嵤┍景l(fā)明的媒體播放器和/或計(jì)算機(jī)系統(tǒng)的代表。本領(lǐng)域普通技術(shù)人員容易看到,許多其他硬件和軟件配置適用于本發(fā)明。例如,媒體播放器可以是桌面的、 便攜的、機(jī)架安裝的或平板的配置。另外,媒體播放器還可以是一系列聯(lián)網(wǎng)的計(jì)算機(jī)。此外, 媒體播放器可以是移動設(shè)備、嵌入式設(shè)備、個人數(shù)字助理、智能電話等。在其他實(shí)施例中,上 文所述的那些技術(shù)可以在芯片上或輔助處理板上實(shí)現(xiàn)。本發(fā)明可以以硬件、或軟件、或二者的組合形式,由控制邏輯的形式實(shí)現(xiàn)。控制邏 輯可以以多個指令的形式儲存在信息儲存介質(zhì)中,這些指令適于指引信息處理設(shè)備執(zhí)行本 發(fā)明實(shí)施例中公開的一組步驟。根據(jù)本申請中的公開內(nèi)容和教導(dǎo),本領(lǐng)域普通技術(shù)人員會 想到實(shí)現(xiàn)本發(fā)明的其他方式和/或方法。本申請中所述的實(shí)施例是本發(fā)明的一種或多種示例的舉例說明。由于參考插圖對 本發(fā)明的這些實(shí)施例進(jìn)行了描述,本領(lǐng)域技術(shù)人員可以了解所描述的這些方法和/或具體 結(jié)構(gòu)的各種變更或修改。依賴于本發(fā)明的這些教導(dǎo)的、以及這些教導(dǎo)使本領(lǐng)域進(jìn)步所用的 所有變更、修改或變化形式應(yīng)當(dāng)認(rèn)為落在本發(fā)明的范圍內(nèi)。因此,這些說明和附圖不應(yīng)以限 制性的意義來理解,因?yàn)閼?yīng)當(dāng)明白,本發(fā)明決不僅限于所舉例說明的這些實(shí)施例。上述說明是舉例而非限制性的。在閱覽該公開內(nèi)容時(shí),本領(lǐng)域技術(shù)人員會想到本 發(fā)明的許多變化形式。因此,本發(fā)明的范圍應(yīng)當(dāng)參照權(quán)利要求及其完整范圍或等同含義來 確定,而不是上文的說明書。
權(quán)利要求
1.一種由媒體播放器執(zhí)行的方法,用于向所述媒體播放器的用戶提供音頻用戶接口, 所述方法包括接收輸入,所述輸入表示所述用戶與和所述媒體播放器相關(guān)聯(lián)的用戶接口的交互;識別音頻提示,所述音頻提示與使所述用戶與所述用戶接口的交互聽覺化相關(guān)聯(lián);判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對應(yīng)的類別是否對于所述媒體播放器而 言可用;以及在所述媒體播放器處從第一源輸出第一類別的音頻數(shù)據(jù)的一部分。
2.根據(jù)權(quán)利要求1所述的方法,其中,判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對 應(yīng)的類別是否可用的步驟包括判斷預(yù)先記錄的語音音頻數(shù)據(jù)、合成的語音音頻數(shù)據(jù)或非 語音音頻數(shù)據(jù)中的一者是否對于所述媒體播放器而言可用。
3.根據(jù)權(quán)利要求1所述的方法,其中,判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對 應(yīng)的類別是否對于所述媒體播放器而言可用的步驟包括判斷第一源的可用性,所述第一 源的音頻數(shù)據(jù)比與第二源相關(guān)聯(lián)的音頻數(shù)據(jù)質(zhì)量高。
4.根據(jù)權(quán)利要求1所述的方法,其中,判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對 應(yīng)的類別是否對于所述媒體播放器而言可用的步驟包括基于第二源的不可用,來判斷所 述第一源的可用性。
5.根據(jù)權(quán)利要求1所述的方法,還包括從所述第一源獲得所述音頻數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其中,從所述第一源獲得所述音頻數(shù)據(jù)的步驟包括從 相對于所述媒體播放器處于本地的儲存設(shè)備取得音頻文件。
7.根據(jù)權(quán)利要求5所述的方法,其中,從所述第一源獲得所述音頻數(shù)據(jù)的步驟包括從 主計(jì)算機(jī)系統(tǒng)取得音頻數(shù)據(jù)。
8.根據(jù)權(quán)利要求5所述的方法,其中,從所述第一源獲得所述音頻數(shù)據(jù)的步驟包括從 語音合成模塊取得音頻數(shù)據(jù),所述語音合成模塊被配置成利用一項(xiàng)或多項(xiàng)語音合成技術(shù)來 生成音頻數(shù)據(jù)。
9.根據(jù)權(quán)利要求8所述的方法,其中,所述語音合成模塊相對于所述媒體播放器處于 本地。
10.根據(jù)權(quán)利要求1所述的方法,其中,所述用戶與和所述媒體播放器相關(guān)聯(lián)的用戶接 口的交互包括選擇播放、選擇下一個、選擇前一個或選擇停止。
11.根據(jù)權(quán)利要求1所述的方法,其中,所述用戶與和所述媒體播放器相關(guān)聯(lián)的用戶接 口的交互包括從顯示在所述媒體播放器上的菜單中選擇菜單條目。
12.根據(jù)權(quán)利要求1所述的方法,還包括響應(yīng)于從所述第一源輸出所述音頻數(shù)據(jù)的一部分,暫停媒體文件的回放。
13.根據(jù)權(quán)利要求1所述的方法,還包括響應(yīng)于從所述第一源輸出所述音頻數(shù)據(jù)的一部分,降低媒體文件的回放音量。
14.根據(jù)權(quán)利要求1所述的方法,其中,所述媒體播放器包括手持式設(shè)備或可佩戴設(shè)備。
15.一種計(jì)算機(jī)可讀介質(zhì),被配置成儲存一組代碼模塊,這些代碼模塊在由媒體回放設(shè) 備的處理器執(zhí)行時(shí)可操作用于在所述媒體回放設(shè)備處提供音頻用戶接口,所述計(jì)算機(jī)可讀介質(zhì)包括用于接收輸入的代碼,所述輸入表示用戶與和所述媒體回放設(shè)備相關(guān)聯(lián)的用戶接口的 交互;用于判斷要用于所述音頻用戶接口的音頻數(shù)據(jù)的類型的代碼; 用于判斷所要使用的音頻數(shù)據(jù)的類型的源是否對于所述媒體回放設(shè)備而言可用的代 碼;和用于在所述媒體回放設(shè)備處輸出判斷出的類型的音頻數(shù)據(jù)的一部分的代碼,判斷出的 類型的音頻數(shù)據(jù)對應(yīng)于音頻提示,所述音頻提示與使所述用戶和所述用戶接口的交互聽覺 化相關(guān)聯(lián)。
16.一種便攜式媒體回放設(shè)備,包括 媒體回放系統(tǒng);用戶接口 ;和處理器,所述處理器被配置成 通過所述用戶接口接收用戶輸入;識別音頻用戶接口的音頻提示,所述音頻提示與使由所述用戶輸入所代表的、用戶和 用戶接口的交互聽覺化相關(guān)聯(lián);判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對應(yīng)的類別是否可用;以及 使用所述媒體回放系統(tǒng)啟動對于第一類別的音頻數(shù)據(jù)的一部分的回放。
17.根據(jù)權(quán)利要求16所述的便攜式媒體回放設(shè)備,其中,所述處理器被配置成通過判 斷第一源是否可用來判斷多個音頻數(shù)據(jù)類別中的一個類別是否可用,所述第一源的音頻數(shù) 據(jù)比與第二源相關(guān)聯(lián)的音頻數(shù)據(jù)質(zhì)量高。
18.根據(jù)權(quán)利要求16所述的便攜式媒體回放設(shè)備,其中,所述處理器被配置成通過基 于第二源不可用而判斷所述第一源的可用性,來判斷多個音頻數(shù)據(jù)類別中的一個類別是否 可用。
19.根據(jù)權(quán)利要求16所述的便攜式媒體回放設(shè)備,還包括含有被配置成獲得語音音頻 數(shù)據(jù)的儲存設(shè)備的第一源。
20.根據(jù)權(quán)利要求16所述的便攜式媒體回放設(shè)備,其中,所述處理器還被配置成從主 計(jì)算機(jī)系統(tǒng)獲得語音音頻數(shù)據(jù)。
21.根據(jù)權(quán)利要求16所述的便攜式媒體回放設(shè)備,其中,所述處理器還被配置成從語 音合成模塊獲得合成語音音頻數(shù)據(jù)。
22.—種媒體播放器,包括 用戶接口 ;儲存設(shè)備;媒體回放子系統(tǒng);語音合成模塊;和處理器,所述處理器被配置成接收輸入,所述輸入表示用戶與所述用戶接口的交互;識別音頻提示,所述音頻提示與使所述用戶與所述用戶接口的交互聽覺化相關(guān)聯(lián); 判斷多個音頻數(shù)據(jù)類別中與所述音頻提示相對應(yīng)的類別是否可用;以及對應(yīng)于所述音頻提示,命令所述媒體回放子系統(tǒng)從所述儲存設(shè)備輸出第一類別的音頻 數(shù)據(jù)的一部分或者從所述語音合成模塊輸出第二類別的音頻數(shù)據(jù)的一部分。
23.根據(jù)權(quán)利要求22所述的媒體播放器,其中,所述處理器還被配置成命令所述媒體 回放子系統(tǒng)從被配置成對音頻數(shù)據(jù)進(jìn)行流送的語音服務(wù)器輸出可用的第三類別的音頻數(shù) 據(jù)的一部分。
24.根據(jù)權(quán)利要求22所述的媒體播放器,其中,所述處理器還被配置成命令所述語音 合成模塊生成與所述音頻提示對應(yīng)的、所述第二類別的合成音頻數(shù)據(jù)。
25.根據(jù)權(quán)利要求22所述的媒體播放器,其中,所述處理器還被配置成從主計(jì)算機(jī)接 收所述第一類別的音頻數(shù)據(jù)或所述第二類別的音頻數(shù)據(jù)。
全文摘要
公開了音頻用戶接口,該接口提供音頻提示,這些音頻提示幫助用戶與電子設(shè)備的用戶接口進(jìn)行交互。音頻提示可以提供音頻指示,這些音頻指示允許用戶將其視覺注意力集中在其他任務(wù),例如駕駛汽車、進(jìn)行鍛煉或穿越街道,同時(shí)仍然使用戶能夠與用戶接口進(jìn)行交互。智能途徑可以提供對應(yīng)來自各種不同源的不同類型音頻提示的訪問。不同類型的音頻提示可以根據(jù)特定類型音頻提示的可用性來呈現(xiàn)。例如,音頻提示可以包括從專門語音服務(wù)器獲得的預(yù)先記錄的語音音頻,例如名人語音或卡通角色。在預(yù)先記錄的或合成的音頻數(shù)據(jù)缺乏可用性時(shí),可以提供非語音音頻提示。
文檔編號G06F3/16GK102150128SQ200980135356
公開日2011年8月10日 申請日期2009年7月28日 優(yōu)先權(quán)日2008年9月9日
發(fā)明者威廉·布爾, 本·羅特勒 申請人:蘋果公司