專利名稱:語音處理裝置、語音處理方法和程序的制作方法
技術(shù)領域:
本發(fā)明涉及語音處理裝置、語音處理方法和程序。
背景技術(shù):
近年來,越來越多的用戶將數(shù)字化音樂數(shù)據(jù)存儲到個人計算機(PC)和便攜式音 頻播放器中并通過根據(jù)存儲的音樂數(shù)據(jù)播放音樂來欣賞?;诰哂斜砹幸魳窋?shù)據(jù)的播放列 表按順序執(zhí)行這種音樂播放。當總是單純地按同樣的次序播放音樂時,可能用戶不久就會 厭煩音樂播放。因此,用于音頻播放器的一些軟件具有按從播放列表中隨機選擇的次序執(zhí) 行音樂播放的功能。日本專利申請公開No. 10-104010中公開了一種自動識別音樂的間歇期并在間歇 期以語音的形式輸出導航信息的導航裝置。除了單純地播放音樂之外,導航裝置可以在用 戶欣賞其播放的音樂與其它音樂之間的間歇期向用戶提供有用的信息。
發(fā)明內(nèi)容
日本專利申請公開No. 10-104010中公開的導航裝置主要目的是插入導航信息而 不覆蓋音樂播放,并非旨在改變欣賞音樂的用戶的體驗質(zhì)量。如果可以不僅在間歇期而且 在音樂進行中的各個時間點輸出多樣化的語音,則可以針對娛樂性和真實感改進用戶的體
驗質(zhì)量。鑒于上述內(nèi)容,期望提供一種新型的和改進的語音處理裝置、語音處理方法和程 序,能夠在音樂進行中的各個時間點輸出多樣化的語音。根據(jù)本發(fā)明的一個實施例,提供了一種語音處理裝置,包括數(shù)據(jù)獲取單元,用于 獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間段的特性的音樂進行數(shù) 據(jù);確定單元,用于通過采用數(shù)據(jù)獲取單元獲取的音樂進行數(shù)據(jù)確定要在播放音樂期間輸 出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在確定單元確定的輸出時 間點輸出語音。采用以上配置,動態(tài)地確定與音樂進行中一個或更多個時間點或者一個或更多個 時間段相關(guān)聯(lián)的輸出時間點,并且在音樂播放期間在輸出時間點輸出語音。數(shù)據(jù)獲取單元還可以獲取用于定義與特性由音樂進行數(shù)據(jù)定義的一個或更多個 時間點或者一個或更多個時間段中的任何一個相關(guān)聯(lián)的語音輸出時刻的時刻數(shù)據(jù),以及, 確定單元可以通過采用音樂進行數(shù)據(jù)和時刻數(shù)據(jù)確定輸出時間點。數(shù)據(jù)獲取單元還可以獲取定義語音內(nèi)容的模板,以及,語音處理裝置還可以包括 合成單元,用于通過采用數(shù)據(jù)獲取單元獲取的模板合成語音。模板可以包含以文本格式描述語音內(nèi)容的文本數(shù)據(jù),并且文本數(shù)據(jù)可以具有表示 要插入音樂的屬性值的位置的特定符號。數(shù)據(jù)獲取單元還可以獲取表示音樂的屬性值的屬性數(shù)據(jù),并且合成單元可以在根 據(jù)數(shù)據(jù)獲取單元獲取的屬性數(shù)據(jù)在特定符號所表示的位置插入音樂的屬性值之后通過采用模板中包含的文本數(shù)據(jù)合成語音。語音處理裝置還可以包括存儲器單元,用于存儲被定義為分別與音樂播放相關(guān) 的多個主題中的任何一個主題相關(guān)聯(lián)的多個模板,其中,數(shù)據(jù)獲取單元可以從存儲器單元 處存儲的多個模板中獲取與指定主題對應的一個或更多個模板。至少一個模板可以包含被插入音樂的標題或藝術(shù)家姓名作為屬性值的文本數(shù)據(jù)。至少一個模板可以包含被插入與音樂的排名相關(guān)的屬性值的文本數(shù)據(jù)。語音處理裝置還可以包括歷史日志單元,用于記錄音樂播放的歷史,其中至少一 個模板可以包含被插入基于歷史日志單元記錄的歷史設置的屬性值的文本數(shù)據(jù)。至少一個模板可以包含被插入基于音樂收聽者或者與收聽者不同的用戶的音樂 播放歷史設置的屬性值的文本數(shù)據(jù)。音樂進行數(shù)據(jù)定義的一個或更多個時間點或者一個或更多個時間段的特性可以 包含在該時間點或時間段處演唱的存在、旋律的類型、節(jié)拍的存在、音符的類型、音調(diào)的類 型以及演奏的樂器的類型中的至少一個。根據(jù)本發(fā)明的另一個實施例,提供了一種采用語音處理裝置的語音處理方法,包 括如下步驟從布置在語音處理裝置內(nèi)部或外部的存儲介質(zhì)獲取定義音樂進行中一個或更 多個時間點或者一個或更多個時間段的特性的音樂進行數(shù)據(jù);通過采用獲取的音樂進行數(shù) 據(jù)確定要在播放音樂期間輸出語音的輸出時間點;并且在播放音樂期間在確定的輸出時間 點輸出語音。根據(jù)本發(fā)明的另一個實施例,提供了一種程序,用于使控制語音處理裝置的計算 機用作數(shù)據(jù)獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個 時間段的特性的音樂進行數(shù)據(jù);確定單元,用于通過采用數(shù)據(jù)獲取單元獲取的音樂進行數(shù) 據(jù)確定要在播放音樂期間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期 間在確定單元確定的輸出時間點輸出語音。如上所述,采用根據(jù)本發(fā)明的語音處理裝置、語音處理方法和程序,可以在音樂進 行中的各個時間點輸出多樣化的語音。
圖1是示出了根據(jù)本發(fā)明的實施例的語音處理裝置的概要的示意圖;圖2是示出了屬性數(shù)據(jù)的示例的說明圖;圖3是示出了音樂進行數(shù)據(jù)的示例的第一說明圖;圖4是示出了音樂進行數(shù)據(jù)的示例的第二說明圖;圖5是示出了主題、模板與時刻數(shù)據(jù)之間的關(guān)系的說明圖;圖6是示出了主題、模板和時刻數(shù)據(jù)的示例的說明圖;圖7是示出了發(fā)音描述數(shù)據(jù)的示例的說明圖;圖8是示出了播放歷史數(shù)據(jù)的示例的說明圖;圖9是示出了根據(jù)第一實施例的語音處理裝置的配置的示例的框圖;圖10是示出了根據(jù)第一實施例的合成單元的詳細配置的示例的框圖;圖11是描述了根據(jù)第一實施例的語音處理流程的示例的流程圖;圖12是示出了與第一主題對應的語音的示例的說明圖13是示出了屬于第二主題的模板和時刻數(shù)據(jù)的示例的說明圖14是示出了與第二主題對應的語音的示例的說明圖15是示出了屬于第三主題的模板和時刻數(shù)據(jù)的示例的說明圖16是示出了與第三主題對應的語音的示例的說明圖17是示出了根據(jù)第二實施例的語音處理裝置的配置的示例的框圖18是示出了屬于第四主題的模板和時刻數(shù)據(jù)的示例的說明圖19是示出了與第四主題對應的語音的示例的說明圖20是示出了根據(jù)第三實施例的語音處理裝置的概要的示意圖21是示出了根據(jù)第三實施例的語音處理裝置的配置的示例的框圖22是示出了屬于第五主題的模板和時刻數(shù)據(jù)的示例的說明圖23是示出了與第五主題對應的語音的示例的說明圖;以及
圖24是示出了根據(jù)本發(fā)明的實施例的語音處理裝置的硬件配置的示例的框圖。
具體實施例方式在下文中,將參照附圖詳細描述本發(fā)明的優(yōu)選實施例。注意,在本說明書和附圖 中,用相同的參考標號表示功能和結(jié)構(gòu)基本上相同的結(jié)構(gòu)元件,并且省略對這些結(jié)構(gòu)元件 的重復說明。將按如下順序?qū)Ρ景l(fā)明的實施例進行描述。1.語音處理裝置的概要2.對語音處理裝置管理的數(shù)據(jù)的描述2-1.音樂數(shù)據(jù)2-2.屬性數(shù)據(jù)2-3.音樂進行數(shù)據(jù)2-4.主題、模板和時刻數(shù)據(jù)2-5.發(fā)音描述數(shù)據(jù)2-6.播放歷史數(shù)據(jù)3.對第一實施例的描述3-1.語音處理裝置的配置示例3-2.處理流程的示例3-3.主題的示例3-4.第一實施例的結(jié)論4.對第二實施例的描述4-1.語音處理裝置的配置示例4-2.主題的示例4-3.第二實施例的結(jié)論5.對第三實施例的描述5-1.語音處理裝置的配置示例5-2.主題的示例5-3.第三實施例的結(jié)論
<1.語音處理裝置的概要>首先,將參照圖1描述根據(jù)本發(fā)明的實施例的語音處理裝置的概要。圖1是示出 了根據(jù)本發(fā)明的實施例的語音處理裝置的概要的示意圖。圖1示出了語音處理裝置100a、 語音處理裝置100b、網(wǎng)絡102和外部數(shù)據(jù)庫104。語音處理裝置IOOa是根據(jù)本發(fā)明的實施例的語音處理裝置的示例。例如,語音處 理裝置IOOa可以是諸如PC和工作站等的信息處理裝置、諸如數(shù)字音頻播放器和數(shù)字電視 接收機等數(shù)字家用電器、車輛導航設備等。示范性地,語音處理裝置IOOa能夠經(jīng)由網(wǎng)絡102 訪問外部數(shù)據(jù)庫104。語音處理裝置IOOb也是根據(jù)本發(fā)明的實施例的語音處理裝置的示例。此處,示出 了便攜式音頻播放器作為語音處理裝置100b。例如,語音處理裝置IOOb能夠通過采用無線 通信功能訪問外部數(shù)據(jù)庫104。語音處理裝置IOOa和IOOb例如讀取集成或可拆卸可連接存儲介質(zhì)中存儲的音樂 數(shù)據(jù)并播放音樂。語音處理裝置IOOa和IOOb例如可以包括播放列表功能。在此情形中, 也可以按播放列表定義的順序播放音樂。另外,如后面詳細描述的,語音處理裝置IOOa和 IOOb在要播放的音樂進行中的多個時間點執(zhí)行附加的語音輸出??梢詫谟脩艋蛳到y(tǒng)要 指定的主題和/或按照音樂屬性動態(tài)地生成語音處理裝置IOOa和IOOb要輸出的語音的內(nèi) 容。在下文中,當不明確需要相互區(qū)分時,在本說明書的以下描述中縮略每個標號末 尾的字母而將語音處理裝置IOOa和語音處理裝置IOOb統(tǒng)稱為語音處理裝置100。網(wǎng)絡102是連接語音處理裝置IOOa和外部數(shù)據(jù)庫104的通信網(wǎng)絡。例如,網(wǎng)絡 102可以是任意通信網(wǎng)絡,諸如互聯(lián)網(wǎng)、電話通信網(wǎng)、互聯(lián)網(wǎng)協(xié)議-虛擬專用網(wǎng)(IP-VPN)、局 域網(wǎng)(LAN)或廣域網(wǎng)(WAN)等。另外,網(wǎng)絡102是有線的還是無線的均沒有關(guān)系。外部數(shù)據(jù)庫104是響應于來自語音處理裝置100的請求向語音處理裝置100提供 數(shù)據(jù)的數(shù)據(jù)庫。外部數(shù)據(jù)庫104提供的數(shù)據(jù)包括例如音樂屬性數(shù)據(jù)、音樂進行數(shù)據(jù)和發(fā)音 描述數(shù)據(jù)的一部分。然而,不限于以上內(nèi)容,可以從外部數(shù)據(jù)庫104提供其它類型的數(shù)據(jù)。 另外,可以把在本說明書中描述成從外部數(shù)據(jù)庫104提供的數(shù)據(jù)預先存儲在語音處理裝置 100內(nèi)部。<2.對語音處理裝置管理的數(shù)據(jù)的描述〉接下來,將描述本發(fā)明的實施例中的語音處理裝置100使用的主要數(shù)據(jù)。[2-1.音樂數(shù)據(jù)]音樂數(shù)據(jù)是通過將音樂編碼成數(shù)字形式獲取的數(shù)據(jù)。音樂數(shù)據(jù)可以以壓縮類型或 非壓縮類型的任意格式形成,諸如WAV、AIFF、MP3和ATRAC等。后面描述的屬性數(shù)據(jù)和音樂 進行數(shù)據(jù)與音樂數(shù)據(jù)相關(guān)聯(lián)。[2-2.屬性數(shù)據(jù)]在本說明書中,屬性數(shù)據(jù)是表示音樂屬性值的數(shù)據(jù)。圖2示出了屬性數(shù)據(jù)的示例。 如圖2中所示,屬性數(shù)據(jù)(ATT)包括從致密盤(CD)的內(nèi)容表(TOC)、MP3的ID3標簽或播 放列表中獲取的數(shù)據(jù)(在下文中,稱為TOC數(shù)據(jù))以及從外部數(shù)據(jù)庫104獲取的數(shù)據(jù)(在 下文中,稱為外部數(shù)據(jù))。此處,TOC數(shù)據(jù)包括音樂標題、藝術(shù)家姓名、流派、長度、序數(shù)位置 (即,播放列表中的第幾首音樂)等。外部數(shù)據(jù)例如可以包括表示按每周或每月排名音樂的
7序號的數(shù)據(jù)。如后所述,可以把這種屬性數(shù)據(jù)的值插入到要在語音處理裝置100的音樂播 放期間輸出的語音內(nèi)容中包括的預定位置。[2-3.音樂進行數(shù)據(jù)]音樂進行數(shù)據(jù)是定義音樂進行中一個或更多個時間點或者一個或更多個時間段 的屬性的數(shù)據(jù)。音樂進行數(shù)據(jù)通過分析音樂數(shù)據(jù)生成,并且例如預先保存在外部數(shù)據(jù)庫104 處。例如,可以采用SMFMF格式作為音樂進行數(shù)據(jù)的數(shù)據(jù)格式。例如,GraceNote (注冊商 標)公司的壓縮盤數(shù)據(jù)庫(CDDB,注冊商標)提供市場上SMFMF格式的大量音樂的音樂進行 數(shù)據(jù)。語音處理裝置100可以使用這種數(shù)據(jù)。圖3示出了以SMFMF格式描述的音樂進行數(shù)據(jù)的示例。如圖3中所示,音樂進行 數(shù)據(jù)(MP)包括一般數(shù)據(jù)(⑶)和時間線數(shù)據(jù)(TL)。一般數(shù)據(jù)是描述整個音樂的特性的數(shù)據(jù)。在圖3的示例中,示出了音樂的格調(diào)(即 歡快、寂寞等)和每分鐘的節(jié)拍(BPM 表示音樂的節(jié)奏)作為一般數(shù)據(jù)的數(shù)據(jù)項??梢园?這種一般數(shù)據(jù)作為音樂屬性數(shù)據(jù)處理。時間線數(shù)據(jù)是描述音樂進行中一個或更多個時間點或者一個或更多個時間段的 屬性的數(shù)據(jù)。在圖3的示例中,時間線數(shù)據(jù)包括“位置”、“類別”和“子類別”三個數(shù)據(jù)項。此 處,“位置”例如通過采用其開始點在開始音樂演奏的時間點的時間范圍(例如,在毫秒等的 數(shù)量級上)定義音樂進行中的某個時間點。另外,“類別”和“子類別”表示在“位置”定義的 時間點或者從該時間點開始的局部時間段中演奏的音樂的屬性。更具體地,例如當“類別” 為“旋律”時,“子類別”表示演奏的旋律的類型(即前奏、A調(diào)、B調(diào)、符尾和弦(hook-line)、 間奏等)。例如當“類另Γ為“音符”時,“子類別”表示演奏的音符的類型(即CMaj、Cm、C7 等)。例如當“類別”為“節(jié)拍”時,“子類別”表示在該時間點演奏的節(jié)拍的類型(即大節(jié) 拍、小節(jié)拍等)。例如當“類別”為“樂器”時,“子類別”表示演奏的樂器的類型(即吉他、貝 司、鼓、男歌手、女歌手等)。此處,“類別”和“子類別”的分類不限于這些示例。例如,“男 歌手”、“女歌手”等可以在屬于被定義成與類別“樂器”不同的類別(例如,“歌手”)的子類 別中。圖4是進一步描述音樂進行數(shù)據(jù)之中的時間線數(shù)據(jù)的說明圖。圖4上面的部分采 用時間軸示出了音樂進行中演奏的旋律類型、音符類型、音調(diào)類型、樂器類型。例如,在圖4 的音樂中,旋律類型按“前奏”、“A調(diào)”、“B調(diào)”、“符尾和弦”、“間奏”、“B調(diào)”和“符尾和弦”的 次序進行。音符類型按“CMaj”、“Cm”、“CMaj”、“Cm”和“C#Maj”的次序進行。音調(diào)類型按 “C”和“C#”的次序進行。另外,男歌手在除了 “前奏”和“間奏”以外的旋律部分出現(xiàn)(即 男歌手在這些時段中演唱)。此外,在整個音樂過程中演奏鼓。圖4下面的部分示出了五個時間線數(shù)據(jù)TLl至TL5作為以上音樂進行中的示例。 時間線數(shù)據(jù)TLl表示自開始演奏的時間點之后的位置20000 ( S卩,時間點20000毫秒(=20 秒))起演奏的旋律為“A調(diào)”。時間線數(shù)據(jù)TL2表示男歌手在位置21000處開始演唱。時間 線數(shù)據(jù)TL3表示自位置45000起演奏的音符為“CMaj”。時間線數(shù)據(jù)TL4表示在位置60000 處演奏大節(jié)拍。時間線數(shù)據(jù)TL5表示自位置63000起演奏的音符為“Cm”。通過采用這種音樂進行數(shù)據(jù),語音處理裝置100可以識別在音樂進行中的一個或 更多個時間點或者一個或更多個時間段之中歌聲何時出現(xiàn)(歌手何時演唱),識別在演奏 中何時出現(xiàn)何種類型的旋律、音符、音調(diào)或樂器,或者識別何時演奏節(jié)拍。
[2-4.主題、模板和時刻數(shù)據(jù)]圖5是示出了主題、模板與時刻數(shù)據(jù)之間的關(guān)系的說明圖。如圖5中所示,一個或 更多個模板(TP)以及一個或更多個時刻數(shù)據(jù)(TM)與一個主題數(shù)據(jù)(TH)相關(guān)聯(lián)地存在。 即,模板和時刻數(shù)據(jù)與任何一個主題數(shù)據(jù)相關(guān)聯(lián)。主題數(shù)據(jù)表示分別與音樂播放相關(guān)的主 題并把提供的多對模板和時刻數(shù)據(jù)分類成數(shù)個組。例如,主題數(shù)據(jù)包括主題標識符(ID)和 主題名稱兩個數(shù)據(jù)項。此處,主題ID是唯一標識各個主題的標識符。主題名稱例如是用戶 用來從多個主題中選擇期望的主題的主題的名稱。模板是定義要在音樂播放期間輸出的語音內(nèi)容的數(shù)據(jù)。模板包括以文本格式描述 語音內(nèi)容的文本數(shù)據(jù)。例如,語音合成引擎讀出文本數(shù)據(jù),以使得模板定義的內(nèi)容被轉(zhuǎn)換成 語音。另外,如后所述,文本數(shù)據(jù)包括表示要插入音樂屬性數(shù)據(jù)中包含的屬性值的位置的特 定符號。時刻數(shù)據(jù)是定義與從音樂進行數(shù)據(jù)識別的一個或更多個時間點或者一個或更多 個時間段相關(guān)聯(lián)的要在音樂播放期間輸出語音的輸出時刻的數(shù)據(jù)。例如,時刻數(shù)據(jù)包括類 型、基準和偏移量三個數(shù)據(jù)項。此處,例如,類型用于指定包括對音樂進行數(shù)據(jù)的時間線數(shù) 據(jù)的類別或子類別的引用的至少一個時間線數(shù)據(jù)。另外,基準和偏移量定義由類型指定的 時間線數(shù)據(jù)所表示的時間軸上的位置和相對于語音輸出時間點的位置關(guān)系。在對本實施例 的描述中,為一個模板提供一個時刻數(shù)據(jù)。或者,可以為一個模板提供多個時刻數(shù)據(jù)。圖6是示出了主題、模板和時刻數(shù)據(jù)的示例的說明圖。如圖6中所示,多對(對1、 對2、...)模板和時刻數(shù)據(jù)與具有主題ID為“主題1”和主題名稱為“電臺DJ”這些數(shù)據(jù)項 的主題數(shù)據(jù)THl相關(guān)聯(lián)。對1包含模板TPl和時刻數(shù)據(jù)TMl。模板TPl包含文本數(shù)據(jù)“音樂是$ {ARTIST}的 ${TITLE} !”。此處,文本數(shù)據(jù)中的“${ARTIST}”是表示要插入音樂屬性值之中的藝術(shù)家姓 名的位置的符號。另外,“${TITLE}”是表示要插入音樂屬性值之中的標題的位置的符號。 在本說明書中,要插入音樂屬性值的位置用“${. · · } ”表示。然而,不限于此,可以使用其他 符號。另外,作為與模板TPl對應的時刻數(shù)據(jù)TMl的各個數(shù)據(jù)值,類型為“最初的歌聲”、基 準為“開頭”、偏移量為“-10000”。以上定義了要自音樂進行中最初的歌聲的時間段的開頭 以前十秒的位置起輸出模板TPl定義的語音內(nèi)容。另外,對2包含模板TP2和時刻數(shù)據(jù)TM2。模板TP2包含文本數(shù)據(jù)“下一首音樂是 $ {NEXT_ARTIST}的 $ {NEXT_TITLE} ! ”。此處,文本數(shù)據(jù)中的"$ {NEXT_ARTIST} ” 是表示要 插入下一首音樂的藝術(shù)家姓名的位置的符號。另外,“$ {NEXT_TITLE} ”是表示要插入下一 首音樂的標題的位置的符號。另外,作為與模板TP2對應的時刻數(shù)據(jù)TM2的各個數(shù)據(jù)值,類 型為“間奏”、基準為“開頭”、偏移量為“+2000”。以上定義了要自間奏的時間段的開頭之后 兩秒的位置起輸出模板TP2定義的語音內(nèi)容。通過準備針對每個主題分類的多個模板和時刻數(shù)據(jù),可以根據(jù)用戶或系統(tǒng)指定的 主題在音樂進行中的各個時間點輸出多樣化的語音內(nèi)容。各個主題的語音內(nèi)容的一些示例 將在后面進一步描述。[2-5.發(fā)音描述數(shù)據(jù)]發(fā)音描述數(shù)據(jù)是通過采用標準化符號描述詞語和語句的準確發(fā)音(即,如何恰當 讀出)的數(shù)據(jù)。例如,用于描述詞語和語句發(fā)音的系統(tǒng)可以采用國際音標(IPA)、語音評估方法音標(SAMPA)、擴展SAM音標(X-SAMPA)等。在本說明書中,通過采用能夠僅通過ASCII 字符表達所有符號的X-SAMPA的示例進行描述。圖7是通過采用X-SAMPA示出了發(fā)音描述數(shù)據(jù)的示例的說明圖。圖7中示出了三 個文本數(shù)據(jù)TXl至TX3以及分別與之對應的三個發(fā)音描述數(shù)據(jù)PDl至PD3。此處,文本數(shù)據(jù) TXl表示音樂標題“Mamma Mia”。為了精確,要將音樂標題發(fā)音為“mamma miea”。然而,當 單純地將文本數(shù)據(jù)輸入到用于讀出文本的文本到語音(TTS)引擎時,可能會把音樂標題錯 誤地發(fā)音為“mamma maia”。另外,發(fā)音描述數(shù)據(jù)PDl遵照X-SAMPA把文本數(shù)據(jù)TXl的準確 發(fā)音描述為“ ”mA. mi"mi. @,,。當將發(fā)音描述數(shù)據(jù)PDl輸入到能夠支持X-SAMPA的TTS引擎 時,合成準確發(fā)音的語音“mamma miea”。類似地,文本數(shù)據(jù)TX2表示音樂標題“Gimme ! Gimme ! Gimme!”。當向TTS引 擎直接輸入文本數(shù)據(jù)TX2時,符號“ ! ”被解釋成表示祈使句,使得可能將不必要的空白時 間段插入到標題發(fā)音中。另外,通過基于“,,gl. mi#,,gl. mi#,,gl. mi#,,@,,的發(fā)音描述數(shù)據(jù) PD2合成語音,合成準確發(fā)音的語音而沒有不必要的空白時間段。文本數(shù)據(jù)TX3表示除了日語的中文字符之外還包含字符串“ negai”的音樂標 題。當向TTS引擎直接輸入文本數(shù)據(jù)TX3時,可能會把沒有必要讀出的符號“ ”讀出為 “波浪線”。另外,通過基于“ne. ”Na. i”的發(fā)音描述數(shù)據(jù)PD3合成語音,合成準確發(fā)音的語 音 “negai,,。市場上許多音樂標題和藝術(shù)家姓名的這種發(fā)音描述數(shù)據(jù)例如由上述 GraceNote (注冊商標)公司的⑶DB(注冊商標)提供。相應地,語音處理裝置100可以采 用這些數(shù)據(jù)。[2-6.播放歷史數(shù)據(jù)]播放歷史數(shù)據(jù)是保存用戶或設備播放音樂的歷史的數(shù)據(jù)。播放歷史數(shù)據(jù)可以以按 時間順序累積播放什么音樂以及何時播放音樂的信息的格式形成或者可以在進行處理以 進行一些概括之后形成。圖8是示出了播放歷史數(shù)據(jù)的示例的說明圖。圖8中示出了形式相互不同的播放 歷史數(shù)據(jù)HIST1、HIST2。播放歷史數(shù)據(jù)HISTl是按時間順序累積包含唯一地指定音樂的音 樂ID以及播放音樂ID指定的音樂的日期和時間的記錄的數(shù)據(jù)。另外,播放歷史數(shù)據(jù)HIST2 例如是通過總結(jié)播放歷史數(shù)據(jù)HISTl獲得的數(shù)據(jù)。播放歷史數(shù)據(jù)HIST2表示針對每個音樂 ID在預定時間段(例如一周或一個月等)內(nèi)的播放數(shù)量。在圖8的示例中,音樂“M001”的 播放數(shù)量為十次,音樂“M002”的播放數(shù)量為一次,播放音樂“M123”的數(shù)量為五次。與音樂 屬性值類似,可以將從諸如各個音樂的播放數(shù)量等播放歷史數(shù)據(jù)中總結(jié)的值、在按降序存 儲的情形中的序數(shù)位置插入到語音處理裝置100合成的語音內(nèi)容中。接下來,將對采用以上數(shù)據(jù)在音樂進行中的各個時間點輸出多樣化語音內(nèi)容的語 音處理裝置100的配置進行具體描述。<3.對第一實施例的描述〉[3-1.語音處理裝置的配置示例]圖9是示出了根據(jù)本發(fā)明的第一實施例的語音處理裝置100的配置的示例的框 圖。如圖9中所示,語音處理裝置100包括存儲器單元110、數(shù)據(jù)獲取單元120、時刻確定單 元130、合成單元150、音樂處理單元170和音頻輸出單元180。
10
存儲器單元110例如通過采用諸如硬盤和半導體存儲器等存儲介質(zhì)存儲用于語 音處理裝置100的處理的數(shù)據(jù)。存儲器單元110要存儲的數(shù)據(jù)包含音樂數(shù)據(jù)、與音樂數(shù)據(jù) 相關(guān)聯(lián)的屬性數(shù)據(jù)以及針對每個主題分類的模板和時刻數(shù)據(jù)。此處,在音樂播放期間將這 些數(shù)據(jù)之中的音樂數(shù)據(jù)輸出到音樂處理單元170。通過數(shù)據(jù)獲取單元120獲取并分別向時 刻確定單元130和合成單元150輸出屬性數(shù)據(jù)、模板和時刻數(shù)據(jù)。數(shù)據(jù)獲取單元120從存儲器單元110或外部數(shù)據(jù)庫104獲取時刻確定單元130和 合成單元150要使用的數(shù)據(jù)。更具體地,數(shù)據(jù)獲取單元120例如從存儲器單元110獲取要 播放的音樂的屬性數(shù)據(jù)的一部分以及與主題對應的模板和時刻數(shù)據(jù)并將時刻數(shù)據(jù)輸出到 時刻確定單元130以及把屬性數(shù)據(jù)和模板輸出到合成單元150。另外,例如,數(shù)據(jù)獲取單元 120例如從外部數(shù)據(jù)庫104中獲取要播放的音樂的屬性數(shù)據(jù)的一部分、音樂進行數(shù)據(jù)和發(fā) 音描述數(shù)據(jù),并把音樂進行數(shù)據(jù)輸出到時刻確定單元130以及把屬性數(shù)據(jù)和發(fā)音描述數(shù)據(jù) 輸出到合成單元150。時刻確定單元130通過采用數(shù)據(jù)獲取單元120獲取的音樂進行數(shù)據(jù)和時刻數(shù)據(jù)確 定音樂進行中要輸出語音的輸出時間點。例如,假定圖4中示例的音樂進行數(shù)據(jù)以及圖6 中示例的時刻數(shù)據(jù)TMl輸入到時刻確定單元130中。在此情形中,首先,時刻確定單元130 從音樂進行數(shù)據(jù)中查找時刻數(shù)據(jù)TMl的類型“最初的歌聲”指定的時間線數(shù)據(jù)。隨后,指定 圖4中示例的時間線數(shù)據(jù)TL2為表示音樂的最初的歌聲時間段的開頭時間點的數(shù)據(jù)。相應 地,時刻確定單元130通過把時刻數(shù)據(jù)TMl的偏移量值“-10000”加到時間線數(shù)據(jù)TL2的位 置“21000”來確定根據(jù)模板TPl合成的語音的輸出時間點為位置“11000”。以此方式,時刻確定單元130分別針對可能從數(shù)據(jù)獲取單元120輸入的多個時刻 數(shù)據(jù)確定與每個時刻數(shù)據(jù)對應的根據(jù)模板合成的語音的輸出時間點。然后,時刻確定單元 130將針對每個模板確定的輸出時間點輸出到合成單元150。此處,根據(jù)音樂進行數(shù)據(jù)的內(nèi)容,可以確定對于一些模板不存在語音輸出時間點 (即,不輸出語音)。還可以想到對于單個時刻數(shù)據(jù)存在輸出時間點的多個候選。例如,針 對圖6中示例的時刻數(shù)據(jù)TM2指定輸出時間點為間奏的開頭之后兩秒。此處,當在單個音 樂中多次演奏間奏時,也根據(jù)時刻數(shù)據(jù)TM2指定輸出時間點為多個。在此情形中,時刻確定 單元130可以從多個輸出時間點之中確定第一個輸出時間點為根據(jù)與時刻數(shù)據(jù)TM2對應的 模板TP2合成的語音的輸出時間點?;蛘撸瑫r刻確定單元130可以確定要在多個輸出時間 點重復輸出語音。合成單元150通過采用數(shù)據(jù)獲取單元120獲取的屬性數(shù)據(jù)、模板和發(fā)音描述數(shù)據(jù) 合成要在音樂播放期間輸出的語音。在模板的文本數(shù)據(jù)具有表示要插入音樂屬性值的位置 的符號的情形中,合成單元150把屬性數(shù)據(jù)代表的音樂屬性值插入到該位置。圖10是示出了合成單元150的詳細配置的示例的框圖。參照圖10,合成單元150 包括發(fā)音內(nèi)容生成單元152、發(fā)音轉(zhuǎn)換單元154和語音合成引擎156。發(fā)音內(nèi)容生成單元152把音樂屬性值插入到從數(shù)據(jù)獲取單元120輸入的模板的文 本數(shù)據(jù)中并生成要在音樂播放期間輸出的語音的發(fā)音內(nèi)容。例如,假定圖6中示例的模板 TPl輸入到發(fā)音內(nèi)容生成單元152中。在此情形中,發(fā)音內(nèi)容生成單元152識別模板TPl的 文本數(shù)據(jù)中的符號$ {ARTIST}。隨后,發(fā)音內(nèi)容生成單元152從屬性數(shù)據(jù)中提取并向符號 $ {ARTIST}的位置插入要播放的音樂的藝術(shù)家姓名。類似地,發(fā)音內(nèi)容生成單元152識別模板TPl的文本數(shù)據(jù)中的符號$ {TITLE}。隨后,發(fā)音內(nèi)容生成單元152從屬性數(shù)據(jù)中提取并 向符號$ {TITLE}的位置插入要播放的音樂的標題。結(jié)果,當要播放的音樂的標題為“Tl” 且藝術(shù)家姓名為“Al”時,基于模板TPl生成發(fā)音內(nèi)容“音樂是Al的Tl ! ”。發(fā)音轉(zhuǎn)換單元154通過采用發(fā)音描述數(shù)據(jù)對發(fā)音內(nèi)容生成單元152生成的發(fā)音 內(nèi)容之中在單純讀出諸如音樂標題和藝術(shù)家姓名等文本數(shù)據(jù)時可能引起錯誤發(fā)音的部分 的發(fā)音內(nèi)容進行轉(zhuǎn)換。例如,在發(fā)音內(nèi)容生成單元152生成的發(fā)音內(nèi)容中包含音樂標題 "Mamma Mia”的情形中,發(fā)音轉(zhuǎn)換單元154從自數(shù)據(jù)獲取單元120輸入的發(fā)音描述數(shù)據(jù)中提 取例如圖7中示例的發(fā)音描述數(shù)據(jù)PDl并把“Mamma Mia”轉(zhuǎn)換成“”mA. m@”mi. @”。結(jié)果, 生成消除了錯誤發(fā)音可能性的發(fā)音內(nèi)容。示例性地,語音合成引擎156是除了正常文本之外還能夠讀出以X-SAMPA格式描 述的符號的TTS引擎。語音合成引擎156合成語音以根據(jù)從發(fā)音轉(zhuǎn)換單元154輸入的發(fā)音 內(nèi)容讀出發(fā)音內(nèi)容??梢砸灾T如脈沖編碼調(diào)制(PCM)和自適應差分脈沖編碼調(diào)制(ADPCM) 等任意格式形成語音合成引擎156合成的語音的信號。語音合成引擎156合成的語音與時 刻確定單元130確定的輸出時間點相關(guān)聯(lián)地輸出到音頻輸出單元180。此處,存在針對單個音樂向合成單元150輸入多個模板的可能性。當在此情形中 同時執(zhí)行音樂播放和語音合成時,優(yōu)選地,合成單元150按從較早起的輸出時間點的時間 順序?qū)δ0鍒?zhí)行處理。相應地,使得能夠減小輸出時間點在完成語音合成的時間點之前過 去的可能性。下面,參照圖9繼續(xù)對語音處理裝置100的配置的描述。為了播放音樂,音樂處理單元170從存儲器單元110獲取音樂數(shù)據(jù)并且例如在執(zhí) 行諸如流分離和解碼等處理之后生成PCM格式或ADPCM格式的音頻信號。另外,音樂處理 單元170例如可以根據(jù)用戶或系統(tǒng)指定的主題只對從音樂數(shù)據(jù)中提取的一部分執(zhí)行處理。 音樂處理單元170生成的音頻信號輸出到音頻輸出單元180。合成單元150合成的語音以及音樂處理單元170生成的音樂(即其音頻信號)輸 入到音頻輸出單元180。示例性地,通過采用能夠并行處理的兩個或更多個聲道(或緩存 器)保存語音和音樂。音頻輸出單元180在時刻確定單元130確定的時間點輸出合成單元 150合成的語音并同時順序輸出音樂音頻信號。此處,在語音處理裝置100設置有揚聲器的 情形中,音頻輸出單元180可以將音樂和語音輸出到揚聲器或者可以將音樂和語音(即其 音頻信號)輸出到外部設備。至此,參照圖9和圖10對語音處理裝置100的配置的示例進行了描述。示例性地, 在以上語音處理裝置100的各個單元之中,采用軟件實現(xiàn)并通過諸如中央處理單元(CPU) 和數(shù)字信號處理器(DSP)等運算設備執(zhí)行數(shù)據(jù)獲取單元120、時刻確定單元130、合成單元 150和音樂處理單元170的處理。除了運算設備之外,音頻輸出單元180還可以設置有DA 轉(zhuǎn)換電路和模擬電路以對要輸入的語音和音樂執(zhí)行處理。另外,如上所述,存儲器單元110 可以被配置為采用諸如硬盤和半導體存儲器等存儲介質(zhì)。[3-2.處理流程的示例]接下來,將參照圖11描述語音處理裝置100所進行的語音處理的流程的示例。圖 11是示出了語音處理裝置100所進行的語音處理流程的示例的流程圖。參照圖11,首先,音樂處理單元170從存儲器單元110獲取要播放音樂的音樂數(shù)據(jù)(步驟S102)。然后,音樂處理單元170例如把用以指定要播放的音樂的音樂ID等通知給 數(shù)據(jù)獲取單元120。接下來,數(shù)據(jù)獲取單元120從存儲器單元110獲取要播放音樂的屬性數(shù)據(jù)的一部 分(例如,TOC數(shù)據(jù))以及與主題對應的模板和時刻數(shù)據(jù)(步驟S104)。隨后,數(shù)據(jù)獲取單 元120把時刻數(shù)據(jù)輸出到時刻確定單元130并把屬性數(shù)據(jù)和模板輸出到合成單元150。接下來,數(shù)據(jù)獲取單元120從外部數(shù)據(jù)庫104獲取要播放音樂的屬性數(shù)據(jù)的一部 分(例如,外部數(shù)據(jù))、音樂進行數(shù)據(jù)和發(fā)音描述數(shù)據(jù)(步驟S106)。隨后,數(shù)據(jù)獲取單元 120把音樂進行數(shù)據(jù)輸出到時刻確定單元130并把屬性數(shù)據(jù)和發(fā)音描述數(shù)據(jù)輸出到合成單 元 150。接下來,時刻確定單元130通過采用音樂進行數(shù)據(jù)和時刻數(shù)據(jù)確定要輸出根據(jù)模 板合成的語音的輸出時間點(步驟S108)。隨后,時刻確定單元130把確定的輸出時間點輸 出到合成單元150。接下來,合成單元150的發(fā)音內(nèi)容生成單元152根據(jù)模板和屬性數(shù)據(jù)生成文本 格式的發(fā)音內(nèi)容(步驟S110)。另外,發(fā)音轉(zhuǎn)換單元154通過采用發(fā)音描述數(shù)據(jù)用根據(jù) X-SAMPA格式的符號替代發(fā)音內(nèi)容中包含的音樂標題和藝術(shù)家姓名(步驟S112)。隨后,語 音合成引擎156根據(jù)發(fā)音內(nèi)容合成要輸出的語音(步驟S114)。重復步驟SllO至步驟S114 的處理,直到針對時刻確定單元130確定輸出時間點的所有模板完成語音合成為止(步驟 S116)。當針對輸出時間點確定的所有模板完成語音合成時,圖11的流程圖完成。此處,語音處理裝置100可以與諸如音樂處理單元170對音樂數(shù)據(jù)的解碼等處理 并行地執(zhí)行圖11的語音處理。在此情形中,優(yōu)選地,語音處理裝置100例如首先開始圖11 的語音處理并在與播放列表中第一首音樂有關(guān)的語音合成(或者與音樂有關(guān)的語音之中 與最早輸出時間點對應的語音合成)完成之后開始對音樂數(shù)據(jù)的解碼等。[3-3.主題的示例]接下來,將參照圖12至圖16針對三種類型的主題對根據(jù)本實施例的語音處理裝 置100提供的多樣化語音的示例進行描述。(第一主題電臺DJ)圖12是示出了與第一主題對應的語音的示例的說明圖。第一主題的主題名稱為 “電臺DJ”。圖6中示出了屬于第一主題的模板和時刻數(shù)據(jù)的示例。如圖12中所示,基于包含文本數(shù)據(jù)“音樂是$ {ARTIST}的$ {TITLE} ! ”的模板TPl 以及屬性數(shù)據(jù)ATTl合成語音Vl “音樂是Al的Tl ! ”。另外,基于時刻數(shù)據(jù)TMl確定語音 Vl的輸出時間點在音樂進行數(shù)據(jù)所表示的最初的歌聲的時間段的開頭之前十秒處。相應 地,緊鄰最初的歌聲開始之前輸出具有真實感的電臺DJ狀的語音“音樂是Al的Tl ! ”而不 覆蓋歌聲。類似地,基于圖6的模板TP2合成語音V2 “下一首音樂是A2的T2 ! ”。另外,基 于時刻數(shù)據(jù)TM2確定語音V2的輸出時間點在音樂進行數(shù)據(jù)所表示的間奏的時間段的開頭 之后兩秒處。相應地,緊鄰符尾和弦結(jié)束和間奏開始之后輸出具有真實感的電臺DJ狀的語 音“下一首音樂是A2的T2 ! ”而不覆蓋歌聲。(第二主題官方倒計時(countdown))
13
圖13是示出了屬于第二主題的模板和時刻數(shù)據(jù)的示例的說明圖。如圖13中所示, 多對模板和時刻數(shù)據(jù)(即,對1、對2、...)與具有主題ID為“主題2”且主題名稱為“官方 倒計時”數(shù)據(jù)項的主題數(shù)據(jù)TH2相關(guān)聯(lián)。對1包含模板TP3和時刻數(shù)據(jù)TM3。模板TP3包含文本數(shù)據(jù)“本周排名第 $ {RANKING}位,$ {ARTIST}的$ {TITLE} ”。此處,文本數(shù)據(jù)中的“$ {RANKING} ”例如是表示 音樂屬性值之中要插入音樂的每周銷售排名的序數(shù)位置的位置的符號。另外,作為與模 板TP3對應的時刻數(shù)據(jù)TM3的各個數(shù)據(jù)值,類型為“符尾和弦”、基準為“開頭”、偏移量為 “-10000”。另外,對2包含模板TP4和時刻數(shù)據(jù)TM4。模板TP4包含文本數(shù)據(jù)“排名從上周上 升 $ {RANKING_DIFF},$ {ARTIST}的 $ {TITLE} ”。此處,文本數(shù)據(jù)中的“$ {RANKING_DIFF} ”例 如是表示音樂屬性值之中要插入音樂的每周銷售排名從上周的變化的位置的符號。另外, 作為與模板TP4對應的時刻數(shù)據(jù)TM4的各個數(shù)據(jù)值,類型為“符尾和弦”、基準為“結(jié)尾”、偏 移量為“+2000”。圖14是示出了與第二主題對應的語音的示例的說明圖。如圖14中所示,基于圖13的模板TP3合成語音V3 “本周排名第三位,A3的T3”。 另外,基于時刻數(shù)據(jù)TM3確定語音V3的輸出時間點在音樂進行數(shù)據(jù)所表示的符尾和弦的時 間段的開頭之前十秒處。相應地,緊鄰演奏符尾和弦前輸出銷售排名倒計時狀的語音“本周 排名第三位,A3的T3”。類似地,基于圖13的模板TP4合成語音V4 “排名從上周上升六位,A3的T3”。另 外,基于時刻數(shù)據(jù)TM4確定語音V4的輸出時間點在音樂進行數(shù)據(jù)所表示的符尾和弦的時間 段的結(jié)尾之后兩秒處。相應地,緊鄰符尾和弦結(jié)束后輸出銷售排名倒計時狀的語音“排名從 上周上升六位,A3的T3”。當主題是這種官方倒計時時,音樂處理單元170可以提取并向音頻輸出單元180 輸出包含符尾和弦的音樂的一部分,而不是把整個音樂輸出到音頻輸出單元180。在此情形 中,時刻確定單元130確定的語音輸出時間點可能根據(jù)音樂處理單元170提取的部分移動。 采用該主題,例如可以通過根據(jù)被獲取作為外部數(shù)據(jù)的排名數(shù)據(jù)以倒計時方式接連播放僅 符尾和弦部分的音樂來向用戶提供新的娛樂特性。(第三主題信息提供)圖15是示出了屬于第三主題的模板和時刻數(shù)據(jù)的示例的說明圖。如圖15中所示, 多對模板和時刻數(shù)據(jù)(即,對1、對2、...)與具有主題ID為“主題3”且主題名稱為“信息 提供”數(shù)據(jù)項的主題數(shù)據(jù)TH3相關(guān)聯(lián)。對1包含模板TP5和時刻數(shù)據(jù)TM5。模板TP5包含文本數(shù)據(jù)“$ {INF01} ”。作為與 模板TP5對應的時刻數(shù)據(jù)TM5的各個數(shù)據(jù)值,類型為“最初的歌聲”、基準為“開頭”、偏移量 為 “-10000”。對2包含模板TP6和時刻數(shù)據(jù)TM6。模板TP6包含文本數(shù)據(jù)“$ {INF02} ”。作為 與模板TP6對應的時刻數(shù)據(jù)TM6的各個數(shù)據(jù)值,類型為“間奏”、基準為“開頭”、偏移量為 “+2000”。此處,文本數(shù)據(jù)中的“$ {INF01} ”和“$ {INF02} ”是表示分別插入與一些情況對應 的由數(shù)據(jù)獲取單元120獲取的第一和第二信息的位置的符號。第一和第二信息可以是新聞、天氣預報或廣告。另外,新聞和廣告可以與音樂或藝術(shù)家有關(guān)或者可以與之無關(guān)。例如, 可以通過數(shù)據(jù)獲取單元120從外部數(shù)據(jù)庫104獲取信息。圖16是示出了與第三主題對應的語音的示例的說明圖。參照圖16,基于模板TP5合成用于讀新聞的語音V5。另外,基于時刻數(shù)據(jù)TM5確定 語音V5的輸出時間點在音樂進行數(shù)據(jù)所表示的最初的歌聲的時間段的開頭之前十秒處。 相應地,緊鄰最初的歌聲開始之前輸出用于讀新聞的語音。類似地,基于模板TP6合成用于讀天氣預報的語音V6。另外,基于時刻數(shù)據(jù)TM6確 定語音V6的輸出時間點在音樂進行數(shù)據(jù)所表示的間奏的開頭之后兩秒處。相應地,緊鄰符 尾和弦結(jié)束和間奏開始之后輸出用于讀天氣預報的語音。采用該主題,由于例如在不出現(xiàn)歌聲的前奏或間奏的時間段中向用戶提供諸如新 聞和天氣預報等信息,因此用戶可以在欣賞音樂的同時有效地利用時間。[3-4.第一實施例的結(jié)論]至此,參照圖9至圖16對根據(jù)本發(fā)明第一實施例的語音處理裝置100進行了描 述。根據(jù)本實施例,通過采用定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的屬性的音樂進行數(shù)據(jù)動態(tài)地確定要在音樂播放期間輸出語音的輸出時間點。隨后,在 音樂播放期間在確定的輸出時間點輸出語音。相應地,語音處理裝置100能夠在音樂進行 中的各個時間點輸出語音。這時,采用定義與一個或更多個時間點或者一個或更多個時間 段相關(guān)聯(lián)的語音輸出時刻的時刻數(shù)據(jù)。相應地,可以根據(jù)時刻數(shù)據(jù)的定義靈活地設置或改 變語音輸出時間點。另外,根據(jù)本實施例,使用模板以文本格式描述要輸出的語音內(nèi)容。文本數(shù)據(jù)具有 表示要插入音樂屬性值的位置的特定符號。隨后,可以把音樂屬性值動態(tài)地插入到特定符 號的位置。相應地,可以容易地提供各種類型的語音內(nèi)容,并且語音處理裝置100可以在音 樂進行中輸出多樣化的語音。另外,根據(jù)本實施例,通過新定義模板來隨后添加要輸出的語 音內(nèi)容也是容易的。此外,根據(jù)本實施例,準備與音樂播放有關(guān)的多個主題,分別與多個主題中的任意 一個主題相關(guān)聯(lián)地定義以上模板。相應地,由于根據(jù)主題的選擇輸出不同的語音內(nèi)容,語音 處理裝置100能夠長期娛樂用戶。此處,在對本實施例的描述中,在音樂進行中輸出語音。另外,語音處理裝置100 可以輸出諸如叮當聲以及與之伴隨的有效聲音等短音樂。<4.對第二實施例的描述〉[4-1.語音處理裝置的配置示例]圖17是示出了根據(jù)本發(fā)明的第二實施例的語音處理裝置200的配置的示例的框 圖。參照圖17,語音處理裝置200包括存儲器單元110、數(shù)據(jù)獲取單元220、時刻確定單元 130、合成單元150、音樂處理單元270、歷史日志單元272和音頻輸出單元180。與根據(jù)第一實施例的數(shù)據(jù)獲取單元120類似,數(shù)據(jù)獲取單元220從存儲器單元110 或外部數(shù)據(jù)庫104中獲取時刻確定單元130或合成單元150使用的數(shù)據(jù)。另外,在本實施 例中,數(shù)據(jù)獲取單元220獲取由后面提及的歷史日志單元272記錄的播放歷史數(shù)據(jù)作為音 樂屬性數(shù)據(jù)的一部分并輸出到合成單元150。相應地,合成單元150變得能夠把基于音樂播 放歷史設置的屬性值插入到模板中包含的文本數(shù)據(jù)的預定位置。
與根據(jù)第一實施例的音樂處理單元170類似,音樂處理單元270從存儲器單元110 獲取音樂數(shù)據(jù)以播放音樂并且通過執(zhí)行諸如流分離和解碼等處理生成音頻信號。音樂處理 單元270例如可以根據(jù)用戶或系統(tǒng)指定的主題只對從音樂數(shù)據(jù)提取的一部分執(zhí)行處理。把 音樂處理單元270生成的音頻信號輸出到音頻輸出單元180。另外,在本實施例中,音樂處 理單元270把音樂播放的歷史輸出到歷史日志單元272。歷史日志單元272例如通過采用諸如硬盤和半導體存儲器等存儲介質(zhì)以參照圖8 描述的播放歷史數(shù)據(jù)HISTl和/或HIST2的形式記錄從音樂處理單元270輸入的音樂播放 歷史。隨后,歷史日志單元272根據(jù)需要把由此記載的音樂播放歷史輸出到數(shù)據(jù)獲取單元 220。語音處理裝置200的配置使得能夠基于如下描述的第四主題輸出語音。[4-2.主題的示例](第四主題個人倒計時)圖18是示出了屬于第四主題的模板和時刻數(shù)據(jù)的示例的說明圖。參照圖18,多對 模板和時刻數(shù)據(jù)(即,對1、對2、...)與具有主題ID為“主題4”且主題名稱為“個人倒計 時”數(shù)據(jù)項的主題數(shù)據(jù)TH4相關(guān)聯(lián)。對1包含模板TP7和時刻數(shù)據(jù)TM7。模板TP7包含文本數(shù)據(jù)“本周播放 $ {FREQUENCY}次,$ {ARTIST}的 $ {TITLE} ! ”。此處,文本數(shù)據(jù)中的 “$ {FREQUENCY} ” 例如 是表示基于音樂播放歷史設置的音樂屬性值中要插入上周音樂播放次數(shù)的位置的符號。例 如,這一播放次數(shù)包含在圖8的播放歷史數(shù)據(jù)HIST2中。另外,作為與模板TP7對應的時刻 數(shù)據(jù)TM7的各個數(shù)據(jù)值,類型為“符尾和弦”、基準為“開頭”、偏移量為“-10000”。另外,對2包含模板TP8和時刻數(shù)據(jù)TM8。模板TP8包含文本數(shù)據(jù)“連續(xù) $ {DURATION}周第${P_RANKING}位,你最喜愛的音樂$ {TITLE} ”。此處,文本數(shù)據(jù)中的 “$ {DURATION}”例如是表示基于音樂播放歷史設置的音樂屬性值中要插入表示音樂在排名 的同一序數(shù)位置中停留了多少周的數(shù)值的位置的符號。文本數(shù)據(jù)中的“${P_RANKING}”例 如是表示基于音樂播放歷史設置的音樂屬性值中要插入音樂在播放數(shù)量排名上的序數(shù)位 置的位置的符號。另外,作為與模板TP8對應的時刻數(shù)據(jù)TM8的各個數(shù)據(jù)值,類型為“符尾 和弦”、基準為“結(jié)尾”、偏移量為“+2000”。圖19是示出了與第四主題對應的語音的示例的說明圖。參照圖19,基于圖18的模板TP7合成語音V7 “本周播放八次,A7的T7 ! ”。另 外,基于時刻數(shù)據(jù)TM7確定語音V7的輸出時間點在音樂進行數(shù)據(jù)所表示的符尾和弦的時間 段的開頭之前十秒處。相應地,緊鄰演奏符尾和弦之前輸出每個用戶或每個語音處理裝置 100的關(guān)于播放數(shù)量排名的倒計時狀的語音“本周播放八次,A7的T7 ! ”。類似地,基于圖18的模板TP8合成語音V8“連續(xù)三周第一位,你最喜愛的音樂T7”。 另外,基于時刻數(shù)據(jù)TM8確定語音V8的輸出時間點在音樂進行數(shù)據(jù)所表示的符尾和弦的時 間段的結(jié)尾之后兩秒處。相應地,緊鄰符尾和弦結(jié)束之后輸出關(guān)于播放數(shù)量排名的倒計時 狀的語音“連續(xù)三周第一位,你最喜愛的音樂T7”。在本實施例中,音樂處理單元270也可以提取并向音頻輸出單元180輸出包含符 尾和弦的音樂的一部分,而不是把整個音樂輸出到音頻輸出單元180。在此情形中,可以根 據(jù)音樂處理單元270所提取的部分移動時刻確定單元130確定的語音輸出時間點。
[4-3.第二實施例的結(jié)論]至此,參照圖17至圖19對根據(jù)本發(fā)明第二實施例的語音處理裝置200進行了描 述。根據(jù)本實施例,也通過采用定義音樂進行中一個或更多個時間點或者一個或更多個時 間段的屬性的音樂進行數(shù)據(jù)動態(tài)地確定要在音樂播放期間輸出語音的輸出時間點。然后, 在音樂播放期間輸出的語音內(nèi)容可以包含基于音樂播放歷史設置的屬性值。相應地,增進 了可以在音樂進行中各個時間點輸出各種語音。另外,采用以上第四主題(“個人倒計時”),可以為用戶或系統(tǒng)播放的音樂進行關(guān) 于播放數(shù)量排名的倒計時狀的音樂介紹。相應地,由于當播放傾向不同時向具有同樣音樂 組的用戶提供不同的語音,因此預期進一步提高用戶要體驗的娛樂特性。<5.對第三實施例的描述〉在描述為本發(fā)明的第三實施例的示例中,通過采用第二實施例的歷史日志單元 272記錄的音樂播放歷史通過多個用戶(或多個裝置)之間的合作增進要輸出的各種語音。[5-1.語音處理裝置的配置示例]圖20是示出了根據(jù)本發(fā)明的第三實施例的語音處理裝置300的概要的示意圖。圖 20示出了語音處理裝置300a、語音處理裝置300b、網(wǎng)絡102和外部數(shù)據(jù)庫104。語音處理裝置300a和300b能夠經(jīng)由網(wǎng)絡102相互通信。語音處理裝置300a和 300b是本實施例的語音處理裝置的示例,可以是信息處理裝置、數(shù)字家用電器、車輛導航設 備等,與根據(jù)第一實施例的語音處理裝置100類似。下面,把語音處理裝置300a和300b統(tǒng) 稱為語音處理裝置300。圖21是示出了根據(jù)本實施例的語音處理裝置300的配置的示例的框圖。如圖21 中所示,語音處理裝置300包括存儲器單元110、數(shù)據(jù)獲取單元320、時刻確定單元130、合成 單元150、音樂處理單元370、歷史日志單元272、推薦單元374和音頻輸出單元180。與根據(jù)第二實施例的數(shù)據(jù)獲取單元220類似,數(shù)據(jù)獲取單元320從存儲器單元 110、外部數(shù)據(jù)庫104或歷史日志單元272獲取時刻確定單元130或合成單元150要使用的 數(shù)據(jù)。另外,在本實施例中,當輸入用以唯一地標識后述推薦單元374所推薦音樂的音樂ID 時,數(shù)據(jù)獲取單元320從外部數(shù)據(jù)庫104等獲取與音樂ID相關(guān)的屬性數(shù)據(jù)并輸出到合成單 元150。相應地,合成單元150變得能夠?qū)⑴c推薦音樂相關(guān)的屬性值插入到模板中包含的文 本數(shù)據(jù)的預定位置。與根據(jù)第二實施例的音樂處理單元270類似,音樂處理單元370從存儲器單元110 獲取音樂數(shù)據(jù)以播放音樂并通過執(zhí)行諸如流分離和解碼等處理生成音頻信號。另外,音樂 處理單元370把音樂播放歷史輸出到歷史日志單元272。另外,在本實施例中,當推薦單元 374推薦音樂時,音樂處理單元370例如從存儲器單元110(或者未示出的其他源)獲取所 推薦音樂的音樂數(shù)據(jù)并執(zhí)行諸如生成以上音頻信號等處理。推薦單元374基于歷史日志單元272記錄的音樂播放歷史確定要向語音處理裝置 300的用戶推薦的音樂并把唯一地指定該音樂的音樂ID輸出到數(shù)據(jù)獲取單元320和音樂 處理單元370。例如,推薦單元374可以把歷史日志單元272記錄的音樂播放歷史中播放 數(shù)量大的音樂的藝術(shù)家的其他音樂確定為要推薦的音樂。另外,例如,推薦單元374可以通 過與其他語音處理裝置300交換音樂播放歷史并采用諸如基于內(nèi)容過濾(CBF)和協(xié)同過濾 (CF)等方法確定要推薦的音樂。另外,推薦單元374可以經(jīng)由網(wǎng)絡102獲取新音樂的信息并把新音樂確定為要推薦的音樂。另外,推薦單元374可以經(jīng)由網(wǎng)絡102將自身的歷史日 志單元272記錄的播放歷史數(shù)據(jù)或者被推薦音樂的音樂ID發(fā)送到其他語音處理裝置300。語音處理裝置300的配置使得能夠基于下面描述的第五主題輸出語音。[5-2.主題的示例](第五主題推薦)圖22是示出了屬于第五主題的模板和時刻數(shù)據(jù)的示例的說明圖。參照圖22,多對 模板和時刻數(shù)據(jù)(即,對1、對2、對3...)與具有主題ID為“主題5”且主題名稱為“推薦” 數(shù)據(jù)項的主題數(shù)據(jù)TH5相關(guān)聯(lián)。對1包含模板TP9和時刻數(shù)據(jù)TM9。模板TP9包含文本數(shù)據(jù)“為常常收聽$ {P_M0ST_ PLAYED}的你推薦 ${R_ARTIST}的 $ {R_TITLE} ”。此處,文本數(shù)據(jù)中的“$ {P_M0ST_PLAYED},, 例如是表示要插入歷史日志單元272記錄的音樂播放歷史中播放次數(shù)最大的音樂標題的 位置的符號?!? {R_TITLE} ”和“$ {R_ARTIST} ”是分別表示插入推薦單元374所推薦音樂的 標題和藝術(shù)家姓名的位置的符號。另外,作為與模板TP9對應的時刻數(shù)據(jù)TM9的各個數(shù)據(jù) 值,類型為“第一 A調(diào)”、基準為“開頭”、偏移量為“-10000”。另外,對2包含模板TPlO和時刻數(shù)據(jù)TM10。模板TPlO包含文本數(shù)據(jù)“你朋友的排 名第 $ {F_RANKING}位,$ {R_ARTIST}的 $ {R_TITLE} ”。此處,文本數(shù)據(jù)中的“$ {F_RANKING} ” 是表示推薦單元374從其它語音處理裝置300接收的音樂播放歷史中插入表示推薦單元 374所推薦音樂的序數(shù)位置的數(shù)值的位置的符號。另外,對3包含模板TPll和時刻數(shù)據(jù)TM11。模板TPll包含文本數(shù)據(jù)“將在 $ {RELEASE_DATE}發(fā)行 $ {R_ARTIST}的 $ {R_TITLE} ”。此處,文本數(shù)據(jù)中的"$ {RELEASE, DATE}”例如是表示要插入推薦單元374所推薦音樂的發(fā)行日期的位置的符號。圖23是示出了與第五主題對應的語音的示例的說明圖。參照圖23,基于圖22的模板TP9合成語音V9“為常常收聽T9的你推薦A9的T9+”。 另外,基于時刻數(shù)據(jù)TM9確定語音V9的輸出時間點在音樂進行數(shù)據(jù)所表示的第一 A調(diào)的時 間段的開頭之前十秒處。相應地,緊鄰演奏音樂的第一 A調(diào)之前輸出用以介紹所推薦音樂 的語音V9。類似地,基于圖22的模板TPlO合成語音VlO“你朋友的排名第一位,AlO的T10”。 也確定語音VlO的輸出時間點在音樂進行數(shù)據(jù)所表示的第一A調(diào)的時間段的開頭之前十秒 處。類似地,基于圖22的模板TPll合成語音Vll “將在9月1日發(fā)行All的T11”。 也確定語音Vll的輸出時間點在音樂進行數(shù)據(jù)所表示的第一A調(diào)的時間段的開頭之前十秒 處。在本實施例中,音樂處理單元370可以提取并向音頻輸出單元180輸出僅包含從 第一 A調(diào)直到第一符尾和弦(即,有時稱為音樂的“第一和弦”)為止的音樂的一部分,而不 是將整個音樂輸出到音頻輸出單元180。[4-3.第三實施例的結(jié)論]至此,參照圖20至圖23對根據(jù)本發(fā)明的第三實施例的語音處理裝置300進行了 描述。根據(jù)本實施例,也通過采用定義音樂進行中一個或更多個時間點或者一個或更多個 時間段的屬性的音樂進行數(shù)據(jù)動態(tài)地確定要在音樂播放期間輸出語音的輸出時間點。然后,在音樂播放期間輸出的語音內(nèi)容可以包含與基于音樂收聽者(收聽用戶)或者與收聽 者不同的用戶的播放歷史數(shù)據(jù)所推薦的音樂相關(guān)的屬性值。相應地,可以通過連同對音樂 的介紹一起播放與采用普通播放列表要播放的音樂不同的未預見到的音樂進一步提高用 戶的體驗質(zhì)量,諸如促進遇到新的音樂等。此處,本說明書中描述的語音處理裝置100、200、或者300可以實施為例如具有圖 24中所示的硬件配置的裝置。在圖24中,CPU 902控制硬件的整體操作。只讀存儲器(ROM)904存儲描述一系 列處理的一部分或全部的程序或數(shù)據(jù)。隨機存取存儲器(RAM)906暫時存儲CPU 902在執(zhí) 行處理期間要使用的程序、數(shù)據(jù)等。CPU 902、ROM 904和RAM 906經(jīng)由總線910相互連接??偩€910還連接到輸入/ 輸出接口 912。輸入/輸出接口 912是將CPU 902、ROM 904和RAM 906連接到輸入設備 920、音頻輸出設備922、存儲設備924、通信設備926和驅(qū)動器930的接口。輸入設備920經(jīng)由諸如按鈕、開關(guān)、控制桿、鼠標和鍵盤等用戶接口從用戶接收指 令和信息的輸入(例如,主題指定)。音頻輸出設備922例如對應于揚聲器等并用于音樂播 放和語音輸出。存儲設備924例如由硬盤、半導體存儲器等構(gòu)建并存儲程序和各種數(shù)據(jù)。通信設 備926支持經(jīng)由網(wǎng)絡與外部數(shù)據(jù)庫104或其他設備的通信處理。例如根據(jù)需要布置驅(qū)動器 930并且可以把可移除介質(zhì)932裝配到驅(qū)動器930。本領域的技術(shù)人員應當理解,根據(jù)設計要求和其它因素,可以進行各種修改、組 合、子組合和改變,只要這些修改、組合、子組合和改變在所附權(quán)利要求或其等價內(nèi)容的范 圍內(nèi)。例如,不一定按照流程圖中描述的次序執(zhí)行參照圖11描述的語音處理。各個處理 步驟可以包括同時或單獨執(zhí)行的處理。本申請包含與2009年8月21日提交于日本專利局的日本在先專利申請JP 2009-192399中公開的主題相關(guān)的主題,所述日本在先專利申請JP2009-192399全部內(nèi)容 通過引用合并于此。
19
權(quán)利要求
1. 一種語音處理裝置,包括數(shù)據(jù)獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的特性的音樂進行數(shù)據(jù);確定單元,用于通過采用所述數(shù)據(jù)獲取單元獲取的音樂進行數(shù)據(jù)確定要在播放音樂期 間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在所述確定單元確定的所述輸出時間點輸出語音°
2.根據(jù)權(quán)利要求1所述的語音處理裝置,其中,所述數(shù)據(jù)獲取單元還獲取時刻數(shù)據(jù),所述時刻數(shù)據(jù)用于定義與特性由所述音樂 進行數(shù)據(jù)定義的一個或更多個時間點或者一個或更多個時間段中的任何一個相關(guān)聯(lián)的語 音的輸出時刻,以及所述確定單元通過采用所述音樂進行數(shù)據(jù)和所述時刻數(shù)據(jù)確定所述輸出時間點。
3.根據(jù)權(quán)利要求2所述的語音處理裝置,其中,所述數(shù)據(jù)獲取單元還獲取定義語音內(nèi)容的模板,以及 所述語音處理裝置還包括合成單元,用于通過采用所述數(shù)據(jù)獲取單元獲取的模板合成語音。
4.根據(jù)權(quán)利要求3所述的語音處理裝置,其中,所述模板包含以文本格式描述所述語音內(nèi)容的文本數(shù)據(jù),以及 所述文本數(shù)據(jù)具有表示要插入音樂的屬性值的位置的特定符號。
5.根據(jù)權(quán)利要求4所述的語音處理裝置,其中,所述數(shù)據(jù)獲取單元還獲取表示音樂的屬性值的屬性數(shù)據(jù),以及 所述合成單元在根據(jù)所述數(shù)據(jù)獲取單元獲取的屬性數(shù)據(jù)在由所述特定符號所表示的 位置插入音樂的屬性值之后采用所述模板中包含的文本數(shù)據(jù)合成語音。
6.根據(jù)權(quán)利要求3所述的語音處理裝置,還包括存儲器單元,用于存儲被定義為分別與音樂播放相關(guān)的多個主題中的任何一個主題相 關(guān)聯(lián)的多個模板,其中,所述數(shù)據(jù)獲取單元從所述存儲器單元所存儲的多個模板中獲取與指定主題對應 的一個或更多個模板。
7.根據(jù)權(quán)利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入音樂的標題或藝術(shù)家姓名作為屬性值的文本數(shù)據(jù)。
8.根據(jù)權(quán)利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入與音樂的排名相關(guān)的屬性值的文本數(shù)據(jù)。
9.根據(jù)權(quán)利要求4所述的語音處理裝置,還包括 歷史日志單元,用于記錄音樂播放的歷史,其中,至少一個所述模板包含被插入基于所述歷史日志單元記錄的歷史設置的屬性值 的文本數(shù)據(jù)。
10.根據(jù)權(quán)利要求4所述的語音處理裝置,其中,至少一個所述模板包含被插入基于音樂收聽者或者與收聽者不同的用戶的音樂播放歷史設置的屬性值的文本數(shù)據(jù)。
11.根據(jù)權(quán)利要求1所述的語音處理裝置,其中,所述音樂進行數(shù)據(jù)定義的一個或更多個時間點或者一個或更多個時間段的特性 包含在所述時間點或時間段處演唱的存在、旋律的類型、節(jié)拍的存在、音符的類型、音調(diào)的 類型以及演奏樂器的類型的至少一個。
12.—種采用語音處理裝置的語音處理方法,包括如下步驟從布置在語音處理裝置內(nèi)部或外部的存儲介質(zhì)獲取定義音樂進行中一個或更多個時 間點或者一個或更多個時間段的特性的音樂進行數(shù)據(jù);通過采用所獲取的音樂進行數(shù)據(jù)確定要在播放音樂期間輸出語音的輸出時間點;并且 在播放音樂期間在所確定的輸出時間點輸出語音。
13.一種程序,用于使得用于控制語音處理裝置的計算機用作數(shù)據(jù)獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間 段的特性的音樂進行數(shù)據(jù);確定單元,用于通過采用所述數(shù)據(jù)獲取單元獲取的音樂進行數(shù)據(jù)確定要在播放音樂期 間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在所述確定單元確定的輸出時間點輸出語音。
全文摘要
本發(fā)明提供了一種語音處理裝置、語音處理方法和程序,所述語音處理裝置包括數(shù)據(jù)獲取單元,用于獲取定義音樂進行中一個或更多個時間點或者一個或更多個時間段的特性的音樂進行數(shù)據(jù);確定單元,用于通過采用數(shù)據(jù)獲取單元獲取的音樂進行數(shù)據(jù)確定要在播放音樂期間輸出語音的輸出時間點;以及音頻輸出單元,用于在播放音樂期間在確定單元確定的輸出時間點輸出語音。
文檔編號G10L13/04GK101996627SQ20101025475
公開日2011年3月30日 申請日期2010年8月13日 優(yōu)先權(quán)日2009年8月21日
發(fā)明者宮下健, 梨子田辰志, 池田哲男 申請人:索尼公司