專利名稱:向用戶通知媒體內(nèi)容項(xiàng)目的類別的數(shù)據(jù)處理設(shè)備和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種向用戶通知媒體內(nèi)容項(xiàng)目的類別的方法,并且涉及一種能夠根據(jù)該方法運(yùn)作的設(shè)備。本發(fā)明還涉及包括向用戶通知媒體內(nèi)容項(xiàng)目的類別的可聽信號的音頻數(shù)據(jù)、包括多條所述音頻數(shù)據(jù)的數(shù)據(jù)庫以及一種計(jì)算機(jī)程序產(chǎn)品。
背景技術(shù):
WO0184539A1公開了一種響應(yīng)于用戶命令輸入而向用戶提供聽覺反饋的消費(fèi)電子系統(tǒng)。該系統(tǒng)以預(yù)先錄制的話音或者以合成話音念出被選擇重放的媒體內(nèi)容的藝術(shù)家的姓名以及歌曲或?qū)]嫷臉?biāo)題。所述合成話音使用文本-語音引擎通過揚(yáng)聲器把單詞從計(jì)算機(jī)文檔轉(zhuǎn)換成可聽的語音。
所述已知系統(tǒng)的缺點(diǎn)在于,對于用戶來說,所述可聽語音的再現(xiàn)不令人滿意。所述聽覺反饋被呈現(xiàn)給用戶的方式?jīng)]有什么吸引力。
發(fā)明內(nèi)容
本發(fā)明的其中一個(gè)目的是改進(jìn)所述系統(tǒng),從而以具有吸引力的方式向用戶呈現(xiàn)聽覺信息。
本發(fā)明的方法包括以下步驟-識別媒體內(nèi)容項(xiàng)目的類別;以及-使得用戶能夠獲得具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)的可聽信號。
舉例來說,特定的電視節(jié)目屬于電影類型。電視節(jié)目的類型是根據(jù)EPG(電子節(jié)目指南)數(shù)據(jù)確定的。EPG數(shù)據(jù)與電視節(jié)目一起被提供到電視機(jī)。該電視節(jié)目(即電影)的標(biāo)題被可聽地呈現(xiàn)給用戶。電視機(jī)產(chǎn)生具有至少一個(gè)音頻參數(shù)的所述可聽信號,該音頻參數(shù)例如是時(shí)間特征或者(例如一個(gè)著名演員的話音的)音高(pitch),用戶把該音頻參數(shù)與該電影類別相關(guān)聯(lián)。用戶甚至可能還沒有看過具有上述標(biāo)題的該部電影,但是該標(biāo)題被再現(xiàn)的方式暗示用戶該部電影可能是特定類型的電影。
從WO0184539A1獲知的所述系統(tǒng)所產(chǎn)生的可聽語音對于不同的信息項(xiàng)目在用戶聽來都是類似的。因此,每當(dāng)該已知系統(tǒng)向用戶通知有關(guān)某電視節(jié)目的信息時(shí),該系統(tǒng)聽起來都是一樣的。
本發(fā)明的一個(gè)優(yōu)點(diǎn)在于,甚至在沒有與可聽信號一起明確地念出媒體內(nèi)容項(xiàng)目的類別的情況下,被呈現(xiàn)給用戶的該可聽信號也使得用戶能夠知曉該媒體內(nèi)容項(xiàng)目的類別。例如當(dāng)僅僅呈現(xiàn)所述媒體內(nèi)容項(xiàng)目的標(biāo)題時(shí),用戶可以理解該項(xiàng)目的類別。舉例來說,所述可聽信號可能不包括像“電影”或“新聞”之類的一些單詞,這是因?yàn)榧词箾]有關(guān)于類別的這種明確信息,所述類別對用戶來說也是顯而易見的。因此,本發(fā)明能夠比現(xiàn)有技術(shù)更加高效地向用戶通知所述類別。
本發(fā)明可以用在向用戶推薦媒體內(nèi)容項(xiàng)目的推薦器系統(tǒng)中,或者可以用在使得用戶能夠?yàn)g覽媒體內(nèi)容的媒體內(nèi)容瀏覽器系統(tǒng)中。
在本發(fā)明的一個(gè)實(shí)施例中,所述媒體內(nèi)容項(xiàng)目與兩個(gè)或多個(gè)類別相關(guān)聯(lián)。例如,一部電影與動作類型和喜劇類型相關(guān)聯(lián),但是該部電影中的動作場景比喜劇場景更多。因此,對于該部電影來說,動作類型居主導(dǎo)地位。利用具有與動作類型相關(guān)聯(lián)的音頻參數(shù)的可聽信號把該部電影推薦給用戶。
本發(fā)明的一個(gè)目的的實(shí)現(xiàn)方式在于,用于向用戶通知媒體內(nèi)容項(xiàng)目的類別的所述數(shù)據(jù)處理設(shè)備包括一個(gè)數(shù)據(jù)處理器,該數(shù)據(jù)處理器被配置成執(zhí)行以下操作-識別該媒體內(nèi)容項(xiàng)目的類別;以及-使得用戶能夠獲得具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)的可聽信號。
所述設(shè)備被設(shè)計(jì)成根據(jù)本發(fā)明的方法的各步驟運(yùn)作。
根據(jù)本發(fā)明,音頻數(shù)據(jù)包括一個(gè)可聽信號,當(dāng)所述可聽信號被呈現(xiàn)給用戶時(shí)該可聽信號向用戶通知媒體內(nèi)容項(xiàng)目的類別,該可聽信號具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)。
下面將參照附圖以舉例的方式更加詳細(xì)地描述本發(fā)明的這些和其他方面圖1是根據(jù)本發(fā)明的設(shè)備的一個(gè)實(shí)施例的功能方框圖,其中獲得具有與所述類別相關(guān)聯(lián)的音頻參數(shù)的至少一個(gè)音頻樣本;圖2是根據(jù)本發(fā)明的設(shè)備的一個(gè)實(shí)施例的功能方框圖,其中獲得由與所述類別相關(guān)聯(lián)的特定人物說出的至少一個(gè)音頻樣本;圖3是根據(jù)本發(fā)明的設(shè)備的一個(gè)實(shí)施例的功能方框圖,其中通過使用與所述類別相關(guān)聯(lián)的音頻參數(shù)來組合并修改所述可聽信號;圖4示出了對應(yīng)于女性英語話音、女性法語話音和男性德語話音的(歸一化)音高偏差的一個(gè)例子;圖5表示對音頻樣本的時(shí)間標(biāo)度修改,以便增大該音頻樣本的時(shí)間長度,同時(shí)保留(大部分)音高特性;圖6示出了本發(fā)明的方法的實(shí)施例。
在所有附圖中,相同的附圖標(biāo)記表示相同的或相應(yīng)的組件。
具體實(shí)施例方式
圖1是本發(fā)明的一個(gè)實(shí)施例的方框圖。該圖示出了EPG(電子節(jié)目指南)數(shù)據(jù)的EPG來源111以及信息的因特網(wǎng)來源112。
該EPG來源111例如是電視廣播商(未示出),其發(fā)送包括EPG數(shù)據(jù)的電視信號?;蛘?,該EPG來源是通過因特網(wǎng)與其他設(shè)備通信(例如使用互聯(lián)網(wǎng)協(xié)議(IP))的計(jì)算機(jī)服務(wù)器(未示出)。例如,該電視廣播商在該計(jì)算機(jī)服務(wù)器上存儲對應(yīng)于一個(gè)或多個(gè)電視頻道的EPG數(shù)據(jù)。
該因特網(wǎng)來源112存儲與特定媒體內(nèi)容項(xiàng)目的類別相關(guān)的因特網(wǎng)信息。例如,該因特網(wǎng)來源是一個(gè)web服務(wù)器(未示出),其存儲具有關(guān)于該特定媒體內(nèi)容項(xiàng)目的評論文章的web頁面,并且該評論文章討論該媒體內(nèi)容項(xiàng)目的類型。
所述EPG來源111和/或因特網(wǎng)來源112被配置成與數(shù)據(jù)處理設(shè)備150通信。該數(shù)據(jù)處理設(shè)備從該EPG來源或該因特網(wǎng)來源接收EPG數(shù)據(jù)或因特網(wǎng)信息,以便識別媒體內(nèi)容項(xiàng)目的類別。
媒體內(nèi)容項(xiàng)目可以是音頻內(nèi)容項(xiàng)目、視頻內(nèi)容項(xiàng)目、電視節(jié)目、屏幕上的菜單項(xiàng)目、例如與媒體內(nèi)容相關(guān)的按鈕的UI單元、電視節(jié)目概要、由媒體內(nèi)容推薦器給出的該媒體內(nèi)容項(xiàng)目的評分值等等。
所述媒體內(nèi)容項(xiàng)目可以包括視覺信息、音頻信息、文本等等的至少其中之一或者其任意組合。表述“音頻數(shù)據(jù)”或“音頻內(nèi)容”在下文中被用作與音頻相關(guān)的數(shù)據(jù),所述音頻包括可聽音調(diào)、沉默、語音、音樂、寧靜、外部噪聲等等。表述“視頻數(shù)據(jù)”或“視頻內(nèi)容”被用作可見的數(shù)據(jù),比如電影、“靜止畫面”、視頻文本等等。
所述數(shù)據(jù)處理設(shè)備150被配置成使得用戶能夠獲得與媒體內(nèi)容項(xiàng)目的類別相關(guān)的可聽信號。舉例來說,該數(shù)據(jù)處理設(shè)備被實(shí)現(xiàn)在一個(gè)音頻播放器中,該音頻播放器具有觸摸屏以用來顯示音樂類型的菜單。用戶可以從該菜單選擇想要的音樂類型,比如“古典”、“搖滾”、“爵士”等等。當(dāng)用戶按下?lián)u滾菜單項(xiàng)目,該音頻播放器再現(xiàn)一個(gè)聽起來像是典型的搖滾樂的可聽信號。在另一個(gè)例子中,所述數(shù)據(jù)處理設(shè)備被實(shí)現(xiàn)在一臺電視機(jī)中,該電視機(jī)具有用于顯示電視節(jié)目類型的菜單的顯示器。用戶可以從該菜單中選擇想要的電視節(jié)目類型,比如“電影”、“體育”、“新聞”等等。所述選擇可以通過按下用于控制該菜單的遙控器上的上/下按鈕來進(jìn)行。當(dāng)用戶選擇新聞菜單項(xiàng)目時(shí),該電視機(jī)再現(xiàn)一個(gè)聽起來像是電視新聞廣播的可聽信號。
所述數(shù)據(jù)處理設(shè)備150可以包括存儲器裝置151,其例如是已知的RAM(隨機(jī)存取存儲器)存儲器模塊。該存儲器裝置可以存儲一個(gè)類別表,該類別表包括一個(gè)或多個(gè)媒體內(nèi)容類別。在下表中示出該類別表的一個(gè)例子。
表
數(shù)據(jù)處理設(shè)備150可以被配置成在選擇媒體內(nèi)容項(xiàng)目時(shí)根據(jù)所接收的EPG數(shù)據(jù)或因特網(wǎng)信息來識別該媒體內(nèi)容項(xiàng)目的類別。該媒體內(nèi)容項(xiàng)目的類別可以由存儲在存儲器裝置151中的類別數(shù)據(jù)152指示。
在某些情況下,媒體內(nèi)容項(xiàng)目的類別可以從該媒體內(nèi)容項(xiàng)目本身明顯得出,例如,上述搖滾菜單項(xiàng)目的類別顯然是“搖滾”,因此沒有必要使用所述EPG數(shù)據(jù)或因特網(wǎng)信息。
作為一個(gè)例子,所述媒體內(nèi)容項(xiàng)目是一個(gè)電視節(jié)目。對于電視節(jié)目的類別的識別取決于由數(shù)據(jù)處理設(shè)備150接收到的EPG數(shù)據(jù)的格式。該EPG數(shù)據(jù)典型地存儲電視頻道、廣播時(shí)間等等,并且可能還存儲該電視節(jié)目的類別的指示。例如,所述EPG數(shù)據(jù)按照PSIP(節(jié)目和系統(tǒng)信息協(xié)議)標(biāo)準(zhǔn)被格式化。該P(yáng)SIP是用于在DTV(數(shù)字電視)傳輸流內(nèi)傳送所需要的基本信息的ATSC(高級電視系統(tǒng)委員會)標(biāo)準(zhǔn)。PSIP的兩個(gè)基本目標(biāo)是向解碼器提供基本調(diào)諧信息以便幫助解析并解碼所述流內(nèi)的各種服務(wù),以及提供對接收機(jī)的電子節(jié)目指南(EPG)顯示發(fā)生器進(jìn)行饋送所需的信息。所述PSIP數(shù)據(jù)通過分級設(shè)置的表的集合來傳送。根據(jù)該標(biāo)準(zhǔn),還存在一個(gè)在基礎(chǔ)PID(0x1FFB)處定義的所謂的定向頻道改變表(DCCT)。在該DCCT中,類型類別(dcc_selection_type=0x07,0x08,0x17,0x18)被用來確定由電視廣播商發(fā)送的電視節(jié)目的類別。
也可以使用其他的用于識別媒體內(nèi)容項(xiàng)目的類別的技術(shù)。例如,數(shù)據(jù)處理設(shè)備150在EPG數(shù)據(jù)中檢測出所述電視節(jié)目的類別被表示為“悲劇”,并且把該類別“悲劇”與存儲器裝置151的類別表進(jìn)行比較。該類別“悲劇”未被存儲在所述類別表中。然而,數(shù)據(jù)處理設(shè)備150可以使用任何已知的啟發(fā)式分析來確定從EPG數(shù)據(jù)中提取出的該類別“悲劇”與存儲在存儲器裝置151中的類別“戲劇”相關(guān)。例如,可以設(shè)想通過使用在“Pattern Classification(模式分類)”(R.O.Duda、P.E.Hart、D.G.Stork,第二版,Wiley Interscience,2001年)一書中描述的視聽內(nèi)容分析來比較從具有類別“悲劇”的媒體內(nèi)容項(xiàng)目中提取出的音頻/視頻模式。如果從具有類別“悲劇”的媒體內(nèi)容項(xiàng)目中提取出的所述模式與對應(yīng)于類別“戲劇”的預(yù)定音頻/視頻模式(例如存儲在所述類別表中)相匹配或者與之相關(guān),則確定類別“悲劇”等同于類別“戲劇”。
除了類別數(shù)據(jù)152之外,設(shè)備150的存儲器裝置151在所述類別表中存儲至少一個(gè)音頻參數(shù)153。該類別表中的特定類別對應(yīng)于相應(yīng)的至少一個(gè)音頻參數(shù)。
例如,所述音頻參數(shù)是音頻內(nèi)容的語音速率。其確定在所述可聽信號中的所說出的單詞(音素)的速度。舉例來說,所述語音速率近似地具有以下值非常慢-每分鐘80個(gè)單詞,慢-120個(gè)單詞,中等(默認(rèn))-180到200個(gè)單詞,快-300個(gè)單詞,非???500個(gè)單詞(見上頁的表格)。
在另一個(gè)例子中,所述音頻參數(shù)是指代所述可聽信號的話音的發(fā)聲頻率的音高。在語音分析的領(lǐng)域中,表述“音高”和“基頻”通??梢曰Q使用。在技術(shù)方面,周期性的(諧波)音頻信號的基頻是音高周期長度的倒數(shù),反過來,該音高周期是音頻信號的最小重復(fù)單位。很顯然,兒童或者女性的話音(例如175-256Hz)比起男性話音(例如100-150Hz)具有更高的音高。男性話音的平均頻率可能在120Hz左右,而女性話音的平均頻率則在210Hz左右。音高的可能值及其頻率(以赫茲計(jì))可以被表達(dá)為非常低、低、中等、高以及非常高(對于男性和女性話音有所不同),這與語音速率類似。
音高范圍允許設(shè)置話音的音調(diào)變化(variation in inflection)。該音高范圍可以被用作所述音頻參數(shù)。如果選擇了高音調(diào)范圍,則以非常活潑的話音說出單詞。低音高范圍可以被用來使得所述可聽信號聽起來相當(dāng)平淡。因此,所述音高范圍為所述可聽信號給出了某種生氣(或者反之亦然)。該音高范圍可以被表示為在所述平均話音周圍變化0-100Hz的普通男性或女性話音的音高值。恒定的音高(不管其值如何)對應(yīng)于重復(fù)的音調(diào)。因此,確定話音的動態(tài)(“生氣”)的不僅僅是音高范圍,而且還有在該范圍內(nèi)的音高變化程度(例如通過標(biāo)準(zhǔn)偏差進(jìn)行測量)。舉例來說,新聞?lì)悇e可以與傳達(dá)“嚴(yán)肅”消息的音高范圍相關(guān)聯(lián),例如中等或稍為單調(diào)的話音(120Hz的男性話音加/減40Hz)。
在本發(fā)明的一個(gè)實(shí)施例中,所述音頻參數(shù)關(guān)于在所述可聽信號中使用的語言具有不同的值。作為所述音頻參數(shù)的一個(gè)例子,圖4示出了(標(biāo)準(zhǔn)化)音高偏差計(jì)算的一個(gè)例子,其對于女性英語話音是0.219,對于女性法語話音是-0.149,對于男性德語話音是-0.229。在圖4中,音高是以語音樣本(經(jīng)縮放)測量的,這與通常以赫茲進(jìn)行的測量相反。
在圖4中繪制出的音高輪廓涉及為所述實(shí)驗(yàn)提供的語音樣本。其僅僅是實(shí)例,并且不能被一般化為代表整個(gè)語言。圖4示出了女性和男性音高之間的自然差異。所述音高值是通過使用一種音高估計(jì)算法獲得的,該音高估計(jì)算法類似于在“Speech Coding and Synthesis(語音編碼與合成)”(W.B.Kleijn、K.K.Paliwal(編輯),1995年,Elsevier Science B.V.,荷蘭)一書的第14章“A robust Algorithm forPitch Tracking(一種用于音高跟蹤的魯棒算法)”中所描述的算法。
在圖4中,音高非零的位置對應(yīng)于“發(fā)聲語音”(聽起來像是“a”、“e”等等的元音),并且0值部分對應(yīng)于“不發(fā)聲語音”(聽起來像是“f”、“s”、“h”等等的元音)以及沉默。存儲器裝置151可以存儲與語言相關(guān)的類別表。
所述音樂類型(例如“音樂爵士”)可以具有例如下列各項(xiàng)的音頻參數(shù)媒體內(nèi)容項(xiàng)目中的聲樂-男低音(40-900)、聲樂-男高音(130-1300)、聲樂-女低音(175-1760)、聲樂-女高音(220-2100)的數(shù)量。
所述類別表僅僅是確定對應(yīng)于所述類別數(shù)據(jù)的一個(gè)或多個(gè)音頻參數(shù)的一個(gè)例子。以其他方式從所述類別數(shù)據(jù)確定音頻參數(shù)也是可能的。例如,數(shù)據(jù)處理設(shè)備150通過因特網(wǎng)把所述類別數(shù)據(jù)152發(fā)送到(遠(yuǎn)程)第三方服務(wù)提供商,并且從該第三方服務(wù)提供商接收一個(gè)或多個(gè)參數(shù)。
或者,所述設(shè)備150可以包括用戶輸入裝置(未示出),所述用戶輸入裝置使得用戶能夠關(guān)于媒體內(nèi)容項(xiàng)目的類別來指定所述音頻參數(shù)。所述用戶輸入(即音頻參數(shù))還可以被存儲在存儲器裝置151內(nèi)的類別表中。所述用戶輸入裝置可以是鍵盤(例如公知的QWERTY計(jì)算機(jī)鍵盤)、指示設(shè)備、電視遙控器等等。舉例來說,所述指示設(shè)備可以以多種形式獲得,比如計(jì)算機(jī)(無線)鼠標(biāo)、光筆、觸摸板、操縱桿、軌跡球等等。通過從電視遙控器(未示出)發(fā)送的紅外信號把所述輸入提供給所述設(shè)備150。
數(shù)據(jù)處理設(shè)備150還可以包括媒體內(nèi)容分析器154(還被稱作“內(nèi)容分析器”),該分析器例如通過衛(wèi)星、地面、有線電視或其他鏈路耦合到(遠(yuǎn)程)媒體內(nèi)容源161和/或162。該媒體內(nèi)容源可以是由電視廣播站發(fā)送的廣播電視信號161,或者可以是用于存儲各種媒體內(nèi)容的媒體內(nèi)容數(shù)據(jù)庫162。
所述媒體內(nèi)容可以以任何格式被存儲在不同數(shù)據(jù)載體上的數(shù)據(jù)庫162中,所述數(shù)據(jù)載體例如是音頻或視頻磁帶、光學(xué)存儲盤(例如CD-ROM盤(光盤只讀存儲器)或DVD盤(數(shù)字通用盤))、軟盤和硬盤等等,所述格式例如是MPEG(運(yùn)動畫面專家組)、MIDI(樂器數(shù)字接口)、Shockwave、QuickTime、WAV(波形音頻)等等。作為一個(gè)例子,所述媒體內(nèi)容數(shù)據(jù)庫162包括以下各項(xiàng)的至少其中之一計(jì)算機(jī)硬盤驅(qū)動器,通用閃存卡(例如“記憶棒”設(shè)備)等等。
一個(gè)或多個(gè)音頻參數(shù)被從存儲器裝置153提供到內(nèi)容分析器154。通過使用所述一個(gè)或多個(gè)音頻參數(shù)153,該內(nèi)容分析器154從來自媒體內(nèi)容源161或162的可用于該分析器的媒體內(nèi)容中提取出一個(gè)或多個(gè)音頻樣本,所述音頻樣本具有所需要的一個(gè)或多個(gè)音頻參數(shù)153。
可以按照在Yao Wang、Zhu Liu和Jin-Cheng Huang的文章“MultimediaContent Analysis Using both Audio and Video Clues(使用音頻和視頻提示來進(jìn)行多媒體內(nèi)容分析)”(IEEE Signal ProcessingMagazine,IEEE Inc.,New York,NY,第12-36頁,第17卷,第6期,2000年11月)中所描述的那樣來確定所述可用媒體內(nèi)容的音頻參數(shù)(不必與音頻參數(shù)153一致)。所述可用媒體內(nèi)容被分段。提取出表征各片段的兩個(gè)級別的音頻參數(shù)短期幀級別以及長期剪輯級別。所述幀級別音頻參數(shù)可以是對短期自相關(guān)函數(shù)和平均幅度差函數(shù)、過零率以及頻譜特征的估計(jì)(例如,音高是從一幀的傅立葉變換系數(shù)的幅度的周期性結(jié)構(gòu)確定的)。所述剪輯級別音頻參數(shù)可以基于音量、音高或者頻率。
內(nèi)容分析器154把所述可用媒體內(nèi)容的音頻參數(shù)與從存儲器裝置151獲得的音頻參數(shù)153進(jìn)行比較。如果發(fā)現(xiàn)匹配,則從所述可用媒體內(nèi)容中獲得具有所需的一個(gè)或多個(gè)音頻參數(shù)153的一個(gè)或多個(gè)音頻樣本。
在本發(fā)明的一個(gè)實(shí)施例中,內(nèi)容分析器154還被配置成識別所述可用媒體內(nèi)容的音頻樣本中的(說出的)單詞,這例如是通過在“TheDigital Signal Processing Handbook(數(shù)字信號處理手冊)”(Vijay K.Madisetti、Douglas B.Williams,CRC Press LLC,1998年)一書的第47章“speech recognition by machine(機(jī)器語音識別)”中所描述的模式匹配技術(shù)。如果該內(nèi)容分析器在所述音頻樣本中識別出一個(gè)或多個(gè)目標(biāo)單詞,則該音頻樣本被包括在向用戶通知媒體內(nèi)容項(xiàng)目的類別的可聽信號中,其中期望把所述目標(biāo)單詞包括在所述可聽信號中。
原則上,對于獲得具有與特定類別相關(guān)聯(lián)的音頻參數(shù)的一個(gè)或多個(gè)音頻樣本的目的來說,確定所述音頻參數(shù)并不是強(qiáng)制性的。舉例來說,可以從存儲預(yù)先記錄的音頻樣本的數(shù)據(jù)庫(未示出)中取回這種音頻樣本。所述音頻樣本可以在指示特定媒體內(nèi)容類別的請求下被從數(shù)據(jù)庫取回?;蛘撸梢栽谥甘咎囟ㄒ纛l參數(shù)的請求下從數(shù)據(jù)庫取回所述音頻樣本。在一個(gè)實(shí)施例中,所取回的音頻樣本可以被本地存儲(例如存儲在高速緩沖存儲器中),即存儲在數(shù)據(jù)處理設(shè)備150的存儲器裝置151中,從而如果需要的話從本地存儲器裝置中獲得所述音頻樣本,而不是再次從遠(yuǎn)程數(shù)據(jù)庫取回所述音頻樣本。
內(nèi)容分析器154可以被耦合到可聽信號組合器155(還被稱作“組合器”),以用于組合具有依據(jù)媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)153的可聽信號156。
如果媒體內(nèi)容分析器154獲得多于一個(gè)音頻樣本,則組合器155可以被設(shè)置成把各音頻樣本“粘合(glue)”在一起,以便組合所述可聽信號156。例如,在作為分開的單詞的音頻樣本之間插入一個(gè)暫停。如果所述音頻樣本包括單詞,則所述單詞被說出的語言確定是否應(yīng)用在Vijay K.Madisetti等人的書中的第46.2章節(jié)中描述的各種技術(shù)(例如重讀技術(shù)、單詞發(fā)音技術(shù)以及語調(diào)措詞技術(shù))來修改所述音頻樣本。例如,在西班牙語或芬蘭語中需要較少的單詞處理。
如果在所述可聽信號156中只包括一個(gè)音頻樣本,則可能不需要數(shù)據(jù)處理設(shè)備150的組合器155對該音頻樣本執(zhí)行任何處理技術(shù)(例如重讀技術(shù))。
所述設(shè)備150可以被配置成把可聽信號156輸出到揚(yáng)聲器170,以便把該可聽信號再現(xiàn)給用戶?;蛘?,該設(shè)備150可以被配置成通過計(jì)算機(jī)網(wǎng)絡(luò)180(例如因特網(wǎng))把包括該可聽信號的音頻數(shù)據(jù)(未示出)發(fā)送到與因特網(wǎng)相連接的接收方設(shè)備(未示出)或(遠(yuǎn)程)揚(yáng)聲器170。一般來說,不需要通過耦合到數(shù)據(jù)處理設(shè)備150的揚(yáng)聲器170把所述可聽信號156再現(xiàn)給用戶,相反,該設(shè)備150可以僅僅獲得該可聽信號156,并且該設(shè)備150本身可以不被設(shè)計(jì)成再現(xiàn)該可聽信號156。舉例來說,該數(shù)據(jù)處理設(shè)備是一個(gè)聯(lián)網(wǎng)的計(jì)算機(jī)服務(wù)器(未示出),其用于通過組合可聽信號156并且將其提供給各客戶端設(shè)備(未示出)來為所述客戶端設(shè)備提供服務(wù)。
圖2是本發(fā)明的一個(gè)實(shí)施例的方框圖。所述設(shè)備150具有存儲器裝置151,以用于把類別數(shù)據(jù)152存儲在類別表(未示出)中。與圖1所示的音頻參數(shù)153不同,該類別表存儲人物數(shù)據(jù)153a。所述人物數(shù)據(jù)例如是一個(gè)藝術(shù)家或者一個(gè)著名演員的姓名,其中用戶將該藝術(shù)家或該著名演員與特定的媒體內(nèi)容類別相關(guān)聯(lián)。該人物數(shù)據(jù)還可以包括該藝術(shù)家或演員的圖像或者話音特性。在另一個(gè)例子中,該人物數(shù)據(jù)包括一個(gè)家族的一個(gè)成員的姓名以及該成員的圖像或者話音特性。
在一個(gè)實(shí)施例中,所述設(shè)備150包括用戶輸入裝置(未示出),所述用戶輸入裝置使得用戶能夠輸入所述演員或藝術(shù)家的姓名并且能夠指示將與該姓名相關(guān)聯(lián)的媒體內(nèi)容類別。所述用戶輸入還可以被存儲在存儲器裝置151中的類別表內(nèi)。
媒體內(nèi)容分析器154從存儲器裝置151獲得人物數(shù)據(jù)153a,以便獲得具有在該人物數(shù)據(jù)152中指示的特定人物的語音的一個(gè)或多個(gè)音頻樣本。
舉例來說,內(nèi)容分析器154通過檢測其中示出了所述人物的視頻幀來分析從媒體內(nèi)容源161或162獲得的電視節(jié)目。所述檢測可以通過使用來自人物數(shù)據(jù)152的圖像來進(jìn)行。在檢測到多個(gè)視頻幀之后,該內(nèi)容分析器可以進(jìn)一步確定帶有與該視頻幀相關(guān)的人物的話音的所述一個(gè)或多個(gè)音頻樣本。因此獲得了由與所述媒體內(nèi)容類別相關(guān)聯(lián)的所述人物說出的一個(gè)或多個(gè)音頻樣本。
內(nèi)容分析器154可以被配置成利用在“Video Content AnalysisUsing Multimodal Information(使用多模式信息的視頻內(nèi)容分析)”(Ying Li、C.-C.Jay Kuo,2003年,Kluwer Academic PublishersGroup)一書中描述的任何一種多媒體內(nèi)容分析方法從媒體內(nèi)容中分離出帶有所述人物(目標(biāo)說話者)的各個(gè)鏡頭和視頻場景,其中所述媒體內(nèi)容可以從媒體內(nèi)容源161或162獲得。通過使用各種內(nèi)容分析方法(例如從“Pattern Classification(模式分類)”(R.O.Duda、P.E.Hart、D.G.Stork,第二版,Wiley Interscience,2001年)一書中獲知的模式識別技術(shù)),可以構(gòu)造并且訓(xùn)練一個(gè)數(shù)學(xué)模型,以便識別所述藝術(shù)家的話音或面部??梢詮囊蛱鼐W(wǎng)或者以另一種方式獲得所述藝術(shù)家的話音或面部。對于人物的識別可以得到所述類別數(shù)據(jù)的幫助。
內(nèi)容分析器154可以使用從“The Digital Signal ProcessingHandbook(數(shù)字信號處理手冊)”(Vijay K.Madisetti、Douglas B.Williams,CRC Press LLC,1998年)一書的第48章獲知的語音識別和說話者驗(yàn)證(辨認(rèn))方法來自動地識別媒體內(nèi)容(例如媒體內(nèi)容項(xiàng)目)中的人物(目標(biāo)說話者)的面部和語音。
可選地,內(nèi)容分析器154把所述一個(gè)或多個(gè)音頻樣本提供到音頻樣本修改器157(還被稱作“修改器”)以便獲得經(jīng)過修改的音頻樣本。在表示媒體內(nèi)容項(xiàng)目的類別的所述一個(gè)或多個(gè)音頻參數(shù)153的基礎(chǔ)上修改所述音頻樣本。
除了和語音信號相關(guān)的其他內(nèi)容之外,“Speech Coding andSynthesis(語音編碼與合成)”(W.B.Kleijn、K.K.Paliwal(編輯),1995年,Elsevier Science B.V.,荷蘭)一書在第15章“Time-Domainand Frequency-Domain Techniques for Prosodic Modification ofSpeech(用于語音的韻律修改的時(shí)域和頻域技術(shù))”中尤其描述了對語音的時(shí)間和音高標(biāo)度修改。該時(shí)間和語音取決于一個(gè)或多個(gè)音頻參數(shù)153。舉例來說,對語音的時(shí)間標(biāo)度修改意味著加快語音的說話速率,同時(shí)保持說話者的話音的所有特性(例如音高)。對語音的音高標(biāo)度修改意味著改變音高(例如使單詞聽起來更高亢或者更低沉),同時(shí)保持語音的速度。在圖5中示出了通過重疊相加(overlap-add)進(jìn)行的時(shí)間標(biāo)度修改的一個(gè)例子。以速率Sa從原始語音(即將被修改的音頻樣本)(頂部)取得幀X0,X1,…并且以更慢的速率Ss(>Sa)重復(fù)之。通過一個(gè)對稱窗口的兩個(gè)相反側(cè)翼對重疊的部分進(jìn)行加權(quán)并且把它們相加在一起。因此獲得了原始語音的更長的版本,同時(shí)其形狀得到保留。可以對包括完整單詞的音頻樣本應(yīng)用該時(shí)間標(biāo)度修改。
在本發(fā)明的一個(gè)實(shí)施例中,修改器157被省卻,這是因?yàn)橛脩舭颜f出所述音頻樣本的人物與所述媒體內(nèi)容項(xiàng)目的類別相關(guān)聯(lián),因此不需要對所述音頻樣本進(jìn)行修改。例如按照Yao Wang等人所描述的那樣,內(nèi)容分析器154被設(shè)置成從由所述人物說出的音頻樣本確定一個(gè)或多個(gè)音頻參數(shù),并且把與相應(yīng)的類別數(shù)據(jù)152相關(guān)的所述一個(gè)或多個(gè)音頻參數(shù)存儲在存儲器裝置151中的類別表內(nèi)。
由內(nèi)容分析器154獲得的所述一個(gè)或多個(gè)音頻樣本或者可選地由修改器157獲得的經(jīng)過修改的一個(gè)或多個(gè)音頻樣本被提供到組合器155,以用于產(chǎn)生所述可聽信號156。
圖3示出了本發(fā)明的數(shù)據(jù)處理設(shè)備150的一個(gè)實(shí)施例。該設(shè)備150具有存儲器裝置151,其用于存儲類別數(shù)據(jù)152和相應(yīng)的一個(gè)或多個(gè)音頻參數(shù)153。
所述設(shè)備150包括一個(gè)語音合成器158,其用于合成其中說出了文本數(shù)據(jù)158a的語音信號。例如,該文本數(shù)據(jù)可以是電視節(jié)目(媒體內(nèi)容項(xiàng)目)的概要。該文本數(shù)據(jù)可以是與所述媒體內(nèi)容類別相關(guān)的菜單項(xiàng)目的標(biāo)題(例如,搖滾菜單項(xiàng)目的文本數(shù)據(jù)是“搖滾”)。
舉例來說,語音合成器158被配置成利用了特別在“The DigitalSignal Processing Handbook(數(shù)字信號處理手冊)”(Vijay K.Madisetti、Douglas B.Williams,CRC Press LLC,1998年)一書的第46.3章節(jié)中描述的文本-語音合成方法(見圖46.1)。
語音合成器158耦合到修改器157,以便在所述一個(gè)或多個(gè)音頻參數(shù)153的基礎(chǔ)上修改所述語音信號。例如,修改器157按照在VijayK.Madisetti等人的該書的第46.2章節(jié)中描述的那樣在短片段(例如20ms)的級別上修改該語音信號。該修改器還可以在完整單詞的級別上修改該語音信號,這例如是通過應(yīng)用在圖5中示出的、或者在W.B.Kleijn的該書的第15章“Time-Domain and Frequency-DomainTechniques for Prosodic Modification of Speech(用于語音的韻律修改的時(shí)域和頻域技術(shù))”中描述的時(shí)間標(biāo)度修改。
語音合成器158可以產(chǎn)生說出所期望的文本數(shù)據(jù)158a的音頻樣本。由修改器157修改的音頻樣本被提供到組合器155,以便形成具有包括文本數(shù)據(jù)158a的一個(gè)或多個(gè)短語的可聽信號156。結(jié)果,如果用戶希望所述可聽信號對于類別“視頻電影動作”包括短語“Congratulations,Reg’,it’s a…squid”,則例如在該可聽信號中由來自電影“Men in Black(黑衣人)”的演員說出該短語,以便向用戶通知該部電影的類別“動作”。
數(shù)據(jù)處理設(shè)備150可以包括一個(gè)數(shù)據(jù)處理器,該數(shù)據(jù)處理器被配置成按照上面參照圖1到5所描述的那樣運(yùn)作。該數(shù)據(jù)處理器可以是公知的中央處理單元(CPU),其被適當(dāng)?shù)卦O(shè)置成實(shí)施本發(fā)明并且允許所述設(shè)備150的操作。該設(shè)備150可以附加地包括一個(gè)計(jì)算機(jī)程序存儲器單元(未示出),其例如是已知的RAM(隨機(jī)存取存儲器)存儲器模塊。該數(shù)據(jù)處理器可以被設(shè)置成從該存儲器單元讀取至少一條指令,以便允許該設(shè)備150運(yùn)作。
所述各設(shè)備可以是多種消費(fèi)電子設(shè)備當(dāng)中的任何一種,所述消費(fèi)電子設(shè)備例如是具有有線電視、衛(wèi)星或其他鏈路的電視機(jī)、錄像帶或HDD錄像機(jī)、家庭影院系統(tǒng)、CD播放器、諸如I-Pronto遙控器的遙控設(shè)備、蜂窩電話等等。
圖6示出了本發(fā)明的方法的一個(gè)實(shí)施例。
在步驟610中,例如從EPG來源111或者因特網(wǎng)來源112識別所述媒體內(nèi)容項(xiàng)目的類別,從而獲得類別數(shù)據(jù)152。
在該方法的第一實(shí)施例中,在步驟620a中獲得與所述媒體內(nèi)容項(xiàng)目的類別相關(guān)聯(lián)的至少一個(gè)音頻參數(shù)153。數(shù)據(jù)處理設(shè)備150的制造商可以與相應(yīng)的類別數(shù)據(jù)152一起提供一個(gè)或多個(gè)音頻參數(shù)153?;蛘?,存儲器裝置151可以被設(shè)置成例如通過因特網(wǎng)自動從另一個(gè)遠(yuǎn)程數(shù)據(jù)處理設(shè)備(或遠(yuǎn)程服務(wù)器)下載所述一個(gè)或多個(gè)音頻參數(shù),該另一個(gè)遠(yuǎn)程數(shù)據(jù)處理設(shè)備存儲由另一個(gè)用戶設(shè)置的音頻參數(shù)和相關(guān)聯(lián)的類別。在另一個(gè)例子中,所述數(shù)據(jù)處理設(shè)備包括用戶輸入裝置(未示出),以用來更新存儲在存儲器裝置151中的類別表。
在步驟620b中,例如通過使用上面參照圖1所描述的媒體內(nèi)容分析器154,從所述媒體內(nèi)容項(xiàng)目或者其他媒體內(nèi)容中獲得具有所述至少一個(gè)音頻參數(shù)的所述一個(gè)或多個(gè)音頻樣本。
在步驟650中,例如使用可聽信號組合器155從一個(gè)或多個(gè)音頻樣本產(chǎn)生所述可聽信號。
在該方法的第二實(shí)施例中,例如通過使用存儲在圖2中所示的存儲器裝置151中的所述類別表,在步驟630a中獲得與所述類別數(shù)據(jù)152相關(guān)聯(lián)的人物數(shù)據(jù)153a。
在步驟630b中,例如通過使用上面參照圖2所描述的媒體內(nèi)容分析器154,從所述媒體內(nèi)容項(xiàng)目或者其他媒體內(nèi)容中獲得由所期望的人物說出的一個(gè)或多個(gè)音頻樣本。
可選地,在步驟630c中獲得與所述類別152相關(guān)的至少一個(gè)音頻參數(shù)153,并且例如通過使用圖2中所示的修改器157,在步驟630d中利用該至少一個(gè)音頻參數(shù)修改在步驟630b中獲得的一個(gè)或多個(gè)音頻樣本。
在步驟630b中獲得的所述至少一個(gè)音頻樣本、或者可選地在步驟630d中獲得的所述至少一個(gè)經(jīng)過修改的音頻樣本被用來在步驟650中組合所述可聽信號,這例如是通過使用所述媒體內(nèi)容組合器155實(shí)現(xiàn)的。
在該方法的第三實(shí)施例中,例如通過使用所述存儲器裝置151,在步驟640a中獲得與所述類別相關(guān)聯(lián)的至少一個(gè)音頻參數(shù)。在步驟640b中,語音合成器158被用來合成所述語音信號,其中在該語音信號中說出了所述文本數(shù)據(jù)158a。
在步驟640c中,使用在步驟640a中獲得的所述至少一個(gè)音頻參數(shù)來修改該語音信號。在步驟650中,所述可聽信號組合器155可以被用于從所述經(jīng)過修改的語音信號獲得所述可聽信號。
步驟620a到620b可以描述圖1所示的數(shù)據(jù)處理設(shè)備的操作,步驟630a到630d可以描述圖2所示的數(shù)據(jù)處理設(shè)備,步驟640a到640c可以描述圖3所示的數(shù)據(jù)處理設(shè)備。
在本發(fā)明的發(fā)明性思想的范圍內(nèi),所描述的實(shí)施例的變型和修改是有可能的。
所述處理器可以執(zhí)行一個(gè)軟件程序,以便允許執(zhí)行本發(fā)明的方法的各步驟。所述軟件可以使本發(fā)明的設(shè)備獨(dú)立于其運(yùn)行環(huán)境。為了啟用所述設(shè)備,所述處理器可以例如把所述軟件程序發(fā)送到其他(外部)設(shè)備。當(dāng)制造或者利用所述軟件以便在消費(fèi)電子產(chǎn)品上運(yùn)行時(shí),所附獨(dú)立方法權(quán)利要求和計(jì)算機(jī)程序產(chǎn)品權(quán)利要求可以被用來保護(hù)本發(fā)明??梢岳矛F(xiàn)有技術(shù)(例如藍(lán)牙、802.11[a-g]等等)把所述外部設(shè)備連接到所述處理器。該處理器可以根據(jù)UPnP(通用即插即用)標(biāo)準(zhǔn)與該外部設(shè)備交互。
“計(jì)算機(jī)程序”應(yīng)被理解成意味著被存儲在計(jì)算機(jī)可讀介質(zhì)(例如軟盤)上的、可以通過網(wǎng)絡(luò)(例如因特網(wǎng))下載的、或者可以以任何其他方式買到的任何軟件產(chǎn)品。
多種程序產(chǎn)品可以實(shí)施本發(fā)明的系統(tǒng)和方法的功能,并且可以以若干方式與硬件相組合或者可以位于不同設(shè)備中。本發(fā)明可以借助于包括若干不同元件的硬件來實(shí)現(xiàn),或者可以借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉若干裝置的設(shè)備權(quán)利要求中,這些裝置當(dāng)中的幾項(xiàng)可以通過同一硬件項(xiàng)來具體實(shí)現(xiàn)。
“包括”一詞并不排除在權(quán)利要求中列出的那些元件或步驟之外的其他元件或步驟的存在。在權(quán)利要求書中,置于括號之間的任何附圖標(biāo)記不應(yīng)被解釋成限制該權(quán)利要求。所有的細(xì)節(jié)都可以用其他技術(shù)上等效的元件來替換。
權(quán)利要求
1.一種向用戶通知媒體內(nèi)容項(xiàng)目的類別(152)的方法,該方法包括以下步驟-(610)識別該媒體內(nèi)容項(xiàng)目的類別;以及-(650)使得用戶能夠獲得具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)(153)的可聽信號(156)。
2.權(quán)利要求1的方法,還包括-獲得具有與所述類別相關(guān)聯(lián)的所述音頻參數(shù)的媒體內(nèi)容的至少一個(gè)音頻樣本的步驟(620b);-從所述至少一個(gè)音頻樣本組合所述可聽信號的步驟(650)。
3.權(quán)利要求2的方法,其中,所述至少一個(gè)音頻樣本由特定人物(153a)說出。
4.權(quán)利要求1的方法,還包括-獲得由與所述類別相關(guān)聯(lián)的特定人物(153a)說出的媒體內(nèi)容的至少一個(gè)音頻樣本的步驟(630b)。
5.權(quán)利要求4的方法,還包括-在所述音頻參數(shù)的基礎(chǔ)上修改所述至少一個(gè)音頻樣本以便獲得所述可聽信號的步驟(630d)。
6.權(quán)利要求4的方法,還包括通過分析由所述特定人物說出的所述至少一個(gè)音頻樣本來確定所述音頻參數(shù)的步驟。
7.權(quán)利要求2到6當(dāng)中的任意一項(xiàng)的方法,其中,所述至少一個(gè)音頻樣本是從所述媒體內(nèi)容項(xiàng)目中獲得的。
8.權(quán)利要求1的方法,還包括使用所述音頻參數(shù)來合成所述可聽信號的步驟(640c)。
9.權(quán)利要求1到8當(dāng)中的任意一項(xiàng)的方法,其中,在所述可聽信號中說出特定的文本(158a)。
10.權(quán)利要求1的方法,其中,所述類別是依據(jù)類型分類法的視頻內(nèi)容或音頻內(nèi)容的分類。
11.權(quán)利要求1的方法,其中,所述媒體內(nèi)容項(xiàng)目與多于一個(gè)類別相關(guān)聯(lián),并且根據(jù)該媒體內(nèi)容項(xiàng)目的各類別中居主導(dǎo)地位的一個(gè)類別來獲得所述可聽信號。
12.權(quán)利要求1的方法,其中,利用所述可聽信號,通過推薦器裝置來向用戶推薦所述媒體內(nèi)容項(xiàng)目。
13.權(quán)利要求9的方法,其中,所述特定文本是-從EPG數(shù)據(jù)獲得的電視節(jié)目概要;或者-從EPG數(shù)據(jù)獲得的所述媒體內(nèi)容項(xiàng)目的類別名稱。
14.權(quán)利要求1的方法,其中,所述方法使得用戶能夠使用用戶輸入裝置來輸入關(guān)于所述媒體內(nèi)容項(xiàng)目的類別的所述音頻參數(shù)。
15.一種用于向用戶通知媒體內(nèi)容項(xiàng)目的類別(152)的數(shù)據(jù)處理設(shè)備,該設(shè)備包括數(shù)據(jù)處理器(150),該數(shù)據(jù)處理器被配置成執(zhí)行以下操作-識別該媒體內(nèi)容項(xiàng)目的類別;以及-使得用戶能夠獲得具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)(153)的可聽信號(156)。
16.包括可聽信號(156)的音頻數(shù)據(jù),當(dāng)所述可聽信號被呈現(xiàn)給用戶時(shí)該可聽信號向用戶通知媒體內(nèi)容項(xiàng)目的類別(152),該可聽信號具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)(153)。
17.一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)可編程設(shè)備執(zhí)行所述計(jì)算機(jī)程序產(chǎn)品時(shí),該計(jì)算機(jī)程序產(chǎn)品使得該可編程設(shè)備能夠按照如權(quán)利要求15所述的設(shè)備那樣運(yùn)作。
18.一種包括多條如權(quán)利要求16所述的音頻數(shù)據(jù)的數(shù)據(jù)庫,其中,對應(yīng)的一條音頻數(shù)據(jù)具有與對應(yīng)的媒體內(nèi)容類別相關(guān)聯(lián)的所述音頻參數(shù)。
全文摘要
本發(fā)明涉及一種向用戶通知媒體內(nèi)容項(xiàng)目的類別(152)的方法。該方法包括以下步驟識別該媒體內(nèi)容項(xiàng)目的類別;以及使得用戶能夠獲得具有依據(jù)該媒體內(nèi)容項(xiàng)目的類別的音頻參數(shù)(153)的可聽信號(156)。本發(fā)明還涉及一種能夠根據(jù)所述方法運(yùn)作的設(shè)備。本發(fā)明還涉及包括向用戶通知媒體內(nèi)容項(xiàng)目的類別的可聽信號的音頻數(shù)據(jù)、包括多條所述音頻數(shù)據(jù)的數(shù)據(jù)庫以及一種計(jì)算機(jī)程序產(chǎn)品。在一個(gè)推薦器系統(tǒng)中,當(dāng)與該推薦器系統(tǒng)的用戶交互涉及特定類型的媒體內(nèi)容項(xiàng)目時(shí),所述可聽信號可以由該推薦器系統(tǒng)再現(xiàn)。本發(fā)明可以用在EPG用戶界面中。
文檔編號G10L13/04GK101044549SQ200580035689
公開日2007年9月26日 申請日期2005年10月10日 優(yōu)先權(quán)日2004年10月18日
發(fā)明者D·布拉澤羅維, D·P·凱利 申請人:皇家飛利浦電子股份有限公司