專利名稱:取決于內容信息語義學的話音指令的制作方法
技術領域:
本發(fā)明涉及話音控制,特別是用于通過消費者電子學(CE)設備播出內容信息的話音控制。
話音控制的設備可從所有在此引用以參考的文獻中已知,例如,美國專利4,506,377;美國專利4,558,459;美國專利4,856,072;美國專利5,255,326;美國專利5,950,166。美國專利5,255,326特別指出將一種使用與微處理器相連的聲音信號處理器的交互式聲頻系統(tǒng)作為交互式聲頻控制系統(tǒng)。作為立體聲揚聲器并同樣作為接收麥克風運行的一對收發(fā)信機與信號處理器相連用于接收來自主要用戶的話音指令。話音指令被處理以運行各種各樣不同的裝置,例如電視機,磁帶,收音機或CD唱機,將信號提供給處理器,隨后來自處理器的信號被提供給收發(fā)信機的揚聲器產生所希望的聲音。附加的紅外傳感器可用于持續(xù)不斷地對主要聽眾的位置進行三角測量以將信號經由收發(fā)信機系統(tǒng)返回給處理器,用于持續(xù)不斷地調整聲音的平衡以將聲音的“甜點(sweet spot)”保持聚焦在主要聽眾上。附加的裝置同樣可由信號處理器控制以響應與存儲的指令相匹配的話音指令,從信號處理器產生輸出,按照口頭的話音指令運行這些其它的裝置。該系統(tǒng)能夠響應話音指令同時從由該系統(tǒng)運行的任一聲源中再現立體聲音。
語音識別是一種技術,其中的各個方面在所有在此引用以參考的文獻中被討論,例如美國專利5,987,409;美國專利5,946,655;美國專利5,613,034;美國專利5,228,110;和美國專利5,995,930。
各種裝置或應用中已知的語音控制和話音控制受限于捆綁在設備上的一套固定的指令。發(fā)明者已認識到,如果話音指令或若干話音指令與將被播出的信息內容鏈接,而不是與裝置或平臺鏈接,可話音控制設備的用戶友誼,以及在可話音控制設備在運行使用過程中的人機工程方面得到提高。即發(fā)明者相信,CE設備的控制應是以內容為中心的,而不是以裝置為中心的。
因此,在本發(fā)明的一個方面中提議,將語音指令與例如CD,DVD或固態(tài)存儲器的數據載體中或上的內容信息結合起來。這些指令優(yōu)選滿足內容信息語義學的要求。例如,如果內容信息包括音頻,例如一批歌曲,通過說出歌曲的歌名或歌曲的抒情部分可以實現選擇這些歌曲中特定的一首或多首。特殊的元數據被加入CD的內容中使得該特征成為可能。該元數據是由裝置或應用的話音控制器所要求詞匯的典型的,但不是必須的一種表示,以使對于特別的CD和其上的樂曲的話音控制成為可能。另一方面或補充地,用戶可以哼出或(試圖)唱出所希望的一首樂曲的一部分以選擇它用于播出。在這種意義上,見在此引用以參考的,Mark Hoffberg在99年10月5日申請的美國專利5,963,957,題目為具有標準化的樂曲主題的文獻目錄樂曲數據庫(BIBLIOGRAPHIC MUSIC DATA BASE WITH NORMALIZEDMUSICAL THEMES)(代理人文檔號PHA 23,241)。該后者專利涉及包括一樂曲數據庫的信息處理系統(tǒng)。樂曲數據庫存儲樂音音符的同音基準序列。該基準序列被全部標準化至相同的音階度使得它們可被字典編輯式地存儲。當經由N元查詢在一串輸入的樂音音符和一特別的基準序列之間找到匹配時,系統(tǒng)提供與匹配的基準序列相關的文獻目錄信息。該系統(tǒng)可同樣用于將由用戶哼出的輸出經N元查詢轉換為播放指令。
在沒有其它措施的情況下,例如當正在播出一首歌曲時,系統(tǒng)的音頻輸出可能引起語音控制處理的不希望的激活。例如通過按壓例如飛利浦電器(Philips Electronics)的通用可編程遙控器,Pronto(商標),遙控器上的激活按鈕以激活語音指令接收,經由回波相消,或通過使設備記錄用戶做出的特定的手勢,等,該不希望的激活可被防止。如果內容信息包括視頻,關鍵場景用若干關鍵字標記使得說出那些字設定從相關場景的開始處播出?;蚪浻脩粼捯糨斎肱c關鍵字的一對一映射,或經用戶話音輸入與內容關鍵字標記和它們的同義詞的加標目錄表的語義學映射,視頻內容的關鍵字分布可用于辯別一定的場景。優(yōu)選地,例如通過使用一定的固定指令或其部分指令例如前綴,防止出現不希望的激活。類似地,通過使處理將語音輸入與所顯示的或將被顯示的圖示對象的可控特征結合,使用圖示的交互型軟件應用,例如虛擬現實或視頻游戲,成為可語音控制的。例如,通過讓用戶說出符合語義學條件的適當的單詞,由例如一化身的圖示對象將實現的動作成為可語音控制的或可語音選擇的。這適合于允許多種控制模型的視頻游戲(例如,經由控制桿的雙手動輸入和語音輸入),以及用于教授另一種語言或用于教授兒童對于例如有形的物體或動作的一定的概念的適當單詞和表達的教育程序。語音被轉換為被處理的數據以便辨別所打算的適當動作。這可經由例如將語音數據與預先確定的查找表中的項目進行語義學匹配并找到最相近匹配的候選者來實現。語音輸入與所打算動作間的結合可借助注意到用戶歷史成為可訓練的。
本發(fā)明的另一方面中,當內容從網上下載和/或播出后并被局部存儲時,語音指令是從該內容派生出來的。例如,抒情部分中的關鍵字作為與它們相稱的一段音頻相關地被辨別并存儲。這可通過專用的軟件應用實現。在第一次播出音頻內容的過程中,例如通過將話音部分與裝置部分分離并分析前者,或者數字數據被分析或者可聽的抒情部分被分析。由此創(chuàng)建的語音指令可被附加地或替代地用作滿足特定內容的基本組。
在本發(fā)明的又一方面中,用戶能夠從與特定內容信息相稱的并將被存儲在用戶設備的網上下載預先存在的或定制的指令以與用于能夠話音控制的信息內容在語義學上有關。由此,用戶可以使得他/她的被認為是家用網絡資源的電子內容信息的家用文庫成為全部語音驅動的。例如,用戶在他/她的投幣式自動電唱機和/或硬盤上有一批CD,DVD。如果內容涉及公共可得的音頻或視頻,服務供應者可事先為每段內容創(chuàng)建注釋文庫,并且用戶可以下載與他/她的收藏有關的那些單元。CD或DVD的注釋可被捆綁于唱片標識符以及其片段上。例如,由用戶說出的唱片集的名稱與依次能夠檢索并選擇投幣式自動電唱機中的CD或DVD的一定的標識符相鏈接。歌曲或場景的名稱可與CD或DVD兩者的標識符鏈接并與有關的關鍵結構鏈接。隨后用戶說出項目“電影”和“汽車追逐”并依次獲得可得到的在其中具有涉及汽車追逐場景的電影。
在本發(fā)明的又一方面中,語音指令與作為存在于,例如作為由服務供應者提供的廣播的,電子程序指南(electronic program guideEPG)中的內容鏈接。此外,語音界面能夠選擇匹配用戶所說單詞的特定程序或匹配用戶所說單詞的程序類別。
在本發(fā)明的又一方面中,由用戶說出的指令經例如用戶服務器或網上服務器的服務器處理,并反向發(fā)送到能夠網上起動的播出設備作為指令。服務器有可得到的內容的目錄以及為內容語義學表示的單詞的字典。能夠網上起動的設備,例如經由CD或DVD的標識符代碼,或經由文件的首標,為服務器辨別內容,由此對于該內容的語音指令容易地經例如一查找表與用于控制的指示相匹配。
話音控制能夠例如選擇一段內容信息用于播出,或用于存儲或用于快速向前直到一停止,等。同樣,事先用關鍵字書簽標識的內容可在話音控制下被瀏覽用于檢索在關鍵字水平上與話音輸入匹配的一定的摘錄。
本發(fā)明的另一方面提議,將內容信息從一存儲媒體例如CD或DVD復制到另一存儲媒體上。第一存儲媒體包括內容信息和如上解釋的使話音控制成為可能的控制信息。優(yōu)選,用于話音控制的信息是復制保護的,其結果是副本不具有控制指令。這被認為是一種支持內容信息工業(yè)的特征。如果消費者想要得到話音控制的版本的完整副本,他或她可以通過由至CD編號或DVD編號的鏈路辨別,從互聯網上的服務器按一定的價格下載話音控制信息。這樣的優(yōu)點在于即使價格僅是象征性的,作者的權利也得到確認。于是,這一特征對保護內容信息是作者或他/她的受讓人的知識產權的認識有貢獻。
在此引用作為參考的是Mark Hoffberg和Eugene Shteyn在99年7月1日申請的美國序列號09/345,339(代理人文檔號PHA23,700)題目為內容驅動的語音或音頻瀏覽器(CONTENT-DRIVEN SPEECH-OR AUDIO-BROWSER)。該專利資料涉及搜索互聯網以找到提供例如現場互聯網廣播的可流的(streamable)音頻的資源。這些資源基于它們的文件外延被辯別并按照例如自然語言或樂曲風格被分類。用戶能夠瀏覽基于文本或樂曲輸入的收藏。
在此使用的表達“話音指令”意味著指出一種可由一個或多個關鍵字組成的話音控制輸入,但它同樣可包括更冗長的語言表達。
參照附圖并借助實例,進一步詳細說明本發(fā)明,其中
圖1和2為本發(fā)明中系統(tǒng)的方框圖。
本發(fā)明考慮到裝置或軟件應用的話音控制,特別是那些使用預先錄制在存儲媒體上的內容的話音控制。話音指令的使用語義學上涉及,與其相關或基于,存儲在存儲媒體中的內容。于是指令與媒體內容的每個樣本都不同。例如,對于具有作曲家或抒情作者X的樂曲的CD的可用指令與那些具有由作曲家和抒情作者Y作曲的樂曲的CD的指令是不同的。
對于一CD唱機,其操作如下。用戶將演奏者Daan vanSchooneveld的CD插入唱機中。CD存儲樂曲和軟件使用戶能夠經由話音控制與CD相互作用。當用戶說“Mustang Danny”時,唱機開始播放Schooneveld的CD磁跡中的一首該曲名的搖滾歌曲。當用戶說“l(fā)eaking oil”時,唱機開始播放其抒情部分有歌詞“I wept gently in therain as the gearbox was still leaking oil”的藍調歌曲。等等。一類似的控制方案應用于帶有CD驅動的一套頂盒或另一裝置的話音控制。在話音指令之間可能需要可用戶編程的延遲以分隔每首歌的指令。或者,特定的表達可用于用作每首歌曲指令之間的分隔器。例如,用戶可說“播放兩遍Mustang Danny,播放一遍漏油;”。這將被理解為歌曲“Mustang Danny”將被連續(xù)播放兩遍,隨后涉及“l(fā)eaking oil”的歌曲將被連續(xù)播放兩遍。表達“播放兩遍”和“播放一遍”用作辨別每首歌曲以及在系統(tǒng)準備接收另一話音指令之前系統(tǒng)打算如何運作的分隔器。
投幣式自動電唱機應用在PC上的話音控制說明如下。投幣式自動電唱機的應用是一種考慮到將CD內容歸檔到PC的硬盤驅動(HDD)上的軟件應用。用戶已將Jos Swillens的CD“最大的打擊(GreatestHits)”歸檔在HDD上。當用戶說“Swil,Beemer”時,投幣式自動電唱機開始播放歸檔在PC上Swillens的CD磁跡上的一首“MyBeemer fits my crewcut”。話音指令不需要僅由關鍵字組成而可以包括更冗長的語言表達。例如,用戶可以說“從Swillens的最大的沖擊開始播放,歌名有關平頭(crewcut)”,系統(tǒng)處理該話音輸入以將其與使用例如目錄表中合適的搜索算法可得的選項之一匹配。當用戶說“Swil,always be nice to your patent attorney”,投幣式自動電唱機開始播放交響樂名著“Always be nice etc.”。
用戶也將Koos Middeljans的CD“最大的打擊”歸檔在PC上。當用戶說“Koos,Sweet Dommel Valley”時,投幣式自動電唱機開始播放歸檔的CD磁跡中的一首該歌名的民歌。當用戶說“Koos,Nat theLab”,歸檔在PC上的CD Mid的“最大的打擊”的另一磁跡,投幣式自動電唱機開始播放“Nat the Lab”。當用戶說“Middeljans,最大的打擊,隨意”,投幣式自動電唱機以任意次序播放該CD的磁跡。
就版權而言的內容保護是一個敏感的問題。復制保護措施是可行的并被實施的,例如DRM(數字權利管理Digital RightsManagement)。為對此做出貢獻,作為與CD或DVD上語義學相關的內容信息一起提供的語音指令可以以這種方式執(zhí)行,即它們不能被復制到除了唱機機載存儲器的其它位置。任何至其它位置的復制將失去該特征并變得不再具有吸引力。
在另一實例中,用戶經互聯網下載同時帶有語義學相關的控制日期的內容使得以與對投幣式自動電唱機所討論的相似的方式的話音控制的選擇播出成為可能。在該實例中控制數據優(yōu)選為下載的數據的整數部分。
對于投幣式自動電唱機技術的背景,見在此引用以參考的,Pietervan der Meulen在99年6月4日申請的美國序列號09/326,506(代理人文檔號PHA 23,417)題目為虛擬投幣式自動電唱機(VIRTUALJUKEBOX)。
例如考慮到不同地理區(qū)域中語言和發(fā)音的不同,相同的內容信息可被捆綁在語音不同的話音指令組上以便于話音識別。在這種意義上,用戶優(yōu)選具有他或她想用于系統(tǒng)的話音控制的語言的選擇。對于存儲所有可能使用的語言的指令,存儲媒體的存儲容量可能太小。如果用最可能被使用的語言中的一種不能從媒體得到話音指令,播出裝置優(yōu)選能夠下載所希望的語言的等效的語音指令,藉此系統(tǒng)在運行時間將指令變成對應的說明。在互聯網上可獲得專用的服務。在這種意義上,參考Adrian Turner等人在98年9月25日申請的美國序列號09/160,490(代理人文檔號PHA 23,500)題目為基于用戶分布的互聯網起動的裝置的定制升級(CUSTOMIZED UPGRADING OFINTERNET-ENABLED DEVICES BASED ON USER-PROFILESmartConnect商標),以及Erik Ekkel等人在00年3月6日申請的美國序列號09/519,546(代理人文檔號PHA US000014)題目為借助于網起動的裝置在服務器個人化CE設備的配置(PERSONALIZING CEEQUIPMENT CONFIGURATION AT SERVER VIA WEB-ENABLED DEVICE),兩者均在此引用以參考。這些文檔討論了經互聯網提供給CE終端用戶的服務。
期望將來音頻和視頻內容在日益擴大的程度上通過互聯網提供給終端用戶。那時記錄可在家中在安全的環(huán)境下完成。本地記錄優(yōu)選允許消費者創(chuàng)建他/她自己的與內容信息的特定段語義學相關的指令組。這需要一些編輯和一優(yōu)選的幫助用戶建立內容片段,話音輸入指令和動作之間的關系或所希望的處理的特定的圖形用戶界面(GUI)。例如,如果內容信息沒有任何注釋,用戶必須確定哪些片段他/她想要作為單獨的項目控制,他/她想用哪些指令如何控制,在哪種指令下應對哪個片段應采用哪種動作。一旦創(chuàng)建,指令組可以和特定的內容一同存儲在同一文件中或用唯一的標識符與特定的內容鏈接。
在一更為復雜的系統(tǒng)中,語音錄制覆蓋任何與語音清單無關的,例如受限于詞匯子集的,或只對于標準發(fā)音之外的語音錄制的相關形式。細節(jié)上已作必要的修正,這同樣應用于任選的聲學模型(聲學參照)。語言模型可任選使用,它包括對人們如何典型地與系統(tǒng)相互作用并且說一些語句(所謂的“語言模型”)的描述,它是借助實例語句,型式或詞組,借助(隨機的)有限的正式語法,借助(隨機的)與上下文無關的語法,或另一種語法的。語言模型可只包含任何標準的通話方式的改進。至于語音理解,系統(tǒng)任選包括通過由典型地經語法給出的一定的單詞,指令,詞組,表達,應起動哪些動作的描述。系統(tǒng)可包括一對話模型,該模型包括對系統(tǒng)應如何對用戶的輸入做出反應以及系統(tǒng)如何進入對話模式的描述。例如,在特定環(huán)境下,系統(tǒng)可詢問用于澄清,或再確認一指令等等。系統(tǒng)可利用成形語音識別器的數據和其它數據間的關系。例如,系統(tǒng)有一示出用戶可以說什么以播出當前磁跡的顯示器。
優(yōu)選地,例如CD,DVD,固態(tài)(例如閃存)存儲器等的存儲媒體具有在起動過程中得到識別的并確認話音指令特征的可用性的位模式。確認可經由例如顯示器上的彈出式屏幕或經揚聲器提供的說出的預先錄制的文本傳達給用戶。
至于媒體中語音控制軟件的格式化,CD-DA具有可用于在不損失CD向后相容性的情況下添加話音控制特征的R-W通道的額外容量。引入磁跡可能不具有足夠用于各種語言版本的存儲空間,但數據可從磁盤下載至局部存儲器。在這種情況下,每種語言必須在磁盤上僅有一次。另一方面,CD ROM具有使其易于適應所需要的磁盤上的語音控制文件的文件結構。DVD同樣具有一文件結構并考慮到與CD ROM相同的解決途徑。閃存,HDD等可以相同的方式處理。
圖1為本發(fā)明中系統(tǒng)100的方框圖。系統(tǒng)100包括用于播出存儲在載體106上的內容信息104的播放裝置102。載體106包括例如CD,DVD或固態(tài)存儲器。或者,載體106包括內容信息104經互聯網或另一數據網絡已下載至其上的HDD。在這些實例中內容信息104以數字格式存儲。如對于本領域技術人員清楚的,內容信息104可同樣以模擬格式存儲。裝置102有一執(zhí)行子系統(tǒng)108使得終端用戶可以得到內容信息104。例如,如果內容信息104包括音頻,子系統(tǒng)108包括一個或多個揚聲器,而在內容信息104包括視頻信息的情況下,子系統(tǒng)108包括一顯示監(jiān)視器。
按照本發(fā)明,載體106包括與內容信息104在語義學上有關的控制信息110??刂菩畔?10使得數據處理子系統(tǒng)112能夠確定用戶經麥克風(未示出)的話音輸入114是否與控制信息中的信息項目匹配。如果存在匹配,相關的播出模式被選擇,其實例已在上面給出。如在上面音頻內容播出實例中所解釋的,由于高度的直覺對應,一方面,控制信息110以及另一方面,內容信息104之間的語義學關系便于用戶與裝置102的相互作用。優(yōu)選,經局部顯示器例如小LCD 116提供關于可得到的內容和/或所選擇的模式的視覺反饋。
載體106可以是可一次一個地插入裝置102中的元件?;蛘?,裝置102包括能夠從如載體106的多個載體(未示出)中或從即使實際上不同的載體中,例如CD和固態(tài)存儲器中選擇內容的投幣式自動電唱機功能性118。
控制信息110在此示出與內容信息104一起存儲或記錄在載體106上。CD,DVD或閃存可于是被提供具有預先錄制的話音控制應用和指令?;蛘呖刂菩畔?10與在數據處理系統(tǒng)112上運行的專用軟件應用結合用于將話音輸入114與控制信息110中可得的一個或多個項目匹配。在該后者的配置中,軟件應用經另一通道而不是控制信息提供,例如經互聯網或用于安裝裝置102的安裝軟盤提供。
話音控制本身是已知的,與裝置的用戶相互作用用于選擇裝置的工作方式同樣是已知的。本發(fā)明在此涉及使用一種控制界面,其中的部分是與可用于播出的內容信息語義學有關的。
優(yōu)選結合在本發(fā)明的系統(tǒng)中的選擇包括下面的內容。系統(tǒng)100提供聽覺或視覺反饋響應用戶已輸入的口頭指令。例如,例如如果存在匹配,通過用預先錄制的話音重復指令單詞或指令話,或如果存在匹配,通過用預先錄制的話音提供字“確認”,系統(tǒng)100確認接收指令。該特征可用每個信息內容項目的相對小量的預定的指令實現。確認數據可結合在控制數據110中。如果由用戶給出的話音指令不被理解,即系統(tǒng)100對此沒有識別并且在控制數據110中沒有找到匹配,系統(tǒng)100提供指出否定狀態(tài)的聽覺反饋。例如,系統(tǒng)100用預先錄制的話音提供“不能處理該指令”,“不能找到該藝術家”,或“不能找到這首歌”或相同意思的話。系統(tǒng)100可給出視覺反饋用以替代,或附加于聽覺反饋,例如如果系統(tǒng)100能夠處理話音輸入,綠色閃爍光,而如果不能處理,則紅色光。與此相同,系統(tǒng)100優(yōu)選用預先錄制的或合成的話音發(fā)音,說出藝術家的姓名和選擇播出的內容的歌曲的歌名或唱片集的名稱。合成話音使用文本語音引擎用于該特征使得系統(tǒng)可以使用可從下載或媒體載體得到的信息。文本語音(TTS)系統(tǒng)將來自計算機資料(例如,字處理機資料,網頁)的詞匯經由揚聲器轉換為可聽的語音。在TTS系統(tǒng)中,優(yōu)選詞匯與他們的包括載體語句的語調的語音清單等一起存儲。同樣,作為選擇,控制數據110包括向用戶解釋哪條指令,例如哪首歌曲的關鍵字可行的預先錄制或合成的話音數據。預先錄制或合成的話音可再次成為控制數據110的一部分。當他/她不想要系統(tǒng)提供聽覺反饋時,用戶應能夠將其接通或斷開。
圖2為帶有EPG的系統(tǒng)200的圖示說明,EPG中可得內容信息被辨別并在顯示監(jiān)視器206上以行202和列204排列。例如,每個相應的行表示相應的TV頻道而每個列表示特定的時隙。在每個特定的行列對,例如行208和列210的交點,標記或標題212被示出表示內容可從特定的頻道并在特別的時隙中得到。其它類型的排列可代替使用,例如通過主題分類和時間,或按照每個頻道或資源(例如在互聯網上)的一個簡檔按用戶優(yōu)先級排列,等等。用戶可以通過例如經由適當的用戶界面(例如無線鍵盤或其它定向裝置上的箭頭鍵,未示出)將窗214移過EPG的柵格瀏覽EPG以獲得落入窗214邊界內EPG顯示的部分。用戶于是可以通過敲擊或突出所顯示的部分中相關的標記選擇特別的內容信息。
典型地,EPG由服務供應者經互聯網提供。在本發(fā)明中,用附加的使得用戶與EPG相互作用的模式而不是常規(guī)的敲擊或突出所希望的標記的模式成為可能的控制軟件216增強EPG??刂栖浖?16優(yōu)選與EPG一同被下載,升級或刷新。控制軟件216包括與為用戶選擇辨別EPG中程序的標記的語義學相關的控制信息218。例如,當用戶將表達“電影”經由用戶輸入裝置220輸入數據處理子系統(tǒng)時,例如經由麥克風的話音輸入,EPG的柵格被整理以僅在窗214中示出按照分類“電影”可得的程序,或電影程序與在其它分類中程序不同地被圖形化表示。用戶隨后優(yōu)選同樣在語音指令下瀏覽分類“電影”,。用戶看到他/她喜歡的電影并由話音輸入表達“The Magnificent Six andOkke”進入,其主題在有關航空事件的經典電影的EPG中指出。在另一實例中,用戶進入“今晚”和“從八點鐘開始”,由此窗214被定位于至少部分地示出,當天和從八點(800pm)開始的可用的程序的集合。在又一實例中,用戶已辨別出顯示在窗214中的EPG的一部分中有趣的程序,并說出表示程序主題的詞匯進入麥克風220。隨后,用戶說“觀看”或“記錄”。表示主題的詞匯被轉換為適當的格式用于與控制信息218比較。當找到匹配時,控制軟件216使得微處理器222能夠控制調諧器224和顯示監(jiān)視器206或記錄裝置226。以這種方式,用戶可以使用話音控制與EPG相互作用。
權利要求
1一種使終端用戶能夠控制處理內容信息的方法,該方法包括處理與將被處理的內容信息語義學有關的語音指令。
2權利要求1的方法,包括提供連同信息內容的語音控制軟件。
3權利要求1的方法,其中指令辨別內容信息用于處理。
4權利要求1的方法,其中內容信息包括音頻;而指令包括出現在音頻中的單詞。
5權利要求1的方法,其中內容信息包括視頻信息;而指令辨別視頻中的事件或對象。
6權利要求1的方法,其中內容信息存儲在存儲媒體中;并且指令存儲在存儲媒體上用于處理的控制。
7權利要求1的方法,包括向終端用戶提供關于語音指令的處理狀態(tài)的反饋。
8帶有內容信息的并帶有語音指令的數據表示的存儲媒體,用于使終端用戶能夠經由語音控制處理內容信息。
9權利要求8的媒體,其中語音指令與內容信息語義學相關。
10權利要求8的媒體,包括至少下列之一光盤;磁盤;固態(tài)存儲器。
11用于處理內容信息的電子裝置,該裝置包括●用于接收語音指令的語音輸入端;●用于接收包括內容信息和特定于內容信息語義學的控制軟件的存儲媒體的輸入端;●用于在語音指令控制下經軟件處理內容信息的數據處理器。
12權利要求11的裝置,其中數據處理器處理內容信息以響應與內容信息語義學相關的語音指令。
13權利要求11的裝置,其中存儲媒體包括至少下列之一光盤;磁盤;固態(tài)存儲器。
14權利要求11的裝置,包括用于向終端用戶指出話音指令的處理狀態(tài)的輸出端。
15一種提供與特定內容信息的語義學有關的控制數據的方法,使終端用戶能夠經由由控制數據支持的語音控制控制處理特定的內容信息。
16權利要求15的方法,包括使用戶能夠經數據網絡下載控制數據。
17權利要求15的方法,其中下載的控制數據用于供特定的內容信息的副本使用。
18權利要求15的方法,包括使用戶能夠經數據網絡下載內容信息。
19權利要求15的方法,其中內容信息包括一EPG,并且其中處理包括與EPG的相互作用。
20一個EPG,包括控制數據,該控制數據特定于由程序列表表示的內容信息語義學,并操作于使終端用戶能夠用語音輸入與EPG相互作用。
21權利要求20的EPG,包括用于控制向用戶提供關于語音輸入的處理狀態(tài)的反饋的軟件。
22對于一EPG,控制程序,特定于由程序列表表示的內容信息語義學,并操作于使終端用戶能夠用語音輸入與EPG相互作用。
23用于控制電子處理內容信息的語音指令,指令由內容信息的語義學確定。
全文摘要
視頻或音頻內容信息的播出或其它處理的話音控制使用與內容信息語義學相關的話音指令。
文檔編號H04N5/445GK1381039SQ01801192
公開日2002年11月20日 申請日期2001年4月26日 優(yōu)先權日2000年5月3日
發(fā)明者P·J·L·A·斯維倫斯, J·米德楊斯, O·阿爾伯達, V·斯坦比斯 申請人:皇家菲利浦電子有限公司