專利名稱:信息信號(hào)處理方法和設(shè)備以及計(jì)算機(jī)程序產(chǎn)品的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種信息信號(hào)處理方法和設(shè)備以及程序記錄介質(zhì)或計(jì)算機(jī)程序產(chǎn)品,用于在記錄/重放設(shè)備中進(jìn)行諸如預(yù)定摘要重放之類的特殊重放,所述記錄/重放設(shè)備通過對(duì)信號(hào)進(jìn)行預(yù)定的頻帶壓縮來向/從記錄介質(zhì)記錄和/或重放諸如視頻/音頻信號(hào)之類的圖像/語音數(shù)據(jù),所述記錄介質(zhì)諸如是磁光盤、硬盤驅(qū)動(dòng)器(HDD)、半導(dǎo)體存儲(chǔ)器等等,所述預(yù)定的頻帶壓縮諸如是MPEG(運(yùn)動(dòng)圖像專家組)。
此申請(qǐng)要求了于2004年8月10日在日本專利局申請(qǐng)的第2004-233943號(hào)日本專利申請(qǐng)的優(yōu)先權(quán),將該篇申請(qǐng)的全部內(nèi)容引入于此,以供參考。
背景技術(shù):
通過在短于記錄所花費(fèi)的時(shí)間長度的時(shí)間內(nèi)重放記錄在常規(guī)VTR(磁帶錄像機(jī))或盤記錄/重放設(shè)備中的長內(nèi)容(也就是長時(shí)間的內(nèi)容)以便粗略地知曉這些內(nèi)容,在考慮到人們能夠理解語音信息的速度的情況下,所述重放是以比記錄高約1.5至2倍的速度進(jìn)行的。
即使在較短的時(shí)間內(nèi)對(duì)內(nèi)容進(jìn)行概要(summary)或者摘要(digest)重放,這樣以高速重放的語音輸出也將難以理解。通常,只有內(nèi)容中的圖像信息是作為無聲數(shù)據(jù)重放的。
由于這個(gè)原因,在某些情況下,通過如下步驟在短于原始廣播節(jié)目記錄時(shí)間的預(yù)定時(shí)間內(nèi)進(jìn)行已記錄廣播節(jié)目的概要(摘要)重放,所述步驟為根據(jù)出現(xiàn)在已記錄廣播節(jié)目中的圖像/語音數(shù)據(jù)(圖像/語音信息信號(hào)、圖像/語音信號(hào)或者圖像/語音信息)中的特征來提取預(yù)定的特征數(shù)據(jù),借助于預(yù)定的特征數(shù)據(jù)來檢測(cè)看起來是關(guān)鍵幀(重要幀)的關(guān)鍵幀部分,以及重放基于預(yù)定規(guī)則而順序選擇的關(guān)鍵幀部分。
此外,在已記錄圖像數(shù)據(jù)的預(yù)定部分中,在諸如3分鐘、5分鐘、10分鐘等等的每一固定時(shí)間間隔自動(dòng)地生成表示重放點(diǎn)的位置信息,或者由用戶在所期望的位置中人工地生成位置信息。將其通稱為“章節(jié)(chapter)數(shù)據(jù)生成”。進(jìn)行章節(jié)數(shù)據(jù)生成是為了借助于所述位置信息(章節(jié)數(shù)據(jù))來進(jìn)行跳躍重放、編輯和縮略圖顯示。
發(fā)明內(nèi)容
就圖像和語音信號(hào)中的每一個(gè)的多種類型的特征而言,上述的特征數(shù)據(jù)可以被檢測(cè)到。例如在記錄圖像/語音數(shù)據(jù)時(shí)提取每一特征數(shù)據(jù),并且把所述特征數(shù)據(jù)連同圖像/語音數(shù)據(jù)一起記錄到記錄介質(zhì)中。
然后,將讀取已記錄的特征數(shù)據(jù)進(jìn)行預(yù)定的處理以便基于預(yù)定的規(guī)則來確定將要進(jìn)行概要(摘要)重放的部分。然而,如果把多個(gè)特征數(shù)據(jù)作為文件獨(dú)立地記錄到記錄介質(zhì)中,那么將產(chǎn)生多個(gè)文件,并且在信號(hào)處理中對(duì)這些文件的處理將是十分麻煩的,這不會(huì)帶來任何有效的信號(hào)處理。
因此,期望通過提供這樣一種信息信號(hào)處理方法和設(shè)備以及程序記錄介質(zhì)來克服相關(guān)領(lǐng)域的上述缺陷,所述方法、設(shè)備和程序記錄介質(zhì)用于有效地處理特征數(shù)據(jù),并且進(jìn)行有效的概要(摘要)重放和有效的各種基于章節(jié)數(shù)據(jù)的操作,從而進(jìn)行有效的基于特征數(shù)據(jù)的概要(摘要)重放或者章節(jié)處理。
依照本發(fā)明的實(shí)施例,提供了一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段(segment)部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)的每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);
對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分(section)長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段(segment);并且把根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定語音特性信號(hào)和圖像特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)器中。
依照本發(fā)明的另一實(shí)施例,提供了一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者通過從其中記錄有語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
依照本發(fā)明的另一實(shí)施例,提供了一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;借助于根據(jù)圖像/語音信息信號(hào)的片段和圖像/語音特征數(shù)據(jù)從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定的圖像/語音信息信號(hào)的多個(gè)預(yù)定重放部分和對(duì)應(yīng)于重放部分確定或者預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);并且借助于所生成的數(shù)據(jù)或者從其中記錄有所生成的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù),對(duì)應(yīng)于預(yù)定的操作模式,重放預(yù)定部分或表明預(yù)定的時(shí)間點(diǎn)。
依照本發(fā)明的另一實(shí)施例,提供了一種信息信號(hào)處理設(shè)備,包括語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理部分的信號(hào)、來自語音信號(hào)處理部分的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù),對(duì)來自語音信號(hào)處理部分的信號(hào)或者視頻/語音信息信號(hào)進(jìn)行分段;以及數(shù)據(jù)記錄器,用于把根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和根據(jù)特征數(shù)據(jù)和預(yù)定數(shù)據(jù)已進(jìn)行了預(yù)定信號(hào)處理的圖像特征數(shù)據(jù)或者預(yù)定的特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)單元中。
依照本發(fā)明的另一實(shí)施例,提供了一種信息信號(hào)處理設(shè)備,包括
語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理器的信號(hào)、來自語音信號(hào)處理器的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù),對(duì)來自語音信號(hào)處理器的信號(hào)或者信號(hào)視頻/語音信息信號(hào)進(jìn)行分段;以及數(shù)據(jù)生成器,用于借助于根據(jù)來自信息信號(hào)分段單元的信號(hào)提取的預(yù)定語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)或數(shù)據(jù)文件數(shù)據(jù),生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
依照本發(fā)明的另一實(shí)施例,提供了一種信息信號(hào)處理設(shè)備,包括語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理器的信號(hào)、來自語音信號(hào)處理器的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù),分段來自語音信號(hào)處理器的信號(hào)或者視頻/語音信息信號(hào)進(jìn)行分段;數(shù)據(jù)生成器,用于借助于根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)或數(shù)據(jù)文件數(shù)據(jù),生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);以及信息信號(hào)處理器,當(dāng)處于預(yù)定的操作模式時(shí),用于根據(jù)來自數(shù)據(jù)發(fā)生器的數(shù)據(jù)或者從其中記錄有來自數(shù)據(jù)發(fā)生器的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)來重放預(yù)定的部分或者表明預(yù)定的時(shí)間點(diǎn)。
依照本發(fā)明的另一實(shí)施例,提供了一種程序記錄介質(zhì),其中具有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且把根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定語音特性信號(hào)和圖像特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)器中。
依照本發(fā)明的另一實(shí)施例,提供了一種程序記錄介質(zhì),其中具有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)分段;并且借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者從其中記錄有語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
依照本發(fā)明的另一實(shí)施例,提供了一種程序記錄介質(zhì),其中具有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像/語音特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定的圖像/語音信息信號(hào)的多個(gè)預(yù)定重放部分和對(duì)應(yīng)于重放部分確定或者預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);并且借助于所生成的數(shù)據(jù)或者從其中記錄有所生成的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù),對(duì)應(yīng)于預(yù)定的操作模式,重放預(yù)定部分或表明預(yù)定的時(shí)間點(diǎn)。
根據(jù)本發(fā)明,能夠有效地將多個(gè)不同類型的圖像特征數(shù)據(jù)和語音特征數(shù)據(jù)設(shè)置為每一數(shù)據(jù)的特征數(shù)據(jù)文件或者作為一個(gè)特征數(shù)據(jù)文件。例如,能夠有效將多種類型的特征,包括照相機(jī)特征、telop(television opaque projector,電視反射放映機(jī))特征、場景特征、彩色特征等等的圖像特征,以及諸如無聲等級(jí)特征、聲音質(zhì)量特征(例如,談話語音與否)等等的語音特征有效地處理為預(yù)定形式的數(shù)據(jù)文件,并且將所述數(shù)據(jù)文件連同圖像/語音數(shù)據(jù)一起記錄到預(yù)定的記錄介質(zhì)中,以便在文件管理、信號(hào)處理等過程中進(jìn)行有效的文件處理。
此外,根據(jù)本發(fā)明,由于沒有為每個(gè)特征數(shù)據(jù)提供文件,所以由文件占據(jù)的記錄空間要比為記錄介質(zhì)中每一特征數(shù)據(jù)提供文件時(shí)小得多。
另外,即使在用戶購買了記錄/重放設(shè)備,但后來發(fā)現(xiàn)沒有他所希望的功能的情況下,本發(fā)明也能夠使他容易地使所述設(shè)備能夠執(zhí)行該功能。
同時(shí),用戶可能最初購買了只具有基本功能的記錄/重放設(shè)備,但是本發(fā)明允許他在設(shè)備中容易地安裝各種所期望的功能。由此,在考慮到記錄/重放設(shè)備是否具有用戶所希望的一個(gè)或多個(gè)功能的情況下,本發(fā)明使用戶能夠有效地選擇并且購買所述設(shè)備。
當(dāng)結(jié)合附圖時(shí),根據(jù)對(duì)本發(fā)明實(shí)施例的如下詳細(xì)描述,本發(fā)明的上述以及其他特征、方面和優(yōu)勢(shì)將更加明顯。
圖1A至1G示出了在依照本發(fā)明實(shí)施例的重放/重放設(shè)備中進(jìn)行摘要重放和章節(jié)設(shè)置的操作。
圖2舉例說明了由章節(jié)設(shè)置產(chǎn)生的顯示的示例。
圖3是示出了記錄/重放設(shè)備中的信息信號(hào)處理過程的示例的框圖。
圖4是示出了記錄/重放設(shè)備中的規(guī)則處理的框圖。
圖5A示出了記錄/重放設(shè)備中信息表征(signification)處理和特征數(shù)據(jù)之間的關(guān)系的示例,而圖5B示出了信息表征處理和特征數(shù)據(jù)之間的關(guān)系的另一示例。
圖6A至6C示出了記錄/重放設(shè)備中的規(guī)則文件的示例。
圖7示出了記錄/重放設(shè)備中評(píng)估值處理方式的示例。
圖8A至8I以圖形方式示出了記錄/重放設(shè)備中的時(shí)間校正函數(shù)的示例。
圖9以圖形方式示出了記錄/重放設(shè)備中的時(shí)間校正函數(shù)的通用形式的示例。
圖10示出了記錄/重放設(shè)備中視頻數(shù)據(jù)結(jié)構(gòu)的示例。
圖11示出了記錄/重放設(shè)備中重放(或者播放)單元之間的連接的示例。
圖12A和12B示出了記錄/重放設(shè)備中重放單元之間的信息表征的示例。
圖13A和13B示出了記錄/重放設(shè)備中的規(guī)則2處理的示例。
圖14以圖形方式示出了記錄/重放設(shè)備中的時(shí)間校正函數(shù)的另一示例。
圖15A和15B示出了記錄/重放設(shè)備中的規(guī)則文件結(jié)構(gòu)的示例。
圖16A至16D示出了記錄/重放設(shè)備中依照本發(fā)明的信息信號(hào)處理過程示例。
圖17是示出了本發(fā)明的記錄/重放設(shè)備的結(jié)構(gòu)示例的電路框圖。
圖18示出了記錄/重放設(shè)備中記錄的各種預(yù)定數(shù)據(jù)的描述的示例。
圖19示出了記錄/重放設(shè)備中的顯示的示例。
圖20是示出了本發(fā)明的記錄/重放設(shè)備的結(jié)構(gòu)的另一示例的電路框圖。
圖21是依照本發(fā)明的語音特征提取系統(tǒng)的結(jié)構(gòu)示例的電路框圖。
圖22是依照本發(fā)明的語音特征提取系統(tǒng)的結(jié)構(gòu)的另一示例的電路框圖。
圖23是依照本發(fā)明的圖像特征提取系統(tǒng)的結(jié)構(gòu)示例的電路框圖。
圖24示出了記錄/重放設(shè)備中的場景改變。
圖25示出了記錄/重放設(shè)備中telop和色彩特征檢測(cè)區(qū)域的示例。
圖26示出了記錄/重放設(shè)備中的類似圖像特征的示例。
圖27示出了記錄/重放設(shè)備中人員的特征檢測(cè)區(qū)域的示例。
圖28示出了記錄/重放設(shè)備中的人員檢測(cè)的示例。
圖29示出了記錄/重放設(shè)備中的人員檢測(cè)(人員數(shù)目的確定)的示例。
圖30示出了記錄/重放設(shè)備中的人員數(shù)目檢測(cè)的示例。
圖31示出了記錄/重放設(shè)備中的人員數(shù)目檢測(cè)的另一示例。
圖32示出了記錄/重放設(shè)備中的人員數(shù)目檢測(cè)的又一示例。
圖33示出了記錄/重放設(shè)備中的人員數(shù)目檢測(cè)的又一個(gè)示例。
圖34A至34E示出了記錄/重放設(shè)備中的重放單元處理的示例。
圖35A和35B示出了記錄/重放設(shè)備中的重放單元處理的其它示例。
圖36示出了記錄/重放設(shè)備中的CM(廣告)檢測(cè)的示例。
圖37是記錄/重放設(shè)備中重放單元處理器的結(jié)構(gòu)示例的框圖。
圖38示出了記錄/重放設(shè)備中的特征數(shù)據(jù)文件的結(jié)構(gòu)的示例。
圖39示出了記錄/重放設(shè)備中的特征數(shù)據(jù)文件的結(jié)構(gòu)的示例。
圖40解釋記錄/重放設(shè)備中的特征數(shù)據(jù)文件的結(jié)構(gòu)示例。
圖41示出了記錄/重放設(shè)備中的重放單元數(shù)據(jù)的分級(jí)結(jié)構(gòu)的示例。
圖42示出了記錄/重放設(shè)備中重放單元數(shù)據(jù)的分級(jí)結(jié)構(gòu)的另一示例。
圖43示出了記錄/重放設(shè)備中重放單元圖像特征數(shù)據(jù)的結(jié)構(gòu)的示例。
圖44A和44B示出了記錄/重放設(shè)備中播放列表(概要)的示例。
圖45示出了記錄/重放設(shè)備中進(jìn)行的操作流程的示例。
圖46示出了記錄/重放設(shè)備中記錄時(shí)間和可選概要重放時(shí)間之間的關(guān)系的示例。
圖47示出了記錄/重放設(shè)備中記錄時(shí)間和自動(dòng)設(shè)置的章節(jié)數(shù)目的示例。
圖48示出了記錄/重放設(shè)備中進(jìn)行記錄的操作流程的示例。
圖49示出了記錄/重放設(shè)備中進(jìn)行重放的操作流程的示例。
圖50示出了記錄/重放設(shè)備中進(jìn)行重放的操作流程的另一示例。
具體實(shí)施例方式
下面將參考附圖來詳細(xì)解釋本發(fā)明的實(shí)施例。所述解釋將按照下面詳細(xì)列舉的次序來進(jìn)行。當(dāng)然,本發(fā)明不局限于下面解釋的實(shí)施例,在不脫離本發(fā)明的范圍和精神的情況下,可以依照各種方式被適當(dāng)?shù)匦薷摹?br>
1.作為本發(fā)明實(shí)施例的系統(tǒng)的概述1.1基于特征數(shù)據(jù)的概要重放和章節(jié)點(diǎn)設(shè)置此處將略述系統(tǒng)的操作。
將在稍后描述的項(xiàng)目中再詳細(xì)說明涉及以下略述的操作的信號(hào)處理。
在下文中,將具體地解釋播放列表數(shù)據(jù)的生成。然而,除非特殊說明,否則認(rèn)為播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)是一起生成的。
此后將根據(jù)圖A至G來解釋基于特征數(shù)據(jù)的概要(摘要)重放和章節(jié)處理。
首先,將解釋基于特征數(shù)據(jù)的概要重放。
基于特征數(shù)據(jù)的概要(摘要)重放此處假定存在如圖1A所示的可利用的圖像/語音數(shù)據(jù)序列。
所述圖像/語音數(shù)據(jù)序列包括廣播節(jié)目、電影軟件等等,這些數(shù)據(jù)通過依照MPEG(運(yùn)動(dòng)圖像專家組)等等定義的頻帶壓縮信號(hào)處理、將被記錄到預(yù)定的記錄介質(zhì)并且從中重放,所述記錄介質(zhì)諸如是硬盤驅(qū)動(dòng)器(HDD)、磁光盤、大容量半導(dǎo)體存儲(chǔ)器等等。
考慮到預(yù)定的含義,根據(jù)場景變化、語音片段等等,把所述圖像/語音數(shù)據(jù)序列分段為預(yù)定的視頻結(jié)構(gòu)(語義視頻結(jié)構(gòu)),所述結(jié)構(gòu)包括如圖1B中所示的預(yù)定部分(section)。
稍后將詳細(xì)說明預(yù)定含義設(shè)置、預(yù)定部分設(shè)置、視頻結(jié)構(gòu)等等。
應(yīng)注意的是,如圖1C所示,為按照每一含義分段的每一預(yù)定部分設(shè)置在預(yù)定時(shí)間內(nèi)記錄的所有部分、預(yù)定節(jié)目部分等等中的每一個(gè)的預(yù)定評(píng)估值。在此,將為其設(shè)置評(píng)估值的部分作為預(yù)定的評(píng)估值數(shù)據(jù)部分。
如果有圖像/語音數(shù)據(jù)的話,上述“在預(yù)定時(shí)間內(nèi)記錄的所有部分”指的是在全部節(jié)目上、于預(yù)定時(shí)間內(nèi)的圖像/語音數(shù)據(jù)的所有部分。
此外,上述“預(yù)定的節(jié)目部分”指的是包括圖像/語音數(shù)據(jù)的節(jié)目的所有部分。
此處假定為所有預(yù)定部分中的一個(gè)預(yù)定關(guān)鍵幀部分(重要幀部分或者重要(圖像/語音)部分)預(yù)先確定高評(píng)估值(重要評(píng)估數(shù)據(jù))。
也就是說,由于已經(jīng)被設(shè)置高評(píng)估值的部分(重要評(píng)估值部分)包括關(guān)鍵幀部分,所以這些部分的重放使用戶能夠知曉節(jié)目的綱要(outline),而不必重放節(jié)目中的所有部分。
圖1C示出了預(yù)定評(píng)估值部分的概況,從中可以獲知,預(yù)定的概要重放(摘要重放)將通過如圖1D所示在預(yù)定的概要重放模式期間、對(duì)部分A1、A2和A3進(jìn)行跳躍重放而由如圖1A所示的圖像/語音數(shù)據(jù)序列組成,在這些部分中,相應(yīng)的幀f1和f2、f4和f5以及f7和f8被給予大于所設(shè)置的閾值Th的評(píng)估值。
基于特征數(shù)據(jù)的自動(dòng)章節(jié)設(shè)置圖1E是章節(jié)點(diǎn)設(shè)置的概念圖。在此處理中,在預(yù)定的關(guān)鍵幀部分(重要幀部分)的頂端或者頂端附近以及在鄰接關(guān)鍵幀部分底部但不是任何關(guān)鍵幀部分的部分的頂端或者頂端附近處設(shè)置章節(jié)點(diǎn)。
例如,在常規(guī)的DVD(數(shù)字多用盤)中,通過所謂的自動(dòng)章節(jié)設(shè)置功能來為預(yù)定部分設(shè)置斷點(diǎn)。它們是出于用來編輯的目的而獲得的并且用于快進(jìn)(FF)重放、快倒(REW)重放等等。
過去,使用上述的自動(dòng)章節(jié)設(shè)置來設(shè)置5分鐘、10分鐘、15分鐘等等的規(guī)則時(shí)間間隔。然而,采用這種章節(jié)設(shè)置,如圖1G所示,不可能象本發(fā)明那樣在看上去是關(guān)鍵幀的部分的頂端設(shè)置任何章節(jié)點(diǎn)。
此外,手動(dòng)的章節(jié)設(shè)置功能是公知的,其允許用戶他或者她自己在期望的時(shí)間點(diǎn)設(shè)置章節(jié)點(diǎn)。然而,采用此功能,用戶將必須通過實(shí)際瀏覽他已經(jīng)記錄或者將要記錄的節(jié)目才能設(shè)置章節(jié)點(diǎn)。對(duì)于用戶而言,這種設(shè)置操作是麻煩的,由此,此功能不是有效的。
相反地,采用根據(jù)本發(fā)明的基于特征數(shù)據(jù)的章節(jié)點(diǎn)設(shè)置功能(預(yù)定時(shí)間點(diǎn)設(shè)置或者預(yù)定位置設(shè)置功能),能夠在關(guān)鍵幀部分的頂端或頂端附近以及底部、以及在鄰接底部并且不是任何關(guān)鍵幀部分的部分的頂端或者頂端附近適當(dāng)?shù)刈詣?dòng)設(shè)置章節(jié)點(diǎn),如圖1E所示。因此,與采用常規(guī)的章節(jié)設(shè)置功能相比,通過進(jìn)行更加有效的章節(jié)點(diǎn)設(shè)置,這種章節(jié)點(diǎn)設(shè)置功能允許進(jìn)行有效的編輯、FF重放和REW重放。
圖2示出了在預(yù)定的視頻監(jiān)視器上作為縮略像來顯示如圖1F所示的具有預(yù)定大小的自動(dòng)設(shè)置的章節(jié)點(diǎn)的概念。
如圖1F所示,幀f1、f4和f7分別位于預(yù)定的關(guān)鍵幀部分A1、A2和A3的頂端或者頂端附近,而幀f3、f6和f9分別位于部分B1、B2和B3的頂端或頂端附近,所述部分B1、B2和B3分別鄰接關(guān)鍵幀部分A1、A2和A3并且不是任何關(guān)鍵幀部分。此處假定通過瀏覽如圖2所示的顯示屏,用戶將提取圖1D中所示的關(guān)鍵幀部分A1、A2和A3,把它們記錄到諸如DVD的盤狀記錄介質(zhì)中,在幀f1、f4和f7的時(shí)間點(diǎn)進(jìn)行數(shù)據(jù)的跳躍重放,并且進(jìn)行其它操作。
圖1G示出了預(yù)定的時(shí)間點(diǎn)(章節(jié)點(diǎn)或者預(yù)定的位置)的示例。也就是,把預(yù)定的時(shí)間點(diǎn)或者位置規(guī)律地或大體上規(guī)律地設(shè)置為例如間隔5、10或者其它數(shù)目的章節(jié)點(diǎn)。正如將從圖1C和1G中看到的那樣,章節(jié)點(diǎn)并不總是被設(shè)置在關(guān)鍵幀(重要幀)中。
采用本發(fā)明的基于特征數(shù)據(jù)的上述自動(dòng)章節(jié)點(diǎn)設(shè)置或者分段(預(yù)定點(diǎn)設(shè)置或者預(yù)定斷點(diǎn)設(shè)置),能夠進(jìn)行有效的編輯或者跳躍重放。
1.2依照本發(fā)明的信息信號(hào)處理過程的示例接下來,將參照?qǐng)D3描述依照本發(fā)明的信息信號(hào)處理過程的示例。
圖3中示出的信息處理過程包括特征提取步驟(2),其中從MPEG圖像/語音流數(shù)據(jù)中提取圖像和語音數(shù)據(jù)序列上的特征數(shù)據(jù)。
為了便于說明,此處假定MPEG流(1)(MPEG數(shù)據(jù))將被記錄或者已經(jīng)被記錄在預(yù)定的記錄介質(zhì)中。本發(fā)明還適用于例如經(jīng)由預(yù)定的傳輸系統(tǒng)(電纜或者無線電)來傳輸?shù)膱D像/語音數(shù)據(jù)。
特征提取步驟(2)可以與記錄同時(shí)實(shí)現(xiàn),但是如果圖像/語音數(shù)據(jù)已經(jīng)被記錄在預(yù)定的記錄介質(zhì)中,那么特征提取步驟(2)可以通過從記錄介質(zhì)中重放數(shù)據(jù)來進(jìn)行。
此處將解釋規(guī)則處理。
在所述規(guī)則處理中,根據(jù)規(guī)則文件來實(shí)現(xiàn)預(yù)定處理,在所述規(guī)則文件中依照預(yù)定形式或規(guī)則數(shù)據(jù)描述規(guī)則。
規(guī)則文件對(duì)應(yīng)于節(jié)目類型并且基于特征數(shù)據(jù)在其中描述規(guī)則,并且在其中描述關(guān)于預(yù)定部分的特征數(shù)據(jù)的PU特征數(shù)據(jù)文件(重放單元特征數(shù)據(jù)文件)和規(guī)則文件被處理,以便生成預(yù)定的播放列表文件。
為了便于說明,此處假定預(yù)定節(jié)目類型n的規(guī)則文件是Rf(n),PU特征數(shù)據(jù)文件是Pu,播放列表文件是Df并且所期望的概要時(shí)間是t。播放列表文件Df可以通過如下表達(dá)式(1)給出Df=Pu(*)Rf(n)(*)t .........(1)其中把(*)假定為基于預(yù)定文件中的數(shù)據(jù)的預(yù)定運(yùn)算符。
規(guī)則文件Rf(n)依照預(yù)定形式被描述,并且包括諸如預(yù)定時(shí)間校正函數(shù)、含義、含義的加權(quán)因子(評(píng)估值或重要級(jí)別)等等的關(guān)于預(yù)定參數(shù)的數(shù)據(jù)。
重放單元處理作為本發(fā)明的特性之一,特征提取(2)后面跟隨有PU處理(重放單元處理)(3)。
在PU處理(3)中,把每一特征數(shù)據(jù)作為預(yù)定的數(shù)據(jù)(PU特征數(shù)據(jù)文件)記錄(存儲(chǔ))到預(yù)定的記錄介質(zhì)或者緩沖存儲(chǔ)器中的斷點(diǎn)(4)處,作為“PU(playback unit,重放單元)”。
根據(jù)規(guī)則1的運(yùn)算所述PU特征數(shù)據(jù)文件在根據(jù)規(guī)則1的預(yù)定運(yùn)算(5)中進(jìn)行PU表征(signification)。下面將簡要地解釋根據(jù)規(guī)則1的運(yùn)算(5)并且稍后詳細(xì)說明。
過程1采用所選含義作為PU的含義過程2從特征數(shù)據(jù)組合中選擇第一規(guī)則所表示的含義中最滿足要求的一個(gè)含義過程3采用所選含義作為PU的含義。
在根據(jù)規(guī)則1的運(yùn)算(5)中,如果諸如節(jié)目類型或者用戶過去觀看過的節(jié)目類型、時(shí)區(qū)、播放數(shù)目、播放時(shí)間、播放日期等等的參數(shù)和輔助信息等等因EPG(電子節(jié)目指南)等等而可以使用,那么可以在考慮到這些參數(shù)的情況下實(shí)現(xiàn)預(yù)定的處理。
根據(jù)規(guī)則1的運(yùn)算中的時(shí)間校正函數(shù)如稍后將詳細(xì)解釋的那樣被計(jì)算。
根據(jù)規(guī)則2的運(yùn)算進(jìn)行了表征的PU(6)在根據(jù)規(guī)則2的預(yù)定運(yùn)算(7)中進(jìn)行預(yù)定的評(píng)估值處理。
在根據(jù)規(guī)則2的運(yùn)算(7)中,評(píng)估值處理包括如下運(yùn)算1和2的重要性運(yùn)算1含義重要性的評(píng)估運(yùn)算2含義的出現(xiàn)模式的評(píng)估經(jīng)歷了預(yù)定評(píng)估處理的PU(8)被單獨(dú)給予預(yù)定的評(píng)估值或者按照某些PU的組合給予評(píng)估值。
如圖4所示,規(guī)則選擇系統(tǒng)900對(duì)應(yīng)于節(jié)目類型信息來選擇規(guī)則1和2或者它們之一,所述節(jié)目類型信息包括類型-A規(guī)則數(shù)據(jù)、類型-B規(guī)則數(shù)據(jù)、類型-C規(guī)則數(shù)據(jù),...以及用于根據(jù)規(guī)則的運(yùn)算的某些數(shù)據(jù),作為對(duì)應(yīng)于多個(gè)節(jié)目類型并且已經(jīng)被提供給系統(tǒng)控制器20的規(guī)則處理數(shù)據(jù)。
此外,把用于根據(jù)規(guī)則的運(yùn)算的某些數(shù)據(jù)分別提供給個(gè)人用戶,如圖4所示那樣,并且為應(yīng)用進(jìn)行選擇。
在此情況下,按預(yù)定的運(yùn)算模式,系統(tǒng)控制器20通過由預(yù)定用戶進(jìn)行的設(shè)置來選擇個(gè)人用戶1的用于根據(jù)規(guī)則的運(yùn)算的數(shù)據(jù)、個(gè)人用戶2的用于根據(jù)規(guī)則的運(yùn)算的數(shù)據(jù)、個(gè)人用戶的數(shù)據(jù),...,中的任何一個(gè),并且提供給系統(tǒng)控制器20,以便基于所選的用于根據(jù)規(guī)則的運(yùn)算的數(shù)據(jù)來進(jìn)行預(yù)定的規(guī)則處理。
通過如圖4所示那樣為個(gè)人用戶提供規(guī)則處理數(shù)據(jù),能夠進(jìn)行如下操作,所述操作包括例如為每個(gè)個(gè)人用戶進(jìn)行諸如常規(guī)或者特殊重放的預(yù)定重放,把諸如重放狀態(tài)、重放位置等的操作信息、操作位置信息存儲(chǔ)到預(yù)定的存儲(chǔ)器裝置中,以便為每個(gè)個(gè)人用戶進(jìn)行預(yù)定的規(guī)則處理以反映所述信息,通過預(yù)定的學(xué)習(xí)操作,根據(jù)需要在預(yù)定的時(shí)間將這些信息更新為用于個(gè)人的規(guī)則處理數(shù)據(jù)。對(duì)于每個(gè)個(gè)人用戶的學(xué)習(xí)操作而言,這是有效的信號(hào)處理方法。
如圖4所示,規(guī)則選擇系統(tǒng)901在為每個(gè)個(gè)人用戶選擇根據(jù)規(guī)則的運(yùn)算的過程中選擇規(guī)則1和2或者它們之一。
根據(jù)規(guī)則的運(yùn)算的形式根據(jù)規(guī)則1的運(yùn)算在廣播節(jié)目的情況下,與預(yù)定的圖像/語音特征數(shù)據(jù)相關(guān)聯(lián)地描述給定含義的PU,字母和含義如下被設(shè)置。
關(guān)于向字符給予含義,在廣播節(jié)目或者待記錄或者重放的預(yù)定部分中被認(rèn)為是關(guān)鍵幀(重要幀或者場景)的場景被選擇并且被描述,對(duì)于概要重放、章節(jié)設(shè)置等等而言,該場景也被認(rèn)為是有效的。
此外,用戶期望的場景被描述。在此情況下,預(yù)定的調(diào)整模式等等被使用,以便能夠描述用戶期望的規(guī)則。
圖5A和5B中的頂端欄示出了如下面表1中那樣的新聞節(jié)目的示例
表1新聞節(jié)目示例
在圖5A所示的示例中,定義字符a描述一種提取其中出現(xiàn)廣播員的場景的規(guī)則。然而,由于認(rèn)為不可能在由定義字符a描述的一個(gè)規(guī)則下提取所有可能的場景(其中出現(xiàn)廣播員),所以多個(gè)規(guī)則被描述以便提取這種可能的場景。
同樣,如圖5A那樣,通過定義字符b、c、d和e來描述多個(gè)規(guī)則。
圖5B中的頂端欄示出了如下面表2中那樣的相撲—角力節(jié)目的示例表2相撲-角力節(jié)目示例
此外,在圖5B所示出的示例中,由于認(rèn)為不可能提取由字符a定義的所有可能的場景,例如場景中的摔跤選手、相撲裁判員、相撲公證人等等,所以通過多個(gè)小塊(tile)來描述定義字符a。例如,為每個(gè)定義字符設(shè)置多個(gè)規(guī)則。同時(shí),視情況而定,為待提取的場景(關(guān)鍵幀)描述獨(dú)立的規(guī)則。
廣播節(jié)目中可能包括無法唯一地表征的場景。例如,可以進(jìn)行如下的設(shè)置,采用如下面表3所示的定義字符@表3
將采用新聞節(jié)目作為示例來詳細(xì)說明定義字符(設(shè)置或者含義字符)的根據(jù)規(guī)則1的運(yùn)算。
如果如圖18所示那樣檢測(cè)到每一預(yù)定的特征數(shù)據(jù),那么假設(shè)在上述的新聞節(jié)目中,場景分別對(duì)應(yīng)于定義字符a、b、c、d和e。
在圖5A和5B中,假設(shè)小圈表明邏輯積的運(yùn)算,并且小三角表明邏輯和的運(yùn)算。在廣播員出現(xiàn)的場景中,在定義字符a表示的列中示出,可以假定語音特征的屬性作為談話者的語音被檢測(cè),預(yù)定的色彩在色彩特征檢測(cè)區(qū)域2或者3中被檢測(cè),類似圖像信息的出現(xiàn)頻率按照“最高”或“第二高”被檢測(cè),人的特征在檢測(cè)區(qū)域1、2或者5中被檢測(cè),并且照相機(jī)特征是“靜止”。
在用定義字符b、c、d和e分別表示的其它列中,在圖5A和5B中,通過對(duì)應(yīng)于如上列a中小圈和三角形標(biāo)記中的每一個(gè)把定義字符與預(yù)定特征數(shù)據(jù)相關(guān)聯(lián),來把它們與特征數(shù)據(jù)相關(guān)聯(lián)。
為預(yù)定運(yùn)算、即根據(jù)規(guī)則1和規(guī)則2的運(yùn)算依照預(yù)定形式來描述每一定義字符和特征數(shù)據(jù)。
圖6A示出了象矢量分量那樣描述的規(guī)則1的示例。
也就是說,例如,圖5A和5B中示出的每一個(gè)特征數(shù)據(jù)均被作為語音特征的屬性。如果所述屬性是談話者的語音,那么把所述規(guī)則作為A1。如果所述屬性是音樂,那么把所述規(guī)則作為A2。如果所述屬性不同于上述那些,那么把所述規(guī)則作為A3。
在圖像特征的色彩特征中,把區(qū)域1作為B1,把區(qū)域2作為B2,...
可以類似地將特征分別作為B1至B4,C1和C2,D1至D5,E1至E4,F(xiàn)1至F4,G1等等。
如圖6A所示,定義字符a例如可以通過下面給出的表達(dá)式(2)來描述a=1.0(A1)100*(1.0(B2)100+1.0(B3)100)*(1.0(C)100+1.0(C2)100*(1.0(D1)100+1.0(D2)100+1.0(D5)100)*1.0(F1)100 ........(2)其它定義字符也可以如圖6A所示那樣來描述。
應(yīng)注意的是,在圖6A中,“*”表明像邏輯積(AND)那樣的預(yù)定邏輯運(yùn)算,而“+”表明像邏輯和(OR)那樣的預(yù)定邏輯運(yùn)算。
此處將通過舉例來解釋“1.0(A1)100”的描述。
如上所述,“(A1)”指的是語音特征的屬性是談話者的語音。
加權(quán)因子“1.0(A1)100”的描述中的“1.0”是“(A1)”的加權(quán)因子。為了方便,此處假定它是0至1.0。
由于加權(quán)因子是用于預(yù)定計(jì)算的適宜因子,所以將其設(shè)置(描述)在0至100或者0至10的范圍內(nèi)。
檢測(cè)比例系數(shù)“1.0(A1)100”的描述中的“100”是“(A1)”的檢測(cè)比例系數(shù)。如果所述檢測(cè)比例系數(shù)在重放單元部分中是100%,那么“1.0(A1)100”將滿足要求。
例如,在“1.0(A1)50”的描述的情況下,如果檢測(cè)比例系數(shù)是50%,則“1.0(A1)100”將滿足要求。
將基于稍后給出的表達(dá)式(3)來解釋檢測(cè)比例。
為了方便,此處假定檢測(cè)比例系數(shù)在0至100的范圍之內(nèi)。
由于檢測(cè)比例系數(shù)是用于預(yù)定計(jì)算的適宜系數(shù),所以將其設(shè)置(描述)在0至1或者0至10的范圍內(nèi)。
此處應(yīng)注意的是,當(dāng)可以在重放單元部分中檢測(cè)到特性時(shí),上述檢測(cè)比例系數(shù)是一。
例如,采用上述“1.0(A1)100”的描述,如果尚未以100%檢測(cè)到談話者的語音,那么可以確定“(A1)”的特性尚未被檢測(cè)到。
例如,采用“1.0(A1)50”的描述,如果已經(jīng)以50%檢測(cè)到談話者的語音,那么可以確定所述特性已經(jīng)被檢測(cè)到。也就是說,在預(yù)定部分中,已經(jīng)檢測(cè)到預(yù)定特征的比例可以通過系數(shù)來表示。
特征數(shù)據(jù)的檢測(cè)比例由于這個(gè)原因,將解釋特征數(shù)據(jù)的檢測(cè)比例。
稍后將根據(jù)圖34和35來解釋檢測(cè)操作。在本發(fā)明中引入了一種操作概念,其設(shè)置了諸如語音片段特征和對(duì)應(yīng)于語音片段特征而設(shè)置的重放單元(或者播放單元)(PU)的預(yù)定部分。
由于這個(gè)原因,使用涉及所有PU部分的預(yù)定特征數(shù)據(jù)的檢測(cè)比例來計(jì)算預(yù)定特性之間的比例。
假定重放單元具有部分(section)長度(幀長、時(shí)間長度等等)fa,并且將在部分f0和f1中檢測(cè)特征數(shù)據(jù)P,如圖7所示,特征數(shù)據(jù)P的檢測(cè)比例F可以基于以下給出的表達(dá)式(3)來計(jì)算F=∑fi/fa=(f0+f1)/fa ........(3)使用表達(dá)式(3)計(jì)算的值將用于評(píng)估值處理,稍后將詳細(xì)說明此處理。
評(píng)估值處理的示例(示例1)下面將說明如何計(jì)算評(píng)估值(重要性)的示例。
每一特征數(shù)據(jù)的理想值和檢測(cè)結(jié)果如下被處理。
例如,在p=m(M)n的情況下來執(zhí)行如下的過程(1)至(5)過程1使用表達(dá)式(3)來計(jì)算每一預(yù)定的特征數(shù)據(jù)的檢測(cè)比例s。
過程2把計(jì)算結(jié)果與上述檢測(cè)比例系數(shù)n進(jìn)行比較,并且此處假定如果s<n,則p=m×s ........(4)如果s>n,則p=m×100 ........(5)過程3在上述邏輯和(+)中,當(dāng)特征數(shù)據(jù)M是相同屬性的特征,諸如M1,M2,...,那么求平均值。
在上述邏輯積(*)中,引入了諸如邏輯積系數(shù)r之類的運(yùn)算概念,并且將其乘以求平均值的結(jié)果。
過程4為每個(gè)特征數(shù)據(jù)M進(jìn)行上述運(yùn)算,加上已計(jì)算的值,并且將相加的結(jié)果作為評(píng)估值。
過程5比較已計(jì)算的評(píng)估值,并且把最大評(píng)估值的含義作為重放單元a的含義。
上述評(píng)估值處理是典型的示例。然而,只要檢測(cè)到的特征數(shù)據(jù)或者在重放單元部分中檢測(cè)到的特征數(shù)據(jù)的比例與設(shè)置“含義”之間的對(duì)應(yīng)關(guān)系適當(dāng),也可以是任何其它的計(jì)算操作。
例如,如果過程3使用邏輯積計(jì)算,那么就進(jìn)行平均,或者只把關(guān)于同樣屬性的特征數(shù)據(jù)相加,而不乘以邏輯積系數(shù)。
如果相同的特征數(shù)據(jù)在過程3中進(jìn)行邏輯積計(jì)算,那么檢測(cè)條件要比邏輯和計(jì)算的更加嚴(yán)格,因此可以對(duì)于大于邏輯和計(jì)算中的檢測(cè)值的檢測(cè)值進(jìn)行運(yùn)算。
此后將解釋上述表達(dá)式(2)的應(yīng)用。
例如,依照表4中所示的比例來檢測(cè)特征,所述表4還列出了檢測(cè)比例系數(shù)和加權(quán)因子。
表4
如果因?yàn)樘卣鰾2、B3、C1和C2在類型方面彼此相同而在檢測(cè)屬性方面彼此不同,因?yàn)樗鎏卣髟诓煌膮^(qū)域中被檢測(cè)到,或者由于類似的原因,將要進(jìn)行邏輯和計(jì)算(+),那么所述特征被求平均。在此情況下,根據(jù)表達(dá)式(2),通過如下表達(dá)式(6)給出評(píng)估值hh=100+(80+80)/2+(100+100)/2+(80+80+80)/3+80=100+80+100+80+80=440 ........(6)否則,所述特征數(shù)據(jù)可以依照它們的類型被平均,并且平均的結(jié)果被作為評(píng)估值。在此情況下,由于特征數(shù)據(jù)具有五個(gè)類型A至F,所以評(píng)估值h可以通過如下表達(dá)式(7)給出h=440/5=88 ........(7)在屬性方面彼此相等的特征數(shù)據(jù)之間關(guān)系的邏輯積計(jì)算此處將解釋在上面表達(dá)式(2)中具有相同屬性的特征數(shù)據(jù)例如B2和B3進(jìn)行邏輯積運(yùn)算的情況,即(1.0(B2)100*1.0(B3)100)。
從上述的評(píng)估值處理(過程3)中可以推導(dǎo)出邏輯積系數(shù)r的概念,以便進(jìn)行計(jì)算r(80+80)/2。
假定r=1.5,則h=100+1.5×(80+80)/2+(100+100)/2+(80+80+80)/3+80=100+120+100+80+80=480 ..........(8)此外,按照特征數(shù)據(jù)類型的數(shù)目(=5)對(duì)上述計(jì)算的結(jié)果求平均可獲得如下評(píng)估值hh=480/5=96 ..........(9)在上述情況下,由于邏輯積計(jì)算的條件比邏輯和計(jì)算要嚴(yán)格,所以已檢測(cè)的“含義”的評(píng)估值有些大。
此外,假定r=0.8,則h=100+0.8×(80+80)/2+(100+100)/2+(80+80+80)/3+80=100+64+100+80+80=424..........(10)
此外,按照特征數(shù)據(jù)類型的數(shù)目(=5)對(duì)上述計(jì)算的結(jié)果求平均可獲得如下評(píng)估值hh=424/5=84.5..........(11)在上述情況下,做出這樣的安排,即由于邏輯積計(jì)算的條件比邏輯和計(jì)算的要嚴(yán)格,所以更小的評(píng)估值將被檢測(cè)到,這與上述情況相反。
屬性彼此不同的特征數(shù)據(jù)之間關(guān)系的積和計(jì)算。
在這種計(jì)算中,在屬性方面彼此不同的特征數(shù)據(jù)分別由邏輯積運(yùn)算符(*)表示,如上述表達(dá)式(2)中所給出的那樣。然而,視情況而定,它們也分別由邏輯和運(yùn)算符(+)來表示。
為了便于說明,只有表達(dá)式(2)的第一和第二項(xiàng)A1和B2被確定并且被置于表達(dá)式(2)中a=1.0(A1)100+1.0(B2)100 .........(12)基于邏輯和系數(shù)w的概念,可方便地進(jìn)行運(yùn)算,正如已經(jīng)關(guān)于上述表達(dá)式(3)表示的評(píng)估值處理所描述的那樣。
在此情況下,基于上述表達(dá)式(12)來如下計(jì)算評(píng)估值hh=(100+80)w .........(13)當(dāng)w=1時(shí),邏輯積計(jì)算產(chǎn)生如下結(jié)果a=1.0(A1)100*1.0(B2)100 .........(14)h=100+80=180.........(15)對(duì)大于邏輯積計(jì)算中的評(píng)估值的評(píng)估值進(jìn)行由表達(dá)式(8)給出的邏輯和計(jì)算,因此當(dāng)w=1.5.........(16)h=(100+80)×1.5=270 .........(17)此外,對(duì)小于邏輯積計(jì)算中的評(píng)估值的評(píng)估值進(jìn)行由表達(dá)式(8)給出的邏輯和計(jì)算,因此當(dāng)w=0.8.........(18)h=(100+80)×0.8=144 .........(19)由于評(píng)估值處理是為了評(píng)估表達(dá)式的值而引入的概念,表達(dá)式是設(shè)置含義、特征數(shù)據(jù)、各種系數(shù)等等的組合,所以上述評(píng)估表達(dá)式中的每一系數(shù)的范圍和值不局限于上述數(shù)值,而是可以被設(shè)置為更小或更大。
在規(guī)則文件中包括的規(guī)則中陳述的重放單元的每一部分的評(píng)估值是通過計(jì)算上述評(píng)估值的計(jì)算而被確定的。例如,在概要重放模式中,依照概要重放的時(shí)間,評(píng)估值較大的PU部分被選擇,并且評(píng)估值較小的PU部分被選擇,直到盡可能地接近概要時(shí)間為止。
通過重放這樣選擇的每一PU部分,能夠進(jìn)行預(yù)定的概要重放。
評(píng)估值處理的其它方法基于上述的特征數(shù)據(jù)n和預(yù)定的運(yùn)算符*中的每一個(gè)的一項(xiàng)可確定值w(M)*k。
在P(*k(n),det(n))的情況下,d(n)=P(*k(n),det(n)) .........(20)對(duì)應(yīng)于下面任何運(yùn)算符*的d(n)被確定如下(1)在*=(||>)的情況下,也就是在P((||>)k(n),det(n))的情況下被描述為if(k(n)≤det(n))then d(n)=0 ........(21)else d(n)=100 ........(22)(2)在*=(||<)的情況下,也就是在P((||<)k(n),det(n))的情況下,if(k(n)>det(n))then d(n)=0 ........(23)else d(n)=100 ........(24)在上述運(yùn)算(1)和(2)中,對(duì)應(yīng)于檢測(cè)det(n)和設(shè)置檢測(cè)比例k(n),將正被處理的值d(n)處理為100或0。因此,在表征特征數(shù)據(jù)方面,運(yùn)算(1)和(2)比運(yùn)算(3)或(4)明顯更加有效,下面將解釋后者,并且其中被處理的值被處理為差值。
(3)在*=(|>)的情況下,也就是在P((|>)k(n),det(n))的情況下,if(k(n)<det(n)then d(n)=0 ........(25)else d(n)=|k(n)-det(n)|........(26)(4)如果*=(|<),也就是如果P((|<)k(n),det(n)),則
if(k(n)>det(n)then d(n)=0 .......(27)else d(n)=|k(n)-det(n)|........(28)因此,通過如下的表達(dá)式(29)將給出評(píng)估值Σnw(n)×(100-d(n))/Σnw(n)---(29)]]>根據(jù)引入上述運(yùn)算符,如果例如存在特征數(shù)據(jù)A1和B2,則能夠進(jìn)行隨后的描述a=1.0(A1)(||<)100+1.0(B2)(|<)100 .........(30)在此情況下,假定特征A1的檢測(cè)比例(實(shí)際檢測(cè)值)是100,而特征B2的是80,那么上述運(yùn)算(1)和(4)產(chǎn)生隨后的評(píng)估值hh=1.0×(100-0)+1.0(100-80)/(1.0+1.0)=(100+20)/2=60.........(31)對(duì)于如上的評(píng)估值處理而言,存在可利用的某些方法。然而,評(píng)估值可以通過任何其它方法來計(jì)算。
圖6A中示出的規(guī)則1的描述是將描述的數(shù)據(jù)的出現(xiàn)模式(含義)的表示示例。在此描述中,字母a,b,c...用作含義。然而,也可以使用字母A,B,C,...作為其否定,并且使用“*”作為通配符。
根據(jù)規(guī)則2的運(yùn)算根據(jù)規(guī)則2的運(yùn)算是這樣的,考慮到作為已經(jīng)采用上述根據(jù)規(guī)則1的運(yùn)算表征的預(yù)定部分的重放單元之間在含義方面的鏈接來進(jìn)行運(yùn)算。
根據(jù)規(guī)則2的運(yùn)算包括基于時(shí)間校正系數(shù)、即時(shí)間加權(quán)進(jìn)行的時(shí)間校正。
例如,在根據(jù)規(guī)則1的運(yùn)算中,當(dāng)把含義a的評(píng)估值作為70而含義b的作為80時(shí),給出(ab)的評(píng)估值g如下g=70+80=150否則,含義的數(shù)目可以被平均。如下,把含義(a和b)的數(shù)目除以二g=510/2=75否則,所述評(píng)估值可以相乘如下
g=70×80=5600例如,評(píng)估值g可以通過“100”(被假定為最大值)被規(guī)范化為g=5600/100=56在時(shí)間校正系數(shù)的加權(quán)中,“gt”被作為最終評(píng)估值,假定上述(ab)可以在時(shí)間t被檢測(cè)到,則其評(píng)估值是g并且時(shí)間校正系數(shù)(加權(quán)因子)是w。
依照預(yù)定的描述規(guī)則,在規(guī)則文件的規(guī)則2中的適當(dāng)位置,所述時(shí)間校正系數(shù)被描述為其變化點(diǎn)(變化點(diǎn)坐標(biāo)系統(tǒng)中的信息數(shù)據(jù))。
圖6B中示出了根據(jù)規(guī)則2的運(yùn)算的示例。
時(shí)間校正系數(shù)首先,將解釋時(shí)間校正系數(shù)。
時(shí)間校正系數(shù)被用于校正規(guī)則文件中的預(yù)定節(jié)目類型中的概要的時(shí)間。
某些用戶可能希望主要在廣播時(shí)間長度的前半部分或后半部分內(nèi)重放某些預(yù)定的廣播節(jié)目,這視情況而定。
由于這個(gè)原因,可以在考慮對(duì)應(yīng)于廣播節(jié)目的各種參數(shù),諸如待記錄的節(jié)目的類型、廣播時(shí)間及其他參數(shù)的情況下,對(duì)于待進(jìn)行概要或摘要重放的預(yù)定部分的時(shí)間段(或瞬時(shí)時(shí)間,視情況而定)加權(quán)。
也就是說,與被給予其它時(shí)間段的部分相比,為所述時(shí)間段加權(quán)的部分被給予了更加重要的概要(或摘要)重放。
圖8A至8I示出了用于時(shí)間加權(quán)的時(shí)間校正函數(shù)的示例。
圖8A示出了具有相同重要性的整個(gè)預(yù)定概要重放部分的時(shí)間加權(quán)。
圖8B示出了給予前半部分比后半部分更大重要性的預(yù)定部分的時(shí)間加權(quán)。
圖8C示出了給予后半部分比前半部分更大重要性的預(yù)定部分的時(shí)間加權(quán)。
圖8D示出了給予前部和后部比中部更大重要性的預(yù)定部分的時(shí)間加權(quán)。
圖8E示出了給予中部比前部和后部更大重要性的預(yù)定部分的時(shí)間加權(quán)。
圖8F示出了如圖8D所示的互不相同的兩個(gè)校正函數(shù)的組合,分別示出了給予前部、前部和中部之間、中部和后部之間以及后部的具有不同重要性級(jí)別的時(shí)間加權(quán)。
圖8G示出了如圖8E所示的互不相同的兩個(gè)校正函數(shù)的組合,分別示出了給予前部、前部和中部之間、中部和后部之間以及后部的具有不同重要性級(jí)別的時(shí)間加權(quán)。
圖8H示出了分別如圖8C和8D所示的校正函數(shù)的組合,并且圖8I示出了分別如圖8D和8B所示的校正函數(shù)的組合。
圖9示出了時(shí)間校正函數(shù)的一般形式的示例,其中開始、變化和結(jié)束點(diǎn)分別是PO(ts,s3),P1(t1,s3),...,Pe(te,s0)。
在圖9的坐標(biāo)中,為了便于說明,依照與稍后根據(jù)圖41至43所解釋的″開始/結(jié)束位置信息″相同的維數(shù)的值,或者依照基于開始和結(jié)束點(diǎn)之間的部分的從開始點(diǎn)起的比例,y軸例如表明0和100范圍內(nèi)(最大值是100并且最小值是0)的加權(quán),并且x軸表明在范圍0至100內(nèi)設(shè)置的位置信息。
彼此相連的重放單元的含義和其間關(guān)系的確定如上面已經(jīng)解釋的那樣,能夠根據(jù)由預(yù)定提取產(chǎn)生的特征數(shù)據(jù)來為重放單元(PU)設(shè)置含義。
此處將解釋如圖10所示的視頻數(shù)據(jù)結(jié)構(gòu)。
節(jié)目k可以被分為某些場景m,m+1,...,并且每一個(gè)場景被分成某些鏡頭。
每一個(gè)片段(鏡頭)形成一個(gè)幀。
場景之間的斷點(diǎn)是場景變化點(diǎn)。
片段(在下面任何適當(dāng)?shù)牡胤?,也稱為鏡頭或圖像片段)可以是對(duì)應(yīng)于每一場景的類似圖像的組合或者類似圖像特性的組合。
片段等等在節(jié)目中具有對(duì)其含義來說唯一的概念。
分別具有其自身含義的某些片段和場景被結(jié)合在一起,以便形成節(jié)目中的視頻數(shù)據(jù)結(jié)構(gòu)。
例如,如果在棒球比賽的廣播節(jié)目中持續(xù)擊球手的場景,那么所述擊球手的類似圖像被檢測(cè)并且所述場景可以被分成類似的特性片段。所述片段將具有含義(含義的概念)“擊球手的圖像”。
此外,如果在廣播棒球比賽節(jié)目中持續(xù)投手投出球的場景,那么投手的類似圖像被檢測(cè)并且所述場景可以被分成類似的特性片段。所述片段將具有含義(含義的概念)“投手的圖像”。
當(dāng)假定投手投出球,并且擊球手擊中球且朝著本壘跑時(shí),能夠檢測(cè)到具有它們自身含義的圖像場景之間的鏈接,所述含義諸如是“投手的圖像場景”、“擊球手的圖像場景”和“擊球手在跑壘過程中的圖像場景”。
在上述PU的每一個(gè)中處理預(yù)定節(jié)目中的圖像特征數(shù)據(jù)和語音特征數(shù)據(jù),以便對(duì)應(yīng)于所述特征數(shù)據(jù)為每個(gè)PU設(shè)置含義。例如,其中播音員(廣播員)首先讀取新聞條目(新聞標(biāo)題)的新聞節(jié)目的場景將包括一兩個(gè)人、telop(tlp特征)、作為語音特征屬性的談話者語音等等的特征,并且新聞節(jié)目自身包括播音員讀取新聞的某些場景。由此,新聞節(jié)目包括類似于播音員進(jìn)行讀取的場景的多個(gè)場景。因此,類似的圖像特征、也就是特定ID將更加經(jīng)常地出現(xiàn)。
如同上述,能夠?qū)?yīng)于預(yù)定的特征數(shù)據(jù)為每個(gè)PU設(shè)置含義,所述特征數(shù)據(jù)諸如是人的特征、語音特征、telop特征、類似圖像特征以及如根據(jù)規(guī)則1的運(yùn)算中的其它特征,這些已經(jīng)在先前解釋過了。
在棒球比賽節(jié)目的上述示例中,彼此相連的PU之間的關(guān)系具有預(yù)定的含義。也就是說,具有預(yù)定特征數(shù)據(jù)或者特性數(shù)據(jù)的PU依照預(yù)定方式彼此相連。
圖11中示出了具有預(yù)定含義的、即為其設(shè)置了預(yù)定含義的重放單元(PU)之間的關(guān)系。
在圖11中,在節(jié)目(廣播節(jié)目)中設(shè)置了預(yù)定的含義a至d。
彼此相連的某些部分PU(n)至PU(n+2)之間的關(guān)系表明PU(n)的含義a、PU(n+1)的b和PU(n+2)的c依照最自然的方式彼此相連。
圖11示出了相撲角力廣播節(jié)目的PU之間的連接關(guān)系。如可以理解的,最適當(dāng)?shù)牟⑶易詈侠淼氖牵xa“競賽介紹的場景”跟隨有含義b“搏斗初始的場景”,并且含義b“搏斗初始的場景”跟隨有含義c“搏斗的場景”。
PU之間的連接關(guān)系可以由字符序列如“abc”來定義。當(dāng)所述字符序列“abc”對(duì)應(yīng)于關(guān)鍵幀時(shí),能夠在廣播節(jié)目中發(fā)現(xiàn)“abc”并且把由此找到的第一和最后部分或者其最接近的點(diǎn)設(shè)置為預(yù)定的設(shè)置點(diǎn)。
如果在棒球比賽廣播節(jié)目中,一個(gè)部分中的重放單元分別對(duì)應(yīng)于含義“投出球”、“擊中”、“無意義”和“通過”,那么除了含義“無意義”之外,被確定為具有三個(gè)含義“投出球”、“擊中”和“通過”的PU可以被放置在一起,以便提供預(yù)定的PU塊(lump),其被表征為“投出球/擊中/通過”。
此外,把具有含義“無意義”的PU與其它PU放置在一起是沒有任何問題的,因?yàn)榇_定它沒有含義。由此,可以把上述四個(gè)PU放置在一起,以便提供被表征為“投出球/擊中/無意義/通過”的預(yù)定的PU塊。
上述“無意義”被設(shè)置,是因?yàn)橛锌赡芡ㄟ^上述根據(jù)規(guī)則1的運(yùn)算中的預(yù)定評(píng)估基于根據(jù)預(yù)定特征數(shù)據(jù)定義的某些含義進(jìn)行預(yù)定的表征,也就是說,通過預(yù)定的信號(hào)處理,基于多個(gè)含義無法進(jìn)行正確的表征。
“無意義”可以是“無論什么含義都行”。使用后一定義的運(yùn)算與使用定義字符@的運(yùn)算相似。
圖12A示出了新聞節(jié)目的示例,其中“aabb”的連接、即“具有廣播員出現(xiàn)的場景”、“具有廣播員出現(xiàn)的場景”、“事件或者事故場景”和“事件或者事故場景”是適當(dāng)并且合理的。
圖12B示出了上述相撲角力節(jié)目的示例。
圖13A和13B示出了根據(jù)規(guī)則2的新聞節(jié)目的處理。圖13A示出參考模式(參考字符序列)是“aabb”,而圖13B示出了在預(yù)定的節(jié)目記錄部分中檢測(cè)到具有參考模式“aabb”的部分,并且圖示中的部分A1和A2被發(fā)現(xiàn)具有參考模式“aabb”。
如圖13B所示,發(fā)現(xiàn)具有參考模式“aabb”的部分的開始點(diǎn)p1和p3以及結(jié)束點(diǎn)p2和p4例如被設(shè)置為預(yù)定的設(shè)置點(diǎn),以便進(jìn)行稍后將解釋的播放列表的章節(jié)數(shù)據(jù)(位置信息數(shù)據(jù))的預(yù)定處理。例如在概要重放模式中,所述重放被控制以便重放設(shè)置點(diǎn)p1、p2、p3和p4。
對(duì)于章節(jié)設(shè)置、預(yù)定時(shí)間點(diǎn)的設(shè)置(預(yù)定位置設(shè)置)等等來說,把時(shí)間點(diǎn)p1、p2、p3和p4以及接近所述時(shí)間點(diǎn)的預(yù)定點(diǎn)作為設(shè)置位置并進(jìn)行預(yù)定處理。
由此,通過基于預(yù)定特征數(shù)據(jù)判斷PU具有預(yù)定含義,把PU設(shè)置為具有預(yù)定的含義,根據(jù)被設(shè)置為具有這種含義的PU來假定含義之間的連接關(guān)系,并且假定對(duì)應(yīng)于預(yù)定含義的PU的預(yù)定數(shù)目的連接和設(shè)置,可以進(jìn)行重放控制。
在圖6B所示的根據(jù)規(guī)則2的運(yùn)算的描述示例中,描述了待檢測(cè)的由字符序列(aabb)定義的關(guān)鍵幀(重要幀)以及加權(quán)因子100。在先前的描述之后,Ps(ts,s4),P1(t1,s4),Pe(te,s3)被描述為時(shí)間校正函數(shù)(先前已經(jīng)描述過了)。在此示例中,所述函數(shù)是這樣的,如圖14所示,在節(jié)目的后半部分,其重要性逐漸降低。如圖14所示的這種時(shí)間校正函數(shù)主要適用于收聽并且觀看節(jié)目的前半部。
圖6B中示出的根據(jù)規(guī)則2的運(yùn)算描述是待描述的數(shù)據(jù)的出現(xiàn)模式(含義)的表示示例。在此描述中,字符a,b,c,...被用作含義。然而,字符A,B,C...可以用作其否定并且“*”用作通配符。在圖6B中示出的根據(jù)規(guī)則2的運(yùn)算的描述中,如果節(jié)目例如屬于新聞節(jié)目類型,并且由(Abb)來定義,那么“A”不同于“具有廣播員出現(xiàn)的場景”,并且“b”是“事件或者事故場景”。也就是“具有廣播員出現(xiàn)的場景”和兩個(gè)連續(xù)的“事件或者事故場景”將被檢測(cè)。
下面將解釋評(píng)估值計(jì)算的示例。把重放單元組作為(abc)。如表5所示,使用上述表達(dá)式(1)來計(jì)算特征a、b和c的檢測(cè)比例(值)和加權(quán)因子。
表5
評(píng)估值=100×(100+64+64)/(加權(quán)因子之和)=100×228/(100+80+80)=100×228/260=88根據(jù)規(guī)則2的運(yùn)算中的重放單元組的其它示例在上述表達(dá)式中,因?yàn)榭紤]到評(píng)估值的比例(%),所以把(abc)乘以“100”。然而,由于評(píng)估值可以處于容許預(yù)定評(píng)估的比例并且在預(yù)定的計(jì)算中沒有任何問題,所以除非發(fā)生例如溢出的任何問題,否則可以不考慮所述比例。
根據(jù)規(guī)則2的運(yùn)算中的重放單元組的其它示例此處將解釋如何在根據(jù)規(guī)則2的運(yùn)算中連接分別作為重放單元組的多個(gè)含義組單元,其中所述重放單元組是由具有“含義”并且彼此相連的多個(gè)重放單元形成的。
已經(jīng)就僅一個(gè)重放單元解釋了根據(jù)規(guī)則1的運(yùn)算。意圖是根據(jù)特征數(shù)據(jù)找到最可能具有“含義”的重放單元。
根據(jù)規(guī)則2的運(yùn)算可以進(jìn)一步被擴(kuò)展為檢測(cè)由均包括一組重放單元的塊的連接、即由根據(jù)規(guī)則2的運(yùn)算表征的重放單元的組合產(chǎn)生的部分。
例如,上述(aabb)可以作為Ga1,并且多個(gè)Ga1依照類似(Ga1Ga1)的形式被連接在一起。在此情況下,通過類似于根據(jù)規(guī)則1的運(yùn)算的運(yùn)算來計(jì)算Ga1的評(píng)估值。更具體地說,能夠通過對(duì)含義彼此不同的重放單元的評(píng)估值之和求平均,通過對(duì)含義彼此不同的重放單元的評(píng)估值的積求平均或者通過任何其它方法來計(jì)算評(píng)估值。
例如,如果對(duì)具有含義a的重放單元的評(píng)估是80,而對(duì)具有含義b的重放單元的評(píng)估是60,則可以通過對(duì)重放單元評(píng)估值的和求平均來確定Ga1的評(píng)估值如下(80+80+60+60)/4=70一般說來,如圖15a中的示例1那樣,可以進(jìn)行直到根據(jù)規(guī)則2的運(yùn)算。如果多個(gè)節(jié)目中包括特征數(shù)據(jù),例如如果每一個(gè)節(jié)目是時(shí)間加權(quán)的,那么將要完成如圖15B所示的規(guī)則3下的運(yùn)算。
圖6C示出了新聞節(jié)目(新聞)和體育節(jié)目(體育)被加權(quán)并且進(jìn)行時(shí)間校正的一個(gè)示例。
在圖6C所示的示例中,新聞節(jié)目被加權(quán)100%,并且采用開始點(diǎn)Ps(ts,s4)、變化點(diǎn)P1(t1,s4)和結(jié)束點(diǎn)Pe(te,s3)作為時(shí)間校正系數(shù)被校正。體育新聞被加權(quán)70%,并且采用開始點(diǎn)Ps(ts,s4)、變化點(diǎn)P1(t1,s4)和結(jié)束點(diǎn)Pe(te,s3)作為時(shí)間校正系數(shù)被校正。
下面將根據(jù)圖16進(jìn)一步解釋上面就圖3已經(jīng)解釋的運(yùn)算。
圖16A示出了根據(jù)各種預(yù)定特征數(shù)據(jù)通過根據(jù)規(guī)則1的運(yùn)算以某些方式對(duì)每一場景的表征。
預(yù)定的運(yùn)算被完成以便為每個(gè)場景設(shè)置評(píng)估值,所述場景已經(jīng)通過如圖16B所示的根據(jù)規(guī)則2的運(yùn)算來表征。
例如,為了在概要重放模式中,在用戶期望的時(shí)間t1進(jìn)行重放,對(duì)其設(shè)置了最大評(píng)估值的場景(圖像)首先被選擇,然后在盡可能接近時(shí)間t1的時(shí)間點(diǎn)處選擇具有較大評(píng)估值的場景,并且設(shè)置位置信息以便重放由此選擇的部分。
把已設(shè)置的位置信息存儲(chǔ)在預(yù)定的數(shù)據(jù)存儲(chǔ)器中,并且當(dāng)控制預(yù)定部分的重放時(shí),將其從存儲(chǔ)器中讀出。
所述部分被順序重放(跳躍重放)以便進(jìn)行預(yù)定的概要(摘要)重放。
在圖16C所示的示例中,假設(shè)合計(jì)記錄時(shí)間是60分鐘并且概要重放將要在15分鐘內(nèi)進(jìn)行。如果具有少于70的評(píng)估值的PU被選擇并且進(jìn)行概要重放,那么如果概要重放的時(shí)間稍微少于15分鐘,則具有評(píng)估值60的PUn+8的部分被選擇,因此重放時(shí)間將盡可能接近所期望的重放時(shí)間15分鐘。
其評(píng)估值較大的預(yù)定PU部分被選擇,以便選擇重放時(shí)間盡可能接近預(yù)定值的PU部分。
基于所述評(píng)估值來選擇預(yù)定的PU部分,因此重放時(shí)間T將在如下給出的所期望的重放時(shí)間Tm的預(yù)定容許范圍tc內(nèi)Tm-tc<T<Tm+tc同時(shí),通過在具有較大評(píng)估值的被表征部分的起始(或者其附近)和結(jié)束(或者其附近)處設(shè)置預(yù)定的位置(章節(jié)),例如圖6D所示,所述部分可用于預(yù)定的操作,諸如編輯、暫停跳躍重放的重放、反復(fù)重放等等。
2.記錄/重放設(shè)備的方框結(jié)構(gòu)的示例為了便于說明,此處假定待記錄的圖像/語音數(shù)據(jù)是廣播節(jié)目數(shù)據(jù),并且所述數(shù)據(jù)將基于MPEG(運(yùn)動(dòng)圖像專家組)進(jìn)行預(yù)定的頻帶壓縮。應(yīng)該注意的是,所述信號(hào)可以通過子波變換、分?jǐn)?shù)維分析等等來處理。如果例如使用子波變換來處理所述信號(hào),那么下面將解釋的圖像數(shù)據(jù)的DCT系數(shù)等于多分辨率分析中的分析系數(shù),由此可以通過多分辨率分析來處理。
2.1方框結(jié)構(gòu)的示例1圖17是示出了作為本發(fā)明實(shí)施例的記錄/重放設(shè)備30(此后將被稱為“記錄器/播放器30”)的方框結(jié)構(gòu)示例的電路框圖。
為了便于說明,此處將解釋記錄器/播放器30接收電視廣播并且記錄接收到的廣播節(jié)目的示例。
2.1.1處理信號(hào)以便記錄的系統(tǒng)所述記錄器/播放器30包括用于接收預(yù)定的廣播節(jié)目的接收天線系統(tǒng)1和接收器2,采用預(yù)定的采樣頻率和預(yù)定數(shù)目的量化位對(duì)廣播節(jié)目中的語音信號(hào)進(jìn)行預(yù)定的A-D轉(zhuǎn)換的語音A-D轉(zhuǎn)換器3,以及向其提供進(jìn)行A-D轉(zhuǎn)換的語音信號(hào)的語音編碼器4。
所述語音編碼器4采用預(yù)定的頻帶壓縮技術(shù)來處理A-D轉(zhuǎn)換的語音信號(hào),所述頻帶壓縮技術(shù)諸如是MPEG音頻、C3音頻(杜比AC3或者音頻代碼號(hào)3)等等。
所述記錄器/播放器30還包括采用預(yù)定的采樣頻率和預(yù)定數(shù)目的量化位對(duì)廣播節(jié)目中的圖像信號(hào)進(jìn)行預(yù)定的A-D轉(zhuǎn)換的另一A-D轉(zhuǎn)換器8,以及向其提供進(jìn)行了A-D轉(zhuǎn)換的圖像信號(hào)的圖像編碼器9。
所述圖像編碼器9采用諸如MPEG、小波變換等等預(yù)定頻帶壓縮技術(shù)來處理A-D轉(zhuǎn)換的圖像信號(hào)。
如上通過語音編碼器4和圖像編碼器9處理過的語音和圖像數(shù)據(jù)經(jīng)由多路復(fù)用器5被提供給記錄器6。
為了提取語音信號(hào)的特征,所述記錄器/播放器30還包括特征提取系統(tǒng)10,向該系統(tǒng)10提供了提供給語音編碼器4的一部分信號(hào)或者在預(yù)定的編碼操作期間被處理的一部分信號(hào)。
在圖17中所示的記錄器/播放器30中,曾經(jīng)提供給語音編碼器4的一部分信號(hào)從語音編碼器4被提供給特征提取系統(tǒng)10。然而,部分信號(hào)可以被提供給語音編碼器4并且也提供給特征提取系統(tǒng)10。
此外,為了提取視頻(圖像)信號(hào)的特征,提供給圖像編碼器9的一部分信號(hào)或者在預(yù)定的編碼操作期間被處理的部分信號(hào)被提供給特征提取系統(tǒng)10。
在圖17中所示的記錄器/播放器30中,曾經(jīng)提供給圖像編碼器9的一部分信號(hào)從圖像編碼器9被提供給特征提取系統(tǒng)10。然而,該部分信號(hào)可以被提供給圖像編碼器9并且也提供給特征提取系統(tǒng)10。
在記錄模式中,對(duì)于每個(gè)預(yù)定部分,特征數(shù)據(jù)被相互檢測(cè),并且將其連同已經(jīng)進(jìn)行了預(yù)定編碼的圖像/語音數(shù)據(jù)一起記錄到預(yù)定的記錄介質(zhì)7中的預(yù)定記錄區(qū)域中。
所述記錄器/播放器30還包括播放列表/章節(jié)生成器19,其用于進(jìn)行諸如播放列表處理(9)的預(yù)定信號(hào)處理,以便根據(jù)特征數(shù)據(jù)為預(yù)定的概要(摘要)重放生成播放列表數(shù)據(jù),或者進(jìn)行摘要重放章節(jié)處理(11)以便生成章節(jié)數(shù)據(jù)。
在這里能夠進(jìn)行如下信號(hào)處理(過程(a)或者(b))以便生成播放列表或者章節(jié)數(shù)據(jù)。
過程(a)對(duì)于預(yù)定的數(shù)據(jù)量而言,在把特征數(shù)據(jù)存儲(chǔ)到預(yù)定的存儲(chǔ)器或者系統(tǒng)控制器的預(yù)定存儲(chǔ)區(qū)域中之后,預(yù)定的播放列表數(shù)據(jù)和預(yù)定的章節(jié)數(shù)據(jù)被生成。
過程(b)對(duì)于預(yù)定的數(shù)據(jù)量而言,在把特征數(shù)據(jù)一個(gè)接一個(gè)地存儲(chǔ)在記錄介質(zhì)7之后,所述數(shù)據(jù)被重放以便生成預(yù)定的播放列表數(shù)據(jù)和預(yù)定的章節(jié)數(shù)據(jù),其中每當(dāng)完成預(yù)定的特征提取時(shí),記錄介質(zhì)7就要記錄圖像/語音數(shù)據(jù)。
在上述過程(a)中,在完全記錄了預(yù)定時(shí)間長度t的廣播節(jié)目之后,廣播節(jié)目中的所有預(yù)定的特征數(shù)據(jù)被收集在一起。在此時(shí)間點(diǎn),可以進(jìn)行播放列表數(shù)據(jù)生成,以便確定對(duì)應(yīng)于概要重放時(shí)間td的關(guān)鍵幀處于時(shí)間長度t中的何處。也就是說,要為時(shí)間長度t處理的特征數(shù)據(jù)將被存儲(chǔ)在存儲(chǔ)器或者系統(tǒng)控制器的預(yù)定存儲(chǔ)區(qū)域中。
在上述過程(b)中,在如過程(a)中那樣為預(yù)定時(shí)間長度t完全記錄了廣播節(jié)目之后,檢測(cè)所述節(jié)目是否已經(jīng)在預(yù)定的時(shí)間長度t被記錄,預(yù)定的數(shù)據(jù)被重放,并且對(duì)應(yīng)于預(yù)定概要重放時(shí)間td的播放列表數(shù)據(jù)生成將開始。
在完成播放列表數(shù)據(jù)生成之后,記錄器/播放器30準(zhǔn)備好進(jìn)行預(yù)定的概要重放,并且能夠使用播放列表數(shù)據(jù)來進(jìn)行預(yù)定的概要(摘要)重放。
由于播放列表數(shù)據(jù)已被生成,所以如果不再生成播放列表數(shù)據(jù),則擦除預(yù)定的特征數(shù)據(jù)。然而,如果再次生成數(shù)據(jù)以便校正播放列表數(shù)據(jù),則特征數(shù)據(jù)可以按照記錄時(shí)那樣被保留。
在經(jīng)由系統(tǒng)控制器20存儲(chǔ)預(yù)定部分中的特征數(shù)據(jù)之后,由播放列表/章節(jié)生成器19使用它來生成預(yù)定概要(摘要)重放的播放列表數(shù)據(jù)。
把所生成的播放列表數(shù)據(jù)依照預(yù)定的方式記錄在記錄器6中,然后記錄在記錄介質(zhì)7的預(yù)定記錄區(qū)域中。
為了跳躍重放依照預(yù)定方式這樣記錄的部分,所述播放列表數(shù)據(jù)包括這樣的數(shù)據(jù),所述數(shù)據(jù)是有關(guān)待重放的每一預(yù)定部分的重放開始和結(jié)束點(diǎn)的一對(duì)信息。它例如包括有關(guān)預(yù)定部分的重放開始幀編號(hào)和結(jié)束幀編號(hào)的一對(duì)數(shù)據(jù)。
通過在所記錄的節(jié)目的預(yù)定必要部分之間跳躍,使用所述播放列表數(shù)據(jù)來進(jìn)行概要(摘要)重放。因此,除了上述的幀數(shù)據(jù)之外,所述播放列表數(shù)據(jù)還可以是時(shí)間碼數(shù)據(jù)、時(shí)間戳數(shù)據(jù),諸如依照MPEG等等定義的PTS(呈現(xiàn)時(shí)間戳,Presentation Time Stamp)、DTS(解碼時(shí)間戳,Decode Time Stamp)等等。
所述播放列表數(shù)據(jù)可用來在處于記錄模式時(shí)(其中圖像/語音數(shù)據(jù)如上述廣播節(jié)目那樣)在完成預(yù)定的節(jié)目記錄之后進(jìn)行預(yù)定的數(shù)據(jù)生成,然后當(dāng)處于重放模式時(shí),使用特征數(shù)據(jù)進(jìn)行預(yù)定的操作,稍后解釋重放模式。
正如從圖17所獲知的那樣,已經(jīng)利用基于MPEG的技術(shù)依照預(yù)定方式編碼的語音和圖像數(shù)據(jù)可以不在語音編碼器4和圖像編碼器9中編碼,而是被直接提供給多路復(fù)用器5,由記錄器6處理并且被記錄到記錄介質(zhì)中。
能夠由系統(tǒng)控制器20檢測(cè)數(shù)字圖像/語音數(shù)據(jù)是被提供以便直接記錄,還是在把模擬圖像/語音信號(hào)提供給接收器2并且依照預(yù)定方式編碼之后被記錄。換句話說,能夠根據(jù)輸入系統(tǒng)確定預(yù)定的圖像/語音特征數(shù)據(jù)將在記錄模式期間還是在已經(jīng)記錄了數(shù)據(jù)之后被自動(dòng)提取。作為選擇,如果數(shù)字圖像/語音數(shù)據(jù)被提供,那么沒有數(shù)據(jù)將通過預(yù)定的編碼器,因此不必對(duì)數(shù)據(jù)結(jié)構(gòu)進(jìn)行任何預(yù)定的分析。在此情況下,可以在已經(jīng)記錄了圖像/語音數(shù)據(jù)之后提取預(yù)定的圖像/語音特征數(shù)據(jù)。
當(dāng)處于記錄模式時(shí),可以經(jīng)由用戶輸入接口(I/F)21依照用戶的預(yù)定操作來設(shè)置模擬或者數(shù)字輸入系統(tǒng)。
還可從圖17中看出,系統(tǒng)控制器20可以自動(dòng)檢測(cè)來自語音編碼器4或者語音A-D轉(zhuǎn)換器3的信號(hào)、來自圖像編碼器9或者圖像A-D轉(zhuǎn)換器8的信號(hào)以及依照預(yù)定方式編碼的數(shù)字和語音數(shù)據(jù)。
如果依照預(yù)定方式編碼的數(shù)字?jǐn)?shù)據(jù)被檢測(cè)到,而來自語音編碼器4或者語音A-D轉(zhuǎn)換器3的數(shù)據(jù)和來自圖像編碼器9或者圖像A-D轉(zhuǎn)換器8的數(shù)據(jù)沒有被檢測(cè)到,那么可以確定依照預(yù)定方式編碼的數(shù)字圖像和語音數(shù)據(jù)已經(jīng)被提供。
如果系統(tǒng)控制器20沒有檢測(cè)到依照預(yù)定方式編碼的數(shù)字?jǐn)?shù)據(jù),而系統(tǒng)控制器20沒有檢測(cè)到來自語音編碼器4或者語音A-D轉(zhuǎn)換器3的數(shù)據(jù)和來自圖像編碼器9或者圖像A-D轉(zhuǎn)換器8的數(shù)據(jù),那么可以確定所述數(shù)據(jù)是模擬輸入。
依照預(yù)定方式編碼的數(shù)字?jǐn)?shù)據(jù)和模擬輸入都被檢測(cè)到,來自接收器2的模擬輸入信號(hào)可以依照預(yù)定方式被記錄以便初始化(默認(rèn)設(shè)置)。
例如,基于有關(guān)圖像的DCT數(shù)據(jù)來進(jìn)行特征提取。因此,如果數(shù)據(jù)依照預(yù)定方式被編碼,那么用于普通數(shù)據(jù)記錄的DCT也可用于特征提取。由于在預(yù)定的編碼中使用子帶編碼數(shù)據(jù),所以用于普通數(shù)據(jù)記錄的子帶編碼可用于依照預(yù)定方式編碼語音數(shù)據(jù)以便提取特征數(shù)據(jù)。
如果已編碼的數(shù)字?jǐn)?shù)據(jù)被直接提供給記錄器/播放器30,那么不執(zhí)行任何編碼。因此,需要通過DCT來分析數(shù)字?jǐn)?shù)據(jù)并且提取特征數(shù)據(jù),這將引起記錄器/播放器30的負(fù)載。
由于這個(gè)原因,可以在記錄了數(shù)字?jǐn)?shù)據(jù)之后根據(jù)需要來提取特征數(shù)據(jù)。作為選擇,如果提供了模擬數(shù)據(jù),那么在對(duì)應(yīng)于信號(hào)處理器負(fù)載的范圍記錄了模擬數(shù)據(jù)之后,可以自動(dòng)提取特征數(shù)據(jù)。
特征提取例如可以通過如圖20所示的軟件來執(zhí)行。由于在記錄模式中,特征提取是否與每一預(yù)定的信號(hào)處理同時(shí)進(jìn)行取決于系統(tǒng)控制器的性能,所以特征提取將在完成預(yù)定的記錄之后被執(zhí)行。此外,系統(tǒng)控制器20可以包括CPU、DISP(數(shù)字信號(hào)處理器)以及其它各種處理器。然而,性能越高,系統(tǒng)控制器越昂貴。因此,對(duì)應(yīng)于處理能力可以確定特征提取將要與記錄同時(shí)執(zhí)行還是在記錄之后執(zhí)行。
預(yù)定的特征提取可以在完成預(yù)定的記錄模式之后執(zhí)行,例如在完成預(yù)定時(shí)間的記錄操作之后,或者可以在夜里,通??梢约俣ù藭r(shí)設(shè)備沒有被用戶操作。在這種情況下,設(shè)備處于操作中的時(shí)間段應(yīng)該被存儲(chǔ)在系統(tǒng)控制器20的預(yù)定存儲(chǔ)器中,并且將要實(shí)現(xiàn)特征提取的時(shí)間段應(yīng)該通過預(yù)定的學(xué)習(xí)被適當(dāng)?shù)刈詣?dòng)設(shè)置。
同時(shí),如果由系統(tǒng)控制器20檢測(cè)到設(shè)備通常沒有處于記錄或重放操作的時(shí)間段,那么可以在設(shè)備沒有被用戶使用的時(shí)段內(nèi)實(shí)現(xiàn)預(yù)定的特征提取。在此情況下,可能尚未處理所有預(yù)定的數(shù)據(jù)。其處理已經(jīng)被中斷的點(diǎn)將被存儲(chǔ)在系統(tǒng)控制器20的預(yù)定存儲(chǔ)器中,并且將要檢測(cè)設(shè)備沒有正常地處于記錄或重放操作中。如果確定可以執(zhí)行信號(hào)處理的時(shí)間可利用,那么曾經(jīng)中斷的預(yù)定信號(hào)處理將在中斷點(diǎn)被恢復(fù)。
2.1.2設(shè)備的重放系統(tǒng)的操作正常重放模式接下來,將解釋圖17中所示的記錄器/播放器30中用于重放的信號(hào)處理。
首先,將解釋正常重放模式中的操作。
當(dāng)由用戶輸入接口21設(shè)置了正常重放模式時(shí),包括預(yù)定圖像/語音數(shù)據(jù)、特征數(shù)據(jù)等等的預(yù)定數(shù)據(jù)從記錄介質(zhì)7中被重放,并且由重放系統(tǒng)12進(jìn)行預(yù)定的重放n。
這樣重放的預(yù)定數(shù)據(jù)由重放數(shù)據(jù)分離器13分離為預(yù)定的數(shù)據(jù)。把語音數(shù)據(jù)提供給語音解碼器14,其中將該語音數(shù)據(jù)依照對(duì)應(yīng)于記錄時(shí)對(duì)數(shù)據(jù)進(jìn)行頻帶壓縮所采用的信號(hào)處理技術(shù)的預(yù)定方式來解碼,并將其提供給語音D-A轉(zhuǎn)換器15,其中對(duì)其進(jìn)行D-A轉(zhuǎn)換,然后作為語音信號(hào)被提供。
此外,依照預(yù)定方式排序的圖像(視頻)數(shù)據(jù)由視頻解碼器16依照對(duì)應(yīng)于記錄時(shí)對(duì)數(shù)據(jù)進(jìn)行頻帶壓縮所采用的信號(hào)處理技術(shù)的預(yù)定方式來解碼,提供給將對(duì)其進(jìn)行D-A轉(zhuǎn)換的視頻D-A轉(zhuǎn)換器17,然后作為視頻信號(hào)被提供。
概要(摘要)重放模式在概要(摘要)重放模式中,圖像/語音數(shù)據(jù)的處理根據(jù)圖像語音數(shù)據(jù)是否連同特征數(shù)據(jù)和播放列表數(shù)據(jù)一起被記錄在記錄介質(zhì)中而有所不同。
圖18示出了特征數(shù)據(jù)和播放列表數(shù)據(jù)如何被記錄在記錄介質(zhì)中。
首先,如果如圖18A和18B中的播放列表數(shù)據(jù)(播放列表數(shù)據(jù)文件)和章節(jié)數(shù)據(jù)可以被重放,即,如果播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)被記錄在預(yù)定的記錄介質(zhì)(數(shù)據(jù)記錄介質(zhì))中并且可以從概要重放模式被重放,或者預(yù)定的章節(jié)圖像可以在章節(jié)顯示模式中作為縮略圖被顯示,那么圖像/語音數(shù)據(jù)將被處理如下?lián)Q句話說,當(dāng)用戶選擇概要重放模式或者章節(jié)顯示模式時(shí),進(jìn)行如下的處理。
如果當(dāng)用戶經(jīng)由用戶輸入接口21向系統(tǒng)控制器20提供命令以便在預(yù)定的概要(摘要)重放模式中操作時(shí),如果在重放數(shù)據(jù)分離器13中經(jīng)歷預(yù)定數(shù)據(jù)分離的特征數(shù)據(jù)、參數(shù)數(shù)據(jù)、播放列表數(shù)據(jù)、章節(jié)數(shù)據(jù)等等已經(jīng)被記錄,那么被分離的預(yù)定特征數(shù)據(jù)、預(yù)定參數(shù)數(shù)據(jù)、預(yù)定播放列表數(shù)據(jù)、章節(jié)數(shù)據(jù)等等將被提供給系統(tǒng)控制器20。
如果特征數(shù)據(jù)、參數(shù)數(shù)據(jù)、播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)不能被重放數(shù)據(jù)分離器13分離,那么不把這些數(shù)據(jù)提供給系統(tǒng)控制器20。因此,重放數(shù)據(jù)分離器13和系統(tǒng)控制器20判斷特征數(shù)據(jù)、播放列表數(shù)據(jù)、預(yù)定章節(jié)數(shù)據(jù)、參數(shù)數(shù)據(jù)等等是否被記錄在預(yù)定的記錄介質(zhì)7中。
所述播放列表數(shù)據(jù)包括關(guān)于某些預(yù)定重放部分的重放開始和結(jié)束點(diǎn)信息,以便進(jìn)行預(yù)定的概要重放。
章節(jié)數(shù)據(jù)包括關(guān)于預(yù)定特征部分的頂端或接近頂端的位置、預(yù)定特征部分的底部或接近底部的位置、與特征部分相連的不同于特征部分的部分的頂端或接近頂端的位置、或者不同于特征部分的部分的底部或接近底部的位置的位置信息。
通過對(duì)應(yīng)于經(jīng)由重放檢測(cè)到的播放列表數(shù)據(jù)中的跳躍重放開始和結(jié)束數(shù)據(jù)進(jìn)行跳躍重放,系統(tǒng)控制器20進(jìn)行概要(摘要)重放。
此外,顯示處理器27為了顯示而根據(jù)預(yù)定的章節(jié)數(shù)據(jù)按照預(yù)定的縮略圖來處理章節(jié)點(diǎn)或者接近章節(jié)點(diǎn)的點(diǎn)的圖像,并且進(jìn)行預(yù)定的圖像顯示。
正如接下來將描述的那樣,如果如圖18C和18D中的播放列表數(shù)據(jù)(播放列表數(shù)據(jù)文件)和章節(jié)數(shù)據(jù)無法被重放,即,如果播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)沒有記錄在預(yù)定的記錄介質(zhì)或者存儲(chǔ)介質(zhì)中并且無法在概要重放模式中重放,那么當(dāng)處于章節(jié)顯示模式時(shí),在縮略圖時(shí)間點(diǎn)處無法執(zhí)行諸如預(yù)定縮略圖顯示、章節(jié)重放等等的一系列與章節(jié)有關(guān)的操作。
此處做出的解釋適用于從另一記錄介質(zhì)重放圖像/語音數(shù)據(jù),如記錄介質(zhì)25作為DVD軟件在記錄介質(zhì)處理器26和重放系統(tǒng)12中被重放的情況,不適用于重放所接收的圖像/語音數(shù)據(jù)、諸如上述廣播節(jié)目,并且適用于重放其特征尚未提取的圖像/語音數(shù)據(jù)。
如果任何播放列表或者章節(jié)數(shù)據(jù)尚未生成并且由此無法通過重放被檢測(cè),或者如果希望重新生成經(jīng)由重放檢測(cè)到的播放列表數(shù)據(jù)或者章節(jié)數(shù)據(jù),則能夠根據(jù)經(jīng)由重放檢測(cè)到的預(yù)定特征數(shù)據(jù)和參數(shù)數(shù)據(jù)來為預(yù)定的章節(jié)相關(guān)模式章節(jié)數(shù)據(jù)生成概要重放的播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)。
在圖26C中所示的情況下,即因?yàn)樵谟涗洉r(shí)已經(jīng)提取了特征,因而能夠重放特征數(shù)據(jù)的情況下,把播放列表數(shù)據(jù)或者預(yù)定的特征數(shù)據(jù)從圖17中所示的記錄器/播放器30中的重放系統(tǒng)12或者重放數(shù)據(jù)分離器13提供給播放列表/章節(jié)生成器19,后者將生成預(yù)定的播放列表數(shù)據(jù)或者預(yù)定的章節(jié)數(shù)據(jù)。
對(duì)于此處正說明的這種操作而言,當(dāng)用戶已經(jīng)輸入概要重放模式的命令時(shí),顯示處理器27可適用于提供如圖19所示的播放列表數(shù)據(jù)不存在的預(yù)定指示。
把所生成的播放列表數(shù)據(jù)提供給系統(tǒng)控制器20。系統(tǒng)控制器20將控制重放控制器18,因此對(duì)應(yīng)于用戶命令的預(yù)定概要重放時(shí)間來陸續(xù)重放(跳躍重放)基于播放列表數(shù)據(jù)的預(yù)定重放部分,并且由此重放控制器18將控制記錄介質(zhì)7的重放操作。
此外,把所生成的章節(jié)數(shù)據(jù)提供給系統(tǒng)控制器20。系統(tǒng)控制器20將控制重放控制器18,以便執(zhí)行與預(yù)定章節(jié)有關(guān)的操作,諸如基于章節(jié)數(shù)據(jù)在預(yù)定章節(jié)的時(shí)間點(diǎn)按照縮略圖顯示圖像,對(duì)章節(jié)點(diǎn)進(jìn)行諸如剪切、連接等等的編輯操作,跳躍重放由用戶選擇的章節(jié)點(diǎn)等等,并且由此,重放控制器18將借助于系統(tǒng)控制器20來控制記錄介質(zhì)7的重放操作和顯示處理器27的操作。
如同上述,如果諸如DVD之類的外部記錄介質(zhì)也如同記錄介質(zhì)25一樣進(jìn)行概要重放,那么可以對(duì)上述介質(zhì)執(zhí)行類似的信號(hào)處理。記錄介質(zhì)處理器26由重放控制器18來控制,以便進(jìn)行如同上述的預(yù)定的概要重放。
此外,通過與上面類似的信號(hào)處理,能夠進(jìn)行一系列的與預(yù)定章節(jié)相關(guān)的操作,諸如使用章節(jié)數(shù)據(jù)進(jìn)行編輯,在預(yù)定章節(jié)點(diǎn)(或者接近章節(jié)點(diǎn)的點(diǎn))之間跳躍重放,在章節(jié)點(diǎn)(或者接近章節(jié)點(diǎn)的)依照縮略圖顯示圖像等等。由此,記錄介質(zhì)處理器26由重放控制器18來控制,以便進(jìn)行如上的信號(hào)處理。
另外,圖16D中所示的特征數(shù)據(jù)無法重放,正如下面將解釋的那樣。
已經(jīng)就根據(jù)特征數(shù)據(jù)來生成播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)解釋了上面的示例。然而,如果把已經(jīng)由另一用戶對(duì)其記錄了數(shù)據(jù)的外部記錄介質(zhì)25復(fù)制到記錄介質(zhì)A,那么特征數(shù)據(jù)在某些情況下無法重放。
如果記錄介質(zhì)7中已經(jīng)記錄了諸如廣播節(jié)目的圖像/語音數(shù)據(jù),而沒有任何特征數(shù)據(jù),那么不能夠重放任何特征數(shù)據(jù),正如下面將解釋的那樣。
對(duì)于此處所解釋的操作來說,當(dāng)用戶已經(jīng)輸入了概要重放模式或者與預(yù)定章節(jié)有關(guān)的操作模式的命令時(shí),顯示處理器27可以適用于提供如圖19所示的特征數(shù)據(jù)不存在的預(yù)定指示。
在此情況下,為了在概要重放模式中從記錄介質(zhì)A(7)重放圖像/語音數(shù)據(jù),把重放系統(tǒng)12重放的數(shù)據(jù)提供給重放數(shù)據(jù)分離器13,并且把這樣分離的并且已經(jīng)進(jìn)行了預(yù)定的頻帶壓縮的圖像和語音數(shù)據(jù)提供給特征提取系統(tǒng)10,其中這些數(shù)據(jù)將進(jìn)行各種類型的預(yù)定特征數(shù)據(jù)檢測(cè),以便檢測(cè)DCT、DC系數(shù)、AC系數(shù)、運(yùn)動(dòng)矢量等等作為圖像特性數(shù)據(jù),并且檢測(cè)語音功率作為語音特性數(shù)據(jù)。
基于上述的各種圖像/語音特性數(shù)據(jù)和預(yù)定的參數(shù)數(shù)據(jù),特征提取系統(tǒng)10將進(jìn)一步提取預(yù)定的telop特征數(shù)據(jù)(telop部分判斷數(shù)據(jù))、人的特征數(shù)據(jù)和其它圖像特征數(shù)據(jù)(圖像特征部分判斷數(shù)據(jù))以及談話者的語音特征數(shù)據(jù)(談話者的語音判斷數(shù)據(jù))、稱贊/歡呼特征數(shù)據(jù)(稱贊/歡呼判斷數(shù)據(jù))和其它語音特征數(shù)據(jù)(語音特征判斷數(shù)據(jù))。
把上述各種圖像特征數(shù)據(jù)和語音特征數(shù)據(jù)提供給系統(tǒng)控制器20,并且當(dāng)完成從所有預(yù)定的圖像/語音部分進(jìn)行預(yù)定的特征提取時(shí),確定特征提取結(jié)束。
如果特征提取結(jié)束,那么把表明預(yù)定的信號(hào)處理已完成的信號(hào)從系統(tǒng)控制器20提供給顯示處理器27。顯示處理器27可以適用于提供如圖19所示的預(yù)定指示。
接下來,將解釋用于根據(jù)特征數(shù)據(jù)來生成預(yù)定的播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)的操作。
對(duì)于預(yù)定的特征提取部分的每一個(gè),把上述特征數(shù)據(jù)存儲(chǔ)到存儲(chǔ)器11中。當(dāng)完成對(duì)預(yù)定特征的所有操作時(shí),把特征數(shù)據(jù)提供給播放列表/章節(jié)生成器19,其將生成預(yù)定的播放列表或者章節(jié)數(shù)據(jù)。
此處應(yīng)注意的是,預(yù)定部分的特征提取數(shù)據(jù)可以從特征提取系統(tǒng)10直接提供至播放列表/章節(jié)生成器19,并且當(dāng)所有上述預(yù)定部分和預(yù)定廣播節(jié)目的特征提取被完成時(shí),播放列表/章節(jié)生成器19可以根據(jù)來自系統(tǒng)控制器20的預(yù)定信號(hào)來生成上述預(yù)定的播放列表數(shù)據(jù)或者章節(jié)數(shù)據(jù)。
此外,來自特征提取系統(tǒng)的已處理特征數(shù)據(jù)可以經(jīng)由系統(tǒng)控制器20被置于播放列表/章節(jié)生成器19。
當(dāng)播放列表/章節(jié)生成器19已經(jīng)生成預(yù)定的播放列表數(shù)據(jù)或者章節(jié)數(shù)據(jù)時(shí),表明預(yù)定操作結(jié)束的信號(hào)被提供給系統(tǒng)控制器20,后者由此可以使用概要重放或者對(duì)應(yīng)于所期望的概要重放時(shí)間的預(yù)定章節(jié)數(shù)據(jù)來進(jìn)行與預(yù)定章節(jié)有關(guān)的操作。
在此情況下,提供了一種預(yù)定的指示,其表明播放列表數(shù)據(jù)或者章節(jié)數(shù)據(jù)可能已經(jīng)如圖19所示那樣被成功生成。作為選擇,在顯示處理系統(tǒng)27上做出指示,所述指示表明設(shè)備處于概要重放模式和與預(yù)定章節(jié)有關(guān)的操作模式。
如果不知道用戶希望對(duì)已記錄的一小時(shí)長的廣播節(jié)目進(jìn)行概要重放的時(shí)間長度,30或者20分鐘,那么可以對(duì)應(yīng)于例如已記錄廣播節(jié)目的圖像/語音數(shù)據(jù)的所有部分的時(shí)間長度之和預(yù)先生成對(duì)應(yīng)于某些重放時(shí)間長度的播放列表數(shù)據(jù),其中已經(jīng)從所述圖像/語音數(shù)據(jù)中提取了特征。
如果將要從中提取特征的廣播節(jié)目是一小時(shí)的節(jié)目,那么在40、30和20分鐘內(nèi)進(jìn)行概要重放,以便為每個(gè)重放時(shí)間長度生成播放列表數(shù)據(jù)。通過以這種方式生成播放列表數(shù)據(jù),如果由用戶操作遙控器22或者類似遠(yuǎn)程命令器選擇了這種概要時(shí)間長度,那么能夠進(jìn)行對(duì)應(yīng)于所有預(yù)定重放時(shí)間長度的概要重放操作。
重放記錄介質(zhì)25與重放記錄介質(zhì)A(7)相似。也就是說,記錄介質(zhì)25由記錄介質(zhì)處理器26檢測(cè),重放信號(hào)由重放處理器12處理,并且預(yù)定的圖像/語音數(shù)據(jù)由重放數(shù)據(jù)生成器13分離。由于后續(xù)信號(hào)處理與重放記錄介質(zhì)7相似,因此,此處將不對(duì)其進(jìn)行解釋。
通過在并入專用硬件的計(jì)算機(jī)中安裝控制程序來執(zhí)行一系列操作或者通過安裝各種程序,把控制程序安裝到能夠執(zhí)行各種功能的通用個(gè)人計(jì)算機(jī)等等中。
記錄介質(zhì)可以是封裝介質(zhì),諸如其中記錄有控制程序的硬盤以及其中記錄有程序并且被分送以便從計(jì)算機(jī)向用戶獨(dú)立地提供程序的磁盤、光盤、磁光盤、半導(dǎo)體存儲(chǔ)器等等。
22.方框結(jié)構(gòu)的示例2將根據(jù)示出了圖17中所示的記錄器/播放器30的另一示例的圖20來進(jìn)一步解釋本發(fā)明。記錄器/重放器總地用圖20中的參考標(biāo)記30A來表示。
廣播節(jié)目的信號(hào)記錄/重放與圖17中所示的記錄器/播放器30中進(jìn)行的操作相似,此后僅將解釋與記錄器/播放器30中的信號(hào)記錄/重放不同的地方。
2.2.1記錄系統(tǒng)中的信號(hào)處理圖20中的記錄器/播放器30A與記錄器/播放器30的差異在于通過系統(tǒng)控制器20中的軟件來進(jìn)行記錄模式中的特征提取的一系列信號(hào)處理操作。
在記錄器/播放器30A中,經(jīng)由網(wǎng)絡(luò)系統(tǒng)24來下載預(yù)定的軟件,并且用來通過如下面解釋的軟件操作來進(jìn)行特征提取、播放列表處理(章節(jié)生成(諸如重放部分和重放時(shí)間點(diǎn)的信息的生成))。
有益的是,通過軟件操作來下載依照本發(fā)明的軟件將允許具有最初沒有在其中安裝的依照本發(fā)明軟件的現(xiàn)有設(shè)備利用下載的軟件。例如,如果所述軟件無法在記錄/重放系統(tǒng)中安裝時(shí)被制造或銷售,那么制造商可以首先向用戶提供其中沒有應(yīng)用依照本發(fā)明的軟件的簡單配置的系統(tǒng),并且在軟件被制造之后再提供其中已經(jīng)應(yīng)用了軟件的系統(tǒng)。
在購買了其中沒有應(yīng)用依照本發(fā)明的軟件的簡單配置的系統(tǒng)之后,由于用戶可以通過軟件操作向其系統(tǒng)中安裝軟件,所以他可以方便地向他的系統(tǒng)添加其它功能。
此外,對(duì)于校正或者改進(jìn)處理系統(tǒng)來說,用戶可以通過下載依照本發(fā)明的軟件來方便地升級(jí)系統(tǒng)。
為了把依照本發(fā)明的軟件下載到其系統(tǒng)中,用戶操作預(yù)定的控制系統(tǒng)(諸如遙控器22等等)來經(jīng)由網(wǎng)絡(luò)系統(tǒng)24訪問預(yù)定的互聯(lián)網(wǎng)站點(diǎn),并且通過操作預(yù)定的控制系統(tǒng)來下載依照本發(fā)明的軟件。
由此下載的依照本發(fā)明的軟件被解壓縮并且依照預(yù)定方式安裝到系統(tǒng)控制器20中,然后在用戶的系統(tǒng)中提供諸如預(yù)定的特征提取、播放列表生成、章節(jié)設(shè)置等等的依照本發(fā)明的預(yù)定處理功能。
使用具有預(yù)定功能的微處理器(MPU或者CPU),系統(tǒng)控制器20能夠同時(shí)進(jìn)行預(yù)定的特征提取和記錄。
此外,在系統(tǒng)控制器20中提供的預(yù)定數(shù)據(jù)存儲(chǔ)器可以被用作上述存儲(chǔ)器11。
為了進(jìn)行作為上述預(yù)定的記錄操作之一的預(yù)定的圖像/語音頻帶壓縮,可以使用具有上述預(yù)定功能的MPU或者CPU或者DSP(數(shù)字信號(hào)處理器)。也就是說,可以使用進(jìn)行頻帶壓縮的相同MPU或者CPU或者DSP來進(jìn)行上述預(yù)定的特征提取和播放列表生成。
2.2.2重放系統(tǒng)中的信號(hào)處理圖20中的記錄器/播放器30A與記錄器/播放器30的差異在于當(dāng)在不能檢測(cè)到任何特征數(shù)據(jù)的情況下在重放模式中實(shí)現(xiàn)特征提取時(shí),通過系統(tǒng)控制器20中的軟件來進(jìn)行一系列信號(hào)處理操作。
使用具有預(yù)定功能的微處理器(MPU或者CPU),系統(tǒng)控制器20能夠同時(shí)進(jìn)行預(yù)定的特征提取和記錄。
此外,在系統(tǒng)控制器20中提供的預(yù)定數(shù)據(jù)存儲(chǔ)器可以被用作上述存儲(chǔ)器11。
3.特征提取接下來,將要解釋語音特征提取和圖像特征提取的操作。
3.1語音特征提取在語音特征提取系統(tǒng)中,基于MPEG的圖像/語音流數(shù)據(jù)被提供給流分離器100,其中所述數(shù)據(jù)被分離為圖像和語音數(shù)據(jù),并且語音數(shù)據(jù)被提供給語音數(shù)據(jù)解碼器101,其中將其依照預(yù)定方式進(jìn)行解碼,如圖21所示。
已解碼的語音數(shù)據(jù)(語音信號(hào))被提供給等級(jí)處理器102、數(shù)據(jù)計(jì)數(shù)器103和數(shù)據(jù)緩沖器104中的每一個(gè)。在等級(jí)處理器102中,所述數(shù)據(jù)被處理為絕對(duì)值以便計(jì)算語音數(shù)據(jù)預(yù)定部分的平均功率(平均等級(jí))Pav,并且通過語音數(shù)據(jù)積分器105來對(duì)平均功率積分,直到數(shù)據(jù)計(jì)數(shù)器103計(jì)數(shù)了預(yù)定數(shù)目的采樣數(shù)據(jù)為止。
平均功率Pav可以通過計(jì)算以下給出的表達(dá)式(32)來確定Pav=Σnd|Ad(n)|/Sm---(32)]]>其中Ad(n)是語音數(shù)據(jù)的值(等級(jí))。
將要對(duì)其計(jì)算平均等級(jí)的預(yù)定部分例如可以是約0.01秒(10毫秒)至1秒。假定采樣頻率Fs例如是Fs=48kHz,那么將進(jìn)行480至48,000個(gè)樣品的計(jì)算,并且采用樣品數(shù)目Sm對(duì)已計(jì)算的值求平均,以便確定平均等級(jí)(平均功率)Pav。
從語音數(shù)據(jù)積分器105提供的數(shù)據(jù)Pav被提供給判斷系統(tǒng)106,其中將其與閾值設(shè)置系統(tǒng)107設(shè)置的預(yù)定閾值A(chǔ)th相比較,以便判斷所述部分是否是無聲的。
為了在閾值設(shè)置系統(tǒng)107中設(shè)置預(yù)定閾值A(chǔ)th,可以把預(yù)定閾值A(chǔ)th設(shè)定為固定值A(chǔ)th0。或者,除固定閾值A(chǔ)th0之外,可以將其設(shè)置為可變值A(chǔ)thm,其對(duì)應(yīng)于預(yù)定語音部分的平均等級(jí)。
把待處理的部分作為n并且先前部分(n-k)的平均等級(jí)Pav作為Pav(n-k),變量閾值A(chǔ)thm可以通過如下公式(33)給出Athm=Σk=1tPav(n-k)/m,(t≤m)---(33)]]>例如,假定t=2,則Athm=(Pav(n-1)+Pav(n-2))/m .......(34)例如,m被設(shè)定為大約2至20范圍內(nèi)的值。
其它語音特征提取數(shù)據(jù)緩沖器104中存儲(chǔ)的預(yù)定語音數(shù)據(jù)被提供給頻率分析器108,其中對(duì)其進(jìn)行預(yù)定的頻率分析。
所述頻率分析可以使用FFT(快速傅里葉變換)。對(duì)于預(yù)定的分析而言,從數(shù)據(jù)緩沖器104采樣的數(shù)據(jù)數(shù)目是二(2)的預(yù)定次冪,例如512、1024、2048等等。
來自頻率分析器108的信號(hào)(數(shù)據(jù))被提供給判斷系統(tǒng)109,其中依照預(yù)定方式對(duì)其進(jìn)行判斷。
可以基于預(yù)定頻帶的頻譜峰值的連續(xù)性判斷出音樂(音樂聲)。
上述技術(shù)例如在第2002-116784號(hào)日本已公開專利申請(qǐng)等中被公開。
為了判斷談話者的會(huì)話語音,可以通過檢測(cè)談話者會(huì)話語音波形中的呼吸部分的預(yù)定陡上升或下降部分來處理數(shù)據(jù)或信號(hào)。
在此情況下,音樂(音樂聲)波形中上升或者下降部分的波形的出現(xiàn)概率通常被認(rèn)為低于談話者的語音中的。因此,在也考慮到音樂(音樂聲)波形的特性(特征)的情況下,依照綜合的方式來判斷語音信號(hào)的屬性。
為了根據(jù)談話者的語音信號(hào)和音樂(音樂聲)信號(hào)之間在波形特性(特征)方面的差異來判斷語音信號(hào)的屬性,將檢測(cè)波形的瞬態(tài)物理特性。因此,除了通過判斷進(jìn)行預(yù)定信號(hào)處理的方法(分析和判斷頻域中的信號(hào))之外,在使用在基帶中進(jìn)行預(yù)定判斷的方法(分析和判斷時(shí)域中的信號(hào))之前,可以實(shí)行上述的頻率分析。
圖22是用于分析未解碼但仍處于壓縮頻帶中的語音信號(hào)(語音數(shù)據(jù))的語音特征提取系統(tǒng)的另一結(jié)構(gòu)示例的電路框圖。
在圖22中所示的語音特征提取系統(tǒng)中,把進(jìn)行了預(yù)定的頻帶壓縮的數(shù)據(jù)流、例如基于MPEG的圖像/語音數(shù)據(jù),提供給流分離器100,其中所述數(shù)據(jù)被分離為圖像和語音數(shù)據(jù),把語音數(shù)據(jù)提供給流數(shù)據(jù)分析器110,其中就預(yù)定的采樣頻率、量化位數(shù)等等來分析所述語音數(shù)據(jù),并且把預(yù)定的語音數(shù)據(jù)提供給子帶分析器111。
在子帶分析器111中,實(shí)現(xiàn)預(yù)定的子帶分析,并且依照類似于上面根據(jù)公式(32)至(34)解釋的方式來處理預(yù)定子帶中的數(shù)據(jù)。
也就是說,通過檢測(cè)數(shù)據(jù)計(jì)數(shù)器103中采樣數(shù)據(jù)的預(yù)定數(shù)目來實(shí)現(xiàn)包括向語音數(shù)據(jù)積分器105提供數(shù)據(jù)的預(yù)定累積操作,然后根據(jù)閾值設(shè)置系統(tǒng)107中設(shè)置的預(yù)定閾值,在判斷系統(tǒng)106中對(duì)所述數(shù)據(jù)進(jìn)行預(yù)定的無聲判斷。
考慮到無聲判斷中語音數(shù)據(jù)的頻譜,可以把集中了大量能量的頻帶中少于大約3kHz的預(yù)定數(shù)據(jù)頻帶用作子帶。
上面已經(jīng)解釋了通過頻率分析進(jìn)行音樂聲(音樂)的判斷和談話者語音的判斷。由于子帶分析器111的操作相當(dāng)于信號(hào)處理系統(tǒng)中的操作,因此用于屬性判斷的信號(hào)處理可以由光譜峰值連續(xù)性的上述判斷來覆蓋。
在此情況下,所述光譜峰值處于每一預(yù)定子帶的最寬數(shù)據(jù)頻帶的范圍之內(nèi)。因此,可以進(jìn)行類似于FFT分析中的那些信號(hào)處理。
3.2圖像特征提取接下來,將解釋對(duì)圖像的特征提取的操作。
如圖23所示,在圖像特征提取系統(tǒng)中,在流分離器中依照預(yù)定方式分離的圖像數(shù)據(jù)被提供給流數(shù)據(jù)分析器200,其中對(duì)所述數(shù)據(jù)進(jìn)行預(yù)定的分析,這包括速率檢測(cè)、像素?cái)?shù)目檢測(cè)等等。然后,把來自流數(shù)據(jù)分析器200的輸出提供給DCT系數(shù)處理系統(tǒng)201,其中對(duì)數(shù)據(jù)進(jìn)行預(yù)定的計(jì)算處理(逆DCT計(jì)算處理),這包括DCT的DC和AC系數(shù)的檢測(cè)等等?;趤碜訢CT系數(shù)處理系統(tǒng)201的輸出,分別在場景變化檢測(cè)器202、色彩特征檢測(cè)器203、類似圖像檢測(cè)器204、人員檢測(cè)器205和telop檢測(cè)/判斷系統(tǒng)206中進(jìn)行操作。來自流數(shù)據(jù)分析器200的輸出還被提供給運(yùn)動(dòng)矢量處理器208,其中對(duì)數(shù)據(jù)進(jìn)行預(yù)定的運(yùn)動(dòng)矢量檢測(cè)。
3.2.1場景變化特征場景變化特征檢測(cè)器202把屏幕劃分為預(yù)定的子區(qū)域,計(jì)算每一子區(qū)域中DCT的DC系數(shù)數(shù)據(jù)的Y(亮度數(shù)據(jù))、Cb和Cr(色差)的平均值,以便為每個(gè)子區(qū)域確定幀間差值或者場間差值,并且把所述差值與預(yù)定閾值進(jìn)行比較以便檢測(cè)預(yù)定的場景變化。
如果沒有檢測(cè)到場景變化,那么每一子區(qū)域的幀間(或者場間)差值數(shù)據(jù)小于閾值。當(dāng)檢測(cè)到場景變化時(shí),會(huì)檢測(cè)到更大的差值數(shù)據(jù)。
應(yīng)注意的是,在上述屏幕劃分中,有效的屏幕被分成16個(gè)子區(qū)域,例如圖24所示。
屏幕劃分不局限于圖24中所示的方式。可以增減子區(qū)域的數(shù)目。然而,由于人們認(rèn)為如果子區(qū)域數(shù)目過少,場景變化檢測(cè)的精確度將可能會(huì)很低,而如果子區(qū)域數(shù)目較大,精確度將可能過高,所以把子區(qū)域的數(shù)目設(shè)置為大約在256(16×16)的范圍內(nèi)的適當(dāng)值。
3.2.2色彩特征色彩特征檢測(cè)器203可以根據(jù)DCT的DC系數(shù)數(shù)據(jù)的Y(亮度數(shù)據(jù))、Cb和Cr(色差)的平均值來檢測(cè)色彩特征。
預(yù)定的區(qū)域例如可以是圖25中所示的區(qū)域。在圖25中,有效的屏幕被水平地四等分為檢測(cè)區(qū)域1至4,并且垂直地被四等分為檢測(cè)區(qū)域5至8。每一個(gè)檢測(cè)區(qū)域被分配一個(gè)區(qū)域ID,并且關(guān)于每一檢測(cè)區(qū)域的數(shù)據(jù)以所述區(qū)域ID來標(biāo)識(shí)。
應(yīng)注意的是,只有水平檢測(cè)區(qū)域1至4或者垂直檢測(cè)區(qū)域5至8被提供,這視情況而定。
除了如圖25所示的屏幕劃分之外,還可以依照方格的形式來劃分屏幕,諸如5×5、6×6等等。
例如,在節(jié)目類型是“相撲角力”的廣播節(jié)目的情況下,如果可以從圖25中的檢測(cè)區(qū)域3檢測(cè)到色彩“棕色”,那么很可能的是場景具有“相撲場地”。
這種色彩特征與語音屬性特征的組合,例如“相撲場地場景”和“語音屬性或者其它(或者談話者的語音)”的組合,將提供高概率的“開始競賽的場景”。也就是說,這種場景部分可以被設(shè)置為關(guān)鍵幀部分。
在此情況下,由于開始競賽場景的語音等級(jí)將會(huì)因觀眾的歡呼而升高,并且將檢測(cè)到具有處于不同于普通頻帶的頻帶的頻率的數(shù)據(jù),所以語音等級(jí)和預(yù)定的頻帶數(shù)據(jù)可以被認(rèn)為是特征數(shù)據(jù)。
3.2.3類似-場景(類似-圖像)特征在類似-圖像檢測(cè)器204中,把預(yù)定的ID(ID號(hào)碼或者ID符號(hào))分配給每一類似場景(類似圖像)。類似圖像(場景)被分配相同的ID。這種技術(shù)例如在第2002-344872號(hào)日本已公開專利申請(qǐng)中被公開。
這種ID分配是這樣的,把ID與圖像(場景)或者圖像(場景)的位置信息(幀編號(hào)、PTS、記錄時(shí)間等等)一一對(duì)應(yīng)地記錄在存儲(chǔ)器中。因?yàn)橛嘘P(guān)圖像(場景)的位置信息彼此一一對(duì)應(yīng)并且位置信息本身當(dāng)然也彼此一一對(duì)應(yīng),所以當(dāng)顯示圖像或者從該圖像開始重放時(shí),可以使用ID來進(jìn)行各種預(yù)定的操作,諸如通過顯示具有相同ID的圖像來對(duì)類似圖像進(jìn)行排序,具有相同ID的圖像的時(shí)間點(diǎn)的跳躍重放等等。
特征數(shù)據(jù)可以是檢測(cè)到的出現(xiàn)順序,諸如最高、第二高,或者是如上文關(guān)于場景ID解釋過的這種出現(xiàn)頻率。
此外,特征數(shù)據(jù)還可以是檢測(cè)到的ID長度之間的比例,諸如最高、第二高之類的出現(xiàn)順序,或者是具有PU部分長度的這種出現(xiàn)頻率的比例,如圖7所示。
特征檢測(cè)例如是這樣的,把屏幕劃分為多個(gè)子區(qū)域(例如,25個(gè)子區(qū)域),計(jì)算對(duì)應(yīng)于屏幕子區(qū)域的各區(qū)域DCT的平均DC系數(shù),把對(duì)應(yīng)于預(yù)定矢量距離(把已計(jì)算的平均DC系數(shù)作為矢量分量)小于預(yù)定閾值的一個(gè)部分的圖像(場景)作為類似圖像(場景),并且類似圖像(類似場景)被分配相同的預(yù)定ID(場景ID)。
例如,把“1(一)”用作ID的初始值。當(dāng)沒有檢測(cè)到其預(yù)定的矢量距離小于預(yù)定閾值的圖像(場景)時(shí),向ID的最大值加“1”,并且把相加的結(jié)果作為分配給該圖像(場景)的新的ID。
依照本發(fā)明的特征數(shù)據(jù)可以用于計(jì)算預(yù)定部分中的ID的出現(xiàn)頻率,如先前根據(jù)圖5解釋過的那樣,以便檢測(cè)例如最高和第二高的出現(xiàn)頻率。
例如在廣播員經(jīng)常出現(xiàn)的新聞節(jié)目以及屬于類似場景經(jīng)常出現(xiàn)的類型的節(jié)目諸如相撲角力、棒球壘等等中,上述方法可用于有效地處理數(shù)據(jù)。也就是說,當(dāng)廣播員的出現(xiàn)頻率在新聞節(jié)目中最高或第二高時(shí),廣播員經(jīng)常出現(xiàn)的場景很可能被檢測(cè)到。
圖26概述了如何計(jì)算ID的出現(xiàn)頻率。例如,在f1和f2、f3和f4、f5和f6以及f7和f8之間的四個(gè)部分中檢測(cè)到相同的ID、即ID1。也就是說,在這些部分中出現(xiàn)類似圖像。
如圖26所示,把相同的ID連續(xù)地出現(xiàn)的部分視為一個(gè)部分,并且計(jì)算場景中包括多少這樣的部分。
當(dāng)沒有再發(fā)現(xiàn)類似場景時(shí),將不會(huì)再檢測(cè)到相同的ID。因此,可以通過計(jì)算ID的連續(xù)性和不連續(xù)性來計(jì)算預(yù)定的出現(xiàn)頻率。
3.2.4人的特征在人員檢測(cè)器205中,屏幕區(qū)域如圖27所示那樣被劃分,以便檢測(cè)每一區(qū)域中的特殊色彩,由此判斷屏幕中是否有人出現(xiàn)。
在圖27所示的示例中,有效的屏幕被四等分為子區(qū)域1至4,并且在屏幕中心的周圍提供了第五子區(qū)域5。
例如,在新聞節(jié)目的情況下,將認(rèn)為廣播員的臉將以很高的概率出現(xiàn)在子區(qū)域5中。
此外,如果flip或者telop和廣播員一起出現(xiàn)在屏幕中,那么在某些情況下,廣播員的臉將出現(xiàn)在子區(qū)域1或2中。在這種情況下,會(huì)認(rèn)為flip或者telop將出現(xiàn)在區(qū)域2或1中。
如果把白人的膚色作為特殊色彩,那么根據(jù)試驗(yàn)早已獲知的是,可以借助于如下條件表達(dá)式來檢測(cè)特殊色彩0.6<Cb/Cr<0.9 to 0.97 ........(35)(0≤Cb≤255,0≤Cr≤255)........(36)正如下面將解釋的那樣,圖27中所示的子區(qū)域中的特殊色彩可以依照另一方法來檢測(cè)。
為了便于說明,此處假定屏幕尺寸是720×480。
過程1在用于檢測(cè)特殊色彩(Cb,Cr)的條件(用于檢測(cè)白人膚色的條件)中包括的DCT系數(shù)Cb和Cr的DC分量中,包括16×16個(gè)宏塊,其中720/16(=45)片(0至44)沿x方向放置,而480/16(=30)片(0至29)沿y方向放置。在如3.2.3項(xiàng)中的判斷條件下,在x方向的宏塊0至45的每一個(gè)處檢測(cè)數(shù)據(jù)點(diǎn),同時(shí)在y方向的宏塊0至29的每一個(gè)處檢測(cè)宏塊,所述條件為0.6<Cb/Cr<0.9 to 0.97 ........(37)其中(0≤Cb≤255,0≤Cr≤255)。在某些情況下,數(shù)據(jù)點(diǎn)沿x和y方向中的每一個(gè)方向被壓縮了一半,以便獲得x方向的宏塊0至22和y方向的宏塊0至14。
應(yīng)注意的是,數(shù)據(jù)點(diǎn)可以移動(dòng)8位(128次),并且可以使用如下表達(dá)式(38)所給出的判斷條件77<(Cb<<8/Cr<115至124 ........(38)過程2在定義用于根據(jù)亮度信號(hào)的AC系數(shù)來檢測(cè)輪廓的條件(用于檢測(cè)人員、臉部輪廓等等)的上述表達(dá)式(37)和(38)給出的判斷條件下,沿x和y方向的每一個(gè)檢測(cè)其值大于預(yù)定閾值A(chǔ)th的數(shù)據(jù)。
xh(x)>Ath ........(39)nH(y)>Th ........(40)在某些情況下,對(duì)檢測(cè)到的數(shù)據(jù)進(jìn)行協(xié)方差分析。
在用小黑點(diǎn)表示的檢測(cè)點(diǎn)處,將實(shí)現(xiàn)如圖28所示的如下內(nèi)容,例如xh(0)=0 yh(0)=0xh(1)=2 yh(1)=0xh(2)=2 yh(2)=3.... ....
.... ....
.... ....
.... ....
過程3在如下面表達(dá)式所給出的并且大于預(yù)定閾值Hth的已檢測(cè)的數(shù)據(jù)點(diǎn)xh(x)和yh(y)xh(x)>Hth ........(41)yh(y)>Th........(42)在考慮到待檢測(cè)對(duì)象的大小的有效性的條件的情況下,沿x和y方向的每一個(gè)來檢測(cè)由如下表達(dá)式(43)和(44)所給出的大于預(yù)定閾值Lth的數(shù)據(jù)的連續(xù)長度,所述表達(dá)式為xl(n)>Lth ........(43)yl(m)>Th........(44)例如,在圖28中所示的情況下,假定Hth=2,如下面所給出的檢測(cè)點(diǎn)的部分的連續(xù)長度xh(x)>2yh(y)>2被檢測(cè)為xl(0)=6xl(1)=1
yl(0)=7yl(1)=2假定Lth=3,數(shù)據(jù)xl(0)和yl(0)將被檢測(cè)。
過程4將解釋用于檢測(cè)人臉部形狀的有效性的條件。對(duì)于每個(gè)已檢測(cè)的數(shù)據(jù)點(diǎn)xl(n)和yl(m)而言,根據(jù)如下表達(dá)式(45)來檢測(cè)數(shù)據(jù)點(diǎn)間的差值或比例位于0至Dth或者eth1至eth2范圍內(nèi)的數(shù)據(jù),所述表達(dá)式為|xl(n)-yl(m)|<Dth .......(45)或者eth 1<xl(n)/yl(m)<eth2 .......(46)在圖28所示的示例中,位于數(shù)據(jù)點(diǎn)xl(0)和yl(0)的數(shù)據(jù)被計(jì)算。
考慮到一般人的臉,假定人的臉近似矩形,則長寬比被計(jì)算。
例如,假定如下表達(dá)式(47)0.8<xl(n)/yl(m)<1.5 .........(47)例如是檢測(cè)條件,那么將實(shí)現(xiàn)如下內(nèi)容yl(0)/xl(0)=1.2 ..........(48)由此,圖28中的區(qū)域xl(0)和yl(0)中的對(duì)象能夠以很高的概率確定為是人的臉。
應(yīng)注意的是,移位處理可以用于提取人的特征,如3.2.4項(xiàng)中那樣。
除過程(1)至(4)中的檢測(cè)條件以外,還可以實(shí)現(xiàn)如下的過程(5)來檢測(cè)已檢測(cè)的數(shù)據(jù)的連續(xù)性。
過程5用于判斷已檢測(cè)形狀的瞬態(tài)連續(xù)性的條件如下連續(xù)性判斷方法5.1在某些情況下,判斷如上述過程1至4中的瞬態(tài)連續(xù)性(檢測(cè)的穩(wěn)定性)。
假定根據(jù)表達(dá)式(48)檢測(cè)到的畫面N的值S(N)如下S(N)=y(tǒng)l(0)/xl(0) .........(49)
則S(N+1),S(N+2),...被檢測(cè)以便判斷已檢測(cè)的臉的瞬態(tài)連續(xù)性。
確定例如已經(jīng)檢測(cè)到如下三個(gè)畫面是連續(xù)的0.8<S(N)<1.5 ..........(50)0.8<S(N+1)<1.5..........(51)0.8<S(N+2)<1.5..........(52)待檢測(cè)的每一個(gè)畫面可以是I畫面。
連續(xù)性判斷方法5.2作為選擇,如過程1至3中的任何一個(gè)或某些已檢測(cè)值可以被判斷,以便查看從畫面N檢測(cè)到的數(shù)據(jù)是否可以被連續(xù)檢測(cè)為N+1、N+2和N+3。
例如,假定從幀N檢測(cè)到的值如下Col(N)=(Cb<<8)/Cr.........(53)那么,判斷三個(gè)畫面是否已經(jīng)被如下連續(xù)檢測(cè),并且當(dāng)判斷為肯定時(shí),操作切換至下一檢測(cè)步驟77<Col(N)<115 .........(54)77<Col(N+1)<115 .........(55)77<Col(N+2)<115 ..........(56)此外,關(guān)于已檢測(cè)的N至(N+2)畫面的數(shù)據(jù)可以被平均,并且所述平均值被有條件地判斷。
也就是說,假定三個(gè)已檢測(cè)畫面數(shù)據(jù)的平均值是AvCol,那么可以根據(jù)如下表達(dá)式來進(jìn)行判斷AvCol=(Col(N)+Col(N+1)+Col(N+2))/3.........(57)77<avocet<115.........(58)連續(xù)性判斷方法5.3在根據(jù)表達(dá)式(39)和(40)計(jì)算數(shù)據(jù)以便從畫面N中檢測(cè)數(shù)據(jù)點(diǎn)xh(N)(x),yh(N)(y)的情況下,可以判斷諸如N+1,N+2,...的畫面是否是連續(xù)的。判斷三個(gè)I畫面是否已經(jīng)如下被連續(xù)地檢測(cè),并且當(dāng)判斷為肯定時(shí),操作切換至下一檢測(cè)步驟。
xh(N)(x)>Ath .........(59)
xh(N+1)(x)>Ath .........(60)xh(N+2)(x)>Ath .........(61)yh(N)(y)>Ath .........(62)yh(N+1)(y)>Ath .........(63)yh(N+2)(y)>Ath .........(64)此外,畫面N至(N+2)中的已檢測(cè)數(shù)據(jù)可以被平均,并且有條件地實(shí)行判斷。
也就是說,在把三個(gè)已檢測(cè)的畫面數(shù)據(jù)的平均值作為Avxh和Avyh的情況下,可以就是否實(shí)現(xiàn)如下內(nèi)容做出判斷Avxh=(xh(N)(x)+xh(N+1)(x)+xh(N+2)(x))/3.........(65)Avyh=(yh(N)(y)+yh(N+1)(y)+yh(N+2)(y))/3.........(66)Avxh>Ath .........(67)Avyh>Ath ..........(68)連續(xù)性判斷方法5.4在根據(jù)表達(dá)式(43)和(44)計(jì)算數(shù)據(jù)以便從畫面N中檢測(cè)數(shù)據(jù)點(diǎn)xl(N)(x),yl(N)(y)的情況下,可以判斷諸如N+1,N+2,...的畫面是否是連續(xù)的。判斷三個(gè)I畫面是否已經(jīng)如下被連續(xù)地檢測(cè),并且當(dāng)判斷為肯定時(shí),操作切換至下一檢測(cè)步驟。
xl(N)(x)>Lth ............(69)xl(N+1)(x)>Lth ............(70)xl(N+2)(x)>Lth ............(71)yl(N)(y)>Lth ............(72)yl(N+1)(y)>Lth ............(73)yl(N+2)(y)>Lth ............(74)此外,畫面N至(N+2)中的已檢測(cè)數(shù)據(jù)可以被平均,并且有條件地實(shí)行判斷。
也就是說,在把三個(gè)已檢測(cè)畫面數(shù)據(jù)的平均值作為Avxl和Avy1的情況下,可以就是否實(shí)現(xiàn)如下內(nèi)容做出判斷Avxl=(xl(N)(x)+xl(N+1)(x)+xl(N+2)(x))/3.........(75)
Amyl=(El(N)(y)+E1(N+1)(y)+El(N+2)(y))/3 .........(76)Avxl>Lth .........(77)Avy1>Lth .........(78)檢測(cè)人員數(shù)目的基本方法的概述如下來判斷是否已經(jīng)檢測(cè)到人員數(shù)目。
人員數(shù)目判斷方法1B如圖29,例如假設(shè)已經(jīng)檢測(cè)到兩個(gè)x方向數(shù)據(jù)xl(0)和xl(1)的值大于閾值,同時(shí)已經(jīng)檢測(cè)到一個(gè)y方向數(shù)據(jù)yl(0)的值大于閾值。
將解釋以xl(0)和yl(0)標(biāo)識(shí)的區(qū)域1和以xl(1)和yl(0)標(biāo)識(shí)的區(qū)域2中的數(shù)據(jù)密度。
區(qū)域1中的所有數(shù)據(jù)點(diǎn)S1的數(shù)目如下S1=xl(0)x yl(0)=20 .........(79)其值大于閾值的數(shù)據(jù)的數(shù)目如下∑xh(x)=17 ........(80)數(shù)據(jù)密度Δ1,即每單位數(shù)據(jù)點(diǎn)的數(shù)據(jù)數(shù)目如下Δ1=0.85.........(81)如果已經(jīng)在區(qū)域1中檢測(cè)到其值大于閾值的所有數(shù)據(jù),那么數(shù)據(jù)密度將是Δ1=1。因此,預(yù)定閾值Mth被設(shè)置,以便判斷Δ1>Mth ..........(82)同樣,區(qū)域2中的所有數(shù)據(jù)點(diǎn)S2的數(shù)目如下S2=x1(0)x y1(0)=25 .........(83)其值大于閾值的數(shù)據(jù)的數(shù)目如下∑xh(x)=21 .........(84)數(shù)據(jù)密度Δ2如下Δ2=0.84.........(85)假定Mth是Mth=0.80...........(86)區(qū)域1和2滿足要求,如通過表達(dá)式(81)和(85)所證明的那樣,由此可以確定很可能已經(jīng)檢測(cè)到人。
在以xl(0)+xl(1)和yl(0)標(biāo)識(shí)的區(qū)域St中沿x方向放置的所有數(shù)據(jù)點(diǎn)的數(shù)目如下(xl(0)+xl(1))x yl(0) ........(87)已檢測(cè)數(shù)據(jù)的數(shù)目如下∑xh(x)=17+21=38.........(88)數(shù)據(jù)密度Δ如下Δ=8.4 .........(89)由于區(qū)域St中的數(shù)據(jù)密度如下A>Mth..........(90)所以,可以確定人員在區(qū)域1和2中在相同的y方向位置被檢測(cè)到。
檢測(cè)的其它示例1(如果區(qū)域彼此重疊)在圖30所示的示例中,一個(gè)數(shù)據(jù)xl(0)是沿x方向檢測(cè)到的,而一個(gè)數(shù)據(jù)yl(0)是沿y方向檢測(cè)到的。
以xl(0)和yl(0)標(biāo)識(shí)的區(qū)域R中的所有數(shù)據(jù)點(diǎn)Sr的數(shù)目如下Sr=xl(0)x hl(0)=90..........(91)已檢測(cè)數(shù)據(jù)的數(shù)目如下∑xh(x)=44 .........(92)數(shù)據(jù)密度Δr如下Δr=0.49 .........(93)由于Δ<Mth,所以無法確定在區(qū)域R中檢測(cè)到一個(gè)人。
數(shù)據(jù)密度的倒數(shù)如下1/Δr=2.0因此,有可能存在兩個(gè)對(duì)象。然而,應(yīng)該注意的是,即使當(dāng)如圖31所示那樣稀疏地存在數(shù)據(jù)時(shí),數(shù)據(jù)密度也是相同的。
下面將根據(jù)圖30來解釋沿y方向的變化σ。
假定yh(y)的平均值是yhav,數(shù)據(jù)的數(shù)目是m,將實(shí)現(xiàn)如下內(nèi)容m=y(tǒng)1(0) ........(94)σy=(∑(yh(y)-yhav)^2)/m=2.32........(95)
沿y方向,平均值是xhav并且數(shù)據(jù)的數(shù)目n如下n=xl(0) ..........(96)將實(shí)現(xiàn)σx=(∑(xh(x)-xhav)^2)/n=1.04 .........(97)同樣,如下給出圖37中x和y方向的變化σy=0.99 .........(98)σx=0.64 .........(99)從上述結(jié)果,將知道的是,圖36中的數(shù)據(jù)變化更大。
由于這個(gè)原因,用于所述變化的預(yù)定閾值Bth和對(duì)應(yīng)于已檢測(cè)數(shù)據(jù)數(shù)目的閾值d1和d2被設(shè)置,用于判斷如下條件以便檢測(cè)數(shù)據(jù)的數(shù)目。
σy>Bth ........(100)σx>Bth ........(101)d1<1/Δ<d2 ........(102)例如,在圖36所示的示例中,可以實(shí)行判斷,閾值被設(shè)置為Bth=2.0 ........(103)d1=1.8 ........(104)d2=2.3 ........(105)檢測(cè)的其它示例2(如果區(qū)域彼此對(duì)角地分離)在圖32所示的示例中,兩個(gè)數(shù)據(jù)xl(0)和xl(1)沿x方向被檢測(cè)到,并且兩個(gè)數(shù)據(jù)yl(0)和yl(1)沿y方向被檢測(cè)到。
以xl(0)和yl(0)標(biāo)識(shí)的區(qū)域R00中的所有數(shù)據(jù)點(diǎn)S00的數(shù)目如下S00=xl(0)x hl(0)=2..........(106)已檢測(cè)數(shù)據(jù)的數(shù)目如下∑xh(x)=17 .........(107)數(shù)據(jù)密度Δr如下Δ00=0.85 .........(108)由于Mth是0.80,如3.2.5項(xiàng)中那樣,所以Δ00>Mth ........(109)
并且確定可以以很高的概率在區(qū)域R00中檢測(cè)到一個(gè)人。
接下來,以xl(0)和(yl(0)+yl(1))標(biāo)識(shí)的區(qū)域Ra中的所有數(shù)據(jù)點(diǎn)的數(shù)目Sa如下Sa=xl(0)x(yl(0)+yl(1))=40 ..........(110)根據(jù)表達(dá)式(107)給出所有已檢測(cè)數(shù)據(jù)的數(shù)目如下∑xh(x)=17 ..........(111)數(shù)據(jù)密度Δa如下Δa=17/40=0.43 ..........(112)然而,數(shù)據(jù)密度不滿足閾值。
也就是說,由于目前考慮xl(0)和(yl(0)+yl(1)),所以如果假定Δa大于預(yù)定閾值,則確定可以以較高概率檢測(cè)到兩個(gè)人。
然而,正如從表達(dá)式(112)中看到的那樣,Δa小于預(yù)定閾值,因此無法確定能夠在以xl(0)和(yl(0)+yl(1))標(biāo)識(shí)的區(qū)域中檢測(cè)到兩個(gè)人。正如從表達(dá)式(109)中看到的那樣,能夠確定可檢測(cè)到一個(gè)人。
也就是說,確定能夠以較低的概率在以xl(0)和yl(1)標(biāo)識(shí)的區(qū)域中檢測(cè)到人。
同樣,以xl(1)和(yl(0)+yl(1))標(biāo)識(shí)的區(qū)域Rb中所有數(shù)據(jù)的數(shù)目如下∑xh(x)=17 .........(113)所有數(shù)據(jù)點(diǎn)的數(shù)目Sb如下Sb=xl(1)(yl(0)+yl(1))=40.........(114)數(shù)據(jù)密度Δb如下Δb=17/40=0.43 .........(115)如表達(dá)式(115)所示,能夠以較低概率在區(qū)域R6中檢測(cè)到兩個(gè)人。
以xl(1)和yl(0)標(biāo)識(shí)的區(qū)域中的數(shù)據(jù)密度Δ10如下Δ10=17/20=0.85 .........(116)這是因?yàn)橐褭z測(cè)數(shù)據(jù)的數(shù)目由∑xh(x)=17給出,并且所有數(shù)據(jù)點(diǎn)的數(shù)目由xl(1)×yl(0)=20給出。同樣,以xl(1)和yl(1)標(biāo)識(shí)的區(qū)域中的數(shù)據(jù)密度Δ11如下
Δ11=0.85 ..........(117)如表達(dá)式(115)至(117)所示,能夠在區(qū)域10和11的任何一個(gè)檢測(cè)到人的概率很低。
接下來,將討論以(xl(0)+xl(1))和yl(0)標(biāo)識(shí)的區(qū)域Rc中的數(shù)據(jù)密度。由于已檢測(cè)數(shù)據(jù)的數(shù)目由∑vh(y)=17給出,并且所有數(shù)據(jù)點(diǎn)的數(shù)目由(xl(0)+xl(1)×yl(0)=40給出,所以數(shù)據(jù)密度Δc如下Δc=17/40=0.43 .........(118)由于數(shù)據(jù)密度小于上述預(yù)定閾值Mth,所以可能以較低概率在區(qū)域Rc中檢測(cè)到兩個(gè)人。如表達(dá)式(109)和(115)至(117)所示,因此,將在以xl(0)和yl(0)標(biāo)識(shí)的區(qū)域以及以xl(1)和yl(1)標(biāo)識(shí)的區(qū)域中檢測(cè)到人。
可以采用上述操作來檢測(cè)人的數(shù)目。
用于檢測(cè)人的其它方法(方法2)除上述方法之外,x方向宏塊0至44以及y方向宏塊0至29被順序地判斷,以便查看它們是否滿足用于檢測(cè)人的預(yù)定閾值。
作為d(x)(y)的一系列數(shù)據(jù)序列被順序地判斷,以便發(fā)現(xiàn)滿足由上述表達(dá)式(37)、(41)和(42)給出的條件的數(shù)據(jù)。如果例如沿x和y方向連續(xù)檢測(cè)到滿足如下條件的數(shù)據(jù),那么將同時(shí)獲知檢測(cè)到的對(duì)象的大小和位置d(x1)(y1),d(x2)(y1)d(x1)(y2),d(x2)(y2)在上述方法中,所有數(shù)據(jù)逐個(gè)被檢測(cè)以便判斷一系列數(shù)據(jù)的連續(xù)性。因此,此方法(2)比上述方法(1)需要更長的計(jì)算時(shí)間。
為了實(shí)現(xiàn)此方法,例如把數(shù)據(jù)沿x和y方向壓縮一半的數(shù)據(jù)大小,以便減少數(shù)據(jù)處理的操作數(shù)目。
用于檢測(cè)人的其它方法(方法3)如上述方法2中那樣,人近似矩形,可以通過判斷大小順序變化的矩形區(qū)域中的數(shù)據(jù)是否滿足給出的條件來檢測(cè)人。
例如,如圖33所示,設(shè)置了大小為2×2、3×3和4×4的矩形區(qū)域。
在大小方面彼此不同的每個(gè)矩形區(qū)域逐個(gè)數(shù)據(jù)的移動(dòng),并且判斷區(qū)域中的數(shù)據(jù)是否滿足給定的條件。首先對(duì)最小的矩形區(qū)域進(jìn)行,然后類似地對(duì)第二小的矩形區(qū)域進(jìn)行,最后對(duì)最大矩形區(qū)域進(jìn)行。
當(dāng)對(duì)所有矩形區(qū)域完成上述數(shù)據(jù)移動(dòng)和判斷時(shí),將知道已檢測(cè)的區(qū)域和已檢測(cè)區(qū)域的數(shù)目。此操作將花費(fèi)的時(shí)間與上述方法2花費(fèi)的時(shí)間相似。
3.2.5 Telop特征所述telop特征檢測(cè)/判斷系統(tǒng)206檢測(cè)如圖25所示的屏幕區(qū)域中DCT的AC系數(shù)的平均值。
在屏幕的預(yù)定區(qū)域中,包括具有預(yù)定大小的字符之類的信息的telop輪廓比較清楚。當(dāng)telop圖像出現(xiàn)在圖25中所示的任何區(qū)域中時(shí),能夠檢測(cè)其值大于預(yù)定閾值的AC系數(shù),由此能夠檢測(cè)所述telop。
除DCT的AC系數(shù)的上述檢測(cè)以外,可以在基帶域(時(shí)間域的信號(hào))中進(jìn)行邊緣檢測(cè),以便例如根據(jù)圖像亮度方面的幀間差異來檢測(cè)邊緣。
此外,還進(jìn)行小波變換來分析多個(gè)分辨率,并且為類似于對(duì)DCT的AC系數(shù)的信號(hào)處理,使用包括預(yù)定高頻數(shù)據(jù)在內(nèi)的處于預(yù)定多分辨率區(qū)域中的數(shù)據(jù)來計(jì)算如圖25所示區(qū)域的平均值。
所述telop例如是出現(xiàn)在類似flip的淺色區(qū)域中以及新聞節(jié)目中的圖像下方的字符信息。出現(xiàn)telop的區(qū)域取決于廣播節(jié)目的類型,不過telop可能經(jīng)常出現(xiàn)在屏幕的下部、上部、右側(cè)部分或者左側(cè)部分中。
所述flip特征和flop特征可以一起包括在字符特征類別中。
3.2.6照相機(jī)特征所述照相機(jī)特征判斷系統(tǒng)209可以借助于依照MPEG定義的P畫面的運(yùn)動(dòng)矢量來判斷涉及照相機(jī)操作的特征,所述操作諸如變焦、全景拍攝以及其它操作,如第2003-298981號(hào)日本已公開專利申請(qǐng)中所公開的那樣。
除此技術(shù)之外,例如在第2002-535894號(hào)日本已公開專利申請(qǐng)中也公開了涉及照相機(jī)特征的技術(shù)。
4.采用重放單元(或者播放單元)的操作概要(摘要)重放是這樣的,即,使用通過預(yù)定信號(hào)處理獲得的諸如語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)的各種特征數(shù)據(jù)來選擇某些重要的(關(guān)鍵)幀部分作為預(yù)定部分,并且這些部分被順序地跳躍重放。
如果實(shí)現(xiàn)跳躍重放,那么在觀看屏幕的過程中,跳躍可能不會(huì)引起不適,但是如果語音不連續(xù),則在聽語音的過程中會(huì)使某些用戶感覺不愉快。由于這個(gè)原因,聲音等級(jí)低于預(yù)定等級(jí)(音量)的部分被設(shè)置為無聲部分,并且該部分中的預(yù)定時(shí)間點(diǎn)被作為跳躍的時(shí)間點(diǎn)。
此外,由于場景變化被認(rèn)為是正在重放的廣播節(jié)目、電影等等中的主題被打斷的時(shí)間點(diǎn),所以可以把場景變化點(diǎn)或者接近場景變化點(diǎn)的點(diǎn)作為候選跳躍點(diǎn)。
也就是說,可以認(rèn)為跳躍重放時(shí)間點(diǎn)和跳躍重放部分與預(yù)定語音信號(hào)的預(yù)定無聲部分和預(yù)定圖像信號(hào)的場景變化時(shí)間點(diǎn)或接近場景變化點(diǎn)的點(diǎn)相對(duì)應(yīng)。
從上述觀點(diǎn)看,為了便于說明,此處在設(shè)置了預(yù)定的重放單元(PU)的情況下來處理跳躍重放時(shí)間點(diǎn)(跳躍重放部分)。
對(duì)這樣設(shè)置的重放單元(PU)中的預(yù)定圖像和語音特征數(shù)據(jù)進(jìn)行預(yù)定的處理,以便對(duì)應(yīng)于語音特征數(shù)據(jù)和概要重放時(shí)間來設(shè)置預(yù)定的概要(摘要)重放部分,并且通過在預(yù)定的概要重放模式中進(jìn)行跳躍重放來實(shí)現(xiàn)預(yù)定的概要重放。
此外,能夠進(jìn)行上述概要重放,并且在通過預(yù)定的信號(hào)處理設(shè)置的PU的第一時(shí)間點(diǎn)(或者接近第一點(diǎn)的點(diǎn))或者最后時(shí)間點(diǎn)(或者接近最后點(diǎn)的點(diǎn))處設(shè)置章節(jié)(或者編輯點(diǎn)或者重放斷點(diǎn))。
也就是說,通過如上那樣設(shè)置章節(jié),能夠通過章節(jié)點(diǎn)的預(yù)定信號(hào)處理來顯示縮略圖顯示,并且對(duì)于用戶而言,能夠在瀏覽縮略圖顯示的過程中進(jìn)行編輯。
接下來,將根據(jù)圖34和35來解釋重放單元(PU)處理的示例。
在發(fā)聲部分(語音信號(hào)等級(jí)高于預(yù)定等級(jí))的情況下
在圖34A中示出的過程1中,如果語音部分具有高于預(yù)定等級(jí)的等級(jí)并且在10至20秒范圍內(nèi)持續(xù),那么把其語音片段持續(xù)15秒的斷點(diǎn)(預(yù)定的無聲檢測(cè)點(diǎn))而不是任何場景變化點(diǎn)作為重放單元的斷點(diǎn)。
在圖34B中示出的過程2中,如果語音部分持續(xù)20秒以上,同時(shí)場景變化部分持續(xù)20秒以下,那么把場景變化的斷點(diǎn)持續(xù)最接近15秒的時(shí)間的場景變化點(diǎn)檢測(cè)點(diǎn)作為重放單元的斷點(diǎn)。
在圖34C中示出的過程3中,如果語音持續(xù)20秒以上,同時(shí)場景變化部分持續(xù)20秒以上,那么把重放單元已經(jīng)持續(xù)20秒時(shí)的時(shí)間點(diǎn)而不是任何語音片段和場景變化點(diǎn)作為重放單元的斷點(diǎn)。
在圖34D中示出的過程4中,如果語音特征屬性在10至20秒的范圍內(nèi)改變,那么把屬性已經(jīng)改變的時(shí)間點(diǎn)作為重放單元的斷點(diǎn)。
在圖34E中示出的過程5中,如果已經(jīng)檢測(cè)到CM(廣告),那么把已經(jīng)檢測(cè)到CM時(shí)的時(shí)間點(diǎn)作為重放單元的斷點(diǎn)。
此處將根據(jù)圖35解釋用于CM檢測(cè)的方法。
通常,廣播節(jié)目中CM部分的長度是預(yù)定的(通常是15、30或者60秒),并且場景在CM的斷點(diǎn)(在開始和結(jié)束時(shí)間點(diǎn))改變。因此,通過檢測(cè)預(yù)定的時(shí)間長度和場景變化,能夠如圖36所示來檢測(cè)CM。
在無聲部分(語音信號(hào)等級(jí)低于預(yù)定等級(jí))的情況下在圖35A中示出的過程6中,如果無聲部分(其平均語音等級(jí)低于預(yù)定等級(jí))比20秒短并且場景變化檢測(cè)部分在長度上比20秒短,那么把最接近16秒的場景變化點(diǎn)作為重放單元的斷點(diǎn)。
在圖35B中示出的過程7中,如果無聲部分持續(xù)20秒以上,并且場景變化檢測(cè)部分持續(xù)20秒以上,那么把距離重放單元開始點(diǎn)20秒的點(diǎn)而不是任何場景變化檢測(cè)點(diǎn)作為重放單元的斷點(diǎn)。
在任何重放單元處理的上述解釋中,重放單元開始點(diǎn)的初始值是已經(jīng)記錄節(jié)目(廣播節(jié)目)時(shí)的開始點(diǎn)。
采用上述重放單元處理,能夠重放對(duì)應(yīng)于預(yù)定語音和圖像特征(場景變化特征)的預(yù)定重放單元。
重放單元生成器的方框結(jié)構(gòu)示例圖37是先前已經(jīng)解釋的重放單元處理器和單元化的特征數(shù)據(jù)處理器的示例性框圖,其中特征數(shù)據(jù)被提供給重放單元并且稍后將詳細(xì)說明。
由于諸如概要重放點(diǎn)和章節(jié)點(diǎn)的預(yù)定時(shí)間點(diǎn)設(shè)置在重放單元的開始和結(jié)束點(diǎn),所以如上文已經(jīng)解釋過的那樣,在與每個(gè)重放單元相對(duì)應(yīng)地放置特征數(shù)據(jù)的情況下來進(jìn)行設(shè)置。
也就是說,從每一預(yù)定部分中提取的預(yù)定特征數(shù)據(jù)、語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)根據(jù)重放單元部分被處理。
下面將解釋圖37中示出的單元化特征數(shù)據(jù)處理器的方框結(jié)構(gòu)的示例。
在圖37中示出的方框結(jié)構(gòu)示例中,把無聲判斷數(shù)據(jù)提供給時(shí)間測(cè)量系統(tǒng)301,其中測(cè)量基于上述重放單元處理的預(yù)定的間隔(時(shí)間長度)。把處理結(jié)果從系統(tǒng)301提供至重放單元處理器302。
還向重放單元處理器302提供場景變化判斷數(shù)據(jù)和CM檢測(cè)/判斷數(shù)據(jù)來進(jìn)行信號(hào)處理以便生成預(yù)定的重放單元,所述信號(hào)處理已經(jīng)關(guān)于用于重放單元處理的方法解釋過了。
CM檢測(cè)器304被提供有無聲特征檢測(cè)數(shù)據(jù)和場景變化特征數(shù)據(jù)以及頻道信息,所述頻道信息用于判斷目前所選的節(jié)目頻道是否是其上正在廣播CM的頻道,并且通過上文已經(jīng)參考圖36解釋過的預(yù)定信號(hào)處理方法來檢測(cè)CM。
重放單元特征數(shù)據(jù)處理器303被提供有諸如語音屬性信息、無聲信息等的語音特征數(shù)據(jù)以及諸如場景變化特征、色彩特征、類似-圖像特征、人的特征、telop特征等等的特征數(shù)據(jù),以便把每一特征數(shù)據(jù)填充到重放單元中,正如稍后將解釋的那樣。
5.PU特征數(shù)據(jù)處理接下來,將解釋PU特征數(shù)據(jù)文件處理。
所述PU特征數(shù)據(jù)文件包含語音和圖像特征數(shù)據(jù)。
所述特征數(shù)據(jù)是通過把所提取的語音和圖像特征數(shù)據(jù)填充到重放單元中來產(chǎn)生的。對(duì)于每個(gè)重放單元來說,各種特征數(shù)據(jù)(數(shù)據(jù)文件)被記錄到預(yù)定的記錄介質(zhì)中。
為了把特征數(shù)據(jù)記錄到每一重放單元中,為每個(gè)預(yù)定部分檢測(cè)到的每一特征數(shù)據(jù)被記錄到預(yù)定的記錄介質(zhì)中,然后處理對(duì)應(yīng)于重放單元的預(yù)定部分的特征數(shù)據(jù)。
表示語音和圖像特性的特征數(shù)據(jù)可以通過從語音信號(hào)(語音數(shù)據(jù))和圖像信號(hào)(圖像數(shù)據(jù))中提取預(yù)定特征數(shù)據(jù)(特性信號(hào))并且依照預(yù)定方式處理所提取的信號(hào)(數(shù)據(jù))來獲得。然而,此處應(yīng)當(dāng)注意的是,除非給出特別的提示,否則表示通過對(duì)特性數(shù)據(jù)(特性信號(hào))進(jìn)行預(yù)定處理獲得的特征的信號(hào)(數(shù)據(jù))也將被描述為特征數(shù)據(jù)(特征信號(hào))。
在圖像(視頻)信號(hào)的情況下,把I畫面的亮度信號(hào)(Y信號(hào))、彩色信號(hào)的DCT的DC系數(shù)(色差信號(hào))(Cb和Cr信號(hào))、B或者P畫面中的運(yùn)動(dòng)矢量數(shù)據(jù)以及DCT的AC系數(shù)作為特性數(shù)據(jù)從MPEG流中提取出來。從屏幕上的位置信息、預(yù)定閾值和相關(guān)值等中提取場景變化特征(scn)、照相機(jī)操作特征(cam)、類似-圖像特征(sid)、色彩特征(col)、人的特征(person)等等。
在語音信號(hào)的情況下,每隔約20毫秒計(jì)算語音信號(hào)的平均等級(jí)以便處理特性數(shù)據(jù),并且從計(jì)算數(shù)據(jù)和預(yù)定閾值中提取預(yù)定部分中的語音信號(hào)的諸如屬性(class)、平均功率(平均等級(jí))等等的語音特征(seg特征)。
此處應(yīng)認(rèn)為語音屬性是談話者的語音、音樂(音樂聲)、體育節(jié)目中的歡呼等等。
5.1特征數(shù)據(jù)文件結(jié)構(gòu)圖38示出了特征數(shù)據(jù)文件的結(jié)構(gòu)的第一示例,其中諸如場景變化特征(scn)、照相機(jī)特征(cam)、類似-場景特征(sid)、telop特征(tlp)、色彩特征(col)、人的特征(person)等等的上述語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)分別形成獨(dú)立的特征數(shù)據(jù)文件。
每一特征數(shù)據(jù)文件被寫為文本形式的數(shù)據(jù)或者二進(jìn)制形式的數(shù)據(jù)。
應(yīng)注意的是,能夠把這些特征數(shù)據(jù)臨時(shí)存儲(chǔ)為文件數(shù)據(jù)以待記錄到預(yù)定的記錄介質(zhì)中,或者作為標(biāo)準(zhǔn)數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)(例如半導(dǎo)體存儲(chǔ)器)中,并且稍后讀取以便用來生成概要列表數(shù)據(jù)和預(yù)定的設(shè)置時(shí)間點(diǎn)(章節(jié)點(diǎn)),稍后將描述。這對(duì)于圖39和40中示出的數(shù)據(jù)文件也是成立的。
圖39示出了特征數(shù)據(jù)文件的結(jié)構(gòu)的第二示例,其中所有上述語音特征數(shù)據(jù)被設(shè)置為一個(gè)文本或二進(jìn)制形式的文件,并且所有上述圖像特征數(shù)據(jù)被設(shè)置為一個(gè)文本或者二進(jìn)制形式的文件。
圖40示出了特征數(shù)據(jù)文件的結(jié)構(gòu)的第三示例,其中所有上述語音特征數(shù)據(jù)和所有上述的圖像特征數(shù)據(jù)被設(shè)置為一個(gè)文本或二進(jìn)制形式的文件。
通過依照第二和第三示例中那樣將多個(gè)特征數(shù)據(jù)設(shè)置到一個(gè)文件中,可以比圖38所示的第一示例更加容易地處理數(shù)據(jù)。此外,二進(jìn)制形式的文件在數(shù)據(jù)大小(文件大小或者文件容量)方面更小并且更加有效。
此處將解釋如圖40中示出的第三示例中那樣將特征數(shù)據(jù)寫入二進(jìn)制形式的特征文件。
圖40中示出的第三示例是圖39中示出的第二示例的一個(gè)版本,其中依照二進(jìn)制形式描述的所有語音特征數(shù)據(jù)和依照二進(jìn)制形式描述的所有圖像特征數(shù)據(jù)被加起來。
由此,如隨后解釋的在特征數(shù)據(jù)文件中處理(描述)語音特征數(shù)據(jù)的方法適用于圖39中示出的語音特征數(shù)據(jù),并且處理(描述)圖像特征數(shù)據(jù)的方法適用于圖39中示出的第二示例中的圖像特征數(shù)據(jù)。
5.2特征數(shù)據(jù)的分級(jí)結(jié)構(gòu)圖41示出了以重放單元為單位的特征數(shù)據(jù)的分級(jí)結(jié)構(gòu)的示例。
特征數(shù)據(jù)依照預(yù)定方式并且以預(yù)定重放單元為單位被處理,如下面將解釋的那樣。
所述特征數(shù)據(jù)包括特征數(shù)據(jù)首部信息、節(jié)目-1特征數(shù)據(jù)、節(jié)目-2特征數(shù)據(jù)等等,如圖41所示。
所述特征數(shù)據(jù)首部信息包括預(yù)定的數(shù)據(jù),諸如總記錄時(shí)間、記錄開始和結(jié)束時(shí)間點(diǎn)、節(jié)目(廣播節(jié)目)數(shù)目以及其他節(jié)目信息,諸如節(jié)目1、節(jié)目2等等,如圖42所示。
接下來,將以節(jié)目-1特征數(shù)據(jù)作為例子來解釋節(jié)目(廣播節(jié)目)中的特征數(shù)據(jù)。
如圖41所示,節(jié)目-1特征數(shù)據(jù)包括節(jié)目-1信息、重放單元-1信息、重放單元-2信息等等。
如圖42所示,節(jié)目-1特征數(shù)據(jù)包括預(yù)定的數(shù)據(jù),諸如節(jié)目記錄時(shí)間、節(jié)目開始和結(jié)束時(shí)間點(diǎn)、節(jié)目類型(廣播節(jié)目類型)等等。
接下來,將以重放單元-1信息作為例子來解釋重放單元的數(shù)據(jù)結(jié)構(gòu)。重放單元-1信息包括語音特征數(shù)據(jù)和圖像特征數(shù)據(jù),如圖41所示。
語音特征數(shù)據(jù)結(jié)構(gòu)語音特征數(shù)據(jù)包括序號(hào)信息、開始/結(jié)束點(diǎn)信息、語音屬性信息、特征數(shù)據(jù)以及其它數(shù)據(jù),如圖41所示。
圖像特征數(shù)據(jù)結(jié)構(gòu)所述圖像特征數(shù)據(jù)包括預(yù)定的特征數(shù)據(jù),諸如場景變化特征、色彩特征、類似-圖像特征、人的特征、telop特征、照相機(jī)特征等等,如圖41所示。
在下文中,將解釋所述場景變化特征、色彩特征、類似-圖像特征、人的特征、telop特征、照相機(jī)特征等等。對(duì)于所有預(yù)定部分的每一個(gè)來說,這些特征數(shù)據(jù)的每一個(gè)均被記錄到預(yù)定的記錄介質(zhì)中。另外,例如只有當(dāng)檢測(cè)到其值大于預(yù)定閾值的特征數(shù)據(jù)時(shí),才對(duì)其進(jìn)行預(yù)定的處理以便記錄到預(yù)定的記錄介質(zhì)中。
如果只對(duì)檢測(cè)到的其值大于預(yù)定閾值的特征數(shù)據(jù)進(jìn)行預(yù)定的處理,那么其值小于預(yù)定閾值的預(yù)定特征數(shù)據(jù)將不被寫入記錄介質(zhì)。因此,如果其值大于閾值的特征數(shù)據(jù)被檢測(cè)到并且依照預(yù)定方式被記錄,那么能夠根據(jù)序號(hào)信息獲知從最初檢測(cè)到的特征數(shù)據(jù)開始計(jì)數(shù)的、檢測(cè)到特征數(shù)據(jù)的順序,下面將解釋此內(nèi)容。
場景變化特征
場景變化特征包括序號(hào)信息、開始/結(jié)束位置點(diǎn)信息、特征數(shù)據(jù)以及其它數(shù)據(jù),如圖43所示。
序號(hào)信息表明發(fā)生場景變化的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
開始/結(jié)束點(diǎn)信息表明處于上述順序中的場景變化開始或者結(jié)束的點(diǎn)。它可以是幀(場)編號(hào)、PTS、DTS、時(shí)間等等。
色彩特征如圖43所示,色彩特征包括序號(hào)信息、用于標(biāo)識(shí)檢測(cè)區(qū)域的數(shù)據(jù)、開始/結(jié)束點(diǎn)信息、特征數(shù)據(jù)以及其它數(shù)據(jù)。
序號(hào)信息表明檢測(cè)到色彩特征的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
開始/結(jié)束點(diǎn)信息表明在依照上述順序?qū)γ恳惶卣鬟M(jìn)行檢測(cè)的過程中檢測(cè)到每一區(qū)域的特征的開始/結(jié)束點(diǎn)。它可以是幀(場)編號(hào)、PTS、DTS、時(shí)間等等。
所述特征數(shù)據(jù)例如包括RGB、Y、Cb、Cr等等。
類似-圖像特征如圖43所示,類似-圖像特征包括序號(hào)信息、出現(xiàn)頻率信息、開始/結(jié)束點(diǎn)信息、特征數(shù)據(jù)以及其他信息。
序號(hào)信息表明檢測(cè)到類似-圖像特征的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
所述特征數(shù)據(jù)例如包括上述有效屏幕的預(yù)定數(shù)目的子部分(例如,25片)的每一個(gè)中的DCT的平均DC系數(shù)。
人的特征如圖43所示,人的特征包括序號(hào)信息、用于標(biāo)識(shí)檢測(cè)區(qū)域的數(shù)據(jù)、開始/結(jié)束點(diǎn)信息、特征數(shù)據(jù)以及其它數(shù)據(jù)。
序號(hào)信息表明檢測(cè)到類似-圖像特征的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
telop特征如圖43所示,telop特征包括序號(hào)信息、用于標(biāo)識(shí)檢測(cè)區(qū)域的數(shù)據(jù)、開始/結(jié)束點(diǎn)信息、特征數(shù)據(jù)以及其它數(shù)據(jù)。
序號(hào)信息表明檢測(cè)到telop特征的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
照相機(jī)特征如圖43所示,照相機(jī)特征包括序號(hào)信息、用于標(biāo)識(shí)檢測(cè)區(qū)域的數(shù)據(jù)、開始/結(jié)束點(diǎn)信息、特征數(shù)據(jù)以及其它數(shù)據(jù)。
序號(hào)信息表明檢測(cè)到照相機(jī)特征的從廣播節(jié)目起始開始計(jì)數(shù)的順序,諸如0,1,2,3,...。
為了記錄廣播節(jié)目,特征提取和特征數(shù)據(jù)記錄可以與記錄廣播節(jié)目的預(yù)定操作同時(shí)進(jìn)行,此后將解釋這部分內(nèi)容。此外,還可以依照預(yù)定方式從已記錄的廣播節(jié)目、其它電影、戲劇或者任何其它圖像/語音軟件中提取特征以便生成特征數(shù)據(jù)文件。
如果如上所述那樣使用PU和特征數(shù)據(jù)來記錄節(jié)目1,那么可以類似地使用它們來記錄其它節(jié)目2和3。
6.播放列表處理(概要重放列表生成)接下來,將解釋根據(jù)采用上述特征提取操作生成的PU文件(PU特征數(shù)據(jù)文件)對(duì)概要(摘要)重放進(jìn)行的概要數(shù)據(jù)處理。
6.1概要規(guī)則處理在使用此處提及的特征數(shù)據(jù)的概要(摘要)重放操作中,通過以上述PU為單位進(jìn)行預(yù)定重放部分的跳躍重放來實(shí)現(xiàn)所期望的概要(摘要)重放。
6.2預(yù)定時(shí)間點(diǎn)設(shè)置(播放列表文件處理)接下來,將解釋播放列表文件。
播放列表文件在預(yù)定的數(shù)據(jù)中描述了選擇對(duì)應(yīng)于上述特征數(shù)據(jù)表征的PU或者PU塊中的哪一個(gè)來進(jìn)行重放。
應(yīng)注意的是,數(shù)據(jù)可以臨時(shí)被記錄在預(yù)定的記錄介質(zhì)或者預(yù)定的存儲(chǔ)器裝置中,所述預(yù)定的記錄介質(zhì)中已經(jīng)記錄有從中檢測(cè)到特征的圖像/語音數(shù)據(jù)。
圖44A和44B中示出了播放列表文件的示例。
在圖44A的示例1中,垂直數(shù)據(jù)序列(a)包括有關(guān)重放部分開始點(diǎn)的信息。所述數(shù)據(jù)包括預(yù)定的信息,諸如幀編號(hào)、瞬時(shí)時(shí)間、來自流(壓縮的圖像/語音數(shù)據(jù))的PTS(呈現(xiàn)時(shí)間戳)或者DTS(解碼時(shí)間戳)。
在圖44A的示例1中,垂直數(shù)據(jù)序列(b)包括有關(guān)重放部分結(jié)束點(diǎn)的信息。所述數(shù)據(jù)序列(b)包括對(duì)應(yīng)于示例1中的數(shù)據(jù)序列(a)的預(yù)定的信息,諸如幀編號(hào)、瞬時(shí)時(shí)間、來自流(壓縮的圖像/語音數(shù)據(jù))的PTS(呈現(xiàn)時(shí)間戳)或者DTS(解碼時(shí)間戳)。
在圖44A的示例1中,垂直數(shù)據(jù)序列(c)表明PU(重放或者播放單元)或者重放單元組(PU組)的重要性。
在圖44A的示例1中,垂直數(shù)據(jù)序列(d)表明具有在概要規(guī)則下定義或設(shè)置的含義的字符數(shù)據(jù)。
在圖44B的示例2中,通過描述所有PU部分的含義字符和評(píng)估值(重要性),提供了用于表明重放部分的預(yù)定時(shí)間點(diǎn)、章節(jié)等等的識(shí)別數(shù)據(jù)“0”和“1”。
在圖44B的示例2中,列(a)和(b)中示出的開始和結(jié)束點(diǎn)與列(a)或者(b)的下一行中的數(shù)據(jù)連續(xù),正如下面將解釋的那樣。
例如,在圖44B的示例2中,第一開始和結(jié)束點(diǎn)分別是0和229,而結(jié)束點(diǎn)229與下一開始點(diǎn)230連續(xù)。
在圖44B的示例2中,垂直數(shù)據(jù)序列(e)表明是否將要執(zhí)行概要重放的標(biāo)志數(shù)據(jù)。數(shù)字“1”表明將要執(zhí)行概要重放,而“0”表明將不執(zhí)行概要重放。
此外,第一時(shí)間點(diǎn)“1”和第一時(shí)間點(diǎn)“0”可以被認(rèn)為是預(yù)定的時(shí)間點(diǎn)(章節(jié)點(diǎn))。
7.操作流程圖45示出了在按照本發(fā)明實(shí)施例的記錄器/播放器(此后將簡稱為“設(shè)備”)中進(jìn)行的操作流程的示例。
在使設(shè)備投入操作之后,首先在步驟S1判斷所述操作處于記錄模式還是重放模式。當(dāng)所述操作被確定為記錄模式時(shí),設(shè)備改變?yōu)橛涗洸僮?R)。如果操作被確定為重放模式,那么設(shè)備前進(jìn)到步驟S2。
7.1重放操作流程重放操作流程的示例在重放操作模式中,在步驟S2判斷重放操作是處于概要(摘要)重放模式還是正常重放模式。如果重放操作處于正常重放模式,則設(shè)備切換至正常重放操作(P)。
如果重放操作處于概要重放模式,那么在步驟S3判斷是否已經(jīng)把預(yù)定的特征數(shù)據(jù)記錄在預(yù)定的記錄介質(zhì)中,或者是否已經(jīng)把預(yù)定的特征數(shù)據(jù)作為預(yù)定的文件數(shù)據(jù)記錄到記錄介質(zhì)的預(yù)定記錄區(qū)域中。
如果在步驟S3確定出已經(jīng)把預(yù)定的特征數(shù)據(jù)記錄在預(yù)定的記錄介質(zhì)中,那么設(shè)備前進(jìn)到步驟S4,其中將判斷是否已經(jīng)把預(yù)定的播放列表數(shù)據(jù)(數(shù)據(jù)文件)記錄在記錄介質(zhì)的預(yù)定記錄區(qū)域中。如果在步驟S4確定已經(jīng)把預(yù)定的播放列表數(shù)據(jù)(播放列表文件)記錄在記錄介質(zhì)的預(yù)定記錄區(qū)域中,那么設(shè)備前進(jìn)到步驟S5,其中將讀取預(yù)定的播放列表數(shù)據(jù)。
如果在步驟S3確定尚未把預(yù)定的數(shù)據(jù)記錄在預(yù)定的記錄介質(zhì)中,那么設(shè)備前進(jìn)到步驟S8,其中所述設(shè)備將讀取想要的圖像/語音數(shù)據(jù)(廣播節(jié)目),并且從圖像/語音數(shù)據(jù)進(jìn)行預(yù)定的特征提取。在步驟S9,判斷預(yù)定的特征提取是否完成。如果確定預(yù)定的特征提取沒有結(jié)束,那么設(shè)備返回到步驟S8,其中將重復(fù)適當(dāng)?shù)牟僮?,直到完成預(yù)定的特征提取為止。
如果在步驟S9確定預(yù)定的特征提取結(jié)束,那么設(shè)備前進(jìn)到步驟S6,其中將生成預(yù)定的播放列表數(shù)據(jù)。
如果在步驟S4確定尚未檢測(cè)到預(yù)定的播放列表數(shù)據(jù)(文件),那么設(shè)備前進(jìn)到步驟S6,其中設(shè)備將讀取記錄在預(yù)定記錄介質(zhì)的預(yù)定記錄區(qū)域中的預(yù)定特征數(shù)據(jù),生成預(yù)定的列表數(shù)據(jù)(文件),并且把生成的數(shù)據(jù)一個(gè)接一個(gè)地或者把已處理的數(shù)據(jù)寫入預(yù)定記錄介質(zhì)的預(yù)定區(qū)域中。然后,設(shè)備前進(jìn)到步驟S7,其中將判斷所有播放列表生成操作是否完成。如果確定沒有結(jié)束所有播放列表生成操作,那么設(shè)備返回到步驟S6,其中將重復(fù)適當(dāng)?shù)牟僮?。如果在步驟S7確定所有預(yù)定的播放列表數(shù)據(jù)已經(jīng)生成,那么設(shè)備將在步驟S5讀取已經(jīng)寫入的播放列表數(shù)據(jù)。
應(yīng)注意的是,在步驟S6,順序生成的播放列表數(shù)據(jù)可以被一個(gè)接一個(gè)地記錄到其中記錄了例如廣播節(jié)目的圖像/語音數(shù)據(jù)的記錄介質(zhì)的預(yù)定記錄區(qū)域中,或者可以把信息寫入除已記錄有圖像/語音數(shù)據(jù)以外的記錄介質(zhì)、例如預(yù)定的可移除存儲(chǔ)器中。
此外,在此情況下,預(yù)定的播放列表數(shù)據(jù)可以被一個(gè)接一個(gè)生成,并且可以被寫入,或者所有播放列表數(shù)據(jù)可以在記錄之前被生成并且處理。
此外,如下面將根據(jù)圖46和47解釋的那樣,可以對(duì)應(yīng)于記錄時(shí)間生成多個(gè)播放列表數(shù)據(jù),以便使用戶能夠選擇多個(gè)概要重放時(shí)間長度。
由于為每個(gè)預(yù)定PU部分或者如上通過多個(gè)PU部分形成的每一預(yù)定部分設(shè)置了預(yù)定的評(píng)估值,所以可以對(duì)應(yīng)于所述評(píng)估值來操縱概要重放時(shí)間。
在步驟S10,設(shè)備切換至重放時(shí)間選擇模式。在步驟S11,判斷用戶是已經(jīng)直接選擇了重放時(shí)間,還是已經(jīng)選擇概要重放模式然后在從完成播放列表數(shù)據(jù)檢測(cè)開始的預(yù)定時(shí)間tmod內(nèi)選擇重放時(shí)間。如果確定出沒有選擇重放時(shí)間,那么在步驟S12判斷用戶是否已經(jīng)選擇了重放停止。
如果在步驟S12確定用戶已經(jīng)選擇了重放停止,那么設(shè)備退出重放操作。如果確定用戶沒有選擇重放停止,那么設(shè)備返回到步驟S10,其中將重復(fù)適當(dāng)?shù)牟僮鳌?br>
如果在步驟S11確定用戶已經(jīng)直接選擇了重放時(shí)間,或者用戶沒有在預(yù)定時(shí)間tmod內(nèi)選擇任何重放時(shí)間,那么設(shè)備前進(jìn)到步驟S13,其中它將切換至概要重放操作。
應(yīng)注意的是,如果用戶已經(jīng)選擇了重放時(shí)間,那么概要重放在所選的概要重放時(shí)間開始。當(dāng)沒有選擇重放時(shí)間并且預(yù)定時(shí)間tmod已經(jīng)過去時(shí),將在預(yù)定的默認(rèn)設(shè)置的重放時(shí)間(計(jì)劃的設(shè)置重放時(shí)間)tpb0時(shí)開始概要重放。
應(yīng)注意的是,用戶可以自由地選擇概要重放時(shí)間,或者可以從根據(jù)已記錄的節(jié)目記錄時(shí)間和播放列表數(shù)據(jù)預(yù)置的重放時(shí)間長度中選擇概要重放時(shí)間。
如果重放時(shí)間長度例如是5、10、15、20、30分鐘等,那么可以對(duì)應(yīng)于記錄時(shí)間來設(shè)置默認(rèn)提供重放時(shí)間,例如圖46所示。
在圖46所示的示例中,只有當(dāng)概要重放時(shí)間長于預(yù)定的記錄時(shí)間(Trecmin)時(shí),才可以設(shè)置概要重放模式。如果作為預(yù)定記錄時(shí)間Trecmin的記錄時(shí)間Trec少于10分鐘,那么由于記錄時(shí)間過短,所以無法設(shè)置概要重放模式,而只能設(shè)置正常重放模式。
如果記錄時(shí)間Trec例如是60分鐘,那么用戶可選的概要重放時(shí)間長度將是10、15、30和40分鐘,并且默認(rèn)設(shè)置的時(shí)間是30分鐘,如圖46所示。
如圖46中示出的示例所示,記錄時(shí)間Trec越長,用戶可選的概要重放時(shí)間長度的數(shù)目就越大。然而,如果記錄時(shí)間短,那么在概要重放中使用跳躍重放被跳躍的所有部分的數(shù)目越多,丟失的信息越多,由此使重放的內(nèi)容不可能被理解。因此,為了選擇適當(dāng)?shù)母乓胤艜r(shí)間,減少選擇的數(shù)目。如果記錄時(shí)間長于概要重放時(shí)間,那么信息量很大。在此情況下,增加選擇的數(shù)目,以便使用戶能夠進(jìn)行有效的操作。
可以在附屬于本發(fā)明實(shí)施例的預(yù)定顯示器上、與設(shè)備相連的預(yù)定顯示器上或者附屬于設(shè)備的遙控器上的諸如液晶顯示器的預(yù)定顯示屏上,顯示諸如這種用戶可選概要重放時(shí)間長度列表、默認(rèn)重放時(shí)間等等的信息。
應(yīng)注意的是,章節(jié)設(shè)置可以與播放列表生成同時(shí)執(zhí)行。在此情況下,預(yù)定的章節(jié)設(shè)置對(duì)應(yīng)于章節(jié)數(shù)目自動(dòng)進(jìn)行,并且可以對(duì)應(yīng)于記錄時(shí)間來設(shè)置,如圖47所示。
例如,如果記錄時(shí)間是一小時(shí),那么預(yù)定的信號(hào)處理將被執(zhí)行以便設(shè)置5至40個(gè)章節(jié),如圖47所示。
在步驟S13,進(jìn)行概要重放。由于為預(yù)定的PU部分或者為通過多個(gè)PU部分形成的每個(gè)部分設(shè)置了評(píng)估值,所以根據(jù)設(shè)置的時(shí)間和評(píng)估值來執(zhí)行跳躍重放,由此進(jìn)行概要重放。
也就是說,從其評(píng)估值最大的PU部分開始一個(gè)接一個(gè)地選擇PU部分,并且順序地選擇其評(píng)估值小于最大值的PU部分,直到概要重放時(shí)間接近所選值為止。
在步驟S14,判斷重放操作是否將要結(jié)束。如果確定出操作將要結(jié)束,那么設(shè)備退出重放操作。如果不結(jié)束確定操作,那么設(shè)備前進(jìn)到步驟S15,其中判斷預(yù)定廣播節(jié)目的重放是否結(jié)束。如果完成重放,那么設(shè)備退出重放操作。如果重放沒有完成,那么設(shè)備前進(jìn)到步驟S16,其中判斷重放時(shí)間是否將要變化。
如果在步驟S16確定重放時(shí)間將要變化,那么設(shè)備返回到步驟S10,其中將重復(fù)適當(dāng)?shù)牟僮鳌H绻_定重放時(shí)間不會(huì)變化,那么設(shè)備返回到步驟S13,其中將重復(fù)用于概要重放的適當(dāng)操作。
7.2記錄操作流程記錄操作流程的示例圖48示出了記錄中進(jìn)行的操作流程的示例。
在圖45中示出的操作流程中,如果在步驟S1已經(jīng)選擇了記錄模式,那么在圖48中,在步驟R1判斷記錄操作處于定時(shí)記錄模式還是正常記錄模式。如果記錄操作被確定為正常記錄模式,那么設(shè)備前進(jìn)到步驟R9,其中將進(jìn)行正常的記錄操作。
在步驟R9的正常記錄模式中,設(shè)備進(jìn)行到用于預(yù)定記錄信號(hào)處理的操作。在步驟R10,從將依照預(yù)定方式(依照MPEG等等定義的)編碼的圖像/語音數(shù)據(jù)或者已經(jīng)編碼的圖像/語音數(shù)據(jù)中進(jìn)行預(yù)定的特征提取。
應(yīng)注意的是,記錄信號(hào)處理和特征提取操作可以同時(shí)進(jìn)行。
借助于預(yù)定的編碼過程中的圖像/語音數(shù)據(jù),對(duì)將進(jìn)行預(yù)定編碼的圖像/語音數(shù)據(jù)進(jìn)行預(yù)定的特征提取。例如,能夠提取通過DCT信號(hào)處理產(chǎn)生的DC系數(shù)數(shù)據(jù)和AC系數(shù)數(shù)據(jù),所述DCT信號(hào)處理是通過用于圖像數(shù)據(jù)的DCT處理的系統(tǒng)實(shí)現(xiàn)的。使用這些預(yù)定的數(shù)據(jù)來進(jìn)行上述預(yù)定的特征提取信號(hào)處理,諸如場景變化數(shù)據(jù)的檢測(cè)(剪切點(diǎn)特征的檢測(cè))、telop特征的檢測(cè)等等。
在預(yù)定的頻帶壓縮信號(hào)處理中的預(yù)定子帶信號(hào)處理中,可以使用預(yù)定子帶中的數(shù)據(jù)來處理語音數(shù)據(jù),以便判斷數(shù)據(jù)是談話者的語音還是音樂(音樂聲)。
例如可以通過判斷預(yù)定子帶中的信號(hào)的連續(xù)性來進(jìn)行音樂聲判斷信號(hào)處理。
此外,還可以使用基帶中的圖像/語音數(shù)據(jù)。例如,圖像數(shù)據(jù)的基帶信號(hào)可用來通過幀間(場間)差異信號(hào)處理、基于差異信號(hào)通過邊緣檢測(cè)進(jìn)行的telop特征信號(hào)處理以及其它預(yù)定的特征信號(hào)處理來實(shí)現(xiàn)場景變化檢測(cè)。
應(yīng)注意的是,已經(jīng)進(jìn)行了語音特征提取信號(hào)處理的特征數(shù)據(jù)被記錄到預(yù)定的數(shù)據(jù)存儲(chǔ)設(shè)備(數(shù)據(jù)記錄裝置)或者預(yù)定的緩沖存儲(chǔ)器中,所述數(shù)據(jù)存儲(chǔ)設(shè)備諸如是其中還記錄了圖像/語音數(shù)據(jù)的預(yù)定的記錄介質(zhì)。
在步驟R11,判斷正常記錄模式是否將要結(jié)束。如果確定正常記錄模式不會(huì)結(jié)束,那么設(shè)備返回到步驟R9,其中將重復(fù)適當(dāng)?shù)牟僮?。如果確定正常記錄模式將要結(jié)束,那么設(shè)備前進(jìn)到步驟R12,其中將進(jìn)行播放列表數(shù)據(jù)生成(或者章節(jié)數(shù)據(jù)生成)。
如果在步驟R1確定記錄操作處于定時(shí)記錄模式,那么在步驟R2,設(shè)備設(shè)置記錄開始和結(jié)束時(shí)間點(diǎn),并前進(jìn)到步驟R3,其中將判斷所設(shè)置的時(shí)間點(diǎn)是否是預(yù)定的時(shí)間點(diǎn)。如果確定所設(shè)置的時(shí)間點(diǎn)不是預(yù)定的,那么設(shè)備前進(jìn)到步驟R6,其中它將等待。在步驟R7,判斷是否已經(jīng)進(jìn)行中斷以便取消定時(shí)記錄操作。如果定時(shí)操作將要繼續(xù),那么設(shè)備返回到步驟R3,其中將重復(fù)適當(dāng)?shù)牟僮鳌?br>
如果在步驟S7確定定時(shí)記錄操作已經(jīng)被取消,那么設(shè)備返回到圖45中的S1,其中將重復(fù)初始的操作模式選擇。
如果在步驟R3確定所設(shè)置的時(shí)間點(diǎn)是預(yù)定的,那么設(shè)備開始記錄操作并且在步驟R4至R6重復(fù)如同步驟R9至R11的操作。
已經(jīng)進(jìn)行了圖像/語音提取信號(hào)處理的特征數(shù)據(jù)(特征提取數(shù)據(jù))被記錄到預(yù)定的數(shù)據(jù)存儲(chǔ)設(shè)備(數(shù)據(jù)記錄裝置)或者預(yù)定的緩沖存儲(chǔ)器中,所述數(shù)據(jù)存儲(chǔ)設(shè)備例如是其中還記錄了圖像/語音數(shù)據(jù)的預(yù)定的記錄介質(zhì)。如果在步驟R8確定到達(dá)預(yù)定的結(jié)束點(diǎn),那么設(shè)備前進(jìn)到步驟R12,其中將進(jìn)行播放列表數(shù)據(jù)生成或者章節(jié)數(shù)據(jù)生成。
在步驟R12,從預(yù)定的記錄介質(zhì)中讀取已經(jīng)進(jìn)行了各種預(yù)定特征提取處理(諸如已經(jīng)進(jìn)行了特征提取處理的預(yù)定特征數(shù)據(jù)、已經(jīng)進(jìn)行了預(yù)定的信號(hào)處理的數(shù)據(jù)、以及已經(jīng)使用這些數(shù)據(jù)進(jìn)行了預(yù)定判斷處理的數(shù)據(jù)的預(yù)定處理)的特征數(shù)據(jù),以便進(jìn)行預(yù)定的播放列表數(shù)據(jù)(文件)生成和章節(jié)數(shù)據(jù)生成。
由此生成的播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)被記錄到預(yù)定的記錄介質(zhì)中。在步驟R13,判斷是否完成生成。如果確定所述生成沒有結(jié)束,那么設(shè)備返回到步驟R12,其中將重復(fù)適當(dāng)?shù)牟僮鳌H绻_定所述生成結(jié)束,那么設(shè)備返回到步驟R13,其中將重復(fù)適當(dāng)?shù)牟僮鳌?br>
應(yīng)注意的是,播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)可以在生成它們的同時(shí)被記錄到預(yù)定的記錄介質(zhì)中,或者可以在預(yù)定廣播節(jié)目、待處理的節(jié)目或預(yù)定記錄部分的預(yù)定播放列表數(shù)據(jù)和章節(jié)數(shù)據(jù)全部生成之后將它們?nèi)坑涗浀筋A(yù)定的記錄介質(zhì)中。
與特征提取并行的播放列表數(shù)據(jù)(章節(jié)數(shù)據(jù))的處理已經(jīng)描述了與記錄諸如預(yù)定的廣播節(jié)目、節(jié)目等等的圖像/語音數(shù)據(jù)同時(shí)進(jìn)行預(yù)定的特征提取,提取之后的各種特征數(shù)據(jù)(包括進(jìn)行了預(yù)定處理和使用特征提取數(shù)據(jù)或特征數(shù)據(jù)進(jìn)行信號(hào)處理的信號(hào))被記錄到預(yù)定的記錄介質(zhì)中,并且所記錄的特征數(shù)據(jù)在完成預(yù)定廣播節(jié)目或者節(jié)目之后被讀取以便生成播放列表數(shù)據(jù)(文件)、章節(jié)數(shù)據(jù)等等。然而,應(yīng)該注意的是,播放列表數(shù)據(jù)(文件)和章節(jié)數(shù)據(jù)可以與特征提取同時(shí)或并行地生成。
7.3重放單元處理操作的流程在每一預(yù)定數(shù)據(jù)部分通過處理PU進(jìn)行的語音片段和場景變化的處理圖49示出了在上述PU信號(hào)處理中在語音片段檢測(cè)點(diǎn)和場景變化檢測(cè)點(diǎn)開始的預(yù)定信號(hào)處理的操作流程的示例。
投入操作的設(shè)備進(jìn)入步驟P1,在該步驟中,設(shè)備將從其中記錄有圖像/語音數(shù)據(jù)的預(yù)定記錄介質(zhì)中讀取語音數(shù)據(jù)和預(yù)定數(shù)目的樣品圖像數(shù)據(jù)以便檢測(cè)場景變化(稍后將詳細(xì)說明),然后前進(jìn)到步驟P2,其中把由此讀取的數(shù)據(jù)記錄到作為例如存儲(chǔ)器的預(yù)定記錄裝置的數(shù)據(jù)緩沖器中。
在步驟P3,判斷是否已經(jīng)把預(yù)定數(shù)目的采樣數(shù)據(jù)記錄到緩沖器中。如果確定已經(jīng)記錄了預(yù)定數(shù)目的采樣數(shù)據(jù),那么設(shè)備前進(jìn)到步驟P4。如果確定尚未記錄所述預(yù)定數(shù)目的采樣數(shù)據(jù),那么設(shè)備返回到步驟P2,其中將重復(fù)適當(dāng)?shù)牟僮鳌?br>
應(yīng)注意的是,在步驟P2至P7,為PU處理而進(jìn)行語音信號(hào)是發(fā)聲還是無聲信號(hào)的預(yù)定判斷。在步驟P2,把對(duì)應(yīng)于約0.1至1秒的預(yù)定部分長度的預(yù)定數(shù)目的采樣數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)緩沖器中。
例如,如果采樣頻率是48kHz,那么一秒等于48,000個(gè)采樣數(shù)據(jù),并且0.1秒等于4,800個(gè)采樣數(shù)據(jù)。把這種數(shù)量的采樣數(shù)據(jù)記錄到數(shù)據(jù)緩沖器中。
在步驟P4,從數(shù)據(jù)緩沖器中讀取語音數(shù)據(jù)。在步驟P5,上述預(yù)定部分的語音等級(jí)被計(jì)算。在步驟P6,把語音等級(jí)與預(yù)定的等級(jí)比較,以便判斷它高于還是低于預(yù)定等級(jí)。由此,完成無聲檢測(cè)(無聲判斷)。
如果在步驟P6確定被測(cè)部分是無聲的,那么設(shè)備前進(jìn)到步驟P7,其中它將把該信息記錄到預(yù)定的存儲(chǔ)器(緩沖器)中。如果在步驟P6確定所述部分不是無聲的而是發(fā)聲的,那么設(shè)備前進(jìn)到步驟P8,其中判斷在步驟P1讀取的數(shù)據(jù)的緩沖是否結(jié)束。如果確定所述緩沖沒有結(jié)束,那么設(shè)備前進(jìn)到步驟P2,其中將重復(fù)適當(dāng)?shù)牟僮?。如果完成緩沖,那么設(shè)備將到達(dá)步驟P9。
在步驟P9,讀取在步驟P8處理的語音片段信息。然后,設(shè)備前進(jìn)到步驟P10,其中它將對(duì)上述的短無聲部分和發(fā)聲部分以及長無聲和發(fā)聲部分進(jìn)行分段。
在步驟P11,通過對(duì)預(yù)定數(shù)目的采樣圖像數(shù)據(jù)進(jìn)行DCT處理而產(chǎn)生的數(shù)據(jù)被記錄到緩沖存儲(chǔ)器(預(yù)定的數(shù)據(jù)記錄裝置)中。在步驟P12,判斷預(yù)定量的數(shù)據(jù)的記錄是否完成。如果確定尚未記錄預(yù)定量的數(shù)據(jù),那么設(shè)備返回到步驟P11,其中將重復(fù)向緩沖存儲(chǔ)器的寫操作。如果在步驟P12確定預(yù)定量數(shù)據(jù)的記錄完成,那么設(shè)備前進(jìn)到步驟P13。
在步驟P13,從預(yù)定的緩沖存儲(chǔ)器中讀取預(yù)定的DCT數(shù)據(jù)。在步驟P14,對(duì)幀間信號(hào)等等進(jìn)行預(yù)定的信號(hào)處理以便檢測(cè)預(yù)定的場景變化。
在步驟P15,判斷是否檢測(cè)到預(yù)定的場景變化。如果已經(jīng)檢測(cè)到場景變化,那么設(shè)備前進(jìn)到步驟P16,其中有關(guān)已經(jīng)檢測(cè)到場景變化時(shí)的時(shí)間點(diǎn)的位置信息被存儲(chǔ)到預(yù)定的存儲(chǔ)器(數(shù)據(jù)記錄裝置、數(shù)據(jù)緩沖器等)中。然后設(shè)備前進(jìn)到步驟P17。如果在步驟P15確定沒有出現(xiàn)場景變化,那么設(shè)備前進(jìn)到步驟P17。
在步驟P17,判斷是否根據(jù)預(yù)定數(shù)據(jù)緩沖器中預(yù)定量的數(shù)據(jù)完成了場景變化檢測(cè)。如果場景變化檢測(cè)沒有結(jié)束,那么設(shè)備返回到步驟P11,其中將重復(fù)適當(dāng)?shù)牟僮?。如果在步驟P17確定完成了場景變化檢測(cè),那么設(shè)備前進(jìn)到步驟P18。
在步驟P18,從預(yù)定的緩沖存儲(chǔ)器中讀取場景變化點(diǎn)信息。在步驟P19,通過把短于預(yù)定部分的部分連接至先前部分并且進(jìn)行其它操作來校正場景變化檢測(cè)部分。
在步驟P20,讀取為預(yù)定部分生成的語音片段點(diǎn)信息和場景變化點(diǎn)信息,以便在步驟P21,根據(jù)諸如語音片段點(diǎn)、語音片段部分長度、場景變化點(diǎn)、場景變化部分長度等等的預(yù)定信息來生成預(yù)定的PU信息,諸如預(yù)定的PU點(diǎn)信息、部分信息等等。
在步驟P22,通過在步驟P21處理的PU信息獲得的并且對(duì)應(yīng)于所述PU部分的特征數(shù)據(jù)(或者通過對(duì)特征提取數(shù)據(jù)或特征數(shù)據(jù)等進(jìn)行預(yù)定信號(hào)處理產(chǎn)生的信號(hào))被寫入預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)緩沖器。
上述特征數(shù)據(jù)可以被記錄在其中記錄有圖像/語音數(shù)據(jù)的預(yù)定記錄介質(zhì)的預(yù)定記錄區(qū)域以及其它預(yù)定的記錄介質(zhì)中,其中所述圖像/語音數(shù)據(jù)是將要處理的廣播節(jié)目、節(jié)目等等的預(yù)定部分中的。
在步驟P23,判斷諸如對(duì)預(yù)定量數(shù)據(jù)的語音分段、場景變化處理、PU處理等等的一系列處理操作是否完成。如果確定一系列的處理操作結(jié)束,那么設(shè)備退出記錄處理。如果確定一系列處理操作沒有結(jié)束,那么設(shè)備返回到步驟P1,其中將重復(fù)上述適當(dāng)?shù)牟僮鳌?br>
在完成PU處理中所有語音分段操作之后的場景變化處理在上述示例中,諸如已記錄廣播節(jié)目、節(jié)目等等的圖像/語音數(shù)據(jù)的每一預(yù)定部分中的語音數(shù)據(jù)被一個(gè)接一個(gè)地分段,然后在圖像中檢測(cè)到場景變化。然而,可以不在處理每一預(yù)定部分之后再檢測(cè)所有場景變化,而是在將被處理的廣播節(jié)目或者節(jié)目的所有預(yù)定部分的語音分段之后檢測(cè)到,并且在檢測(cè)到所有場景變化之后執(zhí)行預(yù)定的PU處理。
圖50示出了在上述PU信號(hào)處理中在語音片段檢測(cè)點(diǎn)和場景變化檢測(cè)點(diǎn)開始的預(yù)定信號(hào)處理中進(jìn)行的操作流程的另一示例。
投入操作的設(shè)備首先進(jìn)行到步驟T1。在步驟T1,如圖49中示出的流程圖的步驟P1至P9那樣執(zhí)行預(yù)定的語音分段操作。
把預(yù)定量的采樣語音數(shù)據(jù)順序地讀入預(yù)定緩沖存儲(chǔ)器。
在步驟T2,進(jìn)行語音分段的片段位置信息被記錄到預(yù)定的存儲(chǔ)器(數(shù)據(jù)存儲(chǔ)裝置)中。在步驟T3,判斷廣播節(jié)目或者將要處理的節(jié)目的預(yù)定部分中的所有語音數(shù)據(jù)的預(yù)定分段是否完成。如果確定預(yù)定的分段沒有結(jié)束,那么設(shè)備返回到步驟T1,其中將重復(fù)適當(dāng)?shù)牟僮鳌H绻_定預(yù)定的分段結(jié)束,那么設(shè)備前進(jìn)到步驟T4。
在步驟T4,實(shí)行如圖49中示出的流程圖中的步驟P11至P18的預(yù)定場景變化處理。把預(yù)定量的圖像DCT數(shù)據(jù)順序地記錄到預(yù)定緩沖存儲(chǔ)器中。
在步驟T5,把進(jìn)行預(yù)定場景變化處理的場景變化點(diǎn)信息一個(gè)接一個(gè)地記錄到預(yù)定的存儲(chǔ)器裝置(數(shù)據(jù)存儲(chǔ)裝置)中。在步驟T6,判斷預(yù)定廣播節(jié)目或者將要處理的節(jié)目中的所有圖像DCT數(shù)據(jù)的預(yù)定場景變化處理是否完成。如果確定預(yù)定的場景變化處理沒有結(jié)束,那么設(shè)備返回到步驟T4,其中將重復(fù)適當(dāng)?shù)牟僮鳌H绻_定預(yù)定的場景變化處理結(jié)束,那么設(shè)備前進(jìn)到步驟T7。
在步驟T7,從預(yù)定的存儲(chǔ)器裝置中讀取預(yù)定的語音分段點(diǎn)信息和預(yù)定的場景變化點(diǎn)信息。在步驟T8,進(jìn)行預(yù)定的PU處理,并且在步驟T9,判斷廣播節(jié)目或者將要處理的節(jié)目的所有預(yù)定部分的預(yù)定PU處理是否完成。如果確定預(yù)定的PU處理結(jié)束,那么設(shè)備退出重放操作。如果確定預(yù)定的PU處理沒有完成,那么設(shè)備返回到步驟T7,其中進(jìn)行適當(dāng)?shù)牟僮鳌?br>
上面已經(jīng)作為舉例、參考附圖就本發(fā)明的某些實(shí)施例詳細(xì)描述了本發(fā)明。然而,本領(lǐng)域普通技術(shù)人員應(yīng)該理解的是,本發(fā)明不局限于所述實(shí)施例,而是在不脫離本發(fā)明的范圍和精神的情況下,可以依照各種方式來修改、構(gòu)造或者依照各種其它形式來具體實(shí)現(xiàn),本發(fā)明的范圍在另外的權(quán)利要求書中闡明并限定。
權(quán)利要求
1.一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且把根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定語音特性信號(hào)和圖像特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)器中。
2.如權(quán)利要求1所述的方法,還包括如下步驟通過預(yù)定的輸入系統(tǒng)來獲取軟件,以便通過預(yù)定的操作來執(zhí)行信息信號(hào)處理;設(shè)置信息信號(hào)處理以便執(zhí)行;并且當(dāng)通過預(yù)定的控制系統(tǒng)設(shè)置了預(yù)定的操作模式時(shí),執(zhí)行信息信號(hào)處理。
3.一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由所述預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者從其中記錄有語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
4.如權(quán)利要求3所述的方法,還包括如下步驟通過預(yù)定的輸入系統(tǒng)來獲取軟件,以便通過預(yù)定的操作來執(zhí)行信息信號(hào)處理;設(shè)置信息信號(hào)處理以便執(zhí)行;并且當(dāng)通過預(yù)定的控制系統(tǒng)設(shè)置了預(yù)定的操作模式時(shí),執(zhí)行信息信號(hào)處理。
5.一種信息信號(hào)處理方法,包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像/語音特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定的圖像/語音信息信號(hào)的多個(gè)預(yù)定重放部分和對(duì)應(yīng)于重放部分確定或者預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);并且借助于所生成的數(shù)據(jù)或者從其中記錄有所生成的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù),對(duì)應(yīng)于預(yù)定的操作模式,重放預(yù)定部分或指明預(yù)定的時(shí)間點(diǎn)。
6.如權(quán)利要求5所述的方法,還包括如下步驟通過預(yù)定的輸入系統(tǒng)來獲取軟件,以便通過預(yù)定的操作來執(zhí)行信息信號(hào)處理;設(shè)置信息信號(hào)處理以便執(zhí)行;并且當(dāng)通過預(yù)定的控制系統(tǒng)設(shè)置了預(yù)定的操作模式時(shí),執(zhí)行信息信號(hào)處理。
7.一種信息信號(hào)處理設(shè)備,包括語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理部分的信號(hào)、來自語音信號(hào)處理部分的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)來自語音信號(hào)處理部分的信號(hào)或者視頻/語音信息信號(hào)進(jìn)行分段;以及數(shù)據(jù)記錄器,用于把根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和根據(jù)特征數(shù)據(jù)和預(yù)定數(shù)據(jù)進(jìn)行了預(yù)定信號(hào)處理的圖像特征數(shù)據(jù)或者預(yù)定特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)單元中。
8.如權(quán)利要求7所述的設(shè)備,還包括數(shù)據(jù)輸入系統(tǒng),用于獲取軟件以便通過預(yù)定的操作來執(zhí)行預(yù)定的信息信號(hào)處理;以及信號(hào)處理設(shè)置裝置,用于通過由數(shù)據(jù)輸入系統(tǒng)獲取的軟件來設(shè)置可執(zhí)行預(yù)定信息信號(hào)處理的狀態(tài),把根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和根據(jù)特征數(shù)據(jù)和預(yù)定的數(shù)據(jù)進(jìn)行了預(yù)定信號(hào)處理的圖像特征數(shù)據(jù)或者預(yù)定的特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)單元中。
9.一種信息信號(hào)處理設(shè)備,包括語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理器的信號(hào)、來自語音信號(hào)處理器的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)來自語音信號(hào)處理器的信號(hào)或者視頻/語音信息信號(hào)進(jìn)行分段;以及數(shù)據(jù)生成器,用于借助于根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者借助于從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)或數(shù)據(jù)文件數(shù)據(jù),生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
10.如權(quán)利要求9所述的設(shè)備,還包括數(shù)據(jù)輸入系統(tǒng),用于獲取軟件以便通過預(yù)定的操作來執(zhí)行預(yù)定的信息信號(hào)處理;以及信號(hào)處理設(shè)置裝置,用于通過由數(shù)據(jù)輸入系統(tǒng)獲取的軟件來設(shè)置可執(zhí)行預(yù)定信息信號(hào)處理的狀態(tài),借助于根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者借助于從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)或數(shù)據(jù)文件數(shù)據(jù),生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
11.一種信息信號(hào)處理設(shè)備,包括語音信號(hào)處理器,用于從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);圖像特征數(shù)據(jù)處理器,用于從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);信息信號(hào)分段單元,用于對(duì)應(yīng)于來自圖像特征數(shù)據(jù)處理器的信號(hào)、來自語音信號(hào)處理器的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)來自語音信號(hào)處理器的信號(hào)或者視頻/語音信息信號(hào)進(jìn)行分段;數(shù)據(jù)生成器,用于借助于根據(jù)來自信息信號(hào)分段單元的信號(hào)從語音信號(hào)中提取的預(yù)定語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者借助于從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)或數(shù)據(jù)文件數(shù)據(jù),生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);以及信息信號(hào)處理器,當(dāng)處于預(yù)定的操作模式時(shí),用于根據(jù)來自數(shù)據(jù)生成器的數(shù)據(jù)或者從其中記錄有來自數(shù)據(jù)生成器的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)來重放預(yù)定的部分或者指明預(yù)定的時(shí)間點(diǎn)。
12.如權(quán)利要求11所述的設(shè)備,還包括數(shù)據(jù)輸入系統(tǒng),用于獲取軟件以便通過預(yù)定的操作來執(zhí)行預(yù)定的信息信號(hào)處理;以及信號(hào)處理設(shè)置裝置,用于通過由數(shù)據(jù)輸入系統(tǒng)獲取的軟件來設(shè)置可執(zhí)行預(yù)定的信息信號(hào)處理的狀態(tài),當(dāng)處于預(yù)定的操作模式時(shí),根據(jù)來自數(shù)據(jù)生成器的數(shù)據(jù)或者從其中記錄有來自數(shù)據(jù)生成器的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)單元中獲取的數(shù)據(jù)來重放預(yù)定的部分或者指明預(yù)定的時(shí)間點(diǎn)。
13.一種程序記錄介質(zhì),其中記錄有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且把根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定語音特性信號(hào)和圖像特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)器中。
14.一種程序記錄介質(zhì),其中記錄有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)或者通過從其中記錄有語音特征數(shù)據(jù)和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定或預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù)。
15.一種程序記錄介質(zhì),其中記錄有計(jì)算機(jī)可讀的控制程序,所述控制程序包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;借助于根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定的語音特征數(shù)據(jù)和圖像/語音特征數(shù)據(jù)或者從其中記錄有語音和圖像特征數(shù)據(jù)的預(yù)定記錄介質(zhì)中獲取的數(shù)據(jù)或數(shù)據(jù)文件,生成對(duì)應(yīng)于預(yù)定重放部分確定的圖像/語音信息信號(hào)的多個(gè)預(yù)定重放部分和對(duì)應(yīng)于重放部分確定或者預(yù)定重放時(shí)間點(diǎn)設(shè)置的預(yù)定數(shù)據(jù);并且借助于所生成的數(shù)據(jù)或者從其中記錄有所生成的數(shù)據(jù)的預(yù)定記錄介質(zhì)或預(yù)定數(shù)據(jù)存儲(chǔ)器中獲取的數(shù)據(jù),對(duì)應(yīng)于預(yù)定的操作模式,重放預(yù)定部分或指明預(yù)定的時(shí)間點(diǎn)。
全文摘要
提供了一種用于特殊重放操作的信息信號(hào)處理方法,以便進(jìn)行廣播節(jié)目的圖像/語音數(shù)據(jù)信號(hào)的概要(摘要)重放。所述方法包括如下步驟從預(yù)定的圖像/語音信息信號(hào)或者由預(yù)定的圖像/語音信息信號(hào)的預(yù)定頻帶壓縮而產(chǎn)生的圖像/語音信息信號(hào)中檢測(cè)每一預(yù)定部分的語音等級(jí)或者預(yù)定的語音特性,并且對(duì)應(yīng)于檢測(cè)結(jié)果和預(yù)定的設(shè)置值,按照預(yù)定的片段部分來處理語音信號(hào);從圖像/語音信息信號(hào)中提取圖像信號(hào)每一部分的預(yù)定特性數(shù)據(jù),并且根據(jù)所述特性數(shù)據(jù)來生成表示預(yù)定部分的圖像特征的預(yù)定特性數(shù)據(jù);對(duì)應(yīng)于圖像特性數(shù)據(jù)、由語音分段產(chǎn)生的信號(hào)和預(yù)定時(shí)間長度或者部分長度設(shè)置數(shù)據(jù)對(duì)圖像/語音信息信號(hào)進(jìn)行分段;并且把根據(jù)圖像/語音信息信號(hào)的片段從語音信號(hào)中提取的預(yù)定語音特性信號(hào)和圖像特征數(shù)據(jù)記錄到預(yù)定的記錄介質(zhì)或者預(yù)定的數(shù)據(jù)存儲(chǔ)器中。
文檔編號(hào)G11B27/00GK101053252SQ20058003034
公開日2007年10月10日 申請(qǐng)日期2005年8月9日 優(yōu)先權(quán)日2004年8月10日
發(fā)明者村林升, 岡本裕成, 宮本勝 申請(qǐng)人:索尼株式會(huì)社