亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

使用音頻類別界定節(jié)目邊界和商業(yè)廣告邊界的系統(tǒng)和方法

文檔序號(hào):6468090閱讀:216來(lái)源:國(guó)知局
專利名稱:使用音頻類別界定節(jié)目邊界和商業(yè)廣告邊界的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明涉及在2000年8月8日頒布的美國(guó)專利號(hào)為6,100,941的題為“APPARATUS AND METHOD FOR LOCATING ACOMMERCIAL DISPOSED WITHIN A VIDEO DATA STREAM”以及1998年1月13日提交的美國(guó)專利申請(qǐng)序列號(hào)為09/006,657的題為“MULTIMEDIA COMPUTER SYSTEM WITH STORYSEGMENTATION CAPABILITY AND ORERATING PROGRAMTHEREROR INCLUDING FINITE AUTOMATON VIDEOPARSER”中公開的發(fā)明。此發(fā)明以及此發(fā)明申請(qǐng)共同轉(zhuǎn)讓給本發(fā)明的受讓人。此發(fā)明及此發(fā)明申請(qǐng)的公開內(nèi)容引作本文的參考,本發(fā)明一般涉及用于界定視頻數(shù)據(jù)流內(nèi)的視頻節(jié)目片段的邊界的系統(tǒng)和方法,具體來(lái)說(shuō),本發(fā)明涉及通過(guò)使用諸如語(yǔ)音、音樂(lè)、靜音和噪聲這樣的音頻類別界定視頻節(jié)目的邊界和商業(yè)廣告信息的邊界的系統(tǒng)和方法。
在市場(chǎng)上,各種各樣的錄像機(jī)都可以得到。大多數(shù)人都擁有或者熟悉盒式磁帶錄像機(jī)(VCR),也稱作磁帶錄像機(jī)(VTR)。盒式磁帶錄像機(jī)把視頻節(jié)目記錄到盒式磁帶上。近來(lái),在市場(chǎng)上已經(jīng)出現(xiàn)了使用計(jì)算機(jī)硬磁盤代替盒式磁帶來(lái)存儲(chǔ)視頻節(jié)目的錄像機(jī)。例如,ReplayTVTM錄像機(jī)和TiVOTM錄像機(jī)使用諸如MPEG視頻壓縮標(biāo)準(zhǔn)把電視節(jié)目數(shù)字記錄到硬盤驅(qū)動(dòng)器上。另外,一些錄像機(jī)可以在可讀/可寫數(shù)字多用盤(DVD)而不是磁盤上進(jìn)行記錄。
錄像機(jī)通常與諸如電視這樣的視頻顯示設(shè)備一起使用。錄像機(jī)可以在視頻顯示設(shè)備顯示視頻節(jié)目的同時(shí)記錄視頻節(jié)目。一個(gè)典型的例子是在電視屏幕上顯示電視節(jié)目的同時(shí)使用盒式磁帶錄像機(jī)(VCR)記錄電視節(jié)目。
錄像機(jī)依靠高級(jí)電子節(jié)目指南(EPG)信息來(lái)確定要記錄的電視節(jié)目的開始時(shí)間和結(jié)束時(shí)間。不幸的是,EPG信息經(jīng)常是不準(zhǔn)確的,特別是對(duì)于實(shí)況電視廣播來(lái)說(shuō)。因而在相關(guān)技術(shù)中需要一種改進(jìn)的系統(tǒng)和方法以用于界定視頻節(jié)目的邊界和商業(yè)廣告信息(“商業(yè)廣告”)的邊界。
檢測(cè)視頻節(jié)目片段的開始時(shí)間和結(jié)束時(shí)間可以有各種各樣的方法。這些方法通常用于檢測(cè)商業(yè)廣告以使錄像機(jī)在記錄視頻節(jié)目時(shí)自動(dòng)跳過(guò)商業(yè)廣告。幾種熟知的方法涉及“黑幀”的檢測(cè)。照幀是黑視頻幀,它通常緊接在商業(yè)廣告之前和之后出現(xiàn)。其它用于檢測(cè)商業(yè)廣告邊界的方法包括使用剪停(cut)速率變換、超直方圖、具有時(shí)間信息的數(shù)字代碼等。
另一種用于檢測(cè)節(jié)目或商業(yè)廣告邊界的已有技術(shù)的方法是把專用代碼或信號(hào)插入視頻信號(hào)中,以指定節(jié)目或商業(yè)廣告的開始和結(jié)束。檢測(cè)和識(shí)別專用代碼或者信號(hào)需要專用的電路。
另外,目前現(xiàn)有的電視標(biāo)準(zhǔn)是把節(jié)目標(biāo)識(shí)信息插入視頻信號(hào)中。節(jié)目標(biāo)識(shí)信息唯一識(shí)別節(jié)目的開始和結(jié)束。該信息還可用于檢測(cè)節(jié)目的邊界。
這些已有技術(shù)的方法均涉及到在視頻數(shù)據(jù)流中插入并檢測(cè)專用代碼、專用信號(hào)或?qū)S霉?jié)目標(biāo)識(shí)信息。在相關(guān)技術(shù)中,需要一種改進(jìn)的系統(tǒng)和方法,以便于不使用專用代碼、專用信號(hào)或?qū)S霉?jié)目標(biāo)識(shí)信息而界定視頻數(shù)據(jù)流中的視頻節(jié)目和商業(yè)廣告的邊界。
還需要一種在計(jì)算機(jī)化個(gè)人信息檢索系統(tǒng)中界定視頻節(jié)目邊界和商業(yè)廣告邊界的改進(jìn)的系統(tǒng)和方法。計(jì)算機(jī)化個(gè)人信息檢索系統(tǒng)的存在是為了識(shí)別和記錄包含有用戶希望記錄的主題的視頻節(jié)目的片段(通常源自電視廣播)。希望的片斷通常根據(jù)用戶輸入的關(guān)鍵字來(lái)識(shí)別。在一個(gè)典型的應(yīng)用中,計(jì)算機(jī)系統(tǒng)在后臺(tái)操作以監(jiān)視來(lái)自諸如因特網(wǎng)這樣的信號(hào)源的信息的內(nèi)容。內(nèi)容檢測(cè)通常由用戶提供的關(guān)鍵字來(lái)指導(dǎo)。當(dāng)發(fā)現(xiàn)關(guān)鍵字與被監(jiān)視的信息的內(nèi)容匹配時(shí),該信息被存儲(chǔ)起來(lái),以便在隨后重放并由用戶觀看。下載的信息可包括也可由用戶下載的音頻信號(hào)和視頻剪輯的鏈接。
允許用戶選擇和檢索隨后播放的電視節(jié)目部分的計(jì)算機(jī)化個(gè)人信息檢索系統(tǒng)一般滿足三個(gè)基本要求。第一,系統(tǒng)和方法通常可用于把輸入的視頻信號(hào)分析為其可視、音頻和文本分量。第二,系統(tǒng)和方法通??捎糜诟鶕?jù)用戶輸入的標(biāo)準(zhǔn)分析廣播信號(hào)的音頻和/或文本分量的內(nèi)容并根據(jù)內(nèi)容分割這些分量。第三,系統(tǒng)和方法通??捎糜诰C合和存儲(chǔ)符合用戶隨后的重放要求的節(jié)目片段。
滿足這三個(gè)要求的系統(tǒng)在Dimitrova(本發(fā)明的共同發(fā)明人)1998的1月13提交的美國(guó)專利申請(qǐng)序列號(hào)為09/006,657的題為“MULTIMEDIA COMPUTER SYSTEM WITH STORYSEGMENTATION CAPABILITY AND ORERATING PROGRAMTHEREROR INCLUDING FINITE AUTOMATON VIDEOPARSER”中進(jìn)行了描述。序列號(hào)為09/006,657的美國(guó)專利申請(qǐng)作為參考完全結(jié)合于本文中。
序列號(hào)為09/006,657的美國(guó)專利申請(qǐng)描述了一種系統(tǒng)和方法,它提供了用于識(shí)別符號(hào)序列的一組模型、用于識(shí)別希望的選擇標(biāo)準(zhǔn)的匹配模型、以及用于根據(jù)選擇標(biāo)準(zhǔn)選擇和檢索一個(gè)或多個(gè)視頻故事片斷或序列的方法。
如果視頻節(jié)目和商業(yè)廣告的邊界位置是已知的,則諸如錄像機(jī)和計(jì)算機(jī)化個(gè)人信息檢索系統(tǒng)這樣的視頻信號(hào)處理器的操作可以得到顯著的提高。因而,在相關(guān)技術(shù)中,需要一種改進(jìn)的系統(tǒng)和方法,以用于界定視頻數(shù)據(jù)流中的視頻節(jié)目邊界和商業(yè)廣告邊界。
為了解決已有技術(shù)的上述缺陷,本發(fā)明的首要目的就是要提供一種改進(jìn)的系統(tǒng)和方法,以用于通過(guò)使用節(jié)目的音頻內(nèi)容界定視頻數(shù)據(jù)流中的視頻節(jié)目邊界和商業(yè)廣告邊界。具體來(lái)說(shuō),本發(fā)明的首要目的就是提供一種改進(jìn)的系統(tǒng)和方法,以用于通過(guò)使用諸如語(yǔ)音、音樂(lè)、靜音和噪聲這樣的音頻類別來(lái)界定視頻節(jié)目的邊界和商業(yè)廣告的邊界。
另外,本發(fā)明的首要目的是提供一種改進(jìn)的系統(tǒng)和方法,該系統(tǒng)和方法不需要使用插入視頻數(shù)據(jù)流中的專用代碼、專用信號(hào)或?qū)S霉?jié)目識(shí)別信息就可以自動(dòng)界定視頻數(shù)據(jù)流內(nèi)的視頻節(jié)目邊界和商業(yè)廣告邊界。
本發(fā)明的系統(tǒng)包括音頻分類控制器,它把音頻信號(hào)的序列部分分為諸如語(yǔ)音、音樂(lè)、靜音和噪聲這樣的音頻類別。音頻分類控制器還把音頻信號(hào)的序列部分分成諸如具有背景音樂(lè)的語(yǔ)音、具有背景噪聲的語(yǔ)音、具有背景語(yǔ)音的語(yǔ)音等音頻類別。當(dāng)談話者的身份被確定時(shí),音頻分類控制器還識(shí)別談話者類別中的語(yǔ)音信號(hào)的類別順序部分。每個(gè)談話者類別包括一個(gè)個(gè)體談話者的語(yǔ)音信號(hào)。不能被識(shí)別的談話者被分類為“未知談話者”的類別。
本發(fā)明的音頻分類控制器還包括類別變化檢測(cè)器,它檢測(cè)分類在第一類別中的音頻信號(hào)的第一部分何時(shí)停止以及分類在第二類別中的音頻信號(hào)的第二部分何時(shí)開始。也就是說(shuō),類別變化檢測(cè)器確定音頻信號(hào)的類別何時(shí)變化。以此方式,本發(fā)明的音頻分類控制器連續(xù)確定每個(gè)音頻類別的類型。
類別變化檢測(cè)器還確定分類在第一談話者類別中的音頻信號(hào)的第一部分何時(shí)停止以及分類在第二談話者類別中的音頻信號(hào)的第二部分何時(shí)開始。也就是說(shuō),類別變化檢測(cè)器確定音頻信號(hào)的談話者類別何時(shí)變化。
本發(fā)明的音頻分類控制器還包括類別變化速率檢測(cè)器,它用于確定音頻類別以什么樣的速率變化(“類別變化速率”)。類別變化速率檢測(cè)器把類別變化速率與一個(gè)閾值進(jìn)行比較。該閾值可以是一個(gè)預(yù)選的閾值,也可以是通過(guò)響應(yīng)變化的操作條件而動(dòng)態(tài)確定的閾值。如果類別變化速率大于該閾值,則可以推斷出存在商業(yè)廣告片斷,從而推斷出存在邊界。
本發(fā)明的一個(gè)目的是提供一種用于把音頻信號(hào)分類以獲得音頻信號(hào)每個(gè)片斷的至少一個(gè)音頻類別的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的另一個(gè)目的是提供一種用于把音頻信號(hào)分為諸如靜音、音樂(lè)、噪聲和語(yǔ)音這樣的音頻類別的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的又一個(gè)目的是提供一種把音頻信號(hào)分為諸如具有背景音樂(lè)的語(yǔ)音、具有背景噪聲的語(yǔ)音和具有背景噪聲的音樂(lè)等的音頻子類別的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的另一個(gè)目的是提供一種用于存取語(yǔ)音數(shù)據(jù)庫(kù)以對(duì)在音頻信號(hào)的語(yǔ)音片斷期間談話的人的語(yǔ)音信號(hào)進(jìn)行分類的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的另一個(gè)目的是提供一種用于確定音頻類別何時(shí)變化的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的另一個(gè)目的是提供一種用于確定音頻信號(hào)中的音頻類別變化速率的改進(jìn)的系統(tǒng)和方法。
本發(fā)明的另一個(gè)目的是把音頻信號(hào)中音頻類別變化的速率與一個(gè)閾值進(jìn)行比較,以界定包括音頻信號(hào)的視頻節(jié)目片斷和視頻節(jié)目片斷中的商業(yè)廣告的邊界。
上文非常概括地描述了本發(fā)明的特征和技術(shù)優(yōu)點(diǎn),以使本技術(shù)領(lǐng)域的技術(shù)人員可以更好地理解本發(fā)明下述的詳細(xì)描述。形成本發(fā)明權(quán)利要求主題的本發(fā)明的其它優(yōu)點(diǎn)和特征將會(huì)在下面進(jìn)行描述。本技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)明白,他們可以很容易地使用所公開的概念和特定實(shí)施例來(lái)作為改進(jìn)和設(shè)計(jì)用于執(zhí)行本發(fā)明的同樣目的的其它結(jié)構(gòu)的基礎(chǔ)。本技術(shù)領(lǐng)域的技術(shù)人員還應(yīng)當(dāng)認(rèn)識(shí)到,這樣等效的構(gòu)造并不背離本發(fā)明在其最廣泛意義上的精神和范圍。
在進(jìn)行詳細(xì)描述之前,對(duì)在本專利文件中使用的某些詞和短語(yǔ)的定義進(jìn)行表述是有益的術(shù)語(yǔ)“包括”和“包含”以及它們的派生詞表示沒(méi)有限制的包含;術(shù)語(yǔ)“或”表示包括的,意思是和/或;短語(yǔ)“與……相關(guān)”和“與其相關(guān)”以及它們的派生詞可表示包括、被包括在……中、與……連接、與……互聯(lián)、包含、被包含于……中、連接到或與……連接、耦合到或與……耦合、與……通信、與……合作、交錯(cuò)、并置、接近、連接到或與……連接、具有、具有……的性質(zhì),諸如此類;而且,術(shù)語(yǔ)“控制器”表示至少控制一個(gè)操作的任意設(shè)備、系統(tǒng)或者其一部分,這種設(shè)備可以在硬件、軟件或者固件中實(shí)施,或者以它們當(dāng)中的至少兩種的某種組合來(lái)實(shí)施。應(yīng)當(dāng)指出,與任何特定的控制器相關(guān)的功能可以是集中式或者分布式的,而不論其是本地的還是遠(yuǎn)程的。某些詞或短語(yǔ)的定義在這篇專利文件中被提供,本技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,即使不是在大多數(shù)情況下,那么也是在很多情況下,這些定義應(yīng)用到了相關(guān)技術(shù)中,同樣也應(yīng)用到了這種定義的詞或短語(yǔ)的將來(lái)的使用當(dāng)中。
為了更好地理解本發(fā)明及其優(yōu)點(diǎn),下面將參考結(jié)合了附圖的如下描述,其中相似的標(biāo)號(hào)表示相似的對(duì)象,并且,在其中

圖1表示根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的典型錄像機(jī)和電視機(jī);圖2表示根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的典型錄像機(jī)的框圖;圖3表示根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的典型音頻分類控制器的框圖;并且圖4表示用于描述根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的典型音頻分類控制器的操作流程圖。
在本專利文件中,下面將要討論的圖1-圖4以及用于描述本發(fā)明原理的各種實(shí)施例僅僅是示意性的,并不表示以任何方式來(lái)限制本發(fā)明的范圍。本技術(shù)領(lǐng)域的技術(shù)人員將會(huì)理解,本發(fā)明的原理可以在任何適當(dāng)安排的音頻分類系統(tǒng)中實(shí)施。
圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的典型錄像機(jī)150和電視機(jī)105。錄像機(jī)150接收來(lái)自外部信號(hào)源的輸入電視信號(hào),這種信號(hào)源可以是有線電視服務(wù)提供商(有線電視公司)、本地天線、衛(wèi)星、因特網(wǎng)或者數(shù)字多用盤(DVD)或家用錄像系統(tǒng)(VHS)磁帶播放機(jī)。錄像機(jī)150把所選頻道的電視信號(hào)傳送到電視機(jī)105。頻道可由觀眾人工選擇,也可以由觀眾預(yù)選編程的記錄設(shè)備自動(dòng)選擇。另外,頻道和視頻節(jié)目也可以由記錄設(shè)備根據(jù)觀眾個(gè)人觀看歷史中的節(jié)目概要文件中的信息自動(dòng)選擇。
在記錄模式中,錄像機(jī)150可以解調(diào)輸入射頻(RF)電視信號(hào)以產(chǎn)生基帶視頻信號(hào),以記錄和存儲(chǔ)到與錄像機(jī)150連接或者在其中的存儲(chǔ)介質(zhì)上。在播放模式中,錄像機(jī)150從存儲(chǔ)介質(zhì)中讀出觀眾選擇的所存的基帶視頻信號(hào)(即,節(jié)目),并將其傳送給電視機(jī)105。
錄像機(jī)150可包括使用錄像帶、或者使用硬盤、或者使用固態(tài)存儲(chǔ)器、或者使用其它任意類型的記錄裝置的錄像機(jī)。如果錄像機(jī)150是盒式磁帶錄像機(jī)(VCR)、那么錄像機(jī)150把輸入電視信號(hào)存儲(chǔ)到盒式磁帶中,并從其中檢索電視信號(hào)。如果錄像機(jī)150是諸如ReplayTVTM錄像機(jī)或者TiVOTM錄像機(jī)這樣的基于磁盤驅(qū)動(dòng)器的設(shè)備,那么錄像機(jī)150把輸入電視信號(hào)存儲(chǔ)到硬磁盤中并從其中檢索電視信號(hào),而并不使用盒式磁帶。在另一個(gè)實(shí)施例中,錄像機(jī)150可利用本地讀/寫(R/W)數(shù)字多用盤(DVD)或者讀/寫(R/W)致密盤(CD-RW)進(jìn)行存儲(chǔ)和檢索。本地存儲(chǔ)介質(zhì)可以是固定的(如硬盤驅(qū)動(dòng)器),也可以是可移動(dòng)的(如DVD、CD-RW)。
錄像機(jī)150包括紅外(IR)傳感器160,它接收觀眾操作的遙控器125的命令(如頻道上翻、頻道下翻、音量增加、音量減小、記錄、播放、快進(jìn)(FF)、反向等等)。電視機(jī)105是傳統(tǒng)的電視,它包括屏幕110、紅外(IR)傳感器115和一個(gè)或多個(gè)人工控制120(以虛線表示)。IR傳感器115還接收觀眾操作的遙控器125的命令(如音量增加、音量減小、電源開、電源關(guān))。
應(yīng)當(dāng)指出,錄像機(jī)150并不限于從特定類型的信號(hào)源接收特定類型的輸入電視信號(hào)。如上所述,外部信號(hào)源可以是有線服務(wù)提供商、傳統(tǒng)的RF廣播天線、拋物線型衛(wèi)星天線、因特網(wǎng)連接、或者是另一種本地存儲(chǔ)設(shè)備,如DVD播放器或VHS磁帶播放器。輸入信號(hào)可以是數(shù)字信號(hào)、模擬信號(hào)、因特網(wǎng)協(xié)議(IP)數(shù)據(jù)包或者是其它格式的信號(hào)。
在解釋本發(fā)明的原理時(shí),為了簡(jiǎn)便和清晰,下面的描述一般將針對(duì)錄像機(jī)150接收(從有線服務(wù)提供商)輸入的模擬電視信號(hào)的實(shí)施例。盡管如此,本技術(shù)領(lǐng)域的技術(shù)人員可以理解,本發(fā)明的原理可以很容易地適用于數(shù)字電視信號(hào)、無(wú)線廣播電視信號(hào)、本地存儲(chǔ)系統(tǒng)、包含MPEG數(shù)據(jù)的IP數(shù)據(jù)包的輸入流等。
圖2詳細(xì)示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的典型錄像機(jī)150。錄像機(jī)150包括IR傳感器160、視頻處理器210、MPEG-2編碼器220、硬盤驅(qū)動(dòng)器230、MPEG-2解碼器/NTSC編碼器240和控制器250。錄像機(jī)150還包括音頻分類控制器270和存儲(chǔ)器280??刂破?50指示錄像機(jī)150的整個(gè)操作,這其中包括了觀看模式、記錄模式、播放模式、快進(jìn)(FF)模式、倒退模式。
在觀看模式中,控制器250使得來(lái)自有線服務(wù)提供商的輸入電視信號(hào)由視頻處理器210解調(diào)并處理,并傳送給電視機(jī)105,而不把視頻信號(hào)存儲(chǔ)到硬盤驅(qū)動(dòng)器120中(或者從其中檢索視頻信號(hào))。視頻處理器210可以是TriMedia1100(TM1100)介質(zhì)處理器,它包括射頻(RF)前端電路,用于接收來(lái)自有線服務(wù)提供商的輸入電視信號(hào),調(diào)諧至用戶所選的頻道并把所選的RF信號(hào)轉(zhuǎn)換為適合在電視機(jī)105上顯示的基帶電視信號(hào)(如超視頻信號(hào))。視頻處理器210還能夠接收來(lái)自MPEG-2解碼器/NTSC編碼器240的傳統(tǒng)NTSC信號(hào)以及來(lái)自存儲(chǔ)器280的視頻幀,并把基帶電視信號(hào)(如超視頻信號(hào))傳送給電視機(jī)105。
在記錄模式中,控制器250使得輸入電視信號(hào)存儲(chǔ)到硬盤驅(qū)動(dòng)器230中。在控制器250的控制下,MPEG-2編碼器220接收來(lái)自有線服務(wù)提供商的輸入模擬電視信號(hào)并把接收的RF信號(hào)轉(zhuǎn)換為適于在硬盤驅(qū)動(dòng)器230上存儲(chǔ)的MPEG格式。應(yīng)當(dāng)指出,在數(shù)字電視信號(hào)的情況下,信號(hào)可以直接存儲(chǔ)到硬盤驅(qū)動(dòng)器230中,而不必在MPEG-2編碼器220中編碼。
在播放模式中,控制器250指示硬盤驅(qū)動(dòng)器230流式傳輸存儲(chǔ)的電視信號(hào)(即節(jié)目)至MPEG-2解碼器/NTSC編碼器240,它把來(lái)自硬盤驅(qū)動(dòng)器230的MPEG-2數(shù)據(jù)轉(zhuǎn)換為超視頻(S-視頻)信號(hào),該信號(hào)由視頻處理器210傳送給電視機(jī)105。
應(yīng)當(dāng)指出,MPEG-2編碼器220和MPEG-2解碼器/NTSC編碼器240選擇MPEG-2標(biāo)準(zhǔn)僅僅是示意性的。在本發(fā)明的另選實(shí)施例中,MPEG編碼器和解碼器可符合MPEG-1、MPEG-2和MPEG-4標(biāo)準(zhǔn)中的一個(gè)或者多個(gè),或者其它類型的標(biāo)準(zhǔn)中的一個(gè)或者多個(gè)。
為了本申請(qǐng)以及下面的權(quán)利要求,硬盤驅(qū)動(dòng)器230被定義為包括任何既可讀又可寫的海量存儲(chǔ)設(shè)備,包括但不限于讀/寫數(shù)字多用盤(DVD-RW標(biāo)準(zhǔn)和DVD+RW標(biāo)準(zhǔn))的傳統(tǒng)磁盤驅(qū)動(dòng)器和光盤驅(qū)動(dòng)器、可重寫CD-ROM、VCR磁帶等。事實(shí)上,硬盤驅(qū)動(dòng)器230并不需要是傳統(tǒng)意義上的永久嵌入錄像機(jī)150中的固定形式。相反,硬盤驅(qū)動(dòng)器230包括專用于錄像機(jī)150用以存儲(chǔ)記錄的視頻節(jié)目的任何海量存儲(chǔ)設(shè)備。因而,硬盤驅(qū)動(dòng)器230可包括附加的外圍驅(qū)動(dòng)器或者可移動(dòng)盤驅(qū)動(dòng)器(不論是附加式還是嵌入式),如裝有幾個(gè)讀/寫DVD或可重寫CD-ROM的投幣式自動(dòng)點(diǎn)唱裝置(未示出)。如圖2所示,這種類型的可移動(dòng)盤驅(qū)動(dòng)器能夠接收和讀取可重寫CD-ROM盤235。
而且,在本發(fā)明的一個(gè)優(yōu)選實(shí)施例中,硬盤驅(qū)動(dòng)器230可包括使錄像機(jī)150可通過(guò)網(wǎng)絡(luò)連接(如因特網(wǎng)協(xié)議(IP)連接)存取和控制的外部海量存儲(chǔ)設(shè)備,比如說(shuō),包括觀眾的家用個(gè)人電腦(PC)中的磁盤驅(qū)動(dòng)器,或者在觀眾的因特網(wǎng)服務(wù)提供商(ISP)的服務(wù)器上的磁盤驅(qū)動(dòng)器。
控制器250從視頻處理器210獲得關(guān)于視頻處理器210接收的視頻信號(hào)的信息。當(dāng)控制器250確定錄像機(jī)150正在接收視頻節(jié)目時(shí),控制器250判斷視頻節(jié)目是否是已被選擇記錄的節(jié)目。如果視頻節(jié)目要被記錄,則控制器250以前述方式使視頻節(jié)目記錄到硬盤驅(qū)動(dòng)器230上。如果視頻節(jié)目不被記錄,則利用前述的方式,控制器250使得視頻節(jié)目由視頻處理器210處理并傳送給電視機(jī)105。
存儲(chǔ)器280可包括隨機(jī)存取存儲(chǔ)器(RAM)或者是隨機(jī)存取存儲(chǔ)器(RAM)和只讀存儲(chǔ)器(ROM)的組合。存儲(chǔ)器280可包括非易失隨機(jī)存取存儲(chǔ)器(RAM),如快速存儲(chǔ)卡。在錄像機(jī)150的另一個(gè)優(yōu)選實(shí)施例中,存儲(chǔ)器280可包括海量存儲(chǔ)數(shù)據(jù)裝置,如硬盤驅(qū)動(dòng)器(未示出)。存儲(chǔ)器280還可包括附加的外圍驅(qū)動(dòng)器或者可移動(dòng)磁盤驅(qū)動(dòng)器(不論是嵌入的還是附加的),它讀取讀/寫DVD或可重寫CD-ROM。如圖2所示,這種類型的可移動(dòng)磁盤驅(qū)動(dòng)器能夠接收和讀取可重寫CD-ROM盤285。
當(dāng)視頻節(jié)目被記錄到硬盤驅(qū)動(dòng)器230上時(shí)(或者,在另一種情況下,在視頻節(jié)目被記錄到硬盤驅(qū)動(dòng)器230之后),音頻分類控制器270提取音頻信號(hào)并把提取的音頻信號(hào)分成離散的音頻類別,如語(yǔ)音、音樂(lè)、噪聲和靜音。音頻分類控制器270把提取的聲音信號(hào)發(fā)送給談話者識(shí)別器330(圖3中示出)。談話者識(shí)別器330分析聲音信號(hào)以識(shí)別正在談話的人。音頻分類控制器270把時(shí)間戳記插入到被提取并分類的音頻數(shù)據(jù)中。
圖3詳細(xì)示出了音頻分類控制器270的框圖。音頻分類控制器270執(zhí)行軟件指令以便使用音頻類別識(shí)別和分類視頻節(jié)目片斷的音頻部分。音頻分類可利用在本領(lǐng)域中已知的基于多維特征的方法來(lái)實(shí)現(xiàn)。這些方法通常使用通過(guò)cepstral系數(shù)以及它們的回歸系數(shù)、能級(jí)、平均能量、零交叉率(ZCR)等得到的線性預(yù)測(cè)編碼(LPC)。至于更多的信息可參見Dongge Li,Ishwar K.Sethi,Nevenka Dimitrova和TomMcGee的題為“ Classification of General Audio Data for Content-BasedRetrieval”的論文,Technical Report,Oakland University,TR-CSE-IIE-00-11,2000。
音頻分類控制器270的音頻信號(hào)的信號(hào)源在圖3中以標(biāo)號(hào)300來(lái)表示。音頻分類控制器270包括用于把來(lái)自音頻信號(hào)源300的音頻信號(hào)進(jìn)行分類的分類算法305、用于記錄四種不同類型的音頻類別的四個(gè)數(shù)據(jù)緩沖器310-325、包括談話者識(shí)別數(shù)據(jù)的語(yǔ)音數(shù)據(jù)庫(kù)的談話者識(shí)別器330、類別變化檢測(cè)器335、類別變化速率檢測(cè)器340和邊界檢測(cè)器345。
音頻分類控制器270直接從音頻信號(hào)源300接收音頻信號(hào)片斷并利用分類算法305把音頻信號(hào)片斷分類。分類算法305把音頻信號(hào)分為各類型的音頻類別,如靜音、音樂(lè)、噪聲和語(yǔ)音。這四類音頻類別在圖3中示出。這些類型并不是可被使用的唯一的音頻類別。應(yīng)當(dāng)清楚,其它類型的音頻類別也可以被識(shí)別和分類(如笑聲)。
分類算法305把音頻類別“靜音”的信息記錄到數(shù)據(jù)緩沖器310中,把音頻類別“音樂(lè)”的信息記錄到數(shù)據(jù)緩沖器315中,把音頻類別“噪聲”的信息記錄到數(shù)據(jù)緩沖器320中,并把音頻類別“語(yǔ)音”的信息記錄到數(shù)據(jù)緩沖器325中。分類算法305還把時(shí)間戳記插入到分類的音頻信號(hào)中。
談話者識(shí)別器330包括其聲音在前面被識(shí)別的人的聲音識(shí)別信息的語(yǔ)音數(shù)據(jù)庫(kù)。分類算法305能夠存取談話者識(shí)別器330中的語(yǔ)音數(shù)據(jù)庫(kù)。當(dāng)分類算法305把音頻信號(hào)分類為“語(yǔ)音”音頻信號(hào)時(shí),分類算法305存取談話者識(shí)別器330以識(shí)別談話者。如果談話者可以被識(shí)別出,則談話者的身份被增加到關(guān)于“語(yǔ)音”音頻類別的數(shù)據(jù)中。分類算法305能夠把不止一個(gè)談話者的“語(yǔ)音”音頻信號(hào)分類。第一“語(yǔ)音”音頻信號(hào)可被識(shí)別為源于第一談話者,第二“語(yǔ)音”音頻信號(hào)可被識(shí)別為源于第二談話者。
來(lái)自未被識(shí)別出的談話者的“語(yǔ)音”音頻信號(hào)被分類在“未知談話者”的類別中。無(wú)論何時(shí)一個(gè)未知談話者的“語(yǔ)音”音頻信號(hào)被識(shí)別出,該未知談話者都將被添加到語(yǔ)音數(shù)據(jù)庫(kù)中,并被識(shí)別為“未知談話者1號(hào)”。當(dāng)?shù)诙€(gè)未知談話者的“語(yǔ)音”音頻信號(hào)被識(shí)別時(shí),第二個(gè)未知談話者被添加到語(yǔ)音數(shù)據(jù)庫(kù)中并被識(shí)別為“未知談話者2號(hào)”。每次當(dāng)檢測(cè)到一個(gè)未知談話者時(shí),該未知談話者的“語(yǔ)音”音頻信號(hào)都會(huì)與語(yǔ)音數(shù)據(jù)庫(kù)中的每個(gè)未知談話者的“語(yǔ)音”音頻信號(hào)進(jìn)行比較,以查看該未知談話者是否是已經(jīng)被添加到語(yǔ)音數(shù)據(jù)庫(kù)中的談話者。
分類算法305可使用該信息來(lái)判斷在一個(gè)給定時(shí)間周期內(nèi)說(shuō)話的未知談話者的人數(shù)。在一個(gè)時(shí)間周期內(nèi)有較大量的未知談話者則可以指示出在視頻數(shù)據(jù)流中存在商業(yè)廣告。
分類算法305還更新談話者識(shí)別器330中的語(yǔ)音數(shù)據(jù)庫(kù),以增加在視頻數(shù)據(jù)流的節(jié)目部分中出現(xiàn)的新人的聲音識(shí)別信息。這些人可以是新的男女演員、新音樂(lè)家、新選出來(lái)的政治家等。利用商業(yè)廣告中出現(xiàn)的新人的聲音識(shí)別信息更新語(yǔ)音數(shù)據(jù)庫(kù)是沒(méi)有必要的。分類算法305因而記錄新的未知的人出現(xiàn)的次數(shù),以及它們是出現(xiàn)在商業(yè)廣告中還是出現(xiàn)在視頻數(shù)據(jù)流的節(jié)目部分中。分類算法305隨后檢測(cè)與出現(xiàn)在商業(yè)廣告中的未知新人有關(guān)的所有信息(除非他們碰巧還出現(xiàn)在視頻數(shù)據(jù)流的節(jié)目部分中)。
在各個(gè)音頻信號(hào)片斷已經(jīng)以適當(dāng)?shù)囊纛l類別進(jìn)行分類之后,分類算法305把分類信息發(fā)送給類別變化檢測(cè)器335。類別變化檢測(cè)器335使用時(shí)間戳記信息檢測(cè)已經(jīng)被分類在第一類別中的音頻信號(hào)的第一部分何時(shí)停止,以及已經(jīng)被分類在第二類別中的音頻信號(hào)的第二部分何時(shí)開始。類別變化檢測(cè)器335判斷音頻信號(hào)的類別何時(shí)變化并確定所涉及的兩種類別的身份。具體來(lái)說(shuō),類別變化檢測(cè)器335能夠確定音頻信號(hào)已經(jīng)從語(yǔ)音信號(hào)變化到音樂(lè)信號(hào),或者確定音頻信號(hào)已經(jīng)從靜音信號(hào)變化為語(yǔ)音信號(hào),如此類推。
類別變化檢測(cè)器335檢測(cè)已經(jīng)被分類在第一子類別中的音頻信號(hào)的第一部分何時(shí)停止,以及已經(jīng)被分類在第二子類別中的音頻信號(hào)的第二部分何時(shí)開始。舉例來(lái)說(shuō),類型變化檢測(cè)器335能夠確定音頻信號(hào)已經(jīng)從具有背景音樂(lè)的語(yǔ)音的第一子類別變換為具有背景噪聲的語(yǔ)音的第二子類別。
類別變化檢測(cè)器335還確定被分類在第一談話者類別中的音頻信號(hào)的第一部分何時(shí)停止,以及被分類在第二談話者類別中的音頻信號(hào)的第二部分何時(shí)開始。類別變化檢測(cè)器335確定音頻信號(hào)的談話者類別何時(shí)變化。類別變化檢測(cè)器335能夠確定音頻信號(hào)已從第一談話者變?yōu)榈诙勗捳撸蛘咭褟牡诙勗捳咦優(yōu)榈谌勗捳?,如此類推?br> 類別變化檢測(cè)器335把此信息發(fā)送給類別變化速率檢測(cè)器340。類別變化速率檢測(cè)器340檢測(cè)各種類別以何種速率變化。
類型變化速率檢測(cè)器340使用時(shí)間戳記信息計(jì)算每個(gè)特定類別在一個(gè)單位時(shí)間內(nèi)(如一分鐘)變化多少次。
類型變化速率檢測(cè)器340確定每個(gè)類別的變化速率。類型變化速率檢測(cè)器340使用每個(gè)類別的變化速率確定總變化速率。總變化速率考慮了1)每個(gè)類別的變化速率,以及2)音頻輸出速率(即所有類別變化速率),以及3)每個(gè)類別的總時(shí)間長(zhǎng)度,以及4)每個(gè)類別的變化速率與一個(gè)給定時(shí)間周期內(nèi)的類別的總時(shí)間長(zhǎng)度之比。類別變化速率檢測(cè)器340隨后把上述信息發(fā)送給邊界檢測(cè)器345。
邊界檢測(cè)器345使用該信息(包括總變化速率)界定視頻節(jié)目和商業(yè)廣告的邊界。我們知道,商業(yè)廣告常常包含各式各樣的快速變化的音頻類別。與其它類型的視頻片斷相比,商業(yè)廣告常常有較多的談話者變化(在一個(gè)給定時(shí)間內(nèi))。如果邊界檢測(cè)器345接收到表示談話者的變化速率高于一個(gè)預(yù)選閾值的變化率信息,則邊界檢測(cè)器345可推斷出商業(yè)廣告正在播放中。一個(gè)適當(dāng)?shù)拈撝悼梢酝ㄟ^(guò)測(cè)量大量商業(yè)廣告的談話者變化速率依經(jīng)驗(yàn)得出。
邊界檢測(cè)器345使用音頻類別(如語(yǔ)音、靜音、音樂(lè)和噪聲)、以及音頻子類別(如具有背景噪聲的語(yǔ)音、具有背景噪聲的音樂(lè))、以及談話者類別(如被識(shí)別出的談話者和未知的談話者)。為確定商業(yè)廣告片斷的邊界,邊界檢測(cè)器345選擇時(shí)間窗口的尺寸。例如,對(duì)于商業(yè)廣告來(lái)說(shuō),時(shí)間窗口的尺寸被選擇為二十(20)秒。邊界檢測(cè)器345執(zhí)行滑動(dòng)窗高級(jí)特征提取和分類處理,以提取下面的高級(jí)特征1)每個(gè)類型的變化速率(即在該時(shí)間窗口期間每個(gè)類別出現(xiàn)的次數(shù)),2)在該時(shí)間窗口內(nèi)的每個(gè)類型的長(zhǎng)度(n個(gè)類別的n個(gè)值),3)音頻剪輯的速率變化(任何類別變化),以及4)平均音頻剪輯距離。這四個(gè)特征可發(fā)送給邊界檢測(cè)器345內(nèi)的分類器(未示出,即最相鄰的分類器),它判斷該時(shí)間窗口內(nèi)的音頻片斷是否是商業(yè)片斷。如果分類器是隨機(jī)分類器(如Bayesian分類器),則該分類器確定在該時(shí)間窗口內(nèi)的音頻片斷是或者不是商業(yè)廣告片斷的概率。
為了確定節(jié)目片斷的邊界,邊界檢測(cè)器345選擇時(shí)間窗口的尺寸。例如,對(duì)于節(jié)目片斷來(lái)說(shuō),時(shí)間窗口的尺寸可選擇為五(5)分鐘。邊界檢測(cè)器345可把“加權(quán)因數(shù)”指定給每個(gè)類別中的每個(gè)變化。在評(píng)估界定邊界在類別中的特定變化發(fā)生處的可能性時(shí),加權(quán)因數(shù)可以是表示指定給類別變化的相對(duì)重要性的數(shù)。例如,在確定原始邊界存在的可能性時(shí),如果確定從“靜音”到“音樂(lè)”的變化更可能與原始邊界相關(guān)的話,那么表示特定類型變化的數(shù)字因數(shù)可乘以“加權(quán)因數(shù)”以增加特定類別變化的相對(duì)影響。
除了上述方法外,“加權(quán)因數(shù)”可直接從類別變化特征自動(dòng)計(jì)算。在用于描述音頻分類控制器270的多維特征空間中,每個(gè)類別(如語(yǔ)音、音樂(lè))具有一個(gè)表示該類別矩心的平均矢量。這些平均矢量中的每一個(gè)之間的距離也是類別變化重要性的量度。平均矢量之間的距離因而可被用于量化類別變化的重要性。
邊界檢測(cè)器345執(zhí)行滑動(dòng)窗高級(jí)特征提取和分類處理,以提取下面的高級(jí)特征1)每個(gè)類型的變化速率(即在該時(shí)間窗口期間每個(gè)類別出現(xiàn)的次數(shù)),2)在該時(shí)間窗口內(nèi)的每個(gè)類型的長(zhǎng)度(由加權(quán)因數(shù)調(diào)節(jié)),3)音頻剪輯的速率變化(任意類別變化),以及4)平均音頻剪輯距離。這四個(gè)特征可發(fā)送給邊界檢測(cè)器345內(nèi)的隨機(jī)分類器(未示出,Bayesian分類器),它確定該時(shí)間窗口內(nèi)的音頻片斷屬于一個(gè)特定類別的概率。如音頻片斷可以屬于對(duì)話、或者新聞報(bào)道、或者音樂(lè)電視、或者嘈雜的群眾場(chǎng)面。滑動(dòng)窗的輸出值經(jīng)過(guò)了不同片斷當(dāng)中的總的最小值的分析以及總的分析(如針對(duì)最后一小時(shí)的時(shí)間)。
該結(jié)果隨后借助于有關(guān)節(jié)目邊界的試探法進(jìn)行分析。與節(jié)目邊界有關(guān)的試探法的例子包括1)音樂(lè)音頻標(biāo)識(shí)通常存在于新聞節(jié)目的開始,2)接近每個(gè)節(jié)目的結(jié)束時(shí)通常有商業(yè)廣告,并且3)電影結(jié)束時(shí)的演職員表通常在背景音樂(lè)中顯示。
圖4表示根據(jù)本發(fā)明一個(gè)優(yōu)選實(shí)施例的音頻分類控制器270的操作流程圖400。流程圖400示出了在錄像機(jī)150中的音頻分類控制器270中的本發(fā)明操作的一個(gè)優(yōu)選方法。音頻分類控制器270接收來(lái)自音頻信號(hào)源300的音頻信號(hào)(步驟410)。音頻分類控制器270使用分類算法305把音頻信號(hào)分為音頻類別(和子類別)(步驟420)。分類算法305使用談話者識(shí)別器330的信息識(shí)別“語(yǔ)音”音頻類別中的每個(gè)片斷中的各個(gè)談話者(步驟430)。類別變化檢測(cè)器335隨后確定每個(gè)音頻類別(或子類別)何時(shí)變化(步驟440)。類型變化速率檢測(cè)器340隨后確定音頻類別(或子類別)變化的速率(步驟450)。邊界檢測(cè)器345隨后把音頻類別(或子類別)的變化信息的速率與一個(gè)閾值進(jìn)行比較以界定視頻節(jié)目和商業(yè)廣告的邊界(步驟460)。
本發(fā)明已經(jīng)以一種用于在視頻信號(hào)處理器中界定視頻節(jié)目和商業(yè)廣告邊界的系統(tǒng)和方法加以描述了。本發(fā)明的系統(tǒng)和方法也可用在音頻處理器中。音頻處理器只接收和處理音頻信號(hào)。音頻處理器可包括無(wú)線電接收機(jī)、音頻記錄器、用于接收流式傳輸?shù)囊纛l數(shù)據(jù)信號(hào)(源自諸如因特網(wǎng)這樣的信號(hào)源)的設(shè)備或者計(jì)算機(jī)化個(gè)人音頻信息檢索系統(tǒng)。
盡管已經(jīng)詳細(xì)描述了本發(fā)明,但本技術(shù)領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,在不背離本發(fā)明在其最廣泛形式的精神和范圍的情況下,他們可以進(jìn)行各種變化、替換和改進(jìn)。
權(quán)利要求
1.一種在視頻信號(hào)處理器(150)中使用的用于界定視頻節(jié)目和商業(yè)廣告的邊界的系統(tǒng)(270),包括-音頻分類控制器(270),能夠接收音頻信號(hào)的至少一個(gè)片斷的至少一個(gè)音頻類別,并能夠確定所述至少一個(gè)音頻類別的至少一個(gè)變化速率,并能夠通過(guò)把所述至少一個(gè)音頻類別的所述至少一個(gè)變化速率與一個(gè)閾值進(jìn)行比較以界定至少一個(gè)所述邊界。
2.如權(quán)利要求1的系統(tǒng)(270),其中所述音頻分類控制器(270)包括分類算法(305),能夠把音頻信號(hào)進(jìn)行分類以獲得所述音頻信號(hào)的每個(gè)片斷的至少一個(gè)音頻類別。
3.如權(quán)利要求2的系統(tǒng)(270),其中所述分類算法(305)能夠把音頻信號(hào)分類為靜音、音樂(lè)、噪聲和語(yǔ)音這樣的音頻類別。
4.如權(quán)利要求3的系統(tǒng)(270),其中所述音頻分類控制器(270)包括談話者識(shí)別器(330),該識(shí)別器包括含有其聲音已被識(shí)別出的人的聲音識(shí)別信息的語(yǔ)音數(shù)據(jù)庫(kù),并且其中所述分類算法(305)能夠存取所述談話者識(shí)別器(330)的所述語(yǔ)音數(shù)據(jù)庫(kù)并把其聲音在所述談話者識(shí)別器(330)的所述語(yǔ)音數(shù)據(jù)庫(kù)中的人的語(yǔ)音信號(hào)分類為音頻類別。
5.如權(quán)利要求4的系統(tǒng)(270),其中所述談話者識(shí)別器(330)包括含有其聲音未被識(shí)別出的人的聲音信息的未知談話者數(shù)據(jù)庫(kù),其中所述分類算法(305)能夠存取所述未知談話者數(shù)據(jù)庫(kù)并確定在一個(gè)給定時(shí)間周期內(nèi)談話的未知談話者數(shù),并且其中所述分類算法(305)能夠更新所述談話者識(shí)別器(330)中的所述語(yǔ)音數(shù)據(jù)庫(kù)以添加新識(shí)別的談話者的聲音識(shí)別信息。
6.如權(quán)利要求1的系統(tǒng)(270),其中所述音頻分類控制器(270)包括類別變化檢測(cè)器(335),它能夠接收所述音頻信號(hào)的片斷的音頻類別,并能夠確定所述音頻信號(hào)的音頻類別何時(shí)變化,并能夠確定在所述音頻類別變化之前和之后的所述音頻類別的身份。
7.如權(quán)利要求6的系統(tǒng)(270),其中所述類別變化檢測(cè)器(335)能夠檢測(cè)所述音頻信號(hào)的片斷的音頻子類別,并能夠確定所述音頻信號(hào)的音頻子類別何時(shí)變化,并能夠確定音頻子類別的所述變化之前和之后的所述音頻子類別的身份。
8.如權(quán)利要求6的系統(tǒng)(270),其中所述音頻分類控制器(270)包括類別變化速率檢測(cè)器(340),它能夠接收來(lái)自所述類別變化檢測(cè)器(335)的有關(guān)音頻類別變化的信息,并能夠計(jì)算所述音頻類別變化發(fā)生的速率。
9.如權(quán)利要求8的系統(tǒng)(270),其中所述類別變化速率檢測(cè)器(340)能夠使用每個(gè)類別的變化速率、音頻剪輯速率、每個(gè)類別的總時(shí)間長(zhǎng)度和每個(gè)類別的變化速率與給定時(shí)間周期內(nèi)的類別的總時(shí)間長(zhǎng)度之比的信息確定總變化速率。
10.如權(quán)利要求8的系統(tǒng)(270),其中所述音頻分類控制器(270)包括邊界檢測(cè)器(345),它能夠從所述類別變化速率檢測(cè)器(340)接收有關(guān)音頻類別速率變化的信息,并能夠把至少一個(gè)音頻類別速率變化的值與一個(gè)閾值進(jìn)行比較以界定視頻節(jié)目片斷的至少一個(gè)邊界。
11.如權(quán)利要求10的系統(tǒng)(270),其中所述邊界檢測(cè)器(345)能夠把一個(gè)加權(quán)因數(shù)指定給每個(gè)類別中的每個(gè)變化,所述加權(quán)因數(shù)包括一個(gè)在評(píng)價(jià)用于界定類別中的特定變化發(fā)生的邊界的可能性時(shí)表示指定給類別變化的相對(duì)重要性的數(shù)。
12.如權(quán)利要求10的系統(tǒng)(270),其中所述邊界檢測(cè)器(345)能夠從所述類別變化速率檢測(cè)器(340)接收有關(guān)通過(guò)使用每個(gè)類別的變化速率、音頻剪輯速率、每個(gè)類別的總時(shí)間長(zhǎng)度和每個(gè)類別的變化速率與一個(gè)給定時(shí)間周期內(nèi)的類別的總時(shí)間長(zhǎng)度之比的信息確定的總變化速率,所述邊界檢測(cè)器(345)能夠比較至少一個(gè)總變化速率的值和一個(gè)閾值以界定視頻節(jié)目片斷的至少一個(gè)邊界。
13.一種能夠界定視頻節(jié)目和商業(yè)廣告的邊界的視頻信號(hào)處理器(150),包括-音頻分類控制器(270),能夠接收音頻信號(hào)的至少一個(gè)片斷的至少一個(gè)音頻類別,并能夠確定所述至少一個(gè)音頻類別的至少一個(gè)變化速率,并能夠通過(guò)把所述至少一個(gè)音頻類別的所述至少一個(gè)變化速率與一個(gè)閾值進(jìn)行比較以界定至少一個(gè)所述邊界。
14.如權(quán)利要求13的視頻信號(hào)處理器(150),其中所述視頻信號(hào)處理器(150)包括以下之一-電視接收機(jī)、錄像機(jī)、用于接收流式傳輸?shù)囊曨l數(shù)據(jù)信號(hào)的裝置以及計(jì)算機(jī)化個(gè)人信息檢索系統(tǒng)。
15.一種能夠界定視頻節(jié)目和商業(yè)廣告邊界的音頻信號(hào)處理器(150),包括-音頻分類控制器(270),能夠接收音頻信號(hào)的至少一個(gè)片斷的至少一個(gè)音頻類別,并能夠確定所述至少一個(gè)音頻類別的至少一個(gè)變化速率,并能夠通過(guò)把所述至少一個(gè)音頻類別的所述至少一個(gè)變化速率與一個(gè)閾值進(jìn)行比較以界定至少一個(gè)所述邊界。
16.如權(quán)利要求13的音頻信號(hào)處理器(150),其中所述音頻信號(hào)處理器(150)包括以下之一-電視接收機(jī)、音頻記錄器、用于接收流式傳輸?shù)囊纛l數(shù)據(jù)信號(hào)的裝置以及計(jì)算機(jī)化的個(gè)人音頻信息檢索系統(tǒng)。
17.一種在視頻信號(hào)處理器(150)中使用的用于界定視頻節(jié)目和商業(yè)廣告邊界的方法,包括的步驟是-在音頻分類控制器(270)中接收音頻信號(hào)的至少一個(gè)片斷的至少一個(gè)音頻類別;-確定所述至少一個(gè)音頻類別的至少一個(gè)變化速率;并且-通過(guò)比較所述至少一個(gè)音頻類別的所述至少一個(gè)變化速率和一個(gè)閾值來(lái)界定至少一個(gè)所述邊界。
18.如權(quán)利要求17的方法,還包括的步驟有-利用所述音頻分類控制器(270)的分類算法(305)對(duì)音頻信號(hào)進(jìn)行分類以獲得所述音頻信號(hào)的每個(gè)片斷的至少一個(gè)音頻類別。
19.如權(quán)利要求18的方法,還包括的步驟有-利用所述分類算法(305)把音頻信號(hào)分類為靜音、音樂(lè)、噪聲和語(yǔ)音這樣的音頻類別。
20.如權(quán)利要求19的方法,還包括的步驟有-存取所述音頻分類控制器(270)內(nèi)的談話者識(shí)別器(330)中的語(yǔ)音數(shù)據(jù)庫(kù),它包括已被識(shí)別的人的聲音識(shí)別信息;并且-把其聲音在所述語(yǔ)音數(shù)據(jù)庫(kù)中的人的語(yǔ)音信號(hào)以音頻類別分類。
21.如權(quán)利要求20的方法,還包括的步驟有-存取所述談話者識(shí)別器(330)中的未知談話者數(shù)據(jù)庫(kù),它包括未被識(shí)別的人的聲音信息;-確定在一個(gè)給定時(shí)間周期內(nèi)談話的未知談話者的數(shù)目;-更新所述談話者識(shí)別器(330)中的所述語(yǔ)音數(shù)據(jù)庫(kù)以添加新識(shí)別的談話者的聲音識(shí)別信息。
22.如權(quán)利要求17的方法,還包括的步驟有-在所述音頻分類控制器(270)的類別變化檢測(cè)器(335)中接收所述音頻信號(hào)的音頻類別;-在所述類別變化檢測(cè)器(335)中確定所述音頻信號(hào)的音頻類別何時(shí)變化;并且-在所述類別變化檢測(cè)器(335)中確定所述音頻類別變化之前和之后的所述音頻類別的身份。
23.如權(quán)利要求22的方法,還包括的步驟有-在所述音頻分類控制器的類別變化檢測(cè)器(335)中接收所述音頻信號(hào)的音頻子類別;-在所述類別變化檢測(cè)器(335)中確定所述音頻信號(hào)的音頻子類別何時(shí)變化;并且-在所述類別變化檢測(cè)器(335)中確定所述音頻子類別變化之前和之后的所述音頻子類別的身份。
24.如權(quán)利要求22的方法,還包括的步驟有-在類別變化速率檢測(cè)器(340)中接收來(lái)自所述類別變化檢測(cè)器(335)的有關(guān)音頻類別變化的信息,并且-計(jì)算所述音頻類別變化發(fā)生的速率。
25.如權(quán)利要求24的方法,還包括的步驟有-在所述類別變化速率檢測(cè)器340中通過(guò)使用有關(guān)每個(gè)類別的變化速率、音頻剪輯速率、每個(gè)類別的總時(shí)間長(zhǎng)度和每個(gè)類別的變化速率與一個(gè)給定時(shí)間周期內(nèi)的類別的總時(shí)間長(zhǎng)度之比的信息確定總變化速率;并且-比較至少一個(gè)總變化速率的值和一個(gè)閾值以界定視頻片斷的至少一個(gè)邊界。
26.如權(quán)利要求24的方法,還包括的步驟有-在所述音頻分類控制器(270)的邊界檢測(cè)器(345)中接收來(lái)自所述類別變化速率檢測(cè)器(340)的有關(guān)音頻類別速率變化的信息;并且-把至少一個(gè)音頻類別速率變化與一個(gè)閾值相比較以界定包含所述音頻信號(hào)的視頻節(jié)目片斷的至少一個(gè)邊界。
27.如權(quán)利要求26的方法,還包括的步驟有-把一個(gè)加權(quán)因數(shù)指定給每個(gè)類別中的每個(gè)變化,其中所述加權(quán)因數(shù)包括在評(píng)價(jià)用于界定類別中的特定變化發(fā)生的邊界的可能性時(shí)表示指定給類別變化的相對(duì)重要性的數(shù)。
全文摘要
本發(fā)明公開了一種用在視頻信號(hào)處理器中的通過(guò)使用音頻類別來(lái)界定節(jié)目邊界和商業(yè)廣告邊界的系統(tǒng)和方法。該系統(tǒng)包括音頻分類控制器,該控制器獲得有關(guān)音頻信號(hào)片斷的音頻類別的信息。音頻類別包括諸如靜音、音樂(lè)、噪聲和語(yǔ)音這樣的類別。音頻分類控制器確定音頻類別的變化速率。音頻分類控制器隨后把音頻類別的每個(gè)變化速率與一個(gè)閾值進(jìn)行比較以界定節(jié)目和商業(yè)廣告的邊界。
文檔編號(hào)G06F17/30GK1426563SQ01808461
公開日2003年6月25日 申請(qǐng)日期2001年12月10日 優(yōu)先權(quán)日2000年12月22日
發(fā)明者S·達(dá)塔斯, N·迪米特洛瓦 申請(qǐng)人:皇家菲利浦電子有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1