專利名稱:視頻搜索裝置、編輯裝置、視頻搜索方法及程序的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及視頻搜索裝置、編輯裝置、視頻搜索方法及程序。更具體
地說,本發(fā)明涉及處理和音頻文本(audio-text)數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)的視 頻搜索裝置等,其中搜索由輸入關(guān)鍵詞的音頻文本數(shù)據(jù)構(gòu)成,并且所搜索 的關(guān)鍵詞位置被顯示在時間線上。視頻搜索裝置從而使得用戶可以容易地 搜索期望的視頻場景。
背景技術(shù):
當某人為了找出在圖書的哪個部分寫了什么而搜索該圖書時,他可以 通過斜對角地閱讀該圖書或者對該圖書翻頁來搜索字符。然而,在運動圖 像的相關(guān)技術(shù)領(lǐng)域中(其中視頻和音頻是主要記錄信息),難于在一個素 材中搜索期望的場景。
例如,在相關(guān)技術(shù)VTR (磁帶錄像機)中,當針對高速視頻場景來進 行搜索時,可以大致認出運動圖像。然而,難于詳細地檢查每一幀的內(nèi) 容。另外,當針對這種高速視頻場景來進行搜索時,難于聽到言語聲 (speech sound),因為言語聲被靜音。即使可以聽到言語聲,也因為言語 聲太快而無法理解言語聲。
為了給出對言語聲的補充說明,舉例來說,相對慢的回放速度(三到 四倍正常速度)是是否可以通過用人類聽覺傾聽視頻的言語聲來理解視頻 內(nèi)容的界限。因此, 一直沒有用來確認高速言語聲的內(nèi)容的手段。
例如,如在國際專利公開No. W096/32722中公開的,在非線性編輯 裝置中,作為用于搜索的顯示方法,多個縮略圖被顯示以供選擇。然而, 一般而言,在非線性編輯裝置中,不是顯示連續(xù)圖像的縮略圖,而是不時 地顯示縮略圖。因此難于從這些縮略圖中搜索期望場景。
另外,縮略圖的信息量比言語聲的信息量大得多。假定所有幀(29.94幀/秒)的縮略圖被顯示在監(jiān)視器上,那么一個人難于通過隨機查看縮略圖 來搜索期望的視頻場景。
另外,即使期望視頻場景附近的場景被找到,仍然難于確定最終編輯
點。就是說,在非線性編輯裝置的監(jiān)視器中,音頻包絡(luò)(envelope)波形
(垂直幅度,水平時間軸)通常被顯示在時間線上,以用于確定編輯點。
然而,雖然一個人可以通過査看音頻包絡(luò)波形來辨認聲音的起點和言 語聲的強度,但是他一直難于理解言語聲的含義或內(nèi)容。因此,編輯操作 者一直通過實時預(yù)覽編輯點附近的素材來確定編輯點并確認言語聲的含義 或內(nèi)容。
例如,公開號為2005-94709的日本未審查專利申請公開了一種按照時 間順序在列表上顯示構(gòu)成運動圖像或其他文本信息的每個塊的標題的方 法。當關(guān)于每個塊的文本信息被這樣顯示在列表上時,即使編輯操作員根 據(jù)相關(guān)文本信息找到期望視頻場景附近的場景,編輯操作員也有必要實時 預(yù)覽編輯點附近的素材等,以確定最終的編輯點。
發(fā)明內(nèi)容
如上所述,在相關(guān)技術(shù)的非線性編輯裝置等中,為了確認包括視頻和 音頻作為主記錄信息的運動圖像素材的內(nèi)容、確定編輯點以及根據(jù)制作意 圖來進行編輯, 一直需要大量工時。
希望對例如將是編輯點的期望視頻場景進行容易的搜索。 根據(jù)本發(fā)明的一個實施例,提供了一種用于處理和音頻文本數(shù)據(jù)有關(guān)
的視頻數(shù)據(jù)的視頻搜索裝置,包括關(guān)鍵詞輸入部件,該關(guān)鍵詞輸入部件
輸入用戶關(guān)鍵詞;關(guān)鍵詞搜索部件,該關(guān)鍵詞搜索部件從音頻文本數(shù)據(jù)中 搜索所述關(guān)鍵詞輸入部件所輸入的關(guān)鍵詞;以及信息顯示控制部件,該信 息顯示控制部件在監(jiān)視器上顯示時間線并且在該時間線上縮進顯示所述關(guān) 鍵詞搜索部件所搜索的關(guān)鍵詞位置。
本發(fā)明處理和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)。在這里,音頻文本數(shù)據(jù) 意味著通過對應(yīng)于視頻信號的音頻信號來表示聲音內(nèi)容的文本數(shù)據(jù)。視頻數(shù)據(jù)和音頻文本數(shù)據(jù)例如存儲在諸如HDD等之類的數(shù)據(jù)存儲部件中。
當用戶將關(guān)鍵詞輸入到關(guān)鍵詞輸入部件中時,關(guān)鍵詞搜索部件從音頻 文本數(shù)據(jù)中搜索關(guān)鍵詞。例如,使用在監(jiān)視器上顯示的圖形用戶界面屏幕 將關(guān)鍵詞輸入到關(guān)鍵詞輸入部件中。這樣,用戶可以使用圖形用戶界面屏 幕容易并正確地輸入關(guān)鍵詞。
在如上所述執(zhí)行關(guān)鍵詞搜索之后,信息顯示控制部件在時間線(例如 視頻時間線)上顯示所搜索的關(guān)鍵詞位置。這樣,用戶可以使用在視頻時 間線上顯示用戶所輸入的關(guān)鍵詞的位置來容易地搜索期望的視頻場景。
本發(fā)明的實施例例如還包括位置選擇部件,該位置選擇部件根據(jù)用 戶操作從在監(jiān)視器上顯示的時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定關(guān)鍵詞 位置;以及圖像顯示控制部件,該圖像顯示控制部件基于視頻數(shù)據(jù)來顯示 對應(yīng)于如下音頻文本部分的代表性圖像所述音頻文本部分包括由位置選 擇部件選擇的關(guān)鍵詞位置。在這種情況下,通過在監(jiān)視器上顯示與用戶所 選擇的關(guān)鍵詞的位置相對應(yīng)的代表性屏幕,用戶可以容易地確認對應(yīng)于每 個關(guān)鍵詞位置的視頻場景。
另外,本發(fā)明的實施例例如還包括位置選擇部件,該位置選擇部件 根據(jù)用戶操作從在監(jiān)視器上顯示的時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定 關(guān)鍵詞位置;回放指示部件,該回放指示部件根據(jù)用戶操作來指示進行回 放;并且在由位置選擇部件選擇出預(yù)定關(guān)鍵詞位置的狀態(tài)下,當回放指示 部件指示進行回放時,圖像顯示控制部件基于視頻數(shù)據(jù)來顯示對應(yīng)于預(yù)定 關(guān)鍵詞位置的視頻。在這種情況下,通過在監(jiān)視器上顯示與用戶所選擇的 關(guān)鍵詞的位置相對應(yīng)的代表性屏幕,用戶可以容易地確認對應(yīng)于每個關(guān)鍵 詞位置的視頻場景。
通過本發(fā)明,可以處理和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)、從音頻文本 數(shù)據(jù)中搜索輸入的關(guān)鍵詞、以及在時間線上顯示所搜索的關(guān)鍵詞位置。因 此,允許用戶容易地搜索期望的視頻場景。
圖1是圖示出根據(jù)本發(fā)明一個實施例的非線性編輯裝置的配置示例的框圖2 (a)和2 (b)是分別圖示出視頻索引文件和視頻數(shù)據(jù)文件的示 例性結(jié)構(gòu)的示圖3 (a)和3 (b)是分別圖示出音頻文本索引文件和音頻文本數(shù)據(jù)
文件的示例性結(jié)構(gòu)的示圖4 (a)和4 (b)是圖示出概念性結(jié)構(gòu)的示圖,其中音頻文本數(shù)據(jù)
在視頻記錄裝置中被與時間碼交織;
圖5是圖示出由CPU執(zhí)行的關(guān)鍵詞搜索處理的一個示例的流程圖; 圖6是圖示出在監(jiān)視器上顯示的用戶界面屏幕的一個示例的示圖; 圖7是圖示出在監(jiān)視器上顯示的用戶界面屏幕的一個示例的示圖; 圖8是圖示出利用時間作為水平軸對關(guān)鍵詞和音頻文本進行比較的狀
態(tài)的示意圖9是圖示出由CPU執(zhí)行的視頻場景搜索處理的一個示例的流程圖10是圖示出從編輯應(yīng)用程序的角度來看的關(guān)鍵詞搜索處理流程的 示意圖11是圖示出從編輯應(yīng)用程序的角度來看的視頻場景搜索處理流程 的示意圖;并且
圖12是圖示出從編輯應(yīng)用程序的角度來看的視頻場景搜索處理流程 的示意圖。
具體實施例方式
在下面,將參考附圖給出對本發(fā)明實施例的描述。 "編輯裝置的配置"
圖1圖示出根據(jù)一個實施例的非線性編輯裝置100的示例性配置。該 非線性編輯裝置100具有CPU (中央處理器)111、 ROM (只讀存儲器) 112、 RAM (隨機存取存儲器)113、顯示控制器114、監(jiān)視器115、 HDD 接口 116、 HDD 117、驅(qū)動器控制器118、媒體驅(qū)動器119、輸入接口 120、輸入部件121、音頻輸出接口 122、揚聲器123、以及系統(tǒng)總線 124。CPU 111、 ROM 112和RAM 113通過系統(tǒng)總線124互相連接。另外, 顯示控制器114、 HDD接口 116、驅(qū)動器控制器118、輸入接口 120和音 頻輸出接口 122被連接到系統(tǒng)總線124。
CPU 111控制非線性編輯裝置100的每個部件的操作。CPU 111通過 將存儲在ROM 112或HDD 117中的程序載入RAM 113并執(zhí)行這些程序來 控制每個部件的操作。
監(jiān)視器115通過顯示控制器114連接到系統(tǒng)總線124。監(jiān)視器115例 如包括LCD (液晶顯示器)、PDP (等離子顯示板),等等。顯示控制器 114在CPU 111的控制下控制在監(jiān)視器115上顯示的圖像和GUI顯示。
HDD 117通過HDD接口 116連接到系統(tǒng)總線124。 HDD 117存儲用 于控制CPU111的程序、作為編輯素材的視頻數(shù)據(jù)和音頻數(shù)據(jù),等等。
就這一點而言,在本實施例中,和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)被處 理。音頻文本數(shù)據(jù)是表示與視頻數(shù)據(jù)相對應(yīng)的音頻數(shù)據(jù)的音頻內(nèi)容的文本 數(shù)據(jù)。因此,保存在HDD117中的每個運動圖像內(nèi)容的視頻數(shù)據(jù)除了對應(yīng) 于視頻數(shù)據(jù)的音頻數(shù)據(jù)之外還具有額外的音頻文本數(shù)據(jù)。在這種情況下, 通過時間碼來建立視頻數(shù)據(jù)、音頻數(shù)據(jù)和音頻文本數(shù)據(jù)之間的關(guān)系。
媒體驅(qū)動器119通過驅(qū)動器控制器118連接到系統(tǒng)總線124。媒體驅(qū) 動器119是支持各種記錄媒體的驅(qū)動功能部件,并且對記錄媒體執(zhí)行記錄 和回放操作。記錄媒體例如包括光盤(例如CD、 MD、 CD-R、 CD-RW、 DVD、 DVD-R、 DVD-RW、藍光光盤等)或者存儲卡。媒體驅(qū)動器119用 于接收作為編輯素材的視頻數(shù)據(jù)等的輸入,并且用于在編輯之后輸出視頻 數(shù)據(jù)等。
輸入部件121通過輸入接口 120連接到系統(tǒng)總線124。輸入部件121 供用戶用來輸入各種操作輸入并輸入數(shù)據(jù)。輸入部件121包括鍵盤、鼠 標、遙控器,以及其他輸入設(shè)備。
揚聲器123通過音頻輸出接口 122連接到系統(tǒng)總線124。 "視頻和音頻文本的索引文件和數(shù)據(jù)文件"
接下來,將給出對保存在圖l所示的非線性編輯裝置100的HDD 117 中的視頻數(shù)據(jù)和音頻數(shù)據(jù)的描述。圖2 (a)和2 (b)分別是視頻索引文件和視頻數(shù)據(jù)文件的示例性結(jié)
構(gòu)。索引文件可被創(chuàng)建為獨立于數(shù)據(jù)文件的獨立文件。索引文件也可以被 包括在數(shù)據(jù)文件中。在該示例中,索引文件被創(chuàng)建為獨立于數(shù)據(jù)文件的獨 立文件。
視頻索引文件是指示出數(shù)據(jù)的哪一幀記錄在HDD 117的哪個地址中的 管理數(shù)據(jù)。視頻索引文件包括索引的總數(shù)、索引區(qū)域的大小、數(shù)據(jù)文件中 所包括的所有視頻幀數(shù)據(jù)的大小,以及視頻數(shù)據(jù)文件中的地址。
視頻數(shù)據(jù)文件包括所有的視頻幀數(shù)據(jù)和其大小。視頻數(shù)據(jù)文件還包括 視頻文件頭部。另外,視頻數(shù)據(jù)經(jīng)常是壓縮的,并且視頻數(shù)據(jù)文件包括用 于解壓縮經(jīng)壓縮的視頻數(shù)據(jù)的信息。
就這一點而言,雖然例示和描述將被省略,但是按照相同的方式同步 于時間碼(TC)地記錄音頻數(shù)據(jù)。在本實施例中,時間碼全部被連續(xù)地記 錄,并且是與視頻幀編號等價的信息。
最初,時間碼是關(guān)于時間、分鐘、秒和幀的信息。通過便攜式攝像機 等記錄在記錄媒體上的素材包括多個片段。在這里,片段表示從記錄開始 (REC START)到記錄暫停(REC PAUSE)的記錄部分。片段和片段的 時間碼可以是不連續(xù)的??商娲?,時間碼在不同的記錄媒體之間可以是 重復(fù)的。
當這些素材被從媒體驅(qū)動器119輸入以供圖1所示的非線性編輯裝置 100記錄到HDD 117中時,除了原始時間碼之外還為記錄分配連續(xù)的幀編 號。在這種情況下,可以使用幀編號0、 1、 2...來執(zhí)行管理,或者可以為 記錄來新分配連續(xù)的時間碼。
圖2的索引文件中的"偏移"表示離基準點(例如假設(shè)基準點的地址 為0)的距離,這是所謂的偏移地址??梢愿鶕?jù)"偏移"的值來得到每個 視頻幀的起始地址,并且可以根據(jù)"偏移"和"視頻大小(因為壓縮記 錄,數(shù)據(jù)量對每個幀是不同的)"來得到每個視頻幀的結(jié)束地址。
圖3 (a)和圖3 (b)分別是音頻文本索引文件和音頻文本數(shù)據(jù)文件 的示例性結(jié)構(gòu)。索引文件可被創(chuàng)建為獨立于數(shù)據(jù)文件的獨立文件。索引文 件也可以被包括在數(shù)據(jù)文件中。在該示例中,索引文件被創(chuàng)建為獨立于數(shù)
9據(jù)文件的獨立文件。索引文件包括索引的總數(shù)、索引區(qū)域的大小、每個句
子或短語的入點(in point)和出點(outpoint)的時間碼,以及音頻文本 數(shù)據(jù)的大小。
音頻文本數(shù)據(jù)文件包括每個句子或每個短語中所包括的字符的文本數(shù) 據(jù)以及詞的入點和出點的時間碼。音頻文本數(shù)據(jù)文件還包括每個句子或短 語的數(shù)據(jù)頭部和數(shù)據(jù)大小。音頻文本數(shù)據(jù)文件還包括音頻文本文件頭部。
CPU 111作為搜索系統(tǒng)可以從音頻文本索引文件中獲得與時間碼相對 應(yīng)的音頻文本數(shù)據(jù)文件的地址,并且可以通過訪問該地址來讀取音頻文本 的數(shù)據(jù)文件。CPU 111作為搜索系統(tǒng)還可以通過比較所讀取的音頻文本的 數(shù)據(jù)和關(guān)鍵詞來搜索關(guān)鍵詞和關(guān)鍵詞在音頻文本中的位置(時間碼)。
圖4 (a)圖示出概念性的結(jié)構(gòu),其中音頻文本數(shù)據(jù)在視頻記錄裝置中 被與時間碼交織。在這里,時間碼指示出連續(xù)的時間和幀編號。在這里, 假定不連續(xù)的時間碼和相同的時間碼不被包括。在圖4 (a)中,以625/50 格式作為示例來描述時間碼,并且時間碼是25幀/秒。
"明文"是用于在計算機上處理句子的一般文件格式或者字符串格 式。在這里,為了方便描述,"字符"本身被寫出。實際上,明文由文本 代碼來表示(對于中文字符是二字節(jié)數(shù)據(jù))。然而,詳細的文本代碼和控 制信息在這里被省略,因為本說明書的目的是說明時間碼和文本數(shù)據(jù)的結(jié) 構(gòu)。
圖4 (a)圖示出日文句子"SHINBUN WO TO-TSU-TE (給我一張報 紙)"的示例。在圖中在從上到下的垂直方向上定義時間軸。人聲由靜默
(silence)(灰色)和聲音(字符信息)來表示。人聲的產(chǎn)生具有某一時 間段,因而某一時間段(00:00:00:01到00:00:00:17)指示出期間產(chǎn)生聲音
"SHIN"的時段。圖中的"文本控制信息"指示出不由字符表達的文本控 制信息。例如,制表、垂直制表、換行、分頁、文件結(jié)束標記、字節(jié)順序 標記等。在這里,細節(jié)被省略。
"字符入/出"指示出字符的入點和出點,它們與時間碼相聯(lián)系。"短 語"指示出由字符構(gòu)成的短語或句子。"短語入/出"指示出短語的入點和 出點。這樣,通過為每個字符或者為每個句子定義入點和出點,可以控制各種運動圖像和聲音。就是說,可以顯示對應(yīng)于某一文本字符的視頻縮略
圖,回放相應(yīng)的聲音,對準(cue up)包括相關(guān)文本字符的句子的開始
(短語入點)以進行回放,在出點停止回放,等等。還可以搜索某一文本
句子(例如,"SHINBUN (報紙)")以及顯示素材中的多個匹配處。 另外,可以搜索作為集合的多個句子以及搜索包括類似句子的候選地方。
圖4 (b)是通過從圖4 (a)提取要素(essence)(即,字符的入點 和出點)而產(chǎn)生的示圖。音頻文本的數(shù)據(jù)文件在該狀態(tài)下被構(gòu)成(參考圖 3 (b))。
"使用音頻文本、通過關(guān)鍵詞進行的運動圖像搜索" 接下來,將給出對圖1所示的非線性編輯裝置100中的運動圖像搜索 的描述。當用戶在非線性編輯裝置100中編輯被輸入的運動圖像素材時, 用戶被允許使用音頻文本來搜索期望的視頻場景以確定編輯點。 關(guān)鍵詞搜索
用戶(編輯操作者)輸入將作為關(guān)鍵詞的字符串,從而從素材中高效 地選擇出期望的視頻場景以供確認。從而,編輯操作的預(yù)處理被執(zhí)行。將 使用圖5中的流程圖來給出對由CPU 111執(zhí)行的關(guān)鍵詞搜索處理的描述。
在步驟ST1中,CPU 111開始關(guān)鍵詞搜索處理,然后前進到步驟ST2 的處理。在步驟ST2中,當通過對輸入部件121的用戶操作,關(guān)鍵詞被輸 入時,CPU111前進到步驟ST3的處理。
圖6圖示出在監(jiān)視器115上顯示的用戶界面屏幕。用戶界面屏幕在上 側(cè)設(shè)有兩個用于顯示圖像的圖像顯示位置(1)和(2)。用戶界面屏幕在 下側(cè)設(shè)有時間線(3)、視頻時間線(4)、音頻時間線(5)和(7)以及 音頻文本時間線(6)禾P (8)。標記a、 b、 c和d指示出視頻時間線(4) 上的片段。在音頻時間線(5)和(7)上,與在視頻時間線(4)上顯示 的各個片段相對應(yīng)的音頻信號的波形被顯示。另外,在音頻文本時間線 (6)和(8)上,與在視頻時間線(4)上顯示的各個片段相對應(yīng)的聲音 的內(nèi)容被顯示。
另外,用戶界面屏幕在下側(cè)設(shè)有用于在關(guān)鍵詞搜索時輸入關(guān)鍵詞的關(guān) 鍵詞框(9),并且還設(shè)有用于指示開始搜索的搜索按鈕(10)、后退按鈕(11)、回放按鈕(12)、前進按鈕(13)和回放停止按鈕(14)。
用戶使用輸入部件121的鼠標和鍵盤向圖6所示的用戶界面屏幕的關(guān) 鍵詞框(9)輸入關(guān)鍵詞(在該示例中為"第一場春季風暴")。該GUI 程序支持日語。當關(guān)鍵詞被輸入時,關(guān)鍵詞被如圖7所示地顯示在關(guān)鍵詞 框(9)中。
在步驟ST3中,當通過對輸入部件121的用戶操作,用戶界面屏幕上 的搜索按鈕(10)被按下時,CPU 111前進到步驟ST4的處理。在步驟 ST4中,CPU 111將關(guān)鍵詞轉(zhuǎn)換為文本代碼。
接下來,在步驟ST5中,CPU 111將圖3中的關(guān)鍵詞的文本代碼和音 頻文本數(shù)據(jù)的文本代碼讀取到RAM 113中,并且比較這兩個文本代碼。 在步驟ST6中,CPU lll確定是否匹配。如果不匹配,則在步驟ST7中, CPU 111使關(guān)鍵詞移動一個字符以用于順序比較,然后返回步驟ST5,并 且重復(fù)如上所述的相同操作。
圖3 (a)和圖3 (b)是l號(#1) 、 2號(#2) ...N號(弁N)的短語 或句子的文本數(shù)據(jù)。當關(guān)鍵詞搜索被執(zhí)行時,在目標"文本代碼"和"圖 3中的1號(#1)的1、 2、 3、 4、 5,…,N號(#N)的最后一個文本代 碼"之間進行順序比較,以檢測匹配數(shù)據(jù)。該處理是在上述的步驟ST5至 ST7中執(zhí)行的。圖8示意性地圖示出利用時間作為水平軸來比較關(guān)鍵詞和 音頻文本的狀態(tài)。
當CPU 111在步驟ST6中確定數(shù)據(jù)己經(jīng)匹配時,CPU 111在步驟ST8 中讀取匹配的文本代碼的入和出時間碼。在步驟ST9中,CPU111執(zhí)行相 關(guān)時間碼的縮進(indented)顯示。例如,CPU 111通過用顏色或亮度來區(qū) 分的線(條、圓圈、橢圓等)來執(zhí)行在視頻時間線上對所搜索關(guān)鍵詞位置 的縮進顯示(參考圖7中的視頻時間線(4))。
在這里, 一條線的寬度被自動設(shè)為可被用戶(編輯操作者)看到的寬 度。就是說,使用時間線的顯示寬度和單位時間段的寬度作為參數(shù)來自動 設(shè)置一條線的寬度。結(jié)果,用戶可以根據(jù)時間線的比例尺比率(scale ratio)來改變顯示匹配處的線的寬度。例如,當一幀的時間寬度被擴展為 足以可見時,視頻時間線與一幀的時間寬度相匹配,但這是罕見的情況。就這一點而言,在本實施例中,如圖7所示,所搜索的關(guān)鍵詞的位置
被顯示在視頻時間線(4)上。然而,可以按照縮進形式在時間線(3)上 顯示所搜索的關(guān)鍵詞的位置。另外,通過使用圖7所示的多個條或者使用 直方圖(指示頻率的條形圖)來指示頻率,可以執(zhí)行縮進顯示。
接著,在步驟ST10中,CPU 111確定是否已經(jīng)到達最后的文本代 碼。如果不是最后的文本代碼,則在步驟ST7中,CPU111使關(guān)鍵詞移動 一個字符以用于順序比較,然后返回步驟ST5的處理。另一方面,在步驟 ST10中,如果已經(jīng)達到最后的文本代碼,那么CPU 111在步驟ST11中終 止關(guān)鍵詞搜索。
在關(guān)鍵詞匹配頻率高的時間線部分中(參考圖7中的片段d),所匹 配的關(guān)鍵詞的每個點的縮進顯示變得連續(xù)并且變?yōu)閹顟B(tài)。另外,在關(guān)鍵 詞匹配頻率低的時間線部分中(參考圖7中的片段a和b),縮進顯示由 條顯示。因此,用戶一眼就能明白期望關(guān)鍵詞點和鄰近片段的統(tǒng)計分布之 間的關(guān)系。
就這一點而言,如果有多個關(guān)鍵詞,則CPU 111自動地選擇能夠通過 用各不相同的顏色或亮度顯示關(guān)鍵詞來區(qū)分關(guān)鍵詞的縮進方法。另外,圖 5的流程圖是一個示例,并且本發(fā)明不限于此。例如,存在這樣一種方 法,其中搜索存在同一短語(多個字符)的地方(時間碼),并且這些地 方被預(yù)先包括在表中,然后通過搜索執(zhí)行命令從表中讀取這些地方。
期望場景的確認
如上所述,用戶(編輯操作者)可以根據(jù)每個被搜索關(guān)鍵詞的位置來 搜索期望的視頻場景,并且確定編輯點。將使用圖9中的流程圖來給出對 由CPU 111執(zhí)行的對視頻場景的搜索處理的描述。
在步驟ST21中,CPU 111開始對視頻場景的搜索處理,然后前進到 步驟ST22的處理。在步驟ST22中,CPU 111在光標位置處對準句子或者 短語的入點,并且顯示相應(yīng)的縮略圖。
例如,在圖7中的用戶界面窗口中,在垂直于視頻時間線(4)等的 狀態(tài)下顯示光標CA,如圖所示。光標CA的位置是固定的。首先,在與 光標CA匹配的狀態(tài)下顯示所搜索關(guān)鍵詞位置中的第一關(guān)鍵詞位置。在這種情況下,如果第一關(guān)鍵詞位置對應(yīng)于圖3 (b)所示的音頻文本數(shù)據(jù)文件
中的l號句子或短語,那么CPU111對準入點(tl),從例如HDD117中 讀取與入點(tl)的時間碼相對應(yīng)的縮略圖,并且在圖7中的用戶界面屏 幕的圖像顯示位置(1)處顯示縮略圖。
接下來,在步驟ST23中,CPU 111確定用戶界面屏幕上的前進按鈕 (13)或者后退按鈕(11)是否已被通過輸入部件121的用戶操作而按 下。另外,判定回放按鈕(12)是否己被按下。如果前進按鈕(13)或者 后退按鈕(11)已被按下,那么CPU111返回步驟ST22。
在這種情況下,如果前進按鈕(13)被按下,那么CPU 111改變用戶 界面屏幕以使得光標CA匹配下一關(guān)鍵詞位置,在光標位置處對準句子或 者短語的入點,并且顯示相應(yīng)的縮略圖。就這一點而言,當光標CA處于 最后一個關(guān)鍵詞的位置時,即使前進按鈕(13)被按下,也維持同一狀 態(tài)。
另一方面,如果后退按鈕(11)被按下,那么CPU lll改變用戶界面 屏幕以使得光標CA匹配前一關(guān)鍵詞位置,在光標位置處對準句子或者短 語的入點,并且顯示相應(yīng)的縮略圖。就這一點而言,當光標CA處于第一 個關(guān)鍵詞的位置時,即使后退按鈕(11)被按下,也維持同一狀態(tài)。
另外,在步驟ST23中,如果回放按鈕(12)被按下,那么在步驟 ST24中,CPU 111控制HDD 117回放從入點到出點的視頻、音頻和音頻 文本。在這種情況下,所回放的視頻被顯示在圖7中的用戶界面屏幕的圖 像顯示位置(2)處。另外,與回放視頻同步的音頻輸出被放大顯示在音 頻時間線(6)上。與回放視頻同步的音頻文本被放大顯示在文本時間線 (8)上。由此,用戶(編輯操作者)可以確認與光標CA所處的關(guān)鍵詞位 置相對應(yīng)的視頻、音頻和音頻文本。就這一點而言,音頻波形被顯示在音 頻時間線(6)上。
例如,如果關(guān)鍵詞位置對應(yīng)于圖3 (b)所示的音頻文本數(shù)據(jù)文件中的 1號(#1)句子或者短語,那么用戶可以確認與1號(#1)句子或者短語 的入點(tl)到出點(t2)相對應(yīng)的視頻、音頻和音頻文本。就這點而 言,在回放完成之后,出點的靜止圖像被顯示在圖7中的用戶界面屏幕的
14圖像顯示位置(2)處。
接下來,在步驟ST25中,CPU 111確定用戶界面屏幕上的前進按鈕 (13)或者后退按鈕(11)是否已被通過輸入部件121的用戶操作而按 下。如果這些按鈕之一已被按下,那么CPU 111返回到步驟ST22的處 理,并且如上所述的相同處理被重復(fù)。另一方面,在步驟ST25中,如果 前進按鈕(13)和后退按鈕(11)都未被操作,那么CPU 111在步驟 ST26中終止對視頻場景的搜索處理。
通過基于圖9中的上述流程圖來搜索視頻場景,用戶(編輯操作者) 可以搜索將作為編輯點的期望視頻場景。就這一點而言,用戶(編輯操作 者)可以使用鼠標來拖動圖7中的視頻時間線(4)上關(guān)鍵詞位置頻率高 的帶狀部分,以執(zhí)行對預(yù)定部分的縮進顯示,并且可以通過連續(xù)地回放該 部分來確認視頻和聲音內(nèi)容。
圖10示意性地圖示出從編輯應(yīng)用程序的角度來看的關(guān)鍵詞搜索處理 流程。就這一點而言,[n]對應(yīng)于圖5中的流程圖的步驟編號。編輯應(yīng)用程 序中所包括的"GUI"執(zhí)行包括輸入操作在內(nèi)的GUI顯示。"搜索功能" 將由GUI輸入的關(guān)鍵詞的文本字符轉(zhuǎn)換為文本代碼,對數(shù)據(jù)文件和文本代 碼進行比較,讀取匹配的時間代碼,并且由GIJI對其進行顯示。"命令發(fā) 出"讀取索引文件、獲得將被讀取的數(shù)據(jù)文件的地址,并且向存儲裝置發(fā) 出命令,例如對準(cue-up)、回放、停止等等。
同樣地,圖11和圖12示意性地圖示出從編輯應(yīng)用程序的角度來看的 視頻場景搜索處理流程。就這一點而言,[n]對應(yīng)于圖9中的流程圖的步驟 編號。
如上所述,圖1所示的非線性編輯裝置100處理和音頻文本數(shù)據(jù)有關(guān) 的視頻數(shù)據(jù)。從音頻文本數(shù)據(jù)中搜索用戶(編輯操作者)所輸入的關(guān)鍵 詞,并且在視頻時間線上顯示所搜索的關(guān)鍵詞位置(參考圖7)。因此, 例如使得用戶可以容易地搜索將作為編輯點的期望視頻場景。
另外,在圖1所示的非線性編輯裝置100中,用戶(編輯操作者)使 用在監(jiān)視器115上顯示的圖形用戶界面屏幕(參考圖6和圖7)來輸入關(guān) 鍵詞。因此,用戶可以容易并正確地輸入關(guān)鍵詞。另外,在圖l所示的非線性編輯裝置100中,當用戶(編輯操作者) 從在監(jiān)視器115上的視頻時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定關(guān)鍵詞位 置時,所選擇的代表性屏幕(縮略圖)被顯示在監(jiān)視器115的圖像顯示位 置(1)處。因此,用戶(編輯操作者)可以容易地確認對應(yīng)于每個關(guān)鍵 詞位置的視頻場景。
另外,在圖l所示的非線性編輯裝置100中,當用戶(編輯操作者) 從在監(jiān)視器115上的視頻時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定關(guān)鍵詞位 置并且指示進行回放時,與預(yù)定關(guān)鍵詞位置相對應(yīng)的視頻被基于視頻數(shù)據(jù) 而顯示在監(jiān)視器115的圖像顯示位置(2)處。因此,用戶(編輯操作 者)可以容易地確認與每個關(guān)鍵詞位置相對應(yīng)的視頻場景。
就這一點而言,在上面描述的實施例中,使用例如"第一場春季風 暴"這樣的一個詞(日語)的簡單關(guān)鍵詞搜索被示出。然而,利用使用單 個詞和多個詞的條件表達式,可以執(zhí)行關(guān)鍵詞搜索。例如,如果條件表達 式是"日本和美國棒球"或"Ichiro",那么從音頻文本中搜索"日本和美 國棒球"和"Ichiro",并且利用各不相同的顏色來顯示它們或者利用相同 顏色來縮進它們。還例如,條件表達式是"天氣"和"女人",通過具有 女人聲音的"天氣"進行搜索,并且以縮進形式顯示結(jié)果。在這種情況 下,通過快速傅立葉變換來確定聲音是男性還是女性的。還例如,使用 "出現(xiàn)第一場春季風暴"作為條件表達式來進行短語搜索。還例如,使用 "天氣預(yù)報"作為條件表達式來進行搜索。
另外,作為如上所述進行的搜索的結(jié)果,就是說,"關(guān)鍵詞"或者關(guān) 鍵詞部分的時間碼等可被保存,以用于第二目的。
另外,關(guān)鍵詞搜索不僅可以通過文本部分的完全匹配來執(zhí)行。例如, 具有高匹配率的文本部分可被搜索,并且結(jié)果可以按照匹配率的降序以不 同顏色顯示。
另外,在上述實施例中,本發(fā)明應(yīng)用于非線性編輯裝置。然而,本發(fā) 明也可以相同方式應(yīng)用于處理如下視頻數(shù)據(jù)的其他視頻裝置,該視頻數(shù)據(jù) 被記錄為與音頻文本數(shù)據(jù)有關(guān)系。
本領(lǐng)域技術(shù)人員應(yīng)當明白,根據(jù)設(shè)計要求和其他因素,各種修改、組合、子組合和變更可以發(fā)生,只要它們屬于所附權(quán)利要求或其等同物的范 圍內(nèi)。
相關(guān)申請的交叉引用
本發(fā)明包含與2008年1月9日在日本專利廳提交的日本專利申請JP 2008-002658有關(guān)的主題,上述申請的全部內(nèi)容通過引用而結(jié)合于此。
權(quán)利要求
1. 一種用于處理和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)的視頻搜索裝置,包括關(guān)鍵詞輸入部件,該關(guān)鍵詞輸入部件輸入用戶關(guān)鍵詞;關(guān)鍵詞搜索部件,該關(guān)鍵詞搜索部件從所述音頻文本數(shù)據(jù)中搜索由所述關(guān)鍵詞輸入部件所輸入的關(guān)鍵詞;以及信息顯示控制部件,該信息顯示控制部件在監(jiān)視器上顯示時間線并且在該時間線上縮進顯示所述關(guān)鍵詞搜索部件所搜索的關(guān)鍵詞位置。
2. 如權(quán)利要求l所述的視頻搜索裝置,其中,所述關(guān)鍵詞輸入部件具有在所述監(jiān)視器上顯示的圖形用戶界面 屏幕,并且所述圖形用戶界面屏幕包括在其中輸入所述關(guān)鍵詞的幀部件。
3. 如權(quán)利要求1所述的視頻搜索裝置,其中,所述信息顯示控制部件在所述關(guān)鍵詞搜索部件所搜索的關(guān)鍵詞位置處顯示具有如下寬度的條所述寬度是根據(jù)所述關(guān)鍵詞的出現(xiàn)頻率的。
4. 如權(quán)利要求1所述的視頻搜索裝置,還包括位置選擇部件,該位置選擇部件根據(jù)用戶操作從在所述監(jiān)視器上顯示的所述時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定關(guān)鍵詞位置;以及圖像顯示控制部件,該圖像顯示控制部件基于所述視頻數(shù)據(jù)來顯示對 應(yīng)于如下音頻文本部分的代表性圖像所述音頻文本部分包括由所述位置選擇部件選擇的關(guān)鍵詞位置。
5. 如權(quán)利要求l所述的視頻搜索裝置,還包括位置選擇部件,該位置選擇部件根據(jù)用戶操作從在所述監(jiān)視器上顯示的所述時間線上顯示的關(guān)鍵詞位置中選擇預(yù)定關(guān)鍵詞位置;回放指示部件,該回放指示部件根據(jù)用戶操作來指示進行回放;以及 圖像顯示控制部件,在由所述位置選擇部件選擇出預(yù)定關(guān)鍵詞位置的 狀態(tài)下,當所述回放指示部件指示進行回放時,所述圖像顯示控制部件基 于所述視頻數(shù)據(jù)來顯示對應(yīng)于所述預(yù)定關(guān)鍵詞位置的視頻。
6. —種編輯裝置,該編輯裝置具有處理和音頻文本數(shù)據(jù)有關(guān)的視頻 數(shù)據(jù)的視頻搜索部件,該視頻搜索部件包括關(guān)鍵詞輸入部件,該關(guān)鍵詞輸入部件根據(jù)用戶操作來輸入關(guān)鍵詞; 關(guān)鍵詞搜索部件,該關(guān)鍵詞搜索部件從所述音頻文本數(shù)據(jù)中搜索所述關(guān)鍵詞輸入部件所輸入的關(guān)鍵詞;以及信息顯示控制部件,該信息顯示控制部件在監(jiān)視器上顯示時間線并且 在該時間線上顯示所述關(guān)鍵詞搜索部件所搜索的關(guān)鍵詞位置。
7. —種搜索視頻的方法,用于處理和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù),所述方法包括以下步驟根據(jù)用戶操作來輸入關(guān)鍵詞;從所述音頻文本數(shù)據(jù)中搜索所輸入的關(guān)鍵詞;以及 進行信息顯示控制,從而在監(jiān)視器上顯示時間線并且在該時間線上縮 進顯示所搜索的關(guān)鍵詞的位置。
全文摘要
本發(fā)明公開了視頻搜索裝置、編輯裝置、視頻搜索方法及程序。用于處理和音頻文本數(shù)據(jù)有關(guān)的視頻數(shù)據(jù)的視頻搜索裝置包括關(guān)鍵詞輸入部件,其輸入用戶關(guān)鍵詞;關(guān)鍵詞搜索部件,其從音頻文本數(shù)據(jù)中關(guān)鍵詞輸入部件所輸入的關(guān)鍵詞;以及信息顯示控制部件,其在監(jiān)視器上顯示時間線并且在該時間線上縮進顯示關(guān)鍵詞搜索部件所搜索的關(guān)鍵詞位置。
文檔編號G06T1/00GK101482880SQ20091000317
公開日2009年7月15日 申請日期2009年1月8日 優(yōu)先權(quán)日2008年1月9日
發(fā)明者德中潤三 申請人:索尼株式會社