視頻描述符生成裝置的制造方法
【專利說明】視頻描述符生成裝置
[0001]本申請是申請日為2010年I月20日的中國專利申請201080005232.6 ( “視頻描述符生成裝置”)的分案申請。
技術(shù)領(lǐng)域
[0002]本發(fā)明涉及用于檢索視頻的視頻描述符生成裝置、視頻描述符生成方法、以及視頻描述符生成程序,其能夠檢測多個運動圖像中的類似的或相同的運動圖像區(qū)間。
【背景技術(shù)】
[0003]專利文獻I中公開了一種視頻描述符生成裝置的示例。圖27是示出了專利文獻I所描述的視頻描述符生成裝置的框圖。
[0004]每幀特征提取單元10根據(jù)輸入視頻計算幀單位特征,并將其輸出至特征表創(chuàng)建單元20。特征表創(chuàng)建單元20根據(jù)從每幀特征提取單元10輸出的幀單位特征創(chuàng)建特征表,并輸出特征表作為視頻描述符。
[0005]接下來,將對圖27所示的裝置的操作進行描述。
[0006]每幀特征提取單元10執(zhí)行從輸入視頻中提取諸如每幀的顏色之類的特征的過程,并將所獲得的特征輸出至特征表創(chuàng)建單元20作為幀單位特征。
[0007]特征表創(chuàng)建單元20利用閾值執(zhí)行對于幀之間的特征變化的處理,并在時間方向上壓縮特征。具體地,特征表創(chuàng)建單元20計算幀的幀單位特征之間的差,并確定該差是否在特定容許變化范圍內(nèi)。然后,特征表創(chuàng)建單元20將視頻劃分為視頻處于容許變化范圍內(nèi)的時間區(qū)間,并針對每一個劃分的時間區(qū)間,將特征和時間區(qū)間長度(幀的數(shù)目)的集合輸出作為視頻描述符。
[0008]這樣,可以在時間方向上壓縮針對每一個幀所獲得的視頻的特征,由此能夠減小特征量。此外,還能夠?qū)崿F(xiàn)高速匹配。
[0009]專利文獻1:日本未經(jīng)審查的專利公開N0.10-320400
【發(fā)明內(nèi)容】
[0010]然而,上述系統(tǒng)涉及以下問題。
[0011]第一個問題在于,當(dāng)在視頻周圍添加了黑條區(qū)域或L型區(qū)域時,檢索準(zhǔn)確度降低,這是因為不存在用于在檢測到添加了黑條區(qū)域或L型區(qū)域時執(zhí)行特征提取的裝置。這樣,即便由于4: 3與16: 9之間的幅型變換而在屏幕的頂部和底部或左部和右部插入黑色區(qū)域(下文稱為黑條區(qū)域),或者在為了緊急要況報告等而添加了 L型區(qū)域時,仍然直接提取特征,而不考慮這類問題。結(jié)果,由于提取了包括不必要的黑條區(qū)域或L型區(qū)域的特征,所以特征的值不同于未包括這些區(qū)域的情形,這使檢索準(zhǔn)確度惡化。
[0012][本發(fā)明的目的]
[0013]本發(fā)明的目的是提供視頻描述符生成裝置、視頻描述符生成方法及視頻描述符生成程序,在即便給視頻添加了黑條區(qū)域或L型區(qū)域的情況下,也能夠保持檢索準(zhǔn)確度。
[0014]根據(jù)本發(fā)明的一方面,一種視頻描述符生成裝置包括:第一提取單元,針對作為視頻的幀或場的每一個畫面,提取第一特征;第二提取單元,從視頻中包括的圖像的邊緣所定義的區(qū)域中提取第二特征;以及特征合并單元,將第一特征和第二特征合并,以生成視頻描述符。
[0015]如上所述地配置本發(fā)明,本發(fā)明具有有益效果:即便給視頻添加了黑條區(qū)域或L型區(qū)域,也能夠保持檢索準(zhǔn)確度。
【附圖說明】
[0016]圖1是示出了根據(jù)本發(fā)明的視頻描述符生成裝置的第一實施例的配置的框圖。
[0017]圖2是示出了根據(jù)本發(fā)明的視頻描述符生成裝置的第二實施例的配置的框圖。
[0018]圖3是示出了圖1所示的特征合并單元140的實施例的配置的框圖。
[0019]圖4是示出了圖1所示的特征合并單元140的實施例的配置的框圖。
[0020]圖5是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0021]圖6是示出了圖1所示的特征合并單元140的實施例的配置的框圖。
[0022]圖7是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0023]圖8是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0024]圖9是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0025]圖10是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0026]圖11是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0027]圖12是示出了圖2所示的特征合并單元240的實施例的配置的框圖。
[0028]圖13是示出了根據(jù)本發(fā)明的運動圖像匹配裝置的實施例的配置的框圖。
[0029]圖14是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0030]圖15是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0031]圖16是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0032]圖17是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0033]圖18是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0034]圖19是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0035]圖20是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0036]圖21是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0037]圖22是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0038]圖23是示出了圖13所示的特征再現(xiàn)單元1000的實施例的配置的框圖。
[0039]圖24示出了黑條區(qū)域和L型區(qū)域的示例。
[0040]圖25示出了復(fù)用特征碼序列的示例。
[0041]圖26示意了特征的示例。
[0042]圖27是示出了與本發(fā)明有關(guān)的視頻描述符生成裝置的配置的框圖。
【具體實施方式】
[0043]接下來,將參照附圖詳細描述本發(fā)明的實施例。
[0044]參照圖1,其示出了本發(fā)明的第一實施例的視頻描述符生成裝置,該裝置包括視頻邊緣檢測單元100、視覺特征提取單元120、位置校正視覺特征提取單元130和特征合并單元 140ο
[0045]視頻邊緣檢測單元100根據(jù)視頻計算視頻邊緣,并將邊緣信息輸出至位置校正視覺特征提取單元130。視覺特征提取單元120接收視頻,從視頻中獲得第一特征,并將其輸出至特征合并單元140。位置校正視覺特征提取單元130根據(jù)視頻和從視頻邊緣檢測單元100輸出的邊緣信息獲得第二特征,并將其輸出至特征合并單元140。特征合并單元140根據(jù)第一特征和第二特征計算視頻描述符,并將其輸出。
[0046]接下來,將詳細描述圖1所示的第一實施例的操作。
[0047]首先,將視頻輸入至視覺特征提取單元120。如果編碼了原始視頻,則首先由解碼器對視頻進行解碼,然后以由幀或場組成的畫面為單位輸入該數(shù)據(jù)。
[0048]視覺特征提取單元120計算每一個畫面的特征向量。視覺特征提取單元120將畫面當(dāng)作一幅靜止的圖像,并提取指示諸如該畫面的顏色、圖案、形狀等的特征的視覺特征的向量。將所計算的特征向量輸出至特征合并單元140作為第一特征。
[0049]另一方面,還將視頻輸出至視頻邊緣檢測單元100。視頻邊緣檢測單元100檢測是否存在視頻中原始沒有包括的黑條區(qū)域或L型區(qū)域,如果存在,則獲得邊緣區(qū)域。
[0050]應(yīng)注意,黑條區(qū)域表示由于4: 3到16: 9之間的幅型變換而被插入在屏幕的頂部和底部或左部和右部的黑色的多余區(qū)域。盡管它通常是黑色的,但是它不一定是黑色的。另一方面,L型(或倒L型)區(qū)域是用于廣播緊急新聞等的視頻顯示技術(shù),其中實際視頻稍微收縮以生成用于廣播大新聞的空間。在這種情況下,其顏色通常不是黑色的。在這兩種情況下,通常顯示不在原始視頻中的區(qū)域。圖24示出了這些區(qū)域的示例。在圖24中,黑色區(qū)域?qū)?yīng)于黑條區(qū)域或L型區(qū)域。除了這些區(qū)域,這類還包括將一圖像并入另一圖像的視頻呈現(xiàn)技術(shù)(所謂的畫中畫)的情況以及當(dāng)幀出現(xiàn)在主視頻周圍時由攝像機捕捉新聞節(jié)目主持人的后屏上示出的視頻的情況。這樣,通過按照與黑條區(qū)域的情形相同的方式來處理由畫中畫顯示在內(nèi)部的區(qū)域的外部以及屏幕的框架外部,本發(fā)明的方法可以應(yīng)用于此。
[0051]視頻邊緣檢測單元100獲得畫面中包括的、沒有包括在原始視頻中的區(qū)域及其邊界。例如,可以通過下列操作計算邊界:將Hough變換應(yīng)用于畫面以檢測視頻的線性分量,并獲得以時間上連續(xù)的方式出現(xiàn)在該畫面內(nèi)的相同位置處的線性分量。將描述所獲得的視頻邊緣的信息作為邊緣信息輸出至位置校正視覺特征提取單元130。例如,可以使用從實際屏幕的邊緣到黑條區(qū)域或L型區(qū)域所生成的邊緣的距離作為邊緣信息。如果條區(qū)域僅存在于頂部和底部,則應(yīng)將到右邊界和左邊界的距離值設(shè)置為O。如果也允許稍微傾斜的邊緣,則可以一起描述其角度。此外,邊緣信息還可以包括指示黑條或L型區(qū)域的類型的符號(例如L型、水平黑條和垂直黑條)以及描述每個圖案的條區(qū)域所必須的參數(shù)。例如,如果已經(jīng)將出現(xiàn)L型的部分的寬度設(shè)置為若干類型,則邊緣信息應(yīng)包括表示L型圖案的符號和指定寬度的索引。
[0052]還將視頻以畫面為單位連同邊緣信息一起輸入至位置校正視覺特征提取單元130。位置校正視覺特征提取單元130在不涉及邊緣信息所定義的位置以外的區(qū)域的情況下計算特征。這意味著,在邊緣信息所定義的位置內(nèi)的區(qū)域是整個圖像的假設(shè)下提取特征。要提取的特征與視覺特征提取單元120所提取的相同。例如,如果視覺特征提取單元120提取顏色的布局特征,則位置校正視覺特征提取單元130也提取顏色的布局特征。將所提取的特征作為第二特征輸出至特征合并單元140。
[0053]特征合并單元140將從視覺特征提取單元120輸出的第一特征與從位置校正視覺特征提取單元130輸出的第二特征進行合并,以生成視頻描述符,并將其輸出。在本示例中,可以簡單地合并這兩個特征,以形成一個特征,或者對這兩個特征應(yīng)用特定編碼。也可以利用第一特征和第二特征具有高相關(guān)性的事實來對差進行編碼。下面將對這一操作進行詳細描述。
[0054]接下來,將參照圖3描述特征合并單元140的實施例。
[0055]參照圖3,其示出了特征合并單元140的實施例,特征合并單元140包括編碼單元310、編碼單元320和碼序列復(fù)用單元230。
[0056]編碼單元320對輸入的第一特征進行編碼,并將從其中獲得的第一特征碼序列輸出至碼序列復(fù)用單元230。編碼單元310對輸入的第二特征進行編碼,并將從其中獲得的第二特征碼序列輸出至碼序列復(fù)用單元230。碼序列復(fù)用單元230對第一特征碼序列和第二特征碼序列進行復(fù)用,以生成視頻描述符,并將其輸出。
[0057]接下來,將描述圖3所示的特征合并單元140的操作。
[0058]首先,將第一特征輸入至編碼單元320。編碼單元320對該特征進行編碼,并生成第一特征碼序列。這里,編碼意味著以預(yù)定格式存儲信息,包括根據(jù)維度簡單地對準(zhǔn)特征向量的值。例如,如果輸入向量是N維度的整數(shù)向量,則對各個維度的N段整數(shù)值進行對準(zhǔn)的格式是可接受的。如果輸入向量具有浮點值,則可以執(zhí)行量化,以將其表示為有限數(shù)目的表示值,并對指示表示值的索引(量化索引)進行對準(zhǔn)。此外,還可以執(zhí)行熵編碼,熵編碼針對所獲得的整數(shù)值或表示值考慮各個值的出現(xiàn)頻率。可以使用Huffman編碼或算術(shù)編碼作為熵編碼。如果特征向量的維度之間存在相關(guān)性,則可以在執(zhí)行移除相關(guān)性的過程之后執(zhí)行熵編碼。例如,可以獲得具有相關(guān)性的維度之間的差值,以執(zhí)行差編碼,或在對輸入的特征向量執(zhí)行頻率轉(zhuǎn)換等之后執(zhí)行量化或熵編碼,以生成碼序列。此外,作為特征向量,如果畫面之間存在相關(guān)性,則可以根據(jù)過去畫面的特征向量計算差,并通過上述編碼方法對其進行編碼,以生成碼序列。將所生成的碼序列輸出至碼序列復(fù)用單元230。
[0059]另一方面,將第二特征輸入至編碼單元310。編碼單元310的操作與編碼單元320的相同。編碼單元310對第二特征進行編碼,以生成第二特征碼序列。將所生成的第二特征碼序列輸出至碼序列復(fù)用單元230。
[0060]碼序列復(fù)用單元230對第一特征碼序列和第二特征碼序列進行復(fù)用,由此生成視頻描述符。如圖25所示,可以將第一特征碼序列和第二特征碼序列與識別碼簡單地結(jié)合,該識別碼用于指定碼序列之間可分離的位置(然而,如果碼序列具有固定的長度,或者碼序列的長度另外有所描述,則用于識別的碼是不必要的),或者可以通過使碼序列以畫面為單位交替地交織來構(gòu)造視頻描述符。
[0061]利用如圖3所示的特征合并單元140,可以生成視頻描述符,視頻描述符具有通過執(zhí)行消除黑條區(qū)域的特征提取所獲得的特征以及通過執(zhí)行利用整個屏幕的特征提取所獲得的特征。
[0062]接下來,將參照圖4來描述特征合并單元140的另一實施例。
[0063]參照圖4,其示出了特征合并單元140的實施例,特征合并單元140包括特征減法單元300、編碼單元320、特征差編碼單元340和碼序列復(fù)用單元330。
[0064]特征減法單元300將第二特征減去第一特征,以計算特征之間的差,并將特征差值輸出至特征差編碼單元340。編碼單元320對第一特征進行編碼,并將所獲得的第一特征碼序列輸出至碼序列復(fù)用單元330。特征差編碼單元340對從特征減法單元300輸出的特征差值進行編碼,并將特征差值碼序列輸出至碼序列復(fù)用單元330。碼序列復(fù)用單元330根據(jù)從編碼單元320輸出的第一特征碼序列和從特征差編碼單元340輸出的特征差值碼序列生成視頻描述符,并將其輸出。
[0065]接下來,將描述圖4所示的特征合并單元140的操作。
[0066]首先,將第一特征輸入至編碼單元320。編碼單元320的操作與圖3所示的相同,并將第一特征碼序列輸出至碼序列復(fù)用單元330。還將第一特征輸入至特征減法單元300。還將第二特征輸入至特征減法單元300。
[0067]在特征減法單元300中,針對特征向量的每一個維度,將第二特征減去第一特征,以此計算差向量。將差向量輸出至特征差編碼單元340作為特征差。
[0068]特征差編碼單元340對特征差值進行編碼,以生成特征差值碼序列。由于第一特征和第二特征原本是從同一個視頻提取的,在是否包括黑條區(qū)域或L型區(qū)域方面具有差另IJ,因而它們具有較大的相關(guān)性。這樣,考慮如果計算兩個特征之間的差,則出現(xiàn)的值的分布集中在O附近。利用這一特性,可以減少執(zhí)行熵編碼所生成的碼數(shù)量。具體地,可以預(yù)先使用關(guān)于特征向量的每一個維度的學(xué)習(xí)數(shù)據(jù)來計算差值的頻率分布,并利用該分布將算術(shù)編碼應(yīng)用于差值。也可以基于頻率分布來構(gòu)建Huffman編碼表,并基于該表來對差值進行編碼。如果特征差值幾乎集中于0,則還可以構(gòu)建碼序列作為維度為非零值的索引與指示該非零值的碼的組合。將所生成的特征差值碼序列輸出至碼序列復(fù)用單元330。
[0069]碼序列復(fù)用單元330將第一特征碼序列和特征差值碼序列結(jié)合,以生成視頻描述符。其操作與圖3所示的碼序列復(fù)用單元230的操作相同。
[0070]利用圖4所示的特征合并單元140,通過在計算差之后執(zhí)行編碼,可以減小特征量的數(shù)目。
[007