視頻檢索方法

文檔序號：7969289閱讀：303來源：國知局

專利名稱：視頻檢索方法
技術領域：
本發(fā)明涉及將視頻作為查詢的檢索系統(tǒng)中有關客戶使用的部分，特別是向客戶提供有效瀏覽(browsing)系統(tǒng)的視頻檢索方法。
背景技術：
在現(xiàn)有依據(jù)MPEG-7標準實現(xiàn)的基于實例的視頻檢索系統(tǒng)中，涉及客戶部分的構成功能僅限于向客戶提供檢索結果。
下面，通過附圖對現(xiàn)有技術中基于實例的視頻檢索系統(tǒng)進行說明。
圖1是現(xiàn)有技術中視頻檢索系統(tǒng)中客戶界面的一個示例圖。
在圖1中，多媒體數(shù)據(jù)顯示窗21，索引文件信息顯示窗22，關鍵幀(KeyFrame)/影像文件瀏覽器23，段瀏覽器24，段信息輸入部25。上述關鍵幀/影像文件瀏覽器23作為顯示檢索結果的工具只能向客戶提供檢索結果的瀏覽。
如上述構成的技術存在以下問題。
首先基于實例的視頻檢索方法單純地顯示檢索結果，而不考慮描述子之間加權值的調節(jié)、整體畫面/客體(Object)之間加權值的調節(jié)、反饋、以及文脈(context)等因素。例如，客戶在一次檢索中找到自己感興趣的視頻，如果想針對這個視頻再進行檢索，現(xiàn)有的檢索系統(tǒng)不支持這種功能，無法實現(xiàn)?；蛘呦胗枚喾N描述子而非單個描述子進行檢索，在現(xiàn)有的系統(tǒng)中也無法實現(xiàn)。所以現(xiàn)有的視頻檢索系統(tǒng)存在無法進行有效地視頻檢索的問題。

發(fā)明內容
本發(fā)明所要解決的技術問題在于提供一種視頻檢索方法，通過將調節(jié)后的加權值或是文脈等作為新的查詢要素，實現(xiàn)更為準確有效的基于實例的視頻檢索。
為實現(xiàn)上述目的，依據(jù)本發(fā)明的視頻檢索方法，其特征包括鏡頭邊界檢測步驟，從視頻中檢測鏡頭邊界；低層信息提取步驟，在上述鏡頭邊界檢測步驟中檢測的鏡頭幀中提取低層信息；加權值調節(jié)步驟，設置在上述低層信息提取步驟中提取的信息描述子的加權值；視頻檢索步驟，根據(jù)上述加權值調節(jié)步驟中設置的加權值而使描述子之間的檢索加權值具有不同的值并檢索視頻。
而且，上述鏡頭邊界檢測步驟還包括塊生成步驟，將視頻的幀分割成若干塊；顏色差異計算步驟，在相鄰的幀中，以每個塊為單位相對所有塊進行顏色差異；顏色差異判斷步驟，以每個塊為單位相對所有塊進行比較，判斷在上述顏色差異計算步驟中計算的顏色差異是否比第一臨界值大；鏡頭變換判斷步驟，以每個幀為單位相對相鄰的幀進行比較，判斷顏色差異比第一臨界值大的塊的個數(shù)是否比第二臨界值大；鏡頭邊界判斷步驟，把顏色差異比第一臨界值大的塊的個數(shù)比第二臨界值大的相鄰幀間隔判斷為鏡頭邊界。
在計算每個塊的顏色差異時，計算紅、綠、藍的RGB基本色，將其平均值作為顏色差異。
在上述低層信息提取步驟中，提取的低層信息包括幀的主顏色(DominantColor)、顏色結構(Color Structure)、GOF(Gang Of Four)/GOP(Group OfPictures)顏色、邊緣直方圖(Edge Histogram)、同類紋理(HomogeneousTexture)、運動強度(Motion Activity)、音頻波形(Audio Wave)。
在上述鏡頭邊界檢測步驟之后，還包括提取所檢測的鏡頭客體的步驟；在上述低層信息提取步驟中還提取上述提取的客體的低層信息。
在上述低層信息提取步驟中，提取的低層信息包括幀的主顏色(DominantColor)、顏色結構(Color Structure)、GOF(Gang Of Four)/GOP(Group OfPictures)顏色、邊緣直方圖(Edge Histogram)、同類紋理(HomogeneousTexture)、運動強度(Motion Activity)、Audio Wave，和客體的運動軌跡(Motion Trajectory)、邊界輪廓形態(tài)(Contour Shape)、區(qū)域形態(tài)(RegionShape)、同類紋理(Homogeneous Texture)、主顏色(Dominant Color)、顏色結構(Color Structure)等。
在上述低層信息提取步驟之后，還包括不僅提取當前選擇鏡頭的低層信息，還提取當前鏡頭之前和之后鏡頭的低層信息的步驟。
本發(fā)明將調節(jié)后的加權值或是文脈等作為新的查詢要素，實現(xiàn)了更為有效準確地基于實例的視頻檢索。本發(fā)明所提出的運算及整個系統(tǒng)非常適用于在MPEG-7基礎上基于實例的視頻檢索或是DVD(Digital Video Library)系統(tǒng)中。

圖1為現(xiàn)有技術中視頻檢索系統(tǒng)客戶界面的一個圖例；圖2為本發(fā)明提供的視頻檢索客戶系統(tǒng)中查詢方法1至方法4的構造圖；圖3為依據(jù)本發(fā)明鏡頭變化檢索運算流程圖；圖4為依據(jù)本發(fā)明在鏡頭邊界檢索中，根據(jù)每個幀的顏色差異變化而變化的計數(shù)值的變化圖；圖5為本發(fā)明視頻檢索系統(tǒng)客戶界面的一個圖示。
其中，附圖標記21多媒體數(shù)據(jù)顯示窗 22索引文件信息顯示窗23關鍵幀(Key Frame)/影像文件瀏覽器 24段瀏覽器25段信息輸入部具體實施方式
本發(fā)明中，檢索所需要的查詢大致分為四類。查詢一，在客戶端打開新的視頻，在檢測鏡頭邊界后，將所需要的鏡頭作為查詢。這里的鏡頭(shot)是視頻數(shù)據(jù)的基本單元，它代表一個場景中在時間上和空間上無間斷(interruption)的連續(xù)(Sequence)動作，是攝像機的一次操作所攝制的視頻圖像，任何一段視頻數(shù)據(jù)流都是由許多鏡頭組成的。鏡頭是由若干幀(Frame)組成的，幀是構成視頻的靜止畫面。
查詢二是任意選擇。查詢三是任意選擇+標題，查詢四是將查詢結果的鏡頭再作為查詢的方式。
圖2是依據(jù)本發(fā)明，在視頻檢索的客戶系統(tǒng)中，查詢一至查詢四的構造圖。
首先，對查詢一進行說明。查詢一是在檢測鏡頭邊界后，將所需要的鏡頭作為查詢的方式。
參照圖2，首先在新的視頻中檢測鏡頭邊界。檢測鏡頭邊界時，使用到后面將要論述到的鏡頭變化檢索運算。鏡頭檢索完成后，輸出鏡頭的客體(Object)，在輸出低層信息后，MPEG-7快速生成器將其轉換成MPEG-7文件。在后面的“文脈”步驟中，輸出當前鏡頭、當前鏡頭之前以及之后鏡頭的低層信息，再將相關內容作為描述子的加權值，進行查詢。
下面對查詢一按步驟進行詳細說明。
在查詢一的步驟1“鏡頭邊界檢測”中，打開新的視頻，檢測希望作為查詢的鏡頭。這里應用了鏡頭變化檢索(shot change detection)運算。
所謂鏡頭變化檢索(shot change detection)運算是通過塊匹配求得RGB((Red，Green，Blue)顏色值的差異。在本發(fā)明中，這種運算的特點在于使用了兩個臨界值。這樣可以提高檢索的精確度。此外，在求得兩個幀之間的顏色差異時，通過塊匹配方法可以得到客體的位置信息。
顏色差異是相鄰幀之間的紅、綠、藍的值的差異。紅綠藍值差異的平均值就是塊的顏色差異。在求顏色差異時，將整個畫面分割成若干塊，求出每個塊的顏色差異，例如，整個畫面的大小為320*240個像素、每個塊的大小為16*16時，可以分割成300個塊，求出每個塊的R、G、B顏色差異。這種塊匹配法還可以得到客體的位置信息。即觀察塊的顏色差異是否超過第一臨界值，這樣就可以知道整體畫面中哪一部分出現(xiàn)變化，從而也就掌握了客體的位置。塊越小，位置信息就越精確。不過這種方法雖然能夠精確地檢索出鏡頭變化，但是在計算顏色差異時，速度較慢。使用者可以根據(jù)自己的需要而進行選擇。
在得出上述R、G、B的顏色差異后，求出平均。如果平均值大于第一臨界值，開始計數(shù)。求出相鄰的兩個幀之間的每個塊的顏色差異的平均值，將該值與第一臨界值進行比較，對于比第一臨界值大的塊數(shù)進行計數(shù)，計算后得到的結果再與第二臨界值比較。
例如，第二臨界值可以設置為一個幀內的所有塊數(shù)的一半，此時，如果顏色差異比第一臨界值大的塊的個數(shù)達到全部塊的一半以上時，就說明鏡頭發(fā)生了變化。即如果計數(shù)結果大于全體塊數(shù)的一半，就證明在兩個幀之間鏡頭發(fā)生了變化。
依據(jù)本發(fā)明，鏡頭變化檢索運算流程如圖3所示。
開始鏡頭變化檢索，將初始值設置為N＝1，count＝0(步驟S301)。這里的N是進行顏色差異計算的幀的順序號，count是相鄰的幀中，顏色差異超過第一臨界值的塊的個數(shù)。
完成初始值設置后，計算第N個幀和第N+1個幀的第一個塊的顏色差異(步驟S302)。第N個幀和第N+1個幀意味著相鄰的兩個幀。從第一塊起計算顏色差異，并判斷是否比第一臨界值大(步驟S303)，如果比第一臨界值大，則增加一個計數(shù)count值(步驟S304)。
塊的臨界值比第一臨界值大，增加一個計數(shù)值，比第一臨界值小，計數(shù)值不變，之后判斷上述求出顏色差異的塊是否是最后一個塊(步驟S305)。如果不是最后一個塊，計算第N個幀和第N+1個幀的下一個塊的顏色差異(步驟S306)，再將上述求得的顏色差異與第一臨界值比較(步驟S303)，之后重復S304、S305的步驟。
反復上述步驟，完成最后一個塊的顏色差異計算，決定增加計數(shù)值后，如果所計算的塊是最后一塊，則進入步驟S307，判斷計數(shù)值是否比第二臨界值大。如上所述，第二臨界值是在相鄰幀之間，顏色差異比第一臨界值大的塊的個數(shù)。根據(jù)上述S307的判斷結果，計數(shù)值如果比第二臨界值大，則證明鏡頭發(fā)生變化(步驟S308)。之后判斷第N+1個幀是否是最后一個幀(步驟S309)。如果是最后一個幀，結束整個步驟，如果不是最后一個幀，再增加一個N值(步驟S310)，之后回到上述S302步驟，判斷下一個幀與這個幀之后的幀之間是否發(fā)生鏡頭變化。
圖4顯示的是依據(jù)本發(fā)明的鏡頭邊界檢索方法，根據(jù)各幀的顏色差異產生計數(shù)值變化的圖示。這里，假設塊的個數(shù)為200，第二臨界值為100個(全體塊數(shù)的一半)。在圖4中，計數(shù)值兩次超過第二臨界值(100個)，說明鏡頭變化發(fā)生兩次。
查詢一的步驟2，輸出作為查詢的客體。此步驟是選擇項，使用者可以根據(jù)自己的選擇決定是否進入此項。
查詢一的步驟3，分別輸出幀和客體低層信息。幀的低層信息包括幀的主顏色(Dominant Color)、顏色結構(Color Structure)、GOF(Gang OfFour)/GOP(Group Of Pictures)顏色、邊緣直方圖(Edge Histogram)、同類紋理(Homogeneous Texture)、運動強度(Motion Activity)、AudioWave等；客體低層信息包括運動軌跡(Motion Trajectory)、邊界輪廓形態(tài)(ContourShape)、區(qū)域形態(tài)(Region Shape)、同類紋理(Homogeneous Texture)、主顏色(Dominant Color)、顏色結構(Color Structure)等。但是，得出幀的運動強度(Motion Activity)信息需要大量的運算，耗用時間較長，所以設置有“檢查”按鍵，由使用者決定是否查看此項信息。
查詢一的步驟4，通過“MPEG-7”快速生成器將所有低層信息迅速轉換成MPEG-7文件。
查詢一的步驟5是“文脈”步驟，即輸出當前所選鏡頭的前后鏡頭的低層信息。此步驟為選擇項，使用者可以根據(jù)需要進行選擇。
查詢一的步驟6，將查詢用幀和客體的所有描述子(Descriptor)作為加權值進行調節(jié)。此外，還可以對幀和客體本身進行加權值調節(jié)。
查詢二的“任意選擇”，是客戶要求將服務系統(tǒng)數(shù)據(jù)庫中的任意鏡頭作為結果鏡頭進行顯示的方式，而不是由客戶選擇特定鏡頭用于查詢。
查詢三是“任意選擇+標題”方式，即在上述“任意選擇”方式上附加作為條件的“標題”，從而要求將服務系統(tǒng)數(shù)據(jù)庫中與標題要求一致的任意鏡頭作為結果鏡頭。
查詢四是“結果鏡頭”(利用數(shù)據(jù)庫信息)，即在得到作為查詢結果的鏡頭后，將作為查詢結果的鏡頭的數(shù)據(jù)信息再次作為查詢的使用方式。
下面，結合附圖對本發(fā)明的客戶界面進行說明。圖5是依據(jù)本發(fā)明，視頻檢索系統(tǒng)客戶界面的一個圖例。
參照圖5，使用者界面的窗口大體分為左右兩個窗口。左窗口主要用于查詢，右窗口主要用于顯示作為查詢結果的鏡頭。
在查詢一的方式下，首先點擊左側窗口中“打開”鍵，選擇需要的視頻，位于中間的主媒體播放器中開始播放所選擇的視頻?；蛘呤亲髠让襟w播放器播放選擇鏡頭之前的鏡頭，右側媒體播放器播放選擇鏡頭之后的鏡頭。在選擇希望作為下一個查詢的鏡頭后，點擊“鏡頭檢索”鍵，所需要的鏡頭就從視頻中輸出(查詢一中檢測鏡頭邊界的步驟1)?！翱腕w提取”作為選擇事項，可以根據(jù)客戶的選擇決定是否指定客體。(查詢一中客體輸出的步驟2)在結束對鏡頭和客體的指定后，點擊“特征提取”按鍵，輸出低層信息。(查詢一中低層信息輸出的步驟3)由于幀的運動強度(motion activity)描述子運算量大，需要較長時間，所以客戶可以在菜單的“選項”中通過“運動強度”這一選項決定是否需要此項信息。最后通過tab鍵，調節(jié)幀和客體的加權值，或者是使用滑動欄調節(jié)幀和客體自身的加權值(查詢一中加權值調節(jié)的步驟6)，最終通過“查詢”鍵向服務系統(tǒng)發(fā)出查詢。
如果是查詢二，則選擇“任意”鍵，發(fā)出將服務系統(tǒng)數(shù)據(jù)庫中任意的鏡頭作為查詢結果鏡頭的指令。
在查詢三的情況下，在連接網絡的同時，選擇一個服務系統(tǒng)中接收到的標題，再通過“任意”鍵發(fā)出查詢。標題可以在“網絡”鍵旁邊的列表中進行選擇。
查詢四采用反饋的方式，點擊顯示查詢結果的右側窗口中“查詢”按鍵，所選擇的鏡頭在左側窗口媒體播放器中播放，完成加權值調節(jié)后，再次作為查詢使用。在查詢一至查詢四中，“文脈”按鍵起到是否選擇反映前后鏡頭文脈功能的作用(在查詢一的步驟5中使用)。
為將作為查詢結果的鏡頭再次作為查詢使用，右側窗口中“查詢”按鍵起到將上述作為查詢結果的鏡頭移至左側窗口的作用，“文脈”按鍵起到為更好了解作為查詢結果的鏡頭文脈，一起顯示作為查詢結果的鏡頭之前及之后的鏡頭的作用。
本發(fā)明將調節(jié)后的加權值或是文脈等作為新的查詢要素，實現(xiàn)了更為有效準確地基于實例的視頻檢索。本發(fā)明所提出的運算及整個系統(tǒng)非常適用于在MPEG-7基礎上基于實例的視頻檢索或是DVD(Digital Video Library)系統(tǒng)中。
當然，本發(fā)明還可有其它多種實施例，在不背離本發(fā)明精神及其實質的情況下，熟悉本領域的普通技術人員當可根據(jù)本發(fā)明做出各種相應的改變和變形，但這些相應的改變和變形都應屬于本發(fā)明所附的權利要求的保護范圍。
權利要求
1.一種視頻檢索方法，其特征在于，包括鏡頭邊界檢測步驟，從視頻中檢測鏡頭邊界；低層信息提取步驟，在上述鏡頭邊界檢測步驟中檢測的鏡頭幀中提取低層信息；加權值調節(jié)步驟，設置在上述低層信息提取步驟中提取的信息描述子的加權值；視頻檢索步驟，根據(jù)上述加權值調節(jié)步驟中設置的加權值而使描述子之間的檢索加權值具有不同的值并檢索視頻。
2.根據(jù)權利要求1所述視頻檢索方法，其特征在于，上述鏡頭邊界檢測步驟還包括塊生成步驟，將視頻的幀分割成若干塊；顏色差異計算步驟，在相鄰的幀中，以每個塊為單位相對所有塊進行顏色差異；顏色差異判斷步驟，以每個塊為單位相對所有塊進行比較，判斷在上述顏色差異計算步驟中計算的顏色差異是否比第一臨界值大；鏡頭變換判斷步驟，以每個幀為單位相對相鄰的幀進行比較，判斷顏色差異比第一臨界值大的塊的個數(shù)是否比第二臨界值大；鏡頭邊界判斷步驟，把顏色差異比第一臨界值大的塊的個數(shù)比第二臨界值大的相鄰幀間隔判斷為鏡頭邊界。
3.根據(jù)權利要求2所述的視頻檢索方法，其特征在于，在計算每個塊的顏色差異時，計算紅、綠、藍的RGB基本色，將其平均值作為顏色差異。
4.根據(jù)權利要求1所述的視頻檢索方法，其特征在于，在上述低層信息提取步驟中，提取的低層信息包括幀的主顏色、顏色結構、GOF/GOP顏色、邊緣直方圖、同類紋理、運動強度、音頻波形。
5.根據(jù)權利要求1所述的視頻檢索方法，其特征在于，在上述鏡頭邊界檢測步驟之后，還包括提取所檢測的鏡頭客體的步驟；在上述低層信息提取步驟中還提取上述提取的客體的低層信息。
6.根據(jù)權利要求5所述的視頻檢索方法，其特征在于，在上述低層信息提取步驟中，提取的低層信息包括幀的主顏色、顏色結構、GOF/GOP顏色、邊緣直方圖、同類紋理、運動強度、音頻波形，和客體的運動軌跡、邊界輪廓形態(tài)、區(qū)域形態(tài)、同類紋理、主顏色、顏色結構等。
7.根據(jù)權利要求1所述的視頻檢索方法，其特征在于，在上述低層信息提取步驟之后，還包括不僅提取當前選擇鏡頭的低層信息，還提取當前鏡頭之前和之后鏡頭的低層信息的文脈的步驟。
全文摘要
本發(fā)明公開一種視頻檢索方法，涉及將視頻作為視頻查詢系統(tǒng)的客戶使用部分，特別是向客戶提供有效的瀏覽系統(tǒng)的方法。該方法包括鏡頭邊界檢測步驟，從視頻中檢測鏡頭邊界；低層信息提取步驟，在上述鏡頭邊界檢測步驟中檢測的鏡頭幀中提取低層信息；加權值調節(jié)步驟，設置在上述低層信息提取步驟中提取的信息描述子的加權值；視頻檢索步驟，根據(jù)上述加權值調節(jié)步驟中設置的加權值而使描述子之間的檢索加權值具有不同的值并檢索視頻。本發(fā)明在檢測鏡頭邊界后將所需要的鏡頭作為查詢、任意選擇、任意選擇+標題、將結果鏡頭再次用作查詢等。本發(fā)明能夠將調節(jié)后的加權值或文脈等作為新的查詢要素，從而實現(xiàn)更為有效準確的基于實例的視頻查詢功能。
文檔編號H04N7/24GK1955964SQ20061013771
公開日2007年5月2日申請日期2006年10月26日優(yōu)先權日2005年10月28日
發(fā)明者宋致日申請人:樂金電子(中國)研究開發(fā)中心有限公司

完整全部詳細技術資料下載