專利名稱:圖像處理以為圖像中的對象進行分類的方法和系統的制作方法
技術領域:
本發(fā)明與一般的圖像處理相關,在特定實施例中,與用于在圖像中區(qū)分對象的方法和系統相關。
背景技術:
已經開發(fā)了用于定義視頻中的對象、并通過視頻的幀來跟蹤對象的系統和方法。 在各種應用程序中,人可能即是要被跟蹤的“對象”。例如,運動圖像用于跟蹤人的運動(例如運動員和和/或裁判員)。運動員和裁判員顯示在運動視頻中??梢栽贗PTV系統中定位和標記它們,以便常規(guī)TV廣播(MPEG-2/-4)可以藉由額外信息(已解碼的MPEG-7,用于在視頻中定義這些對象)以及將要顯示的額外的內容(當選擇它們時)來增強其功能。具有額外內容(元數據)的對象的規(guī)范,通常通過創(chuàng)作工具予以實現,例如抽取截圖和關鍵幀的功能、交互區(qū)域的規(guī)范以及跟蹤特定區(qū)域以獲取所有幀中的區(qū)域。已經通過單擊超視頻中的運動員或iTV討論了基于組分類的交互服務。組信息搜索和檢索以及組數據(統計結果、文章和其他媒體)可以通過假設運動員可以通過交互服務系統來定位,而鏈接起來。用于定位運動員/裁判員的各種方法可以分為兩組。第一組在受控環(huán)境中利用固定相機(通常經過提前校驗),第二組僅使用常規(guī)的廣播視頻。前者可以提供更好的性能,而后者的靈活性更高。在第二組中,嘗試使用一些以下方法來克服困難 先找到運動場,通過使用顏色分段和使用形態(tài)計算的后處理(例如已連接的組件分析), 以便限制搜索區(qū)域。
發(fā)明內容
根據本發(fā)明的第一個實施例,執(zhí)行了圖像處理方法(例如“在處理器上執(zhí)行”)。 對象位于圖像中,如視頻或靜態(tài)圖像中。基于圖像在該區(qū)域內的信息,確定對象周圍的區(qū)域并將其至少分為第一和第二部分。然后,對象可以基于區(qū)域的第一部分中的圖像信息和區(qū)域的第二部分的圖像信息進行分類。在另一個實施例中,交互式電視系統包含用于接收視頻圖像的創(chuàng)作工具,在圖像中定位對象,將對象周圍的區(qū)域分為第一和第二部分;并基于第一部分中的第一圖像信息以及第二部分中的第二圖像信息來生成元數據。用于接收視頻圖像和元數據的聚合器,并生成利用元數據增強的視頻流,并且,分發(fā)系統用于傳送利用元數據增強的視頻流。附圖簡述為了更完整地了解本發(fā)明及其優(yōu)勢,因此,可以參考以下參考和附圖,其中
圖1為根據本發(fā)明的一個實施例、基于組分類的交互系統的結構圖;圖2為基于運動場模式的運動員/裁判員位置、根據本發(fā)明的一個實施例的流程圖;圖3為根據本發(fā)明的一個實施例,對運動員“炸彈”進行垂直切割的示例圖像;圖4為根據本發(fā)明的一個實施例、基于交互電視系統的結構圖;圖5-7為交互電視系統的示例的屏幕快照。
具體實施例方式下面詳細討論了本發(fā)明優(yōu)選實施例的制造和使用過程。但是,應該感謝本發(fā)明,它提供了許多可應用的發(fā)明概念,可以在大量特定環(huán)境中實施。所討論的這些特定實施例僅說明了制造和使用本發(fā)明的特定方式,并不是本發(fā)明的全部范圍。運動員/裁判員的組分類用于區(qū)分其標識(“組A”或“組B”或“裁判員”)。本任務的問題包括特征的選擇以及匹配的聚集方法。已經使用了模板和直方圖方法。特征選擇是基于不同級別、穩(wěn)健性和計算成本的區(qū)別。直方圖是這些要求之間的折中方法。聚集方法可以是受監(jiān)控的,也可以是不受監(jiān)控的。本發(fā)明可以同時提高直方圖匹配中的特征提取和區(qū)分的效率。在第一個實施例中,本發(fā)明揭示了基于IPTV系統的交互服務的運動組,包括實時和點播的視頻傳輸。例如,實時處理運動事件視頻,以及實時分析和分類組/裁判員的視覺對象。提出了一個用于通過區(qū)分功能,將運動員/裁判員的圖斑(blob)(利用基于運動場模型分片獲取)分為兩部分(上和下)的多直方圖匹配架構和方法。該架構可以獲取良好的分類準確定,而計算的復雜性卻很低。當單擊運動員時,基于組分類的交互功能包括組信息搜索和檢索以及組數據(統計結果、文章和其他媒體)鏈接。建議的組分類方法對于IPTV 系統中的運動程序,在運動事件、策略分析以及交互服務運動程序中具有潛在的用途。在其他實施例中,提供了一種用于IPTV系統中的運動程序的推薦的基于組分類的交互服務。在其他實施例中,提供了在足球運動視頻中基于多直方圖匹配架構的用于運動員/裁判員的組分類的方法,它提供了更好的分類準確定,同時計算復雜性較低。在另一個實施例中,說明了一個可用于通過建議的區(qū)分功能將運動員/裁判員的圖斑(通過基于運動場模型分片獲取)分為兩部分(上和下)的方法。在超鏈接視頻中,可以選擇對象,并導致相關動作,類似于與相關對象有關的已鏈接的富媒體內容。使用超鏈接視頻可能的場合包括廣播TV、流視頻和已發(fā)布的媒體(如 DVD)。超鏈接視頻提供了使用流媒體進行交互操作的新的可能性。隨著廣播和網絡通信的融合,交互TV(iTV)為超鏈接視頻的常見的應用領域,。例如,歐洲GMF4iTV(交互式電視的一般媒體框架)項目已經開發(fā)了這樣一個系統,其中活動的視頻對象與元數據信息相關聯,在生產時嵌入到程序流中,可以由用戶在運行時選擇以觸發(fā)其相關元數據的顯示。另一個歐洲PorTiVity (便攜的交互式)項目使用完全端到端平臺來開發(fā)和實驗,為便攜式設備和移動設備提供多媒體(Rich Media)交互電視服務,實現與連接至DVB-H (廣播信道)和UMTS (單播信道)的手持接收器上的移動對象制劑和交互。IPTVanternet協議電視)為一個系統,其中數據電視服務使用覆蓋網絡基礎設施的hternet協議來提供的,它還可能包括通過帶寬連接提供的服務?;贗P的平臺還提供重要的機會,允許使電視觀看體驗更加交互式和人性化。交互式TV服務將成為新興的大量IPTV產品的重要區(qū)分因素。通過快速的雙向連接的交互將使IPTV在當今電視中處于領先地位。本發(fā)明的各方面都與多媒體交互電視應用程序(例如IPTV應用程序)相關。專注點在于與運動程序中的移動對象交互。在與某些對象直接交互的基礎上,電視觀看者可以檢索相關對象的鏈接多媒體內容。術語“電視”用于說明向用于顯示的任何視頻圖像。例如,該圖像可以顯示在計算機屏幕、移動設備或真實的電視中并且始終處于電視的范圍。運動員和裁判員為運動視頻中的移動對象的兩個示例。在IPTV系統中定位和標記它們對于IPTV系統中的交互服務非常有用,以便常規(guī)TV廣播(MPEG-2/-4)可以藉由額外信息(已解碼的MPEG-7,用于在視頻中定義這些對象)以及將要顯示的額外的內容(當選擇它們時)來增強其功能。具有額外內容(元數據)的對象的規(guī)范,可以通過創(chuàng)作工具予以實現,例如抽取截圖和關鍵幀的功能、交互區(qū)域的規(guī)范以及跟蹤特定區(qū)域以獲取所有幀中的區(qū)域。本發(fā)明的實施例中,推薦使用IPTV系統中的足球比賽程序的基于運動員組分類的交互服務。圖1概述了此IPTV交互服務系統100。此交互是基于由IPTV服務器側準備的信息以及IPTV客戶端側和/或網絡中間盒中的實時組分類(例如圖1中顯示的內容和元數據源塊105)。服務器側的信息存儲為 MPEG-7格式或者其他標準兼容(或專有)格式的元數據。該信息描述了運動場,組多直方圖模式和有關組的相關的媒體信息。網絡中間盒(network middle box)或者客戶端側的功能性單元,執(zhí)行基于在線運動員/裁判員特征抽取以及MPEG-7元數據來的實時組分類, 在電視屏幕上顯示相關媒體信息以進行用于用戶交互。此系統可用于多個運動中。例如,諸如美式足球、足球、籃球、棒球、曲棍球、板球以及之類的運動以及其他運動都采用此處描述的概念。圖1揭示了根據本發(fā)明的特征,基于組分類的IPTV交互系統100。請注意,圖1中的上述特定配置僅為許多可能配置中的一個。例如,運動場信息以及組運動員顏色統計信息可以在網絡節(jié)點或客戶端處實施。在本實施例中,用戶使用IMS基礎設施來注冊。電視內容通過用于運動場描述的元數據信息以及表示多顏色直方圖的組目標模型來增強功能。IPTV客戶端通過這樣的服務而增強,它表示一個環(huán)境,可用于運行額外的服務并在IPTV客戶端執(zhí)行高級應用程代碼以分別用于在線運動員定位(分段或跟蹤)。圖1進一步顯示了示例系統的構造圖。在此結構中,一個基本的行動流包括用戶 160,注冊用于請求交互服務并使用服務。用戶160能夠單擊運動員/裁判員以定位相關對象(分段/跟蹤)和獲取組信息和位于遠程控制上的與組相關的元數據?;贗MS的IPTV Client 155(例如Set-Top-Box或PDA)負責為用戶160提供必需的功能以利用交互(例如實施運動員/裁判員定位)以及查看額外內容。IPTV服務控制功能150管理所有用戶至內容和內容至用戶的關系,并控制“內容交付和存儲140”以及“內容聚合器110”。IPTV應用程序功能145支持多種服務功能并提供與用戶160的交互,以通知IPTV服務信息并接受用戶的服務請求(例如注冊或驗證)。 IPTV應用功能145與服務控制功能150聯合使用,為用戶提供所請求的增值服務。“內容聚合器130”向“內容傳輸控制135”發(fā)送內容發(fā)布請求。“內容傳輸控制135” 在收到內容分發(fā)布請求時,根據已定義的發(fā)布策略,在“內容準備130”和“內容傳輸和存儲 140”之間生成發(fā)布任務?!皟热輦鬏敽痛鎯?40”將已聚合的使用了元數據進行增強的內容傳輸至用戶160,并可以在實施(其中這些任務沒有在IPTV客戶端155處執(zhí)行)中執(zhí)行運動員定位和組分類。內容分聚合器110將內容120通過編輯工具115鏈接至元數據125,并聚合通過元數據信息增強的內容以用于交互式服務。編輯工具115運行運動場學習和團隊模式的請求,并生成MPEG-7元數據。盡管本發(fā)明針對IPTV系統中的交互服務,但是本發(fā)明的范圍并不限于此。推薦的方案可用于其他準確性更高而復雜性更低的視頻傳輸系統中。運動員/裁判員定位可以通過多種方式來執(zhí)行。例如,可以將定位運動員/裁判員的多種方法分為兩組。第一組在受控型環(huán)境中利用固定相機(通常已提前校準)。此類技術曾由 M. Xu, J. Orwell, G. Jones 在"Tracking football players with multiple cameras”(使用多個相機跟蹤足球運動員)中講授過。ICIP 2004,pp.四09_2912,此處以引用的方式并入本文中。第二組僅使用常規(guī)的廣播視頻。前者可以提供更好的性能,而后者的靈活性更高。在第二組中,嘗試使用一些方法克服定位中的困難通過使用顏色分段和具有形態(tài)計算的后處理(例如已連接的組件分析)首先找到運動場,以便限制搜索區(qū)域。圖2顯示了典型的架構,用于基于運動場模式的運動員/裁判員定位。此圖說明了根據本發(fā)明的實施例,基于運動場模型的運動員/裁判員定位。運動員/裁判員的組分類嘗試將每個人區(qū)分為“組A”或“組B”或“裁判員”。盡管討論的內容與運動員/裁判員相關,應該理解,也可以利用本發(fā)明識別其他對象。這些對象可以是人,例如運動員、裁判員、教練、解說員、球隊吉祥物、球迷或其他人員?;蛘?,對象可以是非人的動物,例如賽馬比賽中的馬,或者大學足球比賽中的吉祥物,或者非生命的對象(例如球、場地指示器或其他比賽事件中的非生命對象)。定位任務的問題包括特征的選擇以及匹配的聚集方法。一方面,本發(fā)明可以同時提高直方圖匹配中的特征提取和區(qū)分的效率。實施例采取多個(例如兩個)基于匹配方法的直方圖以在比賽視頻中分類運動員和裁判員。圖2顯示了典型的架構,用于基于運動場模式的運動員/裁判員定位。如圖200中所示,可以將框架分為兩部分,運動場提取205和對象檢測230。下一步,根據圖3中的圖表,討論對象分類。運動場抽取205包括運動場像素檢測210、已連接的組件分析215、形態(tài)濾波(例如擴大、腐蝕)220和大小過濾225。現在,我們討論有關運動場抽取的詳細信息。運動場可用于分析多種運動視頻(例如美式足球、足球、棒球和乒乓球)。例如, 美式足球、棒球和足球的運動場為草地。盡管草地的顏色通常為綠色,這個顏色可以根據個別運動場、是否存在陰影或觀看角度的不同而改變。在另一個示例中,用于冰球的運動場是冰,所以發(fā)生了相似的問題?,F在,我們針對足球來描述本發(fā)明的實施例。請理解,相同的概念可以應用到其他運動。由于冰球運動的特性,存在很多寬域射擊,所以圖像的大部分為運動場?;谟^察到的這種現象,一種無人管理的分段技術可以用于獲取運動場模型。但是,并不是所有幀中的運動場區(qū)域永遠足夠大,能夠使假定要使用的優(yōu)勢顏色有效。因此,可是使用用于學習運動場模式的受監(jiān)管的方法。受監(jiān)管方法的缺點是,需要大量帶標記的數據,而手動標記即冗長又成本昂貴。在一個實施例中,定義了兩個選項。第一個選項是少量的標記數據的集合,給定運動場區(qū)域中的像素,用于生成帶有一個或多個高斯分布的粗略的運動場模型(對于后一種,必須使用多個帶標記的數據)。然后,可以使用優(yōu)勢顏色檢測,基于受監(jiān)控的方法收集多個運動場像素,對該模型進行修改。在第二個選項中,選擇了一個優(yōu)勢顏色假定符合條件的幀。然后,抽取其優(yōu)勢模式來生成初始運動場模型。像第一個選項一樣,可以基于優(yōu)勢顏色檢測收集更多的運動場像素,來修改該模型。在申請序列號為No. 61/144,386的臨時專利中,非常詳細地討論了運動場模型的確定,此處以引用的方式并入到本文中??梢詮脑搶@暾堉?,提取更詳細的信息。運動員和裁判員為美式足球運動場中的最重要的對象。由于美式足球是一個有觀眾的運動,運動場、畫線、球以及運動員和裁判員的著裝的設計在顏色上都有明顯的區(qū)別。 因此,圖2中的幀可可用于從運動場中的抽取或檢測運動員/裁判員blob。對象檢測230包括內部過濾235。在預先過濾和的圖像數據之間進行了一個比較 (如M)R門所示)。結果可被視為沒有背景的圖像。然后,該結果將經過已連接的組件分析 240以及形狀過濾245中。形狀過濾功能可以處理大小、粗糙度和/或偏心率(如示例中所示)°為運動員和裁判員提供分段blob之后,每一項都被標記了“組A”、“組B”或“裁判員”。有時兩組的守門員也被分類。為此,每組運動員或裁判員的外觀模型通過了解帶標記的數據來獲取。由于運動員的球衣與短褲區(qū)別明顯,而球衣在運動員的blob中占據的空間更大, 所以可以使用兩種顏色的柱狀圖來表示運動員的外觀模型,并且其中一個在直方圖匹配中占據更高的比重。在這種環(huán)境中,術語“短褲”和“球衣”分別用于說明運動員的上部分和下部分,而無論運動員實際上的短褲和球衣的狀況如何。例如,術語“球衣”包括籃球運動員所穿的球衣,還包括棒球運動員所穿的短褲。同樣,術語“運動衣”可用于“襯衣對皮膚”運動的兩個組中。圖3說明了可用于區(qū)分過程的運動員blob 300。在此示例中,足球運動員305穿的是球衣315和短褲320。處于球衣315和短褲320大致中心位置的矩形325用于表示該運動員。垂直切割線310用于調節(jié)球衣/短褲的邊界的對齊。球衣315和短褲320將每個運動員/裁判員blob 300分為上下兩部分(這里,假設運動員是近似于垂直站立的)是基于區(qū)分功能。為矩形325給出尺寸wXh (寬w和高h),切割線310用于在中間位置搜索以使目標函數的值最大
權利要求
1.一種圖像處理方法,其特征在于,包括接收圖像;在所述的圖像中定位對象;在所述圖像中確定所述對象周圍的區(qū)域;基于所述區(qū)域內的圖像信息,使用處理器將所述區(qū)域至少分為第一部分和第二部分;并且基于所述區(qū)域的第一部分中的圖像信息和所述區(qū)域的第二部分的圖像信息對所述圖像中的所述對象進行分類。
2.如權利要求1所述的方法,其特征在于,所述接收圖像包括接收視頻圖像。
3.如權利要求2所述的方法,其特征在于,所述接收圖像包括接收因特網協議電視 (IPTV)圖像。
4.如權利要求1所述的方法,其特征在于,所述將所述區(qū)域至少分為第一和第二部分包括在所述區(qū)域中的彩色邊界定位直線。
5.如權利要求4所述的方法,其特征在于,所述區(qū)域包含矩形,所述的直線為使得該區(qū)域被分為第一和第二部分的直線。
6.如權利要求1所述的方法,其特征在于,所述的第一部分由第一個顏色直方圖表示, 所述的第二部分由第二個顏色直方圖表示,并且,其中,所述的區(qū)域基于所述的第一和第二顏色直方圖被分為第一和第二部分。
7.如權利要求6所述的方法,其特征在于,所述將區(qū)域至少分為第一和第二部分包括利用Miattacharyya距離在彩色邊界定位直線。
8.如權利要求7所述的方法,其特征在于,所述定位直線包括利用加權的 Bhattacharyya
9.如權利要求6所示的方法,其特征在于,所述區(qū)域包含多個行,且,所述將該區(qū)域至少分為第一和第二部分包括對所述區(qū)域中的多個行計算多個行的顏色直方圖,將各行顏色直方圖與第一和/或第二顏色直方圖進行比較以確定第一和第二部分之間的邊界的位置。
10.如權利要求9所述的方法,其特征在于,所述的區(qū)域包含矩形,所述計算多個行的顏色直方圖包括僅為少量行計算行顏色直方圖,少量行包括矩形中的總行數的至少百分之十。
11.如權利要求1所述的方法,其特征在于,所述圖像信息包括顏色信息;并且其所述對所述對象進行分類包括基于所述區(qū)域的第一部分中的顏色信息和所述區(qū)域的第二部分中的顏色信息對所述對象進行分類。
12.如權利要求11所述的方法,其特征在于,所述對象包括穿有球衣和短褲的運動員, 所述對所述對象進行分類包括包括基于球衣的顏色和短褲的顏色對所述的對象進行分類。
13.一種用于在視頻中分類單個的對象的方法,其特征在于,該方法在處理器上執(zhí)行并包括接收視頻圖像;在所述的視頻圖像中定位單個對象;確定所述單個對象周圍的區(qū)域;將所述的區(qū)域分為上部分和下部分;確定上部分的顏色信息和下部分的顏色信息;將所述上部分的顏色信息與已知的頂部顏色信息進行比較,將所述下部分的顏色信息與已知的底部顏色信息進行比較;基于比較步驟的結果,標識獨立對象的特征。
14.如權利要求13所述的方法,其特征在于,所述的視頻圖像為運動視頻,所述的單個的對象為運動員/裁判員,所述的已知的頂部顏色信息包括球衣顏色信息,所述的已知的底部顏色信息為短褲顏色信息。
15.如權利要求14所示的方法,其特征在于,所述標識單個對象的特征包括確定運動員的組。
16.如權利要求13所述的方法,其特征在于,所述標識單個對象的特征包括確定單個對象的身份。
17.一種非短暫性的、計算機可讀的存儲介質,具有可執(zhí)行的程序存儲在程序之上或之中,其特征在于,所述的程序指示微處理器以執(zhí)行下面的步驟在圖像中定位對象;在所述圖像中確定所述對象周圍的區(qū)域;基于所述區(qū)域中的圖像信息,將該區(qū)域分成第一部分和第二部分;并且基于所述區(qū)域的第一部分中的圖像信息和所述區(qū)域的第二部分的圖像信息對所述進行分類。
18.一種交互式電視系統,包括用于接收視頻圖像的創(chuàng)作工具,在視頻圖像中定位對象,將所述對象周圍的區(qū)域分為第一和第二部分;并基于第一部分中的第一個圖像信息以及第二部分中的第二個圖像信息來生成元數據。聚合器,用于接收視頻圖像和元數據,并生成使用元數據進行了增強的視頻流;并且傳輸系統,用于傳輸使用元數據增強了功能的視頻流。
19.如權利要求18所述的系統,其特征在于,進一步包含交互式的電視客戶端,經過耦合以便能夠接收使用傳輸系統中的元數據增強了功能的視頻流。
20.如權利要求18所述的系統,其特征在于,所述的視頻圖像包含IPTV圖像。
全文摘要
在圖像處理方法中,對象(305)位于圖像中,基于圖像在該區(qū)域內的信息,確定對象(305)周圍的區(qū)域(325)并將其至少分為第一和第二部分。并可以基于區(qū)域的第一部分中的圖像信息和區(qū)域的第二部分的圖像信息對該對象(305)進行分類。
文檔編號G06K9/48GK102576412SQ201080003841
公開日2012年7月11日 申請日期2010年1月13日 優(yōu)先權日2009年1月13日
發(fā)明者李紅兵, 田軍, 虹·希瑟·郁, 黃浴 申請人:華為技術有限公司