使用感興趣對象的數(shù)據(jù)對視頻成碼的比特率控制的制作方法
【專利摘要】本發(fā)明描述了包括使用感興趣對象數(shù)據(jù)的對視頻成碼的比特率控制的系統(tǒng)、制品和方法。
【專利說明】使用感興趣對象的數(shù)據(jù)對視頻成碼的比特率控制
[0001] 背景
[0002] 網(wǎng)際協(xié)議語音(VoIP)提供各種數(shù)據(jù)傳輸服務,包括諸如視頻會議等具有雙向或 廣播視頻和音頻傳輸?shù)亩嗝襟w會話。隨著質量的提高和成本的下降,視頻會議已經(jīng)變得非 常流行。這已經(jīng)提高了諸如視頻會議等允許共享和傳送大量多媒體數(shù)據(jù)的應用的比特率效 率的重要性。這些傳輸使用視頻編碼器,該視頻編碼器壓縮視頻信息以使得能夠通過給定 帶寬發(fā)送更多信息。經(jīng)壓縮的信號然后可被傳送到在顯示之前對該信號進行解碼或解壓縮 的接收器。具有較低帶寬的一些網(wǎng)絡需要降低總比特率以便甚至在維持視頻中關鍵內容的 視覺質量的同時接收和顯示視頻數(shù)據(jù)。對于具有相對較大帶寬的網(wǎng)絡,在維持視頻中關鍵 內容的視覺質量的同時降低比特率提供了供其它傳輸(無論與正在傳送的視頻的顯示或 音頻有關的傳輸還是其它無關的網(wǎng)絡傳輸)自由使用的更多帶寬。
【專利附圖】
【附圖說明】
[0003] 本文中所描述的內容通過示例而非限制地在附圖中示出。為說明的簡單和清楚起 見,在附圖中示出的元素不一定按比例繪制。例如,為清楚起見,某些元素的尺寸可能相對 于其它元素被放大。此外,在認為合適的地方,在附圖中重復附圖標記以指示相應或相似的 元件。在附圖中:
[0004] 圖1是示例視頻成碼(coding)系統(tǒng)的示圖;
[0005] 圖2是圖1的示例視頻成碼系統(tǒng)的一部分的示圖;
[0006] 圖3是替換視頻成碼系統(tǒng)的示圖;
[0007] 圖4是根據(jù)一個示例視頻成碼系統(tǒng)的視頻幀的示圖;
[0008] 圖5是示出圖4的視頻幀的映射的示圖;
[0009] 圖6是示出圖4的視頻幀的另一映射的示圖;
[0010] 圖7是不出不例視頻成碼過程的流程圖;
[0011] 圖8是操作中的示例視頻成碼過程的示圖;
[0012] 圖9是示例視頻成碼系統(tǒng)的示圖;
[0013] 圖10是用于操作示例視頻成碼系統(tǒng)的示例系統(tǒng)的示圖;以及
[0014] 圖11是完全根據(jù)本公開至少一些實現(xiàn)安排的示例系統(tǒng)的示圖。
【具體實施方式】
[0015] 現(xiàn)在參考附圖描述一個或多個實現(xiàn)。盡管討論了特定配置和構造,然而應當理解 這樣做只是為了解說目的。相關領域內技術人員應當理解,可使用其它配置和安排而不背 離說明書的精神和范圍。相關領域內技術人員將顯而易見,也可在本申請所描述內容以外 的多種其它系統(tǒng)和應用中采用本文所述的技術和/或安排。
[0016] 盡管以下描述陳述了可在諸如片上系統(tǒng)(SoC)架構之類的架構中出現(xiàn)的多個實 現(xiàn),但是本文所述的技術和/或安排的實現(xiàn)不限于特定的架構和/或計算系統(tǒng)并且可由用 于類似目的的任何架構和/或計算系統(tǒng)所實現(xiàn)。例如,使用例如多個集成電路(1C)芯片 和/或封裝的多種架構、和/或多種計算設備和/或諸如機頂盒、智能電話等的消費者電子 (CE)設備可實現(xiàn)本文所述的技術和/或安排。此外,盡管下列描述可能陳述了諸如邏輯實 現(xiàn)、系統(tǒng)組件的類型和相互關系、邏輯劃分/集成選擇等的諸多具體細節(jié),但是可在不具有 此類具體細節(jié)的情況下實現(xiàn)所要求保護的主題。在其它實例中,諸如例如控制結構和全軟 件指令序列之類的某些內容可能并未詳細示出以避免模糊本文所公開的內容。
[0017] 本文所公開的內容可實現(xiàn)在硬件、固件、軟件或它們的任意組合中。本文所公開的 內容還可被實現(xiàn)為存儲在機器可讀介質上的指令,其可由一個或多個處理器讀取和執(zhí)行。 機器可讀介質可包括用于存儲或傳送機器(例如,計算設備)可讀形式的信息的任何介質 和/或機制。例如,機器可讀介質可包括只讀存儲器(ROM);隨機存取存儲器(RAM);磁盤存 儲介質;光存儲介質;閃存設備;電、光、聲或其它形式的傳播信號(例如,載波、紅外信號、 數(shù)字信號等)等等。在另一形式中,諸如非瞬態(tài)計算機可讀介質等非瞬態(tài)制品可以與上述 示例或其它示例中的任一個聯(lián)用,不同之處在于它本質上不包括瞬時信號。它本質上包括 除了信號之外的可以按諸如RAM等"瞬時"方式臨時保存數(shù)據(jù)的那些元件。
[0018] 在說明書中對"一個實現(xiàn)"、"實現(xiàn)"、"示例實現(xiàn)"等的引用表明所描述的實現(xiàn)可包 括特定特征、結構或特性,但不一定每個實現(xiàn)均包括該特定特征、結構或特性。此外,這樣的 短語不一定是指同一個實現(xiàn)。此外,當結合一個實現(xiàn)描述特定特征、結構或特性時,認為在 本領域技術人員學識范圍內,可以與其他實現(xiàn)一起實施這樣的特征、結構或特性,不論本文 是否有明確描述。
[0019] 以下描述了包括使用感興趣對象數(shù)據(jù)的對視頻成碼的比特率控制的系統(tǒng)、制品和 方法。
[0020] 經(jīng)編碼的比特流可使用從編碼器到解碼器的具有最大帶寬或比特率能力的傳輸 路徑,并且這些傳輸路徑可以與或不與其它數(shù)據(jù)流共享。解碼器也可以對比特率施加其它 限制。因此,降低視頻或諸如視頻會議傳輸?shù)萔oIP傳輸?shù)谋忍芈士梢栽谳^低帶寬網(wǎng)絡上提 供高質量視頻傳輸或者為其它網(wǎng)絡傳輸提供可用帶寬。
[0021] 一種用于降低視頻會議的比特率的方法包括對顯示器上的諸如人臉等感興趣對 象特征進行參數(shù)建模。參數(shù)模型提供用于渲染檢測到的對象的參數(shù)。有了這些模型,編解 碼器系統(tǒng)僅僅向接收器傳送檢測到的對象的基礎網(wǎng)格或線框以及用于重建對象的參數(shù)。接 收器或解碼器然后使用渲染參數(shù)來重建圖像上的感興趣對象并重新使用先前提供的背景 數(shù)據(jù)。然而,該方法受到接收器側的特定動畫能力的限制,這可導致不現(xiàn)實的或降級的圖像 以及對象的不自然移動。
[0022] 對于許多視頻或VoIP傳輸,諸如在視頻會議期間,用戶經(jīng)常將他們的注意力集中 在正在前景中說話的人,而較少關注周圍的背景。人眼以與用于數(shù)碼相機的視場焦點概念 相似的方式運作,其中所聚焦的項目通常在清晰的焦點中,而前景和/或背景中的其它次 要項目可能是模糊的或者具有較低質量。如將在下文描述的,現(xiàn)在有可能通過在維持圖像 中感興趣對象的高質量圖像的同時降低圖像中背景的質量來傳送具有較低比特率的經(jīng)編 碼比特流以便進行視頻傳輸。這可以在宏塊級基礎上執(zhí)行,其中宏塊所提供的圖像質量依 賴于該宏塊到圖像上由對象位置定義的點的距離。
[0023] 用于該系統(tǒng)的成碼標準可以是具有高級視頻編解碼器(AVC)和SVC擴展(諸如 H. 264/MPEG-4AVC - SVC)等的H. 264,諸如MPEG-2或VCI等,但在所公開的視頻成碼系統(tǒng)的 情況下許多其它版本或標準可以適當?shù)夭僮?。高效率視頻成碼(HEVC)也可以與本系統(tǒng)中 的SVC聯(lián)用??梢允褂玫钠渌鼧藴拾▉碜怨雀璧腣P8/WebM等。
[0024] SVC是用于應對現(xiàn)代視頻服務環(huán)境中的網(wǎng)絡和設備的異質性的重要工具。SVC比 特流包含可以獨立解碼的若干子集比特流,這些子流表示具有不同分辨率、幀率、質量、位 深等的源視頻內容。通過使用多層成碼結構來實現(xiàn)可縮放性。一般而言,通常存在一個基 礎層,可以首先對該基礎層進行編碼,然后對SVC系統(tǒng)中的若干增強層進行編碼。本公開允 許維護高質量圖像,并因此可能更適于增強層之一,但可用于包括基礎層在內的任一層。可 以在單個層、所有層或僅僅特定層提供本系統(tǒng),諸如允許某一最低質量圖像的那些層。
[0025] 參考圖1,根據(jù)本公開的至少某些實現(xiàn)來安排示例視頻成碼系統(tǒng)100。在各種實現(xiàn) 中,視頻成碼系統(tǒng)1〇〇可被配置成根據(jù)上述一個或多個標準來承擔視頻編碼和/或實現(xiàn)視 頻編解碼器。此外,視頻成碼系統(tǒng)100能夠以各種形式被實現(xiàn)為圖像處理器、視頻處理器和 /或媒體處理器的一部分,并且可承擔幀間預測、幀內預測、預測性成碼和/或殘余預測。
[0026] 如此處所使用的,術語"成碼器(coder) "可以指編碼器和/或解碼器。類似地,如 此處所使用的,術語"成碼"可以指經(jīng)由編碼器編碼和/或經(jīng)由解碼器解碼。成碼器、編碼 器或解碼器可具有編碼器和解碼器兩者的組件。
[0027] 在一些示例中,視頻成碼系統(tǒng)100可包括為了清楚起見未在圖1中示出的附加項。 例如,視頻成碼系統(tǒng)100可包括處理器、射頻型(RF)收發(fā)機、顯示器和/或天線。此外,視 頻成碼系統(tǒng)100可包括諸如揚聲器、話筒、加速計、存儲器、路由器、網(wǎng)絡接口邏輯等為了清 楚起見未在圖1中示出的附加項。
[0028] 在一些示例中,視頻成碼系統(tǒng)100可執(zhí)行SVC操作。例如,示出了兩個空間分辨率 層(例如,基礎層10Γ和增強層101);然而,除了基礎層10Γ之外還可以利用任何數(shù)量的 增強層。基礎層10??山?jīng)由H. 264/AVC (和/或HEVC)兼容編碼器來處理。與基礎層相關 聯(lián)的信息(例如,諸如預測模式、重構的像素等)可用于增強層101的成碼。
[0029] 例如,在視頻成碼系統(tǒng)100在增強層101上操作期間,,當前視頻信息可以按視頻 數(shù)據(jù)幀的形式被提供給內部位深增加模塊102,并由變換和量子化模塊108來進行視頻變 換和量子化過程。變換和量子化模塊108的輸出可被提供給熵成碼模塊109以及去量子化 和逆變換模塊110。去量子化和逆變換模塊110可實現(xiàn)變換和量子化模塊108承擔的操作 的逆。本領域技術人員可以認識到,如此處所使用的變換和量子化模塊和去量子化和逆變 換模塊可采用縮放技術。去量子化和逆變換模塊110的輸出可被提供給包括以下組件的 環(huán)路:去塊化(de-blocking)過濾器114、樣本自適應偏移過濾器116、自適應環(huán)路過濾器 118、緩沖器120、運動估計模塊122、運動補償模塊124以及幀內預測模塊126。如圖1所 不,運動補償模塊124或巾貞內預測模塊126的輸出與去量子化和逆變換模塊110的輸出相 組合以作為對去塊化過濾器114的輸入。
[0030] 例如,在視頻成碼系統(tǒng)100中,當前視頻幀可被提供給運動估計模塊122。系統(tǒng)100 可以按光柵掃描次序以圖像宏塊(以下描述)為單位處理當前幀。當視頻成碼系統(tǒng)100以 幀間模式操作時,運動估計模塊122可響應于當前視頻幀和參考視頻幀而生成殘余信號。 運動補償模塊124然后可使用參考視頻幀和運動估計模塊122所提供的殘余信號來生成預 測幀。
[0031] 預測幀然后被從當前幀中扣除并且結果被提供給宏塊(或Μ塊或MB)分配器106。 宏塊分配器106可通過分成一個或多個幾何宏塊來劃分預測幀以便進行壓縮。宏塊分配器 還可將宏塊分配給各個片和/或定義形成宏塊的更小的分塊。結果可被提供給變換和量子 化模塊108以生成一組量子化變換系數(shù),這組量子化變換系數(shù)可由熵成碼模塊109來進行 重排序和熵成碼以生成視頻成碼系統(tǒng)100所提供的經(jīng)壓縮比特流(例如,網(wǎng)絡抽象層(NAL) 比特流)的一部分。在各種實現(xiàn)中,視頻成碼系統(tǒng)100所提供的比特流可包括除了用于對 每一塊進行解碼的輔助信息(例如,預測模式、量子化參數(shù)、運動向量信息等)之外的經(jīng)熵 編碼的系數(shù),并且可被提供給如此處所描述的其它系統(tǒng)和/或設備以便傳輸或存儲。
[0032] 變換和量子化模塊108的輸出還可被提供給去量子化和逆變換模塊110。去量子 化和逆變換模塊110可實現(xiàn)變換和量子化模塊108承擔的操作的逆,并且去量子化和逆變 換模塊110的輸出可以與預測幀進行組合以生成重構幀。當視頻成碼系統(tǒng)100以幀內預測 模式操作時,幀內預測模塊126可使用重構幀來執(zhí)行此處將不會更詳細地描述的幀內預測 模式。
[0033] 以一種形式,對于H. 264/AVC標準等,宏塊與多個像素(通常是16X 16)相關聯(lián)。 宏塊還可以是其它大?。ㄖT如8X8)或者自身可以被進一步分成4X4或8X8塊以便壓縮。
[0034] 當使用HEVC標準時,宏塊已經(jīng)被成碼單元(⑶)(也被稱為大成碼單元(LCR)) 替代。對于該標準,可通過分成成碼樹塊的一個或多個片(例如,具有對應的色度樣本的 64X64亮度樣本)來劃分當前幀以供宏塊分配器106進行壓縮。在四分樹拆分模式中,每 一個成碼樹塊還可以分成成碼單元(CU)。此外,四分樹上的每一個葉CU可被分成分區(qū)單元 (PU)以便進行運動補償預測。在根據(jù)本公開的各種實現(xiàn)中,⑶可具有各種大小,包括但不 限于64x64、32x32、16xl6和8x8,而對于2Nx2N CU,對應的PU也可具有各種大小,包括但不 限于 2Νχ2Ν、2ΝχΝ、Νχ2Ν、ΝχΝ、2Νχ(λ 5N、2NxL 5Ν、0· 5Nx2N 和 L 5Nx2N。然而,應當注意,上述 只是示例CU分區(qū)和PU分區(qū)形狀和大小,本公開不限于任何特定CU分區(qū)和PU分區(qū)形狀和 /或大小。
[0035] 此處,術語"宏塊"通常被用來意指用于成碼的像素塊。因此,此處的宏塊對于HEVC 等可以指視頻數(shù)據(jù)的CU或PU,或者對于H. 264/AVC等可以指作為視頻或像素數(shù)據(jù)的分區(qū) 的8x8或16x16或其它形狀的塊,除非另外定義。應理解,宏塊大小在每一幀上可以是統(tǒng)一 的,但在幀之間可以不是統(tǒng)一的,并且在單個幀上可以不是始終統(tǒng)一的。
[0036] 在各種實現(xiàn)中,并且對于上述兩個標準,片可被指定為1(內)、P(預測)、B(雙向 預測)、SP(切換P)、SI (切換I)型片,等等。一般而言,幀可包括不同的片類型。此外,幀 可被指定為非參考幀或可用作對幀間預測的參考的參考幀。在I片中,使用空間預測,并且 以一種形式,僅僅來自幀本身中的數(shù)據(jù)。在P片中,可通過估計幀之間的運動來進行時間 (而不是空間)預測。在B片中,表示每一個PU的兩個運動估計的兩個運動向量可用于進 行時間預測或運動估計。換言之,例如,可以從幀上的相對于B片的過去、將來或兩者的片 預測B片。另外,可以從在相對于顯示次序的過去或將來出現(xiàn)的多個圖片中估計運動。在 各種實現(xiàn)中,可以按對應于上述大小的各種CU或PU級估計運動。
[0037] 類似地,在基礎層10Γ上的視頻成碼系統(tǒng)100的操作期間,當前視頻信息可以 按視頻數(shù)據(jù)幀的形式提供給空間抽取或位深減小模塊103,并且然后被傳遞至宏塊分配器 106'。宏塊分配器106'通過分成宏塊來執(zhí)行對幀的劃分以便進行壓縮,并且可將幀分成一 個或多個片或塊或兩者,并且結果可被提供給變換和量子化模塊108'。變換和量子化模塊 108'可執(zhí)行視頻變換和量子化過程。變換和量子化模塊108'的輸出可被提供給去量子化 和逆變換模塊110'。去量子化和逆變換模塊110'可實現(xiàn)變換和量子化模塊108'執(zhí)行的操 作的逆,以便向包括以下組件的環(huán)路提供輸出:去塊化過濾器114'、樣本自適應偏移過濾 器116'、自適應環(huán)路過濾器118'、緩沖器120'、運動估計模塊122'、運動補償模塊124'以 及幀內預測模塊126' Z。本領域技術人員可以認識到,如此處所使用的變換和量子化模塊 和去量子化和逆變換模塊可采用縮放技術。如圖1所示,運動補償模塊124'或幀內預測模 塊126'的輸出都與去量子化和逆變換模塊110'的輸出相組合以作為對去塊化過濾器114' 的輸入。
[0038] 在操作中,在解碼期間,兩層SVC比特流可被解復用成兩個單獨的比特流(例如, 基礎層10Γ比特流和增強層101比特流)以便解碼?;A層101'比特流可被獨立解碼以 重構基礎層輸出視頻。對于基于HEVC的SVC,基礎層10Γ比特流可被獨立解碼,而增強層 101比特流無法被獨立解碼以重構輸出視頻。增強層101比特流可以與基礎層重構視頻一 起解碼,因為層間預測可用于某些增強層塊的編碼?;A層10Γ重構視頻可以在被應用于 層間預測之前處理??蛇x地執(zhí)行對針對空間可縮放性上采樣的圖片的附加操作、用于位深 可縮放性的圖片色調映射、用于交織漸進可縮放性的去交織、或者某個其它種類的處理。
[0039] 如將在下文更詳細地描述的,本公開提供了用于本系統(tǒng)的多個可能的實現(xiàn)。在視 頻成碼系統(tǒng)100 (圖1-2)的情況下,比特率控制可由可集成特定映射任務的視頻速率控制 器150來執(zhí)行。視頻速率控制器150可被認為是編碼器的一部分或者可以是與編碼器分開 或遠離編碼器的。或者,視頻成碼系統(tǒng)300(圖3)具有映射控件302,該映射控件在視頻速 率控制器310外部或遠程執(zhí)行特定任務,然后將數(shù)據(jù)傳送到視頻速率控制器310以便降低 比特率。視頻速率控制器310可以是或不是編碼器308的一部分。構想許多其它組合和示 例。
[0040] 參考圖1-2,視頻速率控制器150可接收視頻幀數(shù)據(jù),并且可以通信地連接到宏塊 分配器106和106'以及變換和量子化模塊108和108'。雖然視頻速率控制器150被示為 改變基礎層10Γ和增強層101兩者的比特率,視頻速率控制器150可以只對一層、對至少 一層、對多個特定層或所有層起作用。視頻速率控制器150改變正在編碼的視頻數(shù)據(jù)的比 特率以便為所得的經(jīng)編碼比特流提供較低的比特率。
[0041] 一般而言,視頻速率控制器150確定形成幀或圖像的宏塊中的哪一些也顯示圖像 中的諸如臉部等感興趣對象的至少一部分。視頻速率控制器150還確定那些宏塊顯示諸如 背景的一部分等非對象圖像的部分。如此處所使用的,術語"背景"可以指視頻圖像中的未 被定義為感興趣區(qū)域或對象(或被簡稱為非對象)且不引起用戶的密切關注的區(qū)域。背景 可包括位于所確定的感興趣對象的后面或前面(例如,前景)的圖像部分。這與引起用戶 關注的對象或感興趣對象形成對比。顯示背景且在一種形式中僅僅顯示背景或非對象的宏 塊由指示從該宏塊到相對于對象定義的點(諸如對象的中心點)的距離的水平來映射或標 記。用于非對象宏塊的圖像數(shù)據(jù)然后可依據(jù)宏塊的水平來減少。在一種形式中,這可通過 使用QP縮放因子或內容知曉過濾器或兩者來執(zhí)行。
[0042] 關于這些方法以及視頻成碼系統(tǒng)100或300的其它方面的附加和/或替換細節(jié)可 以在以下參考圖2-6更詳細地討論的一個或多個示例實現(xiàn)中示出。如以下將更詳細討論 的,視頻成碼系統(tǒng)100可用于執(zhí)行以下結合圖7和8討論的多種功能中的部分或全部。
[0043] 參考圖2,在一種示例形式中,視頻成碼系統(tǒng)100的層101和10Γ中的任一個或 兩者可具有邏輯模塊200。某些邏輯模塊可被包括在視頻速率控制器150中。視頻速率控 制器150可具有對象檢測模塊252、宏塊水平圖生成器模塊(或MB級生成器或簡稱為生成 器)254、內容知曉過濾器256和/或量子化參數(shù)(QP)控制模塊258。對象檢測模塊252和 宏塊水平圖生成器254可以分別連接或通信地或操作地耦合到圖像數(shù)據(jù)202和宏塊分配器 模塊106 (或106')。內容知曉過濾器256和QP控制模塊258連接或通信地或操作地耦合 到變換和量子化模塊108 (或108')。
[0044] 參考圖3,在一個示例替代配置中,單獨的映射控件302提供對象檢測模塊252和 宏塊水平圖生成器模塊254,而不是視頻速率控制器。在該示例中,編碼器308包括具有內 容知曉過濾器模塊256和/或QP控制模塊258的視頻速率控制器310。映射控件302還可 包括圖像捕捉設備304或可以與圖像捕捉設備306通信。在一種形式中,映射控件302可 以是或者可以鏈接到相機,諸如網(wǎng)絡攝像頭或其它數(shù)字或模擬相機或攝像機。在一些示例 中,視頻數(shù)據(jù)可經(jīng)由網(wǎng)絡攝像頭傳感器等來捕捉(例如,互補金屬-氧化物半導體圖像傳感 器(CMOS)或電荷耦合器件圖像傳感器(CCD)),而不使用紅-綠-藍(RGB)深度相機和/或 話筒陣列來定位誰正在說話。在其它示例中,作為網(wǎng)絡對攝像頭傳感器的補充或替換,可使 用RGB深度相機和/或話筒陣列。許多不同類型的相機可以與此處描述的本系統(tǒng)聯(lián)用。
[0045] 對于視頻成碼系統(tǒng)300,映射控件302可以與同一設備中同一編碼器內或作為其 一部分的視頻速率控制器310分開,諸如具有照片或視頻捕捉能力的相機或設備。作為另 一替代實施例,映射控件302可以位于視頻控制器310和編碼器308的遠程。在這些情況 下,宏塊水平以及對應的圖像數(shù)據(jù)可被傳送到視頻速率控制器310或者以其它方式變得對 于視頻速率控制器310是可訪問的,這些宏塊水平以及對應的圖像數(shù)據(jù)可以被或不被存儲 在諸如服務器或其它網(wǎng)絡設備處的存儲器等其它地方。否則,水平圖和比特率降低與以下 描述的系統(tǒng)100執(zhí)行的相同或相似地操作。
[0046] 再次參考圖2,更詳細地,圖像數(shù)據(jù)202接收至少包括關于每一個像素的亮度和色 彩的細節(jié)的圖像數(shù)據(jù)幀。圖像數(shù)據(jù)最初可以從此處描述的圖像捕捉設備接收,或者可包括 來自量子化模塊并經(jīng)由過濾器、運動和/或預測環(huán)路204的循環(huán)數(shù)據(jù),以添加例如預測幀的 編碼。每一幀(也被稱為圖像或圖片)可以包括或不包括具有諸如關于視頻會議的臉部等 對象或感興趣對象和背景的圖像。然而,將會理解,系統(tǒng)100或300可以在圖像包括除了臉 部之外的對象(諸如動物、機器,諸如車輛等)的情況下并因此在許多不同的對象是可能的 焦點的情況下操作。對于H. 264/AVC示例,圖像數(shù)據(jù)然后被傳送到對象檢測模塊252和宏 塊分配器106。宏塊分配器106可將巾貞分成8x8、16x16或其它大小的宏塊以及其它分區(qū),以 便進行更高效的編碼。
[0047] 參考圖4,對象檢測模塊252檢測或跟蹤對象并確定是否可以在每一幀I_in中 找到一個或多個對象,并且如果是,則檢測該幀中的一個或多個對象的僵化或捕捉到的位 置。在一些示例中,將臉部檢測為對象可包括至少部分地基于Viola-Jones型框架的檢 測(參見例如 Paul Viola、Michael Jones 的 Rapid Object Detection using a Boosted Cascade of Simple Features (使用提升的簡單特征級聯(lián)的快速對象檢測),CVPR2001和/ 或 Yangzhou Du、Qiang Li 的 2010 年 12 月 10 日提交的題為 TECHNIQUES FOR FACE DETECTION AND TRACKING(用于臉部檢測和跟蹤的技術)的PCT/CN2010/000997)。這些臉部檢測技術 可允許相對累積,以包括臉部檢測、陸標檢測、臉部對準、微笑/眨眼/性別/年齡檢測、臉 部識別、檢測兩個或更多臉部等。存在檢測臉部和其它對象的許多其它示例,并且本對象檢 測模塊252可使用這些示例。
[0048] 在所示示例中,幀或圖像400包括矩形404中標記的對象402。為了確定和設置對 象在一種示例形式的圖像400中的排列或位置,對象檢測模塊252可將矩形的左上角指派 為( Xi,yi),且該對象的大小可包括如由矩形表示的對象的寬度(指派為^)和對象的高度 (指派為h)。對于不規(guī)則形狀的對象,( Wi,可測量該對象的最大維度,但構想其它維度 (諸如平均寬度和高度)。將理解,存在定義可以在此處使用的對象的位置的許多其它不同 的方式。如由等式(1)示出的檢測到的一個或多個對象〇i的位置數(shù)據(jù)可被提供給宏塊水 平圖生成器254:
[0049] 0 - {〇" 〇2,· · · oM} - {(xi, Yi, w1; hj), (x2, y2, w2, h2), . . . (xji,Ym,wm, hM)} (1)
[0050] 其中等式(1)中的M是圖像I_in內的感興趣對象的數(shù)量。
[0051] 宏塊水平圖生成器254或其它模塊然后可計算點P相對于對象位置的位置。該點 可以是由矩形的中心表示的對象的中心點,或者對于例如非對稱或不規(guī)則形狀可以是考慮 對象區(qū)域的確切位置的對象或矩形的質心。存在關于使用哪一點(諸如外邊界點或對象或 矩形的角等)的許多其它示例,并且在一個示例中,可以使用任何點,只要對于整個幀中的 宏塊持續(xù)使用該點。當單個幀中存在多個對象時,可確定該組對象(此處被稱為全體)的 單個中心點或質心以便進行比特率控制。在所示示例中,一個或多個對象的中心點的位置 c。= (X。,y。)可通過下式來確定:
【權利要求】
1. 一種用于視頻成碼的計算機實現(xiàn)的方法,包括: 接收指示在要顯示的圖像上至少一個對象的位置的圖像數(shù)據(jù); 確定形成所述圖形的至少一部分且與所述對象的位置相關的多個宏塊中的各個宏塊 的位置;以及 由視頻編碼器至少部分地依據(jù)宏塊中的至少一個相對于所述對象在所述圖像上的位 置的位置,來調整由所述至少一個宏塊提供的圖像部分的質量。
2. 如權利要求1所述的方法,其特征在于,包括確定哪些宏塊是不形成所述對象的一 部分的非對象宏塊,并且其中調整包括調整所述非對象宏塊的圖像質量。
3. 如權利要求1所述的方法,其特征在于,調整包括至少部分地依據(jù)從宏塊到相對于 所述對象定義的點的距離來調整對應于該宏塊的圖像部分的質量。
4. 如權利要求1所述的方法,其特征在于,調整包括至少部分地依據(jù)從宏塊到所述對 象的中心點和質心中的至少一個的距離來調整所述圖像部分的質量。
5. 如權利要求1所述的方法,其特征在于,包括將所述多個宏塊中的各個宏塊與多個 水平中的至少一個相關聯(lián),每一個水平與離相對于所述對象定義的點的至少一個不同距離 相關聯(lián)。
6. 如權利要求1所述的方法,其特征在于,包括將所述多個宏塊中的每一個與多個水 平中的至少一個相關聯(lián),每一個水平與離相對于所述對象定義的點的至少一個不同距離相 關聯(lián),并且其中提供用于標記非對象宏塊的至少兩個水平。
7. 如權利要求1所述的方法,其特征在于,包括將所述多個宏塊中的每一個與多個水 平中的至少一個相關聯(lián),每一個水平與離相對于所述對象定義的點的至少一個不同距離相 關聯(lián),并且其中至少一個水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個其 它水平與顯示所述對象的宏塊隔開。
8. 如權利要求1所述的方法,其特征在于,調整包括調整用于減少與宏塊相關聯(lián)的比 特數(shù)的過濾強度。
9. 如權利要求3所述的方法,其特征在于,調整包括設置用于計算分配給宏塊的量子 化參數(shù)(QP)的縮放因子。
10. 如權利要求1所述的方法,其特征在于,調整質量至少部分地依據(jù)從至少一個宏塊 到所述圖像上的對象組的中心點的距離。
11. 如權利要求1所述的方法,其特征在于,所述對象是人臉。
12. 如權利要求1所述的方法,其特征在于 包括確定哪些宏塊是不形成所述對象的一部分的非對象宏塊,并且其中調整包括調整 所述非對象宏塊的圖像質量, 其中調整包括至少部分地依據(jù)從宏塊到相對于所述對象定義的點的距離來調整對應 于該宏塊的圖像部分的質量, 其中調整包括至少部分地依據(jù)從宏塊到所述對象的中心點和質心中的至少一個的距 離來調整所述圖像部分的質量, 包括將所述多個宏塊中的各個宏塊與多個水平中的至少一個相關聯(lián),每一個水平與離 相對于所述對象定義的點的至少一個不同距離相關聯(lián), 其中提供用于標記非對象宏塊的至少兩個水平, 其中至少一個水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個其它水平 與顯示所述對象的宏塊隔開, 其中調整包括調整用于減少與宏塊相關聯(lián)的比特數(shù)的過濾強度, 其中調整包括設置用于計算分配給宏塊的量子化參數(shù)(QP)的縮放因子, 其中調整質量至少部分地依據(jù)從至少一個宏塊到所述圖像上的對象組的中心點的距 尚,并且 其中所述對象是人臉。
13. -種用于在計算機上進行視頻成碼的系統(tǒng): 顯示器; 通信地耦合到所述顯示器的至少一個處理器; 通信地耦合到所述處理器的至少一個存儲器; 通信地耦合到所述處理器的宏塊水平圖生成器,被配置成: 接收指示在要顯示的圖像上至少一個對象的位置的圖像數(shù)據(jù),以及 確定形成所述圖形的至少一部分且與所述對象的位置相關的多個宏塊中的各個宏塊 的位置;以及 通信地耦合到所述處理器的視頻速率控制器,視頻速率控制器被配置成至少部分地依 據(jù)宏塊中的至少一個相對于所述對象在所述圖像上的位置的位置來調整由所述至少一個 宏塊提供的圖像部分的質量。
14. 如權利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成確定哪 些宏塊是不形成所述對象的一部分的非對象宏塊,并且其中所述視頻速率控制器被配置成 調整所述非對象宏塊的圖像質量。
15. 如權利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從宏塊到相對于所述對象定義的點的距離來調整對應于該宏塊的圖像部分的質量。
16. 如權利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從宏塊到所述對象的中心點和質心中的至少一個的距離來調整所述圖像部分的質 量。
17. 如權利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將多個 宏塊中的各個宏塊與多個水平中的至少一個相關聯(lián),每一個水平與離相對于所述對象定義 的點的至少一個不同距離相關聯(lián)。
18. 如權利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將多個 宏塊中的各個宏塊與多個水平中的至少一個相關聯(lián),每一個水平與離相對于所述對象定義 的點的至少一個不同距離相關聯(lián),并且其中提供用于標記非對象宏塊的至少兩個水平。
19. 如權利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器被配置成將所述 多個宏塊中的各個宏塊與多個水平中的至少一個相關聯(lián),每一個水平與離相對于所述對象 定義的點的至少一個不同距離相關聯(lián),并且其中至少一個水平被置于具有所述對象的外邊 界的宏塊附近,并且至少一個其它水平與顯示所述對象的宏塊隔開。
20. 如權利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地通過調整用于減少與宏塊相關聯(lián)的比特數(shù)的過濾強度來調整所述圖像質量。
21. 如權利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地通過設置用于計算分配給宏塊的量子化參數(shù)(QP)的縮放因子來調整所述圖像質量。
22. 如權利要求13所述的系統(tǒng),其特征在于,所述視頻速率控制器被配置成至少部分 地依據(jù)從至少一個宏塊到所述圖像上的對象組的中心點的距離來調整所述圖像的質量。
23. 如權利要求13所述的系統(tǒng),其特征在于,所述宏塊水平圖生成器確定哪些宏塊是 不形成所述對象的一部分的非對象宏塊。 其中所述視頻速率控制器被配置成調整所述非對象宏塊的圖像質量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從宏塊到相對于所述對象定義的 點的距離來調整對應于該宏塊的圖像部分的質量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從宏塊到所述對象的中心點和質 心中的至少一個的距離來調整所述圖像部分的質量, 其中所述宏塊水平圖生成器被配置成將多個宏塊中的各個宏塊與多個水平中的至少 一個相關聯(lián),每一個水平與離相對于所述對象定義的點的至少一個不同距離相關聯(lián), 其中所述宏塊水平圖生成器被配置成將多個宏塊中的各個宏塊與多個水平中的至少 一個相關聯(lián),每一個水平與離相對于所述對象定義的點的至少一個不同距離相關聯(lián), 其中提供用于標記非對象宏塊的至少兩個水平, 其中至少一個水平被置于具有所述對象的外邊界的宏塊附近,并且至少一個其它水平 與顯示所述對象的宏塊隔開, 其中所述視頻速率控制器被配置成至少部分地通過調整用于減少與宏塊相關聯(lián)的比 特數(shù)的過濾強度來調整所述圖像質量, 其中所述視頻速率控制器被配置成至少部分地通過設置用于計算分配給宏塊的量子 化參數(shù)(QP)的縮放因子來調整所述圖像質量, 其中所述視頻速率控制器被配置成至少部分地依據(jù)從至少一個宏塊到所述圖像上的 對象組的中心點的距離來調整所述圖像的質量,并且 其中所述對象是人臉。
24. -種設備,包括: 用于執(zhí)行如權利要求1-12中的任一項所述的方法的裝置。
【文檔編號】H04N19/176GK104219524SQ201410235369
【公開日】2014年12月17日 申請日期:2014年5月29日 優(yōu)先權日:2013年5月30日
【發(fā)明者】彭雅蒂, 邱怡仁, 江宏 申請人:英特爾公司