專利名稱:一種視頻會議系統(tǒng)及其中使用的處理方法
技術領域:
本發(fā)明涉及一種視頻會議系統(tǒng)以及在視頻會議中使用的處理方法,特別地,本發(fā)明涉及一種視頻會議系統(tǒng)以及處理視頻會議系統(tǒng)中的感興趣區(qū)域的處理方法。
背景技術:
由于網(wǎng)絡視頻會議能夠大幅度降低會議組織的時間以及成本,因此,近些年來,隨著技術的發(fā)展,利用網(wǎng)絡的視頻會議變得越來越普遍(尤其是在商務領域中)。因此,已經(jīng)針對視頻會議提出了各種各樣的改進,以改善視頻會議的話音、畫質等。例如,專利文檔1(美國專利No. 20080259154)提出了一種技術方案,用于對捕獲的圖像或視頻進行處理來模擬短景深的效果。在該方法中,將圖像的背景分離出來,并進行模糊處理以突出焦點(如,說話人)??梢栽诳沼蛑欣镁矸e濾波器(如中值濾波,均值濾波,或高斯濾波)來進行背景模糊;也可以在頻域中利用頻率濾波器(例如低通濾波)來進行模糊。專利文檔2(美國專利NO.W02007007257)描述了另外一種技術方案。在該方案中,提供帶有視頻時間上變換的方法和裝置,其中對感興趣區(qū)域,該方法應用比非感興趣區(qū)域更高的幀率,對擴展感興趣區(qū)域應用模糊濾波。此外,在專利文檔3 (美國專利No. 20060215753)還提供一種能夠關注視頻電話應用中的感興趣區(qū)域處理技術。其中,本地終端裝置的接收裝置將感興趣區(qū)域的信息傳遞給遠程終端裝置的發(fā)送裝置。利用本地終端裝置的接收裝置傳遞過來的感興趣區(qū)域信息,遠程終端裝置的發(fā)送裝置對視頻場景中的感興趣區(qū)域應用高優(yōu)先級的編碼。因此本地終端裝置的接收裝置可以遠程地控制遠程終端裝置的發(fā)送裝置的視頻中的感興趣區(qū)域的編碼。然而,上述技術方案仍然存在各種問題。例如專利文檔1意欲通過模糊處理而在攝像手機上實現(xiàn)隱私保護,而不是針對視頻會議場景。因此,并未針對視頻會議場景特點進行合適的處理。例如,該技術方案不考慮視頻會議的參加者、在任意時刻上視頻會議的參加者的共同的感興趣焦點或網(wǎng)絡帶寬的優(yōu)化分配利用等等。此外,例如,專利文檔2中的技術方案僅僅考慮將其方法用于視頻會議系統(tǒng)的一端,并且未考慮對視頻會議的兩端的情況以及可用網(wǎng)絡帶寬優(yōu)化分配利用并且,對于感興趣區(qū)域的定義也僅適用一種規(guī)則,即將視頻中的人作為感興趣區(qū)域。另外,在專利文檔3的技術方案中,未針對視頻會議設置感興趣區(qū)域,并且在劃分感興趣區(qū)域及非感興趣區(qū)域時也只是考慮了一端的視頻,而未考慮視頻會議兩端的情況。專利文檔1 美國專利No. 20080259154專利文檔2 美國專利No. W02007007257專利文檔3 美國專利No. 2006021575
發(fā)明內容
在現(xiàn)有技術中的上述技術方案僅獨立考慮視頻會議系統(tǒng)一端的視頻,并未綜合考慮視頻會議系統(tǒng)兩端視頻的特征以及網(wǎng)絡帶寬的優(yōu)化分配,并且在感興趣區(qū)域的定義規(guī)則上也僅僅考慮了單一的規(guī)則(通常將場景中的人作為感興趣區(qū)域)。因此,為了克服現(xiàn)有技術中的技術問題,本發(fā)明提供一種視頻會議系統(tǒng)中的感興趣區(qū)域的處理方法,其中視頻會議系統(tǒng)包括本地終端裝置以及至少一個遠程終端裝置,該處理方法包括當通過視頻會議系統(tǒng)進行視頻會議時,在視頻會議系統(tǒng)中的本地終端裝置及遠程終端裝置上分別進行特征檢測;基于本地終端裝置以及遠程終端裝置的特征檢測結果,針對視頻會議系統(tǒng)的當前會議場景設置會議模式;基于會議模式,在視頻會議系統(tǒng)中的本地終端裝置及遠程終端裝置上進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。此外,根據(jù)本發(fā)明的另一方面,提供一種視頻會議系統(tǒng),包括本地終端裝置;和至少一個遠程終端裝置,其中在視頻會議期間,所述本地終端裝置及所述遠程終端裝置分別進行特征檢測;在所述本地終端裝置及所述遠程終端裝置之間交換與特征檢測有關的信息,并且基于所述本地終端裝置以及所述遠程終端裝置的特征檢測結果,針對所述視頻會議系統(tǒng)的當前會議場景設置會議模式;基于所述當前會議模式,在所述本地終端裝置及所述遠程終端裝置上進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。此外,根據(jù)本發(fā)明的又一方面.提供一種視頻會議系統(tǒng),包括本地終端裝置;至少一個遠程終端裝置;和視頻會議控制裝置,其中在視頻會議期間,所述本地終端裝置及所述遠程終端裝置分別進行特征檢測;所述本地終端裝置及所述遠程終端裝置將與特征檢測有關的信息發(fā)送到所述視頻會議控制裝置,所述視頻會議控制裝置基于所述本地終端裝置以及所述遠程終端裝置的特征檢測結果,針對所述視頻會議系統(tǒng)的當前會議場景設置會議模式;所述視頻會議控制裝置向所述本地終端裝置及所述遠程終端裝置發(fā)送關于所設置的會議模式的信息,并且所述本地終端裝置及所述遠程終端裝置基于所述當前會議模式進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。在本發(fā)明中,將視頻會議系統(tǒng)的兩端(本地終端裝置和遠程終端裝置)作為一個整體來考慮,根據(jù)視頻會議系統(tǒng)兩端的視頻的特征檢測結果進行諸如視頻分割以及分割后的視頻的前處理之類的處理。此外,在兩個級別(其中之一是幀級別,而另一個級別是會議系統(tǒng)的參加者(本地終端裝置以及遠程終端裝置級別)上進行比特的重新分配以優(yōu)化系統(tǒng)資源。此外,由于在整個視頻會議的生命周期中,不同的會議場景具有不同的特點(如, 演講、討論等),因此根據(jù)在本地終端裝置與遠程終端裝置的特征檢測結果,將視頻會議劃分為多種不同的會議模式。然后基于會議模式,在系統(tǒng)兩端進行感興趣區(qū)域的分割。在本發(fā)明中,將感興趣區(qū)域的定義及選擇與會議模式緊密關聯(lián),因此與現(xiàn)有技術中的單一規(guī)則感興趣區(qū)域定義相比,根據(jù)本發(fā)明的技術方案能夠在會議的不同場景中始終保持呈現(xiàn)給視頻會議的參加者更清楚的正確的焦點。通過上述方式,不僅可以通過視頻會議系統(tǒng)兩端的特征檢測設置合適的會議模式來提高視頻會議的質量,而且可以通過基于特征檢測和會議模式進行比特的重新優(yōu)化分配以提高視頻會議系統(tǒng)的性能。另外,本發(fā)明還將用戶交互引入到整個系統(tǒng)中,S卩,通過調整參數(shù),可以調節(jié)觀看的視頻質量。
圖1是圖解根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)的方框圖;圖2是簡要圖解根據(jù)本發(fā)明實施例的、視頻會議系統(tǒng)的處理方法的流程圖;圖3是圖解視頻會議系統(tǒng)的特征檢測的流程圖;圖4是圖解終端裝置上的視頻幀分割的一個示例的圖示;圖5是圖解對圖4的視頻幀進行模糊處理的一個示例的圖示;圖6A至6C為圖解空域濾波以及時域濾波的示例的圖示;和圖7是根據(jù)本發(fā)明另一實施例的視頻會議系統(tǒng)的方框圖。
具體實施例方式下面,描述根據(jù)本發(fā)明的各個實施例,其中在附圖中,利用相同的附圖標記表示相同或類似的元件或組成部分,并且省略了它們的重復描述。圖1是圖解根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)的方框圖。在圖1中,根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)包括多個終端裝置100以及與多個終端裝置100連接的視頻會議控制裝置101。如圖1所述,基于用戶的位置,可以將終端裝置100劃分為本地終端裝置100A以及遠程終端裝置100B。在下文中,如果不需要進行區(qū)分, 還將本地終端裝置100A以及遠程終端裝置100B統(tǒng)稱為終端裝置100。終端裝置100可由能夠支持視頻會議的任意終端組成,所述終端的示例包括個人計算機(PC)、移動終端(如, 手機等)和個人數(shù)字助理(PDA)等等。此外,例如,視頻會議控制裝置101可以由服務器、 通用目的個人計算機等組成。此外,雖然在圖1中顯示了一個本地終端裝置100A以及兩個遠程終端裝置100B,但是,顯然,上述本地終端裝置100A以及遠程終端裝置100B的數(shù)量不限于圖1所示的終端裝置的數(shù)量。此外,終端裝置100還可以包括內置或外置的視頻捕獲裝置(如,攝像頭)以允許終端裝置100能夠執(zhí)行建立或加入視頻會議的操作。下面參照圖2簡要描述根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)中的處理過程。首先通過視頻會議控制裝置101,在本地終端裝置100A以及遠程終端裝置100B之間建立視頻會議。由于在本地終端裝置100A以及遠程終端裝置100B之間建立視頻會議的過程對于本領域技術人員來說是熟知的,因此這里省略了關于在本地終端裝置100A以及遠程終端裝置 100B之間如何建立視頻會議的過程的詳細描述。需要注意的是,視頻會議系統(tǒng)中的終端裝置100之間的連接為包括有線連接與無線連接的任意連接方式。在本地終端裝置100A以及遠程終端裝置100B之間建立了視頻會議之后,在步驟 S101,在視頻會議系統(tǒng)中的本地終端裝置100A及遠程終端裝置100B上分別進行視頻幀的特征檢測。然后,在步驟S102,本地終端裝置100A以及遠程終端裝置100B分別將關于特征檢測結果的信息發(fā)送到視頻會議控制裝置101,并且視頻會議控制裝置101整體地基于本地終端裝置100A以及遠程終端裝置100B的特征檢測結果(也就是,將本地終端裝置100A以及遠程終端裝置100B的特征檢測結果作為一個整體考慮),針對視頻會議系統(tǒng)中的各個終端裝置100的當前會議場景設置會議模式。在這里,應當注意的是,術語本地終端裝置以及遠程終端裝置是基于用戶與終端裝置的位置關系而定。例如,對于在圖1所示的一個遠程終端裝置100B上的用戶來說,該遠程終端裝置100B相當于本地終端裝置,而本地終端100A 以及其它遠程終端100B相當于遠程終端裝置。然后,在步驟S103,視頻會議系統(tǒng)中的各個終端裝置100基于所設置的會議模式, 在視頻會議系統(tǒng)中的各個終端裝置100上(也就是,本地終端裝置100A以及遠程終端裝置 100B上)進行視頻幀分割。在各個終端裝置100上進行視頻幀分割之后,在步驟S104,終端裝置100對分割后的區(qū)域進行前處理,并且對處理后的區(qū)域進行視頻編碼以向其它終端裝置100進行傳輸。下面詳細描述描述根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)中的處理方法中的各個步驟。首先,詳細說明視頻會議系統(tǒng)中的終端裝置100上的特征檢測過程。圖3為特征檢測過程的詳細說明,其中在視頻會議系統(tǒng)的每一個終端裝置100上進行的特征檢測包括如下步驟例如,在建立了視頻會議之后,在步驟S1011,終端設備100利用內置或外置的視頻捕獲裝置(如,攝像頭)或其他類似設備捕獲視頻。然后,在步驟1012,終端裝置100首先在當前產(chǎn)生的視頻幀中檢測是否存在白板, 并且基于是否存在白板的檢測結果來計算白板占整個視頻幀大小的比率。如果終端裝置 100在當前的視頻幀中檢測到至少一個白板,并且至少一個白板占整個視頻幀大小的比率值超過預先設置的閾值,則處理前進到步驟S1013,而如果終端裝置100在當前的視頻幀中未檢測到白板或者檢測到的所有白板占整個視頻幀大小的比率值都未超過預先設置的閾值,則處理前進到步驟S1014。在步驟S1013,終端裝置100將該白板識別為在當前幀檢測到的特征,S卩,設置“白板”特征為“真”,其表示視頻會議的參加者正在利用白板進行演示或說明。如果終端裝置100在當前幀中未檢測到任何白板,或沒有任何一個白板占據(jù)整個視頻幀大小的比率能夠達到預先設置的閾值,則在步驟S1014,繼續(xù)在當前視頻幀中檢測其他特征。在本實施例中,此時檢測視頻幀是否存在說話人。如果終端裝置100檢測到存在說話人,則處理前進到步驟S1015。否則,處理前進到步驟S1016。如果終端裝置100在當前幀中檢測到說話人,則在步驟S1015,終端裝置100設置當前視頻幀中的“說話人”特征為“真”,其表示在終端裝置100上檢測到說話人。如果終端裝置100在當前幀中未檢測到說話人,則在步驟S1016,終端裝置100設置當前視頻幀中的“未檢測到特征”為“真”,其表示在終端裝置100上未檢測到特征。應該注意的是,在會議系統(tǒng)的各個終端設備100上分別進行如上所述的特征檢測,然后基于在各個終端設備100上的檢測到的特征來設置會議模式。下面詳細描述如何基于各個終端設備100上檢測到的特征在設置會議模式的操作。在視頻會議系統(tǒng)的各個終端裝置100對特征進行了檢測之后,終端裝置100基于用于傳輸數(shù)據(jù)的任意協(xié)議(如,TCP/IP、UDP協(xié)議等)向視頻會議控制裝置101發(fā)送關于其視頻幀的特征的信息。視頻會議控制裝置101在接收來自各個終端裝置100的、關于其視頻幀的特征的信息之后,將關于各個終端裝置100的視頻幀的特征的信息進行結合,并且基于結合后的結果,為終端裝置100的當前視頻會議場景設置會議模式。例如,如果在本地終端裝置100A上,“白板”特征被設置為“真”,而在遠程終端裝置100B上,“未檢測到特征”被設置為“真”,則視頻會議控制裝置101基于上述信息將當前視頻會議場景被設置為“白板模式”。此外,如果在預先設置的時間范圍(可以基于具體情況改變該預設的時間范圍)內,在本地終端裝置100A持續(xù)檢測到說話人,而在遠程終端裝置100B上未檢測到任何特征,則視頻會議控制裝置101基于上述信息將當前會議場景被設置為“演講模式”。此外,如果在預先設置的時間范圍內,在視頻會議系統(tǒng)的兩側(如,本地終端裝置100A和遠程終端裝置100B)同時或交替地檢測到“說話人”特征,則視頻會議控制裝置101基于上述信息當前會議場景被設置為“討論模式”。上述結合各個終端裝置100 (本地終端裝置100A和遠程終端裝置100B)中的視頻幀的特征來設置各個終端裝置的會議模式的情況不限于上述情況。例如,可以基于更具體的情況靈活地設置更多的會議模式。此外,用戶或視頻的參加者還可以根據(jù)具體情況通過視頻會議控制裝置101上提供的輸入/輸出接口(未示出)任意地限定視頻會議的模式。 例如,如果在本地終端裝置100A上,“白板”特征被設置為“真”,而在預先設置的時間范圍內,在遠程終端裝置100B上持續(xù)檢測到說話人,則視頻會議控制裝置101可以基于用戶設置,將當前視頻會議場景被設置為“白板模式”或“演講模式”;而如果在本地終端裝置100A 上,“白板”特征被設置為“真”,而在預先設置的時間范圍內,在多個遠程終端裝置100B上持續(xù)檢測到說話人,則視頻會議控制裝置101可以將當前視頻會議場景被設置為“討論模式”寸寸。然后,在視頻會議控制裝置101結合終端裝置100(本地終端裝置100A和遠程終端裝置100B)的視頻幀的特征設置了相應的會議模式之后,視頻會議控制裝置101將關于所設置的會議模式的信息發(fā)送到各個終端裝置100上,從而允許各個終端裝置100基于所設置的會議模式對其視頻幀進行分割。這里,需要注意的是,在不同的會議模式下,由于對于視頻會議的參加者(用戶) 來說焦點各不相同,因此視頻幀的分割與會議模式相關聯(lián),其中視頻會議的參加者的焦點包括“白板”、“說話人”等等特征。下面詳細說明在各個會議模式下,視頻幀的分割的細節(jié)。例如,在“演講模式”下,如果說話人在本地終端裝置100A上,則對視頻會議兩端 (本地終端裝置100A和遠程終端裝置100B)上的參加者來說,該說話人為視頻會議兩端的參加者的共同焦點。在這種情況下,例如,對于本地終端裝置上的視頻幀來說,可以基于“演講模式”將視頻幀分割為三個部分將說話人或者說話人的面部分割為“感興趣區(qū)域” (R0I, region ofinterest);從“感興趣區(qū)域”的邊界出發(fā)向外擴展預先設置的距離,將視頻幀中的該區(qū)域分割為“擴展感興趣區(qū)域”(extended R0I,也稱作χ-ROI);而將視頻幀中的剩余區(qū)域分割為“非感興趣區(qū)域”(non-ROI)。例如,在圖4中例示了視頻幀的分割結果的一種情況。而對于遠程終端裝置100B上的視頻幀來說,在上述情況下,當在另一端(S卩,本地終端裝置100A)中存在說話人,同時在該遠程終端裝置100B上未檢測到特征時,這表示該遠程終端裝置100B上的視頻幀中的所有內容的重要性都要低于視頻會議的當前會議場景的焦點,即另一端(本地終端裝置100A)中的說話人。因此在此時,基于“演講模式”,遠程終端裝置100B將其整個視頻幀都分割為“非感興趣區(qū)域”。類似地,例如,當在遠程終端裝置100B上存在說話人,而在本地終端裝置100A上未檢測到特征時,遠程終端裝置100B基于該“演講模式”對該遠程終端裝置100B上的視頻幀進行分割(即,感興趣區(qū)域、擴展感興趣區(qū)域和非感興趣區(qū)域的分割)。在這種情況下,本地終端裝置100A上的整個視頻幀被分割為“非感興趣區(qū)域”。此外,在“白板模式”下,如果本地終端裝置100A上的參加者正在白板上進行書寫,則對視頻會議的所有參加者來說,白板上正在被書寫的內容為他們的共同焦點。因此在該模式下,對本地終端裝置100A上的視頻幀來說,該視頻幀被分割為三個部分白板上當前正在寫的內容為“感興趣區(qū)域”;從“感興趣區(qū)域”的邊界出發(fā)向外擴展預先設置的距離, 將該區(qū)域分割為“擴展感興趣區(qū)域”;將視頻中的剩余區(qū)域分割為“非感興趣區(qū)域”。在這種情況下,對于遠程終端裝置100B的視頻幀來說,當另一端(本地終端裝置100A)上有人在白板上進行書寫時,白板上的內容為參加者的關注所在,因此該遠程終端裝置100B上的視頻幀中的所有內容的重要性都要低于視頻會議的當前會議場景的焦點(即,白板),因而在此時,遠程終端裝置100B基于該“白板模式”將其整個視頻幀分割為“非感興趣區(qū)域”。類似地,例如,當在在遠程終端裝置100B上的參加者正在白板上進行書寫時,該遠程終端裝置100B基于“白板模式”,對遠程終端裝置100B上的視頻幀進行分割(S卩,感興趣區(qū)域、擴展感興趣區(qū)域和非感興趣區(qū)域的分割)。在這種情況下,本地終端裝置100A上的整個視頻幀被分割為“非感興趣區(qū)域”。此外,在“討論模式”下,如果在視頻會議系統(tǒng)的相應終端裝置上存在多名參加者 (說話人)參與討論,則對視頻會議的參加者來說,參與討論的多人為所有參加者的焦點。 因此,例如,該模式下,在本地終端裝置100A上存在說話人的情況下,對于本地終端裝置 100A上的視頻幀,將該視頻幀分割為三個部分參與討論的人為“感興趣區(qū)域”,從“感興趣區(qū)域”的邊界出發(fā)向外擴展預先設置的距離,將該區(qū)域分割為“擴展感興趣區(qū)域”;將視頻中的剩余區(qū)域分割為“非感興趣區(qū)域”。如果遠程終端裝置100B上也存在參與討論的人,則在遠程終端裝置100B上的視頻幀進行類似的分割操作(即,感興趣區(qū)域、擴展感興趣區(qū)域和非感興趣區(qū)域的分割)。如果某個遠程終端裝置100B上不存在參與討論的人,則該遠程終端裝置100B將其整個視頻幀被分割為“非感興趣區(qū)域”。至此,基于在視頻會議系統(tǒng)兩端(本地終端裝置100A和遠程終端裝置100B)檢測到的特征以及會議模式,視頻會議系統(tǒng)的各個終端裝置100上的視頻幀被分割為“感興趣區(qū)域”,“擴展感興趣區(qū)域”以及“非感興趣區(qū)域”三種類型?!案信d趣區(qū)域”,“擴展感興趣區(qū)域”以及“非感興趣區(qū)域”中的每一類均包含來自于至少一個終端裝置100中的視頻幀中的被分割的區(qū)域。在此處,按三種類型分割視頻幀的目的為減少不同部分之間的邊緣效應,并且在應用下述的濾波之后,使得幀的不同部分之間的視頻質量能夠平滑過渡。下面,詳細描述在進行了終端裝置100上的視頻幀的分割之后,終端裝置100在進行視頻編碼之前執(zhí)行的前處理操作。在進行了視頻幀分割的操作之后,視頻會議系統(tǒng)中的各個終端裝置100對其視頻幀的分割區(qū)域進行排序。由于感興趣區(qū)域通常包含了視頻會議的參加者共同關心的焦點內容,因此該部分區(qū)域被賦予最高優(yōu)先級。由于擴展感興趣區(qū)域是上述感興趣區(qū)域的一個外延擴展,因此其優(yōu)先級低于上述感興趣區(qū)域。此外,由于非感興趣區(qū)域通常包含的內容其重要性最低,因此被賦予最低的優(yōu)先級。然后,基于優(yōu)先級排序,對所述視頻會議系統(tǒng)中的各個終端裝置100的網(wǎng)絡帶寬進行重新分配。例如,可以通過在視頻會議系統(tǒng)中的各個終端裝置100之間交換關于優(yōu)先級排序的信息來進行網(wǎng)絡帶寬的重新分配工作。具體地,基于優(yōu)先級排序,具有最高優(yōu)先級的視頻幀的終端裝置100可以占有較寬的帶寬,而具有較低優(yōu)先級的視頻幀的終端裝置 100可以占有較窄的帶寬。此外,視頻會議控制裝置101可以收集關于各個終端裝置100的優(yōu)先級排序的信息來分配各個終端裝置100所占的帶寬。應該注意的是,本發(fā)明不限于此, 可以基于優(yōu)先級,利用任意的動態(tài)網(wǎng)絡帶寬設置技術來進行終端裝置100的帶寬重新分配工作。此外,在終端裝置100進行優(yōu)先級排序之后,終端裝置100對于擴展感興趣區(qū)域和非感興趣區(qū)域在空域上應用模糊濾波,以減少這兩個區(qū)域中包含的高頻信息的容量。然后, 對于擴展感興趣區(qū)域和非感興趣區(qū)域在時域上進行濾波,以減少相鄰兩個視頻幀之間的變化。通過對上述區(qū)域進行在空域上應用模糊濾波,在接下來的編碼階段中,在(例如) 離散余弦變換(DCT)之后,這上述區(qū)域中需要進行編碼的圖像信息量會相對減少。同樣地, 通過對上述區(qū)域在時域上進行濾波,在接下來的編碼階段,在運動估計之后,這上述兩個區(qū)域中需要進行編碼的運動向量會相對減少。具體地,例如,可以應用加權均值濾波對擴展感興趣區(qū)域和非感興趣區(qū)域進行空域上的模糊濾波。下面的公式(1)為加權均值濾波的一個示例。
n ηg(x,y) = Σ Σw(z.,j、f、x+i^y+J)…(1)
=-ηj=~n其中g(x,y)為的窗口的中心像素,w (i,j)為加權值,而f(x+i, y+j)為該的窗口內的像素的像素值。通過上述方式,利用窗口內的On+1) X (2n+l)個像素的加權平均值來取代中心像素的原始值以進行加權均值濾波(模糊濾波)。另外,應用于擴展感興趣區(qū)域以及非感興趣區(qū)域的加權均值濾波器可以為不同的類型,并且具有不同的參數(shù)。例如,如圖6A中所示的加權均值模糊濾波器可應用于擴展感興趣區(qū)域,而如圖6B所示的加權均值模糊濾波器可用于非感興趣區(qū)域,其中圖6A與圖6B 所示的矩陣為加權值w(i,j)的矩陣形式。通過利用加權均值濾波進行空域上的模糊濾波之后,假設原始視頻幀如圖4所示,其濾波結果則如圖5所示。除了上述的加權均值濾波,還可以使用中值濾波以及高斯濾波來模糊擴展感興趣區(qū)域及非感興趣區(qū)域。此外,對時域濾波來說,擴展感興趣區(qū)域的濾波可通過計算相鄰兩個視頻幀的對應擴展感興趣區(qū)域的線性插值來獲得;而非感興趣區(qū)域濾波可通過復制上一幀中對應區(qū)域的內容而獲得,也就是說,每兩幀或多幀即跳過其中一幀或多幀的非感興趣區(qū)域。上述時域濾波方法如圖6C所示。通過對視頻幀的分割區(qū)域(擴展感興趣區(qū)域及非感興趣區(qū)域)進行空域以及時域濾波,可以明顯減少各個終端裝置100上的視頻幀的信息量,由此減少在建立視頻會議的網(wǎng)絡中傳輸?shù)臄?shù)據(jù)量。因此,通過上述空域和時域濾波,可以進一步節(jié)約網(wǎng)絡帶寬。因此,即使在具有較低傳輸速度的網(wǎng)絡中,根據(jù)本發(fā)明示例性實施例的視頻會議系統(tǒng)以及處理方法也能建立穩(wěn)定且流暢的視頻會議。在下面,將描述對視頻幀的分割區(qū)域進行前處理(如,排序、濾波等)之后的處理的細節(jié)。視頻會議系統(tǒng)中的終端裝置100對經(jīng)過前處理的視頻進行編碼。由于排序、濾波等操作是在前處理階段完成,因此本發(fā)明可以適用于任何編碼器及CODEC(編碼解碼器), 并且不需要對現(xiàn)有的編碼器進行任何修改。因此,省略了編碼器及CODEC的結構以及其操作的詳細描述。下面描述根據(jù)本發(fā)明另一實施例的視頻會議系統(tǒng)。圖7是圖解根據(jù)本發(fā)明另一實施例的視頻會議系統(tǒng)的方框圖。在根據(jù)圖7所示的視頻會議系統(tǒng)中,不包括視頻會議控制裝置101。在本實施例中,通過各個終端裝置100之間的信息交互(無需通過視頻會議控制裝置)來基于各個終端裝置100的特征檢測來設置會議模式,并進行相應的前處理。由于,除了各個終端裝置 100之間的信息交互設置會議模式的步驟之外,各個終端裝置100執(zhí)行的處理與針對上述實施例描述的處理基本上相同,因此,在這里省略了不必要的重復描述。根據(jù)本實施例,在視頻會議系統(tǒng)的各個終端裝置100對特征進行了檢測之后,終端裝置100 (作為本地終端裝置100A)基于用于傳輸數(shù)據(jù)的任意協(xié)議(如,TCP/IP、UDP協(xié)議等)向其它終端裝置100(作為遠程終端裝置100B)發(fā)送用于獲得其它終端裝置100上的視頻幀的特征的請求,并且接收來自其它終端裝置100的應答消息(即,關于其它終端裝置100上的視頻幀的特征的信息)。然后,視頻會議系統(tǒng)中的每一個終端裝置100(作為本地終端裝置100A)將關于本地的視頻幀的特征的信息與來自其它終端裝置100(作為遠程終端裝置100B)的關于視頻幀的特征的信息結合,并且基于結合后的結果,為當前的視頻會議場景設置會議模式,并且基于所設置的會議模式執(zhí)行對應的前處理。此外,根據(jù)本發(fā)明的又一實施例,用戶還可以通過終端裝置100上提供的輸入/輸出接口(未示出)與終端裝置100進行交互來調整當前視頻的質量。例如,如果用戶希望調整視頻質量,則他/她可以調節(jié)在空域和時域濾波中使用的濾波器的參數(shù),然后終端裝置100基于被調節(jié)的參數(shù)執(zhí)行濾波操作。例如,對于一個具有 nXn矩陣(η2為矩陣的元素數(shù))的加權均值模糊濾波器來說(如圖3(2)所示,η的值為5, 分母為n2 = 25), η的值越大,模糊效果越明顯。圖3(1)所示的加權均值濾波器也有類似的屬性。因此,通過增大濾波器參數(shù)η的值,可以進一步降低非感興趣區(qū)域及擴展感興趣區(qū)域的質量,由此可以減少編碼后的數(shù)據(jù)量并節(jié)約帶寬。相應地,感興趣區(qū)域的質量可以得到提升,用戶將可以觀察到更清晰的焦點內容。在上面詳細描述了根據(jù)本發(fā)明的各種示例性實施例。通過利用根據(jù)本發(fā)明實施例的視頻會議系統(tǒng)以及視頻會議系統(tǒng)中的感興趣區(qū)域的處理方法,基于視頻會議系統(tǒng)兩端的特征檢測結果為終端裝置的當前會議場景設置會議模式。在整個會議生命周期中,由于隨著會議場景的變換,當前焦點也隨之變換,因此對每一種會議模式,當前的焦點被分割出來并被賦予最高優(yōu)先級。通過上述操作可以確保自動且靈活地為會議參加者提供清晰的高質量的焦點內容。
此外,由于基于視頻幀的分割在兩個級別上進行比特的重新分配,也就是,首先在視頻會議系統(tǒng)的本地終端裝置與遠程終端裝置上進行帶寬的重新分配;其次在幀級別上進行比特再分配,因此通過上述操作可以確保當前可用的網(wǎng)絡帶寬得以充分利用,從而為會議參加者提供高質量的清晰視頻。需要注意的是,本發(fā)明的實施例可以采用整體硬件實施、整體軟件實施或包含硬件和軟件組成部分的實施的方式。在一些實施例中,可以利用軟件實現(xiàn)本發(fā)明的實施例,其包含(但不限于)固件、內置軟件、微碼等。此外,本發(fā)明采用可以由計算機或任何命令執(zhí)行系統(tǒng)使用來執(zhí)行根據(jù)本發(fā)明實施例的處理方法的計算機程序產(chǎn)品的形式,所述計算機程序產(chǎn)品存儲在計算機可讀介質中。計算機可讀介質的實例包括半導體或固態(tài)存儲器、磁帶、 可卸載計算機磁盤、隨機存取存儲器(RAM)、只讀存儲器(ROM)、硬盤和光盤等。如上所述,已經(jīng)在上面具體地描述了本發(fā)明的各個實施例,但是本發(fā)明不限于此。 本領域的技術人員應該理解,可以根據(jù)設計要求或其它因素進行各種修改、組合、子組合或者替換,而它們在所附權利要求及其等效物的范圍內。
權利要求
1.一種視頻會議系統(tǒng)的處理方法,其中所述視頻會議系統(tǒng)包括本地終端裝置以及至少一個遠程終端裝置,所述處理方法包括當通過所述視頻會議系統(tǒng)進行視頻會議時,在所述視頻會議系統(tǒng)中的所述本地終端裝置及所述遠程終端裝置上分別進行特征檢測;基于所述本地終端裝置以及所述遠程終端裝置的特征檢測結果,針對所述視頻會議系統(tǒng)的當前會議場景設置會議模式;基于所述當前會議模式,在所述視頻會議系統(tǒng)中的所述本地終端裝置及所述遠程終端裝置上進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。
2.如權利要求1所述的處理方法,其特征在于在視頻會議系統(tǒng)中的所述本地終端裝置及所述遠程終端裝置上檢測到的特征包括焦點,所述焦點包括白板、說話人。
3.如權利要求2所述的處理方法,進一步包括在對所述視頻幀進行分割之后,對分割后的所述視頻幀的區(qū)域進行優(yōu)先級排序。
4.如權利要求3所述的處理方法,其特征在于如果在所述視頻幀中包含焦點,則將其分割為“感興趣區(qū)域”,“擴展感興趣區(qū)域”及“非感興趣區(qū)域”,和如果在所述視頻幀中不包含焦點,則將整個所述視頻幀標記為“非感興趣區(qū)域”。
5.如權利要求4所述的處理方法,其特征在于所述優(yōu)先級排序包括將感興趣區(qū)域賦予最高優(yōu)先級,將擴展感興趣區(qū)域賦予次高優(yōu)先級,而將非感興趣區(qū)域賦予最低優(yōu)先級。
6.如權利要求3到5中的任意一個所述的處理方法,進一步包括基于優(yōu)先級排序,對所述視頻會議系統(tǒng)的網(wǎng)絡帶寬進行重新分配。
7.如權利要求6的所述的處理方法,其特征在于對所述視頻會議系統(tǒng)的網(wǎng)絡帶寬的重新分配包括所述視頻會議系統(tǒng)的本地終端裝置以及遠程終端裝置之間的帶寬分配和視頻幀的比特重新分配。
8.如權利要求7所述的處理方法,其特征在于對于所述擴展感興趣區(qū)域以及所述非感興趣區(qū)域在空域上應用模糊濾波,以進行視頻幀內的比特重新分配。
9.如權利要求8所述的處理方法,其特征在于在空域上的模糊濾波包括均值濾波、中值濾波和高斯濾波中的至少一個。
10.如權利要求7所述的處理方法,其特征在于對于所述擴展感興趣區(qū)域以及所述非感興趣區(qū)域應用時域濾波,以進行視頻幀間的比特再分配。
11.如權利要求10所述的處理方法,其特征在于所述時域濾波為至少相鄰兩個視頻幀的對應區(qū)域進行具有加權值的線性插值。
12.一種視頻會議系統(tǒng),包括本地終端裝置;和至少一個遠程終端裝置,所述視頻會議系統(tǒng)其特征在于在視頻會議期間,所述本地終端裝置及所述遠程終端裝置分別進行特征檢測;在所述本地終端裝置及所述遠程終端裝置之間交換與特征檢測有關的信息,并且基于所述本地終端裝置以及所述遠程終端裝置的特征檢測結果,針對所述視頻會議系統(tǒng)的當前會議場景設置會議模式;基于所述當前會議模式,在所述本地終端裝置及所述遠程終端裝置上進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。
13. —種視頻會議系統(tǒng),包括 本地終端裝置; 至少一個遠程終端裝置;和視頻會議控制裝置所述視頻會議系統(tǒng)其特征在于在視頻會議期間,所述本地終端裝置及所述遠程終端裝置分別進行特征檢測; 所述本地終端裝置及所述遠程終端裝置將與特征檢測有關的信息發(fā)送到所述視頻會議控制裝置,所述視頻會議控制裝置基于所述本地終端裝置以及所述遠程終端裝置的特征檢測結果,針對所述視頻會議系統(tǒng)的當前會議場景設置會議模式;所述視頻會議控制裝置向所述本地終端裝置及所述遠程終端裝置發(fā)送關于所設置的會議模式的信息,并且所述本地終端裝置及所述遠程終端裝置基于所述當前會議模式進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。
全文摘要
視頻會議系統(tǒng)的處理方法,其中視頻會議系統(tǒng)包括本地終端裝置以及至少一個遠程終端裝置,該處理方法包括當通過視頻會議系統(tǒng)進行視頻會議時,在視頻會議系統(tǒng)中的本地終端裝置及遠程終端裝置上分別進行特征檢測;基于本地終端裝置以及遠程終端裝置的特征檢測結果,針對視頻會議系統(tǒng)的當前會議場景設置會議模式;基于當前會議模式,在視頻會議系統(tǒng)中的本地終端裝置及遠程終端裝置上進行視頻幀分割,并對分割后的區(qū)域進行前處理以進行視頻編碼。
文檔編號H04N7/14GK102170552SQ20101011644
公開日2011年8月31日 申請日期2010年2月25日 優(yōu)先權日2010年2月25日
發(fā)明者劉麗艷, 王曉萌 申請人:株式會社理光