亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

視線校正方法、裝置、智能會議終端及存儲介質(zhì)與流程

文檔序號:11678616閱讀:225來源:國知局
視線校正方法、裝置、智能會議終端及存儲介質(zhì)與流程

本發(fā)明涉及圖像處理技術(shù)領(lǐng)域,尤其視線校正方法、裝置、智能會議終端及存儲介質(zhì)。



背景技術(shù):

隨著科技的發(fā)展,視頻會議也得到更廣泛的應(yīng)用,調(diào)查顯示,視頻會議過程中如果視頻雙方能夠進(jìn)行眼神交互,則更能給視頻參與者帶來良好的視頻會議體驗(yàn)。一般而言,視頻會議時,只有雙方視頻者盯著攝像頭看時,另一方的視頻者才覺得畫面中的對方與自己存在眼神交互。然而,在視頻會議場景中,如果雙方視頻者均往視頻畫面看,則視頻畫面中顯示出的對方實(shí)則看向別處,此時雙方無法進(jìn)行眼神交流,影響了用戶視頻會議的視覺體驗(yàn)。

目前,技術(shù)人員提出了一些視線校正方案來保證視頻會議中視頻雙方的眼神交流,常見的視線校正方案有:對視頻設(shè)備中顯示設(shè)備的改進(jìn),如采用半透明鏡子或半透明顯示屏實(shí)現(xiàn)視線校正,或者采用特殊的攝像頭(如rgb-d攝像頭)結(jié)合相應(yīng)的算法實(shí)現(xiàn)視線校正,上述方案盡管具有較好的視線校正性能,但卻需要依賴特殊硬件或特殊攝像頭,其均具有較高的成本消耗且可應(yīng)用的范圍也存在限制。此外,技術(shù)人員也提出了一些采用普通單目攝像頭結(jié)合相應(yīng)算法進(jìn)行視線校正的方案,但該種方案大多數(shù)無法保證在實(shí)時性的前提下合成高質(zhì)量的圖像,且該種方案主要依賴普通的單目攝像頭進(jìn)行視線校正,相對上述方案,該方案的視線校正精確性不佳。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供了視線校正方法、裝置、智能會議終端及存儲介質(zhì),能夠?qū)σ曨l會議中的視頻者進(jìn)行高精度的視線校正,解決了視線校正成本消耗過高,適用范圍過窄的問題。

一方面,本發(fā)明實(shí)施例提供了一種視線校正方法,包括:

獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀;

檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息;

根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

另一方面,本發(fā)明實(shí)施例提供了一種視線校正裝置,包括:

深度信息確定模塊,用于獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息;

圖像拼接合成模塊,用于將所述兩張當(dāng)前畫面幀合并形成一幅當(dāng)前實(shí)景畫面幀;

關(guān)鍵點(diǎn)信息確定模塊,用于檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息;

人物視線校正模塊,用于根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

又一方面,本發(fā)明實(shí)施例提供了一種智能會議終端,包括:

光軸平行的兩個攝像頭;

一個或多個處理器;

存儲裝置,用于存儲一個或多個程序;

所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實(shí)現(xiàn)本發(fā)明實(shí)施例提供的視線校正方法。

再一方面,本發(fā)明實(shí)施例提供了一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時實(shí)現(xiàn)本發(fā)明實(shí)施例提供的視線校正方法。

在上述視線校正方法、裝置、智能會議終端及存儲介質(zhì)中,首先獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀;然后檢測當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn)并確定二維關(guān)鍵點(diǎn)的坐標(biāo)信息;最終根據(jù)二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及坐標(biāo)信息在三維空間中校正人臉圖像獲得二維的人臉正視圖像。上述視線校正方法、裝置、智能會議終端及存儲介質(zhì),與現(xiàn)有的視線校正方案相比,本發(fā)明的方案無需依賴特殊硬件或特殊攝像頭,僅需兩個普通的攝像頭就能高效地對所捕獲實(shí)景畫面幀中被攝人物的視線進(jìn)行校正處理,其成本消耗低且適用范圍廣,同時通過雙攝像頭還能帶來更廣的捕獲視野,由此更好的增強(qiáng)了智能會議終端的實(shí)際使用體驗(yàn)。

附圖說明

圖1為本發(fā)明實(shí)施例一提供的一種視線校正方法的流程示意圖;

圖2a為本發(fā)明實(shí)施例二提供的一種視線校正方法的流程示意圖;

圖2b~圖2c給出了基于本發(fā)明實(shí)施例二提供的視線校正方法進(jìn)行視線校正的處理流程圖;

圖2d給出了一組存在一個被攝人物的待進(jìn)行視線校正的第一實(shí)景畫面幀;

圖2e給出了對上述一組第一實(shí)景畫面幀進(jìn)行視線校正處理后的校正效果圖;

圖2f給出了一組存在多個被攝人物的待進(jìn)行視線校正的第二實(shí)景畫面幀;

圖2g給出了對上述一組第二實(shí)景畫面幀進(jìn)行視線校正處理后的校正效果圖;

圖3為本發(fā)明實(shí)施例三提供的一種視線校正裝置的結(jié)構(gòu)框圖;

圖4為本發(fā)明實(shí)施例四提供的一種智能會議終端的硬件結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的一種視線校正方法的流程示意圖,該方法適用于視頻通話時對所捕獲畫面幀中的人物進(jìn)行視線校正的情況,該方法可以由視線校正裝置執(zhí)行,其中該裝置可由軟件和/或硬件實(shí)現(xiàn),并一般集成在具有視頻通話功能的智能終端上。

在本實(shí)施例中,所述智能終端具體可以是手機(jī)、平板電腦、筆記本等智能移動終端,也可以是臺式計(jì)算機(jī)、智能會議終端等固定式的具有視頻通話功能的電子設(shè)備。本實(shí)施例優(yōu)選的設(shè)定其應(yīng)用場景為通過固定不動的智能終端進(jìn)行視頻通話,且優(yōu)選地認(rèn)為進(jìn)行視頻通話時視頻者雙方的實(shí)現(xiàn)均看向視頻畫面,此時基于本發(fā)明提供的視線校正方法,可以讓視頻者雙方自然地對視實(shí)現(xiàn)視頻通話時的視線交流。

如圖1所示,本發(fā)明實(shí)施例一提供的一種視線校正方法,包括如下操作:

s101、獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定該兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀。

在本實(shí)施例中,在基于智能終端進(jìn)行視頻通話時,主要通過智能終端的攝像頭捕獲視頻者當(dāng)前所處場景的畫面信息,本實(shí)施例中的智能終端具有兩個光軸平行的攝像頭,即所述智能終端具有雙攝像頭。在視頻通話過程中,雙攝像頭可同步捕獲當(dāng)前所在場景的當(dāng)前畫面幀。

可以理解的是,由于雙攝像頭在智能終端上的安裝位置不同,同步捕獲的當(dāng)前所在場景中的當(dāng)前畫面幀也不完全重合,但所述兩張當(dāng)前畫面幀中仍存在同時被捕獲的被攝點(diǎn),本實(shí)施例將同時存在于所述兩張當(dāng)前畫面幀中的被攝點(diǎn)稱為重合被攝點(diǎn)。

在本實(shí)施例中,可以根據(jù)設(shè)定的畫面幀立體匹配算法確定兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的視差值,之后,根據(jù)攝像頭具有的焦距、各重合被攝點(diǎn)到所在當(dāng)前畫面幀中的視差值以及雙攝像頭光心連線的距離,可以確定各重合被攝點(diǎn)的深度信息。其中,所述深度信息具體可理解為重合被攝點(diǎn)到智能終端的深度值。此外,本實(shí)施例還可以對所捕獲的兩張畫面幀進(jìn)行合并拼接處理,由此將兩張當(dāng)前畫面幀合并形成一幅當(dāng)前實(shí)景畫面幀。

s102、檢測當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定二維關(guān)鍵點(diǎn)的坐標(biāo)信息。

本步驟可以根據(jù)關(guān)鍵點(diǎn)檢測算法檢測當(dāng)前實(shí)景畫面幀中的是否存在人臉圖像并可確定構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn)。具體地,可以根據(jù)人臉具有的特征標(biāo)識在所述當(dāng)前實(shí)景畫面幀中檢測構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),同時可以確定各二維關(guān)鍵點(diǎn)在當(dāng)前實(shí)景畫面幀中的具體坐標(biāo)信息。一般地,可將人臉中的雙眼、鼻子以及兩嘴角作為人臉的最基本特征標(biāo)識,由此可以在當(dāng)前畫面幀中檢測出構(gòu)成人臉圖像的五個二維關(guān)鍵點(diǎn)。示例性的,所述二維關(guān)鍵點(diǎn)的個數(shù)不限于五個,還可以是8個、10個甚至63個,可以理解的是,所檢測的二維關(guān)鍵點(diǎn)個數(shù)越多,其在當(dāng)前實(shí)景畫面幀中確定的人臉圖像的所在區(qū)域就越準(zhǔn)確。本實(shí)施例為保證人臉圖像所在區(qū)域的準(zhǔn)確性,優(yōu)選的進(jìn)行63個二維關(guān)鍵點(diǎn)的檢測,由此可在所述當(dāng)前實(shí)景畫面幀中確定出63個二維關(guān)鍵點(diǎn)的坐標(biāo)信息。

s103、根據(jù)二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正人臉圖像獲得二維的人臉正視圖像。

需要說明的是,本實(shí)施例認(rèn)為智能終端上的雙攝像頭均可清晰的捕獲當(dāng)前所處場景中的視頻者信息,即,可認(rèn)為構(gòu)成視頻者圖像(可以是人臉圖像)的被攝點(diǎn)屬于所述重合被攝點(diǎn),因此,可從所獲取的各重合被攝點(diǎn)的深度信息中獲取構(gòu)成人臉圖像的各二維關(guān)鍵點(diǎn)的深度信息。

本步驟可以根據(jù)所確定的各二維關(guān)鍵點(diǎn)的深度信息以及坐標(biāo)信息,對人臉圖像的視線進(jìn)行校正。需要說明的是,對人臉圖像的視線校正具體可相當(dāng)于對人臉圖像的姿態(tài)進(jìn)行校正,示例性的,當(dāng)將人臉圖像由仰視、俯視以及側(cè)視等姿態(tài)校正為正視時,就相應(yīng)的實(shí)現(xiàn)了人物視線的校正。

一般地,可以基于所確定二維關(guān)鍵點(diǎn)的坐標(biāo)信息對當(dāng)前的人臉圖像進(jìn)行實(shí)際三角剖分,同樣可以根據(jù)預(yù)設(shè)的正視姿態(tài)下標(biāo)準(zhǔn)人臉圖像的關(guān)鍵點(diǎn)坐標(biāo)信息進(jìn)行標(biāo)準(zhǔn)三角剖分,之后可以根據(jù)各二維關(guān)鍵點(diǎn)與標(biāo)準(zhǔn)人臉圖像中各關(guān)鍵點(diǎn)的對應(yīng)關(guān)系,建立各實(shí)際三角剖分與各標(biāo)準(zhǔn)三角剖分之間的紋理映射,最終根據(jù)其紋理映射將當(dāng)前的人臉圖像校正為正視姿態(tài)下的標(biāo)準(zhǔn)人臉圖像。

上述操作可以實(shí)現(xiàn)人臉圖像的姿態(tài)校正,但其校正效果的精準(zhǔn)度較低,本步驟可通過各二維關(guān)鍵點(diǎn)的深度信息及坐標(biāo)信息在三維空間中形成三維的實(shí)際人臉圖像模型,之后可以根據(jù)幾何變換矩陣將三維的實(shí)際人臉圖像模型校正為正臉姿態(tài)的人臉圖像模型,最終對正臉姿態(tài)的人臉圖像模型進(jìn)行投影映射形成二維的正臉姿態(tài)的人臉圖像模型,由此可將該正臉姿態(tài)的人臉圖像模型作為本實(shí)施例校正后的人臉正視圖像。

本發(fā)明實(shí)施例一提供的一種視線校正方法,與現(xiàn)有的視線校正方案相比,該視線校正方法無需依賴特殊硬件或特殊攝像頭,僅需兩個普通的攝像頭就能高效地對所捕獲實(shí)景畫面幀中被攝人物的視線進(jìn)行校正處理,其成本消耗低且適用范圍廣,同時通過雙攝像頭還能帶來更廣的捕獲視野,由此更好的增強(qiáng)了智能會議終端的實(shí)際使用體驗(yàn)。

實(shí)施例二

圖2a為本發(fā)明實(shí)施例二提供的一種視線校正方法的流程示意圖。本發(fā)明實(shí)施例二以上述實(shí)施例為基礎(chǔ)進(jìn)行優(yōu)化,在本實(shí)施例中,可以將獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀,進(jìn)一步具體優(yōu)化為:獲取雙攝像頭在當(dāng)前視頻場景下同步捕獲的兩張當(dāng)前畫面幀;對所述兩張當(dāng)前畫面幀進(jìn)行立體匹配,獲得所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的視差值;根據(jù)各重合被攝點(diǎn)的視差值及深度計(jì)算公式,確定各重合被攝點(diǎn)的深度信息;根據(jù)設(shè)定的圖像合并策略,將所述兩張當(dāng)前畫面幀合并成一幅無縫高分辨率的當(dāng)前實(shí)景畫面幀。

進(jìn)一步地,該視線校正方法所述確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息之后,還優(yōu)化包括:基于所述各重合被攝點(diǎn)的深度信息,形成所述各重合被攝點(diǎn)對應(yīng)的深度圖;基于設(shè)定的圖像平滑算法對所述深度圖進(jìn)行平滑優(yōu)化處理,獲得與所述各重合被攝點(diǎn)對應(yīng)的優(yōu)化后的深度信息。

在上述實(shí)施例的基礎(chǔ)上,該方法在根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像之后,還優(yōu)化包括:將所述當(dāng)前實(shí)景畫面幀中的人臉圖像替換為所述人臉正視圖像,獲得校正實(shí)景畫面幀;對所述校正實(shí)景畫面幀進(jìn)行邊緣融合處理,并顯示處理后的校正實(shí)景圖像幀。

此外,本實(shí)施例還進(jìn)一步將根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像,具體優(yōu)化為:查找各重合被攝點(diǎn)的深度信息,確定所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息;根據(jù)所述深度信息及所述坐標(biāo)信息,對預(yù)設(shè)的三維人臉參數(shù)模型進(jìn)行人臉圖像擬合,獲得所述當(dāng)前實(shí)景畫面幀中人臉圖像的實(shí)際三維人臉模型;根據(jù)確定的幾何變換矩陣,將所述實(shí)際三維人臉模型由當(dāng)前姿態(tài)變換投影成二維的人臉正視圖像。

如圖2a所示,本發(fā)明實(shí)施例二提供的一種視線校正方法,具體包括如下操作:

在本實(shí)施例中,s201~s204具體描述了重合被攝點(diǎn)深度信息的獲取過程。

s201、獲取雙攝像頭在當(dāng)前視頻場景下同步捕獲的兩張當(dāng)前畫面幀。

示例性的,在視頻通話時,可通過設(shè)置于智能終端上的光軸平行的雙攝像頭在當(dāng)前視頻場景下同步進(jìn)行畫面捕獲,相當(dāng)于在兩個不同視角下獲得同一場景的兩張當(dāng)前畫面幀。

s202、對兩張當(dāng)前畫面幀進(jìn)行立體匹配,獲得兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的視差值。

在本實(shí)施例中,所述對兩張當(dāng)前畫面幀的立體匹配,具體可理解為從不同視角所捕獲的兩張或多張圖像中找點(diǎn)匹配的對應(yīng)點(diǎn),其中,所述對應(yīng)點(diǎn)可理解為本實(shí)施例中的重合被攝點(diǎn),本實(shí)施例對兩張當(dāng)前畫面幀進(jìn)行立體匹配后,可以確定各重合被攝點(diǎn)的視差值。

具體地,本實(shí)施例可以通過基于區(qū)域(窗口)的雙目匹配算法實(shí)現(xiàn)對應(yīng)點(diǎn)的匹配,示例性的,將兩張當(dāng)前畫面幀劃分為特定個數(shù)的區(qū)域,然后在每個區(qū)域中確定是否存在相匹配的對應(yīng)點(diǎn);本實(shí)施例還可以通過基于特征的雙目匹配算法實(shí)現(xiàn)對應(yīng)點(diǎn)的匹配,示例性的,在兩張當(dāng)前畫面幀中劃分出包含真實(shí)世界中物體具有明顯特征的各個區(qū)間,然后在各個區(qū)間中確定是否存在相匹配的對應(yīng)點(diǎn)。

需要說明的是,實(shí)現(xiàn)上述立體匹配的方法有多種,每種方法都存在自身的優(yōu)缺點(diǎn),如基于區(qū)域(窗口)的雙目匹配算法,能夠很容易地恢復(fù)出高紋理區(qū)域的視差,但在低紋理區(qū)域會造成大量的誤匹配,從而導(dǎo)致邊界模糊,同時對遮擋的區(qū)域也很難進(jìn)行處理;又如,基于特征的雙目匹配方法提取的特征點(diǎn)由于對噪聲不是太敏感,所以能得到一個比較精準(zhǔn)的匹配,但由于圖像中的特征點(diǎn)很稀疏,此種方法只能獲得一個稀疏的視差圖。本實(shí)施例并未對待使用的雙目匹配算法作進(jìn)行具體限定,上述雙目匹配算法均可使用,且可根據(jù)具體應(yīng)用場景進(jìn)行具體選擇選擇。

s203、根據(jù)各重合被攝點(diǎn)的視差值及深度計(jì)算公式,確定各重合被攝點(diǎn)的深度信息。

在本實(shí)施例中,深度計(jì)算公式表示為:其中,z表示重合被攝點(diǎn)到智能終端的深度值,b表示雙攝像頭光心的連線距離,f表示雙攝像頭具有的焦距,d表示重合被攝點(diǎn)的視差值?;谏鲜龉揭约按_定的視差值,可以確定各重合被攝點(diǎn)的深度信息。

s204、基于所述各重合被攝點(diǎn)的深度信息,形成所述各重合被攝點(diǎn)對應(yīng)的深度圖。

本步驟基于上述確定的各重合被攝點(diǎn)的深度信息以及各重合被攝點(diǎn)在當(dāng)前實(shí)景畫面幀中的像素坐標(biāo)信息,可以形成各重合被攝點(diǎn)對應(yīng)的深度圖。

s205、基于設(shè)定的圖像平滑算法對所述深度圖進(jìn)行平滑優(yōu)化處理,獲得與所述各重合被攝點(diǎn)對應(yīng)的優(yōu)化后的深度信息。

在本實(shí)施例中,由于上述立體匹配算法的局限性,其確定出的深度信息具有的可靠性較低,而根據(jù)上述深度信息形成的深度圖中存在較多的空洞,由此需要對深度圖進(jìn)行優(yōu)化處理,以填補(bǔ)深度圖中的空洞,本實(shí)施例可以采用圖像平滑算法進(jìn)行平滑優(yōu)化處理,示例性的,所述圖像平滑算法可以是拉普拉斯平滑算法以及二維自適應(yīng)濾波平滑算法等。此外,所獲得各重合被攝點(diǎn)對應(yīng)的深度信息可以用于后續(xù)s208的操作。

需要說明的是,為加快本實(shí)施例中對深度信息的優(yōu)化處理速度,可以僅考慮對當(dāng)前實(shí)景畫面幀中包含人臉圖像的深度信息進(jìn)行優(yōu)化處理,但本步驟無需確定人臉圖像的具體區(qū)域,由于人臉圖像一般處于當(dāng)前實(shí)景畫面幀中的前景區(qū)域,因此本實(shí)施例可以考慮僅對當(dāng)前實(shí)景畫面幀中的前景區(qū)域進(jìn)行處理。具體地,本實(shí)施例可以通過確定周圍平均深度值的方法判斷所述當(dāng)前實(shí)景畫面幀中的前景區(qū)域。

s206、根據(jù)設(shè)定的圖像合并策略,將所述兩張當(dāng)前畫面幀合并成一幅無縫高分辨率的當(dāng)前實(shí)景畫面幀。

本步驟具體實(shí)現(xiàn)兩張當(dāng)前畫面幀的拼接處理,基于本步驟可以將兩張不同視角下拍攝的有重疊部分的圖像拼接成一幅視野范圍更廣的無縫高分辨率圖像。示例性地,本步驟中的圖像合并策略可以是基于區(qū)域相關(guān)的拼接算法,也可以是基于特征相關(guān)的拼接算法。

具體的,所述基于區(qū)域相關(guān)的拼接算法的一種實(shí)現(xiàn)方式可表述為:首先將兩張當(dāng)前畫面幀中的一張圖像作為待配準(zhǔn)圖像,另一張作為參考圖像,然后對待配準(zhǔn)圖像中一塊區(qū)域與參考圖像中的相同尺寸的區(qū)域使用最小二乘法或者其它數(shù)學(xué)方法計(jì)算其灰度值的差異,進(jìn)行差異比較后來判斷兩張待拼接圖像中重疊區(qū)域的相似程度,由此得到兩張當(dāng)前畫面幀中重疊區(qū)域的范圍和位置,從而實(shí)現(xiàn)兩張當(dāng)前畫面幀的圖像拼接。另一種實(shí)現(xiàn)方式可以通過fft變換將兩張當(dāng)前畫面幀的圖像由時域變換到頻域,然后建立兩張當(dāng)前畫面幀之間的映射關(guān)系,當(dāng)以兩張當(dāng)前畫面幀中各塊區(qū)域像素點(diǎn)灰度值的差別作為判別標(biāo)準(zhǔn)時,計(jì)算對應(yīng)兩塊區(qū)域的像素點(diǎn)灰度值的相關(guān)系數(shù),相關(guān)系數(shù)越大,則對應(yīng)兩塊區(qū)域中圖像的匹配程度越高,由此將圖像匹配程度高的區(qū)域作為重疊區(qū)域,也可實(shí)現(xiàn)兩張當(dāng)前畫面幀的拼接。

此外,基于特征相關(guān)的拼接算法的實(shí)現(xiàn)方式可表述為:首先基于特征進(jìn)行重疊圖像的匹配,該匹配過程不是直接利用每個當(dāng)前畫面幀中圖像的像素值,而是通過像素導(dǎo)出每個當(dāng)前畫面幀中圖像的特征,然后以圖像特征為標(biāo)準(zhǔn),通過搜索匹配確定圖像重疊部分的對應(yīng)特征區(qū)域,由此實(shí)現(xiàn)兩張當(dāng)前畫面幀的拼接,其中,該類拼接算法有比較高的健壯性和魯棒性。

需要說明的是,基于特征進(jìn)行重疊圖像的匹配具有兩個過程:特征抽取和特征配準(zhǔn)。首先從兩張當(dāng)前畫面幀中提取灰度變化明顯的點(diǎn)、線、區(qū)域等特征形成特征集;然后在兩張當(dāng)前畫面幀對應(yīng)的特征集中利用特征匹配算法盡可能地將存在對應(yīng)關(guān)系的特征對選擇出來。在上述過程中,一系列的圖像分割技術(shù)都被用到特征的抽取和邊界檢測上,如canny算子、拉普拉斯高斯算子、區(qū)域生長。此外,提取出的空間特征包括有閉合的邊界、開邊界、交叉線以及其他特征。同時,可通過交叉相關(guān)、距離變換、動態(tài)編程、結(jié)構(gòu)匹配、鏈碼相關(guān)等算法實(shí)現(xiàn)上述過程中的特征配準(zhǔn)操作。

需要注意的是,本實(shí)施例并未對待使用的圖像拼接算法作進(jìn)行具體限定,上述提出的圖像拼接算法均可使用,本實(shí)施例可根據(jù)具體應(yīng)用場景進(jìn)行具體選擇選擇。

s207、檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息。

示例性的,本實(shí)施例優(yōu)選的對當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的63個二維關(guān)鍵點(diǎn)進(jìn)行檢測,并可獲取各二維關(guān)鍵點(diǎn)在所述當(dāng)前實(shí)景畫面幀中的坐標(biāo)信息。

s208、查找各重合被攝點(diǎn)的深度信息,確定所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息。

需要說明的是,本步驟所采用的深度信息可以是基于s203獲得的初始深度信息,也可以是基于s205優(yōu)化后的深度信息,本實(shí)施例優(yōu)選的采用優(yōu)化后的深度信息進(jìn)行后續(xù)的操作,由此可以更好地提高視線校正的精確性。

本步驟具體通過已確定的各重合被攝點(diǎn)的深度信息,本實(shí)施例可認(rèn)為構(gòu)成人臉圖像的各二維關(guān)鍵點(diǎn)屬于所述重合被攝點(diǎn)集合,由此可查找獲得各二維關(guān)鍵點(diǎn)對應(yīng)的深度信息。

在本實(shí)施例中,可通過下述s209和s210實(shí)現(xiàn)人臉圖像的視線校正。

s209、根據(jù)所述深度信息及所述坐標(biāo)信息,對預(yù)設(shè)的三維人臉參數(shù)模型進(jìn)行人臉圖像擬合,獲得所述當(dāng)前實(shí)景畫面幀中人臉圖像的實(shí)際三維人臉模型。

具體地,根據(jù)已確定的各二維關(guān)鍵點(diǎn)的深度信息和坐標(biāo)信息,可以在給定的三維人臉參數(shù)模型上進(jìn)行立體的人臉圖像的擬合。所述三維人臉參數(shù)模型具體可理解為具有人臉輪廓的三維模型,其可根據(jù)所輸入?yún)?shù)的不同,擬合出具有不同特征信息以及不同姿態(tài)的三維人臉模型。因此,本步驟可根據(jù)所輸入的二維關(guān)鍵點(diǎn)的深度信息和坐標(biāo)信息,擬合確定出對應(yīng)于當(dāng)前實(shí)景畫面幀中人臉圖像的實(shí)際三維人臉模型。

s210、根據(jù)確定的幾何變換矩陣,將所述實(shí)際三維人臉模型由當(dāng)前姿態(tài)變換投影成二維的人臉正視圖像。

在本實(shí)施例中,擬合出的世紀(jì)三維人臉模型其具有的姿態(tài)可看作當(dāng)前實(shí)景畫面幀中人臉圖像所具有的姿態(tài)(如仰視或者俯視等),本步驟可通過對該實(shí)際三維人臉模型的幾何變換獲得人臉圖像的正視姿態(tài)。具體地,本步驟可以首先將實(shí)際三維人臉模型與第一幾何變換矩陣相乘,在三維空間中確定一個三維人臉正視模型,之后根據(jù)第二幾何變換矩陣與三維人臉正視模型相乘,將三維人臉正視模型的紋理投影到二維平面上,獲得二維的人臉正視圖像。此外,本步驟也可以首先將第一幾何變換矩陣和第二幾何變換矩陣相乘,獲得第三幾何變換矩陣,最終將實(shí)際三維人臉模型與第三幾何變化矩陣相乘,直接獲得二維的人臉正視圖像。

需要說明的是,本實(shí)施例中的第一幾何變換矩陣由當(dāng)前實(shí)景畫面幀中所包含人物相對于智能終端屏幕的位置唯一確定,而所包含人物相對于智能終端屏幕的位置可通過上述深度信息獲得,由此可根據(jù)構(gòu)成人臉圖像的深度信息唯一確定第一變換矩陣的具體值。本實(shí)施例中的第二幾何變換矩陣具體用于三維到二維的降維投影,可根據(jù)三維空間下正姿態(tài)的三維人臉模型確定。

s211、將所述當(dāng)前實(shí)景畫面幀中的人臉圖像替換為所述人臉正視圖像,獲得校正實(shí)景畫面幀。

基于上述步驟獲得所述人臉正視圖像后,可基于本步驟進(jìn)行人臉圖像的替換獲得校正實(shí)景畫面幀,可以知道的是,所述校正實(shí)景畫面幀中人臉圖像所處的姿態(tài)為正視姿態(tài),由此實(shí)現(xiàn)了視頻通話時所捕獲畫面幀中人物視線的校正。

s212、對所述校正實(shí)景畫面幀進(jìn)行邊緣融合處理,并顯示處理后的校正實(shí)景圖像幀。

需要說明的是,基于上述步驟形成的校正實(shí)景畫面幀僅獲得初步的校正效果,盡管視線得以校正,但替換合成的臉部邊緣與原實(shí)景畫面幀往往存在較大的不一致性,導(dǎo)致存在較明顯的圖像處理痕跡,因此,可基于本步驟對上述步驟的處理痕跡通過邊緣融合的方法進(jìn)行修復(fù)。

實(shí)現(xiàn)本步驟邊緣融合的做法有多種,示例性的,可以將所形成校正實(shí)景圖像幀中的人臉圖像的輪廓外區(qū)域作為待切割區(qū)域,由此利用圖像分割技術(shù)獲得輪廓外區(qū)域的最佳切割邊緣,之后與校正實(shí)景圖像幀進(jìn)行混合,最終獲得邊緣處理后的校正實(shí)景圖像幀,本實(shí)施例最終可以將處理后的校正實(shí)景圖像幀顯示到本端以及對端的屏幕上。

在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例還進(jìn)一步通過圖示描述了視線校正的實(shí)現(xiàn)過程,具體地,圖2b~圖2c給出了基于本發(fā)明實(shí)施例二提供的視線校正方法進(jìn)行視線校正的處理流程圖。如圖2b所示,在智能終端的兩側(cè)分別設(shè)置了光軸平行的攝像頭20,攝像頭20可通過步驟s1同步捕獲兩張當(dāng)前畫面幀21;然后可通過步驟s2對兩張當(dāng)前畫面幀21進(jìn)行立體匹配,獲得重合被攝點(diǎn)的深度信息22,并可通過步驟s3獲得優(yōu)化后的深度信息23,同時還可通過步驟s4對兩張當(dāng)前畫面幀21進(jìn)行拼接獲得當(dāng)前實(shí)景畫面幀24;之后,可根據(jù)步驟s5通過已確定的深度信息23以及檢測出的二維關(guān)鍵點(diǎn)對當(dāng)前實(shí)景畫面幀24中的人臉圖像進(jìn)行視線校正操作,獲得視線校正后的校正實(shí)景畫面幀25;可以發(fā)現(xiàn),校正實(shí)景畫面幀25中人臉圖像的額頭部分26存在處理痕跡,由此可通過步驟s6對校正實(shí)景畫面幀25進(jìn)行邊緣融合處理,獲得處理后的校正實(shí)景畫面幀27;還可以發(fā)現(xiàn),處理后的校正實(shí)景畫面幀27中人臉圖像的額頭部分28平滑顯示,較好的修復(fù)了處理痕跡;最終通過步驟s7在對端的智能終端和/或本端的智能終端上實(shí)時顯示校正后的實(shí)景畫面幀29。

進(jìn)一步地,本實(shí)施例還給出了基于所提供視線校正方法進(jìn)行視線校正的效果圖,圖2d給出了一組存在一個被攝人物的待進(jìn)行視線校正的第一實(shí)景畫面幀;圖2e給出了對一組第一實(shí)景畫面幀視角校正處理后的校正效果圖。通過圖2d和圖2e的比對,可以看出,視線校正處理后的被攝人物顯示為正視姿態(tài),對端視頻者可與該姿態(tài)下的被攝人物進(jìn)行視線交流。

此外,圖2f給出了一組存在多個被攝人物的待進(jìn)行視線校正的第二實(shí)景畫面幀;圖2g給出了對上述一組第二實(shí)景畫面幀進(jìn)行視線校正處理后的校正效果圖。通過圖2f和圖2g的比對,可以看出,視線校正處理后的兩個被攝人物均顯示為正視姿態(tài),對端視頻者可與該姿態(tài)下的任一個被攝人物進(jìn)行視線交流。

本發(fā)明實(shí)施例二提供的一種視線校正方法,具體描述了深度信息的確定過程,同時具體描述了畫面幀中人物視線的校正過程,此外還增加了深度信息的優(yōu)化操作以及人物視線校正后所形成校正畫面幀的處理過程。利用該方法,能夠通過雙攝像頭捕獲的雙畫面幀確定各被攝點(diǎn)的深度信息,由此根據(jù)深度信息及檢測的人臉關(guān)鍵點(diǎn)信息實(shí)現(xiàn)被攝人物的視線校正,與現(xiàn)有方法相比,該方法無需依賴特殊硬件或特殊攝像頭,僅需兩個普通的攝像頭就能高效地對所捕獲實(shí)景畫面幀中被攝人物的視線進(jìn)行校正處理,其成本消耗低且適用范圍廣,同時通過雙攝像頭還能帶來更廣的捕獲視野,由此更好的增強(qiáng)了智能會議終端的實(shí)際使用體驗(yàn)。

實(shí)施例三

圖3為本發(fā)明實(shí)施例三提供的一種視線校正裝置的結(jié)構(gòu)框圖,該裝置適用于視頻通話時對所捕獲畫面幀中的人物進(jìn)行視線校正的情況,該裝置可由軟件和/或硬件實(shí)現(xiàn),并一般集成在具有視頻通話功能的智能終端上。如圖3所示,該裝置包括:深度信息確定模塊31、圖像拼接合成模塊32、關(guān)鍵點(diǎn)信息確定模塊33以及人物視線校正模塊34。

其中,深度信息確定模塊31,用于獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息;

圖像拼接合成模塊32,用于將所述兩張當(dāng)前畫面幀合并形成一幅當(dāng)前實(shí)景畫面幀;

關(guān)鍵點(diǎn)信息確定模塊33,用于檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息;

人物視線校正模塊34,用于根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

在本實(shí)施中,該視線校正裝置首先深度信息確定模塊31獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息;然后通過圖像拼接合成模塊32將所述兩張當(dāng)前畫面幀合并形成一幅當(dāng)前實(shí)景畫面幀;然后通過關(guān)鍵點(diǎn)信息確定模塊33檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息,最終通過人物視線校正模塊34根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

本發(fā)明實(shí)施例三提供的一種視線校正裝置,與現(xiàn)有的視線校正裝置相比,該裝置無需依賴特殊硬件或特殊攝像頭,僅需兩個普通的攝像頭就能高效地對所捕獲實(shí)景畫面幀中被攝人物的視線進(jìn)行校正處理,其成本消耗低且適用范圍廣,同時通過雙攝像頭還能帶來更廣的捕獲視野,由此更好的增強(qiáng)了智能會議終端的實(shí)際使用體驗(yàn)。

進(jìn)一步地,深度信息確定模塊31,具體用于:獲取雙攝像頭在當(dāng)前視頻場景下同步捕獲的兩張當(dāng)前畫面幀;對所述兩張當(dāng)前畫面幀進(jìn)行立體匹配,獲得所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的視差值;根據(jù)各重合被攝點(diǎn)的視差值及深度計(jì)算公式,確定各重合被攝點(diǎn)的深度信息。

相應(yīng)的,圖像拼接合成模塊32,具體用于:根據(jù)設(shè)定的圖像合并策略,將所述兩張當(dāng)前畫面幀合并成一幅無縫高分辨率的當(dāng)前實(shí)景畫面幀。

進(jìn)一步地,該裝置還優(yōu)化增加了:

深度圖確定模塊35,用于在所述確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息之后,基于所述各重合被攝點(diǎn)的深度信息,形成所述各重合被攝點(diǎn)對應(yīng)的深度圖;

深度信息優(yōu)化模塊36,用于基于設(shè)定的圖像平滑算法對所述深度圖進(jìn)行平滑優(yōu)化處理,獲得與所述各重合被攝點(diǎn)對應(yīng)的優(yōu)化后的深度信息。

進(jìn)一步地,該裝置還優(yōu)化包括:

人臉圖像替換模塊37,用于在根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像之后,將所述當(dāng)前實(shí)景畫面幀中的人臉圖像替換為所述人臉正視圖像,獲得校正實(shí)景畫面幀;

校正圖像處理模塊38,用于對所述校正實(shí)景畫面幀進(jìn)行邊緣融合處理,并顯示處理后的校正實(shí)景畫面幀。

在上述優(yōu)化的基礎(chǔ)上,人物視線校正模塊34,具體用于:

查找各重合被攝點(diǎn)的深度信息,確定所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息;根據(jù)所述深度信息及所述坐標(biāo)信息,對預(yù)設(shè)的三維人臉參數(shù)模型進(jìn)行人臉圖像擬合,獲得所述當(dāng)前實(shí)景畫面幀中人臉圖像的實(shí)際三維人臉模型;根據(jù)確定的幾何變換矩陣,將所述實(shí)際三維人臉模型由當(dāng)前姿態(tài)變換投影成二維的人臉正視圖像。

實(shí)施例四

圖4為本發(fā)明實(shí)施例四提供的一種智能會議終端的硬件結(jié)構(gòu)示意圖,如圖4所示,本發(fā)明實(shí)施例四提供的智能會議終端,包括:光軸平行的兩個攝像頭41,處理器42和存儲裝置43。該智能會議終端中的處理器可以是一個或多個,圖4中以一個處理器42為例,所述智能會議終端中的兩個攝像頭41可以通過總線或其他方式分別與處理器42和存儲裝置43連接,且處理器42和存儲裝置43也通過總線或其他方式連接,圖4中以通過總線連接為例。

可以理解的是,智能會議終端屬于上述智能終端中的一種,可以進(jìn)行遠(yuǎn)程的視頻會議通話。在本實(shí)施例中,智能會議終端中的處理器42可以控制兩個攝像頭41進(jìn)行圖像捕獲,處理器42還可以根據(jù)兩個攝像頭所捕獲的畫面幀進(jìn)行所需的操作,此外,兩個攝像頭41所捕獲的畫面幀還可以存儲至存儲裝置43,以實(shí)現(xiàn)圖像數(shù)據(jù)的存儲。

該智能會議終端中的存儲裝置43作為一種計(jì)算機(jī)可讀存儲介質(zhì),可用于存儲一個或多個程序,所述程序可以是軟件程序、計(jì)算機(jī)可執(zhí)行程序以及模塊,如本發(fā)明實(shí)施例中視線校正方法對應(yīng)的程序指令/模塊(例如,附圖3所示的視線校正裝置中的模塊,包括:深度信息確定模塊31、圖像拼接合成模塊32、關(guān)鍵點(diǎn)信息確定模塊33以及人物視線校正模塊34)。處理器42通過運(yùn)行存儲在存儲裝置43中的軟件程序、指令以及模塊,從而執(zhí)行智能會議終端的各種功能應(yīng)用以及數(shù)據(jù)處理,即實(shí)現(xiàn)上述方法實(shí)施例中視線校正方法。

存儲裝置43可包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序;存儲數(shù)據(jù)區(qū)可存儲根據(jù)設(shè)備的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲裝置43可以包括高速隨機(jī)存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他非易失性固態(tài)存儲器件。在一些實(shí)例中,存儲裝置43可進(jìn)一步包括相對于處理器42遠(yuǎn)程設(shè)置的存儲器,這些遠(yuǎn)程存儲器可以通過網(wǎng)絡(luò)連接至設(shè)備。上述網(wǎng)絡(luò)的實(shí)例包括但不限于互聯(lián)網(wǎng)、企業(yè)內(nèi)部網(wǎng)、局域網(wǎng)、移動通信網(wǎng)及其組合。

并且,當(dāng)上述智能會議終端所包括一個或者多個程序被所述一個或者多個處理器42執(zhí)行時,程序進(jìn)行如下操作:

獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀;檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息;根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

此外,本發(fā)明實(shí)施例還提供一種計(jì)算機(jī)可讀存儲介質(zhì),其上存儲有計(jì)算機(jī)程序,該程序被控制裝置執(zhí)行時實(shí)現(xiàn)本發(fā)明實(shí)施例一或?qū)嵤├峁┑囊暰€校正方法,該方法包括:獲取雙攝像頭同步捕獲的兩張當(dāng)前畫面幀,確定所述兩張當(dāng)前畫面幀中各重合被攝點(diǎn)的深度信息,并合并形成一幅當(dāng)前實(shí)景畫面幀;檢測所述當(dāng)前實(shí)景畫面幀中構(gòu)成人臉圖像的二維關(guān)鍵點(diǎn),并確定所述二維關(guān)鍵點(diǎn)的坐標(biāo)信息;根據(jù)所述二維關(guān)鍵點(diǎn)對應(yīng)的深度信息及所述坐標(biāo)信息,在三維空間中校正所述人臉圖像獲得二維的人臉正視圖像。

通過以上關(guān)于實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,本發(fā)明可借助軟件及必需的通用硬件來實(shí)現(xiàn),當(dāng)然也可以通過硬件實(shí)現(xiàn),但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品可以存儲在計(jì)算機(jī)可讀存儲介質(zhì)中,如計(jì)算機(jī)的軟盤、只讀存儲器(read-onlymemory,rom)、隨機(jī)存取存儲器(randomaccessmemory,ram)、閃存(flash)、硬盤或光盤等,包括若干指令用以使得一臺計(jì)算機(jī)設(shè)備(可以是個人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述的方法。

注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實(shí)施例,對本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1