專利名稱:影像檢索系統(tǒng)及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一 3D電腦視覺影像的應(yīng)用,特別有關(guān)于一種利用移動裝置擷取影像及進行影像檢索的技術(shù)領(lǐng)域。
背景技術(shù):
目前市面上的移動裝置,例如小筆電、平板電腦、PDA、手持式移動裝置(MID)或智能型手機等,均具有視頻擷取技術(shù),讓使用者可以隨時拍攝照片或進行錄影。另一方面,由于視頻影像的應(yīng)用廣泛,目前市面上也出現(xiàn)了應(yīng)用視頻影像擷取來擷取特定對象的影像再對該影像進行檢索的相關(guān)技術(shù)和產(chǎn)品,但此類技術(shù)主要是利用移動裝置或照相機,拍攝2D 照片或影像,傳送到后端的服務(wù)器,服務(wù)器再將照片或影像其應(yīng)用的技術(shù)在進行背景去除、 特征擷取等,找出特定目標對象,然后在與數(shù)據(jù)庫中所預(yù)存的大量影像數(shù)據(jù)進行比對,以找出相符的數(shù)據(jù)。由于2D照片/影像在進行背景去除、特征擷取等作業(yè)需要相當大的運算量, 而且相當耗時,也不易正確地找到特定目標對象,并不適合資源較低的移動裝置。隨著多媒體應(yīng)用及相關(guān)顯示技術(shù)的發(fā)展,對于能夠產(chǎn)生更具體及更真實影像(例如立體的或三維的視頻)的顯示技術(shù)的需求亦日漸增長。一般而言,基于觀看者立體視覺的生理因素,例如觀看者雙眼之間的視覺差異(或所謂雙眼視差binocular parallax)、運動視差等,觀看者可將顯示于熒幕上的合成影像感知為立體或三維影像。目前一般的手持式移動裝置或智能型手機多只具有一個鏡頭,因此若要建立具有深度信息的深度影像,則需對同一場景拍攝至少兩張不同視角的影像,然而此動作在操作上對使用者來說相當不方便,且手動拍攝兩張影像經(jīng)常因手震、取景角度、拍攝距離很難精準掌握,因此建立的深度影像通常不易精準。另一方面,目前移動裝置上的影像檢索系統(tǒng)多以遠端服務(wù)器使用整張影像進行數(shù)據(jù)比對及搜尋,進行檢索相當耗時,而且準確率不高,原因在于使用整張影像進行比對時, 需要重新分析整張影像的所有對象及其特征,不僅造成遠端服務(wù)器的負擔,同時也易因為目標對象的不明確而造成系統(tǒng)誤判,準確率降低。且分析比對過程相當耗時,使用者往往需等待相當久的時間才能獲知結(jié)果,相當不具有使用親和性和便利性,致使使用意愿不高。
發(fā)明內(nèi)容
因此本發(fā)明針對上述各種問題,提出一種解決方案,利用具有雙攝影機的移動裝置來獲得深度影像并擷取出目標對象,再傳送到影像數(shù)據(jù)服務(wù)器針對目標對象進行檢索。 由于利用移動裝置所擷取的深度影像,可利用深度影像的特征信息快速找出目標對象,且移動裝置也無須再對2D影像進行背景去除、特征擷取等,即使資源較低的移動裝置也能執(zhí)行,移動裝置僅將目標對象傳送到影像數(shù)據(jù)服務(wù)器進行檢索,其傳輸數(shù)據(jù)量低。因此,本發(fā)明可以解決移動裝置應(yīng)用在影像檢索時,必須將整張影像傳送到遠端服務(wù)器、而服務(wù)器必須進行大量運算的問題,降低服務(wù)器的負擔和處理時間,并提高使用的親和性和便利性。有鑒于此,本發(fā)明提供一種影像檢索系統(tǒng),上述影像檢索系統(tǒng)包括一移動裝置,至少包括一影像擷取單元,其具有雙攝影機,該雙攝影機同時但分別對一對象擷取一張輸入影像;以及一處理單元,其耦接于影像擷取單元,用以依據(jù)上述輸入影像獲得一深度影像,并依據(jù)輸入影像及深度影像的一特征信息,以決定一目標對象;以及一影像數(shù)據(jù)服務(wù)器,其耦接于處理單元,接收目標對象,并檢索相應(yīng)于目標對象獲得一檢索結(jié)果數(shù)據(jù),且將檢索結(jié)果數(shù)據(jù)傳送至移動裝置。本發(fā)明更提供一種影像檢索方法,其步驟包括利用一移動裝置的雙攝影機,同時但分別對一對象擷取一張輸入影像;通過上述移動裝置,依據(jù)上述輸入影像獲得一深度影像,并依據(jù)上述輸入影像及深度影像的一特征信息,以決定一目標對象;以及通過一影像數(shù)據(jù)服務(wù)器接收上述目標對象的影像信息,并檢索相應(yīng)于上述目標對象獲得一檢索結(jié)果數(shù)據(jù),且將上述檢索結(jié)果數(shù)據(jù)傳送至上述移動裝置。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,并不構(gòu)成對本發(fā)明的限定。在附圖中圖1顯示依據(jù)本發(fā)明一實施例的移動裝置的影像檢索系統(tǒng)的方塊圖;圖2顯示依據(jù)本發(fā)明一實施例的雙攝影機成像方式的示意圖;圖3顯示根據(jù)本發(fā)明一實施例的特征點描述符的示意圖;圖4顯示根據(jù)本發(fā)明一實施例的尺度不變特征轉(zhuǎn)換方法來計算目標對象的影像特征的流程圖。附圖標號100 影像檢索系統(tǒng);110 移動裝置;111 影像擷取單元;112 處理單元;113 顯示單元;120 影像數(shù)據(jù)服務(wù)器;121 影像處理單元;122 影像內(nèi)容數(shù)據(jù)庫;S410、S420、S430、S440、S450、S460 步驟。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,下面結(jié)合附圖對本發(fā)明實施例做進一步詳細說明。在此,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,但并不作為對本發(fā)明的限定。圖1顯示依據(jù)本發(fā)明實施例的影像檢索系統(tǒng)的方塊圖。如圖1所示,本發(fā)明提供一種移動裝置的影像檢索系統(tǒng)100,上述影像檢索系統(tǒng)包括一移動裝置110及一影像數(shù)據(jù)服務(wù)器120,移動裝置110至少包括一影像擷取單元111以及一處理單元112。在本發(fā)明的一實施例中,移動裝置110可為手持式移動裝置、PDA、智能型手機等,但不限于此。在本發(fā)明的一實施例中,影像擷取單元111為一具有雙攝影機(dual camera)的裝置,其包括一左攝影機及一右攝影機,雙攝影機模擬人類雙眼視覺,用以平行拍攝同一場景,并同步分別擷取左右兩攝影機的個別輸入影像,左攝影機及右攝影機所擷取的個別輸入影像具有視差,藉此使用立體視覺(stereo vision)的技術(shù),可獲得一深度影像(cbpth image)。立體視覺技術(shù)的深度生成技術(shù)包括Block Matching演算法、Dynamic Programming 演算法、Belief Propogation演算法及Graph Cuts演算法等,但不限于此。雙攝影機可采用市售可得的產(chǎn)品,其獲得深度影像的技術(shù)屬于現(xiàn)有,在此不詳細說明。處理單元112耦接于影像擷取單元111,可經(jīng)由現(xiàn)有的立體視覺技術(shù),將接收到兩攝影機的個別影像輸入后, 獲得一深度影像,且依據(jù)上述輸入影像及深度影像的特征信息,以決定一目標對象,詳細的技術(shù)細節(jié)如后所述。使用者亦可采用一感興趣范圍(regions ofinterest)作為目標對象。 深度影像為一具有深度信息的影像,其具有二維坐標(X,Y軸)的位置信息與深度值(Ζ軸) 的信息,因此深度影像可表示為一 3D影像。影像數(shù)據(jù)服務(wù)器120,耦接于處理單元112,接收處理單元112所傳送來的目標對象,并檢索相應(yīng)于目標對象以獲得一檢索結(jié)果數(shù)據(jù),然后將檢索結(jié)果數(shù)據(jù)傳送至移動裝置110。更進一步時,檢索結(jié)果數(shù)據(jù)可能是相應(yīng)目標對象的數(shù)據(jù),也可能是顯示無符合檢索的數(shù)據(jù)。在本發(fā)明的另一實施例中,影像擷取單元111可連續(xù)進行拍攝,在移動裝置110 上,使用者更可透過一組特定按鍵(圖1未顯示),用以控制影像擷取單元111所擷取的兩攝影機的個別輸入影像,并可選擇并確認欲傳送給處理單元112的兩攝影機的個別輸入影像。當處理單元112接收到兩攝影機的個別輸入影像后,即根據(jù)上述兩眼的個別輸入影像獲得一深度影像,并計算上述輸入影像及深度影像的特征信息,用以從上述深度影像中決定一目標對象。在本發(fā)明的另一實施例中,影像擷取單元111更可只單獨使用一攝影機拍攝連續(xù)輸入影像,并于處理單元112中使用一深度影像演算法,藉以產(chǎn)生一深度影像。在本發(fā)明的一實施例中,輸入影像及深度影像的特征信息可以是深度、面積、模板、輪廓或特征拓撲關(guān)系的其中至少一者的信息。而處理單元112在決定目標物時,可依據(jù)深度影像的深度信息,選擇一深度最淺的對象作為目標對象,或是依據(jù)輸入影像及深度影像的特征信息,將其正規(guī)化后,決定其目標對象,或是選擇一深度較淺的所有候選對象,并計算輸入影像中,候選對象經(jīng)深度正規(guī)化后的面積,選擇符合預(yù)先儲存的對象面積范圍的對象來作為目標對象,又或者是,比對輸入影像中是否有符合預(yù)先儲存的一對象形狀/顏色/輪廓的特征,以決定目標對象。雙攝影機成像的一實施例如圖2所示,O1及Α分別為左攝影機及右攝影機的水平位置,雙攝影機成像方式可用下列三角比例關(guān)系求得
T-(χ, - χ ) T^—-=-
Z-/ Z /Γ /Γ乙=-=——
JC, jc d
Ir其中T為兩攝影機的水平間隔距離;Z為兩攝影機的水平線中點至對象P的直線深度距離;f為攝影機的實際對焦深度;Xl及&分別為左及右攝影機觀察對象P所形成的影像在焦距f時的水平位置,d為坐標A及Xr的距離。
6
一般而言,由于攝影機或照相機在取得2D影像時,因鏡頭與目標對象的距離遠近不同,所拍攝到2D影像中對象面積大小或是特征點尺寸大小也將隨之改變,不利于找出目標對象。本發(fā)明更可利用在不同深度下,目標對象的面積與深度變化的關(guān)系,自動計算出特定深度Z中,目標對象應(yīng)包含的面積Alteal,然后從2D影像中所檢測到所有的候選目標中, 選擇和目標對象面積相符的對象,來作為目標對象。深度及面積的關(guān)系式如下列方程序所示
權(quán)利要求
1.一種影像檢索系統(tǒng),其特征在于,所述影像檢索系統(tǒng)包括一移動裝置,至少包括一影像擷取單元,其具有雙攝影機,所述雙攝影機同時但分別對一對象擷取一張輸入影像;以及一處理單元,其耦接于所述影像擷取單元,用以依據(jù)所述輸入影像獲得一深度影像,并依據(jù)所述輸入影像及深度影像的一特征信息,以決定一目標對象;以及一影像數(shù)據(jù)服務(wù)器,其耦接于所述處理單元,接收所述目標對象,并檢索相應(yīng)于所述目標對象獲得一檢索結(jié)果數(shù)據(jù),且將所述檢索結(jié)果數(shù)據(jù)傳送至所述移動裝置。
2.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述特征信息為與深度、面積、模板、輪廓及特征拓撲關(guān)系中的至少一者所相關(guān)的信息。
3.如權(quán)利要求2所述的影像檢索系統(tǒng),其特征在于,所述特征信息至少包含一深度信息,所述處理單元更參考所述深度信息,以將所述特征信息進行正規(guī)化,并據(jù)以決定所述輸入影像中的所述目標對象。
4.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述特征信息為一深度信息,所述處理單元更可利用所述深度信息,決定所述深度影像中深度最淺的一最前景物為所述目標對象。
5.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述特征信息至少包含一深度信息和一面積信息,且所述目標對象為在所述深度影像中其面積及深度符合一預(yù)定范圍的一對象。
6.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述影像數(shù)據(jù)服務(wù)器透過一序列數(shù)據(jù)通訊接口、一有線網(wǎng)絡(luò)、一無線網(wǎng)絡(luò)或一電信網(wǎng)絡(luò),耦接于所述處理單元,以接收所述目標對象。
7.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述影像數(shù)據(jù)服務(wù)器更包括一影像內(nèi)容數(shù)據(jù)庫,用以儲存多個對象影像數(shù)據(jù)及其對應(yīng)的多個對象數(shù)據(jù),其中所述對象影像數(shù)據(jù)為對應(yīng)至少一預(yù)存對象的一影像特征,且所述對象數(shù)據(jù)為分別相應(yīng)于所述各對象影像數(shù)據(jù)的文字、聲音、影像及影片等至少一數(shù)據(jù)。
8.如權(quán)利要求7所述的影像檢索系統(tǒng),其特征在于,所述影像數(shù)據(jù)服務(wù)器更包括一影像處理單元,用以使用一特征比對演算法以分析所述目標對象,獲得所述目標對象的影像特征,且將所述目標對象的影像特征和所述對象影像數(shù)據(jù)進行比對,以判斷所述目標對象是否和所述對象影像數(shù)據(jù)其中之一相符;以及,當所述目標對象與所述對象影像數(shù)據(jù)其中之一相符時,所述影像處理單元更從所述影像內(nèi)容數(shù)據(jù)庫中擷取相應(yīng)于所述判斷相符的對象影像數(shù)據(jù)的所述對象數(shù)據(jù)作為所述檢索結(jié)果數(shù)據(jù)。
9.如權(quán)利要求1所述的影像檢索系統(tǒng),其特征在于,所述移動裝置更包括一顯示單元, 當所述移動裝置接收所述檢索結(jié)果數(shù)據(jù)時,在所述顯示單元顯示所述目標對象及所述檢索結(jié)果數(shù)據(jù)。
10.如權(quán)利要求9所述的影像檢索系統(tǒng),其特征在于,當所述影像擷取單元持續(xù)拍攝多個連續(xù)影像時,在所述顯示單元持續(xù)顯示所述連續(xù)影像及所述檢索結(jié)果數(shù)據(jù)。
11.一種影像檢索方法,其特征在于,其步驟包括利用一移動裝置的雙攝影機,同時但分別對一對象擷取一張輸入影像;通過所述移動裝置,依據(jù)所述輸入影像獲得一深度影像,并依據(jù)所述輸入影像及深度影像的一特征信息,以決定一目標對象;以及通過一影像數(shù)據(jù)服務(wù)器接收所述目標對象,并檢索相應(yīng)于所述目標對象獲得一檢索結(jié)果數(shù)據(jù),且將所述檢索結(jié)果數(shù)據(jù)傳送至所述移動裝置。
12.如權(quán)利要求11所述的影像檢索方法,其特征在于,所述特征信息為與深度、面積、 模板、輪廓及特征拓撲關(guān)系中的至少一者所相關(guān)的信息。
13.如權(quán)利要求12所述的影像檢索方法,其特征在于,所述特征信息至少包含一深度信息,且所述方法更包括通過所述移動裝置,參考所述深度信息,以將所述特征信息進行正規(guī)化,并據(jù)以決定所述輸入影像中的所述目標對象。
14.如權(quán)利要求11所述的影像檢索方法,其特征在于,所述特征信息為一深度信息,且所述方法更包括通過所述移動裝置,利用所述深度信息,決定所述深度影像中深度最淺的一最前景物為所述目標對象。
15.如權(quán)利要求11所述的影像檢索方法,其特征在于,所述特征信息至少包含一深度信息和一面積信息,且所述目標對象為在所述深度影像中其面積及深度符合一預(yù)定范圍的一對象。
16.如權(quán)利要求11所述的影像檢索方法,其特征在于,所述影像數(shù)據(jù)服務(wù)器更包括一影像內(nèi)容數(shù)據(jù)庫,用以儲存多個對象影像數(shù)據(jù)及其對應(yīng)的多個對象數(shù)據(jù),其中所述對象影像數(shù)據(jù)為對應(yīng)至少一預(yù)存對象的一影像特征,且所述對象數(shù)據(jù)為分別相應(yīng)于所述各對象影像數(shù)據(jù)的文字、聲音、影像及影片等至少一數(shù)據(jù)。
17.如權(quán)利要求16所述的影像檢索方法,其特征在于,所述方法更包括通過所述影像數(shù)據(jù)服務(wù)器,使用一特征比對演算法以分析所述目標對象,獲得所述目標對象的影像特征,且將所述目標對象的影像特征和所述對象影像數(shù)據(jù)進行比對,以判斷所述目標對象是否和所述對象影像數(shù)據(jù)其中之一相符;以及,當所述目標對象與所述對象影像數(shù)據(jù)其中之一相符時,從所述影像內(nèi)容數(shù)據(jù)庫中擷取相應(yīng)于所述判斷相符的對象影像數(shù)據(jù)的所述對象數(shù)據(jù)作為所述檢索結(jié)果數(shù)據(jù)。
18.如權(quán)利要求11所述的影像檢索方法,其特征在于,所述方法更包括通過所述移動裝置的一顯示單元,當所述移動裝置接收所述檢索結(jié)果數(shù)據(jù)時,在所述顯示單元顯示所述目標對象及所述檢索結(jié)果數(shù)據(jù)。
19.如權(quán)利要求18所述的影像檢索方法,其特征在于,所述方法更包括當所述移動裝置持續(xù)拍攝多個連續(xù)影像時,在所述顯示單元持續(xù)顯示所述連續(xù)影像及所述檢索結(jié)果數(shù)據(jù)。
全文摘要
本發(fā)明公開了一種影像檢索系統(tǒng)及檢索方法,上述影像檢索系統(tǒng)包括一移動裝置,至少包括一影像擷取單元,其具有雙攝影機,該雙攝影機同時但分別對一對象擷取一張輸入影像;以及一處理單元,其耦接于影像擷取單元,用以依據(jù)上述輸入影像獲得一深度影像,并依據(jù)輸入影像及深度影像的一特征信息,以決定一目標對象;以及一影像數(shù)據(jù)服務(wù)器,其耦接于處理單元,接收目標對象,并檢索相應(yīng)于目標對象獲得一檢索結(jié)果數(shù)據(jù),且將上述檢索結(jié)果數(shù)據(jù)傳送至移動裝置。本發(fā)明可以解決移動裝置應(yīng)用在影像檢索時,必須將整張影像傳送到遠端服務(wù)器、而服務(wù)器必須進行大量運算的問題,降低了服務(wù)器的負擔和處理時間,并提高使用的親和性和便利性。
文檔編號G06F17/30GK102479220SQ20101056656
公開日2012年5月30日 申請日期2010年11月30日 優(yōu)先權(quán)日2010年11月30日
發(fā)明者劉柏甫, 吳業(yè)寬, 蔡其杭, 邱建中 申請人:財團法人資訊工業(yè)策進會