本申請(qǐng)是2014年6月27日遞交的美國(guó)專利申請(qǐng)14/317,639的延續(xù)案,特此通過(guò)引入將該美國(guó)專利申請(qǐng)的公開(kāi)內(nèi)容并入在此。
背景技術(shù):
各種系統(tǒng)向用戶提供不同位置的圖像。一些系統(tǒng)向用戶提供全景圖像或者具有一般來(lái)說(shuō)更寬的視野的全景圖像。例如,全景圖像可包括具有比人眼的視野更大的視野(例如,180度或更大)的圖像或圖像的集合。一些全景圖像可提供某個(gè)位置的360度視域。
技術(shù)實(shí)現(xiàn)要素:
本公開(kāi)的一些方面提供了一種用于選擇視窗(viewport)的由計(jì)算機(jī)實(shí)現(xiàn)的方法,其中視窗是圖像的子部分。該方法包括:由一個(gè)或多個(gè)計(jì)算設(shè)備接收對(duì)特定圖像的請(qǐng)求;由一個(gè)或多個(gè)計(jì)算設(shè)備標(biāo)識(shí)特定圖像內(nèi)的一組潛在視窗;由一個(gè)或多個(gè)計(jì)算設(shè)備標(biāo)識(shí)該組潛在視窗中的視窗內(nèi)的特征;由一個(gè)或多個(gè)計(jì)算設(shè)備對(duì)于該組潛在視窗中的每個(gè)給定視窗至少部分基于具有一組特征權(quán)重的權(quán)重向量和該組潛在視窗中的該給定視窗內(nèi)的標(biāo)識(shí)的特征來(lái)計(jì)算得分;由一個(gè)或多個(gè)計(jì)算設(shè)備基于計(jì)算出的得分選擇該組潛在視窗中的視窗;以及由一個(gè)或多個(gè)計(jì)算設(shè)備響應(yīng)于請(qǐng)求提供選擇的視窗和特定圖像。
在一個(gè)示例,該方法還包括接收一組訓(xùn)練全景圖像。該組訓(xùn)練全景圖像中的至少一個(gè)訓(xùn)練全景圖像與標(biāo)識(shí)該全景圖像中的最令人感興趣的視窗的信息相關(guān)聯(lián)。對(duì)于此,該方法還包括在為每個(gè)視窗計(jì)算得分之前,利用該組訓(xùn)練全景圖像作為訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,方法還包括標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。在此示例中,該方法包括標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗完全重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣的視窗完全重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,該方法還包括對(duì)于該組全景圖像中的每個(gè)全景圖像標(biāo)識(shí)第二組潛在視窗。這里,第二組潛在視窗中的每個(gè)給定潛在視窗各自與標(biāo)識(shí)該給定潛在視窗對(duì)于該給定潛在視窗的相應(yīng)全景圖像不是最令人感興趣的視窗的信息相關(guān)聯(lián)。該方法還包括處理第二組潛在視窗中的每個(gè)視窗以便標(biāo)識(shí)特征,并且在第二組潛在視窗中的每個(gè)視窗中標(biāo)識(shí)的特征被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。
在另一示例中,請(qǐng)求包括標(biāo)識(shí)視窗的寬高比的信息,并且標(biāo)識(shí)該組潛在視窗是進(jìn)一步基于寬高比的。在另一示例中,對(duì)于視窗的請(qǐng)求是對(duì)于搜索結(jié)果的請(qǐng)求的一部分,并且該方法還包括基于權(quán)重向量選擇第二全景圖像的視窗,并且將選擇的第二全景圖像的視窗與選擇的視窗和一組搜索結(jié)果一起提供。
本公開(kāi)的另一方面提供了一種用于選擇視窗的系統(tǒng),其中視窗是圖像的子部分。該系統(tǒng)包括一個(gè)或多個(gè)計(jì)算設(shè)備,被配置為接收對(duì)特定圖像的請(qǐng)求;標(biāo)識(shí)特定圖像內(nèi)的一組潛在視窗;標(biāo)識(shí)該組潛在視窗中的視窗內(nèi)的特征;對(duì)于該組潛在視窗中的每個(gè)給定視窗,至少部分基于具有一組特征權(quán)重的權(quán)重向量和該組潛在視窗中的該給定視窗內(nèi)的標(biāo)識(shí)的特征來(lái)計(jì)算得分;基于計(jì)算出的得分選擇該組潛在視窗中的視窗;以及響應(yīng)于請(qǐng)求提供所選擇的視窗和特定圖像。
在一個(gè)示例中,一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為接收一組訓(xùn)練全景圖像。該組訓(xùn)練全景圖像中的至少一個(gè)訓(xùn)練全景圖像與標(biāo)識(shí)該全景圖像中的最令人感興趣的視窗的信息相關(guān)聯(lián)。對(duì)于此,一個(gè)或多個(gè)計(jì)算設(shè)備被配置為在為每個(gè)視窗計(jì)算得分之前,利用該組訓(xùn)練全景圖像作為訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。在此示例中,一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗完全重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣視窗完全重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為對(duì)于該組全景圖像中的每個(gè)全景圖像標(biāo)識(shí)第二組潛在視窗。這里,第二組潛在視窗中的每個(gè)給定潛在視窗各自與標(biāo)識(shí)該給定潛在視窗對(duì)于該給定潛在視窗的相應(yīng)全景圖像不是最令人感興趣的視窗的信息相關(guān)聯(lián)。一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為處理第二組潛在視窗中的每個(gè)視窗以便標(biāo)識(shí)特征,并且在第二組潛在視窗中的每個(gè)視窗中標(biāo)識(shí)的特征被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。
在另一示例中,請(qǐng)求包括標(biāo)識(shí)視窗的寬高比的信息,并且標(biāo)識(shí)該組潛在視窗是進(jìn)一步基于寬高比的。在另一示例中,對(duì)于視窗的請(qǐng)求是對(duì)于搜索結(jié)果的請(qǐng)求的一部分,并且一個(gè)或多個(gè)計(jì)算設(shè)備還被配置為基于權(quán)重向量選擇第二全景圖像的視窗并且將選擇的第二全景圖像的視窗與選擇的視窗和一組搜索結(jié)果一起提供。
本公開(kāi)的另一方面提供了一種非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有程序的計(jì)算機(jī)可讀指令。這些指令當(dāng)被處理器執(zhí)行時(shí)使得處理器執(zhí)行一種用于選擇視窗的方法,其中視窗是圖像的子部分。該方法包括接收對(duì)特定圖像的請(qǐng)求;標(biāo)識(shí)特定圖像內(nèi)的一組潛在視窗;標(biāo)識(shí)該組潛在視窗中的視窗內(nèi)的特征;對(duì)于該組潛在視窗中的每個(gè)給定視窗,至少部分基于具有一組特征權(quán)重的權(quán)重向量和該組潛在視窗中的該給定視窗內(nèi)的標(biāo)識(shí)的特征來(lái)計(jì)算得分;基于計(jì)算出的得分選擇該組潛在視窗中的視窗;以及響應(yīng)于請(qǐng)求提供所選擇的視窗和特定圖像。
在一個(gè)示例中,該方法還包括接收一組訓(xùn)練全景圖像。該組訓(xùn)練全景圖像中的至少一個(gè)訓(xùn)練全景圖像與標(biāo)識(shí)該全景圖像中的最令人感興趣的視窗的信息相關(guān)聯(lián)。對(duì)于此,該方法還包括在為每個(gè)視窗計(jì)算得分之前,利用該組訓(xùn)練全景圖像作為訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,該方法還包括標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣的視窗的至少一部分重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。在此示例中,該方法包括標(biāo)識(shí)至少一個(gè)全景圖像的與最令人感興趣的視窗完全重疊的潛在視窗,并且至少一個(gè)全景圖像的與最令人感興趣的視窗完全重疊的潛在視窗被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。額外地或替換地,該方法還包括對(duì)于該組全景圖像中的每個(gè)全景圖像標(biāo)識(shí)第二組潛在視窗。這里,第二組潛在視窗中的每個(gè)給定潛在視窗各自與標(biāo)識(shí)該給定潛在視窗對(duì)于該給定潛在視窗的相應(yīng)全景圖像不是最令人感興趣的視窗的信息相關(guān)聯(lián)。該方法還包括處理第二組潛在視窗中的每個(gè)視窗以便標(biāo)識(shí)特征,并且在第二組潛在視窗中的每個(gè)視窗中標(biāo)識(shí)的特征被進(jìn)一步用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整權(quán)重向量的特征權(quán)重。
在另一示例中,請(qǐng)求包括標(biāo)識(shí)視窗的寬高比的信息,并且標(biāo)識(shí)該組潛在視窗是進(jìn)一步基于寬高比的。在另一示例中,對(duì)于視窗的請(qǐng)求是對(duì)于搜索結(jié)果的請(qǐng)求的一部分,并且該方法還包括基于權(quán)重向量選擇第二全景圖像的視窗,并且將選擇的第二全景圖像的視窗與選擇的視窗和一組搜索結(jié)果一起提供。
附圖說(shuō)明
圖1是根據(jù)本公開(kāi)的一些方面的示例系統(tǒng)的功能圖。
圖2是圖1的示例系統(tǒng)的直觀圖。
圖3是根據(jù)本公開(kāi)的一些方面的一組訓(xùn)練數(shù)據(jù)的示例。
圖4是根據(jù)本公開(kāi)的一些方面的一組訓(xùn)練數(shù)據(jù)和關(guān)聯(lián)的顯著視窗的示例。
圖5是根據(jù)本公開(kāi)的一些方面的一組訓(xùn)練數(shù)據(jù)和滑動(dòng)窗口的示例。
圖6是與顯著視窗部分重疊和完全重疊的可能視窗的示例。
圖7是根據(jù)本公開(kāi)的一些方面的流程圖。
具體實(shí)施方式
概述
本技術(shù)涉及自動(dòng)地標(biāo)識(shí)并提供例如全景圖像之類(lèi)的圖像的顯著子部分,這些顯著子部分是最有可能讓用戶感興趣或吸引用戶的。作為示例,系統(tǒng)可選擇要提供給計(jì)算設(shè)備的用戶的全景圖像。然而,因?yàn)殡y以在沒(méi)有失真的情況下同時(shí)顯示整個(gè)全景圖像,所以系統(tǒng)可選擇將在客戶端計(jì)算設(shè)備上顯示的全景圖像的子部分。如上所述,可以選擇圖像的子部分(例如,與圖像的非全部像素相對(duì)應(yīng)的圖像區(qū)域)或“視窗”,因?yàn)榕c同一圖像的其他子部分相比其很可能具有較高的顯著性。對(duì)用戶來(lái)說(shuō),系統(tǒng)可能看起來(lái)自動(dòng)將圖像剪裁到其最令人感興趣的區(qū)域。
為了選擇子部分,可利用一組訓(xùn)練數(shù)據(jù)來(lái)標(biāo)識(shí)模型。此訓(xùn)練數(shù)據(jù)可包括一組全景圖像,其中這些全景圖像中的至少一些與標(biāo)識(shí)全景圖像的曾被操作者認(rèn)為最令人感興趣的視窗的信息相關(guān)聯(lián)。作為示例,操作者可以是捕捉全景圖像的人或者就是某個(gè)審閱圖像的人。對(duì)于此,一個(gè)人例如可通過(guò)標(biāo)識(shí)該人認(rèn)為包括全景圖像的最令人感興趣的細(xì)節(jié)的矩形或其他形狀來(lái)選擇視窗。在一些示例中,該形狀可具有特定的寬高比(例如,m像素乘n像素),雖然如此但是可使用各種其他大小。在一些示例中,訓(xùn)練數(shù)據(jù)也可包括操作者標(biāo)識(shí)為至少令人感興趣的視窗,雖然這種輸入可能不是必需的。
訓(xùn)練數(shù)據(jù)可被處理以便將全景分離成多個(gè)可能的視窗,包括那些被標(biāo)識(shí)為令人感興趣的和那些未被標(biāo)識(shí)為令人感興趣的。例如,給定視窗的特定尺寸,滑動(dòng)窗口可用于標(biāo)識(shí)每個(gè)可能的視窗。在一些情況中,這可包括被標(biāo)識(shí)為至少令人感興趣的視窗。未被標(biāo)識(shí)為令人感興趣的視窗可全都具有相同大小(例如,m像素乘n像素)。對(duì)于此,可能的視窗中的至少一些可與標(biāo)識(shí)為令人感興趣的那些視窗完全或部分重疊。
訓(xùn)練數(shù)據(jù)隨后可用作機(jī)器學(xué)習(xí)的輸入以輸出權(quán)重向量。例如,計(jì)算機(jī)視覺(jué)處理技術(shù)可用于從可能視窗中提取特征。示例特征可包括顏色、形狀、對(duì)象、紋理、視窗大小和位置、特征的組合,等等。權(quán)重向量可包括用于從可能視窗中提取的每個(gè)特征的一系列權(quán)重。權(quán)重標(biāo)識(shí)該特定類(lèi)型的特征有多令人感興趣。對(duì)于此,訓(xùn)練數(shù)據(jù)可用于調(diào)整權(quán)重向量。
權(quán)重向量隨后可用于在給定特定寬高比的情況下標(biāo)識(shí)圖像的令人感興趣的部分。再有,滑動(dòng)窗口可用于標(biāo)識(shí)可能視窗。每個(gè)可能視窗隨后可被處理以標(biāo)識(shí)特征并生成特征向量。權(quán)重向量隨后可用于對(duì)特征向量打分。具有得分最高的特征向量的視窗可被標(biāo)識(shí)為最令人感興趣的視窗。類(lèi)似的計(jì)算可用于確定任何數(shù)目的圖像當(dāng)中的具有特定寬高比的最令人感興趣的視窗。在一些情況中,可利用非極大值抑制(non-maximum suppression)來(lái)增強(qiáng)此計(jì)算。
從而,權(quán)重向量不僅可用于確定要向用戶提供什么圖像,而且可用于確定要向用戶顯示這些圖像的什么部分。例如,以上描述的特征可用于確定如何顯示給定圖像作為一組搜索結(jié)果的一部分,作為與在用戶的移動(dòng)設(shè)備上(例如,平板或電話)或web瀏覽器中顯示的地圖有關(guān)的令人感興趣的圖像的一組縮略圖的一部分,等等。
雖然以上描述的特征是聯(lián)系全景圖像來(lái)說(shuō)明的,但同樣的技術(shù)可用于標(biāo)識(shí)非全景圖像的顯著部分。對(duì)于此,訓(xùn)練數(shù)據(jù)也可包括與標(biāo)識(shí)最令人感興趣的視窗的信息相關(guān)聯(lián)的非全景圖像,以及不與這種信息相關(guān)聯(lián)的非全景圖像。
如上所述,權(quán)重向量允許了對(duì)任何給定圖像中的最令人感興趣的視窗的確定。系統(tǒng)為了做到這一點(diǎn)并不需要實(shí)際標(biāo)識(shí)圖像中的任何特定對(duì)象或者為每個(gè)圖像生成顯著性地圖。
示例系統(tǒng)
圖1和圖2包括其中可實(shí)現(xiàn)上述特征的示例系統(tǒng)100。其不應(yīng)當(dāng)被認(rèn)為限制本公開(kāi)的范圍或者本文描述的特征的有用性。在此示例中,系統(tǒng)100可包括計(jì)算設(shè)備110、120、130和140以及存儲(chǔ)系統(tǒng)150。計(jì)算設(shè)備110可包含一個(gè)或多個(gè)處理器112、存儲(chǔ)器114和通常存在于通用計(jì)算設(shè)備中的其他組件。計(jì)算設(shè)備110的存儲(chǔ)器114可存儲(chǔ)處理器112可訪問(wèn)的信息,包括可被處理器112執(zhí)行的指令116。
存儲(chǔ)器也可包括可被處理器取回、操縱或存儲(chǔ)的數(shù)據(jù)118。存儲(chǔ)器可以是能夠存儲(chǔ)處理器可訪問(wèn)的信息的任何非暫態(tài)類(lèi)型的,例如硬盤(pán)驅(qū)動(dòng)器、存儲(chǔ)卡、ROM、RAM、DVD、CD-ROM、可寫(xiě)存儲(chǔ)器和只讀存儲(chǔ)器。
指令116可以是要被處理器直接執(zhí)行(例如機(jī)器代碼)或間接執(zhí)行(例如腳本)的任何指令集合。對(duì)于此,術(shù)語(yǔ)“指令”、“應(yīng)用”、“步驟”和“程序”在本文中可被互換使用。指令可以以目標(biāo)代碼格式來(lái)存儲(chǔ)以供處理器直接處理,或者以任何其他計(jì)算設(shè)備語(yǔ)言來(lái)存儲(chǔ),包括根據(jù)需要解釋或預(yù)先編譯的獨(dú)立源代碼模塊的集合或腳本。指令的功能、方法和例程在下文更詳細(xì)說(shuō)明。
數(shù)據(jù)118可被處理器112根據(jù)指令116來(lái)取回、存儲(chǔ)或修改。例如,雖然本文描述的主題不受任何特定數(shù)據(jù)結(jié)構(gòu)的限制,但數(shù)據(jù)可被存儲(chǔ)在計(jì)算機(jī)寄存器中、存儲(chǔ)在諸如具有許多不同字段和記錄的表格之類(lèi)的關(guān)系數(shù)據(jù)庫(kù)中或者存儲(chǔ)在XML文檔中。數(shù)據(jù)也可被格式化為任何計(jì)算設(shè)備可讀格式,例如但不限于二進(jìn)制值、ASCII或Unicode。另外,數(shù)據(jù)可包括足以標(biāo)識(shí)相關(guān)信息的任何信息,例如數(shù)字、描述性文本、專有代碼、指針、對(duì)存儲(chǔ)在其他存儲(chǔ)器中(例如存儲(chǔ)在其他網(wǎng)絡(luò)位置)的數(shù)據(jù)的引用或者被函數(shù)用來(lái)計(jì)算相關(guān)數(shù)據(jù)的信息。
一個(gè)或多個(gè)處理器112可包括任何傳統(tǒng)處理器,例如市售的CPU??商鎿Q地,處理器可以是專用組件,例如ASIC或其他基于硬件的處理器。雖然并非必要,但計(jì)算設(shè)備110可包括專門(mén)的硬件組件來(lái)更快速或更高效地執(zhí)行特定的計(jì)算處理,例如對(duì)視頻解碼、將視頻幀與圖像匹配、使視頻失真、對(duì)失真的視頻編碼等等。
雖然圖1從功能上將處理器、存儲(chǔ)器和計(jì)算設(shè)備110的其他元件圖示為在同一塊內(nèi),但處理器、計(jì)算機(jī)、計(jì)算設(shè)備或存儲(chǔ)器實(shí)際上可包括可能被存放在同一物理殼體內(nèi)或者不被存放在同一物理殼體內(nèi)的多個(gè)處理器、計(jì)算機(jī)、計(jì)算設(shè)備或存儲(chǔ)器。例如,存儲(chǔ)器可以是位于與計(jì)算設(shè)備110不同的殼體中的硬盤(pán)驅(qū)動(dòng)器或其他存儲(chǔ)介質(zhì)。從而,對(duì)處理器、計(jì)算機(jī)、計(jì)算設(shè)備或存儲(chǔ)器的提及將被理解為包括對(duì)可并行操作或者不并行操作的處理器、計(jì)算機(jī)、計(jì)算設(shè)備或存儲(chǔ)器的集合的提及。例如,計(jì)算設(shè)備110可包括作為負(fù)載平衡服務(wù)器群操作的服務(wù)器計(jì)算設(shè)備。此外,雖然下文描述的一些功能被指示為在具有單個(gè)處理器的單個(gè)計(jì)算設(shè)備上發(fā)生,但本文描述的主題的各種方面可由例如通過(guò)網(wǎng)絡(luò)160傳達(dá)信息的多個(gè)計(jì)算設(shè)備來(lái)實(shí)現(xiàn)。
計(jì)算設(shè)備110可在網(wǎng)絡(luò)160的各種節(jié)點(diǎn)處并且能夠與網(wǎng)絡(luò)160的其他節(jié)點(diǎn)直接和間接地通信。雖然在圖1-圖2中只描繪了幾個(gè)計(jì)算設(shè)備,但應(yīng)當(dāng)明白典型的系統(tǒng)可包括許多連接的計(jì)算設(shè)備,其中每個(gè)不同的計(jì)算設(shè)備在網(wǎng)絡(luò)160的不同節(jié)點(diǎn)處。網(wǎng)絡(luò)160和本文描述的居間節(jié)點(diǎn)可利用各種協(xié)議和系統(tǒng)來(lái)互連,使得網(wǎng)絡(luò)可以是因特網(wǎng)、萬(wàn)維網(wǎng)、特定內(nèi)聯(lián)網(wǎng)、廣域網(wǎng)或本地網(wǎng)絡(luò)的一部分。網(wǎng)絡(luò)可利用標(biāo)準(zhǔn)通信協(xié)議,例如以太網(wǎng)、WiFi和HTTP,一個(gè)或多個(gè)公司專有的協(xié)議,以及前述的各種組合。雖然當(dāng)如上所述發(fā)送或接收信息時(shí)獲得某些優(yōu)點(diǎn),但本文描述的主題的其他方面不限于信息的任何特定傳送方式。
作為示例,計(jì)算設(shè)備110可包括能夠經(jīng)由網(wǎng)絡(luò)與存儲(chǔ)系統(tǒng)150以及計(jì)算設(shè)備120、130和140通信的一個(gè)或多個(gè)web服務(wù)器。例如,服務(wù)器計(jì)算設(shè)備110可使用網(wǎng)絡(luò)160來(lái)在顯示器(例如計(jì)算設(shè)備120、130或140的顯示器122、132或142)上向用戶(例如用戶220、230或240)發(fā)送和呈現(xiàn)信息。對(duì)于此,計(jì)算設(shè)備120、130和140可被認(rèn)為是客戶端計(jì)算設(shè)備并且可執(zhí)行下文描述的特征的全部或一些。
每個(gè)客戶端計(jì)算設(shè)備可與服務(wù)器計(jì)算設(shè)備110類(lèi)似地配置,具有如上所述的一個(gè)或多個(gè)處理器、存儲(chǔ)器和指令。每個(gè)客戶端計(jì)算設(shè)備120、130或140可以是旨在供用戶220、250、250使用的個(gè)人計(jì)算設(shè)備,并且具有通常聯(lián)系個(gè)人計(jì)算設(shè)備使用的所有組件,例如中央處理單元(central processing unit,CPU)、存儲(chǔ)數(shù)據(jù)和指令的存儲(chǔ)器(例如,RAM和內(nèi)部硬盤(pán)驅(qū)動(dòng)器)、諸如顯示器122、132或142之類(lèi)的顯示器(例如,具有屏幕的監(jiān)視器、觸摸屏、投影儀、電視或者可操作來(lái)顯示信息的其他設(shè)備)以及用戶輸入設(shè)備124(例如,鼠標(biāo)、鍵盤(pán)、觸摸屏或麥克風(fēng))??蛻舳擞?jì)算設(shè)備還可包括用于記錄視頻流的相機(jī)、揚(yáng)聲器、網(wǎng)絡(luò)接口設(shè)備和用于將這些元件連接到彼此的所有組件。
雖然客戶端計(jì)算設(shè)備120、130和140可各自包括全尺寸個(gè)人計(jì)算設(shè)備,但是可替換地,它們也可包括能夠通過(guò)諸如因特網(wǎng)之類(lèi)的網(wǎng)絡(luò)與服務(wù)器無(wú)線地交換數(shù)據(jù)的移動(dòng)計(jì)算設(shè)備。僅作為示例,客戶端計(jì)算設(shè)備120可以是移動(dòng)電話或者諸如具備無(wú)線能力的PDA、平板PC或上網(wǎng)本之類(lèi)的能夠經(jīng)由因特網(wǎng)獲得信息的設(shè)備。在另一示例中,客戶端計(jì)算設(shè)備130可以是頭戴式計(jì)算系統(tǒng)。作為示例,用戶可利用小鍵盤(pán)、袖珍鍵盤(pán)、麥克風(fēng)、用相機(jī)利用視覺(jué)信號(hào)或者利用觸摸屏來(lái)輸入信息。
存儲(chǔ)系統(tǒng)150可存儲(chǔ)圖像。這些圖像中的至少一些可包括全景圖像,例如上文描述的具有比人眼的視野更大的視野(例如,180度或更大)的那些。除了圖像以外,存儲(chǔ)系統(tǒng)150還可存儲(chǔ)與諸如視窗這樣的這些圖像或者這些圖像的被選擇為顯著的子部分相關(guān)聯(lián)的信息,如下文更詳細(xì)描述的。視窗信息可被存儲(chǔ),以使得其可用于標(biāo)識(shí)圖像的像素的特定子集并且只顯示該像素子集。
除了圖像以外,存儲(chǔ)系統(tǒng)150還可存儲(chǔ)模型,以及可用于更新或生成模型的訓(xùn)練數(shù)據(jù)。在一些示例中,模型可包括權(quán)重向量,并且訓(xùn)練數(shù)據(jù)可包括一組圖像,以及這些圖像的被標(biāo)識(shí)為顯著或令人感興趣的子部分或視窗,如下文更詳細(xì)描述的。雖然本文描述的特征是聯(lián)系全景圖像來(lái)說(shuō)明的,但同樣的技術(shù)可用于標(biāo)識(shí)非全景圖像的顯著部分。對(duì)于此,訓(xùn)練數(shù)據(jù)也可包括與標(biāo)識(shí)顯著視窗的信息相關(guān)聯(lián)的非全景圖像,以及不與這種信息相關(guān)聯(lián)的非全景圖像。
與存儲(chǔ)器114一樣,存儲(chǔ)系統(tǒng)150可以是能夠存儲(chǔ)服務(wù)器110可訪問(wèn)的信息的任何類(lèi)型的計(jì)算機(jī)化存儲(chǔ)裝置,例如硬盤(pán)驅(qū)動(dòng)器、存儲(chǔ)卡、ROM、RAM、DVD、CD-ROM、可寫(xiě)存儲(chǔ)器和只讀存儲(chǔ)器。此外,存儲(chǔ)系統(tǒng)150可包括分布式存儲(chǔ)系統(tǒng),其中數(shù)據(jù)被存儲(chǔ)在可物理上位于相同或不同地理位置的多個(gè)不同存儲(chǔ)設(shè)備上。存儲(chǔ)系統(tǒng)150可如圖1所示經(jīng)由網(wǎng)絡(luò)160連接到計(jì)算設(shè)備,和/或可直接連接到或被包含到任何計(jì)算設(shè)備110-140(未示出)。
示例方法
如上所述,為了選擇視窗,可利用存儲(chǔ)系統(tǒng)150的一組訓(xùn)練數(shù)據(jù)來(lái)訓(xùn)練模型。如上所述,此訓(xùn)練數(shù)據(jù)可包括一組圖像,例如圖3所示的全景圖像。示例訓(xùn)練數(shù)據(jù)300包括兩個(gè)全景圖像302和322。這些全景圖像可能是在不同的日期和時(shí)間在不同的位置捕捉的。
該組訓(xùn)練數(shù)據(jù)中的至少一些可與標(biāo)識(shí)被認(rèn)為令人感興趣的視窗或者說(shuō)圖像的子部分的信息相關(guān)聯(lián)。關(guān)于什么令人感興趣的想法是一種個(gè)人的想法,并且至少最初可由手動(dòng)審閱圖像并選擇圖像的子部分的人類(lèi)操作者來(lái)確定。作為示例,操作者可以是捕捉全景圖像的人或者就是某個(gè)查看了圖像的人。對(duì)于此,一個(gè)人例如可通過(guò)標(biāo)識(shí)該人確信的矩形或其他形狀包括全景圖像的最令人感興趣的細(xì)節(jié)來(lái)選擇視窗。這可利用應(yīng)用或其他計(jì)算工具來(lái)實(shí)現(xiàn)以選擇或描繪視窗并將此信息發(fā)送到一個(gè)或多個(gè)服務(wù)器計(jì)算設(shè)備110以作為該組訓(xùn)練數(shù)據(jù)的一部分存儲(chǔ)在存儲(chǔ)系統(tǒng)150中。在一些示例中,該形狀可具有特定的尺寸或?qū)捀弑?例如,m像素乘n像素),雖然如此但是可使用各種其他大小。
圖4是訓(xùn)練數(shù)據(jù)300的示例400,該訓(xùn)練數(shù)據(jù)300包括與全景圖像302相關(guān)聯(lián)的視窗402和與全景圖像322相關(guān)聯(lián)的視窗422。每個(gè)顯著視窗(salient viewport)可與將該視窗標(biāo)識(shí)為顯著的標(biāo)簽相關(guān)聯(lián)。如上所述,這些顯著視窗可能是由操作者標(biāo)識(shí)的。在此示例中,兩個(gè)視窗402和422是大致相同大小的(例如,形狀和像素?cái)?shù)目)。然而,如上所述,也可使用各種其他形狀和大小。對(duì)于此,視窗402和422的尺寸或?qū)捀弑瓤蓪?shí)際上不同。
在一些示例中,訓(xùn)練數(shù)據(jù)也可包括操作者標(biāo)識(shí)為至少令人感興趣的視窗,雖然這種輸入可能不是必需的。例如,視窗422可能被標(biāo)識(shí)為全景圖像322中的對(duì)操作者來(lái)說(shuō)至少令人感興趣或顯著的視窗,而視窗402可能被選擇為全景圖像302中的對(duì)操作者來(lái)說(shuō)最顯著的視窗。再有,視窗可具有特定大小和形狀,使得對(duì)于給定的圖像,第一大小的最顯著視窗可不同于(完全不同、部分不同或者根本不重疊)與第一大小不同的第二大小的最顯著視窗。
訓(xùn)練數(shù)據(jù)可被處理以便將全景分離成多個(gè)可能的視窗。例如,具有固定尺寸(例如m乘n像素)的滑動(dòng)窗口可用于標(biāo)識(shí)每個(gè)可能視窗,如圖5的示例500中所示。例如,可將滑動(dòng)窗口502和522在全景圖像302和322上四處移動(dòng)以便為每個(gè)圖像標(biāo)識(shí)一組可能的視窗。這些可能視窗可能是重疊的或不重疊的,這取決于集合中的可能視窗的數(shù)目和大小。
如圖6的示例600中所示,可能視窗可與被操作者標(biāo)識(shí)為顯著的視窗部分重疊或完全重疊。例如,可能視窗602只與顯著視窗402部分重疊??赡芤暣?22與顯著視窗422完全重疊。然而,因?yàn)榭赡芤暣?22在大小上大于顯著視窗422,所以可能視窗622可包括全景圖像322的額外特征。對(duì)于此,可能視窗的尺寸可與任何顯著視窗的尺寸相同或不同。隨后可用指示出這些可能視窗是非顯著的標(biāo)簽來(lái)標(biāo)識(shí)這些可能視窗。此外,如果可能視窗和顯著視窗的尺寸相同,則在一些情況中,可能視窗和顯著視窗可能是相同的,或者更確切地說(shuō)是完美重疊的。在這種示例中,可能視窗可與指示該可能視窗是顯著視窗的標(biāo)簽相關(guān)聯(lián)。類(lèi)似的示例也可用于非顯著視窗。
訓(xùn)練數(shù)據(jù)——包括圖像、可能視窗、顯著視窗和標(biāo)簽——隨后可用作機(jī)器學(xué)習(xí)的輸入以輸出權(quán)重向量。例如,計(jì)算機(jī)視覺(jué)處理技術(shù),例如采用各種特征的直方圖或全局描述符的那些,可用于從可能視窗中提取特征。示例特征可包括顏色、形狀、對(duì)象、紋理、視窗大小和位置、特征的組合,等等。
如上所述,權(quán)重向量可包括用于從可能視窗中提取的每個(gè)特征的一系列權(quán)重。對(duì)于此,權(quán)重向量可以是實(shí)值數(shù)的向量,例如向量的維度,或者向量的值的總數(shù),可對(duì)應(yīng)于被考慮的特征的數(shù)目。
權(quán)重可標(biāo)識(shí)特定類(lèi)型的特征有多顯著或令人感興趣,換言之,權(quán)重越高,越感興趣。從而,帶著顯著標(biāo)簽被包括在視窗中的特征可能在權(quán)重向量中更有可能具有更高的權(quán)重。從而,訓(xùn)練數(shù)據(jù)被用于調(diào)整權(quán)重向量。因?yàn)槭褂昧藱C(jī)器學(xué)習(xí),所以可隨著時(shí)間的流逝調(diào)整權(quán)重向量,使得隨著新圖像、潛在視窗、顯著視窗和標(biāo)簽被添加到訓(xùn)練數(shù)據(jù),可基于更新的訓(xùn)練數(shù)據(jù)進(jìn)一步調(diào)整權(quán)重向量。
權(quán)重向量隨后可用于標(biāo)識(shí)任何圖像中的顯著視窗。與訓(xùn)練數(shù)據(jù)一樣,存儲(chǔ)系統(tǒng)150的個(gè)體圖像可被處理以標(biāo)識(shí)一組可能視窗。再有,m乘n像素的滑動(dòng)窗口可用于標(biāo)識(shí)集合的可能視窗。每個(gè)可能視窗隨后可被例如利用上文描述的計(jì)算機(jī)視覺(jué)處理來(lái)加以處理以便標(biāo)識(shí)特征。這些特征可被組合成特征向量,該特征向量列出表示在特定的可能視窗中標(biāo)識(shí)出哪些特征的值,例如此特征向量可包含視窗中的特征的實(shí)際分布。權(quán)重向量的權(quán)重隨后可用于對(duì)于集合的每個(gè)可能視窗為特征向量計(jì)算得分,例如通過(guò)確定特征和權(quán)重向量之間的點(diǎn)積(dot product)。在一些情況中,可利用非極大值抑制來(lái)增強(qiáng)此計(jì)算。具有最高得分的特征向量或者說(shuō)該視窗的特征向量與權(quán)重向量之間具有最高值點(diǎn)積的視窗可被標(biāo)識(shí)為最顯著的視窗。
類(lèi)似的計(jì)算可用于確定具有不同尺寸或者更確切地說(shuō)具有不同寬高比的最令人感興趣的視窗。對(duì)于此,對(duì)于特定類(lèi)型的圖像可以有默認(rèn)寬高比,例如基于圖像是否是全景圖像(例如,視野)或者圖像中的像素的數(shù)目。當(dāng)用戶(或者做出請(qǐng)求的客戶端計(jì)算設(shè)備)請(qǐng)求具有不同于默認(rèn)值的特定尺寸或特定寬高比的顯著視窗時(shí),可對(duì)應(yīng)于這些特定尺寸來(lái)選擇該組可能視窗中的視窗的尺寸。再有,給定圖像的最顯著視窗對(duì)于不同的視窗尺寸可完全不同。
一旦已如上所述標(biāo)識(shí)了給定圖像的最顯著視窗,該最顯著視窗就可與該給定圖像相關(guān)聯(lián),并且該關(guān)聯(lián)就可被存儲(chǔ)在存儲(chǔ)器中,例如存儲(chǔ)系統(tǒng)150中。對(duì)于此,響應(yīng)于由一個(gè)或多個(gè)服務(wù)器計(jì)算設(shè)備110從客戶端計(jì)算設(shè)備接收到的取回圖像來(lái)例如在客戶端計(jì)算設(shè)備上顯示給用戶的請(qǐng)求,與請(qǐng)求的圖像相關(guān)聯(lián)的最顯著視窗以及圖像可被提供給客戶端計(jì)算設(shè)備。一旦接收到,客戶端計(jì)算設(shè)備就可向用戶顯示最顯著視窗,使得用戶只查看該視窗或者與最顯著視窗相對(duì)應(yīng)的圖像的子部分。這在圖像是全景圖像或者具有寬視野(例如大于90度)的圖像的情況下可尤其有用。作為示例,最顯著視窗可用于顯示一組圖像搜索結(jié)果,使得這些搜索結(jié)果中的一個(gè)或多個(gè)圖像被利用關(guān)聯(lián)的最顯著視窗來(lái)顯示。作為另一示例,當(dāng)一組圖像與在客戶端計(jì)算設(shè)備上顯示的地圖有關(guān)時(shí),最顯著視窗可用于顯示這些圖像。
可替換地,不是標(biāo)識(shí)最顯著視窗并將信息存儲(chǔ)在存儲(chǔ)器中以便響應(yīng)于對(duì)圖像的請(qǐng)求而取回,最顯著視窗可被實(shí)時(shí)標(biāo)識(shí)。對(duì)于此,響應(yīng)于對(duì)一個(gè)或多個(gè)圖像的請(qǐng)求,例如來(lái)自客戶端計(jì)算設(shè)備的圖像搜索請(qǐng)求,一個(gè)或多個(gè)服務(wù)器計(jì)算設(shè)備可標(biāo)識(shí)一個(gè)或多個(gè)響應(yīng)圖像,然后處理這些圖像以標(biāo)識(shí)最顯著視窗。從而,一個(gè)或多個(gè)相關(guān)圖像隨后可與標(biāo)識(shí)這一個(gè)或多個(gè)圖像的任何最顯著視窗的信息一起被發(fā)送到做出請(qǐng)求的客戶端計(jì)算設(shè)備以在客戶端計(jì)算設(shè)備處顯示。
圖7的流程圖700是上文描述的一些方面的示例,其可由如上所述的客戶端計(jì)算設(shè)備和/或一個(gè)或多個(gè)服務(wù)器計(jì)算設(shè)備的一個(gè)或多個(gè)處理器執(zhí)行。例如,在塊702,接收一組全景圖像。該組全景圖像中的至少一個(gè)全景圖像與標(biāo)識(shí)該全景圖像中的最令人感興趣的視窗的信息相關(guān)聯(lián)。在塊704,該組全景圖像被用作訓(xùn)練數(shù)據(jù)來(lái)調(diào)整具有一組特征權(quán)重的權(quán)重向量。在塊706,此權(quán)重向量隨后被存儲(chǔ)以供后來(lái)使用。隨著額外的全景圖像被添加到該組,這些步驟可重復(fù)自身。
在塊708,接收到為特定全景圖像選擇視窗的請(qǐng)求。在塊710,在該特定全景圖像內(nèi)標(biāo)識(shí)一組潛在視窗,并且在該組潛在視窗中的視窗內(nèi)標(biāo)識(shí)特征。然后在塊712,至少部分基于存儲(chǔ)的權(quán)重向量和該組潛在視窗中的每個(gè)給定視窗內(nèi)的標(biāo)識(shí)的特征,為該組潛在視窗中的該給定視窗計(jì)算得分。再有,存儲(chǔ)的權(quán)重向量具有被用作該計(jì)算的一部分的一組特征權(quán)重。在塊714,基于計(jì)算出的得分從該組潛在視窗中選擇視窗。例如,這個(gè)選擇的視窗可具有該組潛在視窗的計(jì)算出的最高得分。然后在塊716,響應(yīng)于為該特定全景圖像選擇視窗的請(qǐng)求,提供所選擇的視窗。
前述替換示例的大多數(shù)不是互斥的,而是可以按各種組合實(shí)現(xiàn)來(lái)獲得獨(dú)特的優(yōu)點(diǎn)。由于可在不脫離權(quán)利要求限定的主題的情況下利用以上論述的特征的這些和其他變化和組合,所以對(duì)實(shí)施例的前述描述應(yīng)當(dāng)被作為例示而不是作為對(duì)權(quán)利要求限定的主題的限制來(lái)理解。作為示例,前述操作不必按以上描述的確切順序執(zhí)行。更確切地說(shuō),可按不同順序處理或同時(shí)處理各種步驟。除非另有申明,否則也可省略步驟。此外,本文描述的示例的提供,以及措辭為“例如”、“包括”之類(lèi)的從句,不應(yīng)當(dāng)被解釋為將權(quán)利要求的主題限制到特定示例;更確切地說(shuō),這些示例打算只例示許多可能實(shí)施例之一。另外,不同附圖中的相同標(biāo)號(hào)可標(biāo)識(shí)相同或相似的元素。
工業(yè)實(shí)用性
本公開(kāi)可用于自動(dòng)地標(biāo)識(shí)并提供例如全景圖像之類(lèi)的圖像的顯著子部分,這些顯著子部分是最有可能讓用戶感興趣或吸引用戶的。