對(duì)圖像進(jìn)行自動(dòng)語(yǔ)義標(biāo)注的方法、裝置與計(jì)算機(jī)設(shè)備的制造方法
【專(zhuān)利摘要】根據(jù)本發(fā)明的實(shí)施例,提供了對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練的方法,包括:a.提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知;b.將至少部分所述訓(xùn)練圖像輸入到所述圖像語(yǔ)義標(biāo)注裝置的定位器;c.由所述定位器確定輸入的每幅訓(xùn)練圖像的至少一個(gè)局部區(qū)域,并將所確定的各個(gè)局部區(qū)域輸入到所述圖像語(yǔ)義標(biāo)注裝置的屬性預(yù)測(cè)器;d.由所述屬性預(yù)測(cè)器得到輸入的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果;e.根據(jù)得到的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果以及相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,訓(xùn)練所述定位器和所述屬性預(yù)測(cè)器。
【專(zhuān)利說(shuō)明】
對(duì)圖像進(jìn)行自動(dòng)語(yǔ)義標(biāo)注的方法、裝置與計(jì)算機(jī)設(shè)備
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及圖像處理領(lǐng)域,尤其涉及一種對(duì)圖像進(jìn)行自動(dòng)語(yǔ)義標(biāo)注的方法、裝置與包含該裝置的計(jì)算機(jī)設(shè)備。
【背景技術(shù)】
[0002]近十多年來(lái),隨著計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)的迅速發(fā)展、普及應(yīng)用以及數(shù)據(jù)存儲(chǔ)器成本的大幅下滑,多媒體數(shù)據(jù)庫(kù)的使用變得越來(lái)越普遍。以圖像、音樂(lè)、視頻形式展現(xiàn)的多媒體信息無(wú)論在商業(yè)還是娛樂(lè)中都顯現(xiàn)出了日益重要的作用。如何對(duì)如此大量的數(shù)據(jù)進(jìn)行有效地管理和組織,并從中搜索出用戶(hù)所需要的信息就成為非常重要的問(wèn)題。對(duì)于多媒體數(shù)據(jù),尤其是圖像數(shù)據(jù)的瀏覽、搜索以及索引技術(shù)的研究已經(jīng)有了很長(zhǎng)時(shí)間的歷史。如今,有關(guān)圖像數(shù)據(jù)庫(kù)和視覺(jué)信息搜索的話(huà)題已經(jīng)變成了研究領(lǐng)域中最為活躍的一部分。
[0003]要完成一次圖像搜索,搜索引擎一般要求用戶(hù)提供對(duì)于想要搜索的圖像的描述。這些描述可以是一組關(guān)鍵字查詢(xún),或是一張案例圖像。前一種的方式被稱(chēng)作為基于語(yǔ)義(標(biāo)注)的圖像搜索,后一種被稱(chēng)作為基于內(nèi)容的圖像搜索。
[0004]為實(shí)現(xiàn)基于語(yǔ)義的圖像搜索,需要對(duì)數(shù)據(jù)庫(kù)中的圖像進(jìn)行語(yǔ)義標(biāo)注。圖像語(yǔ)義自動(dòng)標(biāo)注是指利用計(jì)算機(jī)視覺(jué)技術(shù),讓計(jì)算機(jī)對(duì)圖像中的內(nèi)容進(jìn)行理解,從而給圖像自動(dòng)標(biāo)注出文本語(yǔ)義的過(guò)程。也就是說(shuō),圖像語(yǔ)義自動(dòng)標(biāo)注是使計(jì)算機(jī)對(duì)圖像的語(yǔ)義進(jìn)行準(zhǔn)確地描述和理解的過(guò)程,其本質(zhì)上就是建立圖像和文本語(yǔ)義之間的關(guān)聯(lián)。
[0005]現(xiàn)有的圖像語(yǔ)義標(biāo)注方法主要有以下兩種實(shí)現(xiàn)方式:
[0006]第一種是由計(jì)算機(jī)在整幅圖像上提取特征,并對(duì)圖像進(jìn)行分類(lèi)識(shí)別,也即,將整幅圖像作為分類(lèi)器的輸入。然而,很多近似類(lèi)別的圖像的整體相似度很高,例如,不同型號(hào)的三廂轎車(chē)的圖像可能只在若干細(xì)節(jié)上有區(qū)別,而從整幅圖像上提取的特征往往不足以準(zhǔn)確對(duì)這種細(xì)粒度的圖像分類(lèi)進(jìn)行區(qū)分,語(yǔ)義標(biāo)注效果差。
[0007]第二種則是由人工確定圖像的顯著性區(qū)域,這些顯著性區(qū)域可以體現(xiàn)不同的細(xì)粒度圖像之間的差別,例如,不同品牌的車(chē)型的車(chē)標(biāo),不同品種的貓的眼睛。而后,再對(duì)這些顯著性區(qū)域提取特征,進(jìn)行細(xì)粒度的圖像語(yǔ)義標(biāo)注。但是,由于圖像數(shù)據(jù)庫(kù)中的圖像的數(shù)量巨大,要為每幅圖像人工確定其顯著性區(qū)域,顯然會(huì)消耗極大的人力資源,限制了這種解決方案的可行性。
[0008]只有解決現(xiàn)有技術(shù)中的上述問(wèn)題,才能使圖像語(yǔ)義的自動(dòng)標(biāo)注更進(jìn)一步發(fā)展。
【發(fā)明內(nèi)容】
[0009]本發(fā)明的目的是提供一種新的圖像語(yǔ)義標(biāo)注方法和裝置,以解決現(xiàn)有技術(shù)中的上述問(wèn)題。
[0010]具體地,根據(jù)本發(fā)明的第一方面的實(shí)施例,提供了一種對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練的方法,包括:a.提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知;b.將至少部分所述訓(xùn)練圖像輸入到所述圖像語(yǔ)義標(biāo)注裝置的定位器;c.由所述定位器確定輸入的每幅訓(xùn)練圖像的至少一個(gè)局部區(qū)域,并將所確定的各個(gè)局部區(qū)域輸入到所述圖像語(yǔ)義標(biāo)注裝置的屬性預(yù)測(cè)器;d.由所述屬性預(yù)測(cè)器得到輸入的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果;
e.根據(jù)得到的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果以及相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,訓(xùn)練所述定位器和所述屬性預(yù)測(cè)器。
[0011]具體地,所述多幅訓(xùn)練圖像的語(yǔ)義為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。
[0012]具體地,所述粗粒度語(yǔ)義對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,不同的所述細(xì)粒度語(yǔ)義對(duì)應(yīng)于屬于該種粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象。
[0013]具體地,每個(gè)所述細(xì)粒度分類(lèi)對(duì)象包含至少一個(gè)特征部位,所述視覺(jué)屬性描述被根據(jù)其所對(duì)應(yīng)的特征部位而劃分為不同的組,所述方法包括:針對(duì)每個(gè)所述特征部位,重復(fù)所述步驟a至d直至收斂。
[0014]具體地,所述步驟a包括:對(duì)包含圖像的網(wǎng)頁(yè)進(jìn)行挖掘,得到所述多幅訓(xùn)練圖像、各訓(xùn)練圖像的所述語(yǔ)義標(biāo)簽和所述視覺(jué)屬性描述。
[0015]具體地,所述步驟e包括:針對(duì)每個(gè)所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)所述定位器和所述屬性預(yù)測(cè)器的訓(xùn)練。
[0016]具體地,所述步驟e還包括:根據(jù)反向傳播算法,計(jì)算所述定位器和所述屬性預(yù)測(cè)器的梯度,確定或更新所述定位器和所述屬性預(yù)測(cè)器的參數(shù)。
[0017]具體地,該方法還包括:f.從所述多幅訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像;g.由經(jīng)過(guò)訓(xùn)練的所述定位器對(duì)選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位該幅訓(xùn)練圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位;h.將為每幅選出的訓(xùn)練圖像定位的特征部位、該訓(xùn)練圖像的已知的語(yǔ)義標(biāo)簽輸入到所述圖像語(yǔ)義標(biāo)注裝置的分類(lèi)器,對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。
[0018]具體地,所述步驟h包括:針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算定位出的每個(gè)特征部位的卷積特征;根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量;由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練所述分類(lèi)器。
[0019]具體地,所述步驟h還包括:針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算該訓(xùn)練圖像的整體的卷積特征;所述為該幅圖像生成向量的步驟還包括:根據(jù)計(jì)算出的該幅圖像的整體的卷積特征,以及計(jì)算出的該幅圖像的每個(gè)特征部位的卷積特征,為該訓(xùn)練圖像生成所述向量。
[0020]根據(jù)本發(fā)明的第二方面的實(shí)施例,提供了一種圖像語(yǔ)義標(biāo)注方法,包括:1.根據(jù)權(quán)利要求I至10中任一項(xiàng)所述的方法對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練;I1.由所述經(jīng)過(guò)訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置對(duì)待標(biāo)注圖像進(jìn)行語(yǔ)義標(biāo)注。
[0021]具體地,所述步驟II包括:將所述待標(biāo)注圖像輸入到所述經(jīng)過(guò)訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置的定位器,由所述定位器定位所述待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位;將定位出的所述待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的所述至少一個(gè)特征部位輸入到所述經(jīng)過(guò)訓(xùn)練的語(yǔ)義標(biāo)注裝置的分類(lèi)器,由所述分類(lèi)器根據(jù)所述至少一個(gè)特征部位生成所述待標(biāo)注圖像的語(yǔ)義。
[0022]具體地,所述分類(lèi)器為所述待標(biāo)注圖像生成的語(yǔ)義包括細(xì)粒度語(yǔ)義。
[0023]根據(jù)本發(fā)明的第三方面的實(shí)施例,提供了一種能夠?qū)ψ陨磉M(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置,包括:第一單元,配置為提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知;定位器,配置為將所述多幅訓(xùn)練圖像的至少一部分作為輸入,確定輸入的每幅訓(xùn)練圖像的至少一個(gè)局部區(qū)域;屬性預(yù)測(cè)器,配置為將所述定位器確定的每個(gè)局部區(qū)域作為輸入,得到輸入的各局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果;第二單元,配置為根據(jù)得到的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果以及相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,訓(xùn)練所述定位器和所述屬性預(yù)測(cè)器。
[0024]具體地,所述多幅訓(xùn)練圖像的語(yǔ)義為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。
[0025]具體地,所述粗粒度語(yǔ)義對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,不同的所述細(xì)粒度語(yǔ)義對(duì)應(yīng)于屬于該種粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象。
[0026]具體地,每個(gè)所述細(xì)粒度分類(lèi)對(duì)象包含至少一個(gè)特征部位,所述視覺(jué)屬性描述被根據(jù)其所對(duì)應(yīng)的特征部位而劃分為不同的組,所述第一單元、定位器、屬性預(yù)測(cè)器及第二單元還配置為:針對(duì)每個(gè)所述特征部位,執(zhí)行各自的操作直至收斂。
[0027]具體地,所述第一單元還配置為:對(duì)包含圖像的網(wǎng)頁(yè)進(jìn)行挖掘,得到所述多幅訓(xùn)練圖像、各訓(xùn)練圖像的語(yǔ)義標(biāo)簽和所述視覺(jué)屬性描述。
[0028]具體地,所述第二單元還配置為:針對(duì)每個(gè)所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)所述定位器和所述屬性預(yù)測(cè)器的訓(xùn)練。
[0029]具體地,所述第二單元還配置為:根據(jù)反向傳播算法,計(jì)算所述定位器和所述屬性預(yù)測(cè)器的梯度,確定或更新所述定位器和所述屬性預(yù)測(cè)器的參數(shù)。
[0030]具體地,所述圖像語(yǔ)義標(biāo)注裝置還包括:第三單元,配置為從所述多幅訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像;所述定位器還配置為,在經(jīng)過(guò)上述訓(xùn)練后,對(duì)所述第三單元選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位該幅訓(xùn)練對(duì)象所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位;所述圖像語(yǔ)義標(biāo)注裝置還包括:分類(lèi)器,配置為將所述定位器在選出的每幅訓(xùn)練圖像上定位的每個(gè)特征部位、選出的每幅訓(xùn)練圖像的已知的語(yǔ)義標(biāo)簽作為輸入,來(lái)對(duì)所述分類(lèi)器本身進(jìn)行訓(xùn)練。
[0031 ]具體地,所述分類(lèi)器包括:第一元件,配置為針對(duì)所述第三單元選出的每幅訓(xùn)練圖像,計(jì)算所述定位器定位出的每個(gè)所述特征部位的卷積特征;第二元件,配置為根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量;第三元件,配置為由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練所述分類(lèi)器。
[0032]具體地,所述分類(lèi)器還包括:第四元件,配置為計(jì)算所述第三單元選出的每幅訓(xùn)練圖像的整體的卷積特征;所述第二元件還配置為,針對(duì)所述第三單元選出的每幅訓(xùn)練圖像,根據(jù)所述第一元件計(jì)算出的該訓(xùn)練圖像的各個(gè)特征部位的卷積特征,以及所述第四元件計(jì)算出的該訓(xùn)練圖像的整體的卷積特征,為所述訓(xùn)練圖像生成所述向量。
[0033]具體地,所述定位器還配置為,在經(jīng)過(guò)上述訓(xùn)練后,在待標(biāo)注圖像上定位出該待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位;所述分類(lèi)器還配置為,將所述定位器在所述待標(biāo)注圖像上定位出的所述至少一個(gè)特征部位作為輸入,生成所述待標(biāo)注圖像的語(yǔ)義。
[0034]具體地,所述分類(lèi)器生成的所述待標(biāo)注圖像的語(yǔ)義包括細(xì)粒度語(yǔ)義。
[0035]根據(jù)本發(fā)明的第四方面的實(shí)施例,提供了一種計(jì)算機(jī)設(shè)備,包括前述的能夠?qū)ψ陨磉M(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置。
[0036]與現(xiàn)有技術(shù)相比,根據(jù)本發(fā)明的實(shí)施例的方法、裝置或計(jì)算機(jī)設(shè)備具有以下優(yōu)點(diǎn):
[0037]1.經(jīng)訓(xùn)練的定位器能夠較為準(zhǔn)確地定位圖像中的顯著性區(qū)域,由于這些顯著性區(qū)域往往體現(xiàn)著不同細(xì)粒度圖像之間的差別,例如,同是鳥(niǎo)類(lèi)的圖像,不同品種的鳥(niǎo)在羽毛顏色,嘴部顏色上會(huì)有細(xì)節(jié)上的差別,而這些差別正是體現(xiàn)在顯著性區(qū)域中。精確定位這些顯著性區(qū)域,能夠使分類(lèi)器更準(zhǔn)確地“讀”出其間的差別,精細(xì)地分類(lèi)、標(biāo)注圖像。而這是僅僅提取全圖信息進(jìn)行標(biāo)注的現(xiàn)有方式所無(wú)法做到的。
[0038]2.與需要人工介入劃定顯著性區(qū)域、提供圖像語(yǔ)義的訓(xùn)練方式不同,本發(fā)明的實(shí)施例中,定位器、屬性預(yù)測(cè)器的訓(xùn)練所需的訓(xùn)練圖像、訓(xùn)練圖像的語(yǔ)義、以及本發(fā)明實(shí)施例特有的屬性描述,都可以由計(jì)算機(jī)從互聯(lián)網(wǎng)上的網(wǎng)頁(yè)上挖掘得到,從而省去了大量的人工操作。
[0039]本發(fā)明公開(kāi)所披露的訓(xùn)練方案和語(yǔ)義標(biāo)注方案可以視需要用于圖像搜索、廣告推薦、(交通管理的)車(chē)標(biāo)識(shí)別及其它相關(guān)領(lǐng)域,用途廣泛。
【附圖說(shuō)明】
[0040]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯,其中相同的單元由相同的附圖標(biāo)記表示。
[0041]圖1示出了根據(jù)本發(fā)明的實(shí)施例的方法、裝置和計(jì)算機(jī)設(shè)備的典型應(yīng)用環(huán)境;
[0042]圖2示出了根據(jù)本發(fā)明的實(shí)施例的對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練,及對(duì)待標(biāo)注圖像進(jìn)行語(yǔ)義標(biāo)注的方法的流程圖;
[0043]圖3示出了根據(jù)本發(fā)明的實(shí)施例的能夠?qū)ψ陨磉M(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置的結(jié)構(gòu)框圖;
[0044]圖4為根據(jù)本發(fā)明的實(shí)施例的圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的特征部位的舉例示意圖;
[0045]圖5為根據(jù)本發(fā)明的實(shí)施例的對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練,并對(duì)圖像進(jìn)行語(yǔ)義標(biāo)注的模塊化示意圖。
【具體實(shí)施方式】
[0046]下面結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行詳細(xì)介紹。
[0047]首先來(lái)看本發(fā)明的一個(gè)典型的應(yīng)用環(huán)境,如圖1所示。其中示出了兩個(gè)計(jì)算機(jī)設(shè)備I和2,以及一個(gè)網(wǎng)絡(luò)3,計(jì)算機(jī)設(shè)備I和2通過(guò)網(wǎng)絡(luò)3互聯(lián),并且網(wǎng)絡(luò)3還連接著其它圖中未示出的網(wǎng)元或設(shè)備。在本例中,計(jì)算機(jī)設(shè)備I為搜索引擎運(yùn)營(yíng)商的一臺(tái)服務(wù)器,運(yùn)營(yíng)商通過(guò)該服務(wù)器維護(hù)圖像數(shù)據(jù),這些圖像數(shù)據(jù)一般是經(jīng)過(guò)圖像語(yǔ)義標(biāo)注的,從而可以由終端用戶(hù)通過(guò)計(jì)算機(jī)設(shè)備2(例如一臺(tái)個(gè)人電腦或其它智能設(shè)備)在圖像搜索時(shí)訪問(wèn)。例如,用戶(hù)通過(guò)計(jì)算機(jī)設(shè)備2搜索關(guān)鍵詞“特斯拉”,符合該語(yǔ)義的圖像就會(huì)作為搜索結(jié)果顯示在計(jì)算機(jī)設(shè)備2上。
[0048]為了不斷地更新圖像數(shù)據(jù)庫(kù),計(jì)算機(jī)設(shè)備I處就需要不斷地對(duì)新的未經(jīng)語(yǔ)義標(biāo)注的圖像(也可因此稱(chēng)為待標(biāo)注圖像)進(jìn)行語(yǔ)義標(biāo)注,于是,就需要利用下文介紹的圖像語(yǔ)義標(biāo)注裝置和訓(xùn)練、標(biāo)注方法。在一些變化例中,用戶(hù)側(cè)的計(jì)算機(jī)設(shè)備2也可以被用于對(duì)圖像的語(yǔ)義標(biāo)注,此時(shí)只需為計(jì)算機(jī)設(shè)備2也安裝/配置上下文所述的圖像語(yǔ)義標(biāo)注裝置(例如圖3所示的裝置30)。
[0049]了解了本發(fā)明的應(yīng)用環(huán)境,下面介紹根據(jù)一個(gè)實(shí)施例的對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練,以及在訓(xùn)練后用圖像語(yǔ)義標(biāo)注裝置來(lái)對(duì)待標(biāo)注圖像進(jìn)行語(yǔ)義標(biāo)注的方法,其流程圖如圖2所示。
[0050]該方法典型地運(yùn)行于圖1所示的計(jì)算機(jī)設(shè)備1(例如,圖像數(shù)據(jù)庫(kù)相關(guān)的服務(wù)器)上。
[0051]首先,在步驟S200中,提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知。
[0052]這多幅訓(xùn)練圖像的語(yǔ)義可以為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。一般地,圖像的語(yǔ)義可以是概括的說(shuō)明圖像屬于哪一類(lèi)對(duì)象,例如,“車(chē)”、“草地”、“貓”、“男人”,這類(lèi)寬泛的語(yǔ)義在上下文中稱(chēng)為粗粒度語(yǔ)義。而有些時(shí)候,我們需要在同一粗粒度語(yǔ)義下再細(xì)分不同的細(xì)粒度語(yǔ)義,例如,兩輛車(chē)的圖像的粗粒度語(yǔ)義均為“車(chē)”,而其細(xì)粒度語(yǔ)義可以一個(gè)是“特斯拉”,另一個(gè)則是“豐田”。三張貓的圖像的粗粒度語(yǔ)義均為“貓”,但可能其中一個(gè)的細(xì)粒度語(yǔ)義為“波斯貓”,其二為“加菲貓(卡通形象)”,其三為“湯姆貓(卡通形象)”,三張鳥(niǎo)的圖像的粗粒度語(yǔ)義均為“鳥(niǎo)”,但其一的細(xì)粒度語(yǔ)義可以是“海鷗”,其二為“鸚鵡”,其三為“信天翁”。
[0053]粗粒度語(yǔ)義可以對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,例如,鳥(niǎo)、狗、魚(yú)、花,而不同的細(xì)粒度語(yǔ)義可以對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象所對(duì)應(yīng)的不同的細(xì)粒度分類(lèi)對(duì)象。例如,鳥(niǎo)作為一個(gè)粗粒度分類(lèi)對(duì)象,它可以對(duì)應(yīng)海鷗、鸚鵡、信天翁等多種細(xì)粒度分類(lèi)對(duì)象。
[0054]其中,每個(gè)細(xì)粒度分類(lèi)對(duì)象可以包含至少一個(gè)特征部位,例如以鳥(niǎo)為例,每個(gè)細(xì)粒度分類(lèi)對(duì)象都可以包含至少一個(gè)特征部位,各訓(xùn)練圖像的視覺(jué)屬性描述被根據(jù)該視覺(jué)屬性描述所對(duì)應(yīng)的特征部位而劃分為不同的組。例如針對(duì)鳥(niǎo)類(lèi)的視覺(jué)屬性描述可以依據(jù)鳥(niǎo)的生理部位歸類(lèi)為頭部、胸部、翅膀、尾巴等幾個(gè)組。
[0055]定義細(xì)粒度分類(lèi)對(duì)象的特征部位對(duì)于實(shí)現(xiàn)實(shí)施例中的訓(xùn)練過(guò)程和語(yǔ)義標(biāo)注有特別的意義。典型地,同一粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象的特征部位的視覺(jué)屬性描述可以不同,或者至少有一處特征部位X,細(xì)粒度分類(lèi)對(duì)象A在該特征部位的視覺(jué)屬性描述不同于細(xì)粒度分類(lèi)對(duì)象B在該特征部位的視覺(jué)屬性描述。例如,同屬于粗粒度分類(lèi)對(duì)象“鳥(niǎo)”的不同的細(xì)粒度分類(lèi)對(duì)象“鸚鵡”和“海鷗”可以在頭部這個(gè)特征部位上的屬性有所區(qū)另Ij,比如一個(gè)扁平,一個(gè)突起等。
[0056]具體地,上下文中的視覺(jué)屬性或視覺(jué)屬性描述例如,紅色、斑點(diǎn)花紋的翅膀(對(duì)應(yīng)于特征部位翅膀),褐色、平整的頭部(對(duì)應(yīng)于特征部位頭部)、白色和黑色混合、條紋狀的尾部(對(duì)應(yīng)于特征部位尾部),黑色的眼睛(對(duì)應(yīng)于特征部位眼睛)等??梢?jiàn),視覺(jué)屬性描述介紹了圖像的局部的視覺(jué)外觀。在用數(shù)學(xué)表示時(shí),每項(xiàng)屬性都可以用“是”或“否”來(lái)表示對(duì)一個(gè)問(wèn)題的回答,這樣的問(wèn)題例如,“(鳥(niǎo)的)翅膀是紅顏色的嗎?” “(鳥(niǎo)的)頭部是平整的嗎?”“(鳥(niǎo)的)尾巴是黑色的嗎?”對(duì)每一張訓(xùn)練圖像所表達(dá)的每個(gè)特征部位,應(yīng)該都可以為其獲得針對(duì)相關(guān)問(wèn)題的答案,于是,訓(xùn)練圖像的視覺(jué)屬性描述都可以表達(dá)為一個(gè)與問(wèn)題對(duì)應(yīng)的由二進(jìn)制信息“O”或“I”表示的列表。
[0057]相應(yīng)地,該方法優(yōu)選地為每個(gè)需要定位的特征部位重復(fù)步驟S200至S208來(lái)訓(xùn)練定位器和屬性預(yù)測(cè)器直至收斂。
[0058]根據(jù)本發(fā)明的實(shí)施例,步驟S200中提供的訓(xùn)練圖片的獲得優(yōu)選地由計(jì)算機(jī)設(shè)備I通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行挖掘獲得。例如,一個(gè)對(duì)鳥(niǎo)類(lèi)進(jìn)行說(shuō)明介紹的網(wǎng)頁(yè)一般會(huì)包含以下信息:
[0059]-鳥(niǎo)的照片或圖片;
[0060]-鳥(niǎo)的品種名稱(chēng)((細(xì)粒度)語(yǔ)義標(biāo)簽);
[0061 ]-鳥(niǎo)的外形特征(類(lèi)似于上述的視覺(jué)屬性描述);
[0062]-鳥(niǎo)的習(xí)性、食物種類(lèi)等。
[0063]于是,通過(guò)文字截取和圖像截取功能,計(jì)算機(jī)設(shè)備I上的圖像語(yǔ)義標(biāo)注裝置(未示出)將可以無(wú)需人為介入地獲得大量圖像以及這些圖片的語(yǔ)義標(biāo)簽、以及視覺(jué)屬性描述。這些圖像的語(yǔ)義標(biāo)簽、視覺(jué)屬性描述自從網(wǎng)頁(yè)挖掘獲得時(shí),即是已知的,無(wú)需再由人工觀察這些圖像來(lái)輸入其語(yǔ)義標(biāo)簽和/或視覺(jué)屬性描述。另,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在現(xiàn)有的訓(xùn)練圖像的獲得或生成過(guò)程中,并沒(méi)有為訓(xùn)練圖像提供視覺(jué)屬性描述,這是本發(fā)明的實(shí)施例對(duì)領(lǐng)域的貢獻(xiàn)之一。
[0064]從網(wǎng)頁(yè)或其它網(wǎng)絡(luò)資源處挖掘獲得上述訓(xùn)練圖像、訓(xùn)練圖像的語(yǔ)義標(biāo)簽、視覺(jué)屬性描述可以依靠已知的或未來(lái)發(fā)展出的各種網(wǎng)頁(yè)解析手段,包括但不限于中國(guó)發(fā)明專(zhuān)利公開(kāi)103632388A中披露的方案,該發(fā)明專(zhuān)利公開(kāi)通過(guò)引用而整體并入本申請(qǐng),作為對(duì)步驟S200的一種實(shí)現(xiàn)方式的說(shuō)明。根據(jù)一個(gè)替代的例子,步驟S200中的訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述也可以是人工通過(guò)肉眼識(shí)別添入的,這樣做當(dāng)然可以有較高的精度保證,但效率較低,本領(lǐng)域技術(shù)人員可視情況選擇適用哪種方式。
[0065]仍參照?qǐng)D2,在步驟S200后,該方法進(jìn)入步驟S202,其中,將步驟200中提供的多幅訓(xùn)練圖像中的至少一部分訓(xùn)練圖像輸入到作為訓(xùn)練對(duì)象的圖像語(yǔ)義標(biāo)注裝置的定位器。這些訓(xùn)練圖像可以是逐個(gè)串行輸入,或者是并行輸入的,在此不做特意的限制。定位器的主要功能是,如將在后文中提及的,在圖像上對(duì)圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的特征部位進(jìn)行定位,例如,在經(jīng)過(guò)訓(xùn)練后,在一張鳥(niǎo)類(lèi)的圖像上,盡量精確地定位出頭、胸、翅膀、尾部等特征部位(因?yàn)椴煌N類(lèi)的鳥(niǎo)的外形特征主要集中在這幾個(gè)部位上)。一個(gè)典型的例子如圖4所示的,從左到右4張圖像中,101a、101b、1lc和1ld分別表示了四只鳥(niǎo)的特征部位頭部,102a、102b、102c和102d分別表示了四只鳥(niǎo)的特征部位胸部,103a、103b、103c和103d分別表示了四只鳥(niǎo)的特征部位翅膀,而104a、104b、104c和104d分別表示了四只鳥(niǎo)的特征部位尾巴。請(qǐng)注意,雖然本例中四只鳥(niǎo)(四個(gè)不同的細(xì)粒度分類(lèi)對(duì)象)都包含四個(gè)特征部位,但本發(fā)明并不要求每個(gè)訓(xùn)練圖像中所表達(dá)的細(xì)粒度分類(lèi)對(duì)象都完整地包含同樣數(shù)量的特征部位,例如,某些訓(xùn)練圖像可以只示出鳥(niǎo)的頭部和胸部,而有些訓(xùn)練圖像可以只示出鳥(niǎo)的頭部,等等。而上下文中所提及的需要定位的特征部位,則可以取這些訓(xùn)練圖像中所表達(dá)的特征部位的并集。
[0066]訓(xùn)練圖像輸入到定位器后,該方法進(jìn)入步驟S204。在步驟S204中,由定位器確定訓(xùn)練圖像的至少一個(gè)(例如,K個(gè))局部區(qū)域。根據(jù)一個(gè)實(shí)施例,該等局部區(qū)域的位置是根據(jù)定位器輸出的概率分布采樣得到??梢灶A(yù)先設(shè)定好每個(gè)局部區(qū)域具有相同的、確定的大小(例如,確定的長(zhǎng)度和寬度),于是,定位器只需要給出一個(gè)點(diǎn)(例如,局部區(qū)域的左上角)的坐標(biāo)(Xl,yl),該局部區(qū)域在訓(xùn)練圖像上就可以確定了。根據(jù)不同的例子,定位器也可以確定局部區(qū)域的中心點(diǎn)或其它特定位置的坐標(biāo),從而確定該局部區(qū)域在訓(xùn)練圖像上的位置和覆蓋范圍。可選地,定位器也可以針對(duì)每個(gè)要確定的局部區(qū)域,給出其四個(gè)角的坐標(biāo),這樣,可以無(wú)需預(yù)定義每個(gè)局部區(qū)域的大小。本領(lǐng)域技術(shù)人員可以根據(jù)需要對(duì)此進(jìn)行選擇、改變或拓展。根據(jù)一個(gè)例子,一個(gè)上述的局部區(qū)域的大小可以設(shè)置為訓(xùn)練圖像的大小的1/4,或者I/8。
[0067]在步驟S204后,該方法進(jìn)入步驟S206,其中,由屬性預(yù)測(cè)器得到輸入的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果。此處的屬性預(yù)測(cè)器可以采用一個(gè)多輸出的分類(lèi)函數(shù),由神經(jīng)網(wǎng)絡(luò)或軟件包Caffe計(jì)算得到。
[0068]隨后的步驟S208中,根據(jù)視覺(jué)屬性預(yù)測(cè)結(jié)果和步驟S200中提供的相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,對(duì)定位器和屬性預(yù)測(cè)器進(jìn)行訓(xùn)練,具體地,針對(duì)定位器確定的每個(gè)局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)定位器和屬性預(yù)測(cè)器的訓(xùn)練。
[0069]進(jìn)一步地,上述訓(xùn)練包括:根據(jù)反向傳播算法,計(jì)算定位器和屬性預(yù)測(cè)器的梯度,確定或更新定位器和屬性預(yù)測(cè)器的參數(shù)。
[0070]如前所述,該方法中,優(yōu)選地為每個(gè)需要定位的特征部位重復(fù)步驟S200-S208,直至收斂,完成對(duì)定位器和屬性預(yù)測(cè)器的訓(xùn)練。
[0071]之后的步驟S210-步驟S214是關(guān)于對(duì)分類(lèi)器的訓(xùn)練,具體包括:
[0072]在步驟S210中,由前述的多幅具有已知的語(yǔ)義(例如,已知的細(xì)粒度語(yǔ)義)和已知的視覺(jué)屬性描述的訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像,這個(gè)選擇過(guò)程可以是隨機(jī)的,或者根據(jù)用戶(hù)輸入的或系統(tǒng)預(yù)設(shè)的規(guī)則進(jìn)行針對(duì)性選擇。
[0073]之后,方法進(jìn)入步驟S212,其中,由經(jīng)過(guò)訓(xùn)練的定位器對(duì)步驟S210中選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位出該幅訓(xùn)練圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位。
[0074]隨后的步驟S214中,將為每幅選出的訓(xùn)練圖像定位的特征部位、該訓(xùn)練圖像的已知的語(yǔ)義輸入到圖像語(yǔ)義標(biāo)注裝置的分類(lèi)器,對(duì)分類(lèi)器進(jìn)行訓(xùn)練。
[0075 ] 具體地,步驟S214可以通過(guò)以下過(guò)程實(shí)現(xiàn):
[0076]針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算定位出的每個(gè)特征部位的卷積特征;
[0077]根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量;
[0078]由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練分類(lèi)器。
[0079]優(yōu)選地,該向量的生成還考慮訓(xùn)練圖像的整體的卷積特征,具體地根據(jù)這個(gè)優(yōu)選例,步驟S214還包括:針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算該訓(xùn)練圖像的整體的卷積特征。計(jì)算出的整體的卷積特征隨該幅圖像的每個(gè)特征部位的卷積特征一起用于為該訓(xùn)練圖像生成上述向量。
[0080]圖2的最后,以步驟S220和步驟S222來(lái)說(shuō)明經(jīng)訓(xùn)練定位器、屬性預(yù)測(cè)器和分類(lèi)器后,圖像語(yǔ)義標(biāo)注裝置對(duì)待標(biāo)注圖像的語(yǔ)義標(biāo)注過(guò)程。在步驟S220中,先將待標(biāo)注圖像(例如圖5中下半部所示的圖像)輸入到經(jīng)過(guò)訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置的定位器,由定位器定位待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位,例如鳥(niǎo)的頭、胸等。
[0081 ]而后的步驟S222中,將定位出的待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位輸入到經(jīng)過(guò)訓(xùn)練的語(yǔ)義標(biāo)注裝置的分類(lèi)器,由分類(lèi)器根據(jù)至少一個(gè)特征部位生成待標(biāo)注圖像的語(yǔ)義。例如,對(duì)一張信天翁的鳥(niǎo)類(lèi)圖片,最終生成的語(yǔ)義可以是“信天翁”。
[0082]至此,完成了對(duì)圖像語(yǔ)義標(biāo)注裝置的訓(xùn)練及應(yīng)用的描述。
[0083]圖3示出了根據(jù)本發(fā)明的實(shí)施例,可以對(duì)自身進(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置30的示意性結(jié)構(gòu)框圖。其具體包括,第一單元302,定位器304,屬性預(yù)測(cè)器306,第二單元308和分類(lèi)器320,其中分類(lèi)器320進(jìn)一步包括第一元件322,第二元件324,第三元件36和第四元件328。
[0084]具體地,第一單元302配置為提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知。
[0085]這多幅訓(xùn)練圖像的語(yǔ)義可以為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。一般地,圖像的語(yǔ)義可以是概括的說(shuō)明圖像屬于哪一類(lèi)對(duì)象,例如,“車(chē)”、“草地”、“貓”、“男人”,這類(lèi)寬泛的語(yǔ)義在上下文中稱(chēng)為粗粒度語(yǔ)義。而有些時(shí)候,我們需要在同一粗粒度語(yǔ)義下再細(xì)分不同的細(xì)粒度語(yǔ)義,例如,兩輛車(chē)的圖像的粗粒度語(yǔ)義均為“車(chē)”,而其細(xì)粒度語(yǔ)義可以一個(gè)是“特斯拉”,另一個(gè)則是“豐田”。三張貓的圖像的粗粒度語(yǔ)義均為“貓”,但可能其中一個(gè)的細(xì)粒度語(yǔ)義為“波斯貓”,其二為“加菲貓(卡通形象)”,其三為“湯姆貓(卡通形象)”,三張鳥(niǎo)的圖像的粗粒度語(yǔ)義均為“鳥(niǎo)”,但其一的細(xì)粒度語(yǔ)義可以是“海鷗”,其二為“鸚鵡”,其三為“信天翁”。
[0086]粗粒度語(yǔ)義可以對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,例如,鳥(niǎo)、狗、魚(yú)、花,而不同的細(xì)粒度語(yǔ)義可以對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象所對(duì)應(yīng)的不同的細(xì)粒度分類(lèi)對(duì)象。例如,鳥(niǎo)作為一個(gè)粗粒度分類(lèi)對(duì)象,它可以對(duì)應(yīng)海鷗、鸚鵡、信天翁等多種細(xì)粒度分類(lèi)對(duì)象。
[0087]其中,每個(gè)細(xì)粒度分類(lèi)對(duì)象可以包含至少一個(gè)特征部位,例如以鳥(niǎo)為例,每個(gè)細(xì)粒度分類(lèi)對(duì)象都可以包含至少一個(gè)特征部位,各訓(xùn)練圖像的視覺(jué)屬性描述被根據(jù)該視覺(jué)屬性描述所對(duì)應(yīng)的特征部位而劃分為不同的組。例如針對(duì)鳥(niǎo)類(lèi)的視覺(jué)屬性描述可以依據(jù)鳥(niǎo)的生理部位歸類(lèi)為頭部、胸部、翅膀、尾巴等幾個(gè)組。
[0088]定義細(xì)粒度分類(lèi)對(duì)象的特征部位對(duì)于實(shí)現(xiàn)實(shí)施例中的訓(xùn)練過(guò)程和語(yǔ)義標(biāo)注有特別的意義。典型地,同一粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象的特征部位的視覺(jué)屬性描述可以不同,或者至少有一處特征部位X,細(xì)粒度分類(lèi)對(duì)象A在該特征部位的視覺(jué)屬性描述不同于細(xì)粒度分類(lèi)對(duì)象B在該特征部位的視覺(jué)屬性描述。例如,同屬于粗粒度分類(lèi)對(duì)象“鳥(niǎo)”的不同的細(xì)粒度分類(lèi)對(duì)象“鸚鵡”和“海鷗”可以在頭部這個(gè)特征部位上的屬性有所區(qū)另Ij,比如一個(gè)扁平,一個(gè)突起等。
[0089]具體地,上下文中的視覺(jué)屬性或視覺(jué)屬性描述例如,紅色、斑點(diǎn)花紋的翅膀(對(duì)應(yīng)于特征部位翅膀),褐色、平整的頭部(對(duì)應(yīng)于特征部位頭部)、白色和黑色混合、條紋狀的尾部(對(duì)應(yīng)于特征部位尾部),黑色的眼睛(對(duì)應(yīng)于特征部位眼睛)等??梢?jiàn),視覺(jué)屬性描述介紹了圖像的局部的視覺(jué)外觀。在用數(shù)學(xué)表示時(shí),每項(xiàng)屬性都可以用“是”或“否”來(lái)表示對(duì)一個(gè)問(wèn)題的回答,這樣的問(wèn)題例如,“(鳥(niǎo)的)翅膀是紅顏色的嗎?” “(鳥(niǎo)的)頭部是平整的嗎?”“(鳥(niǎo)的)尾巴是黑色的嗎?”對(duì)每一張訓(xùn)練圖像所表達(dá)的每個(gè)特征部位,應(yīng)該都可以為其獲得針對(duì)相關(guān)問(wèn)題的答案,于是,訓(xùn)練圖像的視覺(jué)屬性描述都可以表達(dá)為一個(gè)與問(wèn)題對(duì)應(yīng)的由二進(jìn)制信息“O”或“I”表示的列表。
[O(M)] 相應(yīng)地,該方法優(yōu)選地為每個(gè)需要定位的特征部位重復(fù)執(zhí)行第一單元302、定位器304、屬性預(yù)測(cè)器306和第二單元308的操作來(lái)訓(xùn)練定位器304和屬性預(yù)測(cè)器306直至收斂。
[0091]根據(jù)本發(fā)明的實(shí)施例,第一單元302提供的訓(xùn)練圖片的獲得優(yōu)選地通過(guò)對(duì)網(wǎng)頁(yè)進(jìn)行挖掘獲得。例如,一個(gè)對(duì)鳥(niǎo)類(lèi)進(jìn)行說(shuō)明介紹的網(wǎng)頁(yè)一般會(huì)包含以下信息:
[0092]-鳥(niǎo)的照片或圖片;
[0093]-鳥(niǎo)的品種名稱(chēng)((細(xì)粒度)語(yǔ)義標(biāo)簽);
[0094]-鳥(niǎo)的外形特征(類(lèi)似于上述的視覺(jué)屬性描述);
[0095]-鳥(niǎo)的習(xí)性、食物種類(lèi)等。
[0096]于是,通過(guò)文字截取和圖像截取功能,計(jì)算機(jī)設(shè)備I上的圖像語(yǔ)義標(biāo)注裝置(未示出)將可以無(wú)需人為介入地獲得大量圖像以及這些圖片的語(yǔ)義標(biāo)簽、以及視覺(jué)屬性描述。這些圖像的語(yǔ)義標(biāo)簽、視覺(jué)屬性描述自從網(wǎng)頁(yè)挖掘獲得時(shí),即是已知的,無(wú)需再由人工觀察這些圖像來(lái)輸入其語(yǔ)義標(biāo)簽和/或視覺(jué)屬性描述。另,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,在現(xiàn)有的訓(xùn)練圖像的獲得或生成過(guò)程中,并沒(méi)有為訓(xùn)練圖像提供視覺(jué)屬性描述,這是本發(fā)明的實(shí)施例對(duì)領(lǐng)域的貢獻(xiàn)之一。
[0097]從網(wǎng)頁(yè)或其它網(wǎng)絡(luò)資源處挖掘獲得上述訓(xùn)練圖像、訓(xùn)練圖像的語(yǔ)義標(biāo)簽、視覺(jué)屬性描述可以依靠已知的或未來(lái)發(fā)展出的各種網(wǎng)頁(yè)解析手段,包括但不限于中國(guó)發(fā)明專(zhuān)利公開(kāi)103632388A中披露的方案,該發(fā)明專(zhuān)利公開(kāi)通過(guò)引用而整體并入本申請(qǐng),作為對(duì)第一單元302的一種實(shí)現(xiàn)方式的說(shuō)明。根據(jù)一個(gè)替代的例子,第一單元302提供的訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述也可以是人工通過(guò)肉眼識(shí)別添入的,這樣做當(dāng)然可以有較高的精度保證,但效率較低,本領(lǐng)域技術(shù)人員可視情況選擇適用哪種方式。
[0098]仍參照?qǐng)D3,第一單元302提供的訓(xùn)練圖像提供給定位器304,其中,其中,定位器304將前述的多幅訓(xùn)練圖像中的至少一部分作為輸入。這些訓(xùn)練圖像可以是逐個(gè)串行輸入,或者是并行輸入的,在此不做特意的限制。定位器的主要功能是,如將在后文中提及的,在圖像上對(duì)圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的特征部位進(jìn)行定位,例如,在經(jīng)過(guò)訓(xùn)練后,在一張鳥(niǎo)類(lèi)的圖像上,盡量精確地定位出頭、胸、翅膀、尾部等特征部位(因?yàn)椴煌N類(lèi)的鳥(niǎo)的外形特征主要集中在這幾個(gè)部位上)。一個(gè)典型的例子如圖4所示的,從左到右4張圖像中,101a、101b、1lc和1ld分別表示了四只鳥(niǎo)的特征部位頭部,102a、102b、102c和102d分別表示了四只鳥(niǎo)的特征部位胸部,103a、103b、103c和103d分別表示了四只鳥(niǎo)的特征部位翅膀,而104a、104b、104c和104d分別表示了四只鳥(niǎo)的特征部位尾巴。請(qǐng)注意,雖然本例中四只鳥(niǎo)(四個(gè)不同的細(xì)粒度分類(lèi)對(duì)象)都包含四個(gè)特征部位,但本發(fā)明并不要求每個(gè)訓(xùn)練圖像中所表達(dá)的細(xì)粒度分類(lèi)對(duì)象都完整地包含同樣數(shù)量的特征部位,例如,某些訓(xùn)練圖像可以只示出鳥(niǎo)的頭部和胸部,而有些訓(xùn)練圖像可以只示出鳥(niǎo)的頭部,等等。而上下文中所提及的需要定位的特征部位,則可以取這些訓(xùn)練圖像中所表達(dá)的特征部位的并集。
[0099]得到上述輸入后,定位器304確定輸入的各個(gè)訓(xùn)練圖像中每幅訓(xùn)練圖像的至少一個(gè)(例如,K個(gè))局部區(qū)域。根據(jù)一個(gè)實(shí)施例,該等局部區(qū)域的位置隨機(jī)采樣自定位器輸出的概率分布??梢灶A(yù)先設(shè)定好每個(gè)局部區(qū)域具有相同的、確定的大小(例如,確定的長(zhǎng)度和寬度),于是,定位器只需要給出一個(gè)點(diǎn)(例如,局部區(qū)域的左上角)的坐標(biāo)Ul,yl),該局部區(qū)域在訓(xùn)練圖像上就可以確定了。根據(jù)不同的例子,定位器也可以確定局部區(qū)域的中心點(diǎn)或其它特定位置的坐標(biāo),從而確定該局部區(qū)域在訓(xùn)練圖像上的位置和覆蓋范圍??蛇x地,定位器也可以針對(duì)每個(gè)要確定的局部區(qū)域,給出其四個(gè)角的坐標(biāo),這樣,可以無(wú)需預(yù)定義每個(gè)局部區(qū)域的大小。本領(lǐng)域技術(shù)人員可以根據(jù)需要對(duì)此進(jìn)行選擇、改變或拓展。根據(jù)一個(gè)例子,一個(gè)上述的局部區(qū)域的大小可以設(shè)置為訓(xùn)練圖像的大小的1/4,或者1/8。
[0100]而后,由屬性預(yù)測(cè)器306將確定的每個(gè)局部區(qū)域作為輸入一個(gè)具有多輸出節(jié)點(diǎn)的神經(jīng)網(wǎng)絡(luò),得到相應(yīng)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果,并提供給第二單元308。
[0101]第二單元308根據(jù)視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,對(duì)定位器和屬性預(yù)測(cè)器進(jìn)行訓(xùn)練,具體地,針對(duì)定位器確定的每個(gè)局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)定位器和屬性預(yù)測(cè)器的訓(xùn)練。
[0102]進(jìn)一步地,上述訓(xùn)練包括:根據(jù)反向傳播算法,計(jì)算定位器和屬性預(yù)測(cè)器的梯度,確定或更新定位器和屬性預(yù)測(cè)器的參數(shù)。
[0103]如前所述,優(yōu)選地為每個(gè)需要定位的特征部位重復(fù)執(zhí)行第一單元、定位器、屬性預(yù)測(cè)器和第二單元的操作直至收斂,完成對(duì)定位器304和屬性預(yù)測(cè)器306的訓(xùn)練。
[0104]對(duì)分類(lèi)器320的訓(xùn)練主要涉及以下過(guò)程:
[0105]首先,由第三單元310從前述的多幅具有已知的語(yǔ)義(例如,已知的細(xì)粒度語(yǔ)義)和已知的視覺(jué)屬性描述的訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像,這個(gè)選擇過(guò)程可以是隨機(jī)的,或者根據(jù)用戶(hù)輸入的或系統(tǒng)預(yù)設(shè)的規(guī)則進(jìn)行針對(duì)性選擇。
[0106]之后,由經(jīng)過(guò)訓(xùn)練的定位器304對(duì)第三單元310選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位出該幅訓(xùn)練圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位。
[0107]最后,將為每幅選出的訓(xùn)練圖像定位的特征部位、該訓(xùn)練圖像的已知的語(yǔ)義輸入到圖像語(yǔ)義標(biāo)注裝置30的分類(lèi)器320,對(duì)分類(lèi)器320進(jìn)行訓(xùn)練。
[0108]具體地,分類(lèi)器320包括以下元件以完成對(duì)自身的訓(xùn)練:
[0109]第一元件322:配置為針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算定位出的每個(gè)特征部位的卷積特征;
[0110]第二元件324:配置為根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量;
[0111]第三元件326:配置為由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練分類(lèi)器320。
[0112]優(yōu)選地,第二元件324生成該向量時(shí)還考慮訓(xùn)練圖像的整體的卷積特征,具體地,根據(jù)這個(gè)優(yōu)選例,分類(lèi)器320還包括一個(gè)第四元件328,其配置為針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算該訓(xùn)練圖像的整體的卷積特征。計(jì)算出的整體的卷積特征也提供給第二元件324,于是可以隨該幅圖像的每個(gè)特征部位的卷積特征一起用于為該訓(xùn)練圖像生成上述向量。
[0113]對(duì)分類(lèi)器320的訓(xùn)練也可以進(jìn)行重復(fù)直至收斂。
[0114]定位器304和分類(lèi)器320可在訓(xùn)練后進(jìn)一步用于對(duì)待標(biāo)注圖像的語(yǔ)義標(biāo)注。具體地,在輸入了一幅待標(biāo)注圖像(例如圖5中下半部所示的圖像)后,該圖像將先到達(dá)經(jīng)過(guò)訓(xùn)練的定位器304,由定位器304定位待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位,例如鳥(niǎo)的頭、胸等。這里,定位器304可以針對(duì)每個(gè)特征部位應(yīng)用之前訓(xùn)練過(guò)程中生成的對(duì)應(yīng)該特征部位的定位模型。
[0115]而后,定位器304將對(duì)待標(biāo)注圖像的特征部位的定位結(jié)果提供給分類(lèi)器320,由分類(lèi)器320根據(jù)定位器304定位出的至少一個(gè)特征部位來(lái)生成待標(biāo)注圖像的語(yǔ)義。例如,對(duì)一張信天翁的鳥(niǎo)類(lèi)圖片,最終生成的語(yǔ)義可以是“信天翁”。
[0116]至此,完成了對(duì)圖像語(yǔ)義標(biāo)注裝置30的訓(xùn)練及應(yīng)用的描述。
[0117]圖5從另一個(gè)角度示出了上文所述的訓(xùn)練和標(biāo)注過(guò)程,簡(jiǎn)言之,在訓(xùn)練的第一個(gè)階段,同時(shí)訓(xùn)練定位器和屬性預(yù)測(cè)器。當(dāng)屬性預(yù)測(cè)器預(yù)測(cè)得到的視覺(jué)屬性預(yù)測(cè)結(jié)果與訓(xùn)練圖像的已知的視覺(jué)屬性描述一致的時(shí)候,可以認(rèn)為定位器選擇到的局部區(qū)域是最適合判別描述該部位屬性的區(qū)域,也即準(zhǔn)確地定位了該特征部位。對(duì)定位器的訓(xùn)練得到多個(gè)定位模型,每個(gè)定位模型對(duì)應(yīng)于一個(gè)特征部位。
[0118]在訓(xùn)練的第二個(gè)階段,訓(xùn)練分類(lèi)器,獲得分類(lèi)模型。其中,對(duì)選出的各訓(xùn)練圖像中的每個(gè),提取基于全圖的圖像信息,以及基于每個(gè)特征部位的局部信息。將所有提取到的信息連接為一個(gè)高維向量來(lái)訓(xùn)練分類(lèi)器,目的是使分類(lèi)器得到的細(xì)粒度語(yǔ)義與相應(yīng)的訓(xùn)練圖像已知的語(yǔ)義相符。
[0119]圖5下部示出了訓(xùn)練后的語(yǔ)義標(biāo)注過(guò)程,根據(jù)前面定位器得到的定位模型,在待標(biāo)注圖像上定位出多個(gè)特征部位,再利用訓(xùn)練后的分類(lèi)器來(lái)預(yù)測(cè)出該待標(biāo)注圖像的細(xì)粒度語(yǔ)義。
[0120]雖然示例性實(shí)施例可以有多種修改和替換形式,但是在附圖中以舉例的方式示出了其中的一些實(shí)施例,并且將在這里對(duì)其進(jìn)行詳細(xì)描述。但是應(yīng)當(dāng)理解的是,并不意圖將示例性實(shí)施例限制到所公開(kāi)的具體形式,相反,示例性實(shí)施例意圖涵蓋落在權(quán)利要求書(shū)的范圍內(nèi)的所有修改、等效方案和替換方案。相同的附圖標(biāo)記在各幅圖的描述中始終指代相同的單元。
[0121]在更加詳細(xì)地討論示例性實(shí)施例之前應(yīng)當(dāng)提到的是,一些示例性實(shí)施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項(xiàng)操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時(shí)實(shí)施。此外,各項(xiàng)操作的順序可以被重新安排。當(dāng)其操作完成時(shí)所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對(duì)應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
[0122]后面所討論的方法(其中一些通過(guò)流程圖示出)可以通過(guò)硬件、軟件、固件、中間件、微代碼、硬件描述語(yǔ)言或者其任意組合來(lái)實(shí)施。當(dāng)用軟件、固件、中間件或微代碼來(lái)實(shí)施時(shí),用以實(shí)施必要任務(wù)的程序代碼或代碼段可以被存儲(chǔ)在機(jī)器或計(jì)算機(jī)可讀介質(zhì)(比如存儲(chǔ)介質(zhì))中。(一個(gè)或多個(gè))處理器可以實(shí)施必要的任務(wù)。
[0123]這里所公開(kāi)的具體結(jié)構(gòu)和功能細(xì)節(jié)僅僅是代表性的,并且是用于描述本發(fā)明的示例性實(shí)施例的目的。但是本發(fā)明可以通過(guò)許多替換形式來(lái)具體實(shí)現(xiàn),并且不應(yīng)當(dāng)被解釋成僅僅受限于這里所闡述的實(shí)施例。
[0124]應(yīng)當(dāng)理解的是,雖然在這里可能使用了術(shù)語(yǔ)“第一”、“第二”等等來(lái)描述各個(gè)單元,但是這些單元不應(yīng)當(dāng)受這些術(shù)語(yǔ)限制。使用這些術(shù)語(yǔ)僅僅是為了將一個(gè)單元與另一個(gè)單元進(jìn)行區(qū)分。舉例來(lái)說(shuō),在不背離示例性實(shí)施例的范圍的情況下,第一單元可以被稱(chēng)為第二單元,并且類(lèi)似地第二單元可以被稱(chēng)為第一單元。這里所使用的術(shù)語(yǔ)“和/或”包括其中一個(gè)或更多所列出的相關(guān)聯(lián)項(xiàng)目的任意和所有組合。
[0125]這里所使用的術(shù)語(yǔ)僅僅是為了描述具體實(shí)施例而不意圖限制示例性實(shí)施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個(gè)”、“一項(xiàng)”還意圖包括復(fù)數(shù)。還應(yīng)當(dāng)理解的是,這里所使用的術(shù)語(yǔ)“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個(gè)或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
[0126]還應(yīng)當(dāng)提到的是,在一些替換實(shí)現(xiàn)方式中,所提到的功能/動(dòng)作可以按照不同于附圖中標(biāo)示的順序發(fā)生。舉例來(lái)說(shuō),取決于所涉及的功能/動(dòng)作,相繼示出的兩幅圖實(shí)際上可以基本上同時(shí)執(zhí)行或者有時(shí)可以按照相反的順序來(lái)執(zhí)行。
[0127]除非另行定義,否則這里使用的所有術(shù)語(yǔ)(包括技術(shù)和科學(xué)術(shù)語(yǔ))都具有與示例性實(shí)施例所屬領(lǐng)域內(nèi)的技術(shù)人員通常所理解的相同的含義。還應(yīng)當(dāng)理解的是,除非在這里被明確定義,否則例如在通常使用的字典中定義的那些術(shù)語(yǔ)應(yīng)當(dāng)被解釋成具有與其在相關(guān)領(lǐng)域的上下文中的含義相一致的含義,而不應(yīng)按照理想化的或者過(guò)于正式的意義來(lái)解釋。
[0128]示例性實(shí)施例的一些部分和相應(yīng)的詳細(xì)描述是通過(guò)計(jì)算機(jī)存儲(chǔ)器內(nèi)的軟件或算法以及對(duì)于數(shù)據(jù)比特的操作的符號(hào)表示而給出的。這些描述和表示是本領(lǐng)域技術(shù)人員用以向本領(lǐng)域其他技術(shù)人員有效地傳達(dá)其工作實(shí)質(zhì)的描述和表示。正如其通常被使用的那樣,這里所使用的術(shù)語(yǔ)“算法”被設(shè)想成獲得所期望的結(jié)果的自相一致的步驟序列。所述步驟是需要對(duì)物理數(shù)量進(jìn)行物理操縱的那些步驟。通常而非必要的是,這些數(shù)量采取能夠被存儲(chǔ)、傳輸、組合、比較以及按照其他方式被操縱的光學(xué)、電氣或磁性信號(hào)的形式。主要出于通常使用的原因,已經(jīng)證明有時(shí)把這些信號(hào)稱(chēng)作比特、數(shù)值、元素、符號(hào)、字符、項(xiàng)、數(shù)字等等是便利的。
[0129]在后面的描述中將參照可以被實(shí)施為程序模塊或功能處理的動(dòng)作以及操作的符號(hào)表示(例如以流程圖的形式)來(lái)描述說(shuō)明性實(shí)施例,所述程序模塊或功能處理包括實(shí)施特定任務(wù)或者實(shí)施特定抽象數(shù)據(jù)類(lèi)型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等,并且可以利用現(xiàn)有網(wǎng)絡(luò)單元處的現(xiàn)有硬件來(lái)實(shí)施。這樣的現(xiàn)有硬件可以包括一個(gè)或更多中央處理單元(CPU)、數(shù)字信號(hào)處理器(DSP)、專(zhuān)用集成電路、現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA)計(jì)算機(jī)等等。
[0130]但是應(yīng)當(dāng)認(rèn)識(shí)到,所有這些以及類(lèi)似的術(shù)語(yǔ)應(yīng)當(dāng)與適當(dāng)?shù)奈锢頂?shù)量相關(guān)聯(lián),并且僅僅是被應(yīng)用于這些數(shù)量的便利標(biāo)簽。除非明確地另行聲明或者從討論中可以明顯看出,否則例如“處理”、“計(jì)算”、“確定”或“顯示”等術(shù)語(yǔ)指的是計(jì)算機(jī)系統(tǒng)或類(lèi)似的電子計(jì)算設(shè)備的動(dòng)作和處理,其對(duì)被表示為所述計(jì)算機(jī)系統(tǒng)的寄存器和存儲(chǔ)器內(nèi)的物理、電子數(shù)量的數(shù)據(jù)進(jìn)行操縱,并且將其變換成被類(lèi)似地表示為所述計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或寄存器或者其他此類(lèi)信息存儲(chǔ)、傳送或顯示設(shè)備內(nèi)的物理數(shù)量的其他數(shù)據(jù)。
[0131]還應(yīng)當(dāng)提到的是,示例性實(shí)施例的軟件實(shí)施的方面通常被編碼在某種形式的程序存儲(chǔ)介質(zhì)上或者通過(guò)某種類(lèi)型的傳送介質(zhì)來(lái)實(shí)施。所述程序存儲(chǔ)介質(zhì)可以是磁性(例如軟盤(pán)或硬盤(pán)驅(qū)動(dòng)器)或光學(xué)(例如緊致盤(pán)只讀存儲(chǔ)器或“CD ROM”)存儲(chǔ)介質(zhì),并且可以是只讀或隨機(jī)存取存儲(chǔ)介質(zhì)。類(lèi)似地,所述傳送介質(zhì)可以是雙絞線(xiàn)、同軸電纜、光纖或者本領(lǐng)域內(nèi)已知的某種其他適當(dāng)?shù)膫魉徒橘|(zhì)。示例性實(shí)施例不受任何給定實(shí)現(xiàn)方式的這些方面的限制。
[0132]處理器和存儲(chǔ)器可以一同操作來(lái)運(yùn)行裝置功能。舉例來(lái)說(shuō),存儲(chǔ)器可以存儲(chǔ)關(guān)于裝置功能的代碼段。所述代碼段又可以由處理器執(zhí)行。此外,存儲(chǔ)器可以存儲(chǔ)處理變量和常數(shù)以供處理器使用。
[0133]需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實(shí)施,例如,其中的硬件可采用專(zhuān)用集成電路(ASIC)或任何其他類(lèi)似硬件設(shè)備來(lái)實(shí)現(xiàn)。在一個(gè)實(shí)施例中,本發(fā)明的軟件程序可以通過(guò)處理器執(zhí)行以實(shí)現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲(chǔ)到計(jì)算機(jī)可讀記錄介質(zhì)中,例如,RAM存儲(chǔ)器,磁或光驅(qū)動(dòng)器或軟磁盤(pán)及類(lèi)似設(shè)備。另外,本發(fā)明的一些步驟或功能可采用硬件來(lái)實(shí)現(xiàn),例如,作為與處理器配合從而執(zhí)行各個(gè)步驟或功能的電路。
[0134]對(duì)于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實(shí)施例的細(xì)節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實(shí)現(xiàn)本發(fā)明。因此,無(wú)論從哪一點(diǎn)來(lái)看,均應(yīng)將實(shí)施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說(shuō)明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應(yīng)將權(quán)利要求中的任何附圖標(biāo)記視為限制所涉及的權(quán)利要求。此夕卜,顯然“包括”一詞不排除其他步驟,單數(shù)不排除復(fù)數(shù)。裝置權(quán)利要求中陳述的多個(gè)裝置也可以由一個(gè)裝置通過(guò)軟件或者硬件來(lái)實(shí)現(xiàn)。第一,第二等詞語(yǔ)用來(lái)表示名稱(chēng),而并不表示任何特定的順序。
【主權(quán)項(xiàng)】
1.一種對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練的方法,包括: a.提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知; b.將至少部分所述訓(xùn)練圖像輸入到所述圖像語(yǔ)義標(biāo)注裝置的定位器; c.由所述定位器確定輸入的每幅訓(xùn)練圖像的至少一個(gè)局部區(qū)域,并將所確定的各個(gè)局部區(qū)域輸入到所述圖像語(yǔ)義標(biāo)注裝置的屬性預(yù)測(cè)器; d.由所述屬性預(yù)測(cè)器得到輸入的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果; e.根據(jù)得到的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果以及相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,訓(xùn)練所述定位器和所述屬性預(yù)測(cè)器。2.如權(quán)利要求1所述的方法,其中: 所述多幅訓(xùn)練圖像的語(yǔ)義為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。3.如權(quán)利要求2所述的方法,其中: 所述粗粒度語(yǔ)義對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,不同的所述細(xì)粒度語(yǔ)義對(duì)應(yīng)于屬于該種粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象。4.如權(quán)利要求3所述的方法,其中: 每個(gè)所述細(xì)粒度分類(lèi)對(duì)象包含至少一個(gè)特征部位,所述視覺(jué)屬性描述被根據(jù)其所對(duì)應(yīng)的特征部位而劃分為不同的組,所述方法包括: 針對(duì)每個(gè)所述特征部位,重復(fù)所述步驟b至d直至收斂。5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,所述步驟a包括: 對(duì)包含圖像的網(wǎng)頁(yè)進(jìn)行挖掘,得到所述多幅訓(xùn)練圖像、各訓(xùn)練圖像的所述語(yǔ)義標(biāo)簽和所述視覺(jué)屬性描述。6.根據(jù)權(quán)利要求1至5中任一項(xiàng)所述的方法,所述步驟e包括: 針對(duì)每個(gè)所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)所述定位器和所述屬性預(yù)測(cè)器的訓(xùn)練。7.根據(jù)權(quán)利要求6所述的方法,所述步驟e還包括: 根據(jù)反向傳播算法,計(jì)算所述定位器和所述屬性預(yù)測(cè)器的梯度,確定或更新所述定位器和所述屬性預(yù)測(cè)器的參數(shù)。8.根據(jù)權(quán)利要求4所述的方法,還包括: f.從所述多幅訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像; g.由經(jīng)過(guò)訓(xùn)練的所述定位器對(duì)選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位該幅訓(xùn)練圖像所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位; h.將為每幅選出的訓(xùn)練圖像定位的特征部位、該訓(xùn)練圖像的已知的語(yǔ)義標(biāo)簽輸入到所述圖像語(yǔ)義標(biāo)注裝置的分類(lèi)器,對(duì)所述分類(lèi)器進(jìn)行訓(xùn)練。9.根據(jù)權(quán)利要求8所述的方法,所述步驟h包括: 針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算定位出的每個(gè)特征部位的卷積特征; 根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量; 由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練所述分類(lèi)器。10.根據(jù)權(quán)利要求9所述的方法,所述步驟h還包括: 針對(duì)每幅選出的訓(xùn)練圖像,計(jì)算該訓(xùn)練圖像的整體的卷積特征; 所述為該幅圖像生成向量的步驟還包括: 根據(jù)計(jì)算出的該幅圖像的整體的卷積特征,以及計(jì)算出的該幅圖像的每個(gè)特征部位的卷積特征,為該訓(xùn)練圖像生成所述向量。11.一種圖像語(yǔ)義標(biāo)注方法,包括: 1.根據(jù)權(quán)利要求1至10中任一項(xiàng)所述的方法對(duì)圖像語(yǔ)義標(biāo)注裝置進(jìn)行訓(xùn)練; I1.由所述經(jīng)過(guò)訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置對(duì)待標(biāo)注圖像進(jìn)行語(yǔ)義標(biāo)注。12.根據(jù)權(quán)利要求11所述的方法,所述步驟II包括: 將所述待標(biāo)注圖像輸入到所述經(jīng)過(guò)訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置的定位器,由所述定位器定位所述待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位; 將定位出的所述待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的所述至少一個(gè)特征部位輸入到所述經(jīng)過(guò)訓(xùn)練的語(yǔ)義標(biāo)注裝置的分類(lèi)器,由所述分類(lèi)器根據(jù)所述至少一個(gè)特征部位生成所述待標(biāo)注圖像的語(yǔ)義。13.根據(jù)權(quán)利要求12所述的方法,其中,所述分類(lèi)器為所述待標(biāo)注圖像生成的語(yǔ)義包括細(xì)粒度語(yǔ)義。14.一種能夠?qū)ψ陨磉M(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置,包括: 第一單元,配置為提供多幅訓(xùn)練圖像,各訓(xùn)練圖像的語(yǔ)義和視覺(jué)屬性描述已知; 定位器,配置為將所述多幅訓(xùn)練圖像的至少一部分作為輸入,確定輸入的每幅訓(xùn)練圖像的至少一個(gè)局部區(qū)域; 屬性預(yù)測(cè)器,配置為將所述定位器確定的每個(gè)局部區(qū)域作為輸入,得到輸入的各局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果; 第二單元,配置為根據(jù)得到的每個(gè)局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果以及相應(yīng)訓(xùn)練圖像的已知的視覺(jué)屬性描述,訓(xùn)練所述定位器和所述屬性預(yù)測(cè)器。15.根據(jù)權(quán)利要求14所述的圖像語(yǔ)義標(biāo)注裝置,其中: 所述多幅訓(xùn)練圖像的語(yǔ)義為對(duì)應(yīng)于同一粗粒度語(yǔ)義的不完全相同的細(xì)粒度語(yǔ)義。16.根據(jù)權(quán)利要求15所述的圖像語(yǔ)義標(biāo)注裝置,其中: 所述粗粒度語(yǔ)義對(duì)應(yīng)于一種粗粒度分類(lèi)對(duì)象,不同的所述細(xì)粒度語(yǔ)義對(duì)應(yīng)于屬于該種粗粒度分類(lèi)對(duì)象的不同的細(xì)粒度分類(lèi)對(duì)象。17.根據(jù)權(quán)利要求16所述的圖像語(yǔ)義標(biāo)注裝置,其中: 每個(gè)所述細(xì)粒度分類(lèi)對(duì)象包含至少一個(gè)特征部位,所述視覺(jué)屬性描述被根據(jù)其所對(duì)應(yīng)的特征部位而劃分為不同的組,所述定位器、屬性預(yù)測(cè)器及第二單元還配置為: 針對(duì)每個(gè)所述特征部位,執(zhí)行各自的操作直至收斂。18.根據(jù)權(quán)利要求14至17中任一項(xiàng)所述的圖像語(yǔ)義標(biāo)注裝置,所述第一單元還配置為: 對(duì)包含圖像的網(wǎng)頁(yè)進(jìn)行挖掘,得到所述多幅訓(xùn)練圖像、各訓(xùn)練圖像的語(yǔ)義標(biāo)簽和所述視覺(jué)屬性描述。19.根據(jù)權(quán)利要求14至18中任一項(xiàng)所述的圖像語(yǔ)義標(biāo)注裝置,所述第二單元還配置為: 針對(duì)每個(gè)所述局部區(qū)域,根據(jù)該局部區(qū)域的視覺(jué)屬性預(yù)測(cè)結(jié)果和相應(yīng)訓(xùn)練圖像的視覺(jué)屬性描述,計(jì)算損失函數(shù),用于對(duì)所述定位器和所述屬性預(yù)測(cè)器的訓(xùn)練。20.根據(jù)權(quán)利要求19所述的圖像語(yǔ)義標(biāo)注裝置,所述第二單元還配置為: 根據(jù)反向傳播算法,計(jì)算所述定位器和所述屬性預(yù)測(cè)器的梯度,確定或更新所述定位器和所述屬性預(yù)測(cè)器的參數(shù)。21.根據(jù)權(quán)利要求17所述的圖像語(yǔ)義標(biāo)注裝置,還包括: 第三單元,配置為從所述多幅訓(xùn)練圖像中選取至少一部分訓(xùn)練圖像; 所述定位器還配置為,在經(jīng)過(guò)上述訓(xùn)練后,對(duì)所述第三單元選出的每幅訓(xùn)練圖像進(jìn)行處理,從而在該幅訓(xùn)練圖像上定位該幅訓(xùn)練對(duì)象所對(duì)應(yīng)的細(xì)粒度分類(lèi)對(duì)象的至少一個(gè)特征部位; 所述圖像語(yǔ)義標(biāo)注裝置還包括: 分類(lèi)器,配置為將所述定位器在選出的每幅訓(xùn)練圖像上定位的每個(gè)特征部位、選出的每幅訓(xùn)練圖像的已知的語(yǔ)義標(biāo)簽作為輸入,來(lái)對(duì)所述分類(lèi)器本身進(jìn)行訓(xùn)練。22.根據(jù)權(quán)利要求21所述的圖像語(yǔ)義標(biāo)注裝置,所述分類(lèi)器包括: 第一元件,配置為針對(duì)所述第三單元選出的每幅訓(xùn)練圖像,計(jì)算所述定位器定位出的每個(gè)所述特征部位的卷積特征; 第二元件,配置為根據(jù)計(jì)算出的每個(gè)特征部位的卷積特征,為該幅訓(xùn)練圖像生成向量; 第三元件,配置為由支持向量機(jī)來(lái)根據(jù)所生成的向量來(lái)訓(xùn)練所述分類(lèi)器。23.根據(jù)權(quán)利要求22所述的圖像語(yǔ)義標(biāo)注裝置,其中,所述分類(lèi)器還包括: 第四元件,配置為計(jì)算所述第三單元選出的每幅訓(xùn)練圖像的整體的卷積特征; 所述第二元件還配置為,針對(duì)所述第三單元選出的每幅訓(xùn)練圖像,根據(jù)所述第一元件計(jì)算出的該訓(xùn)練圖像的各個(gè)特征部位的卷積特征,以及所述第四元件計(jì)算出的該訓(xùn)練圖像的整體的卷積特征,為所述訓(xùn)練圖像生成所述向量。24.根據(jù)權(quán)利要求14至23中任一項(xiàng)所述的圖像語(yǔ)義標(biāo)注裝置,其中: 所述定位器還配置為,在經(jīng)過(guò)上述訓(xùn)練后,在待標(biāo)注圖像上定位出該待標(biāo)注圖像所對(duì)應(yīng)的細(xì)粒度對(duì)象的至少一個(gè)特征部位; 所述分類(lèi)器還配置為,將所述定位器在所述待標(biāo)注圖像上定位出的所述至少一個(gè)特征部位作為輸入,生成所述待標(biāo)注圖像的語(yǔ)義。25.根據(jù)權(quán)利要求24所述的圖像語(yǔ)義標(biāo)注裝置,其中,所述分類(lèi)器生成的所述待標(biāo)注圖像的語(yǔ)義包括細(xì)粒度語(yǔ)義。26.—種計(jì)算機(jī)設(shè)備,包括如權(quán)利要求14至25中任一項(xiàng)所述的能夠?qū)ψ陨磉M(jìn)行訓(xùn)練的圖像語(yǔ)義標(biāo)注裝置。
【文檔編號(hào)】G06K9/32GK105930841SQ201610320009
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年5月13日
【發(fā)明人】劉霄, 王江, 文石磊, 丁二銳
【申請(qǐng)人】百度在線(xiàn)網(wǎng)絡(luò)技術(shù)(北京)有限公司