亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法與流程

文檔序號:11200258閱讀:539來源:國知局
一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法與流程

本發(fā)明涉及圖像檢索領(lǐng)域,尤其是涉及了一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法。



背景技術(shù):

圖像檢索常用于日常搜索、公安系統(tǒng)、醫(yī)學(xué)、紡織業(yè)等領(lǐng)域,具體地,例如谷歌的圖片搜索功能,導(dǎo)入圖片得到圖片相關(guān)內(nèi)容或其他相關(guān)圖像,使得人們可以獲得與其同類的圖像,包括同一對象的各種藝術(shù)表現(xiàn)。應(yīng)用于公安系統(tǒng)可以根據(jù)肖像畫檢索到嫌疑人其他相關(guān)信息加速破案進(jìn)程,應(yīng)用于數(shù)字化圖書館快速檢索藏書信息。除此之外,醫(yī)學(xué)領(lǐng)域上,圖像檢索可以幫助將書本上對器官或細(xì)胞的圖形化描述與該物體的實際形態(tài)相對應(yīng),提高研究和識別的精確度和效率。計算機視覺的最新進(jìn)展在各種對象識別任務(wù)上都達(dá)到了令人滿意的準(zhǔn)確性,然而,這個領(lǐng)域的大部分工作都集中在理解日常場景的攝影圖像,往往無法正確的識別物體的不同藝術(shù)表現(xiàn)。

本發(fā)明提出了一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法,創(chuàng)建一個數(shù)據(jù)集,作為測試平臺,研究不同藝術(shù)媒介上的藝術(shù)表現(xiàn)。首先探索不同藝術(shù)媒介之間的對象表示之間的關(guān)系,將其視為域名轉(zhuǎn)移問題,并測量一種媒介中對象的哪方面知識可以應(yīng)用于一個未知媒介中的程度,除了對象之外,還通過比較情感、媒介分類的不同特征和使用風(fēng)格標(biāo)簽來考慮風(fēng)格和美學(xué),以改善在其他藝術(shù)數(shù)據(jù)集上的美學(xué)預(yù)測任務(wù),最后結(jié)合學(xué)習(xí)特征空間的實驗來構(gòu)建一個特定于任務(wù)的搜索引擎,可以根據(jù)內(nèi)容,情感或媒介相似性搜索圖像。本發(fā)明突破了圖像檢索僅針對日常攝影的局限性,提高圖像檢索的通用性,除日常攝像場景外,不同藝術(shù)表現(xiàn)形式也可以被識別并提取出來,從而提高了計算機對藝術(shù)領(lǐng)域、美學(xué)的認(rèn)知度,將機器視覺的視野擴展到藝術(shù)的豐富領(lǐng)域。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有方法無法認(rèn)知藝術(shù)表現(xiàn)的問題,本發(fā)明創(chuàng)建一個數(shù)據(jù)集,作為測試平臺,研究不同藝術(shù)媒介上的藝術(shù)表現(xiàn),提高了圖像檢索的通用性,除了日常攝像場景,不同藝術(shù)表現(xiàn)形式也可以被識別并提取出來,從而提高了計算機對藝術(shù)領(lǐng)域、美學(xué)的認(rèn)知度,將機器視覺的視野擴展到藝術(shù)的豐富領(lǐng)域。

為解決上述問題,本發(fā)明提供一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法,其主要內(nèi)容包括:

(一)artdata數(shù)據(jù)集;

(二)注釋傳遞途徑;

(三)藝術(shù)圖像檢索。

其中,所述的artdata數(shù)據(jù)集,是以數(shù)據(jù)庫方式,收錄了世界古代、近現(xiàn)代以及當(dāng)代大部分的藝術(shù)品信息資源、高質(zhì)量圖片數(shù)據(jù),以及藝術(shù)家信息,artdata的圖像分為項目,分類的基本單位,每個項目與元數(shù)據(jù)相關(guān)聯(lián),包括標(biāo)題,描述和幾個嘈雜的用戶提供的標(biāo)簽,涵蓋廣泛的風(fēng)格,媒介和情感,提高了對象分類器的通用性,本方法在artdata中選擇三個屬性類別,包括媒介屬性,情感屬性和內(nèi)容屬性,并且對于其嘈雜的標(biāo)簽,為提高分辨的準(zhǔn)確性,選擇依靠人類專家來收集標(biāo)簽。

其中,所述的注釋傳遞途徑,混合人類介入的策略逐步學(xué)習(xí)每個屬性的二進(jìn)制分類器,混合注釋策略是基于大規(guī)模的場景視覺數(shù)據(jù)集注釋傳遞途徑的,在每個步驟中,人們使用單個二進(jìn)制屬性標(biāo)簽在數(shù)據(jù)集中標(biāo)記最多信息的樣本,所得到的標(biāo)簽被添加到每個分類器的訓(xùn)練集中以改善其識別力,然后,分類器給圖像排序,包含最多信息的圖像被送到下一次迭代,在四次迭代之后,最終的分類器對整個數(shù)據(jù)集重新評分,并且假定超過某個分?jǐn)?shù)閾值的圖像為正,選擇最終閾值以滿足一定的準(zhǔn)確度和召回目標(biāo),對于希望收集的每個屬性,重復(fù)整個過程。

進(jìn)一步地,所述的人類介入系統(tǒng),系統(tǒng)的核心是人工注釋任務(wù),獨立收集每個屬性的注釋,利用亞馬遜土耳其機器人,人群工作者完成人類智力任務(wù)以獲得小額現(xiàn)金支付,在給定屬性的每個人工智能任務(wù)中,顯示精選的正/負(fù)示樣例圖像,并收集50個二進(jìn)制圖像注釋,工作人員判斷每個圖像是否具有感興趣的屬性,每個任務(wù)一次只收集一個屬性的標(biāo)簽,為了質(zhì)量控制,將每個圖像分配給兩個獨立的工作人員,并且只采用二者均同意的答案,此外還收集這些圖像的一部分的稀疏文本注釋,每10張圖片,提供由工作人員注釋的標(biāo)簽,并要求一個簡短的3個字的標(biāo)題來證明他們的選擇,最后,通過在保留驗證數(shù)據(jù)上設(shè)置適當(dāng)?shù)臉?biāo)簽閾值來確保整個數(shù)據(jù)集的質(zhì)量。

進(jìn)一步地,所述的迭代學(xué)習(xí),從簡單挑選的初始標(biāo)簽集開始,數(shù)據(jù)集通過迭代過程進(jìn)行放大,該過程在當(dāng)前標(biāo)簽集上訓(xùn)練分類器,將其應(yīng)用于未標(biāo)記的圖像,并將置信度低的圖像送回進(jìn)行更多的標(biāo)注,在每次迭代中,使用總標(biāo)簽的10/11ths來訓(xùn)練一個深度學(xué)習(xí)分類器,最后1/11th次總是被提出進(jìn)行驗證,將此分類器應(yīng)用于整個數(shù)據(jù)集,然后人群標(biāo)注的5000張圖像中,高于在驗證數(shù)據(jù)上測得的50%的精度,經(jīng)過四次迭代,得到一個對此屬性具有良好的識別性能的最終分類器,接著使用該分類器對整個數(shù)據(jù)集評分,并使用閾值來選擇最終的正和負(fù)的數(shù)據(jù)集,在驗證數(shù)據(jù)上選擇正分?jǐn)?shù)閾值,使得較高評分的驗證圖像精度達(dá)到90%,并且選擇負(fù)閾值使得高于該閾值的驗證圖像的調(diào)用精確度達(dá)到95%,這樣,可以確保最終標(biāo)簽集符合嚴(yán)格的質(zhì)量保證。

進(jìn)一步地,所述的標(biāo)簽集,數(shù)據(jù)集的最終大小僅由artdata中的相關(guān)圖像的數(shù)量,期望的質(zhì)量保證以及最終分類器的精度決定,更好的屬性分類器可以在保持精度閾值的同時向正數(shù)據(jù)集添加更多的圖像,如果需要為一個屬性添加更多的正數(shù)據(jù),可以犧牲精度得到一個更大同時更嘈雜的正集合。

進(jìn)一步地,所述的分類器,對于內(nèi)容屬性,分類器最初是在imagenet上訓(xùn)練微調(diào)過的50層深度殘差網(wǎng)絡(luò)(resnet),對于情感和媒介屬性,在根據(jù)用戶行為推斷出的風(fēng)格預(yù)測任務(wù)上進(jìn)行微調(diào),每個網(wǎng)絡(luò)被修改為使用二進(jìn)制類熵?fù)p失來輸出單個屬性得分,為了避免過擬合,只在每次迭代時調(diào)整三個時期。

進(jìn)一步地,所述的最終數(shù)據(jù)集,最終數(shù)據(jù)集包括20個屬性的正樣例和負(fù)樣例,每個屬性正圖像的中位數(shù)為54,000,負(fù)圖像的中位數(shù)為870萬,“人物”屬性最突出的圖像(174萬),具有最小正值的屬性為“貓”的圖像有19,244張,artdata上的貓通常以許多不同的風(fēng)格呈現(xiàn),具有非常高的類內(nèi)變化,自動標(biāo)注模型可以放大人群的注釋力度,自動正標(biāo)簽與人群標(biāo)注的正標(biāo)簽的比例為17.4,負(fù)標(biāo)簽的放大系數(shù)要高得多,約為505,因為自動系統(tǒng)可以快速拋出簡單可見的負(fù)面影響,將人群的注意力集中在潛在的相關(guān)圖片上。

進(jìn)一步地,所述的最終質(zhì)量保證,作為質(zhì)量檢查,測試了最終標(biāo)注集是否符合所要求的90%精度的質(zhì)量目標(biāo),對于每個屬性,使用相同接口收集數(shù)據(jù)集,從最終自動標(biāo)注的正集合中顯示注釋的100個圖像和在最終的負(fù)集合中顯示100個圖像,所有屬性的平均精度為90.4%,其中精度是正圖像的數(shù)量,即至少有一個注釋器指示圖像應(yīng)為正。

其中,所述的圖像檢索,首先探索不同藝術(shù)媒介之間的對象表示之間的關(guān)系,將其視為域名轉(zhuǎn)移問題,并測量一種媒介中對象的哪方面知識可以應(yīng)用于一個未知媒介中的程度,除了對象之外,還通過比較情感/媒介分類的不同特征和使用風(fēng)格標(biāo)簽來考慮風(fēng)格和美學(xué),以改善在其他藝術(shù)數(shù)據(jù)集上的美學(xué)預(yù)測任務(wù),最后結(jié)合學(xué)習(xí)特征空間的實驗來構(gòu)建一個特定于任務(wù)的搜索引擎,可以根據(jù)內(nèi)容,情感或媒介相似性搜索圖像。

附圖說明

圖1是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的系統(tǒng)流程圖。

圖2是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的現(xiàn)有方法的檢測效果。

圖3是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的采樣結(jié)果。

圖4是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的三種屬性的示例圖像。

圖5是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的眾包流水線圖。

圖6是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的檢索結(jié)果。

具體實施方式

需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互結(jié)合,下面結(jié)合附圖和具體實施例對本發(fā)明作進(jìn)一步詳細(xì)說明。

圖1是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的系統(tǒng)流程圖。主要包括artdata數(shù)據(jù)集、注釋傳遞途徑、藝術(shù)圖像檢索。

其中,所述的artdata數(shù)據(jù)集,是以數(shù)據(jù)庫方式,收錄了世界古代、近現(xiàn)代以及當(dāng)代大部分的藝術(shù)品信息資源、高質(zhì)量圖片數(shù)據(jù),以及藝術(shù)家信息,artdata的圖像分為項目,分類的基本單位,每個項目與元數(shù)據(jù)相關(guān)聯(lián),包括標(biāo)題,描述和幾個嘈雜的用戶提供的標(biāo)簽,涵蓋廣泛的風(fēng)格,媒介和情感,提高了對象分類器的通用性,本方法在artdata中選擇三個屬性類別,包括媒介屬性,情感屬性和內(nèi)容屬性,并且對于其嘈雜的標(biāo)簽,為提高分辨的準(zhǔn)確性,選擇依靠人類專家來收集標(biāo)簽。

其中,所述的注釋傳遞途徑,混合人類介入的策略逐步學(xué)習(xí)每個屬性的二進(jìn)制分類器,混合注釋策略是基于大規(guī)模的場景視覺數(shù)據(jù)集注釋傳遞途徑的,在每個步驟中,人們使用單個二進(jìn)制屬性標(biāo)簽在數(shù)據(jù)集中標(biāo)記最多信息的樣本,所得到的標(biāo)簽被添加到每個分類器的訓(xùn)練集中以改善其識別力,然后,分類器給圖像排序,包含最多信息的圖像被送到下一次迭代,在四次迭代之后,最終的分類器對整個數(shù)據(jù)集重新評分,并且假定超過某個分?jǐn)?shù)閾值的圖像為正,選擇最終閾值以滿足一定的準(zhǔn)確度和召回目標(biāo),對于希望收集的每個屬性,重復(fù)整個過程。

進(jìn)一步地,所述的人類介入系統(tǒng),系統(tǒng)的核心是人工注釋任務(wù),獨立收集每個屬性的注釋,利用亞馬遜土耳其機器人,人群工作者完成人類智力任務(wù)以獲得小額現(xiàn)金支付,在給定屬性的每個人工智能任務(wù)中,顯示精選的正/負(fù)示樣例圖像,并收集50個二進(jìn)制圖像注釋,工作人員判斷每個圖像是否具有感興趣的屬性,每個任務(wù)一次只收集一個屬性的標(biāo)簽,為了質(zhì)量控制,將每個圖像分配給兩個獨立的工作人員,并且只采用二者均同意的答案,此外還收集這些圖像的一部分的稀疏文本注釋,每10張圖片,提供由工作人員注釋的標(biāo)簽,并要求一個簡短的3個字的標(biāo)題來證明他們的選擇,最后,通過在保留驗證數(shù)據(jù)上設(shè)置適當(dāng)?shù)臉?biāo)簽閾值來確保整個數(shù)據(jù)集的質(zhì)量。

進(jìn)一步地,所述的迭代學(xué)習(xí),從簡單挑選的初始標(biāo)簽集開始,數(shù)據(jù)集通過迭代過程進(jìn)行放大,該過程在當(dāng)前標(biāo)簽集上訓(xùn)練分類器,將其應(yīng)用于未標(biāo)記的圖像,并將置信度低的圖像送回進(jìn)行更多的標(biāo)注,在每次迭代中,使用總標(biāo)簽的10/11ths來訓(xùn)練一個深度學(xué)習(xí)分類器,最后1/11th次總是被提出進(jìn)行驗證,將此分類器應(yīng)用于整個數(shù)據(jù)集,然后人群標(biāo)注的5000張圖像中,高于在驗證數(shù)據(jù)上測得的50%的精度,經(jīng)過四次迭代,得到一個對此屬性具有良好的識別性能的最終分類器,接著使用該分類器對整個數(shù)據(jù)集評分,并使用閾值來選擇最終的正和負(fù)的數(shù)據(jù)集,在驗證數(shù)據(jù)上選擇正分?jǐn)?shù)閾值,使得較高評分的驗證圖像精度達(dá)到90%,并且選擇負(fù)閾值使得高于該閾值的驗證圖像的調(diào)用精確度達(dá)到95%,這樣,可以確保最終標(biāo)簽集符合嚴(yán)格的質(zhì)量保證。

進(jìn)一步地,所述的標(biāo)簽集,數(shù)據(jù)集的最終大小僅由artdata中的相關(guān)圖像的數(shù)量,期望的質(zhì)量保證以及最終分類器的精度決定,更好的屬性分類器可以在保持精度閾值的同時向正數(shù)據(jù)集添加更多的圖像,如果需要為一個屬性添加更多的正數(shù)據(jù),可以犧牲精度得到一個更大同時更嘈雜的正集合。

進(jìn)一步地,所述的分類器,對于內(nèi)容屬性,分類器最初是在imagenet上訓(xùn)練微調(diào)過的50層深度殘差網(wǎng)絡(luò)(resnet),對于情感和媒介屬性,在根據(jù)用戶行為推斷出的風(fēng)格預(yù)測任務(wù)上進(jìn)行微調(diào),每個網(wǎng)絡(luò)被修改為使用二進(jìn)制類熵?fù)p失來輸出單個屬性得分,為了避免過擬合,只在每次迭代時調(diào)整三個時期。

進(jìn)一步地,所述的最終數(shù)據(jù)集,最終數(shù)據(jù)集包括20個屬性的正樣例和負(fù)樣例,每個屬性正圖像的中位數(shù)為54,000,負(fù)圖像的中位數(shù)為870萬,“人物”屬性最突出的圖像(174萬),具有最小正值的屬性為“貓”的圖像有19,244張,artdata上的貓通常以許多不同的風(fēng)格呈現(xiàn),具有非常高的類內(nèi)變化,自動標(biāo)注模型可以放大人群的注釋力度,自動正標(biāo)簽與人群標(biāo)注的正標(biāo)簽的比例為17.4,負(fù)標(biāo)簽的放大系數(shù)要高得多,約為505,因為自動系統(tǒng)可以快速拋出簡單可見的負(fù)面影響,將人群的注意力集中在潛在的相關(guān)圖片上。

進(jìn)一步地,所述的最終質(zhì)量保證,作為質(zhì)量檢查,測試了最終標(biāo)注集是否符合所要求的90%精度的質(zhì)量目標(biāo),對于每個屬性,使用相同接口收集數(shù)據(jù)集,從最終自動標(biāo)注的正集合中顯示注釋的100個圖像和在最終的負(fù)集合中顯示100個圖像,所有屬性的平均精度為90.4%,其中精度是正圖像的數(shù)量,即至少有一個注釋器指示圖像應(yīng)為正。

其中,所述的圖像檢索,首先探索不同藝術(shù)媒介之間的對象表示之間的關(guān)系,將其視為域名轉(zhuǎn)移問題,并測量一種媒介中對象的哪方面知識可以應(yīng)用于一個未知媒介中的程度,除了對象之外,還通過比較情感/媒介分類的不同特征和使用風(fēng)格標(biāo)簽來考慮風(fēng)格和美學(xué),以改善在其他藝術(shù)數(shù)據(jù)集上的美學(xué)預(yù)測任務(wù),最后結(jié)合學(xué)習(xí)特征空間的實驗來構(gòu)建一個特定于任務(wù)的搜索引擎,可以根據(jù)內(nèi)容,情感或媒介相似性搜索圖像。

圖2是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的現(xiàn)有方法的檢測效果。在imagenet和pascalvoc上訓(xùn)練的當(dāng)前對象分類器可以可靠地檢測日常照片(頂行)中的物體,但不能推廣到其他類型的藝術(shù)媒介(參見每幅圖像下的分?jǐn)?shù))。本發(fā)明創(chuàng)建了一個涵蓋廣泛風(fēng)格,媒介和情感的大型藝術(shù)數(shù)據(jù)集,可以使用此數(shù)據(jù)集來提高對象分類器的通用性,所有這些圖像的對象分類器的分?jǐn)?shù)都高于0.95。

圖3是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的采樣結(jié)果。頂部:使用“貓”標(biāo)簽對項目中的圖像進(jìn)行采樣,具有“貓”標(biāo)簽的項目可能包含其他動物(1),標(biāo)題卡(3,5)或不相關(guān)的圖片(5,6)。底部:分類器區(qū)分“貓”標(biāo)簽的最佳分類結(jié)果。這部分圖像更相關(guān),但只能學(xué)習(xí)分辨不同的小動物。檢測得分前100的圖像中的正確識別出貓的精確度只有36%。

圖4是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的三種屬性的示例圖像。屬性從三個方面進(jìn)行分類:

內(nèi)容屬性:標(biāo)注包含自行車,鳥類,建筑物,汽車,貓,狗,花,人和樹木的圖像;

情感屬性:標(biāo)注那些可能使觀察者感到平靜/和平,快樂/開朗,悲傷/陰沉,嚇人/可怕的圖像;

媒介屬性:標(biāo)注在3d電腦圖形,漫畫,油畫,筆墨,鉛筆草圖,矢量藝術(shù)和水彩畫創(chuàng)建的圖像。

圖5是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的眾包流水線圖。首先,在目前收集的所有標(biāo)簽上訓(xùn)練一組分類器。然后使用這個分類器對圖像的隨機抽樣進(jìn)行排序,得分高的圖像被送回人群,并將生成的標(biāo)簽添加到訓(xùn)練和驗證集中,經(jīng)過四次迭代,驗證集用于選擇具有一定精度和召回目標(biāo)的正和負(fù)閾值,滿足這些閾值的圖像將添加到自動標(biāo)注集中。

圖6是本發(fā)明一種基于特定數(shù)據(jù)集識別物體不同藝術(shù)表現(xiàn)的方法的檢索結(jié)果。左列為四張用于查詢的圖像,中間列為按內(nèi)容屬性匹配到的檢索結(jié)果,第三列分別是按媒介、情感、媒介、情感屬性匹配得到的檢索結(jié)果。

對于本領(lǐng)域技術(shù)人員,本發(fā)明不限制于上述實施例的細(xì)節(jié),在不背離本發(fā)明的精神和范圍的情況下,能夠以其他具體形式實現(xiàn)本發(fā)明。此外,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍,這些改進(jìn)和變型也應(yīng)視為本發(fā)明的保護(hù)范圍。因此,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1