亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

多模態(tài)數(shù)據(jù)擴充方法、系統(tǒng)、介質(zhì)、計算機設(shè)備及終端

文檔序號:29809613發(fā)布日期:2022-04-27 02:47閱讀:325來源:國知局
多模態(tài)數(shù)據(jù)擴充方法、系統(tǒng)、介質(zhì)、計算機設(shè)備及終端

1.本發(fā)明屬于計算機數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種多模態(tài)數(shù)據(jù)擴充方法、系統(tǒng)、介質(zhì)、計算機設(shè)備及終端。


背景技術(shù):

2.目前,隨著多媒體和互聯(lián)網(wǎng)技術(shù)的發(fā)展,使用多模態(tài)信息來描述事件和事物已成為一種普遍的現(xiàn)象,例如,結(jié)合圖像和文本模態(tài)進行新聞報道、結(jié)合視頻和音頻模態(tài)進行短視頻制作等等。一般而言,同時出現(xiàn)的不同模態(tài)的數(shù)據(jù)之間存在著相關(guān)性,分析這種相關(guān)性對于挖掘數(shù)據(jù)和保護數(shù)據(jù)都有著重要的意義。目前,在多模態(tài)機器學(xué)習(xí)領(lǐng)域,相關(guān)的研究方向包括:圖片描述(image captioning)、跨模態(tài)檢索(cross-modal retrieval)、視覺問答(visual question answering)等,它們提供了開源的數(shù)據(jù)集,這些數(shù)據(jù)集為多模態(tài)機器學(xué)習(xí)的技術(shù)驗證提供了支撐。為了取得更好的機器學(xué)習(xí)效果、提高模型在實際場景中的可用性,往往需要對數(shù)據(jù)進行擴充,在更豐富的數(shù)據(jù)集上訓(xùn)練模型。
3.數(shù)據(jù)擴充的一種可選方式是人工收集和標(biāo)注數(shù)據(jù),但這實施起來費時費力、效率低,現(xiàn)有的技術(shù)更傾向于自動擴充數(shù)據(jù)。對于圖像模態(tài),經(jīng)典的自動數(shù)據(jù)擴充方法有:圖像翻轉(zhuǎn)、色度調(diào)整、隨機擦除等等,對于文本模態(tài),有:同義詞替換、回譯、隨機噪聲注入等等。然而,在多模態(tài)機器學(xué)習(xí)的背景下,這些傳統(tǒng)的方式難以滿足數(shù)據(jù)擴充的需求,以圖片描述任務(wù)為例,該任務(wù)的目標(biāo)是給圖片生成相應(yīng)的自然語言描述,訓(xùn)練集中的每個樣本由一張圖和一段文本描述組成,如果采用圖像色度調(diào)整的方式擴充數(shù)據(jù),那么擴充后圖片的“顏色”語義將和文本段中的描述不一致,例如一個“紅色的”蘋果經(jīng)過自動色度調(diào)整后可能成為一個“灰綠色”的蘋果。類似的,圖像翻轉(zhuǎn)可能導(dǎo)致“方位”語義改變、隨機擦除可能導(dǎo)致圖像語義的缺失,而這些語義改變目前難以自動化地在文本描述上進行精確修正。因此,亟需設(shè)計一種新的數(shù)據(jù)擴充方法。
4.通過上述分析,現(xiàn)有技術(shù)存在的問題及缺陷為:
5.(1)傳統(tǒng)的通過人工收集和標(biāo)注數(shù)據(jù)的方法實施起來費時費力、效率低。
6.(2)在多模態(tài)機器學(xué)習(xí)的背景下,傳統(tǒng)的方式難以滿足數(shù)據(jù)擴充的需求。
7.(3)現(xiàn)有的數(shù)據(jù)擴充方式可能導(dǎo)致圖像語義的缺失,而這些語義改變目前難以自動化地在文本描述上進行精確修正。
8.解決以上問題及缺陷的難度為:(1)需要消耗大量人工成本,難度較大。上述問題(2)、(3)目前尚沒有統(tǒng)一的解決方案,解決難度大。
9.解決以上問題及缺陷的意義為:(1)降低數(shù)據(jù)擴充人工成本、提高數(shù)據(jù)擴充效率。(2)為多模態(tài)數(shù)據(jù)擴充的需求提供一種可行的解決方案。(3)可應(yīng)用于跨模態(tài)檢索、視覺問答、圖像描述等多模態(tài)任務(wù),使其訓(xùn)練樣本更加豐富,提升訓(xùn)練效果。


技術(shù)實現(xiàn)要素:

10.針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種多模態(tài)數(shù)據(jù)擴充方法、系統(tǒng)、介質(zhì)、
計算機設(shè)備及終端。
11.本發(fā)明是這樣實現(xiàn)的,一種多模態(tài)數(shù)據(jù)擴充方法,所述多模態(tài)數(shù)據(jù)擴充方法包括:通過擴充圖像特征實現(xiàn)數(shù)據(jù)擴充;在提取時,使用基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型進行提取,通過擾動感受野內(nèi)圖像的內(nèi)容、改變目標(biāo)檢測框標(biāo)定的位置,對進行擾動。
12.進一步,所述多模態(tài)數(shù)據(jù)擴充方法包括以下步驟:
13.步驟一,每次隨機取k張圖,對數(shù)據(jù)集中的圖片進行拼接;通過圖片拼接改變感受野中的圖片內(nèi)容,為擾動圖片特征、擴充數(shù)據(jù)打下基礎(chǔ)。
14.步驟二,在拼接后的大圖上進行目標(biāo)檢測,得到檢測框集合;是使用基于目標(biāo)檢測模型提取圖像特征的常規(guī)步驟,通過觀察比較本步驟得到的檢測框與拼接前得到的檢測框,發(fā)現(xiàn)框的位置和大小都有所差別,這為數(shù)據(jù)擴充提供了依據(jù)。
15.步驟三,對檢測框集合中的檢測框進行分組,將原屬于一張圖的檢測框分為一組,對于一張拼接圖,共得到k組檢測框;
16.步驟四,對每組檢測框?qū)?yīng)的圖片區(qū)域進行特征提取,與相應(yīng)原圖的文本描述結(jié)合為一對新的訓(xùn)練樣本,對于每張拼接圖,共得到k對新的訓(xùn)練樣本。
17.在本發(fā)明的步驟三和步驟四中:對于拼圖中的任意一個子圖片(也就是拼接前的一張原圖),保證了它經(jīng)過擴充得到的特征不摻雜拼圖中其他圖片的特征,從而保證數(shù)據(jù)擴充不改變原圖像的語義,起到高質(zhì)量擴充的積極作用。步驟四中使得每次拼接能夠得到k對新的訓(xùn)練樣本,起到高效擴充的積極作用。
18.進一步,所述步驟一中的圖片拼接后,感受野內(nèi)的部分圖像內(nèi)容發(fā)生改變。
19.進一步,所述步驟一中的圖片拼接包括:
20.設(shè)多模態(tài)數(shù)據(jù)集d中所有的圖片集合為i={i1,i2,...,in},對于每個ii,隨機取k張不重復(fù)的圖片ik∈i,拼接為一張大圖包括:
21.(1)在一次完整的數(shù)據(jù)擴充流程中,對于每個ii,拼接時k保持一致;
22.(2)k是整數(shù),2≤k≤9;
23.(3)拼接的排布原則是使拼接后圖片的長寬比盡可能小,當(dāng)k=2時,兩張圖片選左右拼接或上下拼接,k=4時,圖片拼接為“田”字型,k=6時,圖片拼接為三行兩列或兩行三列,k=9時,圖片排布為“九宮格”型,其他取值以最接近所述排布的方式進行拼接;
24.(4)拼接時不改變?nèi)我粓D片的長寬比,按所述板式拼接后,未對齊的部分用0值補齊。
25.進一步,所述步驟二中的獲取檢測框集合包括:
26.基于目標(biāo)檢測模型獲取檢測框,要求如下:
27.(1)根據(jù)k和拼接板式,按比例放大目標(biāo)檢測模型長邊和短邊的像素限制,當(dāng)k=2,取左右拼接時,長邊閾值取原閾值的2倍,短邊閾值不變,k=4時,呈“田”字拼接,長邊和短邊閾值均為原閾值的2倍,k=9時,呈“九宮格”型拼接,長邊和短邊閾值均為原閾值的3倍;
28.(2)將輸入目標(biāo)檢測模型,得到檢測框位置集合共m*k個檢測框;
29.(3)將檢測框按照拼接前所屬的圖片進行分組,得到其中每
個其中p是檢測框的置信度;
30.(4)對于長度大于m的,將檢測框按照置信度排序,取置信度最高的前m個框,反之,用p=((0,0),(0,0),0)補齊;
31.(5)由于檢測框是分布在上,得到的坐標(biāo)均以的左上角為原點;對于集合ik中的每個根據(jù)在上的位置及坐標(biāo)集合將坐標(biāo)修正為以左上角為原點的坐標(biāo),從而與原始數(shù)據(jù)集的數(shù)據(jù)分布保持一致,修正后的的坐標(biāo)表示為得到的k組坐標(biāo)集合表示為
32.進一步,所述步驟三中的新的訓(xùn)練樣本的獲取包括:
33.對于oi中的每個與其對應(yīng)的取對應(yīng)區(qū)域圖片,輸入特征抽取模型,得到新的特征則為一對新的訓(xùn)練樣本。通過該方式,經(jīng)過一次拼接得到k個新樣本,若原數(shù)據(jù)集中圖片集合的大小為n,那么經(jīng)過一次完整的數(shù)據(jù)擴充流程,得到n*k個新的訓(xùn)練樣本。
34.本發(fā)明的另一目的在于提供一種應(yīng)用所述的多模態(tài)數(shù)據(jù)擴充方法的多模態(tài)數(shù)據(jù)擴充系統(tǒng),所述多模態(tài)數(shù)據(jù)擴充系統(tǒng)包括:
35.圖片拼接模塊,用于通過每次隨機取k張圖對數(shù)據(jù)集中的圖片進行拼接;
36.檢測框集合獲取模塊,用于在拼接后大圖上進行目標(biāo)檢測得到檢測框集合;
37.檢測框分組模塊,用于對檢測框集合中的檢測框進行分組,將原屬于一張圖的檢測框分為一組,對于一張拼接圖,共得到k組檢測框;
38.訓(xùn)練樣本獲取模塊,用于對每組檢測框?qū)?yīng)的圖片區(qū)域進行特征提取,與相應(yīng)原圖的文本描述結(jié)合為一對新的訓(xùn)練樣本,對于每張拼接圖,共得到k對新的訓(xùn)練樣本。
39.本發(fā)明的另一目的在于提供一種計算機設(shè)備,所述計算機設(shè)備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述計算機程序被所述處理器執(zhí)行時,使得所述處理器執(zhí)行如下步驟:
40.通過擴充實現(xiàn)數(shù)據(jù)擴充;在提取時,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型提到的特征與感受野的大小、目標(biāo)檢測框標(biāo)定的位置,以及圖片的內(nèi)容相關(guān),在網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下,感受野的大小不變,通過改變感受野內(nèi)圖片的內(nèi)容,或者改變目標(biāo)檢測框標(biāo)定的位置對提取到的特征進行擾動。
41.本發(fā)明的另一目的在于提供一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,使得所述處理器執(zhí)行如下步驟:
42.通過擴充實現(xiàn)數(shù)據(jù)擴充;在提取時,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型提到的特征與感受野的大小、目標(biāo)檢測框標(biāo)定的位置,以及圖片的內(nèi)容相關(guān),在網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下,感受野的大小不變,通過改變感受野內(nèi)圖片的內(nèi)容,或者改變目標(biāo)檢測框標(biāo)定的位置對提取到的特征進行擾動。
43.本發(fā)明的另一目的在于提供一種信息數(shù)據(jù)處理終端,所述信息數(shù)據(jù)處理終端用于實現(xiàn)所述的多模態(tài)數(shù)據(jù)擴充系統(tǒng)。
44.結(jié)合上述的所有技術(shù)方案,本發(fā)明所具備的優(yōu)點及積極效果為:本發(fā)明提供的多模態(tài)數(shù)據(jù)擴充方法,通過擴充圖像特征來進行數(shù)據(jù)擴充,能夠在不改變?nèi)我荒B(tài)數(shù)據(jù)語義信息的情況下,自動進行數(shù)據(jù)擴充。因此,本發(fā)明不改變多模態(tài)訓(xùn)練數(shù)據(jù)中任一模態(tài)的語義信息,數(shù)據(jù)擴充效果好;本發(fā)明能夠自動進行數(shù)據(jù)擴充,人工成本低、數(shù)據(jù)擴充效率高。
45.本發(fā)明在跨模態(tài)檢索、視覺問答、圖像描述任務(wù)上進行了驗證,能夠使訓(xùn)練樣本更加豐富,提升訓(xùn)練效果。
附圖說明
46.為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對本發(fā)明實施例中所需要使用的附圖做簡單的介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下還可以根據(jù)這些附圖獲得其他的附圖。
47.圖1是本發(fā)明實施例提供的多模態(tài)數(shù)據(jù)擴充方法流程圖。
48.圖2是本發(fā)明實施例提供的多模態(tài)數(shù)據(jù)擴充系統(tǒng)結(jié)構(gòu)框圖;
49.圖中:1、圖片拼接模塊;2、檢測框集合獲取模塊;3、檢測框分組模塊;4、訓(xùn)練樣本獲取模塊。
50.圖3是本發(fā)明實施例提供的拼接前后圖片對比示意圖。
51.圖3a是本發(fā)明實施例提供的拼接前圖片i
190141
的示意圖。
52.圖3b是本發(fā)明實施例提供的拼接前圖片i
202099
的示意圖。
53.圖3c是本發(fā)明實施例提供的拼接后圖片的示意圖。
54.圖4是本發(fā)明實施例提供的拼接圖片的檢測框位置示意圖。
55.圖5是本發(fā)明實施例提供的拼接前圖片的檢測框位置示意圖。
56.圖5a是本發(fā)明實施例提供的拼接前圖片i
190141
的檢測框位置示意圖。
57.圖5b是本發(fā)明實施例提供的拼接前圖片i
202099
的檢測框位置示意圖。
具體實施方式
58.為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
59.針對現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種多模態(tài)數(shù)據(jù)擴充方法、系統(tǒng)、介質(zhì)、計算機設(shè)備及終端,下面結(jié)合附圖對本發(fā)明作詳細的描述。
60.如圖1所示,本發(fā)明實施例提供的多模態(tài)數(shù)據(jù)擴充方法包括以下步驟:
61.s101,每次隨機取k張圖,對現(xiàn)有數(shù)據(jù)集中的圖片進行拼接;
62.s102,在拼接后的大圖上進行目標(biāo)檢測,得到檢測框集合;
63.s103,對檢測框集合中的檢測框進行分組,將原屬于一張圖的檢測框分為一組,對于一張拼接圖,共得到k組檢測框;
64.s104,對每組檢測框?qū)?yīng)的圖片區(qū)域進行特征提取,與相應(yīng)原圖的文本描述結(jié)合為一對新的訓(xùn)練樣本。
65.如圖2所示,本發(fā)明實施例提供的多模態(tài)數(shù)據(jù)擴充系統(tǒng)包括:
66.圖片拼接模塊1,用于通過每次隨機取k張圖對數(shù)據(jù)集中的圖片進行拼接;
67.檢測框集合獲取模塊2,用于在拼接后的大圖上進行目標(biāo)檢測,得到檢測框集合;
68.檢測框分組模塊3,用于對檢測框集合中的檢測框進行分組,將原屬于一張圖的檢測框分為一組,對于一張拼接圖,共得到k組檢測框;
69.訓(xùn)練樣本獲取模塊4,用于對每組檢測框?qū)?yīng)的圖片區(qū)域進行特征提取,與相應(yīng)原圖的文本描述結(jié)合為一對新的訓(xùn)練樣本,對于每張拼接圖,共得到k對新的訓(xùn)練樣本。
70.下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案作進一步描述。
71.實施例1
72.鑒于現(xiàn)有技術(shù)存在的問題,本發(fā)明提供了一種多模態(tài)數(shù)據(jù)擴充方式,能夠在不改變?nèi)我荒B(tài)數(shù)據(jù)語義信息的情況下,自動進行數(shù)據(jù)擴充。
73.一、方案闡述
74.設(shè)有多模態(tài)數(shù)據(jù)集d={(i1,t1),(i2,t2),...,(in,tn)},其中ii是一張圖片,ti是圖片對應(yīng)的一條文本,(ii,ti)組成一對樣本,數(shù)據(jù)集中有n對樣本,對于這樣的數(shù)據(jù),一般的流程是先分別提取ii的特征和ti的特征然后基于多模態(tài)機器學(xué)習(xí)模型對和之間的關(guān)系建模,因而實際上構(gòu)成一對訓(xùn)練樣本。特別的,提取分為兩步,第一步是通過卷積神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測模型從ii中檢測出圖片中的所有目標(biāo)物體,將目標(biāo)出現(xiàn)的位置表示為一個大小為m的集合o={p1,p2,...pm},其中,pj=((w0,h0),(w1,h1)),pj是一個檢測框的坐標(biāo),標(biāo)識一個目標(biāo)物體在圖片中的位置,以圖片左上角為坐標(biāo)原點,(w0,h0)是檢測框左上角的坐標(biāo),(w1,h1)是右下角的坐標(biāo),w代表寬度(長邊),h代表高度(短邊)。第二步是對于每個pj,提取它在ii中對應(yīng)區(qū)域的特征向量fj,得到
75.本發(fā)明通過擴充來實現(xiàn)數(shù)據(jù)擴充。在提取時,基于卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)檢測模型提到的特征與感受野的大小、目標(biāo)檢測框標(biāo)定的位置,以及圖片的內(nèi)容相關(guān),在網(wǎng)絡(luò)結(jié)構(gòu)不變的情況下,感受野的大小不變,那么,可以通過改變感受野內(nèi)圖片的內(nèi)容,或者改變目標(biāo)檢測框標(biāo)定的位置來對提取到的特征進行擾動。本發(fā)明希望在不改變圖像的語義的前提下高效地擴充數(shù)據(jù),提出的思路是:第一步,對現(xiàn)有數(shù)據(jù)集中的圖片進行拼接,每次隨機取k張圖拼接,通過這個步驟,感受野內(nèi)的部分圖像內(nèi)容發(fā)生改變。接著,在拼接后的大圖上進行目標(biāo)檢測,得到檢測框集合,在這個步驟中,目標(biāo)檢測框可能發(fā)生改變。然后,對檢測框集合中的檢測框進行分組,將原屬于一張圖的檢測框分為一組,對于一張拼接圖,共得到k組檢測框,通過分組,每組檢測框排除了不屬于本張圖片的檢測框?qū)D片語義的影響。最后,對每組檢測框?qū)?yīng)的圖片區(qū)域進行特征提取,與相應(yīng)原圖的文本描述結(jié)合為一對新的訓(xùn)練樣本。具體過程描述如下:
76.1.圖片拼接
77.設(shè)多模態(tài)數(shù)據(jù)集d中所有的圖片集合為i={i1,i2,...,in},對于每個ii,隨機取k張不重復(fù)的圖片ik∈i,拼接為一張大圖本發(fā)明要求:
78.1)在一次完整的數(shù)據(jù)擴充流程中,對于每個ii,拼接時k保持一致;
79.2)k是整數(shù),2≤k≤9;
80.3)拼接的排布原則是使拼接后圖片的長寬比盡可能小,當(dāng)k=2時,兩張圖片可選
左右拼接或上下拼接,k=4時,圖片拼接如“田”字型,k=6時,圖片拼接為三行兩列或兩行三列,k=9時,圖片排布為“九宮格”型,其他的取值以最接近上述幾種排布的方式進行拼接;
81.4)拼接時不改變?nèi)我粓D片的長寬比,按上述板式拼接后,未對齊的部分用0值補齊。
82.2.獲取檢測框集合
83.基于目標(biāo)檢測模型獲取檢測框,本發(fā)明要求:
84.1)根據(jù)k和拼接板式,按比例放大目標(biāo)檢測模型長邊和短邊的像素限制,例如k=2,取左右拼接時,長邊閾值取原閾值的2倍,短邊閾值不變,k=4時,呈“田”字拼接,長邊和短邊閾值都應(yīng)為原閾值的2倍,k=9時,呈“九宮格”型拼接,長邊和短邊閾值都應(yīng)為原閾值的3倍;
85.2)將輸入目標(biāo)檢測模型,得到檢測框位置集合共m*k個檢測框;
86.3)將檢測框按照拼接前所屬的圖片進行分組,得到其中每個其中p是檢測框的置信度;
87.4)由于檢測框是分布在上,分組后的長度可能不統(tǒng)一,對于長度大于m的,將檢測框按照置信度排序,取置信度最高的前m個框,反之,用p=((0,0),(0,0),0)補齊;
88.5)由于檢測框是分布在上,得到的坐標(biāo)都是以的左上角為原點的,因此,對于集合ik中的每個需要根據(jù)它在上的位置及坐標(biāo)集合將坐標(biāo)修正為以左上角為原點的坐標(biāo),從而與原始數(shù)據(jù)集的數(shù)據(jù)分布保持一致,修正后的的坐標(biāo)表示為得到的k組坐標(biāo)集合表示為
89.3.得到新的訓(xùn)練樣本
90.對于oi中的每個與其對應(yīng)的取對應(yīng)區(qū)域圖片,輸入特征抽取模型,得到新的特征則為一對新的訓(xùn)練樣本。
91.通過上述方式,經(jīng)過一次拼接可以得到k個新樣本,若原數(shù)據(jù)集中圖片集合的大小為n,那么經(jīng)過一次完整的數(shù)據(jù)擴充流程,可以得到n*k個新的訓(xùn)練樣本,在不改變?nèi)我荒B(tài)數(shù)據(jù)的語義的情況下,高效地擴充了數(shù)據(jù)。
92.實施例2
93.本實施例描述了一次拼接的實施過程,以“coco caption train2014”數(shù)據(jù)集中的圖片集合i為例,取k=2,m=10,即拼接2張圖片,每張圖片取10個檢測目標(biāo)對象的特征。
94.1.圖片拼接
95.以i中標(biāo)號為000000190141的圖片i
190141
為例,隨機取到圖片集合{i
190141
,i
202099
},對于k=2,本實施例采用左右拼接的方式,拼接為圖片拼接不改變這兩張圖片的長寬比,拼接前i
190141
的分辨率為640*423,i
202099
的分辨率為640*480,由于i
190141
和i
202099
寬度
不同,拼接時未對齊的部分用0值補齊,拼接后的分辨率為1280*480。圖3展示了拼接前后的圖片。
96.2.獲取檢測框集合
97.本實施例使用fasterrcnn目標(biāo)檢測模型獲取檢測框。
98.1)模型原默認(rèn)長邊分辨率閾值為1333,短邊閾值為800,根據(jù)圖片拼接的張數(shù)和布局,本實施例將長邊閾值放大為2666,短邊閾值不變。
99.2)將輸入模型,取置信度最高的前20個檢測框集合,圖4展示了這些檢測框的位置。
100.3)將檢測框按照拼接前所屬的圖片進行分組,本例通過計算檢測框的面積與原圖片的相交比來自動判斷一個檢測框是否屬于某張圖片,計算方法如下:
[0101][0102][0103]
4)在本實施例中,分組后,每組恰好有10個檢測框,無需截斷或補齊。
[0104]
5)對于圖i
190141
,它在中的坐標(biāo)為(0,0,640,423),它與的坐標(biāo)原點重合,無需修正屬于該圖的檢測框,該圖的檢測框坐標(biāo)集合為合,無需修正屬于該圖的檢測框,該圖的檢測框坐標(biāo)集合為對于圖i
202099
,它在中的坐標(biāo)為(640,0,1280,480),其坐標(biāo)原點與不重合,對于屬于該圖的檢測框,修正為以該圖左上角為原點的坐標(biāo),得到檢測框集合
[0105]
3.得到新的訓(xùn)練樣本
[0106]
基于fasterrcnn,提取i
190141
對應(yīng)中檢測框的特征得到新樣本提取i
202099
對應(yīng)中檢測框的特征得到新樣本
[0107]
經(jīng)過本例的拼接過程得到了2個新樣本,圖5展示了拼接前圖i
190141
和i
202099
中前10個檢測框的位置,對比圖4,對應(yīng)圖片的檢測框位置有所不同,可以推知根據(jù)這些區(qū)域得到的特征也有所區(qū)別,也就是說,通過本發(fā)明的流程,能夠得到更豐富的特征。一次完整的數(shù)據(jù)擴充是需要對原數(shù)據(jù)集中的每個樣本進行本例所示的過程,經(jīng)過一次完整的數(shù)據(jù)擴充,能夠得到n*k個新樣本。本發(fā)明對跨模態(tài)檢索、視覺問答、圖像描述等圖-文模態(tài)的多模態(tài)研究方向都可以適用。具體落地應(yīng)用場景例如:電商平臺以文本檢索商品、基于圖像描述的網(wǎng)絡(luò)圖像自動審核等。
[0108]
在上述實施例中,可以全部或部分地通過軟件、硬件、固件或者其任意組合來實現(xiàn)。當(dāng)使用全部或部分地以計算機程序產(chǎn)品的形式實現(xiàn),所述計算機程序產(chǎn)品包括一個或多個計算機指令。在計算機上加載或執(zhí)行所述計算機程序指令時,全部或部分地產(chǎn)生按照本發(fā)明實施例所述的流程或功能。所述計算機可以是通用計算機、專用計算機、計算機網(wǎng)絡(luò)、或者其他可編程裝置。所述計算機指令可以存儲在計算機可讀存儲介質(zhì)中,或者從一個計算機可讀存儲介質(zhì)向另一個計算機可讀存儲介質(zhì)傳輸,例如,所述計算機指令可以從一個網(wǎng)站站點、計算機、服務(wù)器或數(shù)據(jù)中心通過有線(例如同軸電纜、光纖、數(shù)字用戶線(dsl)或無線(例如紅外、無線、微波等)方式向另一個網(wǎng)站站點、計算機、服務(wù)器或數(shù)據(jù)中心進行傳輸)。所述計算機可讀取存儲介質(zhì)可以是計算機能夠存取的任何可用介質(zhì)或者是包含一個或多個可用介質(zhì)集成的服務(wù)器、數(shù)據(jù)中心等數(shù)據(jù)存儲設(shè)備。所述可用介質(zhì)可以是磁性介質(zhì)(例如軟盤、硬盤、磁帶)、光介質(zhì)(例如dvd)、或者半導(dǎo)體介質(zhì)(例如固態(tài)硬盤solid state disk(ssd))等。
[0109]
以上所述,僅為本發(fā)明的具體實施方式,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1