根據(jù)一個(gè)或多個(gè)實(shí)施例,本申請(qǐng)總體上涉及分類(lèi)系統(tǒng)和方法,并且更具體地,涉及例如用于訓(xùn)練和/或?qū)崿F(xiàn)多對(duì)象分類(lèi)系統(tǒng)和方法的系統(tǒng)和方法。
背景技術(shù):
1、對(duì)象檢測(cè)通常被實(shí)現(xiàn)為用于定位圖像或視頻中的對(duì)象的實(shí)例的計(jì)算機(jī)視覺(jué)技術(shù)。對(duì)象檢測(cè)算法通常利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)來(lái)產(chǎn)生有意義的結(jié)果。當(dāng)人類(lèi)觀(guān)看圖像或視頻時(shí),人類(lèi)可以在大約片刻內(nèi)識(shí)別和定位感興趣的對(duì)象。對(duì)象檢測(cè)的目標(biāo)是使用計(jì)算機(jī)復(fù)制這種智能。在一些系統(tǒng)中,通過(guò)對(duì)象檢測(cè)過(guò)程在圖像中檢測(cè)對(duì)象,并且用對(duì)象類(lèi)別的識(shí)別圍繞每個(gè)檢測(cè)到的對(duì)象來(lái)定義邊界框。例如,街區(qū)的圖像可以包括各自被檢測(cè)和分類(lèi)的狗、自行車(chē)和卡車(chē)。
2、對(duì)象檢測(cè)用于各種實(shí)時(shí)系統(tǒng)中,諸如高級(jí)駕駛員輔助系統(tǒng)中,該高級(jí)駕駛員輔助系統(tǒng)使得汽車(chē)能夠檢測(cè)駕駛車(chē)道或執(zhí)行行人檢測(cè)以改進(jìn)道路安全性。對(duì)象檢測(cè)在諸如視頻監(jiān)視、圖像檢索和其他系統(tǒng)之類(lèi)的應(yīng)用中也是有用的。通常使用深度學(xué)習(xí)、機(jī)器學(xué)習(xí)和其他人工智能系統(tǒng)來(lái)解決對(duì)象檢測(cè)問(wèn)題。流行的基于深度學(xué)習(xí)的方法使用卷積神經(jīng)網(wǎng)絡(luò)(cnn),諸如具有卷積神經(jīng)網(wǎng)絡(luò)的區(qū)域(r-cnn)、你只看一次(yolo)以及自動(dòng)學(xué)習(xí)以檢測(cè)圖像內(nèi)的對(duì)象的其他方法。
3、在通過(guò)深度學(xué)習(xí)進(jìn)行對(duì)象檢測(cè)的一種方法中,創(chuàng)建并訓(xùn)練定制對(duì)象檢測(cè)器。為了從頭開(kāi)始訓(xùn)練定制對(duì)象檢測(cè)器,網(wǎng)絡(luò)架構(gòu)被設(shè)計(jì)為使用大量標(biāo)記數(shù)據(jù)集來(lái)訓(xùn)練cnn以學(xué)習(xí)感興趣對(duì)象的特征。定制對(duì)象檢測(cè)器的結(jié)果對(duì)于許多應(yīng)用是可接受的。然而,這些系統(tǒng)可能需要大量時(shí)間和精力來(lái)設(shè)置cnn中的層和權(quán)重。在第二種方法中,使用預(yù)訓(xùn)練的對(duì)象檢測(cè)器。使用深度學(xué)習(xí)的許多對(duì)象檢測(cè)工作流程利用遷移學(xué)習(xí),遷移學(xué)習(xí)是一種使系統(tǒng)能夠從預(yù)訓(xùn)練的網(wǎng)絡(luò)開(kāi)始,然后針對(duì)特定應(yīng)用微調(diào)預(yù)訓(xùn)練的網(wǎng)絡(luò)的方法。該方法可以提供較快的結(jié)果,因?yàn)閷?duì)象檢測(cè)器已經(jīng)在數(shù)千或甚至數(shù)百萬(wàn)個(gè)圖像上進(jìn)行了訓(xùn)練,但是在復(fù)雜度和準(zhǔn)確度方面具有其他缺點(diǎn)。
4、鑒于上述情況,在本領(lǐng)域中持續(xù)需要改進(jìn)的對(duì)象檢測(cè)和分類(lèi)系統(tǒng)和方法。
技術(shù)實(shí)現(xiàn)思路
1、本公開(kāi)涉及用于對(duì)象檢測(cè)和分類(lèi)的系統(tǒng)和方法。在各種實(shí)施例中,描述了可以用于包括對(duì)象檢測(cè)和語(yǔ)音識(shí)別任務(wù)的各種分類(lèi)問(wèn)題的改進(jìn)的系統(tǒng)和方法。在一些實(shí)施例中,改進(jìn)的訓(xùn)練方法包含“rhino(犀牛)”損失函數(shù),以迫使機(jī)器學(xué)習(xí)模型針對(duì)檢測(cè)到的每個(gè)相應(yīng)對(duì)象(或音素)僅激活一次。這些方法降低了全系統(tǒng)解決方案的復(fù)雜度,包括在許多實(shí)施例中消除了對(duì)通常在分類(lèi)步驟之后應(yīng)用的常規(guī)后處理的需要。例如,在一些對(duì)象檢測(cè)系統(tǒng)中,使用稱(chēng)為非最大值抑制的后處理步驟來(lái)拒絕每個(gè)對(duì)象的冗余檢測(cè)。這種后處理不僅增加了計(jì)算復(fù)雜度,而且降低了性能。本文公開(kāi)的單個(gè)檢測(cè)系統(tǒng)和方法提供了優(yōu)于此類(lèi)系統(tǒng)的優(yōu)點(diǎn)。
2、本文公開(kāi)的各種實(shí)施例可以在沒(méi)有常規(guī)后處理的情況下使用,大大降低了運(yùn)行時(shí)的計(jì)算復(fù)雜度的量,并提高了準(zhǔn)確估計(jì)小對(duì)象的有效性。此外,訓(xùn)練系統(tǒng)可以比其他現(xiàn)有技術(shù)方法更快地收斂。在語(yǔ)音識(shí)別任務(wù)中,例如,本公開(kāi)的系統(tǒng)被配置為應(yīng)用重解碼算法,以便從輸入數(shù)據(jù)解碼語(yǔ)音字母。實(shí)際上,由于處理量和使用搜索算法的性能之間的權(quán)衡,解碼可能不是最佳的。本文公開(kāi)的技術(shù)可以極大地簡(jiǎn)化語(yǔ)音識(shí)別的解碼部分,并且它可以在降低計(jì)算復(fù)雜度的同時(shí)改進(jìn)性能。
3、本公開(kāi)的范圍由權(quán)利要求限定,所述權(quán)利要求以引用的方式并入本部分中。通過(guò)考慮一個(gè)或更多個(gè)實(shí)施例的以下具體實(shí)施方式,將向本領(lǐng)域技術(shù)人員提供對(duì)本公開(kāi)的更完整的理解,以及其附加優(yōu)點(diǎn)的實(shí)現(xiàn)。將參考將首先簡(jiǎn)要描述的附圖。
1.一種方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,其中所述第一輸入數(shù)據(jù)的幀包括圖像,并且所述多個(gè)第一概率值中的每個(gè)概率值指示所述第一輸入數(shù)據(jù)的幀的相應(yīng)部分描繪感興趣對(duì)象的至少一部分的可能性。
3.根據(jù)權(quán)利要求1所述的方法,其中所述第一地面實(shí)況數(shù)據(jù)的幀包括描繪一個(gè)或多個(gè)對(duì)象和分別與所述一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的一個(gè)或多個(gè)邊界框的圖像。
4.根據(jù)權(quán)利要求1所述的方法,其中所述第一輸入數(shù)據(jù)的幀包括音頻幀,并且所述多個(gè)第一概率值中的每個(gè)概率值指示所述第一輸入數(shù)據(jù)的幀的相應(yīng)部分與音素相關(guān)聯(lián)的可能性。
5.根據(jù)權(quán)利要求1所述的方法,其中所述第一地面實(shí)況數(shù)據(jù)的幀包括音頻數(shù)據(jù),所述音頻數(shù)據(jù)包括音素和指示所述音素的標(biāo)記窗口中的至少一部分。
6.根據(jù)權(quán)利要求1所述的方法,還包括:
7.根據(jù)權(quán)利要求6所述的方法,其中所述第一輸入數(shù)據(jù)的幀和所述第二輸入數(shù)據(jù)的幀表示音頻幀序列。
8.根據(jù)權(quán)利要求1所述的方法,其中所述神經(jīng)網(wǎng)絡(luò)算法包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)算法。
9.根據(jù)權(quán)利要求1所述的方法,其中所述神經(jīng)網(wǎng)絡(luò)算法包括遞歸神經(jīng)網(wǎng)絡(luò)(rnn)算法。
10.根據(jù)權(quán)利要求1所述的方法,其中更新所述神經(jīng)網(wǎng)絡(luò)算法包括:
11.一種機(jī)器學(xué)習(xí)系統(tǒng),包括:
12.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述第一輸入數(shù)據(jù)的幀包括圖像,并且所述多個(gè)第一概率值中的每個(gè)概率值指示所述第一輸入數(shù)據(jù)的幀的相應(yīng)部分描繪感興趣對(duì)象的至少一部分的可能性。
13.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述第一地面實(shí)況數(shù)據(jù)的幀包括描繪一個(gè)或多個(gè)對(duì)象和分別與所述一個(gè)或多個(gè)對(duì)象相關(guān)聯(lián)的一個(gè)或多個(gè)邊界框的圖像。
14.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述第一輸入數(shù)據(jù)的幀包括音頻幀,并且所述多個(gè)第一概率值中的每個(gè)概率值指示所述第一輸入數(shù)據(jù)的幀的相應(yīng)部分與音素相關(guān)聯(lián)的可能性。
15.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述第一地面實(shí)況數(shù)據(jù)的幀包括音頻數(shù)據(jù),所述音頻數(shù)據(jù)包括音素和指示所述音素的標(biāo)記窗口中的至少一部分。
16.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述指令的執(zhí)行還使所述機(jī)器學(xué)習(xí)系統(tǒng):獲得第二輸入數(shù)據(jù)的幀和第二地面實(shí)況數(shù)據(jù)的幀,其中所述第二地面實(shí)況數(shù)據(jù)的幀與具有多個(gè)第三值的第三二進(jìn)制掩碼和具有多個(gè)第四值的第四二進(jìn)制掩碼相關(guān)聯(lián);
17.根據(jù)權(quán)利要求16所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述第一輸入數(shù)據(jù)的幀和所述第二輸入數(shù)據(jù)的幀表示音頻幀序列。
18.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述神經(jīng)網(wǎng)絡(luò)算法包括卷積神經(jīng)網(wǎng)絡(luò)(cnn)算法。
19.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述神經(jīng)網(wǎng)絡(luò)算法包括遞歸神經(jīng)網(wǎng)絡(luò)(rnn)算法。
20.根據(jù)權(quán)利要求11所述的機(jī)器學(xué)習(xí)系統(tǒng),其中所述指令的執(zhí)行還使所述機(jī)器學(xué)習(xí)系統(tǒng):至少部分地基于所述第一檢測(cè)損失和所述第一非檢測(cè)損失來(lái)確定總損失;以及