本發(fā)明涉及圖像識別技術(shù)領(lǐng)域,特別涉及一種用于樂譜圖像識別的電子設(shè)備及識別方法。
背景技術(shù):
圖像識別,是指利用計算機(jī)對圖像進(jìn)行處理、分析和理解,以識別各種不同模式的目標(biāo)和對像的技術(shù)。
現(xiàn)有技術(shù)中的樂譜圖像識別設(shè)備,包括圖像采集模塊和計算機(jī),圖像采集模塊以拍照或者掃描樂譜的方式采集樂譜的圖像數(shù)據(jù),輸入到計算機(jī)中,通過計算機(jī)中的識別模塊對采集到的圖像數(shù)據(jù)進(jìn)行分析識別。
但是,應(yīng)用上述的樂譜圖像識別設(shè)備,存在以下技術(shù)問題:圖像采集模塊與識別模塊分離,需要依賴計算機(jī)工作,工作過程較長,影響使用的便利性。
現(xiàn)有技術(shù)中的樂譜圖像識別方法,大多基于傳統(tǒng)計算機(jī)視覺方法,在識別精度和識別速度上不是十分理想,無法做到快速精準(zhǔn)識別,甚至需要對待識別的樂譜做出高度規(guī)范化要求,不利于日常場景的使用。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種用于樂譜圖像識別的電子設(shè)備及識別方法,可以解決現(xiàn)有技術(shù)中的樂譜圖像識別設(shè)備圖像采集模塊與識別模塊分離,使用不便,及現(xiàn)有技術(shù)中的樂譜圖像識別方法識別精度和識別速度不理想的問題。
為達(dá)到上述目的,本發(fā)明實施例公開了,一種用于樂譜圖像識別的電子設(shè)備,包括殼體、發(fā)聲部件、設(shè)置在殼體內(nèi)的主板以及設(shè)置在所述殼體第一端部的圖像掃描部件;
所述主板上設(shè)置有主控電路及分別與主控電路電連接的聲卡電路和電源電路;
所述圖像掃描部件包括掃描滾輪以及設(shè)置在掃描滾輪上方的攝像頭,所述掃描滾輪和攝像頭均與所述主控電路電連接;所述攝像頭將拍攝的樂譜圖像發(fā)送給主控電路進(jìn)行處理;
所述發(fā)聲部件與所述聲卡電路相連,按主控電路發(fā)送的聲音信號發(fā)出聲音;
所述電源電路分別與所述掃描滾輪、攝像頭及發(fā)聲部件電連接為其供電;
所述殼體的第二端部設(shè)置有電池艙及艙蓋,電池艙與主板上的電源電路相連。
優(yōu)選的,所述殼體為筆狀殼體;所述圖像掃描部件設(shè)置在筆狀殼體的第一端部;
所述發(fā)聲部件安裝在所述圖像掃描部件上方,所述圖像掃描部件和發(fā)聲部件使第一端部形成為筆尖狀;
所述主板安裝在筆狀殼體內(nèi)靠近筆尖的位置;
所述筆狀殼體內(nèi)設(shè)置有至少2個主板安裝柱;所述主板通過所述至少2個主板安裝柱固定在筆狀殼體內(nèi)。
優(yōu)選的,所述筆狀殼體的第二端部設(shè)置有電池艙及艙蓋,電池艙與主板上的電源電路相連。
優(yōu)選的,所述筆狀殼體的第二端部設(shè)置有外接電源線,外接電源線與主板上的電源電路相連。
本發(fā)明實施例還公開了,一種樂譜圖像識別方法,包括,
通過攝像頭獲取待處理的五線譜圖像傳遞給主控電路;
主控電路對待處理的五線譜圖像進(jìn)行識別,識別出每個完整音符;
主控電路根據(jù)識別出的完整音符,發(fā)送對應(yīng)的聲音數(shù)字信號給聲卡電路,聲卡電路將收到的聲音數(shù)字信號轉(zhuǎn)換成可播放的模擬信號,傳遞給發(fā)聲部件進(jìn)行播放;
所述的主控電路對待處理的五線譜圖像進(jìn)行識別,包括,
對待處理的五線譜圖像采用邊緣檢測方法描繪出圖像的邊緣信息,再通過直線檢測方法檢測出五線位置坐標(biāo);
采用預(yù)設(shè)的音符分類器,對待處理的五線譜圖像進(jìn)行音符定位分割,得到每個完整音符在圖像中的位置;
采用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,判斷是實心符頭還是空心符頭,并得到符頭的位置;
根據(jù)所述得到的五線位置坐標(biāo)、每個完整音符的相對位置、是實心符頭還是空心符頭及符頭的位置,識別出每個完整音符。
優(yōu)選的,所述的音符分類器的訓(xùn)練過程,包括:
建立正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集,數(shù)據(jù)集中包括定位框的位置數(shù)據(jù)及定位框內(nèi)的五線譜圖像的圖像數(shù)據(jù),正樣本數(shù)據(jù)集為包括完整音符的圖像數(shù)據(jù),負(fù)樣本數(shù)據(jù)集為包括除過完整音符之外的其余樂譜可能出現(xiàn)的圖像數(shù)據(jù);
提取正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集中每個樣本的通道特征,訓(xùn)練音符分類器。
優(yōu)選的,所述的對待處理的五線譜圖像進(jìn)行音符定位分割,包括,
在待處理的五線譜圖像上隨機(jī)選取若干個候選定位框,逐個掃描定位框,對每個定位框內(nèi)的圖像提取所述的通道特征,將提取的通道特征輸入到音符分類器中,判斷定位框內(nèi)的圖像為正樣本或者為負(fù)樣本,正樣本判定為樂譜中的完整音符,負(fù)樣本判定為樂譜背景舍棄,從而得到待處理的五線譜圖像中的完整音符,對照音符分類器中定位框的位置數(shù)據(jù)得到每個完整音符在圖像中的位置。
優(yōu)選的,所述的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,包括,
建立音符符頭數(shù)據(jù)集,包括實心符頭、空心符頭和背景三種分類數(shù)據(jù);
構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),包括2個卷積層,2個下采樣層和1個全連接層;
將音符符頭數(shù)據(jù)集中的符頭圖像數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)中,完成訓(xùn)練。
優(yōu)選的,所述的采用卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,包括,
將音符定位分割得到的完整音符,輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過和音符符頭數(shù)據(jù)集里的數(shù)據(jù)對比,得出是實心符頭、空心符頭或者背景,舍棄背景,同時對照音符符頭數(shù)據(jù)集里的符頭的位置數(shù)據(jù),確定完整音符中符頭的位置。
優(yōu)選的,所述的待處理的五線譜圖像,具體為:對五線譜圖像進(jìn)行去噪、對比度增強(qiáng)、灰度化、減少噪聲或光照不均勻的處理,得到的二值圖像。
由上述的技術(shù)方案可見,本發(fā)明電子設(shè)備實施例通過將發(fā)聲部件、主板以及圖像掃描部件全部集成在一個設(shè)備中,大幅度提升了產(chǎn)品的便攜性,解決現(xiàn)有技術(shù)中存在的圖像采集模塊與識別模塊分離,使用不便的問題。
本發(fā)明識別方法實施例,對待處理的五線譜圖像采用邊緣檢測方法描繪出圖像的邊緣信息,再通過直線檢測方法檢測出五線位置坐標(biāo);采用預(yù)設(shè)的音符分類器,對待處理的五線譜圖像進(jìn)行音符定位分割,得到每個完整音符在圖像中的位置;采用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,判斷是實心符頭還是空心符頭,并得到符頭的位置;根據(jù)所述得到的五線位置坐標(biāo)、每個完整音符的相對位置、是實心符頭還是空心符頭及符頭的位置,識別出每個完整音符。相較于傳統(tǒng)計算機(jī)視覺方法,本發(fā)明采用音符分類器與卷積神經(jīng)網(wǎng)絡(luò)級聯(lián)進(jìn)行音符識別,具有識別速度快,識別精度高的優(yōu)點(diǎn)。
當(dāng)然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明電子設(shè)備的一種實施例結(jié)構(gòu)示意圖;
圖2是本發(fā)明電子設(shè)備實施例中主板的電路示意圖;
圖3是本發(fā)明電子設(shè)備實施例中主板的控制原理圖;
圖4是本發(fā)明樂譜識別方法第一種實施例的流程圖;
圖5是本發(fā)明識別方法第一種實施例中主控電路對待處理的五線譜圖像進(jìn)行識別的流程圖;
圖6是本發(fā)明識別方法第二種實施例中主控電路對待處理的五線譜圖像進(jìn)行識別的流程圖;
圖7是本發(fā)明樂譜識別方法第二種實施例中單邊邊緣檢測方法原理圖;
圖8是本發(fā)明樂譜識別方法第二種實施例中五線位置坐標(biāo)檢測的效果圖;
圖9是本發(fā)明樂譜識別方法第二種實施例中音符分類器的訓(xùn)練過程示意圖;
圖10是本發(fā)明樂譜識別方法第二種實施例中正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集的樣本示意圖;
圖11是本發(fā)明樂譜識別方法第二種實施例中音符定位分割的流程圖;
圖12是本發(fā)明樂譜識別方法第二種實施例中音符定位分割的效果圖;
圖13是本發(fā)明樂譜識別方法第二種實施例中卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程示意圖;
圖14是本發(fā)明樂譜識別方法第二種實施例中卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖;
圖15是本發(fā)明樂譜識別方法第二種實施例中音符符頭識別的流程圖;
圖中,1.艙蓋,2.電池艙,3.主板,4.攝像頭,5.掃描滾輪,6.主板安裝柱,7.發(fā)聲部件,8.LED補(bǔ)光燈。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明用于樂譜圖像識別的電子設(shè)備的一種實施例的結(jié)構(gòu),如圖1所示,殼體為筆狀殼體,圖像掃描部件設(shè)置在筆狀殼體的第一端部,發(fā)聲部件7安裝在圖像掃描部件上方,圖像掃描部件和發(fā)聲部件7使第一端部形成為筆尖狀;圖像掃描部件包括掃描滾輪5以及設(shè)置在掃描滾輪5上方的攝像頭4。
主板3安裝在筆狀殼體內(nèi)靠近筆尖的位置。筆狀殼體內(nèi)設(shè)置有至少2個主板安裝柱6,主板3通過至少2個主板安裝柱6固定在筆狀殼體內(nèi)。如圖2所示,主板3上設(shè)置有主控電路及分別與主控電路電連接的聲卡電路和電源電路;掃描滾輪5和攝像頭4均與主控電路電連接;攝像頭4將拍攝的樂譜圖像發(fā)送給主控電路進(jìn)行處理;發(fā)聲部件7與聲卡電路相連,按主控電路發(fā)送的聲音信號發(fā)出聲音。
筆狀殼體的第二端部設(shè)置有電池艙2及艙蓋1,電池艙2與主板3上的電源電路相連。應(yīng)該說明的是,設(shè)置電池艙2及艙蓋1,目的是給主板3上的電源電路供電,也可以選擇其他結(jié)構(gòu)用于供電,比如:在筆狀殼體的第二端部設(shè)置外接電源線,外接電源線與主板3上的電源電路相連。
優(yōu)選的,攝像頭4上還設(shè)置有LED補(bǔ)光燈8,用于給攝像頭4補(bǔ)光。
優(yōu)選的,發(fā)聲部件7為揚(yáng)聲器。應(yīng)該說明的是,發(fā)聲部件7為現(xiàn)有技術(shù)中的發(fā)聲裝置,目的是完成發(fā)聲的功能。
優(yōu)選的,攝像頭4采用CMOS圖像傳感器OV7620實現(xiàn);主控電路采用微處理器Argus3芯片實現(xiàn)。如圖3所示,微處理器Argus3芯片內(nèi)嵌ARM9TDMI核,芯片內(nèi)集成一個高速緩存、一個專用的RAM和各種豐富的應(yīng)用接口,支持SPAM、FLASH等格式,并提供視頻處理引擎和圖像處理器。
優(yōu)選的,在圖像掃描部件的外部設(shè)置有與筆狀殼體活動連接的保護(hù)套,保護(hù)套的形狀與筆尖形狀相配合,用于保護(hù)攝像頭4。
本發(fā)明樂譜圖像識別方法的第一種實施例,如圖4所示,包括,
步驟101:通過攝像頭獲取待處理的五線譜圖像傳遞給主控電路;
步驟102:主控電路對待處理的五線譜圖像進(jìn)行識別,識別出每個完整音符;
步驟103:主控電路根據(jù)識別出的完整音符,發(fā)送對應(yīng)的聲音數(shù)字信號給聲卡電路,聲卡電路將收到的聲音數(shù)字信號轉(zhuǎn)換成可播放的模擬信號,傳遞給發(fā)聲部件進(jìn)行播放;
所述的主控電路對待處理的五線譜圖像進(jìn)行識別,如圖5所示,包括,
步驟1021:對待處理的五線譜圖像采用邊緣檢測方法描繪出圖像的邊緣信息,再通過直線檢測方法檢測出五線位置坐標(biāo);
步驟1022:采用預(yù)設(shè)的音符分類器,對待處理的五線譜圖像進(jìn)行音符定位分割,得到每個完整音符在圖像中的位置;
步驟1023:采用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,判斷是實心符頭還是空心符頭,并得到符頭的位置;
步驟1024:根據(jù)所述得到的五線位置坐標(biāo)、每個完整音符的相對位置、是實心符頭還是空心符頭及符頭的位置,識別出每個完整音符。
本發(fā)明樂譜圖像識別方法的第二種實施例,如圖6所示,與識別方法第一種實施例的區(qū)別在于,所述的主控電路對待處理的五線譜圖像進(jìn)行識別,包括,
步驟2021:對得到的五線譜圖像進(jìn)行去噪、對比度增強(qiáng)、灰度化、減少噪聲或光照不均勻的處理,得到二值圖像;
步驟2022:對得到的二值圖像采用單邊邊緣檢測方法描繪出圖像的邊緣信息,再通過hough直線檢測方法檢測出五線位置坐標(biāo);
步驟2023:采用預(yù)設(shè)的音符分類器,對得到的二值圖像進(jìn)行音符定位分割,得到每個完整音符在圖像中的位置;
步驟2024:采用預(yù)設(shè)的卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,判斷是實心符頭還是空心符頭,并得到符頭的位置;
步驟2025:根據(jù)所述得到的五線位置坐標(biāo)、每個完整音符的相對位置、是實心符頭還是空心符頭及符頭的位置,識別出每個完整音符。
本發(fā)明樂譜圖像識別方法的第二種實施例中的其他步驟可參考第一種實施例,此處不再贅述。
優(yōu)選的,本發(fā)明識別方法第二種實施例中步驟2022所述的單邊邊緣檢測方法,包括:
a)選用Sobel算子,分別求出水平方向上和垂直方向上的梯度值:
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
其中,a0-a7代表8個鄰域像素點(diǎn);
b)采用非極大值抑制對水平方向上和垂直方向上的梯度值進(jìn)行抑制,即僅保留每個方向梯度直線上的最大值的點(diǎn),其余點(diǎn)的值均設(shè)為0;
c)采用自適應(yīng)閾值方法得到每個區(qū)域中待設(shè)置閾值的大小,使用該閾值作為是否連接邊緣的條件限制,描繪出圖像的邊緣信息。
為了更好的說明單邊邊緣檢測方法的有益效果,以下將傳統(tǒng)的canny邊緣檢測方法和本發(fā)明采用的單邊邊緣檢測方法做一對比說明:
1)傳統(tǒng)的canny邊緣檢測方法步驟包括:
a)通過求取圖像中每個像素的一階偏導(dǎo)并計算梯度方向和幅值,從而得出各點(diǎn)在不同方向上的幅值,過程中會涉及到不同的算子模板,例如Robert算子、Prewitt算子等;
b)對梯度幅值進(jìn)行非極值抑制,圖像梯度幅值矩陣中的元素值越大,說明圖像中該點(diǎn)的梯度值越大,但不足以確定該點(diǎn)就是邊緣點(diǎn),故需要尋找像素點(diǎn)在一條直線上的極值,將非極值點(diǎn)所對應(yīng)的灰度值置為0,這樣可以剔除掉一大部分非邊緣的點(diǎn);
c)用雙閾值算法檢測和連接邊緣,選擇兩個閾值,根據(jù)高閾值得到一個邊緣圖像。在高閾值圖像中把邊緣鏈接成輪廓,當(dāng)?shù)竭_(dá)輪廓的端點(diǎn)時,算法會在斷點(diǎn)的8值鄰域點(diǎn)中尋找滿足低閾值的點(diǎn),再根據(jù)此點(diǎn)收集新的邊緣,直到整個圖像邊緣閉合,形成整個邊緣圖像。
2)本發(fā)明采用的單邊邊緣檢測方法步驟包括:
a)改變原有的canny算法常用的模板算子,進(jìn)而選用Sobel算子(a0-a7代表8個鄰域像素點(diǎn)),分別求出水平方向上和垂直方向上的梯度值;
水平梯度:sx=(a2+2a3+a4)-(a0+2a7+a6)
垂直梯度:sy=(a0+2a1+a2)-(a6+2a5+a4)
幅值:
Sobel模板:
b)同樣對每個方向上的梯度值進(jìn)行抑制,但由于需要的是直線單邊的邊緣,所以需要改變抑制方法,將原方法中的非極值抑制改為非極大值抑制,即僅保留每個方向梯度直線上的最大值的點(diǎn),其余點(diǎn)的值均設(shè)為0,如圖7所示,以(3*3)的區(qū)域作為比較塊,分別將中心像素與(1、5)(2、6)(3、7)(4、8)相比較,將非極大值點(diǎn)設(shè)為0;
c)采用自適應(yīng)閾值方法得到每個區(qū)域中待設(shè)置閾值的大小,使用該閾值作為是否連接邊緣的條件限制,該方法借鑒了自適應(yīng)二值化中的方式,這樣同時減少了光照等因素對不同區(qū)域的影響。
應(yīng)該說明的是,所述的自適應(yīng)閾值方法,為現(xiàn)有技術(shù)中的常用方法。
經(jīng)上述對比,傳統(tǒng)canny方法檢測時發(fā)現(xiàn)每條五線均出現(xiàn)雙邊邊緣,影響定位效果,本發(fā)明采用非極大值抑制僅保留梯度單邊極值,加入自適應(yīng)閾值條件,使得五線較好的呈現(xiàn)出單邊邊緣;
應(yīng)該說明的是,步驟2022中的hough直線檢測方法,是現(xiàn)有技術(shù)中的常用直線檢測方法,能夠根據(jù)得到的圖像的邊緣信息檢測出五線位置坐標(biāo),如圖8所示,為本實施例中五線譜定位的效果圖。
優(yōu)選的,本發(fā)明識別方法第二種實施例中步驟2023音符分類器的訓(xùn)練過程,如圖9所示,包括:
步驟301:建立正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集,如圖10所示,數(shù)據(jù)集中包括定位框的位置數(shù)據(jù)及定位框內(nèi)的五線譜圖像的圖像數(shù)據(jù),正樣本數(shù)據(jù)集為包括完整音符的圖像數(shù)據(jù),負(fù)樣本數(shù)據(jù)集為包括除過完整音符之外的其余樂譜可能出現(xiàn)的圖像數(shù)據(jù);
步驟302:提取正樣本數(shù)據(jù)集和負(fù)樣本數(shù)據(jù)集中每個樣本的通道特征,訓(xùn)練音符分類器。
應(yīng)該說明的是,此處的負(fù)樣本可以是殘缺的音符圖像、五線譜圖像、樂譜背景圖像等,但不限于列舉的上述圖像。
優(yōu)選的,每個樣本的通道特征,包括,灰度和顏色、線性濾波、非線性變換、逐點(diǎn)變換、梯度直方圖。應(yīng)該說明的是,所述的5種通道特征,為現(xiàn)有技術(shù)中的積分通道特征,定義解釋如下:
灰度和顏色:灰度是一種簡單的通道,LUV顏色空間也是三個常用的通道;
線性濾波:利用線性變換得到通道,如將圖像與不同方向的Gabor濾波器進(jìn)行卷積得到的通道,其中的每一個通道包含不同方向的邊緣信息,從而得到圖像不同尺度的紋理信息;
非線性變換:計算圖像梯度幅值,捕獲邊緣強(qiáng)度信息;捕獲邊緣梯度信息,梯度則既包含邊緣強(qiáng)度又包含邊緣方向,對于彩圖而言,則需要在3個通道分別計算梯度,并將對應(yīng)位置的3個梯度的最大響應(yīng)作為最后輸出;二值化圖像,將圖像分別以兩個不同閾值進(jìn)行二值化;
逐點(diǎn)變換:通道中的任一像素可以通過任意一個函數(shù)作為后處理進(jìn)行變化。如通過Log運(yùn)算,可以得到局部乘法算子exp(∑ilog(xi))=∏ixi,類似的,對每個像素計算p次冪可用于求解廣義均值;
梯度直方圖:是一個加權(quán)直方圖,它的bin索引是通過梯度的方向計算出來的,而其權(quán)值則是通過梯度的幅值計算而來的,也就是說這里的通道是這樣計算的:Qθ(x,y)=G(x,y)*1[Θ(x,y)=θ],這里G(x,y)和Θ(x,y)分別是代表圖像的梯度幅值和量化梯度方向,與此同時進(jìn)行不同尺度的模糊,可以計算出來不同尺度的梯度信息。此外,借助于梯度幅值信息,對計算出來的直方圖進(jìn)行歸一化,此方法類似于HOG特征。
優(yōu)選的,定位框為矩形塊定位框,根據(jù)五線間距interval確定定位框的大小,定位框高度height和寬度width分別根據(jù)公式計算得出:
height=5*interval;width=2.5*interval。
優(yōu)選的,本發(fā)明識別方法第二種實施例中步驟2023中對待處理的五線譜圖像進(jìn)行音符定位分割,如圖11所示,包括,
在待識別的二值圖上隨機(jī)選取若干個候選定位框,逐個掃描定位框,對每個定位框內(nèi)的圖像提取所述的通道特征,將提取的通道特征輸入到音符分類器中,判斷定位框內(nèi)的圖像為正樣本或者為負(fù)樣本,正樣本判定為樂譜中的完整音符,負(fù)樣本判定為樂譜背景舍棄,從而得到待識別的二值圖中的完整音符,對照音符分類器中定位框的位置數(shù)據(jù)得到每個完整音符在圖像中的位置,如圖12所示。
本實施例中隨機(jī)選取2000個候選定位框。
優(yōu)選的,本發(fā)明識別方法第二種實施例中步驟2024中的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,如圖13所示,包括,
步驟401:建立音符符頭數(shù)據(jù)集,包括實心符頭、空心符頭和背景三種分類數(shù)據(jù);
步驟402:如圖14所示,構(gòu)建卷積神經(jīng)網(wǎng)絡(luò),包括2個卷積層,2個下采樣層和1個全連接層;
步驟403:將音符符頭數(shù)據(jù)集中的符頭圖像數(shù)據(jù)輸入到卷積神經(jīng)網(wǎng)絡(luò)中,完成訓(xùn)練。
本實施例中的音符符頭數(shù)據(jù)集包括2000張實心符頭,1500張空心符頭和4000張背景圖像。
本實施例采用caffe框架卷積神經(jīng)網(wǎng)絡(luò),caffe框架是一個清晰,可讀性高,快速的深度學(xué)習(xí)框架,其模型結(jié)構(gòu)簡單、參數(shù)較少,在許多環(huán)境下(筆記本、手機(jī)等)只需要實現(xiàn)簡單的卷積和全連接前向網(wǎng)絡(luò)即可進(jìn)行音符識別,不需要另行配置caffe環(huán)境,十分方便簡單。
優(yōu)選的,本發(fā)明識別方法第二種實施例中步驟2025中的采用卷積神經(jīng)網(wǎng)絡(luò)對分割獲得的音符符頭進(jìn)行識別,如圖15所示,包括,
將音符定位分割得到的完整音符,輸入到卷積神經(jīng)網(wǎng)絡(luò)中,通過和音符符頭數(shù)據(jù)集里的數(shù)據(jù)對比,得出是實心符頭、空心符頭或者背景,舍棄背景,同時對照音符符頭數(shù)據(jù)集里的符頭的位置數(shù)據(jù),確定完整音符中符頭的位置。
實際應(yīng)用中,可根據(jù)識別出來的音符信息生成可播放的電子樂譜,進(jìn)行播放。
采用上述第二種實施例進(jìn)行音符識別,硬件為三星galaxy S3,CPU進(jìn)行測試,音符識別速度達(dá)到了500fps,準(zhǔn)確率為98.71%。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點(diǎn)說明的都是與其他實施例的不同之處。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。