專利名稱:基于樂符知識及雙投影法的樂符基元分割方法
技術(shù)領(lǐng)域:
本發(fā)明涉及多媒體信號處理技術(shù)領(lǐng)域,尤其是在數(shù)字音樂圖書館等音樂樂譜數(shù)字 化應(yīng)用開發(fā)的領(lǐng)域。
背景技術(shù):
樂譜的發(fā)明是人類音樂史上的里程碑,它的出現(xiàn)使人們可以在一個相對標(biāo)準(zhǔn)的平 臺上進(jìn)行音樂的交流和傳承。但是,古往今來的優(yōu)秀音樂作品大都以紙質(zhì)樂譜的形式保留 下來,直至今天,紙質(zhì)樂譜仍是表達(dá)和描述音樂作品的主要載體。紙質(zhì)樂譜的存在使得音樂 的人們交流和保存音樂,但是紙質(zhì)樂譜的保存需要占用一定的存儲空間,不利于保存與交 流,特別是紙質(zhì)狀樂譜無法實(shí)現(xiàn)高速查詢與檢索,而只能能以純手工的方式進(jìn)行。紙質(zhì)樂譜 的這些缺點(diǎn),使得樂譜的交流與保存極為不便。光學(xué)樂譜識別技術(shù)(OMR)是近年來發(fā)展起來的實(shí)現(xiàn)紙質(zhì)樂譜數(shù)字化的一種主流 技術(shù),不同于傳統(tǒng)的圖像存儲格式(如JPG,TIF,GIF等)采用光學(xué)掃描壓縮存貯樂譜圖像, 而是記錄樂譜所表達(dá)的音樂內(nèi)容,因此所需要的存儲空間更小,并且可以很方便的對其進(jìn) 行編輯、加工、打印、傳播或者實(shí)時(shí)演奏。OMR技術(shù)為紙質(zhì)樂譜的數(shù)字化提供了一個智能、高 效的新途徑,可以廣泛的應(yīng)用在計(jì)算機(jī)輔助音樂教學(xué)、數(shù)字音樂圖書館建設(shè)、互聯(lián)網(wǎng)音樂搜 索、計(jì)算機(jī)音樂合成等領(lǐng)域。一個完整的OMR處理系統(tǒng)大致包括以下幾個組成模塊1)紙質(zhì)樂譜圖像輸入及預(yù) 處理,2)樂譜譜線檢測定位及刪除,3)樂譜圖像分割,4)樂譜圖像識別,5)樂譜重建及音樂 語義解釋。樂譜的分割是識別的前提,關(guān)系到整個OMR系統(tǒng)的性能。目前廣泛采用的樂譜 分割方式主要有投影法,區(qū)域生長法,邊緣提取及連通域分析等方法。投影法方法簡單,但 往往只能實(shí)現(xiàn)對直線區(qū)域和非直線區(qū)域的有效分割,或者是進(jìn)行直線的提取,無法實(shí)現(xiàn)對 各具體連通域進(jìn)行分割;邊緣提取法,區(qū)域生長法以及傳統(tǒng)連通域方法雖能提取圖像中的 各個連通區(qū)域,但運(yùn)行速度慢且復(fù)雜,往往需要對圖像進(jìn)行多次掃描才能完成。國外有關(guān)OMR的研究起始于60年代后期,當(dāng)時(shí)由于技術(shù)條件和硬件設(shè)備的限制, 所研究的內(nèi)容也是非常有限的。到了 70年代,隨著光學(xué)掃描儀的出現(xiàn)和機(jī)器性能的提升, OMR才真正已經(jīng)引起眾多學(xué)者的廣泛注意。進(jìn)入80年代后,隨著計(jì)算機(jī)圖形圖像技術(shù)的不 斷發(fā)展與成熟,研究內(nèi)容越來越深入,部分研究成果也正逐步進(jìn)入實(shí)用階段。在我國,一方面由于計(jì)算機(jī)音樂發(fā)展起步晚,計(jì)算機(jī)音樂只是少數(shù)音樂工作者的 “專利”,社會缺乏計(jì)算機(jī)識別樂譜的需要;另一方面,由于國內(nèi)高校的學(xué)科設(shè)置綜合化程 度、學(xué)科交叉的跨度與國外有著相當(dāng)大的差距,長期以來,從事計(jì)算機(jī)音樂研究的專業(yè)人才 嚴(yán)重缺乏。因此,OMR技術(shù)在國內(nèi)的系統(tǒng)研究和實(shí)踐工作幾乎為空白。目前,西北工業(yè)大學(xué) 與西安音樂學(xué)院合作正在開展印刷體光學(xué)樂譜識別技術(shù)的研究,但目前國內(nèi)外有關(guān)樂譜分 割技術(shù)的研究還很少,尤其是關(guān)于樂符基元的分割,傳統(tǒng)的投影法仍然占有十分重要的地 位,但該方法對于基元的分割效率不高,有待進(jìn)一步提高。
發(fā)明內(nèi)容
本發(fā)明目的是針對現(xiàn)有技術(shù)存在的缺陷提供一種正確、有效的樂符基元分割方 法,從而提高基元的正確分割和識別率,提高整個OMR系統(tǒng)的性能。本發(fā)明為實(shí)現(xiàn)上述目的,采用如下技術(shù)方案本發(fā)明基于樂符知識及雙投影法的樂符基元分割方法,包括如下步驟c)符頭的寬度w通常為五線譜譜線距寬度xj的1.2倍,即w = 1.2 X xj ;d)高度參考值ν = 3Xxk+3Xxj,其中xk表示線寬,則符干的高度h滿足h > ν,(1)高音譜號和二分休止符,節(jié)拍線以及大括號的垂直投影也滿足上式,按如下方法 來確定該連通域是否需要進(jìn)一步分割I(lǐng))出現(xiàn)兩個疑似符干,連通域必然需要分割;II)如果某連通域出現(xiàn)單個疑似符干,則計(jì)算包圍框?qū)挾萲d和高度gd以及最大垂 直黑色游程的長度cd,如果滿足下式,則該連通域包含一個真正的符干,需要進(jìn)一步分割kd > xj&gd > v&cd < 3Xv,(2)并使用雙投影法即可實(shí)現(xiàn)樂符基元的分割。優(yōu)選地,步驟II)所述的樂符基元的分割方法包括如下步驟(1)計(jì)算出原始二值圖像B(x,y)的五線譜的譜線距xj和譜線寬度xk,以及高度 參考值V。(2)對所有連通域進(jìn)行垂直投影,得到他們的垂直投影隊(duì)列P r ο j v ( i , j ) , i = 1,2, - Wj, j = 1,2, .·· L , (3)其中L為初步分割后連通域的個數(shù),Wj為第j個連通域圖像的列數(shù);若Projv(i, j) > ν則認(rèn)為第j個連通域的第i列存在疑似符干,但相鄰兩個疑似符干之間距離要大于 1個xk,否則認(rèn)為是一個疑似符干;對每一個連通域的投影隊(duì)列進(jìn)行如下判斷若疑似符干的個數(shù)num > 1或者疑似符干的個數(shù)num = 1且連通域的性質(zhì)滿足公 式(2),則記Flagj = 1 ;否則Flagj = 0 ;進(jìn)而得到需要分割的連通域像素表xltyxsb (u,v, w),u = 1,2,…M,v = l,2,v = 1,2,…N其中M為各連通域中像素的個數(shù),N為需要進(jìn)一 步分割的連通域數(shù)。設(shè)初始需分割連通域編號k = 1 ;(3)確定各基元的左右垂直分割線對找出第k個連通域的符干位置,fgp0S(i),i =1,2, -η, η 為符干的個數(shù),若(fgpos (I)-Ityll(k)) < xj,其中 ltyll (k)為第 k 個連 通域邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按下式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, —η,(fgpos(i)-l. 2Xxj, fgpos(i)) ;i = 2,3—n(4)反之,各基元外圍方框的垂直分割線對按2. 5式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(ltyll, fgpos(l)) ; (fgpos (i) _1· 2 X χ j,fgpos (i)) ;i = 2,3...n,(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...n_l(5)4)確定各基元的的水平分割線對每一個子區(qū)域進(jìn)行水平投影,得到其水平投影圖Pimgh(i,j),h= 1,2,…N,其中N為基元區(qū)域的個數(shù),并統(tǒng)計(jì)獲得各投影圖中第一列的 垂直黑色游程信息表Yc (i,j),將每一個子區(qū)域的垂直黑色游程的起始行和終止行,作為該 基元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線即包圍框的最小列和 最大列,得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實(shí)現(xiàn)基元的分割;5)k = k+1,若k彡N則轉(zhuǎn)至第3步,否則繪制出分割后的圖像。本發(fā)明的優(yōu)點(diǎn)和效果在于1.在樂符基元分割階段充分利用了樂符的結(jié)構(gòu)知識,準(zhǔn)確的判別出哪些連通域需 要進(jìn)一步分割,提高基元分割的準(zhǔn)確性。2.該發(fā)明將樂符結(jié)構(gòu)知識和雙投影法相結(jié)合,能夠準(zhǔn)確有效的實(shí)現(xiàn)樂符基元的分 割,相對于傳統(tǒng)的投影法,能有效的提高分割的正確率。
圖1 可能成為疑似符干的幾種音樂符號a)高音譜號b) 二分休止符C)符頭疊加 造成符干長度不等,d)長度不等的小節(jié)線e)大括號;圖2 經(jīng)過前期處理后的二值圖像;圖3 譜線刪除后的樂譜圖像;圖4 樂譜圖像連通域分析的結(jié)果;圖5 需進(jìn)一步分割圖像的各連通域;圖6 確定了基本樂符垂直分割線后的圖像分割情況;圖7 單個音符基元區(qū)域的垂直分割線;圖8 需進(jìn)一步進(jìn)行基元分割圖像的基元分割結(jié)果;圖9 整幅樂譜圖像的最終分割結(jié)果。
具體實(shí)施例方式對樂譜圖像進(jìn)行連通域分析后盡管能夠獲得樂譜圖像的各個連通域,但由于樂譜 符號的空間多樣性,通常需要將樂譜對象分割成最基本的基元,以減輕樂譜識別的負(fù)擔(dān)并 提高識別率。傳統(tǒng)的投影法在進(jìn)行基元分割時(shí)盡管運(yùn)算速度快,但存在分割準(zhǔn)確性不高,甚 至無法判別那些樂譜符號需要進(jìn)一步分割。為此本發(fā)明根據(jù)需要分割的各種樂符的結(jié)構(gòu)特 點(diǎn),提出了基于樂符知識及雙投影法的基元分割算法??紤]到需要進(jìn)一步分割的連通域通 常包含有符干,因此首先對經(jīng)過初步分割的所得到的各連通域進(jìn)行垂直投影,并結(jié)合音符 結(jié)構(gòu)知識判斷是否包含有符干,從而確定哪些連通域需要進(jìn)一步分割,然后再在此基礎(chǔ)上 采用水平投影法進(jìn)行基元分割。這里所需要利用的樂符知識主要有e)符頭的寬度w通常約為五線譜譜線距寬度xj的1. 2倍,即w = 1. 2Xxj ;f)若設(shè)高度參考值ν = 3Xxk+3Xxj,其中xk表示線寬,則符干的高度h通常滿 足h > V。2. 1除了符干的高度滿足2. 1式之外,高音譜號和二分休止符,節(jié)拍線以及大括號的 垂直投影也滿足此式,從而出現(xiàn)疑似符干情況,見圖1,為此可以按如下原則來確定該連通 域是否需要進(jìn)一步分割
6
I)出現(xiàn)兩個疑似符干,連通域必然需要分割;II)如果某連通域出現(xiàn)單個疑似符干,則計(jì)算包圍框?qū)挾萲d和高度gd以及最大 垂直黑色游程的長度cd,如果滿足2. 2式,則該連通域包含一個真正的符干,需要進(jìn)一步分 割。kd > χ j&gd > v&cd < 3 X ν2.2利用這些知識并使用雙投影法即可實(shí)現(xiàn)樂符基元的分割,其實(shí)現(xiàn)的具體技術(shù)步驟
如下1)計(jì)算出原始二值圖像B (x,y)的五線譜的譜線距xj和譜線寬度xk,以及高度參
考值V。2)對所有連通域進(jìn)行垂直投影,得到他們的垂直投影隊(duì)列Projv(i,j),i = 1, 2,…Wj, j = 1,2, —L,2. 3其中L為初步分割后連通域的個數(shù),Wj為第j個連通域圖像的列數(shù);若Projv(i, j) > ν則認(rèn)為第j個連通域的第i列存在疑似符干,但相鄰兩個疑似符干之間距離要大于 1個xk,否則認(rèn)為是一個疑似符干。對每一個連通域的投影隊(duì)列進(jìn)行如下判斷若疑似符干的個數(shù)num > 1或者疑似符干的個數(shù)num = 1且連通域的性質(zhì)滿足公 式2. 2,則記Flagj = 1 ;否則Flagj = 0 ;進(jìn)而得到需要分割的連通域像素表xltyxsb(u,v, w),u = 1,2,…Μ,ν = 1,2,ν = 1,2,…N其中M為各連通域中像素的個數(shù),N為需 要進(jìn)一步分割的連通域數(shù)。設(shè)初始需分割連通域編號k = 1。3)確定各基元的左右垂直分割線對找出第k個連通域的符干位置fgpos(i), i = 1,2, "·η,η 為符干的個數(shù),若(fgpos ⑴-ltyll(k)) <xj,其中 ltyll (k)為第k個連通域邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按 2. 4式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...η(fgpos(i)-l. 2Xxj, fgpos(i)) ;i = 2,3—n2.4反之,各基元外圍方框的垂直分割線對按2. 5式確定(fgpos(i)-l, fgpos(i)+l) ;i = 1,2, ...η(ltyll, fgpos(l)) ; (fgpos (i) _1· 2 X χ j,fgpos (i)) ;i = 2,3...n,(fgpos(i), fgpos(i)+l. 2Xxj) ;i = 1,2, ...n_l2.54)確定各基元的的水平分割線對每一個子區(qū)域進(jìn)行水平投影,得到其水平投影 圖Pimgh(i,j),h= 1,2,…N,其中N為基元區(qū)域的個數(shù),并統(tǒng)計(jì)獲得各投影圖中第一列的 垂直黑色游程信息表Yc (i,j),將每一個子區(qū)域的垂直黑色游程的起始行和終止行,作為該 基元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線(即包圍框的最小列 和最大列),就可以得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實(shí)現(xiàn)基元 的分割。5)k = k+1,若k≤N則轉(zhuǎn)至第3步,否則繪制出分割后的圖像。下面結(jié)合附圖,對本發(fā)明所述的技術(shù)方案作進(jìn)一步的闡述。紙質(zhì)樂譜圖像首先通過掃描儀或者數(shù)碼拍攝設(shè)備輸入到計(jì)算機(jī),然后經(jīng)過去噪,圖像格式變換等預(yù)處理操作,變成二值樂譜圖像;圖2即為一幅經(jīng)過前期處理后所得到的 二值樂譜圖像。消除掉了在掃描過程中或者由于圖像本身所帶到的噪聲,并進(jìn)行了格式變 換。由于樂譜圖像不同于普通的圖像,樂譜圖像中的很多樂符依賴于譜線,譜線在樂 譜圖像中具有非常重要的意義,不同高度的譜線代表的音度不一樣,因此,十分有必要進(jìn)行 譜線的檢測定位和刪除工作,圖3即為對樂譜圖像進(jìn)行譜線刪除后的結(jié)果,譜線刪除后消 除了其對樂譜分割以及樂符基元識別的干擾。譜線刪除以后就是對樂譜圖像進(jìn)行分割,以便提取出所有的音樂樂譜符號,在本 發(fā)明中首先需要對原始的樂譜圖像進(jìn)行連通域分析,可以采用邊緣提取法,區(qū)域生長法以 及快速連通域分析等方法,圖4即為進(jìn)行連通域分析后所獲得的樂譜圖像的連通域,該方 法可有效的避免投影法等方法一步實(shí)現(xiàn)基元分割所造成的分割正確率低下,甚至無法分割 的情況。獲得了樂譜圖像的連通域后,再根據(jù)樂符的結(jié)構(gòu)知識判斷出哪些連通域需要進(jìn)一 步分割成基元,圖5即為對圖4中需要進(jìn)一步分割的基元所作判斷的結(jié)果,對于需要進(jìn)一步 分割的基元,進(jìn)行基元分割?;指畹木唧w步驟按照前面的技術(shù)方案來逐步執(zhí)行。在分割過程中需要找出各 連通域中所包含的各符干的位置,以符干為基準(zhǔn),將其左1. 2個譜線距和右1. 2個譜線矩的 位置(最左和最右以連通域的邊框?yàn)榻?作為基本音符的垂直分割線,而水平分割線為連 通域的上下邊框線,即可得到圖6所示的結(jié)果,并對分割區(qū)域進(jìn)一步細(xì)化,從而得到各基元 區(qū)域的垂直分割線,圖7即為對一個基本音符細(xì)化后得到基元區(qū)域垂直分割線的圖像分割 結(jié)果,然后再通過垂直投影并結(jié)合垂直黑色游程段的信息找到每一個基元的水平邊界分割 線,從而實(shí)現(xiàn)基元分割,見圖8,整幅樂譜圖像的最終分割圖見圖9。
8
權(quán)利要求
一種基于樂符知識及雙投影法的樂符基元分割方法,所利用到的樂符知識主要有a)符頭的寬度w通常為五線譜譜線距寬度xj的1.2倍,即w=1.2×xj;b)高度參考值v=3×xk+3×xj,其中xk表示線寬,則符干的高度h滿足h>v,(1)高音譜號和二分休止符,節(jié)拍線以及大括號的垂直投影也滿足上式,按如下方法來確定該連通域是否需要進(jìn)一步分割I(lǐng))出現(xiàn)兩個疑似符干,連通域必然需要分割;II)如果某連通域出現(xiàn)單個疑似符干,則計(jì)算包圍框?qū)挾萲d和高度gd以及最大垂直黑色游程的長度cd,如果滿足下式,則該連通域包含一個真正的符干,需要進(jìn)一步分割kd>xj&gd>v&cd<3×v, (2)然后再結(jié)合使用雙投影法即可實(shí)現(xiàn)樂符基元的分割。
2.根據(jù)權(quán)利要求所述的基于樂符知識及雙投影法的樂符基元分割方法,包括如下步驟(1)計(jì)算出原始二值圖像B(x,y)的五線譜的譜線距xj和譜線寬度xk,以及高度參考值Vo(2)對所有連通域進(jìn)行垂直投影,得到他們的垂直投影隊(duì)列Projv(i, j), i = 1,2, -Wj, j = 1,2,…L,(3)其中L為初步分割后連通域的個數(shù),Wj為第j個連通域圖像的列數(shù);若Projv(i,j) > ν則認(rèn)為第j個連通域的第i列存在疑似符干,但相鄰兩個疑似符干之間距離要大于1個 xk,否則認(rèn)為是一個疑似符干;對每一個連通域的投影隊(duì)列進(jìn)行如下判斷若疑似符干的個數(shù)num > 1或者疑似符干的個數(shù)num = 1且連通域的性質(zhì)滿足公式 (2) JlHSFlagj = 1,否則Flagj = O。進(jìn)而得到需要分割的連通域像素表xltyxsb (u,v,w), u = 1,2,…M,ν = 1,2,ν = 1,2,…N其中M為各連通域中像素的個數(shù),N為需要進(jìn)一步 分割的連通域數(shù)。設(shè)初始需分割連通域編號k = 1 ;(3)確定各基元的左右垂直分割線對找出第k個連通域的符干位置,fgpos(i),i = 1,2,"·η,η為符干的個數(shù),若(fgpos (I)-Ityll(k)) < xj,其中l(wèi)tyll (k)為第k個連通域 邊框的最小列,則該連通域各基元外圍方框的垂直分割線對按下式確定(fgpos (i)-l, fgpos (i)+l) ;i = 1,2, ".η (fgpos (i), fgpos (i) +1. 2 X χ j) ;i = 1,2, ".η, (fgpos (i)-l. 2Xxj,fgpos (i)) ;i = 2,3…η(4)反之,各基元外圍方框的垂直分割線對按2. 5式確定 (fgpos (i)-l, fgpos (i)+l) ;i = 1,2, ".η(ltyll, fgpos(l)) ; (fgpos ⑴-L 2 X xj, fgpos ⑴);i = 2,3."n, (fgpos(i), fgpos (i)+l. 2Xxj) ;i = 1,2,…n_l(5)4)確定各基元的的水平分割線對每一個子區(qū)域進(jìn)行水平投影,得到其水平投影圖 Pimgh(i,j),h= 1,2,…N,其中N為基元區(qū)域的個數(shù),并統(tǒng)計(jì)獲得各投影圖中第一列的垂 直黑色游程信息表Yc (i,j),將每一個子區(qū)域的垂直黑色游程的起始行和終止行,作為該基 元的水平分割線,作為包圍框的最小行和最大行,配合垂直分割線即包圍框的最小列和最 大列,得到各基元的包圍方框,將包圍框的信息放到分割信息表中,實(shí)現(xiàn)基元的分割;5)k = k+1,若k彡N則轉(zhuǎn)至第3步,否則繪制出分割后的圖像。
全文摘要
本發(fā)明公布了一種基于樂符知識及雙投影法的樂符基元分割方法,對樂譜圖像進(jìn)行連通域分析后盡管能夠獲得樂譜圖像的各個連通域,但由于樂譜符號的空間多樣性,通常需要將樂譜對象分割成最基本的基元,以減輕樂譜識別的負(fù)擔(dān)并提高識別率。本發(fā)明根據(jù)需要分割的各種樂符的結(jié)構(gòu)特點(diǎn),提出了基于樂符知識及雙投影法的基元分割算法??紤]到需要進(jìn)一步分割的連通域通常包含有符干,因此首先對經(jīng)過初步分割的所得到的各連通域進(jìn)行垂直投影,并結(jié)合音符結(jié)構(gòu)知識判斷是否包含有符干,從而確定哪些連通域需要進(jìn)一步分割,然后再在此基礎(chǔ)上采用水平投影法進(jìn)行基元分割。
文檔編號G06K9/34GK101944180SQ20101027563
公開日2011年1月12日 申請日期2010年9月7日 優(yōu)先權(quán)日2010年9月7日
發(fā)明者余華, 奚吉, 楊銀賢, 王開, 王青云, 趙力, 鄒采榮, 陳存寶 申請人:東南大學(xué)