專利名稱:用于對準(zhǔn)歌曲與它的歌詞的方法和電子設(shè)備的制作方法
用于對準(zhǔn)歌曲與它的歌詞的方法和電子設(shè)備
本發(fā)明涉及一種對準(zhǔn)(align)歌曲與它的歌詞的方法。
本發(fā)明還涉及一種用于對準(zhǔn)歌曲與它的歌詞的電子設(shè)備。
本發(fā)明還涉及一種計算機程序產(chǎn)品,其包括用于使得可編程設(shè)備能夠 執(zhí)行對準(zhǔn)歌曲與它的歌詞的方法的軟件。
本發(fā)明還涉及一種包括在歌曲的音頻與歌詞分段之間的映射的數(shù)據(jù)庫。
本發(fā)明還涉及一種包括在歌曲的音頻與歌詞分段之間的映射的信號。
這種方法的實施例是從Ye Wang等人的文章"LyricAlly: Automatic Synchronization of Acoustic Musical Signals and Textual Lyrics,,(ACM MM,04, 2004年10月10 - 16, New York, USA)中獲知的。這篇文章提出一 種用來自動對準(zhǔn)文本歌詞與聲學(xué)音樂信號的多模態(tài)方法。它提出并入模塊 以用于在韻律、合唱部分(chorus)檢測和歌唱話音檢測方面的音樂理解, 以及杠桿調(diào)節(jié)(leverage)文本處理以對音頻處理加上約束條件,削減不必 要的計算和創(chuàng)建持續(xù)時間的粗略估值,其通過音頻處理得以精細(xì)化。該已 知方法的缺點在于,它只能對具有特定結(jié)構(gòu)的歌曲起作用。
本發(fā)明的第一目的是提供在開頭段落中描述的那種類型的電子設(shè)備, 它可以對具有未知結(jié)構(gòu)的歌曲起作用。
本發(fā)明的第二目的是提供在開頭段落中描述的那種方法,它可被使用 于具有未知結(jié)構(gòu)的歌曲。
按照本發(fā)明,實現(xiàn)了第一目的,因為該電子電路被配置成把歌曲的歌 詞中一組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的一組類似音頻分段的 音頻分段,以及把歌曲的歌詞中另 一組類似歌詞分段的每個歌詞分段對準(zhǔn) 歌曲的另一組類似音頻分段的音頻分段。本發(fā)明人認(rèn)識到,如果歌曲的結(jié) 構(gòu)是未知的,則把非合唱部分的歌詞分段認(rèn)作為獨立是不足夠的,因為這 將使得把歌詞分段映射到音頻分段的數(shù)學(xué)問題的解的數(shù)目太大,特別是因 為樂器音頻分段的存在。本發(fā)明的方法可被使用于,例如,在相應(yīng)的音頻分段被回放的同時顯 示歌詞分段。替換地,本發(fā)明的方法可以是在創(chuàng)建歌曲與歌詞的自動地逐
短語、逐單詞、逐音節(jié)(syllable)的對準(zhǔn)中的第一步驟。歌曲的歌詞可以 例如從互聯(lián)網(wǎng)被檢索。對準(zhǔn)歌詞分段與音頻分段可包括創(chuàng)建在歌詞分l爻與 音頻分段之間的映射,和/或按照這個映射回放歌曲。
在本發(fā)明的電子設(shè)備的實施例中,所述一組和/或另 一組類似歌詞分段 通過比較歌曲的歌詞中的每一歌詞分段的音節(jié)量、每一行的音節(jié)量、和/ 或歌詞分段的韻律方案而被確定。這三個特征,特別是每一行的音節(jié)量, 給出了獨唱部分(verse)相似性的精確的測度。合唱部分可以通過查找在 其間具有高的字重復(fù)率的歌詞分段而被確定。
所述一組和/或另 一組類似音頻分段可以藉助于和聲進(jìn)行分析 (harmomc progression analysis )而被確定。和聲進(jìn)行分析在實驗中證明是 充分可行的。
按照本發(fā)明,實現(xiàn)了第二目的,因為該方法包括以下步驟把歌曲的 歌詞中一組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的一組類似音頻分段 的音頻分段,以及把歌曲的歌詞中另 一組類似歌詞分段的每個歌詞分段對 準(zhǔn)歌曲的另 一組類似音頻分段的音頻分段。
在本發(fā)明的方法的實施例中,所述一組和/或另 一組類似歌詞分段通過 比較歌曲的歌詞中的每一歌詞分段的音節(jié)量、每一行的音節(jié)量、和/或歌詞 分段的韻律方案而被確定。
所述一組和/或另 一組類似音頻分段可以藉助于和聲進(jìn)行分析被確定。
從附圖中將明白本發(fā)明的這些和其它方面,并且將參考附圖以示例方 式來進(jìn)一步闡述本發(fā)明的這些和其它方面,其中
圖1是本發(fā)明的方法的流程圖; 圖2是本發(fā)明的方法的實施例的流程圖; 圖3是藉助于本發(fā)明的方法創(chuàng)建的映射的例子;以及 圖4是本發(fā)明的電子設(shè)備的框圖。
附圖上相應(yīng)的單元用相同的參考標(biāo)號表示。
對準(zhǔn)歌曲與它的歌詞的方法包括步驟1和步驟3,參見圖1。步驟1 包括把歌曲的歌詞中 一組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的 一組類似音頻分段的音頻分段。步驟3包括把歌曲的歌詞中另一組類似歌詞分 段的每個歌詞分段對準(zhǔn)歌曲的另 一組類似音頻分段的音頻分段。
所述一組和/或另一組類似歌詞分段可以通過比較歌曲的歌詞中的每
一歌詞分段的音節(jié)量(例如,30)、每一行的音節(jié)量(例如,對于5行的某個 歌詞分段的3,10,9,4,4)、和/或f:詞分段的韻律方案而^f皮確定。所述一組和 /或另 一組類似音頻分段可以藉助于和聲進(jìn)行分析而 一皮確定。
參見圖2,所述方法的實施例包括四個步驟步驟ll,確定歌曲的歌 詞中的一組和另一組類似歌詞分段;步驟13,確定歌曲的一組和另一組類 似音頻分段;步驟15,把歌詞分段映射到音頻分段;以及步驟17,根據(jù) 映射來回放歌詞分段和歌曲。步驟15或步驟17或二者可被看作為把歌曲 的歌詞中的歌詞分段對準(zhǔn)歌曲的音頻分段。
在步驟ll的實現(xiàn)中,首先確定合唱部分,然后確定類似的獨唱部分。 以下的技術(shù)可被使用來確定合唱部分
1. 確定(幾乎)完全相同地重復(fù)的歌詞部分。
2. 確定其中提到歌曲標(biāo)題的分段。
3. 確定每個分段的自相似性。
典型地,歌曲的合唱部分是完全相同地重復(fù)的歌詞部分;它包含歌曲 標(biāo)題,以及它比起獨唱部分包含更多的重復(fù)。給定某些歌詞后,可以進(jìn)行 一些預(yù)處理,以便區(qū)分實際的歌詞(實際演唱的部分)和注解。某些注解(例 如,說明誰在演唱,誰作曲)可以只是被濾除,因為它們對于歌詞與音頻的 同步是無關(guān)的。其它注解(例如,"合唱","重復(fù)兩遍"等等)導(dǎo)致了歌詞的 擴展部分,使得每次在演唱合唱部分時,它出現(xiàn)在歌詞中。
包含多個分段,其中空白行分開所述分段。典型地,所述分段涉及到獨唱 部分、合唱部分、序曲、過渡樂節(jié)等等。如果歌詞已經(jīng)被分段,則假設(shè)合 唱部分由這些分段中的一個完整分段給出。如果歌詞被分段,則可以執(zhí)行
以下的步驟。
1. 首先,對于每個分段確定它是否包含歌曲標(biāo)題(精確地或近似地)。 如果例如歌曲標(biāo)題是"IloveU",而歌詞說"Iloveyou (我愛你)",那么查 找歌曲標(biāo)題的近似出現(xiàn)可以是有幫助的??赡苡懈鞣N各樣小的變化。為了 慮及這些小的變化,可以應(yīng)用近似匹配沖支術(shù)。
2. 第二,對于每對分段確定它們相似得有多好。為此,對于每對分段,確定最佳對準(zhǔn)。最佳對準(zhǔn)是這樣的對準(zhǔn),即它通過允許在任一分羊爻中
插入空白(space)和通過允許失配,而把一個分段中的最大數(shù)目的字符匹 配于另一個分段中的字符。最佳對準(zhǔn)涉及到通過使用最小數(shù)目的插入、刪 除、和替換而把一個分段轉(zhuǎn)換成另一個分段。這樣的最佳對準(zhǔn)可以通過 O(nm)次的動態(tài)編程而被構(gòu)建,其中n和m是兩個分段的長度。
3.第三,確定在每個分段內(nèi)的重復(fù)的量。這可以如下地被實現(xiàn)。首 先,確定在分段內(nèi)完全相同地重復(fù)的子串。識別不能被增大的子串。這樣 的子串被稱為最大外延。令'the morel want you,是這樣的最大外延,則在 這個子串的兩次出現(xiàn)前面將有不同的字符,并且它們后面接有不同的字符 (否則它就不是最大外延)。隨后,最大尺寸的最大外延的全部出現(xiàn)(除了第 一個以外)被在分段中還沒有出現(xiàn)的獨特的字(例如,r#l, r#2等等)重復(fù)地 替代。這個過程重復(fù)進(jìn)行,直至不再有最大外延為止。
最終得到的串的長度除以原先串的長度的分?jǐn)?shù)被用作為在分段內(nèi)的 重復(fù)的測度。通過使用以上三個措施,選出了多半是合唱部分的分段。
如果歌詞還沒有被劃分成分段,則若可能的話仍舊使用類似的指示來 標(biāo)識合唱部分。再次地,通過使用動態(tài)編程,可以找到幾乎完全相同地重 復(fù)的歌詞部分。在這種情形下,假設(shè)合唱部分由完整行的序列組成。局部 對準(zhǔn)動態(tài)編程算法可以以這樣一種方式被適配,即僅僅考慮完整行的序 列。這可在0(r^2)次中計算,其中n是歌詞的長度。在給出一個或多個或 多或少完全相同地重復(fù)的部分后,歌詞被自動地劃分成分段。
在合唱部分被確定后,可使用附加的線索來找出在分段之間的潛在的 邊界。例如,如果兩個接連的行押韻,則它們多半屬于同一個分段。另外, 音位(phoneme)的數(shù)目可^^皮計數(shù)。最終得到的分羊更應(yīng)當(dāng)優(yōu)選地顯示每一 分段的多個音位的重復(fù)的圖案。
在步驟13的實現(xiàn)中,使用和聲進(jìn)行分析來確定類似音頻分段。為此, 對于等距離間隔計算色度譜(chroma spectrum)。對于最好的性能,間隔 應(yīng)當(dāng)是音樂中的單個小節(jié)(bar)。為了定位小節(jié),人們需要知道音樂的韻 律、整體拍子(global tempo )、和下拍(downv-beat)。色度譜代表所有 的十二個音級(pitch class )的或然率評分。這些i普可一皮映射到和弦符號(或 最可能的按鍵),這允許把音頻變換成離散的和弦符號的序列。通過使用標(biāo) 準(zhǔn)近似圖案匹配,類似的子序列可被分組為集群,并加上名稱的標(biāo)簽。
在步驟15的實現(xiàn)中,歌詞分段(LF)和音頻分段(AF)的自動對準(zhǔn)問題藉
6助于以下的方法得以解決。
假設(shè),對于給定的歌曲,有n個LF,編號為l、 2、 ...、 n,以及有m 個AF,編號為1、 2、…、m,其中通常iKm。而且,令LFi的標(biāo)記由l(i) 表示,以及以符號的較小誤用,令A(yù)Fj的標(biāo)記由l(j)表示。為了找到對準(zhǔn), 可以使用搜索方法,使用搜索樹,該搜索樹生成LF到AF的所有的保留次 禾口一至丈的才旨酉己(assignment)。
指配是映射a:{l,2,...,n}-〉{l,2,...,m},它把每個LF指配給正好的一個 AF。如果對于在(l,2,…,n-l〉中的每個LF,我們有a(i)《a(i+l)的話,則指 配是保留次序的。如果被相同標(biāo)記的LF被指配給—皮相同標(biāo)記的AF的話, 即,如果對于LF的每對i、 j, l(i)=l(j)=>l(a(i))=l(a(j)),則指配被稱為一致。 偶爾地,不存在一致的指配。在這種情形下,選擇具有最小數(shù)目的非一致 的指配。
很經(jīng)常地,保留次序和一致的指配的數(shù)目可以是相當(dāng)大的,有時甚至 是幾千個指配。應(yīng)當(dāng)指出,可能必須把接連的LF指配給同一個AF,但正 確的指配幾乎總是具有如下屬性它具有最大范圍,即,LF被指配給其的 那組AF有最大的基數(shù)(cardinality)。最大范圍指配的子組通常顯著地小 于完整組的保留次序和一致的解。最終得到的子組通常由小于10個解組 成。
最后,對于每個剩余的解考慮在(d(a(l))/s(l),d(a(2))/s(2),…,d(a(n))/s(n)〉 中的方差,其中對于AFj, d(j)表示音頻分段的持續(xù)時間,以及對于LF i, s(i) 表示在歌詞分段中的音節(jié)的數(shù)目。假設(shè)具有最小方差的解相應(yīng)于正確的指配。
另外的線索是
-第一音頻分段通常是用樂器演奏的(特別是如果它相對較短的話)。
-如果多個音頻分段沒有得到指配給它的歌詞分段,則這些分段應(yīng)當(dāng) 優(yōu)選地具有相同的標(biāo)記。
-作為后處理步驟,被指配給AFj的LFi可一皮重新指配給j和它的一 個或多個鄰居,只要這些鄰居具有與j相同的標(biāo)記,并且只要這導(dǎo)致持續(xù) 時間/音節(jié)的較好的方差。
圖3顯示了指配歌詞分段(LF)給音頻分段(AF)的例子。音頻分段被標(biāo)
記為A!到A7,其中A2和A4是類似音頻分段的組。歌詞分段被標(biāo)記為V!
到V"用于獨唱部分)和C(用于合唱部分),其中V2和C是類似歌詞分段的組。組V2的每個歌詞分段被映射到組A2的音頻分l史,以及組C的每個歌 詞分段被映射到組A4的音頻分段。在本例中,在合唱部分和獨唱部分之 間做出區(qū)別,但這并不是必需的。如果歌詞包含樂器部分的明顯的指示, 諸如過渡樂節(jié)或獨奏,則這些可被識別為歌詞分l史并在執(zhí)行指配中— 皮使 用。最終得到的歌詞標(biāo)記序列在分析音樂時也是有幫助的。如果在分析歌 詞的基礎(chǔ)上,知道歌曲的全部結(jié)構(gòu),則將更容易識別音頻信號中的各種各 樣的部分。
圖4顯示本發(fā)明的電子設(shè)備31。電子設(shè)備31包括電子電路33,其被 配置成把歌曲的歌詞中 一 組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的一 組類似音頻分段的音頻分段,以及把歌曲的歌詞中另 一組類似歌詞分段的 每個歌詞分段對準(zhǔn)歌曲的另一組類似音頻分段的音頻分段。電子設(shè)備31 還可包括存儲裝置35、再現(xiàn)裝置37、輸入39和/或輸出41。電子設(shè)備31 可以是專業(yè)設(shè)備或消費者設(shè)備,例如是固定的或便攜式音樂播放器。電子 電路33可以是通用或?qū)S锰幚砥?,并且可以是能夠?zhí)行計算機程序的。
存儲裝置35例如可包括硬盤、固態(tài)存儲器、光盤讀出器或全息存儲 裝置。存儲裝置35可包括一數(shù)據(jù)庫,其具有在歌曲的音頻分段和歌詞分 段之間的至少一個映射。再現(xiàn)裝置37例如可包括顯示器和/或揚聲器。對 準(zhǔn)的歌曲和歌詞分段可以經(jīng)由再現(xiàn)裝置37被再現(xiàn)。
替換地,輸出41可被使用來在外部顯示器(未示出)上顯示歌詞分段和 /或在外部揚聲器(未示出)上播放音頻分段。輸入39和輸出41例如可包括 網(wǎng)絡(luò)連接器,例如是USB連接器或以太網(wǎng)連接器;模擬音頻和/或視頻連 接器,諸如cinch連接器或SCART連接器;或數(shù)字音頻和/或視頻連接器, 諸如HDMI或SPDIF連接器。輸入39和輸出41可包括無線接收機和/或 發(fā)射機。輸入39和/或輸出41可被使用來分別接收和發(fā)送信號,該信號包 括在歌曲的音頻和歌詞分段之間的映射。
雖然本發(fā)明是結(jié)合優(yōu)選實施例描述的,但將會看到,在上述的原理內(nèi)
些優(yōu)選實施例,而打算包括這樣的修改。本發(fā)明在于每個新穎的特性特征 和特性特征的每個組合。權(quán)利要求中的參考標(biāo)號不限制權(quán)利要求的保護(hù)范 圍。動詞"包括"和它的動詞變化的使用不排除與在權(quán)利要求中闡述的那些 單元不同的其它單元的存在。在單元前的冠詞"一"或"一個"的使用不排 除多個這樣的單元的存在。本發(fā)明可以藉助于包括幾個不同單元的硬件和藉助于適當(dāng)?shù)鼐幊痰?計算機而被實現(xiàn)。'計算機程序產(chǎn)品,應(yīng)當(dāng)理解為是指被存儲在諸如軟盤那 樣的計算機可讀介質(zhì)上的、經(jīng)由諸如互聯(lián)網(wǎng)那樣的網(wǎng)絡(luò)可下載的、或以任
何其它方式可出售的任何軟件產(chǎn)品。
權(quán)利要求
1. 一種電子設(shè)備(31),包括電子電路(33),被配置成-把歌曲的歌詞中一組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的一組類似音頻分段的音頻分段;以及-把歌曲的歌詞中另一組類似歌詞分段的每個歌詞分段對準(zhǔn)歌曲的另一組類似音頻分段的音頻分段。
2. 如在權(quán)利要求1中要求的電子設(shè)備,其中所述一組和/或另一組類 似歌詞分段通過比較歌曲的歌詞中的每一歌詞分段的音節(jié)量、每一行的音 節(jié)量、和/或歌詞分段的韻律方案而被確定。
3. 如在權(quán)利要求1中要求的電子設(shè)備,其中所述一組和/或另一組類 似音頻分段藉助于和聲進(jìn)行分析而被確定。
4. 一種對準(zhǔn)歌曲與它的歌詞的方法,該方法包括以下步驟-把歌曲的歌詞中 一組類似歌詞分段的每個歌詞分段對準(zhǔn)(l)歌曲的 一組類似音頻分段的音頻分段;以及-把歌曲的歌詞中另 一組類似歌詞分段的每個歌詞分段對準(zhǔn)(3)歌曲 的另一組類似音頻分段的音頻分段。
5. 如在權(quán)利要求4中要求的方法,其中所述一組和/或另一組類似歌 詞分段通過比較歌曲的歌詞中的每一歌詞分段的音節(jié)量、每一行的音節(jié) 量、和/或歌詞分段的韻律方案而被確定。
6. 如在權(quán)利要求4中要求的方法,其中所述一組和/或另一組類似音頻分段藉助于和聲進(jìn)行分析而#皮確定。
7. 一種計算機程序產(chǎn)品,其包括用于使得可編程設(shè)備能夠執(zhí)行權(quán)利要求4的方法的軟件。
8. —種數(shù)據(jù)庫,其包括在歌曲的音頻和歌詞分段之間的映射,其中 所述映射藉助于權(quán)利要求4的方法而被創(chuàng)建。
9. 一種信號,其包括在歌曲的音頻和歌詞分段之間的映射,其中所 述映射藉助于權(quán)利要求4的方法而被創(chuàng)建。
全文摘要
一種對準(zhǔn)歌曲與它的歌詞的方法,該方法包括以下步驟把歌曲的歌詞中一組類似歌詞分段(C)的每個歌詞分段對準(zhǔn)歌曲的一組類似音頻分段(A<sub>4</sub>)的音頻分段,以及把歌曲的歌詞中另一組類似歌詞分段(V<sub>2</sub>)的每個歌詞分段對準(zhǔn)歌曲的另一組類似音頻分段(A<sub>2</sub>)的音頻分段。所述方法可以由電子設(shè)備執(zhí)行,有可能通過計算機程序產(chǎn)品而被使能。藉助于所述方法確定的映射可以通過信號被發(fā)送和接收,和/或被存儲在數(shù)據(jù)庫中。
文檔編號G10H1/00GK101438342SQ200780016586
公開日2009年5月20日 申請日期2007年4月27日 優(yōu)先權(quán)日2006年5月8日
發(fā)明者G·格萊恩斯, J·H·M·科斯特, S·C·波斯 申請人:皇家飛利浦電子股份有限公司