專利名稱:媒體播放設(shè)備的制作方法
技術(shù)領(lǐng)域:
本實(shí)用新型涉及媒體播放設(shè)備,特別是涉及通過聲音輸入選擇所需樂曲的媒體播 放裝置。
背景技術(shù):
多媒體播放器,如MP3、 MP4、移動(dòng)終端、電腦等已相當(dāng)普及,這些設(shè)備通常都具 有較大的信息存儲(chǔ)容量,存儲(chǔ)了很多條多媒體信息。要從這些多媒體信息中選擇所需的 多媒體信息進(jìn)行播放的方法主要是先將多媒體信息按一定規(guī)則進(jìn)行分類,然后以選擇菜 單的方式由操作者通過操作界面進(jìn)行選擇。當(dāng)多媒體信息內(nèi)容很多時(shí),將會(huì)使操作界面 的菜單層次很多,以至于選擇到所需的多媒體信息也是比較困難的。而且通常操作界面 所顯示的菜單選項(xiàng)通常只顯示多媒體信息的標(biāo)題,當(dāng)多媒體信息內(nèi)容很多時(shí),人們往往 看到標(biāo)題有時(shí)也不能知道是否是所需內(nèi)容,往往選中后試聽或試看后發(fā)現(xiàn)不是所需,再 重新選擇的情況。
在互聯(lián)網(wǎng)絡(luò)發(fā)展的今天,網(wǎng)絡(luò)中的多媒體內(nèi)容更是十分龐大,從中搜索所需內(nèi)容 并不容易,特別是當(dāng)人們記不清多媒體內(nèi)容的標(biāo)題時(shí)搜索更是難以獲得。
近年來,語音識(shí)別技術(shù)和基于聲音控制操作電子設(shè)備的研究也比較多,在一些移 動(dòng)終端設(shè)備上也一些商用,如通過聲音選擇進(jìn)行電話撥打操作等。美國專利文件 No. 4, 277, 644和No. 6, 101, 467覆蓋了語音識(shí)別軟件的各個(gè)方面。而且用于表征音頻內(nèi) 容的方法也有描述。特別是美國專利No. 6, 054, 646和No. 6, 173, 250覆蓋了用于通過節(jié) 拍、能量、音高等特征來表征音樂的方法。
盡管有針對(duì)語音識(shí)別、音頻信號(hào)分析和音樂特征的表征方法的進(jìn)步和近年來的發(fā) 展,以及在一些電子設(shè)備上實(shí)現(xiàn)語音控制,但其應(yīng)用在很多情況下并不能滿足人們的需 求。例如,經(jīng)常出現(xiàn)的一種情況是,人們使用多媒體播放器選擇自己喜歡的多媒體內(nèi)容 時(shí)出現(xiàn)一些困難,當(dāng)時(shí)也許能夠哼出該多媒體信息中樂曲的某個(gè)片斷或某一句或者僅僅 能夠哼出樂曲旋律的一小節(jié)的近似內(nèi)容,但就是想不起來多媒體內(nèi)容的標(biāo)題,因而無法 有效地找到所需的媒體內(nèi)容。
在
公開日為2005年7月13日,公開號(hào)為CN1639975A的中國發(fā)明專利申請(qǐng)公開內(nèi)容中提到了通過提取信號(hào)源的語音特征后用語音特征去選擇所需信號(hào)源的內(nèi)容。特別是 該公開文件中公開的看門狗功能(Watch Dog):用戶可以向音頻記錄器-播放器中音頻分 析器唱或哼出一個(gè)樣式(pattern),然后音頻記錄器-播放器可以針對(duì)那個(gè)特定的音調(diào)來 監(jiān)視不同的頻道,而且用戶可以通過聲音識(shí)別軟件將所說的詞輸入給音頻記錄器-播放 器,然后音頻記錄器-播放器可針對(duì)包含這些詞的一些或全部的對(duì)話和獨(dú)白而監(jiān)視不同 頻道。采用高級(jí)匹配算法,即當(dāng)短語在預(yù)定的秒數(shù)中出現(xiàn)兩次或三次時(shí)宣布匹配的算法。 當(dāng)出現(xiàn)匹配時(shí),可以產(chǎn)生一個(gè)控制事件,控制頻道的切換。
但上述描述的技術(shù)應(yīng)用到具有較大容量的多媒體播放器時(shí)有其缺陷。因?yàn)槭褂枚?媒體播放器并非都是專業(yè)人員,所唱出或哼出的片斷或一句內(nèi)容或者樂曲旋律的內(nèi)容 時(shí),往往并不是標(biāo)準(zhǔn)的內(nèi)容,如樂曲旋律的節(jié)拍并不一樣、或者樂曲旋律的音調(diào)并不一 樣,但其所哼出或唱出的內(nèi)容與所希望選擇的內(nèi)容又有一定的相似性。比如一首樂曲是 C調(diào)的,錄制的多媒體信息也是基于C調(diào)的,但人們哼出或唱出的內(nèi)容可以用F調(diào)或C 升調(diào)或C降調(diào),但樂曲的韻律卻基本相似,人們可以判斷出是同一首樂曲;或者一首樂 曲是2/4節(jié)拍,但哼出或唱出的內(nèi)容卻可能是4/4節(jié)拍,但樂曲的韻律卻基本相似,人 們可以判斷出是同一首樂曲。在這種情況下,現(xiàn)有技術(shù)是沒有很好解決的。
另一方面,對(duì)于媒體播放器,還存在的情況是,人們希望某條媒體信息從某個(gè)點(diǎn) 開始播放,現(xiàn)有技術(shù)通常是采用快進(jìn)按鈕或快退按鈕,但這種操作方式,只能憑操作者 進(jìn)行預(yù)估前進(jìn)或后退位置,通常不準(zhǔn)確,需要多次按快進(jìn)按鈕或快退按鈕才能完成。現(xiàn) 有的數(shù)字媒體記錄方式雖然提供了目錄式菜單選擇方式以選定某條媒體的播放,但仍然 不能解決按人們的期望快速控制媒體播放起點(diǎn)的問題。
另外,音樂的版權(quán)問題,也越來越受到關(guān)注,特別是音樂的抄襲問題時(shí)有報(bào)道, 而且一些抄襲者為了躲避相應(yīng)的法律規(guī)定的漏洞,將樂曲的音調(diào)或節(jié)拍稍作調(diào)整,使其 與原曲從形式上不同,但實(shí)體內(nèi)容仍然相似,這種相似性如何被認(rèn)為是抄襲,現(xiàn)有技術(shù) 也沒有提出相應(yīng)的方法。
實(shí)用新型內(nèi)容
本實(shí)用新型所要解決的技術(shù)問題是如何更有效地從媒體存儲(chǔ)體或從互聯(lián)網(wǎng)絡(luò)中選 擇所需的多媒體信息并有效地隨意控制媒體播放的起點(diǎn)。本實(shí)用新型采用語音特征提 取、分段提取、相似度計(jì)算、相似性判定的方法來實(shí)現(xiàn)聲音控制電子設(shè)備或網(wǎng)絡(luò)操作實(shí)現(xiàn)自動(dòng)獲取所需多媒體信息。同時(shí)本實(shí)用新型的技術(shù)還可以用于或者實(shí)現(xiàn)樂曲抄襲或相 似性的自動(dòng)判定。
術(shù)語說明;本文中所指的語音特征是與輸入語音的韻律相關(guān)的特征信息,而韻律 是以每個(gè)可識(shí)別的音節(jié)為基礎(chǔ),也就是說, 一段多媒體包含很多音節(jié),而提取語音特征 時(shí)是以每個(gè)音節(jié)為基礎(chǔ)獲得的特征,每個(gè)音節(jié)的特征按順序組合在一起即構(gòu)成了這段多 媒體信息的整個(gè)韻律或旋律,因此所提取特征組合可以截取其中任意一段,作為本實(shí)用 新型中進(jìn)行特征比對(duì)的基礎(chǔ)。當(dāng)一段語音輸入包含多個(gè)旋律時(shí),可以僅提取主旋律特征 或者提取所有旋律的特征。在本文中語音特征和特征信息是相同含義。
術(shù)語說明本實(shí)用新型所指的媒體信息與多媒體信息具有相同的含義,都是指包 含有聲音信息的語音信息、音樂信息、視頻信息、數(shù)據(jù)信息或這些信息的任意組合。
術(shù)語說明本實(shí)用新型所指相似度是指兩個(gè)信息之間采用相關(guān)性算法得出的表示 信息相關(guān)性的數(shù)據(jù),所述相關(guān)性算法包含線性相關(guān)性計(jì)算方法或非線性相關(guān)性計(jì)算方 法。線性相關(guān)性計(jì)算方法和非線性相關(guān)性計(jì)算方法在現(xiàn)有的數(shù)學(xué)領(lǐng)域和實(shí)驗(yàn)物理學(xué)中已 經(jīng)給出了很多種數(shù)學(xué)模型和計(jì)算方法,作為與本實(shí)用新型相關(guān)聯(lián)的現(xiàn)有技術(shù)進(jìn)行引用。
為解決上述問題,提出的技術(shù)解決方案是
1、 一種多媒體播放裝置第一種方案,包括存儲(chǔ)了至少一條多媒體信息的信息存儲(chǔ)體和 多媒體信號(hào)輸出部件,其特征是還包括
聲音輸入部件,既可以是通過聲音傳感器輸入聲音,也可以是是一段預(yù)先制作的聲 音文件輸入信息;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)或信息中提取第一特征信息; 媒體信息特征存儲(chǔ)部件,存儲(chǔ)了對(duì)應(yīng)于所述每條多媒體信息的第二特征信息; 特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;
多媒體信息選擇部件,從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所在的那條 多媒體信息傳送到所述多媒體信號(hào)輸出部件。
2、 一種多媒體播放裝置第二種方案,包括存儲(chǔ)了至少一條多媒體信息的信息存儲(chǔ)體和 多媒體信號(hào)輸出部件,其特征是還包括-聲音輸入部件,既可以是通過聲音傳感器輸入聲音,也可以是是一段預(yù)先制作的聲 音文件輸入信息;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)或信息中提取第一特征信息;
媒體信息特征計(jì)算部件,計(jì)算對(duì)應(yīng)于所述每條多媒體信息的第二特征信息;
特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;
多媒體信息選擇部件,從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所在的那條 多媒體信息傳送到所述多媒體信號(hào)輸出部件。
3、對(duì)于第一特征信息和第二特征信息的提取方法,以大家熟悉的歌曲為例,可提取這
首歌曲的主旋律特征信息,如用簡(jiǎn)譜或五線譜表示,簡(jiǎn)譜中包含了節(jié)拍速度和音調(diào)
的信息。可以把主旋律特征信息作為本實(shí)用新型的第二特征信息;而不同的人唱出 或哼出這首歌曲時(shí),其節(jié)拍速度和/或音調(diào)可能與這首歌曲本身確定的節(jié)拍速度、音 調(diào)不同,也可能與所錄制成多媒體信息的信息段中第二特征信息的節(jié)拍速度、音調(diào) 不同,但如果都是針對(duì)同一首歌曲演唱,他們的主旋律是存在很大的相似性的。因 此對(duì)于第二特征信息進(jìn)行節(jié)拍調(diào)整和/或音調(diào)調(diào)整后,再與第一特征信息進(jìn)行相似性 計(jì)算。所述旋律也可以用五線譜或其他旋律表示。在音樂的多媒體信息處理中,其 中一種音樂媒體格式是樂譜文件,這種文件以表示音符、樂器以及清晰度信息的數(shù) 據(jù)形式存儲(chǔ)聲音,最流行的數(shù)據(jù)格式是MIDI數(shù)據(jù)格式。MIDI文件包含如何再現(xiàn)聲 音的規(guī)范,可被認(rèn)為是電可讀格式的一張樂譜,它包含有關(guān)在重放各MIDI文件中 存儲(chǔ)的數(shù)據(jù)所表示的樂譜時(shí)要考慮的聲道、所用的裝置以及升學(xué)參數(shù)的信息。集合 術(shù)語"聲學(xué)參數(shù)"表示定義例如音高、音符或其余值分別為響應(yīng)等級(jí)、音速、音色 或特殊效果如顫音或混響的描述。因此所述MIDI文件包含了本實(shí)用新型所需要的 第二特征信息,可以針對(duì)每一條或每一首多媒體信息所對(duì)應(yīng)的MIDI文件作為本實(shí) 用新型的第二特征信息,相應(yīng)的,第一特征信息的提取也采用相同方法,提取出輸 入語音的MIDI文件作為第一特征信息。或者對(duì)于每一條或每一首多媒體信息所對(duì) 應(yīng)的MIDI文件再進(jìn)行數(shù)據(jù)提取去除樂器、響應(yīng)等級(jí)、音色顫音、混響等特征之一 或幾個(gè)后作為本實(shí)用新型的第二特征信息,相應(yīng)的,第一特征信息的提取也采用相同方法,提取出輸入語音的MIDI文件去除音速、樂器、響應(yīng)等級(jí)、音色顫音、混 響等特征之一或幾個(gè)后作為第一特征信息。
在美國專利No. 6, 054, 646中給出了通過從聲音信號(hào)中提取特征信號(hào)的方法,包括倒 頻譜系數(shù)法(MFCC: Mel Frequency C印stral Coefficients )、線性預(yù)測(cè)編碼法(LPC: Linear Predictive Coding)。同時(shí)也給出了將MFCC特征轉(zhuǎn)化為MIDI文件的參數(shù)映射 描述。本實(shí)用新型在這里全文引用美國專利No.6,054,646的內(nèi)容。另外在現(xiàn)有的互聯(lián) 網(wǎng)絡(luò)中可以很容易找到將采集的聲音波形文件(WAVE)轉(zhuǎn)換為MIDI文件的軟件,還有將 MIDI文件轉(zhuǎn)換為簡(jiǎn)譜的軟件以及將MIDI文件轉(zhuǎn)換為五線譜的軟件。因此本實(shí)用新型在 這些現(xiàn)有知識(shí)的基礎(chǔ)之上實(shí)現(xiàn)本實(shí)用新型的內(nèi)容以判定輸入的聲音信息與存儲(chǔ)的多媒 體信息之間的關(guān)聯(lián)性。 一種實(shí)現(xiàn)方案可以描述如下-
對(duì)于輸入的聲音信號(hào)提取MFCC系數(shù),然后用MFCC系數(shù)生成MIDI文件,再將MIDI 文件轉(zhuǎn)換為簡(jiǎn)譜文件,以簡(jiǎn)譜文件作為第一特征信息;對(duì)于存儲(chǔ)的多媒體信息采用相同 的方法提取MFCC系數(shù),然后用MFCC系數(shù)生成MIDI文件,再將MIDI文件轉(zhuǎn)換為簡(jiǎn)譜文 件,以簡(jiǎn)譜文件作為第二特征信息;然后計(jì)算第一特征信息與第二特征信息的相似度, 根據(jù)相似度計(jì)算結(jié)果就可以實(shí)現(xiàn)本實(shí)用新型所需要達(dá)到的功能。在不同應(yīng)用要求中,對(duì) 于第一特征信息與第二特征信息還可以進(jìn)行進(jìn)一歩的變換,如第二特征信息還包含所述 多媒體信息對(duì)應(yīng)的簡(jiǎn)譜文件進(jìn)一歩生成的基于各種大調(diào)的簡(jiǎn)譜文件的組合,即假如原多 媒體信息的簡(jiǎn)譜文件是C大調(diào)的,可以進(jìn)一歩生成D大調(diào)、E大調(diào)、G大調(diào)等的簡(jiǎn)譜文
件作為第二特征信息的部分;再如第二特征信息還包含所述多媒體信息對(duì)應(yīng)的簡(jiǎn)譜文件 進(jìn)一步生成的基于各種節(jié)拍的簡(jiǎn)譜文件的組合,即假如原多媒體信息的簡(jiǎn)譜文件是2/4 拍的,可以進(jìn)一步生成4/4拍、6/8拍等的簡(jiǎn)譜文件作為第二特征信息的部分;再如將 簡(jiǎn)譜文件每個(gè)音調(diào)都用一個(gè)數(shù)字表示,將相鄰的相同音調(diào)合并為一個(gè)音調(diào),然后再進(jìn)行 相似度計(jì)算,可以排除輸入的聲音因音調(diào)不準(zhǔn)或節(jié)拍不同造成相似度的差異。
一種可選實(shí)現(xiàn)方案中,第一特征信息與第二特征信息可以就是MFCC系數(shù)或LPC系數(shù), 直接對(duì)于MFCC系數(shù)或LPC系數(shù)進(jìn)行相似度計(jì)算;還可以就是MIDI文件,直接對(duì)于MIDI 文件進(jìn)行相似度計(jì)算。
4、所述第一特征信息包含聲音音調(diào)信息和/或音調(diào)變化信息;所述第二特征信息包含多 媒體信息中包含的聲音音調(diào)信息和/或音調(diào)變化信息。5、 或者所述第一特征信息包含聲音音高信息和/或音高變化信息;所述第二特征信息包 含多媒體信息中包含的聲音音高信息和/或音高變化信息。
6、 一種多媒體信息選擇方法第一種方案,從至少一條多媒體信息和每條多媒體信息對(duì) 應(yīng)的第二特征信息的信息存儲(chǔ)體中選擇所需的多媒體信息,其特征是包括如下步驟-
第一步通過聲音輸入部件輸入聲音信號(hào);
第二步從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息;
第三步計(jì)算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第四步從所述相似度數(shù)據(jù)中選取相似度最大值;
第五步從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所屬的第二特征信息; 第六步從信息存儲(chǔ)體中根據(jù)所屬的第二特征信息檢索到所對(duì)應(yīng)的那條多媒體信息。
7、 該方法還包括將所對(duì)應(yīng)的那條多媒體信息輸出的歩驟。
8、 該方法,還包括向信息存儲(chǔ)體中輸入多媒體信息的歩驟,通過有線或無線方式從其 他介質(zhì)中將多媒體信息輸入到信息存儲(chǔ)體中或者通過網(wǎng)絡(luò)連接把多媒體信息下載到 信息存儲(chǔ)體中。
9、 進(jìn)一步的是該方法,還包括對(duì)所述輸入的多媒體信息計(jì)算對(duì)應(yīng)的第二特征信息的步 驟并存儲(chǔ)在所述信息存儲(chǔ)體中。
10、 或者該方法還包括直接向信息存儲(chǔ)體中輸入多媒體信息和對(duì)應(yīng)的第二特征信息 的歩驟。
11 、 所述第二特征信息中的任意一段信息的長(zhǎng)度與所述第一特征信息的長(zhǎng)度相同, 或者所述第二特征信息中的任意一段信息通過節(jié)拍調(diào)整后和/或音調(diào)調(diào)整后與所述 第一特征信息的長(zhǎng)度相同。
12、 所述第二特征信息與所述第一特征信息是音樂的韻律或旋律信息。
13、 或者所述第二特征信息與所述第一特征信息是去除了音拍長(zhǎng)度的韻律或旋律信 息。
14、 所述第三步的計(jì)算方法是線性相關(guān)性計(jì)算方法。 一種實(shí)現(xiàn)是基于簡(jiǎn)譜的第一特征信息和第二特征信息,由于通常簡(jiǎn)譜可用三個(gè)八度音符和節(jié)拍完全表示。由于音 符都是1到7的數(shù)字加上高音符或低音符以及停頓音(通常用0表示)表示。當(dāng)轉(zhuǎn)
化為本實(shí)用新型所述特征信息可以進(jìn)行如下處理。對(duì)于高音(第三個(gè)八度)用8到 15共7個(gè)數(shù)字表示,對(duì)于低音(第一個(gè)八度)用-7到-1共7個(gè)數(shù)字表示,對(duì)于中音 (第二個(gè)八度)用l-7共7個(gè)數(shù)字表示,停頓音用0表示,因此本實(shí)用新型所述的 特征信息在這個(gè)實(shí)現(xiàn)方案中被轉(zhuǎn)變成了數(shù)字信息,每個(gè)節(jié)拍對(duì)應(yīng)一個(gè)數(shù)字。用線性 相關(guān)度計(jì)算方法,可以很容易計(jì)算出第一特征信息和第二特征信息的相似性,即使 第一特征信息與第二特征信息的音高或音調(diào)不同,但如果存在相似,則每個(gè)節(jié)拍音 高或音調(diào)都會(huì)相應(yīng)地變化。如第二特征信息是音樂中的C調(diào),但第二特征信息可以 是B調(diào),由于每個(gè)節(jié)拍的數(shù)字都根據(jù)所確定的調(diào)而發(fā)生相應(yīng)地變化,雖然每個(gè)節(jié)拍 的數(shù)字不同,計(jì)算的相似度卻很高。線性相似度的數(shù)學(xué)計(jì)算方法屬于公知算法,這 里就不再贅述。有時(shí)也會(huì)出現(xiàn)輸入語音的第一特征信息所表示的節(jié)拍與多媒體信息 的第二特征信息的節(jié)拍不同,如第二特征信息是2/4節(jié)拍,而第一特征信息是4/4 節(jié)拍,但其表示的主旋律卻可能是相似的,因此計(jì)算相似度之前需要對(duì)于第一特征 信息和/或第二特征信息的節(jié)拍進(jìn)行調(diào)整。調(diào)整方法之一是將一個(gè)節(jié)拍的數(shù)據(jù)以相同 的數(shù)據(jù)擴(kuò)展一個(gè)節(jié)拍,如某個(gè)節(jié)拍的數(shù)據(jù)為5可以調(diào)整為兩個(gè)節(jié)拍,每個(gè)節(jié)拍都是 5;調(diào)整方法之二是將數(shù)據(jù)相同的兩個(gè)相連節(jié)拍縮減為一個(gè)節(jié)拍,如某兩個(gè)相連節(jié)拍 的數(shù)據(jù)都為5可以調(diào)整為一個(gè)節(jié)拍,節(jié)拍數(shù)據(jù)是5。
15、 一種多媒體信息選擇方法的第二種方案,從至少存儲(chǔ)了一條多媒體信息的信息 存儲(chǔ)體中選擇所需的多媒體信息,其特征是包括如下步驟 第一步通過聲音輸入部件輸入聲音信號(hào);
第二歩從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息; 第三步計(jì)算每條多媒體信息對(duì)應(yīng)的第二特征信息;
第四步計(jì)算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一
段信息的相似度數(shù)據(jù);
第五步;從所述相似度數(shù)據(jù)中選取相似度最大值;
第六步;根據(jù)相似度最大值的信息段所屬的第二特征信息檢索到所對(duì)應(yīng)的那條多媒
體信息。第二種方案與第一種方案的差別在于每條多媒體信息的第二特征信息是預(yù)先存儲(chǔ) 在存儲(chǔ)體中,還是應(yīng)用需要時(shí)才計(jì)算出來。
16、 一種多媒體信息播放器操作方法的第一種方案,從至少一條多媒體信息和每條 多媒體信息對(duì)應(yīng)的第二特征信息的信息存儲(chǔ)體中選擇所需的多媒體信息進(jìn)行播放, 其特征是包括如下步驟
第一步通過聲音輸入部件輸入聲音信號(hào);
第二步從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息;
第三步計(jì)算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第四步從所述相似度數(shù)據(jù)中選取相似度最大值;
第五步從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所屬的第二特征信息;
第六步從信息存儲(chǔ)體中根據(jù)所屬的第二特征信息檢索到所對(duì)應(yīng)的那條多媒體信息 進(jìn)行播放輸出。
每條多媒體信息對(duì)應(yīng)的第二特征信息可以采用MIDI文件,或者抽出MIDI文件的 部分要素。
17、 一種多媒體信息播放器操作方法第二種方案,從至少存儲(chǔ)了一條多媒體信息的 信息存儲(chǔ)體中選擇所需的多媒體信息,其特征是包括如下歩驟-
第一歩通過聲音輸入部件輸入聲音信號(hào);
第二步從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息; 第三步計(jì)算每條多媒體信息對(duì)應(yīng)的第二特征信息;
第四步;計(jì)算所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一 段信息的相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;
第六歩根據(jù)相似度最大值的信息段所屬的第二特征信息檢索到所對(duì)應(yīng)的那條多媒 體信息進(jìn)行播放輸出。
本實(shí)用新型所述技術(shù)還可以用于判斷兩首音樂的相似性,在判斷音樂是否抄襲中具 有較大的用處。18、 一種進(jìn)行音樂相似性判斷方法,對(duì)于第一音樂與第二音樂進(jìn)行相似性判斷,其 特征是包括如下步驟
第一步從所述第一音樂的多媒體信息中提取第一特征信息;
第二步將所述第一特征信息分解成以任意一起點(diǎn)開始的一定長(zhǎng)度的多個(gè)信息段; 第三步從所述第二音樂的多媒體信息中提取第二特征信息;
第四步計(jì)算所述多個(gè)信息段的任意一段與所述第二特征信息中的任意一段信息的 相似度數(shù)據(jù);
第五歩從所述相似度數(shù)據(jù)中選取相似度最大值;
第六歩判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述 第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。
上述一定長(zhǎng)度的多個(gè)信息段中,對(duì)于一定長(zhǎng)度的規(guī)定可以與相關(guān)的法律文件的定義 進(jìn)行關(guān)聯(lián),如規(guī)定連續(xù)7個(gè)節(jié)拍的相似被認(rèn)定為抄襲的話,可以將所述一定長(zhǎng)度設(shè)定為 7個(gè)節(jié)拍的長(zhǎng)度。
上述設(shè)定的閥值的含義是根據(jù)對(duì)于相關(guān)法律的執(zhí)行嚴(yán)格程度來確定的。對(duì)于嚴(yán)格的 相似才算抄襲,則設(shè)定的閥值就很高,接近l;當(dāng)執(zhí)行嚴(yán)格程度降低時(shí)設(shè)定的閥值就可 適當(dāng)降低,如為0.8或0.9。
19、 一種對(duì)于互聯(lián)網(wǎng)中的音樂進(jìn)行音樂相似性判斷方法,其特征是包括如下歩驟
第一步輸入第一音樂的多媒體信息的第一特征信息或者輸入第一音樂的多媒體信
息后從所述第一音樂的多媒體信息中提取第一特征信息;
第二步將所述第一特征信息分解成以任意一起點(diǎn)開始的一定長(zhǎng)度的多個(gè)信息段;
第三步從互聯(lián)網(wǎng)絡(luò)中下載第二音樂的多媒體信息的第二特征信息或者從互聯(lián)網(wǎng)絡(luò) 中下載第二音樂的多媒體信息后從所述第二音樂的多媒體信息中提取第二特征信息;
第四步計(jì)算所述多個(gè)信息段的任意一段與所述第二特征信息中的任意一段信息的
相似度數(shù)據(jù);
第五步從所述相似度數(shù)據(jù)中選取相似度最大值;
第六步判斷相似度最大值是否超過設(shè)定的閥值,如果超過設(shè)定的閥值則判斷所述 第一音樂與所述第二音樂相似性高,否則所述第一音樂與所述第二音樂相似性低。上述一定長(zhǎng)度的多個(gè)信息段中,對(duì)于一定長(zhǎng)度的規(guī)定可以與相關(guān)的法律文件的定義 進(jìn)行關(guān)聯(lián),如規(guī)定連續(xù)7個(gè)節(jié)拍的相似被認(rèn)定為抄襲的話,可以將所述一定長(zhǎng)度設(shè)定為 7個(gè)節(jié)拍的長(zhǎng)度。
上述設(shè)定的閥值的含義是根據(jù)對(duì)于相關(guān)法律的執(zhí)行嚴(yán)格程度來確定的。對(duì)于嚴(yán)格的 相似才算抄襲,則設(shè)定的閥值就很高,接近h當(dāng)執(zhí)行嚴(yán)格程度降低時(shí)設(shè)定的閥值就可 適當(dāng)降低,如為0.8或0.9。
采用本實(shí)用新型的技術(shù)還可以用于互聯(lián)網(wǎng)絡(luò)中進(jìn)行媒體信息搜索,提供一種更加有 效的一種搜索系統(tǒng)和搜索方法。
20、 一種網(wǎng)絡(luò)搜索系統(tǒng)的一種方案,包括遠(yuǎn)端服務(wù)器部件和近端部件,其特征是
所述近端部件包含
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息; 信息發(fā)送部件,將第一特征信息通過網(wǎng)絡(luò)傳遞到所述遠(yuǎn)端服務(wù)器部件; 信息接受部件,接收所述遠(yuǎn)端服務(wù)器部件發(fā)送過來的多媒體信息; 所述遠(yuǎn)端服務(wù)器部件包含
信息接受部件,接收從所述近端部件發(fā)送過來的第一特征信息; 媒體信息存儲(chǔ)部件,存儲(chǔ)了至少一條多媒體信息;
媒體信息特征存儲(chǔ)部件,計(jì)算并存儲(chǔ)或預(yù)先存儲(chǔ)了對(duì)應(yīng)于所述每條多媒體信息的第 二特征信息;
特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;
多媒體信息選擇部件,從所述媒體信息存儲(chǔ)體中選擇所述相似度最大值的信息段所 在的第二特征信息對(duì)應(yīng)的一條或多條多媒體信息傳送到所述近端部件。
21、 一種網(wǎng)絡(luò)搜索系統(tǒng)的第二種方案,包括遠(yuǎn)端服務(wù)器部件和近端部件,其特征是:
所述近端部件包含
聲音輸入部件;特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息;
下載部件,從所述遠(yuǎn)端服務(wù)器部件下載每條多媒體信息的第二特征信息;
近端存儲(chǔ)部件,存儲(chǔ)來自下載部件的每條多媒體信息的第二特征信息
特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特 征信息中的任意一段信息的相似度;
特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值; 選擇部件,從所述存儲(chǔ)部件中取出相似度最大值所對(duì)應(yīng)的第二特征信息; 信息發(fā)送部件,將選擇部件所選擇的第二特征信息通過網(wǎng)絡(luò)傳遞到所述遠(yuǎn)端服務(wù)器 部件;
信息接受部件,接收所述遠(yuǎn)端服務(wù)器部件發(fā)送過來的多媒體信息; 所述遠(yuǎn)端服務(wù)器部件包含
信息接受部件,接收從所述近端部件發(fā)送過來的第二特征信息; 媒體信息存儲(chǔ)部件,存儲(chǔ)了至少一條多媒體信息;
媒體信息特征存儲(chǔ)部件,計(jì)算并存儲(chǔ)或預(yù)先存儲(chǔ)了對(duì)應(yīng)于所述每條多媒體信息的第 二特征信息;
多媒體信息選擇部件,從所述媒體信息存儲(chǔ)體中選擇與所述信息接受部件中接受到 的第二特征信息所對(duì)應(yīng)的一條或多條多媒體信息傳送到所述近端部件。
22、 所述多媒體信息是下列信息之一或其組合文字、圖片、聲音、樂曲、電影、 電視。
本實(shí)用新型的技術(shù)還可以用于根據(jù)聲音輸入自動(dòng)翻頁的裝置,如演奏家的樂譜翻頁等。
23、 一種自動(dòng)翻頁裝置,包括存儲(chǔ)了至少一條多媒體信息的媒體信息存儲(chǔ)體和顯示 部件,其特征是還包括
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息; 媒體信息特征存儲(chǔ)部件,計(jì)算并存儲(chǔ)或預(yù)先存儲(chǔ)了對(duì)應(yīng)于所述每條多媒體信息的第 二特征信息;特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述顯示部件所顯示的多媒體 信息的部分所對(duì)應(yīng)第二特征信息相似度最大的信息段所對(duì)應(yīng)的多媒體信息的當(dāng)前位置;
翻頁判斷部件,當(dāng)所述多媒體信息的當(dāng)前位置是所述顯示部件所顯示的多媒體信息 的部分的結(jié)尾則所述顯示部件顯示所述多媒體信息的下一頁內(nèi)容;
24、 一種唱歌輔助學(xué)習(xí)系統(tǒng)的一種方案,包括存儲(chǔ)了至少一條多媒體信息的存儲(chǔ)體, 其特征是還包括-
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息;
媒體信息選擇部件,選擇準(zhǔn)備學(xué)習(xí)的某條多媒體信息;
媒體信息特征提取部件,提取所選定多媒體信息的第二特征信息;
特征相似性計(jì)算部件,用于計(jì)算并判斷所述第一特征信息與所選定多媒體信息對(duì)應(yīng) 第二特征信息相似度;
信息提示部件,根據(jù)信息相似度給出輸入的聲音與多媒體信息的差異。
25、 一種唱歌輔助學(xué)習(xí)系統(tǒng)的第二種方案,包括存儲(chǔ)了至少一條多媒體信息和與每 條多媒體信息對(duì)應(yīng)的第二特征信息的存儲(chǔ)體,其特征是還包括
聲音輸入部件;
特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)中提取第一特征信息; 媒體信息選擇部件,選擇準(zhǔn)備學(xué)習(xí)的某條多媒體信息;
特征相似性計(jì)算部件,用于計(jì)算并判斷所述第一特征信息與所選定的多媒體信息對(duì) 應(yīng)第二特征信息相似度;
信息提示部件,根據(jù)信息相似度給出輸入的聲音與多媒體信息的差異。
本實(shí)用新型的有益效果采用本實(shí)用新型的技術(shù)可以實(shí)現(xiàn)更有效地從媒體存儲(chǔ)體 或從互聯(lián)網(wǎng)絡(luò)中選擇所需的多媒體信息,通過輸入媒體相關(guān)的部分語音特征信息,如哼
唱某首歌曲的片斷即可檢索到這首歌曲的完整信息;同時(shí)本實(shí)用新型的技術(shù)還可以更有
效地區(qū)分一首樂曲是否有抄襲其他樂曲。本實(shí)用新型采用語音特征提取、分段提取、相 似度計(jì)算、相似性判定的方法來實(shí)現(xiàn)聲音控制電子設(shè)備或網(wǎng)絡(luò)操作實(shí)現(xiàn)自動(dòng)獲取所需多媒體信息,或者實(shí)現(xiàn)樂曲抄襲或相似性的自動(dòng)判定,并還可以實(shí)現(xiàn)樂曲自動(dòng)翻頁功能、 唱歌輔助學(xué)習(xí)功能。本實(shí)用新型實(shí)現(xiàn)媒體播放器可以實(shí)現(xiàn)通過語音輸入從媒體播放器中 選擇與輸入語音具有很大相似度的媒體信息,完全改變了現(xiàn)有媒體播放器的操作方式, 具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情況不用手的操作,直接通過說或唱就可 進(jìn)行媒體信息的選擇并可以控制媒體的播放起點(diǎn),大大降低了用戶的操作難度,即使對(duì) 于盲人或不懂播放器操作的用戶都可以實(shí)現(xiàn)媒體播放器的操作。本實(shí)用新型實(shí)現(xiàn)媒體搜 索系統(tǒng)可以實(shí)現(xiàn)通過語音輸入從互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇與輸 入語音具有很大相似度的媒體信息,完全改變了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜索方 式,具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情況不用手的操作,直接通過說或唱 就可進(jìn)行媒體信息的搜索,大大簡(jiǎn)化了用戶的操作難度,即使對(duì)于盲人或不懂電腦操作 的用戶都可以實(shí)現(xiàn)媒體信息的搜索。
圖1是本實(shí)用新型第一種實(shí)現(xiàn)多媒體信息檢索的系統(tǒng)工作原理示意圖。 圖2是本實(shí)用新型第二種實(shí)現(xiàn)多媒體信息檢索的系統(tǒng)工作原理示意圖。 圖3是本實(shí)用新型中第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第一種算法 工作原理示意圖。
圖4是本實(shí)用新型中第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第二種算法
工作原理示意圖。
圖5是本實(shí)用新型中第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第三種算法 工作原理示意圖。
圖6是本實(shí)用新型通過聲音輸入選取多媒體信息的工作流程示意圖。
圖7是本實(shí)用新型通過聲音從互聯(lián)網(wǎng)絡(luò)中選取多媒體信息的第一種系統(tǒng)實(shí)現(xiàn)示意圖。
圖8是本實(shí)用新型通過聲音從互聯(lián)網(wǎng)絡(luò)中選取多媒體信息的第二種系統(tǒng)實(shí)現(xiàn)示意圖。
圖9是本實(shí)用新型實(shí)現(xiàn)樂譜自動(dòng)翻頁系統(tǒng)原理示意圖。 圖IO是本實(shí)用新型實(shí)現(xiàn)唱歌輔助學(xué)習(xí)系統(tǒng)原理示意圖。 圖11是本實(shí)用新型實(shí)現(xiàn)媒體播放器原理示意圖。
具體實(shí)施方式
本實(shí)用新型的核心點(diǎn)在于,對(duì)輸入的聲音信息進(jìn)行處理,提取第一特征信息,然 后采用特定算法與多媒體信息中的第二特征信息進(jìn)行相似度計(jì)算。選出相似度最大的那 條多媒體信息作為所輸入的聲音所希望選定的多媒體信息。當(dāng)多媒體信息與聲音輸入及 其處理部件集中在一個(gè)嵌入式系統(tǒng)中,可以設(shè)計(jì)出基于本實(shí)用新型的媒體播放器、掌上 電腦、移動(dòng)終端、筆記本電腦等便攜式設(shè)備。當(dāng)多媒體信息存儲(chǔ)在服務(wù)器中,而聲音輸 入在客戶端中,聲音信息處理部件既可以集成到服務(wù)器中又可以集成到客戶端中,服務(wù) 器與客戶端通過局域網(wǎng)絡(luò)或互聯(lián)網(wǎng)絡(luò)進(jìn)行連接,可以設(shè)計(jì)出基于本實(shí)用新型的媒體搜索 系統(tǒng)、音樂侵權(quán)判定系統(tǒng)、歌唱學(xué)習(xí)系統(tǒng)、樂譜自動(dòng)翻頁裝置。
以下結(jié)合附圖進(jìn)一步描述本實(shí)用新型的具體實(shí)施方案。
圖1是基于本實(shí)用新型實(shí)現(xiàn)聲音輸入選擇的媒體播放系統(tǒng)第一種實(shí)現(xiàn)方案。該方 案中,特征相似度計(jì)算部件105的包含兩個(gè)輸入 一個(gè)是來自第一特征信息提取部件 103,它通過處理來自語音輸入部件IOI的語音信息,從中提取特征信息;另一個(gè)是來 自第二特征信息中的任意一段信息截取部件104,它通過從媒體信息特征存儲(chǔ)部件102 取出媒體信息的特征,然后截取任意一段特征信息。特征相似度計(jì)算部件105將計(jì)算出 的多個(gè)相似度數(shù)據(jù)輸出給特征相似度判斷部件106,由該部件進(jìn)行篩選比較,從中選取 相似度最大的那段特征信息所屬的第二特征信息作為多媒體信息選擇部件108從信息 存儲(chǔ)體107中選擇所需多媒體信息。媒體信息特征存儲(chǔ)部件102所存儲(chǔ)的第二特征信息 與信息存儲(chǔ)體107存儲(chǔ)的媒體信息是一一對(duì)應(yīng)的,即媒體信息特征存儲(chǔ)部件102的一條 第二特征信息與信息存儲(chǔ)體107中的一條媒體信息是一一對(duì)應(yīng)的。這種對(duì)應(yīng)關(guān)系也存儲(chǔ) 在媒體信息特征存儲(chǔ)部件102中或信息存儲(chǔ)體107中。具體實(shí)現(xiàn)中,媒體信息特征存儲(chǔ) 部件102和信息存儲(chǔ)體107可以合并成由一個(gè)存儲(chǔ)部件,其中第二特征信息與媒體信息 的對(duì)應(yīng)可以采用數(shù)據(jù)表格存儲(chǔ)形式,也可以采用數(shù)據(jù)庫的存儲(chǔ)形式。典型的語音輸入部 件101具體實(shí)現(xiàn)比如是由麥克風(fēng)、麥克風(fēng)信號(hào)處理電路及語音信號(hào)數(shù)字化采集電路構(gòu) 成。第一特征信息提取部件103從所輸入的語音中提取的特征比如是語音中的韻律信 息、音高信息等,并進(jìn)一步可以轉(zhuǎn)化為樂譜信息,作為特征。作為媒體播放系統(tǒng)的實(shí)現(xiàn), 具體設(shè)計(jì)中,其中第一特征信息提取部件103、第二特征信息中的任意一段信息截取部 件104、特征相似度計(jì)算部件105、特征相似度判斷部件106和多媒體信息選擇部件108 都由媒體播放器的處理器通過軟件實(shí)現(xiàn)。其實(shí)現(xiàn)的效果是,當(dāng)人們希望媒體播放器播放某條媒體信息時(shí),可以對(duì)著語音輸入部件101的由麥克風(fēng)哼唱該媒體信息所包含的音樂 信息的片斷,利用本實(shí)用新型的方法媒體播放器就可以自動(dòng)選擇出與所哼唱片斷最近似 的媒體信息進(jìn)行播放,因而省卻了因忘記媒體信息名稱或因媒體信息太多而進(jìn)行多級(jí)菜 單操作的煩惱。即使媒體播放器的使用者所哼唱的樂曲片斷并不太準(zhǔn)確,只有基本的韻 律相似即可,因而具有很大的實(shí)用性、適應(yīng)性、可操作性。本實(shí)用新型實(shí)現(xiàn)媒體播放器
可以實(shí)現(xiàn)通過語音iii入從媒體播放器中選擇與輸入語音具有很大相似度的媒體信息,完 全改變了現(xiàn)有媒體播放器的操作方式,具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情 況不用手的操作,直接通過說或唱就可進(jìn)行媒體信息的選擇,大大簡(jiǎn)化了用戶的操作難 度,即使對(duì)于盲人或不懂播放器操作的用戶都可以實(shí)現(xiàn)媒體播放器的操作。
圖2是基于本實(shí)用新型實(shí)現(xiàn)聲音輸入選擇的媒體播放系統(tǒng)第二種實(shí)現(xiàn)方案。該方 案與圖1所示方案的不同之處在于,第二特征信息并不是預(yù)先存儲(chǔ)在存儲(chǔ)體中,而是由 媒體信息特征計(jì)算部件202通過讀取信息存儲(chǔ)體107中的媒體信息來計(jì)算出第二特征信 息。這種實(shí)現(xiàn)方案相比于第一種方案的好處在于,可以利用人們對(duì)于語音特征的進(jìn)一歩 研究成果通過隨時(shí)更新媒體信息特征計(jì)算部件202的算法來提高所提取特征的效率或 調(diào)整所提取的特征內(nèi)容。 '
圖3是基于本實(shí)用新型的第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第一種 方法原理示意圖。在該圖中,假定第一特征信息的長(zhǎng)度為4字節(jié),特征內(nèi)容302每個(gè)字 節(jié)位置分別標(biāo)記為a、 b、 c、 d,第一特征信息301的長(zhǎng)度為16字節(jié),每個(gè)字節(jié)的位置 標(biāo)記為l、 2、 3、 4、 5、 6、 7、 8、 9、 10、 11、 12、 13、 14、 15、 16。截取第二特征信 息的方法是以任一字節(jié)為起點(diǎn)截取相同長(zhǎng)度的字節(jié)數(shù),省去字節(jié)長(zhǎng)度不夠的截取值。這 樣得到13個(gè)截取段,每個(gè)截取段的字節(jié)位置分別為1、 2、 3、 4; 2、 3、 4、 5; 3、 4、 5、 6; 4、 5、 6、 7; 5、 6、 7、 8; 6、 7、 8、 9; 7、 8、 9、 10; 8、 9、 10、 11; 9、 10、 11、 12; 10、 11、 12、 13; 11、 12、 13、 14; 12、 13、 14、 15; 13、 14、 15、 16。每個(gè) 截取段分別與第一特征信息進(jìn)行相似度計(jì)算得到計(jì)算結(jié)果303,計(jì)算結(jié)果303包含13 個(gè)數(shù)值,表示為Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13。 對(duì)于n條多媒體信息,假定每條多媒體信息的第二特征信息長(zhǎng)度相同,都為16字節(jié), 則按上述相似度計(jì)算共有13 * n個(gè)值,從13 * n個(gè)值中再選取最大值,根據(jù)該最大值 所對(duì)應(yīng)的第二特征信息段,就可以得知該第二特征信息,然后根據(jù)媒體信息與第二特征 信息的對(duì)應(yīng)關(guān)系檢索到相應(yīng)的那條媒體信息。由于每個(gè)人哼唱相同的曲調(diào),或說出相同內(nèi)容的話,哼唱或說話的速度不一定相 同,因此所哼唱或說出內(nèi)容的韻律特征可能比媒體信息的韻律特征的相同片斷的長(zhǎng)度不 同,如某個(gè)音節(jié)再媒體信息中是單個(gè)l/4拍,而哼唱或說出該音節(jié)的韻律特征可能是兩 個(gè)l/4拍;或者某個(gè)音節(jié)再媒體信息中是兩個(gè)l/4拍,而哼唱或說出該音節(jié)的韻律特征 可能是單個(gè)1/4拍。因此為了提高相似度計(jì)算的兼容性和可靠性,在進(jìn)行相似度計(jì)算中, 包含對(duì)于第一特征信息和/或第二特征信息的相鄰的相同特征字節(jié)合并為一個(gè)特征字節(jié) 的情況。圖4是基于本實(shí)用新型的第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第二 種方法原理示意圖。該圖中,除了按圖3的方式,在對(duì)第一特征信息402和第二特征信 息401都不做合并處理,計(jì)算相似度結(jié)果403,計(jì)算結(jié)果403包含13個(gè)數(shù)值,表示為 Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13。圖中第二特征信 息401有兩處相鄰特征相同,即特征2和特征6,我們將相鄰相同特征合并為一個(gè)特征, 此時(shí),第二特征信息變成第二特征信息的合并信息404,然后第一特征信息402與合并 信息404按相同的相似度計(jì)算方法得到結(jié)果405,計(jì)算結(jié)果405包含10個(gè)數(shù)值,表示 為R14、 R15、 R16、 R17、 R18、 R19、 R20、 R21、 R22、 R23。對(duì)于n條多媒體信息, 做上述相同的處理和計(jì)算,再選取最大值,根據(jù)該最大值所對(duì)應(yīng)的第二特征信息段,就 可以得知該第二特征信息,然后根據(jù)媒體信息與第二特征信息的對(duì)應(yīng)關(guān)系檢索到相應(yīng)的 那條媒體信息。
圖5是基于本實(shí)用新型的第一特征信息與第二特征信息進(jìn)行相似度計(jì)算的第三種 方法原理示意圖。與圖4相比,該圖中的第一特征信息存在需要合并處理的相鄰的相同 特征。先按原第一特征信息502與第二特征信息501做相似度計(jì)算得到結(jié)果503,計(jì)算 結(jié)果503包含13個(gè)數(shù)值,表示為Rl、 R2、 R3、 R4、 R5、 R6、 R7、 R8、 R9、 RIO、 Rll、 R12、 R13,然后把第一特征信息的合并信息504與第二特征信息501做相似度計(jì)算得 到結(jié)果505,計(jì)算結(jié)果503包含13個(gè)數(shù)值,表示為R14、 R15、 R16、 R17、 R18、 R19、 R20、 R2K R22、 R23、 R24、 R25、 R26、 R27。對(duì)于n條多媒體信息,做上述相同的 處理和計(jì)算,再選取最大值,根據(jù)該最大值所對(duì)應(yīng)的第二特征信息段,就可以得知該第 二特征信息,然后根據(jù)媒體信息與第二特征信息的對(duì)應(yīng)關(guān)系檢索到相應(yīng)的那條媒體信 息。
對(duì)于第一特征信息與第二特征信息都存在可以合并的特征信息時(shí),則包含四種情 況計(jì)算,即第一特征信息與第二特征信息直接計(jì)算相似度;第一特征信息與第二特征信息的合并信息計(jì)算相似度;第一特征信息的合并信息與第二特征信息計(jì)算相似度;第一 特征信息的合并信息與第二特征信息的合并信息計(jì)算相似度。
圖6是基于本實(shí)用新型采用聲音輸入選擇多媒體信息的處理流程示意圖。該圖更
進(jìn)一步給出事先實(shí)例,以提取MFCC系數(shù)后轉(zhuǎn)換為MIDI文件后,再轉(zhuǎn)換為簡(jiǎn)譜信息作 為特征信息。具體流程是在步驟601進(jìn)行聲音信號(hào)輸入,如哼唱一段,對(duì)于輸入的聲 音信號(hào)在步驟602時(shí)提取MFCC系數(shù),在步驟603把得到的MFCC系數(shù)轉(zhuǎn)換為MIDI 文件,然后在步驟604轉(zhuǎn)換為簡(jiǎn)譜信息,在步驟605生成第一特征信息;假定媒體存儲(chǔ) 器中巳經(jīng)存儲(chǔ)了每條多媒體信息對(duì)應(yīng)的MIDI文件,如果沒有,可以先轉(zhuǎn)換出MIDI文 件,進(jìn)入步驟606讀取第一條多媒體信息的MIDI文件,在步驟607轉(zhuǎn)換為簡(jiǎn)譜信息, 在步驟608生成第二特征信息,然后在步驟609計(jì)算第一特征信息與第二特征信息的相 似度;在步驟610判斷是否最后一條多媒體信息?如果不是則迸入步驟614讀取下一條 多媒體信息的MIDI文件,繼續(xù)步驟607、步驟608、步驟609、步驟610的處理,如果 是則進(jìn)入步驟611判定相似度最大值所對(duì)應(yīng)MIDI文件,在步驟讀612取與相似度最大 值所對(duì)應(yīng)MIDI文件相關(guān)聯(lián)的多媒體文件,最后在步驟613輸出選定多媒體文件。
圖7是基于本實(shí)用新型實(shí)現(xiàn)媒體搜索系統(tǒng)的第一種原理示意圖。媒體搜索系統(tǒng)包 含服務(wù)器端700和客戶端710,客戶端710通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704連接服務(wù)器端 700。其中服務(wù)器端700包含媒體信息數(shù)據(jù)庫701、媒體訪問處理部件702、網(wǎng)絡(luò)接口 703;客戶端710包含信息展示部件706、語音輸入部件707、語音信號(hào)處理部件708、 網(wǎng)絡(luò)接口 705。用戶通過語音輸入部件707輸入語音,如哼唱樂曲的片斷,或拷貝預(yù)先 制作的語音文件,由語音信號(hào)處理部件708進(jìn)行處理,包括語音信號(hào)的數(shù)字化、語音第 一特征信息的提取,然后將提取的第一特征信息通過網(wǎng)絡(luò)接口 705發(fā)送到互連網(wǎng)絡(luò)或局 域網(wǎng)絡(luò)704中,由服務(wù)器端700的網(wǎng)絡(luò)接口 703接收到第一特征信息送到媒體訪問處理 部件702。媒體訪問處理部件702從媒體信息數(shù)據(jù)庫701取出每條媒體信息的第二特征
信息,然后與收到的第一特征信息采用相似度計(jì)算方法計(jì)算出每條第二特征信息的每個(gè) 片斷與第一特征信息的相似度,選取相似度最大值所對(duì)應(yīng)的第二特征信息,然后根據(jù)每
條媒體信息與第二特征信息的對(duì)應(yīng)關(guān)系從媒體信息數(shù)據(jù)庫701取出與相似度最大值所 對(duì)應(yīng)的第二特征信息相關(guān)聯(lián)的媒體信息,并將所選取的媒體信息通過網(wǎng)絡(luò)接口 703發(fā)送 到互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由客戶端710的網(wǎng)絡(luò)接口 705該媒體信息并送到語音信 號(hào)處理部件708,由語音信號(hào)處理部件708將該媒體信息送到信息展示部件706進(jìn)行展是聲音信號(hào)輸出放大器和喇叭或耳 機(jī)。如媒體信息是包含音樂信息的視頻,展示部件706可以是包含顯示屏和聲音信號(hào)輸 出放大器和喇叭或耳機(jī)的組合部件。如收到媒體信息包含多條可供選擇的媒體信息,則 可以將信息按條目方式顯示在展示部件706的顯示屏上供用戶選擇。本實(shí)用新型實(shí)現(xiàn)媒 體搜索系統(tǒng)可以實(shí)現(xiàn)通過語音輸入從互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇 與輸入語音具有很大相似度的媒體信息,完全改變了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜 索方式,具有更準(zhǔn)確的媒體信息定位特征,而且大多數(shù)情況不用手的操作,直接通過說 或唱就可進(jìn)行媒體信息的搜索,大大簡(jiǎn)化了用戶的操作難度,即使對(duì)于盲人或不懂電腦 操作的用戶都可以實(shí)現(xiàn)媒體信息的搜索。
圖8是基于本實(shí)用新型實(shí)現(xiàn)媒體搜索系統(tǒng)的第二種原理示意圖。媒體搜索系統(tǒng)包 含服務(wù)器端800和客戶端810,客戶端810通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704連接服務(wù)器端 800。其中服務(wù)器端800包含媒體信息數(shù)據(jù)庫701、媒體訪問處理部件802、網(wǎng)絡(luò)接口 703;客戶端810包含信息展示部件706、語音輸入部件707、語音信號(hào)處理部件808、 網(wǎng)絡(luò)接口 705和本地媒體第二特征信息存儲(chǔ)部件809。在進(jìn)行語音搜索之前,客戶端810 需要先通過互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704從服務(wù)器端800下載每條媒體信息所對(duì)應(yīng)的第二特 征信息,然后存儲(chǔ)到第二特征信息存儲(chǔ)部件809中。用戶通過語音輸入部件707輸入語 音,如哼唱樂曲的片斷,或拷貝預(yù)先制作的語音文件,由語音信號(hào)處理部件808進(jìn)行處 理,包括語音信號(hào)的數(shù)字化、語音第一特征信息的提取,然后語音信號(hào)處理部件808 從第二特征信息存儲(chǔ)部件809讀取每條媒體信息的第二特征信息,然后與提取的第一特 征信息采用相似度計(jì)算方法計(jì)算出每條第二特征信息的每個(gè)片斷與第一特征信息的相 似度,選取相似度最大值所對(duì)應(yīng)的第二特征信息,將選取的第二特征信息通過網(wǎng)絡(luò)接口 705發(fā)送到互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由服務(wù)器端800的網(wǎng)絡(luò)接口 703接收到第二特 征信息送到媒體訪問處理部件802。媒體訪問處理部件802根據(jù)每條媒體信息與第二特 征信息的對(duì)應(yīng)關(guān)系從媒體信息數(shù)據(jù)庫701取出與所收到第二特征信息相關(guān)聯(lián)的媒體信 息,并將所選取的媒體信息通過網(wǎng)絡(luò)接口 703發(fā)送到互連網(wǎng)絡(luò)或局域網(wǎng)絡(luò)704中,由客 戶端810的網(wǎng)絡(luò)接口 705該媒體信息并送到語音信號(hào)處理部件808,由語音信號(hào)處理部 件808將該媒體信息送到信息展示部件706進(jìn)行展示。如媒體信息是單純音樂信息,展 示部件706可以是聲音信號(hào)輸出放大器和喇叭或耳機(jī)。如媒體信息是包含音樂信息的視 頻,展示部件706可以是包含顯示屏和聲音信號(hào)輸出放大器和喇叭或耳機(jī)的組合部件。如收到媒體信息包含多條可供選擇的媒體信息,則可以將信息按條目方式顯示在展示部 件706的顯示屏上供用戶選擇。本實(shí)用新型實(shí)現(xiàn)媒體搜索系統(tǒng)可以實(shí)現(xiàn)通過語音輸入從
互聯(lián)網(wǎng)絡(luò)或局域網(wǎng)絡(luò)中的各種媒體服務(wù)器中選擇與輸入語音具有很大相似度的媒體信 息,完全改變了現(xiàn)有網(wǎng)絡(luò)搜索引擎或搜索工具的搜索方式,具有更準(zhǔn)確的媒體信息定位 特征,而且大多數(shù)情況不用手的操作,直接通過說或唱就可進(jìn)行媒體信息的搜索,大大 簡(jiǎn)化了用戶的操作難度,即使對(duì)于盲人或不懂電腦操作的用戶都可以實(shí)現(xiàn)媒體信息的搜 索。
圖9是本實(shí)用新型實(shí)現(xiàn)樂譜自動(dòng)翻頁系統(tǒng)原理示意圖。樂譜自動(dòng)翻頁系統(tǒng)包含樂 譜顯示部件901、處理部件902和語音輸入部件903。其中處理部件902包含存儲(chǔ)樂譜 信息的存儲(chǔ)體、處理器和儲(chǔ)存程序軟件的存儲(chǔ)體。語音輸入部件903包含收集語音的麥 克風(fēng)和語音數(shù)字化采集和存儲(chǔ)電路。樂譜顯示部件901是電子顯示部件,如液晶顯示器、 有機(jī)發(fā)光管顯示部件、電子紙顯示部件等。在演奏樂曲時(shí),樂譜顯示部件901在處理部 件902的控制下顯示相應(yīng)樂曲的樂譜的第一頁內(nèi)容,在演奏過程中,語音輸入部件903 不斷采集輸入所演奏的聲音,由處理部件902提取出聲音的韻律作為第一特征信息并與 預(yù)先存儲(chǔ)的所演奏樂曲的第二特征信息的片斷作相似度計(jì)算,根據(jù)相似度最大值可以判 斷已經(jīng)演奏到樂譜的位置,從而處理部件902 —旦分析到顯示在顯示部件901的樂譜內(nèi) 容己經(jīng)演奏完畢則自動(dòng)將樂譜的下一頁內(nèi)容顯示在顯示部件901上,避免演奏者手動(dòng)進(jìn) 行樂譜翻頁造成演奏的短暫中斷。通常演奏家演奏的樂曲與樂譜的快慢是十分接近的, 因此進(jìn)行相似度計(jì)算時(shí)可以不需要進(jìn)行合并處理相鄰的相同特征。
圖10是本實(shí)用新型實(shí)現(xiàn)唱歌輔助學(xué)習(xí)系統(tǒng)原理示意圖。唱歌輔助學(xué)習(xí)系統(tǒng)包含顯 示部件1001、處理部件1002和語音輸入部件1003。其中處理部件1002包含存儲(chǔ)樂曲 信息的存儲(chǔ)體、處理器和儲(chǔ)存程序軟件的存儲(chǔ)體。語音輸入部件1003包含收集語音的 麥克風(fēng)和語音數(shù)字化采集和存儲(chǔ)電路。樂譜顯示部件1001是電子顯示部件,如液晶顯 示器、有機(jī)發(fā)光管顯示部件、電子紙顯示部件等。在唱歌或演奏樂曲時(shí),顯示部件IOOI 在處理部件1002的控制下顯示相應(yīng)樂曲的樂譜,在唱歌或演奏過程中,語音輸入部件 903不斷采集輸入所演奏的聲音,由處理部件902提取出聲音的韻律作為第一特征信息, 一首樂曲結(jié)束后,將所提取的第一特征信息與預(yù)先存儲(chǔ)的所演奏樂曲的第二特征信息按
音節(jié)作相似度計(jì)算,根據(jù)相似度計(jì)算結(jié)果給出在唱歌或演奏樂曲時(shí)每個(gè)音節(jié)與標(biāo)準(zhǔn)樂曲 的音節(jié)的差異,從而處理部件902將這種差異顯示在顯示部件901上,唱歌或演奏樂者根據(jù)所顯示音節(jié)的差異來發(fā)現(xiàn)錯(cuò)誤,并調(diào)整自己的演奏達(dá)到學(xué)習(xí)輔助的目的。
圖11是本實(shí)用新型實(shí)現(xiàn)媒體播放器原理示意圖。媒體播放器1100包含處理器主 機(jī)1101、控制操作按鈕1102、耳機(jī)1103和麥克風(fēng)1104。處理器主機(jī)1101通過連接導(dǎo) 線1105與控制操作按鈕1102、耳機(jī)1103和麥克風(fēng)1104連接,這種連接的信號(hào)是雙向 的,即控制操作按鈕1102的按鍵信號(hào)和麥克風(fēng)1104輸入的聲音信號(hào)可以傳送到處理器 主機(jī)IIOI,處理器主機(jī)1101的輸出信號(hào)可以輸出到耳機(jī)1103。在其他實(shí)現(xiàn)中,處理器 主機(jī)1101通過無線信號(hào)與控制操作按鈕U02、耳機(jī)1103和麥克風(fēng)1104進(jìn)行無線連接, 如采用藍(lán)牙技術(shù)(BlueTooth)或WiFi技術(shù)實(shí)現(xiàn)無線連接,無論有線連接或無線連接方 式,都是現(xiàn)有成熟技術(shù)。處理器主機(jī)1101包含存儲(chǔ)媒體信息及其第二特征信息的存儲(chǔ) 體1105和信息處理部件1106??刂撇僮靼粹o1102上包含第一按鍵1107和第二按鍵 1108。由于人們使用媒體播放器時(shí),當(dāng)播放某首媒體時(shí)會(huì)跟著媒體的音樂哼唱,而本實(shí) 用新型的播放器在選擇媒體和控制媒體的播放起點(diǎn)時(shí)也是采用操作者哼唱媒體片斷進(jìn) 行的,為了使媒體播放器區(qū)分使用者是跟隨正在播放的媒體進(jìn)行哼唱還是哼唱片斷來控 制媒體播放器重新選擇媒體或播放起點(diǎn),采用控制操作按鈕1102上的第一按鍵1107 和第二按鍵1108實(shí)現(xiàn)。當(dāng)操作者按下第一按鍵1107時(shí)表示是通過哼唱片斷來選擇媒體, 當(dāng)操作者按下第二按鍵1108時(shí)表示是通過哼唱片斷來選擇媒體的播放起點(diǎn),當(dāng)?shù)谝话?鍵1107和第二按鍵1108都沒有按下時(shí),是跟隨正在播放的媒體進(jìn)行哼唱??刂撇僮靼?鈕1102的按鍵信號(hào)送入到處理器主機(jī)1101,由處理主機(jī)迸行判斷處理。如操作者按下 第一按鍵1107,信息處理部件1106通過處理來自麥克風(fēng)1104的語音信息,從中提取 特征信息;從存儲(chǔ)體1105取出媒體信息的特征,然后截取任意一段特征信息計(jì)算出的 多個(gè)相似度數(shù)據(jù)進(jìn)行篩選比較,從中選取相似度最大的那段特征信息所屬的第二特征信 息作為選擇所需多媒體信息的依據(jù),然后根據(jù)第二特征信息與媒體信息對(duì)應(yīng)關(guān)系選取媒 體信息進(jìn)行播放。如操作者按下第二按鍵1108,信息處理部件1106通過處理來自麥克 風(fēng)1104的語音信息,從中提取特征信息;從存儲(chǔ)體1105取出媒體信息的特征,然后截 取任意一段特征信息計(jì)算出的多個(gè)相似度數(shù)據(jù)進(jìn)行篩選比較,從中選取相似度最大的那 段特征信息所屬的第二特征信息作為選擇所需多媒體信息的依據(jù),然后根據(jù)第二特征信 息與媒體信息對(duì)應(yīng)關(guān)系選取媒體信息并從與第二特征信息片斷相似度最大的位置點(diǎn)開 始播放。這樣就實(shí)現(xiàn)了媒體播放器的媒體選擇與媒體播放起點(diǎn)的自動(dòng)定位。
權(quán)利要求1、一種媒體播放裝置,包括存儲(chǔ)了至少一條多媒體信息的信息存儲(chǔ)體和多媒體信號(hào)輸出部件,其特征是還包括聲音輸入部件;特征提取部件,從所述聲音輸入部件輸入的聲音信號(hào)或信息中提取第一特征信息;媒體信息特征存儲(chǔ)部件,存儲(chǔ)了對(duì)應(yīng)于所述每條多媒體信息的第二特征信息;特征相似性計(jì)算部件,用于判斷所述第一特征信息與所述每條多媒體信息的第二特征信息中的任意一段信息的相似度;特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相似度最大值;多媒體信息選擇部件,從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所在的那條多媒體信息傳送到所述多媒體信號(hào)輸出部件。
2、 根據(jù)權(quán)利要求1所述的媒體播放裝置,其特征是所述第,征信息包含聲音音調(diào)信 息和/或音調(diào)變化信息;所述第二特征信息包含多媒體信息中包含的聲音音調(diào)信息和 /或音調(diào)變化信息。
3、 一神媒體播放裝置,其特征是包含處理器主機(jī)、^^操作按鈕、耳機(jī)和麥克風(fēng);所 述處理器主機(jī)通過連接導(dǎo)線與控制操作按鈕、耳機(jī)和麥克風(fēng)連接;所述處理器主機(jī) 包含存儲(chǔ)媒體信息及其第二特征信息的存儲(chǔ)體和信息處理部件。
4、 根據(jù)權(quán)利要求i或2所述的媒體播放裝置,其特征是所述特征提取部件、媒體信息 特征存儲(chǔ)部件、特征相似性計(jì)算部件、特征相似性判斷部件、多媒體信息選擇部件、 信息存儲(chǔ)體由包含處理器的信息處理部件實(shí)現(xiàn),所述信息處理部件與多媒體信號(hào)輸 出部件、聲音輸入部件之間采用有線導(dǎo)線連接或采用無線信號(hào)連接。
5、 根據(jù)權(quán)利要求4所述的媒體播'放裝置,其特征是還包含控制按鈕部件,所述信息處 理部件與所述控制按鈕部件之間采用有線導(dǎo)線連接或采用無線信號(hào)連接。
6、 根據(jù)權(quán)利要求i或2或5所述的媒體播放裝置,其特征是所述信息存儲(chǔ)體與媒體信 息特征存儲(chǔ)部件是獨(dú)立的存儲(chǔ)體或共享的存儲(chǔ)體;所述信息存儲(chǔ)體和/或媒體信息特 征存儲(chǔ)部件還存儲(chǔ)了每條多媒缽信息與其第二特征信息對(duì)應(yīng)關(guān)系。
7、 一神媒體播放裝置,包括存儲(chǔ)了至少一條多媒體信息的信息存儲(chǔ)體和多媒體信號(hào)輸 出部件,其特征是還包括聲音輸入部件;特征提取部件,從総聲音輸入部伴輸入的聲音信號(hào)或信息中提取第一特征信息; 媒體信息特征計(jì)算部件,計(jì)算對(duì)應(yīng)于所述每條多媒體信息的第二特征信息-,特征相似性計(jì)算部傳,用于判斷皿第一特征信息與所述每條多媒體信息的第二特 征信息中的在意一段信息的賴似度;特征相似性判斷部件,從所述相似度數(shù)據(jù)中選取相敘度最大值;多媒體信息選擇部件,從所述信息存儲(chǔ)體中選擇相似度最大值的信息段所在的那條 多媒體信息傳送到皿多媒體信號(hào)輸出部件。
8、 根據(jù)權(quán)利要求?所述的媒體播放裝置,其特征是所述第~#征信息包含聲音音調(diào)信 息和/或音調(diào)變化信息;所述第二特征信息包含多媒體信息中包含的聲音音調(diào)信息和 /或音調(diào)變化信息。.
9、 一種媒體播放裝置,其特征是包含處理器主機(jī)、^^操作按鈕、耳機(jī)和麥克風(fēng);所述處理器主機(jī)通過無線信號(hào)與控制操作按鈕、耳機(jī)和麥克M^;所述處理器主機(jī)包含存儲(chǔ)媒體信息及其第二特征信息的存儲(chǔ)體和信息處理部件。
10、 根據(jù)權(quán)利要求7或8所述的媒體播放裝置,其特征是所述特征提取部件、媒體信息特征計(jì)算部件、特征相敘性計(jì)算部件、特征相似性判斷部件、多媒體信息選擇 部件、信息存儲(chǔ)體由包含處理器的信息處理部件實(shí)現(xiàn),所述信息處理部件與多媒體 信號(hào)輸出部件、聲音輸入部件之間采用有線導(dǎo)線連接或采用無線信號(hào)連接。
專利摘要本實(shí)用新型提出媒體播放設(shè)備,包括存儲(chǔ)了至少一條多媒體信息的信息存儲(chǔ)體、多媒體信號(hào)輸出部件、聲音輸入部件、特征提取部件、媒體信息特征存儲(chǔ)部件、特征相似性計(jì)算部件、特征相似性判斷部件、多媒體信息選擇部件,從信息存儲(chǔ)體中選擇相似度最大值的信息段對(duì)應(yīng)的那條多媒體信息傳送到多媒體信號(hào)輸出部件。通過語音輸入從媒體播放器中選擇與輸入語音具有很大相似度的媒體信息,改變了現(xiàn)有媒體播放器的操作方式,具有更準(zhǔn)確的媒體信息定位,而且大多數(shù)情況不用手的操作,直接通過說或唱就可進(jìn)行媒體信息的選擇并可以控制媒體的播放起點(diǎn),大大降低了用戶的操作難度,即使對(duì)于盲人或不懂播放器操作的用戶都可以實(shí)現(xiàn)媒體播放器的操作。
文檔編號(hào)G10L15/22GK201397671SQ200920106578
公開日2010年2月3日 申請(qǐng)日期2009年3月23日 優(yōu)先權(quán)日2009年3月23日
發(fā)明者清 須 申請(qǐng)人:北京派瑞根科技開發(fā)有限公司