專利名稱:存儲(chǔ)無(wú)線電廣播內(nèi)容中的音樂(lè)部分的數(shù)字記錄器及其方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種數(shù)字記錄器及一種方法,用于自動(dòng)選擇和存儲(chǔ)無(wú)線電廣播內(nèi)容中的音樂(lè),更具體地,涉及一種數(shù)字記錄器及一種方法,用于自動(dòng)地從無(wú)線電廣播內(nèi)容中只提取音樂(lè)部分,并根據(jù)用戶的記錄選擇,從頭到尾地存儲(chǔ)所選擇的音樂(lè)。
背景技術(shù):
近來(lái),喜歡收聽(tīng)音樂(lè)的人們更愿意使用數(shù)字記錄器而不是傳統(tǒng)的模擬記錄器,數(shù)字記錄器能夠再現(xiàn)高質(zhì)量的音樂(lè)聲音。作為用于再現(xiàn)數(shù)字音樂(lè)文件的設(shè)備,數(shù)字記錄器的尺寸相對(duì)較小,因?yàn)槠浒軌蜃x取和寫入音樂(lè)數(shù)據(jù)的非易失性數(shù)字存儲(chǔ)器(媒體卡)。由于這種優(yōu)勢(shì),便攜式數(shù)字記錄器,所謂的“MP3(MPEG音頻層3)播放器”得到了快速的普及。通常,MP3播放器不僅再現(xiàn)所存儲(chǔ)的音樂(lè)數(shù)據(jù),還具有接收現(xiàn)場(chǎng)FM無(wú)線電音樂(lè)廣播的收音機(jī)功能。
圖1是示出了具有收音機(jī)功能的傳統(tǒng)MP3播放器的結(jié)構(gòu)的方框圖。
傳統(tǒng)的MP3播放器100包括天線110、調(diào)諧器120、聲音輸出部分130、DSP(數(shù)字信號(hào)處理器)140、外部設(shè)備連接部分150、控制器160、音樂(lè)數(shù)據(jù)存儲(chǔ)部分170、顯示部分180和鍵操作部分190。
天線110接收天波信號(hào)。在由天線110接收到的天波信號(hào)中,調(diào)諧器120接收和輸出與調(diào)諧信道相對(duì)應(yīng)的無(wú)線電信號(hào)。聲音輸出部分130對(duì)從調(diào)諧器120接收到的模擬聲信號(hào)進(jìn)行濾波和放大,以便輸出作為可聽(tīng)聲的信號(hào)。DSP 140將從調(diào)諧器120接收到的模擬聲信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),或者將數(shù)字音樂(lè)數(shù)據(jù)轉(zhuǎn)換為模擬聲信號(hào),并輸出轉(zhuǎn)換后的信號(hào)或數(shù)據(jù)。同時(shí),DSP 140對(duì)已編碼音樂(lè)數(shù)據(jù)進(jìn)行解碼,并將其轉(zhuǎn)換為模擬聲信號(hào),并輸出該信號(hào)。外部設(shè)備連接部分150與外部設(shè)備(如計(jì)算機(jī))相連,以便下載MP3音樂(lè)數(shù)據(jù)??刂破?60控制MP3音樂(lè)數(shù)據(jù)的存儲(chǔ)和輸出,以及無(wú)線電廣播信號(hào)的接收和輸出。音樂(lè)數(shù)據(jù)存儲(chǔ)部分170是閃速存儲(chǔ)器或硬盤形式的存儲(chǔ)介質(zhì),用于存儲(chǔ)以MP3格式壓縮的多個(gè)音樂(lè)數(shù)據(jù)。如果音樂(lè)數(shù)據(jù)存儲(chǔ)部分170具有64兆字節(jié)或128兆字節(jié)的容量,其可以存儲(chǔ)16首或32首歌曲的MP3音樂(lè)文件。顯示部分180顯示MP3播放器的操作狀態(tài)。鍵操作部分190執(zhí)行輸入操作,以便選擇無(wú)線電廣播信道或選擇和輸出MP3音樂(lè)文件。
如果用戶想要通過(guò)MP3播放器100收聽(tīng)音樂(lè),他或她可以選擇收音機(jī)功能,以便收聽(tīng)所需音樂(lè)廣播頻道中的實(shí)時(shí)音樂(lè)。代替地,用戶可以選擇存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中的音樂(lè)數(shù)據(jù),以便收聽(tīng)所需的音樂(lè)。
特別地,在通過(guò)選擇收音機(jī)功能收聽(tīng)FM無(wú)線電音樂(lè)廣播的同時(shí),用戶可以通過(guò)按下設(shè)置在鍵操作部分190中的記錄按鈕(未示出),記錄當(dāng)時(shí)正在通過(guò)無(wú)線電廣播的音樂(lè)。然后,控制器160控制DSP 140,將從調(diào)諧器120輸出的音樂(lè)信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),并將數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。如果用戶在音樂(lè)結(jié)束時(shí)再次按下記錄按鈕,將停止記錄操作。用戶需要十分注意,以便識(shí)別音樂(lè)的開(kāi)始和結(jié)束。
如果無(wú)線電頻道在對(duì)音樂(lè)進(jìn)行了介紹之后播放音樂(lè),則用戶有時(shí)間在記錄音樂(lè)之前進(jìn)行準(zhǔn)備。但是,在大多數(shù)情況下,用于在通過(guò)無(wú)線電收聽(tīng)到音樂(lè)開(kāi)始之后才決定記錄音樂(lè)。換句話說(shuō),除了現(xiàn)場(chǎng)音樂(lè)的開(kāi)頭部分之外,可以將從無(wú)線電臺(tái)接收到的現(xiàn)場(chǎng)音樂(lè)的其他部分存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。在完成記錄操作之后再現(xiàn)音樂(lè)時(shí),用戶只能收聽(tīng)在過(guò)了一段時(shí)間之后才記錄下來(lái)的部分。因此,在傳統(tǒng)的MP3播放器100中,需要即使在用戶在過(guò)了一段時(shí)間之后才開(kāi)始記錄音樂(lè)的情況下,仍然從其開(kāi)頭記錄和再現(xiàn)通過(guò)無(wú)線電廣播的音樂(lè)的附加功能。
發(fā)明內(nèi)容
因此,提出本發(fā)明以解決在現(xiàn)有技術(shù)中遇到的上述問(wèn)題,并且本發(fā)明的目的在于提供一種數(shù)字記錄器和一種方法,用于自動(dòng)地從無(wú)線電廣播內(nèi)容中選擇音樂(lè),使得任何時(shí)刻,用戶都能夠根據(jù)其選擇,從開(kāi)頭記錄和再現(xiàn)通過(guò)無(wú)線電廣播的音樂(lè)。
為了實(shí)現(xiàn)此目的,提供了一種數(shù)字記錄器,從廣播信號(hào)中選擇音樂(lè)信號(hào),并將所選擇的信號(hào)存儲(chǔ)為音樂(lè)數(shù)據(jù),所述數(shù)字記錄器包括調(diào)諧器,用于接收和選擇廣播信號(hào);聲音輸出部分,用于輸出所選擇的廣播信號(hào),作為可聽(tīng)聲;音樂(lè)數(shù)據(jù)存儲(chǔ)部分,包括暫時(shí)存儲(chǔ)區(qū),用于暫時(shí)存儲(chǔ)音樂(lè)數(shù)據(jù),以及永久存儲(chǔ)區(qū),用于永久或長(zhǎng)期存儲(chǔ)音樂(lè)數(shù)據(jù);以及顯示部分,用于顯示數(shù)字記錄器的操作狀態(tài),對(duì)所述數(shù)字記錄器的改進(jìn)包括信號(hào)處理部分,用于將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),或者將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為模擬信號(hào),將數(shù)字?jǐn)?shù)據(jù)壓縮并編碼成音樂(lè)數(shù)據(jù),或者對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出;音樂(lè)提取部分,用于根據(jù)音樂(lè)提取算法,將從信號(hào)處理部分輸出的數(shù)字?jǐn)?shù)據(jù)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),以便只提取音樂(lè)數(shù)據(jù),并產(chǎn)生和輸出用于識(shí)別所提取出的音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾的開(kāi)頭/結(jié)尾數(shù)據(jù);鍵輸入部分,具有廣播鍵,用于將數(shù)字記錄器的操作模式轉(zhuǎn)換為無(wú)線電廣播接收模式;以及記錄鍵,用于實(shí)現(xiàn)記錄和存儲(chǔ)通過(guò)無(wú)線電廣播的音樂(lè)信號(hào)的功能;以及微處理器,用于控制信號(hào)處理部分,只將由音樂(lè)提取部分提取出的音樂(lè)數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分的暫時(shí)存儲(chǔ)區(qū)中,在按下記錄鍵時(shí),向確定的存儲(chǔ)區(qū)傳送暫時(shí)存儲(chǔ)在暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù),并在確定的存儲(chǔ)區(qū)中,明確地存儲(chǔ)和維持音樂(lè)數(shù)據(jù)。
為了實(shí)現(xiàn)上述目的,還提供了一種使用數(shù)字記錄器有選擇地存儲(chǔ)音樂(lè)的方法,所述數(shù)字記錄器包括調(diào)諧器,用于接收和選擇廣播信號(hào);聲音輸出部分,用于輸出所選擇的廣播信號(hào),作為可聽(tīng)聲;數(shù)字信號(hào)處理器(DSP),用于將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),或者將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為模擬信號(hào),將數(shù)字?jǐn)?shù)據(jù)壓縮并編碼成音樂(lè)數(shù)據(jù),或者對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出;音樂(lè)提取部分,用于從DSP接收到的數(shù)字?jǐn)?shù)據(jù)中只提取音樂(lè)數(shù)據(jù);音樂(lè)數(shù)據(jù)存儲(chǔ)部分,用于存儲(chǔ)音樂(lè)數(shù)據(jù);顯示部分,用于顯示數(shù)字記錄器的操作狀態(tài);以及鍵輸入部分,用于將數(shù)字記錄器的操作模式轉(zhuǎn)換為無(wú)線電廣播接收模式,并輸入用于實(shí)現(xiàn)對(duì)通過(guò)無(wú)線電廣播的音樂(lè)信號(hào)的記錄的命令,所述方法包括以下步驟(a)所述調(diào)諧器向聲音輸出部分輸出廣播信號(hào),并向DSP發(fā)送該信號(hào);(b)所述DSP將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),并向音樂(lè)提取部分輸出該數(shù)據(jù);(c)所述音樂(lè)提取部分根據(jù)音樂(lè)提取算法,從數(shù)字?jǐn)?shù)據(jù)中提取音樂(lè)數(shù)據(jù);(d)識(shí)別所提取出的音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾,并將該數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分中;(e)確定是否從鍵輸入部分輸入了記錄當(dāng)時(shí)向聲音輸出部分輸出的音樂(lè)的命令;以及(f)明確地存儲(chǔ)和維持暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分中的音樂(lè)數(shù)據(jù)。
通過(guò)結(jié)合附圖的詳細(xì)描述,本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)將變得顯而易見(jiàn),其中圖1是示出了具有收音機(jī)功能的傳統(tǒng)MP3播放器的結(jié)構(gòu)的方框圖;圖2是示出了根據(jù)本發(fā)明的用于有選擇地存儲(chǔ)音樂(lè)的數(shù)字記錄器的結(jié)構(gòu)的方框圖;圖3是示出了根據(jù)本發(fā)明第一實(shí)施例的、包括人工神經(jīng)網(wǎng)絡(luò)的音樂(lè)提取部分的內(nèi)部結(jié)構(gòu)的方框圖;圖4是示出了根據(jù)本發(fā)明第一實(shí)施例,利用人工神經(jīng)網(wǎng)絡(luò),自動(dòng)選擇和存儲(chǔ)音樂(lè)的處理的流程圖;圖5是示出了根據(jù)本發(fā)明第二實(shí)施例的、利用頻率分析的音樂(lè)提取部分的內(nèi)部結(jié)構(gòu)的方框圖;圖6示出了音樂(lè)信號(hào)的成分,包括靜音;圖7是示出了根據(jù)本發(fā)明第二實(shí)施例,利用頻率分析,自動(dòng)選擇和存儲(chǔ)音樂(lè)的處理的流程圖;圖8是示出了根據(jù)本發(fā)明第三實(shí)施例的、利用HMM(隱馬爾可夫模型)的音樂(lè)提取部分的內(nèi)部結(jié)構(gòu)的方框圖;圖9是示出了用于找出具有最大概率的最似然狀態(tài)序列的維特比算法的原理;以及圖10是示出了根據(jù)本發(fā)明第三實(shí)施例,利用HMM,自動(dòng)選擇和存儲(chǔ)音樂(lè)的處理的流程圖。
具體實(shí)施例方式
以下,將參照附圖,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行描述。在以下的描述和附圖中,相同的參考數(shù)字用于表示相同或相似的部件。因此,將省略對(duì)相同或相似部件的重復(fù)描述。
圖2是示出了根據(jù)本發(fā)明優(yōu)選實(shí)施例的用于有選擇地存儲(chǔ)音樂(lè)的數(shù)字記錄器的結(jié)構(gòu)的方框圖。
參照?qǐng)D2,數(shù)字記錄器200包括DSP 210、音樂(lè)提取部分220、鍵輸入部分230、微處理器240和程序存儲(chǔ)器250。
DSP 210包括ADC(模數(shù)轉(zhuǎn)換器)211,用于將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào);DSP核心212,用于控制DSP 210的全部操作;DAC(數(shù)模轉(zhuǎn)換器)213,用于將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào);編碼器214,用于將模擬信號(hào)壓縮和編碼為如MP3文件數(shù)據(jù)等;DSP程序部分215,存儲(chǔ)用于根據(jù)來(lái)自微處理器240的控制命令,將從調(diào)諧器120接收到的廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行壓縮和編碼,以及用于對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出的程序;以及解碼器216,用于對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼。當(dāng)然,數(shù)字記錄器可以包括基于硬件的信號(hào)處理部分,來(lái)代替DSP 210。
音樂(lè)提取部分210根據(jù)其自身的音樂(lè)提取算法,將從DSP 210接收到的數(shù)字信號(hào)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),以便提取音樂(lè)數(shù)據(jù),同時(shí)去除非音樂(lè)數(shù)據(jù)。為了執(zhí)行此提取功能,音樂(lè)提取部分220利用人工神經(jīng)網(wǎng)絡(luò)、頻率分析或HMM(隱馬爾可夫模型)。
鍵輸入部分230包括廣播鍵232,用于將數(shù)字記錄器的操作模式轉(zhuǎn)換為無(wú)線電廣播接收模式;以及記錄鍵234,用于實(shí)現(xiàn)記錄和存儲(chǔ)正在通過(guò)無(wú)線電進(jìn)行廣播的音樂(lè)信號(hào)的功能;以及頻道鍵,用于選擇頻道;和音量鍵,用于調(diào)整聲輸出的音量。
在數(shù)字記錄器處于廣播接收模式時(shí),DSP 210和音樂(lè)提取部分220將由調(diào)諧器210接收的廣播信號(hào)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),以便只提取音樂(lè)數(shù)據(jù)。將音樂(lè)數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。當(dāng)按下設(shè)置在鍵輸入部分230中的記錄鍵234時(shí),將當(dāng)時(shí)正在輸出且暫時(shí)存儲(chǔ)的音樂(lè)數(shù)據(jù)從開(kāi)頭開(kāi)始明確地存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。微處理器240控制存儲(chǔ)音樂(lè)數(shù)據(jù)的全部處理。
音樂(lè)數(shù)據(jù)存儲(chǔ)部分170具有暫時(shí)存儲(chǔ)區(qū),用于暫時(shí)存儲(chǔ)音樂(lè)數(shù)據(jù);以及確定存儲(chǔ)區(qū),用于根據(jù)明確地記錄和存儲(chǔ)音樂(lè)數(shù)據(jù)的命令,明確地存儲(chǔ)音樂(lè)數(shù)據(jù)。暫時(shí)存儲(chǔ)區(qū)可以存儲(chǔ)接近一首歌曲數(shù)量的音樂(lè)數(shù)據(jù)。在針對(duì)特定音樂(lè)按下記錄鍵234時(shí),微處理器240向確定存儲(chǔ)區(qū)傳送存儲(chǔ)在暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù),以便明確地存儲(chǔ)該音樂(lè)數(shù)據(jù)。
圖3是示出了根據(jù)本發(fā)明第一實(shí)施例的、包括人工神經(jīng)網(wǎng)絡(luò)的音樂(lè)提取部分220的內(nèi)部結(jié)構(gòu)的方框圖。
根據(jù)第一實(shí)施例的音樂(lè)提取部分220根據(jù)利用人工神經(jīng)網(wǎng)絡(luò)的音樂(lè)提取算法,從在當(dāng)前的調(diào)諧頻道上接收到的廣播信號(hào)中只提取音樂(lè)數(shù)據(jù)。當(dāng)輸入包括在廣播信號(hào)中的大量聲信號(hào)時(shí),利用人工神經(jīng)網(wǎng)絡(luò)的音樂(lè)提取算法執(zhí)行對(duì)輸入信號(hào)的操作。音樂(lè)提取算法縮減輸入數(shù)據(jù)的尺寸,將其分為音樂(lè)信號(hào)和非音樂(lè)信號(hào),并去除非音樂(lè)信號(hào),以便只輸出音樂(lè)信號(hào)。
為了增強(qiáng)對(duì)本發(fā)明第一實(shí)施例的理解,將更為詳細(xì)地解釋“人工神經(jīng)網(wǎng)絡(luò)”。
“人工神經(jīng)網(wǎng)絡(luò)”是模仿人或動(dòng)物大腦的結(jié)構(gòu)而建模的計(jì)算系統(tǒng)。處于高度復(fù)雜連接下的大腦中的神經(jīng)元彼此相互作用,按照并行且分布式的方式處理信息。模仿生物神經(jīng)元,設(shè)計(jì)人工神經(jīng)網(wǎng)絡(luò)。每個(gè)人工神經(jīng)網(wǎng)絡(luò)利用具有臨界值的閾值邏輯單元形成神經(jīng)網(wǎng)絡(luò),并應(yīng)用學(xué)習(xí)算法,以便使給定的神經(jīng)網(wǎng)絡(luò)適應(yīng)環(huán)境,如數(shù)據(jù)等。
根據(jù)形成神經(jīng)網(wǎng)絡(luò)的體系結(jié)構(gòu),多種神經(jīng)網(wǎng)絡(luò)模型是可用的。最為廣泛使用的模型是多層感知器體系結(jié)構(gòu),其中對(duì)神經(jīng)元進(jìn)行分層,包括輸入神經(jīng)元層、輸出神經(jīng)元層和隱藏神經(jīng)元(或隱藏節(jié)點(diǎn))中間層,如圖3所示。在相同層的神經(jīng)元直接沒(méi)有連接,輸出層之外的層上的每個(gè)神經(jīng)元與下一層的每個(gè)神經(jīng)元相連。第一層上的神經(jīng)元沿第二層上神經(jīng)元的方向發(fā)送其輸出,其術(shù)語(yǔ)為“前饋”。將權(quán)重Wmh賦予神經(jīng)元之間的每個(gè)連接,并在下一層累加加權(quán)輸入。神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)識(shí)別權(quán)重。作為權(quán)重學(xué)習(xí)算法,通常采用“錯(cuò)誤后向傳播”。在本發(fā)明中,采用多層感知器體系結(jié)構(gòu)作為人工神經(jīng)網(wǎng)絡(luò)。同樣,在本發(fā)明中使用了這種單隱藏層、前饋神經(jīng)網(wǎng)絡(luò)和錯(cuò)誤后向傳播學(xué)習(xí)算法。
根據(jù)本發(fā)明的第一實(shí)施例,音樂(lè)提取部分220利用以頻率圖樣進(jìn)行訓(xùn)練并具有多層感知器體系結(jié)構(gòu)的人工神經(jīng)網(wǎng)絡(luò)。重要的是,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),適當(dāng)?shù)卣{(diào)整如信號(hào)出現(xiàn)時(shí)間(經(jīng)歷訓(xùn)練集合中的所有圖樣)等訓(xùn)練參數(shù)和隱藏節(jié)點(diǎn)的數(shù)量。音樂(lè)提取部分220將廣播信號(hào)分為音樂(lè)信號(hào)和非音樂(lè)信號(hào),以便只提取音樂(lè)信號(hào),而去除非音樂(lè)信號(hào)。
下面,將參照?qǐng)D4,對(duì)利用人工神經(jīng)網(wǎng)絡(luò)提取音樂(lè)數(shù)據(jù)的數(shù)字記錄器的操作進(jìn)行更為詳細(xì)的解釋。
圖4是示出了根據(jù)本發(fā)明第一實(shí)施例,利用人工神經(jīng)網(wǎng)絡(luò),自動(dòng)選擇和存儲(chǔ)音樂(lè)的處理的流程圖。
在數(shù)字記錄器200通電,并且微處理器240根據(jù)鍵輸入部分230出的鍵輸入處于用于控制記錄器的全部操作的等待模式時(shí)(S402),用戶可以按下設(shè)置在鍵輸入部分230中的廣播鍵232,以收聽(tīng)收音機(jī)。在按下廣播鍵232時(shí)(S404),微處理器240控制調(diào)諧器120,以接收當(dāng)前調(diào)諧頻道的廣播信號(hào)。微處理器240還控制DSP 210,對(duì)接收到的廣播信號(hào)進(jìn)行編碼,并將其轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。當(dāng)然,用于可以通過(guò)操作設(shè)置在鍵輸入部分230中的頻道鍵,選擇另外的頻道。微處理器240記憶通過(guò)鍵輸入部分230調(diào)諧的頻道。除非用于利用鍵輸入部分230選擇另外的頻道,微處理器240控制調(diào)諧器120接收該調(diào)諧頻道的廣播信號(hào)。如果用戶選擇另外的頻道,則微處理器240將控制調(diào)諧器120接收該其它頻道的廣播信號(hào)(S406)。
調(diào)諧器120接收廣播信號(hào)。調(diào)諧器120同時(shí)向聲音輸出部分130和DSP 210輸出調(diào)諧頻道的廣播信號(hào)。聲音輸出部分130輸出從調(diào)諧器120接收到的模擬廣播信號(hào),作為可聽(tīng)聲。DSP 210的DSP核心212利用ADC211,將從調(diào)諧器120接收到的廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。而且,編碼器214將數(shù)字?jǐn)?shù)據(jù)編碼為音樂(lè)文件數(shù)據(jù),并將該數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。在用戶收聽(tīng)通過(guò)無(wú)線電廣播的話音和音樂(lè)的同時(shí),數(shù)字記錄器210只從廣播信號(hào)中提取音樂(lè)信號(hào),并暫時(shí)存儲(chǔ)所提取出的音樂(lè)信號(hào)。如果用戶輸入記錄音樂(lè)的命令,數(shù)字記錄器200明確地記錄當(dāng)時(shí)正在通過(guò)無(wú)線電廣播的音樂(lè)。
由數(shù)字記錄器200接收到的廣播信號(hào)具有多個(gè)段,如用于廣播音樂(lè)的音樂(lè)段、用于商業(yè)消息的商業(yè)間歇段以及用于傳送電臺(tái)DJ(唱片節(jié)目主持人)的話音或無(wú)線電廣播的話音段。向調(diào)諧器120傳送由天線110接收到的廣播信號(hào)。調(diào)諧器120向DSP 210輸出當(dāng)前調(diào)諧頻道的廣播信號(hào)(S408)。DSP 210通過(guò)ADC 211、DSP核心212和DAC 213,向聲音輸出部分130輸出廣播信號(hào)。與此同時(shí),DSP 210利用編碼器214,將包括在廣播信號(hào)中的音樂(lè)信號(hào)編碼成數(shù)字音樂(lè)數(shù)據(jù),例如,MP3音樂(lè)數(shù)據(jù),并向音樂(lè)提取部分220輸出編碼數(shù)據(jù)(S410)。
如圖3所示,音樂(lè)提取部分220接收從DSP 210輸出的廣播信號(hào),作為輸入,并根據(jù)使用人工神經(jīng)網(wǎng)絡(luò)的預(yù)定音樂(lè)提取算法,將該信號(hào)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù)。音樂(lè)提取部分220去除非音樂(lè)數(shù)據(jù),并只將音樂(lè)數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分中(S412)。微處理器240控制DSP 210,將當(dāng)前正在向聲音輸出部分130輸出的音樂(lè)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中。當(dāng)從鍵輸入部分230輸入記錄命令時(shí),微處理器240控制DSP 210,追溯到從音樂(lè)數(shù)據(jù)的開(kāi)頭開(kāi)始存儲(chǔ)和保持暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中的音樂(lè)數(shù)據(jù)。
如果用戶想要記錄當(dāng)前正在向聲音輸出部分130輸出的音樂(lè),他或她應(yīng)當(dāng)按下鍵輸入部分230的記錄鍵234。在按下記錄鍵234時(shí)(S414),微處理器240控制DSP 140,向確定存儲(chǔ)區(qū)傳送暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù),以便明確地存儲(chǔ)和保持音樂(lè)數(shù)據(jù)(S416)。
音樂(lè)數(shù)據(jù)存儲(chǔ)部分170按照接收的順序存儲(chǔ)音樂(lè)數(shù)據(jù)。如果未按下記錄鍵234,音樂(lè)提取部分220將會(huì)把音樂(lè)數(shù)據(jù)連續(xù)地存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中。如果音樂(lè)數(shù)據(jù)超過(guò)音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的存儲(chǔ)容量(即,如果接收到新的音樂(lè)數(shù)據(jù)要存儲(chǔ)在已滿音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中),DSP 210將按照其被存儲(chǔ)的順序,逐一刪除音樂(lè)數(shù)據(jù),以便存儲(chǔ)新的音樂(lè)數(shù)據(jù)。
鍵輸入部分230包括具有刪除音樂(lè)數(shù)據(jù)功能的鍵。鍵輸入部分230向顯示部分180輸出存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中的音樂(lè)數(shù)據(jù)的列表。用戶可以通過(guò)按下刪除鍵,刪除任意選擇的音樂(lè)數(shù)據(jù)。
根據(jù)本發(fā)明的第一實(shí)施例,數(shù)字記錄器200可以輸出接收到的廣播信號(hào),作為可聽(tīng)聲。而且,數(shù)字記錄器200可以從接收到的廣播信號(hào)中只選擇音樂(lè)信號(hào),并將該音樂(lè)信號(hào)存儲(chǔ)為數(shù)字音樂(lè)數(shù)據(jù)。
圖5是示出了根據(jù)本發(fā)明第二實(shí)施例的、利用頻率分析的音樂(lè)提取部分500的內(nèi)部結(jié)構(gòu)的方框圖。
通常,以單聲道(mono)或立體聲(stereo)進(jìn)行無(wú)線廣播。
單聲道模式在于利用單一頻道廣播聲信號(hào)。由于單聲道模式輸出由設(shè)置在與聲源無(wú)關(guān)的位置出的聲音接收裝置接收到的聲音,通過(guò)單聲道音頻系統(tǒng)輸出的聲信號(hào)與原始的聲信號(hào)存在輕微的差別。相反,立體聲模式在于利用多個(gè)頻帶廣播聲信號(hào)。立體聲模式根據(jù)聲源,將聲信號(hào)分為左立體聲信號(hào)和右立體聲信號(hào),并向多個(gè)頻帶傳送左右立體聲信號(hào)中的每一個(gè)。與單聲道模式相比,立體聲模式更為逼真,因?yàn)槠漭敵隽烁鼮榻咏悸曇舻穆曅盘?hào)。
通常將通過(guò)無(wú)線電廣播的聲音分類為四段,即無(wú)線電廣播話音段、音樂(lè)和廣播話音共存段、商業(yè)間歇段和音樂(lè)段。話音段接近于單聲道信號(hào),而其他段接近于立體聲信號(hào)。立體聲廣播信號(hào)在左頻道信息和右頻道信息之間存在輕微的差別。可以比較兩個(gè)頻道中聲音波形的相位值隨時(shí)間的變化,以便確定兩個(gè)頻道的相位值是否相同。如果不存在相位差異,則將廣播信號(hào)確定為單聲道的。如果去除了單聲道的話音信號(hào),將能夠獲得大部分為立體聲信號(hào)的音樂(lè)信號(hào)。
參照?qǐng)D5,根據(jù)本發(fā)明第二實(shí)施例的音樂(lè)提取部分500分析廣播信號(hào),并將其分為單聲道信號(hào)和立體聲信號(hào)。音樂(lè)提取部分500去除單聲道信號(hào),以便只獲得立體聲信號(hào)。換句話說(shuō),在時(shí)間軸上示出了包括單聲道信號(hào)的廣播信號(hào)。在時(shí)間軸上,計(jì)算廣播信號(hào)的左右頻道之間的音量差。當(dāng)音量差近似為零時(shí),將廣播信號(hào)確定為單聲道的。當(dāng)大于任意標(biāo)準(zhǔn)值的音量差持續(xù)特定時(shí)間段時(shí),將信號(hào)確定為立體聲的。因此,去除單聲道信號(hào),以便只獲得立體聲信號(hào)。
根據(jù)本發(fā)明第二實(shí)施例,利用頻率分析的音樂(lè)提取部分500包括聲數(shù)據(jù)操作部分510、非音樂(lè)去除部分520、音樂(lè)開(kāi)頭/結(jié)尾確定部分530和譜分析部分540。
聲數(shù)據(jù)操作部分510實(shí)現(xiàn)對(duì)從DSP 210接收到的廣播數(shù)據(jù)的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,并輸出與操作結(jié)果有關(guān)的數(shù)據(jù)。當(dāng)結(jié)果近似為零時(shí),將廣播數(shù)據(jù)確定為單聲道數(shù)據(jù)。當(dāng)結(jié)果表示大于標(biāo)準(zhǔn)值的數(shù)值持續(xù)了特定時(shí)間段時(shí),將廣播數(shù)據(jù)確定為立體聲數(shù)據(jù)。根據(jù)操作結(jié)果,去除單聲道數(shù)據(jù),以便只獲得立體聲數(shù)據(jù)。
音樂(lè)開(kāi)頭/結(jié)尾確定部分530向DSP 210輸出從非音樂(lè)去除部分520接收到的音樂(lè)數(shù)據(jù)。而且音樂(lè)開(kāi)頭/結(jié)尾確定部分530產(chǎn)生用于區(qū)分和識(shí)別音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)的開(kāi)頭/結(jié)尾數(shù)據(jù),并向微處理器240傳送開(kāi)頭/結(jié)尾數(shù)據(jù)。對(duì)于此傳送,設(shè)置分離的輸出端口。此外,在其因?yàn)閮蓚€(gè)音樂(lè)數(shù)據(jù)之間不存在靜音或者兩個(gè)音樂(lè)數(shù)據(jù)之間存在重疊部分,而未能區(qū)分新音樂(lè)數(shù)據(jù)的開(kāi)始部分與前一音樂(lè)數(shù)據(jù)的結(jié)束部分時(shí),音樂(lè)開(kāi)頭/結(jié)尾確定部分530向譜分析部分540傳送接收到的音樂(lè)數(shù)據(jù)。譜分析部分540執(zhí)行對(duì)從音樂(lè)開(kāi)頭/結(jié)尾確定部分530接收到的音樂(lè)數(shù)據(jù)的譜分析,以區(qū)分音樂(lè)的開(kāi)始和結(jié)束信號(hào),并向微處理器240發(fā)送用于識(shí)別開(kāi)始和結(jié)束信號(hào)的開(kāi)頭/結(jié)尾數(shù)據(jù)。
為了區(qū)分音樂(lè)的開(kāi)始和結(jié)束部分,本發(fā)明的數(shù)據(jù)記錄器200檢測(cè)音樂(lè)數(shù)據(jù)結(jié)尾部分的漸弱。通過(guò)無(wú)線電廣播的大部分音樂(lè)在其結(jié)束部分漸弱。根據(jù)本發(fā)明的第二實(shí)施例,音樂(lè)提取部分500的音樂(lè)開(kāi)頭/結(jié)尾確定部分530檢測(cè)每個(gè)音樂(lè)數(shù)據(jù)中的漸弱,從而區(qū)分下一音樂(lè)的開(kāi)頭與前一音樂(lè)的結(jié)尾。
如圖6所示,在前一音樂(lè)信號(hào)A和后一音樂(lè)信號(hào)B之間可能存在靜音。當(dāng)在音樂(lè)信號(hào)A的輸出之后出現(xiàn)靜音時(shí),音樂(lè)開(kāi)頭/結(jié)尾確定部分530確定音樂(lè)信號(hào)A結(jié)束。當(dāng)音樂(lè)信號(hào)B跟隨在靜音之后時(shí),音樂(lè)開(kāi)頭/結(jié)尾確定部分530確定音樂(lè)信號(hào)B開(kāi)始。音樂(lè)開(kāi)頭/結(jié)尾確定部分530產(chǎn)生基于這種確定的開(kāi)頭/結(jié)尾數(shù)據(jù),并向微處理器240輸出該數(shù)據(jù)。
通常,頻率信號(hào)在話音或音樂(lè)出現(xiàn)的點(diǎn)具有較強(qiáng)的能量值?;诖耍魳?lè)開(kāi)頭/結(jié)尾確定部分530計(jì)算能量變化。音樂(lè)開(kāi)頭/結(jié)尾確定部分530將較低能量點(diǎn)識(shí)別為靜音或音樂(lè)的可能結(jié)束點(diǎn)。通過(guò)取從非音樂(lè)去除部分520接收到的幀中的音樂(lè)數(shù)據(jù)的相位值的平方,并取此平方值的對(duì)數(shù),獲得能量值。
在除了古典音樂(lè)之外的大多數(shù)音樂(lè)類別中,單一的音樂(lè)信號(hào)具有大約3到5分鐘的長(zhǎng)度。當(dāng)只通過(guò)靜音的出現(xiàn)來(lái)確定音樂(lè)的開(kāi)始和結(jié)束點(diǎn)時(shí),很可能將音樂(lè)中間的靜音錯(cuò)誤地識(shí)別為音樂(lè)的開(kāi)始或結(jié)束點(diǎn)。為了降低區(qū)分音樂(lè)的開(kāi)始點(diǎn)和結(jié)束點(diǎn)的錯(cuò)誤率,音樂(lè)開(kāi)頭/結(jié)尾確定部分530在考慮單一音樂(lè)信號(hào)的平均長(zhǎng)度為3到5分鐘的同時(shí),檢測(cè)并確定音樂(lè)的開(kāi)始和結(jié)束點(diǎn)。
此后,將參照?qǐng)D7,對(duì)包括利用頻率分析的音樂(lè)提取部分500的數(shù)字記錄器的操作進(jìn)行更為詳細(xì)的解釋。
圖7是示出了根據(jù)本發(fā)明第二實(shí)施例,利用頻率分析,自動(dòng)選擇和存儲(chǔ)音樂(lè)的處理的流程圖。
數(shù)字記錄器200具有再現(xiàn)已存儲(chǔ)音樂(lè)數(shù)據(jù)和接收實(shí)時(shí)無(wú)線電廣播的功能。當(dāng)用戶通過(guò)按下設(shè)置在鍵輸入部分230中的廣播鍵232,將數(shù)字記錄器200設(shè)置為廣播接收模式時(shí),微處理器240控制調(diào)諧器120,以接收調(diào)諧頻道的廣播信號(hào)(S702)。
調(diào)諧器120向聲音輸出部分130輸出由天線110接收的廣播信號(hào),同時(shí)向DSP 210發(fā)送該廣播信號(hào)(S704),以便從廣播信號(hào)中提取出音樂(lè)信號(hào),為存儲(chǔ)音樂(lè)數(shù)據(jù)做準(zhǔn)備,同時(shí)使用戶能夠收聽(tīng)廣播。在DSP 210中,ADC 211將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù)。DSP核心212將數(shù)字音樂(lè)數(shù)據(jù)分為左聲道數(shù)據(jù)和右聲道數(shù)據(jù),并向音樂(lè)提取部分220發(fā)送分離后的數(shù)據(jù)。向音樂(lè)提取部分220的聲數(shù)據(jù)操作部分510傳送從DSP 210輸出的左右聲道音樂(lè)數(shù)據(jù)。聲數(shù)據(jù)操作部分510執(zhí)行對(duì)從DSP 210接收到的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,并輸出操作結(jié)果(S708)。當(dāng)結(jié)果接近“0”時(shí),將該數(shù)據(jù)識(shí)別為單聲道數(shù)據(jù)。當(dāng)結(jié)果表示比臨界值大的數(shù)值持續(xù)了特定時(shí)間段時(shí),將該數(shù)據(jù)識(shí)別為立體聲數(shù)據(jù)。
根據(jù)從聲數(shù)據(jù)操作部分510接收到的操作結(jié)果,非音樂(lè)去除部分520去除單聲道話音數(shù)據(jù),而只將立體聲音樂(lè)數(shù)據(jù)輸出到音樂(lè)開(kāi)頭/結(jié)尾確定部分530(S710)。音樂(lè)開(kāi)頭/結(jié)尾確定部分530根據(jù)(1)音樂(lè)數(shù)據(jù)中的漸弱,(2)音樂(lè)數(shù)據(jù)中靜音的出現(xiàn),或者(3)單一音樂(lè)數(shù)據(jù)的平均長(zhǎng)度(3到5分鐘),確定從非音樂(lè)去除部分520接收到的音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)。(4)當(dāng)前一音樂(lè)數(shù)據(jù)與后一音樂(lè)數(shù)據(jù)之間存在重疊部分時(shí),音樂(lè)開(kāi)頭/結(jié)尾確定部分530向譜分析部分540輸出音樂(lè)數(shù)據(jù),以便執(zhí)行對(duì)音樂(lè)數(shù)據(jù)的譜分析,并區(qū)分音樂(lè)的開(kāi)始和結(jié)束點(diǎn)。最后,(5)可以根據(jù)通過(guò)對(duì)幀中的音樂(lè)數(shù)據(jù)的相位值平方并取該平方值的對(duì)數(shù)而獲得的能量值,來(lái)確定音樂(lè)的開(kāi)始和結(jié)束點(diǎn)。根據(jù)上述五個(gè)因素或處理的組合來(lái)確定音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)。音樂(lè)開(kāi)頭/結(jié)尾確定部分530產(chǎn)生表示音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)的開(kāi)頭/結(jié)尾數(shù)據(jù),并向微處理器240傳送該開(kāi)頭/結(jié)尾數(shù)據(jù)。微處理器240將開(kāi)頭/結(jié)尾數(shù)據(jù)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的非音樂(lè)存儲(chǔ)區(qū)中(S712)。音樂(lè)開(kāi)頭/結(jié)尾確定部分530不僅產(chǎn)生開(kāi)頭/結(jié)尾數(shù)據(jù),還向DSP 210輸出音樂(lè)數(shù)據(jù)。DSP 210對(duì)正在輸出的音樂(lè)數(shù)據(jù)進(jìn)行編碼,并將其存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中,為記錄用戶當(dāng)前正通過(guò)收音機(jī)收聽(tīng)的音樂(lè)做準(zhǔn)備。
當(dāng)用戶按下設(shè)置在鍵輸入部分230中的記錄鍵234,以便記錄當(dāng)前通過(guò)無(wú)線電廣播的音樂(lè)時(shí)(S714),微處理器240從音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的非音樂(lè)存儲(chǔ)區(qū)中讀取當(dāng)前正在輸出的音樂(lè)的開(kāi)頭/結(jié)尾數(shù)據(jù)。根據(jù)此開(kāi)頭/結(jié)尾數(shù)據(jù),微處理器240識(shí)別暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分的暫時(shí)存儲(chǔ)區(qū)170b中的音樂(lè)數(shù)據(jù),并向確定存儲(chǔ)區(qū)傳送音樂(lè)數(shù)據(jù),以便明確地存儲(chǔ)和維持音樂(lè)數(shù)據(jù)(S716)。
音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)能夠存儲(chǔ)大約一首歌曲的音樂(lè)數(shù)據(jù)。暫時(shí)存儲(chǔ)區(qū)暫時(shí)存儲(chǔ)發(fā)送到DSP 210的音樂(lè)數(shù)據(jù)。在未輸入記錄鍵234而接收到新音樂(lè)數(shù)據(jù)時(shí),暫時(shí)存儲(chǔ)區(qū)刪除先前存儲(chǔ)的音樂(lè)數(shù)據(jù),以便暫時(shí)存儲(chǔ)新音樂(lè)數(shù)據(jù)。如第一實(shí)施例所解釋的那樣,“明確地存儲(chǔ)和維持”表示向確定的存儲(chǔ)區(qū)傳送暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù),從而能夠明確地維持音樂(lè)數(shù)據(jù)的存儲(chǔ)。當(dāng)然,用戶可以使用鍵輸入部分230,有選擇地刪除存儲(chǔ)在確定存儲(chǔ)區(qū)中的任何音樂(lè)數(shù)據(jù)。
音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的確定存儲(chǔ)區(qū)能夠存儲(chǔ)大約六首歌曲的音樂(lè)數(shù)據(jù)。如果在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170已滿時(shí)按下記錄鍵234以存儲(chǔ)新音樂(lè)數(shù)據(jù),微處理器240向顯示部分180輸出表示已滿存儲(chǔ)狀態(tài)的消息,如“不能再存儲(chǔ)音樂(lè)。刪除先前存儲(chǔ)的音樂(lè)嗎?”,并等待來(lái)自鍵輸入部分230的鍵輸入。如果存在刪除的鍵輸入,微處理器240向顯示部分180輸出存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中的音樂(lè)數(shù)據(jù)的列表,以便用戶能夠通過(guò)將指示條設(shè)置在列表中的音樂(lè)數(shù)據(jù)上,而選擇要?jiǎng)h除的音樂(lè)。如果用戶按下刪除鍵,則將從確定存儲(chǔ)區(qū)內(nèi)刪除通過(guò)指示條選中的音樂(lè)數(shù)據(jù)。此外,將向該確定存儲(chǔ)區(qū)傳送存儲(chǔ)在暫時(shí)存儲(chǔ)區(qū)中的新音樂(lè)數(shù)據(jù),以便進(jìn)行明確的存儲(chǔ)和維持。
如果在步驟S714,用戶并未按下記錄鍵234,微處理器240將返回步驟S704,向聲音輸出部分130輸出廣播信號(hào),并控制DSP 210將由音樂(lè)提取部分500識(shí)別和提取出其開(kāi)始和結(jié)束點(diǎn)的音樂(lè)數(shù)據(jù)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中。
根據(jù)本發(fā)明的第二實(shí)施例,數(shù)字記錄器200包括利用頻率分析的音樂(lè)提取部分500。數(shù)字記錄器200從所接收到的廣播信號(hào)中分離音樂(lè)數(shù)據(jù),并通過(guò)頻率分析,識(shí)別正在被輸出的音樂(lè)的開(kāi)頭和結(jié)尾,以存儲(chǔ)該音樂(lè)數(shù)據(jù)。因此,即使在用戶在過(guò)了一段時(shí)間之后開(kāi)始記錄音樂(lè)的情況下,仍然能夠從其開(kāi)始點(diǎn)開(kāi)始記錄和再現(xiàn)音樂(lè)。
圖8是示出了根據(jù)本發(fā)明第三實(shí)施例的、利用HMM(隱馬爾可夫模型)的音樂(lè)提取部分800的內(nèi)部結(jié)構(gòu)的方框圖。
在第三實(shí)施例中,音樂(lè)提取部分800接收包括在廣播信號(hào)中的多個(gè)聲源的混合信號(hào),作為輸入,并重新獲得獨(dú)立聲源的信號(hào)。音樂(lè)提取部分800收集用于提取普通人話音特征的數(shù)據(jù),并利用針對(duì)該數(shù)據(jù)進(jìn)行了訓(xùn)練的隱馬爾可夫模型(HMM)提取和去除話音信號(hào)。換句話說(shuō),利用隱馬爾可夫模型從混合聲音信息中獲得隱藏的話音信息。隱藏的話音是馬爾可夫過(guò)程。在馬爾可夫假設(shè)下,“模型的任意狀態(tài)只依賴于直接導(dǎo)致其的狀態(tài)。”馬爾可夫過(guò)程表示其中狀態(tài)之間的轉(zhuǎn)換只依賴于先前的“n”個(gè)狀態(tài)的過(guò)程。該模型的術(shù)語(yǔ)為n維模型。“n”表示影響下一狀態(tài)的狀態(tài)數(shù)。
HMM由用于建模語(yǔ)音隨時(shí)間的變化的轉(zhuǎn)換概率以及用于建模譜變化的輸出概率構(gòu)成。HMM根據(jù)與給定模型的相似性的隨機(jī)估計(jì)而不是對(duì)輸入模式與基準(zhǔn)模式的相似性的隨機(jī)估計(jì),來(lái)評(píng)估模型之間的相似性。利用維特比算法來(lái)找出對(duì)輸入話音數(shù)據(jù)進(jìn)行預(yù)處理的隱藏狀態(tài)的最似然狀態(tài)序列,并產(chǎn)生類似于相應(yīng)輸入的輸出。
對(duì)概率的估計(jì)是復(fù)雜的工作,因?yàn)閼?yīng)當(dāng)考慮隱藏的狀態(tài)。為了找出對(duì)數(shù)據(jù)進(jìn)行了最為合適的解釋的最佳狀態(tài)序列,需要設(shè)置用于確定“最佳”的標(biāo)準(zhǔn)。對(duì)概率的估計(jì)與訓(xùn)練相關(guān)聯(lián),并可以通過(guò)前向算法和后向算法來(lái)解決。通常,利用作為動(dòng)態(tài)編程方法的維特比算法來(lái)確定最佳狀態(tài)序列。此外,也應(yīng)用鮑姆-韋爾奇算法來(lái)估計(jì)HMM的參數(shù)。
根據(jù)本發(fā)明第三實(shí)施例的音樂(lè)提取部分800利用用于估計(jì)HMM的參數(shù)的鮑姆-韋爾奇算法來(lái)提取聲信號(hào)及其特征。而且,音樂(lè)提取部分800利用維特比算法只提取出音樂(lè)信號(hào)。
如圖8所示,音樂(lè)提取部分800包括聲音輸入部分810、MLP(多層感知器)820、特征提取器830和HMM分類器840。
聲音輸入部分810輸入從DSP 210接收到的廣播信號(hào)中的包括多個(gè)聲信號(hào)的音頻信號(hào),并提取出音頻信號(hào)的聲特征,例如,零交叉信息、能量、音調(diào)、譜頻率和對(duì)數(shù)倒頻譜系數(shù)(cepstral coefficient)。聲音輸入部分810將音頻信號(hào)分為幀。每個(gè)幀具有大約10ms到30ms的長(zhǎng)度和不同的特征值。按照時(shí)間序列排列這些幀。將從這些幀中提取出的特征表示為“Xn”。
MLP 820采用用在如第一實(shí)施例中所解釋的神經(jīng)網(wǎng)絡(luò)話音識(shí)別中的算法。MLP 820獲得示出了從聲音輸入部分810接收到音位“Xn”所屬的可能性(概率P)的后驗(yàn)概率。如果輸入音頻信號(hào)落入話音段,存在信號(hào)是特定音位的較高概率。按照基于P(q1|Xn)每Xn的數(shù)目k,向MLP820的輸出端輸出音位,其中q1~qk表示音位數(shù),Xn表示在聲音輸入部分810通過(guò)幀分析而獲得的聲特征。
特征提取器830執(zhí)行基于從MLP 820接收到的后驗(yàn)概率的操作,以獲得表示幀內(nèi)概率分布的熵Hn和作為幀之間的變化的概率的物力論(dynamism)Dn。特征提取器830向HMM分類器840輸出熵和物力論特征。如果音頻信號(hào)為語(yǔ)音,熵將接近為零,而物力論將較高,這是因?yàn)閹g的較大變化。相反,如果信號(hào)為音樂(lè),其將具有較高的熵,這是因?yàn)檩^寬的概率分布,而具有較低的物力論,這是因?yàn)殡S時(shí)間的較小變化。
以下公式1和2分別用于獲得熵Hn和物力論Dn。
[公式2] HMM分類器840利用鮑姆-韋爾奇算法和維特比算法,根據(jù)從特征提取器830接收到的熵Hn和物力論Dn,將音頻信號(hào)分類為話音類和音樂(lè)類。每個(gè)類中的狀態(tài)全部相同,但出現(xiàn)多次。HMM分類器840學(xué)習(xí)HMM,以便利用鮑姆-韋爾奇算法,根據(jù)兩個(gè)特征參數(shù)(Hn,Dn)優(yōu)化狀態(tài)之間的轉(zhuǎn)換概率。將學(xué)習(xí)之前的初始值設(shè)置為預(yù)定值。實(shí)際上,在將音頻信號(hào)分類為話音類和音樂(lè)類時(shí),HMM分類器840形成了基于接收到的特征參數(shù)和所學(xué)習(xí)的HMM的表格。而且,HMM分類器840利用維特比算法,計(jì)算輸入音頻信號(hào)所屬的類,并最終確定該信號(hào)是屬于話音類,還是屬于音樂(lè)類。
將對(duì)由HMM分類器840所使用的鮑姆-韋爾奇算法和維特比算法進(jìn)行更為詳細(xì)的解釋。
在選擇了最佳匹配觀察序列的適當(dāng)模型之后,需要確定產(chǎn)生觀察序列的模型的最佳狀態(tài)序列。通常,使用作為動(dòng)態(tài)編程算法的維特比算法來(lái)確定模型的最佳狀態(tài)。
1.維特比算法假設(shè)觀察序列o和模型λ,維特比算法是確定以最大概率產(chǎn)生觀察序列o的狀態(tài)序列Q的最有效方法。產(chǎn)生基于觀察序列o和模型λ的觀察序列的概率為P(q1,q2,...qT|o,λ)。
圖9是示出了用于找出具有最大概率的最似然狀態(tài)序列的維特比算法的原理。
換句話說(shuō),圖9示出了用于確定在從時(shí)間t到時(shí)間t+1的狀態(tài)轉(zhuǎn)換中,以最高概率進(jìn)行轉(zhuǎn)換的狀態(tài)的序列的步驟。維特比算法通過(guò)以下步驟計(jì)算具有最大概率的狀態(tài)路徑
①初始化δ1(i)=πibi(o1),1DiDN,ψ1(i)=0②遞歸 ③終止 ④狀態(tài)序列回溯 在上述算法中,ψt(i)是用于保持狀態(tài)i在時(shí)間t的變化的最佳路徑的變量。ψt(i)利用到前一狀態(tài)(t-1)的最似然路徑δt-1以及狀態(tài)j在時(shí)間t的轉(zhuǎn)換矩陣,通過(guò)公式 計(jì)算具有最大概率的狀態(tài)路徑。
在圖9中,δt(j)示出了以狀態(tài)j為終點(diǎn)的路徑中的最似然路徑的概率,并可以通過(guò)公式3表示。
通過(guò)歸納,根據(jù)公式3,可以得出公式4[公式4] 公式4使其能夠獲得時(shí)間t+1處,以及時(shí)間t處,具有最大概率的狀態(tài)序列。
2.鮑姆-韋爾奇算法首先,需要選擇最匹配觀察曲率的模型,并設(shè)置模型內(nèi)的狀態(tài)的最優(yōu)序列。然后,需要確定相對(duì)于觀察序列o,是P(o|λ)最大化的模型λ=(π,A,B)的參數(shù)。因?yàn)槟P偷膹?fù)雜度,難以通過(guò)解析方法獲得模型參數(shù)。因此,使用鮑姆-韋爾奇算法進(jìn)行參數(shù)重新估計(jì)(訓(xùn)練)。
鮑姆-韋爾奇算法形成初始模型λ0和基于初始模型和觀察序列o的新模型λ。鮑姆-韋爾奇算法通過(guò)修改模型參數(shù),直到新模型的概率與前一模型的概率之間的差超過(guò)“預(yù)定值”,來(lái)產(chǎn)生新模型。
鮑姆-韋爾奇算法根據(jù)公式5和6,另外定義了兩個(gè)新參數(shù)。
公式5示出了在時(shí)間t處于狀態(tài)i在時(shí)間t+1處于狀態(tài)j的概率。在此公式中,α是前向算法的前向參數(shù),以及β是后向算法的后向參數(shù)。如果將 應(yīng)用于公式5,可以獲得在觀察序列o處從狀態(tài)i到狀態(tài)j的轉(zhuǎn)換數(shù)的期望值。
公式6示出了在時(shí)間t以給定的觀察序列處于狀態(tài)i的概率。如果將 應(yīng)用于公式6,可以獲得按照觀察序列o,處于狀態(tài)i的發(fā)射數(shù)的期望值。
通過(guò)上述方法,HMM分類器840選擇輸入音頻信號(hào)中的音樂(lè)信號(hào),并向DSP 210輸出所選擇的信號(hào)。
此后,將參照?qǐng)D10,對(duì)利用音樂(lè)提取部分800而只輸出音樂(lè)信號(hào)的數(shù)字記錄器的操作進(jìn)行更為詳細(xì)的解釋。
圖10是示出了根據(jù)本發(fā)明第三實(shí)施例,利用HMM,自動(dòng)存儲(chǔ)音樂(lè)的處理的流程圖。
當(dāng)向調(diào)諧器120發(fā)送由天線110接收到的廣播信號(hào)時(shí),調(diào)諧器120向聲音輸出部分130輸出信號(hào)。與此同時(shí),調(diào)諧器120通過(guò)DSP向音樂(lè)提取部分800輸出該信號(hào)(S1020)。向聲音輸入部分810發(fā)送輸入到音樂(lè)提取部分800的廣播信號(hào)。聲音輸入部分810將音頻信號(hào)分為幀,并提取音頻信號(hào)的聲特征,例如,零交叉信息、能量、音調(diào)、譜頻率和對(duì)數(shù)倒頻譜系數(shù)。聲音輸入部分810向MLP 820發(fā)送所提取出的聲特征(S1040)。
MLP 820獲得表示從聲音輸入部分810接收到的聲特征所屬的音位的可能性的后驗(yàn)概率(概率P),并向特征提取器830輸出該后驗(yàn)概率(S1060)。特征提取器830根據(jù)從MLP 820接收到的后驗(yàn)概率,獲得熵Hn和物力論Dn特征(S1080)。特征提取器830向HMM分類器840輸出所得到的熵Hn和物力論Dn。HMM分類器840利用鮑姆-韋爾奇算法和維特比算法,根據(jù)從特征提取器830接收到的熵Hn和物力論Dn,只選擇音樂(lè)數(shù)據(jù)。HMM分類器840向DSP 210輸出所選擇的音樂(lè)數(shù)據(jù)(S1100)。
DSP 210利用編碼器214,將從HMM分類器840接收到的音樂(lè)數(shù)據(jù)編碼為MP3音樂(lè)文件,并將編碼數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中(S1120)。與此同時(shí),DSP 210向聲音輸出部分130輸出包括正在進(jìn)行暫時(shí)存儲(chǔ)的音樂(lè)信號(hào)在內(nèi)的廣播信號(hào)。在將用戶正在收聽(tīng)的音樂(lè)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的暫時(shí)存儲(chǔ)區(qū)中時(shí),通過(guò)第二實(shí)施例中所解釋的處理識(shí)別音樂(lè)的開(kāi)頭和結(jié)尾。在這點(diǎn)上,可以配置微處理器240來(lái)代替音樂(lè)提取部分220、500、800,使其具有識(shí)別音樂(lè)信號(hào)的開(kāi)頭的功能。
如果正在向聲音輸出部分130輸出包括音樂(lè)信號(hào)的廣播信號(hào)時(shí)按下設(shè)置在鍵輸入部分230中的記錄鍵234,微處理器240將控制DSP 210根據(jù)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170的非音樂(lè)存儲(chǔ)區(qū)中的開(kāi)頭/結(jié)尾數(shù)據(jù),識(shí)別暫時(shí)存儲(chǔ)在暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)。然后,微處理器240將向確定存儲(chǔ)區(qū)傳送音樂(lè)數(shù)據(jù),以便明確地存儲(chǔ)音樂(lè)數(shù)據(jù)(S1160)?!懊鞔_地存儲(chǔ)和維持”的意思與第二實(shí)施例中所解釋的相同。
如果用戶并未按下記錄鍵234,微處理器240將返回步驟S1020,并將重復(fù)向聲音輸出部分130輸出廣播信號(hào)和只存儲(chǔ)當(dāng)前輸出的廣播信號(hào)中的音樂(lè)信號(hào)的處理。用戶可以從存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分170中的音樂(lè)數(shù)據(jù)中選擇和再現(xiàn)所需的音樂(lè)。
根據(jù)本發(fā)明的第三實(shí)施例,數(shù)字記錄器200包括利用HMM的音樂(lè)提取部分800,以便將廣播信號(hào)分類為話音信號(hào)和音樂(lè)信號(hào),并只存儲(chǔ)音樂(lè)信號(hào)。
盡管已經(jīng)為了示例性的目的,對(duì)本發(fā)明的優(yōu)選實(shí)施例進(jìn)行了描述,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚的是,在不偏離如所附權(quán)利要求中所公開(kāi)的本發(fā)明的范圍和精神的前提下,多種修改、增加和替換都是可能的。
可以形成利用基于話音識(shí)別技術(shù)的ICA(獨(dú)立分量分析)的音樂(lè)提取部分。通常,“話音識(shí)別”是用于通過(guò)機(jī)械(計(jì)算機(jī))分析來(lái)識(shí)別或標(biāo)識(shí)人類語(yǔ)音的技術(shù)。人類的話音具有依賴于根據(jù)發(fā)音而改變的口形和舌頭位置的特定頻率。通過(guò)將所發(fā)出的話音轉(zhuǎn)換為電信號(hào),并提取出話音信號(hào)的多個(gè)特征,可以識(shí)別人類的話音信號(hào)。因此,能夠利用基于話音識(shí)別技術(shù)的音樂(lè)提取部分,從廣播信號(hào)中提取并去除話音信號(hào),從而只輸出音樂(lè)信號(hào)。
在本發(fā)明的優(yōu)選實(shí)施例中,音樂(lè)數(shù)據(jù)存儲(chǔ)部分170暫時(shí)存儲(chǔ)音樂(lè)數(shù)據(jù)。只有當(dāng)按下記錄鍵234時(shí),音樂(lè)數(shù)據(jù)存儲(chǔ)部分170才明確地存儲(chǔ)和保持音樂(lè)數(shù)據(jù)。但是,也可以設(shè)置暫存器,用于暫時(shí)存儲(chǔ)由音樂(lè)提取部分220提取出的一個(gè)或多個(gè)音樂(lè)數(shù)據(jù)。可以將向聲音輸出部分130輸出的并由音樂(lè)提取部分220提取出的音樂(lè)數(shù)據(jù)保存在暫存器中。在按下記錄鍵234時(shí),可以向音樂(lè)數(shù)據(jù)存儲(chǔ)部分170傳送存儲(chǔ)在暫存器中的音樂(lè)數(shù)據(jù),以明確地進(jìn)行存儲(chǔ)。在未按下記錄鍵234時(shí),可以刪除存儲(chǔ)在暫存器中的音樂(lè)數(shù)據(jù),從而可以將新音樂(lè)數(shù)據(jù)存儲(chǔ)在暫存器中。
如上所述,本發(fā)明提供了一種數(shù)字記錄器及一種方法,用于不僅作為可聽(tīng)聲輸出所接收到的廣播信號(hào),利用人工神經(jīng)網(wǎng)絡(luò)、頻率分析或隱馬爾可夫模型,作為數(shù)字音樂(lè)數(shù)據(jù),有選擇地存儲(chǔ)包括在廣播信號(hào)中的音樂(lè)信號(hào)。
該數(shù)字記錄器從接收到的廣播信號(hào)中分離音樂(lè),并識(shí)別音樂(lè)的開(kāi)頭和結(jié)尾,以便從頭到尾地完整存儲(chǔ)該音樂(lè)。因此,即使在用戶在一段時(shí)間之后才開(kāi)始記錄音樂(lè)的情況下,仍然能夠從其開(kāi)頭開(kāi)始記錄和再現(xiàn)音樂(lè)。
本發(fā)明可以解決在開(kāi)始時(shí)記錄音樂(lè)和在音樂(lè)結(jié)束時(shí)完成記錄操作而兩次按下記錄鍵的不便和麻煩。而且,本發(fā)明消除了必須高度集中注意力以便正確地識(shí)別音樂(lè)選擇的開(kāi)頭和結(jié)尾的必要。
權(quán)利要求
1.一種數(shù)字記錄器,包括調(diào)諧器,用于接收和選擇廣播信號(hào);聲音輸出部分,用于輸出所選擇的廣播信號(hào),作為可聽(tīng)聲;音樂(lè)數(shù)據(jù)存儲(chǔ)部分,包括暫時(shí)存儲(chǔ)區(qū),用于暫時(shí)存儲(chǔ)音樂(lè)數(shù)據(jù),以及永久存儲(chǔ)區(qū),用于永久或長(zhǎng)期存儲(chǔ)音樂(lè)數(shù)據(jù);以及顯示部分,用于顯示數(shù)字記錄器的操作狀態(tài),對(duì)所述數(shù)字記錄器的改進(jìn)包括信號(hào)處理部分,用于將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),或者將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為模擬信號(hào),將數(shù)字?jǐn)?shù)據(jù)壓縮并編碼成音樂(lè)數(shù)據(jù),或者對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出;音樂(lè)提取部分,用于根據(jù)音樂(lè)提取算法,將從信號(hào)處理部分輸出的數(shù)字?jǐn)?shù)據(jù)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),以便只提取音樂(lè)數(shù)據(jù),并產(chǎn)生和輸出用于識(shí)別所提取出的音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾的開(kāi)頭/結(jié)尾數(shù)據(jù);鍵輸入部分,具有廣播鍵,用于將數(shù)字記錄器的操作模式轉(zhuǎn)換為無(wú)線電廣播接收模式;以及記錄鍵,用于實(shí)現(xiàn)記錄和存儲(chǔ)通過(guò)無(wú)線電廣播的音樂(lè)信號(hào)的功能;以及微處理器,用于控制信號(hào)處理部分,只將由音樂(lè)提取部分提取出的音樂(lè)數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分的暫時(shí)存儲(chǔ)區(qū)中,在按下記錄鍵時(shí),向確定的存儲(chǔ)區(qū)傳送暫時(shí)存儲(chǔ)在暫時(shí)存儲(chǔ)區(qū)中的音樂(lè)數(shù)據(jù),并在確定的存儲(chǔ)區(qū)中,明確地存儲(chǔ)和維持音樂(lè)數(shù)據(jù)。
2.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分利用人工神經(jīng)網(wǎng)絡(luò),執(zhí)行對(duì)多個(gè)輸入數(shù)據(jù)的操作,以便將輸入數(shù)據(jù)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),并去除非音樂(lè)數(shù)據(jù),從而只提取出音樂(lè)數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于音樂(lè)數(shù)據(jù)存儲(chǔ)部分的所述暫時(shí)存儲(chǔ)區(qū)按照接收的順序連續(xù)存儲(chǔ)音樂(lè)數(shù)據(jù),如果音樂(lè)數(shù)據(jù)超出了音樂(lè)數(shù)據(jù)存儲(chǔ)部分的存儲(chǔ)容量,則按照其被存儲(chǔ)的順序逐一刪除已存儲(chǔ)的音樂(lè)數(shù)據(jù),以便存儲(chǔ)新音樂(lè)數(shù)據(jù)。
4.根據(jù)權(quán)利要求3或4所述的數(shù)字記錄器,其特征在于所述鍵輸入部分包括用于刪除音樂(lè)數(shù)據(jù)的刪除鍵,并且所述微處理器向所述顯示部分輸出存儲(chǔ)在所述音樂(lè)數(shù)據(jù)存儲(chǔ)部分中的音樂(lè)數(shù)據(jù)的列表,從而使用戶能夠從列表中選擇要?jiǎng)h除的音樂(lè)數(shù)據(jù),并通過(guò)按下所述刪除鍵刪除所選擇的音樂(lè)數(shù)據(jù)。
5.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于所述數(shù)字處理部分可以是基于信號(hào)處理器的一硬件,或是DSP(數(shù)字信號(hào)處理器)。
6.根據(jù)權(quán)利要求5所述的數(shù)字記錄器,其特征在于所述數(shù)字處理部分包括用于將模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào)的模數(shù)轉(zhuǎn)換器;數(shù)字信號(hào)處理器(DSP)核心,用于控制數(shù)字信號(hào)處理器的全部操作;用于將數(shù)字信號(hào)轉(zhuǎn)換為模擬信號(hào)的數(shù)模轉(zhuǎn)換器;編碼器,用于將模擬信號(hào)壓縮并編碼為如MP3文件數(shù)據(jù)等;DSP程序部分,存儲(chǔ)用于根據(jù)來(lái)自微處理器的控制命令,將從調(diào)諧器接收到的廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),對(duì)數(shù)字?jǐn)?shù)據(jù)進(jìn)行壓縮和編碼,以及用于對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出的程序;以及用于對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼的解碼器。
7.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分使用頻率分析實(shí)現(xiàn)對(duì)從所述信號(hào)處理部分接收到的廣播數(shù)據(jù)的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,以便將廣播數(shù)據(jù)分成單聲道數(shù)據(jù)和立體聲數(shù)據(jù),并且除去單聲道數(shù)據(jù)以致只輸出立體聲數(shù)據(jù)。
8.根據(jù)權(quán)利要求7所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分確定當(dāng)所述操作結(jié)果接近零時(shí)所述廣播數(shù)據(jù)將是單聲道的,或當(dāng)所述操作結(jié)果表示大于臨界值的數(shù)值持續(xù)特定的時(shí)間段時(shí),將其確定為立體聲的,并通過(guò)去除單聲道數(shù)據(jù)而只輸出立體聲數(shù)據(jù)。
9.根據(jù)權(quán)利要求7所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分包括聲數(shù)據(jù)操作部分,用于實(shí)現(xiàn)對(duì)從所述信號(hào)處理部分接收到的廣播數(shù)據(jù)的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,并輸出與操作結(jié)果有關(guān)的數(shù)據(jù);非音樂(lè)去除部分,用于在從所述聲數(shù)據(jù)操作部分接收到的操作結(jié)果接近于零時(shí),確定廣播數(shù)據(jù)為單聲道的,或者當(dāng)操作結(jié)果表示大于臨界值的數(shù)值持續(xù)特定的時(shí)間段時(shí),將其確定為立體聲的,并通過(guò)去除單聲道數(shù)據(jù)而只輸出立體聲數(shù)據(jù);音樂(lè)開(kāi)頭/結(jié)尾確定部分,用于向所述信號(hào)處理部分輸出從所述非音樂(lè)去除部分接收到的立體聲音樂(lè)數(shù)據(jù),產(chǎn)生用于區(qū)分所述音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)的開(kāi)頭/結(jié)尾數(shù)據(jù),并向所述微處理器傳送開(kāi)頭/結(jié)尾數(shù)據(jù);以及譜分析部分,用于執(zhí)行對(duì)從所述音樂(lè)開(kāi)頭/結(jié)尾確定部分接收到的音樂(lè)數(shù)據(jù)的譜分析,以區(qū)分音樂(lè)的開(kāi)始和結(jié)束信號(hào),并產(chǎn)生用于識(shí)別開(kāi)始和結(jié)束信號(hào)的開(kāi)頭/結(jié)尾數(shù)據(jù)。
10.根據(jù)權(quán)利要求9所述的數(shù)字記錄器,其特征在于所述音樂(lè)開(kāi)頭/結(jié)尾確定部分檢測(cè)每個(gè)音樂(lè)數(shù)據(jù)的結(jié)束部分中的漸弱,從而識(shí)別音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾。
11.根據(jù)權(quán)利要求9所述的數(shù)字記錄器,其特征在于所述音樂(lè)開(kāi)頭/結(jié)尾確定部分識(shí)別靜音點(diǎn),作為音樂(lè)數(shù)據(jù)的開(kāi)頭,以及新音樂(lè)數(shù)據(jù)跟隨靜音時(shí)的點(diǎn),作為前一音樂(lè)數(shù)據(jù)的結(jié)尾,并產(chǎn)生基于這種確定的開(kāi)頭/結(jié)尾數(shù)據(jù)。
12.根據(jù)權(quán)利要求9所述的數(shù)字記錄器,其特征在于所述音樂(lè)開(kāi)頭/結(jié)尾確定部分計(jì)算音樂(lè)數(shù)據(jù)的能量變化,將較低能量點(diǎn)識(shí)別為靜音或音樂(lè)數(shù)據(jù)的可能結(jié)束點(diǎn),并通過(guò)對(duì)從非音樂(lè)去除部分得到的幀中的音樂(lè)數(shù)據(jù)的相位值平方,并取所述平方值的對(duì)數(shù),獲得能量值,并且所述音樂(lè)開(kāi)頭/結(jié)尾確定部分在考慮音樂(lè)的平均長(zhǎng)度為3到5分鐘的同時(shí),檢測(cè)和確定音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)。
13.根據(jù)權(quán)利要求9所述的數(shù)字記錄器,其特征在于所述音樂(lè)開(kāi)頭/結(jié)尾確定部分在其因?yàn)閮蓚€(gè)音樂(lè)數(shù)據(jù)之間不存在靜音或在兩個(gè)音樂(lè)數(shù)據(jù)之間存在重疊,從而未能區(qū)分新音樂(lè)數(shù)據(jù)的開(kāi)始部分與前一音樂(lè)數(shù)據(jù)的結(jié)束部分時(shí),向譜分析部分發(fā)送該音樂(lè)數(shù)據(jù)。
14.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分收集用于提取話音特征的數(shù)據(jù),并利用針對(duì)這些數(shù)據(jù)進(jìn)行了訓(xùn)練的隱馬爾可夫模型(HMM)從混合聲音信息中提取并去除隱藏的話音信息。
15.根據(jù)權(quán)利要求14所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分利用用于估計(jì)HMM的參數(shù)的鮑姆-韋爾奇算法,提取聲信號(hào)及其特征,并利用維特比算法,只提取音樂(lè)信號(hào)。
16.根據(jù)權(quán)利要求14所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分包括聲音輸入部分,用于輸入從所述調(diào)諧器接收到的廣播信號(hào)中的、包括多個(gè)聲信號(hào)的音頻信號(hào),并提取音頻信號(hào)的聲特征;MLP(多層感知器),用于獲得表示從聲音輸入部分接收到的聲特征所屬的音位的可能性的后驗(yàn)概率(概率P);特征提取器,用于根據(jù)從MLP接收到的后驗(yàn)概率,執(zhí)行操作,以獲得表示幀內(nèi)的概率分布的熵Hn和作為幀之間的變化的概率的物力論Dn;以及HMM分類器,利用鮑姆-韋爾奇算法和維特比算法,根據(jù)從特征提取器接收到的熵Hn和物力論Dn,將音頻信號(hào)分類為話音類和音樂(lè)類,并只輸出音樂(lè)數(shù)據(jù)。
17.根據(jù)權(quán)利要求16所述的數(shù)字記錄器,其特征在于所述聲特征包括零交叉信息、能量、音調(diào)、譜頻率和對(duì)數(shù)倒頻譜系數(shù)。
18.根據(jù)權(quán)利要求1所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分利用基于話音識(shí)別技術(shù)的ICA(獨(dú)立分量分析),從廣播信號(hào)中提取并去除話音信號(hào),從而只輸出音樂(lè)信號(hào)。
19.一種使用數(shù)字記錄器有選擇地存儲(chǔ)音樂(lè)的方法,所述數(shù)字記錄器包括調(diào)諧器,用于接收和選擇廣播信號(hào);聲音輸出部分,用于輸出所選擇的廣播信號(hào),作為可聽(tīng)聲;數(shù)字信號(hào)處理器(DSP),用于將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),或者將數(shù)字?jǐn)?shù)據(jù)轉(zhuǎn)換為模擬信號(hào),將數(shù)字?jǐn)?shù)據(jù)壓縮并編碼成音樂(lè)數(shù)據(jù),或者對(duì)壓縮數(shù)字?jǐn)?shù)據(jù)進(jìn)行解碼和輸出;音樂(lè)提取部分,用于從DSP接收到的數(shù)字?jǐn)?shù)據(jù)中只提取音樂(lè)數(shù)據(jù);音樂(lè)數(shù)據(jù)存儲(chǔ)部分,用于存儲(chǔ)音樂(lè)數(shù)據(jù);顯示部分,用于顯示數(shù)字記錄器的操作狀態(tài);以及鍵輸入部分,用于將數(shù)字記錄器的操作模式轉(zhuǎn)換為無(wú)線電廣播接收模式,并輸入用于實(shí)現(xiàn)對(duì)通過(guò)無(wú)線電廣播的音樂(lè)信號(hào)的記錄的命令,所述方法包括以下步驟(a)所述調(diào)諧器向聲音輸出部分輸出廣播信號(hào),并向DSP發(fā)送該信號(hào);(b)所述DSP將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),并向音樂(lè)提取部分輸出該數(shù)據(jù);(c)所述音樂(lè)提取部分根據(jù)音樂(lè)提取算法,從數(shù)字?jǐn)?shù)據(jù)中提取音樂(lè)數(shù)據(jù);(d)識(shí)別所提取出的音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾,并將該數(shù)據(jù)暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分中;(e)確定是否從鍵輸入部分輸入了記錄當(dāng)時(shí)向聲音輸出部分輸出的音樂(lè)的命令;以及(f)明確地存儲(chǔ)和維持暫時(shí)存儲(chǔ)在音樂(lè)數(shù)據(jù)存儲(chǔ)部分中的音樂(lè)數(shù)據(jù)。
20.根據(jù)權(quán)利要求19所述的方法,其特征在于步驟(c)中的音樂(lè)提取算法利用人工神經(jīng)網(wǎng)絡(luò),執(zhí)行對(duì)多個(gè)輸入數(shù)據(jù)的操作,以便將輸入數(shù)據(jù)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),并去除非音樂(lè)數(shù)據(jù),從而只提取出音樂(lè)數(shù)據(jù)。
21.根據(jù)權(quán)利要求19所述的方法,其特征在于步驟(c)中的音樂(lè)提取算法使用頻率分析實(shí)現(xiàn)對(duì)從所述數(shù)字信號(hào)處理器接收到的廣播數(shù)據(jù)的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,以便將廣播數(shù)據(jù)分成單聲道數(shù)據(jù)和立體聲數(shù)據(jù),并且除去單聲道數(shù)據(jù)以致只輸出立體聲數(shù)據(jù)。
22.根據(jù)權(quán)利要求19所述的方法,其特征在于步驟(c)中的音樂(lè)提取算法收集用于提取話音特征的數(shù)據(jù),并利用針對(duì)這些數(shù)據(jù)進(jìn)行了訓(xùn)練的隱馬爾可夫模型(HMM),從混合聲音信息中提取并去除隱藏的話音信息。
23.根據(jù)權(quán)利要求19所述的方法,其特征在于步驟(c)中的音樂(lè)提取算法利用基于話音識(shí)別技術(shù)的ICA(獨(dú)立分量分析),從廣播信號(hào)中提取并去除話音信號(hào),從而只輸出音樂(lè)信號(hào)。
24.根據(jù)權(quán)利要求19所述的方法,其特征在于步驟(d)將音樂(lè)數(shù)據(jù)按照接收的順序連續(xù)地存儲(chǔ)在所述音樂(lè)數(shù)據(jù)存儲(chǔ)部分中,并且如果音樂(lè)數(shù)據(jù)超出了音樂(lè)數(shù)據(jù)存儲(chǔ)部分的存儲(chǔ)容量,則按照其被存儲(chǔ)的順序逐一刪除已存儲(chǔ)的音樂(lè)數(shù)據(jù),以便存儲(chǔ)新音樂(lè)數(shù)據(jù)。
25.根據(jù)權(quán)利要求19所述的方法,其特征在于所述步驟(d)識(shí)別靜音點(diǎn)作為音樂(lè)數(shù)據(jù)的開(kāi)頭,以及新音樂(lè)數(shù)據(jù)跟隨該靜音時(shí)的點(diǎn),作為前一音樂(lè)數(shù)據(jù)的結(jié)尾。
26.根據(jù)權(quán)利要求19所述的方法,其特征在于所述步驟(d)檢測(cè)每個(gè)音樂(lè)數(shù)據(jù)的結(jié)束部分中的漸弱,從而識(shí)別音樂(lè)數(shù)據(jù)的開(kāi)頭和結(jié)尾。
27.根據(jù)權(quán)利要求19所述的方法,其特征在于所述步驟(d)計(jì)算音樂(lè)數(shù)據(jù)的能量變化,將較低能量點(diǎn)識(shí)別為靜音或音樂(lè)數(shù)據(jù)的可能結(jié)束點(diǎn),并通過(guò)對(duì)從非音樂(lè)去除部分得到的幀中的音樂(lè)數(shù)據(jù)的相位值平方,并取所述平方值的對(duì)數(shù),獲得能量值,并且所述步驟(d)在考慮音樂(lè)的平均長(zhǎng)度為3到5分鐘的同時(shí),檢測(cè)和確定音樂(lè)數(shù)據(jù)的開(kāi)始和結(jié)束點(diǎn)。
28.根據(jù)權(quán)利要求21所述的數(shù)字記錄器,其特征在于所述音樂(lè)提取部分確定當(dāng)所述操作結(jié)果接近零時(shí)所述廣播數(shù)據(jù)將是單聲道的,或當(dāng)所述操作結(jié)果表示大于臨界值的數(shù)值持續(xù)特定的時(shí)間段時(shí),將其確定為立體聲的,并通過(guò)去除單聲道數(shù)據(jù)而只輸出立體聲數(shù)據(jù)。
29.一種使用數(shù)字記錄器有選擇地存儲(chǔ)音樂(lè)的方法,所述數(shù)字記錄器包括調(diào)諧器,用于接收和選擇廣播信號(hào);信號(hào)處理部分,用于將廣播信號(hào)轉(zhuǎn)換為數(shù)字?jǐn)?shù)據(jù),以及將數(shù)字?jǐn)?shù)據(jù)壓縮并編碼為音樂(lè)數(shù)據(jù);音樂(lè)提取部分,用于從廣播信號(hào)中只提取出音樂(lè)數(shù)據(jù);以及存儲(chǔ)器,用于存儲(chǔ)所提取出的音樂(lè)數(shù)據(jù),所述方法包括以下步驟(a)向所述聲音輸出部分發(fā)送從所述調(diào)諧器輸出的廣播信號(hào);(b)所述音樂(lè)提取部分根據(jù)音樂(lè)提取算法,識(shí)別包括在廣播信號(hào)中的音樂(lè)的開(kāi)頭;(c)將識(shí)別出的音樂(lè)數(shù)據(jù)暫時(shí)存儲(chǔ)在所述存儲(chǔ)器的暫時(shí)存儲(chǔ)區(qū)中;(d)在音樂(lè)數(shù)據(jù)被存儲(chǔ)在所述音樂(lè)數(shù)據(jù)存儲(chǔ)部分中的同時(shí),確定是否有記錄音樂(lè)數(shù)據(jù)的命令輸入;以及(e)當(dāng)輸入記錄音樂(lè)數(shù)據(jù)的命令時(shí),向所述存儲(chǔ)器的確定存儲(chǔ)區(qū)傳送暫時(shí)存儲(chǔ)的音樂(lè)數(shù)據(jù),以明確地存儲(chǔ)和維持所述音樂(lè)數(shù)據(jù)。
30.根據(jù)權(quán)利要求29所述的方法,其特征在于所述步驟(a)通過(guò)所述信號(hào)處理部分將所述調(diào)諧器輸出的廣播信號(hào)轉(zhuǎn)換成數(shù)字?jǐn)?shù)據(jù),并將所述的數(shù)字?jǐn)?shù)據(jù)發(fā)送到所述的音樂(lè)提取部分。
31.根據(jù)權(quán)利要求29所述的方法,其特征在于步驟(b)中的音樂(lè)提取算法使用頻率分析實(shí)現(xiàn)對(duì)從所述數(shù)字信號(hào)處理器接收到的廣播數(shù)據(jù)的左聲道數(shù)據(jù)和右聲道數(shù)據(jù)的操作,以便將廣播數(shù)據(jù)分成單聲道數(shù)據(jù)和立體聲數(shù)據(jù),并且除去單聲道數(shù)據(jù)以致只輸出立體聲數(shù)據(jù)。
32.根據(jù)權(quán)利要求29所述的方法,其特征在于步驟(b)中的所述音樂(lè)提取算法收集用于提取話音特征的數(shù)據(jù),并利用針對(duì)這些數(shù)據(jù)進(jìn)行了訓(xùn)練的隱馬爾可夫模型(HMM),從混合聲音信息中提取并去除隱藏的話音信息。
33.根據(jù)權(quán)利要求29所述的方法,其特征在于步驟(b)中的所述音樂(lè)提取算法利用人工神經(jīng)網(wǎng)絡(luò),執(zhí)行對(duì)多個(gè)輸入數(shù)據(jù)的操作,以便將輸入數(shù)據(jù)分為音樂(lè)數(shù)據(jù)和非音樂(lè)數(shù)據(jù),并去除非音樂(lè)數(shù)據(jù),從而只提取出音樂(lè)數(shù)據(jù)。
34.根據(jù)權(quán)利要求29所述的方法,其特征在于步驟(b)中的所述音樂(lè)提取算法利用基于話音識(shí)別技術(shù)的ICA(獨(dú)立分量分析),從廣播信號(hào)中提取并去除話音信號(hào),從而只輸出音樂(lè)信號(hào)。
35.根據(jù)權(quán)利要求29所述的方法,其特征在于如果未輸入記錄命令,所述步驟(e)返回到步驟(b),以識(shí)別隨后的音樂(lè)。
全文摘要
本發(fā)明涉及一種用于有選擇且追溯地只記錄無(wú)線電廣播內(nèi)容中的音樂(lè)部分的方法和設(shè)備。根據(jù)本發(fā)明,提出了一種用于有選擇且追溯地只記錄無(wú)線電廣播內(nèi)容中的音樂(lè)部分的方法,包括以下步驟(a)檢測(cè)音樂(lè)部分的開(kāi)始點(diǎn);(b)從開(kāi)始點(diǎn)開(kāi)始,將音樂(lè)部分暫時(shí)存儲(chǔ)在緩沖存儲(chǔ)器中;(c)檢測(cè)由用戶發(fā)布的記錄音樂(lè)部分的命令;以及(d)向半永久存儲(chǔ)器傳送記錄在緩沖存儲(chǔ)器中的音樂(lè)部分。
文檔編號(hào)G10L15/10GK1633690SQ03804093
公開(kāi)日2005年6月29日 申請(qǐng)日期2003年1月30日 優(yōu)先權(quán)日2002年2月20日
發(fā)明者安濠聲 申請(qǐng)人:安濠聲