本發(fā)明涉及家電技術(shù)領(lǐng)域,更具體地說,涉及多媒體播放器中的多媒體文件存儲方法和裝置。
背景技術(shù):
目前,隨著科技的進步,智能設(shè)備越來越多,功能也越來越強大。例如各種多媒體播放器(如電視、手機、相機等)不僅能夠接入互聯(lián)網(wǎng),實現(xiàn)上網(wǎng)沖浪,獲取各種網(wǎng)絡(luò)資源;同時強大的多媒體功能讓其成為人們制作多媒體素材的工具,尤其是多媒體播放器中內(nèi)置有多媒體采集設(shè)備(如麥克風(fēng)等),給人們帶來了極大的便利。人們可以隨時隨地用多媒體播放器中內(nèi)置的多媒體采集設(shè)備進行拍照、錄像、錄音等來記錄重要的片段,成為生活和工作的一部分。但是隨著多媒體播放器采集的多媒體信息的數(shù)量的增多,如何快速、準確、高效的定位或檢索到用戶需要的多媒體信息已經(jīng)成為目前急需解決的問題。
尤其隨著多媒體播放器,如電視的智能化發(fā)展,智能電視不僅能夠接入互聯(lián)網(wǎng),實現(xiàn)上網(wǎng)沖浪,獲取各種網(wǎng)絡(luò)資源;還將成為家庭娛樂中心,人們可以方便的在電視上進行K歌、聚會、共享親友視頻、安防監(jiān)控、留言等,這些功能的普及將使得電視錄制的各種多媒體文件,如音視頻文件的數(shù)量巨大,但是在電視上對數(shù)量巨大的多媒體文件進行管理時,由于電視遙控器操作較為復(fù)雜繁瑣,交互性較差,因此受到電視的文字輸入設(shè)備的限制,導(dǎo)致對電視等多媒體播放器中的多媒體文件進行存儲管理時存在效率低的問題。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提供了一種多媒體播放器中的多媒體文件的存儲方法,以解決現(xiàn)有的由于受多媒體播放器的輸入設(shè)備的限制而導(dǎo)致的對多媒體播放器中的多媒體文件進行存儲管理時存在的效率低的問題。
第一方面,提供一種多媒體播放器中的多媒體文件的存儲方法,所述方法包括:
獲取針對多媒體播放器中的多媒體文件輸入的語音信息;
對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息;
將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲。
優(yōu)選的,在所述將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲之前,所述方法還包括:
對所述文字信息進行語義拆分,從所述文字信息中提取關(guān)鍵詞;
所述將所述文字信息與所述音視頻文件進行關(guān)聯(lián)存儲具體為:
將所述關(guān)鍵詞與所述多媒體文件進行關(guān)聯(lián)存儲。
優(yōu)選的,在所述獲取針對多媒體播放器中的多媒體文件輸入的語音信息之前,所述方法還包括:
通過多媒體播放器的多媒體采集設(shè)備錄制多媒體片段;
通過多媒體播放器中的預(yù)設(shè)算法對錄制的多媒體片段進行去噪聲和增益調(diào)整處理;
將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。
優(yōu)選的,所述通過多媒體播放器中的預(yù)設(shè)算法對錄制的多媒體片段進行去噪聲和增益調(diào)整處理具體包括:
對錄制的多媒體片段進行去噪聲處理;
采用多媒體播放器中預(yù)設(shè)的回聲抑制算法對去噪處理后的多媒體片段進行回聲抑制處理;
對回聲抑制處理后的多媒體片段進行增益調(diào)整。
優(yōu)選的,所述對錄制的多媒體片段進行去噪聲具體包括:
將錄制的多媒體片段的頻譜與錄制的環(huán)境背景噪聲的頻譜相減,其中所述環(huán)境背景噪聲的頻譜為在錄制多媒體片段時錄制的環(huán)境背景噪聲的頻譜,或者當(dāng)在錄制多媒體片段時未錄制環(huán)境背景噪聲時,統(tǒng)計錄制的多媒體片段的幅值,將幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均頻譜作為環(huán)境背景噪聲的頻譜;
統(tǒng)計與環(huán)境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體片段中頻率過高以及頻率過低的異常頻段。
優(yōu)選的,所述對回聲抑制處理后的多媒體片段進行增益調(diào)整具體包括:
統(tǒng)計環(huán)境背景噪聲的幅值,所述環(huán)境背景噪聲的幅值為在錄制多媒體片段時錄制的環(huán)境背景噪聲的,或者為錄制的多媒體片段中幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均幅值;
當(dāng)錄制的多媒體片段的幅值遠大于環(huán)境背景噪聲的幅值時,降低錄制的多媒體片段的幅值;當(dāng)錄制的多媒體片段的幅值遠小于環(huán)境背景噪聲的幅值時,提高錄制的多媒體片段的幅值。
優(yōu)選的,所述獲取針對多媒體播放器中的多媒體文件輸入的語音具體包括:
通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息;和/或,
從多媒體播放器中的多媒體文件中提取語音信息。
優(yōu)選的,所述通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息具體包括:
通過多媒體播放器中的多媒體采集設(shè)備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,將所述至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語音信息,所述語音信息包括主題部分和標題部分。
優(yōu)選的,從多媒體播放器中的多媒體文件中提取語音信息具體包括:
按照預(yù)設(shè)的時間間隔從多媒體文件中截取預(yù)設(shè)長度的語音片段;
將截取的語音片段的頻率與預(yù)先存儲的噪聲語音庫中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分;
在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。
第二方面,提供一種多媒體播放器中的多媒體文件存儲裝置,所述裝置包括:
語音信息獲取單元,用于獲取針對多媒體播放器中的多媒體文件輸入的語音信息;
語音識別單元,用于對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息;
文件存儲單元,用于將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲。
優(yōu)選的,所述裝置還包括:
關(guān)鍵詞提取單元,用于對所述語音識別單元識別得到的所述文字信息進行語義拆分,從所述文字信息中提取關(guān)鍵詞;
所述文件存儲單元將所述關(guān)鍵詞與所述多媒體文件進行關(guān)聯(lián)存儲。
優(yōu)選的,所述語音信息獲取單元具體包括:
語音信息采集模塊,用于通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息;和/或,
語音信息提取模塊,用于從多媒體播放器中的多媒體文件中提取語音信息。
優(yōu)選的,所述語音信息采集模塊具體用于通過多媒體播放器中的多媒體采集設(shè)備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,將所述至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語音信息,所述語音信息包括主題部分和標題部分;
所述語音信息提取模塊具體用于按照預(yù)設(shè)的時間間隔從多媒體文件中截取預(yù)設(shè)長度的語音片段,將截取的語音片段的頻率與預(yù)先存儲的噪聲語音庫中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分,在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。。
與現(xiàn)有技術(shù)相比,本發(fā)明所提供的技術(shù)方案具有以下優(yōu)點:
本發(fā)明通過多媒體播放器中的音視頻采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息,對該語音信息進行語音識別,以將該語音信息識別成文字信息,將該文字信息與該多媒體文件進行關(guān)聯(lián)存儲,從而可以減少多媒體文件存儲過程中對多媒體播放器的文字輸入設(shè)備的使用頻率,進而提高了多媒體文件的存儲效率,另外由于將語音信息識別成文字信息,并將文字信息與多媒體文件進行關(guān)聯(lián)存儲,從而利用與多媒體信息關(guān)聯(lián)存儲的文字信息可以對多媒體文件進行快速、高效、準確的定位和檢索。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明第一實施例提供的多媒體播放器中的多媒體文件存儲方法的實現(xiàn)流程圖;
圖2為本發(fā)明第二實施例提供的多媒體播放器中的多媒體文件存儲方法的實現(xiàn)流程圖;
圖3為本發(fā)明第三實施例提供的多媒體播放器中的多媒體文件存儲方法的實現(xiàn)流程圖;
圖4為本發(fā)明實施例提供的圖3中的S32的具體實現(xiàn)流程圖;
圖5為本發(fā)明實施例提供的多媒體播放器中的多媒體文件存儲裝置的結(jié)構(gòu)框圖。
具體實施方式
本發(fā)明提供了一種多媒體播放器中的多媒體文件的存儲方法,所述方法包括:
獲取針對多媒體播放器中的多媒體文件輸入的語音信息;
對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息;
將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲。
本發(fā)明還提供了一種多媒體播放器中的多媒體文件存儲裝置,所述裝置包括:
語音信息獲取單元,用于獲取針對多媒體播放器中的多媒體文件輸入的語音信息;
語音識別單元,用于對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息;
文件存儲單元,用于將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲。
以上是本發(fā)明的核心思想,為使本發(fā)明的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖對本發(fā)明的具體實施方式做詳細的說明。
在下面的描述中闡述了很多具體細節(jié)以便于充分理解本發(fā)明,但是本發(fā)明還可以采用其他不同于在此描述的其它方式來實施,本領(lǐng)域技術(shù)人員可以在不違背本發(fā)明內(nèi)涵的情況下做類似應(yīng)用,因此本發(fā)明不受下面公開的具體實施例的限制。
其次,本發(fā)明結(jié)合示意圖進行詳細描述,在詳述本發(fā)明實施例時,為便于說明,表示器件結(jié)構(gòu)的剖面圖會不依一般比例作局部放大,而且所述示意圖只是示例,其在此不應(yīng)限制本發(fā)明保護的范圍。此外,在實際制作中應(yīng)包含長度、寬度及深度的三維空間尺寸。
下面通過幾個實施例詳細描述。
實施例一
圖1示出了本發(fā)明實施例提供的多媒體播放器中的多媒體文件的存儲方法的實現(xiàn)流程,詳述如下:
S11,獲取針對多媒體播放器中的多媒體文件輸入的語音信息。
其中多媒體播放器可以為電視、手機等。多媒體播放器中的多媒體文件為音頻文件、視頻文件、音視頻文件等。針對多媒體播放器中的多媒體文件輸入的語音信息可以為語音信息或者包含語音信息的視頻信息等。該語音信息可以包括一段語音片段,也可以包括兩段或者兩段以上的語音片段。
其中獲取語音信息的方式可以為現(xiàn)有技術(shù)提供的任意一種方式,也可以為本發(fā)明實施例提供的如下兩種方式:
一種是通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息。其中多媒體采集設(shè)備包括但不限于音頻采集器、視頻采集器、音視頻采集器等。其中音頻采集器包括麥克風(fēng)等。
另一種是從多媒體播放器中的多媒體文件中提取語音信息。
具體的,通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息的具體過程如下:
通過多媒體播放器中的多媒體采集設(shè)備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,將該至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語音信息。優(yōu)選的,該語音信息包括主題部分和標題部分。
在本實施例中,當(dāng)通過多媒體播放器中的多媒體采集設(shè)備采集一段針對多媒體播放器中的多媒體文件輸入的語音片段時,該語音片段中包括主題部分和標題部分,其中主題部分和標題部分之間具有一定長度的停頓時間。當(dāng)通過多媒體播放器中的多媒體采集設(shè)備采集兩段或者兩段以上針對多媒體播放器中的多媒體文件輸入的語音片段時,至少一段語音片段包含主題部分,至少另一段語音片段包含標題部分,此時,將采集到的兩段或者兩段以上針 對多媒體播放器中的多媒體文件輸入的語音片段組成針對多媒體播放器中的多媒體文件輸入的語音信息。
例如在某種場景中(如寶寶5歲生日那天)在不同場合不同時刻分別錄制并保存了多個不同的音視頻文件,此時,針對每個音視頻文件可以輸入一段包含主題部分和標題部分的語音,或者針對每個音視頻文件輸入一段包含主題部分的語音和一段包含標題部分的語音。比如針對錄制的反映寶寶生日時的同學(xué)聚會的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生日”標題為“同學(xué)聚會”的語音,或者輸入一段包含主題為“寶寶5歲生日”的語音和一段包含標題為“同學(xué)聚會”的語音。針對錄制的反映寶寶生日時的生日禮物的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生日”標題為“生日禮物”的語音,或者輸入一段包含主題為“寶寶5歲生日”的語音和一段包含標題為“生日禮物”的語音。針對錄制的反映寶寶生日時的舞蹈表演的場景的音視頻文件,可以輸入一段包含主題為“寶寶5歲生日”標題為“舞蹈表演”的語音,或者輸入一段包含主題為“寶寶5歲生日”的語音和一段包含標題為“舞蹈表演”的語音。
具體的,從多媒體播放器中的多媒體文件中提取語音信息的具體過程如下:
A1、按照預(yù)設(shè)的時間間隔從多媒體文件中截取預(yù)設(shè)長度的語音片段。
其中預(yù)設(shè)時間間隔和預(yù)設(shè)長度可以根據(jù)需要和不同場景進行設(shè)置,在此不做任何限定。優(yōu)選的,該預(yù)設(shè)長度越小越好。
A2、將截取的語音片段的頻率與預(yù)先存儲的噪聲語音庫中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分。
其中預(yù)先存儲的噪聲語音庫中存儲有環(huán)境背景噪聲,如汽車聲、狗叫聲、喇叭聲等。在本實施例中,可以通過多媒體播放器的多媒體采集設(shè)備采集環(huán)境背景噪聲,并將采集到的環(huán)境背景噪聲存儲至噪聲語音庫中。也可以直接從其它設(shè)備,如通過網(wǎng)絡(luò)等下載環(huán)境背景噪聲,并將下載的環(huán)境背景噪聲存儲至噪聲語音庫中。
優(yōu)選的,可以對噪聲語音庫中的環(huán)境背景噪聲進行分類,如按照環(huán)境場景分類,這樣,在將截取的語音片段的頻率與預(yù)先存儲的噪聲語音庫中的噪聲的頻率進行比對時,可以先根據(jù)截取的語音片段的環(huán)境場景選擇噪聲語音庫中的其中一類環(huán)境背景噪聲與截取的語音片段的頻率進行比對,從而加快比對速度。
A3、在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。
具體的,在剩余的語音片段的附近位置是指在剩余的語音片段的前后預(yù)設(shè)長度的位置。該預(yù)設(shè)長度可以根據(jù)音視頻文件所反映的場景進行設(shè)置,在此不做任何限定。
在本發(fā)明另一實施例中,獲取針對多媒體播放器中的多媒體文件輸入的語音信息的具體過程還可以如下所示:
B1,通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息,其具體過程如上所示。
B2,當(dāng)在步驟B1中未采集到針對多媒體播放器中的多媒體文件輸入的語音信息時,從多媒體播放器中的多媒體文件中提取語音信息。
在本實施例中,優(yōu)先采集針對多媒體播放器中的多媒體文件輸入的語音信息,如果未采集到該語音信息,如用戶未輸入該語音信息或者多媒體播放器中的音頻采集設(shè)備損壞而未采集到該語音信息,才從多媒體播放器中的多媒體文件中提取語音信息。
S12,對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息。
在本實施例中,將S11中針對音視頻播放器中的音視頻文件輸入的語音信息進行語音識別,將該語音信息識別成文字信息。其中語音識別的具體方法可以采用現(xiàn)有技術(shù)提供的任意一種方式,還可以采用本發(fā)明實施例提供的如下方式:
C1、多媒體播放器將該語音信息上傳至云服務(wù)器中;
C2、云服務(wù)器根據(jù)預(yù)設(shè)的語音識別算法對上傳的語音信息進行語音識別,得到對應(yīng)的文字信息;
其中語音識別算法可以采用現(xiàn)有技術(shù)提供的任意一種語音識別算法。由于語音識別算法是現(xiàn)有技術(shù),在此不再贅述。
C3、云服務(wù)器將語音識別得到的文字信息回傳至多媒體播放器。
S13、將該文字信息與多媒體文件進行關(guān)聯(lián)存儲。
具體的,當(dāng)該語音信息中包含兩個或者兩個以上的語音片段時,云服務(wù)器對該語音信息中包含的每個語音片段進行語音識別,得到與語音片段對應(yīng)的文字片段,并向多媒體播放器回傳針對每個語音片段識別得到的對應(yīng)文字片段,多媒體播放器將每個語音片段識別得到的對應(yīng)文字片段組合成文字信息。
在將該文字信息與多媒體文件進行關(guān)聯(lián)存儲時,可以直接將該文字信息作為該多媒體文件的文件名,或者建立該多媒體文件與該文字信息之間的映射關(guān)系。
在本實施例中,通過多媒體播放器中的音視頻采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息,對該語音信息進行語音識別,以將該語音信息識別成文字信息,將該文字信息與該多媒體文件進行關(guān)聯(lián)存儲,從而可以減少多媒體文件存儲過程中對多媒體播放器的文字輸入設(shè)備的使用頻率,進而提高了多媒體文件的存儲效率,另外由于將語音信息識別成文字信息,并將文字信息與多媒體文件進行關(guān)聯(lián)存儲,從而利用與多媒體信息關(guān)聯(lián)存儲的文字信息可以對多媒體文件進行快速、高效、準確的定位和檢索。
實施例二
圖2示出了本發(fā)明另一實施例提供的多媒體播放器中的多媒體文件的存儲方法的實現(xiàn)流程,詳述如下:
S21,獲取針對多媒體播放器中的多媒體文件輸入的語音信息。其具體過程如上述實施例一所示,在此不再贅述。
S22,對該語音信息進行語音識別,將該語音信息識別成文字信息。其具體過程如上述實施例一所示,在此不再贅述。
S23,對該文字信息進行語義拆分,從該文字信息中提取關(guān)鍵詞。其具體過程如下:
將該文字信息進行拆分,形成單詞以及詞組;
去除拆分形成的單詞以及詞組中的文字噪聲,將去除了文字噪聲的單詞以及詞組的組合作為從該文字信息中提取出的關(guān)鍵詞。其中去除拆分形成的單詞以及詞組中的文字噪聲的具體過程如下:
去除拆分形成的單詞以及詞組中不能組合成單詞的漢字噪聲;
統(tǒng)計單詞詞頻以及逆文檔詞頻,去除拆分形成的單詞以及詞組中單詞詞頻和逆文檔詞頻均高的單詞。其中單詞詞頻是指該單詞在文字信息中出現(xiàn)的頻率。逆文檔詞頻是指包含該單詞的語音文件占總語音文件個數(shù)的比值。具體如下:
單詞詞頻:tf=n逆文檔詞頻:
其中n代表單詞在語音信息中出現(xiàn)的次數(shù),m代表語音信息包含的語音片段的個數(shù)。如果單詞詞頻tf和逆文檔詞頻idf的數(shù)值都大,則表示該單詞是一個非關(guān)鍵詞的可能性非常大,如常用的結(jié)構(gòu)助詞:的等。
S24,將該關(guān)鍵詞與多媒體文件進行關(guān)聯(lián)存儲。
在將該關(guān)鍵詞與多媒體文件進行關(guān)聯(lián)存儲時,可以直接將該關(guān)鍵詞作為該多媒體文件的文件名,或者建立該多媒體文件與該關(guān)鍵詞之間的映射關(guān)系。
在本實施例中,通過從語音信息識別得到的文字信息中提取關(guān)鍵詞,將該關(guān)鍵詞與多媒體文件進行關(guān)聯(lián)存儲,從而使得存儲的信息量少而簡潔,進一步提高了多媒體播放器中多媒體文件的存儲效率,同時更有利于多媒體文件的定位和檢索。
實施例三
圖3示出了本發(fā)明另一實施例提供的多媒體播放器中的多媒體文件的存儲方法的實現(xiàn)流程,該方法是在上述的實施例一或者二的基礎(chǔ)上,增加了錄制多媒體播放器中的多媒體文件的步驟,其中錄制多媒體播放器中的多媒體文件的具體過程如圖3所示,詳述如下:
S31,通過多媒體播放器的多媒體采集設(shè)備錄制多媒體片段。
其中多媒體采集設(shè)備包括但不限于音頻采集器、視頻采集器、音視頻采集器等。其中音頻采集器包括麥克風(fēng)等。
在本發(fā)明另一實施例中,在通過多媒體播放器的多媒體采集設(shè)備錄制多媒體片段的同時,可以選擇性的錄制環(huán)境背景噪聲,并將環(huán)境背景噪聲存儲至噪聲語音庫中。
S32,通過多媒體播放器中的預(yù)設(shè)算法對錄制的多媒體片段進行去噪聲和增益調(diào)整處理。
其中通過多媒體播放器中的預(yù)設(shè)算法對錄制的多媒體片段進行去噪聲和增益調(diào)整處理的具體過程如圖4所示,詳述如下:
S321,對錄制的多媒體片段進行去噪聲處理。其中對錄制的多媒體片段進行去噪聲處理的具體過程如下:
D1、將錄制的多媒體片段的頻譜與錄制的環(huán)境背景噪聲的頻譜相減,其中環(huán)境背景噪聲的頻譜為在錄制多媒體片段時錄制的環(huán)境背景噪聲的頻譜,或者當(dāng)在錄制多媒體片段時未錄制環(huán)境背景噪聲時,統(tǒng)計錄制的多媒體片段的幅值,將幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均頻譜作為環(huán)境背景噪聲的頻譜。
D2、統(tǒng)計與環(huán)境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體片段中頻率過高以及頻率過低的異常頻段。
S322,采用多媒體播放器中預(yù)設(shè)的回聲抑制算法對去噪處理后的多媒體片段進行回聲抑制處理。
其中回聲抑制算法采用歸一化的最小均方算法(NLMS),具體表述為:
ek=dK-yk
Wk+1=WK+2uekXK/PK(x)
其中:XK代表輸入信號向量,T代表轉(zhuǎn)置,WK代表權(quán)向量,yk代表NLMS濾波器處理過后的輸出信號,ek代表濾波器期望誤差,dK代表濾波器期待響應(yīng),u代表迭代步長,PK(x)代表輸入信號的能量估計。
Wk+1=WK+2uekXK/δ+PK(x)
其中δ是一個很小的正數(shù),可以避免信號輸入過小產(chǎn)生的數(shù)值計算問題。
其中a是一個0-1之間的常數(shù)。
最終經(jīng)過多次迭代得到最終的輸出信號yk。
S323,對回聲抑制處理后的多媒體片段進行增益調(diào)整。其具體過程如下:
統(tǒng)計環(huán)境背景噪聲的幅值,該環(huán)境背景噪聲的幅值可以為在錄制多媒體片段時錄制的環(huán)境背景噪聲的,或者為錄制的多媒體片段中幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均幅值。
當(dāng)錄制的多媒體片段的幅值遠大于環(huán)境背景噪聲的幅值時,降低錄制的多媒體片段的幅值;當(dāng)錄制的多媒體片段的幅值遠小于環(huán)境背景噪聲的幅值時,提高錄制的多媒體片段的幅值。這樣,可以有效的提高錄制的多媒體片段的質(zhì)量。
S33,將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。
實施例四
圖5示出了本發(fā)明實施例提供的多媒體播放器中的多媒體文件存儲裝置的結(jié)構(gòu)框圖,該多媒體播放器中的多媒體文件存儲裝置可以是內(nèi)置于多媒體播放器中的軟件單元、硬件單元或者軟硬件相結(jié)合的單元,或者作為獨立的掛件集成到多媒體播放器或者多媒體播放器的應(yīng)用系統(tǒng)中。該多媒體播放器中的多媒體文件存儲裝置包括語音信息獲取單元51,語音識別單元52以及文件存儲單元53。其中:
語音信息獲取單元51獲取針對多媒體播放器中的多媒體文件輸入的語音信息。
其中多媒體播放器可以為電視、手機等。多媒體播放器中的多媒體文件為音頻文件、視頻文件、音視頻文件等。針對多媒體播放器中的多媒體文件輸入的語音信息可以為語音信息或者包含語音信息的視頻信息等。該語音信息可以包括一段語音片段,也可以包括兩段或者兩段以上的語音片段。
具體的,所述語音信息獲取單元51包括語音信息采集模塊511和/或語音信息提取模塊512。其中:
語音信息采集模塊511通過多媒體播放器中的多媒體采集設(shè)備采集針對多媒體播放器中的多媒體文件輸入的語音信息。
具體的,所述語音信息采集模塊511具體用于通過多媒體播放器中的多媒體采集設(shè)備采集至少一段針對多媒體播放器中的多媒體文件輸入的語音片段,將所述至少一段語音片段組合成針對多媒體播放器中的多媒體文件輸入的語音信息,所述語音信息包括主題部分和標題部分。
語音信息提取模塊512從多媒體播放器中的多媒體文件中提取語音信息。
具體的,所述語音信息提取模塊512具體用于按照預(yù)設(shè)的時間間隔從多媒體文件中截取預(yù)設(shè)長度的語音片段,將截取的語音片段的頻率與預(yù)先存儲的噪聲語音庫中的噪聲的頻率進行比對,去除截取的語音片段中的噪聲部分,在剩余的語音片段的附近位置截取固定長度的語音片段,將截取到的固定長度的語音片段組合成針對音視頻播放器中的音視頻文件輸入的語音信息。
語音識別單元52對所述語音信息進行語音識別,將所述語音信息識別成對應(yīng)的文字信息。
其中語音識別單元52將語音信息上傳至云服務(wù)器,云服務(wù)器根據(jù)預(yù)設(shè)的語音識別算法對上傳的語音信息進行語音識別,得到對應(yīng)的文字信息,云服務(wù)器將語音識別得到的文字信息回傳至語音識別單元52。
文件存儲單元53將所述文字信息與所述多媒體文件進行關(guān)聯(lián)存儲。
在將該文字信息與多媒體文件進行關(guān)聯(lián)存儲時,可以直接將該文字信息作為該多媒體文件的文件名,或者建立該多媒體文件與該文字信息之間的映射關(guān)系。
在本發(fā)明另一實施例中,該裝置還包括關(guān)鍵詞提取單元54。該關(guān)鍵詞提取單元54對所述語音識別單元52識別得到的所述文字信息進行語義拆分,從所述文字信息中提取關(guān)鍵詞,此時所述文件存儲單元53將所述關(guān)鍵詞與所述多媒體文件進行關(guān)聯(lián)存儲。
具體的,該關(guān)鍵詞提取單元54將該文字信息進行拆分,形成單詞以及詞組;
去除拆分形成的單詞以及詞組中的文字噪聲,將去除了文字噪聲的單詞以及詞組的組合作為從該文字信息中提取出的關(guān)鍵詞。其中去除拆分形成的單詞以及詞組中的文字噪聲的具體過程如下:
去除拆分形成的單詞以及詞組中不能組合成單詞的漢字噪聲;
統(tǒng)計單詞詞頻以及逆文檔詞頻,去除拆分形成的單詞以及詞組中單詞詞頻和逆文檔詞頻均高的單詞。
在本發(fā)明另一實施例中,該裝置還包括多媒體文件錄制單元55。該多媒體文件錄制單元55通過多媒體播放器的多媒體采集設(shè)備錄制多媒體片段,通過多媒體播放器中的預(yù)設(shè)算法對錄制的多媒體片段進行去噪聲和增益調(diào)整處理,將處理后的多媒體片段存儲成多媒體播放器中的音視頻文件。
具體的,該多媒體文件錄制單元55包括去噪聲處理模塊551、回聲抑制模塊552以及增益調(diào)整模塊553。其中:
去噪聲處理模塊551對錄制的多媒體片段進行去噪聲處理。其具體過程如下:
將錄制的多媒體片段的頻譜與錄制的環(huán)境背景噪聲的頻譜相減,其中所述環(huán)境背景噪聲的頻譜為在錄制多媒體片段時錄制的環(huán)境背景噪聲的頻譜,或者當(dāng)在錄制多媒體片段時未錄制環(huán)境背景噪聲時,統(tǒng)計錄制的多媒體片段的幅值,將幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均頻譜作為環(huán)境背景噪聲的頻譜;
統(tǒng)計與環(huán)境背景噪聲的頻譜相減后的多媒體片段的頻率,去除該多媒體片段中頻率過高以及頻率過低的異常頻段。
回聲抑制模塊552采用多媒體播放器中預(yù)設(shè)的回聲抑制算法對去噪處理后的多媒體片段進行回聲抑制處理。其具體過程如上述方法所示,在此不再贅述。
增益調(diào)整模塊553對回聲抑制處理后的多媒體片段進行增益調(diào)整。其具體過程如下:
統(tǒng)計環(huán)境背景噪聲的幅值,所述環(huán)境背景噪聲的幅值為在錄制多媒體片段時錄制的環(huán)境背景噪聲的,或者為錄制的多媒體片段中幅值低于預(yù)設(shè)幅值閾值的多媒體片段的平均幅值;
當(dāng)錄制的多媒體片段的幅值遠大于環(huán)境背景噪聲的幅值時,降低錄制的多媒體片段的幅值;當(dāng)錄制的多媒體片段的幅值遠小于環(huán)境背景噪聲的幅值時,提高錄制的多媒體片段的幅值。
以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或者直接、間接運用在其他相關(guān)的技術(shù)領(lǐng)域,均視為包括在本發(fā)明的專利保護范圍內(nèi)。