錄音編輯方法及錄音裝置的制造方法
【專利摘要】本發(fā)明提供了錄音編輯方法及錄音裝置,通過對當(dāng)前錄音進行聲波分析,并根據(jù)所述聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記,接收對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式,根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中獲取所述待編輯片段,按照所述編輯方式對所述待編輯片段進行編輯。本發(fā)明通過聲紋識別對當(dāng)前錄音進行標(biāo)記,在標(biāo)記完成后基于標(biāo)記用戶對當(dāng)前錄音進行編輯,從而能夠快捷地定位到待編輯片段,節(jié)省了編輯時間,提升了用戶感受。
【專利說明】
錄音編輯方法及錄音裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及電子技術(shù)領(lǐng)域,尤其涉及一種錄音編輯方法及錄音裝置。
【背景技術(shù)】
[0002]目前智能手機逐漸融入到了人們?nèi)粘I钪?,不但成為日常通訊設(shè)備,也成為日常易于攜帶的記錄設(shè)備。其中,用戶通過智能手機的錄音應(yīng)用程序(Applicat1n,簡稱APP)可以對語音信息進行錄制和保存,便于用戶快速地保存一段難以直接記憶語音信息,并且還可以多次使用該錄音。
[0003]—般,用戶錄制的錄音文件中常常包含不需要的信息片段,這些片段既占用空間又妨礙用戶查找真正所需的信息?,F(xiàn)有的錄音APP可以滿足用戶根據(jù)錄音的實際內(nèi)容對錄音文件進行編輯,這需要用戶對錄音文件重復(fù)播放從而確定出待編輯的內(nèi)容,顯然這種錄音編輯方式會占用用戶較多的時間,使得用戶體驗較差。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供一種錄音編輯方法及錄音裝置,用于解決現(xiàn)有對錄音進行編輯時存在浪費用戶時間,影響用戶體驗的問題。
[0005]為了實現(xiàn)上述目的,本發(fā)明提供了一種錄音編輯方法,包括:
[0006]對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記;
[0007]接收對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式;
[0008]根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中選中所述待編輯片段;
[0009]按照所述編輯方式對所述待編輯片段進行編輯。
[0010]為了實現(xiàn)上述目的,本發(fā)明提供了一種錄音裝置,包括:
[0011]標(biāo)記模塊,用于對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記;
[0012]獲取模塊,用于獲取對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式;
[0013]選取模塊,用于根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中選取出所述待編輯片段;
[0014]編輯模塊,用于按照所述編輯方式對所述待編輯片段進行編輯。
[0015]本發(fā)明的錄音編輯方法及錄音裝置,通過對當(dāng)前錄音進行聲波分析,并根據(jù)所述聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記,接收對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式,根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中獲取所述待編輯片段,按照所述編輯方式對所述待編輯片段進行編輯。本發(fā)明通過聲紋識別對當(dāng)前錄音進行標(biāo)記,在標(biāo)記完成后基于標(biāo)記用戶對當(dāng)前錄音進行編輯,從而能夠快捷地定位到待編輯片段,節(jié)省了編輯時間,提升了用戶感受。
【附圖說明】
[0016]圖1為本發(fā)明實施例一的錄音編輯方法的流程示意圖;
[0017]圖2為本發(fā)明實施例一的錄音編輯方法的應(yīng)用示例示意圖之一;
[0018]圖3為本發(fā)明實施例一的錄音編輯方法的應(yīng)用示例示意圖之二;
[0019]圖4為本發(fā)明實施例一的錄音編輯方法的應(yīng)用示例示意圖之三;
[0020]圖5為本發(fā)明實施例一的錄音編輯方法的應(yīng)用示例示意圖之四;
[0021 ]圖6為本發(fā)明實施例一中的錄音標(biāo)記方法的流程示意圖;
[0022 ]圖7為本發(fā)明實施例一中的錄音標(biāo)記方法的應(yīng)用示例示意圖之一;
[0023]圖8為本發(fā)明實施例一中的錄首標(biāo)記方法的應(yīng)用不例不意圖之一.;
[0024I圖9為本發(fā)明實施例一中的錄音標(biāo)記方法的應(yīng)用示例示意圖之三;
[0025]圖10為本發(fā)明實施例一中的聲紋數(shù)據(jù)庫建立方法的流程示意圖;
[0026]圖11為本發(fā)明實施例二的錄音裝置的結(jié)構(gòu)示意圖;
[0027]圖12為本發(fā)明實施例二中標(biāo)記模塊的結(jié)構(gòu)示意圖。
【具體實施方式】
[0028]下面結(jié)合附圖對本發(fā)明實施例提供的錄音編輯方法及錄音裝置進行詳細描述。
[0029]實施例一
[0030]如圖1所示,其為本發(fā)明實施例一的錄音編輯方法的流程示意圖,該錄音編輯方法包括:
[0031]步驟101、對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記。
[0032]用戶可以通過智能手機的用戶界面,開啟智能手機中下載的錄音APP的錄音功能,錄音APP開始對當(dāng)前錄音進行采集,在采集的過程中錄音APP可以對聲音進行預(yù)處理。對采集的當(dāng)前錄音進行聲波分析,進而得到當(dāng)前錄音的聲波分析結(jié)果,在獲取到聲波分析結(jié)果中包括聲波特征參數(shù)。由于說話人的聲紋具有唯一性,因此可以利用聲紋作為區(qū)別說話人的唯一特征,進而可以根據(jù)該聲波特征參數(shù)就可以對當(dāng)前錄音進行標(biāo)記。其中,聲波特征參數(shù)包括:聲音的能量、共振峰、梅爾倒譜系數(shù)(Me 1-frequency cepstrum coefficients,簡稱MFCC)以及線性預(yù)測系數(shù)(Linear Predict1n Coeff icients,簡稱LPC)。
[0033]如圖2所示,其為本實施例的應(yīng)用示例示意圖,比如一段錄音有5個說話人,分別使用左斜線、右斜線、橫線、豎線以及網(wǎng)格進行標(biāo)記說話人A、B、C、D、E。其中,當(dāng)說話人A在這段錄音中有兩次被其他說話人分開的發(fā)言,這兩段發(fā)言都會使用左斜線標(biāo)記說話人A,以表明是同一個說話人的錄音段落。為了用戶更直觀的看到說話人的不同,可以使用不同的顏色標(biāo)記說話人,例如,分別使用紅色、黃色、藍色、綠色和紫色來標(biāo)記說話人A、B、C、D、E?;蛘弋?dāng)說話人A在這段錄音中有兩次被其他說話人分開的發(fā)言,這兩段發(fā)言都會使用紅色標(biāo)記說話人A,以表明是同一個說話人的錄音段落。
[0034]步驟102、獲取對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式。
[0035]進一步地,在對當(dāng)前錄音進行標(biāo)記后,用戶可以通過終端的顯示界面下看到被標(biāo)記的錄音,這樣用戶就可以根據(jù)標(biāo)記通過終端向錄音APP方式編輯指令。其中,編輯指令中攜帶有待編輯片段的標(biāo)記信息,以及對待編輯片段的編輯方式。編輯方式可以包括剪切選中的片段、合并選中的多個片段、或者刪除選中的片段。
[0036]本實施例中,所述獲取對所述當(dāng)前錄音進行編輯的編輯指令,包括:
[0037]首先,用戶可以通過終端點擊當(dāng)前錄的波形圖形中所包含的至少一個標(biāo)記,來選取相應(yīng)的待編輯片段。具體地,在用戶對標(biāo)記進行點擊后,錄音APP可以檢測對當(dāng)前錄音的波形圖形所包含的至少一個待編輯片段對應(yīng)的標(biāo)記進行的第一點擊操作。進一步地,在選中待編輯片段后,用戶可以通過終端顯示界面顯示的編輯方式選擇一個隊待編輯片段進行編輯的目標(biāo)編輯方式。具體地,在用戶對目標(biāo)編輯方式進行點擊后,錄音APP就可以檢測對待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作。當(dāng)檢測到第一點擊操作和第二點擊操作后,根據(jù)第一點擊操作和第二點擊操作生成編輯指令。
[0038]可選地,所述獲取對所述當(dāng)前錄音進行編輯的編輯指令,包括:
[0039]首先,用戶可以通過終端點擊當(dāng)前錄的波形圖形中所包含的至少一個標(biāo)記,來選取相應(yīng)的待編輯片段。具體地,在用戶對標(biāo)記進行點擊后,錄音APP可以檢測對當(dāng)前錄音的波形圖形所包含的至少一個待編輯片段對應(yīng)的標(biāo)記進行的第一點擊操作。進一步地,在選中待編輯片段后,用戶可以通過終端顯示界面顯示的編輯方式選擇一個隊待編輯片段進行編輯的目標(biāo)編輯方式。具體地,在用戶對目標(biāo)編輯方式進行點擊后,錄音APP就可以檢測對待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作。當(dāng)檢測到第一點擊操作和第二點擊操作后,根據(jù)第一點擊操作和第二點擊操作生成編輯指令。
[0040]步驟103、根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中獲取所述待編輯片段。[0041 ]步驟104、按照所述編輯方式對所述待編輯片段進行編輯。
[0042]在接收到編輯指令后,錄音APP可以從編輯指令中獲取到待編輯片段的標(biāo)記信息,然后根據(jù)該標(biāo)記信息從當(dāng)前錄音中選取到待編輯片段。錄音APP可以從編輯指令中獲取到對待編輯片段的編輯方式,例如將待編輯片段進行剪切、合并或者刪除操作。在獲取到待編輯片段后,錄音APP就可以根據(jù)指示的編輯方式對其進行編輯。
[0043]如圖3所示,其為本實施例的應(yīng)用示例示意圖,用戶在編輯一段經(jīng)過聲紋分析標(biāo)記后的錄音文件時,可以清晰看到這段錄音的波紋圖形有不同標(biāo)記區(qū)分。用戶通過點擊波紋圖形上的某個標(biāo)記就可以相應(yīng)的選中該片段作為待編輯片段。如圖3中所示,用戶通過點擊選取了橫線標(biāo)記的片段作為待編輯片段。在選取中待編輯片段后,用戶可以在編輯菜單中點擊對該待編輯片段的目標(biāo)編輯方式,例如,可以點擊“剪切選中片段”作為目標(biāo)編輯方式,通過上述兩次點擊操作就可以生成對待編輯片段進行編輯的編輯指令,根據(jù)該編輯指令就能剪下這個片段。
[0044]如圖4所示,其為本實施例的應(yīng)用示例示意圖,錄音波紋圖形下方有該錄音的標(biāo)記列表提供給用戶,用戶可以直接從標(biāo)記列表中選擇一個標(biāo)記,這樣就能選中該標(biāo)記所代表的說話人的全部片段。比如一段錄音有3個說話人,分別使用左斜線、右斜線、橫線來標(biāo)記說話人A、B、C。其中說話人A在這段錄音中有兩次被其他說話人分開的發(fā)言,這兩段發(fā)言都會使用左斜線來標(biāo)記。那么當(dāng)用戶點擊標(biāo)記列表中的左斜線選項時,兩個片段同時都被選中,用戶可以點擊某個片段取消選中也可以保持選中這的片段。當(dāng)選取多個片段后,當(dāng)用戶試圖對其進行合并時,就可以從編輯方式列表中點擊“合并選中片段”作為目標(biāo)編輯方式。在點擊操作完成后,錄音APP就可以獲取到編輯指令,可以將選中的多個片段被合并為一段新片段。
[0045]如圖5所示,其為本實施例的應(yīng)用示例示意圖,用戶還可以從標(biāo)記列表中選中多個標(biāo)記選項。圖5中用戶選中了左斜線和右斜線這兩個標(biāo)記選項,那么說話人A和說話人B的全部錄音片段就可以被選中。最后點擊“合并選中片段”,選中的片段即被合并為一段新片段。進一步地,用戶可以從選取出的所有片段中挑選部分對話內(nèi)容進行合并。
[0046]本實施例提供的錄音編輯方法,通過對當(dāng)前錄音進行聲波分析,并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記,接收對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式,根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中獲取所述待編輯片段,按照所述編輯方式對所述待編輯片段進行編輯。本實施例通過聲紋識別對當(dāng)前錄音進行標(biāo)記,在標(biāo)記完成后基于標(biāo)記用戶對當(dāng)前錄音進行編輯,從而能夠快捷地定位到待編輯片段,節(jié)省了編輯時間,提升了用戶感受。
[0047]在本實施例一中對當(dāng)前錄音進行編輯之前,首先需要對當(dāng)前錄音進行標(biāo)記,上述實施例一中步驟101的具體過程可見下圖6所示。圖6為本發(fā)明實施例一中的錄音標(biāo)記方法的流程示意圖。該錄音標(biāo)記方法包括以下步驟:
[0048]步驟201、采集當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù)。
[0049]用戶可以通過智能手機的用戶界面,開啟智能手機中下載的錄音APP的錄音功能,錄音APP開始對當(dāng)前錄音進行采集,在采集的過程中錄音APP可以對聲音進行預(yù)處理,例如,采集的數(shù)據(jù)進行分幀、加窗和濾波等。
[0050]進一步地,對采集的當(dāng)前錄音進行特征分析,進而得到當(dāng)前錄音的聲波特征參數(shù),其中,聲波特征參數(shù)包括:聲音的能量、共振峰、MFCC以及LPC。
[0051]步驟202、對所述聲紋參數(shù)進行聲紋聚類訓(xùn)練得到所述聲紋參數(shù)的目標(biāo)聲紋模板。
[0052]本實施例中,為了識別出錄音的模板,設(shè)置有聲紋聚類訓(xùn)練器,在獲取到聲紋特征參數(shù)后,通過該訓(xùn)練器對聲紋特征參數(shù)進行聲紋聚類訓(xùn)練,就可以得到該當(dāng)前錄音對應(yīng)的目標(biāo)聲紋模板。
[0053]步驟203、判斷所述目標(biāo)聲紋模板是否為聲紋數(shù)據(jù)庫中的聲紋模板
[0054]本實施例中,通過訓(xùn)練器對樣本聲音進行聲紋聚類訓(xùn)練,得到了樣本聲音對應(yīng)的樣本聲紋模板,使用樣本聲紋模板預(yù)先設(shè)置了一個聲紋數(shù)據(jù)庫存儲在錄音APP中。一般聲紋數(shù)據(jù)庫中存儲有多個樣本聲紋模板,以便于用戶在錄音過程中進行錄音標(biāo)記。在獲取到目標(biāo)聲紋模板后,錄音APP可以在聲紋數(shù)據(jù)庫中進行查找,判斷該目標(biāo)聲紋模板是否存在于該聲紋數(shù)據(jù)庫中。
[0055]如果判斷結(jié)果為是,執(zhí)行步驟204;否則執(zhí)行步驟205。
[0056]步驟204、從所述聲紋數(shù)據(jù)庫中獲取與所述目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息。
[0057]在聲紋數(shù)據(jù)庫中不僅保存有樣本聲紋模板,而且還存儲有與樣本聲紋模板對應(yīng)的標(biāo)記信息,一般每個樣本聲紋模板對應(yīng)有各自的標(biāo)記信息。當(dāng)在聲紋數(shù)據(jù)庫中獲取到與目標(biāo)聲紋模板對應(yīng)的樣本聲紋模板時,就可以獲取與該目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息。
[0058]步驟205、生成與所述目標(biāo)聲紋模板對應(yīng)的所述目標(biāo)標(biāo)記信息。
[0059]在識別出目標(biāo)聲紋模板并不存在與聲紋數(shù)據(jù)庫中之后,錄音APP可以為該目標(biāo)聲紋模板設(shè)置一個目標(biāo)標(biāo)記信息,以通過該目標(biāo)標(biāo)記信息對該目標(biāo)聲紋模板進行標(biāo)記。
[0060]步驟206、使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記。
[0061 ]在獲取到目標(biāo)標(biāo)記信息后,錄音APP自動使用該目標(biāo)標(biāo)記信息對當(dāng)前錄音進行標(biāo)記。
[0062]本實施例中涉及的錄音標(biāo)記方法,通過聲紋識別當(dāng)前錄音對應(yīng)的聲紋模板,利用建立的聲紋數(shù)據(jù)庫獲取與當(dāng)前錄音對應(yīng)的標(biāo)記信息,進而對當(dāng)前錄音進行標(biāo)記,實現(xiàn)了自動標(biāo)記錄音的功能,而且節(jié)省了用戶添加標(biāo)記的時間。
[0063]具體錄音標(biāo)記方法的應(yīng)用示例示意圖可參見本實施例一中圖2所示,此處不再贅述。
[0064]步驟207、建立所述目標(biāo)聲紋模板與所述目標(biāo)標(biāo)記信息之間映射關(guān)系并存儲在所述聲紋數(shù)據(jù)庫中。
[0065]步驟208、接收用戶通過終端發(fā)送的備注信息。
[0066]步驟209、使用所述備注信息對所述當(dāng)前錄音進行備注。
[0067]步驟210、將所述備注信息更新到所述聲紋數(shù)據(jù)中所述目標(biāo)標(biāo)記信息中。
[0068]接收用戶通過終端發(fā)送的備注信息,備注信息可以為當(dāng)前錄音的來源名稱,在終端獲取到備注信息后,指示錄音APP使用該備注信息對當(dāng)前錄音進行備注。例如,錄音APP可以為當(dāng)前錄音對應(yīng)的位置添加一個標(biāo)簽。進一步地,錄音APP還可以將獲取到的備注信息更新到聲紋數(shù)據(jù)中與當(dāng)前錄音對應(yīng)的目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息中,以便錄制的聲音為當(dāng)前錄音對應(yīng)的音源時可以再次被調(diào)用。
[0069]如圖7所示,其為本實施例的應(yīng)用示例示意圖,當(dāng)錄音APP對當(dāng)前錄音進行自動標(biāo)記后,用戶可以通過終端向錄音APP發(fā)送備注信息,用于給這段錄音中每位說話人添加備注信息。比如,用戶可以通過錄音APP將用左斜線標(biāo)記的說話人A備注為“張老師”。用戶可為新說話人添加的備注信息,并直接與該說話人的聲紋信息匹配,并作為這段錄音的名稱。
[0070]如圖8所示,其為本實施例的應(yīng)用示例示意圖,當(dāng)用戶新建一段錄音,如果其中包含已保存聲音名稱的說話人的錄音,在聲紋分析后,這位說話人的錄音段落會直接標(biāo)記為已保存的標(biāo)記信息。比如已經(jīng)保存了之前一段錄音的說話人A為“張老師”,新建一段包含這個說話人的錄音不會再顯示說話人A的標(biāo)記,而是顯示“張老師”。
[0071]如圖9所示,其為本實施例的應(yīng)用示例示意圖,錄音中包含用戶保存過的講話人對應(yīng)的標(biāo)記信息,按照所標(biāo)記的說話人,更快定位需要尋找的錄音。比如用戶想要尋找張老師的講課錄音,只要尋找“張老師”的標(biāo)簽即可。
[0072]在步驟201采集當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù)之前,還需要通過樣本聲音建立一個聲紋數(shù)據(jù)庫。
[0073]如圖10所示,其為本發(fā)明實施例一中的聲紋數(shù)據(jù)庫建立方法的流程示意圖,該聲紋數(shù)據(jù)庫建立方法包括:
[0074]步驟301、對樣本聲音進行分析,提取所述樣本聲音的所述聲紋特征參數(shù)。
[0075]本實施例中,將錄音APP在當(dāng)前錄音之前的每次錄制的聲音作為樣本聲音。在獲取到每次錄音后,錄音APP會對錄音的樣本聲音進行分析,提取出該樣本聲音的聲紋特征參數(shù),其中聲紋特征參數(shù)包括:聲音的能量、共振峰、MFCC以及LPC等。
[0076]步驟302、根據(jù)所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板。
[0077]為了對獲取到樣本聲紋的聲紋特征參數(shù)進行聲紋聚類訓(xùn)練,需要進一步確定該聲紋特征參數(shù)是否為同一個音源的聲音,具體地,預(yù)設(shè)時間段內(nèi)的所述樣本聲音的所述聲紋特征參數(shù),當(dāng)所述預(yù)設(shè)時間內(nèi)的所述樣本聲音的所述聲紋特征參數(shù)具有相似性時,對所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成所述樣本聲紋模板。如果確定出樣本聲紋的聲紋特征參數(shù)的不具有相似性,則需要將聲紋特征參數(shù)進行緩存,再判斷出該聲音特征參數(shù)具有相似性之后,對聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板。
[0078]比如,有一段錄音中有5個說話人,這5個說話人就可以做完樣本聲音,在通過聲紋聚類訓(xùn)練后,可以識別出這個5個說話人分別為說話人A、B、C、D、E,并5個說話人生成相應(yīng)的樣本聲紋模板。
[0079]步驟303、為所述樣本聲紋模板生成對應(yīng)的樣本標(biāo)記信息。
[0080]在生成樣本聲紋模板后,為樣本聲音生成對應(yīng)的樣本標(biāo)記信息,例如同一個說話人使用相同的標(biāo)記進行標(biāo)記。本實施例中,可以使用左斜線、右斜線、橫線、豎線以及網(wǎng)格進行標(biāo)記說話人A、B、C、D、E。
[0081]步驟304、使用所述樣本聲紋模板、所述樣本標(biāo)記信息以及所述樣本聲紋模板與所述樣本標(biāo)記信息之間的映射關(guān)系生成所述聲紋數(shù)據(jù)庫。
[0082]為了提高對錄音標(biāo)記的快捷性,本實施例中,使用樣本聲紋模板、所述樣本標(biāo)記信息以及所述樣本聲紋模板與所述樣本標(biāo)記信息之間的映射關(guān)系生成所述聲紋數(shù)據(jù)庫。每次對錄音進行聲紋聚類訓(xùn)練后生成的聲紋模板都會作為樣本聲紋模板保存到聲紋數(shù)據(jù)庫中,而且會將對該樣本聲紋模板的標(biāo)記信息以及兩者之間的映射關(guān)系也會保存到聲紋數(shù)據(jù)庫中,以對聲紋數(shù)據(jù)庫進行更新。這樣當(dāng)再次遇到同一說話人的錄音時,錄音APP通過聲紋分析,能夠很迅速地對該說話人的錄音進行標(biāo)記,提高了錄音標(biāo)記的便捷性。
[0083]實施例二
[0084]如圖11所示,其為本發(fā)明實施例二的錄音裝置的結(jié)構(gòu)示意圖。該裝置包括:標(biāo)記模塊11、獲取模塊12、選取模塊13和編輯模塊14。
[0085]其中,標(biāo)記模塊11,用于對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對當(dāng)前錄音進行標(biāo)記。
[0086]獲取模塊12,用于獲取對當(dāng)前錄音進行編輯的編輯指令,編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式。
[0087]選取模塊13,用于根據(jù)標(biāo)記信息從標(biāo)記后的當(dāng)前錄音中選取出待編輯片段。
[0088]編輯模塊14,用于按照編輯方式對待編輯片段進行編輯。
[0089]如圖12所示,為本實施例二中標(biāo)記模塊11的一種可選地結(jié)構(gòu)方式,包括:提取單元
111、訓(xùn)練單元112、判斷單元113、獲取單元114、標(biāo)記單元115、生成單元116、建立單元117和接收單元118。
[0090]其中,提取單元111,用于采集當(dāng)前錄音并從當(dāng)前錄音中提取聲紋特征參數(shù)。
[0091]訓(xùn)練單元112,用于對聲紋參數(shù)進行聲紋聚類訓(xùn)練得到聲紋參數(shù)的目標(biāo)聲紋模板。
[0092]判斷單元113,用于判斷目標(biāo)聲紋模板是否為聲紋數(shù)據(jù)庫中的聲紋模板。
[0093]獲取單元114,用于在判斷單元的判斷結(jié)果為是時,從聲紋數(shù)據(jù)庫中獲取與目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息。
[0094]標(biāo)記單元115,用于使用目標(biāo)標(biāo)記信息對當(dāng)前錄音進行標(biāo)記。
[0095]生成單元116,用于在判斷單元113的結(jié)果為否時,生成與目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息。
[0096]其中,建立單元116,用于在標(biāo)記單元115使用目標(biāo)標(biāo)記信息對當(dāng)前錄音進行標(biāo)記之后,建立目標(biāo)聲紋模板與目標(biāo)標(biāo)記信息之間映射關(guān)系并存儲在聲紋數(shù)據(jù)庫中。
[0097]進一步地,提取單元111,還用于在采集當(dāng)前錄音并從當(dāng)前錄音中提取聲紋特征參數(shù)之前,對樣本聲音進行分析提取樣本聲音的聲紋特征參數(shù)。
[0098]訓(xùn)練單元112,還用于根據(jù)樣本聲音的聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板。
[0099]生成單元116,還用于為樣本聲紋模板生成對應(yīng)的樣本標(biāo)記信息。
[0100]建立單元117,還用于使用樣本聲紋模板、樣本標(biāo)記信息以及樣本聲紋模板與樣本標(biāo)記信息之間的映射關(guān)系生成聲紋數(shù)據(jù)庫。
[0101]進一步地,訓(xùn)練單元112,具體用于獲取預(yù)設(shè)時間段內(nèi)的樣本聲音的聲紋特征參數(shù),在預(yù)設(shè)時間內(nèi)的樣本聲音的聲紋特征參數(shù)具有相似時,對樣本聲音的聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板。
[0102]其中,接收單元118,用于在標(biāo)記單元115使用目標(biāo)標(biāo)記信息對當(dāng)前錄音進行標(biāo)記之后,接收用戶通過終端發(fā)送的備注信息。
[0103]標(biāo)記單元115,還用于使用備注信息對當(dāng)前錄音進行備注。
[0104]建立單元117,還用于將備注信息更新到聲紋數(shù)據(jù)中目標(biāo)標(biāo)記信息中。
[0105]進一步地,獲取模塊12,具體用于檢測對當(dāng)前錄音的波形圖形所包含的至少一個待編輯片段對應(yīng)的標(biāo)記進行的第一點擊操作,并檢測對待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作以及根據(jù)檢測到的第一點擊操作和第二點擊操作生成編輯指令。
[0106]可選地,獲取模塊12,具體用于檢測從當(dāng)前錄音所包含的標(biāo)記列表中選取至少一個標(biāo)記進行的第一點擊操作;選取的標(biāo)記用于指示出待編輯片段,并檢測對待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作,以及根據(jù)檢測到的第一點擊操作和第二點擊操作生成編輯指令。
[0107]本實施例提供的錄音裝置的各功能模塊可用于執(zhí)行上述實施例中所示的錄音編輯方法的流程,其具體工作原理不再贅述,詳見方法實施例的描述。
[0108]本實施例提供的錄音裝置,通過對當(dāng)前錄音進行聲波分析,并根據(jù)聲波分析結(jié)果對當(dāng)前錄音進行標(biāo)記,接收對當(dāng)前錄音進行編輯的編輯指令,編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式,根據(jù)標(biāo)記信息從標(biāo)記后的當(dāng)前錄音中獲取待編輯片段,按照編輯方式對待編輯片段進行編輯。本實施例通過聲紋識別對當(dāng)前錄音進行標(biāo)記,在標(biāo)記完成后基于標(biāo)記用戶對當(dāng)前錄音進行編輯,從而能夠快捷地定位到待編輯片段,節(jié)省了編輯時間,提升了用戶感受。
[0109]本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述各方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成。前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中。該程序在執(zhí)行時,執(zhí)行包括上述各方法實施例的步驟;而前述的存儲介質(zhì)包括:R0M、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0110]最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。
【主權(quán)項】
1.一種錄音編輯方法,其特征在于,包括: 對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記; 獲取對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式; 根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中選取出所述待編輯片段; 按照所述編輯方式對所述待編輯片段進行編輯。2.根據(jù)權(quán)利要求1所述的錄音編輯方法,其特征在于,所述對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記,包括: 采集所述當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù); 對所述聲紋參數(shù)進行聲紋聚類訓(xùn)練得到所述聲紋參數(shù)的目標(biāo)聲紋模板; 判斷所述目標(biāo)聲紋模板是否為聲紋數(shù)據(jù)庫中的聲紋模板; 如果判斷結(jié)果為是,從所述聲紋數(shù)據(jù)庫中獲取與所述目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息; 使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記。3.根據(jù)權(quán)利要求2所述的錄音編輯方法,其特征在于,所述使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記之前,還包括: 如果判斷結(jié)果為否,生成與所述目標(biāo)聲紋模板對應(yīng)的所述目標(biāo)標(biāo)記信息。4.根據(jù)權(quán)利要求3所述的錄音編輯方法,其特征在于,所述使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記之后,還包括: 建立所述目標(biāo)聲紋模板與所述目標(biāo)標(biāo)記信息之間映射關(guān)系并存儲在所述聲紋數(shù)據(jù)庫中。5.根據(jù)權(quán)利要求1-4任一項所述的錄音編輯方法,其特征在于,所述采集當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù)之前,包括: 對樣本聲音進行分析,提取所述樣本聲音的所述聲紋特征參數(shù); 根據(jù)所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板; 為所述樣本聲紋模板生成對應(yīng)的樣本標(biāo)記信息; 使用所述樣本聲紋模板、所述樣本標(biāo)記信息以及所述樣本聲紋模板與所述樣本標(biāo)記信息之間的映射關(guān)系生成所述聲紋數(shù)據(jù)庫。6.根據(jù)權(quán)利要求5所述的錄音編輯方法,其特征在于,所述根據(jù)所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板包括: 獲取預(yù)設(shè)時間段內(nèi)的所述樣本聲音的所述聲紋特征參數(shù); 在所述預(yù)設(shè)時間內(nèi)的所述樣本聲音的所述聲紋特征參數(shù)具有相似性時,對所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成所述樣本聲紋模板。7.根據(jù)權(quán)利要求1-4任一項所述的錄音編輯方法,其特征在于,所述使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記之后,還包括: 接收用戶通過終端發(fā)送的備注信息; 使用所述備注信息對所述當(dāng)前錄音進行備注; 將所述備注信息更新到所述聲紋數(shù)據(jù)中所述目標(biāo)標(biāo)記信息中。8.根據(jù)權(quán)利要求1-4任一項所述的錄音編輯方法,其特征在于,所述獲取對所述當(dāng)前錄音進行編輯的編輯指令,包括: 檢測對所述當(dāng)前錄音的波形圖形所包含的至少一個所述待編輯片段對應(yīng)的標(biāo)記進行的第一點擊操作; 檢測對所述待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作; 根據(jù)檢測到的所述第一點擊操作和所述第二點擊操作生成所述編輯指令。9.根據(jù)權(quán)利要求1-4任一項所述的錄音編輯方法,其特征在于,所述獲取對所述當(dāng)前錄音進行編輯的編輯指令,包括: 檢測從所述當(dāng)前錄音所包含的標(biāo)記列表中選取至少一個標(biāo)記進行的第一點擊操作;所述選取的標(biāo)記用于指示出所述待編輯片段; 檢測所述待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作; 根據(jù)檢測到的所述第一點擊操作和所述第二點擊操作生成所述編輯指令。10.一種錄音裝置,其特征在于,包括: 標(biāo)記模塊,用于對當(dāng)前錄音進行聲波分析并根據(jù)聲波分析結(jié)果對所述當(dāng)前錄音進行標(biāo)記; 獲取模塊,用于獲取對所述當(dāng)前錄音進行編輯的編輯指令,所述編輯指令中攜帶待編輯片段的標(biāo)記信息以及編輯方式; 選取模塊,用于根據(jù)所述標(biāo)記信息從標(biāo)記后的所述當(dāng)前錄音中選取出所述待編輯片段; 編輯模塊,用于按照所述編輯方式對所述待編輯片段進行編輯。11.根據(jù)權(quán)利要求10所述的錄音裝置,其特征在于,所述標(biāo)記模塊包括: 提取單元,用于采集所述當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù); 訓(xùn)練單元,用于對所述聲紋參數(shù)進行聲紋聚類訓(xùn)練得到所述聲紋參數(shù)的目標(biāo)聲紋模板; 判斷單元,用于判斷所述目標(biāo)聲紋模板是否為聲紋數(shù)據(jù)庫中的聲紋模板; 獲取單元,用于在所述判斷單元的判斷結(jié)果為是時,從所述聲紋數(shù)據(jù)庫中獲取與所述目標(biāo)聲紋模板對應(yīng)的目標(biāo)標(biāo)記信息; 標(biāo)記單元,用于使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記。12.根據(jù)權(quán)利要求11所述的錄音裝置,其特征在于,所述標(biāo)記模塊,還包括: 生成單元,用于在所述判斷單元的結(jié)果為否時,生成與所述目標(biāo)聲紋模板對應(yīng)的所述目標(biāo)標(biāo)記信息。13.根據(jù)權(quán)利要求12所述的錄音裝置,其特征在于,所述標(biāo)記模塊,還包括: 建立單元,用于在所述標(biāo)記單元使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記之后,建立所述目標(biāo)聲紋模板與所述目標(biāo)標(biāo)記信息之間映射關(guān)系并存儲在所述聲紋數(shù)據(jù)庫中。14.根據(jù)權(quán)利要求10-13任一項所述的錄音裝置,其特征在于,所述提取單元,還用于在采集當(dāng)前錄音并從所述當(dāng)前錄音中提取聲紋特征參數(shù)之前,對樣本聲音進行分析提取所述樣本聲音的所述聲紋特征參數(shù); 所述訓(xùn)練單元,還用于根據(jù)所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成樣本聲紋模板; 所述生成單元,還用于為所述樣本聲紋模板生成對應(yīng)的樣本標(biāo)記信息; 所述建立單元,還用于使用所述樣本聲紋模板、所述樣本標(biāo)記信息以及所述樣本聲紋模板與所述樣本標(biāo)記信息之間的映射關(guān)系生成所述聲紋數(shù)據(jù)庫。15.根據(jù)權(quán)利要求14所述的錄音裝置,其特征在于,所述訓(xùn)練單元,具體用于獲取預(yù)設(shè)時間段內(nèi)的所述樣本聲音的所述聲紋特征參數(shù),在所述預(yù)設(shè)時間內(nèi)的所述樣本聲音的所述聲紋特征參數(shù)具有相似時,對所述樣本聲音的所述聲紋特征參數(shù)進行聲紋聚類訓(xùn)練生成所述樣本聲紋模板。16.根據(jù)權(quán)利要求13所述的錄音裝置,其特征在于,所述標(biāo)記模塊,還包括: 接收單元,用于在所述標(biāo)記模塊使用所述目標(biāo)標(biāo)記信息對所述當(dāng)前錄音進行標(biāo)記之后,接收用戶通過終端發(fā)送的備注信息; 所述標(biāo)記單元,還用于使用所述備注信息對所述當(dāng)前錄音進行備注; 所述建立單元,還用于并將所述備注信息更新到所述聲紋數(shù)據(jù)中所述目標(biāo)標(biāo)記信息中。17.根據(jù)權(quán)利要求10-13任一項所述的錄音裝置,其特征在于,所述獲取模塊,具體用于檢測對所述當(dāng)前錄音的波形圖形所包含的至少一個所述待編輯片段對應(yīng)的標(biāo)記進行的第一點擊操作,并檢測對所述待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作以及根據(jù)檢測到的所述第一點擊操作和所述第二點擊操作生成所述編輯指令。18.根據(jù)權(quán)利要求10-13任一項所述的錄音編輯方法,其特征在于,所述獲取模塊,具體用于檢測從所述當(dāng)前錄音所包含的標(biāo)記列表中選取至少一個標(biāo)記進行的第一點擊操作;所述選取的標(biāo)記用于指示出所述待編輯片段,并檢測對所述待編輯片段所采用的目標(biāo)編輯方式進行的第二點擊操作,以及根據(jù)檢測到的所述第一點擊操作和所述第二點擊操作生成所述編輯指令。
【文檔編號】G10L15/30GK105895102SQ201510786352
【公開日】2016年8月24日
【申請日】2015年11月15日
【發(fā)明人】蔡竹沁, 齊峰巖, 牛磊, 關(guān)彬
【申請人】樂視移動智能信息技術(shù)(北京)有限公司