基于聲紋信息對音頻/視頻文件進行操作的方法及裝置的制作方法

文檔序號：6383310閱讀：162來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于聲紋信息對音頻/視頻文件進行操作的方法及裝置的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及移動設(shè)備通信應(yīng)用領(lǐng)域，尤其涉及根據(jù)特定聯(lián)系人聲紋對終端設(shè)備音視頻操作的方法及裝置。
背景技術(shù)：
現(xiàn)有終端設(shè)備上的錄音器或攝像器可以方便用戶錄制和拍攝音頻和視頻文件。隨著終端設(shè)備的性能提高，存儲容量增大，多媒體應(yīng)用程序的種類增多等條件，用戶很容易錄制或拍攝大量的音頻/視頻文件。然而，面對著大量音頻/視頻文件，當(dāng)用戶需要查找所有錄制有某個特定聯(lián)系人的音頻/視頻文件，或查找和播放某個特定聯(lián)系人在某個音頻/視頻文件中的某一段特定信息時，由于無法快速定位，會遇到無從查找的情況。只有一個一個文件的播放查看，才能得到所需文件或片段。有鑒于此，需要提供一種快速查找和分類目標(biāo)音頻/視頻文件，并定位特定聯(lián)系人在該文件中出現(xiàn)時間點的方法和終端設(shè)備，以方便用戶查找錄制有特定人員聲音和視頻的文件。

發(fā)明內(nèi)容
為了解決上述技術(shù)問題，實現(xiàn)用戶快速查找錄制有特定人員聲音或視頻的文件。本發(fā)明的目的之一在于提供一種基于聲紋信息對音/視頻文件進行操作的方法，包括如下步驟采集發(fā)聲目標(biāo)的聲紋信息；以及根據(jù)所述聲紋信息搜索音/視頻文件。本發(fā)明的另一目的在于提供一種終端設(shè)備，包括聲紋提取模塊，用于采集發(fā)聲目標(biāo)的聲紋信息；以及執(zhí)行模塊，用于根據(jù)所述聲紋信息搜索音/視頻文件。本發(fā)明提供的方法和裝置，能夠快速查找錄制有特定人員聲音或視頻的文件，以提高用戶的搜索效率。本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出，這些將從下面的描述中變得明顯，或通過本發(fā)明的實踐了解到。

本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施方法的描述中將變得明顯和容易理解，其中圖1示出了根據(jù)本發(fā)明一實施例的流程示意圖；圖2示出了根據(jù)本發(fā)明的一實施例的終端設(shè)備進行音頻采集之前的界面示意圖；圖3示出了根據(jù)本發(fā)明實施例的音頻采集的流程圖；圖4示出了根據(jù)本發(fā)明的一實施例的終端設(shè)備進行音頻采集時的界面示意圖；圖5示出了搜索出錄制的視頻和音頻文件后終端設(shè)備顯示出在文件中標(biāo)注有發(fā)聲目標(biāo)的聲紋信息出現(xiàn)和/或結(jié)束的時間點的界面示意圖；圖6示出了根據(jù)本發(fā)明的一實施例的通過終端設(shè)備查看聯(lián)系人媒體庫的流程圖7示出了根據(jù)本發(fā)明實施例的錄制聯(lián)系人聲音的流程圖；圖8示出了根據(jù)本發(fā)明一實施例的整體結(jié)構(gòu)示意圖；圖9示出了根據(jù)本發(fā)明一實施例的結(jié)構(gòu)示意圖。具體實施方法現(xiàn)在參照附圖來具體描述本發(fā)明的示例性實施方法。然而，本發(fā)明可以用許多不同形式來實施并且不應(yīng)該認(rèn)為局限于這里闡述的具體實施方法；相反，提供這些實施方法是為了使本發(fā)明的公開徹底和完整，并向本領(lǐng)域技術(shù)人員完整地傳達本發(fā)明的思想、觀念、目的、構(gòu)思、參考方案和保護范圍。附圖中示例的具體示例性實施方法的詳細(xì)描述中使用的術(shù)語并不是為了限制本發(fā)明。附圖中，相同標(biāo)號指代相同要素。本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非特意聲明，這里使用的單數(shù)形式“一”、“一個”、“所述”和“該”也可包括復(fù)數(shù)形式。應(yīng)該進一步理解的是，本發(fā)明的說明書中使用的措辭“包括”是指存在所述特征、整數(shù)、步驟、操作、元件和/或組件，但是并不排除存在或添加一個或多個其他特征、整數(shù)、步驟、操作、元件、組件和/或它們的組。應(yīng)該理解，當(dāng)我們稱元件被“連接”或“耦接”到另一元件時，它可以直接連接或耦接到其他元件，或者也可以存在中間元件。此外，這里使用的“連接”或“耦接”可以包括無線連接或耦接。這里使用的措辭“和/或”包括一個或更多個相關(guān)聯(lián)的列出項的任一單元和全部組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解，除非另外定義，這里使用的所有術(shù)語(包括技術(shù)術(shù)語和科學(xué)術(shù)語)具有與本發(fā)明所屬領(lǐng)域中的普通技術(shù)人員的一般理解相同的意義。還應(yīng)該理解的是，諸如通用字典中定義的那些術(shù)語應(yīng)該被理解為具有與現(xiàn)有技術(shù)的上下文中的意義一致的意義，并且除非像這里一樣定義，不會用理想化或過于正式的含義來解釋。如圖1所示，本發(fā)明提供了一種基于聲紋信息對音/視頻文件進行操作的方法，包括如下步驟S1、采集發(fā)聲目標(biāo)的聲紋信息；以及S2、根據(jù)聲紋信息搜索音/視頻文件。例如，步驟SI通過如下方法實現(xiàn)當(dāng)聯(lián)系人Xl給用戶Y打電話時，終端設(shè)備開啟內(nèi)置錄音器錄制一段聯(lián)系人Xl單獨講話的語音(例如，錄制的該講話語音，時間長度7-10秒)，并從中提取聲紋信息；接著，停止通話后，終端設(shè)備根據(jù)錄制的聲紋信息生成說話人模型Ml后，將該樣本存入媒體庫中；接著，終端設(shè)備將說話人模型對應(yīng)通訊錄中聯(lián)系人X的名錄。例如，步驟SI還通過如下方法實現(xiàn)當(dāng)用戶Y帶兒子X2去公園游玩時，終端設(shè)備在通訊錄中兒子X2的記錄中開啟“錄制聲紋樣本”選項并錄制兒子X2的聲紋信息；接著，停止錄制后，終端設(shè)備根據(jù)錄制的聲紋信息生成說話人模型M2后，該樣本存入終端存儲器中；接著，終端設(shè)備將說話人模型對應(yīng)媒體庫中聯(lián)系人X2的文件。當(dāng)然，可以理解是，媒體庫是存儲多媒體文件集合的一種表述，也可以表述為文件夾、文件管理器、媒體管理器、視頻管理器、音頻管理器等等。如圖5所示，當(dāng)以后再遇到包括有說話人模型Ml和M2的聲紋信息，終端設(shè)備將這些視頻和音頻文件根據(jù)特定對象(例如，“我”和“兒子”)進行分類并標(biāo)記。在分類存儲之后，可以生成相應(yīng)分類的主題欄、文件夾、媒體庫等信息。步驟SI還可以通過如下步驟實現(xiàn)步驟S11、當(dāng)選中通訊錄應(yīng)用程序中的一個發(fā)聲目標(biāo)(例如，張三)時，顯示屏上提供錄制聲紋樣本選項；步驟S12、當(dāng)用戶點擊錄制聲紋樣本選項后，終端設(shè)備采集聲紋信息，并將根據(jù)聲紋信息生成的說話人模型存儲在聯(lián)系人媒體庫中；以及步驟S13、當(dāng)進入聯(lián)系人媒體庫頁面后，顯示屏呈現(xiàn)出搜索到的音/視頻文件。因此，采集發(fā)聲目標(biāo)的聲紋信息包括當(dāng)選中某個發(fā)聲目標(biāo)時，采集聲紋信息；以及存儲采集的聲紋信息。圖2示出了根據(jù)本發(fā)明的一實施例的終端設(shè)備進行音頻采集之前的界面示意圖。圖3示出了根據(jù)本發(fā)明實施例的音頻采集的流程圖。音頻采集流程包括如下步驟步驟101 :進入通訊錄，打開電話簿上特定聯(lián)系人。接著，步驟102 :按“錄制聲紋樣本”選項(如圖2所示)，錄制聯(lián)系人聲音(S卩，采集聯(lián)系人的聲紋信息)。接著，步驟103 :錄制完成后，對聯(lián)系人的聲音進行建模，以生成說話人模型，并將說話人模型保存到聯(lián)系人信息中。因此，采集和存儲聲紋信息包括根據(jù)聲紋信息生成說話人模型；以及將說話人模型存儲在本地存儲模塊中。圖4示出了根據(jù)本發(fā)明一實施方式的建模過程。利用聲紋信息識別說話人身份的技術(shù)可以稱為說話人識別(Speaker Recognition, SR)，相應(yīng)的模型可以稱為說話人模型(Speaker Model，SM)。說話人識別系統(tǒng)通常采用UBM-GMM的方法進行建模，即通過大量訓(xùn)練音頻(不止一位說話人)訓(xùn)練一個通用背景模型(Universal Background Model,UBM),然后在此UBM的基礎(chǔ)上通過自適應(yīng)的方法對特定的說話人進行建模，得到說話人模型(SM)。無論是通用背景模型還是說話人模型，通常都采用混合高斯模型(Gaussian Mixture Model,GMM)結(jié)構(gòu)。圖4示出了根據(jù)本發(fā)明的一實施例的終端設(shè)備進行音頻采集時的界面示意圖。例如，在終端設(shè)備錄制聲紋樣本時通訊錄聯(lián)系人界面(如圖4所示)下，點擊添加錄制聲紋樣本按鈕就可以錄制聯(lián)系人聲音。進一步地，如圖3所示，聲紋識別流程包括如下步驟步驟104 :確定音/視頻文件。接著，步驟105 :對音/視頻文件中的語音進行說話人分割，并生成η個語音單元，每個語音單元只包含單一的說話人語音。接著，步驟106 :對分割出的每個語音單元(例如，η個語音單元)進行聯(lián)系人聲紋識別并判斷是否匹配。接著，步驟107 :如果識別結(jié)果是匹配的，則為終端設(shè)備建立一個聯(lián)系人和本音/視頻文件之間對應(yīng)關(guān)系的數(shù)據(jù)庫。進一步地，對應(yīng)關(guān)系的數(shù)據(jù)庫可以記錄出現(xiàn)聯(lián)系人聲音的音/視頻文件。進一步地，對應(yīng)關(guān)系的數(shù)據(jù)庫還可以記錄聯(lián)系人聲音出現(xiàn)在音/視頻文件中的時間點。也就是說，通過時間點映射音/視頻出現(xiàn)在相應(yīng)文件中的位置。圖6示出了根據(jù)本發(fā)明的一實施例的通過終端設(shè)備查看聯(lián)系人媒體庫的流程圖。通過終端設(shè)備查看聯(lián)系人媒體庫的流程可以包括如下步驟步驟201 :打開媒體庫，選擇進入“聯(lián)系人媒體庫”菜單。接著，步驟202:開始讀取聯(lián)系人和音/視頻文件關(guān)系數(shù)據(jù)庫。接著，步驟203 :讀取完成后顯示聯(lián)系人及其對應(yīng)媒體文件及時間點203。圖5示出了搜索出錄制的視頻和音頻文件后終端設(shè)備顯示出在文件中標(biāo)注有發(fā)聲目標(biāo)的聲紋信息出現(xiàn)和/或結(jié)束的時間點的界面示意圖。例如，打開媒體庫，選擇進入“聯(lián)系人媒體庫”菜單，這時查看聯(lián)系人媒體庫的界面呈現(xiàn)給用戶。界面上提供了經(jīng)讀取聯(lián)系人和音/視頻文件關(guān)系數(shù)據(jù)庫后的各項信息。因此，根據(jù)聲紋信息搜索音/視頻文件包括當(dāng)打開本地存儲模塊時，顯示音/視頻文件。進一步地，從圖5所示的界面中可以看出，該實施方式的媒體庫中有“兒子”和“我”兩類媒體文件，其中“兒子”文件的“六一兒童節(jié)”項目里有三個時間點，即3’ 45”、18’ 23”、45’ 34”。這三個時間點就是“六一兒童節(jié)”項目里出現(xiàn)“兒子”聲音的時間點。例如，用戶可以選擇“3’ 45””，這時終端設(shè)備可以自動進去到“六一兒童節(jié)”項目中3分鐘45秒時開始播放。因此，存儲采集的聲紋信息包括根據(jù)說話人模型進行分類存儲。進一步地，根據(jù)聲紋信息搜索音/視頻文件包括當(dāng)打開本地存儲模塊時，顯示音/視頻文件。進一步地，所述分類包括根據(jù)說話人模型對音/視頻文件進行分類顯示。進一步地，所述顯示包括顯示發(fā)聲目標(biāo)出現(xiàn)在音/視頻文件中的時間點。進一步地，所述分類包括根據(jù)發(fā)聲目標(biāo)的種類對音/視頻文件進行分類搜索。進一步地，所述時間點包括當(dāng)選中分類顯示中的時間點時，播放音/視頻文件中含有的發(fā)聲目標(biāo)的音頻/視頻。如圖1-6所示，根據(jù)本發(fā)明的另一實施方式，當(dāng)終端設(shè)備對音/視頻文件根據(jù)特定聯(lián)系人進行分類時，首先需要在通訊錄模塊中針對其重點聯(lián)系人進行聲紋的建模和存儲。本發(fā)明在終端設(shè)備通訊錄模塊中，為每個聯(lián)系人記錄增加一個“聲紋樣本”字段，用于存儲聯(lián)系人的聲紋樣。具體操作方法為用戶新建或編輯其關(guān)注的重要聯(lián)系人(例如“孩子”)。隨后，錄制一段該特定聯(lián)系人(“孩子”)的音頻(例如，錄制正常講話，時間長度7-10秒)。終端設(shè)備根據(jù)聲音樣本對該特定聯(lián)系人(“孩子”)聲紋進行建模，并保存到通訊錄該聯(lián)系人記錄(“孩子”)的聲紋樣本字段中。接著，用戶錄制并保存在終端設(shè)備上的音/視頻文件。本發(fā)明可以進行重要聯(lián)系人聲紋分析并根據(jù)聯(lián)系人進行分類，標(biāo)記聯(lián)系人聲音發(fā)生時間點的對象。接著，利用說話人分割技術(shù)將音/視頻文件中的所有被錄制的說話人的聲音提取并分割為多個語音單元，每個語音單元只包含其中一個說話人的語音。接著，利用說話人模型對每個語音單元進行聲紋識別。接著，對聲紋識別后存放聯(lián)系人和音/視頻關(guān)系的數(shù)據(jù)庫，用于記錄聯(lián)系人和音/視頻文件的對應(yīng)關(guān)系，及聯(lián)系人聲音在本音/視頻文件中出現(xiàn)的時間點。本發(fā)明提到的聲紋是指用戶聲音的聲波頻譜即該用戶聲音的生物特征。通過聲紋比較，移動終端可以找出存儲的多媒體中的相應(yīng)目標(biāo)。因此，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，采集發(fā)聲目標(biāo)的聲紋信息的方法包括當(dāng)與該聯(lián)系人進行通話時，記錄聯(lián)系人的一段聲音，該段聲音時間長度7-10秒及以上且該段聲音中只有該聯(lián)系人的聲音。使用該段聲音提取聲紋信息并生成聲紋模板。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，采集發(fā)聲目標(biāo)的聲紋信息包括當(dāng)與該聯(lián)系人進行通話時，記錄聯(lián)系人的聲紋信息。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，采集發(fā)聲目標(biāo)的聲紋信息包括用戶手動錄制該聯(lián)系人語音，記錄聯(lián)系人的聲紋信息。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，搜索音/視頻文件包括當(dāng)選中該聯(lián)系人時，播放映射聯(lián)系人的音/視頻。圖7示出了根據(jù)本發(fā)明實施例的錄制聯(lián)系人聲音的流程圖。錄制聯(lián)系人聲音的流程包括步驟301 :打開通訊錄上某個聯(lián)系人。接著，步驟302 :判斷是否是第一次錄制。當(dāng)判斷結(jié)果是第一次錄制時，進入步驟303 :開始錄制。接著,步驟304 :錄制完成后保存本音頻。接著，步驟305 :對該音頻進行聲紋建模。接著，步驟306 :保存聲紋建模信息。接著，步驟307 :用本聲紋信息識別現(xiàn)有音/視頻文件。接著，步驟308 :將識別出的文件及時間點保存到聯(lián)系人和音/視頻關(guān)系數(shù)據(jù)庫中。最后，步驟309 :聲紋錄制工作結(jié)束。當(dāng)判斷結(jié)果不是第一次錄制時，則進入步驟310 :進一步判斷提示是否重新錄制。如果需要重新錄制，則進入步驟311 :刪除原來錄音文件。刪除原來錄音文件后，則進入步驟303。隨后依次執(zhí)行上述步驟303至309。如果不需要重新錄制，則不錄制，過程結(jié)束(309)。
根據(jù)本發(fā)明的另一實施方式，一種基于聲紋識別技術(shù)對終端設(shè)備上視頻和音頻進行分類和標(biāo)識的方法，包括如下步驟之一錄制聯(lián)系人聲音以提前聲紋信息。接著，將音/視頻文件進行說話人分割，分割為多個語音單元，且每個語音單元只含有一個說話人的語音，對這些語音單元逐個進行聲紋識別。接著，將識別結(jié)果保存到聯(lián)系人和音/視頻關(guān)系數(shù)據(jù)庫中。當(dāng)進入聯(lián)系人媒體庫時，或者當(dāng)用戶在終端設(shè)備任意媒體庫或文件管理器中進行“根據(jù)聯(lián)系人分類”或“根據(jù)聯(lián)系人查找”操作時，或者在聯(lián)系人應(yīng)用程序中直接查看該聯(lián)系人相關(guān)音視頻時，讀取聯(lián)系人和音/視頻的關(guān)系數(shù)據(jù)庫并將他們的關(guān)系顯示出來。本發(fā)明不僅可以以在媒體庫中以某一菜單項的方式顯示聯(lián)系人和音/視頻的關(guān)系，也可以在聯(lián)系人或文件管理器中以菜單形式顯示。進一步地，根據(jù)本發(fā)明的另一實施方式，在終端設(shè)備媒體庫、聯(lián)系人管理器、文件管理器等應(yīng)用程序中，選擇“根據(jù)聯(lián)系人分類”或“根據(jù)聯(lián)系人查找”來進行音頻、視頻的分類顯示和查找。進一步地，根據(jù)本發(fā)明的另一實施方式，可以在聯(lián)系人應(yīng)用程序中直接查看該聯(lián)系人相關(guān)的音/視頻。因此，本發(fā)明提供的基于聲紋信息對音/視頻文件進行操作的方法能夠根據(jù)特定聯(lián)系人的聲紋信息對音/視頻文件進行分類。因此，當(dāng)用戶想找到包含有特定聯(lián)系人的音/視頻文件，不必一個一個文件的播放查看，而是直接通過媒體庫、聯(lián)系人管理器、文件管理器顯示信息進行選擇，從而方便用戶查找含有特定人員聲音或視頻的文件。進一步地，本發(fā)明提供的基于聲紋信息對音/視頻文件進行操作的方法可以直接跳轉(zhuǎn)到音/視頻中某個聯(lián)系人說話的時間節(jié)點進行播放，從而提供用戶的搜索效率。如圖8所示，本發(fā)明的整體方案利用聲紋信息識別說話人身份的技術(shù)可以稱為說話人識別(Speaker Recognition, SR),相應(yīng)的模型可以稱為說話人模型(Speaker Model,SM)。說話人識別系統(tǒng)通常采用UBM-GMM的方法進行建模，即通過大量訓(xùn)練音頻(不止一位說話人)訓(xùn)練一個通用背景模型(Universal Background Model, UBM)，然后在此UBM的基礎(chǔ)上通過自適應(yīng)的方法對特定的說話人進行建模，得到說話人模型(SM)。無論是通用背景模型還是說話人模型，通常都采用混合高斯模型(Gaussian Mixture Model,GMM)結(jié)構(gòu)。如圖8所示，本發(fā)明提供的基于聲紋信息對音/視頻文件進行操作的方法可以包括建模過程，識別過程。建模過程可以包括以下步驟步驟1:訓(xùn)練音頻；步驟2 :靜音檢測；步驟3 語音分割；步驟4 :特征提??；步驟5 :根據(jù)通用背景模型進行交叉自適應(yīng)；步驟6 :生成說話人模型；步驟7 :基于假冒者音頻進行Z-norm處理；步驟8 :歸一化說話人模型。識別過程可以包括以下步驟步驟1:檢測待識別音頻；步驟2 :靜音檢測；步驟3 :語音分割；步驟4 :特征提?。徊襟E5 :根據(jù)歸一化說話人模型進行得分計算；步驟6 :基于假冒者音頻進行T-norm處理；步驟7 :判決；步驟8 :輸出識別結(jié)果。其中歸一化說話人模型和假冒者模型組成說話人模型。根據(jù)本發(fā)明的一實施方式，說話人模型的建模過程可以大致描述為以下幾個階段1、特征提取階段利用靜音檢測技術(shù)(Voice Activity Detection,VAD),將有效的語音從輸入音頻中檢測出來，并根據(jù)語音間的靜音長度將輸入音頻分割成若干句語音，然后從分割出來的每一句語音提取說話人識別所需要的語音特征；2、UBM建模階段利用從訓(xùn)練音頻提取的大量語音特征，計算通用背景模型(UBM) ;3、SM建模階段利用通用背景模型和少量特定說話人的語音特征，通過自適應(yīng)方法計算該說話人的模型(SM) ;4、SM歸一化階段為了增強說話人模型的抗干擾能力，完成說話人模型建模以后，經(jīng)常利用一些假冒說話人的語音特征對說話人模型進行歸一化(Normalization)操作，最終得到歸一化后的說話人模型(Normalized SM)。根據(jù)本發(fā)明的一實施方式，說話人識別的識別過程可以大致描述為以下幾個階段1、特征提取階段此階段與建模過程的特征提取階段相同；2、得分計算階段利用說話人模型，計算輸入語音特征的得分；3、得分歸一化階段利用歸一化的說話人模型，對上一步得到的得分進行歸一化，并做出最終判決。進一步而言，在上文所描述的建模和識別過程中，部分步驟可以有不同的實現(xiàn)方法1、特征提取階段的靜音檢測技術(shù)本申請采用的方法是首先利用輸入音頻的能量信息和基頻信息，將靜音與非靜音區(qū)分出來，再利用一個支持向量機(Support Vector Machine, SVM)模型將非靜音部分的語音和非語音區(qū)分出來。確定了語音的部分，就可以根據(jù)語音段之間的間隔長度，將輸入音頻分成若干句語音；2、利用通用背景模型計算說話人模型的自適應(yīng)方法本申請采用的是本征音(Eigenvoice)方法,約束最大似然線性回歸(Constrained Maximum Likelihood LinearRegression, CMLLR)方法以及結(jié)構(gòu)化最大后驗概率(Structured Maximum A Posterior,SMAP)方法相結(jié)合的方法；3、說話人模型歸一化方法本申請采用的是Z-Norm方法；4、得分歸一化方法本申請采用的是T-Norm方法。Z-Norm和T-Norm方法相結(jié)合的歸一化方法是目前在說話人識別技術(shù)中最流行的歸一化方法，前者用于建模階段，后者用于識別階段。如圖9所示，本發(fā)明的另一目的在于提供一種終端設(shè)備，包括聲紋提取模塊，用于采集發(fā)聲目標(biāo)的聲紋信息；以及執(zhí)行模塊，用于根據(jù)聲紋信息搜索音/視頻文件。進一步地，聲紋提取模塊包括聲紋信息采集單元，用于在選中某個發(fā)聲目標(biāo)時采集聲紋信息；聲紋樣本生成單元，用于根據(jù)聲紋信息生成說話人模型。進一步地，裝置還包括存儲模塊，用于存儲采集的聲紋信息。進一步地，存儲模塊還用于存儲聲紋模板樣。進一步地，聲紋提取模塊包括目標(biāo)分類單元，根據(jù)說話人模型進行分類存儲。進一步地，裝置還包括顯示器，當(dāng)打開本地存儲模塊時，顯示音/視頻文件。進一步地，顯示器用于根據(jù)目標(biāo)分類單元基于發(fā)聲目標(biāo)的種類對音/視頻文件進行分類顯示。進一步地，顯示器用于顯示發(fā)聲目標(biāo)出現(xiàn)在音/視頻文件中的時間點。進一步地，目標(biāo)分類單元還用于根據(jù)發(fā)聲目標(biāo)的種類對音/視頻文件進行分類搜索。進一步地，執(zhí)行模塊還用于當(dāng)選中分類顯示中的時間點時，播放音/視頻文件中含有的發(fā)聲目標(biāo)的音頻/視頻。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，聲紋提取模塊用于當(dāng)與該聯(lián)系人進行通話時，記錄聯(lián)系人的聲紋信息。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，聲紋提取模塊用于用戶手動錄制該聯(lián)系人語音，記錄聯(lián)系人的聲紋信息。進一步地，當(dāng)發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，執(zhí)行模塊還用于當(dāng)選中該聯(lián)系人時，播放映射聯(lián)系人的音/視頻。本發(fā)明提供的方法和裝置，能夠快速查找錄制有特定人員聲音或視頻的文件，以提高用戶的搜索效率。本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明可以涉及用于執(zhí)行本申請中所述操作中的一項或多項操作的設(shè)備。所述設(shè)備可以為所需的目的而專門設(shè)計和制造，或者也可以包括通用計算機中的已知設(shè)備，所述通用計算機有存儲在其內(nèi)的程序選擇性地激活或重構(gòu)。這樣的計算機程序可以被存儲在設(shè)備(例如，計算機)可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中，所述計算機可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、CD-ROM、和磁光盤)、隨即存儲器(RAM)、只讀存儲器(ROM)、電可編程ROM、電可擦ROM (EPR0M)、電可擦除可編程ROM (EEPR0M)、閃存、磁性卡片或光線卡片?？勺x介質(zhì)包括用于以由設(shè)備(例如，計算機)可讀的形式存儲或傳輸信息的任何機構(gòu)。例如，可讀介質(zhì)包括隨即存儲器(RAM)、只讀存儲器(ROM)、磁盤存儲介質(zhì)、光學(xué)存儲介質(zhì)、閃存裝置、以電的、光的、聲的或其他的形式傳播的信號(例如載波、紅外信號、數(shù)字信號)等。本技術(shù)領(lǐng)域技術(shù)人員可以理解，上面參照根據(jù)本發(fā)明的實施方法的方法、方法、系統(tǒng)以及計算機程序產(chǎn)品的結(jié)構(gòu)圖和/或框圖和/或流圖對本發(fā)明進行了描述。應(yīng)該理解，可以用計算機程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。可以將這些計算機程序指令提供給通用計算機、專業(yè)計算機或其他可編程數(shù)據(jù)處理方法的處理器來生成機器，從而通過計算機或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行的指令創(chuàng)建了用于實現(xiàn)結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方法。本技術(shù)領(lǐng)域技術(shù)人員可以理解，本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進一步而言，具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進一步而言，現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。附圖和說明書中公開了本發(fā)明的示例性實施方法。盡管采用了特定術(shù)語，但是它們僅用于一般以及描述的意義，而并不是出于限制的目的。應(yīng)當(dāng)指出，對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說，在不脫離本發(fā)明原理的前提下，還可以做出若干改進和潤飾，這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。本發(fā)明的保護范圍應(yīng)以本發(fā)明的權(quán)利要求書來限定。
權(quán)利要求
1.一種基于聲紋信息對音/視頻文件進行操作的方法，其特征在于，包括如下步驟采集發(fā)聲目標(biāo)的聲紋信息；以及根據(jù)所述聲紋信息搜索音/視頻文件。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述采集發(fā)聲目標(biāo)的聲紋信息包括當(dāng)選中某個發(fā)聲目標(biāo)時，采集聲紋信息；以及存儲采集的聲紋信息。
3.根據(jù)權(quán)利要求2所述的方法，其特征在于，所述采集和存儲聲紋信息包括根據(jù)所述聲紋信息生成說話人模型；以及將所述說話人模型存儲在本地存儲模塊中。
4.根據(jù)權(quán)利要求2或3所述的方法，其特征在于，所述存儲采集的聲紋信息包括根據(jù)所述說話人模型進行分類存儲。
5.根據(jù)權(quán)利要求3所述的方法，其特征在于，根據(jù)所述聲紋信息搜索音/視頻文件包括當(dāng)打開所述本地存儲模塊時，顯示所述音/視頻文件。
6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述分類包括根據(jù)所述說話人模型對音/視頻文件進行分類顯示。
7.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述顯示包括顯示所述發(fā)聲目標(biāo)出現(xiàn)在音/視頻文件中的時間點。
8.根據(jù)權(quán)利要求7所述的方法，其特征在于，所述分類包括根據(jù)所述發(fā)聲目標(biāo)的種類對音/視頻文件進行分類搜索。
9.根據(jù)權(quán)利要求6所述的方法，其特征在于，所述時間點包括當(dāng)選中分類顯示中的所述時間點時，從該時間點開始播放所述音/視頻文件中含有的所述發(fā)聲目標(biāo)的音頻/視頻。
10.根據(jù)權(quán)利要求1所述的方法，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述采集發(fā)聲目標(biāo)的聲紋信息包括當(dāng)與該聯(lián)系人進行通話時，記錄所述聯(lián)系人的聲紋信息。
11.根據(jù)權(quán)利要求12所述的方法，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述采集發(fā)聲目標(biāo)的聲紋信息包括用戶手動錄制該聯(lián)系人語音，記錄所述聯(lián)系人的聲紋信息。
12.根據(jù)權(quán)利要求1所述的方法，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述搜索音/視頻文件包括當(dāng)選中該聯(lián)系人時，播放映射所述聯(lián)系人的音/視頻。
13.一種終端設(shè)備，其特征在于，包括聲紋提取模塊，用于采集發(fā)聲目標(biāo)的聲紋信息；以及執(zhí)行模塊，用于根據(jù)所述聲紋信息搜索音/視頻文件。
14.根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述聲紋提取模塊包括聲紋信息采集單元，用于在選中某個發(fā)聲目標(biāo)時采集聲紋信息；聲紋樣本生成單元，用于根據(jù)所述聲紋信息生成說話人模型。
15.根據(jù)權(quán)利要求14所述的裝置，其特征在于，還包括存儲模塊，用于存儲采集的聲紋信息。
16.根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述存儲模塊還用于存儲所述說話人模型。
17.根據(jù)權(quán)利要求14或16所述的裝置，其特征在于，所述聲紋提取模塊包括目標(biāo)分類單元，根據(jù)所述說話人模型進行分類存儲。
18.根據(jù)權(quán)利要求15所述的裝置，其特征在于，還包括顯示器，當(dāng)打開所述本地存儲模塊時，顯示所述音/視頻文件。
19.根據(jù)權(quán)利要求18所述的裝置，其特征在于，所述顯示器用于根據(jù)所述目標(biāo)分類單元基于所述發(fā)聲目標(biāo)的種類對所述音/視頻文件進行分類顯示。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述顯示器用于顯示所述發(fā)聲目標(biāo)出現(xiàn)在音/視頻文件中的所有時間點。
21.根據(jù)權(quán)利要求20所述的裝置，其特征在于，所述目標(biāo)分類單元還用于根據(jù)發(fā)聲目標(biāo)的種類對音/視頻文件進行分類搜索。
22.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述執(zhí)行模塊還用于當(dāng)選中分類顯示中的所述時間點時，從該時間點開始播放所述音/視頻文件中含有的所述發(fā)聲目標(biāo)的音頻/視頻。
23.根據(jù)權(quán)利要求13所述的裝置，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述聲紋提取模塊用于當(dāng)與該聯(lián)系人進行通話時，記錄所述聯(lián)系人的聲紋信息。
24.根據(jù)權(quán)利要求13所述的裝置，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述聲紋提取模塊用于用戶手動錄制該聯(lián)系人語音，記錄所述聯(lián)系人的聲紋信息。
25.根據(jù)權(quán)利要求13所述的裝置，其特征在于，當(dāng)所述發(fā)聲目標(biāo)為聯(lián)系人應(yīng)用程序中的某個聯(lián)系人時，所述執(zhí)行模塊還用于當(dāng)選中該聯(lián)系人時，播放映射所述聯(lián)系人的音/視頻。
全文摘要
本發(fā)明公開一種基于聲紋信息對音/視頻文件進行操作的方法，包括如下步驟采集發(fā)聲目標(biāo)的聲紋信息；以及根據(jù)所述聲紋信息搜索音/視頻文件。本發(fā)明還提供了一種終端設(shè)備。本發(fā)明提出的技術(shù)方案，能夠根據(jù)特定聯(lián)系人的聲紋信息對音/視頻文件進行分類，當(dāng)用戶想找到包含有特定聯(lián)系人的音/視頻文件，不必一個一個文件的播放查看，而是直接進行選擇，從而方便用戶查找含有特定人員聲音的音視頻文件。進一步地，本發(fā)明提供的基于聲紋信息對音/視頻文件進行操作的方法可以直接跳轉(zhuǎn)到音/視頻中某個聯(lián)系人說話的時間節(jié)點進行播放，從而提供用戶的搜索效率。
文檔編號G06F17/30GK103035247SQ201210518118
公開日2013年4月10日申請日期2012年12月5日優(yōu)先權(quán)日2012年12月5日
發(fā)明者楊帆, 蘇騰榮, 李世全, 馬永健申請人:北京三星通信技術(shù)研究有限公司, 三星電子株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊帆;蘇騰榮;李世全;馬永健
技術(shù)所有人：北京三星通信技術(shù)研究有限公司;三星電子株式會社
我是此專利的發(fā)明人

上一篇：圖像平移更新顯示方法和系統(tǒng)的制作方法
上一篇：一種方便電子化的專業(yè)筆記本及其電子縮略圖顯示方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

聲紋識別相關(guān)技術(shù)

聲紋相關(guān)技術(shù)

聲紋識別軟件相關(guān)技術(shù)

聲紋識別技術(shù)相關(guān)技術(shù)

聲紋鎖相關(guān)技術(shù)

聲紋鑒定相關(guān)技術(shù)

聲紋識別算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于聲紋信息對音頻/視頻文件進行操作的方法及裝置的制作方法