1.一種說話人識別方法,其特征在于,所述方法包括:
接收目標群體中的待識別用戶的目標語音數(shù)據;
根據所述目標語音數(shù)據、預先采集的語音數(shù)據庫和預先訓練的說話人識別模型,獲取所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征;所述說話人識別模型采用卷積神經網絡模型;
根據所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征,識別所述目標語音數(shù)據對應的用戶。
2.根據權利要求1所述的方法,其特征在于,根據所述目標語音數(shù)據、預先采集的語音數(shù)據庫和預先訓練的說話人識別模型,獲取所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征之前,所述方法還包括:
采集數(shù)條已知用戶標識的訓練語音數(shù)據,生成訓練語音數(shù)據庫;
根據所述訓練語音數(shù)據庫中各條所述訓練語音數(shù)據,獲取各條所述訓練語音數(shù)據的梅爾頻域倒譜系數(shù)和/或感知線性預測特征,作為對應的所述訓練語音數(shù)據的語音輸入特征;
根據各條所述訓練語音數(shù)據的語音輸入特征、以及各所述訓練語音數(shù)據的用戶標識,訓練所述說話人識別模型。
3.根據權利要求2所述的方法,其特征在于,根據各條所述訓練語音數(shù)據的語音輸入特征、以及各所述訓練語音數(shù)據的用戶標識,訓練所述說話人識別模型,具體包括:
將所述訓練語音數(shù)據庫中的各條所述訓練語音數(shù)據的語音輸入特征依次輸入至所述說話人識別模型中,得到對應的所述訓練語音數(shù)據的語音輸出特征;
根據所述訓練語音數(shù)據的語音輸出特征和所述訓練語音數(shù)據的用戶標識,生成所述訓練語音數(shù)據的損失函數(shù);
計算所述訓練語音數(shù)據的損失函數(shù)對所述說話人識別模型中各參數(shù)的導數(shù);
根據所述說話人識別模型中的各所述參數(shù)以及所述訓練語音數(shù)據的損失函數(shù)對各所述參數(shù)的導數(shù),更新所述說話人識別模型中的各所述參數(shù),從而確定本次訓練后的所述說話人識別模型;
重復執(zhí)行上述步驟,直至所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據都對所述說話人識別模型進行訓練,確定本輪訓練后的所述說話人識別模型。
4.根據權利要求3所述的方法,其特征在于,根據各條所述訓練語音數(shù)據的語音輸入特征、以及各所述訓練語音數(shù)據的用戶標識,訓練所述說話人識別模型,還包括:
按照上述每一輪訓練中所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據對所述說話人識別模型的訓練,使用所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據重復對所述說話人識別模型訓練N輪,得到最終的所述說話人識別模型。
5.根據權利要求1-4任一所述的方法,其特征在于,根據所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征,識別所述目標語音數(shù)據對應的用戶,具體包括:
分別計算所述目標語音數(shù)據對應的語音輸出特征與所述語音數(shù)據庫中各所述語音數(shù)據對應的語音輸出特征的相似度;
獲取與所述目標語音數(shù)據對應的語音輸出特征的相似度大于或者等于預設相似度閾值的所述語音數(shù)據對應的用戶標識,作為所述目標語音數(shù)據對應的用戶的標識;或者獲取與所述目標語音數(shù)據對應的語音輸出特征的相似度最大的所述語音數(shù)據對應的用戶標識,作為所述目標語音數(shù)據對應的用戶的標識。
6.一種說話人識別裝置,其特征在于,所述裝置包括:
接收模塊,用于接收目標群體中的待識別用戶的目標語音數(shù)據;
特征獲取模塊,用于根據所述目標語音數(shù)據、預先采集的語音數(shù)據庫和預先訓練的說話人識別模型,獲取所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征;所述說話人識別模型采用卷積神經網絡模型;
識別模塊,用于根據所述目標語音數(shù)據對應的語音輸出特征以及所述語音數(shù)據庫中每個所述語音數(shù)據對應的語音輸出特征,識別所述目標語音數(shù)據對應的用戶。
7.根據權利要求6所述的裝置,其特征在于,所述裝置還包括:采集模塊和訓練模塊;
所述采集模塊,用于采集數(shù)條已知用戶標識的訓練語音數(shù)據,生成訓練語音數(shù)據庫;
所述特征獲取模塊,還用于根據所述訓練語音數(shù)據庫中各條所述訓練語音數(shù)據,獲取各條所述訓練語音數(shù)據的梅爾頻域倒譜系數(shù)和/或感知線性預測特征,作為對應的所述訓練語音數(shù)據的語音輸入特征;
所述訓練模塊,用于根據各條所述訓練語音數(shù)據的語音輸入特征、以及各所述訓練語音數(shù)據的用戶標識,訓練所述說話人識別模型。
8.根據權利要求7所述的裝置,其特征在于,所述訓練模塊,具體用于:
將所述訓練語音數(shù)據庫中的各條所述訓練語音數(shù)據的語音輸入特征依次輸入至所述說話人識別模型中,得到對應的所述訓練語音數(shù)據的語音輸出特征;
根據所述訓練語音數(shù)據的語音輸出特征和所述訓練語音數(shù)據的用戶標識,生成所述訓練語音數(shù)據的損失函數(shù);
計算所述訓練語音數(shù)據的損失函數(shù)對所述說話人識別模型中各參數(shù)的導數(shù);
根據所述說話人識別模型中的各所述參數(shù)以及所述訓練語音數(shù)據的損失函數(shù)對各所述參數(shù)的導數(shù),更新所述說話人識別模型中的各所述參數(shù),從而確定本次訓練后的所述說話人識別模型;
重復執(zhí)行上述步驟,直至所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據都對所述說話人識別模型進行訓練,確定本輪訓練后的所述說話人識別模型。
9.根據權利要求8所述的裝置,其特征在于,所述訓練模塊,具體還用于按照上述每一輪訓練中所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據對所述說話人識別模型的訓練,使用所述訓練語音數(shù)據庫中的數(shù)個所述訓練語音數(shù)據重復對所述說話人識別模型訓練N輪,得到最終的所述說話人識別模型。
10.根據權利要求6-9任一所述的裝置,其特征在于,所述識別模塊,具體用于:
分別計算所述目標語音數(shù)據對應的語音輸出特征與所述語音數(shù)據庫中各所述語音數(shù)據對應的語音輸出特征的相似度;
獲取與所述目標語音數(shù)據對應的語音輸出特征的相似度大于或者等于預設相似度閾值的所述語音數(shù)據對應的用戶標識,作為所述目標語音數(shù)據對應的用戶的標識;或者獲取與所述目標語音數(shù)據對應的語音輸出特征的相似度最大的所述語音數(shù)據對應的用戶標識,作為所述目標語音數(shù)據對應的用戶的標識。
11.一種計算機設備,其特征在于,所述設備包括:
一個或多個處理器;
存儲器,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)如權利要求1-5中任一所述的方法。
12.一種計算機可讀介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)如權利要求1-5中任一所述的方法。