技術總結
本發(fā)明提供一種說話人識別方法及裝置、計算機設備及計算機可讀介質。其所述方法包括:接收目標群體中的待識別用戶的目標語音數(shù)據(jù);根據(jù)目標語音數(shù)據(jù)、預先采集的語音數(shù)據(jù)庫和預先訓練的說話人識別模型,獲取目標語音數(shù)據(jù)對應的語音輸出特征以及語音數(shù)據(jù)庫中每個語音數(shù)據(jù)對應的語音輸出特征;說話人識別模型采用卷積神經網(wǎng)絡模型;根據(jù)目標語音數(shù)據(jù)對應的語音輸出特征以及語音數(shù)據(jù)庫中每個語音數(shù)據(jù)對應的語音輸出特征,識別目標語音數(shù)據(jù)對應的用戶。本發(fā)明通過采用基于卷積神經網(wǎng)絡模型的說話人識別模型,能夠更加準確地獲取各語音數(shù)據(jù)的語音輸出特征,從而更加準確地對目標語音數(shù)據(jù)對應的用戶進行識別,進而能夠大大地提高對說話人的識別效率。
技術研發(fā)人員:曹瑩;劉霄;胡鵬;周杰;文石磊
受保護的技術使用者:百度在線網(wǎng)絡技術(北京)有限公司
文檔號碼:201710142901
技術研發(fā)日:2017.03.10
技術公布日:2017.05.17