本申請(qǐng)涉及通信技術(shù)領(lǐng)域,尤其涉及一種語音質(zhì)量評(píng)價(jià)方法和裝置。
背景技術(shù):
隨著技術(shù)的不斷發(fā)展,通信在人們生活中的地位越來越重要,如采用通信網(wǎng)絡(luò)進(jìn)行語音數(shù)據(jù)的傳輸。語音質(zhì)量是評(píng)價(jià)通信網(wǎng)絡(luò)質(zhì)量的一個(gè)重要因素。為了達(dá)到評(píng)價(jià)語音質(zhì)量的目的,開發(fā)有效的語音質(zhì)量評(píng)價(jià)算法是必須的。
相關(guān)技術(shù)中,通信網(wǎng)絡(luò)中的語音質(zhì)量評(píng)價(jià)算法包括語音質(zhì)量的感知評(píng)價(jià)(Perceptual Evaluation of Speech Quality,PESQ)算法和感知客觀語音質(zhì)量評(píng)價(jià)(Perceptual Objective Listening Quality Analysis,POLQA)算法。這些算法在實(shí)現(xiàn)時(shí)需要獲取輸入語音數(shù)據(jù)和輸出語音數(shù)據(jù),輸入語音數(shù)據(jù)一般為干凈語音數(shù)據(jù),輸出語音數(shù)據(jù)一般為經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù),通過對(duì)輸入語音數(shù)據(jù)和輸出語音數(shù)據(jù)進(jìn)行分析,對(duì)輸出語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià)。輸入語音數(shù)據(jù)一般是采用運(yùn)營(yíng)商的路測(cè)車采集的,但是,在小區(qū)樓層或商場(chǎng)等室內(nèi)條件下,無法通過路測(cè)車進(jìn)行采集,因此無法獲取到輸入語音數(shù)據(jù),也就不能通過輸入語音數(shù)據(jù)進(jìn)行語音質(zhì)量評(píng)價(jià),使得上述基于輸入語音數(shù)據(jù)和輸出語音數(shù)據(jù)對(duì)輸出語音數(shù)據(jù)進(jìn)行語音質(zhì)量評(píng)價(jià)的算法存在應(yīng)用局限性。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本申請(qǐng)的一個(gè)目的在于提出一種語音質(zhì)量評(píng)價(jià)方法,該方法可以在對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行語音質(zhì)量評(píng)價(jià)時(shí),不需要相應(yīng)的輸入語音數(shù)據(jù),實(shí)現(xiàn)僅依賴單端語音數(shù)據(jù)的語音質(zhì)量評(píng)價(jià),從而擴(kuò)展應(yīng)用范圍。
本申請(qǐng)的另一個(gè)目的在于提出一種語音質(zhì)量評(píng)價(jià)裝置。
為達(dá)到上述目的,本申請(qǐng)第一方面實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法,包括:接收待評(píng)價(jià)語音數(shù)據(jù);提取所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征;根據(jù)所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征和已構(gòu)建的語音質(zhì)量評(píng)價(jià)模型,對(duì)所述待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),其中,所述語音質(zhì)量評(píng)價(jià)模型用于表明單端語音數(shù)據(jù)的評(píng)價(jià)特征與所述單端語音數(shù)據(jù)的質(zhì)量信息之間的關(guān)系。
本申請(qǐng)第一方面實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法,通過采用語音質(zhì)量評(píng)價(jià)模型對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以在語音質(zhì)量評(píng)價(jià)時(shí)僅需要單端語音數(shù)據(jù),避免依賴雙端語音數(shù)據(jù)造成的應(yīng)用受限問題,從而擴(kuò)展應(yīng)用范圍。
為達(dá)到上述目的,本申請(qǐng)第二方面實(shí)施例提出的語音質(zhì)量評(píng)價(jià)裝置,包括:接收模塊,用于接收待評(píng)價(jià)語音數(shù)據(jù);提取模塊,用于提取所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征;評(píng)價(jià)模塊,用于根據(jù)所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征和已構(gòu)建的語音質(zhì)量評(píng)價(jià)模型,對(duì)所述待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),其中,所述語音質(zhì)量評(píng)價(jià)模型用于表明單端語音數(shù)據(jù)的評(píng)價(jià)特征與所述單端語音數(shù)據(jù)的質(zhì)量信息之間的關(guān)系。
本申請(qǐng)第二方面實(shí)施例提出的語音質(zhì)量評(píng)價(jià)裝置,通過采用語音質(zhì)量評(píng)價(jià)模型對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以在語音質(zhì)量評(píng)價(jià)時(shí)僅需要單端語音數(shù)據(jù),避免依賴雙端語音數(shù)據(jù)造成的應(yīng)用受限問題,從而擴(kuò)展應(yīng)用范圍。
本申請(qǐng)附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請(qǐng)的實(shí)踐了解到。
附圖說明
本申請(qǐng)上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1是本申請(qǐng)一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法的流程示意圖;
圖2是本申請(qǐng)另一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法的流程示意圖;
圖3是本申請(qǐng)一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)裝置的結(jié)構(gòu)示意圖;
圖4是本申請(qǐng)另一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本申請(qǐng)的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本申請(qǐng),而不能理解為對(duì)本申請(qǐng)的限制。相反,本申請(qǐng)的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
為了解決PESQ算法的問題以及更好的適應(yīng)4G/LTE時(shí)代的語音質(zhì)量評(píng)價(jià)需求,ITU-T于2006年開始了POLQA算法的開發(fā)工作,2011年初正式發(fā)布為ITU-T P.863標(biāo)準(zhǔn)。主要特點(diǎn)可以覆蓋最新的語音編碼和網(wǎng)絡(luò)傳輸技術(shù),在用于3G,4G/LTE,VoIP網(wǎng)絡(luò)時(shí)具有更高的準(zhǔn)確性支持超寬帶(50Hz~14KHz)語音傳輸,高質(zhì)量語音傳輸。因此,POLQA算法是目前評(píng)價(jià)通信網(wǎng)絡(luò)的語音質(zhì)量的通常被選擇的算法。
深度學(xué)習(xí)的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。含多隱層的多層感知器就是一種深度學(xué)習(xí)結(jié)構(gòu)。深度學(xué)習(xí)通過組合低層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。目前深度學(xué)習(xí)的應(yīng)用領(lǐng)域主要包括:計(jì)算機(jī)視覺、語音識(shí)別的聲學(xué)模型訓(xùn)練、機(jī)器翻譯和語義挖掘等自然語言處理領(lǐng)域。
由于深度學(xué)習(xí)是新出現(xiàn)的技術(shù),依然在不斷發(fā)展中,因此目前比較成功的應(yīng)用領(lǐng)域僅如上所示的有限領(lǐng)域。依據(jù)發(fā)明人所知,在通信領(lǐng)域,特別是通信領(lǐng)域的語音質(zhì)量評(píng)價(jià)并未應(yīng)用。
本申請(qǐng)的發(fā)明人作為通信領(lǐng)域的技術(shù)人員,在需要完成語音質(zhì)量評(píng)價(jià)時(shí),之前也通常采用POLQA算法,但是,發(fā)明人發(fā)現(xiàn)POLQA算法需要雙端的語音數(shù)據(jù),即在評(píng)價(jià)輸出語音數(shù)據(jù)的語音質(zhì)量時(shí),不僅需要輸出語音數(shù)據(jù)還需要輸入語音數(shù)據(jù),由于在一些情況下難以獲取輸入語音數(shù)據(jù),就會(huì)使得POLQA算法的應(yīng)用受限。為了避免應(yīng)用受限問題,需要提出新的解決方案。發(fā)明人通過進(jìn)一步分析發(fā)現(xiàn),深度學(xué)習(xí)構(gòu)建的模型具有優(yōu)良的性能,因此可以將深度學(xué)習(xí)引入到語音質(zhì)量評(píng)價(jià)算法中。進(jìn)一步的,為了避免雙端語音數(shù)據(jù)存在的應(yīng)用局限性問題,在通過深度學(xué)習(xí)構(gòu)建模型時(shí),可以僅采用單端語音數(shù)據(jù)作為樣本進(jìn)行訓(xùn)練,從而在采用已構(gòu)建的模型進(jìn)行語音質(zhì)量評(píng)價(jià)時(shí),可以僅需要待評(píng)價(jià)語音數(shù)據(jù)這一單端語音數(shù)據(jù)。
因此,本申請(qǐng)的主要思路是將深度學(xué)習(xí)引入到語音質(zhì)量評(píng)價(jià),特別是通信領(lǐng)域的語音質(zhì)量評(píng)價(jià)中。將為通信領(lǐng)域的語音質(zhì)量評(píng)價(jià)提供僅依賴單端語音數(shù)據(jù)的新的解決方案,并且在僅依賴單端語音數(shù)據(jù)時(shí),采用深度學(xué)習(xí)方式構(gòu)建模型,可以保證模型的優(yōu)良性能,從而解決受限更少性能更優(yōu)的語音質(zhì)量評(píng)價(jià)的技術(shù)問題。進(jìn)一步的,需要說明的是,雖然上述對(duì)本申請(qǐng)的主要思路進(jìn)行了說明,但是,具體的技術(shù)方案不限于上述的主要思路,還可以與其他特征相互結(jié)合,這些不同技術(shù)特征之間的結(jié)合依然屬于本申請(qǐng)的保護(hù)范圍。
進(jìn)一步的,需要說明的是,雖然上述給出了主要解決的技術(shù)問題,但是,本申請(qǐng)并不限于僅能解決上述技術(shù)問題,應(yīng)用本申請(qǐng)還可以解決的其他技術(shù)問題依然屬于本申請(qǐng)的保護(hù)范圍。
進(jìn)一步的,需要說明的是,雖然上述給出了本申請(qǐng)的主要思路,以及后續(xù)實(shí)施例會(huì)對(duì)一些特別點(diǎn)進(jìn)行說明。但是,本申請(qǐng)的創(chuàng)新點(diǎn)并不限于上述的主要思路及特別點(diǎn)所涉及的內(nèi)容,并不排除本申請(qǐng)中一些并未特殊說明的內(nèi)容依然可能會(huì)包含本申請(qǐng)的創(chuàng)新點(diǎn)。
可以理解的是,雖然上述進(jìn)行了一些說明,但依然不排除其他可能方案,因此,與后續(xù)本申請(qǐng)給出的實(shí)施例相同、相似、等同等情況的技術(shù)方案依然屬于本申請(qǐng)的保護(hù)范圍。
下面將結(jié)合具體實(shí)施例對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行說明。
圖1是本申請(qǐng)一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法的流程示意圖。
如圖1所示,本實(shí)施例的方法包括:
S11:接收待評(píng)價(jià)語音數(shù)據(jù)。
以通信領(lǐng)域?yàn)槔u(píng)價(jià)語音數(shù)據(jù)可以具體是指通信網(wǎng)絡(luò)的輸出語音數(shù)據(jù),即輸入語音數(shù)據(jù)經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù)。輸入語音數(shù)據(jù)一般是指干凈語音數(shù)據(jù)或者稱為原始語音數(shù)據(jù),而退化語音數(shù)據(jù)一般是指相對(duì)于原始語音數(shù)據(jù)存在清楚度退化、存在延遲、雜音等一項(xiàng)或多項(xiàng)內(nèi)容的質(zhì)量退化的語音數(shù)據(jù)。
S12:提取所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征。
所述評(píng)價(jià)特征與語音質(zhì)量模型構(gòu)建時(shí),對(duì)退化語音數(shù)據(jù)提取的評(píng)價(jià)特征相同,具體可以根據(jù)應(yīng)用需求確定。
一般來講,評(píng)價(jià)特征是指從人耳聽覺感知的角度描述語音數(shù)據(jù)的特征,具體內(nèi)容可以參見后續(xù)描述。
S13:根據(jù)所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征和已構(gòu)建的語音質(zhì)量評(píng)價(jià)模型,對(duì)所述待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),其中,所述語音質(zhì)量評(píng)價(jià)模型用于表明單端語音數(shù)據(jù)的評(píng)價(jià)特征與所述單端語音數(shù)據(jù)的質(zhì)量信息之間的關(guān)系。
其中,語音質(zhì)量評(píng)價(jià)模型可以是在需要進(jìn)行語音質(zhì)量評(píng)價(jià)之前預(yù)先構(gòu)建的,例如,通過離線方式先構(gòu)建出語音質(zhì)量評(píng)價(jià)模型,在需要語音質(zhì)量評(píng)價(jià)時(shí),就可以直接采用預(yù)先構(gòu)建的語音質(zhì)量評(píng)價(jià)模型。當(dāng)然,也并不排除語音質(zhì)量評(píng)價(jià)模型是在線構(gòu)建的,比如在需要進(jìn)行語音質(zhì)量評(píng)價(jià)時(shí)在線構(gòu)建的。具體構(gòu)建內(nèi)容可以參見后續(xù)描述。
語音質(zhì)量評(píng)價(jià)模型的輸入和輸出分別是單端語音數(shù)據(jù)的評(píng)價(jià)特征和質(zhì)量信息,因此,在提取出待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征后,可以將該評(píng)價(jià)特征作為語音質(zhì)量評(píng)價(jià)模型的輸入,從而得到的輸出就是待評(píng)價(jià)語音數(shù)據(jù)的質(zhì)量信息,實(shí)現(xiàn)語音質(zhì)量評(píng)價(jià)。
進(jìn)一步的,語音質(zhì)量評(píng)價(jià)模型可以用回歸模型或分類模型描述,在不同描述情況下,上述的質(zhì)量信息的具體內(nèi)容可以是不同的。例如,如果語音質(zhì)量評(píng)價(jià)模型采用回歸模型描述,則得到的質(zhì)量信息是具體的評(píng)價(jià)得分,如1-5分中的一個(gè)得分;如果語音質(zhì)量評(píng)價(jià)模型采用分類模型描述,則得到的質(zhì)量信息是評(píng)價(jià)類別,如差、較差、一般、好、較好中的一個(gè)類別。
進(jìn)一步的,一些實(shí)施例中,為了提高語音質(zhì)量評(píng)價(jià)的準(zhǔn)確度,還可以對(duì)S13得到的質(zhì)量評(píng)價(jià)結(jié)果進(jìn)行規(guī)整。以質(zhì)量評(píng)價(jià)結(jié)果是評(píng)價(jià)得分為例,在規(guī)整時(shí),可以將S13得到的評(píng)價(jià)得分直接作為最終的評(píng)價(jià)得分,或者,也可以結(jié)合通信網(wǎng)絡(luò)的丟包、抖動(dòng)、時(shí)延等相關(guān)參數(shù)對(duì)S13得到的評(píng)價(jià)得分進(jìn)行規(guī)整得到最終的評(píng)價(jià)得分。具體的結(jié)合網(wǎng)絡(luò)參數(shù)進(jìn)行規(guī)整的算法可以設(shè)置,在此不再詳述,比如可以在S13得到的評(píng)價(jià)得分的基礎(chǔ)上乘以一個(gè)系數(shù)作為最終的評(píng)價(jià)得分,該系數(shù)與通信網(wǎng)絡(luò)的上述參數(shù)相關(guān)。
本實(shí)施例中,通過采用語音質(zhì)量評(píng)價(jià)模型對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以在語音質(zhì)量評(píng)價(jià)時(shí)僅需要單端語音數(shù)據(jù),避免依賴雙端語音數(shù)據(jù)造成的應(yīng)用受限問題,從而擴(kuò)展應(yīng)用范圍。
圖2是本申請(qǐng)另一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)方法的流程示意圖。
本實(shí)施例以待評(píng)價(jià)語音數(shù)據(jù)是經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù)為例。在構(gòu)建語音質(zhì)量評(píng)價(jià)模型時(shí)以深度學(xué)習(xí)方式構(gòu)建為例。
參見圖2,本實(shí)施例的方法包括:
S21:獲取語音數(shù)據(jù),所述語音數(shù)據(jù)包括干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)。
其中,可以采用收集和/或從已有數(shù)據(jù)中直接獲取的方式,獲取到語音數(shù)據(jù)。為了提高構(gòu)建的語音質(zhì)量評(píng)價(jià)模型的準(zhǔn)確度,此處應(yīng)該獲取到盡可能多的語音數(shù)據(jù)。
以收集方式為例,具體收集語音數(shù)據(jù)時(shí),可以采用模擬通信的方式,分別收集到通話時(shí)的干凈語音數(shù)據(jù)和經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù),具體地先從高保真錄音室采集大量干凈語音數(shù)據(jù),如2000小時(shí)的干凈語音數(shù)據(jù);然后利用多部手機(jī)模擬通話方式,即使用一部手機(jī)撥打電話播放所述干凈語音數(shù)據(jù),另一部手機(jī)接聽這些干凈語音數(shù)據(jù),通過在通信網(wǎng)絡(luò)上不同的接口處,還原發(fā)送的數(shù)據(jù)包,得到經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù)。
當(dāng)然,也可直接收集真實(shí)的網(wǎng)絡(luò)通話語音數(shù)據(jù),分別獲取相應(yīng)干凈語音數(shù)據(jù)和退化語音數(shù)據(jù),具體獲取方式本申請(qǐng)不作限定。
進(jìn)一步的,在收集語音數(shù)據(jù)時(shí),干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)可以分開收集,從而可以直接分別獲取到干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)?;蛘撸谑占Z音數(shù)據(jù)時(shí),干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)可以一起收集,此時(shí)可以分別對(duì)干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)進(jìn)行標(biāo)記,以區(qū)分干凈語音數(shù)據(jù)和退化語音數(shù)據(jù),如使用1表示干凈語音數(shù)據(jù),0表示退化語音數(shù)據(jù),此時(shí),可以根據(jù)標(biāo)記分別獲取到干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)。
S22:根據(jù)所述干凈語音數(shù)據(jù)獲取待處理的干凈語音數(shù)據(jù),以及,根據(jù)所述退化語音數(shù)據(jù)獲取待處理的退化語音數(shù)據(jù)。
可以包括:
將獲取的退化語音數(shù)據(jù)直接作為待處理的退化語音數(shù)據(jù);或者,
提取獲取的退化語音數(shù)據(jù)的有效語音段,將退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù);或者,
對(duì)獲取的退化語音數(shù)據(jù)進(jìn)行聚類,將聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)作為待處理的退化語音數(shù)據(jù);或者,
提取獲取的退化語音數(shù)據(jù)的有效語音段,對(duì)退化語音數(shù)據(jù)的有效語音段進(jìn)行聚類,將聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù)。
具體的,在獲取到干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)后,可以將獲取的干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)直接分別作為待處理的干凈語音數(shù)據(jù)和待處理的退化語音數(shù)據(jù)。進(jìn)一步的,還可以在獲取到干凈語音數(shù)據(jù)和退化語音數(shù)據(jù)后,分別進(jìn)行有效語音段的提取,將提取得到的干凈語音數(shù)據(jù)的有效語音段作為待處理的干凈語音數(shù)據(jù),將退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù)。具體的提取有效語音段的方式不限定,例如采用語音活動(dòng)檢測(cè)(Voice Activity Detection,VAD)方式。通過僅處理有效語音段,可以減少運(yùn)算量和復(fù)雜度。
進(jìn)一步的,在獲取待處理的退化語音數(shù)據(jù)時(shí),可以將語音數(shù)據(jù)中包括的所有退化語音數(shù)據(jù)或所有退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù),或者,也可以選擇部分退化語音數(shù)據(jù)或其有效語音段作為待處理的退化語音數(shù)據(jù)。在選擇時(shí),可以采用聚類方式,對(duì)所有的退化語音數(shù)據(jù)或其有效語音段進(jìn)行聚類,將聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)或其有效語音段作為待處理的退化語音數(shù)據(jù)。
例如,在聚類時(shí),提取退化語音數(shù)據(jù)的有效語音段的ivector特征,使用k-means方法對(duì)提取的ivector特征進(jìn)行聚類,得到k個(gè)聚類中心,將每個(gè)聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)或其有效語音段作為待處理的退化語音數(shù)據(jù)。通過聚類以及只選擇聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)進(jìn)行處理,可以減少數(shù)據(jù)量,提高運(yùn)算效率。
S23:根據(jù)待處理的干凈語音數(shù)據(jù)和待處理的退化語音數(shù)據(jù),計(jì)算待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分。
以待處理的數(shù)據(jù)是有效語音段為例,在得到干凈語音數(shù)據(jù)的有效語音段和退化語音數(shù)據(jù)的有效語音段后,可以根據(jù)干凈語音數(shù)據(jù)的有效語音段,對(duì)退化語音數(shù)據(jù)每個(gè)有效語音段進(jìn)行逐幀分析,計(jì)算得到退化語音數(shù)據(jù)的有效語音段的評(píng)價(jià)得分。計(jì)算方式不限定,例如,所述評(píng)價(jià)得分為語音數(shù)據(jù)的平均意見分(Mean Opinion Score,MOS)得分,具體計(jì)算方法可以與現(xiàn)有技術(shù)相同,如使用POLQA算法或PESQ算法計(jì)算得到,在此不再詳述。
S24:提取待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征。
所述評(píng)價(jià)特征從人耳聽覺感知的角度描述語音數(shù)據(jù),具體提取時(shí),先提取待處理的退化語音數(shù)據(jù)的時(shí)域特征,如語音數(shù)據(jù)的短時(shí)平均能量、語音的分段底噪、語音的短時(shí)波形沖擊或者震蕩、基頻特征及基頻的差分特征,如基頻特征的一階、二階差分值等;然后再提取待處理的退化語音數(shù)據(jù)的頻域特征,所述頻域特征如FilterBank特征、線性預(yù)測(cè)編碼(linear predictive coding,LPC)特征等;所述頻域特征提取時(shí),采用能夠描述人聽覺的耳蝸形狀的濾波器,從而使得提取的頻域特征能夠從人耳聽覺感知角度描述語音數(shù)據(jù);為了更好的描述退化語音數(shù)據(jù),還可以提取每種頻域特征的均值、方差、最大值、最小值、及差分特征,如一階、二階差分值等;具體提取哪種評(píng)價(jià)特征可以根據(jù)應(yīng)用需求及語音數(shù)據(jù)的退化情況確定,具體本申請(qǐng)不作限定。
S25:根據(jù)所述提取待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征和所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行訓(xùn)練,構(gòu)建語音質(zhì)量評(píng)價(jià)模型。
在訓(xùn)練時(shí),可以具體采用深度學(xué)習(xí)方式訓(xùn)練得到語音質(zhì)量評(píng)價(jià)模型的參數(shù),構(gòu)建出語音質(zhì)量評(píng)價(jià)模型。
深度學(xué)習(xí)方式采用的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)可以為深度神經(jīng)網(wǎng)絡(luò)((Deep Neural Networks,DNN)、卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)、長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)等網(wǎng)絡(luò)中的一種或多種組合,具體本申請(qǐng)不作限定;具體網(wǎng)絡(luò)的選擇根據(jù)應(yīng)用需求確定。在確定模型的輸入和輸出后,參數(shù)訓(xùn)練過程與現(xiàn)有技術(shù)相同,在此不再詳述。
進(jìn)一步的,語音質(zhì)量評(píng)價(jià)模型可以用不同類型的模型描述,如可以采用回歸模型或分類模型描述。在不同類型下,模型對(duì)應(yīng)的輸入和輸出可以相應(yīng)調(diào)整。
具體的,采用回歸模型描述語音質(zhì)量評(píng)價(jià)模型時(shí),直接將上述獲取的待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征和待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分分別作為模型輸入和輸出。
采用分類模型描述語音質(zhì)量評(píng)價(jià)模型時(shí),直接將上述獲取的待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征作為模型輸入,而模型輸出是對(duì)待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行量化后,得到的評(píng)價(jià)類別。
具體量化時(shí),可以采用固定步長(zhǎng)或非固定步長(zhǎng)對(duì)退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行量化,如果采用固定步長(zhǎng)時(shí),固定步長(zhǎng)為0.2,對(duì)所有退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行量化,得到量化后退化語音數(shù)據(jù)的類別,以MOS得分為例,以固定步長(zhǎng)0.2進(jìn)行量化時(shí),1分到5分量化后可以得到20個(gè)評(píng)價(jià)類別;如果采用非固定步長(zhǎng)時(shí),可以根據(jù)應(yīng)用需求確定退化語音數(shù)據(jù)的每個(gè)范圍內(nèi)評(píng)價(jià)得分的量化步長(zhǎng),如評(píng)價(jià)得分較低范圍內(nèi),可以采用大步長(zhǎng)量化,評(píng)價(jià)得分較高范圍內(nèi),可以采用小步長(zhǎng)量化;以MOS得分為例,如1到3分為較低得分范圍,可以采用大步長(zhǎng)量化,如0.5;3到5分為較高得分范圍,可以采用小步長(zhǎng)量化,如0.2,量化后共可以得到14個(gè)評(píng)價(jià)類別;
當(dāng)然,也可以采用其它方法對(duì)所述評(píng)價(jià)得分進(jìn)行量化,將評(píng)價(jià)得分劃分為多個(gè)評(píng)價(jià)類別,如量化后的所述評(píng)價(jià)類別為差、較差、一般、好、較好,具體本申請(qǐng)不作限定。
S26:接收經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù)。
S27:提取所述退化語音數(shù)據(jù)的評(píng)價(jià)特征。
評(píng)價(jià)特征的提取方式與訓(xùn)練過程中的提取方式相同,在此不再詳述。
S28:根據(jù)所述評(píng)價(jià)特征和所述已構(gòu)建的語音質(zhì)量評(píng)價(jià)模型,對(duì)所述退化語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià)。
具體的,將當(dāng)前的退化語音數(shù)據(jù)的評(píng)價(jià)特征作為語音質(zhì)量評(píng)價(jià)模型的輸入,將模型的輸出作為對(duì)當(dāng)前的退化語音數(shù)據(jù)的質(zhì)量評(píng)價(jià)結(jié)果。其中,如果語音質(zhì)量評(píng)價(jià)模型采用回歸模型描述,則質(zhì)量評(píng)價(jià)結(jié)果是評(píng)價(jià)得分,如果語音質(zhì)量評(píng)價(jià)模型采用分類模型描述,則質(zhì)量評(píng)價(jià)結(jié)果是評(píng)價(jià)類別。
本實(shí)施例中,通過采用語音質(zhì)量評(píng)價(jià)模型對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以在語音質(zhì)量評(píng)價(jià)時(shí)僅需要單端語音數(shù)據(jù),避免依賴雙端語音數(shù)據(jù)造成的應(yīng)用受限問題,從而擴(kuò)展應(yīng)用范圍。進(jìn)一步的,通過采用深度學(xué)習(xí)方式進(jìn)行訓(xùn)練,可以利用深度學(xué)習(xí)方式的優(yōu)良性能,使得語音質(zhì)量評(píng)價(jià)模型更準(zhǔn)確,進(jìn)而語音質(zhì)量評(píng)價(jià)結(jié)果更準(zhǔn)確。進(jìn)一步的,通過對(duì)通信領(lǐng)域的語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以將深度學(xué)習(xí)與通信領(lǐng)域的語音質(zhì)量評(píng)價(jià)相結(jié)合,為通信領(lǐng)域的語音質(zhì)量評(píng)價(jià)提供新的解決思路。
圖3是本申請(qǐng)一個(gè)實(shí)施例提出的語音質(zhì)量評(píng)價(jià)裝置的結(jié)構(gòu)示意圖。
如圖3所示,本實(shí)施例的裝置30包括:接收模塊31、提取模塊32和評(píng)價(jià)模塊33。
接收模塊31,用于接收待評(píng)價(jià)語音數(shù)據(jù);
提取模塊32,用于提取所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征;
評(píng)價(jià)模塊33,用于根據(jù)所述待評(píng)價(jià)語音數(shù)據(jù)的評(píng)價(jià)特征和已構(gòu)建的語音質(zhì)量評(píng)價(jià)模型,對(duì)所述待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),其中,所述語音質(zhì)量評(píng)價(jià)模型用于表明單端語音數(shù)據(jù)的評(píng)價(jià)特征與所述單端語音數(shù)據(jù)的質(zhì)量信息之間的關(guān)系。
一些實(shí)施例中,所述待評(píng)價(jià)語音數(shù)據(jù)包括:經(jīng)過通信網(wǎng)絡(luò)后的退化語音數(shù)據(jù)。
一些實(shí)施例中,參見圖4,本實(shí)施例的裝置30還包括:用于構(gòu)建語音質(zhì)量評(píng)價(jià)模型的構(gòu)建模塊34,所述構(gòu)建模塊34包括:
第一獲取子模塊341,用于獲取語音數(shù)據(jù),所述語音數(shù)據(jù)包括干凈語音數(shù)據(jù)和退化語音數(shù)據(jù);
第二獲取子模塊342,用于根據(jù)所述干凈語音數(shù)據(jù)獲取待處理的干凈語音數(shù)據(jù),以及,根據(jù)所述退化語音數(shù)據(jù)獲取待處理的退化語音數(shù)據(jù);
計(jì)算子模塊343,用于根據(jù)待處理的干凈語音數(shù)據(jù)和待處理的退化語音數(shù)據(jù),計(jì)算待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分;
提取子模塊344,用于提取待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征;
訓(xùn)練子模塊345,用于根據(jù)所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征和所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行訓(xùn)練,構(gòu)建語音質(zhì)量評(píng)價(jià)模型。
一些實(shí)施例中,所述語音質(zhì)量評(píng)價(jià)模型是采用深度學(xué)習(xí)方式進(jìn)行訓(xùn)練后構(gòu)建的。
一些實(shí)施例中,所述訓(xùn)練子模塊345具體用于:
如果采用回歸模型描述所述語音質(zhì)量評(píng)價(jià)模型,則將所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征和所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分,分別作為模型輸入和模型輸出,訓(xùn)練模型參數(shù),構(gòu)建語音質(zhì)量評(píng)價(jià)模型;或者,
如果采用分類型描述所述語音質(zhì)量評(píng)價(jià)模型,則將所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)特征作為模型輸入,對(duì)所述待處理的退化語音數(shù)據(jù)的評(píng)價(jià)得分進(jìn)行量化,得到評(píng)價(jià)類別,將評(píng)價(jià)得分類別作為模型輸出,訓(xùn)練模型參數(shù),構(gòu)建語音質(zhì)量評(píng)價(jià)模型。
一些實(shí)施例中,所述第二獲取子模塊342用于根據(jù)所述干凈語音數(shù)據(jù)獲取待處理的干凈語音數(shù)據(jù),包括:
將獲取的干凈語音數(shù)據(jù)直接作為待處理的干凈語音數(shù)據(jù);或者,
提取獲取的干凈語音數(shù)據(jù)的有效語音段,將干凈語音數(shù)據(jù)的有效語音段作為待處理的干凈語音數(shù)據(jù)。
一些實(shí)施例中,所述第二獲取子模塊342用于根據(jù)所述退化語音數(shù)據(jù)獲取待處理的退化語音數(shù)據(jù),包括:
將獲取的退化語音數(shù)據(jù)直接作為待處理的退化語音數(shù)據(jù);或者,
提取獲取的退化語音數(shù)據(jù)的有效語音段,將退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù);或者,
對(duì)獲取的退化語音數(shù)據(jù)進(jìn)行聚類,將聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)作為待處理的退化語音數(shù)據(jù);或者,
提取獲取的退化語音數(shù)據(jù)的有效語音段,對(duì)退化語音數(shù)據(jù)的有效語音段進(jìn)行聚類,將聚類中心對(duì)應(yīng)的退化語音數(shù)據(jù)的有效語音段作為待處理的退化語音數(shù)據(jù)。
可以理解的是,本實(shí)施例的裝置與上述方法實(shí)施例對(duì)應(yīng),具體內(nèi)容可以參見方法實(shí)施例的相關(guān)描述,在此不再詳細(xì)說明。
本實(shí)施例中,通過采用語音質(zhì)量評(píng)價(jià)模型對(duì)待評(píng)價(jià)語音數(shù)據(jù)進(jìn)行質(zhì)量評(píng)價(jià),可以在語音質(zhì)量評(píng)價(jià)時(shí)僅需要單端語音數(shù)據(jù),避免依賴雙端語音數(shù)據(jù)造成的應(yīng)用受限問題,從而擴(kuò)展應(yīng)用范圍。
可以理解的是,上述各實(shí)施例中相同或相似部分可以相互參考,在一些實(shí)施例中未詳細(xì)說明的內(nèi)容可以參見其他實(shí)施例中相同或相似的內(nèi)容。
需要說明的是,在本申請(qǐng)的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。此外,在本申請(qǐng)的描述中,除非另有說明,“多個(gè)”的含義是指至少兩個(gè)。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請(qǐng)的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本申請(qǐng)的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
應(yīng)當(dāng)理解,本申請(qǐng)的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
此外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本申請(qǐng)的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本申請(qǐng)的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本申請(qǐng)的限制,本領(lǐng)域的普通技術(shù)人員在本申請(qǐng)的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。