專(zhuān)利名稱(chēng):對(duì)話主觀質(zhì)量測(cè)試工具的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及話音質(zhì)量評(píng)估,更具體地,涉及針對(duì)語(yǔ)音通信系統(tǒng)的話音質(zhì)量評(píng)估的對(duì)話測(cè)試。
背景技術(shù):
作為在無(wú)線/有線電信網(wǎng)絡(luò)中穩(wěn)定進(jìn)步的部分,系統(tǒng)的語(yǔ)音和話音質(zhì)量評(píng)估在過(guò)去的幾年得到極大的重視。它聚焦于與評(píng)估通過(guò)電信系統(tǒng)的語(yǔ)音和話音的聽(tīng)覺(jué)質(zhì)量相關(guān)的過(guò)程。單詞“評(píng)估”在這里指針對(duì)一個(gè)或多個(gè)標(biāo)準(zhǔn)的系統(tǒng)性能的測(cè)量。實(shí)際上,隨著新的電信技術(shù)的到來(lái),諸如通過(guò)IP(因特網(wǎng)協(xié)議)、ATM(異步傳輸模式)、FR(幀中繼)、PSTN(公共電話交換網(wǎng)絡(luò))、ISDN(綜合服務(wù)數(shù)字網(wǎng))、移動(dòng)網(wǎng)絡(luò)(GSM、 WiMAX,UMTS等)、或任何混合組合(IP、ATM、FR、PSTN、ISDN、移動(dòng)網(wǎng)絡(luò))之類(lèi)的語(yǔ)音通信系統(tǒng)的多樣性已經(jīng)造成諸如分組丟失、非穩(wěn)定噪聲、話音失真、網(wǎng)絡(luò)抖動(dòng)等之類(lèi)的話音質(zhì)量的各種降級(jí)因素。因此,已經(jīng)開(kāi)發(fā)了針對(duì)語(yǔ)音質(zhì)量評(píng)估的各種裝置,從而可靠地測(cè)量整體話音質(zhì)量和特定的降級(jí)因素?!霸捯糍|(zhì)量”在這里指所感覺(jué)的與所期望的相比較的感知和判斷過(guò)程,換言之,話音質(zhì)量指面對(duì)面的模仿和通過(guò)語(yǔ)音通信系統(tǒng)所聽(tīng)到的之間的差異??梢酝ㄟ^(guò)諸如“極好”、“良好”、“一般”、“不好”、“差”之類(lèi)的描述符或通過(guò)每個(gè)降級(jí)因素或全部的數(shù)值來(lái)進(jìn)行定義。
發(fā)明內(nèi)容
一些實(shí)施例提供了用于調(diào)節(jié)針對(duì)話音質(zhì)量評(píng)估的受控對(duì)話方法的方法和設(shè)備。一些實(shí)施例提供了在只有一個(gè)人的對(duì)話上下文中用于主觀話音質(zhì)量評(píng)估的方法和設(shè)備。一些實(shí)施例提供了使端用戶(hù)能夠在沒(méi)有第二人的對(duì)話上下文中評(píng)估語(yǔ)音通信系統(tǒng)的話音質(zhì)量的方法和設(shè)備?!?shí)施例提供了話音識(shí)別的利用和用于語(yǔ)音通信系統(tǒng)的話音質(zhì)量評(píng)估的話音產(chǎn)生工具。各種實(shí)施例涉及用于評(píng)估通信網(wǎng)絡(luò)的節(jié)點(diǎn)之間的對(duì)話話音質(zhì)量的方法,包括-通過(guò)通信網(wǎng)絡(luò),在用戶(hù)終端處的用戶(hù)和虛擬主體系統(tǒng)之間建立語(yǔ)音通信會(huì)話,所述虛擬主體系統(tǒng)以及用戶(hù)終端與所述通信網(wǎng)絡(luò)相連接,所述用戶(hù)終端使用戶(hù)能夠通過(guò)語(yǔ)音與所述虛擬主體系統(tǒng)進(jìn)行通信;-在所述會(huì)話期間,充當(dāng)與所述虛擬主體系統(tǒng)進(jìn)行語(yǔ)音對(duì)話的對(duì)話方,其中,所述虛擬主體系統(tǒng)裝配有話音產(chǎn)生模塊,用于在所述會(huì)話期間實(shí)現(xiàn)講話;以及語(yǔ)音識(shí)別模塊, 用于在所述會(huì)話期間實(shí)現(xiàn)對(duì)用戶(hù)話音的解譯;以及-基于所述會(huì)話期間的語(yǔ)音對(duì)話,評(píng)估通信網(wǎng)絡(luò)上的話音質(zhì)量,所述評(píng)估由用戶(hù)執(zhí)行。各種實(shí)施例涉及用于測(cè)試通信網(wǎng)絡(luò)的節(jié)點(diǎn)之間的對(duì)話話音質(zhì)量的設(shè)備,包括
-虛擬主體系統(tǒng),裝配有話音識(shí)別模塊和話音產(chǎn)生模塊,并被配置用于響應(yīng)于用戶(hù)通過(guò)與所述通信網(wǎng)絡(luò)相連的遠(yuǎn)程用戶(hù)終端開(kāi)始與所述虛擬主體系統(tǒng)進(jìn)行通信會(huì)話,作為收聽(tīng)者和說(shuō)話者參與與用戶(hù)的語(yǔ)音對(duì)話。-其中所述虛擬主體系統(tǒng)被配置用于識(shí)別話音評(píng)估測(cè)試,以輔助遠(yuǎn)程用戶(hù)基于與所述虛擬主體系統(tǒng)的語(yǔ)音對(duì)話,估計(jì)所述通信網(wǎng)絡(luò)上的對(duì)話質(zhì)量。有利地,用戶(hù)可以評(píng)估話音質(zhì)量或話音質(zhì)量對(duì)連接的所選條件的依賴(lài)性。
圖1是示出了語(yǔ)音通信系統(tǒng)的框圖,其中可以執(zhí)行對(duì)話測(cè)試方法的各種實(shí)施例。圖2是示出了根據(jù)本發(fā)明的對(duì)話上下文中話音質(zhì)量評(píng)估的步驟的流程圖。盡管附圖和具體實(shí)施方式
描述了一些實(shí)施例,但是本發(fā)明可以有其它的形式,并不限于附圖和具體實(shí)施方式
中描述的這些。
具體實(shí)施例方式可以根據(jù)話音質(zhì)量度量將針對(duì)這種話音質(zhì)量評(píng)估的方法分為兩大類(lèi)。第一個(gè)主觀方法是基于請(qǐng)參與者在不同類(lèi)型和/或數(shù)量的降級(jí)的情況下測(cè)試電信系統(tǒng),并以記數(shù)法對(duì)相應(yīng)的話音質(zhì)量進(jìn)行打分。為了減小單個(gè)參與者造成的主觀效果,可以平均參與者的打分。這會(huì)產(chǎn)生廣泛用作主觀度量的平均意見(jiàn)得分(MOS)。此外,話音質(zhì)量感知取決于將參與者置于其中的上下文,S卩,收聽(tīng)上下文、說(shuō)話上下文、或?qū)υ捝舷挛?。在收?tīng)測(cè)試中,參與者收聽(tīng)根據(jù)不同類(lèi)型和/或數(shù)量的降級(jí)制作的直播或錄播的音頻信號(hào)。然后,參與者建立他所感知和他/她所希望的之間的關(guān)系。作為針對(duì)收聽(tīng)測(cè)試中話音質(zhì)量評(píng)估的標(biāo)準(zhǔn),可以考慮話音失真(產(chǎn)生人類(lèi)說(shuō)話者不能明白的聲音的自然話音波形的變形)、活躍狀態(tài)與完全狀態(tài)的噪聲比(說(shuō)話時(shí)的級(jí)別與不說(shuō)話時(shí)的噪聲比之比)。 值得注意的是,可以考慮諸如音量和可懂度的其它質(zhì)量標(biāo)準(zhǔn)。這里,可懂度意味著話音的可理解度,即允許說(shuō)話者的聽(tīng)力和理解力滿足收聽(tīng)者。國(guó)際電信聯(lián)盟(ITU)在推薦P. 800中詳細(xì)描述如何進(jìn)行該測(cè)試,以及如何標(biāo)注話音質(zhì)量。作為話音質(zhì)量記數(shù)的示例,可以提及絕對(duì)分類(lèi)比率(ACR)方法以及降級(jí)分類(lèi)比率(DCR)方法。在說(shuō)話測(cè)試中,一個(gè)參與者必須在語(yǔ)音通信系統(tǒng)的一端說(shuō)話,以及另一個(gè)參與者收聽(tīng)從語(yǔ)音通信系統(tǒng)的另一端傳來(lái)的話音。然后,每個(gè)參與者意識(shí)到是否存在可感知的回聲(說(shuō)話者的話音信號(hào)以足夠的能量和時(shí)延反射回來(lái)源,以使其像話音一樣可聽(tīng)到和可感知)、以及遠(yuǎn)處的說(shuō)話者是否容易被聽(tīng)到、易于被理解以及能夠檢測(cè)清晰度的細(xì)微差別。作為示例性示例,參與者可以利用在ITU的推薦P. 800中定義的方法之一來(lái)評(píng)估所測(cè)試的條件。在對(duì)話測(cè)試中,每對(duì)參與者通過(guò)測(cè)試中的語(yǔ)音通信系統(tǒng)進(jìn)行對(duì)話。除了在收聽(tīng)和說(shuō)話上下文中所遇到的條件,對(duì)話測(cè)試可以包括(用戶(hù)停止說(shuō)話的時(shí)間與用戶(hù)聽(tīng)到響應(yīng)的時(shí)間之間的不尋常的長(zhǎng)時(shí)間暫停所造成的)對(duì)話節(jié)奏的中斷、以及雙向通信中的話音降級(jí)。短暫的對(duì)話測(cè)試場(chǎng)景已經(jīng)由ITU(P. 800以及ITU-T P. 805)為了該目的而創(chuàng)建。不像以上描述的主觀方法,第二類(lèi)使用客觀度量,以及通過(guò)使用參考模型(插入方法)或通過(guò)監(jiān)測(cè)降級(jí)的業(yè)務(wù)量(非插入方法)而依賴(lài)于計(jì)算話音失真。作為插入方法的示例,人們可以提及 PAQM、PSQM、PSQM+MNB、PAMS, PEAQ, TOSQA, T0SQA2100、EMBSD,以及 PESQ。非插入方法可以用于直播網(wǎng)絡(luò)中的話音質(zhì)量評(píng)估。ITU-T E模型是最廣泛使用的非插入語(yǔ)音質(zhì)量評(píng)估方法。在所有這些技術(shù)中,屬于第二類(lèi)的技術(shù)既不消耗時(shí)間,也不消耗成本。然而,就精確度而言,它們的結(jié)果通常需要由主觀的方法進(jìn)行驗(yàn)證或確認(rèn)。此外,它們不能估計(jì)對(duì)話上下文中的語(yǔ)音質(zhì)量。另外,在一些條件下穩(wěn)健的客觀度量不必要在其它條件下具有相同的性能。相反地,主觀方法精確地執(zhí)行,因?yàn)橛扇祟?lèi)主體給出質(zhì)量評(píng)估。更具體地,對(duì)話測(cè)試考慮所有的降級(jí)因素,以及綜合主觀方法的所有上下文。因此,從話音質(zhì)量評(píng)估的角度來(lái)看,由于以下原因,對(duì)話測(cè)試看起來(lái)是以上引用的方法中最有意思的工具-測(cè)試環(huán)境反映電信系統(tǒng)的具體使用(具體地,幾乎所有的電信技術(shù)實(shí)現(xiàn)對(duì)話上下文,即雙向通信);-由于對(duì)話方法受到收聽(tīng)方法中遇到的降級(jí)、說(shuō)話方法中遇到的降級(jí)、以及影響對(duì)話(雙向通信)的交互性的降級(jí)的影響,可以對(duì)更廣范圍的質(zhì)量標(biāo)準(zhǔn)進(jìn)行聯(lián)合評(píng)估。-所述測(cè)試允許以直接的方式獲得用戶(hù)的感知,因?yàn)轫憫?yīng)來(lái)自將使用語(yǔ)音通信系統(tǒng)的人。因此,對(duì)話測(cè)試是用于話音質(zhì)量評(píng)估的最可靠的媒介物。然而,這種主觀方法的優(yōu)勢(shì)被以下相抵-這種測(cè)試所需要的時(shí)間,因?yàn)樗鼈冃枰麄€(gè)對(duì)話期間對(duì)話方中的每一個(gè)都有空;-成本,因?yàn)樗鼈冊(cè)谥辈フZ(yǔ)音通信網(wǎng)絡(luò)上進(jìn)行操作;-在語(yǔ)音通信系統(tǒng)的對(duì)話信道的端點(diǎn)處的對(duì)話方的可用性;-話音質(zhì)量評(píng)估是路徑相關(guān)的,且如果兩個(gè)接入點(diǎn)之間的路徑改變,則典型地應(yīng)該再次進(jìn)行測(cè)試。這些缺點(diǎn)將在以下常用的示例中更顯而易見(jiàn)。語(yǔ)音通信服務(wù)的質(zhì)量已變成演進(jìn)的在線商務(wù)的重要問(wèn)題。實(shí)際上,正如商品的提供者或消費(fèi)者所感知的,話音通信質(zhì)量必須滿足特定的質(zhì)量等級(jí),從而可以正確地進(jìn)行交易。作為示例性示例,通過(guò)使用語(yǔ)音輸入/輸出的固定或移動(dòng)電話上的商業(yè)交易的擴(kuò)展在進(jìn)行任何金融交易或傳遞任何保密數(shù)據(jù)之前需要精確地對(duì)話測(cè)試。想要在直播廣播事件(例如直播電視或廣播節(jié)目)中參與語(yǔ)音通信系統(tǒng)(VoIP、 VoATM、VoFR、PSTN)的遠(yuǎn)處的用戶(hù)可以通過(guò)首先參與對(duì)話測(cè)試來(lái)進(jìn)行,從而在任何直播插入之前評(píng)估話音質(zhì)量。如果被呼叫的人沒(méi)空,則幾個(gè)移動(dòng)電信運(yùn)營(yíng)商不考慮話音質(zhì)量,提出邀請(qǐng)呼叫者在音調(diào)信號(hào)之后留下語(yǔ)音消息的服務(wù)。該步驟會(huì)導(dǎo)致由于話音失真或高噪聲電平而造成的不能理解的語(yǔ)音消息。作為非限制性示例,在與對(duì)話方相關(guān)的路徑中的大量的中間網(wǎng)絡(luò)節(jié)點(diǎn)的情況下, 或復(fù)雜的中間語(yǔ)音呼叫數(shù)據(jù)處理(編碼、交織等)的情況下,或通過(guò)網(wǎng)絡(luò)設(shè)備損壞(電磁噪聲、網(wǎng)絡(luò)資源不可用、異機(jī)種網(wǎng)絡(luò))的情況下,話音質(zhì)量會(huì)降級(jí)。因而,電信和數(shù)據(jù)運(yùn)營(yíng)商和制造商必須有規(guī)律地評(píng)估話音質(zhì)量,從而保持它們的客戶(hù)滿意度。結(jié)果,對(duì)話測(cè)試針對(duì)通信系統(tǒng)的話音質(zhì)量評(píng)估是可靠的。但是,上文中所提到的它們的缺點(diǎn)影響它們的適合性。可以在圖1中示出的數(shù)據(jù)通信系統(tǒng)中執(zhí)行這里描述的方法的各種實(shí)施例。-通信網(wǎng)絡(luò)1,例如ISDN、PSTN和/或因特網(wǎng)網(wǎng)絡(luò)或支持至少語(yǔ)音通信服務(wù)的任何協(xié)同網(wǎng)絡(luò);-實(shí)現(xiàn)通信網(wǎng)絡(luò)1上的至少語(yǔ)音通信的用戶(hù)終端2。作為非限制性示例,用戶(hù)終端 1可以包括移動(dòng)或固定電話、PDA(個(gè)人數(shù)字助理)、或配置用于通過(guò)分組交換網(wǎng)絡(luò)(VoIP、 VoATM等)進(jìn)行通信的任何其它電話。-與通信網(wǎng)絡(luò)1連接的服務(wù)器3。作為非限制性示例,服務(wù)器3可以是用戶(hù)終端2;-虛擬主體系統(tǒng)4;-用于語(yǔ)音音頻數(shù)據(jù)調(diào)度和傳輸?shù)穆曇艋螂娮右纛l接口5。聲音或電子音頻接口 5起到服務(wù)器3和虛擬主體系統(tǒng)4之間的控制和通信接口的作用。虛擬主體系統(tǒng)4包括-能夠解釋話音的話音識(shí)別模塊41;-話音產(chǎn)生器42;-控制模塊43,可以模擬不同的話音降級(jí)因素和/或遠(yuǎn)程控制用戶(hù)終端2和/或遠(yuǎn)程控制通信網(wǎng)絡(luò)1。虛擬主體系統(tǒng)4在所估計(jì)的通信上下文下必須具有響應(yīng)時(shí)間和比率方面的特定性能。響應(yīng)時(shí)間指虛擬主體系統(tǒng)4應(yīng)答其通信者所花費(fèi)的時(shí)間。這包括通信這所說(shuō)的話音識(shí)別時(shí)間,以及產(chǎn)生響應(yīng)所需的時(shí)間。經(jīng)常地,話音識(shí)別時(shí)間花費(fèi)大部分的響應(yīng)時(shí)間。一般表示為百分比的話音識(shí)別率指話音識(shí)別模塊41識(shí)別來(lái)自接口 5的所接收的話音的能力。根據(jù)REC ITU G. 114,如果響應(yīng)時(shí)間超過(guò)300ms (或等同地,150ms的最大傳輸單向延遲),則不再確保對(duì)話中的交互性。針對(duì)話音識(shí)別模塊41的話音識(shí)別的最大時(shí)間應(yīng)該基本上低于針對(duì)交互式對(duì)話的語(yǔ)音通信系統(tǒng)所允許的預(yù)選最大單向延遲。NUANCE公司所生產(chǎn)和銷(xiāo)售的語(yǔ)音識(shí)別模塊NUANCE8. 5揭示了大約20ms的單詞識(shí)別時(shí)間和大約50ms的單句識(shí)別時(shí)間(自然語(yǔ)言理解)。因而,具有這些類(lèi)型的話音識(shí)別模塊的虛擬主體系統(tǒng)4的實(shí)施例將能夠滿足REC ITU-T G. 114的時(shí)間約束。與150ms相比,具有較少響應(yīng)時(shí)間的話音識(shí)別模塊41平緩地保持對(duì)話中的交互性。此外,響應(yīng)時(shí)間獨(dú)立于通過(guò)話音質(zhì)量評(píng)估檢測(cè)其影響的降級(jí)因素。話音識(shí)別模塊41的響應(yīng)時(shí)間和通過(guò)語(yǔ)音通信網(wǎng)絡(luò)1上的鏈接用戶(hù)終端2和服務(wù)器3的通信路徑的傳輸時(shí)間之比影響話音質(zhì)量評(píng)估。該比越低,話音識(shí)別對(duì)評(píng)估的影響就越小。不考慮通過(guò)鏈接用戶(hù)終端2和服務(wù)器3的通信路徑的傳輸時(shí)間,具有大約Ims或更少的響應(yīng)時(shí)間的話音識(shí)別模塊41應(yīng)該適合這里描述的許多實(shí)施例。在話音質(zhì)量評(píng)估期間,話音識(shí)別比率優(yōu)選地高,例如至少90%的比率以及優(yōu)選地大約100%的比率(不考慮降級(jí)因素),從而防止虛擬主體系統(tǒng)4和使用用戶(hù)終端2的人之間的受控對(duì)話中的中斷。話音識(shí)別模塊也應(yīng)該具有低的響應(yīng)時(shí)間。尤其是,模塊的響應(yīng)時(shí)間應(yīng)該足夠低,從而虛擬主體系統(tǒng)4以不會(huì)可察覺(jué)地降低與人的語(yǔ)音對(duì)話的交互性的方式,控制與人類(lèi)對(duì)話方的語(yǔ)音對(duì)話。有利地,Alcatel-Lucent公司關(guān)于語(yǔ)音識(shí)別模塊NUANCE 8. 5進(jìn)行的先進(jìn)的研究(Docman Document η ° 3EU_29000_0045_UUZZA,"Etude du temps de reponse du CCivr 4625associe au module de reconnaissance vocale Nuance 8. 5,,, Docman Document n° 3EU_29000_0031_UUZZB, "Rapport d' etude de la relation entre taux de reconnaissance vocale Nuance et note PESQ sur architecture OXE IP Basic Link Gateway-Gateway en reseau IP perturbe")總結(jié)出,以針對(duì)句子大約100%的識(shí)別率,針對(duì)不同的IP損害(隨機(jī)和猝發(fā)損失達(dá)12%、抖動(dòng)達(dá)200ms、以及耦合損失和抖動(dòng))是不敏感的。在話音識(shí)別模塊41是語(yǔ)音識(shí)別模塊NUANCE 8. 5或在時(shí)延和識(shí)別率方面具有類(lèi)似性能或更好性能的任何其它等同產(chǎn)品的實(shí)施例中,不考慮通過(guò)鏈接虛擬主體系統(tǒng)4和用戶(hù)終端2的通信路徑的傳輸時(shí)間,虛擬主體系統(tǒng)4可以直接取代傳統(tǒng)測(cè)試中的人。話音產(chǎn)生器42包括-能夠?qū)⑷魏挝谋巨D(zhuǎn)換為口語(yǔ)單詞的文本至話音產(chǎn)生器(TTS);和/或-語(yǔ)音音頻文件產(chǎn)生器。在通信網(wǎng)絡(luò)1的兩個(gè)節(jié)點(diǎn)之間的連接的不同條件下的話音質(zhì)量評(píng)估的情況下,控制模塊43允許改變第一節(jié)點(diǎn)(用戶(hù)終端幻和第二節(jié)點(diǎn)(服務(wù)器幻之間的通信連接的一個(gè)或多個(gè)條件,從而用戶(hù)終端2的用戶(hù)可以針對(duì)不同的連接條件評(píng)估對(duì)話話音的質(zhì)量??刂颇K43能夠針對(duì)所建立的語(yǔ)音對(duì)話同時(shí)或單獨(dú)地模擬不同降級(jí)因素的效果。例如,控制模塊43允許添加具有不同電平的噪聲、應(yīng)用話音失真、模擬回聲等。控制模塊43能夠例如通過(guò)改變語(yǔ)音編碼,遠(yuǎn)程控制用戶(hù)終端2和/或通信網(wǎng)絡(luò)1。網(wǎng)絡(luò)1上的用戶(hù)終端2和虛擬主體系統(tǒng)4之間的評(píng)估對(duì)話可以是適合的受控對(duì)話,換言之,可以從預(yù)定的短對(duì)話測(cè)試(SCT)場(chǎng)景中進(jìn)行選擇。這種對(duì)話稱(chēng)為受控對(duì)話,因?yàn)樗鼈儾皇怯脩?hù)之間的自由或自發(fā)對(duì)話。已經(jīng)在文獻(xiàn)(ITU-RecP. 805, ffiegelmann-1997, Μθ! Ιθ _2000 ^ 中描述了不同類(lèi)型的短對(duì)話測(cè)試(SCT)場(chǎng)景,其中對(duì)話方具有它們各自的角色。相應(yīng)的測(cè)試場(chǎng)景代表諸如預(yù)定飛機(jī)票、訂購(gòu)披薩餅等之類(lèi)的實(shí)際生活的電話場(chǎng)景。短對(duì)話測(cè)試場(chǎng)景導(dǎo)致短持續(xù)時(shí)間的自然和均衡的對(duì)話。短對(duì)話測(cè)試場(chǎng)景允許包括在經(jīng)典對(duì)話中的所有階段(即,包括對(duì)話參與者導(dǎo)致的中斷的聽(tīng)、說(shuō)、和雙向通信階段)的重新創(chuàng)建。也可以在文獻(xiàn)中區(qū)分更加不切實(shí)際的對(duì)話測(cè)試場(chǎng)景,如在電話上玩游戲,盡可能快地讀取隨機(jī)數(shù)字(Kitawaki和ltoh-1991)。使用游戲(play)具有更容易地建立識(shí)別模塊41的優(yōu)勢(shì),然而,需要相互中斷的預(yù)期實(shí)現(xiàn)。在REC ITU-T P. 805中定義的交互式短對(duì)話場(chǎng)景的使用需要具有復(fù)雜語(yǔ)法的語(yǔ)音識(shí)別模塊的實(shí)施方式,以及優(yōu)選地具有自然發(fā)生的中斷的實(shí)施方式。虛擬主體系統(tǒng)4稱(chēng)為“虛擬”是因?yàn)橹黧w4是扮演傳統(tǒng)對(duì)話測(cè)試中第二個(gè)人的角色的機(jī)器。有利地,可以通過(guò)實(shí)現(xiàn)語(yǔ)音激活檢測(cè)(VAD)模塊(沒(méi)有在附圖中示出),在虛擬主體系統(tǒng)4側(cè)管理人和虛擬主體系統(tǒng)4之間的中斷。語(yǔ)音激活檢測(cè)可以容易地在接口 5上實(shí)現(xiàn),以檢測(cè)當(dāng)前幀(輸入/輸出)是正在接收話音的間隔,還是應(yīng)該傳送話音的間隔,并相應(yīng)地控制虛擬主體4 (轉(zhuǎn)發(fā)、靜音等)??梢酝ㄟ^(guò)使用用戶(hù)終端2的人主觀地進(jìn)行話音質(zhì)量評(píng)估。當(dāng)然,該評(píng)估可以表示為諸如“極好”、“良好”、“一般”、“不好”、“差”之類(lèi)的分類(lèi)主觀描述符,或?qū)?shù)值分配給主觀描述符中的每個(gè),或表達(dá)關(guān)于所用系統(tǒng)的整體印象和滿意度。此外,該對(duì)話測(cè)試可以評(píng)估整體的話音質(zhì)量或每降級(jí)因素的話音質(zhì)量?,F(xiàn)在參照?qǐng)D2,可以如以下實(shí)現(xiàn)話音質(zhì)量評(píng)估-在用戶(hù)終端2和服務(wù)器3之間建立(10)語(yǔ)音通信會(huì)話。可以通過(guò)用戶(hù)終端2或服務(wù)器3直接或間接地發(fā)起該會(huì)話;-發(fā)起00)虛擬主體系統(tǒng)4和用戶(hù)終端2的用戶(hù)之間的語(yǔ)音對(duì)話。語(yǔ)音對(duì)話發(fā)起允許從游戲列表或短對(duì)話測(cè)試場(chǎng)景列表中選擇語(yǔ)音對(duì)話場(chǎng)景。它也允許定義將會(huì)評(píng)估對(duì)話話音的連接條件。-根據(jù)所選擇的對(duì)話場(chǎng)景和連接條件,進(jìn)行(30)用戶(hù)終端2的用戶(hù)和虛擬主體系統(tǒng)4之間的語(yǔ)音對(duì)話;-通過(guò)用戶(hù)終端2的用戶(hù),評(píng)估00)語(yǔ)音對(duì)話內(nèi)的話音質(zhì)量。可以在語(yǔ)音對(duì)話期間、在語(yǔ)音對(duì)話結(jié)束時(shí)、或兩者完成話音質(zhì)量的評(píng)估。-附加步驟(50)可以添加至前述步驟,以及可以包括基于話音質(zhì)量評(píng)估結(jié)果的任何行為,例如轉(zhuǎn)發(fā)通信會(huì)話,關(guān)閉通信會(huì)話等。通過(guò)定義默認(rèn)對(duì)話場(chǎng)景和/或默認(rèn)連接條件,可以跳過(guò)發(fā)起OO)語(yǔ)音對(duì)話的步
馬聚ο在語(yǔ)音對(duì)話發(fā)起OO)期間,虛擬主體可以邀請(qǐng)用戶(hù)終端2的用戶(hù)從對(duì)話場(chǎng)景的預(yù)定列表中選擇對(duì)話場(chǎng)景,以及從連接條件的預(yù)定列表中選擇一個(gè)或多個(gè)連接條件。對(duì)話場(chǎng)景的預(yù)定列表可以包括短對(duì)話測(cè)試(SCT)場(chǎng)景、播放場(chǎng)景或?qū)傩浴T搶傩砸獋魉偷接脩?hù),從而由其評(píng)估語(yǔ)音對(duì)話期間屬性的值。一旦發(fā)起語(yǔ)音通信會(huì)話,話音識(shí)別模塊41根據(jù)所選擇的連接條件配置控制模塊 43。在另一個(gè)實(shí)施例中,不需要應(yīng)用連接條件。在這種情況下,控制模塊43是被動(dòng)的。當(dāng)用戶(hù)終端2的用戶(hù)在語(yǔ)音對(duì)話中說(shuō)話時(shí),將他的話音引導(dǎo)至話音識(shí)別模塊41進(jìn)行解譯。通過(guò)話音識(shí)別模塊41對(duì)用戶(hù)終端2的用戶(hù)的話音的識(shí)別啟動(dòng)話音產(chǎn)生器42 (話音音頻文件產(chǎn)生器或文本至話音產(chǎn)生器)來(lái)產(chǎn)生鏈接至控制模塊43所模擬的連接條件下所識(shí)別的用戶(hù)話音的話音。
8
權(quán)利要求
1.一種用于評(píng)估通信網(wǎng)絡(luò)(1)的節(jié)點(diǎn)之間的對(duì)話話音質(zhì)量的方法,包括-經(jīng)由通信網(wǎng)絡(luò)(1),在用戶(hù)終端( 處的用戶(hù)和虛擬主體系統(tǒng)(4)之間建立語(yǔ)音通信會(huì)話,所述虛擬主體系統(tǒng)(4)以及用戶(hù)終端( 與所述通信網(wǎng)絡(luò)(1)相連接,所述用戶(hù)終端使用戶(hù)能夠通過(guò)語(yǔ)音與所述虛擬主體系統(tǒng)(4)進(jìn)行通信;-在所述會(huì)話期間,充當(dāng)與所述虛擬主體系統(tǒng)(4)進(jìn)行語(yǔ)音對(duì)話的對(duì)話方,其中,所述虛擬主體系統(tǒng)裝配有話音產(chǎn)生模塊(42),用于在所述會(huì)話期間實(shí)現(xiàn)講話;以及語(yǔ)音識(shí)別模塊(41),用于在所述會(huì)話期間實(shí)現(xiàn)對(duì)用戶(hù)話音的解譯;以及-基于所述會(huì)話期間的語(yǔ)音對(duì)話,評(píng)估通信網(wǎng)絡(luò)上的話音質(zhì)量,所述評(píng)估由用戶(hù)執(zhí)行。
2.如權(quán)利要求1所述的方法,其中由描述符和/或數(shù)值來(lái)表示對(duì)話音質(zhì)量的評(píng)估。
3.如權(quán)利要求1所述的方法,其中所述話音對(duì)話是預(yù)定對(duì)話測(cè)試場(chǎng)景。
4.如權(quán)利要求1或3所述的方法,其中所述語(yǔ)音對(duì)話是短對(duì)話測(cè)試(SCT)場(chǎng)景或游戲場(chǎng)景。
5.一種用于測(cè)試通信網(wǎng)絡(luò)(1)的節(jié)點(diǎn)之間的話音質(zhì)量的方法,包括-經(jīng)由通信網(wǎng)絡(luò)建立與遠(yuǎn)程終端( 處的用戶(hù)的語(yǔ)音通信會(huì)話,所述通信會(huì)話在虛擬主體系統(tǒng)⑷和遠(yuǎn)程終端⑵處的用戶(hù)之間,所述虛擬主體系統(tǒng)⑷以及用戶(hù)終端⑵與所述通信網(wǎng)絡(luò)(1)相連接;-在所述會(huì)話期間,參與與用戶(hù)的語(yǔ)音對(duì)話,由虛擬主體系統(tǒng)(4)來(lái)執(zhí)行參與行為,所述虛擬主體系統(tǒng)裝配有話音產(chǎn)生模塊0 和語(yǔ)音識(shí)別模塊(41),從而虛擬主體系統(tǒng)(4)能夠作為對(duì)話參與者進(jìn)行操作;以及-其中所述虛擬主體系統(tǒng)被配置為輔助用戶(hù)評(píng)估所述通信網(wǎng)絡(luò)上的對(duì)話話音質(zhì)量。
6.如權(quán)利要求5所述的方法,其中所述虛擬主體系統(tǒng)不評(píng)估對(duì)話期間的話音質(zhì)量。
7.如權(quán)利要求5所述的方法,其中所述虛擬主體系統(tǒng)將屬性列表傳送至用戶(hù),從而用戶(hù)能夠評(píng)估在語(yǔ)音對(duì)話期間的屬性值。
8.如權(quán)利要求5所述的方法,其中所述虛擬主體系統(tǒng)被配置為改變所述會(huì)話期間通信連接的一個(gè)或多個(gè)條件,從而用戶(hù)能夠針對(duì)不同的連接條件來(lái)估計(jì)對(duì)話話音的質(zhì)量。
9.一種用于測(cè)試通信網(wǎng)絡(luò)(1)的節(jié)點(diǎn)之間的對(duì)話話音質(zhì)量的設(shè)備,包括-虛擬主體系統(tǒng)G),裝配有話音識(shí)別模塊Gl)和話音產(chǎn)生模塊(42),以及被配置為 響應(yīng)于用戶(hù)經(jīng)由與所述通信網(wǎng)絡(luò)連接的遠(yuǎn)程用戶(hù)終端開(kāi)始與所述虛擬主體系統(tǒng)(4)進(jìn)行通信會(huì)話,作為收聽(tīng)者和說(shuō)話者參與與用戶(hù)的語(yǔ)音對(duì)話。-其中所述虛擬主體系統(tǒng)被配置為識(shí)別話音評(píng)估測(cè)試,以輔助遠(yuǎn)程用戶(hù)基于與所述虛擬主體系統(tǒng)(4)的語(yǔ)音對(duì)話,估計(jì)所述通信網(wǎng)絡(luò)上的對(duì)話質(zhì)量。
10.如權(quán)利要求9所述的設(shè)備,其中所述虛擬主體系統(tǒng)不能評(píng)估對(duì)話期間的話音質(zhì)量。
11.如權(quán)利要求9所述的設(shè)備,其中所述虛擬主體系統(tǒng)被配置為將屬性列表傳送至用戶(hù),從而用戶(hù)能夠評(píng)估語(yǔ)音對(duì)話期間的屬性值。
12.如權(quán)利要求9所述的設(shè)備,其中所述虛擬主體系統(tǒng)被配置為改變所述會(huì)話期間通信連接的一個(gè)或多個(gè)條件,從而用戶(hù)能夠針對(duì)不同的連接條件來(lái)估計(jì)對(duì)話話音的質(zhì)量。
13.如權(quán)利要求9所述的設(shè)備,其中所述話音識(shí)別模塊具有至少90%的話音識(shí)別率,以及足夠短的、基本不減少語(yǔ)音對(duì)話中的所感知的交互性的響應(yīng)時(shí)間。
全文摘要
一種用于評(píng)估通信網(wǎng)絡(luò)(1)的節(jié)點(diǎn)之間的對(duì)話話音質(zhì)量的方法,包括經(jīng)由通信網(wǎng)絡(luò)(1),在用戶(hù)終端(2)處的用戶(hù)和虛擬主體系統(tǒng)(4)之間建立語(yǔ)音通信會(huì)話,所述虛擬主體系統(tǒng)(4)以及用戶(hù)終端(2)與所述通信網(wǎng)絡(luò)(1)相連接,所述用戶(hù)終端使用戶(hù)能夠通過(guò)語(yǔ)音與所述虛擬主體系統(tǒng)(4)進(jìn)行通信;在所述會(huì)話期間,作為與所述虛擬主體系統(tǒng)(4)進(jìn)行語(yǔ)音對(duì)話的對(duì)話方,所述虛擬主體系統(tǒng)裝配有話音產(chǎn)生模塊(42),用于在所述會(huì)話期間實(shí)現(xiàn)講話;以及語(yǔ)音識(shí)別模塊(41),用于在所述會(huì)話期間實(shí)現(xiàn)對(duì)用戶(hù)話音的解譯;以及基于所述會(huì)話期間的語(yǔ)音對(duì)話,評(píng)估通信網(wǎng)絡(luò)上的話音質(zhì)量,所述評(píng)估通過(guò)用戶(hù)執(zhí)行。
文檔編號(hào)H04M3/22GK102239519SQ200980148404
公開(kāi)日2011年11月9日 申請(qǐng)日期2009年11月24日 優(yōu)先權(quán)日2008年12月5日
發(fā)明者尼古拉斯·川考特 申請(qǐng)人:阿爾卡特朗訊