一種通話時(shí)延評(píng)估方法及裝置的制造方法
【專利摘要】本申請(qǐng)公開(kāi)了一種通話時(shí)延評(píng)估方法,第一客戶端和第二客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在第一客戶端發(fā)送和接收語(yǔ)音的同時(shí)緩存發(fā)送或接收的語(yǔ)音數(shù)據(jù),從而獲得發(fā)送錄音和接收錄音;獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;對(duì)于發(fā)送錄音中每個(gè)完整語(yǔ)段i,標(biāo)識(shí)完整語(yǔ)段i的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i的結(jié)束時(shí)刻TS_stop(i);對(duì)于接收錄音中每個(gè)完整語(yǔ)段j,標(biāo)識(shí)完整語(yǔ)段j的語(yǔ)音開(kāi)始時(shí)刻TR_start(j)。檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的語(yǔ)音開(kāi)始時(shí)刻TR_start(j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)=TR_start(j)?TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)=0;根據(jù)所獲得的響應(yīng)時(shí)延,過(guò)濾無(wú)效響應(yīng)時(shí)延數(shù)據(jù)并運(yùn)用直方圖統(tǒng)計(jì)方式估計(jì)通話時(shí)延的方法。本申請(qǐng)還公開(kāi)了一種通話時(shí)延評(píng)估裝置。
【專利說(shuō)明】
一種通話時(shí)延評(píng)估方法及裝置
技術(shù)領(lǐng)域
[0001 ]本申請(qǐng)涉及無(wú)線通信技術(shù)領(lǐng)域,尤其涉及一種通話時(shí)延評(píng)估方法及裝置。
【背景技術(shù)】
[0002]對(duì)于海量用戶的語(yǔ)音通話業(yè)務(wù),語(yǔ)音質(zhì)量監(jiān)控是一項(xiàng)重要而復(fù)雜困難的任務(wù),因?yàn)槊看瓮ㄔ捝婕安煌挠脩艚K端、不同的數(shù)據(jù)鏈路路徑及網(wǎng)元,不同的網(wǎng)絡(luò)供應(yīng)商,不同的語(yǔ)音信號(hào)處理過(guò)程。常規(guī)的評(píng)價(jià)語(yǔ)音通話指標(biāo)主要包括:平均通話時(shí)長(zhǎng)(ACD)、接通率(ASR)、平均主觀意見(jiàn)分(MOS)等。除此之外,通話時(shí)延也是影響通話雙方通話效果的重要因素。通話時(shí)延指的是當(dāng)客戶端A和客戶端B進(jìn)行無(wú)線通話時(shí),聲音信號(hào)從客戶端A傳送到客戶端B所需要的時(shí)間。
[0003]通話時(shí)延過(guò)大將直接影響通話效率,讓說(shuō)話人感覺(jué)交流不暢,時(shí)延嚴(yán)重情況下較難正常交流。當(dāng)前,基于互聯(lián)網(wǎng)的VoIP業(yè)務(wù)已經(jīng)被廣泛應(yīng)用,而VoIP語(yǔ)音服務(wù)和2/3G網(wǎng)絡(luò)的交換線路(CS)語(yǔ)音業(yè)務(wù)一直共存并且互融互通,互聯(lián)網(wǎng)復(fù)雜的拓?fù)浣Y(jié)構(gòu)導(dǎo)致端到端的網(wǎng)絡(luò)時(shí)延存在極大的不確定性。通話時(shí)延和網(wǎng)絡(luò)時(shí)延的差別在于:網(wǎng)絡(luò)時(shí)延是數(shù)據(jù)包經(jīng)過(guò)網(wǎng)絡(luò)傳輸所需要的時(shí)間,而通話時(shí)延包含網(wǎng)絡(luò)時(shí)延,另外,通話時(shí)延是聲音傳遞所需的時(shí)間,所以還包含了聲學(xué)采集播放設(shè)備的傳送時(shí)延。由于聲學(xué)采集播放時(shí)延相對(duì)網(wǎng)絡(luò)時(shí)延是一個(gè)比較穩(wěn)定的參數(shù),并且網(wǎng)絡(luò)時(shí)延占通話時(shí)延的比例較大,因此評(píng)估VoIP業(yè)務(wù)的通話時(shí)延,實(shí)際上主要考慮網(wǎng)絡(luò)通話中網(wǎng)絡(luò)時(shí)延的影響。
[0004]對(duì)于網(wǎng)絡(luò)時(shí)延測(cè)試,主要有兩個(gè)計(jì)算指標(biāo):I)單向時(shí)延(0WD,0neWay Delay)和往返時(shí)延(RTT,RoundTrip Time) C3OWD需要在發(fā)送和接收方時(shí)鐘同步情況下獲取數(shù)據(jù)發(fā)送和接收時(shí)間,而在當(dāng)前互聯(lián)網(wǎng)環(huán)境下缺乏終端時(shí)鐘的同步要求,難以完成大規(guī)模的OWD計(jì)算,而RTT表示從發(fā)送端發(fā)送數(shù)據(jù)開(kāi)始,到發(fā)送端收到來(lái)自接收端的確認(rèn)(接收端收到數(shù)據(jù)后便立即發(fā)送確認(rèn)),總共經(jīng)歷的時(shí)延。
[0005]我們需要解決的問(wèn)題是如何對(duì)海量實(shí)時(shí)通話進(jìn)行通話時(shí)延分析,而這些通話有可能涉及不同網(wǎng)絡(luò)(例如VoIP to PSTN),并且通話雙方也可能位于不同地點(diǎn),現(xiàn)有技術(shù)中沒(méi)有合適的通話時(shí)延評(píng)估方案。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供了一種通話時(shí)延評(píng)估方法及系統(tǒng),可以對(duì)實(shí)時(shí)通話進(jìn)行有效的時(shí)延分析。
[0007]本發(fā)明的一個(gè)實(shí)施例提供了一種通話時(shí)延評(píng)估方法,包括:
[0008]第一客戶端和第二客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在第一客戶端發(fā)送和接收語(yǔ)音的同時(shí)啟動(dòng)雙向錄音以獲得發(fā)送錄音和接收錄音,獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間;
[0009]對(duì)于發(fā)送錄音中的每個(gè)完整語(yǔ)段i,標(biāo)識(shí)完整語(yǔ)段i的持續(xù)語(yǔ)音片段開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i結(jié)束時(shí)刻TS_stop(i),i為發(fā)送錄音中完整語(yǔ)段的序號(hào);標(biāo)識(shí)接收錄音中每個(gè)完整語(yǔ)段j的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TR_start(j),j為接收錄音中完整語(yǔ)段的序號(hào);
[0010]對(duì)于發(fā)送錄音中每個(gè)完整語(yǔ)段i,檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的TR_start(j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) = TR_start( j)_TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) =0;
[0011 ]根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延。
[0012]本發(fā)明的另一個(gè)實(shí)施例提供了一種通話時(shí)延評(píng)估裝置,包括:
[0013]錄音模塊,用于在本客戶端與其他客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在本客戶端發(fā)送和接收語(yǔ)音的同時(shí)啟動(dòng)雙向錄音以獲得發(fā)送錄音和接收錄音;
[0014]完整語(yǔ)段標(biāo)識(shí)模塊,用于獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間;
[0015]時(shí)間標(biāo)識(shí)模塊,用于標(biāo)識(shí)發(fā)送錄音中每個(gè)完整語(yǔ)段i的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i結(jié)束時(shí)刻TS_stop(i),i為發(fā)送錄音中完整語(yǔ)段的序號(hào);標(biāo)識(shí)接收錄音中完整語(yǔ)段j的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TR_start(j),j為接收錄音中完整語(yǔ)段的序號(hào);
[0016]響應(yīng)時(shí)延計(jì)算模塊,用于針對(duì)發(fā)送錄音中每個(gè)完整語(yǔ)段i,檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的TR_start( j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay (i) =TR_start( j )-TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) =0;
[0017]通話時(shí)延模塊,用于根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延。
[0018]從以上技術(shù)方案可以看出,在通話客戶端中獲取發(fā)送錄音和接收錄音的完整語(yǔ)段,將發(fā)送錄音的結(jié)束時(shí)刻與接收錄音的起始時(shí)刻之間的間隔作為響應(yīng)時(shí)延,并進(jìn)一步得到通話時(shí)延。從整體宏觀數(shù)據(jù)而言,正常人的聽(tīng)說(shuō)響應(yīng)差異偏差值相對(duì)于通話時(shí)延要小,因此該方案得到的通話時(shí)延估計(jì)值具有較高可信度,可用于對(duì)網(wǎng)絡(luò)時(shí)延進(jìn)行評(píng)估。該方案僅用于單側(cè)客戶端,對(duì)于通話涉及的網(wǎng)絡(luò)沒(méi)有限定,對(duì)于通話雙方的地點(diǎn)也沒(méi)有要求,可以用于海量實(shí)時(shí)通話的的時(shí)延分析。
【附圖說(shuō)明】
[0019]為了更清楚的說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單的介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)說(shuō),在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。其中,
[0020]圖1為本發(fā)明實(shí)施例所涉及的實(shí)施環(huán)境示意圖。
[0021 ]圖2A為本發(fā)明實(shí)施例提供的一種通話時(shí)延評(píng)估方法流程圖;
[0022]圖2B為本發(fā)明實(shí)施例提供的一種通話時(shí)延評(píng)估方法流程示意圖;
[0023]圖3為圖2所示流程中步驟202-203的實(shí)施過(guò)程中語(yǔ)音信號(hào)的處理示意圖;
[0024]圖4為本發(fā)明實(shí)施例中的有效的響應(yīng)時(shí)延直方圖;
[0025]圖5為本發(fā)明實(shí)施例提供的通話時(shí)延評(píng)估裝置示意圖。
[0026]圖6為本發(fā)明另一實(shí)施例提供的通話客戶端示意圖。
【具體實(shí)施方式】
[0027]下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0028]圖1為本發(fā)明實(shí)施例所涉及的實(shí)施環(huán)境示意圖。參見(jiàn)圖1,該通話時(shí)延評(píng)估系統(tǒng)包括:第一客戶端101、網(wǎng)絡(luò)102和第二客戶端103。第一客戶端101和第二客戶端103之間通過(guò)網(wǎng)絡(luò)102建立通話鏈路,其中,該通話鏈路在網(wǎng)絡(luò)102可以途經(jīng)一種或多種類型的通信網(wǎng)絡(luò),包括但不限于交換線路、2G/3G/4G/5G移動(dòng)網(wǎng)絡(luò)、互聯(lián)網(wǎng)等,本發(fā)明對(duì)此不作限定。較佳地,所述客戶端為智能手機(jī)。
[0029]本發(fā)明是一種基于通話行為分析的通話往返時(shí)延估計(jì)方案,無(wú)需專業(yè)測(cè)量?jī)x器、無(wú)需修改通訊協(xié)議,可以監(jiān)控每路通話的時(shí)延情況。例如,第一客戶端101和第二客戶端103雙方通話,當(dāng)?shù)谝豢蛻舳?01發(fā)起語(yǔ)音通話后,第二客戶端103可能有三種狀態(tài):聽(tīng)后回應(yīng)、靜默無(wú)言、未等第一客戶端101說(shuō)完搶話。從正常通話行為分析,“聽(tīng)后回應(yīng)”的概率是最大的,其響應(yīng)時(shí)延可用如下公式計(jì)算:
[0030]聽(tīng)后回應(yīng)的響應(yīng)時(shí)延=通話時(shí)延+人的聽(tīng)說(shuō)響應(yīng)時(shí)間;
[0031 ]而“人的聽(tīng)說(shuō)響應(yīng)時(shí)間”可以使用一個(gè)經(jīng)驗(yàn)值代替。
[0032]因此,如果統(tǒng)計(jì)出“聽(tīng)后回應(yīng)”場(chǎng)景的響應(yīng)時(shí)延,則可以得到:
[0033]通話時(shí)延估計(jì)值=響應(yīng)時(shí)延-人的聽(tīng)說(shuō)響應(yīng)時(shí)間。
[0034]由于人的聽(tīng)說(shuō)響應(yīng)時(shí)間會(huì)根據(jù)每個(gè)個(gè)體存在差異,但是從整體宏觀數(shù)據(jù)而言,正常人的聽(tīng)說(shuō)響應(yīng)差異偏差值相對(duì)于通話時(shí)延要小,所以本方案用于判別通話時(shí)延是否超大異常,用于定位網(wǎng)絡(luò)問(wèn)題應(yīng)該是可行的。
[0035]本發(fā)明方案是基于通話雙方其中一個(gè)終端的發(fā)送、接收方向的錄音文件進(jìn)行分析,從而得到響應(yīng)時(shí)間;通過(guò)統(tǒng)計(jì)方法得到概率最大的響應(yīng)時(shí)間,即B方“聽(tīng)后回應(yīng)”的響應(yīng)時(shí)間,進(jìn)而可以估計(jì)通話時(shí)延值。
[0036]本發(fā)明實(shí)施例提供的一種通話時(shí)延評(píng)估方法流程如圖2A所示,包括:
[0037]步驟201a:第一客戶端和第二客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在第一客戶端發(fā)送和接收語(yǔ)音的同時(shí)啟動(dòng)雙向錄音以獲得發(fā)送錄音和接收錄音,獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間;
[0038]步驟202a:對(duì)于發(fā)送錄音中的每個(gè)完整語(yǔ)段i,標(biāo)識(shí)完整語(yǔ)段i的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i結(jié)束時(shí)刻TS_stop(i),i為發(fā)送錄音中完整語(yǔ)段的序號(hào);標(biāo)識(shí)接收錄音中每個(gè)完整語(yǔ)段j的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TR_start(j),j為接收錄音中完整語(yǔ)段的序號(hào);
[0039]步驟203a:對(duì)于發(fā)送錄音中每個(gè)完整語(yǔ)段i,檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的TR_start(j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) = TR_start( j)-TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) =0;
[0040]步驟204a:根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延。
[0041]在上述流程中,在通話客戶端中獲取發(fā)送錄音和接收錄音的完整語(yǔ)段,將發(fā)送錄音中持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻與接收錄音中持續(xù)語(yǔ)音片段的起始時(shí)刻之間的間隔作為響應(yīng)時(shí)延,并進(jìn)一步得到通話時(shí)延。從整體宏觀數(shù)據(jù)而言,正常人的聽(tīng)說(shuō)響應(yīng)差異偏差值相對(duì)于通話時(shí)延要小,因此該方案得到的通話時(shí)延估計(jì)值具有較高可信度,可用于對(duì)網(wǎng)絡(luò)時(shí)延進(jìn)行評(píng)估。該方案僅用于單側(cè)客戶端,對(duì)于通話涉及的網(wǎng)絡(luò)沒(méi)有限定,對(duì)于通話雙方的地點(diǎn)也沒(méi)有要求,可以用于海量實(shí)時(shí)通話的時(shí)延分析。
[0042]以下對(duì)該方案進(jìn)行進(jìn)一步詳述。
[0043]本發(fā)明實(shí)施例提供的又一種通話時(shí)延評(píng)估方法流程如圖2B所示,包括如下步驟:
[0044]步驟201b:第一客戶端和第二客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫,在其中一個(gè)客戶端(例如第一客戶端)發(fā)送和接收語(yǔ)音的同時(shí)緩存發(fā)送或接收的語(yǔ)音數(shù)據(jù),分別得到發(fā)送錄音和接收錄音。
[0045]步驟202b:分別對(duì)發(fā)送、接收錄音進(jìn)行語(yǔ)音活動(dòng)檢測(cè)(Vo i ce ActivityDetect1n,VAD),標(biāo)識(shí)得到大小不等的語(yǔ)音塊。
[0046]步驟203b:對(duì)時(shí)間間隔小于第一閾值的語(yǔ)音塊進(jìn)行合并,分別得到發(fā)送、接收錄音中的完整語(yǔ)段。每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間;其中,持續(xù)語(yǔ)音片段即前述相互合并后的語(yǔ)音塊。
[0047]在本實(shí)施例中,第一閾值取為50至100個(gè)語(yǔ)音幀。如每幀時(shí)長(zhǎng)為20ms,第一閾值的時(shí)長(zhǎng)為I秒至2秒。
[0048]圖3給出了上述步驟202-203的實(shí)施過(guò)程中語(yǔ)音信號(hào)的處理示意圖。原始語(yǔ)音信號(hào)如圖3(a)所示,首先做語(yǔ)音活動(dòng)檢測(cè),標(biāo)識(shí)出每個(gè)語(yǔ)音小塊,如圖3(b)所示;然后將時(shí)間間隔小于第一閾值的語(yǔ)音塊合并,得到完整語(yǔ)段的持續(xù)語(yǔ)音片段,如圖3(c)所示,將持續(xù)語(yǔ)音片段加上下一語(yǔ)段前的靜默部分就得到完整語(yǔ)段,如圖3(d)所示。
[0049]所述完整語(yǔ)段指的是通話的一方一次連續(xù)說(shuō)話的語(yǔ)音,其中可能包括一個(gè)或若干的自然語(yǔ)句。
[0050]通常,一次完整通話可以看作通話雙方交替進(jìn)行發(fā)言。其中,任一次發(fā)言可以包括一個(gè)或多個(gè)完整語(yǔ)段。一次發(fā)言包括一個(gè)完整語(yǔ)段就是說(shuō)話的一方在此次發(fā)言中沒(méi)有停頓,直到把話說(shuō)完,然后等待另一方發(fā)言,這是比較普遍的情形;一次發(fā)言包括多個(gè)完整語(yǔ)段的情況則可能有:
[0051]第一用戶發(fā)言完畢后停止說(shuō)話,第二用戶沒(méi)有發(fā)言,第一用戶等待一段時(shí)間后繼續(xù)發(fā)g ;
[0052]第一用戶發(fā)言本身存在停頓。
[0053]只有在雙方交替發(fā)言時(shí)聽(tīng)后回應(yīng)的響應(yīng)時(shí)延才用于統(tǒng)計(jì)通話時(shí)延,單方說(shuō)話過(guò)程中的停頓與通話時(shí)延無(wú)關(guān),需要排除。
[0054]步驟204b:標(biāo)識(shí)發(fā)送錄音的每個(gè)完整語(yǔ)段的持續(xù)語(yǔ)音片段開(kāi)始時(shí)刻TS_start(i),持續(xù)語(yǔ)音片段結(jié)束時(shí)刻TS_wait(i),完整語(yǔ)段結(jié)束時(shí)刻(也是下一個(gè)完整語(yǔ)段語(yǔ)音開(kāi)始時(shí)刻)TS_stop(i),i為發(fā)送錄音完整語(yǔ)段序號(hào)。
[0055]本發(fā)明的一個(gè)實(shí)施例給出了一種識(shí)別完整語(yǔ)段的處理過(guò)程:一個(gè)完整語(yǔ)段檢測(cè)即識(shí)別語(yǔ)段的持續(xù)語(yǔ)音片段的開(kāi)始點(diǎn)TS_start和持續(xù)語(yǔ)音片段結(jié)束點(diǎn)TS_wait:如果本幀前N幀VAD檢測(cè)的結(jié)果均為vad = 0(代表非語(yǔ)音),且本幀vad=l(代表語(yǔ)音),則本幀為完整語(yǔ)段的起點(diǎn),本幀的起始時(shí)刻為該完整語(yǔ)段的起始時(shí)刻;如果本語(yǔ)音語(yǔ)句起始點(diǎn)已找到,且本幀vad = I而后N幀均vad = O,則本幀的下一幀為語(yǔ)音語(yǔ)句的結(jié)束點(diǎn),本幀的下一幀的起始時(shí)刻作為本完整語(yǔ)段的結(jié)束時(shí)刻,此時(shí)一個(gè)完整語(yǔ)音語(yǔ)句判斷結(jié)束,后續(xù)繼續(xù)下一個(gè)語(yǔ)音語(yǔ)句判決,下一個(gè)語(yǔ)句的開(kāi)始點(diǎn)即為上一語(yǔ)句的TS_stop。在發(fā)送錄音的TS_start和TS_stop時(shí)間范圍內(nèi),TS_wait和接收錄音的TR_start之差為該段語(yǔ)音語(yǔ)句響應(yīng)時(shí)延Delay。其中N大于或等于100。
[0056]步驟205b:標(biāo)識(shí)接收錄音的每個(gè)完整語(yǔ)段的持續(xù)語(yǔ)音片段開(kāi)始時(shí)刻TR_start(j),j為接收錄音完整語(yǔ)句序號(hào)。
[0057]步驟206b:計(jì)算每段發(fā)言的響應(yīng)時(shí)延,具體包括:
[0058]檢查T(mén)S_start(i)到TS_stop(i)之間是否存在TR_start(j),若有則Delay(i)=TR_start( j)_TS_wait(i);若無(wú),貝ljDelay(i)=0。該步驟的目的就是僅計(jì)算雙方交替發(fā)言時(shí)聽(tīng)后回應(yīng)的響應(yīng)時(shí)延,而不計(jì)入單方發(fā)言過(guò)程中的停頓。
[0059]步驟207b:統(tǒng)計(jì)獲得的非零響應(yīng)時(shí)延的分布,將其中的統(tǒng)計(jì)峰值作為響應(yīng)時(shí)延估計(jì),將響應(yīng)時(shí)延估計(jì)值減去反應(yīng)時(shí)延,所得結(jié)果作為通話時(shí)延。
[0060]較佳地,排除小于第二閾值,或者大于第三閾值的響應(yīng)時(shí)延值,從而過(guò)濾無(wú)效響應(yīng)時(shí)延值。
[0061 ] 例如[100ms,3000ms]范圍內(nèi)才是有效響應(yīng)時(shí)延值,根據(jù)經(jīng)驗(yàn),通話時(shí)延值不會(huì)小于某個(gè)經(jīng)驗(yàn)值,例如小于I OOms,而小于I OOms的De lay極可能是因?yàn)锽方搶話的場(chǎng)景,所以可以過(guò)濾掉,而時(shí)延大于某個(gè)較大的正常經(jīng)驗(yàn)值,極可能是B方?jīng)]有及時(shí)響應(yīng),跟響應(yīng)時(shí)間無(wú)關(guān),所以可以過(guò)濾掉。而過(guò)濾后剩下的則為可以作為直方圖統(tǒng)計(jì)的有效數(shù)據(jù),基于直方圖統(tǒng)計(jì),峰值對(duì)應(yīng)的時(shí)延值為響應(yīng)時(shí)間值,本實(shí)施例中,第二閾值為10ms,第三閾值為3000ms。在其他實(shí)施例中,第二閾值和第三閾值也可以取為其他值。第二閾值和第三閾值的具體取值需要根據(jù)網(wǎng)絡(luò)傳輸方式而定,可基于經(jīng)驗(yàn)和先驗(yàn)測(cè)試數(shù)據(jù)而定。
[0062]該步驟中,可以用所述非零響應(yīng)時(shí)延做出直方圖,從而獲得統(tǒng)計(jì)峰值。如圖4所示,直方圖峰值處的時(shí)延為130Ims,而人的響應(yīng)時(shí)間經(jīng)驗(yàn)值約為300ms,則通話時(shí)延估計(jì)值為1001ms,而通過(guò)專業(yè)儀器測(cè)量結(jié)果為960ms,由此可知本方案的通話時(shí)延估計(jì)值具有較高可信度,可用于判別網(wǎng)絡(luò)時(shí)延的好與差。
[0063]本發(fā)明另一個(gè)實(shí)施例提出了一種通話時(shí)延評(píng)估裝置,該裝置位于通話客戶端,如圖5所示,包括:
[0064]錄音模塊501,用于在本客戶端與其他客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在本客戶端發(fā)送和接收語(yǔ)音的同時(shí)啟動(dòng)雙向錄音;
[0065]完整語(yǔ)段標(biāo)識(shí)模塊502,用于獲取發(fā)送、接收錄音中的完整語(yǔ)段;
[0066]時(shí)間標(biāo)識(shí)模塊503,用于標(biāo)識(shí)發(fā)送錄音的每個(gè)完整語(yǔ)段的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)亥ljTS_start(i),持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i),完整語(yǔ)段結(jié)束時(shí)刻(也是下一個(gè)完整語(yǔ)段語(yǔ)音開(kāi)始時(shí)刻)TS_stop(i),i為發(fā)送錄音完整語(yǔ)段序號(hào);標(biāo)識(shí)接收錄音的每個(gè)完整語(yǔ)句語(yǔ)音開(kāi)始時(shí)刻TR_start( j),j為接收錄音完整語(yǔ)句序號(hào);
[0067]響應(yīng)時(shí)延計(jì)算模塊504,用于檢查T(mén)S_start( i)到TS_stop(i )之間是否存在TR_start( j),若有,則響應(yīng)時(shí)延Delay(i) = TR_start(j)_TS_wait(i);若無(wú),則響應(yīng)時(shí)延Delay(i)=0;
[0068]響應(yīng)時(shí)延估計(jì)模塊505,用于統(tǒng)計(jì)獲得的非零響應(yīng)時(shí)延的分布,將其中的統(tǒng)計(jì)峰值作為響應(yīng)時(shí)延估計(jì)值;
[0069]通話時(shí)延模塊506,用于將響應(yīng)時(shí)延估計(jì)值減去反應(yīng)時(shí)延,所得結(jié)果作為通話時(shí)延輸出。
[0070]在本發(fā)明的另一實(shí)施例中,所述完整語(yǔ)段標(biāo)識(shí)模塊502進(jìn)一步包括:
[0071]檢測(cè)單元,用于分別對(duì)發(fā)送、接收錄音進(jìn)行語(yǔ)音活動(dòng)檢測(cè),標(biāo)識(shí)得到的語(yǔ)音塊;
[0072]合并單元,用于對(duì)時(shí)間間隔小于第一閾值的語(yǔ)音塊進(jìn)行合并,分別得到發(fā)送、接收錄音中的完整語(yǔ)段。
[0073]較佳地,所述第一閾值的取值范圍為:1秒至2秒。
[0074]較佳地,所述時(shí)間標(biāo)識(shí)模塊503標(biāo)識(shí)發(fā)送錄音的每個(gè)完整語(yǔ)段語(yǔ)音開(kāi)始時(shí)刻TS_start(i),語(yǔ)音結(jié)束時(shí)刻TS_wait(i)包括:如果本幀前N幀語(yǔ)音活動(dòng)檢測(cè)的結(jié)果均為非語(yǔ)音,且本幀為語(yǔ)音,則本幀的起始時(shí)刻為該完整語(yǔ)段的語(yǔ)音起始時(shí)刻;以及,
[0075]如果本完整語(yǔ)段的語(yǔ)音起始時(shí)刻已找到,且本幀為語(yǔ)音而后N幀均為非語(yǔ)音,則本幀的下一幀的語(yǔ)音起始時(shí)刻作為本完整語(yǔ)段的結(jié)束時(shí)刻。
[0076]在本發(fā)明的另一實(shí)施例中,所述響應(yīng)時(shí)延估計(jì)模塊505進(jìn)一步包括:排除單元,用于排除小于第二閾值,或者大于第三閾值的響應(yīng)時(shí)延值。
[0077]較佳地,所述第二閾值為100毫秒,所述第三閾值為3000毫秒。
[0078]在本發(fā)明的另一實(shí)施例中,所述響應(yīng)時(shí)延估計(jì)模塊505統(tǒng)計(jì)獲得非零響應(yīng)時(shí)延的分布包括:用所述非零響應(yīng)時(shí)延做出直方圖。
[0079]另外,在本發(fā)明各個(gè)實(shí)施例中的各模塊可以集成在一個(gè)處理單元中,也可以是各個(gè)模塊單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上模塊集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
[0080]在一實(shí)施例中,通話客戶端可包括:處理器610、存儲(chǔ)器620、端口630、總線640語(yǔ)音接收器650和語(yǔ)音播放器660。。處理器610和存儲(chǔ)器620通過(guò)總線640互聯(lián)。處理器610可通過(guò)端口630接收和發(fā)送數(shù)據(jù)以實(shí)現(xiàn)網(wǎng)絡(luò)通信。以VoIP通話為例,語(yǔ)音接收器650接收通話客戶端外部的聲音信號(hào),通過(guò)總線640到處理器610處轉(zhuǎn)換為音頻編碼(該音頻編碼的副本保存在存儲(chǔ)620即為發(fā)送語(yǔ)音)并封裝為語(yǔ)音報(bào)文,通過(guò)端口 630發(fā)送到對(duì)端的通話客戶端。端口630還接收來(lái)自對(duì)端通話客戶端的語(yǔ)音報(bào)文,該語(yǔ)音報(bào)文在處理器610處解封裝還原為音頻編碼(該音頻編碼保存在存儲(chǔ)器620即為接收語(yǔ)音),通過(guò)總線640發(fā)送到語(yǔ)音播放器660還原為聲音信號(hào)播放。
[0081 ] 上述各模塊501?506可以是存儲(chǔ)器620中存儲(chǔ)的機(jī)器可執(zhí)行指令模塊。處理器610通過(guò)執(zhí)行存儲(chǔ)器620中各個(gè)模塊501?506中包含的機(jī)器可執(zhí)行指令,進(jìn)而能夠?qū)崿F(xiàn)上述各模塊501?506的功能。
[0082]另外,本發(fā)明的每個(gè)實(shí)施例可以通過(guò)由數(shù)據(jù)處理設(shè)備如計(jì)算機(jī)執(zhí)行的數(shù)據(jù)處理程序來(lái)實(shí)現(xiàn)。例如,在智能手機(jī)中安裝微信app,通過(guò)使用其中的視頻通話或者語(yǔ)音通話功能即可實(shí)現(xiàn)不同智能手機(jī)之間的語(yǔ)音通話,在這一應(yīng)用場(chǎng)景下,本實(shí)施例中的通話時(shí)延評(píng)估裝置可以由微信app中的功能模塊來(lái)實(shí)現(xiàn)。
[0083]顯然,數(shù)據(jù)處理程序構(gòu)成了本發(fā)明。此外,通常存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中的數(shù)據(jù)處理程序通過(guò)直接將程序讀取出存儲(chǔ)介質(zhì)或者通過(guò)將程序安裝或復(fù)制到數(shù)據(jù)處理設(shè)備的存儲(chǔ)設(shè)備(如硬盤(pán)和/或內(nèi)存)中執(zhí)行。因此,這樣的存儲(chǔ)介質(zhì)也構(gòu)成了本發(fā)明。存儲(chǔ)介質(zhì)可以使用任何類型的記錄方式,例如紙張存儲(chǔ)介質(zhì)(如紙帶等)、磁存儲(chǔ)介質(zhì)(如軟盤(pán)、硬盤(pán)、閃存等)、光存儲(chǔ)介質(zhì)(如CD-ROM等)、磁光存儲(chǔ)介質(zhì)(如MO等)等。
[0084]因此,本發(fā)明還公開(kāi)了一種存儲(chǔ)介質(zhì),其中存儲(chǔ)有數(shù)據(jù)處理程序,該數(shù)據(jù)處理程序用于執(zhí)行本發(fā)明上述方法的任何一種實(shí)施例。
[0085]應(yīng)當(dāng)理解,雖然本說(shuō)明書(shū)是按照各個(gè)實(shí)施方式描述的,但并非每個(gè)實(shí)施方式僅包含一個(gè)獨(dú)立的技術(shù)方案,說(shuō)明書(shū)的這種敘述方式僅僅是為清楚起見(jiàn),本領(lǐng)域技術(shù)人員應(yīng)當(dāng)將說(shuō)明書(shū)作為一個(gè)整體,各實(shí)施方式中的技術(shù)方案也可以經(jīng)適當(dāng)組合,形成本領(lǐng)域技術(shù)人員可以理解的其他實(shí)施方式。
[0086]以上所述僅為本申請(qǐng)的較佳實(shí)施例而已,并不用以限制本申請(qǐng)的保護(hù)范圍,凡在本申請(qǐng)技術(shù)方案的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)保護(hù)的范圍之內(nèi)。
【主權(quán)項(xiàng)】
1.一種通話時(shí)延評(píng)估方法,其特征在于,包括: 第一客戶端和第二客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在第一客戶端發(fā)送和接收語(yǔ)音的同時(shí)緩存發(fā)送或接收的語(yǔ)音數(shù)據(jù),從而得到發(fā)送錄音和接收錄音;獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間; 對(duì)于發(fā)送錄音中的每個(gè)完整語(yǔ)段i,標(biāo)識(shí)完整語(yǔ)段i的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i結(jié)束時(shí)刻TS_stop(i),i為發(fā)送錄音中完整語(yǔ)段的序號(hào);標(biāo)識(shí)接收錄音中每個(gè)完整語(yǔ)段j的開(kāi)始時(shí)刻TR_start(j),j為接收錄音中完整語(yǔ)段的序號(hào); 對(duì)于發(fā)送錄音中每個(gè)完整語(yǔ)段i,檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的TR_start(j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) =TR_start( j)_TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)=0; 根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延,包括: 統(tǒng)計(jì)得到所確定的各完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)中取值非零的各響應(yīng)時(shí)延Delay(i)的分布,將其中的統(tǒng)計(jì)峰值作為響應(yīng)時(shí)延估計(jì)值; 將響應(yīng)時(shí)延估計(jì)值減去反應(yīng)時(shí)延,所得結(jié)果作為通話時(shí)延。3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段包括: 分別對(duì)所述發(fā)送錄音和所述接收錄音進(jìn)行語(yǔ)音活動(dòng)檢測(cè),標(biāo)識(shí)得到各個(gè)語(yǔ)音塊; 對(duì)于所述發(fā)送錄音和所述接收錄音分別做如下處理: 對(duì)相鄰語(yǔ)音塊之間時(shí)間間隔小于第一閾值的至少兩個(gè)連續(xù)語(yǔ)音塊進(jìn)行合并以得到完整語(yǔ)段;所述完整語(yǔ)段為一個(gè)語(yǔ)音塊,且該語(yǔ)音塊與相鄰的其他語(yǔ)音塊之間時(shí)間間隔大等于第一閾值。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述第一閾值的取值范圍為:I秒至2秒。5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述標(biāo)識(shí)發(fā)送錄音中每個(gè)完整語(yǔ)段i的開(kāi)始時(shí)刻TS_start(i),結(jié)束時(shí)刻TS_wait(i),包括: 對(duì)于每個(gè)完整語(yǔ)段i,執(zhí)行如下處理: 如果本幀前N幀語(yǔ)音活動(dòng)檢測(cè)的結(jié)果均為非語(yǔ)音,且本幀為語(yǔ)音,則本幀的起始時(shí)刻為該完整語(yǔ)段的起始時(shí)刻;其中,N為預(yù)設(shè)的大于零的整數(shù);以及, 如果本完整語(yǔ)段的起始時(shí)刻已找到,且本幀為語(yǔ)音而后N幀均為非語(yǔ)音,則將本幀的下一幀的起始時(shí)刻作為本完整語(yǔ)段的結(jié)束時(shí)刻。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述N大于或等于100。7.根據(jù)權(quán)利要求2所述的方法,其特征在于,在所述統(tǒng)計(jì)得到所確定的各完整語(yǔ)段i的響應(yīng)時(shí)延Delay (i)中取值非零的各響應(yīng)時(shí)延Delay (i)的分布之前,進(jìn)一步包括: 從所確定的各完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)中,排除取值小于第二閾值或者大于第三閾值的響應(yīng)時(shí)延。8.根據(jù)權(quán)利要求7所述的方法,其特征在于,所述第二閾值為100毫秒,所述第三閾值為3000毫秒。9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述所述統(tǒng)計(jì)得到所確定的各完整語(yǔ)段i的響應(yīng)時(shí)延Delay (i)中取值非零的各響應(yīng)時(shí)延Delay (i)的分布,包括: 用所述取值非零的各響應(yīng)時(shí)延Delay(i)做出直方圖; 其中,將所述直方圖中的統(tǒng)計(jì)峰值作為所述響應(yīng)時(shí)延估計(jì)值。10.一種通話時(shí)延評(píng)估裝置,其特征在于,包括: 錄音模塊,用于在本客戶端與其他客戶端通過(guò)通信網(wǎng)絡(luò)建立呼叫后,在本客戶端發(fā)送和接收語(yǔ)音的同時(shí)啟動(dòng)雙向錄音以獲得發(fā)送錄音和接收錄音; 完整語(yǔ)段標(biāo)識(shí)模塊,用于獲取發(fā)送錄音和接收錄音中的完整語(yǔ)段;每一個(gè)所述完整語(yǔ)段包括一個(gè)持續(xù)語(yǔ)音片段及其之后的靜默時(shí)間; 時(shí)間標(biāo)識(shí)模塊,用于標(biāo)識(shí)發(fā)送錄音中每個(gè)完整語(yǔ)段i的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TS_start(i)、持續(xù)語(yǔ)音片段的結(jié)束時(shí)刻TS_wait(i)和完整語(yǔ)段i的結(jié)束時(shí)刻TS_stop(i),i為發(fā)送錄音中完整語(yǔ)段的序號(hào);標(biāo)識(shí)接收錄音中完整語(yǔ)段j的持續(xù)語(yǔ)音片段的開(kāi)始時(shí)刻TR_start(j),j為接收錄音中完整語(yǔ)段的序號(hào); 響應(yīng)時(shí)延計(jì)算模塊,用于針對(duì)發(fā)送錄音中每個(gè)完整語(yǔ)段i,檢查該完整語(yǔ)段i的TS_start(i)到TS_stop(i)之間是否存在接收錄音中任一完整語(yǔ)段j的TR_start( j),若存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay (i) =TR_start( j )-TS_wait(i);若不存在,則確定該完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i) =0; 通話時(shí)延模塊,用于根據(jù)所獲得的響應(yīng)時(shí)延估計(jì)通話時(shí)延。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述通話時(shí)延模塊包括: 響應(yīng)時(shí)延估計(jì)單元,用于統(tǒng)計(jì)得到所確定的各完整語(yǔ)段i的響應(yīng)時(shí)延Delay(i)中取值非零的各響應(yīng)時(shí)延Delay (i)的分布,將其中的統(tǒng)計(jì)峰值作為響應(yīng)時(shí)延估計(jì)值; 計(jì)算單元,用于將響應(yīng)時(shí)延估計(jì)值減去反應(yīng)時(shí)延,所得結(jié)果作為通話時(shí)延輸出。12.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述完整語(yǔ)段標(biāo)識(shí)模塊包括: 檢測(cè)單元,用于分別對(duì)發(fā)送錄音和接收錄音進(jìn)行語(yǔ)音活動(dòng)檢測(cè),標(biāo)識(shí)得到的各個(gè)語(yǔ)音塊; 合并單元,用于對(duì)相鄰語(yǔ)音塊之間時(shí)間間隔小于第一閾值的至少兩個(gè)連續(xù)語(yǔ)音塊進(jìn)行合并以得到完整語(yǔ)段;所述完整語(yǔ)段為一個(gè)語(yǔ)音塊,且該語(yǔ)音塊與相鄰的其他語(yǔ)音塊之間時(shí)間間隔大等于第一閾值。13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述響應(yīng)時(shí)延估計(jì)模塊進(jìn)一步包括:排除單元,用于排除小于第二閾值,或者大于第三閾值的響應(yīng)時(shí)延值。
【文檔編號(hào)】H04L12/26GK105933181SQ201610281304
【公開(kāi)日】2016年9月7日
【申請(qǐng)日】2016年4月29日
【發(fā)明人】梁俊斌
【申請(qǐng)人】騰訊科技(深圳)有限公司