一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng),首先根據(jù)輸入的電話號碼進行呼叫;然后向被叫用戶發(fā)起傳真請求,通過SDP解析進行傳真機初步識別;再對鈴音狀態(tài)進行識別,其中基于呼通后5秒的音頻片段,對被叫未應答前振鈴狀態(tài)是標準回鈴音還是彩鈴進行識別;被叫端摘機后,基于摘機接聽后的語音片段的語音分析,進行傳真機摘機、自動應答機摘機、自然人摘機和接通無人回話的識別。通過上述方法,能準確地識別號碼狀態(tài)及終端類型,減小鈴音狀態(tài)識別的計算量,迅速給出識別結果,提高識別效率。
【專利說明】
一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)
技術領域
[0001]本發(fā)明涉及通信領域,尤其涉及一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)?!颈尘凹夹g】
[0002]不可用號碼的存在降低了呼叫中心坐席人員的工作效率,且資源嚴重浪費,這給呼叫中心的坐席人員和企業(yè)老板都帶來了煩惱。隨著呼叫中心市場的不斷成熟,呼入型業(yè)務基本飽和,呼出業(yè)務量不斷增多,如何對外呼號碼進行準確的狀態(tài)識別和篩選(洗號),以提高撥號效率,已經(jīng)成為外呼型呼叫中心需要解決的重要問題。
[0003]呼叫中的狀態(tài)識別分為接聽前振鈴被叫方狀態(tài)和接聽后終端類別;接聽前振鈴被叫方狀態(tài)又分為:關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼入限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移、回鈴音標準嘟嘟聲、彩鈴;接聽后終端類別又分為:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話。
[0004]現(xiàn)有的自動外呼及洗號系統(tǒng)一般是通過信令處理技術來實現(xiàn)狀態(tài)識別。一般情況下,號碼識別需根據(jù)當前呼叫失敗的原因來判斷,通常會利用呼叫過程中產(chǎn)生的信令來檢測?;谛帕顧z測的方式在準確性和效率上存在問題,不能滿足呼叫中心自動外呼和洗號的功能要求。檢測準確性差是因為在中國三大運營商網(wǎng)絡中,沒有統(tǒng)一標準來反映被叫用戶的狀態(tài),甚至同一個運營商的同一個本地網(wǎng)都會出現(xiàn)不同的反映。因此,經(jīng)常會出現(xiàn)號碼狀態(tài)無法識別或識別錯誤的情況。其次,由于PSTN(Public Switched Telephone Network, 公共交換電話網(wǎng)絡)普遍實施了呼叫失敗后語音提示的功能,語音提示時長可達60秒,然后才發(fā)送信令,這會嚴重影響信令檢測效率。
[0005]自動外呼及洗號系統(tǒng)的另一種方法是采用語音識別檢測技術。語音識別就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎睿饕ㄌ卣魈崛?、模式匹配準則及模型訓練這三個方面。語音識別檢測可用于對用戶呼叫失敗的情況進行自動分類。語音識別技術的關鍵是鈴音匹配,首先將模擬語音信號轉換為數(shù)字信號,再同音庫中的樣本進行比對,當匹配值滿足條件時匹配成功,選當前一條結果返回,實現(xiàn)號碼狀態(tài)識別。 這種方式的識別率比信令檢測方式的高,能夠較為有效的解決準確性問題,但語音識別需要進行語音樣本的頻域分析后再進行鈴音匹配,其中引入了大量運算,這就造成算法冗雜, 識別速度慢,在效率上存在明顯不足。
【發(fā)明內(nèi)容】
[0006]鑒于上述分析,本發(fā)明旨在提供一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng),用以解決現(xiàn)有方法識別準確率和識別效率低、識別速度慢的問題。
[0007]本發(fā)明的目的主要是通過以下技術方案實現(xiàn)的:
[0008]提供一種呼叫中心系統(tǒng)的鈴音識別方法,包括以下步驟:
[0009]S1、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為被叫用戶,呼叫被叫用戶,建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道;
[0010]S2、呼叫中心系統(tǒng)向被叫用戶發(fā)起傳真請求;
[0011]S3、呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別;
[0012]S4、如果步驟S2中識別為支持T38的網(wǎng)關上的傳真機,則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機;否則通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別;
[0013]S5、將識別結果與對應的電話號碼相關聯(lián),保存到數(shù)據(jù)庫中。
[0014]其中,步驟S2具體包括:通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求,其中re-1NVITE消息中帶有傳真能力描述的SDP offer,被叫用戶返回帶有SDP (answer)內(nèi)容的200消息,呼叫中心系統(tǒng)對所述返回的SDP (answer)內(nèi)容進行解析。
[0015]步驟S3呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別進一步包括:從時域和頻域對呼通后5秒的音頻片段進行分析。[0〇16]被叫未應答前振鈴狀態(tài)可以分為正常振鈴狀態(tài)和異常振鈴狀態(tài)。
[0017]對于異常振鈴狀態(tài)的識別,采用快速傅里葉變換提取語音片段的特征值,再與語音數(shù)據(jù)庫匹配。
[0018]正常振鈴狀態(tài)分為標準回鈴音和彩鈴,正常振鈴狀態(tài)的識別進一步包括步驟:
[0019]S31、獲取呼通后的音頻片段,采用并行方式進行標準回鈴音和彩鈴的識別;
[0020]S32、將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1,再次小于該閾值的時刻為語音結束時刻T2,T2在語音片段時段內(nèi),截取T1到T2時刻之間的語音片段數(shù)據(jù),將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換,如果450Hz的數(shù)據(jù)占截取的語音片段的權重超過設定閾值E2,即識別為標準回鈴音;
[0021]S33、將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3,如果在T3時刻到音頻片段結束這一時間段內(nèi),滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1,且語音片段總持續(xù)時間T4占的百分比超過設定閾值P1,即識別為彩鈴;[〇〇22]S34、識別過程返回一個識別結果。
[0023]步驟S4中,呼叫中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別的步驟,進一步包括:基于被叫端摘機接聽后的前5秒語音片段從時域和頻域進行語音片段分析。
[0024]摘機后振鈴鈴音狀態(tài)的識別包括:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài)的識別,具體步驟為:
[0025]S41、獲取摘機接聽后的語音片段,采用并行方式進行傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話四種狀態(tài)的識別;[〇〇26]S42、當語音片段內(nèi)的有聲片段滿足傳真機的識別設定閾值A3,并且語音片段經(jīng)快速傅里葉變換后,語音片段的頻率為2100Hz,則識別為傳真機應答;[〇〇27]S43、將識別出有聲音的時刻作為開始時刻T5,如果在語音片段的時長內(nèi)識別為有聲音的時間段之和T6占T5到語音片段結束這個時間段的百分比超過閾值P2,則識別為自動應答機;[〇〇28]S44、當語音片段的時長內(nèi),有聲片段的時間和T6滿足自然人閾值A2,則識別為自然人應答;[〇〇29]S45、當語音片段內(nèi)的有聲片段為0,則識別為接通無人回話狀態(tài);[〇〇3〇] S46、識別過程返回一個識別結果。
[0031]本發(fā)明還提供一種實現(xiàn)上述鈴音識別方法的用于呼叫中心系統(tǒng)的鈴音識別系統(tǒng), 包括:[〇〇32]呼叫模塊,其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶,呼叫被叫用戶,建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道;[〇〇33]終端狀態(tài)和類別識別模塊,其包括SDP解析模塊和語音處理模塊,SDP解析模塊用于解析被叫用戶返回的SDP(answer)內(nèi)容,語音處理模塊進一步包括被叫未應答前振鈴鈴首狀態(tài)識別t旲塊、摘機后振鈴鈴首狀態(tài)識別t旲塊;
[0034]儲存模塊,其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中;
[0035]其中,被叫未應答前振鈴鈴音狀態(tài)識別模塊,其通過基于頻域和時域的語音片段分析對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別;摘機后振鈴鈴音狀態(tài)識別模塊,其接收SDP解析模塊的解析結果,如果從返回的SDP (answer)中解析出包含m = image、138的字段,則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機,否則呼叫中心系統(tǒng)通過基于時域和頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
[0036]本發(fā)明有益效果如下:通過對語音片段進行分別從時域和頻域的分析,可以準確地識別號碼狀態(tài)及終端類型,使鈴音狀態(tài)識別的計算量小、能迅速給出識別結果;避免了提取頻域特征值、再匹配鈴音庫的過程,提高了識別效率。此外,對傳真機識別包括了SDP解析和語音分析,實現(xiàn)雙重保證,確保能從不支持T38協(xié)議的網(wǎng)關中將傳真機識別出來。
[0037]本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述,并且,部分的從說明書中變得顯而易見,或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。【附圖說明】
[0038]附圖僅用于示出具體實施例的目的,而并不認為是對本發(fā)明的限制,在整個附圖中,相同的參考符號表不相同的部件。
[0039]圖1為呼叫中心系統(tǒng)的鈴音識別方法的示意圖
[0040]圖2為被叫未應答前振鈴鈴音的示意圖
[0041]圖3為呼叫中心系統(tǒng)的鈴音識別系統(tǒng)的示意圖【具體實施方式】[〇〇42]下面結合附圖來具體描述本發(fā)明的優(yōu)選實施例,其中,附圖構成本申請一部分,并與實施例一起用于闡釋本發(fā)明的原理。
[0043]具體實施例一,公開了一種呼叫中心系統(tǒng)的鈴音識別方法,并以5秒語音片段為例,如圖1所示,具體包括以下步驟:
[0044]步驟S1、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶,呼叫被叫用戶,建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道。
[0045]步驟S2、首先進行傳真機識別,具體地,
[0046]呼叫中心系統(tǒng)發(fā)起傳真請求,通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求,其中re-1NVITE消息中帶有傳真能力描述的SDP offer;
[0047]被叫用戶通過返回帶有SDP(answer)內(nèi)容的200消息,與呼叫中心系統(tǒng)完成傳真能力的協(xié)商;
[0048] 呼叫中心系統(tǒng)對所述SDP(answer)內(nèi)容進行解析,如果從返回的SDP(answer)中解析出包含m=image、t38字段,則判斷被叫方為在支持T38的網(wǎng)關上的傳真機。
[0049]步驟S3、呼叫中心系統(tǒng)對被叫未應答前振鈴鈴音狀態(tài)進行識別,上述狀態(tài)識別分別從時域和頻域進行,且均基于5秒語音片段(如圖2所示)進行分析。需要注意的是:被叫未應答前振鈴狀態(tài)識別是基于呼通后5秒的音頻片段進行的語音分析。音頻片段的起始標識是開始進行語音分析的時刻,終止標識是根據(jù)采樣頻率和采樣點數(shù)計算得到的。
[0050]具體地,被叫未應答前振鈴狀態(tài)又分為正常振鈴狀態(tài)和異常振鈴狀態(tài);正常振鈴狀態(tài)分為標準回鈴音和彩鈴;標準回鈴音為嘟嘟聲,彩鈴是一段連續(xù)音頻流,一般是一段音樂或一段搞笑音頻等。異常振鈴狀態(tài)包括關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼入限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移等。[0051 ]以中國為例,標準回鈴音在時域上為5秒一個周期,響1秒停4秒;在頻域上是 450Hz。根據(jù)上述時域和頻域的兩種特性進行標準回鈴音的識別。彩鈴通常為連續(xù)語音片段,時域上的特征表現(xiàn)為5秒周期內(nèi)的絕大多數(shù)都識別為有聲采樣。[〇〇52]基于上述特性,基于5秒語音片段對標準回鈴音和彩鈴進行識別,包括以下步驟:
[0053]獲取呼通后5秒的音頻片段,采用并行方式進行以下識別;[〇〇54]將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1,再次小于該閾值的時刻為語音結束時刻T2(T2在5秒內(nèi)),截取T1到T2時刻之間的語音片段數(shù)據(jù),將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換,如果450Hz左右的數(shù)據(jù)占截取的語音片段(T2-T1)的權重超過設定閾值E2即識別為標準回鈴音;
[0055]將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3,如果從語音開始時刻T3 至IJ5秒音頻結束這段時間(5-T3)內(nèi)滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1,且語音片段總持續(xù)時間T4占(5-T3)的百分比超過設定閾值P1,即識別為彩鈴;
[0056] 識別過程返回一個識別結果。[〇〇57]針對上述異常振鈴狀態(tài),采用快速傅里葉變換提取呼通后5秒音頻片段的特征值, 再與語音數(shù)據(jù)庫匹配,得出異常振鈴的具體狀態(tài)。[〇〇58]步驟S4、呼叫中心系統(tǒng)對摘機后振鈴鈴音狀態(tài)進行識別,所述摘機后狀態(tài)分為傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài)。摘機后振鈴鈴音狀態(tài)的識別原理如下:[〇〇59] 傳真機在支持T38的網(wǎng)關上,SDP會帶回m=image、t38的字段,SDP的解析在步驟S2 中進行;在不支持T38的網(wǎng)關上,即使是傳真機應答,SDP也不會帶回m= image、t38的字段, 此時在步驟S4中基于被叫端摘機接聽后的前5秒語音片段、從時域和頻域上語音分析,以識別摘機后振鈴鈴首狀態(tài)。[0〇6〇] 如果步驟S2中能從返回的SDP(answer)中解析出包含111=;[1]^86438字段,則停止摘機后振鈴鈴音狀態(tài)識別的過程,上報摘機后狀態(tài)識別結果為傳真機,此時無需再進行應答機、自然人和無人回話的識別;[〇〇611 如果從返回的SDP中解析不出m=image、t38字段時,則對摘機接聽后的前5秒語音片段進行語音分析。音頻片段的起始標識是開始進行語音分析的時刻,終止標識是根據(jù)采樣頻率和采樣點數(shù)計算得到的。
[0062]具體地,如果是傳真機,摘機后在一段長靜音后會有一個尖銳的“滴”聲,該“滴”聲在頻域上大多在2100Hz左右,根據(jù)上述長靜音和頻率這兩個特性,可以對SDP沒有帶回m = image和t38這兩個字段的傳真機進行識別。
[0063]如果是自動應答機應答,則時域上是一段連續(xù)的人聲片段,并且人聲部分占5秒內(nèi)的絕大多數(shù)時間,從這一條件出發(fā),進行自動應答機識別。
[0064]如果是自然人摘機,則一般在類似“喂!你好”的聲音片段后是一段長靜音,根據(jù)這個特點進行自然人摘機識別。
[0065]根據(jù)接通后5秒內(nèi)基本是長靜音狀態(tài)這一特征,可以識別接通無人通話狀態(tài)。
[0066]具體地,在摘機后狀態(tài)識別中,對摘機接聽后的前5秒語音片段進行語音分析中的過程包括:
[0067]獲取摘機接聽后的前5秒語音片段,采用并行方式進行識別;
[0068]當這5秒語音片段內(nèi)的有聲片段很小,滿足傳真機的識別設定閾值A3,并且經(jīng)快速傅里葉變換后,語音片段的頻率為2100Hz,則識別為傳真機應答;
[0069]將識別出有聲音的時刻作為開始時刻T5,如果5秒內(nèi)識別為有聲音的時間段之和 T6占(5-T5)的百分比超過閾值P2,則識別為自動應答機;
[0070]當5秒內(nèi)有聲片段的時間和T6滿足自然人閾值A2,則識別為自然人應答;
[0071]當5秒語音片段內(nèi)的有聲片段幾乎為0,則識別為接通無人回話狀態(tài);[〇〇72] 識別過程返回一個識別結果。
[0073]本實施例中,E1是識別為有效語音的能量閾值(PCM語音數(shù)據(jù)的能量值,是一個16 位無符號整型數(shù)據(jù)),E2是標準回鈴音占分析語音片段的權重閾值,E3是彩鈴識別音頻能量閾值,A1是5秒內(nèi)識別為彩鈴的語音片段采樣個數(shù)的閾值,P1是采樣音頻片段的時間占比閾值,A3是傳真機應答語音的識別閾值,P2是有聲音時間段的時間占比閾值,A2是自然人應答的識別閾值。具體設定 E1 = 1000、E2 = 50、E3 = 2100、A1 = 15000、P1=60%、P2 = 50%、A2 = 1000、A3 = 1000。這些設定值是經(jīng)過測試調(diào)整得到的,本發(fā)明并不限于以上取值,可以根據(jù)實際情況酌情修改。[〇〇74]摘機后狀態(tài)的識別結果中會帶有一個識別率的值,這個值是一個規(guī)定的特定值, 用來標識該識別結果的級別高低,以規(guī)避識別沖突。當后續(xù)識別出更高級的結果時,以最高級別結果為準。[〇〇75]需要說明的是,被叫未應答前的異常振鈴狀態(tài),如關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼人限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移等,采用匹配語音庫的方法實現(xiàn)識別,且這些狀態(tài)的優(yōu)先級高于標準回鈴音和彩鈴。
[0076]步驟S5、將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中。
[0077]上述實施例中的標準回鈴音識別是以中國標準為準的,選取5秒語音片段作為分析基準。但是,本發(fā)明并不局限于5秒語音片段,可以根據(jù)實際情況選取合適時間長度的語音片段。替換的實施例可以針對其他國家標準進行標準回鈴音識別。以美國為例,采用 440Hz和480Hz兩個頻率組合,以6秒一個周期,響2秒,停4秒。
[0078]本發(fā)明的另一個具體實施例,公開了一種實現(xiàn)上述鈴音識別方法的用于呼叫中心系統(tǒng)的鈴音識別系統(tǒng)(如圖3所示),包括:
[0079]呼叫模塊,其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶,呼叫被叫用戶,建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道;
[0080]終端狀態(tài)和類別識別模塊,其包括SDP解析模塊和語音處理模塊,SDP解析模塊用于解析被叫用戶返回的SDP(answer)內(nèi)容,語音處理模塊進一步包括被叫未應答前振鈴鈴首狀態(tài)識別t旲塊、摘機后振鈴鈴首狀態(tài)識別t旲塊;[0081 ]儲存模塊,其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中;
[0082]其中,被叫未應答前振鈴鈴音狀態(tài)識別模塊,其通過基于頻域和時域的語音片段分析對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別;摘機后振鈴鈴音狀態(tài)識別模塊,其接收SDP解析模塊的解析結果,如果從返回的SDP (answer)中解析出包含m = image、138的字段,則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機,否則呼叫中心系統(tǒng)通過基于時域和頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
[0083]綜上所述,本發(fā)明實施例提供了一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng),將識別限定在5秒語音片段上的時域和頻域分析,能準確地識別號碼狀態(tài)及終端類型,減小了計算量,迅速給出識別結果,避免了提取頻域特征值并匹配鈴音庫的過程,提高了識別效率。 其中,傳真機的摘機識別中采用SDP解析和語音分析進行雙重保障,確保將不支持T38協(xié)議的網(wǎng)關中的打印機也識別出來。[〇〇84]本領域技術人員可以理解,實現(xiàn)上述實施例方法的全部或部分流程,可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于計算機可讀存儲介質中。其中,所述計算機可讀存儲介質為磁盤、光盤、只讀存儲記憶體或隨機存儲記憶體等。
[0085]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此, 任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),可輕易想到的變化或替換, 都應涵蓋在本發(fā)明的保護范圍之內(nèi)。
【主權項】
1.一種呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,包括以下步驟:51、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為被叫用戶,呼叫被叫用戶,建立呼叫 中心系統(tǒng)與被叫用戶之間的語音通道;52、呼叫中心系統(tǒng)向被叫用戶發(fā)起傳真請求;53、呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別;54、如果步驟S2中識別為支持T38的網(wǎng)關上的傳真機,則直接上報摘機后振鈴鈴音狀態(tài) 的識別結果為傳真機;否則通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別;55、將識別結果與對應的電話號碼相關聯(lián),保存到數(shù)據(jù)庫中。2.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,步驟S2具體包 括:通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求,其中re-1NVITE消息中帶有傳真能力描述的SDP offer,被叫用戶返回帶有SDP(answer)內(nèi)容的200 消息,呼叫中心系統(tǒng)對所述返回的SDP (answer)內(nèi)容進行解析。3.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,步驟S3呼叫中心 系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別的步驟進一步包括:從時域 和頻域對呼通后5秒的音頻片段進行分析。4.根據(jù)權利要求3所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,步驟S3呼叫中心 系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別中,被叫未應答前振鈴狀態(tài) 分為正常振鈴狀態(tài)和異常振鈴狀態(tài)。5.根據(jù)權利要求4所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,其中異常振鈴狀 態(tài)的識別是采用快速傅里葉變換提取語音片段的特征值,再與語音數(shù)據(jù)庫匹配。6.根據(jù)權利要求4所述的呼叫中心系統(tǒng)的鈴音識別方法,正常振鈴狀態(tài)分為標準回鈴 音和彩鈴,其特征在于,正常振鈴狀態(tài)的識別進一步包括步驟:531、獲取呼通后的音頻片段,采用并行方式進行標準回鈴音和彩鈴的識別;532、將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1,再次小于該閾 值的時刻為語音結束時刻T2,T2在語音片段時段內(nèi),截取T1到T2時刻之間的語音片段數(shù)據(jù), 將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換,如果450Hz的數(shù)據(jù)占截取的語音片段的權 重超過設定閾值E2,即識別為標準回鈴音;533、將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3,如果在T3時刻到音頻片 段結束這一時間段內(nèi),滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1,且語音片段總 持續(xù)時間T4占的百分比超過設定閾值P1,即識別為彩鈴;534、識別過程返回一個識別結果。7.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,步驟S4中,呼叫 中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別的步驟,進一步包括:基于被 叫端摘機接聽后的前5秒語音片段從時域和頻域進行語音片段分析。8.根據(jù)權利要求7所述的呼叫中心系統(tǒng)的鈴音識別方法,其特征在于,步驟S4中,呼叫 中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別,進一步包括:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài), 具體步驟為:S41、獲取摘機接聽后的語音片段,采用并行方式進行傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話四種狀態(tài)的識別;542、當語音片段內(nèi)的有聲片段滿足傳真機的識別設定閾值A3,并且語音片段經(jīng)快速傅 里葉變換后,語音片段的頻率為2100Hz,則識別為傳真機應答;543、將識別出有聲音的時刻作為開始時刻T5,如果在語音片段的時長內(nèi)識別為有聲音 的時間段之和T6占T5到語音片段結束這個時間段的百分比超過閾值P2,則識別為自動應答 機;544、當語音片段的時長內(nèi),有聲片段的時間和T6滿足自然人閾值A2,則識別為自然人 應答;545、當語音片段內(nèi)的有聲片段為0,則識別為接通無人回話狀態(tài);546、識別過程返回一個識別結果。9.一種實現(xiàn)權利要求1所述鈴音識別方法的鈴音識別系統(tǒng),其特征在于,包括:呼叫模塊,其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶,呼叫被叫用戶,建 立呼叫中心系統(tǒng)與被叫用戶之間的語音通道;終端狀態(tài)和類別識別模塊,其包括SDP解析模塊和語音處理模塊,SDP解析模塊用于解 析被叫用戶返回的SDP(answer)內(nèi)容,語音處理模塊進一步包括被叫未應答前振鈴鈴音狀 態(tài)識別t吳塊、摘機后振鈴鈴首狀態(tài)識別t吳塊;儲存模塊,其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中;其中,被叫未應答前振鈴鈴音狀態(tài)識別模塊,其通過基于頻域和時域的語音片段分析 對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別;摘機后振鈴鈴音狀態(tài)識別模塊,其接收 SDP解析模塊的解析結果,如果從返回的SDP(answer)中解析出包含m=image、t38的字段, 則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機,否則呼叫中心系統(tǒng)通過基于時域和 頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
【文檔編號】H04M3/42GK105979106SQ201610420648
【公開日】2016年9月28日
【申請日】2016年6月13日
【發(fā)明人】董世寧
【申請人】北京容聯(lián)易通信息技術有限公司