一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)的制作方法

文檔序號：10616196閱讀：1291來源：國知局

一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)，首先根據(jù)輸入的電話號碼進行呼叫；然后向被叫用戶發(fā)起傳真請求，通過SDP解析進行傳真機初步識別；再對鈴音狀態(tài)進行識別，其中基于呼通后5秒的音頻片段，對被叫未應答前振鈴狀態(tài)是標準回鈴音還是彩鈴進行識別；被叫端摘機后，基于摘機接聽后的語音片段的語音分析，進行傳真機摘機、自動應答機摘機、自然人摘機和接通無人回話的識別。通過上述方法，能準確地識別號碼狀態(tài)及終端類型，減小鈴音狀態(tài)識別的計算量，迅速給出識別結果，提高識別效率。
【專利說明】
一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)
技術領域
[0001]本發(fā)明涉及通信領域，尤其涉及一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)?！颈尘凹夹g】
[0002]不可用號碼的存在降低了呼叫中心坐席人員的工作效率，且資源嚴重浪費，這給呼叫中心的坐席人員和企業(yè)老板都帶來了煩惱。隨著呼叫中心市場的不斷成熟，呼入型業(yè)務基本飽和，呼出業(yè)務量不斷增多，如何對外呼號碼進行準確的狀態(tài)識別和篩選(洗號)，以提高撥號效率，已經(jīng)成為外呼型呼叫中心需要解決的重要問題。
[0003]呼叫中的狀態(tài)識別分為接聽前振鈴被叫方狀態(tài)和接聽后終端類別;接聽前振鈴被叫方狀態(tài)又分為:關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼入限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移、回鈴音標準嘟嘟聲、彩鈴;接聽后終端類別又分為:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話。
[0004]現(xiàn)有的自動外呼及洗號系統(tǒng)一般是通過信令處理技術來實現(xiàn)狀態(tài)識別。一般情況下，號碼識別需根據(jù)當前呼叫失敗的原因來判斷，通常會利用呼叫過程中產(chǎn)生的信令來檢測?；谛帕顧z測的方式在準確性和效率上存在問題，不能滿足呼叫中心自動外呼和洗號的功能要求。檢測準確性差是因為在中國三大運營商網(wǎng)絡中，沒有統(tǒng)一標準來反映被叫用戶的狀態(tài)，甚至同一個運營商的同一個本地網(wǎng)都會出現(xiàn)不同的反映。因此，經(jīng)常會出現(xiàn)號碼狀態(tài)無法識別或識別錯誤的情況。其次，由于PSTN(Public Switched Telephone Network，公共交換電話網(wǎng)絡)普遍實施了呼叫失敗后語音提示的功能，語音提示時長可達60秒，然后才發(fā)送信令，這會嚴重影響信令檢測效率。
[0005]自動外呼及洗號系統(tǒng)的另一種方法是采用語音識別檢測技術。語音識別就是讓機器通過識別和理解過程把語音信號轉變?yōu)橄鄳奈谋净蛎睿饕ㄌ卣魈崛?、模式匹配準則及模型訓練這三個方面。語音識別檢測可用于對用戶呼叫失敗的情況進行自動分類。語音識別技術的關鍵是鈴音匹配，首先將模擬語音信號轉換為數(shù)字信號，再同音庫中的樣本進行比對，當匹配值滿足條件時匹配成功，選當前一條結果返回，實現(xiàn)號碼狀態(tài)識別。這種方式的識別率比信令檢測方式的高，能夠較為有效的解決準確性問題，但語音識別需要進行語音樣本的頻域分析后再進行鈴音匹配，其中引入了大量運算，這就造成算法冗雜，識別速度慢，在效率上存在明顯不足。
【發(fā)明內(nèi)容】

[0006]鑒于上述分析，本發(fā)明旨在提供一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)，用以解決現(xiàn)有方法識別準確率和識別效率低、識別速度慢的問題。
[0007]本發(fā)明的目的主要是通過以下技術方案實現(xiàn)的:
[0008]提供一種呼叫中心系統(tǒng)的鈴音識別方法，包括以下步驟:
[0009]S1、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道；
[0010]S2、呼叫中心系統(tǒng)向被叫用戶發(fā)起傳真請求；
[0011]S3、呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別；
[0012]S4、如果步驟S2中識別為支持T38的網(wǎng)關上的傳真機，則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機;否則通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別；
[0013]S5、將識別結果與對應的電話號碼相關聯(lián)，保存到數(shù)據(jù)庫中。
[0014]其中，步驟S2具體包括:通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求，其中re-1NVITE消息中帶有傳真能力描述的SDP offer，被叫用戶返回帶有SDP (answer)內(nèi)容的200消息，呼叫中心系統(tǒng)對所述返回的SDP (answer)內(nèi)容進行解析。
[0015]步驟S3呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別進一步包括:從時域和頻域對呼通后5秒的音頻片段進行分析。[0〇16]被叫未應答前振鈴狀態(tài)可以分為正常振鈴狀態(tài)和異常振鈴狀態(tài)。
[0017]對于異常振鈴狀態(tài)的識別，采用快速傅里葉變換提取語音片段的特征值，再與語音數(shù)據(jù)庫匹配。
[0018]正常振鈴狀態(tài)分為標準回鈴音和彩鈴，正常振鈴狀態(tài)的識別進一步包括步驟:
[0019]S31、獲取呼通后的音頻片段，采用并行方式進行標準回鈴音和彩鈴的識別；
[0020]S32、將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1，再次小于該閾值的時刻為語音結束時刻T2，T2在語音片段時段內(nèi)，截取T1到T2時刻之間的語音片段數(shù)據(jù)，將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換，如果450Hz的數(shù)據(jù)占截取的語音片段的權重超過設定閾值E2，即識別為標準回鈴音；
[0021]S33、將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3,如果在T3時刻到音頻片段結束這一時間段內(nèi)，滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1，且語音片段總持續(xù)時間T4占的百分比超過設定閾值P1，即識別為彩鈴；[〇〇22]S34、識別過程返回一個識別結果。
[0023]步驟S4中，呼叫中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別的步驟，進一步包括:基于被叫端摘機接聽后的前5秒語音片段從時域和頻域進行語音片段分析。
[0024]摘機后振鈴鈴音狀態(tài)的識別包括:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài)的識別，具體步驟為:
[0025]S41、獲取摘機接聽后的語音片段，采用并行方式進行傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話四種狀態(tài)的識別；[〇〇26]S42、當語音片段內(nèi)的有聲片段滿足傳真機的識別設定閾值A3,并且語音片段經(jīng)快速傅里葉變換后，語音片段的頻率為2100Hz，則識別為傳真機應答；[〇〇27]S43、將識別出有聲音的時刻作為開始時刻T5,如果在語音片段的時長內(nèi)識別為有聲音的時間段之和T6占T5到語音片段結束這個時間段的百分比超過閾值P2,則識別為自動應答機；[〇〇28]S44、當語音片段的時長內(nèi)，有聲片段的時間和T6滿足自然人閾值A2，則識別為自然人應答；[〇〇29]S45、當語音片段內(nèi)的有聲片段為0,則識別為接通無人回話狀態(tài)；[〇〇3〇] S46、識別過程返回一個識別結果。
[0031]本發(fā)明還提供一種實現(xiàn)上述鈴音識別方法的用于呼叫中心系統(tǒng)的鈴音識別系統(tǒng)，包括:[〇〇32]呼叫模塊，其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道；[〇〇33]終端狀態(tài)和類別識別模塊，其包括SDP解析模塊和語音處理模塊，SDP解析模塊用于解析被叫用戶返回的SDP(answer)內(nèi)容，語音處理模塊進一步包括被叫未應答前振鈴鈴首狀態(tài)識別t旲塊、摘機后振鈴鈴首狀態(tài)識別t旲塊；
[0034]儲存模塊，其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中；
[0035]其中，被叫未應答前振鈴鈴音狀態(tài)識別模塊，其通過基于頻域和時域的語音片段分析對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別；摘機后振鈴鈴音狀態(tài)識別模塊，其接收SDP解析模塊的解析結果，如果從返回的SDP (answer)中解析出包含m = image、138的字段，則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機，否則呼叫中心系統(tǒng)通過基于時域和頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
[0036]本發(fā)明有益效果如下:通過對語音片段進行分別從時域和頻域的分析，可以準確地識別號碼狀態(tài)及終端類型，使鈴音狀態(tài)識別的計算量小、能迅速給出識別結果;避免了提取頻域特征值、再匹配鈴音庫的過程，提高了識別效率。此外，對傳真機識別包括了SDP解析和語音分析，實現(xiàn)雙重保證，確保能從不支持T38協(xié)議的網(wǎng)關中將傳真機識別出來。
[0037]本發(fā)明的其他特征和優(yōu)點將在隨后的說明書中闡述，并且，部分的從說明書中變得顯而易見，或者通過實施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現(xiàn)和獲得。【附圖說明】
[0038]附圖僅用于示出具體實施例的目的，而并不認為是對本發(fā)明的限制，在整個附圖中，相同的參考符號表不相同的部件。
[0039]圖1為呼叫中心系統(tǒng)的鈴音識別方法的示意圖
[0040]圖2為被叫未應答前振鈴鈴音的示意圖
[0041]圖3為呼叫中心系統(tǒng)的鈴音識別系統(tǒng)的示意圖【具體實施方式】[〇〇42]下面結合附圖來具體描述本發(fā)明的優(yōu)選實施例，其中，附圖構成本申請一部分，并與實施例一起用于闡釋本發(fā)明的原理。
[0043]具體實施例一，公開了一種呼叫中心系統(tǒng)的鈴音識別方法，并以5秒語音片段為例，如圖1所示，具體包括以下步驟:
[0044]步驟S1、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道。
[0045]步驟S2、首先進行傳真機識別，具體地，
[0046]呼叫中心系統(tǒng)發(fā)起傳真請求，通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求，其中re-1NVITE消息中帶有傳真能力描述的SDP offer;
[0047]被叫用戶通過返回帶有SDP(answer)內(nèi)容的200消息，與呼叫中心系統(tǒng)完成傳真能力的協(xié)商；
[0048] 呼叫中心系統(tǒng)對所述SDP(answer)內(nèi)容進行解析，如果從返回的SDP(answer)中解析出包含m=image、t38字段，則判斷被叫方為在支持T38的網(wǎng)關上的傳真機。
[0049]步驟S3、呼叫中心系統(tǒng)對被叫未應答前振鈴鈴音狀態(tài)進行識別，上述狀態(tài)識別分別從時域和頻域進行，且均基于5秒語音片段(如圖2所示)進行分析。需要注意的是:被叫未應答前振鈴狀態(tài)識別是基于呼通后5秒的音頻片段進行的語音分析。音頻片段的起始標識是開始進行語音分析的時刻，終止標識是根據(jù)采樣頻率和采樣點數(shù)計算得到的。
[0050]具體地，被叫未應答前振鈴狀態(tài)又分為正常振鈴狀態(tài)和異常振鈴狀態(tài)；正常振鈴狀態(tài)分為標準回鈴音和彩鈴;標準回鈴音為嘟嘟聲，彩鈴是一段連續(xù)音頻流，一般是一段音樂或一段搞笑音頻等。異常振鈴狀態(tài)包括關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼入限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移等。[0051 ]以中國為例，標準回鈴音在時域上為5秒一個周期，響1秒停4秒；在頻域上是 450Hz。根據(jù)上述時域和頻域的兩種特性進行標準回鈴音的識別。彩鈴通常為連續(xù)語音片段，時域上的特征表現(xiàn)為5秒周期內(nèi)的絕大多數(shù)都識別為有聲采樣。[〇〇52]基于上述特性，基于5秒語音片段對標準回鈴音和彩鈴進行識別，包括以下步驟:
[0053]獲取呼通后5秒的音頻片段，采用并行方式進行以下識別；[〇〇54]將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1，再次小于該閾值的時刻為語音結束時刻T2(T2在5秒內(nèi))，截取T1到T2時刻之間的語音片段數(shù)據(jù)，將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換，如果450Hz左右的數(shù)據(jù)占截取的語音片段(T2-T1)的權重超過設定閾值E2即識別為標準回鈴音；
[0055]將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3，如果從語音開始時刻T3 至IJ5秒音頻結束這段時間(5-T3)內(nèi)滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1，且語音片段總持續(xù)時間T4占(5-T3)的百分比超過設定閾值P1，即識別為彩鈴；
[0056] 識別過程返回一個識別結果。[〇〇57]針對上述異常振鈴狀態(tài)，采用快速傅里葉變換提取呼通后5秒音頻片段的特征值，再與語音數(shù)據(jù)庫匹配，得出異常振鈴的具體狀態(tài)。[〇〇58]步驟S4、呼叫中心系統(tǒng)對摘機后振鈴鈴音狀態(tài)進行識別，所述摘機后狀態(tài)分為傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài)。摘機后振鈴鈴音狀態(tài)的識別原理如下:[〇〇59] 傳真機在支持T38的網(wǎng)關上，SDP會帶回m=image、t38的字段，SDP的解析在步驟S2 中進行;在不支持T38的網(wǎng)關上，即使是傳真機應答，SDP也不會帶回m= image、t38的字段，此時在步驟S4中基于被叫端摘機接聽后的前5秒語音片段、從時域和頻域上語音分析，以識別摘機后振鈴鈴首狀態(tài)。[0〇6〇] 如果步驟S2中能從返回的SDP(answer)中解析出包含111=;[1]^86438字段，則停止摘機后振鈴鈴音狀態(tài)識別的過程，上報摘機后狀態(tài)識別結果為傳真機，此時無需再進行應答機、自然人和無人回話的識別；[〇〇611 如果從返回的SDP中解析不出m=image、t38字段時，則對摘機接聽后的前5秒語音片段進行語音分析。音頻片段的起始標識是開始進行語音分析的時刻，終止標識是根據(jù)采樣頻率和采樣點數(shù)計算得到的。
[0062]具體地，如果是傳真機，摘機后在一段長靜音后會有一個尖銳的“滴”聲，該“滴”聲在頻域上大多在2100Hz左右，根據(jù)上述長靜音和頻率這兩個特性，可以對SDP沒有帶回m = image和t38這兩個字段的傳真機進行識別。
[0063]如果是自動應答機應答，則時域上是一段連續(xù)的人聲片段，并且人聲部分占5秒內(nèi)的絕大多數(shù)時間，從這一條件出發(fā)，進行自動應答機識別。
[0064]如果是自然人摘機，則一般在類似“喂!你好”的聲音片段后是一段長靜音，根據(jù)這個特點進行自然人摘機識別。
[0065]根據(jù)接通后5秒內(nèi)基本是長靜音狀態(tài)這一特征，可以識別接通無人通話狀態(tài)。
[0066]具體地，在摘機后狀態(tài)識別中，對摘機接聽后的前5秒語音片段進行語音分析中的過程包括:
[0067]獲取摘機接聽后的前5秒語音片段，采用并行方式進行識別；
[0068]當這5秒語音片段內(nèi)的有聲片段很小，滿足傳真機的識別設定閾值A3,并且經(jīng)快速傅里葉變換后，語音片段的頻率為2100Hz，則識別為傳真機應答；
[0069]將識別出有聲音的時刻作為開始時刻T5，如果5秒內(nèi)識別為有聲音的時間段之和 T6占(5-T5)的百分比超過閾值P2，則識別為自動應答機；
[0070]當5秒內(nèi)有聲片段的時間和T6滿足自然人閾值A2，則識別為自然人應答；
[0071]當5秒語音片段內(nèi)的有聲片段幾乎為0,則識別為接通無人回話狀態(tài)；[〇〇72] 識別過程返回一個識別結果。
[0073]本實施例中，E1是識別為有效語音的能量閾值(PCM語音數(shù)據(jù)的能量值，是一個16 位無符號整型數(shù)據(jù))，E2是標準回鈴音占分析語音片段的權重閾值，E3是彩鈴識別音頻能量閾值，A1是5秒內(nèi)識別為彩鈴的語音片段采樣個數(shù)的閾值，P1是采樣音頻片段的時間占比閾值，A3是傳真機應答語音的識別閾值，P2是有聲音時間段的時間占比閾值，A2是自然人應答的識別閾值。具體設定 E1 = 1000、E2 = 50、E3 = 2100、A1 = 15000、P1=60%、P2 = 50%、A2 = 1000、A3 = 1000。這些設定值是經(jīng)過測試調(diào)整得到的，本發(fā)明并不限于以上取值，可以根據(jù)實際情況酌情修改。[〇〇74]摘機后狀態(tài)的識別結果中會帶有一個識別率的值，這個值是一個規(guī)定的特定值，用來標識該識別結果的級別高低，以規(guī)避識別沖突。當后續(xù)識別出更高級的結果時，以最高級別結果為準。[〇〇75]需要說明的是，被叫未應答前的異常振鈴狀態(tài)，如關機、停機、暫時無法接通、正在通話、空號、無人接聽、來電提醒、呼人限制、網(wǎng)絡忙、呼出限制、線路忙、用戶拒接、呼叫轉移等，采用匹配語音庫的方法實現(xiàn)識別，且這些狀態(tài)的優(yōu)先級高于標準回鈴音和彩鈴。
[0076]步驟S5、將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中。
[0077]上述實施例中的標準回鈴音識別是以中國標準為準的，選取5秒語音片段作為分析基準。但是，本發(fā)明并不局限于5秒語音片段，可以根據(jù)實際情況選取合適時間長度的語音片段。替換的實施例可以針對其他國家標準進行標準回鈴音識別。以美國為例，采用 440Hz和480Hz兩個頻率組合，以6秒一個周期，響2秒，停4秒。
[0078]本發(fā)明的另一個具體實施例，公開了一種實現(xiàn)上述鈴音識別方法的用于呼叫中心系統(tǒng)的鈴音識別系統(tǒng)(如圖3所示)，包括:
[0079]呼叫模塊，其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道；
[0080]終端狀態(tài)和類別識別模塊，其包括SDP解析模塊和語音處理模塊，SDP解析模塊用于解析被叫用戶返回的SDP(answer)內(nèi)容，語音處理模塊進一步包括被叫未應答前振鈴鈴首狀態(tài)識別t旲塊、摘機后振鈴鈴首狀態(tài)識別t旲塊；[0081 ]儲存模塊，其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中；
[0082]其中，被叫未應答前振鈴鈴音狀態(tài)識別模塊，其通過基于頻域和時域的語音片段分析對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別；摘機后振鈴鈴音狀態(tài)識別模塊，其接收SDP解析模塊的解析結果，如果從返回的SDP (answer)中解析出包含m = image、138的字段，則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機，否則呼叫中心系統(tǒng)通過基于時域和頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
[0083]綜上所述，本發(fā)明實施例提供了一種呼叫中心系統(tǒng)的鈴音識別方法和系統(tǒng)，將識別限定在5秒語音片段上的時域和頻域分析，能準確地識別號碼狀態(tài)及終端類型，減小了計算量，迅速給出識別結果，避免了提取頻域特征值并匹配鈴音庫的過程，提高了識別效率。其中，傳真機的摘機識別中采用SDP解析和語音分析進行雙重保障，確保將不支持T38協(xié)議的網(wǎng)關中的打印機也識別出來。[〇〇84]本領域技術人員可以理解，實現(xiàn)上述實施例方法的全部或部分流程，可以通過計算機程序來指令相關的硬件來完成，所述的程序可存儲于計算機可讀存儲介質中。其中，所述計算機可讀存儲介質為磁盤、光盤、只讀存儲記憶體或隨機存儲記憶體等。
[0085]以上所述，僅為本發(fā)明較佳的【具體實施方式】，但本發(fā)明的保護范圍并不局限于此，任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi)，可輕易想到的變化或替換，都應涵蓋在本發(fā)明的保護范圍之內(nèi)。
【主權項】
1.一種呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，包括以下步驟:51、呼叫中心系統(tǒng)從呼叫列表中調(diào)取電話號碼作為被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道；52、呼叫中心系統(tǒng)向被叫用戶發(fā)起傳真請求；53、呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別；54、如果步驟S2中識別為支持T38的網(wǎng)關上的傳真機，則直接上報摘機后振鈴鈴音狀態(tài) 的識別結果為傳真機;否則通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別；55、將識別結果與對應的電話號碼相關聯(lián)，保存到數(shù)據(jù)庫中。2.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，步驟S2具體包括:通過SIP的re-1NVITE消息向被叫用戶發(fā)起傳真媒體流的協(xié)商和建立請求，其中re-1NVITE消息中帶有傳真能力描述的SDP offer，被叫用戶返回帶有SDP(answer)內(nèi)容的200 消息，呼叫中心系統(tǒng)對所述返回的SDP (answer)內(nèi)容進行解析。3.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，步驟S3呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別的步驟進一步包括:從時域和頻域對呼通后5秒的音頻片段進行分析。4.根據(jù)權利要求3所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，步驟S3呼叫中心系統(tǒng)通過語音片段分析對被叫未應答前振鈴鈴音狀態(tài)進行識別中，被叫未應答前振鈴狀態(tài) 分為正常振鈴狀態(tài)和異常振鈴狀態(tài)。5.根據(jù)權利要求4所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，其中異常振鈴狀態(tài)的識別是采用快速傅里葉變換提取語音片段的特征值，再與語音數(shù)據(jù)庫匹配。6.根據(jù)權利要求4所述的呼叫中心系統(tǒng)的鈴音識別方法，正常振鈴狀態(tài)分為標準回鈴音和彩鈴，其特征在于，正常振鈴狀態(tài)的識別進一步包括步驟:531、獲取呼通后的音頻片段，采用并行方式進行標準回鈴音和彩鈴的識別；532、將音頻能量值滿足設定閾值E1的時刻識別為語音片段開始時刻T1，再次小于該閾值的時刻為語音結束時刻T2，T2在語音片段時段內(nèi)，截取T1到T2時刻之間的語音片段數(shù)據(jù)，將所截取的語音片段數(shù)據(jù)進行快速傅里葉變換，如果450Hz的數(shù)據(jù)占截取的語音片段的權重超過設定閾值E2，即識別為標準回鈴音；533、將音頻能量值超過閾值E3的時刻判斷為語音開始時刻T3,如果在T3時刻到音頻片段結束這一時間段內(nèi)，滿足音頻能量值E3的語音片段采樣個數(shù)大于閾值A1，且語音片段總持續(xù)時間T4占的百分比超過設定閾值P1，即識別為彩鈴；534、識別過程返回一個識別結果。7.根據(jù)權利要求1所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，步驟S4中，呼叫中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別的步驟，進一步包括:基于被叫端摘機接聽后的前5秒語音片段從時域和頻域進行語音片段分析。8.根據(jù)權利要求7所述的呼叫中心系統(tǒng)的鈴音識別方法，其特征在于，步驟S4中，呼叫中心系統(tǒng)通過語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別，進一步包括:傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話這四種狀態(tài)，具體步驟為:S41、獲取摘機接聽后的語音片段，采用并行方式進行傳真機摘機識別、自動應答機摘機識別、自然人摘機識別、接通無人回話四種狀態(tài)的識別；542、當語音片段內(nèi)的有聲片段滿足傳真機的識別設定閾值A3，并且語音片段經(jīng)快速傅里葉變換后，語音片段的頻率為2100Hz，則識別為傳真機應答；543、將識別出有聲音的時刻作為開始時刻T5,如果在語音片段的時長內(nèi)識別為有聲音的時間段之和T6占T5到語音片段結束這個時間段的百分比超過閾值P2,則識別為自動應答機；544、當語音片段的時長內(nèi)，有聲片段的時間和T6滿足自然人閾值A2，則識別為自然人應答；545、當語音片段內(nèi)的有聲片段為0，則識別為接通無人回話狀態(tài)；546、識別過程返回一個識別結果。9.一種實現(xiàn)權利要求1所述鈴音識別方法的鈴音識別系統(tǒng)，其特征在于，包括:呼叫模塊，其用于從呼叫列表中調(diào)取電話號碼作為呼叫的被叫用戶，呼叫被叫用戶，建立呼叫中心系統(tǒng)與被叫用戶之間的語音通道；終端狀態(tài)和類別識別模塊，其包括SDP解析模塊和語音處理模塊，SDP解析模塊用于解析被叫用戶返回的SDP(answer)內(nèi)容，語音處理模塊進一步包括被叫未應答前振鈴鈴音狀態(tài)識別t吳塊、摘機后振鈴鈴首狀態(tài)識別t吳塊；儲存模塊，其用于將識別結果與對應的電話號碼相關聯(lián)地保存到數(shù)據(jù)庫中；其中，被叫未應答前振鈴鈴音狀態(tài)識別模塊，其通過基于頻域和時域的語音片段分析對正常振鈴狀態(tài)中的標準回鈴音和彩鈴進行識別；摘機后振鈴鈴音狀態(tài)識別模塊，其接收 SDP解析模塊的解析結果，如果從返回的SDP(answer)中解析出包含m=image、t38的字段，則直接上報摘機后振鈴鈴音狀態(tài)的識別結果為傳真機，否則呼叫中心系統(tǒng)通過基于時域和頻域的語音片段分析對摘機后振鈴鈴音狀態(tài)進行識別。
【文檔編號】H04M3/42GK105979106SQ201610420648
【公開日】2016年9月28日
【申請日】2016年6月13日
【發(fā)明人】董世寧
【申請人】北京容聯(lián)易通信息技術有限公司

完整全部詳細技術資料下載