專利名稱:電信網(wǎng)絡(luò)中的語音處理的制作方法
技術(shù)領(lǐng)域:
本說明書一般地涉及語音處理,并且更特別地涉及用于在電信網(wǎng)絡(luò)中處理語音的系統(tǒng)和方法。
背景技術(shù):
存在如下各種情況,在這些情況中,可以在電信網(wǎng)絡(luò)的兩個(gè)端點(diǎn)之間傳輸口頭句(verbal sentence)或提示。被配置為傳輸音頻或語音信號(hào)的電信設(shè)備的示例包括但不限于交互話音響應(yīng)(IVR)服務(wù)器和自動(dòng)通告系統(tǒng)。此外,存在其中電信公司、運(yùn)營商或其他實(shí)體可能希望驗(yàn)證和/或標(biāo)識(shí)此類設(shè)備播放的音頻的實(shí)例。出于示范的原因,銀行可能期望測(cè)試適當(dāng)?shù)膯柡蛳⑹欠窀鶕?jù)呼叫時(shí)間被提供給入站主叫。在該情況中,銀行可能需要核實(shí)例如當(dāng)在營業(yè)時(shí)間期間接收到電話呼叫時(shí)播放第一自動(dòng)消息(例如,“感謝您致電;請(qǐng)從以下菜單選項(xiàng)中選擇…”),以及當(dāng)在那些時(shí)間之外接收到呼叫時(shí)播放不同的消息(例如,“我們的辦公時(shí)間是星期一至星期五上午9點(diǎn)至下午4點(diǎn);請(qǐng)?jiān)谠摃r(shí)間期間回電…”)。由于本發(fā)明人已經(jīng)認(rèn)識(shí)到,然而這些口頭句和提示例行地跨不同類型的網(wǎng)絡(luò)(例如,計(jì)算機(jī)網(wǎng)絡(luò)和無線電話網(wǎng)絡(luò))傳播。而且,網(wǎng)絡(luò)通常在不同和改變的損害、條件、停機(jī)等之下操作,因此不經(jīng)意地改變傳輸?shù)囊纛l信號(hào)。在這些類型的環(huán)境中,否則將在正常條件下被識(shí)別的音頻信號(hào)可能變得完全無法辨認(rèn)。因此,本發(fā)明人除其他事物之外已經(jīng)認(rèn)識(shí)到需要驗(yàn)證和/或標(biāo)識(shí)音頻信號(hào),音頻信號(hào)例如包括遭受各種網(wǎng)絡(luò)條件和/或損害的不同網(wǎng)絡(luò)設(shè)備播放的語音信號(hào)
發(fā)明內(nèi)容
在此描述了用于在電信網(wǎng)絡(luò)中處理語音的系統(tǒng)和方法的實(shí)施例。在示范性非限制性實(shí)施例中,一種方法可以包括接收通過網(wǎng)絡(luò)傳輸?shù)恼Z音,使該語音轉(zhuǎn)換為文本以及響應(yīng)于匹配于與預(yù)定語音相關(guān)聯(lián)的存儲(chǔ)文本的文本,將該語音標(biāo)識(shí)為預(yù)定語音。例如通過使預(yù)定語音遭受網(wǎng)絡(luò)損害條件而獲得存儲(chǔ)文本。在某些實(shí)現(xiàn)中,語音可以包括交互話音響應(yīng)(IVR)系統(tǒng)生成的信號(hào)。此外或替代地,語音可以包括關(guān)于一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)遠(yuǎn)程定位的用戶提供的音頻命令,該音頻命令被配置為控制一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)。而且,網(wǎng)絡(luò)損害條件可以包括以下至少一個(gè):噪聲、丟包率、延遲、抖動(dòng)、擁塞、低帶寬編碼或低帶寬解碼。在某些實(shí)施例中,將語音標(biāo)識(shí)為預(yù)定語音可以包括標(biāo)識(shí)匹配于存儲(chǔ)文本內(nèi)一個(gè)或多個(gè)術(shù)語的文本內(nèi)的一個(gè)或多個(gè)術(shù)語,至少部分地基于一個(gè)或多個(gè)術(shù)語的標(biāo)識(shí)計(jì)算文本與存儲(chǔ)文本之間的匹配分?jǐn)?shù),以及響應(yīng)于符合閾值的匹配分?jǐn)?shù)確定文本與存儲(chǔ)文本匹配。而且,標(biāo)識(shí)匹配于存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的文本內(nèi)的一個(gè)或多個(gè)術(shù)語可以包括將模糊邏輯應(yīng)用于文本和存儲(chǔ)文本中的術(shù)語。在某些情況中,應(yīng)用模糊邏輯可以包括將文本中的第一術(shù)語與存儲(chǔ)文本中的第二術(shù)語比較而無關(guān)第一或第二文本中術(shù)語的排序。此外或替代地,應(yīng)用模糊邏輯可以包括確定文本中的任何術(shù)語最多與存儲(chǔ)文本中的另一術(shù)語匹配。在某些實(shí)現(xiàn)中,該方法可以包括響應(yīng)于(a)第一和第二術(shù)語中在前數(shù)量(leadingnumber)的字符彼此匹配;以及(b)第一和第二術(shù)語中的不匹配字符的數(shù)量小于預(yù)定值來確定文本中的第一術(shù)語和存儲(chǔ)文本中的第二術(shù)語匹配,盡管彼此不相同。此外或替代地,可以響應(yīng)于(a)第一和第二術(shù)語中在前數(shù)量(leading number)的字符彼此匹配;以及(b)在前數(shù)量的字符大于預(yù)定值來進(jìn)行此類確定。而且,計(jì)算文本與存儲(chǔ)文本之間的匹配分?jǐn)?shù)可以包括計(jì)算匹配于存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的文本內(nèi)的一個(gè)或多個(gè)術(shù)語的第一數(shù)量的字符與匹配于文本內(nèi)的一個(gè)或多個(gè)術(shù)語的存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的第二數(shù)量的字符的第一和,計(jì)算文本和存儲(chǔ)文本中的字符的總數(shù)量的第二和,以及將第一和除以第二和。在將語音信號(hào)標(biāo)識(shí)為預(yù)定語音之前,該方法還可以包括通過使預(yù)定語音遭受網(wǎng)絡(luò)損害條件來創(chuàng)建相異語音信號(hào)并且使相異語音信號(hào)被轉(zhuǎn)換為相異文本。然后,該方法繼而可以包括將相異文本存儲(chǔ)為存儲(chǔ)文本,該存儲(chǔ)文本與網(wǎng)絡(luò)損害條件相關(guān)聯(lián)。在另一示范性非限制性實(shí)施例中,方法可以包括標(biāo)識(shí)源自通過電信網(wǎng)絡(luò)接收的語音信號(hào)的語音到文本轉(zhuǎn)換的文本。該方法還可以包括針對(duì)多個(gè)存儲(chǔ)文本中的每個(gè)計(jì)算指示給定存儲(chǔ)文本與接收文本之間的匹配度的分?jǐn)?shù),多個(gè)存儲(chǔ)文本中的每個(gè)對(duì)應(yīng)于遭受電信網(wǎng)絡(luò)的損害條件的預(yù)定語音的語音到文本轉(zhuǎn)換。該方法還可以包括在多個(gè)存儲(chǔ)文本中選擇具有最高分?jǐn)?shù)的存儲(chǔ)文本作為匹配于接收文件。在又一示范性非限制性實(shí)施例中,一種方法可以包括通過使原始語音遭受電信網(wǎng)絡(luò)的實(shí)際或仿真的損害條件來創(chuàng)建相異語音,將相異語音信號(hào)改寫(transcribe)為相異文本,并且存儲(chǔ)相異文本。例如,可以與損害條件的指示相關(guān)聯(lián)地存儲(chǔ)相異文本。該方法還可以包括將通過網(wǎng)絡(luò)接收的語音信號(hào)改寫為文本并且響應(yīng)于文本匹配于相異文本來將語音信號(hào)標(biāo)識(shí)為匹配原始語音。
在某些實(shí)施例中,在此描述的一個(gè)或多個(gè)方法可以由一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)執(zhí)行。在其他實(shí)施例中,有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以具有存儲(chǔ)于其上的程序指令,在一個(gè)或多個(gè)計(jì)算機(jī)或網(wǎng)絡(luò)監(jiān)視系統(tǒng)執(zhí)行時(shí),程序指令使一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)執(zhí)行在此公開的一個(gè)或多個(gè)操作。在又一實(shí)施例中,系統(tǒng)可以包括至少一個(gè)處理器和耦合至至少一個(gè)處理器的存儲(chǔ)器,該存儲(chǔ)器被配置為存儲(chǔ)可由至少一個(gè)處理器執(zhí)行用于執(zhí)行在此公開的一個(gè)或多個(gè)操作的程序指令。
現(xiàn)在將參考附圖,其中:
圖1是根據(jù)某些實(shí)施例的語音處理系統(tǒng)的框圖。圖2是根據(jù)某些實(shí)施例的語音處理軟件程序的框圖。圖3A和3B是根據(jù)某些實(shí)施例的基于網(wǎng)絡(luò)損害條件創(chuàng)建相異或期望文本的方法的流程圖。圖4是根據(jù)某些實(shí)施例的語音處理數(shù)據(jù)庫中存儲(chǔ)的元素的框圖。圖5和6是根據(jù)某些實(shí)施方式的在損害網(wǎng)絡(luò)條件下標(biāo)識(shí)語音的方法的流程圖。圖7是根據(jù)某些實(shí)施例的基于接收語音標(biāo)識(shí)網(wǎng)絡(luò)損害的方法的流程圖。
圖8是根據(jù)某些實(shí)施例的被配置為實(shí)現(xiàn)在此描述的某些系統(tǒng)和方法的計(jì)算機(jī)系統(tǒng)的框圖。雖然該說明書提供了若干實(shí)施例和示范性圖,但是本領(lǐng)域技術(shù)人員將認(rèn)識(shí)到本說明書不僅限于描述的實(shí)施例或圖。應(yīng)該理解,圖和詳細(xì)的描述不旨在將說明書限制為公開的特定形式,但是,相反,目的是覆蓋落在權(quán)利要求書的精神和范圍內(nèi)的所有修改、等同和替代方案。而且,在此使用的任何標(biāo)題僅出于組織目的并且不旨在限制描述的范圍。如在此使用的,詞語“可以”意味著傳達(dá)容許意義(即,意味著“具有潛在性”),而不是強(qiáng)制意義(即,意味著“必須”)。類似地,詞語“包括”、“包含”和“包容”意味著“包括但不限于”。
具體實(shí)施方式
轉(zhuǎn)到圖1,根據(jù)某些實(shí)施例示出了語音處理系統(tǒng)的框圖。如圖所示,語音探測(cè)器100可以連接至網(wǎng)絡(luò)140并且被配置為連接至(一個(gè)或多個(gè))測(cè)試單元110、IVR服務(wù)器120或(一個(gè)或多個(gè))通告端點(diǎn)130中的一個(gè)或多個(gè)。在某些實(shí)施例中,語音探測(cè)器100可以被配置為監(jiān)視(一個(gè)或多個(gè))測(cè)試單元110與IVR服務(wù)器120或(一個(gè)或多個(gè))通告端點(diǎn)130之間的通信。在其他實(shí)施例中,語音探測(cè)器100可以被配置為發(fā)起與IVR服務(wù)器120或(一個(gè)或多個(gè))通告端點(diǎn)130的通信。在又一實(shí)施例中,語音探測(cè)器100可以被配置為從(一個(gè)或多個(gè))測(cè)試單元110接收一個(gè)或多個(gè)命令。例如,響應(yīng)于接收一個(gè)或多個(gè)命令,語音探測(cè)器100可以發(fā)起、終止、改變或否則控制網(wǎng)絡(luò)測(cè)試處理等??梢岳缁趥魉偷膬?nèi)容類型、網(wǎng)絡(luò)140的類型和/或設(shè)備100-130的功能來選擇用于實(shí)現(xiàn)圖1中發(fā)生的通信的協(xié)議。一般而言,(一個(gè)或多個(gè))測(cè)試單元110可以包括固定線電話、無線電話、計(jì)算機(jī)系統(tǒng)(例如,個(gè)人計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算機(jī)等)等。因此,(一個(gè)或多個(gè))測(cè)試單元110可以允許用戶執(zhí)行話音通信或否則例如向/從語音探測(cè)器100、IVR服務(wù)器120和/或(一個(gè)或多個(gè))端點(diǎn)130傳輸和/或接收音頻信號(hào)。IVR服務(wù)器120可以包括被配置為再現(xiàn)遵循預(yù)定呼叫流程的一個(gè)或多個(gè)音頻提示的計(jì)算機(jī)系統(tǒng)等。例如,IVR服務(wù)器120可以在被語音探測(cè)器100或(一個(gè)或多個(gè))測(cè)試單元110達(dá)到時(shí)再現(xiàn)第一消息。在再現(xiàn)第一消息之后并且響應(yīng)于接收了雙音多頻(DTMF)信號(hào)或口頭選擇,IVR服務(wù)器120可以基于呼叫流程再現(xiàn)另一首頻提不。(一個(gè)或多個(gè))通告端點(diǎn)130中的每個(gè)可以包括被配置為在被語音探測(cè)器100或(一個(gè)或多個(gè))測(cè)試單元110達(dá)到時(shí)播放給定音頻消息的電話應(yīng)答設(shè)備、系統(tǒng)或子系統(tǒng)。在某些情況中,(一個(gè)或多個(gè))通告端點(diǎn)130中的每個(gè)可以與不同電話號(hào)碼相關(guān)聯(lián)。例如,通告管理系統(tǒng)(未示出)可以標(biāo)識(shí)將向用戶播放的給定音頻提示,并且繼而其可以通告撥打其電話號(hào)碼來將用戶連接至(一個(gè)或多個(gè))通告端點(diǎn)130中相應(yīng)的一個(gè)以實(shí)際提供音頻提示。網(wǎng)絡(luò)140可以包括任何合適的有線或無線/移動(dòng)網(wǎng)絡(luò),其例如包括計(jì)算機(jī)網(wǎng)絡(luò)、因特網(wǎng)、普通舊電話服務(wù)(POTS)網(wǎng)絡(luò)、第三代(3G)、第四帶(4G)或長期演進(jìn)(LET)無線網(wǎng)絡(luò)、實(shí)時(shí)傳輸協(xié)議(RTP)網(wǎng)絡(luò)或它們的任何組合。在某些實(shí)施例中,網(wǎng)絡(luò)140的至少部分可以實(shí)現(xiàn)話音IP(VoIP)網(wǎng)絡(luò)等。語音探測(cè)器100可以包括計(jì)算機(jī)系統(tǒng)、網(wǎng)絡(luò)監(jiān)視器、網(wǎng)絡(luò)分析器、分組嗅探器等。在各種實(shí)施例中,語音探測(cè)器100可以實(shí)現(xiàn)用于驗(yàn)證和/或標(biāo)識(shí)音頻信號(hào)的某些技術(shù),音頻信號(hào)例如包括由遭受各種網(wǎng)絡(luò)條件和/或損害的不同網(wǎng)絡(luò)設(shè)備(例如,(一個(gè)或多個(gè))測(cè)試單元110、IVR服務(wù)器120和/或(一個(gè)或多個(gè))通告端點(diǎn)130)提供的語音信號(hào)。因此,在此描述的各種系統(tǒng)和方法可以發(fā)現(xiàn)不同領(lǐng)域中的多種應(yīng)用。這些應(yīng)用除其他之外可以包括通告識(shí)別、多級(jí)(multistage) IVR呼叫流程分析器、音頻/視頻服務(wù)質(zhì)量(QoS)測(cè)量、語音的同步等。例如,在通告識(shí)別應(yīng)用中,語音探測(cè)器100可以呼叫通告服務(wù)器或(一個(gè)或多個(gè))端點(diǎn)130。目的地可以播放通告音頻句。一旦連接了呼叫,語音探測(cè)器100就可以監(jiān)聽(一個(gè)或多個(gè))端點(diǎn)130進(jìn)行的通告,并且其可以確定該通告是否匹配于期望語音。該情況中的期望語音的示例可以包括例如“你輸入的賬戶代碼無效,請(qǐng)掛斷并重試”(AcctCodelnvalid)、“現(xiàn)在解激活匿名呼叫拒絕” (ACRactive命令)、“匿名呼叫拒絕是活躍的”(ACRDeact命令)等。為了評(píng)估是否存在匹配,探測(cè)器100可以將音頻改寫為文本并且將改寫的文本與對(duì)應(yīng)于期望音頻的期望文本進(jìn)行比較。在多級(jí)IVR呼叫流程分析器應(yīng)用中,音頻探測(cè)器100可以呼叫IVR服務(wù)器120。類似地如上,目的地可以播放音頻句。一旦連接了呼叫,語音探測(cè)器100就可以監(jiān)聽IVR系統(tǒng)120宣告的語音提示并且識(shí)別多個(gè)通告中的哪個(gè)被再現(xiàn)以確定哪個(gè)級(jí)在IVR呼叫流程中,并且繼而執(zhí)行適當(dāng)動(dòng)作(例如,回放合適的音頻響應(yīng)、發(fā)出DTMF音、測(cè)量話音QoS等)。該情況中期望語音的示例可以包括例如“歡迎來的我們的航空公司;針對(duì)出發(fā)請(qǐng)說‘出發(fā)’,針對(duì)到達(dá)請(qǐng)說‘到達(dá)’,針對(duì)幫助請(qǐng)說‘幫助’”(問候),“針對(duì)國際出發(fā)請(qǐng)說‘國際’,針對(duì)國內(nèi)出發(fā)請(qǐng)說‘國內(nèi)’ ”(出發(fā)),“針對(duì)到達(dá)時(shí)間請(qǐng)說航班號(hào)或說‘我不知道’ ”(到達(dá)),“如果你知道你的代理的擴(kuò)展號(hào),則請(qǐng)現(xiàn)在撥打,或請(qǐng)等待下一可用代理”(幫助)等。在音頻/視頻QoS測(cè)量應(yīng)用中,此類測(cè)量可以在不同級(jí)(例如,平均觀點(diǎn)分?jǐn)?shù)(M0S)、往返延遲、回聲測(cè)量等)執(zhí)行。用于處理每級(jí)的開始和停止時(shí)間的同步可以受到語音命令使用的影響,語音命令諸如例如“開始測(cè)試”、“執(zhí)行MOS測(cè)量”、“停止測(cè)試”等。因此,在某些情況中,遠(yuǎn)程用戶可以從(一個(gè)或多個(gè))測(cè)試單元110向語音探測(cè)器100發(fā)布這些命令。盡管傳統(tǒng)上已經(jīng)經(jīng)由DTMF音控制該類型的測(cè)試,但是本發(fā)明人已經(jīng)認(rèn)識(shí)到當(dāng)信號(hào)穿越模擬/TDM/RTP/無線網(wǎng)絡(luò)時(shí)經(jīng)常阻止或丟失此類音。盡管由于改變的網(wǎng)絡(luò)損害和條件而遭受降級(jí),語音傳輸通常被 跨混合網(wǎng)絡(luò)攜載。應(yīng)該理解,僅出于示范的原因提供了上述應(yīng)用。如本領(lǐng)域技術(shù)人員將根據(jù)本公開認(rèn)識(shí)到的那樣,在此描述的系統(tǒng)和方法可以結(jié)合很多其他應(yīng)用使用。圖2是語音處理軟件程序的框圖。在某些實(shí)施例中,語音處理軟件200可以是可由圖1的語音探測(cè)器100執(zhí)行以促進(jìn)各種應(yīng)用中的語音信號(hào)的驗(yàn)證或標(biāo)識(shí)的軟件應(yīng)用,其中各種應(yīng)用包括但不限于上述那些。例如,網(wǎng)絡(luò)接口模塊220可以被配置為從網(wǎng)絡(luò)140捕獲數(shù)據(jù)分組或信號(hào),包括例如語音或音頻信號(hào)。網(wǎng)絡(luò)接口模塊220繼而可以向語音處理引擎210饋送接收的數(shù)據(jù)和/或信號(hào)。如以下更詳細(xì)描述的那樣,在操作期間由語音處理引擎210接收的、處理和/或生成的某些信號(hào)和數(shù)據(jù)可以存儲(chǔ)在語音數(shù)據(jù)庫250中。語音處理引擎210也可以與語音識(shí)別模塊240對(duì)接(例如,經(jīng)由應(yīng)用程序接口(API)呼叫等),語音識(shí)別模塊240可以包括任何合適的商業(yè)可獲得或自由軟件語音識(shí)別軟件。圖形用戶界面(GUI)230可以允許用戶檢查語音數(shù)據(jù)庫250、修改語音處理引擎210使用的參數(shù)并且更一般地控制語音處理軟件200的操作的各種方面。數(shù)據(jù)庫250可以包括可以被配置為永久數(shù)據(jù)庫的任何合適類型的應(yīng)用和/或數(shù)據(jù)結(jié)構(gòu)。例如,數(shù)據(jù)庫250可以被配置為關(guān)系數(shù)據(jù)庫,該關(guān)系數(shù)據(jù)庫包括可以根據(jù)查詢語言(諸如結(jié)構(gòu)化查詢語言(SQL)版本)搜索或查詢的一個(gè)或多個(gè)列和行的表。替代地,數(shù)據(jù)庫250可以被配置為包括根據(jù)標(biāo)記語言(諸如可擴(kuò)展標(biāo)記語言(XML))格式化的數(shù)據(jù)記錄的結(jié)構(gòu)化數(shù)據(jù)。在某些實(shí)施例中,數(shù)據(jù)庫250可以使用通過合適程序管理和可訪問的一個(gè)或多個(gè)任意或最小結(jié)構(gòu)化數(shù)據(jù)文件實(shí)現(xiàn)。而且,數(shù)據(jù)庫250可以包括被配置為管理數(shù)據(jù)庫250的創(chuàng)建、維護(hù)和使用的數(shù)據(jù)庫管理系統(tǒng)(DBMS)。
在各種實(shí)施例中,圖2中示出的模塊可以表示被配置為執(zhí)行指定操作的軟件例程、邏輯功能和/或數(shù)據(jù)結(jié)構(gòu)的集合。盡管這些模塊被示出為不同邏輯塊,在其他實(shí)施例中,這些模塊執(zhí)行的至少某些操作可以組合為較少塊。相反地,可以實(shí)現(xiàn)模塊210-250中任何給定的一個(gè),使得在兩個(gè)或更多邏輯塊中劃分其操作。而且,盡管利用特定配置示出,但是在其他實(shí)施例中,可以以其他合適方式重新布置這些各種模塊。仍舊參考圖2,語音處理引擎210可以被配置為執(zhí)行如在圖3A和3B中描述的語音校準(zhǔn)操作。因此,語音處理引擎210可以創(chuàng)建遭受網(wǎng)絡(luò)損害的語音信號(hào)的改寫文本并將其存儲(chǔ)在數(shù)據(jù)庫250中,如圖4中所示的那樣。然后,在接收語音信號(hào)時(shí),語音處理引擎210可以使用這些改寫的文本以將語音信號(hào)標(biāo)識(shí)為匹配遭受特定網(wǎng)絡(luò)損害的預(yù)定語音,如在圖5和6中描述的那樣。此外或替代地,語音處理引擎210可以基于標(biāo)識(shí)的語音來促進(jìn)(一個(gè)或多個(gè))特定網(wǎng)絡(luò)損害的診斷,如圖7描繪的那樣。在某些實(shí)施例中,在語音標(biāo)識(shí)之前,語音處理引擎210可以執(zhí)行語音校準(zhǔn)過程等。在這點(diǎn)上,圖3A是基于仿真網(wǎng)絡(luò)損害條件執(zhí)行語音校準(zhǔn)的方法的流程圖。在框305處,方法300可以接收和/或標(biāo)識(shí)語音或音頻信號(hào)。在框310處,方法300可以創(chuàng)建和/或仿真(一個(gè)或多個(gè))網(wǎng)絡(luò)損害條件。此類條件的示例包括但不限于噪聲、丟包率、延遲、抖動(dòng)、擁塞、低帶寬編碼、低帶寬解碼或它們的組合。例如,語音處理引擎210可以通過仿真相應(yīng)網(wǎng)絡(luò)損害條件的濾波器或變壓器傳送語音或音頻信號(hào)的時(shí)域或頻域版本。此外或替代地,語音處理引擎210可以向語音或音頻信號(hào)添加信號(hào)(時(shí)域或頻域中)以仿真網(wǎng)絡(luò)損害。在框310處理時(shí),接收的語音或音頻信號(hào)可以被稱作損害或相異信號(hào)。在框315處,方法300可以將相異語音或音頻信號(hào)轉(zhuǎn)換為文本。例如,語音處理引擎210可以向語音識(shí)別模塊240傳輸相異信號(hào)并且在響應(yīng)中接收識(shí)別的文本。因?yàn)槲谋驹醋韵喈愓Z音(即,遭受(一個(gè)或多個(gè))網(wǎng)絡(luò)損害條件的語音)的處理,在該校準(zhǔn)過程期間生成的文本也可以被稱作相異文本。在某些實(shí)施例中,如果在網(wǎng)絡(luò)經(jīng)歷在框310中使用的(一個(gè)或多個(gè))相同損害時(shí)在正常操作期間稍后通過網(wǎng)絡(luò)接收在校準(zhǔn)期間對(duì)應(yīng)于在框305中接收的語音的語音信號(hào),則相異文本是期望由語音識(shí)別模塊240接收的文本(S卩,“期望文本”)。在框320處,方法300可以存儲(chǔ)網(wǎng)絡(luò)損害條件(在框310中使用的)連同其相應(yīng)相異或期望文本(來自框315)和/或相異語音(來自框305)的指示。在某些實(shí)施例中,語音處理引擎210可以在語音數(shù)據(jù)庫250中存儲(chǔ)期望文本/條件對(duì)。為了示出前文,考慮在框305中將接收的語音信號(hào),在缺少任何網(wǎng)絡(luò)損害時(shí),其將導(dǎo)致語音識(shí)別模塊240處理一次的以下文本:“定制的回鈴音特征現(xiàn)在是活躍的,主叫將聽至丨J以下鈴音(The customized ring back tone feature is now active callers willhear the following ring tone)”。在框310處,語音處理引擎310可以向語音信號(hào)添加一個(gè)或多個(gè)不同損害條件,并且在框315獲得相應(yīng)的相異或期望文本,如在以下表I所示的
權(quán)利要求
1.一種方法,包括: 一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)執(zhí)行: 接收通過網(wǎng)絡(luò)傳輸?shù)恼Z音; 使所述語音轉(zhuǎn)換為文本;以及 響應(yīng)于匹配于與預(yù)定語音相關(guān)聯(lián)的存儲(chǔ)文本的文本來將語音標(biāo)識(shí)為所述預(yù)定語音,通過使所述預(yù)定語音遭受網(wǎng)絡(luò)損害條件來獲得所述存儲(chǔ)文本。
2.根據(jù)權(quán)利要求1所述的方法,其中所述語音包括交互性話音響應(yīng)(IVR)系統(tǒng)生成的信號(hào)。
3.根據(jù)權(quán)利要求1所述的方法,其中所述語音包括關(guān)于所述一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)遠(yuǎn)程定位的用戶提供的音頻命令,所述音頻命令被配置為控制所述一個(gè)或多個(gè)計(jì)算機(jī)系統(tǒng)。
4.根據(jù)權(quán)利要求1所述的方法,其中所述網(wǎng)絡(luò)損害條件包括至少一個(gè):噪聲、丟包率、延遲、抖動(dòng)、擁塞、低帶寬編碼或低帶寬解碼。
5.根據(jù)權(quán)利要求1所述的方法,其中將所述語音標(biāo)識(shí)為所述預(yù)定語音還包括: 標(biāo)識(shí)匹配于所述存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的所述文本內(nèi)的一個(gè)或多個(gè)術(shù)語; 至少部分地基于所述一個(gè)或多個(gè)術(shù)語的標(biāo)識(shí)來計(jì)算所述文本與所述存儲(chǔ)文本之間的匹配分?jǐn)?shù);以及 響應(yīng)于符合閾值的所述匹配分?jǐn)?shù)來確定所述文本匹配于所述存儲(chǔ)文本。
6.根據(jù)權(quán)利要求5所述的方法,其中標(biāo)識(shí)匹配于所述存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的所述文本內(nèi)的一個(gè)或多個(gè)術(shù)語還包括: 將模糊邏輯應(yīng)用于所述文本和所述存儲(chǔ)文本中的術(shù)語。
7.根據(jù)權(quán)利要求6所述的方法,其中應(yīng)用所述模糊邏輯還包括: 將所述文本中的第一術(shù)語與所述存儲(chǔ)文本中的第二術(shù)語比較而無關(guān)第一或第二文本中術(shù)語的排序。
8.根據(jù)權(quán)利要求7所述的方法,其中應(yīng)用所述模糊邏輯還包括: 確定所述文本中的任何術(shù)語最多與所述存儲(chǔ)文本中的另一術(shù)語匹配。
9.根據(jù)權(quán)利要求6所述的方法,其中應(yīng)用所述模糊邏輯還包括響應(yīng)于 第一和第二術(shù)語中在前數(shù)量的字符彼此匹配;以及 第一和第二術(shù)語中的未匹配字符的數(shù)量小于預(yù)定值; 來確定所述文本中的第一術(shù)語和所述存儲(chǔ)文本中的第二術(shù)語匹配,盡管彼此不相同。
10.根據(jù)權(quán)利要求6所述的方法,其中應(yīng)用所述模糊邏輯還包括響應(yīng)于 第一和第二術(shù)語中在前數(shù)量的字符彼此匹配;以及 在前數(shù)量的字符大于預(yù)定值; 來確定所述文本中的第一術(shù)語和所述存儲(chǔ)文本中的第二術(shù)語匹配,盡管彼此不相同。
11.根據(jù)權(quán)利要求5所述的方法,其中計(jì)算所述文本與所述存儲(chǔ)文本之間的匹配分?jǐn)?shù)還包括: 計(jì)算匹配于所述存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的所述文本內(nèi)的一個(gè)或多個(gè)術(shù)語的第一數(shù)量的字符與匹配于所述文本內(nèi)的一個(gè)或多個(gè)術(shù)語的所述存儲(chǔ)文本內(nèi)的一個(gè)或多個(gè)術(shù)語的第二數(shù)量的字符的第一和; 計(jì)算所述文本和所述存儲(chǔ)文本中的字符的總數(shù)量的第二和;以及將所述第一和除以所述第二和。
12.根據(jù)權(quán)利要求1所述的方法,還包括在將語音信號(hào)標(biāo)識(shí)為所述預(yù)定語音之前: 通過使所述預(yù)定語音遭受所述網(wǎng)絡(luò)損害條件來創(chuàng)建相異語音信號(hào); 使所述相異語音信號(hào)被轉(zhuǎn)換為相異文本;以及 將所述相異文本存儲(chǔ)為所述存儲(chǔ)文本,所述存儲(chǔ)文本與所述網(wǎng)絡(luò)損害條件相關(guān)聯(lián)。
13.一種計(jì)算機(jī)系統(tǒng),包括: 處理器;以及 耦合至所述處理器的存儲(chǔ)器,所述存儲(chǔ)器被配置為存儲(chǔ)可由所述處理器執(zhí)行用于使所述計(jì)算機(jī)系統(tǒng)如下的程序指令: 標(biāo)識(shí)源自通過電信網(wǎng)絡(luò)接收的語音信號(hào)的語音到文本轉(zhuǎn)換的文本; 針對(duì)多個(gè)存儲(chǔ)文本中的每個(gè)計(jì)算指示給定存儲(chǔ)文本與接收文本之間的匹配度的分?jǐn)?shù),多個(gè)存儲(chǔ)文本中的每個(gè)對(duì)應(yīng)于遭受電信網(wǎng)絡(luò)的損害條件的預(yù)定語音的語音到文本轉(zhuǎn)換;以及 在所述多個(gè)存儲(chǔ)文本中選擇具有最高分?jǐn)?shù)的存儲(chǔ)文本作為匹配接收文件。
14.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)系統(tǒng),所述程序指令還可由所述處理器執(zhí)行以使所述計(jì)算機(jī)系統(tǒng): 將所述語音信號(hào)標(biāo)識(shí)為對(duì)應(yīng)于選擇的存儲(chǔ)文本的所述預(yù)定語音。
15.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)系統(tǒng),其中為了計(jì)算分?jǐn)?shù),所述程序指令還可由所述處理器執(zhí)行以使所述計(jì)算機(jī)系統(tǒng): 計(jì)算匹配于給定存儲(chǔ)文本的一個(gè)或多個(gè)術(shù)語的文本的一個(gè)或多個(gè)術(shù)語的第一數(shù)量的字符與匹配于所述文本的一個(gè)或多個(gè)術(shù)語的所述給定儲(chǔ)文本的一個(gè)或多個(gè)術(shù)語的第二數(shù)量的字符的第一和; 計(jì)算所述文本和所述給定存儲(chǔ)文本的字符的總數(shù)量的第二和;以及 將所述第一和除以所述第二和。
16.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中為了計(jì)算分?jǐn)?shù),所述程序指令還可由所述處理器執(zhí)行以使所述計(jì)算機(jī)系統(tǒng)響應(yīng)于: 第一和第二術(shù)語中在前數(shù)量的字符彼此匹配;以及 第一和第二術(shù)語中的未匹配字符的數(shù)量小于預(yù)定值; 來確定接收文本中的第一術(shù)語和所述給定存儲(chǔ)文本中的第二術(shù)語構(gòu)成匹配,盡管彼此不相同。
17.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中為了計(jì)算分?jǐn)?shù),所述程序指令還可由所述處理器執(zhí)行以使所述計(jì)算機(jī)系統(tǒng)響應(yīng)于: 第一和第二術(shù)語中在前數(shù)量的字符彼此匹配;以及 在前數(shù)量的字符大于預(yù)定值; 來確定接收文本中的第一術(shù)語和所述給定存儲(chǔ)文本中的第二術(shù)語構(gòu)成匹配,盡管彼此不相同。
18.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),所述程序指令還可由所述處理器執(zhí)行以使所述計(jì)算機(jī)系統(tǒng): 通過使原始語音遭受電信網(wǎng)絡(luò)的不同損害條件來創(chuàng)建相異語音;將所述相異語音信號(hào)轉(zhuǎn)換為相異文本;以及 將所述相異文本存儲(chǔ)為多個(gè)存儲(chǔ)文本,所述多個(gè)存儲(chǔ)文本中的每個(gè)與所述不同損害條件中的相應(yīng)一個(gè)相關(guān)聯(lián)。
19.一種有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)具有存儲(chǔ)于其上的程序指令,在所述程序指令由計(jì)算機(jī)系統(tǒng)內(nèi)的處理器執(zhí)行時(shí)使所述計(jì)算機(jī)系統(tǒng): 通過使原始語音遭受電信網(wǎng)絡(luò)的實(shí)際或仿真損害條件來創(chuàng)建相異語音; 將所述相異語音信號(hào)改寫為相異文本;以及 存儲(chǔ)所述相異文本,所述相異文本與所述損害條件的指示相關(guān)聯(lián)。
20.根據(jù)權(quán)利要求19所述的有形計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中所述程序指令由所述處理器執(zhí)行時(shí)使所述計(jì)算機(jī)系統(tǒng): 將通過網(wǎng)絡(luò)接收的語音信號(hào)改寫為文本;以及 響應(yīng)于匹配于所述相異 文本的文本將所述語音信號(hào)標(biāo)識(shí)為匹配所述原始語音。
全文摘要
本發(fā)明涉及電信網(wǎng)絡(luò)中的語音處理。描述了用于在電信網(wǎng)絡(luò)中進(jìn)行語音處理的系統(tǒng)和方法。在某些實(shí)施例中,一種方法可以包括接收通過網(wǎng)絡(luò)傳輸?shù)恼Z音,使該語音轉(zhuǎn)換為文本以及響應(yīng)于匹配于與預(yù)定語音相關(guān)聯(lián)的存儲(chǔ)文本的文本,將該語音標(biāo)識(shí)為預(yù)定語音。例如通過使預(yù)定語音遭受網(wǎng)絡(luò)損害條件而獲得存儲(chǔ)文本。該方法還可以包括標(biāo)識(shí)與存儲(chǔ)文本內(nèi)的術(shù)語匹配的文本內(nèi)的術(shù)語(例如,盡管不是彼此相同),計(jì)算文本與存儲(chǔ)文本之間的分?jǐn)?shù)以及響應(yīng)于符合閾值的分?jǐn)?shù)來確定文本匹配于存儲(chǔ)文本。在某些情況中,該方法還可以基于多個(gè)存儲(chǔ)文本中選擇的一個(gè)來標(biāo)識(shí)多個(gè)語音之一。
文檔編號(hào)G06F17/30GK103226950SQ20121002026
公開日2013年7月31日 申請(qǐng)日期2012年1月29日 優(yōu)先權(quán)日2012年1月29日
發(fā)明者鐘濟(jì)浩, S.普蘭特, 陳蓁蓁, 謝集平 申請(qǐng)人:特克特朗尼克公司