基于云計算的語音能力服務開放系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于智能語音服務領(lǐng)域,具體涉及一種基于云計算的語音能力服務開放系統(tǒng)。
【背景技術(shù)】
[0002]隨著智能語音技術(shù)的不斷成熟,語音合成、語音導航及聲紋識別的應用不斷增加。語音技術(shù)的適用范圍較為廣泛,對于那些需要IVR (自助語音交互)的場景都適用,如電信行業(yè)、金融保險行業(yè)等。
[0003]語音合成實現(xiàn)文本到語音的轉(zhuǎn)換過程,通過特殊的方法產(chǎn)生人造語音。在技術(shù)上,可以將任意文本信息(包括文字、字母、數(shù)字等)實時轉(zhuǎn)化為標準的人的語音朗讀出來。
[0004]語音導航屬于在線語音識別范疇,該技術(shù)通過將用戶的有效語音數(shù)據(jù)實時地傳入識別引擎進行解碼,用戶說話完成后系統(tǒng)可以在很短的時間內(nèi)返回語音識別結(jié)果。
[0005]聲紋識別通過提出說話人語音中能夠標識說話人特點的某些特定語音參數(shù),實現(xiàn)用戶身份的確定。
[0006]如圖1所示,現(xiàn)有的語音能力提供方式都是各自獨立開發(fā)、部署,各語音能力歸屬于不同的能力平臺,能力之間如要配合使用,必須開發(fā)新的接口進行通信。
[0007]在目前的情況下,企業(yè)若要獲取所需的語音能力,都是通過單獨的系統(tǒng)建設來實現(xiàn),門檻較高,開發(fā)周期長,且需要投入高額的成本。
[0008]現(xiàn)有語音平臺技術(shù)實現(xiàn)存在如下缺陷:
1.從能力的建設上來看,現(xiàn)有技術(shù)實現(xiàn)都是通過建設獨立的能力平臺來實現(xiàn)各個能力,各能力之間被彼此分割。在需要多個語音能力配合使用的時候需要各平臺開發(fā)接口進行通信。
[0009]2.現(xiàn)有語音平臺的建設,都是基于傳統(tǒng)的小型機或者PC Server來部署實現(xiàn),投資成本較高,資源利用率不高。
[0010]3.從能力的使用上來看,企業(yè)或者個人若要獲取這些語音能力,必須要通過單獨的系統(tǒng)建設來實現(xiàn)。這樣的實現(xiàn)門檻較高,開發(fā)周期長,且需要投入高額的成本。對于個人普通應用,如個人應用開發(fā)者,根本沒有辦法享受到這些語音能力服務。
[0011]4.從能力的使用范圍來看,目前的語音能力使用的范圍較為狹窄,多為電信和銀行業(yè),很多需要使用到語音能力的行業(yè)無法使用。
【發(fā)明內(nèi)容】
[0012]為了解決現(xiàn)有技術(shù)在實現(xiàn)語音能力上的單一性、局限性,實現(xiàn)多少個能力就需要創(chuàng)建多少套應用系統(tǒng)的發(fā)展模式,本發(fā)明目的是:提供一種基于云計算的語音能力服務開放系統(tǒng),實現(xiàn)了語音能力的統(tǒng)一管理和輸出;同時,對于接入使用語音能力的用戶而言,只需要申請接入語音能力開放平臺,降低了語音能力的使用門檻,大大降低了用戶的使用成本和開發(fā)周期。
[0013]本發(fā)明的技術(shù)方案是:
一種基于云計算的語音能力服務開放系統(tǒng),其特征在于,所述系統(tǒng)部署于云計算平臺,從下到上依次包括應用數(shù)據(jù)庫層、數(shù)據(jù)服務層、業(yè)務實現(xiàn)層、服務層、企業(yè)服務總線層、業(yè)務流程層以及用戶體驗層;
所述應用數(shù)據(jù)庫層,用于提供語音業(yè)務所需的各類應用數(shù)據(jù)庫資源;
所述數(shù)據(jù)服務層,用于數(shù)據(jù)的存取、同步、驗證和轉(zhuǎn)換邏輯;
所述業(yè)務實現(xiàn)層,用于實現(xiàn)語音業(yè)務能力相關(guān)的所有功能組件,包括語音合成業(yè)務組件、語音導航業(yè)務組件及聲紋識別業(yè)務組件;
所述服務層,用于封裝所有對外發(fā)布的語音業(yè)務能力,包括語音合成服務、語音導航服務及聲紋識別服務;
所述企業(yè)服務總線層,用于對外提供安全、可靠、高性能的服務接入功能;
所述業(yè)務流程層,用于把多個服務按照業(yè)務流程進行編排,通過對服務的組合或者編排,提供復合服務和流程服務;
所述用戶體驗層,用于支持所有類型的客戶端訪問,包括WEB方式、客戶端方式。
[0014]優(yōu)選的,所述業(yè)務實現(xiàn)層包括語音合成業(yè)務組件、語音導航業(yè)務組件及聲紋識別業(yè)務組件。語音合成業(yè)務組件,實現(xiàn)“文本_>語音”的轉(zhuǎn)換過程,將任意文字信息實時轉(zhuǎn)化為標準流暢的語音朗讀出來;語音導航組件,實現(xiàn)將用戶的有效語音數(shù)據(jù)實時進行解碼,在極短的時間內(nèi)返回語音識別結(jié)果;聲紋識別組件,通過提出說話人語音中表述說話人特點的語音參數(shù),實現(xiàn)用戶身份的確定。
[0015]優(yōu)選的,所述服務層包括語音合成服務、語音導航服務及聲紋識別服務。語音合成服務,通過對語音合成組件功能的封裝,對外部系統(tǒng)提供標準的在線文字合成語音服務;語音導航服務,通過對語音導航組件功能的封裝,對外部系統(tǒng)提供標準的在線語音識別服務;聲紋識別服務,通過對聲紋識別組件功能的封裝,對外部系統(tǒng)提供標準的人聲參數(shù)識別服務。
[0016]優(yōu)選的,所述系統(tǒng)對聲紋識別能力、語音導航能力和語音合成能力進行API封裝,對外發(fā)布,所述聲紋識別能力包括聲紋注冊、聲紋驗證和聲紋注銷,所述聲紋注冊用于在系統(tǒng)中注冊特定用戶的聲紋,所述聲紋驗證根據(jù)輸入的聲紋樣本,判斷是否為特定用戶的聲音,所述聲紋注銷用于注銷特定用戶的聲紋,所述語音導航能力包括啟動語音在線識別、暫停語音在線識別、恢復語音在線識別和停止語音在線識別,所述語音合成能力用于對輸入的文本進行TTS放音。
[0017]本發(fā)明還公開了一種基于上述的基于云計算的語音能力服務開放系統(tǒng)的用戶申請使用能力API的方法,其特征在于,包括如下步驟:
(1)用戶通過語音能力服務開放系統(tǒng)提供的Portal頁面進行應用開發(fā)申請,注冊用戶信息;
(2)語音能力服務開放系統(tǒng)管理員對用戶應用創(chuàng)建申請進行審核,審核通過后,為用戶創(chuàng)建應用證書相關(guān)信息;
(3)應用開發(fā)者根據(jù)語音能力服務開放系統(tǒng)提供的證書,在語音能力服務開放系統(tǒng)查找所需要的能力API,開發(fā)相應的應用,并通過語音能力服務開放系統(tǒng)提供的測試環(huán)境進行聯(lián)調(diào)測試; (4)應用與語音能力服務開放系統(tǒng)聯(lián)調(diào)測試通過后,應用開發(fā)者提交應用接入審核,語音能力服務開放系統(tǒng)管理員對應用的接入安全性及性能相關(guān)指標進行審核評估,審核通過后,將進行應用的試運行;
(5)語音能力服務開放系統(tǒng)管理員根據(jù)業(yè)務試運行結(jié)果,決定該應用是否可以進行上線發(fā)布。
[0018]優(yōu)選的,所述步驟(1)中的用戶信息至少包括:用戶名、聯(lián)系方式、應用名稱、應用類型。
[0019]與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點是:
1、將智能語音相關(guān)技術(shù)實現(xiàn)進行能力整合,對外進行能力的輸出,通過提供標準接口API的方式對企業(yè)和個人用戶開放,大大的降低了使用這些能力的門檻、降低了企業(yè)和個人的開發(fā)周期和成本。同時,本方案利用云計算技術(shù),將系統(tǒng)部署在云平臺,極大的降低了投資成本,提高了現(xiàn)有計算力的使用率。
[0020]2、實現(xiàn)了語音能力的統(tǒng)一管理和輸出;同時,對于接入使用語音能力的用戶而言,只需要申請接入語音能力開放平臺,降低了語音能力的使用門檻,大大降低了用戶的使用成本和開發(fā)周期。
[0021]3、通過能力的整合輸出,可以將語音技術(shù)的使用范圍大大擴展,不僅可以針對傳統(tǒng)的電信和銀行業(yè),還可以針對所有需要進行個人身份認證、交互式語音服務的行業(yè)。
【附圖說明】
[0022]下面結(jié)合附圖及實施例對本發(fā)明作進一步描述:
圖1為現(xiàn)有語音能力提供方式框圖;
圖2為本發(fā)明基于云計算的語音能力服務開放平臺架構(gòu)圖;
圖3為本發(fā)明用戶申請使用能力API的流程圖。
【具體實施方式】
[0023]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明了,下面結(jié)合【具體實施方式】并參照附圖,對本發(fā)明進一步詳細說明。應該理解,這些描述只是示例性的,而并非要限制本發(fā)明的范圍。此外,在以下說明中,省略了對公知結(jié)構(gòu)和技術(shù)的描述,以避免不必要地混淆本發(fā)明的概念。
[0024]實施例:
圖2是基于云計算的語音能力服務開放系統(tǒng)的架構(gòu)圖,該系統(tǒng)部署與云計算平臺上,主要分為七層,從下到上依次為應用數(shù)據(jù)庫層、數(shù)據(jù)服務層、業(yè)務實現(xiàn)層、服務層、ESB (企業(yè)服務總線)層、業(yè)務流程層及用戶體驗層。
[0025]1、應用數(shù)據(jù)庫層
提供語音業(yè)務所需要的各類應用數(shù)據(jù)庫資源。
[0026]2、數(shù)據(jù)服務層
數(shù)據(jù)服務作為一種特殊的業(yè)務服務的,封裝了所有的企業(yè)數(shù)據(jù),負責數(shù)據(jù)的存取、同步、驗證和轉(zhuǎn)換所需要的邏輯。數(shù)據(jù)服務層有效地創(chuàng)建了一個抽象層,使業(yè)務功能避開了數(shù)據(jù)的操作細節(jié)。
[0027]3、業(yè)務實現(xiàn)層
包含的組件服務以接口的形式對外公開發(fā)布,實現(xiàn)語音業(yè)