專利名稱:語音服務(wù)方法和語音服務(wù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語音識別領(lǐng)域,特別涉及一種語音服務(wù)方法和語音服務(wù)系統(tǒng)。
背景技術(shù):
隨著農(nóng)村信息化建設(shè)的快速發(fā)展,為農(nóng)民用戶提供信息服務(wù)的農(nóng)業(yè)語音 熱線也正在全國大力開展和建設(shè),數(shù)個省市已經(jīng)開通相關(guān)服務(wù)熱線。目前, 農(nóng)業(yè)語音熱線大多都采用傳統(tǒng)的語音菜單提示和用戶按4建輸入選擇的方式來 完成語音交互過程。例如,農(nóng)民用戶如果要查詢某種蔬菜的價格,需要在進 入該語音熱線的價格查詢菜單后,通過按鍵選擇所要查詢的蔬菜,才能得到 該蔬菜的價格信息。
發(fā)明人在實現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),現(xiàn)有技術(shù)的農(nóng)業(yè)語音熱線至少存在
以下技術(shù)缺陷上述按鍵輸入選擇的方式在信息選擇項較少的情況下,尚為 可行,但是當(dāng)農(nóng)業(yè)服務(wù)中心提供的服務(wù)較多時,例如,可以提供幾十種蔬菜 的價格信息,則此時農(nóng)民在查詢農(nóng)產(chǎn)品價格信息時,收聽提示音時間就要在 3分鐘以上,效率非常低下,十分不方便,交互性較差。因此,農(nóng)民用戶更 習(xí)慣于直接轉(zhuǎn)接人工服務(wù),使得農(nóng)業(yè)語音熱線的自動語音回復(fù)部分建成后長 期處于閑置狀態(tài),無人問津,造成語音服務(wù)的資源浪費,也阻礙了農(nóng)村信息 化建設(shè)的快速發(fā)展。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種語音服務(wù)方法和語音服務(wù)系統(tǒng),解決語音服務(wù) 交互性較差和效率低下的問題,實現(xiàn)語音服務(wù)交互性更強,效率提高。 本發(fā)明實施例提供了一種語音服務(wù)方法,其特征在于,包括 通過語音卡采集客戶端輸入的用于標(biāo)識所述客戶端的語音服務(wù)請求的初始"i吾音信息;
對所述初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息,所述預(yù)處理包括語
音端點;險測和降噪處理;
對所述標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信息;
根據(jù)所述識別結(jié)果信息向所述客戶端返回與所述初始語音信息對應(yīng)的語
音服務(wù)結(jié)果信息。
本發(fā)明實施例還提供了一種語音服務(wù)系統(tǒng),其特征在于,包括輸入沖莫塊、 預(yù)處理模塊、識別模塊和輸出模塊;
所述輸入模塊,用于通過語音卡采集客戶端輸入的用于標(biāo)識所述客戶端 的語音服務(wù)請求的初始語音信息;
所述預(yù)處理模塊,用于對所述初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信 息,所述預(yù)處理包括語音端點^r測和降噪處理;
所述識別模塊,用于對所述標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信
自
所述輸出模塊,用于根據(jù)所述識別結(jié)果信息向所述客戶端返回與所述初 始語音信息對應(yīng)的語音服務(wù)結(jié)果信息。
本發(fā)明語音服務(wù)方法和語音服務(wù)系統(tǒng)通過將語音卡與語音識別技術(shù)相結(jié) 合,直接釆用自然語言進行語言服務(wù),可以減少按鍵輸入,增強與用戶的交
互性;通過采用語音預(yù)處理技術(shù),使得進行語音識別的語音信息更加符合語 音識別的標(biāo)準(zhǔn),提高i吾音識別的效率。
圖1為本發(fā)明實施例一提供的語音服務(wù)方法的流程示意圖; 圖2為本發(fā)明實施例二提供的語音服務(wù)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施例方式
本發(fā)明的主要發(fā)明思想即為將語音識別技術(shù)與傳統(tǒng)語音服務(wù)系統(tǒng)中的語音卡相結(jié)合共同組建語音服務(wù)系統(tǒng),使用自然語音發(fā)出指令,避免連續(xù)^4建
的過程,提高語音服務(wù)系統(tǒng)的工作效率,增強語音服務(wù)的交互性。
下面通過附圖和具體實施例,對本發(fā)明的技術(shù)方案作進一步詳細說明。 圖1為本發(fā)明實施例一提供的語音服務(wù)方法的流程示意圖,如圖1所示,
本實施例的語音服務(wù)方法主要包括以下步驟
步驟101、采用語音卡釆集客戶端輸入的用于標(biāo)識客戶端的語音服務(wù)請 求的初始語音信息。
語音服務(wù)系統(tǒng)中的硬件語音卡和公共電話網(wǎng)連接,在此基礎(chǔ)上,可以采 用語音卡對用戶通過公共電話網(wǎng)輸入的語音信號進行采集錄音。具體實施中, 可以定義一個變量,調(diào)用語音卡函數(shù)對用戶輸入的語音信號進行錄音,可以 設(shè)定定長的錄音時間,將該段時間內(nèi)用戶的語音全部錄制下來,得到初始音 頻文件即初始語音信息,并將音頻文件存儲在該變量中,等待下一步處理。 該初始語音信息可以標(biāo)識客戶端的語音服務(wù)請求,例如,農(nóng)民用戶在查詢蔬 菜價格時,可以語音方式輸入"白菜",該"白菜"即為初始語音信息,其 標(biāo)識了該農(nóng)民用戶的語音服務(wù)請求為想查詢白菜的價格。
步驟102、對初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息,該預(yù)處理包 括語音端點;險測和降噪處理。
通過語音卡采集的用戶初始語音信息中包括了很多無音部分和噪音部 分,如果將該初始語音信息直接輸入語音識別引擎中進行語音識別,會使得 語音識別引擎的識別效率不高,因此,需要在語音識別以前對該初始語音信 息進行預(yù)處理,去掉非語音部分,并盡量濾掉音頻中的噪音。該預(yù)處理主要 包括語音端點;險測和降噪處理兩個部分。
首先,進行語音端點檢測,可以設(shè)定起始端點長度參數(shù)和結(jié)束端點長度 參數(shù),并根據(jù)該起始端點長度參數(shù)和結(jié)束端點長度參數(shù)檢測得到初始語音信 息的起始端點和結(jié)束端點,該起始端點和結(jié)束端點之間的語音信息為語音部 分信息,并去掉初始語音信息中的上述語音部分信息之外的無語音部分信息。
其中,起始端點長度參數(shù)越小越敏感,越容易及時檢測出語音信息;數(shù)值越大越不敏感,越容易過濾掉初始語音信息中的脈沖噪音; 一般將該起始 端點長度參數(shù)推薦設(shè)置為200ms (快語速說一個關(guān)鍵詞需要300ms以上,正 常語速為500s以上)。例如,假設(shè)設(shè)定起始端點長度參數(shù)為200ms,則如果 初始語音信息即初始音頻文件檢測到音頻文件的長度已經(jīng)從音頻開始點延續(xù) 時間達到200ms,就標(biāo)識該音頻文件已經(jīng)開始,即4企測到了該音頻文件的起 始端點,該起始端點為從200ms的起始點。
在通過起始端點長度參數(shù)檢測到初始語音信息的起始端點后,再根據(jù)結(jié) 束端點長度參數(shù)檢測初始語音信息的結(jié)束端點,該結(jié)束端點長度參數(shù)用以表 示在檢測到起始端點后,連續(xù)多長時間的靜音數(shù)據(jù)被認為是真正的結(jié)束端點。 本參數(shù)數(shù)值越小越敏感,越容易及時檢測出來是語音結(jié)束;反之,數(shù)值越大 越不敏感,如果說話人有短暫的說話停頓不會被認為是語音結(jié)束; 一般將該 起始端點長度參數(shù)推薦設(shè)置為3s (根據(jù)正常人的語音停頓習(xí)慣確定)。例如, 假設(shè)設(shè)定結(jié)束端點長度參數(shù)為ls,則當(dāng)檢測到初始語音信息中的起始端點后, 再檢測到出現(xiàn)ls的靜音,就標(biāo)識已經(jīng)到達初始語音信息的結(jié)束端點,該結(jié)束 端點即為ls的起始點。
此外,在該語音端點檢測中還可以設(shè)置過長語音長度參數(shù),根據(jù)過長語 音長度參數(shù)檢測得到初始語音信息的結(jié)束端點。例如,當(dāng)檢測到初始語音信 息的起始端點后,連續(xù)過長時間都不再有語音信號,則此時該定連續(xù)過長時 間的語音數(shù)據(jù)也被認為是結(jié)束端點。該過長語音長度參數(shù)可以依據(jù)最長時間 會說多長時間的一個關(guān)鍵詞來設(shè)定; 一般將該起始端點長度參數(shù)推薦設(shè)置為 2s。例如,假設(shè)設(shè)定過長語音長度參數(shù)為2s,則當(dāng)檢測到初始語音信息中的 起始端點后,再檢測到出現(xiàn)2s的靜音,而正常的初始語音信息一般都不大于 2s,該2s即為過長語音信息,其標(biāo)識已經(jīng)到達初始語音信息的結(jié)束端點,此 時,可以認為該初始語音信息無效,可以不對其進行語音識別。
其次,在語音端點檢測完畢,已經(jīng)檢測得到初始語音信息的起始端點和 結(jié)束端點的基礎(chǔ)上,再對初始語音信息進行降噪處理,以便濾掉背景噪聲, 保留人的聲音。該降噪處理包括設(shè)定噪聲門限值,該噪聲門限值可以根據(jù)系統(tǒng)應(yīng)用環(huán)境及采用的設(shè)備進行具體設(shè)定,可以設(shè)定為在這個門限值以下為 背景噪聲,在這個門限值以上為人的聲音,并采用濾波器濾去經(jīng)過語音端點 檢測后的初始語音信息中位于噪聲門限值之下的初始語音信息即噪聲。
通過上述的預(yù)處理過程,得到的語音信息已基本符合標(biāo)準(zhǔn),如果將該標(biāo) 準(zhǔn)語音信息輸入到語音識別引擎后,就可以最大程度上接近采用的語音識別 引擎的最大識別率。使語音識別引擎的運算處理可以集中在真正的識別過程, 節(jié)約語音識別處理時間。
步驟103、由語音識別引擎對標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果
4§息。
在對初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息之后,接著語音識別引 擎需要對該標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信息例如文字結(jié)果信 息。此時采用的語音識別引擎可以是市場上或?qū)嶒炇抑斜容^成熟的識別引擎, 例如,本實施例中的語音識別引擎可以采用關(guān)鍵詞語音識別引擎,例如,捷 通華聲公司的jASR5.5語音識別引擎,也可以采用其他公司或?qū)嶒炇业恼Z音 識別引擎產(chǎn)品。由于經(jīng)過前期的語音預(yù)處理,輸入的音頻文件比較標(biāo)準(zhǔn),可 以盡可能接近采用語音識別引擎的最大識別率。目前語音識別引擎的工作原 理是,未知語音的模式要與已知語音的參考模式逐一進行比較,最佳匹配的 參考模式被作為識別結(jié)果。 一般基于關(guān)鍵詞的語音識別引擎,識別速度在幾 秒左右,可以應(yīng)用到實際應(yīng)用中來。語音識別后,將識別結(jié)果信息存儲到另 一變量中,以便進行后續(xù)處理。本方法可以根據(jù)技術(shù)進步,更換不同的語音 識別引擎,適用性、復(fù)用性強。
此外,由于語音卡上集成有多個語音通道即話路,可能會有多個初始語 音信息即音頻文件需要處理。這種情況下,如果采用為每路話路配用一線語 音識別引擎,由于識別引擎價格昂貴,這種做法會造成系統(tǒng)成本較高;同時, 同一時間,幾路話路中往往不會同時進行通話,這樣就會造成語音識別引擎 的閑置和浪費。本實施例針對該情況設(shè)計一先進先出的排隊隊列,幾路話路 傳來的初始語音信息經(jīng)預(yù)處理后的標(biāo)準(zhǔn)語音信息排隊進入該隊列,語音識別引擎可以從隊列中依次提取標(biāo)準(zhǔn)語音信息進行識別處理,實現(xiàn)了多路話路公 用一線語音識別引擎,節(jié)約整套系統(tǒng)成本,可以有效利用價格高昂的語音識 別引擎,避免造成浪費,提高引擎利用率。
步驟104、根據(jù)識別結(jié)果信息向客戶端返回與初始語音信息對應(yīng)的語音 服務(wù)結(jié)果信息。
語音識別引擎將識別后的得到的文字結(jié)果信息反饋給語音服務(wù)系統(tǒng),由 語音服務(wù)系統(tǒng)根據(jù)文字進行語音播放或數(shù)據(jù)庫查詢等操作,并向客戶端返回 與初始語音信息對應(yīng)的語音服務(wù)結(jié)果信息,例如,用戶在查詢價格時輸入的 初始語音信息為"白菜",則語音服務(wù)結(jié)果信息為以語音方式輸出白菜的價 格信息"今日白菜價格北京新發(fā)地批發(fā)市場1元每公斤,……回龍觀批發(fā)市 場1.2元每公斤,,,這樣就可以直接對用戶的輸入語音作出語音答復(fù),而不 必再進行按鍵選擇,方便快捷,交互性強,效率較高。
本實施例通過將語音卡與關(guān)4定詞語音識別技術(shù)相結(jié)合,可以減少按2睫輸 入,增強與用戶的交互性;通過采用語音預(yù)處理技術(shù),使輸入語音識別引擎 的語音盡量符合標(biāo)準(zhǔn),可以發(fā)揮引擎最大功效;通過采用先進先出隊列,實 現(xiàn)了多路話路共用 一個語音識別引擎,4是高引擎利用率。
圖2為本發(fā)明實施例二提供的語音服務(wù)系統(tǒng)的結(jié)構(gòu)示意圖,如圖2所示, 本實施例的語音服務(wù)系統(tǒng)包括輸入模塊21、預(yù)處理模塊22、識別模塊23 和輸出模塊24。
具體實施中,輸入模塊21通過語音卡釆集客戶端輸入的用于標(biāo)識所述客 戶端的語音服務(wù)請求的初始語音信息;
預(yù)處理模塊22對輸入模塊21得到的初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn) 語音信息,該預(yù)處理包括語音端點檢測和降噪處理;
識別模塊23對預(yù)處理模塊22得到的標(biāo)準(zhǔn)語音信息進行語音識別得到識 別結(jié)果信息,具體實施中,該識別模塊23可以為關(guān)鍵詞語音識別引擎;
輸出模塊24根據(jù)識別模塊23的識別結(jié)果信息向客戶端返回與初始語音 信息對應(yīng)的語音服務(wù)結(jié)果信息。在此基礎(chǔ)上,進一步的,在語音識別之前的預(yù)處理過程中,預(yù)處理模塊
22中的端點檢測單元221根據(jù)起始端點長度參數(shù)、結(jié)束端點長度參數(shù)和過長 語音長度參數(shù)檢測初始語音信息的起始端點和結(jié)束端點,該起始端點和結(jié)束 端點之間的語音信息為語音部分信息,并去掉初始語音信息中的所述語音部 分信息之外的無語音部分信息。預(yù)處理模塊22中的降噪單元222設(shè)定噪聲門 限值,并采用濾波器濾去經(jīng)過語音端點檢測后的初始語音信息中位于噪聲門 限值之下的初始語音信息即噪聲。
其中,端點檢測單元221又包括第一子單元和第二子單元。第一子單元, 用于根據(jù)結(jié)束端點長度參數(shù)檢測得到初始語音信息的結(jié)束端點,例如,假設(shè) 設(shè)定結(jié)束端點長度參數(shù)為3s,則當(dāng)檢測到初始語音信息中的起始端點后,再 檢測到出現(xiàn)3s的靜音,就標(biāo)識已經(jīng)到達初始語音信息的結(jié)束端點,該結(jié)束端 點即為3s的起始點;第二子單元,用于當(dāng)連續(xù)過長時間都不再有語音信號時, 根據(jù)過長語音長度參數(shù)檢測得到初始語音信息的結(jié)束端點;例如,假設(shè)設(shè)定 過長語音長度參數(shù)為2s,則當(dāng)檢測到初始語音信息中的起始端點后,再檢測 到出現(xiàn)2s的靜音,而正常的初始語音信息一般都不大于2s,該2s即為過長 語音信息,其標(biāo)識已經(jīng)到達初始語音信息的結(jié)束端點,此時,可以認為該初 始語音信息無效,可以不對其進4于語音識別。
該語音服務(wù)系統(tǒng)還可以包括排隊模塊25,該排隊模塊25用于在有多個 初始語音信息即音頻文件,對其進行預(yù)處理后的多個標(biāo)準(zhǔn)語音信息均需要語 音識別引擎進行處理時,將預(yù)處理模塊22得到的多個標(biāo)準(zhǔn)語音信息輸入先進 先出的排隊序列,以便識別模塊23依次從排隊序列中提取標(biāo)準(zhǔn)語音信息進行 識別。
本實施例通過將語音卡與關(guān)鍵詞語音識別技術(shù)相結(jié)合,可以減少按鍵輸 入,增強與用戶的交互性;通過采用語音預(yù)處理技術(shù),使輸入語音識別引擎 的語音盡量符合標(biāo)準(zhǔn),可以發(fā)揮引擎最大功效;通過采用先進先出隊列,實 現(xiàn)了多路話路共用 一個語音識別引擎,提高引擎利用率。
最后應(yīng)說明的是以上實施例僅用以說明本發(fā)明的技術(shù)方案而非對其進行限制,盡管參照較佳實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技
術(shù)人員應(yīng)當(dāng)理解其依然可以對本發(fā)明的技術(shù)方案進行修改或者等同替換, 而這些修改或者等同替換亦不能使修改后的技術(shù)方案脫離本發(fā)明技術(shù)方案的 精神和范圍。
權(quán)利要求
1、一種語音服務(wù)方法,其特征在于,包括通過語音卡采集客戶端輸入的用于標(biāo)識所述客戶端的語音服務(wù)請求的初始語音信息;對所述初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息,所述預(yù)處理包括語音端點檢測和降噪處理;對所述標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信息;根據(jù)所述識別結(jié)果信息向所述客戶端返回與所述初始語音信息對應(yīng)的語音服務(wù)結(jié)果信息。
2、 根據(jù)權(quán)利要求1所述的語音服務(wù)方法,其特征在于,在所述對所述初 始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息之后,對所述標(biāo)準(zhǔn)語音信息進行語 音識別得到識別結(jié)果信息之前還包括將所述標(biāo)準(zhǔn)語音信息輸入先進先出的排隊序列,以便依次從所述排隊序 列中提取所述標(biāo)準(zhǔn)語音信息進行識別。
3、 根據(jù)權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述對所述標(biāo)準(zhǔn) 語音信息進行語音識別得到識別結(jié)果信息為關(guān)4建詞語音識別引擎對所述標(biāo) 準(zhǔn)語音信息進行語音識別得到識別結(jié)果信息。
4、 根據(jù)權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述語音端點檢 測包括根據(jù)起始端點長度參數(shù)和結(jié)束端點長度參數(shù)檢測得到所述初始語音信息 的起始端點和結(jié)束端點,所述起始端點和結(jié)束端點之間的語音信息為語音部 分信息,并去掉所述初始語音信息中的所述語音部分信息之外的無語音部分 信息。
5、 根據(jù)權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述語音端點檢 測還包括根據(jù)過長語音長度參數(shù)檢測得到所述初始語音信息的結(jié)束端點。
6、 根據(jù)權(quán)利要求1所述的語音服務(wù)方法,其特征在于,所述降噪處理包括設(shè)定噪聲門限值,并釆用濾波器濾去經(jīng)過所述語音端點^r測后的初始語 音信息中位于所述噪聲門P艮值之下的初始語音信息。
7、 一種語音服務(wù)系統(tǒng),其特征在于,包括輸入模塊、預(yù)處理模塊、識別 模塊和輸出模塊;所述輸入模塊,用于通過語音卡采集客戶端輸入的用于標(biāo)識所述客戶端 的語音服務(wù)請求的初始語音信息;所述預(yù)處理模塊,用于對所述初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信 息,所述預(yù)處理包括語音端點檢測和降噪處理;所述識別模塊,用于對所述標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信白 所述輸A模塊,用于根據(jù)所述識別結(jié)果信息向所述客戶端返回與所述初 始語音信息對應(yīng)的語音服務(wù)結(jié)果信息。
8、 根據(jù)權(quán)利要求7所述的語音服務(wù)系統(tǒng),其特征在于,還包括 排隊模塊,用于將所述標(biāo)準(zhǔn)語音信息輸入先進先出的排隊序列,以便依次從所述排隊序列中提取所述標(biāo)準(zhǔn)語音信息進行識別。
9、 根據(jù)權(quán)利要求7所述的語音服務(wù)系統(tǒng),其特征在于,所述預(yù)處理模塊 包括端點檢測單元和降噪單元;所述端點檢測單元,用于根據(jù)起始端點長度參數(shù)、結(jié)束端點長度參數(shù)和 過長語音長度參數(shù)檢測所述初始語音信息的起始端點和結(jié)束端點,所述起始 端點和結(jié)束端點之間的語音信息為語音部分信息,并去掉所述初始語音信息 中的所述語音部分信息之外的無語音部分信息;所述降噪單元,用于設(shè)定噪聲門限值,并采用濾波器濾去經(jīng)過所述語音 端點檢測后的初始語音信息中位于所述噪聲門限值之下的初始語音信息。
全文摘要
本發(fā)明公開了一種語音服務(wù)方法和語音服務(wù)系統(tǒng),其中,語音服務(wù)方法包括通過語音卡采集客戶端輸入的用于標(biāo)識所述客戶端的語音服務(wù)請求的初始語音信息;對所述初始語音信息進行預(yù)處理得到標(biāo)準(zhǔn)語音信息,所述預(yù)處理包括語音端點檢測和降噪處理;對所述標(biāo)準(zhǔn)語音信息進行語音識別得到識別結(jié)果信息;根據(jù)所述識別結(jié)果信息向所述客戶端返回與所述初始語音信息對應(yīng)的語音服務(wù)結(jié)果信息。本發(fā)明可以減少按鍵輸入,增強與用戶的交互性;使輸入語音識別引擎的語音盡量符合標(biāo)準(zhǔn),可以發(fā)揮引擎最大功效;實現(xiàn)了多路話路共用一個語音識別引擎,提高引擎利用率。
文檔編號G10L11/02GK101588415SQ20091008798
公開日2009年11月25日 申請日期2009年6月29日 優(yōu)先權(quán)日2009年6月29日
發(fā)明者于麗娜, 楨 李, 穎 楊, 高萬林 申請人:中國農(nóng)業(yè)大學(xué)