專利名稱:一種基于語音識別的翻譯輔助系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及移動終端,語音識別等技術(shù)領(lǐng)域,特別是指一種基于語音識別的翻譯輔助系統(tǒng)。
背景技術(shù):
隨著終端技術(shù)、軟件技術(shù)的發(fā)展,特別是智能終端、語音識別技術(shù)和軟件技術(shù)的發(fā)展,為一種基于語音識別的翻譯輔助系統(tǒng)提供了可行性。用戶在閱讀外文資料時,可能在閱讀過程中遇到部分不認(rèn)識的單詞或者理解語句的含義,傳統(tǒng)方式是在手工翻閱外文詞典或在電腦上手工輸入對應(yīng)的單詞或語句獲取翻譯結(jié)果,對閱讀流程產(chǎn)生了干擾,用戶需離開當(dāng)前的閱讀過程進(jìn)行查閱等操作,而通過終端實時采集用戶朗讀的語音獲取和識別用戶語音對象包含的內(nèi)容,并進(jìn)行語音內(nèi)容的識別后以識別結(jié)果發(fā)起翻譯服務(wù)的請求,翻譯功能模塊實時翻譯用戶的單詞或語句,并將獲取的結(jié)果在用戶終端界面上疊加顯示或者以語音方式進(jìn)行播放,用戶隨即可以獲取到對應(yīng)的翻譯內(nèi)容,并隨著用戶朗讀語音的延續(xù)不斷更新翻譯文本,達(dá)到了輔助用戶進(jìn)行閱讀的作用。有鑒于此,本發(fā)明的目的在于提出一種簡單易行,通過終端采集用戶語音和識別的一種基于語音識別的翻譯輔助系統(tǒng)。
發(fā)明內(nèi)容
從上面所述可以看出,本發(fā)明提供的一種基于語音識別的翻譯輔助系統(tǒng),通過終端采集用戶朗讀的需要翻譯的單詞或語句的語音并識別其包含的文字內(nèi)容,基于這些內(nèi)容進(jìn)行在線翻譯請求獲取翻譯結(jié)果并在終端界面上提供翻譯結(jié)果,實現(xiàn)了一種基于語音識別的翻譯輔助系統(tǒng)。進(jìn)一步的,通過所提供的一種基于語音識別的翻譯輔助系統(tǒng)為一種用戶閱讀輔助業(yè)務(wù)的發(fā)展提供有力保障,滿足用戶各方要求,提升用戶友好體驗。為實現(xiàn)上述目的,本發(fā)明的一個方面提供了一種基于語音識別的翻譯輔助系統(tǒng),該方法包括:
通過終端采集用戶朗讀的需要翻譯的內(nèi)容的語音數(shù)據(jù),在終端或系統(tǒng)進(jìn)行語音內(nèi)容的識別和內(nèi)容的處理后請求系統(tǒng)的在線翻譯服務(wù)進(jìn)行翻譯,系統(tǒng)將翻譯的結(jié)果返回給終端,終端對系統(tǒng)翻譯的數(shù)據(jù)進(jìn)行解析和處理并在用戶的終端顯示界面疊加顯示或以語音方式進(jìn)行播放。終端通過終端語音設(shè)備采集用戶需要進(jìn)行翻譯的內(nèi)容的語音,獲取其原始語音數(shù)據(jù)并進(jìn)行壓縮等處理作為數(shù)據(jù)源,進(jìn)行語音的文本識別,獲取其包含的文本。本發(fā)明提供的一種基于語音識別的翻譯輔助系統(tǒng)的一個實施例中,該方法還包括:
終端獲取采集的用戶感興趣的內(nèi)容部分的語音后,通過終端本地識別語音對應(yīng)的內(nèi)容或基于遠(yuǎn)程服務(wù)調(diào)用方式請求系統(tǒng)端提供的語音識別服務(wù)進(jìn)行語音文本識別,并獲得系統(tǒng)返回的識別結(jié)果。系統(tǒng)以在線服務(wù)方式開放語音識別服務(wù)接口,終端側(cè)通過提供本地采集的原始音頻內(nèi)容并發(fā)起遠(yuǎn)端語音識別服務(wù)的請求,系統(tǒng)端獲取對應(yīng)的識別請求以及壓縮的原始音頻數(shù)據(jù)后即可執(zhí)行對應(yīng)的識別服務(wù)。本發(fā)明提供的一種基于語音識別的翻譯輔助系統(tǒng)的一個實施例中,該方法還包括:
系統(tǒng)端的翻譯功能以在線服務(wù)形式進(jìn)行開放,終端通過系統(tǒng)開放的翻譯接口,發(fā)起獲取文本的翻譯請,系統(tǒng)的在線翻譯引擎獲取用戶的翻譯請求消息后解析其中的各個參數(shù)進(jìn)行翻譯并將翻譯結(jié)果推送給終端顯示在終端應(yīng)用界面上。本發(fā)明提供的一種基于語音識別的翻譯輔助系統(tǒng)的一個實施例中,該方法還包括:
翻譯引擎模塊包含了多種語言的識別和翻譯能力以及各種語言的詞庫以及對自然語言的解析能力,提供單詞到自然語句的各種語言的翻譯,用戶消息包含了用戶翻譯語言的參數(shù),翻譯引擎解析用戶請求參數(shù)后識別用戶的語言翻譯要求并執(zhí)行對應(yīng)的翻譯服務(wù)獲取不同語言的翻譯版本。本發(fā)明提供的一種基于語音識別的翻譯輔助系統(tǒng)的一個實施例中,該方法還包括:
終端獲取到翻譯引擎返回的翻譯結(jié)果,顯示在用戶的閱讀界面上以迭加窗口方式顯示或以語音方式進(jìn)行播放,用戶隨即可以查閱或聽到對應(yīng)內(nèi)容的各種有關(guān)信息。終端隨著用戶的朗讀語音的延續(xù)不斷更新的識別和請求翻譯,并根據(jù)更新和識別參數(shù)不斷識別和翻譯對應(yīng)的文本并更新用戶終端上的翻譯信息顯示,實現(xiàn)了隨用戶朗讀語音的延續(xù)和變化不斷更新對應(yīng)部分的相關(guān)內(nèi)容。具體來說具有以下優(yōu)點:
使用方便:
用戶通過朗讀需要翻譯的內(nèi)容并通過終端采集用戶對應(yīng)的語音,即可完成對應(yīng)語音內(nèi)容的識別和關(guān)于這部分內(nèi)容的對應(yīng)的翻譯信息,使用簡單快捷。實時翻譯輔助信息:
終端采集用戶朗讀的感興趣的內(nèi)容部分,對應(yīng)內(nèi)容部分的相關(guān)的翻譯的內(nèi)容即可即時疊加顯示在用戶終端界面上,并隨著用戶朗讀的延續(xù)不斷更新對應(yīng)的顯示內(nèi)容,實現(xiàn)一邊朗讀一邊顯示對應(yīng)結(jié)果的顯示效果。
此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:
圖1為本發(fā)明系統(tǒng)模塊結(jié)構(gòu)的示意圖。圖2為本發(fā)明語音識別流程示意圖。圖3為本發(fā)明業(yè)務(wù)流程示意圖。
具體實施例方式下面參照附圖對本發(fā)明進(jìn)行更全面的描述,其中說明本發(fā)明的示例性實施例。為實現(xiàn)上述目的,提出了一種基于語音識別的翻譯輔助系統(tǒng)。以下通過結(jié)合附圖,對本發(fā)明的實施方式進(jìn)行描述。實現(xiàn)一種基于語音識別的翻譯輔助系統(tǒng)的關(guān)鍵點如下:
語音采集和識別:
終端采集用戶朗讀的語音并壓縮成系統(tǒng)接收的音頻格式,通過終端自身的語音識別能力模塊或系統(tǒng)以服務(wù)形式開放的語音識別服務(wù)進(jìn)行識別,獲取語音中包含的文字內(nèi)容。在線語音識別服務(wù):
系統(tǒng)將系統(tǒng)端的語音識別能力進(jìn)行封裝并以服務(wù)形式進(jìn)行開放,為部分不具備本地語音識別的終端提供語音識別的能力,終端通過訪問系統(tǒng)服務(wù)的方式獲取語音識別的能力。在線翻譯服務(wù):
系統(tǒng)的翻譯服務(wù)功能以服務(wù)形式進(jìn)行開放,用戶按照系統(tǒng)協(xié)商的翻譯服務(wù)接口的形式和調(diào)用方式,通過互聯(lián)網(wǎng)絡(luò)遠(yuǎn)程發(fā)起翻譯的服務(wù)請求,系統(tǒng)獲取用戶的翻譯請求并解析其中的翻譯請求參數(shù)和語音數(shù)據(jù),將用戶的語音翻譯成用戶請求的對應(yīng)的語言版本的結(jié)果并返回其翻譯內(nèi)容。疊加更新:
終端獲取翻譯結(jié)果后,將翻譯結(jié)果在用戶的應(yīng)用界面以層疊方式疊加顯示或以語音方式進(jìn)行播放,用戶隨即可以獲取到翻譯結(jié)果,并隨著用戶朗讀的延續(xù),不斷更新用戶輔助信息的內(nèi)容,實現(xiàn)即讀即得的顯示效果。主要功能模塊
如圖1所示,一種基于語音識別的翻譯輔助系統(tǒng)的結(jié)構(gòu)主要包括:
終端側(cè)和系統(tǒng)側(cè):終端側(cè)可獨立完成全部的功能,根據(jù)終端的能力,可選后臺系統(tǒng)提供服務(wù),為不具備本地語音識別能力的終端進(jìn)行服務(wù),包含語音識別服務(wù)以及內(nèi)容處理等功倉泛。模塊組成:
終端硬件100:
終端側(cè)相機(jī)硬件部分,提供終端基本軟硬件功能,包含語音采集獲取原始的音頻數(shù)據(jù)的功能。日志模塊101:
記錄用戶在終端側(cè)的業(yè)務(wù)操作等活動數(shù)據(jù)并以日志方式保存在終端。邏輯模塊102:
終端側(cè)的業(yè)務(wù)邏輯流程的控制和執(zhí)行,調(diào)用其他邏輯功能模塊并與其進(jìn)行交互完成各種業(yè)務(wù)邏輯功能。語音采集模塊103:
通過終端的語音硬件采集用戶語音數(shù)據(jù),并將采集后的原始語音數(shù)據(jù)壓縮為系統(tǒng)協(xié)定的語音數(shù)據(jù)格式并提供給其他功能邏輯模塊,如識別模塊。識別模塊104: 終端側(cè)的語音識別模塊,根據(jù)終端軟件和硬件能力在終端可選安裝的識別功能模塊,負(fù)責(zé)識別語音采集模塊采集的語音數(shù)據(jù)并提供識別結(jié)果到其他功能模塊。服務(wù)請求模塊105:
終端側(cè)在需要系統(tǒng)功能支持的情況下,如本地不支持語音識別的情況下,通過系統(tǒng)開放的服務(wù),服務(wù)請求模塊發(fā)起對系統(tǒng)服務(wù)的請求,完成各種功能。內(nèi)容處理及顯示模塊106:
終端對獲取的識別內(nèi)容進(jìn)行解析和處理,包含對語音識別的內(nèi)容和翻譯的內(nèi)容結(jié)果的處理和顯示,對語音識別結(jié)果,內(nèi)容處理模塊完成挑選和截取語音內(nèi)容的所包含的完整的語句等功能,對翻譯結(jié)果,內(nèi)容處理模塊完成對翻譯結(jié)果以及內(nèi)容顯示的格式處理,并在處理完畢后,在用戶的應(yīng)用界面上疊加顯示或以語音播放的方式提供給用戶。管理配置模塊107:
終端用戶進(jìn)行業(yè)務(wù)配置和數(shù)據(jù)管理,用戶通過管理模塊對業(yè)務(wù)的數(shù)據(jù)和業(yè)務(wù)的配置進(jìn)行設(shè)置。接口模塊 108:
終端側(cè)與系統(tǒng)進(jìn)行交互的模塊,通過接口與系統(tǒng)進(jìn)行各種協(xié)議的交互以及消息的收發(fā),按照協(xié)議接口參數(shù)發(fā)起請求和接收系統(tǒng)的各種推送消息。傳輸通道109:
提供數(shù)據(jù)傳輸?shù)膶嶋H的物理通道,可以是無線寬帶網(wǎng)和移動數(shù)據(jù)網(wǎng)絡(luò),包含各個移動通信的數(shù)據(jù)信道,WIFI,固定寬帶等。系統(tǒng)接口模塊110:
系統(tǒng)側(cè)與終端進(jìn)行交互的模塊,與終端進(jìn)行通信,提供各種接口供終端進(jìn)行系統(tǒng)的訪問,按照協(xié)商的協(xié)議進(jìn)行數(shù)據(jù)傳輸,將數(shù)據(jù)發(fā)送給終端和接收終端的請求數(shù)據(jù)。日志模塊111:
將系統(tǒng)的各種操作的信息記錄到系統(tǒng)日志,并提供給用戶進(jìn)行查詢。數(shù)據(jù)庫112:
系統(tǒng)端提供數(shù)據(jù)存儲以及各種基于數(shù)據(jù)庫的各種功能,如數(shù)據(jù)觸發(fā)器、函數(shù)等邏輯功能的數(shù)據(jù)系統(tǒng)。業(yè)務(wù)邏輯模塊113:
負(fù)責(zé)系統(tǒng)端的對應(yīng)各個業(yè)務(wù)邏輯的執(zhí)行和邏輯設(shè)置、保存等功能,調(diào)用各個功能模塊完成業(yè)務(wù)流程和處理各種業(yè)務(wù)請求邏輯。消息模塊114:
系統(tǒng)與終端進(jìn)行消息的交互,處理終端的請求消息,構(gòu)造系統(tǒng)端與終端交互的各種消息,根據(jù)交互的協(xié)議和接口協(xié)議方式構(gòu)造各種消息數(shù)據(jù)并提供給接口進(jìn)行消息的傳遞。安全模塊115:
負(fù)責(zé)用戶身份驗證和安全設(shè)置相關(guān)的各種功能,包含驗證終端用戶身份和屬性,加密和解密各種消息數(shù)據(jù)等功能。語音識別服務(wù)模塊116:
系統(tǒng)端提供的語音識別服務(wù)的功能模塊,為不具備語音識別能力的終端提供語音識別功能,通過接口服務(wù)開放給終端。
系統(tǒng)識別處理模塊117:
系統(tǒng)端對獲取的識別結(jié)果的內(nèi)容進(jìn)行解析和處理,按照其中包含的識別的語句片段生成對應(yīng)的語句文本,去除或標(biāo)記識別結(jié)果中可能包含的錯誤解碼的字符或給出系統(tǒng)的提
/Jn ο管理模塊118:
系統(tǒng)的管理功能部分,對系統(tǒng)進(jìn)行綜合管理,包含用戶管理,邏輯流程管理,業(yè)務(wù)參數(shù),系統(tǒng)參數(shù)配置等各種管理功能。系統(tǒng)門戶119:
系統(tǒng)用戶登入門戶的系統(tǒng)的門戶,提供用戶使用系統(tǒng)的界面和各種業(yè)務(wù)流程的承載。翻譯引擎120:
翻譯引擎位于系統(tǒng)端或終端,內(nèi)置大量各個語言的詞匯,語句的數(shù)據(jù),以及基于智能用戶自然語言的翻譯分析服務(wù),通過開放的服務(wù)接口形式提供終端各種語言的識別和在線翻譯服務(wù),并通過接口響應(yīng)消息返回翻譯的結(jié)果。圖2示為本發(fā)明語音識別流程示意圖。如圖所示,該流程包含了以下步驟:
1)用戶使用終端采集用戶朗讀的感興趣的內(nèi)容部分的語音數(shù)據(jù);
2)終端判斷識別方式,包含終端本地語音識別或系統(tǒng)語音識別;
3)識別對應(yīng)的語音文本后,對語音識別文本進(jìn)行處理和解析,獲取其語音組成的對應(yīng)的多個文本并對可能的錯誤進(jìn)行糾錯的建議;
下面舉一個例子來說明本發(fā)明用戶通過終端閱讀輔助系統(tǒng)使用業(yè)務(wù)的流程,如圖3所示,該實施例中,業(yè)務(wù)包括以下步驟:
步驟1:終端用戶使用終端采集用戶朗讀感興趣的內(nèi)容的語音;
步驟2:終端獲取語音數(shù)據(jù),在終端或請求系統(tǒng)語音識別服務(wù)進(jìn)行識別;
步驟3:終端獲取識別后的文本并進(jìn)行必要的處理,獲取其中包含的各個完整語句片段文本;
步驟5.以獲取的識別結(jié)果為翻譯原文本發(fā)起翻譯服務(wù)請求;
步驟6.系統(tǒng)接收到終端的翻譯請求,將用戶請求消息中的文本翻譯成對應(yīng)的語言并將翻譯結(jié)果推送給終端;
步驟7.終端將獲取的結(jié)果在用戶的應(yīng)用界面疊加顯示或以語音方式進(jìn)行播放,用戶隨即可以獲取到對應(yīng)的內(nèi)容。本發(fā)明的描述是為了示例和說明起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種基于語音識別的翻譯輔助系統(tǒng),其特征在于,通過終端采集用戶朗讀的需要翻譯的內(nèi)容的語音數(shù)據(jù),在終端或系統(tǒng)進(jìn)行語音內(nèi)容的識別和內(nèi)容的處理后請求系統(tǒng)的在線翻譯服務(wù)進(jìn)行翻譯,系統(tǒng)將翻譯的結(jié)果返回給終端,終端對系統(tǒng)翻譯的數(shù)據(jù)進(jìn)行解析和處理并在用戶的終端顯示界面疊加顯示或以語音方式進(jìn)行播放。
2.如權(quán)利要求1所述,通過終端采集用戶朗讀的需要翻譯的內(nèi)容,獲取用戶需翻譯的內(nèi)容的語音數(shù)據(jù),其特征在于,終端通過終端語音設(shè)備采集用戶需要進(jìn)行翻譯的內(nèi)容的語音,獲取其原始語音數(shù)據(jù)并進(jìn)行壓縮等處理作為數(shù)據(jù)源,進(jìn)行語音的文本識別,獲取其包含的文本。
3.如權(quán)利要求1所述,終端通過終端語音設(shè)備采集用戶需要翻譯的內(nèi)容并發(fā)起語音的識別,其特征在于,獲取采集的用戶感興趣的內(nèi)容部分的語音后,通過終端本地識別語音對應(yīng)的內(nèi)容或基于遠(yuǎn)程服務(wù)調(diào)用方式請求系統(tǒng)端提供的語音識別服務(wù)進(jìn)行語音文本識別,并獲得系統(tǒng)返回的識別結(jié)果。
4.如權(quán)利要求1所述,終端或系統(tǒng)進(jìn)行語音內(nèi)容的識別后進(jìn)行內(nèi)容的翻譯,其特征在于,系統(tǒng)以在線服務(wù)方式開放語音識別服務(wù)接口,終端側(cè)通過提供本地采集的原始音頻內(nèi)容并發(fā)起遠(yuǎn)端語音識別服務(wù)的請求,系統(tǒng)端獲取對應(yīng)的識別請求以及壓縮的原始音頻數(shù)據(jù)后即可執(zhí)行對應(yīng)的識別服務(wù)。
5.如權(quán)利要求1所述,在終端或系統(tǒng)進(jìn)行內(nèi)容的識別后請求系統(tǒng)的在線翻譯服務(wù)進(jìn)行翻譯,其特征在于,系統(tǒng)端的翻譯功能以在線服務(wù)形式進(jìn)行開放,終端通過系統(tǒng)開放的翻譯接口,發(fā)起獲取文本的翻譯請,系統(tǒng)的在線翻譯引擎獲取用戶的翻譯請求消息后解析其中的各個參數(shù)進(jìn)行翻譯并將翻譯結(jié)果推送給終端顯示在終端應(yīng)用界面上。
6.如權(quán)利要求5所述,終端通過翻譯引擎獲取對應(yīng)內(nèi)容的翻譯結(jié)果,其特征在于,翻譯引擎模塊包含了多種語言的識別和翻譯能力以及各種語言的詞庫以及對自然語言的解析能力,提供單詞到自然語句的各種語言的翻譯,用戶消息包含了用戶翻譯語言的參數(shù),翻譯引擎解析用戶請求參數(shù)后識別用戶的語言翻譯要求并執(zhí)行對應(yīng)的翻譯服務(wù)獲取不同語言的翻譯版本。
7.如權(quán)利要求5所述,終端請求系統(tǒng)的在線翻譯服務(wù)進(jìn)行翻譯,其特征在于,終端獲取到翻譯引擎返回的翻譯結(jié)果,顯示在用戶的閱讀界面上以迭加窗口方式顯示或以語音方式進(jìn)行播放,用戶隨即可以查閱或聽到對應(yīng)內(nèi)容的各種有關(guān)信息。
8.如權(quán)利要求7所述,終端獲取翻譯引擎的翻譯結(jié)果并顯示在終端,其特征在于,終端隨著用戶的朗讀語音的延續(xù)不斷更新的識別和請求翻譯,并根據(jù)更新和識別參數(shù)不斷識別和翻譯對應(yīng)的文本并更新用戶終端上的翻譯信息顯示,實現(xiàn)了隨用戶朗讀語音的延續(xù)和變化不斷更新對應(yīng)部分的相關(guān)內(nèi)容。
全文摘要
本發(fā)明公開了一種基于語音識別的翻譯輔助系統(tǒng),包含終端語音采集模塊,接口模塊,語音識別模塊,翻譯引擎模塊等。本發(fā)明通過終端獲取用戶朗讀的需要翻譯的內(nèi)容的語音,在終端或系統(tǒng)進(jìn)行語音內(nèi)容的識別并對識別結(jié)果進(jìn)行處理,處理后將識別的文本請求系統(tǒng)在線翻譯引擎服務(wù)進(jìn)行翻譯,并將翻譯的結(jié)果返回給終端,終端對系統(tǒng)翻譯結(jié)果進(jìn)行解析和處理并在用戶的終端顯示界面疊加顯示或以語音方式進(jìn)行播放。通過終端采集用戶語音并進(jìn)行識別后并基于系統(tǒng)的翻譯服務(wù)進(jìn)行翻譯,提供了一種基于語音識別的翻譯輔助系統(tǒng)的業(yè)務(wù)體驗。
文檔編號G10L15/30GK103176965SQ201110432830
公開日2013年6月26日 申請日期2011年12月21日 優(yōu)先權(quán)日2011年12月21日
發(fā)明者顧健 申請人:上海博路信息技術(shù)有限公司