本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是涉及到一種語音通話方法和裝置。
背景技術(shù):
隨著通信終端的使用日益廣泛,人們利用通信終端可以實現(xiàn)多種功能,例如利用通信終端聽音樂,看視頻以及進(jìn)行語音通話等等。語音通話是通信終端的一個基本的和常用的功能,即使人們遠(yuǎn)隔千里,也能夠通過通信終端實現(xiàn)遠(yuǎn)程語音交流,無形中縮短了人與人之間的距離。
同時,隨著經(jīng)濟(jì)的全球化和國際化發(fā)展,不同國家之間的人們的交往也越來越密切。不同國家的人通常使用不同的語言,當(dāng)兩個用戶中至少一個用戶聽不懂對方的語言,另一個用戶也不會說對方的語言時,兩個用戶則無法通過通信終端進(jìn)行遠(yuǎn)程語音交流,必須面對面的交談,并且通過人工或者翻譯機(jī)進(jìn)行翻譯,從而減少了溝通渠道,提高了溝通成本。
因此,如何通過通信終端為使用不同語言的用戶實現(xiàn)遠(yuǎn)程語音交流,是當(dāng)前亟需解決的技術(shù)問題。
技術(shù)實現(xiàn)要素:
本發(fā)明的主要目的為提供一種語音通話方法和裝置,旨在解決使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題。
為達(dá)以上目的,本發(fā)明實施例提出一種語音通話方法,所述方法包括以下步驟:
采集原始第一語言的語音信息;
將所述原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使所述服務(wù)器將所述第一語言的語音信息翻譯處理為最終第二語言的語音信息;
接收所述服務(wù)器返回的所述最終第二語言的語音信息;
將所述最終第二語言的語音信息發(fā)送給對端。
本發(fā)明實施例同時提出一種語音通話裝置,所述裝置包括:
信息采集模塊,用于采集原始第一語言的語音信息;
第一翻譯處理模塊,用于將所述原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使所述服務(wù)器將所述原始第一語言的語音信息翻譯處理為最終第二語言的語音信息;
第一信息接收模塊,用于接收所述服務(wù)器返回的所述最終第二語言的語音信息;
信息發(fā)送模塊,用于將所述最終第二語言的語音信息發(fā)送給對端。
本發(fā)明實施例所提供的一種語音通話方法,通過將采集的本端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為對端用戶能夠識別的語音信息,再將翻譯后的語音信息發(fā)送給對端,使得對端用戶能夠聽懂本端用戶的語音。從而為通信終端增加了翻譯功能,使得使用不同語言的用戶實現(xiàn)了遠(yuǎn)程語音交流,解決了使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題,降低了溝通成本,提升了用戶體驗。
附圖說明
圖1是本發(fā)明的語音通話方法第一實施例的流程圖;
圖2是本發(fā)明實施例中將第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理的步驟的具體流程圖;
圖3是本發(fā)明的語音通話方法第二實施例的流程圖;
圖4是本發(fā)明實施例中將第二語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理的步驟的具體流程圖;
圖5是本發(fā)明的語音通話方法第三實施例的流程圖;
圖6是本發(fā)明的語音通話方法第四實施例的流程圖;
圖7是實現(xiàn)本發(fā)明實施例的語音通話方法一應(yīng)用場景的系統(tǒng)框圖;
圖8是實現(xiàn)本發(fā)明實施例的語音通話方法又一應(yīng)用場景的系統(tǒng)框圖;
圖9是實現(xiàn)本發(fā)明實施例的語音通話方法又一應(yīng)用場景的系統(tǒng)框圖;
圖10是實現(xiàn)本發(fā)明實施例的語音通話方法又一應(yīng)用場景的系統(tǒng)框圖;
圖11是本發(fā)明的語音通話裝置第一實施例的模塊示意圖;
圖12是圖11中的第一翻譯處理模塊的模塊示意圖;
圖13是本發(fā)明的語音通話裝置第二實施例的模塊示意圖;
圖14是圖13中的第二翻譯處理模塊的模塊示意圖;
圖15是本發(fā)明的語音通話裝置第三實施例的模塊示意圖。
本發(fā)明目的的實現(xiàn)、功能特點及優(yōu)點將結(jié)合實施例,參照附圖做進(jìn)一步說明。
具體實施方式
應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對本發(fā)明的限制。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,這里所使用的“終端”、“終端設(shè)備”既包括無線信號接收器的設(shè)備,其僅具備無發(fā)射能力的無線信號接收器的設(shè)備,又包括接收和發(fā)射硬件的設(shè)備,其具有能夠在雙向通信鏈路上,執(zhí)行雙向通信的接收和發(fā)射硬件的設(shè)備。這種設(shè)備可以包括:蜂窩或其他通信設(shè)備,其具有單線路顯示器或多線路顯示器或沒有多線路顯示器的蜂窩或其他通信設(shè)備;pcs(personalcommunicationsservice,個人通信系統(tǒng)),其可以組合語音、數(shù)據(jù)處理、傳真和/或數(shù)據(jù)通信能力;pda(personaldigitalassistant,個人數(shù)字助理),其可以包括射頻接收器、尋呼機(jī)、互聯(lián)網(wǎng)/內(nèi)聯(lián)網(wǎng)訪問、網(wǎng)絡(luò)瀏覽器、記事本、日歷和/或gps(globalpositioningsystem,全球定位系統(tǒng))接收器;常規(guī)膝上型和/或掌上型計算機(jī)或其他設(shè)備,其具有和/或包括射頻接收器的常規(guī)膝上型和/或掌上型計算機(jī)或其他設(shè)備。這里所使用的“終端”、“終端設(shè)備”可以是便攜式、可運輸、安裝在交通工具(航空、海運和/或陸地)中的,或者適合于和/或配置為在本地運行,和/或以分布形式,運行在地球和/或空間的任何其他位置運行。這里所使用的“終端”、“終端設(shè)備”還可以是通信終端、上網(wǎng)終端、音樂/視頻播放終端,例如可以是pda、mid(mobileinternetdevice,移動互聯(lián)網(wǎng)設(shè)備)和/或具有音樂/視頻播放功能的移動電話,也可以是智能電視、機(jī)頂盒等設(shè)備。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,這里所使用的服務(wù)器,其包括但不限于計算機(jī)、網(wǎng)絡(luò)主機(jī)、單個網(wǎng)絡(luò)服務(wù)器、多個網(wǎng)絡(luò)服務(wù)器集或多個服務(wù)器構(gòu)成的云。在此,云由基于云計算(cloudcomputing)的大量計算機(jī)或網(wǎng)絡(luò)服務(wù)器構(gòu)成,其中,云計算是分布式計算的一種,由一群松散耦合的計算機(jī)集組成的一個超級虛擬計算機(jī)。本發(fā)明的實施例中,服務(wù)器、終端設(shè)備與wns服務(wù)器之間可通過任何通信方式實現(xiàn)通信,包括但不限于,基于3gpp、lte、wimax的移動通信、基于tcp/ip、udp協(xié)議的計算機(jī)網(wǎng)絡(luò)通信以及基于藍(lán)牙、紅外傳輸標(biāo)準(zhǔn)的近距無線傳輸方式。
本發(fā)明實施例的語音通話方法和裝置,主要應(yīng)用于volte終端,該volte終端即基于volte(voiceoverlte)技術(shù)的通信終端。volte是一種ip數(shù)據(jù)傳輸技術(shù),無需2g/3g網(wǎng)絡(luò),全部業(yè)務(wù)承載于4g網(wǎng)絡(luò)上,可實現(xiàn)數(shù)據(jù)與語音業(yè)務(wù)在同一網(wǎng)絡(luò)下的統(tǒng)一。當(dāng)然,也可以應(yīng)用于基于其它ip數(shù)據(jù)傳輸技術(shù)的通信終端,只要其能夠?qū)?shù)據(jù)與語音業(yè)務(wù)統(tǒng)一在同一網(wǎng)絡(luò)下即可,本發(fā)明對此不作限定。
參照圖1,提出本發(fā)明的語音通話方法第一實施例,所述方法包括以下步驟:
s11、采集原始第一語言的語音信息。
本發(fā)明實施例中,定義volte終端用戶使用的語言為第一語言,對端用戶使用的語言為第二語言。當(dāng)volte終端作為發(fā)送端時,通過麥克風(fēng)采集用戶的第一語言的語音信息。
s12、將原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將原始第一語言的語音信息翻譯處理為最終第二語言的語音信息。
volte終端可以將原始第一語言的語音信息直接以語音數(shù)據(jù)流的方式發(fā)送給服務(wù)器,作為優(yōu)選,volte終端將原始第一語言的語音信息以數(shù)據(jù)包的形式分包發(fā)送給服務(wù)器。例如,volte終端首先將原始第一語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給服務(wù)器。
翻譯處理主要包括識別、翻譯和合成三個流程,這三個流程可以由一個服務(wù)器完成,也可以由兩個或三個服務(wù)器完成。
本發(fā)明實施例中,服務(wù)器包括語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器。volte終端與語音識別服務(wù)器建立基于ip通信的連接,設(shè)置識別信息,即需要識別的語言類型,包括本端的語言類型(第一語言),還可以進(jìn)一步包括對端的語言類型(第二語言);與翻譯服務(wù)器建立基于ip通信的連接,設(shè)置翻譯信息,即要翻譯的語種,包括本端對對端的映射,還可以進(jìn)一步包括對端對本端映射;與語音合成服務(wù)器建立基于ip通信的連接,設(shè)置合成信息,即語音合成的類型,比如男女聲、語速等。
如圖2所示,步驟s12中,volte終端將原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理的具體流程如下:
s121、將原始第一語言的語音信息發(fā)送給語音識別服務(wù)器,以使語音識別服務(wù)器將語音信息識別為第一語言的字符串。
volte終端首先將原始第一語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給語音識別服務(wù)器。語音識別服務(wù)器接收到語音文件后,根據(jù)預(yù)設(shè)的識別信息對語音文件進(jìn)行識別處理,識別為第一語言的字符串,并將第一語言的字符串返回給volte終端。
s122、接收語音識別服務(wù)器返回的第一語言的字符串。
s123、將第一語言的字符串發(fā)送給翻譯服務(wù)器,以使翻譯服務(wù)器將第一語言的字符串翻譯為第二語言的字符串。
volte終端接收到第一語言的字符串后,將第一語言的字符串發(fā)送給翻譯服務(wù)器。翻譯服務(wù)器接收到第一語言的字符串后,根據(jù)預(yù)設(shè)的翻譯信息對該第一語言的字符串進(jìn)行翻譯處理,翻譯為第二語言的字符串,并將第二語言的字符串返回給volte終端。
s124、接收翻譯服務(wù)器返回的第二語言的字符串。
s125、將第二語言的字符串發(fā)送給語音合成服務(wù)器,以使語音合成服務(wù)器將第二語言的字符串合成為最終第二語言的語音信息。
volte終端接收到第二語言的字符串后,將第二語言的字符串發(fā)送給語音合成服務(wù)器。語音合成服務(wù)器接收到第二語言的字符串后,根據(jù)預(yù)設(shè)的合成信息對第二語言的字符串進(jìn)行合成處理,合成為最終第二語言的語音信息,并將最終第二語言的語音信息以語音碼流的形式返回給volte終端。
在其它實施例中,也可以由一個服務(wù)器完成原始第一語言的語音信息的識別、翻譯和合成處理。例如,volte終端將原始第一語言的語音信息發(fā)送給服務(wù)器,服務(wù)器將該語音信息進(jìn)行識別、翻譯和合成處理后返回給volte終端。
在另一些實施例中,也可以由兩個服務(wù)器完成原始第一語言的語音信息的識別、翻譯和合成處理。例如,volte終端將原始第一語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別和翻譯處理后返回給volte終端,volte終端再將識別和翻譯處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行合成處理后返回給volte終端。又如,volte終端將原始第一語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別處理后返回給volte終端,volte終端再將識別處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行翻譯和合成處理后返回給volte終端。
s13、接收服務(wù)器返回的最終第二語言的語音信息。
s14、將最終第二語言的語音信息發(fā)送給對端。
volte終端接收到服務(wù)器返回的最終第二語言的語音信息后,通過語音通道將最終第二語言的語音信息發(fā)送給對端。對端接收到最終第二語言的語音信息后,通過音頻通路對該最終第二語言的語音信息進(jìn)行處理,最后通過發(fā)聲裝置(聽筒、揚聲器等)輸出該最終第二語言的語音信息,使用第二語言的對端用戶則能夠聽懂本端用戶所說的話。
本發(fā)明實施例的語音通話方法,通過將采集的本端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為對端用戶能夠識別的語音信息,再將翻譯后的語音信息發(fā)送給對端,使得對端用戶能夠聽懂本端用戶的語音。從而為通信終端增加了翻譯功能,使得使用不同語言的用戶實現(xiàn)了遠(yuǎn)程語音交流,解決了使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題,降低了溝通成本,提升了用戶體驗。
進(jìn)一步地,如圖3所示,在本發(fā)明的語音通話方法的第二實施例中,步驟s14之后還包括以下步驟:
s15、接收對端發(fā)送的原始第二語言的語音信息。
當(dāng)volte終端作為接收端時,通過語音通道接收作為發(fā)送端的對端發(fā)送的原始第二語言的語音信息。
s16、將原始第二語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將原始第二語言的語音信息翻譯處理為最終第一語言的語音信息。
volte終端可以將原始第二語言的語音信息直接以語音數(shù)據(jù)流的方式發(fā)送給服務(wù)器,作為優(yōu)選,volte終端將原始第二語言的語音信息以數(shù)據(jù)包的形式分包發(fā)送給服務(wù)器。例如,volte終端首先將原始第二語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給服務(wù)器。
本發(fā)明實施例中,服務(wù)器包括語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器。如圖4所示,步驟s16中,volte終端將原始第二語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理的具體流程如下:
s161、將原始第二語言的語音信息發(fā)送給語音識別服務(wù)器,以使語音識別服務(wù)器將語音信息識別為最終第二語言的字符串。
volte終端首先將原始第二語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給語音識別服務(wù)器。語音識別服務(wù)器接收到語音文件后,根據(jù)預(yù)設(shè)的識別信息對語音文件進(jìn)行識別處理,識別為第二語言的字符串,并將第二語言的字符串返回給volte終端。
s162、接收語音識別服務(wù)器返回的第二語言的字符串。
s163、將第二語言的字符串發(fā)送給翻譯服務(wù)器,以使翻譯服務(wù)器將第二語言的字符串翻譯為第一語言的字符串。
volte終端接收到第二語言的字符串后,將第二語言的字符串發(fā)送給翻譯服務(wù)器。翻譯服務(wù)器接收到第二語言的字符串后,根據(jù)預(yù)設(shè)的翻譯信息對該第二語言的字符串進(jìn)行翻譯處理,翻譯為第一語言的字符串,并將第一語言的字符串返回給volte終端。
s164、接收翻譯服務(wù)器返回的第一語言的字符串。
s165、將第一語言的字符串發(fā)送給語音合成服務(wù)器,以使語音合成服務(wù)器將第一語言的字符串合成為最終第一語言的語音信息。
volte終端接收到第一語言的字符串后,將第一語言的字符串發(fā)送給語音合成服務(wù)器。語音合成服務(wù)器接收到第一語言的字符串后,根據(jù)預(yù)設(shè)的合成信息對第一語言的字符串進(jìn)行合成處理,合成為最終第一語言的語音信息,并將最終第一語言的語音信息以語音碼流的形式返回給volte終端。
在其它實施例中,也可以由一個服務(wù)器完成原始第二語言的語音信息的識別、翻譯和合成處理。例如,volte終端將原始第二語言的語音信息發(fā)送給服務(wù)器,服務(wù)器將該語音信息進(jìn)行識別、翻譯和合成處理后返回給volte終端。
在另一些實施例中,也可以由兩個服務(wù)器完成原始第二語言的語音信息的識別、翻譯和合成處理。例如,volte終端將原始第二語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別和翻譯處理后返回給volte終端,volte終端再將識別和翻譯處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行合成處理后返回給volte終端。又如,volte終端將原始第二語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別處理后返回給volte終端,volte終端再將識別處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行翻譯和合成處理后返回給volte終端。
s17、接收服務(wù)器返回的最終第一語言的語音信息。
s18、輸出最終第一語言的語音信息。
volte終端接收到服務(wù)器返回的最終第一語言的語音信息后,通過音頻通路對該最終第一語言的語音信息進(jìn)行處理,最后通過發(fā)聲裝置(聽筒、揚聲器等)輸出該最終第一語言的語音信息,使用第一語言的本端用戶則能夠聽懂對端用戶所說的話。
本實施例中,進(jìn)一步將接收到的對端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為本端用戶能夠識別的語音信息,再輸出翻譯后的語音信息,使得本端用戶能夠聽懂對端用戶的語音。從而,即使對端為普通終端,也能夠讓使用不同語言的用戶實現(xiàn)遠(yuǎn)程語音交流,大大擴(kuò)大了應(yīng)用范圍,進(jìn)一步降低了溝通成本。
參照圖5,提出本發(fā)明的語音通話方法第三實施例,所述方法包括以下步驟:
s21、接收對端發(fā)送的原始第二語言的語音信息。
s22、將原始第二語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將第二語言的語音信息翻譯處理為最終第一語言的語音信息。
s23、接收服務(wù)器返回的最終第一語言的語音信息。
s24、輸出最終第一語言的語音信息。
本實施例中,步驟s21-步驟s24分別與第二實施例中的步驟s15-s18相同,在此不再贅述。
本發(fā)明實施例的語音通話方法,通過將接收到的對端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為本端用戶能夠識別的語音信息,再輸出翻譯后的語音信息,使得本端用戶能夠聽懂對端用戶的語音。從而為通信終端增加了翻譯功能,使得使用不同語言的用戶實現(xiàn)了遠(yuǎn)程語音交流,解決了使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題,降低了溝通成本,提升了用戶體驗。
進(jìn)一步地,如圖6所示,在本發(fā)明的語音通話方法的第四實施例中,步驟s24之后還包括以下步驟:
s25、采集原始第一語言的語音信息。
s26、將原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將第一語言的語音信息翻譯處理為最終第二語言的語音信息。
s27、接收服務(wù)器返回的最終第二語言的語音信息。
s28、將最終第二語言的語音信息發(fā)送給對端。
本實施例中,步驟s25-s28分別與第一實施例中的步驟s11-s14系統(tǒng),在此不再贅述。
本實施例中,進(jìn)一步地將采集的本端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為對端用戶能夠識別的語音信息,再將翻譯后的語音信息發(fā)送給對端,使得對端用戶能夠聽懂本端用戶的語音。從而,即使對端為普通終端,也能夠讓使用不同語言的用戶實現(xiàn)遠(yuǎn)程語音交流,大大擴(kuò)大了應(yīng)用范圍,進(jìn)一步降低了溝通成本。
本發(fā)明實施例中,第一實施例和第三實施例可以應(yīng)用于如圖7所示的應(yīng)用場景,其中,volte終端a與volte終端b通過ip多媒體系統(tǒng)(ipmultimediasubsystem,ims)網(wǎng)絡(luò)建立連接,且volte終端a和volte終端b均分別連接語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器,volte終端a和volte終端b均采用第一實施例或第二實施例的語音通話方法進(jìn)行語音通話,從而使用不同語言的用戶就能實現(xiàn)遠(yuǎn)程語音交流。
第二實施例和第四實施例可以應(yīng)用于如圖8-圖10所示的應(yīng)用場景。圖8中,volte終端a與語音終端b通過ims網(wǎng)絡(luò)建立連接,且volte終端a分別連接語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器,volte終端a采用第二實施例或第三實施例的語音通話方法與語音終端b進(jìn)行語音通話,從而使用不同語言的用戶就能實現(xiàn)遠(yuǎn)程語音交流。
圖9中,volte終端a通過ims網(wǎng)絡(luò)連接ims網(wǎng)絡(luò)與2g/3g網(wǎng)絡(luò)的網(wǎng)關(guān),語音終端b通過2g/3g網(wǎng)絡(luò)連接ims網(wǎng)絡(luò)與2g/3g網(wǎng)絡(luò)的網(wǎng)關(guān),且volte終端a分別連接語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器,volte終端a采用第二實施例或第三實施例的語音通話方法與語音終端b進(jìn)行語音通話,從而使用不同語言的用戶就能實現(xiàn)遠(yuǎn)程語音交流。
圖10中,volte終端a通過ims網(wǎng)絡(luò)連接ims網(wǎng)絡(luò)與公共交換電話網(wǎng)絡(luò)(publicswitchedtelephonenetwork,pstn)的網(wǎng)關(guān),語音終端b通過pstn連接ims網(wǎng)絡(luò)與pstn的網(wǎng)關(guān),且volte終端a分別連接語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器,volte終端a采用第二實施例或第三實施例的語音通話方法與語音終端b進(jìn)行語音通話,從而使用不同語言的用戶就能實現(xiàn)遠(yuǎn)程語音交流。
語音識別服務(wù)器的處理時延一般小于3秒,翻譯服務(wù)器的處理時延一般小于200毫秒,語音合成服務(wù)器的處理時延一般小于200毫秒,ims網(wǎng)絡(luò)傳輸?shù)臅r延一般為秒級。因此,利用lte通信的高速率低時延的特點,在volte終端上實現(xiàn)語音通話時的多語言實時翻譯功能,語音翻譯處理的速度快,時延小,不會對用戶的通話造成影響,從而使得使用不同語言的用戶可以實現(xiàn)遠(yuǎn)程無障礙語音交流。
參照圖11,提出本發(fā)明的語音通話裝置第一實施例,所述裝置包括信息采集模塊、第一翻譯處理模塊、第一信息接收模塊和信息發(fā)送模塊,其中:
信息采集模塊:用于采集原始第一語言的語音信息。
第一翻譯處理模塊:用于將原始第一語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將原始第一語言的語音信息翻譯處理為最終第二語言的語音信息。
第一信息接收模塊:用于接收服務(wù)器返回的最終第二語言的語音信息。
信息發(fā)送模塊:用于將最終第二語言的語音信息發(fā)送給對端。
本發(fā)明實施例中,volte終端用戶使用的語言為第一語言,對端用戶使用的語言為第二語言。當(dāng)volte終端作為發(fā)送端時,信息采集模塊通過麥克風(fēng)采集用戶的原始第一語言的語音信息。
第一翻譯處理模塊可以將原始第一語言的語音信息直接以語音數(shù)據(jù)流的方式發(fā)送給服務(wù)器,作為優(yōu)選,第一翻譯處理模塊將原始第一語言的語音信息以數(shù)據(jù)包的形式分包發(fā)送給服務(wù)器。例如,第一翻譯處理模塊首先將原始第一語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給服務(wù)器。
翻譯處理主要包括識別、翻譯和合成三個流程,這三個流程可以由一個服務(wù)器完成,也可以由兩個或三個服務(wù)器完成。
本發(fā)明實施例中,服務(wù)器包括語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器。volte終端與語音識別服務(wù)器建立基于ip通信的連接,通過第一設(shè)置模塊設(shè)置識別信息,即需要識別的語言類型,包括本端的語言類型(第一語言),還可以進(jìn)一步包括對端的語言類型(第二語言);與翻譯服務(wù)器建立基于ip通信的連接,通過第二設(shè)置模塊設(shè)置翻譯信息,即要翻譯的語種,包括本端對對端的映射,還可以進(jìn)一步包括對端對本端映射;與語音合成服務(wù)器建立基于ip通信的連接,通過第三設(shè)置模塊設(shè)置合成信息,即語音合成的類型,比如男女聲、語速等。
如圖12所示,第一翻譯處理模塊包括第一發(fā)送單元、第一接收單元、第二發(fā)送單元、第二接收單元和第三發(fā)送單元,其中:
第一發(fā)送單元:用于將原始第一語言的語音信息發(fā)送給語音識別服務(wù)器,以使語音識別服務(wù)器將語音信息識別為第一語言的字符串。
第一發(fā)送單元首先將原始第一語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給語音識別服務(wù)器。語音識別服務(wù)器接收到語音文件后,根據(jù)預(yù)設(shè)的識別信息對語音文件進(jìn)行識別處理,識別為第一語言的字符串,并將第一語言的字符串返回給volte終端。
第一接收單元:用于接收語音識別服務(wù)器返回的第一語言的字符串。
第二發(fā)送單元:用于將第一語言的字符串發(fā)送給翻譯服務(wù)器,以使翻譯服務(wù)器將第一語言的字符串翻譯為第二語言的字符串。
當(dāng)接收到第一語言的字符串后,第二發(fā)送單元則將第一語言的字符串發(fā)送給翻譯服務(wù)器。翻譯服務(wù)器接收到第一語言的字符串后,根據(jù)預(yù)設(shè)的翻譯信息對該第一語言的字符串進(jìn)行翻譯處理,翻譯為第二語言的字符串,并將第二語言的字符串返回給volte終端。
第二接收單元:用于接收翻譯服務(wù)器返回的第二語言的字符串。
第三發(fā)送單元:用于將第二語言的字符串發(fā)送給語音合成服務(wù)器,以使語音合成服務(wù)器將第二語言的字符串合成為最終第二語言的語音信息。
當(dāng)接收到第二語言的字符串后,第三發(fā)送單元則將第二語言的字符串發(fā)送給語音合成服務(wù)器。語音合成服務(wù)器接收到第二語言的字符串后,根據(jù)預(yù)設(shè)的合成信息對第二語言的字符串進(jìn)行合成處理,合成為最終第二語言的語音信息,并將最終第二語言的語音信息以語音碼流的形式返回給volte終端。
在其它實施例中,也可以由一個服務(wù)器完成原始第一語言的語音信息的識別、翻譯和合成處理。例如,第一翻譯處理模塊將原始第一語言的語音信息發(fā)送給服務(wù)器,服務(wù)器將該語音信息進(jìn)行識別、翻譯和合成處理后返回給volte終端。
在另一些實施例中,也可以由兩個服務(wù)器完成原始第一語言的語音信息的識別、翻譯和合成處理。例如,第一翻譯處理模塊將原始第一語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別和翻譯處理后返回給volte終端,第一翻譯處理模塊再將識別和翻譯處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行合成處理后返回給volte終端。又如,第一翻譯處理模塊將原始第一語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別處理后返回給volte終端,第一翻譯處理模塊再將識別處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行翻譯和合成處理后返回給volte終端。
本發(fā)明實施例的語音通話裝置,通過將采集的本端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為對端用戶能夠識別的語音信息,再將翻譯后的語音信息發(fā)送給對端,使得對端用戶能夠聽懂本端用戶的語音。從而為通信終端增加了翻譯功能,使得使用不同語言的用戶實現(xiàn)了遠(yuǎn)程語音交流,解決了使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題,降低了溝通成本,提升了用戶體驗。
參照圖13,提出本發(fā)明的語音通話裝置的第二實施例,該裝置包括第二信息接收模塊、第二翻譯處理模塊、第三信息接收模塊和信息輸出模塊,其中:
第二信息接收模塊:用于接收對端發(fā)送的原始第二語言的語音信息。
當(dāng)volte終端作為接收端時,第二信息接收模塊通過語音通道接收作為發(fā)送端的對端發(fā)送的原始第二語言的語音信息。
第二翻譯處理模塊:用于將原始第二語言的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,以使服務(wù)器將原始第二語言的語音信息翻譯處理為最終第一語言的語音信息。
第二翻譯處理模塊可以將原始第二語言的語音信息直接以語音數(shù)據(jù)流的方式發(fā)送給服務(wù)器,作為優(yōu)選,第二翻譯處理模塊將原始第二語言的語音信息以數(shù)據(jù)包的形式分包發(fā)送給服務(wù)器。例如,第二翻譯處理模塊首先將原始第二語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給服務(wù)器。
本發(fā)明實施例中,服務(wù)器包括語音識別服務(wù)器、翻譯服務(wù)器和語音合成服務(wù)器。volte終端與語音識別服務(wù)器建立基于ip通信的連接,通過第一設(shè)置模塊設(shè)置識別信息,即需要識別的語言類型,包括對端的語言類型(第二語言),還可以進(jìn)一步包括本端的語言類型(第一語言);與翻譯服務(wù)器建立基于ip通信的連接,通過第二設(shè)置模塊設(shè)置翻譯信息,即要翻譯的語種,包括對端對本端映射,還可以進(jìn)一步包括本端對對端的映射;與語音合成服務(wù)器建立基于ip通信的連接,通過第三設(shè)置模塊設(shè)置合成信息,即語音合成的類型,比如男女聲、語速等。
如圖14所示,第二翻譯處理模塊包括第四發(fā)送單元、第三接收單元、第五發(fā)送單元、第四接收單元和第六發(fā)送單元,其中:
第四發(fā)送單元:用于將原始第二語言的語音信息發(fā)送給語音識別服務(wù)器,以使語音識別服務(wù)器將語音信息識別為第二語言的字符串。
第四發(fā)送單元首先將原始第二語言的語音信息進(jìn)行錄音處理,錄制為一個個的語音文件并緩存,然后將緩存的每個語音文件以數(shù)據(jù)包的形式依次發(fā)送給語音識別服務(wù)器。語音識別服務(wù)器接收到語音文件后,根據(jù)預(yù)設(shè)的識別信息對語音文件進(jìn)行識別處理,識別為第二語言的字符串,并將第二語言的字符串返回給volte終端。
第三接收單元:用于接收語音識別服務(wù)器返回的第二語言的字符串。
第五發(fā)送單元:用于將第二語言的字符串發(fā)送給翻譯服務(wù)器,以使翻譯服務(wù)器將第二語言的字符串翻譯為第一語言的字符串。
當(dāng)接收到第二語言的字符串后,第五發(fā)送單元則將第二語言的字符串發(fā)送給翻譯服務(wù)器。翻譯服務(wù)器接收到第二語言的字符串后,根據(jù)預(yù)設(shè)的翻譯信息對該第二語言的字符串進(jìn)行翻譯處理,翻譯為第一語言的字符串,并將第一語言的字符串返回給volte終端。
第四接收單元:用于接收翻譯服務(wù)器返回的第一語言的字符串。
第六發(fā)送單元:用于將第一語言的字符串發(fā)送給語音合成服務(wù)器,以使語音合成服務(wù)器將第一語言的字符串合成為最終第一語言的語音信息。
當(dāng)接收到第一語言的字符串后,第六發(fā)送單元則將第一語言的字符串發(fā)送給語音合成服務(wù)器。語音合成服務(wù)器接收到第一語言的字符串后,根據(jù)預(yù)設(shè)的合成信息對第一語言的字符串進(jìn)行合成處理,合成為最終第一語言的語音信息,并將最終第一語言的語音信息以語音碼流的形式返回給volte終端。
在其它實施例中,也可以由一個服務(wù)器完成原始第二語言的語音信息的識別、翻譯和合成處理。例如,第二翻譯處理模塊將原始第二語言的語音信息發(fā)送給服務(wù)器,服務(wù)器將該語音信息進(jìn)行識別、翻譯和合成處理后返回給volte終端。
在另一些實施例中,也可以由兩個服務(wù)器完成原始第二語言的語音信息的識別、翻譯和合成處理。例如,第二翻譯處理模塊將原始第二語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別和翻譯處理后返回給volte終端,第二翻譯處理模塊再將識別和翻譯處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行合成處理后返回給volte終端。又如,第二翻譯處理模塊將原始第二語言的語音信息發(fā)送給第一服務(wù)器,第一服務(wù)器將該語音信息進(jìn)行識別處理后返回給volte終端,第二翻譯處理模塊再將識別處理后的語音信息發(fā)送給第二服務(wù)器,第二服務(wù)器將該語音信息進(jìn)行翻譯和合成處理后返回給volte終端。
第三信息接收模塊:用于接收服務(wù)器返回的最終第一語言的語音信息。
信息輸出模塊:用于輸出最終第一語言的語音信息。
當(dāng)接收到服務(wù)器返回的最終第一語言的語音信息后,信息輸出模塊則通過音頻通路對該最終第一語言的語音信息進(jìn)行處理,最后通過發(fā)聲裝置(聽筒、揚聲器等)輸出該最終第一語言的語音信息,使用第一語言的本端用戶則能夠聽懂對端用戶所說的話。
前述第一實施例和第二實施例的語音通話裝置,可以應(yīng)用于如圖7所示的應(yīng)用場景。
本發(fā)明實施例的語音通話裝置,通過將接收到的對端用戶的語音信息發(fā)送給服務(wù)器進(jìn)行翻譯處理,翻譯為本端用戶能夠識別的語音信息,再輸出翻譯后的語音信息,使得本端用戶能夠聽懂對端用戶的語音。從而為通信終端增加了翻譯功能,使得使用不同語言的用戶實現(xiàn)了遠(yuǎn)程語音交流,解決了使用不同語言的用戶無法通過通信終端進(jìn)行遠(yuǎn)程語音交流的技術(shù)問題,降低了溝通成本,提升了用戶體驗。
進(jìn)一步地,如圖15,還可以將前述第一實施例和第二實施例的語音通話裝置結(jié)合起來形成第三實施例的語音通話裝置。使得語音通話裝置既可以將本端采集的語音信息進(jìn)行翻譯處理后再發(fā)送給對端,也可以將對端發(fā)送的語音信息進(jìn)行翻譯處理后再予以輸出,從而即使對端為普通的語音終端也能實現(xiàn)使用不同語言的用戶的遠(yuǎn)程語音交流,大大擴(kuò)大了應(yīng)用范圍,進(jìn)一步降低了溝通成本。
本實施例的語音通話裝置可以應(yīng)用于如圖8-圖10所示的應(yīng)用場景。
本發(fā)明實施例的語音通話方法和裝置,在支持volte的ims網(wǎng)絡(luò)下,通過其支持語音和數(shù)據(jù)聚合的全ip端對端并發(fā)傳輸功能,借助語音識別、翻譯、合成等服務(wù)器的處理,三者的處理和傳輸時延小于秒級,同時利用lte通信傳輸?shù)母咚俚蜁r延的特點,在volte終端上實現(xiàn)語音通話的多語言實時翻譯功能,使得使用不同語言的用戶也能夠?qū)崿F(xiàn)遠(yuǎn)程無障礙語音交流,極大的提升了用戶體驗。
本領(lǐng)域技術(shù)人員可以理解,本發(fā)明包括涉及用于執(zhí)行本申請中所述操作中的一項或多項的設(shè)備。這些設(shè)備可以為所需的目的而專門設(shè)計和制造,或者也可以包括通用計算機(jī)中的已知設(shè)備。這些設(shè)備具有存儲在其內(nèi)的計算機(jī)程序,這些計算機(jī)程序選擇性地激活或重構(gòu)。這樣的計算機(jī)程序可以被存儲在設(shè)備(例如,計算機(jī))可讀介質(zhì)中或者存儲在適于存儲電子指令并分別耦聯(lián)到總線的任何類型的介質(zhì)中,所述計算機(jī)可讀介質(zhì)包括但不限于任何類型的盤(包括軟盤、硬盤、光盤、cd-rom、和磁光盤)、rom(read-onlymemory,只讀存儲器)、ram(randomaccessmemory,隨機(jī)存儲器)、eprom(erasableprogrammableread-onlymemory,可擦寫可編程只讀存儲器)、eeprom(electricallyerasableprogrammableread-onlymemory,電可擦可編程只讀存儲器)、閃存、磁性卡片或光線卡片。也就是,可讀介質(zhì)包括由設(shè)備(例如,計算機(jī))以能夠讀的形式存儲或傳輸信息的任何介質(zhì)。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以用計算機(jī)程序指令來實現(xiàn)這些結(jié)構(gòu)圖和/或框圖和/或流圖中的每個框以及這些結(jié)構(gòu)圖和/或框圖和/或流圖中的框的組合。本技術(shù)領(lǐng)域技術(shù)人員可以理解,可以將這些計算機(jī)程序指令提供給通用計算機(jī)、專業(yè)計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來實現(xiàn),從而通過計算機(jī)或其他可編程數(shù)據(jù)處理方法的處理器來執(zhí)行本發(fā)明公開的結(jié)構(gòu)圖和/或框圖和/或流圖的框或多個框中指定的方案。
本技術(shù)領(lǐng)域技術(shù)人員可以理解,本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的步驟、措施、方案可以被交替、更改、組合或刪除。進(jìn)一步地,具有本發(fā)明中已經(jīng)討論過的各種操作、方法、流程中的其他步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。進(jìn)一步地,現(xiàn)有技術(shù)中的具有與本發(fā)明中公開的各種操作、方法、流程中的步驟、措施、方案也可以被交替、更改、重排、分解、組合或刪除。
以上參照附圖說明了本發(fā)明的優(yōu)選實施例,并非因此局限本發(fā)明的權(quán)利范圍。本領(lǐng)域技術(shù)人員不脫離本發(fā)明的范圍和實質(zhì),可以有多種變型方案實現(xiàn)本發(fā)明,比如作為一個實施例的特征可用于另一實施例而得到又一實施例。凡在運用本發(fā)明的技術(shù)構(gòu)思之內(nèi)所作的任何修改、等同替換和改進(jìn),均應(yīng)在本發(fā)明的權(quán)利范圍之內(nèi)。