本發(fā)明涉及計算機技術(shù)領(lǐng)域,具體涉及語音識別方法及相關(guān)產(chǎn)品。
背景技術(shù):
與機器進行語音交流,讓機器明白你說什么,這是人們長期以來夢寐以求的事情。中國物聯(lián)網(wǎng)校企聯(lián)盟形象得把語音識別比做為機器的聽覺系統(tǒng)。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。
語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準則及模型訓(xùn)練技術(shù)三個方面。語音識別技術(shù)車聯(lián)網(wǎng)也得到了充分的引用,例如:只需口述即可設(shè)置目的地直接導(dǎo)航,安全、便捷。
語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域。語音識別技術(shù)所涉及的領(lǐng)域包括:信號處理、模式識別、概率論和信息論、發(fā)聲機理和聽覺機理、人工智能等等。
如何提高語音識別的準確率以及識別速度,是該領(lǐng)域技術(shù)人員努力的方向;目前,由于人們說話帶有口音,甚至有區(qū)別很大的方言,給語音識別造成了較大的困難,因此需要提出解決方案。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供了語音識別方法及相關(guān)產(chǎn)品,用于提高非標準語音的識別的準確率。
第一方面,本發(fā)明實施例提供一種語音識別方法,包括:
終端設(shè)備提示輸入語音后,采集語音數(shù)據(jù);使用至少一種識別算法獲得至少兩種識別結(jié)果,輸出所述至少兩種識別結(jié)果;
獲得所述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定所述相對準確的識別結(jié)果所對應(yīng)的識別算法作為所述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
在一個可能的實現(xiàn)方式中,所述終端設(shè)備提示輸入語音包括:以語音的方式提示用戶以用戶習(xí)慣的說話方式說話。
在一個可能的實現(xiàn)方式中,所述輸出所述至少兩種識別結(jié)果包括:
以標準語音的方式輸出所述至少兩種識別結(jié)果。
在一個可能的實現(xiàn)方式中,所述確定所述相對準確的識別結(jié)果所對應(yīng)的識別算法包括:
首先確定所述相對準確的識別結(jié)果對應(yīng)的語言類型以及方言類型;
將確定的語言類型以及方言類型對應(yīng)的識別算法作為所述相對準確的識別結(jié)果所對應(yīng)的識別算法。
在一個可能的實現(xiàn)方式中,所述使用至少一種識別算法獲得至少兩種識別結(jié)果包括:
按照所述終端設(shè)備所處的地理位置,使用與所述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;
或者,按照所述終端設(shè)備所使用的語言類型,使用所述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在一個可能的實現(xiàn)方式中,所述使用與所述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果包括:
按照所述終端設(shè)備所使用的語言類型以及所述終端設(shè)備所處的地理位置,依據(jù)所述語言類型及方言區(qū)域確定最可能的至少兩種標準語音庫,使用所述至少兩種語音庫對應(yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果。
第二方面,本發(fā)明實施例還提供了一種語音識別設(shè)備,包括處理單元和輸入輸出單元,
所述處理單元,用于控制所述輸入輸出單元提示輸入語音后,采集語音數(shù)據(jù);使用至少一種識別算法獲得至少兩種識別結(jié)果,輸出所述至少兩種識別結(jié)果;獲得所述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定所述相對準確的識別結(jié)果所對應(yīng)的識別算法作為所述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
在一個可能的實現(xiàn)方式中,所述處理單元,用于使用至少一種識別算法獲得至少兩種識別結(jié)果包括:按照所述終端設(shè)備所處的地理位置,使用與所述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;或者,按照所述終端設(shè)備所使用的語言類型,使用所述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
第三方面本發(fā)明實施例提供了一種終端設(shè)備,包括一個或多個處理器、存儲器、通信接口以及一個或多個程序,其中,所述一個或多個程序被存儲在所述存儲器中,并且被配置由所述一個或多個處理器執(zhí)行,所述程序包括用于執(zhí)行本發(fā)明實施例提供的任一項方法中的步驟的指令。
第四方面本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),其存儲用于電子數(shù)據(jù)交換的計算機程序,其中,所述計算機程序使得計算機執(zhí)行本發(fā)明實施例提供的任一項所述的方法,所述計算機包括終端設(shè)備。
可以看出,本發(fā)明實施例中,通過提示用戶輸入語音后,采集用戶輸入的語音數(shù)據(jù),然后采用一種或者多種算法得到了兩種以上的識別結(jié)果,然后通過用戶確認的更為準確的識別結(jié)果可以確定哪一種算法更好;該方案極為適合例如手機等較為私人或者口音類似的用戶使用,可以在保證識別速度的前提下,提高非標準語音的識別的準確率。
附圖說明
下面將對本發(fā)明實施例所涉及到的附圖作簡單地介紹。
圖1是本發(fā)明實施例提供的方法的流程示意圖;
圖2是本發(fā)明實施例的界面示意圖;
圖3是本發(fā)明實施例的語音識別設(shè)備結(jié)構(gòu)示意圖;
圖4是本發(fā)明實施例的語音識別設(shè)備結(jié)構(gòu)示意圖;
圖5是本發(fā)明實施例的終端設(shè)備的結(jié)構(gòu)示意圖;
圖6是本發(fā)明實施例的終端設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本發(fā)明方案,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別不同對象,而不是用于描述特定順序。此外,術(shù)語“包括”和“具有”以及它們?nèi)魏巫冃?,意圖在于覆蓋不排他的包含。例如包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備沒有限定于已列出的步驟或單元,而是可選地還包括沒有列出的步驟或單元,或可選地還包括對于這些過程、方法、產(chǎn)品或設(shè)備固有的其他步驟或單元。
在本文中提及“實施例”意味著,結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性可以包含在本發(fā)明的至少一個實施例中。在說明書中的各個位置出現(xiàn)該短語并不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領(lǐng)域技術(shù)人員顯式地和隱式地理解的是,本文所描述的實施例可以與其它實施例相結(jié)合。
本發(fā)明實施例所涉及到的終端設(shè)備可以包括各種具有無線通信功能的手持設(shè)備、車載設(shè)備、可穿戴設(shè)備、計算設(shè)備或連接到無線調(diào)制解調(diào)器的其他處理設(shè)備,以及各種形式的用戶設(shè)備(userequipment,ue),移動臺(mobilestation,ms),終端設(shè)備(terminaldevice)等等。為方便描述,上面提到的設(shè)備統(tǒng)稱為移動終端。
下面結(jié)合附圖對本發(fā)明實施例進行介紹。
請參閱圖1,圖1是本發(fā)明實施例提供了一種語音識別方法的流程示意圖,應(yīng)用于終端設(shè)備,如圖1所示,本語音識別方法包括:
101:終端設(shè)備提示輸入語音后,采集語音數(shù)據(jù);使用至少一種識別算法獲得至少兩種識別結(jié)果,輸出上述至少兩種識別結(jié)果;
終端設(shè)備提示輸入語音的應(yīng)用場景,可以是在終端設(shè)備首次使用自動提示輸入語音;也可以是多次語音識別錯誤,或者多次語音識別不準確的情況下,用戶啟動本發(fā)明實施例的流程后提示輸入語音。
一種識別算法會得出多個識別結(jié)果,這多個識別結(jié)果按照概率論,有些可能性比較大,有些可能性相對小一些;但是可能性相對小一些的情況,并不見得是不準確的,因為存在識別不準確的情況。
對于不同的方言或者不同類型的語言,可以有不同的識別算法;對同一種語言也可能有多種識別算法;因此本實施例可以使用多種識別算法進行嘗試,來確定幾個可能性比較大的識別結(jié)果。
102:獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法作為上述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
本實施例中,獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果的方式,可以是用戶選擇的方式實現(xiàn),即:用戶選擇其中一個識別結(jié)果作為相對準確識別結(jié)果。
對于不同的識別結(jié)果,終端設(shè)備可以預(yù)先確定一個識別結(jié)果對應(yīng)到一種優(yōu)選的識別算法。本步驟最終確定后續(xù)續(xù)語音識別使用的識別算法,由于本步驟確定了一個特定的識別算法,對于手機這類設(shè)備而言,具有私人屬性;也就是說,這個終端設(shè)備通常來說是同一個人使用的,使用一個特定的識別算法就可以了,不必使用過多的其他算法或者語音庫來識別語音,因此識別速度和識別準確率均可以很高。
本發(fā)明實施例不使用標準文本給用戶讀,這樣可以避免用戶讀文檔時隱藏自己真實說話的口音,導(dǎo)致確定方言類型和識別算法不準確。
基于前文說明,本發(fā)明實施例中,通過提示用戶輸入語音后,采集用戶輸入的語音數(shù)據(jù),然后采用一種或者多種算法得到了兩種以上的識別結(jié)果,然后通過用戶確認的更為準確的識別結(jié)果可以確定哪一種算法更好;該方案極為適合例如手機等較為私人或者口音類似的用戶使用,可以在保證識別速度的前提下,提高非標準語音的識別的準確率。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了一個更為具體的應(yīng)用例,如下:如圖2所示,上述終端設(shè)備提示輸入語音包括:以語音的方式提示用戶以用戶習(xí)慣的說話方式說話。
基于此,在本實施例中,可以使用終端設(shè)備所在地的標準語音,比如:在中國使用標準普通話,提示用戶以用戶習(xí)慣的說話方式說話。在圖2中可以顯示:算法校準等信息,也可以不顯示。該方案可以適用于文盲使用,不需要用戶認識字。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了一個更為具體的應(yīng)用例,上述輸出上述至少兩種識別結(jié)果包括:
以標準語音的方式輸出上述至少兩種識別結(jié)果。
可以理解的是,本實施例中,以標準語音的方式輸出識別結(jié)果以后,還可以發(fā)出詢問提示,在上述詢問提示中詢問:翻譯是否準確;如果本次詢問提示不是第一次詢問提示,可以進一步詢問這個翻譯比前一個翻譯結(jié)果是否更準確。
上述是否準確的詢問可以是具體詢問:這次翻譯的對不對?類似這樣口語化的語音提示。
在一個可能的實現(xiàn)方式中,為了更為快速的確定識別算法,本發(fā)明實施例還提供了如下解決方案:上述確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法包括:
首先確定上述相對準確的識別結(jié)果對應(yīng)的語言類型以及方言類型;
將確定的語言類型以及方言類型對應(yīng)的識別算法作為上述相對準確的識別結(jié)果所對應(yīng)的識別算法。
由于對于不同的方言會建立不同的語音數(shù)據(jù)庫,或者說是該方案類型對應(yīng)的標準語音數(shù)據(jù)庫,用于識別語音的比對。因此先確定方言類型,可以提高算法的準確性。
在語音識別的研究發(fā)展過程中,研究人員根據(jù)不同語言的發(fā)音特點,設(shè)計和制作了以漢語(包括不同方言)、英語等各類語言的語音數(shù)據(jù)庫,這些語音數(shù)據(jù)庫,例如:mitmedialabspeechdataset(麻省理工學(xué)院媒體實驗室語音數(shù)據(jù)集)、pitchandvoicingestimatesforaurora2(aurora2語音庫的基因周期和聲調(diào)估計)、congressionalspeechdata(國會語音數(shù)據(jù))、mandarinspeechframedata(普通話語音幀數(shù)據(jù))、用于測試盲源分離算法的語音數(shù)據(jù)等。
在一個可能的實現(xiàn)方式中,如果首先確定了可能是什么方言,那么可以提高識別準確性,從而提高提供給用戶選擇的語音的準確性,具體如下:上述使用至少一種識別算法獲得至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;
或者,按照上述終端設(shè)備所使用的語言類型,使用上述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在本實施例中,前者可以僅使用一種識別算法,后者可以使用多種識別算法;其中,前者結(jié)合終端設(shè)備的地理位置,可以大概率的確定用戶可能的方言類型;后者,則可以確定用戶使用的語言類型,此時并不清楚方言類型,因此可以嘗試多種識別算法。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了結(jié)合方言類型以及語言類型的實現(xiàn)方案,可以作為一個優(yōu)選的實現(xiàn)方案,具體如下:上述使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所使用的語言類型以及上述終端設(shè)備所處的地理位置,依據(jù)上述語言類型及方言區(qū)域確定最可能的至少兩種標準語音庫,使用上述至少兩種語音庫對應(yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在本實施例中,根據(jù)終端設(shè)備使用的語言類型,可以確定用戶使用哪一種語言類型;例如:終端設(shè)備使用的是簡體中文,那么語言類型可以是漢語;終端設(shè)備使用的是繁體中文,那么語言類型將會是漢語,更具體地可以確定是漢語中的粵語或者閩南語等;終端設(shè)備使用的是英語,那么可以確定語言類型是英語;結(jié)合地理位置,例如:終端設(shè)備使用的是簡體中文,地理位置為湖北;那么大概率是漢語和湖北方言。
本發(fā)明實施例還提供了一種語音識別設(shè)備,如圖3所示,包括:
提示單元301,用于提示輸入語音;
采集單元302,用于提示輸入語音后,采集語音數(shù)據(jù);
識別單元303,用于使用至少一種識別算法獲得至少兩種識別結(jié)果;
輸出單元304,用于輸出上述至少兩種識別結(jié)果;
算法確認單元305,用于獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法作為上述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
在本實施例中,通過提示用戶輸入語音后,采集用戶輸入的語音數(shù)據(jù),然后采用一種或者多種算法得到了兩種以上的識別結(jié)果,然后通過用戶確認的更為準確的識別結(jié)果可以確定哪一種算法更好;該方案極為適合例如手機等較為私人或者口音類似的用戶使用,可以在保證識別速度的前提下,提高非標準語音的識別的準確率。
在一個可能的實現(xiàn)方式中,上述提示單元301,用于提示輸入語音包括:以語音的方式提示用戶以用戶習(xí)慣的說話方式說話。
在一個可能的實現(xiàn)方式中,上述輸出單元304,用于輸出上述至少兩種識別結(jié)果包括:以標準語音的方式輸出上述至少兩種識別結(jié)果。
在一個可能的實現(xiàn)方式中,上述算法確認單元305,用于確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法包括:
首先確定上述相對準確的識別結(jié)果對應(yīng)的語言類型以及方言類型;
將確定的語言類型以及方言類型對應(yīng)的識別算法作為上述相對準確的識別結(jié)果所對應(yīng)的識別算法。
在一個可能的實現(xiàn)方式中,上述識別單元303,用于使用至少一種識別算法獲得至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;
或者,按照上述終端設(shè)備所使用的語言類型,使用上述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在一個可能的實現(xiàn)方式中,上述識別單元303,用于使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所使用的語言類型以及上述終端設(shè)備所處的地理位置,依據(jù)上述語言類型及方言區(qū)域確定最可能的至少兩種標準語音庫,使用上述至少兩種語音庫對應(yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果。
本發(fā)明實施例還提供了一種語音識別設(shè)備,該語音識別設(shè)備可以是終端設(shè)備,如圖4所示,在采用集成的單元的情況下,圖4示出了上述實施例中所涉及的終端設(shè)備的一種可能的功能單元組成框圖。終端設(shè)備400包括:處理單元402和輸入輸出單元403。處理單元402用于對終端設(shè)備的動作進行控制管理,例如,處理單元402用于支持終端設(shè)備執(zhí)行圖1中的步驟101-102或用于本文所描述的技術(shù)的其它過程。輸入輸出單元403用于支持數(shù)據(jù)輸入和輸出。終端設(shè)備還可以包括存儲單元401,用于存儲終端設(shè)備的程序代碼和數(shù)據(jù)。
其中,處理單元402可以是處理器或控制器,例如可以是中央處理器(centralprocessingunit,cpu),通用處理器,數(shù)字信號處理器(digitalsignalprocessor,dsp),專用集成電路(application-specificintegratedcircuit,asic),現(xiàn)場可編程門陣列(fieldprogrammablegatearray,fpga)或者其他可編程邏輯器件、晶體管邏輯器件、硬件部件或者其任意組合。其可以實現(xiàn)或執(zhí)行結(jié)合本發(fā)明公開內(nèi)容所描述的各種示例性的邏輯方框,模塊和電路。上述處理器也可以是實現(xiàn)計算功能的組合,例如包含一個或多個微處理器組合,dsp和微處理器的組合等等。輸入輸出單元403可以話筒、聽筒、喇叭等,存儲單元401可以是存儲器。
其中,上述處理單元402,用于控制上述輸入輸出單元403提示輸入語音后,采集語音數(shù)據(jù);使用至少一種識別算法獲得至少兩種識別結(jié)果,輸出上述至少兩種識別結(jié)果;獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法作為上述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
在一個可能的實現(xiàn)方式中,上述處理單元401,用于使用至少一種識別算法獲得至少兩種識別結(jié)果包括:按照上述終端設(shè)備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;或者,按照上述終端設(shè)備所使用的語言類型,使用上述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
前述處理器401還可以執(zhí)行前述方法步驟中的其他流程,在此不再贅述。
請參閱圖5,圖5是本發(fā)明實施例提供的一種終端設(shè)備的結(jié)構(gòu)示意圖,如圖所示,該終端設(shè)備包括一個或多個處理器、存儲器、通信接口以及一個或多個程序,其中,上述一個或多個程序被存儲在上述存儲器中,并且被配置由上述一個或多個處理器執(zhí)行,上述程序包括用于執(zhí)行以下步驟的指令;
提示輸入語音后,采集語音數(shù)據(jù);使用至少一種識別算法獲得至少兩種識別結(jié)果,輸出上述至少兩種識別結(jié)果;獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果,確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法作為上述終端設(shè)備后續(xù)進行語音識別使用的識別算法。
終端設(shè)備提示輸入語音的應(yīng)用場景,可以是在終端設(shè)備首次使用自動提示輸入語音;也可以是多次語音識別錯誤,或者多次語音識別不準確的情況下,用戶啟動本發(fā)明實施例的流程后提示輸入語音。
一種識別算法會得出多個識別結(jié)果,這多個識別結(jié)果按照概率論,有些可能性比較大,有些可能性相對小一些;但是可能性相對小一些的情況,并不見得是不準確的,因為存在識別不準確的情況。
對于不同的方言或者不同類型的語言,可以有不同的識別算法;對同一種語言也可能有多種識別算法;因此本實施例可以使用多種識別算法進行嘗試,來確定幾個可能性比較大的識別結(jié)果。
本實施例中,獲得上述至少兩種識別結(jié)果中相對準確的識別結(jié)果的方式,可以是用戶選擇的方式實現(xiàn),即:用戶選擇其中一個識別結(jié)果作為相對準確識別結(jié)果。
對于不同的識別結(jié)果,終端設(shè)備可以預(yù)先確定一個識別結(jié)果對應(yīng)到一種優(yōu)選的識別算法。本步驟最終確定后續(xù)續(xù)語音識別使用的識別算法,由于本步驟確定了一個特定的識別算法,對于手機這類設(shè)備而言,具有私人屬性;也就是說,這個終端設(shè)備通常來說是同一個人使用的,使用一個特定的識別算法就可以了,不必使用過多的其他算法或者語音庫來識別語音,因此識別速度和識別準確率均可以很高。
基于前文說明,本發(fā)明實施例中,通過提示用戶輸入語音后,采集用戶輸入的語音數(shù)據(jù),然后采用一種或者多種算法得到了兩種以上的識別結(jié)果,然后通過用戶確認的更為準確的識別結(jié)果可以確定哪一種算法更好;該方案極為適合例如手機等較為私人或者口音類似的用戶使用,可以在保證識別速度的前提下,提高非標準語音的識別的準確率。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了一個更為具體的應(yīng)用例,如下:上述終端設(shè)備提示輸入語音包括:以語音的方式提示用戶以用戶習(xí)慣的說話方式說話。
基于此,在本實施例中,可以使用終端設(shè)備所在地的標準語音,比如:在中國使用標準普通話,提示用戶以用戶習(xí)慣的說話方式說話。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了一個更為具體的應(yīng)用例,上述輸出上述至少兩種識別結(jié)果包括:
以標準語音的方式輸出上述至少兩種識別結(jié)果。
可以理解的是,本實施例中,以標準語音的方式輸出識別結(jié)果以后,還可以發(fā)出詢問提示,在上述詢問提示中詢問:翻譯是否準確;如果本次詢問提示不是第一次詢問提示,可以進一步詢問這個翻譯比前一個翻譯結(jié)果是否更準確。
上述是否準確的詢問可以是具體詢問:這次翻譯的對不對?類似這樣口語化的語音提示。
在一個可能的實現(xiàn)方式中,為了更為快速的確定識別算法,本發(fā)明實施例還提供了如下解決方案:上述確定上述相對準確的識別結(jié)果所對應(yīng)的識別算法包括:
首先確定上述相對準確的識別結(jié)果對應(yīng)的語言類型以及方言類型;
將確定的語言類型以及方言類型對應(yīng)的識別算法作為上述相對準確的識別結(jié)果所對應(yīng)的識別算法。
由于對于不同的方言會建立不同的語音數(shù)據(jù)庫,或者說是該方案類型對應(yīng)的標準語音數(shù)據(jù)庫,用于識別語音的比對。因此先確定方言類型,可以提高算法的準確性。
在一個可能的實現(xiàn)方式中,如果首先確定了可能是什么方言,那么可以提高識別準確性,從而提高提供給用戶選擇的語音的準確性,具體如下:上述使用至少一種識別算法獲得至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所處的地理位置,使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果;
或者,按照上述終端設(shè)備所使用的語言類型,使用上述語言類型對應(yīng)的至少兩種識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在本實施例中,前者可以僅使用一種識別算法,后者可以使用多種識別算法;其中,前者結(jié)合終端設(shè)備的地理位置,可以大概率的確定用戶可能的方言類型;后者,則可以確定用戶使用的語言類型,此時并不清楚方言類型,因此可以嘗試多種識別算法。
在一個可能的實現(xiàn)方式中,本發(fā)明實施例還提供了結(jié)合方言類型以及語言類型的實現(xiàn)方案,可以作為一個優(yōu)選的實現(xiàn)方案,具體如下:上述使用與上述地理位置所屬的方言區(qū)域?qū)?yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果包括:
按照上述終端設(shè)備所使用的語言類型以及上述終端設(shè)備所處的地理位置,依據(jù)上述語言類型及方言區(qū)域確定最可能的至少兩種標準語音庫,使用上述至少兩種語音庫對應(yīng)的識別算法,獲得可能性最大的至少兩種識別結(jié)果。
在本實施例中,根據(jù)終端設(shè)備使用的語言類型,可以確定用戶使用哪一種語言類型;例如:終端設(shè)備使用的是簡體中文,那么語言類型可以是漢語;終端設(shè)備使用的是繁體中文,那么語言類型將會是漢語,更具體地可以確定是漢語中的粵語或者閩南語等;終端設(shè)備使用的是英語,那么可以確定語言類型是英語;結(jié)合地理位置,例如:終端設(shè)備使用的是簡體中文,地理位置為湖北;那么大概率是漢語和湖北方言。
本發(fā)明實施例還提供了另一種終端設(shè)備,如圖6所示,為了便于說明,僅示出了與本發(fā)明實施例相關(guān)的部分,具體技術(shù)細節(jié)未揭示的,請參照本發(fā)明實施例方法部分。該終端設(shè)備可以為包括手機、平板電腦、pda(personaldigitalassistant,個人數(shù)字助理)、pos(pointofsales,銷售終端)、車載電腦等任意終端設(shè)備,以終端設(shè)備為手機為例:
圖6示出的是與本發(fā)明實施例提供的終端設(shè)備相關(guān)的手機的部分結(jié)構(gòu)的框圖。參考圖6,手機包括:射頻(radiofrequency,rf)電路910、存儲器920、輸入單元930、顯示單元940、傳感器950、音頻電路960、無線保真(wirelessfidelity,wifi)模塊970、處理器980、以及電源990等部件。本領(lǐng)域技術(shù)人員可以理解,圖6中示出的手機結(jié)構(gòu)并不構(gòu)成對手機的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。
下面結(jié)合圖6對手機的各個構(gòu)成部件進行具體的介紹:
rf電路910可用于信息的接收和發(fā)送。通常,rf電路910包括但不限于天線、至少一個放大器、收發(fā)信機、耦合器、低噪聲放大器(lownoiseamplifier,lna)、雙工器等。此外,rf電路910還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。上述無線通信可以使用任一通信標準或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(globalsystemofmobilecommunication,gsm)、通用分組無線服務(wù)(generalpacketradioservice,gprs)、碼分多址(codedivisionmultipleaccess,cdma)、寬帶碼分多址(widebandcodedivisionmultipleaccess,wcdma)、長期演進(longtermevolution,lte)、電子郵件、短消息服務(wù)(shortmessagingservice,sms)等。
存儲器920可用于存儲軟件程序以及模塊,處理器980通過運行存儲在存儲器920的軟件程序以及模塊,從而執(zhí)行手機的各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器920可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)手機的使用所創(chuàng)建的數(shù)據(jù)(比如應(yīng)用的使用參數(shù)等)等。此外,存儲器920可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。
輸入單元930可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與手機的用戶設(shè)置以及功能控制有關(guān)的鍵信號輸入。具體地,輸入單元930可包括指紋傳感器931以及其他輸入設(shè)備932。指紋傳感器931,可采集用戶在其上的指紋數(shù)據(jù)。除了指紋傳感器931,輸入單元930還可以包括其他輸入設(shè)備932。具體地,其他輸入設(shè)備932可以包括但不限于觸控屏、物理按鍵、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。
顯示單元940可用于顯示由用戶輸入的信息或提供給用戶的信息以及手機的各種菜單。顯示單元940可包括顯示屏941,可選的,可以采用液晶顯示器(liquidcrystaldisplay,lcd)、有機發(fā)光二極管(organiclight-emittingdiode,oled)等形式來配置顯示屏941。雖然在圖6中,指紋傳感器931與顯示屏941是作為兩個獨立的部件來實現(xiàn)手機的輸入和輸入功能,但是在某些實施例中,可以將指紋傳感器931與顯示屏941集成而實現(xiàn)手機的輸入和播放功能。
手機還可包括至少一種傳感器950,比如光傳感器、運動傳感器以及其他傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調(diào)節(jié)顯示屏941的亮度,接近傳感器可在手機移動到耳邊時,關(guān)閉顯示屏941和/或背光。作為運動傳感器的一種,加速計傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應(yīng)用(比如橫豎屏切換、相關(guān)游戲、磁力計姿態(tài)校準)、振動識別相關(guān)功能(比如計步器、敲擊)等;至于手機還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器,在此不再贅述。
音頻電路960、揚聲器961,傳聲器962可提供用戶與手機之間的音頻接口。音頻電路960可將接收到的音頻數(shù)據(jù)轉(zhuǎn)換后的電信號,傳輸?shù)綋P聲器961,由揚聲器961轉(zhuǎn)換為聲音信號播放;另一方面,傳聲器962將收集的聲音信號轉(zhuǎn)換為電信號,由音頻電路960接收后轉(zhuǎn)換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)播放處理器980處理后,經(jīng)rf電路910以發(fā)送給比如另一手機,或者將音頻數(shù)據(jù)播放至存儲器920以便進一步處理。
wifi屬于短距離無線傳輸技術(shù),手機通過wifi模塊970可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖6示出了wifi模塊970,但是可以理解的是,其并不屬于手機的必須構(gòu)成,完全可以根據(jù)需要在不改變發(fā)明的本質(zhì)的范圍內(nèi)而省略。
處理器980是手機的控制中心,利用各種接口和線路連接整個手機的各個部分,通過運行或執(zhí)行存儲在存儲器920內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器920內(nèi)的數(shù)據(jù),執(zhí)行手機的各種功能和處理數(shù)據(jù),從而對手機進行整體監(jiān)控??蛇x的,處理器980可包括一個或多個處理單元;優(yōu)選的,處理器980可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信??梢岳斫獾氖牵鲜稣{(diào)制解調(diào)處理器也可以不集成到處理器980中。
手機還包括給各個部件供電的電源990(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器980邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。
盡管未示出,手機還可以包括攝像頭、藍牙模塊等,在此不再贅述。
前述圖1所示的實施例中,各步驟方法流程可以基于該手機的結(jié)構(gòu)實現(xiàn)。
前述圖3~4所示的實施例中,各單元功能可以基于該手機的結(jié)構(gòu)實現(xiàn)。
本發(fā)明實施例還提供一種計算機存儲介質(zhì),其中,該計算機存儲介質(zhì)存儲用于電子數(shù)據(jù)交換的計算機程序,該計算機程序使得計算機執(zhí)行如上述方法實施例中記載的任一方法的部分或全部步驟,上述計算機包括終端設(shè)備。
本發(fā)明實施例還提供一種計算機程序產(chǎn)品,上述計算機程序產(chǎn)品包括存儲了計算機程序的非瞬時性計算機可讀存儲介質(zhì),上述計算機程序可操作來使計算機執(zhí)行如上述方法實施例中記載的任一方法的部分或全部步驟。該計算機程序產(chǎn)品可以為一個軟件安裝包,上述計算機包括終端設(shè)備。
需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。
在本申請所提供的幾個實施例中,應(yīng)該理解到,所揭露的裝置,可通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如上述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性或其它的形式。
上述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
上述集成的單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲器中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品存儲在一個存儲器中,包括若干指令用以使得一臺計算機設(shè)備(可為個人計算機、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例上述方法的全部或部分步驟。而前述的存儲器包括:u盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、移動硬盤、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲器中,存儲器可以包括:閃存盤、只讀存儲器(英文:read-onlymemory,簡稱:rom)、隨機存取器(英文:randomaccessmemory,簡稱:ram)、磁盤或光盤等。
以上對本發(fā)明實施例進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上上述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。