電子裝置及利用電子裝置和服務(wù)器的語音識別執(zhí)行方法

文檔序號：9261968閱讀：241來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學設(shè)備的制造及制作,分析技術(shù)

電子裝置及利用電子裝置和服務(wù)器的語音識別執(zhí)行方法【
技術(shù)領(lǐng)域：
】[0001]本發(fā)明的多種實施例涉及一種利用裝載于電子裝置的語音識別模型和可在服務(wù)器中利用的語音識別模型來識別用戶的語音輸入并執(zhí)行語音命令的技術(shù)?！?br>背景技術(shù)：
】[0002]除利用鍵盤或鼠標的傳統(tǒng)輸入方式之外，最近的電子裝置還可支持利用用戶的語音(speech)的輸入方式。例如，諸如智能手機或平板電腦的電子裝置可對在特定功能(例如，S-Voice或Siri等)被執(zhí)行的狀態(tài)下輸入的用戶的語音進行分析而將該語音變換為文本，或者可執(zhí)行對應(yīng)于語音的操作。此外，一些電子裝置中語音識別功能一直被激活(always-on)，因此隨時可根據(jù)用戶的語音而被喚醒(awake)、解除鎖定(unlocked)、或者可執(zhí)行諸如互聯(lián)網(wǎng)檢索、通話或SMS/E-mail閱讀的功能?！?br/>發(fā)明內(nèi)容】[0003]雖然已知與語音識別相關(guān)聯(lián)的多樣的研宄和技術(shù)，但是在電子裝置中執(zhí)行語音識別的方法只能是局限性的。例如，電子裝置為了實現(xiàn)針對語音輸入的迅速的響應(yīng)而可以利用自行裝載于電子裝置的語音識別模型。然而，電子裝置的存儲空間和處理能力有限，由此導(dǎo)致可識別的語音輸入的數(shù)量或種類也有限。[0004]為了針對語音輸入而獲得較為準確且確切的結(jié)果，電子裝置可將語音輸入傳送給服務(wù)器而請求語音識別，并提供從服務(wù)器回復(fù)的結(jié)果，或者可基于回復(fù)的結(jié)果而執(zhí)行特定操作。然而，這一方法增加電子裝置的通信使用量，并帶來相對較慢的響應(yīng)速度。[0005]本說明書中公開的多樣的實施例可提供一種語音識別執(zhí)行方法，其利用兩種以上的互不相同的語音識別能力或語音識別模型，來改善在前述的各種情況下可能發(fā)生的低效率，并且可以給用戶提供快的響應(yīng)速度和高的準確性。[0006]根據(jù)本發(fā)明的多樣的實施例的一種電子裝置，可包括:處理器，利用存儲于存儲器中的語音識別模型而執(zhí)行針對語音輸入的自動語音識別(ASR；automaticspeechrecognit1n);以及通信模塊，將所述語音輸入提供給服務(wù)器，并從所述服務(wù)器接收對應(yīng)于所述語音輸入的語音命令。其中，所述處理器(I)在所述自動語音識別的執(zhí)行結(jié)果的可信度為第一臨界值以上的情況下可執(zhí)行對應(yīng)于所述自動語音識別的執(zhí)行結(jié)果的操作，(2)在所述自動語音識別的執(zhí)行結(jié)果的可信度小于第二臨界值的情況下可提供針對所述可信度的反饋。[0007]根據(jù)本發(fā)明的多樣的實施例，利用自行裝載于電子裝置的語音識別模型而執(zhí)行語音識別，并基于其語音識別結(jié)果而補充利用通過服務(wù)器的語音識別結(jié)果，從而可以提供具有快的響應(yīng)速度和高的準確性的語音識別功能。[0008]此外，可將利用電子裝置和服務(wù)器的語音識別結(jié)果進行比較，并基于比較結(jié)果而在語音識別模型或語音識別算法中予以反映。據(jù)此，準確率和響應(yīng)速度可隨著語音識別的反復(fù)執(zhí)行而越來越持續(xù)地得到改善?！靖綀D說明】[0009]圖1表示根據(jù)本發(fā)明的一個實施例的電子裝置以及通過網(wǎng)絡(luò)與電子裝置連接的服務(wù)器。[0010]圖2表示根據(jù)本發(fā)明的另一實施例的電子裝置和服務(wù)器。[0011]圖3表示根據(jù)本發(fā)明的一個實施例的語音識別執(zhí)行方法的流程圖。[0012]圖4表示根據(jù)本發(fā)明的另一實施例的語音識別執(zhí)行方法的流程圖。[0013]圖5表示根據(jù)本發(fā)明的一個實施例的更新臨界值的方法的流程圖。[0014]圖6表示根據(jù)本發(fā)明的一個實施例的更新語音識別模型的方法的流程圖。[0015]圖7表示根據(jù)本發(fā)明的一個實施例的網(wǎng)絡(luò)環(huán)境內(nèi)的電子裝置。[0016]圖8表示根據(jù)本發(fā)明的一個實施例的電子裝置的框圖?！揪唧w實施方式】[0017]以下，參考附圖記載本發(fā)明的多樣的實施例。然而，這不是為了將本發(fā)明限定在特定的實施方式，應(yīng)該理解為本發(fā)明包括對實施例進行的多樣的變更、均等物和/或替代物。關(guān)于對附圖的說明，對類似的構(gòu)成要素可使用類似的附圖標記。[0018]在本說明書中，“具有”、“可具有”、“包括”或“可包括”等表述用于表示相關(guān)特征(例如，數(shù)值、功能、操作或部件等構(gòu)成要素)的存在，其并不排除附加性的特征的存在。[0019]在本說明書中，“A或B”、“A和/或B中的至少一個”或“A和/或B中的一個或一個以上”等表述可包括一并羅列的項目的所有可能的組合。例如，“A或B”、“A和B中的至少一個”或“A或B中的至少一個”可以指:(1)包括至少一個A的情形；(2)包括至少一個B的情形；或(3)將至少一個A和至少一個B都包括的情形。[0020]在多樣的實施例中使用的“第一”、“第二”、“首先”或“其次”等表述可以與順序和/或重要程度無關(guān)地修飾多樣的構(gòu)成要素，且并不限定相關(guān)構(gòu)成要素。例如，第一用戶設(shè)備和第二用戶設(shè)備可以與順序或重要程度無關(guān)地表示互不相同的用戶設(shè)備。例如，在不脫離本發(fā)明的權(quán)利范圍的前提下，第一構(gòu)成要素可命名為第二構(gòu)成要素，類似地，第二構(gòu)成要素也可以更名為第一構(gòu)成要素。[0021]當提到某一構(gòu)成要素(例如，第一構(gòu)成要素)(以功能方式或通信方式)連接到((operativelyorcommunicatively)coupledwith/to)或接入到(connectedto)另一構(gòu)成要素(例如，第二構(gòu)成要素)時，應(yīng)理解為所述某一構(gòu)成要素直接連接到所述另一構(gòu)成要素，或者通過其他構(gòu)成要素(例如，第三構(gòu)成要素)連接到所述另一構(gòu)成要素。相反，當提到某一構(gòu)成要素(例如，第一構(gòu)成要素)“直接連接到”或“直接接入到”另一構(gòu)成要素(例如，第二構(gòu)成要素)時，可理解為所述某一構(gòu)成要素與所述另一構(gòu)成要素之間并不存在其他構(gòu)成要素(例如，第三構(gòu)成要素)。[0022]本說明書中使用的“構(gòu)成為(或設(shè)置為)(configuredto)...”這一表述可根據(jù)情況與例如“適合于(suitablefor)...”、“具備…能力的(havingthecapacityto)，，、“設(shè)計為(designedto)...”、“變更為(adaptedto)...”、“制造為(madeto)...”或“能夠(capableof)...”等互換使用?！皹?gòu)成為(或設(shè)置為)”這一術(shù)語并不局限于表示以硬件方式“特別設(shè)計(specificallydesignedto)”。在某些情況下，“構(gòu)成為…的裝置”這一表述可以表示該裝置能夠與其他裝置或部件一起構(gòu)成。例如，句子“構(gòu)成(或設(shè)置)為執(zhí)行A、B和C的處理器”可表示用于執(zhí)行相關(guān)操作的專用處理器(例如，嵌入式處理器)或通用處理器(generic-purposeprocessor)(例如，CPU或應(yīng)用處理器(applicat1nprocessor)),其中所述通用處理器可通過執(zhí)行存儲于存儲器裝置的一個以上的軟件程序而執(zhí)行相關(guān)操作。[0023]本說明書中使用的術(shù)語只是用于說明特定的實施例，并非旨在限定其他實施例的范圍。只要在文脈上并不表示明確不同的含義，則單數(shù)的表述也可以包含復(fù)數(shù)的表述。包括技術(shù)或科學方面的術(shù)語在內(nèi)，這里使用的所有術(shù)語可具有與本發(fā)明所屬的
技術(shù)領(lǐng)域：
中具有普通知識的人員通常理解的含義相同的含義。通常使用的定義于詞典中的術(shù)語可被解釋為具有與相關(guān)技術(shù)在文脈上具有的含義相同或者類似的含義，只要沒有在本說明書中明確定義，就不會被解釋為理想化或者過于形式化的含義。根據(jù)情況，即使是本說明書中定義的術(shù)語，也不能被解釋為排除本發(fā)明的實施例。[0024]尤其，在一些實施例中，大于關(guān)系(“>”)可互換為大于等于關(guān)系(“彡”)。[0025]以下，參考附圖而說明根據(jù)多樣的實施例的電子裝置。在本說明書中，用戶可以指使用電子裝置的人或使用電子裝置的設(shè)備(例如，人工智能電子設(shè)備)。[0026]圖1表示根據(jù)本發(fā)明的一個實施例的電子裝置以及通過網(wǎng)絡(luò)與電子裝置連接的服務(wù)器。[0027]參考圖1，電子裝置可包括諸如用戶終端100的構(gòu)成要素。例如，用戶終端100可包括麥克風110、控制器120、自動語音識別(ASR;automaticspeechrecognit1n)模塊130、自動語音識別模型140、收發(fā)器150、揚聲器170以及顯示器180。圖1所示的用戶終端100的構(gòu)成為示例性的，可變形為能夠?qū)崿F(xiàn)本說明書中公開的多種實施例的多樣的形態(tài)。例如，電子裝置可包括:諸如圖2所示的用戶終端101、圖7所示的電子裝置701、圖8所示的電子裝置801的構(gòu)成要素，或者可以利用這些構(gòu)成要素而適當?shù)刈冃浴Ｒ韵?，以用戶終端100為基準而說明本發(fā)明的多樣的實施例。[0028]用戶終端100可通過麥克風110而從用戶處獲取語音輸入。例如，在用戶執(zhí)行與語音識別相關(guān)聯(lián)的應(yīng)用或者語音識別一直處于激活狀態(tài)的情況下，用戶的講話(speech)可通過麥克風110而被獲取。麥克風110可包括用于將模擬信號變換為數(shù)字信號的模數(shù)轉(zhuǎn)換器(ADC；Analog-DigitalConvertor)。然而，在一些實施例中，控制器120可包括模數(shù)轉(zhuǎn)換器、數(shù)模轉(zhuǎn)換器(DAC;Digital-AnalogConvertor)以及多樣的信號處理電路或預(yù)處理(pre-processing)電路。[0029]控制器120可將通過麥克風110獲取的語音輸入或者基于語音輸入而生成的音頻信號(或語音信號)提供給自動語音識別模塊130和收發(fā)器150。由控制器120提供給自動語音識別模塊130的音頻信號可以是為了語音識別而經(jīng)過預(yù)處理的信號。例如，所述音頻信號可以是噪聲過濾(noisefiltering)信號或應(yīng)用適于人類的語音的均衡器(equalizer)的信號。相反，由控制器120提供給收發(fā)器150的信號卻可以是語音輸入本身。不同于向自動語音識別模塊130傳送的信號，控制器120向接收器150傳送原聲數(shù)據(jù)，從而可以借助于服務(wù)器200而實現(xiàn)更恰當或者性能更優(yōu)的音頻信號處理。[0030]控制器120可控制用戶終端100的一般操作。例如，控制器120控制來自用戶的語音輸入，并控制語音識別操作，且可以控制基于語音識別的功能的執(zhí)行。[0031]自動語音識別模塊130可對由控制器120提供的音頻信號執(zhí)行語音識別。自動語音識別模塊130可對語音輸入(音頻信號)執(zhí)行孤立詞識別(isolatedwordrecognit1n)、連接詞語音識另Ij(connectedwordrecognit1n)、大容量詞匯識別(largevocabularyrecognit1n)等。由自動語音識別模塊130執(zhí)行的自動語音識別可以是以說者無關(guān)(speaker-1ndependent)方式實現(xiàn)，或者也可以是以說者相依(speaker-dependent)方式實現(xiàn)。自動語音識別模塊130無需非得由一個語音識別引擎構(gòu)成，也可以由兩個以上的語音識別引擎構(gòu)成。此外，當自動語音識別模塊130包括多個語音識別引擎時，各個語音識別引擎的識別目的可不同。例如，一個語音識別引擎可識別用于激活自動語音識別功能的講話(wakeupspeech)，例如可以識別“Hi，Galaxy(喂，蓋世)”，而另一個當前第1頁1 2 3 4 5

完整全部詳細技術(shù)資料下載

當前第1頁1 2 3 4 5