用于在電子裝置中執(zhí)行語音命令的方法和設備與流程

文檔序號：12274060閱讀：203來源：國知局

技術領域

本公開總體涉及一種電子裝置。更具體地講，本公開涉及一種用于在電子裝置中執(zhí)行語音命令的設備和方法。

背景技術：

近來，隨著多媒體技術已發(fā)展，具有多功能的電子裝置已激增。這樣的多功能裝置的示例包括便攜式終端(例如，智能電話、平板PC、智能相機)以及固定的基于家庭的裝置(例如，與家用廚房電器集成的電子裝置)。電子裝置大多包括組合多個功能的匯聚功能。

便攜式終端設計者努力實現(xiàn)先進的性能以及匯聚功能，以及裝置的纖薄和審美設計作為一體。終端制造者競爭來呈現(xiàn)大致相同或先進的性能，并設計比先前的設計更小和更薄的新的模型。

在可用的各種功能中，最近商業(yè)化的裝置提供相對高的精確度的語音識別功能。這樣的語音識別功能精確地識別用戶的語音以在沒有按壓分離的按鈕或觸摸鍵或觸摸屏的情況下容易地執(zhí)行裝置的相應功能。

例如，語音識別功能允許用戶在便攜式終端(例如，智能電話)中無需單獨的操縱而做出呼叫或編寫文本消息，以發(fā)送產生的消息，并容易地設置各種功能(例如，路線規(guī)劃、互聯(lián)網(wǎng)搜索和鬧鈴)。

為了執(zhí)行語音識別功能，現(xiàn)有技術驅動相應的語音識別應用，激活語音識別功能，隨后執(zhí)行相應的功能。

然而，為了執(zhí)行語音識別，響應于分離的鍵或觸摸屏上的觸摸輸入命令，語音識別應用被初始啟動。此操作違背用于促進數(shù)據(jù)輸入(而沒有觸摸)的語音識別的獨特功能。另外，開始語音識別應用需要在包括各種應用對象的顯示屏上找出語音識別應用，這在特定情況下可能會困難并且費時。

技術實現(xiàn)要素：

公開了一種用于在一種電子裝置中執(zhí)行語音命令的設備和方法的實施例。在示例性實施例中，檢測語音信號并識別語音信號的言語。當識別的言語包含喚醒命令時，激活語音命令模式，并且至少包含檢測到的語音信號的一部分的信號被發(fā)送到服務器。服務器產生與語音命令相應的控制信號或結果信號，并將所述與語音命令相應的控制信號或結果信號發(fā)送回電子裝置。電子裝置接收并處理控制信號或結果信號，并被喚醒。從而，在不需要用戶物理地觸摸電子裝置的情況下執(zhí)行語音命令。

在各種實施例中：

語音信號可包括喚醒命令，其中，喚醒命令緊接著語音命令。

喚醒命令還可包括語音命令。

可在在喚醒命令和語音命令之間確定沉默持續(xù)時間。

處理控制信號或結果信號的步驟可包括執(zhí)行電子裝置的特定應用。

處理控制信號或結果信號的步驟可包括顯示與所述結果信號相應的數(shù)據(jù)。

一旦激活語音命令模式，就可在指示語音命令模式被激活的顯示器上激活對象。

當在言語中的喚醒命令被識別之前屏幕被鎖定時，可響應于識別的喚醒命令對屏幕進行解鎖。

只要語音信號的預定說話者被識別，言語可被識別為包含預定喚醒命令。當預定說話者的語音被識別時，可自動檢測喚醒命令。

可選擇地，當識別預定說話者的語音并且在預定說話者的言語之內識別預定喚醒命令時，可檢測到喚醒命令。在另一實施例中，一種用于在電子裝置中執(zhí)行語音命令的方法，包括：檢測包含喚醒命令和語音命令中的至少一個的語音信號；將所述語音信號發(fā)送到服務器；在接收指示服務器檢測到語音信號中的喚醒命令的結果信號時，喚醒電子裝置；從服務器接收與語音命令相應的控制信號或結果信號；處理所述與語音命令相應的控制信號或結果信號。

在實施例中，一種可在用于支持電子裝置的語音命令的服務器中進行操作的方法，包括：從電子裝置接收至少包含語音命令的發(fā)送的語音信號；通過識別和分析所述語音命令來產生與所述語音命令相應的控制信號或結果信號；將與第一語音命令相應的控制信號或結果信號發(fā)送到電子裝置。

在實施例中，一種電子裝置包括：一個或多個處理器；存儲器；存儲在存儲器中并被配置為被一個或多個處理器執(zhí)行的一個或多個程序，其中，所述程序包括用于檢測語音信號并識別語音信號的言語的指令；當所述言語被識別為包含喚醒命令時，激活語音命令模式并將至少包含檢測到的語音信號的部分的發(fā)送信號發(fā)送到服務器；響應于由服務器識別的發(fā)送信號之內的語音命令，接收并處理由服務器產生和發(fā)送的控制信號或結果信號。

根據(jù)本發(fā)明的另一方面，通過下面結合附圖公開本發(fā)明的示例性實施例的詳細描述，本發(fā)明的其他方面、優(yōu)點和突出特點對本領域的技術人員會變得清楚。

附圖說明

從以下結合附圖進行的描述，本發(fā)明的特定示例性實施例的上述和其它方面、特點和優(yōu)點將會變得更加清楚，其中：

圖1A是根據(jù)本發(fā)明的示例性實施例的用于執(zhí)行語音命令的電子裝置的框圖；

圖1B是根據(jù)實施例的用于執(zhí)行語音命令的系統(tǒng)的示圖；

圖2是根據(jù)本發(fā)明的一個示例性實施例的用于在電子裝置中執(zhí)行喚醒命令和語音命令的方法的流程圖；

圖3是根據(jù)本發(fā)明的一個示例性實施例的可在服務器中進行操作的方法的流程圖；

圖4是根據(jù)本發(fā)明的另一示例性實施例的用于在電子裝置中執(zhí)行語音命令的方法的流程圖；

圖5是根據(jù)本發(fā)明的另一示例性實施例的可在服務器中進行操作的另一方法的流程圖；

圖6是根據(jù)本發(fā)明的另一示例性實施例的用于在電子裝置中執(zhí)行語音命令的方法的流程圖；

圖7示出根據(jù)本發(fā)明的實施例的包括可檢測到和識別的喚醒命令和語音命令的語音信號；

圖8A、圖8B和圖8C示出根據(jù)本發(fā)明的示例性實施例的基于包括喚醒命令和語音命令的語音信號的撥號；

圖9A和圖9B描繪根據(jù)本發(fā)明的示例性實施例的用于示出通過喚醒命令檢測解鎖的屏幕的屏幕截圖。

貫穿附圖，相同的標號將被理解為指示相同的部件、組件和結構。

具體實施方式

提供以下參照附圖進行的描述以幫助全面理解由權利要求及其等同物限定的本發(fā)明的示例性實施例。所述描述包括各種特定細節(jié)來幫助理解，但是這些細節(jié)將被認為僅僅是示例性的。因此，本領域的普通技術人員將認識到，在不脫離本發(fā)明的范圍和精神的情況下，可對在此描述的實施例進行各種改變和修改。另外，為了清楚和簡明，可省略對公知功能和構造的描述。

以下描述和權利要求中使用的術語和詞語不限于書面含義，而是僅被發(fā)明人使用以使得能夠清楚和一致地理解本發(fā)明。因此，本領域的技術人員應清楚，提供下面對本發(fā)明的示例性實施例的描述僅是為了說明目的，而不是為了限制由所附權利要求及其等同物限定的本發(fā)明的目的。

應該理解，除非上下文清楚地另有指示，否則單數(shù)形式包括復數(shù)指示物。因此，例如，提到“組件表面”包括提到一個或多個這樣的表面。

對于術語“大體上”，它意味著敘述的特征、參數(shù)或值不需要精確達到，而是，包括例如公差、測量誤差、測量精度限制和對本領域技術人員已知的其他因素的偏差或變化可以以不妨礙所述特征意圖提供的效果的量而發(fā)生。

本發(fā)明的示例性實施例提供一種用于在電子裝置和服務器中執(zhí)行語音命令的設備和方法。

圖1A描繪根據(jù)本發(fā)明的示例性實施例的用于執(zhí)行語音命令的電子裝置100。電子裝置100可以是各種固定或便攜式裝置中的任意一個。便攜式裝置可以是便攜式終端、移動終端、移動平板電腦、移動播放器、平板計算機、智能電話、筆記本/臺式計算機、個人數(shù)字助理(PDA)、智能相機等。電子裝置可以是組合這些裝置的兩個或多個功能的便攜式電子裝置。固定電子裝置的示例是連接到家用電器(例如，廚房電器)的電子顯示裝置。

電子裝置100可包括控制器110、揚聲器/麥克風112、相機120、全球定位系統(tǒng)(GPS)接收器130、射頻(RF)單元140、傳感器模塊150、觸摸屏160、觸摸屏控制器165和外部存儲器170。

簡單地說，根據(jù)本發(fā)明的實施例，裝置100檢測語音信號并識別言語。當所述言語被識別為包含喚醒命令時，裝置100激活語音命令模式。在語音命令模式下，裝置100能夠響應于隨后的語音命令。因此，如果裝置處于鎖屏狀態(tài)或空閑狀態(tài)(或條件允許的情況下處于這兩種狀態(tài))，則裝置100可通過喚醒命令識別被喚醒，而不需要用戶物理地觸摸裝置100上的鍵或觸摸屏。一旦檢測到喚醒命令，就執(zhí)行言語識別處理以辨別是否已發(fā)出語音命令。如果識別出語音命令，則裝置100可隨后執(zhí)行與所述命令相關的操作。

在一個實施例中，在裝置100中執(zhí)行喚醒命令檢測和語音命令檢測兩者。在另一個實施例中，在裝置100中執(zhí)行喚醒命令檢測，并在服務器中執(zhí)行語音命令識別，接著將來自裝置100的語音信號的一部分發(fā)送到服務器。在另一個實施例中，在服務器中執(zhí)行喚醒命令檢測和語音命令識別兩者。

控制器100可包括接口101、一個或多個處理器102和103以及內部存儲器104。在一些情況下，整個控制器110可被稱為處理器。接口101、應用處理器102、通信處理器103和內部存儲器104可以是單獨的組件或被集成在一個或多個集成電路上。

應用處理器102通過運行各種軟件程序來執(zhí)行用于電子裝置的各種功能，通信處理器103處理并控制語音通信和數(shù)據(jù)通信。除這些典型的功能之外，處理器102和103還執(zhí)行存儲在外部存儲器170或內部存儲器104中的特定的軟件模塊(指令集)，并進行與所述模塊相應的特定功能。即，處理器102和103執(zhí)行與存儲在外部存儲器170或內部存儲器104中的軟件模塊相關的本發(fā)明的方法。

根據(jù)本發(fā)明的一個示例性實施例(與圖2的方法相應)，應用處理器102通過麥克風110從用戶接收包括喚醒命令和隨后的語音命令的語音信號，并對所述語音信號執(zhí)行言語識別，以檢測喚醒命令的存在。當檢測到喚醒命令時，應用處理器102可檢測在語音信號中的喚醒命令和隨后的語音命令之間的沉默持續(xù)時間。因此，應用處理器102確定與語音命令相應的語音信號的一部分是否開始，當確定與語音命令相應的語音信號的一部分開始時，應用處理器102將所述語音信號的一部分發(fā)送到服務器。接下來，應用處理器102從服務器接收與所述語音命令相應的語音識別結果，并基于此結果執(zhí)行相應的操作。

根據(jù)本發(fā)明的另一示例性實施例(與圖4的方法相應)，應用處理器102將包括喚醒命令部分和語音命令部分的所有語音信號發(fā)送到服務器，并從服務器接收與喚醒命令相應的說話者驗證結果。當所述結果指示檢測到喚醒命令時，應用處理器102激活系統(tǒng)。接下來，應用處理器102接收與語音命令相應的語音識別結果，并基于所述語音識別結果執(zhí)行操作。

根據(jù)本發(fā)明的另一示例性實施例(與圖6的方法相應)，應用處理器102通過麥克風110從用戶接收包括喚醒命令和語音命令的語音信號，并使用言語識別執(zhí)行喚醒命令檢測。當檢測到喚醒命令時，應用處理器102使用語音識別算法識別語音信號的隨后的部分中的語音命令，并基于識別的語音命令執(zhí)行相應的操作。

一個或多個語音識別處理器和說話者驗證處理器可以是應用處理器102的一部分，或可被提供為單獨的處理器。語音識別處理器和說話者驗證處理器可被統(tǒng)一，并包括根據(jù)其實施方式用于不同的功能的多個處理器。接口101將電子裝置100的觸摸屏控制器165與外部存儲器170或內部存儲器104相互連接。

傳感器模塊150被連接到接口101以允許各種功能。例如，運動傳感器和光學傳感器可被連接到接口101以檢測電子裝置的運動或檢測來自外部的光。除了這些之外，其它傳感器(例如，位置確定系統(tǒng)、溫度傳感器或生物識別傳感器)可被連接到接口101以進行相關的功能。

相機120通過接口101被連接到傳感器150以執(zhí)行相機功能(例如，拍攝和視頻剪輯錄制)。

可包括至少一個處理器的RF單元140執(zhí)行通信功能。例如，在通信處理器103的控制下，RF單元140將RF信號轉換為基帶信號，并將基帶信號提供給通信處理器103，或者將從通信處理器103輸出的基帶信號轉換為RF信號，并通過天線ANT發(fā)送RF信號。這里，通信處理器103根據(jù)各種通信方案處理基帶信號。例如，通信方案可包括但不限于：全球移動通信系統(tǒng)(GSM)通信方案、增強型數(shù)據(jù)GSM環(huán)境(EDGE)通信方案、碼分多址(CDMA)通信方案、W-CDMA通信方案、長期演進(LTE)通信方案、正交頻分多址(OFDMA)通信方案、無線保真(Wi-Fi)通信方案、WiMax通信方案和/或藍牙通信方案。

揚聲器/麥克風110可輸入和輸出用于諸如語音識別(在訓練處理期間使用以訓練裝置100識別特定說話者和/或喚醒命令和/或語音命令)、語音再現(xiàn)、數(shù)字記錄和電話功能之一的語音信號。即，揚聲器/麥克風110將語音信號轉換為電子信號或者將電子信號轉換為語音信號?？蛇B接的和可拆卸的耳機、頭戴受話器或頭戴式耳機(未示出)可通過外部端口連接到電子裝置。

觸摸屏控制器165可被連接到觸摸屏160。觸摸屏160和觸摸屏控制器165可使用但不限于用于確定與觸摸屏160的一個或多個觸摸點的電容式、電阻式、紅外線和表面聲波技術和包括各種接近傳感器陣列或其它元素的多點觸摸檢測技術，來檢測觸摸和運動或觸摸和運動的停止。

觸摸屏160提供電子裝置和用戶之間的輸入/輸出接口。即，觸摸屏160將用戶的觸摸輸入轉發(fā)到電子裝置100。觸摸屏160還將裝置100的輸出呈現(xiàn)給用戶。即，觸摸屏160將視覺輸出呈現(xiàn)給用戶。即，視覺輸出可被表示為文本、圖像、視頻以及它們的組合。

觸摸屏160可采用各種顯示器，所述各種顯示器的示例包括但不限于：液晶顯示器(LCD)、發(fā)光二極管(LED)、發(fā)光聚合物顯示器(LPD)、有機LED(OLED)、有源矩陣OLED(AMOLED)或柔性LED(FLED)。

GPS接收器130將從“人造”衛(wèi)星接收的信號轉換為諸如位置、速度或時間的信息。例如，衛(wèi)星和GPS接收器130之間的距離可通過將光的速度乘以信號到達時間來計算，并通過獲取三個衛(wèi)星的準確位置和距離使用公知的三角測量法來測量電子裝置的位置。

外部存儲器170或內部存儲器104可包括快速隨機存取存儲器(例如，一個或多個磁盤存儲裝置)和/或非易失性存儲器、一個或多個光學存儲裝置、和/或閃速存儲器(例如，NAND和NOR)。

外部存儲器170或內部存儲器104存儲軟件。軟件組件包括操作系統(tǒng)軟件模塊、通信軟件模塊、圖形軟件模塊、用戶界面軟件模塊、MPEG模塊、相機軟件模塊以及一個或多個應用軟件模塊。用于作為軟件組件的模塊可以是一組指令，因此所述模塊可被稱為指令組。所述模塊可被稱為程序。

操作系統(tǒng)軟件包括用于控制一般系統(tǒng)操作的各種軟件組件。一般系統(tǒng)操作的控制包括:例如，存儲器管理和控制、存儲器硬件(裝置)控制和管理以及電力控制和管理。操作系統(tǒng)軟件可對各種硬件裝置和軟件組件(模塊)之間的正常通信進行處理。

通信軟件模塊允許通過RF單元140與其它電子裝置(例如，計算機、服務器、和/或便攜式終端)進行通信。以相應的通信方案的協(xié)議構架配置通信軟件模塊。

圖形軟件模塊包括用于在觸摸屏160上提供和顯示圖形的各種軟件組件。術語“圖形”包含文本、網(wǎng)頁、圖標、數(shù)字圖像、視頻、動畫等。

用戶界面軟件模塊包括與用戶界面相關的各種軟件組件。用戶界面軟件模塊涉及用戶界面的狀態(tài)改變和用戶界面狀態(tài)改變的條件。

相機軟件模塊包括允許相機相關處理和功能的相機相關軟件組件。應用模塊包括：瀏覽器、電子郵件、即時消息、詞語處理、鍵盤仿真、地址簿、觸摸列表、窗口小部件、數(shù)字版權管理(DRM)、語音識別、語音再現(xiàn)、位置確定功能、基于位置的服務等。除上述的模塊之外，存儲器170和104可包括附加的模塊(指令)。可選擇地，如果需要，則可不使用一些模塊(指令)。

在此，應用模塊包括用于執(zhí)行說話者識別功能或言語識別功能和語音命令執(zhí)行功能的指令。根據(jù)本發(fā)明的示例性實施例的指令與用于執(zhí)行圖2、圖4和圖6中所示的操作的指令相應。

以上提及和將被解釋的電子裝置100的各種功能可在包括一個或多個信號處理和/或專用集成電路(ASIC)的硬件和/或軟件和/或他們的組合中被執(zhí)行。

圖1B中示出根據(jù)本發(fā)明的實施例的用于執(zhí)行語音命令的系統(tǒng)195。系統(tǒng)195包括通過網(wǎng)絡180與服務器190進行通信的便攜式終端100。服務器190可以是例如家庭網(wǎng)絡服務器或通過大型網(wǎng)絡(例如，互聯(lián)網(wǎng))訪問的遠程服務器?？蛇x擇地，服務器190可以是能夠對發(fā)送到服務器190的語音信號執(zhí)行言語/語言/說話者識別和分析功能的第三方便攜式電子裝置。服務器190最少包括至少一個處理器192和存儲器194，以執(zhí)行操作的主機。下文中將結合電子裝置100描述服務器190的示例性操作。

圖2是根據(jù)本發(fā)明的一個示例性實施例的用于在電子裝置100中執(zhí)行喚醒命令和語音命令的方法200的流程圖。

在步驟201，電子裝置100通過麥克風110從用戶檢測可包含喚醒命令和語音命令的語音信號。喚醒命令激活系統(tǒng)的語音命令模式，其中，為了接收和分析語音命令，不需要與觸摸屏或鍵的觸摸接觸。在接收此語音信號之前，裝置100可處于空閑模式或鎖屏模式。在一些實施例中，在接收語音信號之前，裝置100可處于這樣的應用執(zhí)行模式，其中，沒有執(zhí)行用于語音命令的收聽或響應于語音命令的操作。

在以下描述中，將假設喚醒命令一般獨立于臨時跟隨在喚醒命令之后的語音命令。然而，在下面另外討論的一些“說話者依賴”實施例中，由預定的說話者說出的被檢測的語音信號可用作喚醒命令。在一些其它實施例中(說話者依賴或說話者獨立)，喚醒命令還包含固有的語音命令。在后者的情況下，喚醒命令激活語音命令模式并且是裝置100執(zhí)行附加的預定任務(例如，運行由用戶設置的預定義應用)的催化劑。

例如，喚醒命令可命令切換到用于輸入語音命令的模式(“語音命令模式”)和/或對屏幕進行解鎖。語音命令執(zhí)行由電子裝置100提供的各種功能。例如，語音命令執(zhí)行撥號、拍攝、MP3播放等。在各種實施方式中，語音命令可請求服務器190搜索地圖并計劃路線。

在步驟202，電子裝置100對語音信號執(zhí)行言語識別，以辨別語音信號是否包含預定的喚醒命令。此言語識別可包括在一個實施例中的說話者依賴識別方案或在另一實施例中的說話者獨立識別方案。另外的方案是可行的，其中，多個不同的喚醒命令被預定，其中，一個或多個預定命令是說話者依賴喚醒命令，一個或多個其他命令是說話者獨立命令。

根據(jù)說話者依賴識別方案，特定說話者或用戶需要提前以他/她自己的語音訓練識別器。在此情況下，言語識別器可僅識別訓練的語音的言語。說話者獨立識別方案可識別任意說話者語音的言語。說話者獨立識別方案提前提取關于成百上千的語音的信息并將所述信息存入數(shù)據(jù)庫，因此，任何用戶可使用所述信息，而無需單獨的訓練處理。

在一些實施例中，使用說話者依賴識別，說話者可使用語音信號(可包括整個語音信號)中的語音命令部分被驗證。因此，不存在輸入單獨的喚醒命令的需要。例如，當使用用戶的唯一語音特征來驗證說話者時，不存在輸入單獨的喚醒命令的需要。因此，在這些實施例中，語音命令還可操作為喚醒命令。因此在步驟202和204，識別特定用戶的特定語音，并通過此言語識別來自動檢測喚醒命令。

可選擇地，使用以預定義文本和用戶的唯一語音特征的說話者依賴識別，用戶可通過輸入與預定義文本相應的他的語音來訓練裝置100以驗證說話者(和特定的喚醒命令)。這樣做，需要輸入喚醒命令。在此，預定義文本可被用戶直接輸入或通過若干次輸入語音被轉換。電子裝置100或服務器190可將語音轉換為文本。

當在步驟204檢測到喚醒命令時，所述方法進行到步驟206。否則，所述方法返回到201。

盡管未示出在圖2中，當成功檢測到喚醒命令時，在鎖屏模式下“用于識別語音命令的對象”在顯示器上被激活(見圖8A)。可以是虛擬麥克風的此對象指示語音命令模式的激活(即，裝置正積極收聽語音命令)。此時，如果一個褪了色的版本先前可見，則該對象可在鎖屏中被首先顯示，或者，以被強調的方式被顯示。此時，與言語/語音識別相關的圖形用戶界面(GUI)也可被顯示。可選擇地，當檢測到喚醒命令時，顯示的對象可被激活并且與語音識別相關的GUI可立即被顯示在鎖屏中。

在實施例變化中，當在空閑模式下檢測到喚醒命令并且屏幕被鎖定時，用于識別語音命令的對象和與語音識別相關的GUI被一起顯示。當屏幕沒有被鎖定時，用于識別語音命令的對象和與語音識別相關的GUI也可被一起顯示。

在步驟206，電子裝置100檢測在與喚醒命令相應的檢測到的語音信號的第一部分(在下文中，“第一語音信號”)和與語音命令相應的檢測到的語音信號的第二部分(在下文中，“第二語音信號”)之間的沉默持續(xù)時間(如果存在)。當然，這假設語音命令是與喚醒命令分離的實體(如上所述，在喚醒命令也是語音命令的情況下實施例是可行的)。例如，假設喚醒命令是“你好Galaxy”，并且語音命令是“呼叫Hong Gil-dong”，當用戶連續(xù)發(fā)音“你好Galaxy”和“呼叫Hong Gil-dong”時，沉默持續(xù)時間存在于“你好Galaxy”和“呼叫Hong Gil-dong”之間。

在檢測到的言語中的兩個詞語之間的短暫的停頓可被用于檢測語音命令的開始。在實施例中，緊跟著喚醒命令的檢測到的語音信號的無關的部分可被阻止與隨后的語音命令一起被發(fā)送到服務器。這樣做，可使用語音活動檢測(VAD)技術。例如，語音信號通常具有比包括“沉默”時間段的背景噪聲信號具有更多的能量。然而，當背景噪聲低時，可附加地識別人的聲音的獨特的特征。通常，通過觀察貫穿各種頻率的能量分布來識別人的聲音的獨特的特征。人的聲音包括特征標志(characteristics signature)而不包括噪聲。因此，VAD技術可區(qū)分言語和包括背景噪聲的沉默時間段。因此，在實施例中，裝置100等待直到檢測到言語，此后，僅發(fā)送跟隨喚醒命令的已檢測到的言語開始的聲音信號，而不將包括喚醒命令之后檢測到的所有聲音的音頻信號發(fā)送到服務器。即，方法200避免發(fā)送只是包含喚醒命令檢測之后的沉默時間段的噪聲的信號。

在步驟208，裝置100確定與語音命令相應的第二語音信號是否開始。例如，裝置100檢查與“呼叫Hong Gil-dong”相應的語音信號的開始點。當?shù)诙Z音信號開始時，在步驟210，裝置100將與所述語音命令(例如，“呼叫Hong Gil-dong”)相應的語音信號發(fā)送到服務器。(發(fā)送到服務器的語音信號的部分在此不同地被稱為“發(fā)送信號”)。(當與語音命令相應的語音信號在208沒有開始時，所述流程返回到206)。有利地，通過將語音命令發(fā)送到服務器，裝置100使得處理器免受識別語音命令的言語的增強任務。

在步驟212，裝置100從服務器接收與語音命令相應的語音識別結果。例如，服務器分析語音命令“呼叫Hong Gil-dong”，并將與“呼叫Hong Gil-dong”相應的控制信號發(fā)送到裝置100或發(fā)送路線規(guī)劃請求或地圖搜索請求的搜索結果。

在步驟214，裝置100基于與語音命令相應的語音識別結果執(zhí)行相應的操作，或顯示與語音識別相應的結果。例如，當從服務器接收到與“呼叫Hong Gil-dong”相應的控制信號時，裝置100在電話簿搜索Hong Gil-dong的電話號碼并嘗試以搜索的電話號碼連接呼叫。在地圖/路線請求的情況下，裝置100顯示路線規(guī)劃請求或地圖搜索請求的搜索結果。此后，所述處理結束。

圖3是示出根據(jù)本發(fā)明的一個示例性實施例的由服務器190執(zhí)行的方法300的流程圖。此方法可補足在裝置100中進行操作的上述方法200的操作。在此實施例中，在步驟301，服務器從電子裝置接收發(fā)送信號(例如，在圖2的步驟210發(fā)送的)(即，與語音命令(例如，“呼叫Hong Gil-dong”))相應的語音信號。

接下來，在步驟302，服務器使用語音識別算法(相當于“言語識別”算法)分析與語音命令相應的語音信號。即，服務器分析語音信號以識別言語并從識別的言語辨別語音命令。在步驟304，服務器隨后確定與語音識別相應的結果是否是控制信號。如果是，則在步驟306，服務器將與語音識別相應的控制信號發(fā)送到裝置100。例如，在識別“呼叫Hong Gil-dong”之后，服務器將相應的控制信號提供給裝置100，以指示裝置100以從裝置100的電話簿存儲器提取的相關的電話號碼呼叫Hong Gil-dong。

當與語音識別相應的結果不是控制信號時，在步驟308，服務器將與語音識別相應的結果提供給電子裝置?？蛇x擇地，服務器發(fā)送包含路線規(guī)劃請求或地圖搜索請求的搜索結果的圖像內容，裝置100藉此顯示所述內容。

可選擇地，在方法200和300的示例性實施例中，電子裝置來實現(xiàn)喚醒命令檢測，并且服務器實現(xiàn)語音命令的語音識別。根據(jù)本發(fā)明的另一示例性實施例，服務器執(zhí)行喚醒命令檢測和語音命令的語音識別。

圖4是根據(jù)本發(fā)明的另一示例性實施例的在裝置100中執(zhí)行的另一示例方法的流程圖。這里，在步驟401，在空閑模式和/或鎖屏模式下，裝置100通過麥克風110從用戶接收包括喚醒命令的語音信號，其中，在喚醒命令不久之后(或連續(xù)之后)緊接著語音命令。如前所述，當識別到喚醒命令時，激活系統(tǒng)。例如，喚醒命令可指示切換到用于輸入語音命令的模式和/或對屏幕進行解鎖。語音命令指示執(zhí)行由電子裝置100提供的各種功能。例如，語音命令執(zhí)行撥號、拍攝、MP3播放等。

在步驟402，裝置100將包括喚醒命令和語音命令的整個語音信號發(fā)送到服務器作為發(fā)送信號。接下來，從服務器接收到與喚醒命令相應的語音驗證結果(步驟404)。即，當服務器檢測到發(fā)送信號包含喚醒命令時，服務器發(fā)送在步驟404接收的語音識別結果；否則，服務器可不將任何識別信號發(fā)送回裝置100。例如，當裝置在步驟404接收到識別結果時，這指示檢測到喚醒命令，并且在步驟406，裝置100激活系統(tǒng)。系統(tǒng)激活對屏幕進行解鎖或從空閑模式切換到激活模式或語音命令模式。(隨著系統(tǒng)激活并且處于語音命令模式，裝置100隨后可如步驟401檢測包含語音命令的新的語音信號，并相應地重復步驟402至404和隨后的步驟。)

接下來，在步驟408，裝置100接收與語音命令相應的語音識別結果，并在步驟410，基于語音識別結果執(zhí)行操作或顯示與語音識別相應的結果。例如，當從服務器接收到與“呼叫Hong Gil-dong”相應的控制信號時，裝置100在電話簿搜索Hong Gil-dong的電話號碼并嘗試以搜索的電話號碼連接呼叫。在地圖/路線示例中，裝置100顯示路線規(guī)劃請求或地圖搜索請求的搜索結果。此后，所述處理結束，裝置100可在步驟401接收新的語音信號，并且將這些新的語音信號轉發(fā)到服務器以進行處理，服務器藉此可繼續(xù)通過發(fā)送控制信號和/或與隨后的語音命令相應的結果來進行響應。即，由于裝置100已經(jīng)被喚醒，因此可以以僅用于語音命令的(而當然不是用于喚醒命令)相關操作重復步驟401至410。

圖5是根據(jù)本發(fā)明的另一示例性實施例的由服務器190執(zhí)行的示例性方法500的流程圖。此方法可完成在裝置100中進行操作的上述方法400的操作。

在步驟501，服務器從電子裝置501接收包括喚醒命令和語音命令的語音信號(即，在步驟402發(fā)送的發(fā)送信號)。在步驟502，服務器語音識別驗證算法分析與喚醒命令相應的語音信號。即，服務器分析與喚醒命令相應的語音信號，因此確定是否檢測喚醒命令。此操作可與在實施例中由裝置100執(zhí)行的圖2中的步驟202和204相同。注意，如圖2的實施例中，可執(zhí)行說話者依賴和/或說話者獨立算法操作(在考慮多個預定的喚醒命令的情況下，可采用兩種類型的識別方案)。

在步驟504，服務器將言語驗證結果提供給電子裝置。注意，在其他實施方式中可省略步驟504。

當在步驟506檢測到喚醒命令作為言語識別處理的結果時，在步驟508，服務器隨后使用語音識別算法分析與語音命令相應的語音信號。即，服務器識別與語音命令相應的言語，并產生與將由裝置100執(zhí)行的動作相應的響應信號，用于特定辨別的語音命令。相反地，當在語音信號中未檢測到喚醒命令時，流程返回到步驟501。為此，服務器可發(fā)送通知裝置100未檢測到喚醒命令的信號，在步驟501，裝置100藉此可繼續(xù)將新檢測到的語音信號發(fā)送到服務器。在各種實施方式中，當與先前的語音命令相應的語音信號是正常時，服務器可請求和接收僅與喚醒命令相應的第一語音信號。

盡管未示出，服務器可檢測與喚醒命令相應的語音信號和與語音命令相應的語音信號之間的沉默持續(xù)時間，因此區(qū)分喚醒命令和語音命令。

在步驟510，服務器向電子裝置通知喚醒命令結果和語音識別結果(響應信號)。例如，服務器通過分析言語是否包含短語“你好Galaxy”來確定是否檢測到喚醒命令，分析語音命令“呼叫Hong Gil-dong”，因此將與“呼叫Hong Gil-dong”相應的控制信號發(fā)送給電子裝置100。

接下來，服務器結束此處理，并可被配置為收聽如在步驟501來自裝置100的隨后的語音信號發(fā)送。為此，在裝置100和服務器190之間的適當?shù)男帕羁杀辉O計為向服務器190通知裝置100是否已返回到空閑模式或鎖屏模式。如果是，服務器將把隨后接收的語言信號視作可包含喚醒命令的語音信號。如果不是，服務器將指示自然地收聽新的語音命令。

圖6是描繪根據(jù)本發(fā)明的另一示例性實施例的由電子裝置執(zhí)行的示例性方法600的操作的流程圖。在此實施例中，電子裝置執(zhí)行用于語音命令的喚醒命令檢測和語音識別兩者。

步驟601、602、604、606和608可分別與圖2的201、202、204、206和208相同。以下對步驟601至608的描述重述結合步驟201至208描述的一些概念。

在步驟601，在空閑模式或鎖屏模式下，電子裝置100通過麥克風110從用戶接收包括喚醒命令和語音命令的語音信號。所述喚醒命令激活系統(tǒng)。例如，喚醒命令可指示切換到用于輸入語音命令的模式或對屏幕進行解鎖。語音命令執(zhí)行由電子裝置100提供的各種功能。例如，語音命令執(zhí)行撥號、拍攝、MP3播放等。

在步驟602，裝置100使用言語識別驗證算法分析語音信號，以確定語音信號是否包含喚醒命令。如前所述，如果采用了說話者依賴識別，此操作可涉及僅檢測語音與預定語音匹配，或者預定語音還包含與預定喚醒命令匹配的特定言語。可選擇地，可使用說話者獨立識別方案。當在步驟604識別喚醒命令時，流程進行到步驟606；否則，流程返回到步驟600。

在步驟606，裝置100檢測與喚醒命令相應的語音信號部分和與語音命令相應的語音信號部分之間的沉默持續(xù)時間。例如，假設喚醒命令是“你好Galaxy”并且語音命令是“呼叫Hong Gil-dong”，當用戶連續(xù)發(fā)音“你好Galaxy”和“呼叫Hong Gil-dong”時，沉默持續(xù)時間介于“你好Galaxy”和“呼叫Hong Gil-dong”之間。

在步驟608，電子裝置100確定與語音命令相應的語音信號是否開始。例如，在步驟608，電子裝置100檢查與“呼叫Hong Gil-dong”相應的語音信號的開始點。

當在步驟608，與語音命令相應的語音信號開始時，在步驟610，電子裝置100使用語音識別算法分析所述與語音命令相應的語音信號。

在步驟612，電子裝置100基于識別的語音命令執(zhí)行相應的操作。例如，當識別的語音命令是“呼叫Hong Gil-dong”時，電子裝置100在電話簿搜索Hong Gil-dong的電話號碼，并嘗試以搜索的電話號碼連接呼叫。此后，所述處理結束。

圖7描繪可在上述的實施例中被分析的包括喚醒命令和語音命令的示例語音信號。輸入到電子裝置100的示意性語音信號可連續(xù)包含喚醒命令和語音命令。即，語音信號可具有與喚醒命令相應的部分700和與語音命令相應的部分720，其中，所述部分700和720連續(xù)輸入到電子裝置。沉默持續(xù)時間部分710介于喚醒命令部分700和語音命令部分720之間。

圖8A、圖8B和圖8C是描繪根據(jù)本發(fā)明的示例性實施例的使用包含喚醒命令和語音命令的語音信號進行撥號操作的屏幕截圖。如圖8A中所示，用于識別語音命令的圖標對象800根據(jù)與喚醒命令相應的語音信號部分700被激活。如圖8B中所示，與語音信號的語音命令部分720相應的語音命令(“呼叫Hong Gil-dong”)被識別，隨后所述操作根據(jù)所述語音命令被執(zhí)行。例如，Hong Gil-dong的電話號碼在電話簿中被搜索，并且如圖8C中所示，使用搜索的電話號碼自動開始呼叫連接。

圖9A和圖9B描繪根據(jù)本發(fā)明的示例性實施例的通過言語識別和控制操作解鎖的屏幕的屏幕截面。圖9A描繪示例鎖定屏幕；圖9B示出示例解鎖屏幕?？梢砸詧D2、圖4和圖6的上述方法(例如，步驟214、406、410或612)中的任意方法執(zhí)行用于產生如圖9A和圖9B中所示的解鎖屏幕的對鎖屏進行解鎖的處理。

響應于檢測到與預定喚醒命令匹配或與特定用戶的語音匹配的語音信號的喚醒命令部分700，圖9A的鎖定屏幕被切換到圖9B的解鎖屏幕。盡管未示出，在屏幕被解鎖之后，可通過識別與喚醒命令相應的語音信號700之后的與語音命令(“呼叫Hong Gil-dong”)相應的語音命令部分720來執(zhí)行相應的操作。

在上述的本發(fā)明的示例性實施例中，喚醒命令和語音命令是分離的?？蛇x擇地，與語音命令相應的語音信號可被用于說話者驗證和語音命令。即，使用與語音命令相應的語音信號來驗證說話者。當說話者驗證成功時，可根據(jù)語音命令控制或執(zhí)行電子裝置的相應的功能。

根據(jù)本公開的上述方法可單獨在硬件或軟件中被實施，或在硬件和軟件的組合中被實施。

對于軟件，可提供包含一個或多個程序(軟件模塊)的計算機可讀存儲介質。存儲到計算機可讀存儲介質的一個或多個程序被配置用于執(zhí)行電子裝置和/或服務器的一個或多個處理器。一個或多個程序包括使電子裝置和/或服務器執(zhí)行根據(jù)如在本公開的權利要求和/或說明書中所述的實施例的方法的指令。

這樣的程序(軟件模塊，軟件)可被存儲到隨機存取存儲器、包括閃速存儲器、只讀存儲器(ROM)、電可擦可編程ROM(EEPROM)、磁盤存儲裝置、緊湊盤ROM(CD-ROM)、數(shù)字通用磁盤(DVD)或其它光學存儲裝置的非易失存儲器和磁帶?？蛇x擇地，所述程序可被存儲到將這些存儲介質進行部分組合或全部組合的存儲器?？膳鋫涠鄠€存儲器。

所述程序可被存儲到通過通信網(wǎng)絡(例如，互聯(lián)網(wǎng)、局域網(wǎng)(LAN)、廣LAN(WLAN)或存儲區(qū)域網(wǎng)(SAN)或通過組合這些網(wǎng)絡的通信網(wǎng)絡)可訪問的電子裝置和/或服務器的可連接的存儲裝置。存儲裝置可通過外部端口訪問電子裝置和/或服務器。

通信網(wǎng)絡中分離的存儲裝置可訪問便攜式電子裝置/服務器。

如上所述，由于包括喚醒命令部分和語音命令部分的檢測到的語音信號被處理，因此用戶可容易地執(zhí)行所述語音命令。

另外，由于在執(zhí)行語音命令之前完成喚醒命令檢測，因此可基于安全/個人信息保護來執(zhí)行語音命令。

盡管已經(jīng)參照本發(fā)明的特定示例性實施例示出和描述了本發(fā)明，但是本領域的技術人員將理解，在不脫離權利要求及其等同物所限定的本發(fā)明的精神和范圍的情況下，可以對其進行形式和細節(jié)上的各種改變。

完整全部詳細技術資料下載

當前第1頁1 2 3