專利名稱:移動終端和用于識別其語音的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種方法,該方法用于從輸入至移動終端的語音中檢 測用戶所強(qiáng)調(diào)的字符或詞,以將其作為用于語音識別的有意義的信息, 或者當(dāng)輸入的語音被轉(zhuǎn)換成文本時,以預(yù)先設(shè)置的格式強(qiáng)調(diào)地顯示用 戶所強(qiáng)調(diào)的字符或詞,以及實現(xiàn)該方法的移動終端。
背景技術(shù):
移動終端是可以被配置成執(zhí)行各種功能的設(shè)備。這些功能的示例 包括數(shù)據(jù)和語音通信,通過照相機(jī)捕捉圖像和視頻,記錄音頻,通過 揚聲器系統(tǒng)播放音樂,以及在顯示器上顯示圖像。某些移動終端包括 支持玩游戲的附加功能,而其他終端被配置成多媒體播放器。最近, 移動終端已經(jīng)被配置成接收廣播和多播信號,這允許查看諸如視頻和 電視節(jié)目的內(nèi)容。
用以支持和增加移動終端的功能的努力正在繼續(xù)。這種努力包括 軟件和硬件改善,以及在形成移動終端的結(jié)構(gòu)組件中的改變和改善。 就設(shè)計而言,可以將折疊型、滑動型、直板型或旋轉(zhuǎn)型設(shè)計應(yīng)用于移 動終端。
此外,移動終端使用各種用戶界面,用于執(zhí)行特定功能和服務(wù)。 例如,移動終端使用用于語音識別、觸摸板、小鍵盤或筆輸入的功能。 然而,所指出的這些用戶界面具有這樣一個問題,即識別錯誤率高, 并且用戶滿意度低。因此,最近,旨在提高語音識別率的研究正在進(jìn) 行,以提供具有語音識別功能的移動終端
發(fā)明內(nèi)容
相應(yīng)地,本發(fā)明的 一 個目標(biāo)是解決上面所指出的問題以及其他問題。
本發(fā)明的另一目標(biāo)是提供一種用于通過強(qiáng)調(diào)由語音或消息所輸入 的命令中的特定字符和詞,來提高語音識別率的方法,以及實現(xiàn)該方 法的移動終端。
本發(fā)明的再一方面是提供一種用于當(dāng)語音消息被轉(zhuǎn)換成文本時, 從語音消息檢測用戶所強(qiáng)調(diào)的字符和詞,并且以預(yù)先設(shè)置的格式強(qiáng)調(diào) 地顯示該字符和詞的方法,以及實現(xiàn)該方法的移動終端。
本發(fā)明的又一方面是提供一種用于從通過使用重音、音量或聲調(diào) 由語音或消息所輸入的指令中檢測用戶所要強(qiáng)調(diào)的字符或詞的方法, 以及實現(xiàn)該方法的移動終端。
為了實現(xiàn)如此處所具體實施和廣泛描述的與本發(fā)明的目的相一致 的這些優(yōu)勢和其他優(yōu)勢,本發(fā)明在一方面提供一種移動終端,該終端 包括麥克風(fēng),其配置成接收用戶的語音;控制器,其配置成將接收 到的語音轉(zhuǎn)換成相應(yīng)的文本,并且從接收到的語音中檢測用戶強(qiáng)調(diào)發(fā)
音的字符或詞;以及顯示單元,其配置成在顯示文本時,以預(yù)先設(shè)置
的格式,強(qiáng)調(diào)地顯示檢測到的字符或詞。
為了實現(xiàn)如此處所具體實施和廣泛描述的與本發(fā)明的目的相一致 的這些優(yōu)勢和其他優(yōu)勢,本發(fā)明在另一方面提供了一種移動終端的語
音識別方法,該方法包括接收和識別用戶的語音;將接收到的語音轉(zhuǎn) 換成相應(yīng)的文本并顯示該文本;從接收到的語音中檢測用戶所強(qiáng)調(diào)地 發(fā)音的字符或詞;以及當(dāng)將接收到的語音轉(zhuǎn)換成文本時,以預(yù)先設(shè)置 的格式,強(qiáng)調(diào)地顯示該強(qiáng)調(diào)地發(fā)音的字符或詞。
為了實現(xiàn)如此處所具體實施和廣泛描述的與本發(fā)明的目的相一致的這些優(yōu)勢和其他優(yōu)勢,本發(fā)明在另一方面提供了一種移動終端,該 移動終端包括麥克風(fēng),該麥克風(fēng)被配置成接收念出一個或多個字符或 詞的用戶的語音;控制器,其被配置成將念出的一個或多個字符或詞 轉(zhuǎn)換成相應(yīng)的文本,并額外地檢測該一個或多個字符或詞中在念出時 被強(qiáng)調(diào)的至少一個;以及顯示單元,其顯示該一個或多個字符或詞的 相應(yīng)的文本,包括被強(qiáng)調(diào)的至少一個或多個字符或詞。
根據(jù)本發(fā)明的移動終端具有下列優(yōu)勢。S卩,強(qiáng)調(diào)了通過語音或消 息而輸入的指令的特定字符或詞,以便將其作為語音識別的有意義的 信息,從而提高語音識別率。
此外,當(dāng)將語音消息被轉(zhuǎn)換成文本時,在語音消息中用戶所強(qiáng)調(diào) 的字符或詞可以被檢測到,并且以預(yù)先設(shè)置的格式強(qiáng)調(diào)地顯示。而且, 通過使用用戶所輸入的語音的重音、音量或聲調(diào),可以檢測到期望被 用戶強(qiáng)調(diào)的字符或詞。
根據(jù)下文的具體描述,本發(fā)明的應(yīng)用性的進(jìn)一步范圍將變得顯而 易見。然而,應(yīng)理解的是,雖然示出了本發(fā)明的優(yōu)選實施例,但具體 描述和特定示例僅是為了說明的目的,因為根據(jù)該具體描述,在本發(fā) 明精神和范圍內(nèi)的各種變更和修改對于本領(lǐng)域的技術(shù)人員來說將是顯 而易見的。
根據(jù)下文所給出的具體描述和附圖,本發(fā)明將得到更全面的理解, 該具體描述和附圖僅是為了說明而給出,因此,其并不限制本發(fā)明, 在附圖中
圖l是實現(xiàn)本發(fā)明的實施例的移動終端的示意性框圖; 圖2是實現(xiàn)本發(fā)明的實施例的移動終端的前透視圖; 圖3是實現(xiàn)本發(fā)明的實施例的移動終端的后透視圖; 圖4是無線通信系統(tǒng)的框圖,利用該無線通信系統(tǒng),可操作根據(jù)本發(fā)明的實施例的移動終端;
圖5是示出了根據(jù)本發(fā)明實施例在移動終端中通過使用語音來控
制菜單的方法的流程圖6A是示出了根據(jù)本發(fā)明實施例用于激活移動終端的語音識別功
能的方法的顯示屏的總體視圖6B和6C是示出了根據(jù)本發(fā)明實施例用于輸出移動終端的幫助
信息的方法的顯示屏的總體視圖7A是示出了根據(jù)本發(fā)明實施例用于識別移動終端的語音指令的 方法的處理的流程圖7B是示出了根據(jù)本發(fā)明實施例的移動終端的語音識別方法的視
圖8是示出了根據(jù)本發(fā)明的用于根據(jù)移動終端的語音識別率而顯 示菜單的方法的視圖9是示出了根據(jù)本發(fā)明實施例的移動終端的語音指令識別方法 的顯示屏的總體視圖10是示出了根據(jù)本發(fā)明實施例用于識別移動終端的語音指令的
數(shù)據(jù)庫系統(tǒng)的框圖ll是示出了根據(jù)本發(fā)明實施例在移動終端中確定包含有用戶強(qiáng) 調(diào)發(fā)音的詞的語音指令的含義的處理的流程圖12是示出了根據(jù)本發(fā)明實施例用于在移動終端中確定包含有用 戶強(qiáng)調(diào)發(fā)音的詞的語音指令的含義的方法的顯示屏總體視圖13是示出了根據(jù)本發(fā)明實施例的在移動終端中當(dāng)將語音轉(zhuǎn)換成 文本時強(qiáng)調(diào)地顯示特定詞的處理的流程圖14是示出了根據(jù)本發(fā)明實施例在移動終端中強(qiáng)調(diào)地顯示用戶強(qiáng) 調(diào)發(fā)音的詞的示例的顯示屏的總體視圖;以及
圖15是示出了根據(jù)本發(fā)明實施例用于在移動終端中當(dāng)將語音轉(zhuǎn)換 成文本時強(qiáng)調(diào)地顯示特定詞的方法的顯示屏的總體視圖。
具體實施例方式
現(xiàn)在將具體參考本發(fā)明的一些示例性實施例,其示例在附圖中示出。在描述本發(fā)明的過程中,如果對相關(guān)的已知功能和構(gòu)造的具體解 釋被認(rèn)為是不必要地脫離了本發(fā)明的要旨,那么這種解釋已經(jīng)被省略, 但其應(yīng)當(dāng)被本領(lǐng)域的技術(shù)人員所理解。在參考附圖描述本發(fā)明的過程 中,可能將相同的參考符號應(yīng)用于執(zhí)行相同或相似功能的元件?,F(xiàn)在 將參考附圖,具體描述根據(jù)本發(fā)明的實施例的移動終端。
圖1是根據(jù)本發(fā)明實施例的移動終端的框圖。該移動終端可以用 各種配置或形式實現(xiàn)。這種移動終端的示例包括移動電話、用戶設(shè)備、 智能電話、計算機(jī)、數(shù)字廣播終端、個人數(shù)字助理、便攜式多媒體播 放器(PMP)、導(dǎo)航設(shè)備等。
如圖l所示的移動終端IOO可以包括無線通信單元110、 A/V (音
頻/視頻)輸入單元120、用戶輸入單元130、傳感單元140、輸出單元 150、存儲器160、接口單元170、控制器180、以及電源單元190等。 圖1示出了具有各種組件的移動終端100,但應(yīng)理解的是,實現(xiàn)所有圖 示組件并不是必要條件。可以選擇性地實現(xiàn)更多或更少的組件。下面 將具體描述該移動終端的元件。
無線通信單元100通常包括一個或多個組件,該一個或多個組件 允許在移動終端100與無線通信網(wǎng)絡(luò)或該移動終端100所處的網(wǎng)絡(luò)之 間進(jìn)行無線通信。
廣播接收模塊111通過廣播信道從外部廣播管理服務(wù)器(或其他 網(wǎng)絡(luò)實體)接收廣播信號和/或廣播相關(guān)信息。該廣播信道可以包括衛(wèi) 星信道和地面信道。該廣播管理服務(wù)器可以指生成并發(fā)送廣播信號和/ 或廣播相關(guān)信息的系統(tǒng),或者接收先前生成的廣播信號和/或廣播相關(guān) 信息并將其發(fā)送至終端的服務(wù)器。廣播相關(guān)信息的示例可以包括有關(guān) 廣播信道、廣播節(jié)目、廣播服務(wù)提供商等的信息。廣播信號可以包括 TV廣播信號、電臺廣播信號、數(shù)據(jù)廣播信號等。而且,該廣播信號可 以進(jìn)一步包括與TV或電臺廣播信號合并的廣播信號。也可以通過移動通信網(wǎng)絡(luò)(例如,根據(jù)諸如3GPP、3GPP2、 IEEE、 CDMA、 GSM、 OMA、所謂的4G技術(shù)等標(biāo)準(zhǔn)而操作的移動通信網(wǎng)絡(luò)) 提供廣播相關(guān)信息,并且,在該情形下,可以通過移動通信模塊112 接收廣播相關(guān)信息。廣播信號可以以各種形式存在。例如,它可以以 數(shù)字多媒體廣播(DMB)的電子節(jié)目指南(EPG)、手持?jǐn)?shù)字視頻廣 播(DVB-H)的電子服務(wù)指南(ESG)等形式存在。
廣播接收模塊111可以被配置成通過使用各種類型的廣播系統(tǒng)來 接收廣播信號。具體而言,該廣播接收模塊111可以使用諸如地面多 媒體廣播(DMB-T)、衛(wèi)星數(shù)字多媒體廣播(DMB-S)、手持?jǐn)?shù)字視 頻廣播(DVB-H)、被稱為僅為媒體前向鏈路(MediaFLO )的數(shù)字 廣播系統(tǒng)、地面集成服務(wù)數(shù)字廣播(ISDB-T)等的數(shù)字廣播系統(tǒng),來 接收數(shù)字廣播信號。廣播接收模塊111被配置成適合于每個提供廣播 信號的廣播系統(tǒng)以及上述的數(shù)字廣播系統(tǒng)??梢詫⑼ㄟ^廣播接收模塊 111接收的廣播信號和/或廣播相關(guān)信息存儲在存儲器160(或其他類型 的存儲介質(zhì))中。
移動通信模塊112向和/或從基站(例如,接入點、節(jié)點B等)、 外部終端(例如其他用戶設(shè)備)以及服務(wù)器(或其他網(wǎng)絡(luò)實體)中的 至少一個發(fā)送和/或接收無線信號。這種無線信號可以包括語音通話信 號、視頻通話信號或根據(jù)文本和/或多媒體消息發(fā)送和/或接收的各種類 型數(shù)據(jù)。無線因特網(wǎng)模塊113支持該移動終端的因特網(wǎng)接入。該模塊 可以內(nèi)部地或外部地耦合至移動終端100。
短程通信模塊114指用于支持短程通信的模塊。短程通信技術(shù)的 一些示例包括藍(lán)牙(Bluetooth )、射頻識別(RFID)、紅外數(shù)據(jù)協(xié) 會(IrDA)、超寬帶(UWB) 、 ZigBeeTM等。位置信息模塊115是用 于檢査或獲取移動終端的位置(或定位)的模塊。例如,通過使用從 多個衛(wèi)星接收位置信息的GPS (全球定位系統(tǒng))模塊,可以實現(xiàn)該位置信息模塊115。此處,位置信息可以包括由緯度和經(jīng)度值所表示的坐 標(biāo)信息。例如,GPS模塊可以從三顆或更多顆衛(wèi)星測量準(zhǔn)確的時間和
距離,并且基于三個不同的距離,根據(jù)三角法(trigonometry)(或三 角測量(triangulation))而準(zhǔn)確地計算移動終端100的當(dāng)前位置。可 以使用從三顆衛(wèi)星獲取距離和時間信息以及利用單一衛(wèi)星執(zhí)行誤差修 正的方法。具體而言,GPS模塊可以從從衛(wèi)星接收到的位置信息中, 獲取準(zhǔn)確的時間和三維速度信息以及有緯度、經(jīng)度和海拔值的位置。
A/V輸入單元120被配置成接收音頻或視頻信號。A/V輸入單元 120可以包括照相機(jī)121 (或其他圖像捕捉設(shè)備)以及麥克風(fēng)122 (或 其他聲音采集設(shè)備)。照相機(jī)121處理在視頻捕捉模式或圖像捕捉模 式中由圖像捕捉設(shè)備所獲取的靜止圖片或視頻的圖像數(shù)據(jù)。處理后的 圖像幀可以在顯示單元151 (或其他可視輸出設(shè)備)上顯示。
可以將由照相機(jī)121所處理的圖像幀存儲在存儲器160(或其他存 儲介質(zhì))中或通過無線通信單元110發(fā)送。根據(jù)移動終端的配置,可 以提供兩個或多個照相機(jī)121。麥克風(fēng)122可以在電話通話模式、錄音 模式、語音識別模式等中通過麥克風(fēng)(或類似設(shè)備)接收聲音(可聽 數(shù)據(jù)),并且可以將這種聲音處理成音頻數(shù)據(jù)。在電話通話模式情形 下,處理后的音頻(語音)數(shù)據(jù)可以被轉(zhuǎn)換成可被通過移動通信模塊 112而發(fā)送至移動通信基站(或其他網(wǎng)絡(luò)實體)的格式以輸出。麥克風(fēng) 122可包括各種類型的噪聲消除(或抑制)算法以消除(或抑制)在接 收和發(fā)送音頻信號的過程中生成的噪聲或干擾。
用戶輸入單元130 (或其他用戶輸入設(shè)備)可以從用戶輸入的命令 生成關(guān)鍵(key)輸入數(shù)據(jù),以控制該移動終端的各種操作。用戶輸入 單元130允許用戶輸入各種類型的信息,并且可以包括小鍵盤、薄膜 開關(guān)(dome switch)、觸摸板(例如,檢測電阻、壓力、電容等變化 的角蟲敏部件(touch sensitive member))、滾輪(jog wheel)、撥動開 關(guān)(jog switch)等。具體而言,當(dāng)觸摸板被以層疊方式覆蓋在顯示單元151上時,它可以被稱為觸摸屏。
傳感單元140(或其他檢測裝置)檢測移動終端100的當(dāng)前狀況(或
狀態(tài)),諸如移動終端IOO的打開或關(guān)閉狀態(tài)、移動終端100的位置、 是否存在用戶與移動終端100的接觸(即,觸摸輸入)、移動終端100 的朝向、移動終端100的加速或減速運動和方向等,并且生成用于控 制移動終端100的操作的命令和信號。例如,當(dāng)移動終端100是滑動 型移動電話時,傳感單元140可以感測滑動型電話是否被打開或關(guān)閉。 此外,傳感單元140可以檢測電源單元190是否供電或接口單元170 是否與外部設(shè)備耦合。
接口單元170 (或其他連接裝置)用作為與連接到該移動終端100 的至少一個外部設(shè)備的接口。例如,外部設(shè)備可以包括有線或無線頭
戴式耳機(jī)端口、外部電源(或電池充電器)端口、有線或無線數(shù)據(jù)端 口、存儲卡端口、用于連接具有識別模塊的設(shè)備的端口、音頻輸入/輸 出(I/O)端口、視頻I/0端口、耳機(jī)端口等。
此處,識別模塊可以是芯片(或其他具有存儲器或存儲能力的元 件),該芯片存儲用于驗證使用移動終端100的授權(quán)的各種信息,并 且可以包括用戶身份模塊(UIM)、訂戶識別模塊(SIM)、通用訂戶 識別模塊(USIM)等。此外,具有識別模塊的設(shè)備(此后被稱為"識 別設(shè)備")可以采用智能卡的形式。因此,識別設(shè)備可以通過端口或 其他連接裝置而與終端100連接。
接口單元170可以用于從外部設(shè)備接收輸入(例如,數(shù)據(jù)、信息、 電力等),并且將接收到的輸入傳送至移動終端100內(nèi)的一個或多個 元件,或可以被用于在移動終端和外部設(shè)備之間傳送數(shù)據(jù)。輸出單元 150被配置成以視覺、聽覺和/或觸覺的方式(例如、音頻信號、視頻 信號、警示信號、振動信號等)提供輸出。輸出單元150可以包括顯 示單元151、音頻輸出模塊(或聲音輸出模塊)152、警示單元153等。顯示單元151可以輸出在移動終端100中處理后的信息。例如,
當(dāng)移動終端100處于電話通話模式中時,顯示單元151可以顯示與通
話或其他通信(諸如文本消息、多媒體文件下載等)相關(guān)的用戶界面
(UI)或圖形用戶界面(GUI)。當(dāng)移動終端IOO處于視頻通話模式或 圖像捕捉模式中時,顯示單元151可以顯示捕捉的圖像和/或接收到的 圖像、示出視頻或圖像以及與其相關(guān)的功能的UI或GUI等。
同時,當(dāng)顯示單元151和觸摸板被以層疊方式覆蓋以形成觸摸屏 時,顯示單元151可以既作為輸入設(shè)備也作為輸出設(shè)備。顯示單元151 可以包括液晶顯示裝置(LCD)、薄膜晶體管-LCD (TFT丄CD)、有 機(jī)發(fā)光二極管(OLED)、柔性顯示裝置、三維(3D)顯示裝置等中的 至少之一。移動終端100根據(jù)其實施例可以包括兩個或多個顯示單元 (或其他顯示裝置)。例如,移動終端可以包括外部顯示單元(即使 在移動電話被關(guān)閉時,也可以被查看),以及內(nèi)部顯示單元(如果移 動電話被打開,則可以被査看)。
音頻輸出模塊152在通話信號接收模式、通話模式、錄音模式、 語音識別模式、廣播接收模式等中,可以輸出從無線通信單元110接 收的或在存儲器160中存儲的音頻數(shù)據(jù)。而且,音頻輸出模塊152可 以提供與移動終端100所執(zhí)行的特定功能有關(guān)的可聽輸出(例如,通 話信號接收聲音、消息接收聲音等)。音頻輸出模式152可以包括揚 聲器、蜂鳴器或其他聲音生成設(shè)備。
警示單元153 (或其他類型的用戶通知裝置)可以提供輸出,以通 知移動終端100的事件的發(fā)生。典型的事件可以包括通話接收、消息 接收、鍵輸入或按鈕輸入等。除了音頻或視頻輸出,警示單元153可 以以不同方式提供輸出,以通知事件的發(fā)生。例如,警示單元153可 以以振動(或其他觸覺輸出)的形式提供輸出。當(dāng)接收到呼叫、消息 或其他到來的通信時,警示單元153可以提供觸覺輸出(即,振動)以通知用戶。通過提供觸覺輸出,用戶可以識別各種事件的發(fā)生,即 使用戶的移動電話在其口袋中。也可以通過顯示單元151或音頻輸出 模塊152提供用于通知事件發(fā)生的輸出。
存儲器160(或其他存儲裝置)可以存儲用于控制器180所執(zhí)行的 處理和控制操作的軟件程序等,或可以臨時存儲已經(jīng)被輸入或?qū)⒁?輸出的數(shù)據(jù)(例如,電話簿、消息、靜止圖像、視頻等)。存儲器160 可以包括至少一種類型的存儲介質(zhì),該存儲介質(zhì)包括閃存、硬盤、多 媒體卡、卡型存儲器(例如SD或DX存儲器等)、隨機(jī)存取存儲器 (RAM)、靜態(tài)隨機(jī)存取存儲器(SRAM)、只讀存儲器(ROM)、 電可擦可編程只讀存儲器(EEPROM)、可編程只讀存儲(PROM)、 磁存儲器、磁盤、光盤等。移動終端100也可以通過網(wǎng)絡(luò)連接,與執(zhí) 行存儲器160的存儲功能的網(wǎng)絡(luò)存儲設(shè)備相協(xié)作。
控制器180(諸如微處理器等)通??刂埔苿咏K端100的總體操作。 例如,控制器180執(zhí)行與語音通話、數(shù)據(jù)通信、視頻通話等相關(guān)的控 制和處理。此外,控制器180可以包括用于再現(xiàn)(或回放)多媒體數(shù) 據(jù)的多媒體模塊181。多媒體模塊181可以被配置在控制器180內(nèi)或可 以被配置成與控制器180分離。
電源單元l卯接收外部電力(通過電纜連接)或內(nèi)部電力(通過 移動電話的電池),并且提供用于在控制器180的控制之下操作各個 元件和組件所需要的適當(dāng)電力。
可以使用例如計算機(jī)軟件、硬件或其組合,在計算機(jī)可讀介質(zhì)中 實現(xiàn)此處所描述的各種實施例。
對于硬件實現(xiàn),通過使用專用集成電路(ASIC)、數(shù)字信號處理 器(DSP)、數(shù)字信號處理設(shè)備(DSPD)、可編程邏輯設(shè)備(PLD)、 現(xiàn)場可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、設(shè)置成執(zhí)行此處所描述功能的電子單元中的至少一個,可以實現(xiàn)此處 描述的實施例。在一些情形中,這種實施例可以實現(xiàn)在控制器180中。
對于軟件實現(xiàn),諸如進(jìn)程或功能的實施例可以與允許執(zhí)行至少一 種功能或操作的獨立軟件模塊一起實現(xiàn)。通過以任何適當(dāng)?shù)木幊陶Z言 所編寫的軟件應(yīng)用(或程序)可以實現(xiàn)軟件代碼。軟件代碼可以存儲
在存儲器160中,并且由控制器180執(zhí)行。
到目前為止,已經(jīng)從功能的角度描述了該移動終端。下文,將參
考圖2和3,從其功能的角度描述移動終端的外部元件。
可以以多種不同配置來實現(xiàn)移動終端。這些配置的示例包括折疊 型、直板型、旋轉(zhuǎn)型、滑動型、以及各種其他配置。下面的描述將主 要有關(guān)于滑動型移動終端。然而,這種描述可以同樣應(yīng)用于其他類型 的移動終端。
圖2是根據(jù)本發(fā)明的實施例的移動終端的前透視圖。這種移動終 端可以包括第一主體200以及可滑動地沿著至少一個方向相對于第一 主體200而移動的第二主體205。
將第一主體設(shè)置成與第二主體205重疊的狀態(tài)可以被稱為關(guān)閉配 置,如在圖2中所示,將第二主體205的至少一部分暴露出來的狀態(tài) 可以被稱為打開配置。
在關(guān)閉配置中,移動終端主要工作在待機(jī)(或空閑)模式中,并 且在用戶操控時可以解除該待機(jī)模式。在打開配置中,移動終端主要 工作在通話模式等中,并且隨著時間流逝或在用戶操控時,其可以被 改變成待機(jī)模式。
構(gòu)成第一主體200的外觀的殼體(或外殼、外罩、蓋子等)可以包括第一前殼體220以及第一后殼體225。將各種電子組件安裝在第一 前殼體220和第一后殼體225之間的空間中。 一個或多個中間殼體可 以被另外設(shè)置在第一前殼體220和第一后殼體225之間。這些殼體可 以通過注模合成樹月旨(injection-molding a synthetic resin)而形成,或 可以由諸如不銹鋼(STS)或鈦(Ti)等的金屬材料而制成。
顯示單元151、音頻輸出模塊152、照相機(jī)121或第一用戶輸入單 元210可以位于第一主體200上,具體而言,在第一主體200的第一 前殼體220上。顯示單元151可以包括可視地顯示信息的LCD (液晶 顯示裝置)、OLED (有機(jī)發(fā)光二機(jī)管)等。
觸摸板可以以層疊方式覆蓋在顯示單元151上,以允許顯示單元 151用作為觸摸屏,以通過用戶手勢或觸摸輸入而輸入信息。也可以通 過所謂的接近檢測(proximity detection)技術(shù)來實現(xiàn)用戶觸摸輸入,通 過該技術(shù),當(dāng)用戶的手指或觸筆置于屏幕附近而未實際觸摸到屏幕本 身時,就可以被檢測到。
可以以揚聲器或其他聲音產(chǎn)生設(shè)備的形式實現(xiàn)音頻輸出單元152。 照相機(jī)121可以被實現(xiàn)為適合于捕捉關(guān)于用戶和其他對像的圖像或視 頻。
與第一主體200相似,構(gòu)成第二主體205的外觀的殼體可以包括 第二前殼體230和第二后殼體235。第二用戶輸入單元215可以設(shè)置在 第二主體205的前部,具體而言,設(shè)置在第二前殼體230上。第三用 戶輸入單元245、麥克風(fēng)122和接口單元170可以設(shè)置在第二前殼體 230和第二后殼體235中的至少一個上。
第一至第三用戶輸入單元210、 215和245可以被統(tǒng)稱為操控單元 130,并且可將各種方法和技術(shù)用于該操控單元130,只要它們能夠被 用戶以觸覺的方式而操作。例如,用戶輸入單元130可以被實現(xiàn)為薄膜開關(guān)、致動器、或根據(jù)用戶的觸摸操作(例如壓、推、敲擊、拖放 等)而接收用戶命令或信息的觸摸板區(qū)域,或可以被實現(xiàn)為可轉(zhuǎn)動的 控制輪(或盤)、鍵或按鈕、撥動盤、操縱桿等形式。
就其功能而言,將第一用戶輸入單元210用于輸入(鍵入)諸如 啟動、結(jié)束、滾動等的命令,并且將第二用戶輸入單元215用于輸入
(鍵入)數(shù)字、字符、符號等。而且,第三用戶輸入單元245可以支 持所謂的熱鍵功能,該熱鍵功能允許更方便地激活用于該移動終端的 特定功能??梢赃m當(dāng)?shù)貙崿F(xiàn)麥克風(fēng)122 (或其他聲音采集設(shè)備),以檢 測用戶語音輸入、其他聲音等。
接口單元170可以用作通信鏈路(或通道、路徑等),通過該通信鏈 路,終端可以與外部設(shè)備交換數(shù)據(jù)等。例如,接口單元170可以以用 于通過固定或無線裝置將耳機(jī)連接至移動終端的連接端口、用于短程 通信的端口 (例如,紅外數(shù)據(jù)協(xié)會(IrDA)端口、藍(lán)牙(Bluetooth ) 端口、無線LAN端口等)、用于向移動終端供電的電源端口等形式實 現(xiàn)。接口單元170也可以是卡插槽,用于容納SIM (訂戶識別模塊) 卡或UIM (用戶身份模塊)卡,或用于存儲信息的外部卡諸如存儲卡。
用于向終端供電的電源單元190可以位于第二后殼體235。電源單 元190可以是例如能夠被拆卸的可充電電池。
圖3是根據(jù)示例性實施例的圖2中移動終端的后透視圖。如在圖3 中所示,照相機(jī)121 (或其他圖像采集設(shè)備)可以額外地設(shè)置在第二主 體205的第二后殼體235的后表面上。第二主體205的照相機(jī)121可 以具有與第一主體200的照相機(jī)121的圖像捕捉方向基本相反的圖像 捕捉方向(即,這兩個照相機(jī)可以被實現(xiàn)為朝向相反的方向,諸如前 方和后方),并且可以支持與第一主體的照相機(jī)121不同數(shù)目的像素 (即,具有不同的分辨率)。例如,在反向鏈路帶寬容量受限的視頻通話通信等期間,第一主 體200的照相機(jī)121可以以相對較低的分辨率操作,以捕捉用戶面部 的圖像,并且立即將這種圖像實時發(fā)送至另一方。此外,第二主體的照相機(jī)121可以以相對較高的分辨率操作,以捕捉具高畫質(zhì)的一般物體的圖像,這些圖像不需要立即實時傳送,而是可以被存儲以用于未 來査看或使用。額外的照相機(jī)相關(guān)組件,諸如閃光燈250和鏡子255,可以額外地 設(shè)置在第二主體205的照相機(jī)121的附近。當(dāng)使用第二主體205的照 相機(jī)121捕捉對象的圖像時,閃光燈250照亮該對象。當(dāng)用戶希望通 過使用第二主體205的照相機(jī)121捕捉其自己的圖像(即,自身圖像 捕捉)時,鏡子255使用戶可以看到自己。第二后殼體235還可以包括音頻輸出模塊152。該音頻輸出模塊 152與第一主體200的音頻輸出模塊152相結(jié)合可以支持立體聲功能, 并且該音頻輸出模塊152可以被用于在免提模式中發(fā)送和接收聲音。除了用于移動通信的天線以外,還可將廣播信號接收天線260 (外 部地或內(nèi)部地)設(shè)置在第二后殼體235的一側(cè)或區(qū)域。天線260也可 以被配置成可從第二主體205縮回。允許第一主體200和第二主體205相對于彼此滑動的滑動模塊265 的一部分可以被設(shè)置在第一主體200的第一后殼體225上?;瑒幽K 265的另一部份可以設(shè)置在第二主體205的第二前殼體230上,其可以 不暴露出來,如圖3所示。第二照相機(jī)121和其他組件可以設(shè)置在第二主體205上,但這種 配置不意味著被限定。例如,設(shè)置在第二后殼體235上的一個或多個 元件(例如,260、 121和250以及152等)可以安裝在第一主體200 上,主要在第一后殼體225上。在這種情形下,在移動終端100的關(guān)閉配置中,設(shè)置在第一后殼體225上的那些元件可以被第二主體205所保護(hù)(或遮蓋)。此外,即使未將獨立的照相機(jī)設(shè)置在第二主體上,照相機(jī)模塊121也可以被配置成旋轉(zhuǎn)(或移動),從而允許以各種方向捕捉圖像。如圖1至3所示的移動終端100可以被配置成與通過幀或分組而 發(fā)送數(shù)據(jù)的通信系統(tǒng)進(jìn)行操作,該通信系統(tǒng)諸如有線和無線通信系統(tǒng), 以及基于衛(wèi)星的通信系統(tǒng)?,F(xiàn)在將參考圖4,描述根據(jù)本發(fā)明的移動終 端可以在其中進(jìn)行操作的這種通信系統(tǒng)。這種通信系統(tǒng)可以使用不同空中接口和/或物理層。例如,該通信 系統(tǒng)使用的空中接口包括頻分多址(FDMA)、時分多址(TDMA)、 碼分多址(CDMA)以及通用移動通信系統(tǒng)(UMTS)(具體而言,長 期演進(jìn)(LTE))、全球移動通信系統(tǒng)(GSM)等。作為非限定性示 例,下文的描述涉及CDMA通信系統(tǒng),但這些教導(dǎo)同樣應(yīng)用于其他類 型的系統(tǒng)。參考圖4, CDMA無線通信系統(tǒng)可以包括多個移動終端100、多個 基站(BS) 270、基站控制器(BSC) 275、以及移動交換中心(MSC) 280。移動交換中心280被配置成與公共交換電話網(wǎng)絡(luò)(PSTN) 290對 接。MSC280也被配置成與BSC275對接,BSC275可以通過回程線耦 合至基站270。該回程線可以根據(jù)幾個已知接口中的任何一個來配置, 這些已知接口包括,例如,E1/T1、 ATM、 IP、 PPP、幀中繼、HDSL、 ADSL或xDSL。應(yīng)理解的是,如在圖4中所示的系統(tǒng)可以包括多個 BSC275。每個BS270可以服務(wù)于一個或多個扇區(qū)(或區(qū)域),每個扇區(qū)被 全方向天線或指向徑向遠(yuǎn)離BS270的特定方向的天線所覆蓋??蛇x擇 地,每個扇區(qū)可以被用于分集接收的兩個或多個天線所覆蓋。每個 BS270可以被配置成支持多個頻率分配,每個頻率分配具有特定的頻譜(例如,1.25 MHz、 5MHz等)。扇區(qū)和頻率分配的交集可以被稱為CDMA信道。BS270也可以指 基站收發(fā)器子系統(tǒng)(BTS)或其他等效術(shù)語。在這種情形下,術(shù)語"基 站"可被用于共同地指代單個BSC275和至少一個BS270?;疽部梢?被稱為"小區(qū)站點"??蛇x擇地,特定BS270的單獨的扇區(qū)可以被稱 為多個小區(qū)站點。如在圖4中所示的,廣播發(fā)送器(BT) 295將廣播信號發(fā)送給在 系統(tǒng)中操作的移動終端100。將如在圖1中所示的廣播接收模塊111設(shè) 置在移動終端100中,以接收由BT295所發(fā)送的廣播信號。在圖4中,示出了幾個全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300 協(xié)助定位多個終端100的至少一個。在圖4中,描述了兩顆衛(wèi)星300, 但應(yīng)理解的是,可以利用任何數(shù)目的衛(wèi)星來獲取有用的定位信息。如 在圖1中所示的GPS模塊115通常被配置成與衛(wèi)星300相協(xié)作,以獲 取期望的定位信息。作為GPS追蹤技術(shù)的替代,或除了 GPS追蹤技術(shù)以外,可以使用 可追蹤移動終端位置的其他技術(shù)。此外,至少一個GPS衛(wèi)星300可以 選擇性地或額外地處理衛(wèi)星DMB傳輸。作為無線通信系統(tǒng)的一種典型操作,BS270從各種移動終端100 接收反向鏈路信號。移動終端100通常進(jìn)行通話、消息傳送以及其他 類型的通信。由特定基站270所接收的每個反向鏈路信號被在特定 BS270中處理。結(jié)果數(shù)據(jù)被轉(zhuǎn)發(fā)至相關(guān)聯(lián)的BSC275。BSC提供通話資源分配和移 動性管理功能,包括在BS270之間的軟切換過程的協(xié)調(diào)。BSC275也將 接收到的數(shù)據(jù)路由給MSC280, MSC280提供用于與PSTN290對接的額外路由服務(wù)。類似的,PSTN290與MSC280對接,MSC與BSC275 對接,BSC275再控制BS270,以將前向鏈路信號發(fā)送至移動終端100。根據(jù)本發(fā)明的實施例的移動終端包括存儲在存儲器160中的用于 語音識別的算法和用于STT (語音至文本)(Speech To Text)的算法, 并且通過聯(lián)合在該移動終端中設(shè)置的任意功能,語音識別功能和STT 功能,用戶輸入的語音可以被轉(zhuǎn)換成文本。轉(zhuǎn)換后的文本可以被輸出 至該功能的執(zhí)行屏幕。此處,該特定功能可以包括為文本消息或郵件 而創(chuàng)建文本的功能。當(dāng)執(zhí)行文本消息或郵件創(chuàng)建功能時,控制器180 可以激活語音識別功能,并且自動操作STT功能。圖5是示出了根據(jù)本發(fā)明實施例的用于通過使用語音來控制移動 終端的菜單的方法的處理的流程圖。在接收到激活控制信號時,移動 終端的控制器180可以開始激活語音識別功能(S101)??梢允褂迷?激活控制信號來終止激活的語音識別功能。通過操控在該終端中設(shè)置的特定硬件按鈕、在顯示單元151上顯 示的軟件按鈕、通過施加觸摸、或通過操控在顯示單元151上顯示的 特定菜單,可以生成激活控制信號。或者,通過特定聲音、短程無線 信號或遠(yuǎn)程無線信號,或者甚至通過包括用戶手部運動或手勢的人體 運動信息,可以生成該激活控制信號。特定聲音可以包括一種具有特定級別(level)或更高級別的沖擊 聲音,諸如擊掌聲音??梢酝ㄟ^使用簡單的聲音級別檢測算法(未示 出)來檢測具有特定級別或更高級別的聲音。較之語音識別算法,聲 音級別檢測算法相對簡單,消耗較少量的移動終端的資源。聲音級別 檢測算法(或電路)可以被配置成從語音識別算法(或電路)分離, 或者可以被實現(xiàn)為限制語音識別算法的部分功能。通過無線通信單元110可以接收無線信號,并且通過傳感單元140可以接收用戶的手部運動或手勢。用于接收激活控制信號的無線通信 單元110、用戶輸入單元130和傳感單元140可以被統(tǒng)稱為信號輸入單 元。當(dāng)語音識別功能被激活時,控制器參考特定數(shù)據(jù)庫來分析通過麥克風(fēng)122所接收的語音數(shù)據(jù)或語音指令的上下文(context)或內(nèi)容, 以確定該語音指令的含義(S103、 S104)。此處,隨著語音識別功能被激活,被參考以識別語音指令含義的 數(shù)據(jù)庫的信息域可以被指定為與特定功能或菜單相關(guān)的信息(S102)。例如,該指定信息域可以被指定為與當(dāng)前在顯示單元151上輸出的菜 單相關(guān)的信息,或被指定為與從多個菜單中選擇的特定菜單的子菜單 相關(guān)的信息。因為被參考以識別語音指令的數(shù)據(jù)庫的信息域被指定了, 所以語音指令的識別率能夠被進(jìn)一步提高。與子菜單相關(guān)的信息可以被配置為數(shù)據(jù)庫。該信息可以具有關(guān)鍵 詞形式,并且多個信息可以對應(yīng)于一個功能或一個菜單。可以根據(jù)信 息的特性來配置多個數(shù)據(jù)庫,并且可以將該多個數(shù)據(jù)庫存儲在存儲器 160中。通過學(xué)習(xí),可以更新每個數(shù)據(jù)庫中所配置的信息。此外,為了 改善語音指令的識別率,每個數(shù)據(jù)庫的信息可以被指定為與當(dāng)前輸出 的功能或菜單相關(guān)的信息。隨著菜單深度的增加,該信息域可以被改 變。在輸入的語音指令被臨時存儲以后,當(dāng)激活的語音識別功能被終 止時,立即啟動用于確定語音指令含義的操作,或者當(dāng)在語音識別功 能被激活的狀態(tài)中輸入語音指令時,可以同時執(zhí)行用于確定語音指令 含義的操作。同時,雖然語音識別功能處于激活狀態(tài),控制器也可以不斷地驅(qū) 動用于檢測觸摸或按鈕輸入的算法。因此,即使在語音識別功能被激 活的狀態(tài)中,控制器180除了通過語音指令以外也可以通過諸如觸摸 或按鈕的任何其他輸入單元來選擇或執(zhí)行特定菜單(S109、 S110)。當(dāng)語音指令的含義被確定時,控制器180可以輸出相應(yīng)結(jié)果 (S105)。該結(jié)果可以包含控制信號,該控制信號用于執(zhí)行與功能或 服務(wù)相關(guān)的菜單,該功能或服務(wù)對應(yīng)于語音指令的含義,或者該控制 信號用于控制該終端的特定元件,或者該結(jié)果可以包括與識別的語音 指令相關(guān)的數(shù)據(jù)顯示信息。當(dāng)結(jié)果被輸出或執(zhí)行時,控制器180可以接收有關(guān)結(jié)果是否正確 的用戶配置(S106)。例如,如果語音指令具有低識別率或被識別為 具有多個含義,則控制器180輸出與每個含義相關(guān)的多個菜單,并且 根據(jù)用戶選擇來執(zhí)行它們?;蛘?,控制器可以簡單地詢問是否執(zhí)行具 有高識別率的特定菜單,并且根據(jù)用戶選擇或響應(yīng)來執(zhí)行或顯示相應(yīng) 的功能或菜單。通過輸出消息或語音(例如,希望執(zhí)行文本消息創(chuàng)建功能嗎?請 回答是或否,如果不回復(fù),在五秒鐘后將自動執(zhí)行文本消息創(chuàng)建功能), 可以向用戶確認(rèn)是否執(zhí)行特定菜單。相應(yīng)地,用戶可以通過使用語音或其他輸入單元進(jìn)行響應(yīng)(例如,1:是;2:否),并且該其他輸入單元可以包括硬件按鈕或軟件按鈕或觸摸(or in a touch)。如果沒有 來自用戶的響應(yīng),則控制器180可以將其確定為肯定響應(yīng),并且自動 執(zhí)行該功能或菜單(S107)。如果用戶的響應(yīng)是否定的,即,如果語 音指令的含義未被準(zhǔn)確確定,則可以執(zhí)行錯誤處理過程(S108)。在錯誤處理過程中,再次接收語音指令或者顯示具有特定識別率 或更高識別率的多個菜單(或被解釋為具有相似含義的多個菜單), 然后,用戶可以選擇其中一個。如果具有特定識別率或更高識別率的 功能或菜單的數(shù)目小于一個特定數(shù)目(例如,兩個),則該功能或該 菜單可以被自動執(zhí)行。圖6A是示出了根據(jù)本發(fā)明實施例用于激活移動終端的語音識別功能的方法的顯示屏的總體視圖。當(dāng)在激活狀態(tài)中保持語音識別功能 時,語音識別算法被不斷地驅(qū)動,增加了資源和功率消耗。因此,為 了減少移動終端不必要的功率或資源消耗,應(yīng)該控制對語音識別功能 的激活的啟動或終止。在本發(fā)明中,用戶輸入單元130的任意按鈕可 以被用于控制該激活(411)。該任意按鈕可以是硬件按鈕、軟件按鈕或在顯示單元151上顯示的圖標(biāo)(411)。軟件按鈕包括在待機(jī)狀態(tài)中的菜單調(diào)用按鈕(menu call button) 。 B卩,在待機(jī)狀態(tài)中當(dāng)菜單調(diào)用按鈕被輸入時,控制器180可 以激活語音識別按鈕,同時輸出菜單列表。此外,如果觸摸了顯示單 元151上沒有顯示內(nèi)容的任意區(qū)域(即,沒有顯示按鈕或菜單圖標(biāo)的 區(qū)域),則可以通過控制器控制語音識別功能的激活(420)。如果具有特定級別或更高級別的聲音被輸入,則控制器180可以 控制語音識別功能的激活(430)。例如,可以以兩種模式來驅(qū)動語音 識別功能。即,可以以第一模式和第二模式來驅(qū)動語音識別功能,在 該第一模式中,簡單地檢測具有特定級別或更高級別的聲音;在第二 模式中,識別語音指令并且確定其含義。當(dāng)在第一模式中輸入具有特 定級別或更高級別的聲音時,第二模式可以被激活,以識別語音指令。當(dāng)短程或遠(yuǎn)程無線信號或包含用戶手部運動或手勢的身體運動信 息被輸入時,可以控制語音識別功能的激活(440)。隨著語音識別功 能被激活,控制器180可以將被參考以用于語音識別的特定數(shù)據(jù)庫的 信息域指定為與在顯示單元151上顯示的菜單列表相關(guān)的信息。如果 特定菜單被從菜單列表中選出或被執(zhí)行,則數(shù)據(jù)庫的信息域可以被指 定為與所選菜單或其子菜單相關(guān)的信息。當(dāng)根據(jù)語音指令或觸摸輸入而選擇或執(zhí)行特定菜單時,控制器180 可以通過語音或以氣球幫助(balloon help)的形式輸出與子菜單相關(guān) 的幫助信息。例如,如在圖6B中所示的,當(dāng)選擇"多媒體菜單"時,與其子菜單(例如,廣播、照相機(jī)、文本查看器、游戲等)相關(guān)的信息可以被輸出為幫助信息(441、 442)?;蛘撸缭趫D6C中所示的,當(dāng)用戶的手指靠近(approach)特定 菜單443以選擇特定菜單時,可以輸出子菜單列表444。當(dāng)在顯示單元 151上顯示時,根據(jù)接近距離(access distance),可以調(diào)整幫助信息的 透明度和亮度。在激活狀態(tài)被保持了一定時間以后,控制器可以自動 終止該激活狀態(tài)。此外,控制器180可以僅在特定按鈕或觸摸被輸入 時保持激活狀態(tài),并且當(dāng)輸入被釋放時,控制器180可以終止該激活 狀態(tài)。而且,如果在激活狀態(tài)啟動之后,在一定時間或更長時間內(nèi)未 輸入語音,則控制器可以自動終止該激活狀態(tài)。圖7A是示出了根據(jù)本發(fā)明實施例用于識別移動終端的語音指令 的方法的處理的流程圖。由于語音識別功能被激活,控制器180可以 將被參考以用于語音識別的信息域指定為與在顯示單元151上顯示的 菜單、其子菜單或當(dāng)前執(zhí)行的功能或菜單相關(guān)的信息(S201)。在語 音識別功能被激活之后接收的語音指令可以被存儲在存儲器160的特 定數(shù)據(jù)庫中(S202、 S203)。當(dāng)在信息域被指定的狀態(tài)中接收到語音指令時,控制器180通過 使用語音識別算法,在數(shù)據(jù)庫的指定信息域中分析語音指令的內(nèi)容和 上下文。為了分析該語音指令,該語音指令可以被轉(zhuǎn)換成文本類型的 信息,并且可以將該文本類型的信息存儲在存儲器160的特定數(shù)據(jù)庫 中(S204)。然而,該語音指令不是必須被轉(zhuǎn)換成文本類型的信息。為了分析內(nèi)容和上下文,控制器180可以檢測在語音指令中包含 的特定詞或關(guān)鍵詞(S205)??刂破?80可以基于檢測到的詞或關(guān)鍵 詞,參考在特定數(shù)據(jù)庫中存儲的信息,來分析語音指令的內(nèi)容和上下 文,并且確定其含義(S206)。被參考數(shù)據(jù)庫的信息域可以被指定為 與當(dāng)前執(zhí)行的功能或菜單相關(guān)的信息域,與參考數(shù)據(jù)庫而確定的語音指令的含義相對應(yīng)的功能或菜單可以被執(zhí)行(S207)。例如,假設(shè)執(zhí)行了文本消息創(chuàng)建功能,然后通過使用STT功能輸入了文本,用于識別語音指令的信息域的優(yōu)先級可以被設(shè)置為與文本 修正相關(guān)的指令,或者與搜索消息傳輸?shù)牧硪环较嚓P(guān)的指令或者與消 息傳輸相關(guān)的指令。因為將用于語音識別的信息域指定為與特定菜單 相關(guān)的信息,所以可以改善語音識別的速度和識別率,并且可以減少 資源的消耗。識別率指的是與在特定菜單中設(shè)置的名稱相一致的程度。通過在 語音指令所包含的信息中與特定功能或菜單相關(guān)的信息的數(shù)目,可以 確定語音指令的識別率。因此,如果語音指令中包含與特定功能或菜 單正好一致的信息,則該語音指令的識別率可能是高的。例如,如在圖7B中所示的,如果輸入了包括六個詞的自然語言的 i吾音指令(例如,我想發(fā)送文本消息(Iwantto send text message)), 則可通過與特定菜單(例如,文本消息)相關(guān)的有意義的詞(例如,"發(fā)送"、"文本"、"消息")的數(shù)目,來確定其識別率。語音指 令中所包含的詞是否與特定功能或菜單相關(guān)可以根據(jù)存儲在數(shù)據(jù)庫中 的信息而不同。例如,在自然語言的語音指令中(例如,我想發(fā)送文 本消息),與菜單無關(guān)的無意義詞可以是語法上的主語(我)或介詞(to)。此處,自然語言是人們在日常生活中通常使用的語言,它區(qū)別于 人為創(chuàng)造的人造語言,并且通過使用自然語言處理算法可以對其進(jìn)行 處理。自然語言可以包括或不包含與特定菜單相關(guān)的準(zhǔn)確名稱,因此, 事實上可能難以以100%的比率精確識別語音指令。因此,如果識別率 高于特定值(例如,80%),就可以認(rèn)為是準(zhǔn)確的。如果存在具有這種 識別率的多個含義(即,如果輸入的語音指令可以被解釋為幾種含義, 每個含義具有相似的識別率),則顯示相應(yīng)的多個菜單,并且根據(jù)用戶選擇而執(zhí)行至少一個功能或菜單。在顯示菜單過程中,可以按照從具有最高識別率的菜單開始的順 序來顯示菜單。例如,如在圖8中所示的,具有最高識別率的菜單圖 標(biāo)可以顯示在更靠近屏幕中心的位置(510)?;蛘?,具有最高識別率的菜單圖標(biāo)可以被顯示為更大或更黑(520)?;蛘?,多個菜單的大小、位置、顏色和對比度中的至少一個可以被按照從具有最高識別率的菜 單開始的順序而不同地顯示,或者可以被加亮突出,或者可以調(diào)整它 們的透明度。在多個顯示的菜單中具有較高用戶選擇性的菜單的識別率可以被 改為更高。即,對于識別率而言,如果一個菜單頻繁被用戶選擇,則 可以學(xué)習(xí)對其選擇的次數(shù),并且關(guān)于該被選菜單的識別率可以被改變。 因此,以相同或相似發(fā)音或內(nèi)容而輸入的語音指令的識別率后來可以 被改變。圖9是示出了根據(jù)本發(fā)明實施例的移動終端的語音指令識別方法的顯示屏的總體圖。假設(shè)該移動終端處于待機(jī)狀態(tài),并且在該待機(jī)狀態(tài)中用戶選擇了特定菜單(例如,消息),則控制器180顯示該被選 菜單的子菜單。然后,控制器180開始在內(nèi)部激活語音識別功能。由 于語音識別功能被激活,控制器180可以根據(jù)預(yù)先設(shè)置的環(huán)境設(shè)置選 項,通過將數(shù)據(jù)庫的信息域指定為與所顯示的子菜單相關(guān)的信息,來 設(shè)置用于識別語音指令的數(shù)據(jù)庫的信息域(610)。隨著子菜單被顯示,控制器180可以從用戶接收語音指令、觸摸 或按鈕,并且選擇特定菜單621。當(dāng)選擇了特定菜單621時,控制器 180可以顯示子菜單(620)。隨著子菜單被顯示(620),當(dāng)輸入自然 語言的語音指令(例如,我想發(fā)送文本消息)時,控制器180檢測與 該特定功能或菜單相關(guān)的有意義的詞或關(guān)鍵詞(例如,發(fā)送、文本、 消息),將它們與特定數(shù)據(jù)庫中與子菜單相關(guān)的信息進(jìn)行比較,并且確定具有最高識別率的含義。然后,控制器180執(zhí)行與該確定的含義 相關(guān)的菜單(例如,發(fā)送文本)。此外,如果根據(jù)語音指令或觸摸輸入而選擇或執(zhí)行了特定菜單, 則根據(jù)終端的操作狀態(tài)或操作模式(例如,用于引導(dǎo)語音識別功能的 模式),控制器180可以通過語音來輸出與子菜單相關(guān)的幫助信息, 或者將該與子菜單相關(guān)的幫助信息輸出為文本形式的氣球幫助。根據(jù)與環(huán)境設(shè)置菜單相關(guān)的選項,可以設(shè)置用于輸出幫助的操作 模式。相應(yīng)地,在本發(fā)明中,無論用戶對于語音指令的熟悉或熟練程 度如何,通過輸入按鈕、觸摸或通過語音指令,可以控制與特定功能 或服務(wù)相關(guān)的菜單。同時,當(dāng)識別出語音指令具有多個含義時,S卩,如果自然語言的 語音指令不包含菜單的準(zhǔn)確名稱,例如,如果用戶希望從"發(fā)送照片"、"發(fā)送郵件(shotmail)"和"發(fā)件箱"中選擇的菜單未被準(zhǔn)確確定,則 控制器180可以顯示具有的識別率為特定值(例如,80%)或更高值的 多個菜單。然而,如果為特定值或更高值的菜單少于兩個,則相應(yīng)的 功能或菜單可以被自動執(zhí)行。圖IO是示出了根據(jù)本發(fā)明實施例用于移動終端的語音識別方法中 的數(shù)據(jù)庫系統(tǒng)的結(jié)構(gòu)圖。該數(shù)據(jù)庫存儲用于確定語音指令的含義的信 息,并且根據(jù)信息的特性,可以配置多個數(shù)據(jù)庫。通過在控制器180 控制下的連續(xù)學(xué)習(xí)處理,可以更新根據(jù)信息的特性而配置的每個數(shù)據(jù) 庫的信息。用于數(shù)據(jù)庫的學(xué)習(xí)處理指的是將由用戶發(fā)出的語音與相應(yīng)的詞進(jìn) 行匹配。例如,如果用戶已經(jīng)念出"等待(waiting)",但是其被識 別為"十八(eighteen)",則用戶可以將"十八"修正為"等待", 從而使控制器180將隨后做出的相同發(fā)音識別為"等待"。通過這種學(xué)習(xí)處理,可以將多個語音信息與在數(shù)據(jù)庫中的信息相匹配。例如,數(shù)據(jù)庫可以包括用于存儲語音信息的第一數(shù)據(jù)庫161,該語 音信息允許通過格式、音節(jié)、或語素而識別通過麥克風(fēng)輸入的用戶的 語音;用于存儲信息(例如,語法,發(fā)音的準(zhǔn)確度,句子結(jié)構(gòu))的第二數(shù)據(jù)庫 162,該信息允許控制器180基于識別的語音信息而確定語音指令的 總體含義;用于存儲與菜單相關(guān)的信息的第三數(shù)據(jù)庫163,該菜單用于 執(zhí)行移動終端的功能或服務(wù);第四數(shù)據(jù)庫164,用于存儲要從移動終端 輸出的消息或語音信息,該消息或語音信息用于用戶對所確定的語音 指令含義的確認(rèn)。第三數(shù)據(jù)庫163可以根據(jù)設(shè)置為用于識別上述語音指令的信息域, 來指定與特定類別的菜單相關(guān)的信息。每個數(shù)據(jù)庫可以存儲語音(發(fā) 音)信息或與語音(發(fā)音)信息相對應(yīng)的格式、音節(jié)、語素、詞、關(guān) 鍵詞或句子信息。因此,控制器180可以通過使用多個數(shù)據(jù)庫161-164中的至少一 個,來確定語音指令的含義,并且執(zhí)行與功能或服務(wù)相關(guān)的菜單,該功 能或服務(wù)對應(yīng)于所確定的語音指令的含義。此外,在本發(fā)明中,通過 使用指示符或圖標(biāo)或特定形狀,可以顯示應(yīng)用了語音指令識別功能或 SST功能的操作狀態(tài)或操作模式。當(dāng)指示符或圖標(biāo)被輸出時,特定聲 音或語音被輸出,以通知用戶。圖ll是示出了根據(jù)本發(fā)明實施例在移動終端中用于確定包含有用 戶強(qiáng)調(diào)發(fā)音的詞的語音指令含義的處理的流程圖。在移動終端的語音 識別功能被激活之后,當(dāng)輸入語音指令時(S301),控制器180通過 使用語音識別算法來分析該語音指令的內(nèi)容和含義,并且從該語音指 令中檢測用戶強(qiáng)調(diào)地發(fā)音(或強(qiáng)調(diào))的詞(S302)。為了檢測強(qiáng)調(diào)地發(fā)音的詞,控制器180可以檢測構(gòu)成該語音指令的每個詞的重音、音量或聲調(diào)。語音指令的多個詞可以被強(qiáng)調(diào),并且 可以通過它們的字符、短語或部分而強(qiáng)調(diào)它們。此外,也可以通過口音(accent)來強(qiáng)調(diào)地發(fā)音該詞。控制器180檢測在該語音指令中強(qiáng)調(diào)地發(fā)音的詞,并且從特定數(shù) 據(jù)庫中搜索與該詞相關(guān)的菜單或功能。即,控制器180確定強(qiáng)調(diào)發(fā)音 的詞包含有意義的信息,以識別語音指令(S303)。而且,作為對語 音指令的識別的結(jié)果,控制器執(zhí)行從數(shù)據(jù)庫中搜索的功能或菜單 (S304)。例如,假設(shè)任意語音指令被輸入,并且用戶已經(jīng)在該語音指令中 強(qiáng)調(diào)地發(fā)音了特定詞,則控制器可以從特定數(shù)據(jù)庫中搜索與特定強(qiáng)調(diào) 的詞相關(guān)的功能或菜單,以便分析語音指令的含義。此處,用于檢測被強(qiáng)調(diào)的特定詞的參考值(例如,參考重音、參考 音量、參考聲調(diào))可以被設(shè)置為絕對值。然而,在這方面,由于重音、 音量或聲調(diào)會根據(jù)用戶而變化,所以優(yōu)選地,將該參考值設(shè)置為相對 于其他詞的相對值。因為將作為語音指令而輸入的詞的平均值設(shè)置為 參考值,所以相對值是有益的,因為參考值可以根據(jù)用戶而適當(dāng)變化。可選擇地,勝于設(shè)置參考值以檢測被強(qiáng)調(diào)的詞,可以使用順序地 檢測具有重音、音量或聲調(diào)的最高值的詞的方法。在這種情形下,如 果檢測太多的詞,將難以確定它們的含義,以及在單個語音指令中要 被檢測的詞的數(shù)目(例如,兩個至三個)或比率(例如,30%)。將用于檢測用戶所強(qiáng)調(diào)的特定詞的參考值存儲在存儲器160中。 通過使用與用戶所強(qiáng)調(diào)發(fā)音的詞相關(guān)的信息來指定用于語音識別的信 息范圍,語音識別速度和語音識別率可以得到改善,并且可以減少移 動終端的資源消耗。圖12是示出了根據(jù)本發(fā)明實施例用于在移動終端中確定包含有用 戶強(qiáng)調(diào)發(fā)音的詞的語音指令含義的方法的顯示屏總體視圖。在移動終 端的語音識別功能被激活的狀態(tài)下,當(dāng)語音指令被輸入時,控制器180 從語音指令中檢測用戶強(qiáng)調(diào)地發(fā)音的詞。例如,如在圖12 (a)中所示的,如果假設(shè)用戶已經(jīng)輸入了任意語 音指令(例如,我想"看"我的"照片"),并且強(qiáng)調(diào)地發(fā)音了 "看" 和"照片",則控制器180可以將用于識別語音指令的信息范圍限定 在與如上所述的"看"和"照片"相關(guān)的信息范圍內(nèi)。通過將參考其他附圖如上所述的用于確定語音指令含義的方法進(jìn) 行組合,控制器確定輸入的語音指令的含義。S卩,存在著用戶有意識 或無意識地強(qiáng)調(diào)與希望被執(zhí)行的功能相關(guān)的詞的傾向。因此,在通過 使用用戶強(qiáng)調(diào)的詞信息來確定語音指令的含義的過程中,控制器180 可以更容易地確定該語音指令的含義??刂破?80執(zhí)行與所確定的該 語音指令(例如,"我想看我的照片")的含義相關(guān)的功能或菜單(例如,相冊)。此處,如在圖12 (b),在執(zhí)行所確定的菜單之前,控制器180 可以向用戶輸出與要被執(zhí)行的菜單相關(guān)的選擇信息或幫助信息(711、 712),并且在接收到用戶對其的響應(yīng)時,執(zhí)行該菜單。如上所述,可 以以語音(711)或以氣球幫助的文本格式(712)來輸出選擇信息或 幫助信息。圖13是示出了根據(jù)本發(fā)明實施例在移動終端中當(dāng)將語音轉(zhuǎn)換成文 本吋強(qiáng)調(diào)地顯示特定詞的處理的流程圖。假設(shè)通過使用移動終端的STT功能,將用戶輸入的語音轉(zhuǎn)換成文 本并且將其自動輸入為消息內(nèi)容。以下所述的語音消息指的是以語音 輸入的消息內(nèi)容,文本消息指的是通過將語音內(nèi)容轉(zhuǎn)換成文本所得到的內(nèi)容。如所示的,當(dāng)用戶輸入語音消息(S401)時,控制器180將語音消息轉(zhuǎn)換成文本消息(S402)。然后,控制器從語音消息檢測用 戶強(qiáng)調(diào)地發(fā)音的詞(S403)。為了將語音消息轉(zhuǎn)換成文本消息,控制器180可以使用任意的STT 算法。此外,控制器180可以使用用于檢測被強(qiáng)調(diào)發(fā)音的詞的算法。 在下文,為了方便起見,將該算法稱為"被強(qiáng)調(diào)詞檢測算法",以便 區(qū)別于STT算法。"被強(qiáng)調(diào)詞檢測算法"可以將輸入的語音中的每個詞的重音、音 量或聲調(diào)與參考值進(jìn)行比較,并且通過高于參考值而檢測用戶強(qiáng)調(diào)地 發(fā)音的字符或詞。可選擇地,其可以順序地檢測具有最高重音、音量 或聲調(diào)的字符或詞,而不將它們與參考值進(jìn)行比較。在將語音消息轉(zhuǎn)換成文本消息的過程中,控制器180根據(jù)預(yù)先設(shè) 置的方法來檢測用戶強(qiáng)調(diào)地發(fā)音的詞并且顯示,以使得它們相比其他詞 而得到相對強(qiáng)調(diào)(S404)。例如,如在圖14中所示的,控制器180可以檢測在用戶發(fā)出的語 音(我想"看"我的"照片")中的每個詞的a)聲調(diào),b)重音,或c) 音量,并且檢測用戶所強(qiáng)調(diào)的字符或詞。在檢測到用戶強(qiáng)調(diào)地發(fā)音的字符或詞之后,根據(jù)預(yù)先設(shè)置的格式 可以改變該詞的顏色或亮度(對比度),該詞的字體、大小或粗細(xì)可 以被改變,該詞可以被改變成預(yù)先設(shè)置的特定圖像,或者諸如動畫的特 殊效果可以被應(yīng)用至該詞,以便強(qiáng)調(diào)該詞。用于強(qiáng)調(diào)地顯示特定詞的方法可以通過環(huán)境設(shè)置選項(未示出) 來預(yù)先設(shè)置,或者在語音消息被輸入的同時通過輸入語音而設(shè)置。當(dāng) 在語音消息被輸入的同時輸入語音指令時,用戶可以強(qiáng)調(diào)地念出語音指令或念出預(yù)先設(shè)置菜單的準(zhǔn)確標(biāo)題,從而提高語音消息和語音指令 的識別率。圖15是示出了根據(jù)本發(fā)明實施例在移動終端中用于當(dāng)將語音轉(zhuǎn)換 成文本時強(qiáng)調(diào)地顯示特定詞的方法的顯示屏總體視圖。如圖所示,假 設(shè)用戶執(zhí)行文本消息或電子郵件創(chuàng)建成功能并且以語音輸入其內(nèi)容,如在圖15 (a)和圖15 (b)中所示的,則控制器180通過使用存儲在 存儲器160中的任意(或預(yù)定)STT算法,來將用戶輸入的語音轉(zhuǎn)換 成文本。此時,控制器180從語音消息中檢測用戶強(qiáng)調(diào)地發(fā)音的字符或詞。 此處,如在圖14中所示的,通過使用重音、音量或聲調(diào),用戶可以強(qiáng) 調(diào)地發(fā)音特定字符或詞。當(dāng)檢測到用戶所強(qiáng)調(diào)的字符或詞時,如在圖15 (c)中所示,控制 器180可以改變檢測到的字符或詞的字體以將其顯示為大寫,改變檢 測到的字符或詞的顏色,或者在各個字符或詞之間自動輸入標(biāo)點符號 (例如,句號、頓號、引號、括號)以顯示它們。一旦完成了使用語音的文本輸入,用戶可以通過操控特定硬件鍵 或軟件鍵,通過施加觸摸(例如,長時間觸摸(long touch)、雙觸摸(double touch)、接近觸摸(proximity touch)),或通過使用語音指令,來終止被 執(zhí)行的功能。在如上所述的實施例中,己經(jīng)描述了通過將語音指令識別功能與 STT功能相區(qū)別而進(jìn)行處理的方法。然而,可以增加用于確定用戶輸 入的語音是指令還是單純消息的處理。g卩,如果用戶輸入的語音是指 令,則可以執(zhí)行相應(yīng)的功能,如果用戶輸入的語音不是指令,則該語 音可以被轉(zhuǎn)換成文本。此處,通過使用語音而輸入文本可以被應(yīng)用于任何功能,只要其 可將諸如備忘錄、日程或任務(wù)表的文本輸入到上述文本消息或電子郵 件發(fā)送功能。在本發(fā)明的實施例中,可以將上述方法實現(xiàn)為在程序記錄介質(zhì)中 的可由計算機(jī)讀取的軟件代碼。計算機(jī)可讀介質(zhì)可以包括各種類型的記錄設(shè)備,在這些記錄設(shè)備中存儲著能夠被計算機(jī)系統(tǒng)讀取的數(shù)據(jù)。計算機(jī)可讀介質(zhì)可以包括ROM、 RAM、 CD-ROM、磁帶、軟盤、光數(shù)據(jù)存儲設(shè)備等。此外,計算機(jī)可以包括終端的控制器180。由于在不脫離示例性實施例的特性的條件下,可以以多種形式實 現(xiàn)示例性實施例,因此應(yīng)理解的是,除非另有說明,上述實施例不受 前面描述的任何細(xì)節(jié)所限制,而是應(yīng)在如所附權(quán)利要求所定義的范圍 內(nèi)作最廣泛的解釋。因此,落入權(quán)利要求的范圍內(nèi)或落入這種范圍的 等價物之內(nèi)的各種更改和修改應(yīng)被包含在所附權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.一種移動終端,包括麥克風(fēng),其被配置成接收用戶的語音;控制器,其被配置成將接收到的語音轉(zhuǎn)換成相應(yīng)的文本,并且從接收到的語音中檢測用戶強(qiáng)調(diào)地發(fā)音的字符或詞;以及顯示單元,其被配置成當(dāng)顯示所述文本時,以預(yù)先設(shè)置的格式強(qiáng)調(diào)地顯示檢測到的字符或詞。
2. 根據(jù)權(quán)利要求l所述的移動終端,其中,所述控制器檢測在語 音中被用戶以字符、詞、短語或部分為單位而強(qiáng)調(diào)的發(fā)音。
3. 根據(jù)權(quán)利要求l所述的移動終端,其中,所述控制器將接收到 的語音的每個字符或詞的重音、音量或聲調(diào)與預(yù)先設(shè)置的特定參考值 相比較,并且將具有的重音、音量或聲調(diào)值大于所述預(yù)先設(shè)置的特定 參考值的字符或詞檢測為被強(qiáng)調(diào)的字符或詞。
4. 根據(jù)權(quán)利要求1所述的移動終端,其中,所述控制器在接收到 的語音的字符或詞中順序地檢測具有最高的重音、音量或聲調(diào)值的字 符或詞,作為被強(qiáng)調(diào)的字符或詞。
5. 根據(jù)權(quán)利要求4所述的移動終端,其中,所述控制器在預(yù)先設(shè) 置的數(shù)目或比率內(nèi),順序地檢測所述被強(qiáng)調(diào)的字符或詞。
6. 根據(jù)權(quán)利要求1所述的移動終端,其中,所述控制器提供控制, 以改變所述被強(qiáng)調(diào)的字符或詞的顏色、亮度、字體、大小或粗細(xì),將 所述被強(qiáng)調(diào)的字符或詞改變?yōu)轭A(yù)先設(shè)置的特定圖像,將諸如動畫的特 殊效果應(yīng)用于所述被強(qiáng)調(diào)的字符或詞,或在所述被強(qiáng)調(diào)的字符或詞之 間自動輸入標(biāo)點符號,以及顯示所述被強(qiáng)調(diào)的字符或詞。
7. —種移動終端的語音識別方法,所述方法包括-接收和識別用戶的語音;將接收到的語音轉(zhuǎn)換成相應(yīng)的文本并且顯示所述文本; 從接收到的語音中檢測由用戶強(qiáng)調(diào)地發(fā)音的字符或詞;以及 當(dāng)將接收到的語音轉(zhuǎn)換成文本時,以預(yù)先設(shè)置的格式,強(qiáng)調(diào)地顯 示被強(qiáng)調(diào)發(fā)音的字符或詞。
8. 根據(jù)權(quán)利要求7所述的方法,其中,在識別用戶的語音的過程 中,從所述接收到的語音中檢測由用戶強(qiáng)調(diào)的字符、詞、短語或部分 的單位。
9. 根據(jù)權(quán)利要求7所述的方法,其中,將所述接收到的語音的每個字符或詞的重音、音量或聲調(diào)與預(yù)先設(shè)置的參考值進(jìn)行比較,并且 將具有的重音、音量或聲調(diào)值大于特定的預(yù)先設(shè)置的參考值的字符或 詞檢測為被強(qiáng)調(diào)的字符或詞。
10. 根據(jù)權(quán)利要求7所述的方法,其中,在所述接收到的語音的 字符或詞中,順序地檢測具有最高的重音、音量或聲調(diào)值的字符或詞 以作為被強(qiáng)調(diào)的字符或詞。
11. 根據(jù)權(quán)利要求7所述的方法,其中,在強(qiáng)調(diào)地顯示被強(qiáng)調(diào)發(fā) 音的字符或詞的過程中,改變被強(qiáng)調(diào)的字符或詞的顏色、亮度、字體、 大小或粗細(xì),將所述被強(qiáng)調(diào)的字符或詞改變?yōu)轭A(yù)先設(shè)置的特定圖像, 將諸如動畫的特殊效果應(yīng)用于所述被強(qiáng)調(diào)的字符或詞,或在所述字符 或詞之間自動輸入標(biāo)點符號。
12. 根據(jù)權(quán)利要求7所述的方法,還包括區(qū)別所述接收到的語音是指令還是要被轉(zhuǎn)換成文本的單純語音消 息;以及如果所述接收到的語音是指令,則將用戶強(qiáng)調(diào)的字符或詞作為有意義的信息而進(jìn)行參考,來識別語音指令的含義。
13. —種移動終端包括麥克風(fēng),其被配置成接收念出一個或多個字符或詞的用戶的語音; 控制器,其被配置成將念出的一個或多個字符或詞轉(zhuǎn)換成相應(yīng)的文本,并且額外地檢測所述一個或多個字符或詞中在念出時被強(qiáng)調(diào)的 至少一個;以及顯示單元,其被配置成顯示所述一個或多個字符或詞的相應(yīng)的文 本,所述一個或多個字符或者詞包括被強(qiáng)調(diào)的至少一個或多個字符或 詞。
14. 根據(jù)權(quán)利要求13所述的移動終端,其中,所述相應(yīng)的文本是 第一格式,所述一個或多個字符中被強(qiáng)調(diào)的至少一個是第二格式。
15. 根據(jù)權(quán)利要求14所述的移動終端,其中,就顏色、亮度、對 比度、字體、大小、粗細(xì)、預(yù)先設(shè)置的特定圖像、和/或特殊效果而言, 所述第二格式不同于所述第一格式。
16. 根據(jù)權(quán)利要求14所述的移動終端,其中,所述一個或多個字 符或詞中僅部分是所述第二格式。
17. 根據(jù)權(quán)利要求16所述的移動終端,其中,所述顯示單元是觸 摸屏。
全文摘要
本發(fā)明涉及移動終端和用于識別其語音的方法,公開了一種方法和實現(xiàn)該方法的移動終端,該方法用于從輸入移動終端的語音中檢測用戶強(qiáng)調(diào)的字符或詞,以將其作為用于語音識別的有意義的信息,或者在將輸入的語音轉(zhuǎn)換成本文時,以預(yù)先設(shè)置的格式來強(qiáng)調(diào)地顯示用戶所強(qiáng)調(diào)的字符或詞。該移動終端包括麥克風(fēng),用于接收用戶的語音;控制器,用于將接收到的語音轉(zhuǎn)換成相應(yīng)的文本,并且從該語音中檢測用戶強(qiáng)調(diào)地發(fā)音的字符或詞;以及顯示單元,用于當(dāng)顯示轉(zhuǎn)換后的文本時,以預(yù)先設(shè)置的格式來強(qiáng)調(diào)地顯示檢測到的字符或詞。
文檔編號G10L15/18GK101604521SQ20091014104
公開日2009年12月16日 申請日期2009年5月18日 優(yōu)先權(quán)日2008年6月12日
發(fā)明者申宗壕 申請人:Lg電子株式會社