以語音識別來選擇控制客體的裝置及方法
【專利摘要】本發(fā)明涉及一種以語音識別來選擇控制客體的裝置及方法,本發(fā)明的控制客體選擇裝置是以語音識別來選擇控制客體的裝置,其特征在于,包括一個以上的處理裝置,所述一個以上的處理裝置,其構(gòu)成為,基于用戶的語音獲取輸入信息,基于控制客體獲取的至少一個的識別信息與輸入信息匹配,在識別信息中獲取與輸入信息匹配的匹配識別信息,在匹配識別信息中選擇對應(yīng)的控制客體;在使用用戶事前未內(nèi)置控制指令的應(yīng)用程序時,也可以通過語音識別來控制電子裝置,具有可提高該電子裝置的用戶接近性的效果。
【專利說明】以語音識別來選擇控制客體的裝置及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種以語音識別來選擇控制客體的裝置和方法,尤其是利用基于控制客體顯示信息的識別信息來選擇控制客體的裝置和方法。
【背景技術(shù)】
[0002]隨著使用電腦、筆記本電腦、智能手機(jī)、平板電腦、汽車導(dǎo)航儀等電子裝置的用戶越來越多,這些電子裝置與用戶間易于人機(jī)交互的用戶界面的重要性也越來越高。
[0003]一般的用戶界面多是通過鍵盤、鼠標(biāo)、觸控屏幕等輸入裝置進(jìn)行物理性輸入,但是對于無法看到顯示畫面的視覺殘疾人,或是不便于使用操作鍵盤、鼠標(biāo)、觸控屏幕等輸入裝置的用戶來說,通過上述的用戶界面來操作電子裝置是不容易的。
[0004]另外,對于沒有殘疾的人來說,在駕駛中或是雙手拿著行李不便于或是很難對電子裝置進(jìn)行操作時,通過上述用戶界面不易于操作電子裝置。
[0005]由此可見,開發(fā)出可提高電子裝置接近性的用戶界面勢在必行??商岣唠娮友b置接近性的用戶界面中,如分析用戶語音控制電子裝置的語音識別技術(shù)就屬其一。
[0006]為了實現(xiàn)電子裝置利用語音識別技術(shù),通過用戶的語音來進(jìn)行控制,需要事先將可與用戶語音匹配的控制指令內(nèi)置在電子裝置中。
[0007]在將可與用戶語音匹配的控制指令內(nèi)置在平臺端時,通過語音識別,可對相關(guān)電子裝置的基本設(shè)定,如電子裝置的音量或亮度等進(jìn)行控制。
[0008]此外,為了通過語音識別對個性的應(yīng)用程序進(jìn)行控制,在各個應(yīng)用程序上,必須內(nèi)置可與用戶語音匹配的控制指令。
[0009]因此,為了在不支持語音識別的應(yīng)用程序中進(jìn)行語音識別,或是為了添加語音識別功能,需要對應(yīng)用程序進(jìn)行新的開發(fā)或是升級,以便在相關(guān)的應(yīng)用程序上內(nèi)置與用戶語音匹配的控制指令。
[0010]但是,電子裝置和各個電子裝置所搭載的應(yīng)用程序日新月異、多種多樣,在所有的應(yīng)用程序上內(nèi)置與用戶語音匹配的控制指令并不容易,在多種多樣的應(yīng)用程序中實現(xiàn)可聯(lián)動通用的語音識別系統(tǒng)就更為不易。
[0011]綜上所述,支持語音識別的應(yīng)用程序很少,即使支持語音識別,通過語音識別而執(zhí)行的動作也很有限,實質(zhì)上提高電子裝置的接近性也是非常有限的。
[0012]由此可見,開發(fā)通過語音識別來提高電子裝置接近性的技術(shù),是勢在必行的。
【發(fā)明內(nèi)容】
[0013]為了解決上述技術(shù)問題,本發(fā)明的目的在于,提供一種在使用用戶事前未內(nèi)置控制指令的應(yīng)用程序時,也可以通過語音識別控制電子裝置的裝置及方法。
[0014]為了解決上述技術(shù)問題,本發(fā)明的另一目的在于,提供一種通過語音識別可選擇由圖像構(gòu)成的控制客體的裝置和方法。
[0015]本發(fā)明實現(xiàn)上述目的的技術(shù)方案是:一種控制客體選擇裝置,是以語音識別來選擇控制客體的裝置,其特征在于,包括一個以上的處理裝置;所述一個以上的處理裝置的構(gòu)成為,基于用戶的語音獲取輸入信息,基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配,在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息,在所述匹配識別信息中選擇對應(yīng)的控制客體。
[0016]本發(fā)明的另一技術(shù)特征是:所述識別信息是基于所述控制客體的顯示信息而獲取的。
[0017]本發(fā)明的另一技術(shù)特征是:所述識別信息是基于應(yīng)用程序畫面信息而獲取的。
[0018]本發(fā)明的另一技術(shù)特征是:所述識別信息是通過光學(xué)字符識別(0CR:opticalcharacter recognit1n)而獲取的。
[0019]本發(fā)明的另一技術(shù)特征是:所述輸入信息包括分析所述用戶的語音特征而獲取的語音模式信息;所述識別信息和所述輸入信息的匹配包括所述識別信息和所述語音模式信息的匹配。
[0020]本發(fā)明的另一技術(shù)特征是:所述輸入信息包括通過語音識別,由所述用戶的語音而識別的文本(Text);所述識別信息和所述輸入信息的匹配包括所述識別信息和所述文本的匹配。
[0021]本發(fā)明的另一技術(shù)特征是:所述控制客體是通過在顯示所述控制客體的領(lǐng)域中至少一部分領(lǐng)域的輸入事件(input event)或所述控制客體的選擇事件(select1n event)而選擇的。
[0022]本發(fā)明的另一技術(shù)特征是:所述一個以上的處理裝置,在所述控制客體包含文本輸入欄(text input field)時,使所述文本輸入欄活性化,利用所述語音識別功能,自用戶的語音獲取用戶輸入文本(user input text),將所述用戶輸入文本輸入到所述文本輸入欄。
[0023]本發(fā)明實現(xiàn)上述目的的另一技術(shù)方案是:一種控制客體選擇方法,是在電腦裝置中通過語音識別來選擇控制客體的方法,其特征在于,包括:基于用戶的語音獲取輸入信息的步驟;基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配的步驟;在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息的步驟;在所述匹配識別信息中選擇對應(yīng)的控制客體的步驟。
[0024]本發(fā)明的另一技術(shù)特征是:所述識別信息是基于所述控制客體的顯示信息而獲取的。
[0025]本發(fā)明的另一技術(shù)特征是:所述識別信息是基于應(yīng)用程序畫面信息而獲取的。
[0026]本發(fā)明的另一技術(shù)特征是:所述識別信息是通過光學(xué)字符識別(0CR:opticalcharacter recognit1n)而獲取的。
[0027]本發(fā)明的另一技術(shù)特征是:所述輸入信息包括分析所述用戶的語音特征而獲取的語音模式信息;所述識別信息和所述輸入信息的匹配包括所述識別信息和所述語音模式信息的匹配。
[0028]本發(fā)明的另一技術(shù)特征是:所述輸入信息包括通過語音識別,由所述用戶的語音而識別的文本(Text);所述識別信息和所述輸入信息的匹配包括所述識別信息和所述文本的匹配。
[0029]本發(fā)明的另一技術(shù)特征是:所述控制客體是通過在顯示所述控制客體的領(lǐng)域中至少一部分領(lǐng)域的輸入事件(input event)或所述控制客體的選擇事件(select1n event)而選擇的。
[0030]本發(fā)明的另一技術(shù)特征是:在所述控制客體包含文本輸入欄(text input field)時,包括:使所述文本輸入欄活性化的步驟;利用所述語音識別功能,自用戶的語音獲取用戶輸入文本(user input text)的步驟;及將所述用戶輸入文本輸入到所述文本輸入欄的步驟。
[0031]本發(fā)明實現(xiàn)上述目的的另一技術(shù)方案是:一種可電腦判讀的媒體,是儲存指令集的可電腦判讀的媒體,其特征在于,所述指令集因電腦裝置而被執(zhí)行時,可讓所述電腦裝置獲取基于用戶語音的輸入信息,基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配,在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息,在所述匹配識別信息中選擇對應(yīng)的控制客體。
[0032]其他實施方式的具體內(nèi)容包含在本發(fā)明的詳細(xì)說明及說明書附圖中。
[0033]本發(fā)明的有益效果是:依據(jù)本發(fā)明,在使用用戶事前未內(nèi)置控制指令的應(yīng)用程序時,也可以通過語音識別控制電子裝置,具有提高相關(guān)電子裝置接近性的效果。
[0034]依據(jù)本發(fā)明,通過語音識別可選擇由圖像構(gòu)成的控制客體,具有不受構(gòu)成控制客體的構(gòu)成要素的類別影響,可通過語音識別選擇控制客體的效果。
[0035]本發(fā)明的效果并不局限于上述內(nèi)容,本發(fā)明還具有其他多種效果。
【專利附圖】
【附圖說明】
[0036]圖1是本發(fā)明一實施方式的控制客體選擇裝置的方塊圖;
[0037]圖2是本發(fā)明一實施方式的控制客體選擇方法的流程圖;
[0038]圖3圖示了基于控制客體的顯示信息而獲取的識別信息;
[0039]圖4圖示了基于控制客體的文本信息而獲取的識別信息;
[0040]圖5圖示了控制客體的說明信息和基于說明信息而獲取的識別信息;
[0041]圖6是本發(fā)明一實施方式的控制客體選擇裝置的示意圖;
[0042]圖7是本發(fā)明一實施方式的控制客體選擇方法的流程圖;
[0043]圖8是本發(fā)明一實施方式的控制客體的選擇方法的示意圖;
[0044]圖9是本發(fā)明一實施方式的控制客體選擇方法的另一示意圖。
[0045]附圖符號說明
[0046]100、控制客體選擇裝置;110、界面;120、處理器;122、內(nèi)存控制器;124、內(nèi)存;130、顯示部;140、話筒;142、揚聲器;150、160、170、180、應(yīng)用程序;152、154、156、161、162、163、164、165、166、167、168、171、172、173、174、175、176、177、178、179、181、182A、182B、182C、183A、183B、184A、184B、184C、184D、控制客體;167、168B、181A、文本輸入欄;200、控制客體的信息;232、234、236、控制客體的說明信息;242、244、246、控制客體的文本信息;252、252A、252B、254、254A、254B、256、256A、256B、控制客體的顯示信息
【具體實施方式】
[0047]本發(fā)明的優(yōu)點及特征,以及實現(xiàn)其優(yōu)點及特征的方法,將結(jié)合本發(fā)明的附圖,通過以下的實施方式進(jìn)行明確的說明。但是,本發(fā)明并不局限于以下的實施方式,可為多種形態(tài),本發(fā)明的實施方式用于說明本發(fā)明的特征,用于在本發(fā)明的【技術(shù)領(lǐng)域】,向相關(guān)技術(shù)人員說明本發(fā)明的范圍,本發(fā)明的范圍取決于本發(fā)明的權(quán)利要求項的范圍。
[0048]“第一”、“第二”等表現(xiàn)用于說明多種構(gòu)成要素,但是本發(fā)明的構(gòu)成要素并不局限于此。這中表現(xiàn)只用來區(qū)分不同的構(gòu)成要素,也就是說,本發(fā)明中的第一構(gòu)成要素也可以被稱為第二構(gòu)成要素。
[0049]在說明書中所標(biāo)記的相同的符號是指相同的構(gòu)成要素。
[0050]本發(fā)明的多個實施方式的各自特征可部分或全部的結(jié)合或組合,本發(fā)明【技術(shù)領(lǐng)域】的技術(shù)人員可通過充分理解其內(nèi)容,進(jìn)行多種多樣的技術(shù)性聯(lián)動或驅(qū)動,各實施方式可相對獨立,也可結(jié)合實施。
[0051]在本說明書中,在任何一個構(gòu)成要素向其他構(gòu)成要素“傳送”數(shù)據(jù)或信號時,可以是直接傳送所述數(shù)據(jù)或信號,也可以是通過至少一個以上的其他構(gòu)成要素來傳送數(shù)據(jù)和信號。
[0052]“語音識別”一般是指用戶所發(fā)出的聲音被電子裝置分析,并以文本來識別的作業(yè)。具體來說,用戶所發(fā)出聲音的波形被輸入電子裝置時,參照音響型號等,語音波形被分析,從而獲取語音模式信息。另外,所獲取的語音模式信息與識別信息進(jìn)行對比,從而識別出識別信息中一致概率最高的文本。
[0053]在本說明書中,“控制客體”是指在控制客體選擇裝置的畫面上顯示出來,可接收用戶輸入的按鍵等界面,在顯示出來的控制客體上,完成用戶輸入后,控制客體選擇裝置可執(zhí)行事先決定的控制動作。
[0054]控制客體可以是用戶通過對按鍵、確認(rèn)欄、文字輸入欄等的點擊、輸入來選擇的界面,但并不局限于此,也可以是用戶通過鼠標(biāo)或觸控屏等輸入裝置來選擇的所有界面。
[0055]在本說明書中,“輸入信息”是指基于用戶的語音,經(jīng)過前述的部分或是全部的語音識別過程而獲取的信息。比如說,輸入信息可以是分析用戶的語音波形而獲取的語音模式信息。這種語音模式信息為了表現(xiàn)聲學(xué)特征,由按照短區(qū)間從用戶的語音中提取的語音特征系數(shù)構(gòu)成。
[0056]在本說明書中,“識別信息”是指通過控制客體選擇裝置,基于控制客體自動獲取的文本。分析用戶的語音而獲取的語音模式信息若與文本的識別信息匹配,識別信息中一致概率最高的識別信息可被識別。
[0057]識別信息中與用戶的語音一致概率最高的識別信息被識別時,與所識別的識別信息對應(yīng)的控制客體會被選擇。因此,即使未內(nèi)置與用戶的語音相匹配的控制指令,控制客體也會因控制客體選擇裝置被選擇。
[0058]識別信息基于控制客體的顯示信息、應(yīng)用程序的畫面信息、控制客體的文本信息或控制客體的說明信息等而獲取,與此相關(guān)的詳細(xì)說明參照圖3及圖5將另行后述。
[0059]本說明書中,“控制客體的顯示信息”是指顯示特定控制客體時使用的信息。比如說,客體的圖像、符號、控制客體的大小或位置等信息可為顯示信息?;跇?gòu)成顯示信息的各項目的值或該值的屬性,控制客體被顯示在控制客體選擇裝置的畫面上。
[0060]在本說明書中,“應(yīng)用程序的畫面信息”是指在控制客體選擇裝置所執(zhí)行的應(yīng)用程序中,顯示特定畫面時所使用的信息。
[0061]在本說明書中,“控制客體的文本信息”是指指代控制客體的文字列,該文字列可與控制客體一起被顯示。
[0062]在本說明書中,“控制客體的說明信息”是指開發(fā)者為了說明控制客體而記載的信肩、O
[0063]在本說明書中,“用戶輸入文本”是指用戶的語音通過語音識別功能,在控制客體選擇裝置上表現(xiàn)文字的方式。比如說,轉(zhuǎn)換為ASCII碼等的文本。
[0064]接下來,參照說明書附圖,對本發(fā)明的多種實施方式進(jìn)行詳細(xì)的說明。
[0065]圖1是本發(fā)明一實施方式的控制客體選擇裝置的方塊圖。
[0066]如圖1所示,本發(fā)明的一實施方式的控制客體選擇裝置100包括:處理器120、內(nèi)存控制器122、內(nèi)存124。還包括:界面110、話筒140、揚聲器142、顯示部130。
[0067]本發(fā)明一實施方式的控制客體選擇裝置100是可通過語音識別選擇控制客體的電腦裝置,包括一個以上的處理裝置,可以是具備音響輸入功能的電腦、筆記本電腦、智能手機(jī)、平板電腦、汽車導(dǎo)航儀、掌上電腦、便攜式媒體播放器、MP3播放器、電子詞典等終端設(shè)備,或是與這些終端設(shè)備連接的服務(wù)器或由多個電腦構(gòu)成的分散電腦系統(tǒng)。在此,一個以上的處理裝置可包括至少一個以上的處理器120和內(nèi)存124,復(fù)數(shù)個處理器120可共享相互的內(nèi)存124。
[0068]內(nèi)存124儲存程序或指令集等,內(nèi)存124可包括隨機(jī)存取存儲器(RAM;randomaccess memory)、只讀存儲器(ROM;read-only memory)、磁盤裝置、光盤裝置、閃存等。
[0069]內(nèi)存控制器122控制處理器120或界面110等其他組件被格式化成內(nèi)存124。
[0070]處理器120可執(zhí)行儲存在內(nèi)存124上的程序或指令集進(jìn)行實行等的演算。
[0071]界面110將控制客體選擇裝置100的話筒140或揚聲器142等輸入輸出裝置100連接在處理器120及內(nèi)存124上。
[0072]話筒140可接收語音信號,將接收的語音信號轉(zhuǎn)換成電子信號,提供給界面110。揚聲器142接收來自界面110的電子信號,并將其轉(zhuǎn)換成語音信號后輸出。
[0073]顯示部130向用戶顯示視覺性的圖像信息,顯示部130可包括偵測觸控輸入的觸控屏幕顯示。
[0074]本發(fā)明的一實施方式的控制客體選擇裝置100是利用儲存在內(nèi)存124上,由處理器120而實行的程序(以下稱為“控制客體選擇引擎”),通過語音識別來選擇控制客體的。
[0075]控制客體引擎是在控制客體選擇裝置100的背景下而實行的,自應(yīng)用程序獲取控制客體的信息,利用基于控制客體的信息獲取的識別信息,讓控制客體選擇裝置100通過語音識別來選擇控制客體。
[0076]圖2是本發(fā)明一實施方式的控制客體選擇方法的流程圖。圖3圖示了基于控制客體的顯示信息而獲取的識別信息。
[0077]控制客體選擇裝置基于用戶的語音獲取輸入信息S100。
[0078]在此,輸入信息是指分析用戶語音的特征而獲取的語音模式信息,但輸入信息并不局限于此。
[0079]獲取輸入信息后,控制客體選擇裝置將基于控制客體獲取的至少一個的識別信息與輸入信息進(jìn)行匹配S110。
[0080]如圖3所示,在控制客體選擇裝置100上實行地鐵應(yīng)用程序150時,“路線按鍵152”、“時間表按鍵154”、“路徑搜索按鍵156”屬于控制客體。
[0081]依據(jù)本發(fā)明的一實施方式,基于控制客體的顯示信息,可獲取并實現(xiàn)識別信息。
[0082]如圖3所示,在控制客體的信息200中,顯示信息252、254、256可包括決定控制客體大小和位置的項目252A、254A、256A的“width”項目、“height”項目、
[0083]“l(fā)eft”項目及“top”項目,及提供控制客體的圖像鏈接的“img”項目252B、254B、256B等的值。
[0084]前述的項目252A、254A、256A、252B、254B、256B是為了便于說明任意定義的,構(gòu)成控制客體的顯示信息252、254、256的項目的種類、數(shù)量、項目名稱等可做多種多樣的變形來體現(xiàn)。
[0085]如圖3所示,提供控制客體152、154、156的圖像鏈接的“ img”項目252B、254B、256B的值由該控制客體152、154、156的圖像文件路徑(“x.jpg", “y.jpg", “z.jpg”)或顯示圖像的文字列構(gòu)成。
[0086]決定控制客體大小和位置的項目252A、254A、256A中的“width”項目及“height”項目的值,決定控制客體152、154、156的圖像寬度和高度;“l(fā)eft”項目及“top”項目的值,決定控制客體152、154、156的顯示位置,從而可決定該控制客體152、154、156被顯示的領(lǐng)域。
[0087]如圖3所示,“路線按鍵152”因“img”項目252B的“x.jpg”顯示成圖像。在此,“x.jpg”僅為一實施例,控制客體可由多種形式的文件顯示成圖像。
[0088]如圖3所示,該圖像包括可識別為“路線”的文本時,該圖像的光學(xué)字符識別被執(zhí)行,圖像所包括的“路線”文本被識別。
[0089]如上所述,“路線按鍵152”的圖像被光學(xué)字符識別后,“路線”文本被識別時,所識別的文本不屬于識別信息。因此,基于“路線按鍵152”而獲取的識別信息屬于“路線”;以相同的方法,基于“時間表按鍵154”而獲取的識別信息屬于“時間表”;基于“路徑搜索按鍵156”而獲取的識別信息屬于“路徑搜索”。
[0090]識別信息和輸入信息的匹配,也就是通過識別信息和語音模式信息的匹配,將獲取的語音模式與識別信息進(jìn)行對比,判斷具有與該語音模式相同或最近似的模式的識別信肩、O
[0091]另外,識別信息也可以以來自用戶語音的語音模式信息代碼化的方式,代碼化成音素或特定的區(qū)間單位,從而使語音模式信息和識別信息互相匹配。識別信息和語音模式信息匹配時,可使用靜止匹配(static matching)、余弦相似度(cosine similarity)對比、彈性匹配(elastic matching)等。
[0092]控制客體選擇裝置依據(jù)所獲取的識別信息和輸入信息的匹配結(jié)果,來判斷是否有與輸入信息匹配的匹配識別信息S120。
[0093]如上所述,判斷具有與所獲取的語音模式相同或最近似的模式的識別信息是否是匹配識別信息。
[0094]如果判斷出沒有與輸入信息匹配的識別信息時,控制客體選擇裝置在重新獲取輸入信息前會待機(jī)或體現(xiàn)出要求用戶重新發(fā)出語音的要求。
[0095]如果判斷出有與輸入信息相匹配的識別信息時,控制客體選擇裝置獲取該匹配的識別?目息S130。
[0096]如圖3所示,從用戶的語音中獲取“搜索”的輸入信息時,在“路線”、“時間表”、“路徑搜索”識別信息中,至少“路徑搜索”屬于匹配的識別信息。
[0097]獲取匹配的識別信息后,控制客體選擇裝置選擇與匹配的識別信息相對應(yīng)的控制客體S140。
[0098]在此,控制客體的選擇是可通過輸入事件或選擇事件來實現(xiàn)的。
[0099]“事件”是指程序中所偵測的活動或事件,按照事件的類型,舉例來說有用于處理輸入的輸入事件、用于處理輸出的輸出事件、用于選擇特定客體的選擇事件等。
[0100]輸入事件通常是通過鼠標(biāo)、觸控板、觸控屏幕、鍵盤等輸入裝置,進(jìn)行點擊、觸控、鍵入等輸入時而發(fā)生的,但是即使不通過上述輸入裝置進(jìn)行實際輸入,也可以處理虛擬的輸入,發(fā)生輸入事件。
[0101]另外,選擇事件是為了選擇特定控制客體而發(fā)生的,依據(jù)特定控制客體的上述輸入事件,如雙擊或鍵入事件的發(fā)生,來實現(xiàn)特定控制客體的選擇。
[0102]如上所述,依據(jù)本發(fā)明的一實施方式的控制客體選擇裝置,即使事前未內(nèi)置控制指令的應(yīng)用程序,也可以通過語音識別來控制電子裝置,具有提高該電子裝置的用戶接近性的效果。
[0103]另外,依據(jù)本發(fā)明的一實施方式,識別信息基于應(yīng)用程序的畫面信息而被獲取。
[0104]在應(yīng)用程序畫面上顯示控制客體時,應(yīng)用程序畫面的光學(xué)文字字符識別被執(zhí)行,可獲取該應(yīng)用程序的畫面內(nèi)的所有文本。
[0105]在應(yīng)用程序畫面中獲取文本時,需要決定該文本是否屬于特定的控制客體的對應(yīng)識別息。
[0106]由此一來,控制客體選擇裝置判斷在應(yīng)用程序畫面內(nèi)顯示文本的第一領(lǐng)域和與第一領(lǐng)域?qū)?yīng)的第二領(lǐng)域內(nèi)所顯示的控制客體,在第一領(lǐng)域中將文本作為識別信息實現(xiàn)與控制客體的關(guān)聯(lián)。
[0107]在此,與顯示文本的第一領(lǐng)域相對應(yīng)的第二領(lǐng)域,可以是包括顯示文本的區(qū)段(block)的至少一部分的領(lǐng)域、與顯示文本的區(qū)段最臨近的領(lǐng)域、顯示文本的區(qū)段上端或下端的領(lǐng)域。在此,與第一領(lǐng)域?qū)?yīng)的第二領(lǐng)域并不局限于上述內(nèi)容,可為多種多樣的方式。另外,為了判斷在第二領(lǐng)域中所顯示的控制客體,可參照控制客體的顯示信息。
[0108]此外,依據(jù)本發(fā)明的一實施方式,可基于控制客體的文本信息獲取識別信息?;诳刂瓶腕w的文本信息獲取識別信息的構(gòu)成,將參照圖4做以詳細(xì)說明。
[0109]圖4圖示了基于控制客體的文本信息而獲取的識別信息。
[0110]如圖4所示,控制客體的信息200可包括控制客體的文本信息242、244、246。
[0111]當(dāng)控制客體的圖像上包括文本時,通過光學(xué)字符識別等手段識別文本,從而可獲取識別信息;但是在存在控制客體的文本信息時,可從該文本信息馬上獲取作為文本的識別信息。
[0112]在此,控制客體的文本信息的一部分可作為識別信息被獲取。比如說,文本信息由復(fù)數(shù)個詞構(gòu)成時,各詞可作為該控制客體對應(yīng)的個別識別信息而被獲取。
[0113]另外,依據(jù)本發(fā)明的一實施方式,可體現(xiàn)為基于控制客體的說明信息而獲取識別信息?;诳刂瓶腕w的說明信息而獲取識別信息的構(gòu)成,將參照圖5做以詳細(xì)說明。
[0114]圖5圖示了控制客體的說明信息和基于說明信息而獲取的識別信息。
[0115]如圖5所示,控制客體的信息200可包括控制客體的說明信息232、234、236。
[0116]控制客體的圖像中包括文本時,通過光學(xué)字符識別等手段可識別文本,從而獲取作為文本的識別信息;存在控制客體的說明信息時,可參照該說明信息獲取作為文本的識別信息。
[0117]在此,控制客體的說明信息全部可作為識別信息而被獲取。但是,說明信息與前述的文本信息不同,是記入開發(fā)者對該控制客體說明的,該說明整體作為識別信息被獲取時,與輸入信息的匹配準(zhǔn)確度或匹配速度都會降低。
[0118]由此可見,如圖5所示,控制客體的說明信息232、234、236由復(fù)數(shù)個詞構(gòu)成時,僅有一部分的該說明信息作為識別信息而被獲取。另外,可體現(xiàn)為該說明信息的各部分可作為該控制客體相對應(yīng)的個別識別信息而別獲取。
[0119]如圖3至圖5所示,識別信息基于控制客體的多種信息而被獲取,識別信息不一定要對于控制客體僅存在一個,對于自多種信息一起被獲取時,一個控制客體上可對應(yīng)復(fù)數(shù)個識別信息。
[0120]另外,識別信息由控制客體選擇引擎而獲取,可儲存在內(nèi)存上,但是并不局限于此,也可以因所實行的應(yīng)用程序而被獲取,儲存在內(nèi)存上。
[0121]若一個控制客體上對應(yīng)復(fù)數(shù)個識別信息時,復(fù)數(shù)個識別信息間指定優(yōu)先順序,優(yōu)先順序在前的識別信息可被定為匹配識別信息。比如說,基于顯示信息而獲取的識別信息與用戶看到的文本相同,具有最前位的優(yōu)先順序,基于說明信息而獲取的識別信息是開發(fā)者為了便利任意記入的,其優(yōu)先順序則靠后。
[0122]另外,本發(fā)明的一實施方式的控制客體選擇裝置可將控制客體的識別信息或匹配識別信息以語音輸出。
[0123]因為控制客體的識別信息以語音輸出,所以用戶可獲取控制客體選擇裝置可識別的單詞等;匹配識別信息以語音輸出,從而使用戶知道所發(fā)出的聲音最終被識別的單詞是什么,具有即使不看控制客體選擇裝置的畫面,也可以選擇控制客體的效果。
[0124]另外,本發(fā)明的一實施方式的控制客體選擇裝置不論是否有控制客體或應(yīng)用程序畫面的顯示,都可以獲取控制客體的識別信息。對此將參照圖6進(jìn)行詳細(xì)說明。
[0125]圖6是本發(fā)明一實施方式的控制客體選擇裝置的示意圖。
[0126]如圖6所示,根據(jù)控制客體選擇裝置100的畫面分辨率,向用戶所顯示的范圍也會受限制。
[0127]但是,識別信息基于控制客體的信息而被獲取,實際與有無顯示無關(guān)都可獲取識別信息。
[0128]如圖5所示,應(yīng)用程序170不僅對于顯示的控制客體171、172、173、174、175可獲取識別信息,還可對于沒有顯示的控制客體176、177、178、179獲取識別信息。
[0129]由此可見,沒有顯示的控制客體176、177、178、179也可以通過語音識別而被選擇,沒有顯示的控制客體176、177、178、179被選擇時,可實現(xiàn)至該控制客體所在點的自動滾動(auto-scroll )。
[0130]如上所述,依據(jù)本發(fā)明一實施方式的控制客體選擇裝置,即使基于未顯示的控制客體或畫面,也可獲取控制客體的識別信息。
[0131]圖7是本發(fā)明一實施方式的控制客體選擇方法的流程圖;圖8是本發(fā)明一實施方式的控制客體的選擇方法的示意圖。
[0132]圖8的(a)圖示了文本輸入欄167是控制客體167的情況;圖8的(b)圖示了文本輸入欄168b包括在控制客體168上的情況。
[0133]如圖8的(a)及(b)所示,在控制客體選擇裝置100上實行應(yīng)用程序160時,該應(yīng)用程序160中可選擇的控制客體161、162、163、164、165、166、167、168被顯示出來。在此,各控制客體161、162、163、164、165、166、167、168可包括作為識別信息而被獲取的文本。
[0134]控制客體選擇裝置基于用戶的語音而獲取輸入信息S200。
[0135]輸入信息被獲取時,控制客體選擇裝置將基于控制客體而獲取的至少一個的識別信息與輸入信息進(jìn)行匹配S210。
[0136]如圖8 的(a)所示,基于各控制客體 161、162、163、164、165、166、167、168,可獲取“江南車醫(yī)院”、“新論峴站”、“江南站十字路口”、“江南站”、“驛三站”、“萊美樂賓館”、“搜索”、“場所、地址、公共汽車號”的識別信息。
[0137]所獲取的識別信息和輸入信息的匹配結(jié)果,控制客體選擇裝置判斷是否有與輸入信息匹配的匹配識別信息S220。
[0138]若判斷有與輸入信息匹配的匹配識別信息時,控制客體選擇裝置獲取該匹配識別信息S230。
[0139]上述S200、S210、S220、S230 步驟,與圖 2 中的 S100、S110、S120、S130 步驟實質(zhì)上是一樣的,在此不作重復(fù)說明。
[0140]獲取匹配識別信息后,控制客體選擇裝置判斷與匹配識別信息對應(yīng)的控制客體是否包括文本輸入欄S240。
[0141]用戶選擇文本輸入欄的意圖可看作是為了在該文本輸入欄輸入文本。因此,控制客體包括文本輸入欄時,體現(xiàn)為該文本輸入欄內(nèi)可輸入文本。
[0142]若匹配的識別信息對應(yīng)的控制客體不包括文本輸入欄時,控制客體選擇裝置選擇與匹配的識別信息對應(yīng)的控制客體S250。S250步驟與圖2所示的S140步驟實質(zhì)上是相同的,省略重復(fù)說明。
[0143]當(dāng)匹配的識別信息對應(yīng)的控制客體包括文本輸入欄時,控制客體選擇裝置使該文本輸入欄活性化S260。
[0144]如圖8的(a)所示,文本輸入欄167是控制客體167時,該文本輸入欄167被活性化。
[0145]另外,如圖8的(b)所示,文本輸入欄168B不包括作為識別信息獲取的文本時,文本輸入欄168B在自身不獲取識別信息時,可基于包括該文本輸入欄168B的控制客體獲取識別信息(“搜索”)?!八阉鳌弊R別信息對應(yīng)的控制客體168包括文本輸入欄168時,可獲取與“搜索”識別信息匹配的輸入信息,從而使該文本輸入欄168被活性化。
[0146]被活性化的文本輸入欄內(nèi)設(shè)有插入臺。該文本輸入欄被活性化后,控制客體選擇裝置利用語音識別功能,由用戶的語音來獲取用戶輸入文本S270。
[0147]也就是說,在文本輸入欄被活性化后,所接收的用戶語音信號,不會再被識別為用于與識別信息匹配的輸入信息,被轉(zhuǎn)換成用戶輸入文本,可在該文本輸入欄內(nèi)輸入。
[0148]用戶輸入文本被獲取后,控制客體選擇裝置將所獲取的用戶輸入文本輸入到控制客體內(nèi)包括的文本輸入欄上S280。
[0149]用戶輸入文本被輸入到文本輸入欄后,該文本輸入欄非活性化,控制客體選擇裝置通過語音識別可重新選擇控制客體。
[0150]另外,說明用戶輸入文本的輸入結(jié)束的特定輸入信息,如“結(jié)束”、“確認(rèn)”、“下一個”等輸入信息被獲取時,該文本輸入欄非活性化,控制客體選擇裝置可通過語音識別重新選擇控制客體。
[0151]圖9是本發(fā)明一實施方式的控制客體選擇方法的另一示意圖。
[0152]如圖9所示,在本發(fā)明一實施方式的控制客體選擇裝置100上實行網(wǎng)絡(luò)瀏覽器180,可輸入個人信息等多種信息。在此,按照控制客體的類型,控制客體的選擇效果也會有所相異。
[0153]如圖9所示,文本輸入欄或含有文本輸入欄的控制客體181與圖7中說明的內(nèi)容實質(zhì)上是相同的,在此不作重復(fù)說明。
[0154]—般來說,選擇下拉菜單(drop down)項目時,列表被下拉,用戶選擇被下拉德列表中的一個,從而在下拉菜單項目中輸入數(shù)據(jù)。
[0155]但是,通過語音識別選擇下拉菜單項目,在下拉的列表中再選擇一個的過程使用戶非常不便利。也就是說,如圖9所示,用戶為了通過語音識別輸入出生年月日,要經(jīng)過首先“年度”被語音識別,選擇“年度下拉菜單項目182A”后,重新語音識別特定的年度進(jìn)行選擇的過程。
[0156]由此可見,基于下拉菜單項目182A、182B、182C而獲取的識別信息及被下拉的列表中一個被結(jié)合的信息和可被匹配的輸入信息被獲取時,舉例來說,可與“ 1985年”匹配的輸入信息被獲取時,控制客體選擇裝置100可將與在輸入信息中與識別信息對應(yīng)的部分以外的其它信息“1985”下拉的列表匹配的該其它信息“1985”,輸入在下拉菜單項目182A上。
[0157]本發(fā)明一實施方式的控制客體選擇裝置100,如圖9所示,控制客體包括操作按鍵183AU83B或確認(rèn)欄184A、184B、184V、185D時,選擇該操作按鍵183A、183B,或是確認(rèn)確認(rèn)欄 184A、184B、184V、185D。
[0158]另外,依據(jù)本發(fā)明一實施方式,輸入信息也可以是通過自用戶語音獲取的語音模式信息與語言模式數(shù)據(jù)庫對比的過程而被識別的文本。
[0159]輸入信息通過語音識別,自用戶的語音識別文本時,輸入信息和識別信息的匹配因識別的文本和識別信息自身的比較而被實行。
[0160]參附的方塊圖的各方塊和流程圖的各步驟的組合,可因電腦指令而實行。這些電腦指令可以搭載在常用電腦、特殊電腦或其它軟件數(shù)據(jù)處理裝備的處理機(jī)上,通過電腦或其它軟件數(shù)據(jù)處理裝備的處理機(jī)而實行的指令生成在方塊圖的各方塊或流程圖的各步驟中實行說明功能的手段。這些電腦軟件指令為了以特定的方式體現(xiàn)功能,可在電腦或其它軟件數(shù)據(jù)處理裝備的可用于電腦或電腦可讀的內(nèi)存上儲存,因此,在可用于電腦或電腦可讀的內(nèi)存上所儲存的指令包括各方塊圖的方塊或流程圖的各步驟中實行的說明功能的指令手段。電腦軟件指令也可搭載在電腦或其它軟件數(shù)據(jù)處理裝備上,電腦或其它軟件數(shù)據(jù)處理裝備上,相關(guān)的動作步驟被實行,生成電腦實行的處理器,實行電腦或其它軟件數(shù)據(jù)處理裝備的指令可提供方塊圖各方塊及流程圖各步驟中用于說明功能的步驟。
[0161]在本說明書中,各方塊可以為包括用于實現(xiàn)特定的論理功能的一個以上可實行指令的模組、程序或代碼的一部分。另外,在幾種代替實行的舉例中,在方塊圖中所提及的功能也可以是脫離順序而發(fā)生的。舉例來說,陸續(xù)被圖示的兩個方塊也可能是實質(zhì)上同時實行的,也可以是該方塊有時隨著功能而逆順序?qū)嵭小?br>
[0162]與本說明書中所記載的實施方式相關(guān),并被說明的方法或算法的步驟,可以是處理器實行的硬件、軟件模組或其結(jié)合直接體現(xiàn)的。軟件模組可為在RAM內(nèi)存、閃存、ROM內(nèi)存、EPROM內(nèi)存、EEPROM內(nèi)存、寄存器、硬盤、裝拆性盤、CD-ROM或本【技術(shù)領(lǐng)域】內(nèi)供知的任意形態(tài)的儲存媒體。示例性的儲存媒體在處理器上聯(lián)合,處理器可判讀來自媒體的信息,并在儲存媒體上記入信息。采用其他方法,儲存媒體可與處理器為一體形。處理器及儲存媒體可設(shè)在ASIC集成電路內(nèi)。ASIC可設(shè)置的用戶終端機(jī)內(nèi)。采用其他方法,處理器及儲存媒體可各自設(shè)置在用戶終端機(jī)內(nèi)。
[0163]以上結(jié)合本發(fā)明的實施方式,對本發(fā)明作了更加詳細(xì)的說明,但是本發(fā)明并不局限于此,在本發(fā)明技術(shù)思想的范圍內(nèi)可進(jìn)行多種變形。由此可見,本發(fā)明所記載的實施方式并不用于限定本發(fā)明的思想,僅用于說明本發(fā)明,本發(fā)明的技術(shù)思想并不受實時方式的限制。本發(fā)明的保護(hù)范圍在權(quán)利要求書中的權(quán)利要求項內(nèi),在其同等范圍內(nèi)的所有技術(shù)思想均被看作屬于本發(fā)明的權(quán)利范疇之內(nèi)。
【權(quán)利要求】
1.一種控制客體選擇裝置,是以語音識別來選擇控制客體的裝置,其特征在于,包括一個以上的處理裝置; 所述一個以上的處理裝置的構(gòu)成為,基于用戶的語音獲取輸入信息,基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配,在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息,在所述匹配識別信息中選擇對應(yīng)的控制客體。
2.根據(jù)權(quán)利要求1所述的控制客體選擇裝置,其特征在于,所述識別信息是基于所述控制客體的顯示信息而獲取的。
3.根據(jù)權(quán)利要求2所述的控制客體選擇裝置,其特征在于,所述識別信息是基于應(yīng)用程序畫面信息而獲取的。
4.根據(jù)權(quán)利要求2或3所述的控制客體選擇裝置,其特征在于,所述識別信息是通過光學(xué)字符識別(OCR:optical character recognit1n)而獲取的。
5.根據(jù)權(quán)利要求1所述的控制客體選擇裝置,其特征在于,所述輸入信息包括分析所述用戶的語音特征而獲取的語音模式信息;所述識別信息和所述輸入信息的匹配包括所述識別信息和所述語音模式信息的匹配。
6.根據(jù)權(quán)利要求1所述的控制客體選擇裝置,其特征在于,所述輸入信息包括通過語音識別,由所述用戶的語音而識別的文本(Text);所述識別信息和所述輸入信息的匹配包括所述識別信息和所述文本的匹配。
7.根據(jù)權(quán)利要求1所述的控制客體選擇裝置,其特征在于,所述控制客體是通過在顯示所述控制客體的領(lǐng)域中至少一部分領(lǐng)域的輸入事件(input event)或所述控制客體的選擇事件(select1n event)而選擇的。
8.根據(jù)權(quán)利要求1所述的控制客體選擇裝置,其特征在于,所述一個以上的處理裝置,在所述控制客體包含文本輸入欄(text input field)時,使所述文本輸入欄活性化,利用所述語音識別功能,自用戶的語音獲取用戶輸入文本(user input text),將所述用戶輸入文本輸入到所述文本輸入欄。
9.一種控制客體選擇方法,是在電腦裝置中通過語音識別來選擇控制客體的方法,其特征在于,包括:基于用戶的語音獲取輸入信息的步驟;基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配的步驟;在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息的步驟;在所述匹配識別信息中選擇對應(yīng)的控制客體的步驟。
10.根據(jù)權(quán)利要求9所述的控制客體選擇方法,其特征在于,所述識別信息是基于所述控制客體的顯示信息而獲取的。
11.根據(jù)權(quán)利要求10所述的控制客體選擇方法,其特征在于,所述識別信息是基于應(yīng)用程序畫面信息而獲取的。
12.根據(jù)權(quán)利要求10或11所述的控制客體選擇方法,其特征在于,所述識別信息是通過光學(xué)字符識別(OCR:optical character recognit1n)而獲取的。
13.根據(jù)權(quán)利要求9所述的控制客體選擇方法,其特征在于,所述輸入信息包括分析所述用戶的語音特征而獲取的語音模式信息;所述識別信息和所述輸入信息的匹配包括所述識別信息和所述語音模式信息的匹配。
14.根據(jù)權(quán)利要求9所述的控制客體選擇方法,其特征在于,所述輸入信息包括通過語音識別,由所述用戶的語音而識別的文本(Text);所述識別信息和所述輸入信息的匹配包括所述識別信息和所述文本的匹配。
15.根據(jù)權(quán)利要求9所述的控制客體選擇方法,其特征在于,所述控制客體是通過在顯示所述控制客體的領(lǐng)域中至少一部分領(lǐng)域的輸入事件(input event)或所述控制客體的選擇事件(select1n event)而選擇的。
16.根據(jù)權(quán)利要求9所述的控制客體選擇方法,其特征在于,在所述控制客體包含文本輸入欄(text input field)時,包括:使所述文本輸入欄活性化的步驟;利用所述語音識別功能,自用戶的語音獲取用戶輸入文本(user input text)的步驟;及將所述用戶輸入文本輸入到所述文本輸入欄的步驟。
17.—種可電腦判讀的媒體,是儲存指令集的可電腦判讀的媒體,其特征在于,所述指令集因電腦裝置而被執(zhí)行時,可讓所述電腦裝置獲取基于用戶語音的輸入信息,基于控制客體獲取的至少一個的識別信息與所述輸入信息匹配,在所述識別信息中獲取與所述輸入信息匹配的匹配識別信息,在所述匹配識別信息中選擇對應(yīng)的控制客體。
【文檔編號】G06F3/01GK104347075SQ201410100205
【公開日】2015年2月11日 申請日期:2014年3月18日 優(yōu)先權(quán)日:2013年8月2日
【發(fā)明者】申宗元, 金澀冪, 鄭姜理, 多全仁, 尹延森, 金京順 申請人:迪歐泰克有限責(zé)任公司