本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,特別涉及一種語音控制方法及系統(tǒng)。
背景技術(shù):
語音助手能夠?yàn)槲覀儙砗芏啾憬荨N覀兛梢酝ㄟ^語音助手,利用語音控制打開系統(tǒng)安裝的計(jì)算機(jī)應(yīng)用程序(APP)。
目前,流行的大部分廠商所支持的語音助手軟件,不能很好的支持第三方軟件的語音控制操作,只能做一些簡單的第三方應(yīng)用程序打開的操作。而不能對(duì)第三方程序中的每一個(gè)界面進(jìn)行控制和操作。另外,也有一些發(fā)明,采用提取界面元素標(biāo)簽進(jìn)行保存到運(yùn)行時(shí)庫,語音識(shí)別的時(shí)候匹配標(biāo)簽進(jìn)行預(yù)定義動(dòng)作的操作,這種發(fā)明一方面需要提取界面元素標(biāo)簽,另外一方面需要預(yù)定義基本操作。在某些界面元素比較接近或者相同的情況下,容易造成不同的界面元素對(duì)應(yīng)相同標(biāo)簽的情況;在某些界面元素不存在或者是非文字標(biāo)簽的時(shí)候會(huì)造成無法提取界面元素標(biāo)簽的情況。而且這種發(fā)明需要預(yù)定義基本操作的動(dòng)作,因此,其只能執(zhí)行預(yù)定義的動(dòng)作。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種語音控制方法及系統(tǒng),能夠?qū)Φ谌匠绦蛑械拿恳粋€(gè)界面進(jìn)行控制和操作。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種語音控制方法,用于控制計(jì)算機(jī)應(yīng)用程序APP,該方法包括:
A、根據(jù)用戶對(duì)APP界面控件的操作,攔截到每一操作對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
B、為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽,形成標(biāo)簽記錄;
C、根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
D、在所述APP界面上的坐標(biāo)位置執(zhí)行對(duì)應(yīng)動(dòng)作。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明還提供了一種語音控制系統(tǒng),用于控制計(jì)算機(jī)應(yīng)用程序APP,該系統(tǒng)包括:
攔截模塊,根據(jù)用戶對(duì)APP界面控件的操作,攔截到每一操作對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
標(biāo)簽識(shí)別模塊,為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽,形成標(biāo)簽記錄;根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
動(dòng)作控制模塊,在所述APP界面上的坐標(biāo)位置執(zhí)行對(duì)應(yīng)動(dòng)作。
綜上所述,本發(fā)明實(shí)施例提供的語言控制方法及裝置,在攔截動(dòng)作的同時(shí),利用語音識(shí)別技術(shù)自定義每個(gè)動(dòng)作的語音識(shí)別標(biāo)簽。通過這種方式,系統(tǒng)不僅可以捕捉用戶的每一個(gè)操作動(dòng)作和該動(dòng)作發(fā)生在屏幕上的位置。而且,由于是自定義的語音識(shí)別標(biāo)簽,因此,可以完全避免標(biāo)簽相同或者不能獲取標(biāo)簽的情況發(fā)生。另外,本發(fā)明通過動(dòng)作捕捉的方式,而不是利用截圖識(shí)別可操作區(qū)域的方式,因此,不需要存儲(chǔ)大量的圖片,也不需要利用圖像識(shí)別技術(shù)去識(shí)別每一張圖片的可操作區(qū)域。因此,不存在占用存儲(chǔ)器空間,降低系統(tǒng)執(zhí)行效率和浪費(fèi)電能的情況。
附圖說明
圖1為本發(fā)明優(yōu)選實(shí)施例語音控制方法的流程示意圖。
圖2為本發(fā)明實(shí)施例語音控制系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉實(shí)施例,對(duì)本發(fā)明所述方案作進(jìn)一步地詳細(xì)說明。
本發(fā)明的語音控制方法主要包含兩個(gè)階段,第一個(gè)階段為語音識(shí)別標(biāo)簽的生成階段,第二個(gè)階段為語音識(shí)別控制階段。在第一個(gè)階段,用戶打開語音助手軟件,并且利用語音助手軟件打開一個(gè)第三方APP。然后,在第三方APP的操作界面上,對(duì)界面控件進(jìn)行操作,而語音助手軟件在后臺(tái)運(yùn)行,捕捉并攔截和記錄用戶的每一步操作的動(dòng)作(例如:點(diǎn)擊按鈕)以及該動(dòng)作發(fā)生在屏幕上的坐標(biāo)位置(X,Y)。然后,用戶為該動(dòng)作自定義一個(gè)語音識(shí)別標(biāo)簽,利用語音識(shí)別獲得的文字作為該語音識(shí)別標(biāo)簽的內(nèi)容存儲(chǔ)到數(shù)據(jù)庫中。從而完成一個(gè)語音識(shí)別標(biāo)簽的制作過程。在第二個(gè)階段,用戶利用存儲(chǔ)在數(shù)據(jù)庫中的標(biāo)簽記錄,將對(duì)應(yīng)的語音識(shí)別標(biāo)簽內(nèi)容顯示在第三方APP視圖的對(duì)應(yīng)可操作控件元素周圍的某個(gè)適當(dāng)?shù)淖鴺?biāo)位置上,當(dāng)用戶朗讀某一界面控件上對(duì)應(yīng)的語音識(shí)別標(biāo)簽內(nèi)容,利用語音識(shí)別得到對(duì)應(yīng)的文字標(biāo)簽,然后到數(shù)據(jù)庫中匹配該標(biāo)簽,從而獲得該標(biāo)簽在屏幕上對(duì)應(yīng)的動(dòng)作和該動(dòng)作在屏幕上發(fā)生的位置。在獲取了上述信息后,語音助手軟件指揮系統(tǒng)自動(dòng)到屏幕上的坐標(biāo)位置上進(jìn)行相關(guān)聯(lián)的動(dòng)作的操作。從而達(dá)到語音控制第三方APP的目的。
圖1為本發(fā)明優(yōu)選實(shí)施例語音控制方法的流程示意圖,如圖1所示,包括以下步驟:
A1、獲取APP名稱以及APP界面控件所在當(dāng)頁語音識(shí)別標(biāo)簽頁碼,加入到標(biāo)簽記錄中;
A、根據(jù)用戶對(duì)APP界面控件的操作,攔截到每一操作對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
其中,APP界面控件指可在窗體上放置的可視化圖形“元件”,如按鈕、文件編輯框等。其中大多數(shù)是具有執(zhí)行功能或通過“事件”引發(fā)代碼運(yùn)行并完成響應(yīng)的功能。
B、為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽,形成標(biāo)簽記錄;
B1、根據(jù)該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置計(jì)算所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置,并將所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置加入到標(biāo)簽記錄中;
C1、根據(jù)APP名稱以及當(dāng)頁語音識(shí)別標(biāo)簽頁碼,查找到與所述APP名稱以及語音識(shí)別標(biāo)簽頁碼相匹配的所有標(biāo)簽記錄,將每一條標(biāo)簽記錄顯示在APP界面的相應(yīng)坐標(biāo)位置上;
C、根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
D、在所述APP界面上的坐標(biāo)位置執(zhí)行對(duì)應(yīng)動(dòng)作。
從而完成本發(fā)明的語音控制方法。其中,第一個(gè)階段包括步驟A1、A、B和B1,為語音識(shí)別標(biāo)簽的生成階段,第二個(gè)階段包括步驟C1、C和D為語音識(shí)別控制階段。需要說明的是,本發(fā)明優(yōu)選實(shí)施例在語音識(shí)別標(biāo)簽中加入了語音識(shí)別標(biāo)簽頁碼,語音識(shí)別標(biāo)簽頁碼與每一頁APP界面相對(duì)應(yīng)。在語音識(shí)別標(biāo)簽相同的情況下,可以通過語音識(shí)別標(biāo)簽頁碼來區(qū)分不同的標(biāo)簽記錄對(duì)應(yīng)的動(dòng)作及動(dòng)作的發(fā)生位置。反過來說,如果自定義語音識(shí)別標(biāo)簽時(shí)使得各個(gè)語音識(shí)別標(biāo)簽名稱各不相同,每一個(gè)語音識(shí)別標(biāo)簽的名稱唯一對(duì)應(yīng)一個(gè)動(dòng)作及動(dòng)作的發(fā)生位置,那么就不需要設(shè)置語音識(shí)別標(biāo)簽頁碼。
進(jìn)一步地,在執(zhí)行步驟B1之后,該方法還包括:步驟B2、根據(jù)用戶對(duì)APP界面控件的操作所跳轉(zhuǎn)到的下一頁APP界面,獲取下一頁語音識(shí)別標(biāo)簽頁碼,將所述下一頁語音識(shí)別標(biāo)簽頁碼加入到當(dāng)條標(biāo)簽記錄中,并且將所述下一頁語音識(shí)別標(biāo)簽頁碼加入到新的標(biāo)簽記錄中,然后重復(fù)執(zhí)行步驟A1、A、B和B1,形成與下一頁語音識(shí)別標(biāo)簽頁碼相匹配的所有標(biāo)簽記錄。
在執(zhí)行步驟C時(shí),還包括查找當(dāng)前語音識(shí)別標(biāo)簽是否包含下一頁語音識(shí)別標(biāo)簽頁碼,如果包含,則,在執(zhí)行步驟D之后,進(jìn)入該下一頁語音識(shí)別標(biāo)簽頁碼,然后重復(fù)執(zhí)行步驟C1、C和D,在下一頁語音識(shí)別標(biāo)簽頁碼所對(duì)應(yīng)的APP界面上完成動(dòng)作的執(zhí)行。
基于同樣的發(fā)明構(gòu)思,本發(fā)明提供一種語音控制系統(tǒng),用于控制APP,如圖2所示,該系統(tǒng)包括:
攔截模塊201,根據(jù)用戶對(duì)APP界面控件的操作,攔截到每一操作對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
標(biāo)簽識(shí)別模塊202,為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽,形成標(biāo)簽記錄;根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置;
動(dòng)作控制模塊203,在所述APP界面上的坐標(biāo)位置執(zhí)行對(duì)應(yīng)動(dòng)作。
所述標(biāo)簽識(shí)別模塊202,還用于在攔截模塊根據(jù)用戶對(duì)APP界面控件的操作,攔截到每一操作對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置之前,獲取APP名稱以及APP界面控件所在當(dāng)頁語音識(shí)別標(biāo)簽頁碼,加入到標(biāo)簽記錄中;
所述標(biāo)簽識(shí)別模塊202,還用于在為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽,形成標(biāo)簽記錄之后,根據(jù)該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置計(jì)算所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置,并將所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置加入到標(biāo)簽記錄中;
所述標(biāo)簽識(shí)別模塊202,還用于在根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置之前,根據(jù)APP名稱以及當(dāng)頁語音識(shí)別標(biāo)簽頁碼,查找到與所述APP名稱以及語音識(shí)別標(biāo)簽頁碼相匹配的所有標(biāo)簽記錄,將每一條標(biāo)簽記錄顯示在APP界面的相應(yīng)坐標(biāo)位置上。
所述標(biāo)簽識(shí)別模塊202,還用于在根據(jù)該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置計(jì)算所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置,并將所述標(biāo)簽記錄顯示在APP界面上的坐標(biāo)位置加入到標(biāo)簽記錄中之后,根據(jù)用戶對(duì)APP界面控件的操作所跳轉(zhuǎn)到的下一頁APP界面,獲取下一頁語音識(shí)別標(biāo)簽頁碼,將所述下一頁語音識(shí)別標(biāo)簽頁碼加入到當(dāng)條標(biāo)簽記錄中,并且將所述下一頁語音識(shí)別標(biāo)簽頁碼加入到新的標(biāo)簽記錄中。
所述標(biāo)簽識(shí)別模塊202,還用于根據(jù)用戶朗讀的語音識(shí)別標(biāo)簽內(nèi)容,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置時(shí),查找當(dāng)前語音識(shí)別標(biāo)簽是否包含下一頁語音識(shí)別標(biāo)簽頁碼,如果包含,則,在動(dòng)作控制模塊203,在所述APP界面上的坐標(biāo)位置執(zhí)行對(duì)應(yīng)動(dòng)作之后,進(jìn)入該下一頁語音識(shí)別標(biāo)簽頁碼。
所述系統(tǒng)還包括語音識(shí)別模塊204,接收用戶朗讀的語音識(shí)別標(biāo)簽,并轉(zhuǎn)化為文字的語音識(shí)別標(biāo)簽,發(fā)送給標(biāo)簽識(shí)別模塊202,為每個(gè)操作的對(duì)應(yīng)動(dòng)作,以及該動(dòng)作發(fā)生在APP界面上的坐標(biāo)位置建立唯一對(duì)應(yīng)的語音識(shí)別標(biāo)簽。
為清楚說明本發(fā)明,下面分階段進(jìn)行分析說明。本發(fā)明的語音控制方法要實(shí)現(xiàn)對(duì)第三方APP的控制。
第一階段:語音識(shí)別標(biāo)簽的生成階段
(1)在需要打開APP_XXX時(shí),用戶在打開語音控制系統(tǒng)的基礎(chǔ)上,朗讀打開APP_XXX;
(2)語音識(shí)別模塊識(shí)別語音,打開APP_XXX。默認(rèn)打開APP_XXX第1頁界面;
(3)標(biāo)簽識(shí)別模塊獲取到APP名稱“APP_XXX”,還獲取到與第1頁界面對(duì)應(yīng)的語音識(shí)別標(biāo)簽頁碼1,并且加入到標(biāo)簽記錄中;
(4)語音控制系統(tǒng)彈出一個(gè)POP UP讓用戶選擇是否需要錄制語音識(shí)別標(biāo)簽,用戶選擇錄制語音識(shí)別標(biāo)簽。
(5)當(dāng)用戶操作第1頁界面上的某一APP界面控件時(shí),假設(shè)該APP界面控件為按鈕,則,用戶點(diǎn)擊該按鈕,此時(shí)該按鈕的點(diǎn)擊事件被攔截模塊攔截,得到該點(diǎn)擊動(dòng)作(Click)和該點(diǎn)擊動(dòng)作發(fā)生在第1頁界面上的坐標(biāo)位置(X0,Y0),將其發(fā)送給標(biāo)簽識(shí)別模塊,加入到標(biāo)簽記錄中;
(6)同時(shí),啟動(dòng)語音識(shí)別模塊,用戶朗讀一個(gè)自定義語音識(shí)別標(biāo)簽“Button1”,語音識(shí)別模塊在識(shí)別朗讀的“Button1”后,生成文字的語音識(shí)別標(biāo)簽““Button1”,將其發(fā)送給標(biāo)簽識(shí)別模塊加入到標(biāo)簽記錄中,建立“Button1”與“Click”和(X0,Y0)之間的唯一對(duì)應(yīng)關(guān)系。
另外,標(biāo)簽識(shí)別模塊根據(jù)點(diǎn)擊坐標(biāo)(X0,Y0)計(jì)算出標(biāo)簽記錄的顯示位置(x0,y0),加入到標(biāo)簽記錄中。(x0,y0)一般顯示在(X0,Y0)的周圍,以便于用戶清楚地將語音識(shí)別標(biāo)簽與標(biāo)簽記錄一一對(duì)應(yīng)上。
上述生成的標(biāo)簽記錄如表1所示:
表1
(7)在生成標(biāo)簽記錄之后,繼續(xù)執(zhí)行“Button1”的點(diǎn)擊事件,跳轉(zhuǎn)頁面到第2頁界面;
(8)用戶朗讀第2頁,語音識(shí)別模塊在識(shí)別朗讀的“第2頁”后,發(fā)送給標(biāo)簽識(shí)別模塊,標(biāo)簽識(shí)別模塊獲取到與第2頁界面對(duì)應(yīng)的語音識(shí)別標(biāo)簽頁碼2,將該語音識(shí)別標(biāo)簽頁碼2追加到表1的標(biāo)簽記錄中,作為當(dāng)頁語音識(shí)別標(biāo)簽頁碼要跳轉(zhuǎn)的下一頁語音識(shí)別標(biāo)簽頁碼。如表1’所示。并且,新建標(biāo)簽記錄,將該語音識(shí)別標(biāo)簽頁碼2加入到新的標(biāo)簽記錄中。
表1’
接下來,同理,與第1頁界面的語音識(shí)別標(biāo)簽“Button1”的生成步驟一樣,生成第2頁界面的語音識(shí)別標(biāo)簽。
(9)語音控制系統(tǒng)彈出一個(gè)POP UP讓用戶選擇是否需要錄制語音識(shí)別標(biāo)簽,用戶選擇錄制語音識(shí)別標(biāo)簽。
(10)當(dāng)用戶點(diǎn)擊第2頁界面上的某一按鈕時(shí),此時(shí)該按鈕的點(diǎn)擊事件被攔截模塊攔截,得到該點(diǎn)擊動(dòng)作(Click)和該點(diǎn)擊動(dòng)作發(fā)生在第2頁界面上的坐標(biāo)位置(X1,Y1),將其發(fā)送給標(biāo)簽識(shí)別模塊,加入到新的標(biāo)簽記錄中;
同時(shí),啟動(dòng)語音識(shí)別模塊,用戶朗讀一個(gè)自定義語音識(shí)別標(biāo)簽“Button1”,語音識(shí)別模塊在識(shí)別朗讀的“Button1”后,生成文字的語音識(shí)別標(biāo)簽“Button1”,將其發(fā)送給標(biāo)簽識(shí)別模塊加入到標(biāo)簽記錄中,建立“Button1”與“Click”和(X1,Y1)之間的唯一對(duì)應(yīng)關(guān)系。
另外,標(biāo)簽識(shí)別模塊根據(jù)點(diǎn)擊坐標(biāo)(X1,Y1)計(jì)算出標(biāo)簽記錄的顯示位置(x1,y1),加入到新的標(biāo)簽記錄中。(x1,y1)一般顯示在(X1,Y1)的周圍,以便于將語音識(shí)別標(biāo)簽與標(biāo)簽記錄一一對(duì)應(yīng)上。
上述生成的標(biāo)簽記錄如表2所示:
表2
(11)當(dāng)用戶點(diǎn)擊第2頁界面上的另一按鈕時(shí),此時(shí)該按鈕的點(diǎn)擊事件被攔截模塊攔截,得到該點(diǎn)擊動(dòng)作(Click)和該點(diǎn)擊動(dòng)作發(fā)生在第2頁界面上的坐標(biāo)位置(X2,Y2),將其發(fā)送給標(biāo)簽識(shí)別模塊,加入到新的標(biāo)簽記錄中;
同時(shí),啟動(dòng)語音識(shí)別模塊,用戶朗讀一個(gè)自定義語音識(shí)別標(biāo)簽“Button2”,語音識(shí)別模塊在識(shí)別朗讀的“Button2”后,生成文字的語音識(shí)別標(biāo)簽“Button2”,將其發(fā)送給標(biāo)簽識(shí)別模塊加入到標(biāo)簽記錄中,建立“Button2”與“Click”和(X2,Y2)之間的唯一對(duì)應(yīng)關(guān)系。
另外,標(biāo)簽識(shí)別模塊根據(jù)點(diǎn)擊坐標(biāo)(X2,Y2)計(jì)算出標(biāo)簽記錄的顯示位置(x2,y2),加入到新的標(biāo)簽記錄中。(x2,y2)一般顯示在(X2,Y2)的周圍,以便于將語音識(shí)別標(biāo)簽與標(biāo)簽記錄一一對(duì)應(yīng)上。
上述生成的標(biāo)簽記錄如表3所示:
表3
根據(jù)上述描述,以此類推,攔截在第三方APP的每一界面上的進(jìn)行的操作動(dòng)作,生成對(duì)應(yīng)有語音識(shí)別標(biāo)簽的標(biāo)簽記錄。
第二個(gè)階段:語音識(shí)別控制階段
(1)在需要打開APP_XXX時(shí),用戶在打開語音控制系統(tǒng)的基礎(chǔ)上,朗讀打開APP_XXX;
(2)語音識(shí)別模塊識(shí)別語音,打開APP_XXX。默認(rèn)打開APP_XXX第1頁界面;
(3)標(biāo)簽識(shí)別模塊獲取到APP名稱“APP_XXX”,還獲取到與第1頁界面對(duì)應(yīng)的語音識(shí)別標(biāo)簽頁碼1,
(4)標(biāo)簽識(shí)別模塊根據(jù)APP名稱“APP_XXX”以及當(dāng)頁語音識(shí)別標(biāo)簽頁碼1,查找到與“APP_XXX”以及語音識(shí)別標(biāo)簽頁碼1相匹配的所有標(biāo)簽記錄,根據(jù)表1’,匹配一條標(biāo)簽記錄,因此,將該條標(biāo)簽記錄顯示在第1頁界面的坐標(biāo)位置(x0,y0)上。
(5)用戶朗讀標(biāo)簽記錄上的語音識(shí)別標(biāo)簽“Button1”,語音識(shí)別模塊在識(shí)別朗讀的“Button1”后,生成文字的語音識(shí)別標(biāo)簽“Button1”,將其發(fā)送給標(biāo)簽識(shí)別模塊,標(biāo)簽識(shí)別模塊根據(jù)語音識(shí)別標(biāo)簽“Button1”,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作“Click”以及該動(dòng)作發(fā)生在第1頁界面上的坐標(biāo)位置(X1,Y1)。
(6)標(biāo)簽識(shí)別模塊將該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作“Click”以及該動(dòng)作發(fā)生在第1頁界面上的坐標(biāo)位置(X1,Y1)傳遞給動(dòng)作控制模塊,動(dòng)作控制模塊在位置(X1,Y1)執(zhí)行點(diǎn)擊按鈕“Button1”的操作。
(7)動(dòng)作控制模塊執(zhí)行點(diǎn)擊按鈕“Button1”的操作后,跳轉(zhuǎn)頁面到第2頁界面。
(8)由于標(biāo)簽識(shí)別模塊查詢表1’的標(biāo)簽記錄,下一頁面是第2頁界面,則將第2頁界面所對(duì)應(yīng)的標(biāo)簽記錄查找出來,包括表2和表3的標(biāo)簽記錄。
接下來,同理,控制第2頁界面控件的步驟與控制第1頁界面控件的步驟一樣。
(9)從表2和表3的標(biāo)簽記錄可以看出,第2頁界面上有兩個(gè)語音識(shí)別標(biāo)簽,“Button1”和“Button2”。用戶選擇朗讀標(biāo)簽記錄上的語音識(shí)別標(biāo)簽“Button2”,語音識(shí)別模塊在識(shí)別朗讀的“Button2”后,生成文字的語音識(shí)別標(biāo)簽“Button2”,將其發(fā)送給標(biāo)簽識(shí)別模塊,標(biāo)簽識(shí)別模塊根據(jù)語音識(shí)別標(biāo)簽“Button2”,查找到該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作“Click”以及該動(dòng)作發(fā)生在第2頁界面上的坐標(biāo)位置(X2,Y2)。
標(biāo)簽識(shí)別模塊將該語音識(shí)別標(biāo)簽對(duì)應(yīng)的動(dòng)作“Click”以及該動(dòng)作發(fā)生在第2頁界面上的坐標(biāo)位置(X2,Y2)傳遞給動(dòng)作控制模塊,動(dòng)作控制模塊在位置(X2,Y2)執(zhí)行點(diǎn)擊按鈕“Button2”的操作。
根據(jù)上述描述,以此類推,通過語音自動(dòng)完成對(duì)第三方APP的每一界面上控件的控制。
以上實(shí)施例中所列舉的界面操作過程,只是一個(gè)應(yīng)用場景的舉例,在該實(shí)施例中將語音操作過程中的各個(gè)步驟都進(jìn)行一步一步的細(xì)化操作,當(dāng)然在此過程中也可以進(jìn)行簡化,例如:可以簡化為語音朗讀符合一定的語法規(guī)則“Page xx,Button xx,Next pagexx”等,將多個(gè)朗讀步驟合一為一個(gè)朗讀步驟。這些均可以自己定義。另外,是否有彈出式按鈕,或者其他控制語音標(biāo)簽錄制的方法,都可以自定義。
本發(fā)明的方法對(duì)系統(tǒng)中的觸摸屏和按鍵事件進(jìn)行全局的監(jiān)控,一旦發(fā)現(xiàn)用戶有操控終端的行為,將系統(tǒng)該行為進(jìn)行攔截,進(jìn)行自定義標(biāo)簽的生成,從而將自定義標(biāo)簽與該動(dòng)作進(jìn)行綁定。存儲(chǔ)在數(shù)據(jù)庫中,而在系統(tǒng)中界面控件位置不發(fā)生變化的時(shí)候,這種錄制生成自定義標(biāo)簽的行為只需要發(fā)生一次。以后每次使用該APP都可以使用語音控制。如果界面控件的位置發(fā)生變化,則需要重新錄制自定義標(biāo)簽。
本發(fā)明的語音控制方法及裝置,可以適用于各種移動(dòng)終端和PC。主要應(yīng)用于語音識(shí)別和語音控制方面。可以使用本發(fā)明進(jìn)行APP的語音控制操作。從而達(dá)到解放雙手,更加智能化的目的,尤其適用于像智能手表這樣操作界面比較小,操作不方便的智能設(shè)備。
本發(fā)明的有益效果在于,
一、可以攔截和捕捉并且記錄用戶對(duì)觸摸屏和按鍵的所有操作,以及該操作所發(fā)生的屏幕坐標(biāo)位置。并且與一個(gè)自定義的語音識(shí)別標(biāo)簽綁定,在進(jìn)行語音控制的時(shí)候,按照語音朗讀該自定義標(biāo)簽,并且到數(shù)據(jù)庫查詢?cè)摌?biāo)簽綁定的操作,然后直接指揮系統(tǒng)自動(dòng)到屏幕的該坐標(biāo)位置上進(jìn)行相關(guān)的操作,從而無需手動(dòng)的去操作屏幕或者按鍵。達(dá)到語音控制的目的。
二、在錄制生成自定義標(biāo)簽以后,其動(dòng)作和標(biāo)簽進(jìn)行了綁定。因此在使用語音控制過程中,只要朗讀自定義標(biāo)簽內(nèi)容,即可根據(jù)標(biāo)簽查詢到對(duì)應(yīng)的動(dòng)作。然后該動(dòng)作的發(fā)生并不是用戶手工操作,或者其他物理方法進(jìn)行操作,而是通知系統(tǒng),由系統(tǒng)進(jìn)行自動(dòng)操作,例如,點(diǎn)擊觸摸屏幕的某個(gè)位置等。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。