用于已識別語音發(fā)起動作的視覺確認(rèn)的制作方法
【專利說明】
【背景技術(shù)】
[0001]某些計算設(shè)備(例如,移動電話、平板計算機、個人數(shù)字助理等)可以是語音激活的??梢越柚谥T如人類語音的音頻數(shù)據(jù)來控制語音激活計算設(shè)備。此類計算設(shè)備提供用以檢測話音、確定檢測到的話音所指示的動作、以及執(zhí)行所指示動作的功能。例如,計算設(shè)備可接收與語音命令相對應(yīng)的音頻輸入,該語音命令諸如“搜索”、“導(dǎo)航”、“播放”、“暫?!薄ⅰ昂艚小钡?。在這種情況下,計算設(shè)備可使用話音識別技術(shù)來分析音頻輸入以確定命令且然后執(zhí)行與命令相關(guān)聯(lián)的動作(例如,提供搜索選項、執(zhí)行地圖應(yīng)用、開始播放媒體文件、停止播放媒體文件、撥打電話等)。這樣,語音激活計算設(shè)備可以為用戶提供在不使用用戶的手的情況下操作計算設(shè)備的一些特征的能力。
【發(fā)明內(nèi)容】
[0002]在一個示例中,本公開針對一種用于由計算設(shè)備輸出具有以第一視覺格式的至少一個元素的話音識別圖形用戶界面(GUI)以用于顯示的方法。該方法還包括由所述計算設(shè)備接收音頻數(shù)據(jù)。該方法還包括由所述計算設(shè)備基于所述音頻數(shù)據(jù)來確定語音發(fā)起動作。該方法還包括在接收到附加音頻數(shù)據(jù)的同時且在基于所述音頻數(shù)據(jù)來執(zhí)行所述語音發(fā)起動作之前輸出已更新話音識別GUI以用于顯示,在所述已更新話音識別GUI中以不同于所述第一視覺格式的第二視覺格式來顯示所述至少一個元素,以指示所述語音發(fā)起動作已被識別。
[0003]在另一示例中,本公開針對一種計算設(shè)備,包括顯示設(shè)備和一個或多個處理器。所述一個或多個處理器可操作輸出具有以第一視覺格式的至少一個元素的話音識別圖形用戶界面(GUI)以用于在所述顯示設(shè)備處顯示。所述一個或多個處理器可操作用于接收所述音頻數(shù)據(jù)并基于所述音頻數(shù)據(jù)來確定語音發(fā)起動作。所述一個或多個處理器還被配置成在接收到附加音頻數(shù)據(jù)的同時且在基于所述音頻數(shù)據(jù)來執(zhí)行所述語音發(fā)起動作之前輸出已更新話音識別GUI以用于顯示,在所述已更新話音識別GUI中以不同于所述第一視覺格式的第二視覺格式來顯示所述至少一個元素,以指示所述語音發(fā)起動作已被識別。
[0004]在另一示例中,本公開針對一種用指令編碼的計算機可讀存儲介質(zhì),所述指令當(dāng)由計算設(shè)備的一個或多個處理器執(zhí)行時使得所述一個或多個處理器輸出具有以第一視覺格式的至少一個元素的話音識別圖形用戶界面(GUI)以用于顯示。所述指令還使得所述一個或多個處理器接收音頻數(shù)據(jù)并基于所述音頻數(shù)據(jù)來確定所述語音發(fā)起動作。所述指令還使得所述一個或多個處理器在接收到附加音頻數(shù)據(jù)的同時且在基于所述音頻數(shù)據(jù)來執(zhí)行所述語音發(fā)起動作之前輸出所述已更新話音識別GUI以用于顯示,在所述已更新話音識別GUI中以不同于所述第一視覺格式的第二視覺格式來顯示所述至少一個元素,以指示所述語音發(fā)起動作已被識別。
[0005]在附圖和以下描述中闡述了一個或多個示例的細(xì)節(jié)。根據(jù)本描述和附圖以及根據(jù)權(quán)利要求,本公開的其它特征、對象、以及優(yōu)點將變得顯而易見。
【附圖說明】
[0006]圖1是圖示出根據(jù)本公開的一個或多個方面的被配置成提供圖形用戶界面的示例性計算設(shè)備的概念圖,所述圖形用戶界面提供已識別語音發(fā)起動作的視覺指示。
[0007]圖2是圖示出根據(jù)本公開的一個或多個方面的用于提供包括已識別語音發(fā)起動作的視覺指示的圖形用戶界面的示例計算設(shè)備的框圖。
[0008]圖3是圖示出根據(jù)本公開的一個或多個技術(shù)的輸出圖形內(nèi)容以用于在遠(yuǎn)程設(shè)備處顯示的示例計算設(shè)備的框圖。
[0009]圖4A至4D是圖示出根據(jù)本公開的一個或多個技術(shù)的用于導(dǎo)航示例的計算設(shè)備的示例圖形用戶界面(GUI)的屏幕快照。
[0010]圖5A至5B是圖示出根據(jù)本公開的一個或多個技術(shù)的用于媒體播放示例的計算設(shè)備的示例⑶I的屏幕快照。
[0011]圖6是圖示出根據(jù)本公開的一個或多個技術(shù)的可以將元素變體成基于不同的語音發(fā)起動作的一系列示例視覺格式的概念圖。
[0012]圖7是圖示出根據(jù)本公開的一個或多個技術(shù)的用于計算設(shè)備視覺地確認(rèn)已識別語音發(fā)起動作的示例過程的流程圖。
【具體實施方式】
[0013]—般地,本公開針對計算設(shè)備可用來提供基于接收到的音頻數(shù)據(jù)確定的語音發(fā)起動作的視覺確認(rèn)的技術(shù)。例如,在某些實施方式中,計算設(shè)備可以從音頻輸入設(shè)備(例如,麥克風(fēng))接收音頻數(shù)據(jù)、轉(zhuǎn)錄音頻數(shù)據(jù)(例如,話音)、確定音頻數(shù)據(jù)是否包括語音發(fā)起動作的指示且如果是這樣的話提供所指示動作的視覺確認(rèn)。通過輸出語音發(fā)起動作的視覺確認(rèn),計算設(shè)備因此可使得用戶能夠更容易地且快速地確定計算設(shè)備是否已經(jīng)正確地識別并且將要執(zhí)行語音發(fā)起動作。
[0014]在某些實施方式中,計算設(shè)備可通過改變與語音發(fā)起動作相對應(yīng)的元素的視覺格式來提供已識別語音發(fā)起動作的視覺確認(rèn)。例如,計算設(shè)備可以以第一視覺格式輸出元素。響應(yīng)于確定與特定語音發(fā)起動作相對應(yīng)的接收到的音頻數(shù)據(jù)的轉(zhuǎn)錄的一個或多個單詞中的至少一個單詞,計算設(shè)備可將元素的視覺格式更新成不同于第一視覺格式的第二視覺格式。因此,這些視覺格式之間的可觀察差別可提供用戶可用來視覺地確認(rèn)語音發(fā)起動作已被計算設(shè)備識別且計算設(shè)備將執(zhí)行語音發(fā)起動作的機制。該元素可以是例如一個或多個圖形圖標(biāo)、圖像、文本(基于例如,接收音頻數(shù)據(jù)的轉(zhuǎn)錄)的單詞或其任何組合。在某些示例中,所述元素是交互式用戶界面元素。因此,根據(jù)本文所述的技術(shù)配置的計算設(shè)備可改變輸出元素的視覺外觀以指示計算設(shè)備已經(jīng)識別到與由計算設(shè)備接收到的音頻數(shù)據(jù)相關(guān)聯(lián)的語音發(fā)起動作。
[0015]圖1是圖示出根據(jù)本公開的一個或多個方面的被配置成提供圖形用戶界面16的示例計算設(shè)備2的概念圖,所述圖形用戶界面16提供已識別語音發(fā)起動作的視覺指示。計算設(shè)備2可以是移動設(shè)備或固定設(shè)備。例如,在圖1的示例中,計算設(shè)備2被圖示為諸如智能電話的移動電話。然而,在其它示例中,計算設(shè)備2可以是桌面型計算機、主機、平板計算機、個人數(shù)字助理(PDA)、膝上型計算機、便攜式游戲設(shè)備、便攜式媒體播放器、全球定位系統(tǒng)(GPS)設(shè)備、電子書閱讀器、眼鏡、手表、電視平臺、汽車導(dǎo)航系統(tǒng)、可穿戴計算平臺、或另一類型的計算設(shè)備。
[0016]如圖1中所不,計算設(shè)備2包括用戶界面設(shè)備(UID)4。計算設(shè)備2的UID4可充當(dāng)用于計算設(shè)備2的輸入設(shè)備或輸出設(shè)備。可使用各種技術(shù)來實現(xiàn)UID 4。例如,UID 4可充當(dāng)使用存在敏感輸入顯示器的輸入設(shè)備,該存在敏感顯示器諸如電阻觸摸屏、表面聲波觸摸屏、電容觸摸屏、投射式電容觸摸屏、壓力敏感屏幕、聲學(xué)脈沖識別觸摸屏、或另一存在敏感顯示技術(shù)。UID 4可充當(dāng)使用任何一個或多個顯示設(shè)備來充當(dāng)輸出(例如,顯示)設(shè)備,所述顯示設(shè)備諸如液晶顯示器(IXD)、點矩陣顯示器、發(fā)光二極管(LED)顯示器、有機發(fā)光二級管(OLED)顯示器、電子墨、或者能夠向計算設(shè)備2的用戶輸出可見信息的類似單色或彩色顯示器。
[0017]計算設(shè)備2的UID4可包括存在敏感顯示器,其可從例如計算設(shè)備2的用戶接收觸覺輸入。UID 4可通過檢測來自計算設(shè)備2的用戶的一個或多個手勢(例如,用戶用手指或觸針筆來觸摸或指向UID 4的一個或多個位置)來接收觸覺輸入的指示。UID 4可例如在存在敏感顯示器處向用戶呈現(xiàn)輸出。UID 4可將輸出呈現(xiàn)為可與由計算設(shè)備2提供的功能相關(guān)聯(lián)的圖形用戶界面(例如,用戶界面16)。例如,UID 4可呈現(xiàn)在計算設(shè)備2處執(zhí)行或者可被計算設(shè)備2訪問的應(yīng)用(例如,電子消息應(yīng)用、導(dǎo)航應(yīng)用、因特網(wǎng)瀏覽器應(yīng)用、媒體播放器應(yīng)用等)的各種用戶界面。用戶可與應(yīng)用的相應(yīng)用戶界面相交互以使得計算設(shè)備2執(zhí)行與功能相關(guān)的操作。
[0018]圖1中所示的計算設(shè)備2的示例還包括麥克風(fēng)12。麥克風(fēng)12可以是計算設(shè)備2的一個或多個輸入設(shè)備中的一個。麥克風(fēng)12是用于接收諸如音頻數(shù)據(jù)的聽覺輸入的設(shè)備。麥克風(fēng)12可從用戶接收包括話音的音頻數(shù)據(jù)。麥克風(fēng)12檢測到音頻并向計算設(shè)備2的其它組件提供相關(guān)音頻數(shù)據(jù)以用于處理。除麥克風(fēng)12之外,計算設(shè)備2還可包括其它輸入設(shè)備。
[0019]例如,改變與語音命令(例如,“語音發(fā)起動作”)相對應(yīng)的所轉(zhuǎn)錄的文本的一部分,使得與該語音命令相對應(yīng)的所轉(zhuǎn)錄的文本的該部分的視覺外觀不同于不與該語音命令相對應(yīng)的所轉(zhuǎn)錄的文本的視覺外觀。例如,計算設(shè)備2在麥克風(fēng)12處接收音頻數(shù)據(jù)。話音識別模塊8可轉(zhuǎn)錄包括在音頻數(shù)據(jù)中的話音,其可以是與接收到的音頻數(shù)據(jù)實時地或者近實時地。計算設(shè)備2輸出與所轉(zhuǎn)錄的話音相對應(yīng)的非命令文本20以用于顯示。響應(yīng)于確定與命令相對應(yīng)的被轉(zhuǎn)錄的話音的一部分,計算設(shè)備2可提供該話音部分被識別為語音命令的至少一個指示。在某些示例中,計算設(shè)備2可執(zhí)行在語音發(fā)起動作中識別的動作。如本文所使用的“語音命令”也可稱為“語音發(fā)起動作”。
[0020]為了指示計算設(shè)備2識別到音頻數(shù)據(jù)內(nèi)的語音發(fā)起動作,計算設(shè)備2可改變與該語音命令相對應(yīng)的所轉(zhuǎn)錄的文本的一部分(例如,命令文本22)的視覺格式。在某些示例中,計算設(shè)備2可改變與該語音命令相對應(yīng)的所轉(zhuǎn)錄的文本部分的視覺外觀,使得該視覺外觀不同于并不與語音命令相對應(yīng)的所轉(zhuǎn)錄的文本的視覺外觀。為了簡單起見,與語音發(fā)起動作相關(guān)聯(lián)或者被識別為語音發(fā)起動作的任何文本在本文中被稱為“命令文本”。同樣地,并未與語音發(fā)起動作相關(guān)聯(lián)或者被識別為語音發(fā)起動作的任何文本在本文中被稱為“非命令文本”。
[0021]與語音發(fā)起動作相關(guān)聯(lián)的文本(例如,命令文本22)的字體、色彩、大小、或其它視覺特性可不同于與非命令話音相關(guān)聯(lián)的文本(例如,非命令文本20)。在另一示例中,命令文本22可被以某種方式突出顯示,而非命令文本20未被突出顯示。UI設(shè)備4可改變文本的視覺格式的任何其它特性,使得轉(zhuǎn)錄命令文本22在視覺上不同于轉(zhuǎn)錄非命令文本20。在其它示例中,計算設(shè)備2可以使用對本文所述的命令文本22的視覺外觀的改變或變更的任何組合來在視覺上將命令文本22與非命令文本20區(qū)別開。
[0022]在另一示例中,計算設(shè)備2可作為所轉(zhuǎn)錄的文本的替代或除所轉(zhuǎn)錄的文本之外還輸出諸如圖標(biāo)24或其它圖像的圖形元素以用于顯示。如本文所使用的術(shù)語“圖形元素”是指在圖形用戶界面內(nèi)顯示的任何視覺元素,并且也可稱為“用戶界面元素”。該圖形元素可以是指示動作計算設(shè)備2當(dāng)前正在執(zhí)行或者可執(zhí)行的圖標(biāo)。在本示例中,當(dāng)計算設(shè)備2識別到語音發(fā)起動作時,用戶界面(“UI”)設(shè)備模塊6使得圖形元素24從第一視覺格式變成第二視覺格式,其指示計算設(shè)備2已經(jīng)識別到語音發(fā)起動作。以第二視覺格式的圖形元素24的圖像可與語音發(fā)起動作相對應(yīng)。例如,UI設(shè)備4可以以第一視覺格式顯示圖形元素24,而計算設(shè)備2正在接收音頻數(shù)據(jù)。第一視覺格式可以是例如具有麥克風(fēng)的圖像的圖標(biāo)24。響應(yīng)于確定音頻數(shù)據(jù)包含請求到特定地址的路線指引的語音發(fā)起動作,例如,計算設(shè)備2使得圖標(biāo)24從第一視覺格式(例如,麥克風(fēng)的圖像)變成第二視覺格式(例如,指南針箭頭的圖像)。
[0023]在某些示例中,響應(yīng)于識別到語音發(fā)起動作,計算設(shè)備2輸出與語音發(fā)起動作相對應(yīng)的新圖形元素。例如,并非自動地采取與語音發(fā)起動作相關(guān)聯(lián)的動作,本文所述的技術(shù)可使得計算設(shè)備2能夠首先提供語音發(fā)起動作的指示。在某些示例中,根據(jù)本公開的各種技術(shù),計算設(shè)備2可被配置成更新圖形用戶界面16,使得基于包括語音發(fā)起動作的已識別指示的音頻數(shù)據(jù)以不同的視覺格式呈現(xiàn)元素。
[0024]除!]〗設(shè)備模塊6之外,計算設(shè)備2還可包括話音識別模塊8和語音激活模塊10。模塊
6、8、和10可使用常駐于計算設(shè)備2中并在其上面執(zhí)行的軟件、硬件、固件或硬件、軟件以及固件的混合體來執(zhí)行所述的動作。計算設(shè)備2可用多個處理器來執(zhí)行模塊6、8、和10。計算設(shè)備2可將模塊6、8、和10作為在底層硬件上執(zhí)行的虛擬機執(zhí)行。模塊6、8、和10可作為操作系統(tǒng)、計算平臺的一個或多個服務(wù)而執(zhí)行。模塊6、8、和10可作為諸如由基于云和/或集群的計算系統(tǒng)提供的一個或多個服務(wù)的一個或多個遠(yuǎn)程計算服務(wù)而執(zhí)行。模塊6、8、和10可以作為計算平臺的應(yīng)用層處的一個或多個可執(zhí)行程序而執(zhí)行。
[0025]計算設(shè)備2的話音識別模塊8可從例如麥克風(fēng)12接收音頻數(shù)據(jù)的一個或多個指示。使用話音識別技術(shù),話音識別模塊8可分析并轉(zhuǎn)錄包括在音頻數(shù)據(jù)中的話音。話音識別模塊8可將被轉(zhuǎn)錄的話音提供給UI設(shè)備模塊6。1]1設(shè)備模塊6可指令UID 4輸出諸如GUI 16的非命令文本20的與被轉(zhuǎn)錄的話音有關(guān)的文本以用于顯示。
[002