本發(fā)明涉及一種顯示設備及其操作方法,并且更加具體地,涉及用于通過存儲由用戶頻繁發(fā)出的語音命令在沒有與服務器的任何關(guān)聯(lián)的情況下執(zhí)行與語音命令相對應的功能的顯示設備,以及該顯示設備的操作方法。
背景技術(shù):
語音識別技術(shù)是將人類發(fā)出的語音轉(zhuǎn)換成字符、代碼等等使得終端能夠識別語音的技術(shù)。語音識別技術(shù)使字符以比如果通過打字輸入字符更快的速度被輸入。因此,已經(jīng)積極地進行用于增加語音識別技術(shù)的精確度的研究。
要求各種技術(shù)以使機器能夠理解自然語言并且執(zhí)行自然對話。首先,用于將人類的語音轉(zhuǎn)換成文本的語音到文本(STT)是領(lǐng)先的使得機器和人類使用聲音相互通信。如果用戶的語音通過STT被轉(zhuǎn)換成文本,則輸入文本以各種形式被分析。分析用戶的語音意指什么或者用戶的語音有什么意圖。然后,如果分析用戶已經(jīng)問了關(guān)于某個目的的問題,則使用搜索和語義技術(shù)搜索用戶所期待的回答。然后,以句子的形式最終創(chuàng)建對用戶的問題的回答的語言產(chǎn)生過程被執(zhí)行,并且通過與STT相反的文本到語音(TTS)回答作為語音遞送給用戶。
然而,通常,僅在服務器中執(zhí)行自然語言識別處理過程。因此,為了執(zhí)行用于控制TV的語音命令,TV始終被要求與服務器相關(guān)聯(lián)。存在在TV和服務器之間的關(guān)聯(lián)增加所要求執(zhí)行語音命令的時間的問題。
技術(shù)實現(xiàn)要素:
技術(shù)問題
本發(fā)明的目的是為了提供一種顯示設備和顯示設備的操作方法,該顯示器通過存儲用戶頻繁地發(fā)出的語音命令,在沒有與服務器的任何關(guān)聯(lián)的情況下,能夠減少執(zhí)行與語音命令相對應的顯示設備的功能所要求的時間,使得控制顯示設備的功能。
技術(shù)方案
根據(jù)本發(fā)明的實施例,提供一種用于操作顯示設備的方法,該方法包括:接收用戶的語音命令;如果與接收到的語音命令相對應的顯示設備的功能沒有被存儲,并且以參考頻率或者更大頻率接收語音命令,則存儲語音命令;以及如果再次接收到語音命令,則執(zhí)行與再次接收到的語音命令相對應的顯示設備的功能。
根據(jù)本發(fā)明的實施例,提供一種顯示設備,包括:存儲單元;網(wǎng)絡接口單元,該網(wǎng)絡接口單元被配置成提供用于通過有線/無線網(wǎng)絡連接到外部的接口;語音識別單元,該語音識別單元被配置成接收用戶的語音命令;以及控制單元,該控制單元被配置成,如果與接收到的語音命令相對應的顯示設備的功能沒有被存儲,并且以參考頻率或者更大頻率接收語音命令,則存儲語音命令;并且如果再次接收到語音命令,則執(zhí)行與再次接收到的語音命令相對應的顯示設備的功能。
有益效果
根據(jù)本發(fā)明的各種實施例,不要求顯示設備與服務器關(guān)聯(lián)以便使用語音命令控制顯示設備的功能,使得能夠減少對于執(zhí)行與語音命令相對應的顯示設備的功能所要求的時間。
此外,根據(jù)本發(fā)明的各種實施例,能夠基于特定的用戶發(fā)出的語音命令的模式提供用戶定制的語音識別服務。
附圖說明
圖1是圖示根據(jù)本發(fā)明的實施例的顯示設備的配置的框圖。
圖2是圖示根據(jù)本發(fā)明的實施例的語音識別系統(tǒng)的圖。
圖3是圖示根據(jù)本發(fā)明的實施例的語音識別系統(tǒng)的操作方法的流程圖。
圖4圖示根據(jù)本發(fā)明的實施例的執(zhí)行模式匹配以將語音命令轉(zhuǎn)換成文本的過程。
圖5圖示根據(jù)本發(fā)明的實施例的檢查是否與用戶的語音命令相對應的文本模式已經(jīng)與存儲在NLP DB中的語音識別模式匹配的過程。
圖6圖示根據(jù)本發(fā)明的實施例的組成表示用戶的話語意圖的結(jié)果的意圖分析結(jié)果的語法。
圖7和圖8圖示根據(jù)本發(fā)明的實施例的與用戶的語音命令相對應的模式被添加到NLP DB和STT DB的示例。
圖9至圖12是圖示分析由用戶頻繁發(fā)出的語音命令的模式并且基于分析結(jié)果通過本身執(zhí)行自然語音識別處理的視圖。
圖13至圖15圖示選擇在顯示設備中頻繁地使用的應用或者菜單中可選擇的菜單項目作為訓練目標的實施例。
圖16是圖示根據(jù)本發(fā)明的實施例的NLP服務器對用戶的語音命令執(zhí)行意圖分析并且更新顯示設備中的意圖分析結(jié)果的過程的視圖。
具體實施方式
現(xiàn)在,涉及本發(fā)明的實施例將參考附圖被詳細地描述。在撰寫本說明書時考慮簡單性,在下文描述中針對組件使用的后綴“模塊”和“單元”被指配或混用,且后綴本身沒有任何特定的意義或者功能。
根據(jù)本發(fā)明的實施例的顯示設備,例如作為向廣播接收功能添加計算機支持功能的人工顯示設備,在實現(xiàn)廣播接收功能同時,由于互聯(lián)網(wǎng)功能被添加,可以具有易使用的接口,諸如書寫輸入設備、觸摸屏幕、或空間遠程控制器。隨后,在有線或無線互聯(lián)網(wǎng)功能的支持下,訪問互聯(lián)網(wǎng)和計算機執(zhí)行現(xiàn)e-mail、網(wǎng)頁瀏覽、銀行業(yè)務或游戲功能是可能的。為了這樣的各種功能,標準化的通用OS可以被使用。
因此,由于在通用OS內(nèi)核上,各種應用被自由地添加或刪除,因此在本發(fā)明中描述的顯示設備,作為示例,能夠執(zhí)行各種用戶友好的功能。更詳細地,顯示設備可以是網(wǎng)絡TV、HBBTV、智能TV、LED TV、OLED TV等,且在一些情況下,可以被應用于智能電話。
圖1是圖示根據(jù)本發(fā)明的實施例的顯示設備的配置的框圖。
參考圖1,顯示設備100可以包括廣播接收單元130、外部設備接口單元135、存儲單元140、用戶輸入接口單元150、控制單元170、顯示單元180、音頻輸出單元185、和電源供應單元190。
廣播接收單元130可以包括調(diào)諧器131、解調(diào)制單元132和網(wǎng)絡接口單元133。
調(diào)諧器131能夠根據(jù)頻道選擇命令選擇特定的廣播頻道。調(diào)諧器131能夠針對選取的特定廣播頻道接收廣播信號。
解調(diào)制單元132能夠?qū)⒔邮盏膹V播信號劃分為視頻信號、音頻信號和涉及廣播節(jié)目的數(shù)據(jù)信號,且將劃分的視頻信號、音頻信號和數(shù)據(jù)信號存儲為輸出可用形式。
外部設備接口單元135能夠接收在鄰近的外部設備中的應用或應用列表,且將其遞送到控制單元170或存儲單元140。
外部設備接口135能夠在顯示設備100和外部設備之間提供連接路徑。外部設備接口135能夠接收從無線或有線連接到顯示設備100的外部設備輸出的圖像和音頻至少之一,且將其遞送到控制單元。外部設備接口單元135可以包括多個外部輸入端子。多個外部輸入端子可以包括RGB端子、至少一個高清晰度多媒體接口(HDMI)端子、和組件端子。
網(wǎng)絡接口單元133能夠提供用于將顯示設備100連接到包括互聯(lián)網(wǎng)的有線/無線網(wǎng)絡的接口。網(wǎng)絡接口單元133可以通過接入網(wǎng)絡或鏈接到接入網(wǎng)絡的另一網(wǎng)絡,向另一用戶或另一電子設備發(fā)送數(shù)據(jù)或從另一用戶或另一電子設備接收數(shù)據(jù)。
另外,存儲在顯示設備100中的一些內(nèi)容數(shù)據(jù)可以被發(fā)送到用戶或電子設備,用戶或電子設備從在顯示設備100中預注冊的其他用戶或其他電子設備中選取。
網(wǎng)絡接口單元133能夠通過接入網(wǎng)絡或鏈接到接入網(wǎng)絡的另一網(wǎng)絡訪問預先確定的網(wǎng)頁。也即,它能夠通過經(jīng)過網(wǎng)絡訪問預先確定的網(wǎng)頁,發(fā)送數(shù)據(jù)到對應的服務器或者從對應的服務器接收數(shù)據(jù)。
隨后,網(wǎng)絡接口單元133能夠接收由內(nèi)容提供方或網(wǎng)絡運營商提供的內(nèi)容或數(shù)據(jù)。也即,網(wǎng)絡接口單元133能夠接收由內(nèi)容提供方或網(wǎng)絡運營商提供的諸如電影、廣告、游戲、VOD、和廣播信號的內(nèi)容,以及與之有關(guān)的信息。
另外,網(wǎng)絡接口單元133能夠接收由網(wǎng)絡運營商提供的固件更新信息和更新文件,且將數(shù)據(jù)發(fā)送到互聯(lián)網(wǎng)或內(nèi)容提供方或網(wǎng)絡運營商。
網(wǎng)絡接口單元133能夠通過網(wǎng)絡在對公眾開放的應用中選擇和接收期望的應用。
存儲單元140能夠存儲信號處理的圖像、語音、或為了在控制單元170中的每個信號處理和控制而被程序存儲的數(shù)據(jù)信號。
另外,存儲單元140能夠執(zhí)行用于臨時存儲圖像、語音或從外部設備接口單元135或網(wǎng)絡接口單元133輸出的數(shù)據(jù)信號的功能,且能夠通過頻道存儲器功能存儲關(guān)于預先確定的圖像的信息。
存儲單元140能夠存儲從外部設備接口單元135或網(wǎng)絡接口單元133輸入的應用或應用列表。
顯示設備100能夠播放存儲在存儲單元140中的內(nèi)容文件(例如,視頻文件、靜態(tài)圖像文件、音樂文件、文檔文件、應用文件等)且將其提供給用戶。
用戶輸入接口單元150能夠?qū)挠脩糨斎氲男盘栠f送到控制單元170,或?qū)⑿盘枏目刂茊卧?70遞送到用戶。作為示例,用戶輸入接口單元150能夠從遠程控制設備200接收或處理諸如開機/關(guān)機、頻道選擇和屏幕設置的控制信號,或根據(jù)諸如藍牙、超寬帶(WB)、紫蜂(ZigBee)、射頻(RF)和IR的各種通信方法,從控制單元170發(fā)送控制信號到遠程控制設備200。
另外,用戶輸入接口單元150可以將從諸如電源鍵、頻道鍵、音量鍵和設置鍵的本地鍵(local key)(未示出)輸入的控制信號遞送到控制單元170。
在控制單元170中圖像處理的圖像信號能夠被輸入到顯示單元180且作為與對應的圖像信號相對應的圖像被顯示。另外,在控制單元170中圖像處理的圖像信號能夠通過外部設備接口單元135被輸入到外部輸出設備。
在控制單元170中處理的語音信號能夠被輸出到音頻輸出單元185。另外,在控制單元170中處理的語音信號可以通過外部設備接口單元135被輸入到外部輸出設備。
除此之外,控制模塊170能夠控制顯示設備100中的整體操作。
另外,控制單元170能夠通過經(jīng)由用戶輸入接口單元150輸入的用戶命令或內(nèi)部程序控制顯示設備100,且在訪問網(wǎng)絡時將期望的應用或應用列表下載到顯示設備100中。
控制單元170能夠通過顯示單元180或音頻輸出單元185,將被用戶選取的頻道信息與處理的圖像或語音信號一起輸出。
另外,根據(jù)通過用戶輸入接口單元150接收的外部設備圖像回放命令,控制單元170能夠通過顯示單元180或者音頻輸出單元185,輸出諸如相機或攝影機的外部設備的圖像信號或語音信號,該圖像信號或語音信號通過外部設備接口單元135被輸入。
另外,控制單元170能夠控制顯示單元180以顯示圖像,且控制通過調(diào)諧器131輸入的廣播圖像、通過外部設備接口單元135輸入的外部輸入圖像、通過網(wǎng)絡接口單元輸入的圖像、或存儲在存儲單元140中的圖像以被顯示在顯示單元180上。在這種情況下,在顯示單元180上顯示的圖像可以是靜態(tài)圖像或視頻,且也可以是2D圖像或3D圖像。
另外,控制單元170能夠播放存儲在顯示設備100中的內(nèi)容、接收的廣播內(nèi)容和由外部輸入的外部輸入內(nèi)容,且內(nèi)容可以是各種格式,諸如廣播圖像、外部輸入圖像、音頻文件、靜態(tài)圖像、訪問的web畫面、和文檔文件。
顯示單元180能夠?qū)⒃诳刂茊卧?70中處理的圖像信號、數(shù)據(jù)信號或OSD信號,或?qū)⒃谕獠吭O備接口單元135中接收的圖像信號或數(shù)據(jù)信號,轉(zhuǎn)換成R、G和B信號以生成驅(qū)動信號。
此外,在圖1中示出的顯示設備100僅是本發(fā)明的一個實施例,且因此,根據(jù)實際實現(xiàn)的顯示設備100的規(guī)范,一些示出的組件可以被集成、添加或略去。
即,如果必要,兩個或更多個組件能夠被集成為一個組件,或一個組件可以被分成兩個或更多個組件且被配置。另外,被每個塊執(zhí)行的功能是為了描述本發(fā)明的實施例,且其特定操作或設備不限制本發(fā)明的范圍。
根據(jù)本發(fā)明的另一個實施例,不同于圖1,顯示設備100能夠通過網(wǎng)絡接口單元133或外部設備接口單元135接收圖像,且播放它們,無需包括調(diào)諧器131和解調(diào)制單元132。
例如,顯示設備100可以被分為用于根據(jù)各種網(wǎng)絡服務接收廣播信號或內(nèi)容的諸如機頂盒的圖像處理設備,和用于播放從圖像處理設備輸入的內(nèi)容的內(nèi)容回放設備。
在這種情況下,下文描述的根據(jù)本發(fā)明的實施例的顯示設備的操作方法可以參考圖1描述的顯示設備、諸如分離的機頂盒的圖像處理設備、以及包括顯示單元180和音頻輸出單元185的內(nèi)容回放設備的至少之一被執(zhí)行。
接下來,將會參考圖2描述根據(jù)本發(fā)明的實施例的語音識別系統(tǒng)。
參考圖2,語音識別系統(tǒng)10可以包括顯示設備100、語音到文本服務器(STT服務器)300以及自然語言服務器(NLP服務器)500。
顯示設備100可以通過網(wǎng)絡接口單元133向STT服務器300和NLP服務器500提供用于有線/無線網(wǎng)絡連接的接口。
除了在圖1中圖示的組件之外,顯示設備100可以進一步包括語音識別單元171、語音到文本DB(STT DB)173、自然語言識別處理單元175、以及自然語音識別處理DB(NLP DB)177。
語音識別單元171可以包括諸如麥克風的語音輸入單元,以接收用戶的語音命令。語音輸入單元可以被提供作為與語音識別單元171分離的組件。語音輸入單元可以被包括在圖1中描述的用戶輸入接口單元150中。語音識別單元171可以將通過麥克風輸入的語音命令處理成電子語音數(shù)據(jù)。
STT DB 173可以存儲在語音命令和與其相對應的文本模式之間的相對應關(guān)系。
自然語言識別處理單元(NLP客戶端)175可以從語音識別單元171接收轉(zhuǎn)換的文本,并且檢查是否文本模式匹配于預存的語音識別模式。作為NLP客戶端175的匹配結(jié)果,如果文本模式匹配于預存的語音識別模式,則控制單元170可以執(zhí)行與匹配的語音識別模式相對應的顯示設備100的功能。
NLP DB 177可以存儲在顯示設備100的功能和與其相對應的語音識別模式之間的對應關(guān)系。
語音識別單元171、STT DB 173、NLP客戶端175、以及NLP DB 177可以被包括在控制單元170中。STT服務器300可以將從語音識別單元171接收到的語音命令轉(zhuǎn)換成文本模式(S109),并且將被轉(zhuǎn)換的文本模式發(fā)送到語音識別單元171。
NLP服務器500可以根據(jù)從NLP客戶端175接收到的意圖分析請求來分析與文本模式有關(guān)的用戶的意圖(S119),并且將意圖分析結(jié)果發(fā)送到NLP客戶端175。
接下來,將會參考圖3描述根據(jù)本發(fā)明的實施例的語音識別系統(tǒng)的操作方法。
圖3是圖示根據(jù)本發(fā)明的實施例的語音識別系統(tǒng)的操作方法的流程圖。
顯示設備100的語音識別單元171接收用戶的語音命令(S101)。語音識別單元171可以包括諸如麥克風的語音輸入單元,以接收用戶的語音命令。語音輸入單元可以被提供作為與語音識別單元171分離的組件。語音輸入單元可以被包括在圖1中描述的用戶輸入接口單元150中。語音識別單元171可以將通過麥克風輸入的語音命令處理成電子語音數(shù)據(jù)。
在實施例中,語音識別單元171可以在顯示設備100的網(wǎng)絡被阻止的狀態(tài)下接收用戶的語音命令。顯示設備100的網(wǎng)絡被阻止的狀態(tài)可以表示顯示設備100的網(wǎng)絡沒有被連接到STT服務器300和NLP服務器500的狀態(tài)。
在另一實施例中,語音設備單元171可以在顯示設備100的網(wǎng)絡被連接的狀態(tài)下接收用戶的語音命令。顯示設備100的狀態(tài)被連接的狀態(tài)可以表示顯示設備100的網(wǎng)絡被連接到STT服務器300和NLP服務器500的狀態(tài)。
顯示設備100的語音識別單元171可以確定是否與接收語音命令相對應的文本數(shù)據(jù)已經(jīng)匹配STT DB 173中的預存的文本模式(S103)。語音識別單元171可以搜索STT DB 173以檢查是否與接收語音命令相對應的文本數(shù)據(jù)已經(jīng)匹配預存的文本模式。STT DB 173可以存儲在多個語音命令和多個文本模式之間的對應關(guān)系。語音識別單元171可以通過搜索STT DB 173確定是否與接收語音命令相對應的文本數(shù)據(jù)已經(jīng)匹配多個文本模式中的每一個。將會參考圖4對其進行描述。
圖4圖示根據(jù)本發(fā)明的實施例的執(zhí)行模式匹配以將語音命令轉(zhuǎn)換成文本的過程。
如果用戶發(fā)出稱為“上調(diào)改變頻道”的語音,則語音識別單元171接收稱為“上調(diào)改變頻道”的語音命令,并且將接收到的語音命令轉(zhuǎn)換成文本數(shù)據(jù)。語音識別單元171執(zhí)行在被存儲在STT DB 173中的文本模式與對應于語音命令的文本數(shù)據(jù)之間的匹配過程。假定被存儲在STT DB 173中的文本模式是(NBC、PBS、SOS、以及ABS)。語音識別單元171可以確定表示在對應于語音命令的文本數(shù)據(jù)和預存的文本模式之間的相似程度的相似度。如果在對應于語音命令的文本數(shù)據(jù)和預存的文本模式之間的相似度超過閾值相似度,則語音識別單元171可以確定文本數(shù)據(jù)已經(jīng)匹配對應的預存的文本模式。如果在對應于語音命令的文本數(shù)據(jù)和預存的文本模式之間的相似度小于閾值相似度,則語音識別單元171可以確定文本數(shù)據(jù)還沒有匹配對應的預存的文本模式。參考圖4,參考相似度可以被設置為4000的值。與稱為“上調(diào)改變頻道”的語音命令相對應的文本數(shù)據(jù)與是預存的文本模式的NBC具有1000的相似度,與預存的文本模式PSB具有2500的相似度,與預存的文本模式S0S具有2000的相似度,并且與預存的文本模式ABS具有1560的相似度,其沒有超過參考相似度4000。因此,語音識別單元171能夠確定與稱為“上調(diào)改變頻道”的語音命令相對應的文本數(shù)據(jù)還沒有匹配預存的文本模式。即,語音識別單元171沒有識別用戶發(fā)出的稱為“上調(diào)改變頻道”的語音命令。
再次,將會描述圖3。
作為確定結(jié)果,如果與語音命令相對應的文本數(shù)據(jù)匹配預存的文本模式,則顯示設備100的語音識別單元171將對于文本數(shù)據(jù)的意圖分析的意圖分析結(jié)構(gòu)發(fā)送到NLP服務器500(S117)。
作為確定結(jié)果,如果與語音命令相對應的文本數(shù)據(jù)沒有匹配預存的文本模式,則顯示設備100的語音識別單元171將語音命令發(fā)送到STT服務器300(S107)。語音識別單元171可以將與語音命令相對應的語音信號發(fā)送到STT服務器300使得獲取與語音命令相對應的文本模式。在實施例中,如果與語音命令相對應的文本數(shù)據(jù)不匹配預存的文本模式,則顯示設備100的控制單元170可以輸出不存在與語音命令相對應的文本模式。使用包括消息、聲音等等的各種通知方法可以執(zhí)行輸出。另外,如果與語音命令相對應的文本數(shù)據(jù)不匹配預存的文本模式,則顯示設備100的控制單元170可以輸出與語音命令相對應的顯示設備100的功能不能夠被執(zhí)行。
STT服務器300將從語音識別單元171接收到的語音命令轉(zhuǎn)換成文本模式(S109),并且將轉(zhuǎn)換的文本模式發(fā)送到語音識別單元171(S111)。STT服務器300可以存儲在用戶的語音命令和與其相對應的文本模式之間的對應關(guān)系。
顯示設備100的NLP客戶端175從語音識別單元171接收轉(zhuǎn)換的文本模式,并且檢查是否文本模式已經(jīng)匹配預存的語音識別模式(S113)。
NLP客戶端175可以檢查是否文本模式已經(jīng)匹配預存的語音識別模式使得執(zhí)行與文本模式相對應的顯示設備100的功能。在實施例中,NLP DB 177可以存儲在顯示設備100的功能和與其相對應的語音識別模式之間的對應關(guān)系。顯示設備100的一個功能可以對應于多個語音識別模式。NLP客戶端175可以將被存儲在NLP DB 177中的多個語音識別模式中的每一個與接收到的文本模式進行比較并且檢查是否文本模式已經(jīng)匹配語音識別模式。參考圖5將會對其進行描述。
圖5圖示根據(jù)本發(fā)明的實施例的檢查是否與用戶的語音命令相對應的文本模式已經(jīng)匹配被存儲在NLP DB中的語音識別模式的過程。
參考圖5,如果用戶發(fā)出稱為“上調(diào)改變頻道”的語音,則NLP客戶端175通過圖3的過程獲取與稱為“上調(diào)改變頻道”的語音命令相對應的文本模式。NLP DB 177存儲對應于被存儲的頻道功能的多個語音識別模式,即,被稱為“頻道上調(diào)”、“請上調(diào)改變頻道”、以及“請你上調(diào)改變頻道”的模式。因為在NLP DB 177中沒有存儲稱為“上調(diào)改變頻道”的文本模式,所以NLP客戶端175可以檢查是否與語音命令相對應的文本模式還沒有匹配被存儲在NLP DB 177中的語音識別模式。因此,顯示設備100能夠識別相對應的語音命令并且因此不能夠執(zhí)行顯示設備100的功能。
再次,將會描述圖3。
作為匹配結(jié)果,如果文本模式匹配預存的語音識別模式,則控制單元170執(zhí)行與匹配額語音識別模式相對應的顯示設備100的功能(S115)。
作為匹配結(jié)果,如果文本模式不匹配預存的語音識別模式,則NLP客戶端175將用于分析相對應的文本模式的意圖的意圖分析請求發(fā)送到NLP服務器500(S117)。
在實施例中,NLP客戶端175可以檢查與用戶的語音命令相對應的文本模式的使用頻率。如果與語音命令相對應的文本模式的使用頻率超過參考用戶頻率,則NLP客戶端175可以請求NLP服務器500對文本模式進行意圖分析。將會參考圖9對其進行詳細描述。
在另一實施例中,可以通過NLP服務器500檢查與語音命令相對應的文本模式的用戶頻率。將會參考圖10對其進行詳細描述。
在實施例中,如果文本模式不匹配預存的語音識別模式,則顯示設備100的控制單元170可以輸出與文本模式相對應的顯示設備100的功能不能夠被執(zhí)行。在輸出與文本模式相對應的顯示設備100的功能不能夠被執(zhí)行之后,NLP客戶端175可以將意圖分析請求發(fā)送到NLP服務器500。
NLP服務器500根據(jù)從NLP客戶端175接收到的意圖分析請求分析與文本模式有關(guān)的用戶的意圖(S119),并且將意圖分析結(jié)果發(fā)送到NLP客戶端175(S121)。在此,用戶的意圖可以表示允許顯示設備100執(zhí)行特定功能的目的。NLP服務器500可以檢查接收到的文本模式控制顯示設備100的哪個功能。NLP服務器500可以使用在本領(lǐng)域中已知的自然語言識別處理技術(shù)分析與文本模式有關(guān)的用戶的意圖。NLP服務器500可以通過語素分析、語義分析、言語行為分析、以及對話處理分析檢測用戶的意圖。語素分析是將文本模式劃分成是最小的意義單元的語素單元并且檢測每個語素具有語音的哪個部分的過程。語義分析是基于諸如名詞短語、動詞短語、或者形容詞短語的特定參考分析文本模式、使用語素分析結(jié)果,并且檢測在被劃分的短語之間存在哪種關(guān)系的模式過程??梢酝ㄟ^語義分析檢測語音命令的主格、賓格以及限定詞。言語行為分析是分析用戶的話語意圖以檢查是否用戶問問題、請求信息、或者表達簡單表情的過程。如果用戶的話語意圖被檢測,則執(zhí)行用于適當回答的對話處理過程,諸如回答用戶的語音命令的過程、作出響應的過程、或者采取用戶所期待的行為的過程。
在另一實施例中,用戶的意圖分析沒有經(jīng)過NLP服務器500而是可以通過NLP客戶端175執(zhí)行。
NLP服務器500發(fā)送到NLP客戶端175的意圖分析結(jié)果可以包括如在圖6中所圖示的語法。
圖6圖示根據(jù)本發(fā)明的實施例的組成表示用戶的話語意圖的結(jié)果的意圖分析結(jié)果的語法。
參考圖6,是對NLP服務器500的響應的意圖分析結(jié)果可以包括命令字段和行為字段。命令字段是表示用戶的語音命令被用于控制的設備的字段。例如,命令:tv_control,表示用戶的語音命令被用于控制TV(顯示設備)的功能,可以被用作命令字段。行為字段是表示對應的設備的功能要被執(zhí)行的字段。例如,行為:表示TV的頻道上調(diào)的channel_up可以被用作行為字段。
再次,將會描述圖3。
顯示設備100的NLP客戶端175基于接收到的意圖分析結(jié)果使與語音命令相對應的文本模式與對應于文本模式的顯示設備100的功能相匹配,使得將匹配的結(jié)果存儲在NLP DB 177中(S123)。即,NLP客戶端175可以使與沒有被存儲的用戶的語音命令相對應的文本模式與對應的功能匹配。因此,顯示設備100的NLP客戶端175能夠獲取用于對應于用戶的語音命令的文本模式的意圖分析結(jié)果,而不向NLP服務器500請求意圖分析結(jié)果,并且立即執(zhí)行與語音命令相對應的顯示設備100的功能。
在實施例中,NLP客戶端175可以向語音識別單元171發(fā)送用于將基于意圖分析結(jié)果獲取的、與用戶的語音命令相對應的文本模式添加到STT DB 173的請求。語音識別單元171可以根據(jù)接收到的請求將與用戶的語音命令相對應的文本模式存儲在STT DB 173中。將會參考圖7和圖8描述與用戶的語音命令相對應的文本模式添加到NLP DB 177和STT DB 173的示例。
圖7和圖8圖示根據(jù)本發(fā)明的實施例的與用戶的語音命令相對應的模式被添加到NLP DB和STT DB的示例。
參考圖7,除了預存為用戶的話語語音的“頻道上調(diào)”和“請上調(diào)改變頻道”之外,NLP DB 177還可以另外存儲“上調(diào)改變頻道”,對應于顯示設備100的頻道上調(diào)功能。即,能夠看到稱為“上調(diào)改變頻道”的語音識別模式已經(jīng)被添加到顯示設備100的頻道上調(diào)功能。
參考圖8,除了預存的文本模式“頻道上調(diào)”和“請上調(diào)改變頻道”之外,STT DB 173還可以另外存儲稱為“上調(diào)改變頻道”的文本模式。
再次,將會描述圖3。
顯示設備100的語音識別單元171檢查是否已經(jīng)再次接收到在步驟S101中接收到的語音命令(S125)。如果再次接收到語音命令,則語音識別單元171執(zhí)行與語音命令相對應的顯示設備100的功能(S127)。
根據(jù)本發(fā)明的實施例,即使與用戶發(fā)出的語音命令相對應的文本模式不匹配預存的語音識別模式,顯示設備100也能夠存儲對應的語音命令和與其相對應的功能。因此,如果語音命令被再次輸入,則顯示設備100能夠識別對應的語音命令而沒有與STT服務器300和NLP服務器500的任何關(guān)聯(lián),并且通過本身對被識別的語音命令執(zhí)行自然語言識別處理。
接下來,將會參考圖9至圖12描述分析通過用戶頻繁發(fā)出的語音命令并且基于分析結(jié)果通過本身執(zhí)行自然語言識別處理的實施例。
圖9是根據(jù)本發(fā)明的實施例的顯示設備分析用戶的話語模式并且選擇訓練目標以通過本身對語音命令執(zhí)行自然語言識別處理的參考的視圖。
選擇訓練目標的理由是,如果用戶頻繁發(fā)出的語音命令存在但是對應于沒有被存儲在顯示設備100的NLP DB 177中的語音識別模式,則通過本身對頻繁地發(fā)出的語音命令執(zhí)行自然語言識別處理而沒有與服務器的任何關(guān)聯(lián)。
在實施例中,顯示設備100可以基于用戶話語日志選擇特定語音命令作為訓練目標。當語音命令變成訓練目標時,沒有被存儲在顯示設備100的NLP DB 177中的語音識別模式可以變成候選。參考圖9,顯示設備100的控制單元170可以頻繁地存儲用戶發(fā)出的語音命令,并且基于存儲結(jié)果生成用戶話語日志。顯示設備100的控制單元170可以存儲用于顯示設備100的各個功能的用戶的話語日志。圖9圖示與頻道上調(diào)功能相對應的用戶的話語日志。參考圖9,因為在被包括在用戶的話語日志中的語音命令當中的“上調(diào)改變頻道”被最頻繁地發(fā)出14次,所以顯示設備100的控制單元170可以選擇“上調(diào)改變頻道”作為訓練目標。在另一實施例中,顯示設備100的控制單元170可以選擇在被包括在用戶的話語日志中的語音命令當中的發(fā)出預設的次數(shù)或者更多的語音命令作為訓練目標。
接下來,將會描述圖10。
圖10是圖示根據(jù)本發(fā)明的實施例的NLP服務器分析用戶的話語模式并且選擇訓練目標以通過本身對語音命令執(zhí)行自然語言識別處理的參考的視圖。
NLP服務器500可以從與各自的用戶相對應的多個顯示設備接收通過多個用戶發(fā)出的語音命令。NLP服務器500可以選擇在與顯示設備100的特定功能相對應的語音命令當中的最頻繁地發(fā)出的語音命令作為訓練目標。例如,NLP服務器500可以分析存儲的所有用戶的話語模式并且選擇最頻繁發(fā)出的語音命令“上調(diào)改變頻道”作為訓練目標。在另一實施例中,NLP服務器500可以選擇在被存儲的語音命令當中的發(fā)出預設次數(shù)或者更多的語音命令作為訓練目標。
接下來,將會描述圖11和圖12。
首先,圖11圖示訓練所選擇的語音命令的實施例。
參考圖11,NLP客戶端175可以將用于選擇與通過顯示設備100選擇的語音命令(上調(diào)改變頻道)相對應的文本模式作為訓練目標的選擇請求發(fā)送到NLP服務器500。對應于選擇請求,NLP服務器500可以將通知稱為“上調(diào)改變頻道”的文本模式已經(jīng)被選擇作為訓練目標的選擇響應發(fā)送到NLP客戶端175。選擇響應可以包括表示顯示設備100的功能的命令字段、表示顯示設備100的頻道上調(diào)功能的行為字段、以及通知文本模式已經(jīng)被選擇作為訓練目標的訓練請求(need_to_training)字段。
圖12圖示顯示設備從NLP服務器獲取對其執(zhí)行訓練的語音命令的列表的實施例。
參考圖12,NLP客戶端175可以將用于請求對其執(zhí)行訓練的語音命令的列表的訓練列表請求(得到訓練列表)發(fā)送到NLP服務器500。NLP服務器500可以將包括根據(jù)訓練列表請求對其執(zhí)行訓練的語音命令的列表響應發(fā)送到NLP客戶端175。在NLP DB 177中,基于接收到的列表響應,NLP客戶端175可以將與對其執(zhí)行訓練的語音命令相對應的文本模式添加到與顯示設備100的功能相對應的語音識別模式。而且,NLP客戶端175可以向語音識別單元171發(fā)送用于將與對其執(zhí)行訓練的語音命令相對應的文本模式存儲在STT DB 173中的請求。根據(jù)從NLP客戶端175接收到的請求,語音識別單元171可以將與對其執(zhí)行訓練的語音命令相對應的文本模式存儲在STT DB 173中。因此,如果接收到被添加的語音命令,則顯示設備100能夠?qū)φZ音命令執(zhí)行自然語言識別處理而沒有與STT服務器300和NLP服務器500的沒有任何關(guān)聯(lián)。
接下來,將會參考圖13至圖15描述選擇在顯示設備中頻繁地使用的應用或者菜單中可選擇的菜單項目作為訓練目標的實施例。
顯示設備100可以基于用戶的使用模式生成使用模式日志。在實施例中,使用模式可以表示用戶在預設時段期間使用顯示設備100的特定應用的時間。例如,如在圖13中所示,使用模式日志包括使用直播TV應用的時間25334、使用網(wǎng)絡瀏覽器應用的時間2212、以及使用STB應用的時間2234。基于用戶模式日志,顯示設備100的控制單元170可以模式選擇最頻繁使用的應用直播TV應用作為訓練目標的基礎。
圖14圖示直播TV應用的執(zhí)行屏幕。直播TV應用的執(zhí)行屏幕可以包括廣播再現(xiàn)屏幕和TV菜單屏幕。TV菜單屏幕可以包括廣播菜單、頻道列表以及記錄列表。廣播菜單、頻道列表、以及記錄列表中的每一個可以是通過用戶輸入可執(zhí)行的文本。
顯示設備100的控制單元170可以選擇被包括在TV菜單屏幕中的稱為“廣播菜單”、“頻道列表”以及“記錄列表”的文本模式作為用于自然語言識別處理的訓練目標??刂茊卧?70可以生成被包括在TV菜單屏幕中的“廣播菜單”、“頻道列表”以及“記錄列表”的訓練選擇列表,并且將生成的訓練選擇列表發(fā)送到NLP服務器500。顯示設備100可以從NLP服務器500接收通過對訓練選擇列表執(zhí)行自然語言處理獲得的訓練結(jié)果,并且將接收到的訓練結(jié)果存儲在NLP DB 177中。
同時,如果在圖14的TV菜單屏幕上選擇“廣播菜單”,則如在圖15中所示,顯示設備100可以顯示廣播菜單的下級項目。廣播菜單的下級項目可以包括偏好頻道、頻道設置以及圖片質(zhì)量設置。顯示設備100的控制單元170可以選擇作為廣播菜單的下級項目的被稱為“偏好頻道”、“頻道設置”以及“圖片質(zhì)量設置”的文本模式作為用于自然語言處理的訓練目標??刂茊卧?70可以生成包括廣播菜單的下級項目“偏好頻道”、“頻道設置”以及“圖片質(zhì)量設置”的訓練選擇列表,并且將生成的訓練選擇列表發(fā)送到NLP服務器500。顯示設備100可以從NLP服務器500接收通過對訓練選擇列表執(zhí)行自然語言處理獲得的訓練結(jié)果,并且將接收到的訓練結(jié)果存儲在NLP DB 177中。如果用戶在使用直播TV應用期間發(fā)出被稱為“廣播菜單”的語音命令,則顯示設備100可以接收發(fā)出的“廣播菜單”并且顯示廣播菜單的下級項目。另外,如果用戶發(fā)出被稱為“偏好頻道”的語音命令,則顯示設備100可以接收被發(fā)出的“偏好頻道”并且顯示偏好頻道列表。即,基于語音命令的訓練結(jié)果,顯示設備100可以立即執(zhí)行與語音命令相對應的功能而沒有與NLP服務器500的任何關(guān)聯(lián)。
接下來,將會描述圖16。
圖16是圖示根據(jù)本發(fā)明的實施例的NLP服務器對用戶的語音命令執(zhí)行意圖分析并且在顯示設備中更新意圖分析結(jié)果的過程的視圖。
NLP DB 177可以存儲與顯示設備100的頻道改變功能相對應的語音識別模式。語音識別模式可以被劃分成意圖部分和目標部分以被存儲在NLP DB 177中。例如,被稱為“將頻道改變成NBC”的語音識別模式可以被劃分成表示被稱為“改變頻道”的頻道變化的意圖部分和表示被稱為“NBC”的特定頻道的目標部分以被存儲在NLP DB 177中。當語音識別模式被劃分成意圖部分和目標部分時,對其能夠執(zhí)行自然語言識別處理的話語模式可以被配置成意圖部分和目標部分的組合,諸如“請將頻道改變成NBC”、“將頻道改變成NBC如何”、“請將頻道改變成PBC”或者“將頻道改變成PBC如何”。
同時,如果顯示設備100的NLP客戶端175請求NLP服務器500執(zhí)行被稱為“將頻道改變成NBC”的語音命令的意圖分析,則NLP服務器500響應于請求可以將意圖分析結(jié)果發(fā)送到NLP客戶端175。意圖分析結(jié)果可以包括命令字段、行為字段、頻道編號(值)字段、意圖(目的)字段、以及目標(nameEntity)字段。頻道編號字段可以是表示與被稱為“NBC”的頻道相對應的頻道編號的字段。意圖字段可以是表示要改變頻道的意圖檢測結(jié)果。目標字段是表示要改變頻道的名稱的字段。NLP客戶端175可以將從NLP服務器500接收到的意圖分析結(jié)果存儲在NLP DB 177中?;谝鈭D分析結(jié)果,NLP客戶端175可以將與語音命令相對應的語音識別模式劃分成意圖部分和目標部分以在NLP DB 177中更新。
根據(jù)本發(fā)明的實施例,顯示設備100可以檢測接收特定語音命令的頻率,不論用戶發(fā)出什么。然后,如果檢測到的頻率是參考頻率或者更多,則顯示設備100可以獲取和存儲特定語音命令之間的對應關(guān)系、與特定語音命令相對應的文本模式、與特定語音命令相對應的語音識別模式、以及與特定語音命令相對應的顯示設備100的功能。因此,盡管任何用戶發(fā)出特定語音命令,但是顯示設備100能夠立即執(zhí)行與特定語音命令相對應的功能,而沒有與STT服務器300和NLP服務器500的沒有任何關(guān)聯(lián)。
此外,根據(jù)本發(fā)明的實施例,顯示設備100可以為各個用戶提供用戶定制的語音識別服務。例如,顯示設備100可以基于用戶的語音命令的語音組件識別用戶。顯示設備100可以從識別的用戶接收相同的語音命令多次。如果接收到對應的語音命令的頻率是參考頻率或者更多,則顯示設備100可以獲取與語音命令相對應的文本模式,以及文本模式的意圖分析結(jié)果,如在圖2中所圖示。在這樣的情況下,盡管通過不同的用戶以參考頻率或者更大接收到相同的語音命令,但是顯示設備100可以不存儲與語音命令相對應的顯示設備100的功能。即,如果用戶以參考頻率或者更大發(fā)出語音命令,則顯示設備100可以獲取發(fā)出的語音命令的意圖分析結(jié)果。顯示設備100可以基于意圖分析結(jié)果獲取在特定用戶、特定用戶的語音命令、以及與特定用戶的語音命令相對應的顯示設備100的功能之間的對應關(guān)系。因此,顯示設備能夠提供適合于特定用戶的語音識別服務。
根據(jù)本發(fā)明的實施例,前述的方法能夠被實現(xiàn)為在通過程序?qū)懭氲慕橘|(zhì)上由處理器可讀取的代碼。計算機可讀介質(zhì)的示例能夠包括ROM、RAM、CD-ROM、磁帶、軟盤、以及光數(shù)據(jù)存儲裝置等等,并且也包括經(jīng)由載波(例如,經(jīng)由互聯(lián)網(wǎng)的傳輸)實現(xiàn)的設備。
在上面描述的遠程控制設備將不會以被限制的方式應用于上述實施例的配置和方法,并且各個實施例的全部或者部分能夠被選擇性地組合和配置以對其進行各種修改。