語音控制方法及其設(shè)備的制作方法
【專利摘要】本發(fā)明公開了一種語音控制方法及其設(shè)備,所述控制方法包括步驟:(a)實(shí)時(shí)地接收音頻數(shù)據(jù);(b)通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息;(c)判斷所述有效音頻信息是否包含一喚醒信息;若包含所述喚醒信息,則進(jìn)一步執(zhí)行步驟(d);否則執(zhí)行步驟(a);(d)通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息;(e)進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息;(f)根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并將執(zhí)行的結(jié)果顯示給用戶。本發(fā)明提供一種新型的智能語音交互的環(huán)境,使得用戶能高效便捷地使用語音交互功能。
【專利說明】語音控制方法及其設(shè)備
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語音/語義識(shí)別技術(shù)、自然語言處理技術(shù)及智能終端應(yīng)用開發(fā)【技術(shù)領(lǐng)域】,具體的說,是一種語音控制方法及其設(shè)備。
【背景技術(shù)】
[0002]隨著語音交互技術(shù)和智能控制技術(shù)地不斷發(fā)展,具有語音識(shí)別功能并能根據(jù)所輸入的語音內(nèi)容執(zhí)行相關(guān)操作的設(shè)備也越來越多。目前,已知的語音控制設(shè)備主要采用兩種方式進(jìn)行交互,一種方式是通過手動(dòng)啟動(dòng)語音識(shí)別開關(guān),在啟動(dòng)該開關(guān)之后,語音輸入執(zhí)行內(nèi)容。另一種方式是通過特定的喚醒信息以啟動(dòng)語音識(shí)別功能,在喚醒完成后,再語音輸入執(zhí)行內(nèi)容。但是上述兩類的語音交互的控制設(shè)備存有以下不足之處:(1)第一種方式,需要手動(dòng)操作,不能完全實(shí)現(xiàn)語音交互全自動(dòng)操作。(2)第二種方式,每次語音操作,首先需要先語音輸入一特定的喚醒信息,然后在等待一設(shè)定時(shí)間(若干秒)之后,設(shè)備才會(huì)自動(dòng)去截取用戶所述的語音內(nèi)容,于是這樣會(huì)大大降低智能語音交互的快捷性和便捷性。
[0003]故,需要一種新型的語音控制方法及其設(shè)備。
【發(fā)明內(nèi)容】
[0004]本發(fā)明的目的在于,提供一種語音控制方法及其設(shè)備,其能夠克服現(xiàn)有技術(shù)的不足之處,并提供一種新型的智能語音交互的環(huán)境,使得用戶能夠更高效便捷地使用語音交互功能。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明一種語音控制方法,包括步驟:(a)實(shí)時(shí)地接收音頻數(shù)據(jù);(b)通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息;(C)判斷所述有效音頻信息是否包含一喚醒信息;若包含所述喚醒信息,則進(jìn)一步執(zhí)行步驟(d);否則執(zhí)行步驟(a) ;(d)通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息;(e)進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息;Cf)根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0006]進(jìn)一步,在步驟(C)中進(jìn)一步包括以下步驟:
將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫;
將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則執(zhí)行步驟(d);否則,則執(zhí)行步驟(a)。
[0007]進(jìn)一步,在所述步驟(d)和步驟(e)中進(jìn)一步包括以下步驟:
將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫;
通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出時(shí),則執(zhí)行步驟(e);否則執(zhí)行步驟(a)。
[0008]進(jìn)一步,在所述步驟(e)中進(jìn)一步包括以下步驟:
將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息;
將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。[0009]進(jìn)一步,所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種。
[0010]為了實(shí)現(xiàn)上述目的,本發(fā)明還提供一種語音控制設(shè)備,其包括音頻接收模塊、斷點(diǎn)檢測(cè)模塊、喚醒信息判斷模塊、執(zhí)行內(nèi)容信息獲取模塊、轉(zhuǎn)換模塊和執(zhí)行模塊;其中所述音頻接收模塊,用以實(shí)時(shí)地接收音頻數(shù)據(jù);所述斷點(diǎn)檢測(cè)模塊,與所述音頻接收模塊連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息;所述喚醒信息判斷模塊,與所述斷點(diǎn)檢測(cè)模塊連接,用以判斷所述有效音頻信息是否包含一喚醒信息,若是則調(diào)用所述執(zhí)行內(nèi)容信息獲取模塊,否則調(diào)用所述音頻接收模塊;所述執(zhí)行內(nèi)容信息獲取模塊,與所述喚醒信息判斷模塊連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息;所述轉(zhuǎn)換模塊,與所述執(zhí)行內(nèi)容信息獲取模塊連接,用以進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息;所述執(zhí)行模塊,與所述轉(zhuǎn)換模塊連接,所述執(zhí)行模塊用以根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0011]進(jìn)一步,所述喚醒信息判斷模塊進(jìn)一步包括傳送單元和匹配單元;所述傳送單元用以將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫;所述匹配單元與所述傳送單元連接,用以將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則調(diào)用執(zhí)行內(nèi)容信息獲取模塊;否則,調(diào)用所述音頻接收模塊。
[0012]進(jìn)一步,所述傳送單元進(jìn)一步用以將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫;所述匹配單元進(jìn)一步用以通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出時(shí),則調(diào)用所述轉(zhuǎn)換模塊;否則調(diào)用所述音頻接收模塊。
[0013]進(jìn)一步,所述轉(zhuǎn)換模塊進(jìn)一步包括轉(zhuǎn)換單元和解析單元,所述轉(zhuǎn)換單元,用以將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息;所述解析單元與所述轉(zhuǎn)換單元連接,用以將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0014]進(jìn)一步,所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種。
[0015]本發(fā)明的優(yōu)點(diǎn)在于,利用語音斷點(diǎn)檢測(cè)技術(shù)、喚醒信息檢測(cè)技術(shù)及語音識(shí)別技術(shù),以提供一種新型的智能語音交互的環(huán)境,使用戶能夠更高效方便地使用語音交互功能,從而使得相關(guān)的設(shè)備能夠更快捷地完成所欲執(zhí)行的語音內(nèi)容。
【專利附圖】
【附圖說明】
[0016]圖1是本發(fā)明所述語音控制方法的步驟流程圖。
[0017]圖2是本發(fā)明所述語音控制設(shè)備的架構(gòu)圖。
【具體實(shí)施方式】
[0018]下面結(jié)合附圖對(duì)本發(fā)明提供的一種語音控制方法及設(shè)備的【具體實(shí)施方式】做詳細(xì)說明。
[0019]首先結(jié)合附圖給出本發(fā)明所述語音控制方法的【具體實(shí)施方式】。
[0020]圖1是本發(fā)明所述語音控制方法的步驟流程圖。參見圖1所示,本發(fā)明所述語音控制方法包括:步驟S110、實(shí)時(shí)地接收音頻數(shù)據(jù);步驟S120、通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息;步驟S130、判斷所述有效音頻信息是否包含一喚醒信息;若包含所述喚醒信息,則進(jìn)一步執(zhí)行步驟S140 ;否則執(zhí)行步驟SllO ;步驟S140、通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息;步驟S150、進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息;步驟S160根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0021]以下將結(jié)合附圖1來具體說明每一步驟。
[0022]步驟SllO:實(shí)時(shí)地接收音頻數(shù)據(jù)。
[0023]進(jìn)入初始化狀態(tài),24小時(shí)實(shí)時(shí)地接收音頻數(shù)據(jù)(以語音方式輸入)。
[0024]步驟S120:通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一
有效音頻信息。
[0025]在此步驟中,利用語音斷點(diǎn)檢測(cè)方式對(duì)所接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,從而獲得一有效音頻信息。所謂的首部判斷,正是利用語音斷點(diǎn)檢測(cè)方式,可以獲得有效音頻信息,并且排除了噪音所產(chǎn)生的信息或非正常語音輸入的信息,從而降低目標(biāo)對(duì)象因錯(cuò)誤的音頻信息而執(zhí)行動(dòng)作的概率。
[0026]步驟S130:判斷所述有效音頻信息是否包含一喚醒信息;若包含所述喚醒信息,則進(jìn)一步執(zhí)行步驟S140 ;否則執(zhí)行步驟S110。
[0027]在本發(fā)明的一實(shí)施方式中,所述喚醒信息(或稱喚醒詞)為一預(yù)先設(shè)定,其可以在出廠時(shí)默認(rèn)設(shè)置,或者可以在使用前選定設(shè)置。所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種。例如,喚醒信息可以為“新”、“小明”、“我的小寶貝”等。喚醒信息除了包括中文詞語之外,還可以包括其他外文詞語,在此不做限定。另外,文中所述的喚醒信息為語音輸入時(shí)對(duì)目標(biāo)對(duì)象的稱呼,該目標(biāo)對(duì)象可以根據(jù)所接收到的語音內(nèi)容執(zhí)行相關(guān)的動(dòng)作。所述喚醒信息也在下文中會(huì)得到進(jìn)一步解釋說明。
[0028]在此步驟中,利用喚醒信息檢測(cè)技術(shù)來判斷所述有效音頻信息是否包括所設(shè)定的喚醒信息。若判斷出包含所述喚醒信息,則繼續(xù)后繼步驟,否則重新等待接收新的音頻數(shù)據(jù)。
[0029]當(dāng)判斷出有效音頻信息包含喚醒信息后,進(jìn)一步確認(rèn)喚醒信息是否位于有效音頻信息的開始位置,即位于有效音頻信息的首部。若滿足條件則執(zhí)行后繼步驟,否則,例如喚醒信息出現(xiàn)在有效音頻信息的中間某處,或者出現(xiàn)在結(jié)尾處,則在此情況下,會(huì)重新等待接收新的音頻數(shù)據(jù)。
[0030]在本發(fā)明的另一實(shí)施方式中,在步驟S130中進(jìn)一步包括以下步驟:
將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫;
將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則執(zhí)行步驟S140 ;否則,則執(zhí)行步驟S110。
[0031]其中將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配,可以理解為,首先通過大量預(yù)設(shè)定的數(shù)據(jù)而建立以數(shù)據(jù)模型,然后通過所述有效音頻信息與該數(shù)據(jù)模型進(jìn)行匹配,以確定相似度,若相似度達(dá)到一閾值時(shí),則認(rèn)為所述有效音頻信息包含有喚
醒信息。
[0032]在本發(fā)明的其他實(shí)施方式不限于上述方式,可采用上述通過一預(yù)設(shè)定的喚醒信息,以判斷所述有效音頻信息是否包含所設(shè)定的喚醒信息。
[0033]步驟S140:通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)
容信息。[0034]在此步驟中,通過語音斷點(diǎn)檢測(cè)再次對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容。所謂的首尾判斷,即為通過語音斷點(diǎn)檢測(cè)不僅可以判斷出喚醒信息的結(jié)束位置,即執(zhí)行內(nèi)容的開始位置,而且也判斷出執(zhí)行內(nèi)容的結(jié)束位置,這樣,就可以獲得一有效的執(zhí)行內(nèi)容信息。
[0035]而現(xiàn)有技術(shù)是首先通過語音輸入一特定的喚醒信息,然后在等待一設(shè)定時(shí)間(即固定若干秒)之后,目標(biāo)設(shè)備才會(huì)自動(dòng)去截取用戶所述的語音內(nèi)容,于是會(huì)造成延時(shí)截取語音內(nèi)容的狀況,以至與實(shí)際語音輸入內(nèi)容有偏差,即不完整,從而產(chǎn)生不同的執(zhí)行結(jié)果。由此可見,采用語音斷點(diǎn)檢測(cè)技術(shù)可以保證獲取的執(zhí)行內(nèi)容是正確的。
[0036]在本發(fā)明的另一實(shí)施方式中,在所述步驟S140和步驟S150中進(jìn)一步包括以下步驟:
將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫;
通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出喚醒信息時(shí),則執(zhí)行步驟S150 ;否則執(zhí)行步驟S110。
[0037]上述步驟的執(zhí)行是為了降低誤喚醒概率,通過采用云端語音識(shí)別(引擎)再一次驗(yàn)證當(dāng)前的喚醒信息是否有效。若再次匹配出相同的喚醒信息時(shí),則執(zhí)行后繼步驟。與只通過本地喚醒信息數(shù)據(jù)庫來判斷有效音頻信息是否包含喚醒信息的方式相比,本步驟所采用的方式是利用云端數(shù)據(jù)庫其具有的大量復(fù)雜數(shù)據(jù)所建立的數(shù)據(jù)模型,進(jìn)行喚醒信息的匹配,從而可以有效減低誤喚醒次數(shù)。
[0038]在本發(fā)明的其他實(shí)施方式中不限于上述方式,也可采用其他方式來驗(yàn)證喚醒信息的正確性。
[0039]步驟S150:進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0040]在判斷出所述有效音頻信息包含所述喚醒信息,且獲得執(zhí)行內(nèi)容信息之后,則通過語義解析方式,將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0041]在本發(fā)明的一實(shí)施方式中,該步驟可以進(jìn)一步包括以下步驟:
將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息;
將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0042]換句話說,就是通過語音識(shí)別技術(shù)將語音信息轉(zhuǎn)換成可識(shí)別的文本信息(例如,將語音信息“小明,請(qǐng)打開門”轉(zhuǎn)換成文本格式“小明,請(qǐng)打開門”),并將所述本文信息解析出相關(guān)的執(zhí)行命令,以標(biāo)準(zhǔn)格式輸出。其中,將所述獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息的步驟可以在云端數(shù)據(jù)庫中完成,從而提高轉(zhuǎn)換效率。而該步驟在其他實(shí)施方式中也可以在本地?cái)?shù)據(jù)庫中完成。同時(shí)通過自然語言處理技術(shù)將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0043]步驟S160:根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0044]當(dāng)目標(biāo)設(shè)備(即喚醒信息的對(duì)象)可以根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息,并調(diào)用相關(guān)的模塊以執(zhí)行相關(guān)的執(zhí)行命令,并將執(zhí)行結(jié)果顯示給用戶。
[0045]以下將結(jié)合附圖給出上述技術(shù)方案的實(shí)施例。
[0046]實(shí)施例一、以用戶語音輸入“小智,請(qǐng)打開臥室空調(diào)”為例。
[0047]步驟S110、實(shí)時(shí)地接收音頻數(shù)據(jù)。[0048]目標(biāo)對(duì)象是24小時(shí)實(shí)時(shí)地檢測(cè)所接收到的語音輸入的音頻數(shù)據(jù)。
[0049]步驟S120、通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一
有效音頻信息。
[0050]當(dāng)目標(biāo)對(duì)象接收到音頻數(shù)據(jù)時(shí),會(huì)利用語音斷點(diǎn)檢測(cè)對(duì)所接收到的音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取有效音頻信息“小智,請(qǐng)打開臥室空調(diào)”,并且排除了“小智”有效音頻信息之前的噪音信息或非正常語音輸入信息。
[0051]步驟S130、判斷所述有效音頻信息是否包含一喚醒信息。
[0052]目標(biāo)對(duì)象將所接收到有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫。
[0053]將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配,檢測(cè)是否有符合條件的喚醒信息,當(dāng)檢測(cè)到有“小智”該喚醒信息之后,可以進(jìn)一步判斷,“小智”該喚醒信息是否位于所述有效音頻信息的首部。由于“小智”該喚醒信息是否位于所述有效音頻信息的首部,因此,則執(zhí)行后繼步驟,否則目標(biāo)對(duì)象重新等待接收新的音頻數(shù)據(jù)。
[0054]步驟S140、通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息。
[0055]通過語音斷點(diǎn)檢測(cè)再次對(duì)所述有效音頻信息“小智,請(qǐng)打開臥室空調(diào)”進(jìn)行首尾判斷,判斷出“小智”中“智” 一字在什么時(shí)候結(jié)束,即認(rèn)為接下來的音頻信息即為執(zhí)行內(nèi)容的開始位置。同樣,利用語音斷點(diǎn)檢測(cè)也判斷出“請(qǐng)打開臥室空調(diào)”中“調(diào)”一字在什么時(shí)候結(jié)束,即認(rèn)為執(zhí)行內(nèi)容的結(jié)束位置。于是,可以獲得執(zhí)行內(nèi)容信息(即“請(qǐng)打開臥室空調(diào)”)。
[0056]在本實(shí)施例中,目標(biāo)對(duì)象可以經(jīng)一步將有效音頻信息包括喚醒信息和執(zhí)行內(nèi)容信息(此處為“小智” “請(qǐng)打開臥室空調(diào)”同時(shí)傳送至云端數(shù)據(jù)庫。
[0057]通過云端語音識(shí)別將所述喚醒信息“小智”與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配,若匹配出,則執(zhí)行下一步操作,否則目標(biāo)對(duì)象重新等待新的音頻數(shù)據(jù)。通過本地喚醒信息數(shù)據(jù)庫的內(nèi)容匹配及云端數(shù)據(jù)庫的內(nèi)容匹配,即喚醒信息的雙重驗(yàn)證,以有效降低誤喚醒次數(shù)。
[0058]在本實(shí)施例中,通過云端數(shù)據(jù)庫以及語音識(shí)別技術(shù),所述執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息,從而提高轉(zhuǎn)換效率。
[0059]步驟S150、進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0060]在此步驟中,通過自然語言處理技術(shù)將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。也就是說,通過自然語音處理技術(shù),對(duì)文本格式信息解析,識(shí)別出文本格式信息的真實(shí)意圖,“請(qǐng)打開臥室空調(diào)”的含義是“將臥室這個(gè)房間的空調(diào)打開”,并轉(zhuǎn)化成標(biāo)準(zhǔn)執(zhí)行命令信息為“CommandOpenl臥室|空調(diào)”。所述標(biāo)準(zhǔn)執(zhí)行命令信息的格式可按需求定義,只需要以固定格式即可。
[0061]步驟S160根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0062]目標(biāo)對(duì)象根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息“CommandOpenl臥室|空調(diào)”,調(diào)用相關(guān)的處理模塊和執(zhí)行模塊,以配合完成所述標(biāo)準(zhǔn)執(zhí)行命令信息的內(nèi)容。同時(shí),將執(zhí)行的結(jié)果顯示給用戶(此處,即為目標(biāo)對(duì)象將臥室的空調(diào)開啟)。
[0063]本發(fā)明所述的語音控制方法,是通過識(shí)別出用戶語音輸入的喚醒信息和執(zhí)行內(nèi)容,以啟動(dòng)語音控制流程,從而將用戶語音輸入的操作命令(即執(zhí)行內(nèi)容)以預(yù)設(shè)方式發(fā)送至目標(biāo)設(shè)備,實(shí)現(xiàn)對(duì)目標(biāo)設(shè)備的控制。[0064]更重要的一點(diǎn)是,本發(fā)明是利用語音斷點(diǎn)檢測(cè)技術(shù)、喚醒信息檢測(cè)技術(shù)、語音識(shí)別技術(shù)及自然語言處理技術(shù)來提供一種新型的智能語音交互的環(huán)境,用戶無需手動(dòng)操作目標(biāo)設(shè)備,于是減少用戶的操作,使用戶能夠更高效方便地使用語音交互功能。
[0065]除了上述本發(fā)明所提供的一種語音控制方法之外,本發(fā)明還提供一種語音控制設(shè)備。
[0066]圖2是本發(fā)明所述語音控制設(shè)備的架構(gòu)圖。參見圖2所示,本發(fā)明所述語音控制設(shè)備包括音頻接收模塊M210、斷點(diǎn)檢測(cè)模塊M220、喚醒信息判斷模塊M230、執(zhí)行內(nèi)容信息獲取模塊M240、轉(zhuǎn)換模塊M250和執(zhí)行模塊M260。其中所述音頻接收模塊M210,用以實(shí)時(shí)地接收音頻數(shù)據(jù)。
[0067]所述斷點(diǎn)檢測(cè)模塊M220,與所述音頻接收模塊M210連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息。
[0068]其中,所謂的首部判斷,正是利用語音斷點(diǎn)檢測(cè)方式,可以獲得有效音頻信息,并且排除了噪音所產(chǎn)生的信息或非正常語音輸入的信息,從而降低目標(biāo)對(duì)象因錯(cuò)誤的音頻信息而執(zhí)行動(dòng)作的概率。
[0069]所述喚醒信息判斷模塊M230,與所述斷點(diǎn)檢測(cè)模塊M220連接,用以判斷所述有效音頻信息是否包含一喚醒信息,若是則調(diào)用所述執(zhí)行內(nèi)容信息獲取模塊,否則調(diào)用所述音頻接收模塊。
[0070]在本發(fā)明一實(shí)施方式中,所述喚醒信息為一預(yù)先設(shè)定,其可以在出廠時(shí)默認(rèn)設(shè)置,或者可以在使用前選定設(shè)置。所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種。例如,喚醒信息可以為“新”、“小明”、“我的小寶貝”等。喚醒信息除了包括中文詞語之外,還可以包括其他外文詞語,在此不做限定。另外,文中所述的喚醒信息為語音輸入時(shí)對(duì)目標(biāo)對(duì)象的稱呼,該目標(biāo)對(duì)象可以根據(jù)所接收到的語音內(nèi)容執(zhí)行相關(guān)的動(dòng)作。
[0071]而作為優(yōu)選的實(shí)施方式,所述喚醒信息判斷模塊M230進(jìn)一步包括傳送單元M231和匹配單元M233 ;所述傳送單元M231用以將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫;所述匹配單元M233與所述傳送單元M231連接,用以將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則調(diào)用所述執(zhí)行內(nèi)容信息獲取模塊M240 ;否則,調(diào)用所述音頻接收模塊M210。
[0072]作為優(yōu)選的實(shí)施方式,所述傳送單元M231進(jìn)一步用以將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫;所述匹配單元M233進(jìn)一步用以通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出喚醒信息時(shí),則調(diào)用所述轉(zhuǎn)換模塊M250 ;否則調(diào)用所述音頻接收模塊M210。與只通過本地喚醒信息數(shù)據(jù)庫來判斷有效音頻信息是否包含喚醒信息的方式相比,利用云端數(shù)據(jù)庫其具有的大量復(fù)雜數(shù)據(jù)所建立的數(shù)據(jù)模型,進(jìn)行喚醒信息的匹配,從而可以有效減低誤喚醒次數(shù)。
[0073]所述執(zhí)行內(nèi)容信息獲取模塊M240,與所述喚醒信息判斷模塊M230連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息。
[0074]所謂的首尾判斷,即為通過語音斷點(diǎn)檢測(cè)不僅可以判斷出喚醒信息的結(jié)束位置,即執(zhí)行內(nèi)容的開始位置,而且也判斷出執(zhí)行內(nèi)容的結(jié)束位置,這樣,就可以獲得一有效的執(zhí)行內(nèi)容信息。而現(xiàn)有技術(shù)是首先通過語音輸入一特定的喚醒信息,然后在等待一設(shè)定時(shí)間(即固定若干秒)之后,目標(biāo)設(shè)備才會(huì)自動(dòng)去截取用戶所述的語音內(nèi)容,于是會(huì)造成延時(shí)截取語音內(nèi)容的狀況,以至與實(shí)際語音輸入內(nèi)容有偏差,即不完整,從而產(chǎn)生不同的執(zhí)行結(jié)果。由此可見,采用語音斷點(diǎn)檢測(cè)技術(shù)可以保證獲取的執(zhí)行內(nèi)容是正確的。
[0075]所述轉(zhuǎn)換模塊M250,與所述執(zhí)行內(nèi)容信息獲取模塊M240連接,用以進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0076]作為優(yōu)選的實(shí)施方式,所述轉(zhuǎn)換模塊M250進(jìn)一步包括轉(zhuǎn)換單元M251和解析單元M253,所述轉(zhuǎn)換單元M251,用以將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息。其中,所述轉(zhuǎn)換單元M251可以設(shè)置云端數(shù)據(jù)庫中,以將所述獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息,從而提高轉(zhuǎn)換效率。而在其他實(shí)施方式中所述轉(zhuǎn)換單元M251可以設(shè)置本地?cái)?shù)據(jù)庫中。所述解析單元M253與所述轉(zhuǎn)換單元M251連接,用以將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
[0077]所述執(zhí)行模塊M260,與所述轉(zhuǎn)換模塊M250連接,所述執(zhí)行模塊M260用以根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
[0078]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種語音控制方法,其特征在于,包括步驟: (a)實(shí)時(shí)地接收音頻數(shù)據(jù); (b)通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息; (C)判斷所述有效音頻信息是否包含一喚醒信息;若包含所述喚醒信息,則進(jìn)一步執(zhí)行步驟(d);否則執(zhí)行步驟(a); (d)通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息; (e)進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息; Cf)根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
2.根據(jù)權(quán)利要求1所述的語音控制方法,其特征在于,在步驟(C)中進(jìn)一步包括以下步驟: 將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫; 將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則執(zhí)行步驟(d);否則,則執(zhí)行步驟(a)。
3.根據(jù)權(quán)利要求2所述的語音控制方法,其特征在于,在所述步驟(d)和步驟(e)中進(jìn)一步包括以下步驟:` 將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫; 通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出時(shí),則執(zhí)行步驟(e);否則執(zhí)行步驟(a)。
4.根據(jù)權(quán)利要求1所述的語音控制方法,其特征在于,在所述步驟(e)中進(jìn)一步包括以下步驟: 將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息; 將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
5.根據(jù)權(quán)利要求1所述的語音控制方法,其特征在于,所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種。
6.一種語音控制設(shè)備,其特征在于,包括音頻接收模塊、斷點(diǎn)檢測(cè)模塊、喚醒信息判斷模塊、執(zhí)行內(nèi)容信息獲取模塊、轉(zhuǎn)換模塊和執(zhí)行模塊;其中 所述音頻接收模塊,用以實(shí)時(shí)地接收音頻數(shù)據(jù); 所述斷點(diǎn)檢測(cè)模塊,與所述音頻接收模塊連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)接收到的所述音頻數(shù)據(jù)進(jìn)行首部判斷,以獲取一有效音頻信息; 所述喚醒信息判斷模塊,與所述斷點(diǎn)檢測(cè)模塊連接,用以判斷所述有效音頻信息是否包含一喚醒信息,若是則調(diào)用所述執(zhí)行內(nèi)容信息獲取模塊,否則調(diào)用所述音頻接收模塊;所述執(zhí)行內(nèi)容信息獲取模塊,與所述喚醒信息判斷模塊連接,用以通過語音斷點(diǎn)檢測(cè)對(duì)所述有效音頻信息進(jìn)行首尾判斷,以獲取執(zhí)行內(nèi)容信息; 所述轉(zhuǎn)換模塊,與所述執(zhí)行內(nèi)容信息獲取模塊連接,用以進(jìn)行語義解析,以將所述執(zhí)行內(nèi)容信息轉(zhuǎn)換為標(biāo)準(zhǔn)執(zhí)行命令信息; 所述執(zhí)行模塊,與所述轉(zhuǎn)換模塊連接,所述執(zhí)行模塊用以根據(jù)所述標(biāo)準(zhǔn)執(zhí)行命令信息來執(zhí)行相關(guān)的命令,并且將執(zhí)行的結(jié)果顯示給用戶。
7.根據(jù)權(quán)利要求6所述的語音控制設(shè)備,其特征在于,所述喚醒信息判斷模塊進(jìn)一步包括傳送單元和匹配單元;所述傳送單元用以將所述有效音頻信息傳送至一本地喚醒信息數(shù)據(jù)庫;所述匹配單元與所述傳送單元連接,用以將所述有效音頻信息與所述本地喚醒信息數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;當(dāng)匹配出喚醒信息時(shí),則調(diào)用所述執(zhí)行內(nèi)容信息獲取模塊;否貝U,調(diào)用所述音頻接收模塊。
8.根據(jù)權(quán)利要求7所述的語音控制設(shè)備,其特征在于,所述傳送單元進(jìn)一步用以將所獲得的喚醒信息和執(zhí)行內(nèi)容信息同時(shí)傳送至云端數(shù)據(jù)庫;所述匹配單元進(jìn)一步用以通過云端語音識(shí)別將所述喚醒信息與云端數(shù)據(jù)庫的內(nèi)容進(jìn)行匹配;若匹配出時(shí),則調(diào)用所述轉(zhuǎn)換模塊;否則調(diào)用所述音頻接收模塊。
9.根據(jù)權(quán)利要求6所述的語音控制設(shè)備,其特征在于,所述轉(zhuǎn)換模塊進(jìn)一步包括轉(zhuǎn)換單元和解析單元,所述轉(zhuǎn)換單元,用以將所獲得的執(zhí)行內(nèi)容信息轉(zhuǎn)為文本格式信息;所述解析單元與所述轉(zhuǎn)換單元連接,用以將所述文本格式信息解析為標(biāo)準(zhǔn)執(zhí)行命令信息。
10.根據(jù)權(quán)利要求6所述的語音控制設(shè)備,其特征在于,所述喚醒信息為一個(gè)字、一個(gè)詞或一句子中任意一種?!?br>
【文檔編號(hào)】G10L15/26GK103714815SQ201310657278
【公開日】2014年4月9日 申請(qǐng)日期:2013年12月9日 優(yōu)先權(quán)日:2013年12月9日
【發(fā)明者】何永, 李傳豐 申請(qǐng)人:何永