亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

電子裝置及利用電子裝置和服務(wù)器的語(yǔ)音識(shí)別執(zhí)行方法_2

文檔序號(hào):9261968閱讀:來(lái)源:國(guó)知局
語(yǔ)音識(shí)別引擎可識(shí)別語(yǔ)音命令講話(command speech),例如可識(shí)別“read a recente-mail (閱讀最近的電子郵件)”。自動(dòng)語(yǔ)音識(shí)別模塊130基于自動(dòng)語(yǔ)音識(shí)別模型140而執(zhí)行語(yǔ)音識(shí)別,于是可以指定可由自動(dòng)語(yǔ)音識(shí)別模型140識(shí)別的語(yǔ)音輸入的范圍(例如,種類或數(shù)量)。對(duì)自動(dòng)語(yǔ)音識(shí)別模塊130的上述說(shuō)明也適用于后述的服務(wù)器的自動(dòng)語(yǔ)音識(shí)別模塊 230。
[0032]自動(dòng)語(yǔ)音識(shí)別模塊130可將語(yǔ)音輸入變換為文本。自動(dòng)語(yǔ)音識(shí)別模塊130可針對(duì)語(yǔ)音輸入確定將由電子裝置執(zhí)行的操作或功能。此外,自動(dòng)語(yǔ)音識(shí)別模塊130還可針對(duì)自動(dòng)語(yǔ)音識(shí)別的執(zhí)行結(jié)果而一并確定可信度(confidence lever或者confidence score) ο
[0033]自動(dòng)語(yǔ)音識(shí)別模型140可包括語(yǔ)法(grammar)。其中,語(yǔ)法除了可以包括語(yǔ)言學(xué)方面的語(yǔ)法之外,還可以包括(通過(guò)用戶輸入或網(wǎng)頁(yè)上的收集)以統(tǒng)計(jì)方式生成的多種形態(tài)的語(yǔ)法。在多樣的實(shí)施例中,自動(dòng)語(yǔ)音識(shí)別模塊140可包括聲學(xué)模型(acoustic model)、語(yǔ)言模型(language model)等?;蛘?,自動(dòng)語(yǔ)音識(shí)別模型140可成為使用于孤立詞識(shí)別的語(yǔ)音識(shí)別模型。在多樣的實(shí)施例中,自動(dòng)語(yǔ)音識(shí)別模型140可包括識(shí)別模型,該識(shí)別模型通過(guò)考慮用戶終端100的運(yùn)算能力和存儲(chǔ)能力而執(zhí)行適當(dāng)水平的語(yǔ)音識(shí)別。例如,所述語(yǔ)法可以與語(yǔ)言方面的語(yǔ)法無(wú)關(guān)地包括用于指定的命令結(jié)構(gòu)的語(yǔ)法。例如,“call [user name]”作為用于向[user name(用戶名)]的用戶發(fā)出呼叫(call)的語(yǔ)法,可包含于所述自動(dòng)語(yǔ)音識(shí)別模型140。
[0034]收發(fā)器150可將由控制器120提供的語(yǔ)音信號(hào)通過(guò)網(wǎng)絡(luò)10而傳送給服務(wù)器200。此外,可從服務(wù)器200接收與所傳送的語(yǔ)音信號(hào)對(duì)應(yīng)的語(yǔ)音識(shí)別的執(zhí)行結(jié)果。
[0035]揚(yáng)聲器170和顯不器180可用于與用戶輸入相互作用。例如,如果通過(guò)麥克風(fēng)110而由用戶提供語(yǔ)音輸入,則語(yǔ)音識(shí)別的執(zhí)行結(jié)果顯示于顯示器180,并可通過(guò)揚(yáng)聲器170而輸出。當(dāng)然,揚(yáng)聲器170和顯示器180可分別執(zhí)行用戶終端100的一般聲音輸出功能和畫面輸出功能。
[0036]服務(wù)器200可包括用于對(duì)由用戶終端100通過(guò)網(wǎng)絡(luò)10提供的語(yǔ)音輸入執(zhí)行語(yǔ)音識(shí)別的構(gòu)成要素。據(jù)此,服務(wù)器200的一部分構(gòu)成要素可能與用戶終端100對(duì)應(yīng)。例如,月艮務(wù)器200可包括收發(fā)器210、控制器220、自動(dòng)語(yǔ)音識(shí)別模塊230、自動(dòng)語(yǔ)音識(shí)別模型240等。此外,服務(wù)器200還可以包括諸如自動(dòng)語(yǔ)音識(shí)別模型轉(zhuǎn)換器250或自然語(yǔ)言處理器(NLP ;Natural Language Processor) 260 構(gòu)成要素。
[0037]控制器220可控制在服務(wù)器200中用于執(zhí)行語(yǔ)音識(shí)別的功能模塊。例如,控制器220可以與自動(dòng)語(yǔ)音識(shí)別模塊230和/或自然語(yǔ)言處理器260連接。此外,控制器220可以與用戶終端100聯(lián)動(dòng)而執(zhí)行與識(shí)別模型更新相關(guān)聯(lián)的功能。此外,控制器220可執(zhí)行對(duì)通過(guò)網(wǎng)絡(luò)10傳送的語(yǔ)音信號(hào)的預(yù)處理并提供給自動(dòng)語(yǔ)音識(shí)別模塊230。其中,預(yù)處理可具有不同于在用戶終端100中執(zhí)行的預(yù)處理的其他方式或效果。在一些實(shí)施例中,服務(wù)器200的控制器220可被喻為“管弦樂(lè)師(orchestrator) ”。
[0038]自動(dòng)語(yǔ)音識(shí)別模塊230可對(duì)由控制器220提供的語(yǔ)音信號(hào)執(zhí)行語(yǔ)音識(shí)別。對(duì)自動(dòng)語(yǔ)音識(shí)別模塊130的說(shuō)明中的至少一部分可適用于自動(dòng)語(yǔ)音識(shí)別模塊230。只是,雖然服務(wù)器用自動(dòng)語(yǔ)音識(shí)別模塊230與用戶終端用自動(dòng)語(yǔ)音識(shí)別模塊130執(zhí)行部分類似的功能,但是所包含的功能范圍或算法可不同。自動(dòng)語(yǔ)音識(shí)別模塊230基于自動(dòng)語(yǔ)音識(shí)別模型240而執(zhí)行語(yǔ)音識(shí)別,由此可以生成與用戶終端100的自動(dòng)語(yǔ)音識(shí)別模塊130的語(yǔ)音識(shí)別結(jié)果不同的結(jié)果。具體而言,在服務(wù)器200中借助于自動(dòng)語(yǔ)音識(shí)別模塊230和自然語(yǔ)言處理器260并基于語(yǔ)音識(shí)別、自然語(yǔ)言理解(Natural Language Understanding ;NLU)、會(huì)話管理(Dialog Management ;DM)或者其組合而生成識(shí)別結(jié)果,而在用戶終端100中可借助于自動(dòng)語(yǔ)音識(shí)別模塊130而生成識(shí)別結(jié)果。例如,自動(dòng)語(yǔ)音識(shí)別模塊130執(zhí)行自動(dòng)語(yǔ)音識(shí)別的結(jié)果是,可針對(duì)語(yǔ)音輸入確定第一操作信息和第一可信度,自動(dòng)語(yǔ)音識(shí)別模塊230執(zhí)行語(yǔ)音識(shí)別的結(jié)果是,可確定第二操作信息和第二可信度。在一些實(shí)施例中,自動(dòng)語(yǔ)音識(shí)別模塊130的執(zhí)行結(jié)果與自動(dòng)語(yǔ)音識(shí)別模塊230的執(zhí)行結(jié)果既可以一致,也可以有至少一部分不同。例如,雖然第二操作信息與第二操作信息相互對(duì)應(yīng),但是第二可信度可具有高于第一可信度的分?jǐn)?shù)(score)。在多樣的實(shí)施例中,由用戶終端100的自動(dòng)語(yǔ)音識(shí)別模塊130執(zhí)行的語(yǔ)音識(shí)別(ASR)可被定義為第一語(yǔ)音識(shí)別,由服務(wù)器200的自動(dòng)語(yǔ)音識(shí)別模塊230執(zhí)行的語(yǔ)音識(shí)別(ASR)可被定義為第二語(yǔ)音識(shí)別。
[0039]在多樣的實(shí)施例中,如果在自動(dòng)語(yǔ)音識(shí)別模塊130中執(zhí)行的第一語(yǔ)音識(shí)別的算法與在自動(dòng)語(yǔ)音識(shí)別模塊230中執(zhí)行的第二語(yǔ)音識(shí)別的算法不同或者使用于語(yǔ)音識(shí)別的模型不同,則服務(wù)器200可包括用于相互之間的模型變換的自動(dòng)語(yǔ)音識(shí)別模型轉(zhuǎn)換器250。
[0040]此外,服務(wù)器200可包括用于基于在自動(dòng)語(yǔ)音識(shí)別模塊230中識(shí)別的結(jié)果來(lái)掌握用戶的意圖并確定將執(zhí)行的功能的自然語(yǔ)言處理器260。自然語(yǔ)言處理器260可執(zhí)行如下功能:自然語(yǔ)言解析,對(duì)人類講話的語(yǔ)言現(xiàn)象進(jìn)行機(jī)械性分析,從而制作為計(jì)算機(jī)可理解的形態(tài);或者自然語(yǔ)言處理,用于將所述計(jì)算機(jī)可理解的形態(tài)重新表現(xiàn)為人類可理解的語(yǔ)言。
[0041]圖2表示根據(jù)本發(fā)明的另一實(shí)施例的電子裝置和服務(wù)器。
[0042]在圖2中,示出以不同于圖1的方式實(shí)現(xiàn)的電子裝置的示例。然而,本說(shuō)明書中公開的語(yǔ)音識(shí)別方法除了可以借助于圖1或圖2或者后述的圖7和圖8中的電子裝置/用戶終端執(zhí)行之外,還可以借助于可由此變形的多種形態(tài)的裝置執(zhí)行。
[0043]參考圖2,用戶終端101可包括處理器121和存儲(chǔ)器141。處理器121可包括用于執(zhí)行語(yǔ)音識(shí)別的自動(dòng)語(yǔ)音識(shí)別引擎131。存儲(chǔ)器141可存儲(chǔ)自動(dòng)語(yǔ)音識(shí)別引擎131為了執(zhí)行語(yǔ)音識(shí)別而使用的自動(dòng)語(yǔ)音識(shí)別模型143。例如,對(duì)于各個(gè)構(gòu)成要素執(zhí)行的功能而言,圖2的處理器121、自動(dòng)語(yǔ)音識(shí)別引擎131以及自動(dòng)語(yǔ)音識(shí)別模型143(或者存儲(chǔ)器141)可理解為分別與圖1的控制器120、自動(dòng)語(yǔ)音識(shí)別模塊130以及自動(dòng)語(yǔ)音識(shí)別模型140對(duì)應(yīng)。以下,省略關(guān)于對(duì)應(yīng)或重復(fù)的內(nèi)容的說(shuō)明。
[0044]用戶終端101可利用語(yǔ)音識(shí)別模塊111 (例如,麥克風(fēng)110)而從用戶處獲取語(yǔ)音輸入。處理器121可利用存儲(chǔ)于存儲(chǔ)器141的自動(dòng)語(yǔ)音識(shí)別模型143而對(duì)所獲取的語(yǔ)音輸入執(zhí)行自動(dòng)語(yǔ)音識(shí)別。此外,用戶終端101可通過(guò)通信模塊151而將語(yǔ)音輸入提供給服務(wù)器200,并從服務(wù)器200接收對(duì)應(yīng)于語(yǔ)音輸入的語(yǔ)音命令(例如,第二操作信息)。用戶終端101可利用顯示器181 (或者揚(yáng)聲器)來(lái)輸出可借助于自動(dòng)語(yǔ)音識(shí)別引擎131和服務(wù)器200而獲取的語(yǔ)音識(shí)別結(jié)果。
[0045]以下,參考圖3至圖6而以用戶終端100為基準(zhǔn)對(duì)多樣的語(yǔ)音識(shí)別方法進(jìn)行說(shuō)明。
[0046]圖3表示根據(jù)本發(fā)明的一個(gè)實(shí)施例的語(yǔ)音識(shí)別執(zhí)行方法的流程圖。
[0047]在操作301中,用戶終端100可利用諸如麥克風(fēng)語(yǔ)音獲取模塊來(lái)獲取用戶的語(yǔ)音輸入。該操作可在由用戶執(zhí)行與語(yǔ)音識(shí)別相關(guān)聯(lián)的預(yù)定功能或應(yīng)用的狀態(tài)下執(zhí)行。然而,在一些實(shí)施例中,用戶終端100的語(yǔ)音識(shí)別可以一直處于操作狀態(tài)(always-on)(例如,麥克風(fēng)一直處于激活的狀態(tài)),在此情況下,操作301可針對(duì)用戶的講話而被一直執(zhí)行?;蛘?,如前所述,借助于互不相同的語(yǔ)音識(shí)別引擎,可通過(guò)預(yù)定的語(yǔ)音輸入(例如,“Hi,Galaxy”)而激活自動(dòng)語(yǔ)音識(shí)別,并執(zhí)行針對(duì)后續(xù)輸入的語(yǔ)音識(shí)別的自動(dòng)語(yǔ)音識(shí)別。
[0048]在操作303中,用戶終端100可將語(yǔ)音信號(hào)(或者語(yǔ)音信號(hào)的至少一部分)傳送給服務(wù)器200。在裝置內(nèi)部,語(yǔ)音信號(hào)(或者將語(yǔ)音輸入變換為(數(shù)字)語(yǔ)音信號(hào)并對(duì)語(yǔ)音信號(hào)執(zhí)行預(yù)處理的音頻信號(hào))可通過(guò)處理器(例如,控制器120)而被提供給自動(dòng)語(yǔ)音識(shí)別模塊130。換言之,在操作303中,用戶終端100可將作為識(shí)別對(duì)象的語(yǔ)音信號(hào)提供給可執(zhí)行語(yǔ)音識(shí)別的位于裝置內(nèi)部以及外部的自動(dòng)語(yǔ)音識(shí)別模塊。用戶終端100可一并運(yùn)用自行的語(yǔ)音識(shí)別和通過(guò)服務(wù)器200的語(yǔ)音識(shí)別。
[0049]在操作305中,可在用戶終端100中執(zhí)行自行的語(yǔ)音識(shí)別。該語(yǔ)音識(shí)別可定義為ASRlo例如,自動(dòng)語(yǔ)音識(shí)別模塊130可利用自動(dòng)語(yǔ)音識(shí)別模型140來(lái)執(zhí)行針對(duì)語(yǔ)音輸入的語(yǔ)音識(shí)別。例如,自動(dòng)語(yǔ)音識(shí)別模型140可對(duì)語(yǔ)音信號(hào)中的至少一部分執(zhí)行ASR1。ASRl的執(zhí)行結(jié)果是,可獲取對(duì)語(yǔ)音輸入的執(zhí)行結(jié)果。例如,在用戶提供如“明日天氣”的語(yǔ)音輸入的情況下,用戶終端100可利用針對(duì)語(yǔ)音輸入的語(yǔ)音識(shí)別功能來(lái)確定諸如“執(zhí)行天氣應(yīng)用、輸出明日天氣”的操作信息。此外,語(yǔ)音識(shí)別的執(zhí)行結(jié)果除了包括所述操作信息以外,還可以包括針對(duì)操作信息的可信度。例如,雖然自動(dòng)語(yǔ)音識(shí)別模塊130可在對(duì)用戶的講話進(jìn)行分析的結(jié)果為“明日天氣”被確定的情況下確定95%的可信度,但在對(duì)講話進(jìn)行分析的結(jié)果為不確定“每日天氣”還是“明日天氣”的情況下,可將60 %的可信度賦予確定的操作信息。
[0050]在操作307中,處理器可判斷可信度是否為指定的臨界值(threshold)以上。例如,當(dāng)關(guān)于由自動(dòng)語(yǔ)音識(shí)別模塊130確定的操作信息的可信度為指定的水平(例如,80% )以上時(shí),在操作309中,用戶終端100可執(zhí)行與通過(guò)ASRl而識(shí)別的語(yǔ)音命令對(duì)應(yīng)的操作,該ASRl即為用戶終端100自身的語(yǔ)音識(shí)別功能。所述操作可以包括例如:可借助于處理器而執(zhí)行的至少一個(gè)功能的執(zhí)行、至少一個(gè)應(yīng)用的執(zhí)行、或者基于自動(dòng)語(yǔ)音識(shí)別的執(zhí)行結(jié)果的輸入中的至少一種。
[0051]操作309可在從服務(wù)器200獲取語(yǔ)音識(shí)別的結(jié)果(例如,操作315)之前執(zhí)行。換言之,如果在用戶終端100中自行執(zhí)行語(yǔ)音識(shí)別的結(jié)果為識(shí)別出具有足夠的可信度的語(yǔ)音命令,則用戶終端不等待從服務(wù)器200獲取的額外的語(yǔ)音識(shí)別結(jié)果而直接執(zhí)行相關(guān)操作,從而可確保針對(duì)用戶的語(yǔ)音輸入的迅捷的響應(yīng)速度。
[0052]在操作307中,如果可信度小于臨界值,則用戶終端100可在操作315中一直等到從服務(wù)器200獲取語(yǔ)音識(shí)別結(jié)果。在等待操作進(jìn)行的時(shí)段內(nèi),用戶終端100可顯示適當(dāng)?shù)亩滔?、圖標(biāo)或圖像等,從而表示對(duì)語(yǔ)音輸入的語(yǔ)音識(shí)別正在執(zhí)行。
[0053]在操作311中,可針對(duì)在操作303中傳送給服務(wù)器200的語(yǔ)音信號(hào)執(zhí)行借助于服務(wù)器的語(yǔ)音識(shí)別。該語(yǔ)音識(shí)別可定義為ASR2(第二自動(dòng)語(yǔ)音識(shí)別)。此外,在操作313中可執(zhí)行自然語(yǔ)言處理(Natural Language Processing ;NLP)。例如,借助于服務(wù)器200的自然語(yǔ)言處理器260而可對(duì)語(yǔ)音輸入或ASR2的識(shí)別結(jié)果執(zhí)行自然語(yǔ)言處理。在一些實(shí)施例中,這一過(guò)程也可以選擇性地執(zhí)行。
[0054]如果在操作315中從服務(wù)器200獲取ASR2或ASR2和NLP被執(zhí)行的語(yǔ)音識(shí)別結(jié)果(例如,第
當(dāng)前第2頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1