本公開(kāi)涉及一種電子設(shè)備中的語(yǔ)音功能的操作。
背景技術(shù):
包括麥克風(fēng)等的電子設(shè)備提供收集和識(shí)別用戶(hù)的語(yǔ)音的功能。例如,近來(lái)的電子設(shè)備提供識(shí)別用戶(hù)的語(yǔ)音并且輸出與所識(shí)別的語(yǔ)音相對(duì)應(yīng)的信息的功能。
技術(shù)實(shí)現(xiàn)要素:
技術(shù)問(wèn)題
同時(shí),根據(jù)典型的語(yǔ)音功能,只識(shí)別所收集的語(yǔ)音的內(nèi)容并且提供與所述內(nèi)容相對(duì)應(yīng)的服務(wù)。因此,典型電子設(shè)備的語(yǔ)音功能提供方法可以提供與輸入語(yǔ)音的人無(wú)關(guān)的特定功能。
問(wèn)題的解決方案
本發(fā)明一些實(shí)施例的目的在于,至少部分地解決、減輕或消除與現(xiàn)有技術(shù)相關(guān)聯(lián)的問(wèn)題和/或缺點(diǎn)中的至少一個(gè)。某些實(shí)施例目的在于提供下述優(yōu)點(diǎn)中的至少一個(gè)優(yōu)點(diǎn)。
根據(jù)本公開(kāi)的一個(gè)方案,提供了一種電子設(shè)備。所述電子設(shè)備可以包括:存儲(chǔ)器,用于存儲(chǔ)用于語(yǔ)音識(shí)別的多條講話信息的至少一部分;以及控制模塊(或處理器),配置為基于所述多條講話信息的至少一部分來(lái)產(chǎn)生語(yǔ)音識(shí)別信息,其中所述控制模塊可以配置為基于互相似性從所述多條講話信息的至少一部分中選擇說(shuō)話者講話信息,并且可以配置為基于所述說(shuō)話者講話信息來(lái)產(chǎn)生要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。應(yīng)該理解的是說(shuō)話者講話信息是來(lái)自單個(gè)具體說(shuō)話者(即人或用戶(hù))或者與其相對(duì)應(yīng)的講話信息。換句話說(shuō),所述控制模塊可以配置為基于多條講話信息之間的相似性,確定所述多條講話信息來(lái)自于同一說(shuō)話者或者與同一說(shuō)話者相對(duì)應(yīng),并且選擇所述多條講話信息作為“說(shuō)話者講話信息”。
根據(jù)本公開(kāi)的另一方面,提供了一種語(yǔ)音功能操作方法。所述語(yǔ)音功能操作方法可以包括:存儲(chǔ)多條講話信息的至少一部分用于語(yǔ)音識(shí)別;基于互相似性從所述多條講話信息的至少一部分選擇說(shuō)話者講話信息;以及基于所選擇的說(shuō)話者講話信息來(lái)產(chǎn)生要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
所述方法還可以包括:收集與由所述個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者輸入的其他講話信息;以及使用所述特定說(shuō)話者的其他講話信息來(lái)修改所述個(gè)人化語(yǔ)音信息的模型。
在特定實(shí)施例中,所述修改包括:從所述特定說(shuō)話者輸入的講話信息中提取與在所述個(gè)人化語(yǔ)音信息中包括的已注冊(cè)音素模型相對(duì)應(yīng)的音素樣本,并且使用所述音素樣本來(lái)修改所注冊(cè)的音素模型。
在特定實(shí)施例中,所述方法還包括:如果請(qǐng)求功能的新講話信息不是與所述個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者的講話,則基于所述新講話信息輸出無(wú)法執(zhí)行所述功能的消息;以及基于由所述新講話信息請(qǐng)求的功能的類(lèi)型來(lái)選擇性地執(zhí)行所述功能。
在特定實(shí)施例中,執(zhí)行所述功能包括:如果所述功能是指定的安全功能,則不進(jìn)行所述功能的執(zhí)行;以及如果所述功能是未指定的非安全功能,則進(jìn)行所述功能的執(zhí)行。
在特定實(shí)施例中,所述方法還包括以下中的至少一個(gè):響應(yīng)于由基于個(gè)人化語(yǔ)音信息指定的說(shuō)話者輸入的講話信息,輸出用于設(shè)置要基于語(yǔ)音功能執(zhí)行的至少一個(gè)功能項(xiàng)目的設(shè)置屏幕;或者輸出所產(chǎn)生的語(yǔ)音識(shí)別信息。
特定實(shí)施例的目的在于當(dāng)執(zhí)行某個(gè)計(jì)算機(jī)或者設(shè)備交互時(shí)實(shí)現(xiàn)降低用戶(hù)負(fù)擔(dān)(例如,認(rèn)知、實(shí)施、操作或者操作開(kāi)銷(xiāo))的技術(shù)效果。
特定實(shí)施例的目的在于實(shí)現(xiàn)提供更有效的人機(jī)(用戶(hù)-機(jī)器)接口的技術(shù)效果。
本發(fā)明的另一方面提供了一種包括指令的計(jì)算機(jī)程序,所述指令在被執(zhí)行時(shí)被布置為實(shí)現(xiàn)根據(jù)上述方面中的任何一個(gè)方面的方法和/或裝置。另一方面提供了存儲(chǔ)這種程序的機(jī)器可讀存儲(chǔ)器。
有益效果
因此,本公開(kāi)(即本發(fā)明)的一個(gè)方面是為了提供一種支持電子設(shè)備的語(yǔ)音功能的語(yǔ)音功能操作方法和支持該方法的電子設(shè)備,使得以取決于用戶(hù)(即說(shuō)話者)的方式操作語(yǔ)音功能。
本公開(kāi)的另一個(gè)方面是為了提供一種基于輸入的音頻信號(hào)的類(lèi)型來(lái)選擇性地提供語(yǔ)音功能的語(yǔ)音功能操作方法和支持該方法的電子設(shè)備。
附圖說(shuō)明
根據(jù)以下結(jié)合附圖的詳細(xì)描述,本公開(kāi)的這些和/或其他方面和優(yōu)點(diǎn)將更加清楚并易于理解,在附圖中相同的附圖標(biāo)記指示相同的元素,并且其中:
圖1是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音功能提供環(huán)境的圖;
圖2是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的支持語(yǔ)音功能的電子設(shè)備的示例的框圖;
圖3是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的控制模塊的示例的框圖;
圖4是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與取決于說(shuō)話者的設(shè)置相關(guān)的示例候選組處理方法的圖;
圖5是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音信息更新的圖;
圖6是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的在語(yǔ)音功能的操作期間的個(gè)人化語(yǔ)音的示例方法的流程圖;
圖7是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音信息更新方法的流程圖;
圖8是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與個(gè)人化語(yǔ)音功能的執(zhí)行相關(guān)的屏幕界面的示例的圖;
圖9是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與個(gè)人化語(yǔ)音信息的設(shè)置相關(guān)的屏幕界面的示例的圖;
圖10是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的電子設(shè)備的示例的框圖;以及
圖11是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的電子設(shè)備的另一個(gè)示例的框圖。
具體實(shí)施方式
在下文中,將參照附圖詳細(xì)地描述本公開(kāi)的各種示例實(shí)施例。然而,應(yīng)當(dāng)理解的是,本公開(kāi)并不限于具體示例實(shí)施例,而是包括本公開(kāi)各種示例實(shí)施例的各種修改、等同和/或替代。至于附圖的描述,類(lèi)似的附圖標(biāo)記可以表示類(lèi)似的元件。
本文使用的術(shù)語(yǔ)“具有”、“可以具有”、“包括”、“可以包括”、“包含”等表示存在相應(yīng)的特征(例如,數(shù)值、功能、操作或元件),但是不排除其他特征的存在。
術(shù)語(yǔ)“a或b”、“a或/和b中的至少一項(xiàng)”或“a或/和b中的一個(gè)或多個(gè)”可以包括所列出項(xiàng)目的所有可能組合。例如,術(shù)語(yǔ)“a或b”、“a和b中至少一項(xiàng)”或“a或b中至少一項(xiàng)”可以表示以下所有情形:(1)包括至少一個(gè)a,(2)包括至少一個(gè)b,以及(3)包括至少一個(gè)a和至少一個(gè)b。
本文中使用的諸如“第一”、“第二”等的術(shù)語(yǔ)可以修飾各種元件,而與順序和/或重要性無(wú)關(guān),并且不意圖限制這些元件。例如,“第一用戶(hù)設(shè)備”和“第二用戶(hù)設(shè)備”可以表示不同的用戶(hù)設(shè)備,而與順序或優(yōu)先級(jí)無(wú)關(guān)。例如,在不脫離本公開(kāi)的范圍的情況下,第一元件可以被稱(chēng)為第二元件,反之亦然。
應(yīng)理解,當(dāng)特定元件(例如,第一元件)被稱(chēng)為“操作地或者通信地耦接至”或者“連接至”另一元件(例如,第二元件)時(shí),該特定元件可以直接耦接或連接至該另一元件,或者可以經(jīng)由其它元件(例如第三元件)耦接或連接至該另一元件。然而,當(dāng)特定元件(例如,第一元件)被稱(chēng)為“直接耦接至”或者“直接連接至”另一元件(例如,第二元件)時(shí),在該元件和該另一元件之間不存在中間元件(例如,第三元件)。
術(shù)語(yǔ)“被配置(或設(shè)置)為”可以與術(shù)語(yǔ)例如“適合于”、“具有……的能力”、“被設(shè)計(jì)為”、“適于”、“使……”或者“能夠……”互換使用。術(shù)語(yǔ)“被配置(或設(shè)置)為”可以不必須具有“被專(zhuān)門(mén)設(shè)計(jì)為”的意義。在一些示例中,術(shù)語(yǔ)“設(shè)備被配置為”可以表示該設(shè)備“可以”與其他設(shè)備或組件一起“執(zhí)行”某些操作。例如,術(shù)語(yǔ)“處理器被配置(或設(shè)置)為執(zhí)行a、b和c”可以表示用于執(zhí)行相應(yīng)操作的專(zhuān)用處理器(例如,嵌入式處理器)、處理電路,或者用于執(zhí)行存儲(chǔ)在存儲(chǔ)器中的至少一個(gè)軟件程序以執(zhí)行相應(yīng)操作的通用處理器(例如,cpu或應(yīng)用處理器)。
本文使用的術(shù)語(yǔ)僅用于描述示例實(shí)施例,并且不意圖限制其他實(shí)施例的范圍。除非另有規(guī)定,否則單數(shù)形式的術(shù)語(yǔ)可以包括復(fù)數(shù)形式。本文使用的術(shù)語(yǔ)(包括技術(shù)或科學(xué)術(shù)語(yǔ))具有與本領(lǐng)域技術(shù)人員所理解的意義相同的意義。在字典中定義的常用術(shù)語(yǔ)可以被解釋為具有與在相關(guān)技術(shù)中定義的上下文意義相同或相似的意義,并且不應(yīng)被解釋為理想化或過(guò)于正式的含義,除非這樣清楚地定義。本文中定義的術(shù)語(yǔ)不應(yīng)被解釋為排除本公開(kāi)各種示例實(shí)施例。
在下文中,將參考附圖來(lái)描述根據(jù)本公開(kāi)的各種示例實(shí)施例的電子設(shè)備。這里使用的術(shù)語(yǔ)“用戶(hù)”可以表示使用電子設(shè)備的人,或者可以表示使用電子設(shè)備的設(shè)備(例如,人造電子設(shè)備)。
圖1是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音功能提供環(huán)境的圖。
參考圖1,個(gè)人化語(yǔ)音功能提供環(huán)境可以提供電子設(shè)備的第一狀態(tài)語(yǔ)音功能模塊10s,用于相關(guān)于與講話無(wú)關(guān)的設(shè)置,接收由多個(gè)說(shuō)話者10a至10c輸入的音頻信號(hào)。例如,第一狀態(tài)語(yǔ)音功能模塊10s可以包括以下項(xiàng)中的至少一個(gè):包括硬件電路在內(nèi)的硬件模塊、包括固件在內(nèi)的固件模塊、或者與在應(yīng)用個(gè)人化語(yǔ)音功能之前提供語(yǔ)音功能相關(guān)的軟件模塊。說(shuō)話者10a至10c的至少一個(gè)可以包括使用第一狀態(tài)語(yǔ)音功能模塊10s來(lái)輸入語(yǔ)音(或者講話信息)。
根據(jù)本公開(kāi)各種示例實(shí)施例,第一狀態(tài)語(yǔ)音功能模塊10s可以基于說(shuō)話者10a至10c輸入的語(yǔ)音(或講話信息)來(lái)執(zhí)行語(yǔ)音命令功能(例如,識(shí)別所收集的語(yǔ)音、基于識(shí)別結(jié)果分析語(yǔ)音命令以及基于分析結(jié)果由電子設(shè)備輸出信息或執(zhí)行可用功能的功能)。關(guān)于這種操作,說(shuō)話者10至10c可以例如使用在第一狀態(tài)語(yǔ)音功能模塊10s中包括的至少一個(gè)麥克風(fēng)來(lái)輸入語(yǔ)音(或者講話或講話信息)。
第一狀態(tài)語(yǔ)音功能模塊10s可以收集關(guān)于說(shuō)話者10a至10c的候選數(shù)據(jù)(包括例如說(shuō)話者講話信息或每個(gè)說(shuō)話者的講話信息),而不會(huì)在沒(méi)有應(yīng)用個(gè)人化語(yǔ)音功能(例如,限制對(duì)每個(gè)說(shuō)話者不同地指定的對(duì)電子設(shè)備的功能的使用的功能)的狀態(tài)下執(zhí)行說(shuō)話者識(shí)別??梢曰谥付ǖ臈l件自動(dòng)地執(zhí)行候選數(shù)據(jù)收集操作。例如,可以在執(zhí)行語(yǔ)音功能的同時(shí)自動(dòng)地執(zhí)行候選數(shù)據(jù)收集操作。另外,可以在執(zhí)行麥克風(fēng)激活操作的同時(shí)自動(dòng)地執(zhí)行候選數(shù)據(jù)收集操作。根據(jù)本公開(kāi)的各種示例實(shí)施例,可以針對(duì)通過(guò)成功的語(yǔ)音識(shí)別而獲得的數(shù)據(jù)來(lái)執(zhí)行候選數(shù)據(jù)收集操作。
根據(jù)本公開(kāi)的示例實(shí)施例,第一狀態(tài)語(yǔ)音功能模塊10s可以收集與第一說(shuō)話者10a相關(guān)的第一候選數(shù)據(jù)11a。另外,第一狀態(tài)語(yǔ)音功能模塊10s可以收集與第二說(shuō)話者10b相關(guān)的第二候選數(shù)據(jù)11b以及與第三說(shuō)話者10c相關(guān)的第三候選數(shù)據(jù)11c。如果收集了至少指定數(shù)目的候選數(shù)據(jù)或者在指定的時(shí)間內(nèi)完成了候選數(shù)據(jù)的收集,則第一狀態(tài)語(yǔ)音功能模塊10s可以執(zhí)行語(yǔ)音功能個(gè)人化處理(或者語(yǔ)音識(shí)別功能個(gè)人化處理)。例如,第一狀態(tài)語(yǔ)音功能模塊10s可以分析多個(gè)候選數(shù)據(jù),并且可以將包括與第一說(shuō)話者10a相關(guān)的第一候選數(shù)據(jù)11a在內(nèi)的說(shuō)話者識(shí)別模型(包括例如語(yǔ)音識(shí)別信息或者語(yǔ)音識(shí)別模型信息)注冊(cè)為個(gè)人化語(yǔ)音信息。因此,第一狀態(tài)語(yǔ)音功能模塊10s可以操作為(或者改變?yōu)?第二狀態(tài)語(yǔ)音功能模塊10p。第一狀態(tài)語(yǔ)音功能模塊10s可以本地地存儲(chǔ)收集的候選數(shù)據(jù)(例如在其存儲(chǔ)器中)。備選地,第一狀態(tài)語(yǔ)音功能模塊10s可以例如向指定的服務(wù)器設(shè)備提供所收集的候選數(shù)據(jù)。在向服務(wù)器設(shè)備發(fā)送所收集的候選數(shù)據(jù)的示例中,例如可以在服務(wù)器設(shè)備中執(zhí)行訓(xùn)練候選數(shù)據(jù)的識(shí)別模型。
如果在執(zhí)行語(yǔ)音識(shí)別功能的同時(shí)收集說(shuō)話者的講話信息,則第二狀態(tài)語(yǔ)音識(shí)別模塊10p可以分析所收集的講話信息,并且可以將分析結(jié)果與注冊(cè)的個(gè)人化語(yǔ)音信息進(jìn)行比較。作為比較結(jié)果,如果確定了講話信息對(duì)應(yīng)于被注冊(cè)為個(gè)人化語(yǔ)音信息的說(shuō)話者識(shí)別模型,則第二狀態(tài)語(yǔ)音功能模塊10p可以處理與輸入的講話信息的分析結(jié)果相對(duì)應(yīng)的功能的執(zhí)行。如果比較結(jié)果表示例如輸入的講話信息是與注冊(cè)為個(gè)人化語(yǔ)音信息(例如,第一說(shuō)話者10a的講話信息)的說(shuō)話者識(shí)別模型不同的第二說(shuō)話者10b或第三說(shuō)話者10c的講話信息,則第二狀態(tài)語(yǔ)音功能模塊10p可以不執(zhí)行與講話信息相對(duì)應(yīng)的功能,或者可以基于指定策略執(zhí)行受限的功能。當(dāng)執(zhí)行受限的功能時(shí),第二狀態(tài)語(yǔ)音功能模塊10p可以輸出功能執(zhí)行不可用消息或者受限功能執(zhí)行消息。如上所述,根據(jù)本公開(kāi)各種示例實(shí)施例的個(gè)人化語(yǔ)音功能提供環(huán)境可以基于個(gè)人化語(yǔ)音信息的注冊(cè),以取決于說(shuō)話者的方式來(lái)處理電子設(shè)備的功能的執(zhí)行(例如,只將特定說(shuō)話者的語(yǔ)音(或講話信息)處理為有效信息,或者限制性地處理另一個(gè)說(shuō)話者的語(yǔ)音(或講話信息)。
圖2是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的支持語(yǔ)音功能的電子設(shè)備的示例的框圖。
參考圖2,電子設(shè)備100可以包括例如通信接口(例如包括通信電路)110、存儲(chǔ)器130、麥克風(fēng)模塊(例如包括麥克風(fēng)或麥克風(fēng)電路)140、顯示器(例如包括顯示面板和/或顯示處理電路)150和控制模塊(例如包括具有處理電路的處理器)160。
電子設(shè)備100可以使用麥克風(fēng)模塊140來(lái)收集候選數(shù)據(jù),并且可以操作控制模塊160以便處理候選數(shù)據(jù),注冊(cè)個(gè)人化語(yǔ)音信息(例如,特定的說(shuō)話者識(shí)別模型),和/或應(yīng)用個(gè)人化語(yǔ)音信息?;谶@種處理,電子設(shè)備100可以處理支持取決于說(shuō)話者的功能的個(gè)人化語(yǔ)音功能。
通信接口110可以處理電子設(shè)備100的通信功能。例如,通信接口110可以針對(duì)電子設(shè)備100的呼叫功能、視頻呼叫功能等建立到服務(wù)器設(shè)備等的通信信道。為此,通信接口110可以包括支持諸如2g、3g、4g、lte、5g等的各種通信標(biāo)準(zhǔn)的至少一個(gè)通信模塊或通信芯片/電路。另外,通信接口110可以包括覆蓋單一頻帶或多頻帶的至少一個(gè)天線。根據(jù)本公開(kāi)的各種示例實(shí)施例,通信接口110可以針對(duì)電子設(shè)備100的數(shù)據(jù)傳輸功能或呼叫功能,建立到另一個(gè)電子設(shè)備的短距離通信信道。
根據(jù)本公開(kāi)的示例實(shí)施例,通信接口110可以與語(yǔ)音功能相關(guān)聯(lián)地操作。例如,通信接口110可以針對(duì)諸如呼叫功能或基于語(yǔ)音識(shí)別的消息發(fā)送/接收功能之類(lèi)的語(yǔ)音功能,建立通信信道。另外,針對(duì)語(yǔ)音命令功能,通信接口110可以建立用于分析語(yǔ)音(或講話信息)的到服務(wù)器設(shè)備的通信信道,并且基于分析的結(jié)果提供信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,通信接口110可以針對(duì)個(gè)人化語(yǔ)音功能的應(yīng)用被限制性地操作。例如,可以基于與注冊(cè)為個(gè)人化語(yǔ)音信息的說(shuō)話者識(shí)別模型相對(duì)應(yīng)地輸入的講話信息來(lái)啟用通信接口110。備選地,通信接口110可以響應(yīng)于從特定識(shí)別的說(shuō)話者輸入的講話信息,建立到指定的服務(wù)器設(shè)備(例如用于管理經(jīng)濟(jì)信息、股票信息或特定信息的web服務(wù)器設(shè)備)的通信信道。
存儲(chǔ)器130可以存儲(chǔ)與電子設(shè)備100的操作有關(guān)的各種信息。例如,存儲(chǔ)器130可以存儲(chǔ)操作電子設(shè)備100所要求的操作系統(tǒng)、與支持用戶(hù)功能相關(guān)的至少一個(gè)程序等。根據(jù)本公開(kāi)的示例實(shí)施例,存儲(chǔ)器130可以存儲(chǔ)用于支持個(gè)人化語(yǔ)音功能的個(gè)人化語(yǔ)音程序。另外,存儲(chǔ)器130可以存儲(chǔ)與個(gè)人化語(yǔ)音程序的操作相關(guān)的語(yǔ)音數(shù)據(jù)信息131和個(gè)人化語(yǔ)音信息133。
語(yǔ)音數(shù)據(jù)信息131可以包括從至少一個(gè)說(shuō)話者輸入的語(yǔ)音信號(hào)(例如,講話信息)或者當(dāng)啟用麥克風(fēng)模塊140時(shí)收集的音頻信號(hào)。根據(jù)本公開(kāi)的示例實(shí)施例,可以將已經(jīng)去除了噪聲或者除了人語(yǔ)音頻帶之外的頻帶的多條講話信息存儲(chǔ)為語(yǔ)音數(shù)據(jù)信息131的候選數(shù)據(jù)。根據(jù)本公開(kāi)的示例實(shí)施例,語(yǔ)音數(shù)據(jù)信息131可以包括多條講話信息作為多個(gè)候選數(shù)據(jù),其中所述多條講話信息的講話間隔具有至少指定時(shí)間的長(zhǎng)度。另外,語(yǔ)音數(shù)據(jù)信息131可以包括指定數(shù)目的講話信息作為候選數(shù)據(jù),或者可以包括在指定時(shí)間內(nèi)收集的多條講話信息作為候選數(shù)據(jù)。例如,當(dāng)針對(duì)語(yǔ)音功能的執(zhí)行啟用麥克風(fēng)模塊140時(shí),可以自動(dòng)地執(zhí)行收集語(yǔ)音數(shù)據(jù)信息131的功能。另外,可以在完成收集語(yǔ)音數(shù)據(jù)信息131時(shí)自動(dòng)地結(jié)束這一功能。根據(jù)本公開(kāi)的各種示例實(shí)施例,如果指定的語(yǔ)音識(shí)別成功,則自動(dòng)地執(zhí)行收集語(yǔ)音數(shù)據(jù)信息131的功能,并且在完成收集之后或者在經(jīng)過(guò)指定的時(shí)間之后立即自動(dòng)地結(jié)束收集語(yǔ)音數(shù)據(jù)信息的功能。
個(gè)人化語(yǔ)音信息133可以與通過(guò)指定的算法或處理應(yīng)用于語(yǔ)音數(shù)據(jù)信息131而選擇的候選數(shù)據(jù)相關(guān)。例如,個(gè)人化語(yǔ)音信息133可以是根據(jù)語(yǔ)音數(shù)據(jù)信息131中包括的多個(gè)候選數(shù)據(jù)中的與特定說(shuō)話者相關(guān)的候選數(shù)據(jù)(例如,在語(yǔ)音數(shù)據(jù)信息131中具有相對(duì)較多數(shù)目的候選數(shù)據(jù))而產(chǎn)生的說(shuō)話者識(shí)別模型。備選地,個(gè)人化語(yǔ)音信息133可以是通過(guò)對(duì)與特定說(shuō)話者相關(guān)的候選數(shù)據(jù)進(jìn)行建模而獲得的候選模型。備選地,個(gè)人化語(yǔ)音信息133可以是特定說(shuō)話者的候選數(shù)據(jù)、通過(guò)將從每一個(gè)候選數(shù)據(jù)檢測(cè)的音頻特征進(jìn)行組合而獲得的信息、或者包括所述音頻特征在內(nèi)的說(shuō)話者識(shí)別模型中的任一個(gè)。
根據(jù)本公開(kāi)的示例實(shí)施例,個(gè)人化語(yǔ)音信息133可以包括的至少一個(gè)音素模型(例如,通過(guò)用諸如h、ai、g、ae、l、ax、k、s、iy之類(lèi)的音素劃分講話信息而獲得的信號(hào)或信息),所述音素模型構(gòu)成通過(guò)特定說(shuō)話者說(shuō)出講話參考信息(例如,可讀的指定信息,例如“highgalaxy(大銀河)”的詞語(yǔ)或數(shù)字)而獲得的講話信息(例如,通過(guò)由特定說(shuō)話者說(shuō)出例如“highgalaxy”的講話參考信息而獲得的信號(hào)或信息)。另外,即使說(shuō)話者說(shuō)出相同的講話參考信息,取決于說(shuō)話者的喉嚨狀態(tài)或者環(huán)境,可以相對(duì)于同一音素模型(例如,通過(guò)用例如hi、ga、lax、sy等的音素來(lái)劃分講話參考信息而獲得的信息)來(lái)獲得各種形式的不同音素模型(例如,相對(duì)于諸如“ha”之類(lèi)的同一音素模型具有不同音高、音調(diào)或音色的音素信號(hào)或信息)。例如,可以將“h-a”或“h-ai”收集為與參考音素“hi”相對(duì)應(yīng)的音素模型。這里,可以將“h-a”或“h-ai”收集為針對(duì)每一種情況具有各種音高、音調(diào)或音色的不同音素模型。如上所述,個(gè)人化語(yǔ)音信息133可以包括在通過(guò)說(shuō)出特定講話參考信息(例如,至少一個(gè)指定的詞語(yǔ)、短語(yǔ)、分句、句子等)而獲得的講話信息中包括的至少一個(gè)音素模型,使得相對(duì)于一個(gè)參考音素,可以關(guān)聯(lián)針對(duì)每一種情況的一個(gè)或多個(gè)音素模型或可以表示一個(gè)參考音素。
麥克風(fēng)模塊140可以包括至少一個(gè)麥克風(fēng)。在設(shè)置了一個(gè)麥克風(fēng)的情況下,麥克風(fēng)模塊140可以響應(yīng)于控制模塊160的控制來(lái)啟用麥克風(fēng),并且可以通過(guò)啟用的麥克風(fēng)將所收集的音頻信號(hào)傳輸至控制模塊160。備選地,麥克風(fēng)模塊140可以保持在接通狀態(tài),并且可以響應(yīng)于控制模塊160的控制,在向電子設(shè)備100被供電或者控制模塊160被操作的同時(shí)收集音頻信號(hào)。根據(jù)本公開(kāi)各種示例實(shí)施例,麥克風(fēng)模塊140可以包括多個(gè)麥克風(fēng)。例如當(dāng)收集到與語(yǔ)音數(shù)據(jù)信息131相對(duì)應(yīng)的候選數(shù)據(jù)時(shí),可以自動(dòng)地啟用麥克風(fēng)模塊140。例如,如果電子設(shè)備100處于接通狀態(tài),則電子設(shè)備100可以通過(guò)在指定時(shí)間內(nèi)或者在滿(mǎn)足指定數(shù)目的候選數(shù)據(jù)之前自動(dòng)地啟用麥克風(fēng)模塊140來(lái)收集候選數(shù)據(jù),從而收集與候選數(shù)據(jù)相對(duì)應(yīng)的講話信息。備選地,如果啟用了麥克風(fēng)模塊140(例如,當(dāng)執(zhí)行語(yǔ)音功能時(shí)啟用),則電子設(shè)備100可以確定是否要求收集候選數(shù)據(jù)以便自動(dòng)地收集講話信息。
顯示器150可以輸出與電子設(shè)備100的操作相關(guān)的各種屏幕。例如,顯示器150可以輸出鎖定屏幕、菜單屏幕、主頁(yè)屏幕、布置有至少一個(gè)圖標(biāo)的屏幕、輸出背景圖像的屏幕、特定功能執(zhí)行屏幕等。根據(jù)本公開(kāi)的示例實(shí)施例,存儲(chǔ)器150可以輸出與語(yǔ)音功能的執(zhí)行相關(guān)的屏幕。例如,顯示器150可以響應(yīng)于相應(yīng)應(yīng)用的執(zhí)行,輸出與語(yǔ)音命令功能的執(zhí)行相關(guān)的屏幕、與語(yǔ)音記錄功能的執(zhí)行相關(guān)的屏幕、與語(yǔ)音呼叫功能的執(zhí)行相關(guān)的屏幕、與語(yǔ)音識(shí)別功能的執(zhí)行相關(guān)的屏幕等。
另外,顯示器150可以輸出與個(gè)人化語(yǔ)音功能的操作相關(guān)的至少一個(gè)信息(例如,文本、圖像等)。例如,顯示器150可以輸出與個(gè)人化語(yǔ)音功能的設(shè)置相關(guān)的圖標(biāo)、菜單、指示符或者指南文本中的至少一個(gè)。另外,顯示器150可以輸出用于通知個(gè)人化語(yǔ)音功能的應(yīng)用的消息、文本、指示符等。此外,顯示器150可以響應(yīng)于用戶(hù)輸入的控制來(lái)輸出個(gè)人化語(yǔ)音功能設(shè)置屏幕。附加地或備選地,電子設(shè)備100還可以包括諸如揚(yáng)聲器、振動(dòng)模塊、燈等的各種信息輸出單元。信息輸出單元可以使用音頻、至少一個(gè)指定的振動(dòng)模式或者至少一個(gè)指定的閃爍模式來(lái)輸出與個(gè)人化語(yǔ)音功能的操作相關(guān)的各種信息。
控制模塊160可以配置為執(zhí)行與電子設(shè)備100的操作相關(guān)的信號(hào)流控制、信號(hào)處理控制和信息處理。例如,控制模塊160可以配置為控制個(gè)人化語(yǔ)音功能的設(shè)置(例如,設(shè)置用于收集注冊(cè)個(gè)人化語(yǔ)音信息133的語(yǔ)音數(shù)據(jù)信息131)??刂颇K160可以配置為在完成收集語(yǔ)音數(shù)據(jù)信息131時(shí),處理個(gè)人化語(yǔ)音信息133的提取和注冊(cè)。控制模塊160可以配置為基于注冊(cè)的個(gè)人化語(yǔ)音信息133來(lái)處理個(gè)人化語(yǔ)音功能的應(yīng)用?;谏鲜隹刂疲刂颇K160可以配置為允許響應(yīng)于從特定說(shuō)話者輸入的講話信息來(lái)應(yīng)用指定的語(yǔ)音功能,或者可以可以響應(yīng)于從非特定說(shuō)話者輸入的講話信息來(lái)限制語(yǔ)音功能(例如,只允許訪問(wèn)所述功能的一部分或者防止執(zhí)行所述功能)。
圖3是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的控制模塊的示例的框圖。
參考圖3,控制模塊160可以包括麥克風(fēng)控制模塊161、語(yǔ)音數(shù)據(jù)收集模塊163、信息處理模塊165和信息更新模塊167。例如,前述模塊的每一個(gè)可以由處理器來(lái)實(shí)現(xiàn),所述處理器包括配置為執(zhí)行各種模塊的操作的處理電路。
麥克風(fēng)控制模塊161可以配置為控制麥克風(fēng)140的啟用和音頻信號(hào)收集。例如,如果電子設(shè)備100處于接通狀態(tài),則麥克風(fēng)控制模塊161可以基于設(shè)置來(lái)保持麥克風(fēng)模塊140的接通狀態(tài)(例如,始終接通狀態(tài))。在麥克風(fēng)模塊140中包括多個(gè)麥克風(fēng)的情況下,麥克風(fēng)模塊161可以控制麥克風(fēng)的操作。
根據(jù)本公開(kāi)的示例實(shí)施例,如果從麥克風(fēng)模塊140收集音頻信號(hào),則麥克風(fēng)控制模塊161可以將收集的音頻信號(hào)傳輸至語(yǔ)音數(shù)據(jù)收集模塊163。在這種操作中,例如,如果所收集的音頻信號(hào)是人類(lèi)語(yǔ)音頻帶的信號(hào)(或者講話信息),則麥克風(fēng)控制模塊161可以將收集的音頻信號(hào)傳輸至語(yǔ)音數(shù)據(jù)收集模塊163,或者例如如果收集的音頻信號(hào)具有所述語(yǔ)音頻帶之外的頻率,則可以將收集的音頻信號(hào)處理為噪聲(或者忽略)。備選地,麥克風(fēng)控制模塊161可以與所收集的音頻信號(hào)的頻帶無(wú)關(guān)地將所收集的音頻信號(hào)傳輸至語(yǔ)音數(shù)據(jù)收集模塊163。根據(jù)本公開(kāi)的各種示例實(shí)施例,麥克風(fēng)控制模塊161可以只將來(lái)自已經(jīng)成功識(shí)別了語(yǔ)音的數(shù)據(jù)傳輸至語(yǔ)音數(shù)據(jù)收集模塊163。
麥克風(fēng)控制模塊161可以配置為當(dāng)啟用麥克風(fēng)模塊140時(shí),控制自動(dòng)地執(zhí)行收集與個(gè)人化語(yǔ)音功能的設(shè)置相關(guān)的候選數(shù)據(jù)。例如,如果啟用了麥克風(fēng)模塊140以便執(zhí)行語(yǔ)音呼叫功能、語(yǔ)音命令功能、語(yǔ)音識(shí)別功能、語(yǔ)音記錄功能等,則麥克風(fēng)控制模塊161可以確定是否注冊(cè)了個(gè)人化語(yǔ)音信息133。如果沒(méi)有注冊(cè)個(gè)人化語(yǔ)音信息133,則麥克風(fēng)控制模塊161可以自動(dòng)地收集講話信息以用作語(yǔ)音數(shù)據(jù)信息131,并且可以將講話信息傳輸至語(yǔ)音數(shù)據(jù)收集模塊163。如果注冊(cè)了個(gè)人化語(yǔ)音信息133,則麥克風(fēng)控制模塊161可以配置為自動(dòng)終止收集要用作語(yǔ)音數(shù)據(jù)信息131的講話信息。
在麥克風(fēng)控制模塊161提供與音頻信號(hào)頻帶無(wú)關(guān)的音頻信號(hào)的示例中,語(yǔ)音數(shù)據(jù)收集模塊163可以例如分析是否已經(jīng)根據(jù)人的講話產(chǎn)生了音頻信號(hào)。另外,語(yǔ)音數(shù)據(jù)收集模塊163可以收集與語(yǔ)音頻帶相對(duì)應(yīng)的講話信息作為初級(jí)候選組信息。在麥克風(fēng)控制模塊161配置為傳輸講話信息的示例中,可以跳過(guò)語(yǔ)音數(shù)據(jù)收集模塊163的講話信息分類(lèi)操作。
語(yǔ)音數(shù)據(jù)收集模塊163可以配置為將初級(jí)候選組中的滿(mǎn)足指定條件的初級(jí)候選數(shù)據(jù)分類(lèi)為語(yǔ)音數(shù)據(jù)信息131的候選數(shù)據(jù)。例如,語(yǔ)音數(shù)據(jù)收集模塊163可以只將長(zhǎng)度(例如,講話時(shí)間)至少是指定長(zhǎng)度的初級(jí)候選數(shù)據(jù)分類(lèi)為語(yǔ)音數(shù)據(jù)信息131的候選數(shù)據(jù)。另外,語(yǔ)音數(shù)據(jù)收集模塊163可以例如只將與指定的講話參考信息相關(guān)的初級(jí)候選數(shù)據(jù)分類(lèi)為候選數(shù)據(jù)。
根據(jù)本公開(kāi)的各種示例實(shí)施例,語(yǔ)音數(shù)據(jù)收集模塊163可以指定候選數(shù)據(jù)的數(shù)目或與語(yǔ)音數(shù)據(jù)信息131的收集相關(guān)的時(shí)間。例如,語(yǔ)音數(shù)據(jù)收集模塊163可以配置為在特定事件發(fā)生之后(例如,在電子設(shè)備100分配了指定的個(gè)人信息(例如,由服務(wù)提供商提供的個(gè)人電話號(hào)碼)之后,或者在電子設(shè)備100首次接入指定的基站之后)的指定時(shí)間內(nèi)收集語(yǔ)音數(shù)據(jù)信息131。備選地,如果語(yǔ)音時(shí)間收集模塊163在關(guān)斷指定的時(shí)間之后被接通,則語(yǔ)音數(shù)據(jù)收集模塊163可以配置為在指定時(shí)間內(nèi)收集語(yǔ)音數(shù)據(jù)信息131。備選地,語(yǔ)音數(shù)據(jù)收集模塊163可以配置為在開(kāi)始個(gè)人化語(yǔ)音功能的設(shè)置之后收集語(yǔ)音數(shù)據(jù)信息131,直到收集了指定數(shù)目的候選數(shù)據(jù)。可以基于個(gè)人化語(yǔ)音功能策略的設(shè)置來(lái)改變候選數(shù)據(jù)的數(shù)目,或者可以通過(guò)用戶(hù)的設(shè)置來(lái)改變候選數(shù)據(jù)的數(shù)目。語(yǔ)音數(shù)據(jù)收集模塊163可以向信息處理模塊165提供包括指定數(shù)目的候選數(shù)據(jù)或者在指定時(shí)間內(nèi)收集的候選數(shù)據(jù)在內(nèi)的語(yǔ)音數(shù)據(jù)信息131。
信息處理模塊165可以配置為從語(yǔ)音數(shù)據(jù)信息131選擇個(gè)人化語(yǔ)音信息133。例如,信息處理模塊165可以從語(yǔ)音數(shù)據(jù)信息131中選擇任意候選數(shù)據(jù),并且可以在所選擇的候選數(shù)據(jù)和另一個(gè)候選數(shù)據(jù)之間執(zhí)行語(yǔ)音特征(例如,每一個(gè)說(shuō)話者的唯一語(yǔ)音特征,例如音色)比較。信息處理模塊165可以通過(guò)執(zhí)行特征比較對(duì)候選數(shù)據(jù)進(jìn)行分類(lèi)(例如,通過(guò)聚簇進(jìn)行分類(lèi))。例如,可以使用諸如矢量量化之類(lèi)的無(wú)監(jiān)督學(xué)習(xí)方法。信息處理模塊165可以從已分類(lèi)的候選數(shù)據(jù)中選擇數(shù)目相對(duì)較大的候選數(shù)據(jù)。例如,可以從最初收集的候選數(shù)據(jù)、最后收集的候選數(shù)據(jù)以及在指定的某個(gè)時(shí)隙中收集的候選數(shù)據(jù)中選擇任意候選數(shù)據(jù)。
信息處理模塊165可以配置為將所選擇的候選數(shù)據(jù)注冊(cè)為個(gè)人化語(yǔ)音信息133。在這種操作中,信息處理模塊165可以提供與是否注冊(cè)個(gè)人化語(yǔ)音信息133有關(guān)的指南,并且例如可以請(qǐng)求用戶(hù)許可。例如,信息處理模塊165可以提供彈出窗口,所述彈出窗口提供與是否將指定的候選數(shù)據(jù)注冊(cè)為個(gè)人化語(yǔ)音信息133的詢(xún)問(wèn),并且可以基于用戶(hù)的確認(rèn)來(lái)處理個(gè)人化語(yǔ)音信息133的注冊(cè)。信息處理模塊165可以配置為輸出與候選數(shù)據(jù)的收集時(shí)間有關(guān)的輸出時(shí)間信息或者與候選數(shù)據(jù)一起輸出的候選數(shù)據(jù)的語(yǔ)音識(shí)別信息,以便區(qū)分候選數(shù)據(jù)。
當(dāng)執(zhí)行諸如語(yǔ)音命令功能之類(lèi)的指定語(yǔ)音功能時(shí),信息處理模塊165可以配置為基于所收集的講話信息和注冊(cè)的個(gè)人化語(yǔ)音信息133來(lái)執(zhí)行說(shuō)話者識(shí)別。信息處理模塊165可以配置為基于說(shuō)話者識(shí)別的結(jié)果來(lái)區(qū)分要執(zhí)行的功能。例如,在收集到在個(gè)人化語(yǔ)音信息133中注冊(cè)的說(shuō)話者的講話信息的情況下,信息處理模塊165可以執(zhí)行響應(yīng)于講話信息識(shí)別而執(zhí)行的功能。備選地,在收集到?jīng)]有在個(gè)人化語(yǔ)音信息133中注冊(cè)的說(shuō)話者的講話信息的情況下,信息處理模塊165可以通知不能執(zhí)行與講話信息相對(duì)應(yīng)的信息輸出或功能執(zhí)行。
信息處理模塊165可以配置為在基于語(yǔ)音數(shù)據(jù)信息131中包括的數(shù)據(jù)執(zhí)行建模的同時(shí)執(zhí)行多條件訓(xùn)練。與這種操作相關(guān)地,信息處理模塊165可以處理用于在語(yǔ)音數(shù)據(jù)信息131中包括的數(shù)據(jù)的各種效果。例如,信息處理模塊165可以向在語(yǔ)音數(shù)據(jù)信息131中包括的數(shù)據(jù)施加指定的聲音效果,并且可以基于所述聲音效果產(chǎn)生候選數(shù)據(jù),或者可以產(chǎn)生組合了指定噪聲的候選數(shù)據(jù)。信息處理模塊165可以通過(guò)將多條件訓(xùn)練的候選數(shù)據(jù)(例如,添加了指定聲音效果的數(shù)據(jù)或者添加了噪聲的數(shù)據(jù))與其他語(yǔ)音數(shù)據(jù)信息131中包括的數(shù)據(jù)一起應(yīng)用,來(lái)提取要被注冊(cè)為個(gè)人化語(yǔ)音信息133的說(shuō)話者模型。根據(jù)本公開(kāi)的各種示例實(shí)施例,信息處理模塊165可以產(chǎn)生與例如對(duì)語(yǔ)音數(shù)據(jù)信息131中包括的候選數(shù)據(jù)進(jìn)行聚簇之后具有相對(duì)較大數(shù)目的候選數(shù)據(jù)的簇中包括的候選數(shù)據(jù)相關(guān)的多條件訓(xùn)練模型。另外,信息處理模塊165可以配置為將基于例如在特定說(shuō)話者的簇中包括的候選數(shù)據(jù)而產(chǎn)生的多條件訓(xùn)練模型用于確定說(shuō)話者識(shí)別模型。
信息處理模塊165可以在針對(duì)語(yǔ)音數(shù)據(jù)信息131中包括的候選數(shù)據(jù)的說(shuō)話者建模過(guò)程期間使用通用背景模型(ubm)。ubm信息可以包括基于各種人的講話信息的特征而產(chǎn)生的統(tǒng)計(jì)模型??梢栽谟?jì)算語(yǔ)音數(shù)據(jù)信息131中指定的說(shuō)話者的說(shuō)話者識(shí)別模型的處理期間,基于非說(shuō)話者數(shù)據(jù)來(lái)產(chǎn)生所述ubm信息。例如,非說(shuō)話者數(shù)據(jù)可以基于上述聚簇方法與說(shuō)話者數(shù)據(jù)相區(qū)分。
信息更新模塊167可以配置為處理個(gè)人化語(yǔ)音信息133的改變、修改或增強(qiáng)。與這種操作相關(guān)地,信息更新模塊167可以從麥克風(fēng)控制模塊161請(qǐng)求和接收由麥克風(fēng)模塊140收集的音頻信號(hào),并且可以提取個(gè)人化語(yǔ)音信息133要被修改的信息。例如,信息更新模塊167可以檢查所收集的音頻信號(hào)是否包括用戶(hù)的講話信息(包括與語(yǔ)音功能相關(guān)的喚醒音頻信號(hào)或語(yǔ)音命令音頻信號(hào)的至少一個(gè))。在所收集的音頻信號(hào)中包括講話信息的示例中,信息更新模塊167可以檢查在所收集的講話信息中是否包括與在指定的個(gè)人語(yǔ)音信息中包括的音素模型相對(duì)應(yīng)的音素。在這種操作中,信息更新模塊167可以通過(guò)對(duì)所收集的講話信息執(zhí)行語(yǔ)音識(shí)別來(lái)收集與個(gè)人化語(yǔ)音信息133中包括的音素模型相對(duì)應(yīng)的新音素樣本,并且可以基于所收集的音素樣本來(lái)執(zhí)行音素模型訓(xùn)練。另外,信息更新模塊167可以根據(jù)音素模型訓(xùn)練來(lái)執(zhí)行個(gè)人化語(yǔ)音信息133的音素模型的增強(qiáng)(或者修改等)。
信息更新模塊167可以檢查使用所收集的講話信息修改的個(gè)人化語(yǔ)音信息133的修改比率(或者修改程度或增強(qiáng)比率)。例如,信息更新模塊167可以確定經(jīng)由新收集的講話信息對(duì)個(gè)人化語(yǔ)音信息133的信息更新的頻率等于還是大于指定值。如果新收集的講話信息是已經(jīng)獲得的講話信息,則可以不發(fā)生額外的更新。如果更新頻率為高(例如,收集的一定數(shù)目的講話信息中用于更新的講話信息的數(shù)目至少是指定值),則信息更新模塊167可以確定所述修改比率為高,或者如果更新頻率為低,則信息更新模塊167可以確定所述修改比率為低并且可以終止個(gè)人化語(yǔ)音信息133的修改。
當(dāng)針對(duì)個(gè)人化語(yǔ)音信息133的修改而啟用麥克風(fēng)模塊140時(shí),信息更新模塊167可以自動(dòng)地收集講話信息。如果修改個(gè)人化語(yǔ)音信息133的功能結(jié)束(例如,修改比率等于或小于指定的條件),則信息更新模塊167可以自動(dòng)地結(jié)束與個(gè)人化語(yǔ)音信息133的修改相關(guān)的講話信息的收集。信息更新模塊167可以配置為針對(duì)與修改相關(guān)的講話信息收集的開(kāi)始或自動(dòng)結(jié)束,通過(guò)顯示器150輸出指定的信息。
圖4是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與取決于說(shuō)話者的設(shè)置相關(guān)的示例候選組處理方法的圖。
參考圖4,電子設(shè)備100可以收集指定數(shù)目的語(yǔ)音數(shù)據(jù)信息131,或者可以在指定時(shí)間內(nèi)收集語(yǔ)音數(shù)據(jù)信息131。所收集的語(yǔ)音數(shù)據(jù)信息131可以包括例如與三個(gè)說(shuō)話者說(shuō)出的候選數(shù)據(jù)相對(duì)應(yīng)的講話信息401a至401c。如果完成了講話信息401a至401c的收集,則電子設(shè)備100可以對(duì)講話信息401a至401c進(jìn)行分類(lèi)。
與這種操作相關(guān)地,電子設(shè)備100可以基于指定的條件,從所收集的講話信息401a至401c中選擇任意一條講話信息401。如果選擇了任意講話信息401,則電子設(shè)備100可以將所述任意講話信息401轉(zhuǎn)換為第一臨時(shí)模型460a。如果產(chǎn)生了第一臨時(shí)模型460a,則電子設(shè)備100可以將第一臨時(shí)模型460a與講話信息401a至401c相比較,并且可以向講話信息401a至401c的每一個(gè)分配分?jǐn)?shù)。例如,電子設(shè)備100可以向類(lèi)似于第一臨時(shí)模型460a的講話信息分配低分?jǐn)?shù),并且可以向與第一臨時(shí)模塊460a不具有相似性的講話信息分配高分?jǐn)?shù)。電子設(shè)備100可以按照分?jǐn)?shù)的順序?qū)χv話信息401a至401c分類(lèi)。
另外,電子設(shè)備100可以按照?qǐng)D4中心所示分?jǐn)?shù)的順序?qū)χv話信息401a至401c聚簇。如圖4所示,可以將由第一說(shuō)話者說(shuō)出的第一講話信息401a中的三個(gè)數(shù)據(jù)和第二說(shuō)話者說(shuō)出的第二講話信息40ab中的一個(gè)數(shù)據(jù)聚簇為一組。另外,可以將第一說(shuō)話者說(shuō)出的聚簇第一講話信息401a、第二講話信息401b和第三講話信息40ac中的一條信息分別為單獨(dú)的組。
電子設(shè)備100可以使用與具有低分?jǐn)?shù)的講話信息聚簇的信息403來(lái)檢測(cè)臨時(shí)模型460b。另外,電子設(shè)備100可以將講話信息401a至401c與基于聚簇的信息403而產(chǎn)生的第二臨時(shí)模型460b進(jìn)行比較。因此,如圖4所示,第一講話信息401a獲得最低的分?jǐn)?shù)(或者大于或大于指定閾值的分?jǐn)?shù)),并且第二講話信息401b和第三講話信息401c獲得相對(duì)較高的分?jǐn)?shù)(或者等于或小于指定閾值的分?jǐn)?shù))。電子設(shè)備100可以重復(fù)執(zhí)行基于分?jǐn)?shù)的聚簇,從而獲得包括第一講話信息401a在內(nèi)的簇、包括第二講話信息401b在內(nèi)的簇以及包括第三講話信息401c在內(nèi)的簇,如圖4所示?;谝陨辖Y(jié)果,電子設(shè)備100可以將包括第一講話信息401a在內(nèi)的簇注冊(cè)為個(gè)人化語(yǔ)音信息133。
圖5是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音信息更新的圖。
參考圖5,指定揚(yáng)聲器的個(gè)人化語(yǔ)音信息133可以是與講話參考信息“higalaxy”相對(duì)應(yīng)的音頻信息。在該示例中,如上所述,個(gè)人化語(yǔ)音信息133可以包括針對(duì)如圖5所示的“h-ai-g-ae-l-ax-k-s-iy”的每一個(gè)的音素模型。根據(jù)本公開(kāi)的示例實(shí)施例,個(gè)人化語(yǔ)音信息133可以包括例如“ha”注冊(cè)音素模型501作為音素模型。另外,個(gè)人化語(yǔ)音信息133可以包括與當(dāng)說(shuō)話者說(shuō)出“higalaxy”時(shí)的相應(yīng)注冊(cè)音素模型501相關(guān)的注冊(cè)頻率模型510。
電子設(shè)備100可以基于指定的條件來(lái)啟用麥克風(fēng)模塊140。如圖5所示,麥克風(fēng)140可以收集通過(guò)特定說(shuō)話者說(shuō)出講話參考信息(例如“how’stheweather?”)而獲得的音頻信息。在該示例中,電子設(shè)備100可以提取針對(duì)所述講話參考信息的音素模型“h-aw-s-th-ax-w-eh-th-er”。電子設(shè)備100可以從所提取的音素模型中提取相同的“ha”的新音素模型503。另外,電子設(shè)備100可以收集與新音素模型503相對(duì)應(yīng)的新頻率模型530。
響應(yīng)于相同的音素模型“ha”,電子設(shè)備100可以將新音素模型503和新頻率模型530與注冊(cè)音素模型501和注冊(cè)頻率模型510相關(guān)聯(lián)地存儲(chǔ),或者可以集成和存儲(chǔ)前述模型和頻率作為一個(gè)音素模型組。如上所述,電子設(shè)備100可以從特定說(shuō)話者說(shuō)出的講話信息中提取音素模型和頻率模型,以便擴(kuò)展已注冊(cè)的個(gè)人化語(yǔ)音信息133的模型組?;谶@種擴(kuò)展的模型組,即使說(shuō)話者在各種情況下說(shuō)出講話參考信息,電子設(shè)備100也可以更精確地識(shí)別被注冊(cè)為個(gè)人化語(yǔ)音信息133的指定語(yǔ)音參考信息。
如上所述,根據(jù)本公開(kāi)的各種示例實(shí)施例,根據(jù)本公開(kāi)示例實(shí)施例的電子設(shè)備可以包括:存儲(chǔ)器,用于存儲(chǔ)用于語(yǔ)音識(shí)別的多條講話信息的至少一部分;以及控制模塊,用于基于所述多條講話信息的至少一部分來(lái)產(chǎn)生語(yǔ)音識(shí)別信息,其中所述控制模塊可以基于互相似性從所述多條講話信息的至少一部分中選擇說(shuō)話者講話信息,并且可以基于所述說(shuō)話者講話信息來(lái)產(chǎn)生要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為使得輸出將語(yǔ)音識(shí)別信息應(yīng)用于語(yǔ)音識(shí)別的消息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為在指定的時(shí)間內(nèi)收集講話信息,或者收集講話信息直到滿(mǎn)足指定數(shù)目的講話信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為產(chǎn)生所述多條講話信息的多條件訓(xùn)練模型,并且可以使用多條件訓(xùn)練模型來(lái)確定要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為產(chǎn)生說(shuō)話者講話信息的多條件訓(xùn)練模型,并且可以使用多條件訓(xùn)練模型來(lái)確定要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為收集從與個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者輸入的其他講話信息,并且修改個(gè)人化語(yǔ)音信息的模型。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為從特定說(shuō)話者輸入的講話信息中提取與在個(gè)人化語(yǔ)音信息中包括的已注冊(cè)音素模型相對(duì)應(yīng)的音素樣本,并且將所述音素樣本用于修改已注冊(cè)的音素模型。
根據(jù)本公開(kāi)的各種示例實(shí)施例,在新輸入的新講話信息不是與個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者的講話時(shí),控制模塊可以配置為輸出基于新講話信息的功能執(zhí)行不可用的消息,或者可以基于新講話信息請(qǐng)求的功能的類(lèi)型來(lái)選擇性地控制所述功能的執(zhí)行。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為如果所述功能是指定的安全功能則不執(zhí)行所述功能,如果所述功能是非指定的非安全功能則執(zhí)行所述功能。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述控制模塊可以配置為響應(yīng)于由基于個(gè)人化語(yǔ)音信息而指定的說(shuō)話者輸入的講話信息,輸出用于設(shè)置要基于語(yǔ)音功能執(zhí)行的至少一個(gè)功能項(xiàng)目的設(shè)置屏幕。
如上所述,根據(jù)本公開(kāi)的各種示例實(shí)施例,根據(jù)本公開(kāi)的各種示例實(shí)施例的電子設(shè)備可以包括:存儲(chǔ)器,用于存儲(chǔ)包括講話信息在內(nèi)的語(yǔ)音數(shù)據(jù)作為候選數(shù)據(jù);以及控制模塊,配置為從所述候選數(shù)據(jù)中選擇一條與說(shuō)話者相關(guān)的信息,其中所述控制模塊可以配置為基于互相似性將所述候選數(shù)據(jù)聚簇,并且基于數(shù)目相對(duì)較大的具有相同相似性的候選數(shù)據(jù),將指定的個(gè)人化語(yǔ)音信息注冊(cè)為用于基于是否輸入了指定講話信息而限制功能的執(zhí)行。
圖6是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的在語(yǔ)音功能的操作期間的個(gè)人化語(yǔ)音的示例方法的流程圖。
參考圖6,在操作601中,如果發(fā)生事件,則電子設(shè)備100的控制模塊160可以配置為確定所述事件是否與個(gè)人化語(yǔ)音功能的設(shè)置相關(guān)。例如,控制模塊160可以配置為確定所述事件是用于執(zhí)行針對(duì)個(gè)人化語(yǔ)音的指定功能,還是與個(gè)人化語(yǔ)音功能的自動(dòng)執(zhí)行相關(guān),亦或是用于執(zhí)行諸如語(yǔ)音識(shí)別功能之類(lèi)的指定功能。
如果所述事件與個(gè)人化語(yǔ)音功能的設(shè)置不相關(guān),則所述控制模塊160可以配置為基于在操作603中發(fā)生的事件的類(lèi)型來(lái)控制功能的執(zhí)行。例如,控制模塊160可以檢查所述事件的類(lèi)型,并且可以基于所述事件的類(lèi)型來(lái)處理音樂(lè)文件的回放、指定文件的傳輸、呼叫功能的執(zhí)行或者web接入功能的執(zhí)行。
如果所述事件與個(gè)人化語(yǔ)音功能的設(shè)置相關(guān),則控制模塊160可以在操作605中收集候選數(shù)據(jù)作為語(yǔ)音數(shù)據(jù)信息131。與這種操作相關(guān)地,控制模塊160可以在電子設(shè)備100處于接通狀態(tài)的情況下或者在指定時(shí)間處啟用麥克風(fēng)140??刂颇K160可以在指定的時(shí)間段或者實(shí)時(shí)地或者當(dāng)發(fā)生具有指定強(qiáng)度或更高強(qiáng)度的音頻信號(hào)時(shí),收集指定數(shù)目的候選數(shù)據(jù)。根據(jù)本公開(kāi)的示例實(shí)施例,控制模塊160可以配置為執(zhí)行候選組收集操作,直到候選數(shù)據(jù)的數(shù)目達(dá)到指定數(shù)目。根據(jù)本公開(kāi)的示例實(shí)施例,控制模塊160可以配置為在電子設(shè)備100被購(gòu)買(mǎi)之后自動(dòng)地將麥克風(fēng)模塊140啟用指定的時(shí)間(例如,一小時(shí)、一天、一周、一月等),以便收集候選數(shù)據(jù)。備選地,控制模塊160可以配置為收集候選數(shù)據(jù)直到收集到指定數(shù)目的候選數(shù)據(jù)、或者在指定的時(shí)間內(nèi)、當(dāng)操作語(yǔ)音功能(例如,呼叫功能、語(yǔ)音識(shí)別功能、記錄功能)時(shí),收集候選數(shù)據(jù)。
在操作607,控制模塊160可以配置為處理語(yǔ)音數(shù)據(jù)信息131,并且可以提取個(gè)人化語(yǔ)音信息133。例如,控制模塊160可以配置為通過(guò)對(duì)所收集的語(yǔ)音數(shù)據(jù)信息131與臨時(shí)模型進(jìn)行比較、并且對(duì)所收集的語(yǔ)音數(shù)據(jù)信息131進(jìn)行聚簇,來(lái)提取包括由同一說(shuō)話者說(shuō)出的候選數(shù)據(jù)在內(nèi)的簇??刂颇K160可以配置為對(duì)所提取的簇的數(shù)據(jù)進(jìn)行比較以便提取具有較大數(shù)目數(shù)據(jù)的簇中的候選數(shù)據(jù),并且將所提取的候選數(shù)據(jù)注冊(cè)為個(gè)人化語(yǔ)音信息133。
在操作609,控制模塊160可以配置為處理個(gè)人化語(yǔ)音信息的應(yīng)用。如果注冊(cè)了個(gè)人化語(yǔ)音信息133,則控制模塊160可以配置為將隨后輸入的說(shuō)話者講話信息與個(gè)人化語(yǔ)音信息133的數(shù)據(jù)進(jìn)行比較,以檢查它們之間的相似性。另外,如果所述相似性滿(mǎn)足指定的條件(例如,相似程度等于或大于指定的值),則控制模塊160可以將輸入的講話信息識(shí)別為特定說(shuō)話者的講話信息。如果確定輸入的講話信息是特定說(shuō)話者的講話信息,則控制模塊160可以配置為針對(duì)所述講話信息控制語(yǔ)音功能。例如,控制模塊160可以對(duì)所述講話信息執(zhí)行語(yǔ)音識(shí)別,并且可以基于語(yǔ)音識(shí)別結(jié)果來(lái)控制指定功能的執(zhí)行。備選地,控制模塊160可以支持相對(duì)于語(yǔ)音識(shí)別結(jié)果對(duì)電子設(shè)備100的內(nèi)部信息的檢索和輸出、或者關(guān)于語(yǔ)音識(shí)別結(jié)果使用外部服務(wù)器設(shè)備來(lái)進(jìn)行信息的檢索和輸出中的至少一個(gè)。
如果輸入的講話信息不是特定說(shuō)話者的講話信息,則控制模塊160可以配置為輸出用于通知輸入講話信息的說(shuō)話者不是特定說(shuō)話者的指南文本,或者可以根據(jù)用戶(hù)的設(shè)置或者設(shè)置策略來(lái)支持指定功能的執(zhí)行。例如,控制模塊160可以使用外部服務(wù)器設(shè)備執(zhí)行與對(duì)講話信息進(jìn)行語(yǔ)音識(shí)別的結(jié)果相關(guān)的信息的檢索和輸出。備選地,在輸入講話信息的說(shuō)話者不是特定說(shuō)話者的情況下,控制模塊160可以配置為基于用戶(hù)的設(shè)置或策略來(lái)檢查要通過(guò)講話信息執(zhí)行的功能的類(lèi)型或信息的類(lèi)型,并且可以限制性地或者選擇性地執(zhí)行功能執(zhí)行或者信息輸出。
圖7是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的示例個(gè)人化語(yǔ)音信息更新方法的流程圖。
參考圖7,在操作701,控制模塊160可以配置為確定當(dāng)前是否正在執(zhí)行個(gè)人化語(yǔ)音功能,或者已經(jīng)發(fā)生的事件是否與個(gè)人化語(yǔ)音功能的執(zhí)行相關(guān)。如果當(dāng)前沒(méi)有執(zhí)行個(gè)人化語(yǔ)音功能或者沒(méi)有發(fā)生相關(guān)的事件,則在操作703,控制模塊160可以支持指定功能的執(zhí)行或者指定狀態(tài)的控制。例如,控制模塊160可以根據(jù)事件的類(lèi)型支持相機(jī)功能或音樂(lè)播放功能。備選地,控制模塊160可以保持睡眠狀態(tài)。
如果存在與個(gè)人化語(yǔ)音信息的執(zhí)行相關(guān)的設(shè)置(例如,用于自動(dòng)支持始終接通狀態(tài)的設(shè)置)或者如果發(fā)生事件(例如,與個(gè)人化語(yǔ)音功能相關(guān)地請(qǐng)求啟用麥克風(fēng)模塊140的事件),則在操作705,控制模塊160可以配置為收集修改(或增強(qiáng))信息。例如,控制模塊160可以配置為啟用麥克風(fēng)模塊140,并且可以收集具有指定長(zhǎng)度或更長(zhǎng)長(zhǎng)度的講話信息或者與指定的講話參考信息相對(duì)應(yīng)的講話信息。
在操作707,控制模塊160可以配置為執(zhí)行個(gè)人化語(yǔ)音信息修改。根據(jù)本公開(kāi)的示例實(shí)施例,控制模塊160可以配置為從由特定說(shuō)話者說(shuō)出的各種信息收集音素模型,并且可以將所收集的模型與具有與在個(gè)人化語(yǔ)音信息133中注冊(cè)的音素模型相同的參考音素的音素模型相關(guān)聯(lián)地集成和存儲(chǔ)。備選地,控制模塊160可以配置為只收集與指定的講話參考信息相對(duì)應(yīng)的講話信息,并且可以通過(guò)將音素模型集成到一個(gè)模型組中來(lái)管理與所收集的講話信息中的相同參考音素相對(duì)應(yīng)的音素模型。
在操作709,控制模塊160可以確定修改比率(或者修改程度或者增強(qiáng)比率)是否滿(mǎn)足指定的條件。例如,控制模塊160可以配置為檢查所收集的講話信息中的音素模型和正在管理的音素模型之間的相似程度,以及基于相似程度的信息更新比率,并且可以基于更新比率或更新頻率來(lái)指定修改比率。如果修改比率不滿(mǎn)足指定的條件,則所述過(guò)程可以返回到操作701,使得控制模塊160可以重新執(zhí)行操作701和后續(xù)操作。如果修改比率滿(mǎn)足指定的條件,則控制模塊160可以結(jié)束個(gè)人化語(yǔ)音信息修改功能。
圖8是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與個(gè)人化語(yǔ)音功能的執(zhí)行相關(guān)的屏幕界面的示例的圖。
參考圖8,電子設(shè)備100的控制模塊160可以配置為向顯示器150輸出與語(yǔ)音功能(例如,語(yǔ)音命令功能)的激活相對(duì)應(yīng)的屏幕,如屏幕801所示。在這種操作中,如果當(dāng)前沒(méi)有應(yīng)用個(gè)人化功能,則控制模塊160可以輸出指南消息811,用于提供正在設(shè)置個(gè)人化功能的通知。指南消息811可以包括文本或圖像中的至少一個(gè),用于通知正在針對(duì)個(gè)人化語(yǔ)音功能的設(shè)置收集候選組信息??梢曰谠O(shè)置或者用戶(hù)輸入來(lái)跳過(guò)指南消息811的輸出。備選地,如圖8所示,控制模塊160可以向指定的區(qū)域(例如指示符區(qū)域)輸出第一指示符810,用于通知正在設(shè)置個(gè)人化功能。
如果在設(shè)置個(gè)人化功能的同時(shí)輸入特定的音頻信號(hào),則控制模塊160可以配置為通過(guò)檢查音頻信號(hào)的頻帶來(lái)確定所收集的音頻信號(hào)是否是與語(yǔ)音相對(duì)應(yīng)的講話信息。如果音頻信號(hào)是講話信息,則控制模塊160可以收集所述音頻信號(hào)作為語(yǔ)音數(shù)據(jù)信息131。備選地,即使音頻信號(hào)是講話信息,控制模塊160還可以確定是否滿(mǎn)足指定的條件(例如,具有至少特定長(zhǎng)度的講話信息或者與指定的講話參考信息相對(duì)應(yīng)的講話信息)??刂颇K160可以配置為在收集滿(mǎn)足指定條件的講話信息作為語(yǔ)音數(shù)據(jù)信息131。根據(jù)本公開(kāi)的各種示例實(shí)施例,控制模塊160可以收集音頻信號(hào)作為語(yǔ)音數(shù)據(jù)信息131,或者可以收集信號(hào)存在狀態(tài)保持至少特定長(zhǎng)度的音頻信號(hào)作為語(yǔ)音數(shù)據(jù)信息131。另外,如果收集了指定量或者指定時(shí)間的語(yǔ)音數(shù)據(jù)信息131,則控制模塊160可以相對(duì)于講話信息的劃分或者與講話參考信息相對(duì)應(yīng)地評(píng)估所收集的語(yǔ)音數(shù)據(jù)信息131。
如果因?yàn)橥瓿闪擞糜趫?zhí)行個(gè)人化語(yǔ)音功能的語(yǔ)音數(shù)據(jù)信息131的收集和處理而注冊(cè)了個(gè)人化語(yǔ)音信息133,則控制模塊160可以輸出如屏幕803所示的指南消息831,用于通知正在應(yīng)用個(gè)人化功能。指南消息831可以包括對(duì)正在應(yīng)用的個(gè)人化語(yǔ)音功能加以表示的文本或圖像的至少一個(gè)。可以基于設(shè)置或者用戶(hù)控制輸入來(lái)跳過(guò)指南消息831的輸出。備選地,控制模塊160可以向指定的區(qū)域(例如指示符區(qū)域)輸出第二指示符830,用于通知正在應(yīng)用個(gè)人化語(yǔ)音功能。
控制模塊160可以配置為在指定的時(shí)間內(nèi)獲得足夠的語(yǔ)音樣本或者在獲得了指定數(shù)目或指定量的足夠語(yǔ)音樣本之后,執(zhí)行語(yǔ)音建模的訓(xùn)練。如果例如在訓(xùn)練結(jié)果產(chǎn)生了指定量(例如,等于或大于指定的樣本數(shù)量或者指定的可靠性)之后而獲得足夠的說(shuō)話者識(shí)別性能,則控制模塊160可以向用戶(hù)提供建議或者選擇消息,用于引導(dǎo)用戶(hù)使用個(gè)人化語(yǔ)音識(shí)別功能。在這種操作中,控制模塊160可以請(qǐng)求用戶(hù)對(duì)于更新模型的許可(例如,根據(jù)彈出消息輸出進(jìn)行確認(rèn))。
如果在應(yīng)用個(gè)人化功能的同時(shí)輸入音頻信號(hào),則控制模塊160可以分析輸入的音頻信號(hào)。基于音頻信號(hào)分析的結(jié)果,控制模塊160可以支持功能執(zhí)行或者限制性功能執(zhí)行。例如,如果收集到第一語(yǔ)音命令820,則控制模塊160可以分析第一語(yǔ)音命令820,并且可以將第一語(yǔ)音命令分類(lèi)為針對(duì)非安全功能執(zhí)行的請(qǐng)求。根據(jù)本公開(kāi)的示例實(shí)施例,在所分析的第一語(yǔ)音命令820包括非指定詞語(yǔ)(例如,天氣、新聞、公交信息等)的情況下,控制模塊160可以將第一語(yǔ)音命令820分類(lèi)為針對(duì)非安全功能執(zhí)行的請(qǐng)求。備選地,在第一語(yǔ)音命令820不包括指定的詞語(yǔ)(例如,花費(fèi)、卡、郵件、消息、呼叫歷史等)的情況下,控制模塊160可以將第一語(yǔ)音命令820分類(lèi)為針對(duì)安全功能執(zhí)行的請(qǐng)求。備選地,控制模塊160可以確定要由第一語(yǔ)音命令820執(zhí)行的應(yīng)用的類(lèi)型是安全功能還是非安全功能。與這種操作相關(guān)地,電子設(shè)備100可以包括與每一種應(yīng)用類(lèi)型的安全功能或非安全功能有關(guān)的分類(lèi)信息。
如果收集到針對(duì)非安全功能或者沒(méi)有被用戶(hù)指定為取決于說(shuō)話者的功能的功能的第一語(yǔ)音命令820,則控制模塊160可以收集并輸出針對(duì)所述第一語(yǔ)音命令820的信息。例如,如屏幕805所示,控制模塊160可以輸出與第一語(yǔ)音命令820相對(duì)應(yīng)的第一語(yǔ)音識(shí)別信息851,并且可以作為執(zhí)行與第一語(yǔ)音識(shí)別信息851相對(duì)應(yīng)的功能或檢索的結(jié)果而輸出第一執(zhí)行信息853。
如果在應(yīng)用個(gè)人化語(yǔ)音功能的同時(shí)收集到第二語(yǔ)音命令840,則控制模塊160可以對(duì)于第二語(yǔ)音命令840執(zhí)行說(shuō)話者分析(例如,與個(gè)人化語(yǔ)音信息133的比較),并且只有所分析的說(shuō)話者信息指示為已注冊(cè)的說(shuō)話者才處理第二語(yǔ)音命令840。例如,如果確定分析結(jié)果所指示的說(shuō)話者不是已注冊(cè)的說(shuō)話者,則控制模塊160可以輸出與不可處理第二語(yǔ)音命令840相關(guān)的消息。
根據(jù)本公開(kāi)各種示例實(shí)施例,控制模塊160可以評(píng)估所收集的第二語(yǔ)音命令840,并且可以確定第二語(yǔ)音命令840是否與安全功能或者指定為取決于說(shuō)話者的功能的功能相關(guān)。如果第二語(yǔ)音命令840與非安全功能或者未被指定為取決于說(shuō)話者的功能的功能相關(guān),則控制模塊160可以基于第二語(yǔ)音命令840處理功能的執(zhí)行,而不會(huì)附加地檢查個(gè)人化語(yǔ)音信息133。備選地,如果第二語(yǔ)音命令840與安全功能或者取決于說(shuō)話者的功能相關(guān),則控制模塊160可以使用個(gè)人化語(yǔ)音信息133來(lái)識(shí)別第二語(yǔ)音命令840的說(shuō)話者。另外,如果確定第二語(yǔ)音命令840的說(shuō)話者是特定說(shuō)話者,則控制模塊160可以執(zhí)行與第二語(yǔ)音命令840相對(duì)應(yīng)的功能。如果第二語(yǔ)音命令840不是從特定說(shuō)話者輸入的講話信息,則控制模塊160可以響應(yīng)于第二語(yǔ)音命令840輸出用戶(hù)識(shí)別或者功能執(zhí)行不可用的限制性消息873。例如,控制模塊160可以針對(duì)第二語(yǔ)音命令840選擇性地輸出第二語(yǔ)音識(shí)別信息871。
圖9是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的與個(gè)人化語(yǔ)音信息的設(shè)置相關(guān)的屏幕界面的示例的圖。
參考圖9,如果發(fā)生與語(yǔ)音功能設(shè)置相關(guān)的事件,則電子設(shè)備100的控制模塊160可以向顯示器150輸出如屏幕901所示的設(shè)置屏幕。設(shè)置屏幕可以包括與語(yǔ)音功能設(shè)置相關(guān)的項(xiàng)目,例如外部服務(wù)器使用項(xiàng)目、個(gè)人化功能操作項(xiàng)目和語(yǔ)音輸出項(xiàng)目。如圖9所示,可以將虛擬重置按鈕911分配給與個(gè)人化功能設(shè)置或應(yīng)用相關(guān)的個(gè)人化功能操作項(xiàng)目。
如果選擇了虛擬重置按鈕911,則控制模塊160可以支持與個(gè)人化功能設(shè)置或應(yīng)用相關(guān)地獲得的個(gè)人化語(yǔ)音信息133或語(yǔ)音數(shù)據(jù)信息131的重置。與這種操作相關(guān)地,控制模塊160可以向顯示器150輸出如屏幕903中所示的與初始化相關(guān)的彈出窗口931。彈出窗口931可以包括例如提供與初始化有關(guān)的指南的消息以及用于用戶(hù)驗(yàn)證的驗(yàn)證信息輸入?yún)^(qū)域。
在屏幕901中,如果與個(gè)人化功能操作相關(guān)地選擇菜單項(xiàng)目913,則控制模塊160可以輸出如屏幕905中所示的與個(gè)人化功能操作相關(guān)的菜單屏幕。例如,菜單屏幕可以包括用于選擇要應(yīng)用個(gè)人化語(yǔ)音功能的至少一個(gè)應(yīng)用的項(xiàng)目。例如,菜單屏幕可以包括全部功能項(xiàng)目951、密碼設(shè)置功能項(xiàng)目953和用戶(hù)定制項(xiàng)目955。
全部功能項(xiàng)目951可以是限制性項(xiàng)目,其只允許特定說(shuō)話者通過(guò)語(yǔ)音功能來(lái)使用在電子設(shè)備100中安裝的應(yīng)用所支持的所有功能。在沒(méi)有設(shè)置全部功能項(xiàng)目951的情況下,電子設(shè)備100可以在不指定說(shuō)話者的情況下,基于各種用戶(hù)的講話信息來(lái)操作語(yǔ)音功能。
密碼設(shè)置功能項(xiàng)目953可以是限制性項(xiàng)目,其基于語(yǔ)音功能和特定說(shuō)話者的講話信息而允許與要使用的安全功能相關(guān)的功能項(xiàng)目。根據(jù)本公開(kāi)的示例實(shí)施例,當(dāng)選擇密碼設(shè)置功能項(xiàng)目953時(shí),電子設(shè)備100可以提供當(dāng)根據(jù)用戶(hù)指定而操作時(shí)要求密碼驗(yàn)證的功能的項(xiàng)目,或者在提供的應(yīng)用中要求針對(duì)應(yīng)用操作調(diào)度的密碼驗(yàn)證的功能的項(xiàng)目。當(dāng)解除應(yīng)用中的密碼設(shè)置時(shí),可以將特定功能從密碼設(shè)置功能項(xiàng)目953中排除。
用戶(hù)定制項(xiàng)目955可以使用戶(hù)能夠基于語(yǔ)音功能和特定說(shuō)話者的講話信息來(lái)指定將要使用的應(yīng)用項(xiàng)目。如果選擇了用戶(hù)定制項(xiàng)目955,則電子設(shè)備100可以輸出由電子設(shè)備100支持的應(yīng)用的列表。這里,電子設(shè)備100可以自動(dòng)地從與用戶(hù)定制項(xiàng)目955相關(guān)的列表中去除密碼設(shè)置功能項(xiàng)目953,以顯示所述列表。
如上所述,根據(jù)本公開(kāi)各種示例實(shí)施例,根據(jù)本公開(kāi)示例實(shí)施例的語(yǔ)音功能操作方法可以包括:存儲(chǔ)多條講話信息的至少一部分用于語(yǔ)音識(shí)別;基于互相似性從所述多條講話信息的至少一部分選擇說(shuō)話者講話信息;以及基于所選擇的說(shuō)話者講話信息來(lái)產(chǎn)生要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)各種示例實(shí)施例,所述方法還包括在指定的時(shí)間內(nèi)收集講話信息或者收集講話信息直到滿(mǎn)足指定數(shù)目的候選數(shù)據(jù)。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述方法還可以包括輸出用于將語(yǔ)音識(shí)別信息應(yīng)用于語(yǔ)音識(shí)別的消息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述方法還可以包括:產(chǎn)生所述多條講話信息的多條件訓(xùn)練模型,并且應(yīng)用所述多條件訓(xùn)練模型來(lái)確定要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述產(chǎn)生可以包括:產(chǎn)生說(shuō)話者講話信息的多條件訓(xùn)練模型,并且應(yīng)用所述多條件訓(xùn)練模型來(lái)確定要被注冊(cè)為個(gè)人化語(yǔ)音信息的語(yǔ)音識(shí)別信息。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述方法還可以包括:收集從與個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者輸入的其他講話信息,并且使用所述特定說(shuō)話者的其他講話信息來(lái)修改個(gè)人化語(yǔ)音信息的模型。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述修改可以包括:從特定說(shuō)話者輸入的講話信息中提取與在個(gè)人化語(yǔ)音信息中包括的已注冊(cè)音素模型相對(duì)應(yīng)的音素樣本,以使用所述音素樣本來(lái)修改所述已注冊(cè)音素模型。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述方法還可以包括:如果新輸入的新講話信息不是與個(gè)人化語(yǔ)音信息相對(duì)應(yīng)的特定說(shuō)話者的講話時(shí),輸出根據(jù)新講話信息的功能執(zhí)行不可用的消息,并且根據(jù)新講話信息所請(qǐng)求的功能的類(lèi)型來(lái)選擇性地執(zhí)行所述功能。
根據(jù)本公開(kāi)的各種示例實(shí)施例,執(zhí)行所述功能可以包括:如果所述功能是指定的安全功能則不執(zhí)行所述功能,以及如果所述功能是非指定的非安全功能則執(zhí)行所述功能。
根據(jù)本公開(kāi)的各種示例實(shí)施例,所述方法還可以包括:響應(yīng)于由基于個(gè)人化語(yǔ)音信息指定的說(shuō)話者輸入的講話信息,輸出用于設(shè)置要基于語(yǔ)音功能執(zhí)行的至少一個(gè)功能項(xiàng)目的設(shè)置屏幕。
如上所述,根據(jù)本公開(kāi)的各種示例實(shí)施例,根據(jù)本公開(kāi)示例實(shí)施例的語(yǔ)音功能操作方法可以包括:收集講話信息作為候選數(shù)據(jù),基于互相似性對(duì)所述候選數(shù)據(jù)進(jìn)行聚簇,并且基于數(shù)目相對(duì)較大的具有相同相似性的候選數(shù)據(jù),將指定的個(gè)人化語(yǔ)音信息注冊(cè)為用于基于是否輸入了指定講話信息而限制功能的執(zhí)行。
圖10是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的電子設(shè)備的示例的框圖。
參考圖10,電子設(shè)備100可以包括控制模塊(例如包括處理電路在內(nèi)的處理器)1060以及麥克風(fēng)模塊(例如包括至少一個(gè)麥克風(fēng))1040。
麥克風(fēng)模塊1040可以包括例如第一麥克風(fēng)40_1至第n麥克風(fēng)40_n。第一麥克風(fēng)40_1至第n麥克風(fēng)40_n可以連接至例如控制模塊1060。第一麥克風(fēng)40_1至第n麥克風(fēng)40_n可以設(shè)置在電子設(shè)備100的一側(cè),以便彼此間隔開(kāi)特定距離。
麥克風(fēng)模塊1060可以控制在麥克風(fēng)模塊1040中包括的麥克風(fēng)的至少一個(gè)。例如,在設(shè)置個(gè)人化語(yǔ)音功能時(shí),控制模塊1060可以啟用第一麥克風(fēng)40_1,并且可以分析由第一麥克風(fēng)40_1收集的音頻信號(hào)。另外,控制模塊1060可以使用通過(guò)第一麥克風(fēng)40_1收集的音頻信號(hào)作為語(yǔ)音數(shù)據(jù)信息131??刂颇K1060還可以使用第一麥克風(fēng)40_1至第n麥克風(fēng)40_n收集與語(yǔ)音數(shù)據(jù)信息131相對(duì)應(yīng)的講話信息。備選地,控制模塊1060可以單獨(dú)地使用第一麥克風(fēng)40_1來(lái)收集語(yǔ)音數(shù)據(jù)信息131,并且可以使用第一麥克風(fēng)40_1至第n麥克風(fēng)40_n來(lái)修改(或者增強(qiáng))個(gè)人化語(yǔ)音信息133。
在要求麥克風(fēng)模塊1040在始終開(kāi)啟功能被執(zhí)行時(shí)保持在接通狀態(tài)的情況下,電子設(shè)備100可以啟用第一麥克風(fēng)40_1,并且可以檢查是否收集了與指定的講話參考信息(例如“higalaxy”)相對(duì)應(yīng)的講話信息。電子設(shè)備100可以使用附加講話信息來(lái)修改個(gè)人化語(yǔ)音信息133,其中所述附加講話信息是在收集到與講話參考信息相對(duì)應(yīng)的講話信息之后啟用其他麥克風(fēng)的狀態(tài)下收集的。在這種操作中,電子設(shè)備100可以根據(jù)麥克風(fēng)40_1至40_n收集的講話信息來(lái)支持語(yǔ)音功能的執(zhí)行。
在沒(méi)有應(yīng)用個(gè)人化語(yǔ)音功能的狀態(tài)下,控制模塊1060可以單獨(dú)地使用第一麥克風(fēng)40_1來(lái)支持語(yǔ)音功能。另外,在應(yīng)用個(gè)人化語(yǔ)音功能的狀態(tài)下,控制模塊1060可以使用第一麥克風(fēng)40_1來(lái)檢測(cè)與講話參考信息相對(duì)應(yīng)的講話信息,并且可以使用麥克風(fēng)40_1至40_n來(lái)收集附加講話信息。
備選地,在沒(méi)有應(yīng)用個(gè)人化語(yǔ)音功能的狀態(tài)下,控制模塊1060可以收集講話信息,并且可以單獨(dú)地使用第一麥克風(fēng)40_1來(lái)分析所收集的講話信息是否與講話參考信息相對(duì)應(yīng)。在應(yīng)用個(gè)人化語(yǔ)音功能的狀態(tài)下,控制模塊1060可以使用多個(gè)麥克風(fēng)(例如第一麥克風(fēng)40_1和第二麥克風(fēng)40_2)來(lái)檢測(cè)與講話參考信息相對(duì)應(yīng)的講話信息。另外,在應(yīng)用個(gè)人化語(yǔ)音功能的狀態(tài)下,如果收集了與講話參考信息相對(duì)應(yīng)的講話信息,則控制模塊1060可以啟用第一麥克風(fēng)40_1至第n麥克風(fēng)40_n來(lái)控制對(duì)附加講話信息的收集。
如上所述,考慮到功率的有效利用或者為了收集更清晰的講話信息,電子設(shè)備100可以控制麥克風(fēng)40_1至40_n的操作。
圖11是示出了根據(jù)本公開(kāi)各種示例實(shí)施例的電子設(shè)備的另一個(gè)示例的框圖。
參考圖11,電子設(shè)備100可以包括控制模塊(例如包括處理電路在內(nèi)的處理器)1160以及麥克風(fēng)模塊(例如包括至少一個(gè)麥克風(fēng))1040。
麥克風(fēng)模塊1040可以按照與以上參考圖10所述類(lèi)似的方式包括第一麥克風(fēng)40_1至第n麥克風(fēng)40_n。多個(gè)麥克風(fēng)40_1至40_n可以連接至控制模塊1160。例如,多個(gè)麥克風(fēng)40_1至40_n中的第一麥克風(fēng)40_1可以連接至低功率處理模塊1163。例如,多個(gè)麥克風(fēng)40_1至40_n中的第一麥克風(fēng)40_1可以連接至主控制模塊1161。同時(shí),第二麥克風(fēng)40_2至第n麥克風(fēng)40_n可以連接至低功率處理模塊1163和主控制模塊1161兩者。另外,第一麥克風(fēng)40_1不僅可以連接至低功率處理模塊1163而且還可以連接至主控制模塊1161。因此,第一麥克風(fēng)40_1可以將收集的音頻信號(hào)傳輸至低功率處理模塊1163,或者如果主控制模塊1161處于喚醒狀態(tài),則第一麥克風(fēng)40_1可以將收集的音頻信號(hào)傳輸至主控制模塊1161,或者傳輸至低功率處理模塊1163和主控制模塊1161兩者。
控制模塊1160可以包括主控制模塊1161和低功率處理模塊1163。
例如,低功率處理模塊1163可以是與主控制模塊1161相比用相對(duì)較低的功率驅(qū)動(dòng)的處理器(例如,包括處理電路)。例如,低功率處理模塊1163可以是專(zhuān)用于音頻信號(hào)處理的芯片、傳感器集線器或者專(zhuān)用于講話信息處理的芯片。在主控制模塊1161處于休眠模式時(shí)可以獨(dú)立地驅(qū)動(dòng)低功率處理模塊1163,以便控制在麥克風(fēng)模塊1040中包括的第一麥克風(fēng)40_1的驅(qū)動(dòng),并且分析由第一麥克風(fēng)40_1收集的音頻信號(hào)。例如,低功率處理模塊1163可以分析由第一麥克風(fēng)40_1收集的音頻信號(hào)是與語(yǔ)音相對(duì)應(yīng)的講話信息,還是與指定的講話參考信息相對(duì)應(yīng)的講話信息,還是由特定說(shuō)話者說(shuō)出的講話信息。如果講話信息滿(mǎn)足指定的條件,則低功率處理模塊1163可以喚醒主控制模塊1161。在這種操作中,低功率處理模塊1163可以執(zhí)行控制,使得啟用處于禁用狀態(tài)的第二麥克風(fēng)40_2至第n麥克風(fēng)40_n。
在語(yǔ)音功能操作時(shí),考慮到功率的有效使用,主控制模塊1161可以在保持在休眠狀態(tài)之后被低功率處理模塊1163喚醒。在該示例中,主控制模塊1161可以啟用第二麥克風(fēng)40_2至第n麥克風(fēng)40_n,并且可以收集和分析附加的講話信息。如以上針對(duì)控制模塊150的描述,主控制模塊1161可以根據(jù)個(gè)人化語(yǔ)音功能的應(yīng)用來(lái)控制針對(duì)所收集的講話信息的語(yǔ)音收集信息131的收集、個(gè)人化語(yǔ)音信息133的注冊(cè)、以及語(yǔ)音功能的限制性執(zhí)行。
這里使用的術(shù)語(yǔ)“模塊”可以表示例如包括硬件(包括硬件電路)、軟件和固件之一或其組合在內(nèi)的單元。術(shù)語(yǔ)“模塊”可以與術(shù)語(yǔ)“單元”、“邏輯”、“邏輯塊”、“組件”和“電路”互換使用。“模塊”可以是集成組件的最小單元或者可以是其一部分。“模塊”可以是用于執(zhí)行一個(gè)或多個(gè)功能的最小單元或其一部分??梢杂脵C(jī)械方式或電子方式來(lái)實(shí)現(xiàn)“模塊”。例如,“模塊”可以包括用于執(zhí)行已知的或?qū)?lái)開(kāi)發(fā)的一些操作的處理電路、硬件電路、固件、專(zhuān)用集成電路(asic)芯片、現(xiàn)場(chǎng)可編程門(mén)陣列(fpga)和可編程邏輯器件中的至少一種。
根據(jù)本公開(kāi)各種示例實(shí)施例的設(shè)備(例如,其模塊或功能)或方法(例如,操作)的至少一部分可以實(shí)現(xiàn)為以程序模塊形式存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中的指令。
根據(jù)本公開(kāi)各種示例實(shí)施例的模塊或程序模塊可以包括上述元件中的至少一個(gè)元件,或者可以省略一些元件或可以添加其他附加元件。由根據(jù)本公開(kāi)各種示例實(shí)施例的模塊、程序模塊或其他元件執(zhí)行的操作可以按照順序、并行、迭代或啟發(fā)式的方式執(zhí)行。另外,一些操作可以按不同順序執(zhí)行,或者可以被省略,或者可以增加其他操作。
根據(jù)本公開(kāi)的各種示例實(shí)施例,可以按照取決于說(shuō)話者(即取決于用戶(hù))的方式來(lái)處理可以針對(duì)每一個(gè)說(shuō)話者操作的語(yǔ)音功能的類(lèi)型或者可通過(guò)語(yǔ)音識(shí)別來(lái)執(zhí)行的應(yīng)用的類(lèi)型。
因此,根據(jù)本公開(kāi)的各種示例實(shí)施例,可以確保(或者換句話說(shuō)改進(jìn)或者增強(qiáng))與電子設(shè)備的語(yǔ)音功能相關(guān)的安全性。
將理解,本發(fā)明的實(shí)施例可以被實(shí)現(xiàn)為硬件、軟件或硬件和軟件結(jié)合的形式。作為示例,任何這種軟件可以存儲(chǔ)為易失性存儲(chǔ)器或非易失性存儲(chǔ)器件的形式(例如rom之類(lèi)的存儲(chǔ)器件,不論是否是可擦除的或可重寫(xiě)的),或者存儲(chǔ)為存儲(chǔ)器的形式(例如ram、存儲(chǔ)器芯片、設(shè)備或集成電路),或者存儲(chǔ)在光或磁可讀介質(zhì)上(例如,cd、dvd、磁盤(pán)或磁帶等等)。將認(rèn)識(shí)到,存儲(chǔ)設(shè)備和存儲(chǔ)介質(zhì)是適于存儲(chǔ)程序的機(jī)器可讀存儲(chǔ)器的實(shí)施例,所述程序包括在被執(zhí)行時(shí)實(shí)施本發(fā)明實(shí)施例的指令。因此,實(shí)施例提供包括用于實(shí)現(xiàn)此說(shuō)明書(shū)的任一權(quán)利要求中所請(qǐng)求保護(hù)的裝置或方法的代碼在內(nèi)的程序以及存儲(chǔ)這種程序的機(jī)器可讀存儲(chǔ)器。此外,可以經(jīng)由任意介質(zhì)(比如,通過(guò)有線連接或無(wú)線連接攜帶的通信信號(hào))來(lái)電子地傳送這些程序,并且多個(gè)實(shí)施例適當(dāng)?shù)匕ㄟ@些程序。
還將認(rèn)識(shí)到,貫穿本說(shuō)明書(shū)的描述和權(quán)利要求,具有“用于y的x”的通用形式的語(yǔ)言(其中,y是某個(gè)動(dòng)作、活動(dòng)或步驟,并且x是用于執(zhí)行該動(dòng)作、活動(dòng)或步驟的某個(gè)裝置)包含專(zhuān)門(mén)(但不排他)適于或布置為進(jìn)行y的裝置x。
本發(fā)明的上述示例實(shí)施例是說(shuō)明性的而不是限制性的。各種替代和等同物是可能的。通過(guò)本公開(kāi)容易想到其它的增加、刪除或修改,并且所述增加、刪除或修改旨在落入所附權(quán)利要求的范圍內(nèi)。