專利名稱:聲音命令處理裝置與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種語音辨識技術(shù),特別是一種聲音命令處理裝置 及方法。
背景技術(shù):
i吾音多爭i口、寺支術(shù)(speech/voice recognition)^皮i人為是一種具^f吏用者 親禾口力的人才凡介面(user-friendly man-machine-interface, MMI), i吾音
辨識技術(shù)現(xiàn)已發(fā)展來分辨人類說話的自然語言的意義。
發(fā)明內(nèi)容
本發(fā)明實施例4皮露了 一種聲音命令處理裝置,其中包括行動代 理器執(zhí)行平臺。行動代理器執(zhí)行平臺包括內(nèi)部平臺、至少一個代理 器、行動代理器執(zhí)行情境與行動代理器管理單元。行動代理器執(zhí)行 情境提供應(yīng)用程序介面,使得代理器通過應(yīng)用程序介面使用內(nèi)部平 臺的資源。行動代理器管理單元掌理代理器的初始化、執(zhí)行、暫時 中止、重新開始與分派。代理器用以扭乂f亍有關(guān)聲音命令處理的功能。
本發(fā)明實施例4皮露了 一種聲音命令處理方法,包括以下步駛《。 接收由目標(biāo)裝置所復(fù)制的語音辨識代理器,此語音辨識代理器包含 執(zhí)行語音辨識的電腦程序、聲學(xué)模型、詞匯及語言才莫型。使用語音 辨識代理器根據(jù)聲學(xué)模型處理原始聲音資料,并且產(chǎn)生相應(yīng)于詞匯 與語言模型的至少一個聲音字組。本發(fā)明提供了一種聲音命令處理裝置,包括行動代理器執(zhí)行 平臺,包括內(nèi)部平臺;至少一代理器;行動代理器執(zhí)行情境,用 以提供應(yīng)用程序介面,使得所述代理器通過所述應(yīng)用程序介面〗吏用 所述內(nèi)部平臺的資源;以及行動代理器管理單元,用以掌理所述代 理器的初始化、執(zhí)行、暫時中止、重新開始與分派。其中,所述代 理器用以執(zhí)行有關(guān)聲音命令處理的功能。
其中所述行動代理器管理單元負(fù)責(zé)與所述代理器間進(jìn)行通訊, 并且進(jìn)行有關(guān)聲音命令處理的控制。
其中所述代理器中包含委派任務(wù),以及用以執(zhí)行所述委派任為 所需的邏輯。
其中所述代理器為語音辨識代理器,包含#丸4于語音辨識的電腦 程序、聲學(xué)模型、詞匯及語言模型,所述電腦程序用以根據(jù)所述聲 學(xué)才莫型處理原始聲音資一牛,并且產(chǎn)生相應(yīng)于所述詞匯與所述語言沖莫 型的至少一聲音字組。
其中所述語音辨識代理器為目標(biāo)裝置中的語音辨識代理器的
復(fù)制品0
其中所述行動代理器管理單元復(fù)制所述語音辨識代理器,并且 傳送所述復(fù)制的語音辨識代理器至遠(yuǎn)端裝置的行動代理器執(zhí)行平 臺中,用以通過所述遠(yuǎn)程裝置執(zhí)行語音辨識。
其中所述代理器為語言理解代理器,包含執(zhí)行語言理解的電腦 程序、句法模型及語意模型,所述電腦程序用以根據(jù)所述句法模型 來分析至少一聲音字組的句法,并且依據(jù)所述語意模型來理解所述 分析出的句法,用以產(chǎn)生陳述表達(dá)式。其中所述語言理解代理器為目標(biāo)裝置中的語言理解代理器的 復(fù)制品。
其中所述行動代理器管理單元復(fù)制所述語言理解代理器,并且 傳送所述復(fù)制的語言理解代理器至遠(yuǎn)端裝置的行動代理器執(zhí)行平
臺中,用以通過所述遠(yuǎn)端裝置^vf亍語言理解。
其中所述代理器為意義呈現(xiàn)代理器,包含執(zhí)行意義呈現(xiàn)的電腦 程序及多個聲音命令,所述電腦程序用以取得相應(yīng)于陳述表達(dá)式的 所述聲音命令中之一者。
其中所述意義呈現(xiàn)代理器為目標(biāo)裝置中的意義呈現(xiàn)代理器的
復(fù)制品。
其中所述行動代理器管理單元復(fù)制所述意義呈現(xiàn)代理器,并且 傳送所述復(fù)制的意義呈現(xiàn)代理器至遠(yuǎn)端裝置的行動代理器執(zhí)行平 臺中,用以通過所述遠(yuǎn)端裝置扭j亍意義呈現(xiàn)。
其中所述行動代理器管理單元執(zhí)行聲音命令。
本發(fā)明還提供了一種聲音命令處理方法,使用含有麥克風(fēng)的電
子裝置執(zhí)行,包括接收由目標(biāo)裝置所復(fù)制的語音辨識代理器,所 述語音辨識代理器包含執(zhí)行語音辨識的電腦程序、聲學(xué)^^莫型、詞匯 及語言模型;以及從所述麥克風(fēng)接收原始聲音資料,使用所述語音 辨識代理器根據(jù)所述聲學(xué)模型處理所述原始聲音資料,并且產(chǎn)生相 應(yīng)于所述詞匯與所述i吾言才莫型的至少 一聲音字組。
其中所述電子裝置包括行動代理器執(zhí)行平臺,包括內(nèi)部平 臺;行動代理器執(zhí)行情境,用以提供應(yīng)用程序介面,使得所述語音 辨識代理器通過所述應(yīng)用^呈序介面^f吏用所述內(nèi)部平臺的資源;以及4亍動代理器管理單元,用以掌理所述語音辨識代理器的初始化、#丸 行、暫時中止、重新開始與分派。
所述的聲音命令處理方法還包括接收由目標(biāo)裝置所復(fù)制的語 言理解代理器,所述語言理解代理器包含執(zhí)行語言理解的電腦程 序、句法模型及語意模型;以及使用所述語言理解代理器根據(jù)所述 句法模型來分析所述聲音字組的句法,與依據(jù)所述語意模型來理解 所述分析出的句法,用以產(chǎn)生陳述表達(dá)式。
所述的聲音命令處理方法還包括接收由目標(biāo)裝置所復(fù)制的意 義呈現(xiàn)代理器,所述意義呈現(xiàn)代理器包含執(zhí)行意義呈現(xiàn)的電腦程序 及多個聲音命令;以及使用所述意義呈現(xiàn)代理器取得相應(yīng)于所述陳 述表達(dá)式的所述聲音命令中之一者。
所述的聲音命令處理方法還包括傳送所述取得的聲音命令至 所述目標(biāo)裝置。
本發(fā)明還提供了一種電子裝置,所述電子裝置包括輸入裝置, 用以輸入原始聲音資料;聲音命令控制器,用以辨識所述原始聲音 資料,所述語音辨識代理器包含語音辨識代理器、語言理解代理器 及意義呈現(xiàn)代理器;認(rèn)證碼;其中,當(dāng)所述電子裝置連接遠(yuǎn)端裝置 時,所述語音辨識代理器依據(jù)所述認(rèn)證碼選擇性的更新所述語音辨 識代理器、所述語言理解代理器及所述意義呈現(xiàn)代理器。
其中所述聲音命令控制器是依序更新所述語音辨識代理器、所 述語言理解代理器及所述意義呈現(xiàn)^理器。
圖1表示依據(jù)本發(fā)明實施例的聲音命令處理系統(tǒng)的網(wǎng)絡(luò)架構(gòu)示
意圖2表示依據(jù)本發(fā)明實施例的移動電話裝置的硬件架構(gòu)圖3表示依據(jù)本發(fā)明實施例的個人電腦11的硬件架構(gòu)圖4是依據(jù)本發(fā)明實施例的聲音命令處理的五階辜殳示意圖5是依據(jù)本發(fā)明實施例的在語音辨識階段、語言理解階段與 意義呈現(xiàn)階段中所需的主要實體示意圖6為典型的聲音命令處理方法的方法流程圖7是依據(jù)本發(fā)明實施例的行動代理器執(zhí)行平臺;
圖8是依據(jù)本發(fā)明實施例的聲音命令處理服務(wù)示意圖9A至9D是依據(jù)本發(fā)明實施例的代理器委任與分派示意圖。
具體實施例方式
圖1是表示依據(jù)本發(fā)明實施例的聲音命令處理系統(tǒng)的網(wǎng)絡(luò)架構(gòu) 示意圖。在優(yōu)選的情況下,此網(wǎng)絡(luò)架構(gòu)包括個人電腦11與手才幾13。 相較于個人電腦11,手才凡13可配備較簡易的運算資源,例如,配 備較慢的處理器、容量較少的主存儲器與儲存空間等。其中,個人 電腦11與手才幾13間可以實體連線(wired-connection)、無線或混合 實體連線與無線的方式彼此連接。而本領(lǐng)域技術(shù)人員都了解個人電 腦11與手機(jī)13間的連結(jié)也許須通過多個中介節(jié)點,例如,無線接取點(access point)、基;也臺(base station)、集線器(hub)、橋接器 (bridge)、路由器(router)或其它用以處理網(wǎng)絡(luò)通訊的中介節(jié)點。個人 電腦11可代表一個目標(biāo)裝置(target device),而手機(jī)13可代表一個 遠(yuǎn)端裝置(remote device)。手機(jī)13中配備有一個麥克風(fēng),用以接收 鄰近的4吏用者的聲音訊號。
圖2是表示依據(jù)本發(fā)明實施例的移動電話裝置的石更件架構(gòu)圖。 移動電話裝置13可包括凄t字訊號處理單元(Digital Signal Processor, DSP)21、沖莫擬基帶(Analog Baseband)22、射步貞單元(Radio Frequency section, RF section)23、天線24、控制單元25、屏幕26、鍵盤(key pad)27、麥克風(fēng)28與記憶裝置29。除jt匕之外,本4頁;1或#支術(shù)人員也 可將遠(yuǎn)端裝置實施于配備有麥克風(fēng)的其它手持式裝置的樣態(tài) (configuration)上, <列^口個人凄史字助J里(digital personal assistant, PDA)、凄t字音樂插^文器(MP3 player)、或其它可攜式消費性電子產(chǎn) 品等,或?qū)嵤┯谂鋫溆宣溈孙L(fēng)的各式各樣的電腦系統(tǒng)樣態(tài)上??刂?單元25可為孩i處理單元(Micro Processing Unit; MPU),用以乂人i己憶 裝置29讀取程序模組,并執(zhí)行所讀取的程序模組來完成聲音命令 處理方法。記憶裝置29包含只讀存4諸器(read only memory; ROM)、 閃存(flash ROM)以及/或動態(tài)存取存卡者器(random access memory; RAM),用以儲存可供控制單元25執(zhí)行的程序才莫組。麥克風(fēng)25用 以感測鄰近的〗吏用者的聲音訊號,并傳送至婆史字訊號處理單元21, 用以將感測到的模擬訊號轉(zhuǎn)換成數(shù)字訊號,以供后續(xù)的控制單元25 處理。
圖3表示依據(jù)本發(fā)明實施例的個人電腦11的硬件架構(gòu)圖。個 人電腦ll,包括處理單元31、存儲器32、儲存裝置33、輸出裝置 34、輸入裝置35、通訊裝置36,并4吏用總線37將其連結(jié)在一起。 本領(lǐng)域4支術(shù)人員可將目標(biāo)裝置實施于各式各才羊的電腦系統(tǒng)才羊態(tài) (configuration)上,例如,多處理器系統(tǒng)、以」微處理器為基礎(chǔ)或可程序化的消費性電子產(chǎn)品(microprocessor-based or programmable consumer electronics)、網(wǎng)絡(luò)電月畝、迷你、電月鹵、大型主才幾、筆i己型電 腦以及類似的設(shè)備。存儲器32包含只讀存儲器(read only memory; ROM)、 閃存(flash memory)以及/或動態(tài)存取存+者器(random access memory; RAM),提供儲存空間,用以儲存可供處理單元31執(zhí)行的 程序才莫組、資料、檔案以及紀(jì)錄。 一般而言,程序才莫組包含常序 (routines)、程序(program)、對象(object)、元件(component)等,用以 執(zhí)行聲音命令處理功能。本發(fā)明也可以實施于分散式運算環(huán)境,其 運算工作被連結(jié)于通訊網(wǎng)絡(luò)的遠(yuǎn)端處理設(shè)備所執(zhí)行。在分散式環(huán)境 中,聲音命令處理的功能執(zhí)行,也許由本地以及多部遠(yuǎn)端電腦系統(tǒng) 共同完成。儲存裝置33包含硬盤裝置、軟盤裝置、光盤裝置或隨 身盤裝置,提供儲存空間,用以存取硬盤、軟盤、光盤、隨身盤中 所儲存的程序模組、資料、檔案以及紀(jì)錄。
圖4是依據(jù)本發(fā)明實施例的聲音命令處理的五階段示意圖,包 含聲音命令才妄收(voice command acquisition)P41 、 "i吾音辨識(speech recognition)P43 、 i吾言5里解(language understanding)P45 、 意義呈J見 (meaning representation)P47與命令4丸4亍(command execution)P49等 階段。圖5是依據(jù)本發(fā)明實施例的在語音辨識階段P43、語言理解 階段P45與意義呈現(xiàn)階段P47中所需的主要實體示意圖。在聲音命 令4妄收階羊殳P41中,聲音命令話i吾(voice command speaking)會凈皮截 聽(intercepted)并塑模(modeled)為聲音資料的原始輸入(也就是原始 聲音資妹+)。此原始聲音資料在輸入到語音辨識P43前,會再加以處 J里,例如資沖牛凈^ft 、 過濾與區(qū)隔(data cleaning, filtering and segmentation)。在語音辨識階段P43中,原始聲音資料會根據(jù)內(nèi)建 的聲學(xué)才莫型(acoustic model)611;故處理,接著,產(chǎn)生相應(yīng)于語言才莫型 (language model)615與i司;^匚(lexicon)613的聲音字纟且(voice words)。 在i吾言理解階^殳P45中,依據(jù)內(nèi)建的語言句法才莫型(language syntax model)631來分析聲音字組的句法(syntax),以及依據(jù)內(nèi)建的語意模型(semantic model)633來理解分對斤出的句法。其結(jié)果會4安照特定的 呈J見^見貝'J (representation rule)635與事4牛背景(disclosure context)637 來產(chǎn)生陳述表達(dá)式(statement expression),在意義呈^L階^: P47中, 取得的陳述表達(dá)式^皮理解成為一個有意義的特定聲音命令。理解的 結(jié)果會對應(yīng)到一個包含聲音命令的意義呈現(xiàn)的有限空間中,否則, 此理解的結(jié)果沒有定義的聲音命令。在命令執(zhí)行階段P49中,執(zhí)行 相應(yīng)于有效聲音命令的特定工作。
圖6為典型的聲音命令處理方法的方法流程圖,由個人電腦11 與移動電話13所執(zhí)行。此流程圖并非用以決定是否具可專利性的 已知技術(shù),而僅用以顯示發(fā)明人所發(fā)覺的問題。移動電話13執(zhí)行 聲音命令接收階I殳P41的作業(yè),并且將產(chǎn)生的原始聲音資料傳送給 個人電腦ll(步驟S611)。個人電腦11在4妄收到原始聲音資津+后(步 驟S511),執(zhí)行語音辨識階段P43(步驟S531至S535)、語言理解階 段(步驟S551)與意義呈現(xiàn)階段(步驟S553至S571)的作業(yè)。當(dāng)個人 電腦11判斷無法產(chǎn)生有用的辨識結(jié)果時(步驟S533),傳送語音辨 識失敗訊息給移動電話13(步驟S535與S631)。當(dāng)個人電腦11無法 取得相應(yīng)的聲音命令時(步驟S555與S557),傳送無效聲音命令訊 息給移動電話13(步艱《S559與S651)。當(dāng)個人電腦11可取得相應(yīng)的 聲音命令時(步驟S555與S559),執(zhí)行取得的聲音命令,并傳送執(zhí) 行結(jié)果或資料給移動電話13(步驟S571、 S573與S671)。此典型的 聲音命令處理方法具有以下的缺點。原始聲音資料的傳輸通常需要 耗費較多的網(wǎng)絡(luò)頻寬,并且移動電話13需要通過個人電腦11的通 知才能得知語音辨識與聲音命令取得結(jié)果,降低聲音命令處理的效 率。
execution platform),其中存在一個以代理器為基礎(chǔ)的聲音命令控制 器,用以智能型;也進(jìn)^f亍有關(guān)聲音命令處理的控制。個人電腦11與
12手機(jī)13都提供此行動代理器執(zhí)行平臺。行動代理器執(zhí)行平臺包含 三個元寸牛4亍動^^里器^^亍情境(mobile agent execution context)、 4亍 動4戈理器傳^r通i凡十辦i義(mobile agent transport protocol)、以及^J里器 委派與控制(agent delegation and control)。 4亍動4戈理器扭^f亍情境730 是指一個代理器執(zhí)行環(huán)境,提供獨立的應(yīng)用程序介面,使得一個正 在執(zhí)行的代理器可以使用原有平臺(native platform)710的資源。每 一個代理器都擁有相應(yīng)于委派任務(wù)的特定生命周期731。行動代理 器管理單元733用以掌理代理器的初始化、執(zhí)行、暫時中止、重新 開始與分派。應(yīng)用程序?qū)蛹壍拇砥鱾鬏斖ㄓ崊f(xié)議735用來建立個 人電腦11與手才幾13間的兩個4亍動^理器執(zhí)4亍平臺間的通iK管道。
圖8是依據(jù)本發(fā)明實施例的聲音命令處理服務(wù)示意圖。聲音命 令控制器810負(fù)責(zé)與語音辨識、語言理解與意義呈現(xiàn)代理器831、 833與835間進(jìn)4亍通訊,也可稱為聲音命令應(yīng)用程序750(圖7)中。 個人電腦11與手機(jī)13均提供行動代理器執(zhí)行平臺,也就是,任一 個^f亍動^理器可在電腦平臺(computer platform)或手才幾平臺(mobile phone platform)上執(zhí)行。
圖9A至9D是依據(jù)本發(fā)明實施例的代理器委任與分派示意圖。 參考圖9A,個人電腦11中的聲音命令控制器810可分派并儲存常 駐一個代理器在手機(jī)13中的行動代理器執(zhí)行平臺上。每一個代理 器中包含委派任務(wù)(使用電腦資料表示法呈現(xiàn)),以及用以執(zhí)行委派 任務(wù)所需的邏輯。詳而言之,聲音命令控制器810可復(fù)制(clone)自 身的語音辨識代理器831、語言理解代理器833與意義呈現(xiàn)代理器 835中的至少者,并將復(fù)制的^理器831,、 833,以及/或835,遷移 (migrate)并儲存至手機(jī)13中的行動代理器執(zhí)行平臺上。語音辨識代 理器831,可包含語音辨識的電腦程序、演算法、聲學(xué)模型的模式 (patterns)、詞匯及語言模型等,用以在不需要再與個人電腦11互動 的情況下,遠(yuǎn)端地執(zhí)行語音辨識。類似地,語言理解代理器833,包含語言理解的電腦程序、演算法、句法與語意模型、以及用以判
斷輸入的聲音可能為何種語言以及使用者可能說了哪些字(terms)。 意義呈現(xiàn)代理器835,包含意義呈現(xiàn)的電腦程序、演算法與使用特 定呈現(xiàn)格式的多個聲音命令,用以解釋聲音輸入的意義,并且將此 意義轉(zhuǎn)換成為聲音命令中之一者。解出的聲音命令會被傳送到個人 電腦11,接著被個人電腦11中的聲音命令控制器810所執(zhí)行。在 適當(dāng)?shù)膽?yīng)用領(lǐng)域上,本領(lǐng)域4支術(shù)人員也可直接^f吏用手機(jī)13中的聲 音命令控制器810,執(zhí)行解出的聲音命令。
分派這些代理器的次序必須相應(yīng)于如圖5所示的聲音命令處理 階段的順序性。參考圖9B,聲音命令控制器810可分派并常駐復(fù) 制的語音辨識代理器831,在手4幾11中,用以協(xié)助遠(yuǎn)程的聲音命令 控制器810,。當(dāng)復(fù)制的i吾音辨識4、理器831,已存在于手4幾11中, 聲音命令控制器810也可只更新語音辨識^理器831,中的特定電腦 程序、演算法、聲學(xué)才莫型的模式(pattems)、詞匯或語言模型。當(dāng)遠(yuǎn) 端的聲音命令控制器810,感測到使用者的聲音輸入,語音辨識代理 器831,可自行處理此聲音輸入。如果語音辨識代理器831,成功地產(chǎn) 生辨識結(jié)果,則代理器831,通過實體連線/網(wǎng)絡(luò)傳送此結(jié)果給個人電 腦11的語言理解代理器833或聲音命令控制器810,傳送的內(nèi)容可 以是辨識出的文字符串。如果i吾音辨識^f氣理器831,無法產(chǎn)生辨識結(jié) 果,則代理器831,可產(chǎn)生即時的通知。4吏用者馬上發(fā)覺此情況并換_ 供新的聲音輸入。此外,相較于個人電腦11的語音辨識代理器831, 語音辨識代理器831,可產(chǎn)生較好的辨識結(jié)果,因為代理器831,4交接 近^f吏用者,可才企測出i兌"i舌場合(speaking venue)、 環(huán)境情境 (surrounding context)與背景噪音(background noise), 并且不會在網(wǎng) 絡(luò)傳輸過程中受到干擾。在此須注意的是,當(dāng)語言理解代理器與意 義呈現(xiàn)代理器在手才幾13中批J亍時,也可具有這些優(yōu)點。參考圖9C,在接收到從語音辨識代理器831,所傳來的辨識結(jié) 果后,復(fù)制的語言理解代理器833,可被遷移至手機(jī)13中,用以與 語音辨識^理器831,協(xié)同合作。當(dāng)復(fù)制的語言理解代理器833,已存 在于手才幾11中,也可只更新語言理解代理器833,中的特定電腦禾呈 序、演算法、特定的句法或語意才莫型。搭配辨識出的結(jié)果,語言理 解代理器833,按照語言語法與語意來分析聲音資料,并試著理解此 聲音資料的語言表達(dá)結(jié)構(gòu)。本領(lǐng)域技術(shù)人員都了解,聲音命令也許 無法完全符合語法與語意少見則,可參考內(nèi)建的知識來消除聲音資料 的不明確意義。如果語言理解代理器833,成功地產(chǎn)生理解結(jié)果,則 代理器833,通過實體連線/網(wǎng)絡(luò)傳送此結(jié)果給個人電腦11的意義理 解代理器835或聲音命令控制器810。如果語言理解代理器833,無 法產(chǎn)生理解結(jié)果,則代理器833,可產(chǎn)生即時的通知,讓〗吏用者則可 馬上發(fā)覺此情況。
參考圖9D,在接收到/人語言理解代理器833,所傳來的理解結(jié) 果后,復(fù)制的意義呈現(xiàn)^C理器835,可#1遷移至手才幾13中,用以與 語言理解代理器833,協(xié)同合作。當(dāng)復(fù)制的意義呈現(xiàn)代理器835,已存 在于手才幾11中,也可只更新意義呈現(xiàn)代理器835,中的特定電腦程 序、演算法或聲音命令。如果相應(yīng)于理解結(jié)果的意義可對應(yīng)到事先 定義的聲音命令集合中,則意義呈現(xiàn)代理器835,傳送此對應(yīng)的聲音 命令給個人電腦11的聲音命令控制器810。如果意義呈現(xiàn)代理器 835,無法對應(yīng)到聲音命令,則代理器835,可產(chǎn)生即時的通知,讓使 用者則可馬上發(fā)覺此情況。本4頁i或才支術(shù)人員也可以在手才幾13還未 開始進(jìn)4亍實際的聲音命令處理前,個人電腦11 ^吏用如上所述的順 序來復(fù)制自身的語音辨識代理器831、語言理解代理器833與意義 呈現(xiàn)代理器835,并將復(fù)制的代理器831,、 833,與835,遷移至手機(jī) 13中的行動代理器執(zhí)行平臺上。
15圖9A中,個人電腦11對手機(jī)13分派聲音命令控制器810的 方法可以才艮據(jù)手才幾13與個人電腦11連線通ifl時所與用的iU正碼找 出對應(yīng)的聲音命令控制器81,上述認(rèn)證碼可以預(yù)存在手機(jī)13內(nèi)部 的存4諸器中,可以為4吏用者iU正石馬、SIM卡石馬、IP》也址等。
本發(fā)明的方法與系統(tǒng),或特定型態(tài)或其部4分,可以以禾呈序石馬的 型態(tài)包含于實體媒體,如軟盤、光碟片、硬盤、或是任何其它機(jī)器 可讀取(如電腦可讀取)儲存媒體,其中,當(dāng)程序碼被機(jī)器,如電腦 載入且執(zhí)行時,此機(jī)器變成用以參與本發(fā)明的裝置。本發(fā)明的方法 與裝置也可以以程序碼型態(tài)通過一些傳送々某體,如電線或電纜、光 纖、或是任何傳輸型態(tài)進(jìn)行傳送,其中,當(dāng)程序碼被機(jī)器,如電腦 接收、載入且執(zhí)行時,此機(jī)器變成用以參與本發(fā)明的裝置。當(dāng)在一 :ll殳用途處玉里單元(general畫purpose processing unit)實際運作時,禾呈序 碼結(jié)合處理器提供操作類似于應(yīng)用特定邏輯電路的獨特裝置。
針對一個特定的是統(tǒng)元件,說明書及權(quán)利要求書中會使用一個 名稱來為其命名。本領(lǐng)域技術(shù)人員都了解,消費電子設(shè)備的制造者 也許會使用不同的命名來稱呼內(nèi)容中所對應(yīng)的系統(tǒng)元件。此文件并 不想要以不同的名稱來區(qū)別元件間的不同,而是4吏用不同的功能描 述來進(jìn)4亍區(qū)別。
雖然本發(fā)明已以優(yōu)選實施例"坡露如上,然其并非用以限定本發(fā) 明,本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),當(dāng)可做一 些更動與潤飾,因此本發(fā)明的保護(hù)范圍當(dāng)視所附的權(quán)利要求所界定 者為準(zhǔn)。
主要元件符號說明
11 個人電腦 13~手才幾21 凄t字ifl號處理單元
23 射頻單元
25 控制單元
27~鍵盤
29 記憶裝置
32 存儲器
34 輸出裝置
36 通訊裝置
P41 聲音命令接收階段
P45 語言理解階4殳 P49 命令執(zhí)行階段
613 詞匯
631 語言句法模型 635 呈現(xiàn)規(guī)則
22 模擬基帶
24 天線
26 屏幕
28 麥克風(fēng)
31 處理單元
33-儲存裝置
35 輸入裝置
37 總線
P43 語音辨識階段
P47 意義呈現(xiàn)階段
611 聲學(xué)才莫型
615 語言模型
633 語意模型
637 事件背景
S511、 S531......S571、 S573 方法步驟
S611、 S631、 S651、 S671 方法步艱《
710 原有平臺730 行動代理器執(zhí)行情境;731 生命周期
733 4于動代理器管理單元
735 代理器傳輸通訊協(xié)議
810、 810, 聲音命令控制器
831、 831, 語音辨識代理器
833、 833, i吾言理解4戈理器
835、 835, 意義呈現(xiàn)代理器
權(quán)利要求
1. 一種聲音命令處理裝置,包括行動代理器執(zhí)行平臺,包括內(nèi)部平臺;至少一4戈理器;行動代理器執(zhí)行情境,用以提供應(yīng)用程序介面,使得所 述代理器通過所述應(yīng)用程序介面使用所述內(nèi)部平臺的資源;以 及4亍動^理器管理單元,用以掌理所述4<理器的初始化、 才丸行、暫時中止、重新開始與分派。其中,所述代理器用以執(zhí)行有關(guān)聲音命令處理的功能。
2. 根據(jù)權(quán)利要求1所述的聲音命令處理裝置,其中所述行動代理 器管理單元負(fù)責(zé)與所述代理器間進(jìn)行通訊,并且進(jìn)行有關(guān)聲音 命令處理的控制。
3. 根據(jù)權(quán)利要求1所述的聲音命令處理裝置,其中所述代理器中 包含委派任務(wù),以及用以4丸行所述委派任為所需的邏輯。
4. 根據(jù)權(quán)利要求3所述的聲音命令處理裝置,其中所述代理器為 語音辨識代理器,包含執(zhí)行語音辨識的電腦程序、聲學(xué)才莫型、 詞匯及語言沖莫型,所述電腦程序用以才艮據(jù)所述聲學(xué)才莫型處理原 始聲音資料,并且產(chǎn)生相應(yīng)于所述詞匯與所述語言才莫型的至少 一聲音字組。
5. 才艮據(jù)4又利要求4所述的聲音命令處理裝置,其中所述語音辨識 代理器為目標(biāo)裝置中的語音辨識代理器的復(fù)制品。
6. 根據(jù)權(quán)利要求4所述的聲音命令處理裝置,其中所述行動代理 器管理單元復(fù)制所述語音辨識代理器,并且傳送所述復(fù)制的語 音辨識代理器至遠(yuǎn)端裝置的行動代理器才丸行平臺中,用以通過 所述遠(yuǎn)程裝置扭J于語音辨識。
7. 根據(jù)權(quán)利要求3所述的聲音命令處理裝置,其中所述代理器為 語言理解代理器,包含執(zhí)行語言理解的電腦程序、句法模型及 語意模型,所述電腦程序用以根據(jù)所述句法模型來分析至少一 聲音字組的句法,并且依據(jù)所述語意^f莫型來理解所述分析出的 句法,用以產(chǎn)生陳述表達(dá)式。
8. 4艮據(jù)權(quán)利要求7所述的聲音命令處理裝置,其中所述語言理解 代理器為目標(biāo)裝置中的語言理解代理器的復(fù)制品。
9. 一種聲音命令處理方法,使用含有麥克風(fēng)的電子裝置執(zhí)行,包 括接收由目標(biāo)裝置所復(fù)制的語音辨識代理器,所述語音辨 識代理器包含執(zhí)行語音辨識的電腦程序、聲學(xué)模型、詞匯及語 言才莫型;以及從所述麥克風(fēng)接收原始聲音資料,使用所述語音辨識代 理器根據(jù)所述聲學(xué)才莫型處理所述原始聲音資料,并且產(chǎn)生相應(yīng) 于所述詞匯與所述語言才莫型的至少 一聲音字組。
10. —種電子裝置,所述電子裝置包括輸入裝置,用以輸入原始聲音資料;聲音命令控制器,用以辨識所述原始聲音資料,所述語音辨識代理器包含語音辨識代理器、語言理解4義理器及意義呈現(xiàn)代理器; 認(rèn)證碼;其中,當(dāng)所述電子裝置連接遠(yuǎn)端裝置時,所述語音辨識 ^理器依據(jù)所述i人i正碼選一奪性的更新所述語音辨識^理器、所 述語言理解代理器及所述意義呈現(xiàn)代理器。
全文摘要
本發(fā)明實施例披露了一種聲音命令處理裝置,其中包括行動代理器執(zhí)行平臺。行動代理器執(zhí)行平臺包括內(nèi)部平臺、至少一個代理器、行動代理器執(zhí)行情境與行動代理器管理單元。行動代理器執(zhí)行情境提供應(yīng)用程序介面,使得代理器通過應(yīng)用程序介面使用內(nèi)部平臺的資源。行動代理器管理單元掌理代理器的初始化、執(zhí)行、暫時中止、重新開始與分派。代理器用以執(zhí)行有關(guān)聲音命令處理的功能。
文檔編號G10L15/00GK101312040SQ20071010614
公開日2008年11月26日 申請日期2007年5月24日 優(yōu)先權(quán)日2007年5月24日
發(fā)明者胡志麟 申請人:明基電通股份有限公司