亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音識別裝置和方法、語言模型產(chǎn)生裝置和方法及程序的制作方法

文檔序號:2823392閱讀:156來源:國知局
專利名稱:語音識別裝置和方法、語言模型產(chǎn)生裝置和方法及程序的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及用于識別說話者的說話(utterance)的內(nèi)容的語音識別裝置和語音 識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法及計(jì)算機(jī)程序,更具體地,涉及用于估計(jì) 說話者的意圖并把握通過語音輸入讓系統(tǒng)執(zhí)行的任務(wù)的語音識別裝置和語音識別方法、語 言模型產(chǎn)生裝置和語言模型產(chǎn)生方法及計(jì)算機(jī)程序。更精確地講,本發(fā)明涉及用于使用統(tǒng)計(jì)語言模型來準(zhǔn)確地估計(jì)說話內(nèi)容中的意圖 的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法及計(jì)算機(jī)程序, 更具體地,涉及用于基于說話內(nèi)容估計(jì)針對所關(guān)注的任務(wù)(focused task)的意圖的語音識 別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法及計(jì)算機(jī)程序。
背景技術(shù)
人們在日常溝通中使用的語言(諸如日語或英語)被稱為“自然語言”。許多自然 語言源于自發(fā)產(chǎn)生,并且隨著人類、民族以及社會的歷史而進(jìn)步。當(dāng)然,人們可以通過他們 的身體和手的姿態(tài)相互溝通,但是利用自然語言能夠?qū)崿F(xiàn)最自然和高級的溝通。另一方面,伴隨著信息技術(shù)的發(fā)展,計(jì)算機(jī)扎根于人類社會中,并且深入到各種工 業(yè)和我們的日常生活中。自然語言固有地具有高度抽象以及模糊的特征,但是可以通過數(shù) 學(xué)地處理語句來經(jīng)歷計(jì)算機(jī)處理,結(jié)果,實(shí)現(xiàn)了涉及自然語言的各種應(yīng)用和服務(wù)??梢岳菊Z音理解或語音會話作為自然語言處理的應(yīng)用系統(tǒng)。例如,當(dāng)構(gòu)建基于 語音的計(jì)算機(jī)接口時,語音理解或語音識別是用于實(shí)現(xiàn)從人類到計(jì)算器的輸入的關(guān)鍵技 術(shù)。這里,語音識別旨在照原樣將說話內(nèi)容轉(zhuǎn)換為字符。相反,語音理解旨在更精確地 估計(jì)說話者的意圖并把握通過語音輸入讓系統(tǒng)執(zhí)行的任務(wù),而無需準(zhǔn)確地理解語音中的每 個音節(jié)或每個單詞。然而,在本說明書中,為了方便起見,將語音識別和語音理解統(tǒng)稱為“語 音識別”。下面,將簡要描述語音識別處理的過程。通過(例如)麥克風(fēng)將來自說話者的輸入語音當(dāng)作電子信號,經(jīng)歷AD轉(zhuǎn)換,并且 變成由數(shù)字信號構(gòu)成的語音數(shù)據(jù)。此外,在信號處理部件中,通過對于微小時間的每一幀將 聲學(xué)分析應(yīng)用到語音數(shù)據(jù)來產(chǎn)生時間特征向量的串(String)X。接下來,在參照聲學(xué)模型數(shù)據(jù)庫、詞典和語言模型數(shù)據(jù)庫的同時,獲得單詞模型的串作為識別結(jié)果。例如,對于日語的音素來說,在聲學(xué)模型數(shù)據(jù)庫中記錄的聲學(xué)模型是隱馬爾可夫 模型(hidden Markov model,HMM)。參照聲學(xué)模型數(shù)據(jù)庫,可以獲得其中輸入語音數(shù)據(jù)X是 在詞典中登記的單詞W的概率P(XlW)作為聲學(xué)分?jǐn)?shù)。此外,在語言模型數(shù)據(jù)庫中,例如,記 錄了描述N個單詞如何形成序列的單詞序列比(word sequence ratio,N_gram)。參照語 言模型數(shù)據(jù)庫,可以獲得在詞典中登記的單詞W的出現(xiàn)概率p(W)作為語言分?jǐn)?shù)。此外,可 以基于聲學(xué)分?jǐn)?shù)和語言分?jǐn)?shù)獲得識別結(jié)果。
這里,可以例示描述語法模型和統(tǒng)計(jì)語言模型作為在語言分?jǐn)?shù)的計(jì)算中使用的語 言模型。例如,如圖10所示,描述語法模型是根據(jù)語法規(guī)則描述語句中的短語的結(jié)構(gòu)的語 言模型,并且通過使用Backus-Naur-FornKBNF)中的上下文無關(guān)語法進(jìn)行描述。此外,統(tǒng)計(jì) 語言模型是利用統(tǒng)計(jì)技術(shù),從學(xué)習(xí)數(shù)據(jù)(語料庫)經(jīng)歷概率估計(jì)的語言模型。例如,N-gram 模型產(chǎn)生其中在第i_l個單詞以W1,...和Wp1的順序出現(xiàn)之后,單詞Wi以第i個的順序出 現(xiàn)的概率P^lWp. . .,WiJ來近似最接近的N個單詞(WiIWi,,. . .,Wp1)的序列比ρ(例如, 參見Kiyohiro Shikano禾口Katsunobu Ito 的"Speech RecognitionSystem"("Statistical Language Model"in Chapter 4),pp 53-69,published byOhmsha Ltd,May 15,2001,first edition, ISBN4-274-13228-5)?;臼謩拥貏?chuàng)建描述語法模型,如果輸入語音數(shù)據(jù)遵從語法,則識別準(zhǔn)確度高,但 是如果數(shù)據(jù)甚至稍微不遵從語法,則不能實(shí)現(xiàn)識別。另一方面,可以通過將學(xué)習(xí)數(shù)據(jù)經(jīng)歷統(tǒng) 計(jì)處理來自動地創(chuàng)建以N-gram模型表示的統(tǒng)計(jì)語言模型,此外即使在輸入語音數(shù)據(jù)中的 單詞的排列與語法規(guī)則稍有不同,也可以識別輸入語音數(shù)據(jù)。此外,在創(chuàng)建統(tǒng)計(jì)語言模型時,大量的學(xué)習(xí)數(shù)據(jù)(語料庫)是必要的。作為收集語 料庫的方法,存在諸如從包括書籍、報紙、雜志等的媒體收集語料庫以及從網(wǎng)站上公開的文 本收集語料庫的一般方法。在語音識別處理中,通過單詞和短語識別說話者說出的表達(dá)。然而,在許多應(yīng)用系 統(tǒng)中,準(zhǔn)確地估計(jì)說話者的意圖比準(zhǔn)確地理解語音中的所有音節(jié)和單詞更加重要。此外,當(dāng) 在語音識別中,說話內(nèi)容與所關(guān)注的任務(wù)不相關(guān)時,不需要強(qiáng)制地將任意的任務(wù)意圖與識 別相配。如果輸出了錯誤地估計(jì)的意圖,則甚至存在可能引起其中系統(tǒng)向用戶提供不相關(guān) 任務(wù)的浪費(fèi)操作的擔(dān)心。即便對于一個意圖也存在各種說話方式。例如,在“操作電視”的任務(wù)中,存在諸如 “切換頻道”、“觀看節(jié)目”、“調(diào)大音量”之類的多種意圖,但是針對每個意圖存在多種說話方 式。例如,在切換頻道(到NHK)的意圖中,存在兩種或多種說話方式,諸如“請切換到NHK” 和“到NHK”,在觀看節(jié)目(大河劇歷史劇)的意圖中,存在兩種或多種說話方式,諸如“我 想看大河劇”和“打開大河劇”,而在調(diào)大音量的意圖中,存在兩種或多種說話方式,諸如“把 音量升高”和“升高音量”。例如,提出了一種語音處理裝置,其中針對每個意圖(關(guān)于請求的信息)準(zhǔn)備了語 言模型,并且基于聲學(xué)分?jǐn)?shù)和語言分?jǐn)?shù)將最高總分所對應(yīng)的意圖選作指示說話的請求的信 息(例如,參見日本待審查專利申請公開No. 2006-53203)。語音處理裝置使用每個統(tǒng)計(jì)語言模型作為針對意圖的語言模型,并且即使當(dāng)輸入 語音數(shù)據(jù)中的單詞的排列與語法規(guī)則稍微不同時也能識別意圖。然而,即使當(dāng)說話內(nèi)容不 與所關(guān)注的任務(wù)的任何意圖對應(yīng)時,該裝置強(qiáng)制地將任意意圖與內(nèi)容相配。例如,當(dāng)語音處 理裝置被配置來提供與電視操作相關(guān)的任務(wù)的服務(wù),并且配有多個統(tǒng)計(jì)語言模型(其中與 電視操作相關(guān)的每個意圖是固有的)時,甚至對于不想要電視操作的說話內(nèi)容,輸出與示 出了計(jì)算出的語言分?jǐn)?shù)的高值的統(tǒng)計(jì)語言模型對應(yīng)的意圖作為識別結(jié)果。因此,以提取與 說話的所期望的內(nèi)容不同的意圖的結(jié)果而告終。此外,在如上所述配置針對各意圖提供單獨(dú)的語言模型的語音處理裝置時,需要 根據(jù)所關(guān)注的特定任務(wù)準(zhǔn)備用于考慮說話內(nèi)容提取任務(wù)的意圖的足夠數(shù)量的語言模型。此夕卜,需要根據(jù)意圖收集學(xué)習(xí)數(shù)據(jù)(語料庫)以創(chuàng)建用于任務(wù)中的意圖的強(qiáng)健語言模型。存在從諸如書籍、報紙和雜志之類的媒體以及網(wǎng)站上的文本收集語料庫的一般方法。例如,提出了一種產(chǎn)生語言模型的方法,其通過在大規(guī)模文本數(shù)據(jù)庫中將與識 別任務(wù)(說話內(nèi)容)更接近的文本賦予更重的重要度來產(chǎn)生具有高準(zhǔn)確度的符號序列 比,并且通過使用識別中的比值來改善識別能力(例如,參照日本待審查專利申請公開 No. 2002-82690)。然而,即使可以從諸如書籍、報紙和雜志之類的媒體以及網(wǎng)站上的文本收集大量 的學(xué)習(xí)數(shù)據(jù),選擇說話者可能說出的短語也很費(fèi)力,并且使大量語料庫完全與意圖一致也 是困難的。此外,很難指定每個文本的意圖或通過意圖分類文本。換句話說,不能收集與說 話者的意圖完全一致的語料庫。本發(fā)明的發(fā)明人考慮需要解決以下兩點(diǎn),以便實(shí)現(xiàn)在說話內(nèi)容中準(zhǔn)確地估計(jì)與所 關(guān)注的任務(wù)相關(guān)的意圖的語音識別裝置。(1)針對每個意圖簡單且合適地收集具有說話者可能說出的內(nèi)容的語料庫。(2)不強(qiáng)制地將任意意圖與說話內(nèi)容(其與任務(wù)不一致)相配,寧可忽略。

發(fā)明內(nèi)容
期望提供在估計(jì)說話者的意圖,并且精確地把握通過語音輸入讓系統(tǒng)執(zhí)行的任務(wù) 方面非常優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法以 及計(jì)算機(jī)程序。更期望的是,提供在通過使用統(tǒng)計(jì)語言模型準(zhǔn)確地估計(jì)說話內(nèi)容的意圖方面非常 優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法以及計(jì)算機(jī) 程序。更期望的是,提供在準(zhǔn)確地估計(jì)說話內(nèi)容中與所關(guān)注的任務(wù)相關(guān)的意圖方面非常 優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法以及計(jì)算機(jī) 程序。本發(fā)明考慮上述情況,并且根據(jù)本發(fā)明的第一實(shí)施例,語音識別裝置包括一個或 多個意圖提取語言模型,其中所關(guān)注的特定任務(wù)的每個意圖是固有的;吸收語言模型,其中 任務(wù)的任意意圖不是固有的;語言分?jǐn)?shù)計(jì)算部件,用于計(jì)算指示意圖提取語言模型和吸收 語言模型中的每一個與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和解碼器,用于基于 由語言分?jǐn)?shù)計(jì)算部件計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì)說話內(nèi)容中的意圖。根據(jù)本發(fā)明的第二實(shí)施例,提供一種語音識別裝置,其中意圖提取語言模型是通 過使由指示任務(wù)的意圖的多個語句組成的學(xué)習(xí)數(shù)據(jù)經(jīng)歷統(tǒng)計(jì)處理而獲得的統(tǒng)計(jì)語言模型。此外,根據(jù)本發(fā)明的第三實(shí)施例,提供一種語音識別裝置,其中吸收語言模型是通 過使與指示任務(wù)的意圖無關(guān)或由自發(fā)的說話組成的大量學(xué)習(xí)數(shù)據(jù)經(jīng)歷統(tǒng)計(jì)處理而獲得的 統(tǒng)計(jì)語言模型。此外,根據(jù)本發(fā)明的第四實(shí)施例,提供語音識別裝置,其中用于獲得意圖提取語言 模型的學(xué)習(xí)數(shù)據(jù)由基于指示對應(yīng)的意圖的描述語法模型產(chǎn)生并與意圖一致的語句組成。此外,根據(jù)本發(fā)明的第五實(shí)施例,提供一種語音識別方法,包括步驟首先計(jì)算指示其中所關(guān)注的特定任務(wù)的每個意圖是固有的一個或多個意圖提取語言模型與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);其次計(jì)算指示其中任務(wù)的任意意圖不是固有的吸收語 言模型與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和基于在第一和第二語言分?jǐn)?shù)計(jì)算 中計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì)說話內(nèi)容中的意圖。此外,根據(jù)本發(fā)明的第六實(shí)施例,提供一種語言模型產(chǎn)生裝置,包括單詞含義數(shù) 據(jù)庫,其中關(guān)于所關(guān)注的特定任務(wù)的每個意圖,通過抽象化可能在指示意圖的說話中出現(xiàn) 的第一語音部分串的詞匯候選以及第二語音部分串的詞匯候選,登記了第一語音部分串 (first part-of-speech string)的抽象詞匯和第二語音部分串的抽象詞匯的組合以及 指示抽象詞匯的相同含義或類似意圖的一個或多個單詞;描述語法模型創(chuàng)建單元,其基于 在單詞含義數(shù)據(jù)庫中登記的、指示任務(wù)的意圖的第一語音部分串的抽象詞匯和第二語音部 分串的抽象詞匯的組合以及指示抽象詞匯的相同含義或類似意圖的一個或多個單詞,創(chuàng)建 指示意圖的描述語法模型;收集單元,其通過針對意圖自動地從描述語法模型產(chǎn)生與每個 意圖一致的語句來針對意圖收集具有說話者可能說出的內(nèi)容的語料庫;和語言模型創(chuàng)建單 元,其通過將針對意圖收集的語料庫經(jīng)歷統(tǒng)計(jì)處理來創(chuàng)建其中每個意圖是固有的統(tǒng)計(jì)語言模型。然而,這里提及的第一語音部分的特定示例是名詞,而第二語音部分的特定示例 是動詞。簡單講,最好理解指示意圖的重要詞匯的組合被稱作第一語音部分和第二語音部 分。根據(jù)本發(fā)明的第七實(shí)施例,提供一種語言模型產(chǎn)生裝置,其中單詞含義數(shù)據(jù)庫具 有針對每一串在矩陣上排列的第一語音部分串的抽象詞匯和第二語音部分串的抽象詞匯, 并且具有在與具有意圖的第一語音部分的詞匯以及第二語音部分的詞匯的組合對應(yīng)的列 中給出的、指示意圖的存在的標(biāo)記。此外,根據(jù)本發(fā)明的第八實(shí)施例,提供一種語言模型產(chǎn)生方法,包括步驟通過抽 象化用于傳達(dá)包含在所關(guān)注的任務(wù)中的每個意圖的必要短語來創(chuàng)建語法模型;通過使用語 法模型自動地產(chǎn)生與每個意圖一致的語句來針對意圖收集具有說話者可能說出的內(nèi)容的 語料庫;和通過利用統(tǒng)計(jì)技術(shù)從每個語料庫執(zhí)行概率估計(jì)來構(gòu)建與每個意圖對應(yīng)的多個統(tǒng) 計(jì)語言模型。此外,根據(jù)本發(fā)明的第九實(shí)施例,提供一種以計(jì)算機(jī)可讀格式描述以便在計(jì)算機(jī) 上執(zhí)行用于語音識別的處理的計(jì)算機(jī)程序,該程序促使計(jì)算機(jī)用作一個或多個意圖提取 語言模型,其中所關(guān)注的特定任務(wù)的每個意圖是固有的;吸收語言模型,其中任務(wù)的任意意 圖不是固有的;語言分?jǐn)?shù)計(jì)算部件,用于計(jì)算指示意圖提取語言模型和吸收語言模型中的 每一個與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和解碼器,用于基于由語言分?jǐn)?shù)計(jì) 算部件計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì)說話內(nèi)容中的意圖。根據(jù)本發(fā)明的以上實(shí)施例的計(jì)算機(jī)程序被定義為以計(jì)算機(jī)可讀格式描述以便實(shí) 現(xiàn)計(jì)算機(jī)上的預(yù)定處理的計(jì)算機(jī)程序。換句話說,通過將根據(jù)本發(fā)明實(shí)施例的計(jì)算機(jī)程序 安裝在計(jì)算機(jī)上,可以在計(jì)算機(jī)上發(fā)揮協(xié)作的動作,并且可以獲得如根據(jù)本發(fā)明的第一實(shí) 施例的語音識別裝置中那樣的效果。此外,根據(jù)本發(fā)明的第十實(shí)施例,提供一種以計(jì)算機(jī)可讀格式描述以便在計(jì)算機(jī) 上執(zhí)行用于產(chǎn)生語言模型的處理的計(jì)算機(jī)程序,該程序促使計(jì)算機(jī)用作單詞含義數(shù)據(jù)庫, 其中關(guān)于所關(guān)注的特定任務(wù)的每個意圖,通過抽象化可能在指示意圖的說話中出現(xiàn)的第一語音部分串的詞匯候選以及第二語音部分串的詞匯候選,登記了第一語音部分串的抽象詞 匯和第二語音部分串的抽象詞匯的組合以及指示抽象詞匯的相同含義或類似意圖的一個 或多個單詞;描述語法模型創(chuàng)建單元,其基于在單詞含義數(shù)據(jù)庫中登記的、指示任務(wù)的意圖 的第一語音部分串的抽象詞匯和第二語音部分串的抽象詞匯的組合以及指示抽象詞匯的 相同含義或類似意圖的一個或多個單詞,創(chuàng)建指示意圖的描述語法模型;收集單元,其通過 針對意圖自動地從描述語法模型產(chǎn)生與每個意圖一致的語句來針對意圖收集具有說話者 可能說出的內(nèi)容的語料庫;和語言模型創(chuàng)建單元,其通過將針對意圖收集的語料庫經(jīng)歷統(tǒng) 計(jì)處理來創(chuàng)建其中每個意圖是固有的統(tǒng)計(jì)語言模型。根據(jù)本發(fā)明的以上實(shí)施例的計(jì)算機(jī)程序被定義為以計(jì)算機(jī)可讀格式描述以便實(shí) 現(xiàn)計(jì)算機(jī)上的預(yù)定處理的計(jì)算機(jī)程序。換句話說,通過將根據(jù)本發(fā)明實(shí)施例的計(jì)算機(jī)程序 安裝在計(jì)算機(jī)上,可以在計(jì)算機(jī)上發(fā)揮協(xié)作的動作,并且可以獲得如根據(jù)本發(fā)明的第六實(shí) 施例的語言模型產(chǎn)生裝置中那樣的效果。根據(jù)本發(fā)明,可以提供在估計(jì)說話者的意圖,并且精確地把握要通過語音輸入讓系統(tǒng)執(zhí)行的任務(wù)方面非常優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言 模型產(chǎn)生方法以及計(jì)算機(jī)程序。此外,根據(jù)本發(fā)明,可以提供在通過使用統(tǒng)計(jì)語言模型準(zhǔn)確地估計(jì)說話內(nèi)容的意圖方面非常優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法 以及計(jì)算機(jī)程序。
此外,根據(jù)本發(fā)明,可以提供在準(zhǔn)確地估計(jì)說話內(nèi)容中與所關(guān)注的任務(wù)相關(guān)的意 圖方面非常優(yōu)秀的語音識別裝置和語音識別方法、語言模型產(chǎn)生裝置和語言模型產(chǎn)生方法 以及計(jì)算機(jī)程序。根據(jù)本發(fā)明的第一到第五和第九實(shí)施例,除了所關(guān)注的任務(wù)中包含的意圖是固有 的統(tǒng)計(jì)語言模型之外,通過提供諸如自發(fā)的說話語言模型之類的、與說話內(nèi)容(其與所關(guān) 注的任務(wù)不一致)對應(yīng)的統(tǒng)計(jì)語言模型,通過并行地執(zhí)行處理,并且通過忽略與任務(wù)不一 致的說話內(nèi)容中的意圖的估計(jì)來實(shí)現(xiàn)針對任務(wù)的強(qiáng)健意圖提取。根據(jù)本發(fā)明的第六到第八以及第十實(shí)施例,通過預(yù)先確定所關(guān)注的任務(wù)中包含的 意圖并自動地從指示意圖的描述語法模型中產(chǎn)生與意圖一致的語句來針對意圖簡單并合 適地收集具有說話者可能說出的內(nèi)容的語料庫(換句話說,創(chuàng)建其中意圖是固有的統(tǒng)計(jì)語 言模型所需的語料庫)。根據(jù)本發(fā)明的第七實(shí)施例,通過將在說話中可能出現(xiàn)的名詞串的詞匯候選和動詞 串的詞匯候選排列在用于串的矩陣上,可以把握可能說出的內(nèi)容而不會遺漏。此外,由于在 每個串的詞匯候選的符號中登記了具有相同含義或類似含義的一個或多個單詞,因此可以 提供與具有相同含義的說話的各種表達(dá)對應(yīng)的組合,并且產(chǎn)生具有相同意圖的大量語句作 為學(xué)習(xí)數(shù)據(jù)。如果根據(jù)本發(fā)明的第六到第八以及第十實(shí)施例采用用于學(xué)習(xí)數(shù)據(jù)的收集方法,則 可以針對每個意圖劃分與一個所關(guān)注的任務(wù)一致的語料庫,并且可以簡單并有效地收集語 料庫。此外,通過從每個所創(chuàng)建的學(xué)習(xí)數(shù)據(jù)中創(chuàng)建統(tǒng)計(jì)語言模型,可以獲得其中相同任務(wù)的 一個意圖是固有的一組語言模型。此外,通過使用語素解釋軟件,語音部分和動詞變化信息 (conjugationinformation)被提供給要在統(tǒng)計(jì)語言模型的創(chuàng)建期間使用的每個語素。
根據(jù)本發(fā)明的第六和第十實(shí)施例,配置來進(jìn)行創(chuàng)建統(tǒng)計(jì)語言模型的過程,其中收 集單元針對每個意圖,通過從用于意圖的描述語法模型中自動地產(chǎn)生與每個意圖一致的語 句來收集具有說話者可能說出的內(nèi)容的語料庫,并且語言模型創(chuàng)建單元通過使針對每個意 圖收集的語料庫經(jīng)歷統(tǒng)計(jì)處理來創(chuàng)建其中意圖是固有的統(tǒng)計(jì)語言模型。在這一點(diǎn)上,存在 如下所示的兩個優(yōu)點(diǎn)。
(1)促進(jìn)了語素(單詞的劃分)的一致性。在手動創(chuàng)建語法模型時,存在不能實(shí)現(xiàn) 語素的一致性的高可能性。然而,即使語素不統(tǒng)一,在創(chuàng)建統(tǒng)計(jì)語言模型時也可以通過使用 語素解釋軟件來使用統(tǒng)一的語素。(2)通過使用語素解釋軟件,可以獲得關(guān)于語音部分或動詞變化的信息,并且可以 在創(chuàng)建統(tǒng)計(jì)語言模型時反應(yīng)該信息。利用基于要在下面和附圖中描述的本發(fā)明的實(shí)施例的詳細(xì)描述,本發(fā)明的目標(biāo)、 特性和優(yōu)點(diǎn)將變得更加清楚。


圖1是示意性圖示根據(jù)本發(fā)明實(shí)施例的語音識別裝置的功能結(jié)構(gòu)的方框圖;圖2是示意性圖示用于傳達(dá)意圖的短語的最小必要結(jié)構(gòu)的圖;圖3A是圖示其中以矩陣形式排列抽象名詞詞匯和動詞詞匯的單詞含義數(shù)據(jù)庫的 圖;圖3B是圖示其中針對抽象詞匯登記指示相同含義或類似意圖的單詞的圖;圖4是用于描述基于在圖3A所示的矩陣中放置標(biāo)記所指示的名詞詞匯和動詞詞 匯的組合創(chuàng)建描述語法模型的方法的圖;圖5是用于描述通過從用于每個意圖的描述語法模型中自動地產(chǎn)生與意圖一致 的語句來收集具有說話者可能說出的內(nèi)容的語料庫的方法的圖;圖6是圖示在從語法模型構(gòu)建統(tǒng)計(jì)語言模型的技術(shù)中的數(shù)據(jù)流的圖;圖7是示意性圖示利用針對所關(guān)注的任務(wù)的意圖習(xí)得的N個統(tǒng)計(jì)語言模型1到N 以及一個吸收統(tǒng)計(jì)語言模型構(gòu)建的語言模型數(shù)據(jù)庫的結(jié)構(gòu)示例的圖;圖8是圖示當(dāng)語音識別裝置針對任務(wù)“操作電視”執(zhí)行含義估計(jì)時的操作示例的 圖;圖9是圖示在本發(fā)明的實(shí)施例中提供的個人計(jì)算機(jī)的結(jié)構(gòu)示例的圖;和圖10是圖示利用上下文無關(guān)語法描述的描述語法模型的示例的圖。
具體實(shí)施例方式本發(fā)明涉及語音識別技術(shù),并且具有關(guān)注特定任務(wù),準(zhǔn)確地估計(jì)說話者說出的內(nèi) 容中的意圖的主要特征,由此解決以下兩點(diǎn)。(1)針對每個意圖簡單且合適地收集具有說話者可能說出的內(nèi)容的語料庫。(2)不強(qiáng)制將任意意圖與說話內(nèi)容(其與任務(wù)不一致)相配,而是寧可忽略。下面將參照附圖詳細(xì)地描述用于解決這兩點(diǎn)的實(shí)施例。圖1示意性圖示根據(jù)本發(fā)明實(shí)施例的語音識別裝置的功能結(jié)構(gòu)。附圖中的語音識 別裝置10配有信號處理部件11、聲學(xué)分?jǐn)?shù)計(jì)算部件12、語言分?jǐn)?shù)計(jì)算部件13、詞典14和解碼器15。語音識別裝置10被配置來準(zhǔn)確地估計(jì)說話者的意圖,而不是準(zhǔn)確地理解語音中的 逐音節(jié)和逐單詞的所有內(nèi)容。來自說話者的輸入語音通過(例如)麥克風(fēng)作為電信號輸入到信號處理部件11。 這樣的模擬電信號通過采樣和量化處理經(jīng)歷AD轉(zhuǎn)換以變?yōu)橛蓴?shù)字信號組成的語音數(shù)據(jù)。 此外,信號處理部件11通過對于微小時間的每一幀將聲學(xué)分析應(yīng)用到語音數(shù)據(jù)來產(chǎn)生時 間特征向量的序列X。通過應(yīng)用諸如離散傅立葉變換(DFT)之類的頻率分析的處理(作為 聲學(xué)分析),例如,產(chǎn)生基于頻率分析的特征向量的序列X,其具有諸如每個頻帶的能量(所 謂功率譜)之類的特性。接下來,在參照聲學(xué)模型數(shù)據(jù)庫16、詞典14和語言模型數(shù)據(jù)庫17的同時,獲得單 詞模型的串作為識別結(jié)果。聲學(xué)分?jǐn)?shù)計(jì)算部件12計(jì)算用于指示包括基于詞典14形成的單詞串的聲學(xué)模型與輸入語音信號之間的聲學(xué)相似度的聲學(xué)分?jǐn)?shù)。例如,在聲學(xué)模型數(shù)據(jù)庫16中記錄的聲學(xué)模 型是用于日語的音素的隱馬爾可夫模型(HMM)。聲學(xué)分?jǐn)?shù)計(jì)算部件12可以在參照聲學(xué)數(shù)據(jù) 庫的同時,獲得其中輸入語音數(shù)據(jù)X是在詞典14中登記的單詞W的概率p(X|W)作為聲學(xué) 分?jǐn)?shù)。此外,語言分?jǐn)?shù)計(jì)算部件13計(jì)算用于指示包括基于詞典14形成的單詞串的語言 模型與輸入語音信號之間的語言相似度的語言分?jǐn)?shù)。在語言模型數(shù)據(jù)庫17中,記錄了描述 N個單詞如何形成序列的單詞序列比(N-gram)。語言分?jǐn)?shù)計(jì)算部件13可以通過參照語言 模型數(shù)據(jù)庫17,獲得在詞典14中登記的單詞W的出現(xiàn)概率P(W)作為語言分?jǐn)?shù)。解碼器15基于聲學(xué)分?jǐn)?shù)和語言分?jǐn)?shù)獲得識別結(jié)果。具體地,如下面的等式(1)所 示,如果計(jì)算其中在詞典14中登記的單詞W是輸入語音數(shù)據(jù)X的概率ρ (W |X),則以具有高 概率的順序搜索并輸出候選單詞。ρ (W I Χ) ρ (W) · ρ (X I W)…(1)此外,解碼器15利用下面所示的等式(2)估計(jì)最佳結(jié)果。W = argmaxp (W X)…(2)語言分?jǐn)?shù)計(jì)算部件13使用的語言模型是統(tǒng)計(jì)語言模型??梢詮膶W(xué)習(xí)數(shù)據(jù)中自動 地創(chuàng)建由N-gram模型表示的統(tǒng)計(jì)語言模型,并且即使當(dāng)輸入語音數(shù)據(jù)中的單詞的排列與 語法規(guī)則稍微不同時也可以識別語音。假設(shè)根據(jù)本發(fā)明實(shí)施例的語音識別裝置10估計(jì)說 話內(nèi)容中與所關(guān)注的任務(wù)相關(guān)的意圖,為此,語言模型數(shù)據(jù)庫17安裝有與所關(guān)注的任務(wù)中 包含的每個意圖對應(yīng)的多個統(tǒng)計(jì)語言模型。此外,語言模型數(shù)據(jù)庫17安裝有與說話內(nèi)容 (其與所關(guān)注的任務(wù)不一致)對應(yīng)的統(tǒng)計(jì)語言模型以便忽略針對與任務(wù)不一致的說話內(nèi)容 的意圖估計(jì)(這將在后面詳細(xì)描述)。存在很難構(gòu)建與每個意圖對應(yīng)的多個統(tǒng)計(jì)語言模型的問題。這是因?yàn)榧词箍梢允?集在諸如書籍、報紙、雜志之類的媒體以及網(wǎng)站上的大量文本數(shù)據(jù),選出說話者可能說出的 短語也很費(fèi)事,并且很難具有針對每個意圖的大量語料庫。此外,不容易在每個文本中指定 意圖或針對每個意圖分類文本。因此,本實(shí)施例使得可以簡單并合適地針對每個意圖收集具有說話者可能說出的 內(nèi)容的語料庫,并且通過使用從語法模型構(gòu)建統(tǒng)計(jì)語言模型的技術(shù),針對每個意圖構(gòu)建統(tǒng) 計(jì)語言模型。
首先,如果預(yù)先確定在所關(guān)注的任務(wù)中包含的意圖,則通過制作傳達(dá)意圖抽象所 需的短語(或符號化)來有效地創(chuàng)建語法模型。接下來,通過使用所創(chuàng)建的語法模型,自動 地產(chǎn)生與每個意圖一致的語句。同樣地,在針對每個意圖收集具有說話者可能說出的內(nèi)容 的語料庫之后,可以通過利用統(tǒng)計(jì)技術(shù)從每個語料庫執(zhí)行概率估計(jì)來構(gòu)建與每個意圖對應(yīng) 的多個統(tǒng)計(jì)語言模型。此外,例如,Karl Weilhammer>Matthew N.Stuttle禾口Steve Young(Interspeech, 2006) pjf^^ "Bootstrapping Language Models for DialogueSystems" π Τ/Λ ^ ΙΙ 型構(gòu)建統(tǒng)計(jì)語言模型的技術(shù),但是沒有提及有效的構(gòu)建方法。相反,在本實(shí)施例中,可以如 下所述那樣有效地從語法模型構(gòu)建統(tǒng)計(jì)語言模型。將描述關(guān)于使用語法模型針對每個意圖創(chuàng)建語料庫的方法。當(dāng)創(chuàng)建用于學(xué)習(xí)其中包括任意一個意圖的語言模型的語料庫時,創(chuàng)建描述語法模 型以獲得語料庫。發(fā)明人認(rèn)為說話者可能說出的簡單且簡短的語句(或用于傳達(dá)意圖所需 的最小短語)的結(jié)構(gòu)由名詞詞匯和動詞詞匯的組合組成,如“執(zhí)行某事”(如圖2所示)。因 此,可以抽象化(或符號化)用于每一個名詞詞匯和動詞詞匯的單詞以便有效地構(gòu)建語法 模型。例如,指示電視節(jié)目的名稱(諸如“大河劇”(歷史劇)或“笑一笑”(喜劇節(jié)目)) 的名詞詞匯被抽象化為詞匯“_Title”。此外,用于在觀看節(jié)目中使用的機(jī)器(諸如電視等) 的動詞詞匯(諸如“請重播”、“請顯示”或“我希望觀看”)可以被抽象化為詞匯“_Play”。 結(jié)果,可以由用于_Title&_Play的符號的組合來表示具有“請顯示節(jié)目”的意圖的說話。此外,例如,如下所示,針對每個抽象詞匯登記了指示相同含義或類似意圖的單 詞??梢允謩拥剡M(jìn)行登記工作。_Title =大河劇、笑一笑、..._Play =請重播、重播、顯示、請顯示、我希望觀看、執(zhí)行、打開、播放、...此外,將“_Play_Title”等創(chuàng)建為用于獲得語料庫的描述語法模型。從描述語法 模型“_Play_Title”創(chuàng)建諸如“請顯示大河劇(歷史劇),,之類的語料庫。同樣地,可以由每一個抽象名詞詞匯和動詞詞匯的組合組成描述語法模型。此外, 每一個抽象名詞詞匯和動詞詞匯的組合可以表示一個意圖。因此,如圖3A所示,通過在每 一行中排列抽象名詞詞匯,而在每一列中排列抽象動詞詞匯來形成矩陣,并且通過針對具 有意圖的抽象名詞詞匯和動詞詞匯的每一個組合在矩陣的對應(yīng)列中放置指示意圖的存在 的標(biāo)記來構(gòu)建單詞含義數(shù)據(jù)庫。在圖3A所示的矩陣中,與標(biāo)記組合的名詞詞匯和動詞詞匯指示其中包含任意一 個意圖的描述語法模型。此外,針對利用矩陣中的行劃分的抽象名詞詞匯,在單詞含義數(shù)據(jù) 庫中登記指示相同含義或類似意圖的單詞。此外,如圖3B所示,針對利用矩陣中的列劃分 的抽象動詞詞匯,在單詞含義數(shù)據(jù)庫中登記指示相同含義或類似意圖的單詞。此外,單詞含 義數(shù)據(jù)庫可以被擴(kuò)展到三維排列,而不是如圖3A所示的矩陣那樣的二維排列。下面是將單詞含義數(shù)據(jù)庫(其處理與任務(wù)中包含的每個意圖對應(yīng)的描述語法模 型)表達(dá)為如以上那樣的矩陣的優(yōu)點(diǎn)。(1)容易確認(rèn)是否全面地包含說話者的說話內(nèi)容。(2)容易確認(rèn)是否可以匹配系統(tǒng)的功能而沒有遺漏。
(3)可以有效地創(chuàng)建語法模型。在圖3A所示的矩陣中,賦以標(biāo)記的名詞詞匯和動詞詞匯的每個組合對應(yīng)于指示意圖的描述語法模型。此外,如果指示相同含義或類似意圖的每一個登記的單詞被強(qiáng)制與 抽象名詞詞匯和抽象動詞詞匯中的每一個相配,則可以有效地創(chuàng)建以BNF形式描述的描述 語法模型(如圖4所示)。關(guān)于一個所關(guān)注的任務(wù),可以通過登記在說話者說話時可能出現(xiàn)的名詞詞匯和動 詞詞匯來獲得對于任務(wù)特定的一組語言模型。此外,每個語言模型具有其中固有的一個意 圖(或操作)。換句話說,從用于每個意圖的描述語法模型(其從以圖3A所示的矩陣形式的單詞 含義數(shù)據(jù)庫中獲得)中,通過自動地產(chǎn)生與圖5中所示的意圖一致的語句,可以針對每個意 圖收集具有說話者可能說出的內(nèi)容的語料庫。可以通過利用統(tǒng)計(jì)技術(shù)從每個語料庫執(zhí)行概率估計(jì)來構(gòu)建與每個意圖對應(yīng)的多 個統(tǒng)計(jì)語言模型。從每個語料庫構(gòu)建統(tǒng)計(jì)語言模型的方法不限于任意特定的方法,并且由 于可以將公知的技術(shù)應(yīng)用到其上,因此這里不提及其細(xì)節(jié)描述。如果需要的話,可以參照上 述 Kiyohiro Shikano 禾口 Katsunobu Ito 所著的 “Speech Recognition System,,。圖6圖示從語法模型(至今已經(jīng)對其進(jìn)行了描述)構(gòu)建統(tǒng)計(jì)語言模型的方法中的數(shù)據(jù)流。單詞含義數(shù)據(jù)庫的結(jié)構(gòu)如圖3A所示。換句話說,涉及所關(guān)注的任務(wù)(例如,電視 的操作等)的名詞詞匯被制成指示相同含義或類似意圖的每一個組,并且在矩陣的每一行 中排列被制成每個抽象組的名詞詞匯。以相同的方式,關(guān)于所關(guān)注的任務(wù)的動詞詞匯被制 成指示相同含義或類似意圖的每一個組,并且在矩陣的每一列中排列被制成每個抽象組的 動詞詞匯。此外,如圖3B所示,針對抽象名詞詞匯中的每一個登記指示相同含義或類似意 圖的多個單詞,并且針對抽象動詞詞匯中的每一個登記指示相同含義或類似意圖的多個單 詞。在圖3A所示的矩陣上,在與具有意圖的名詞詞匯和動詞詞匯的組合對應(yīng)的列中 賦予指示意圖的存在的標(biāo)記。換句話說,與標(biāo)記匹配的名詞詞匯和動詞詞匯的每個組合對 應(yīng)于指示意圖的描述語法模型。描述語法模型創(chuàng)建單元61拾取在矩陣上具有標(biāo)記的指示 意圖的抽象名詞詞匯與抽象動詞詞匯的組合作為線索,然后強(qiáng)制指示相同含義或類似意圖 的每個登記的單詞與抽象名詞詞匯和抽象動詞詞匯中的每一個相配,并且以BNF的形式創(chuàng) 建描述語法模型來將模型存儲為上下文無關(guān)語法的文件。自動地創(chuàng)建BNF形式的基本文 件,然后將根據(jù)說話的表達(dá)以BNF文件的形式修改模型。在圖6所示的示例中,通過基于單 詞含義數(shù)據(jù)庫由描述語法模型創(chuàng)建單元61構(gòu)建N個描述語法模型1到N,并且將其作為上 下文無關(guān)語法的文件進(jìn)行存儲。在本實(shí)施例中,在定義上下文無關(guān)語法中使用BNF形式,但 是本發(fā)明的精神不必限于此??梢酝ㄟ^從創(chuàng)建的BNF文件中創(chuàng)建語句來獲得指示特定意圖的語句。如圖4所示, 以BNF形式的語言模型的轉(zhuǎn)換(transcription)是從非終端符號(開始)到終端符號(結(jié) 束)的語句創(chuàng)建規(guī)則。因此,收集單元62可以自動地產(chǎn)生指示相同意圖的多個語句(如圖 5所示),并且可以通過針對指示意圖的描述語法模型從非終端符號(開始)到終端符號 (結(jié)束)搜索路線來針對每個意圖收集具有說話者可能說出的內(nèi)容的語料庫。在圖6所示的示例中,從每個描述語法模型自動產(chǎn)生的語句組被用作指示相同意圖的學(xué)習(xí)數(shù)據(jù)。換句話說,由收集單元62針對每個意圖收集的學(xué)習(xí)數(shù)據(jù)1到N變?yōu)橛糜跇?gòu)建統(tǒng)計(jì)語言模型的語 料庫。同樣地,可以通過關(guān)注在簡單和簡短的說話中形成含義的名詞和動詞的部分并將 它們中的每一個符號化來獲得描述語法模型。此外,由于從BNF形式的描述語法模型產(chǎn)生 指示任務(wù)中的特定含義的語句,可以簡單并有效地收集用于創(chuàng)建其中固有意圖的統(tǒng)計(jì)語言 模型所需的語料庫。此外,語言模型創(chuàng)建單元63可以通過利用統(tǒng)計(jì)技術(shù)針對每個意圖的語料庫執(zhí)行 概率估計(jì)來構(gòu)建與每個意圖對應(yīng)的多個統(tǒng)計(jì)語言模型。從BNF形式的描述語法模型產(chǎn)生的 語句指示任務(wù)中的特定意圖,因此,使用包括語句的語料庫創(chuàng)建的統(tǒng)計(jì)語言模型可以被稱 作針對意圖的說話內(nèi)容中的強(qiáng)健語言模型。此外,從語料庫構(gòu)建統(tǒng)計(jì)語言模型的方法不限于任意特定的方法,并且由于可以 應(yīng)用公知的技術(shù),因此,這里不提及其詳細(xì)描述。如果需要的話,可以參照上述Kiyohiro Shikano 禾口 Katsunobu Ito 所著的 “Speech RecognitionSystem,,。在這里的描述中,可以理解,針對每個意圖簡單且合適地收集具有說話者可能說 出的內(nèi)容的語料庫,并且可以通過使用從語法模型構(gòu)造統(tǒng)計(jì)語言模型的技術(shù)來構(gòu)造針對每 個意圖的統(tǒng)計(jì)語言模型。順序地,將提供在語音識別裝置中,不強(qiáng)制地將任意意圖與說話內(nèi)容(其與任務(wù) 不一致)相配,而是可以將其忽略的方法的描述。當(dāng)執(zhí)行語音識別處理時,語言分?jǐn)?shù)計(jì)算部件13從針對每個意圖創(chuàng)建的語言模型 組中計(jì)算語言分?jǐn)?shù),聲學(xué)分?jǐn)?shù)計(jì)算部件12利用聲學(xué)模型計(jì)算聲學(xué)分?jǐn)?shù),而解碼器15采用最 可能的語言模型作為語音識別處理的結(jié)果。因此,可以從用于識別針對說話選擇的語言模 型的信息中提取或估計(jì)說話的意圖。當(dāng)語言分?jǐn)?shù)計(jì)算部件13使用的語言模型組僅由針對所關(guān)注的特定任務(wù)中的意圖 創(chuàng)建的語言模型組成時,可能強(qiáng)制地將與任務(wù)無關(guān)的說話與任意語言模型相配,并且該模 型可能作為識別結(jié)果輸出。因此,以提取了與說話內(nèi)容不同的意圖的結(jié)果而告終。因此,在根據(jù)本實(shí)施例的語音識別裝置中,針對所關(guān)注的任務(wù)中的每個意圖,除了 統(tǒng)計(jì)語言模型之外,還在語言模型數(shù)據(jù)庫17中提供與說話內(nèi)容(其與任務(wù)不一致)對應(yīng)的 吸收統(tǒng)計(jì)語言模型,并且與吸收統(tǒng)計(jì)語言模型合作地處理任務(wù)中的統(tǒng)計(jì)語言模型組,以便 吸收不指示所關(guān)注的任務(wù)中的任意意圖(換句話說,與任務(wù)無關(guān))的說話內(nèi)容。圖7示意性圖示與所關(guān)注的任務(wù)中的每個意圖對應(yīng)的N個統(tǒng)計(jì)語言模型1到N以 及包括一個吸收統(tǒng)計(jì)語言模型的語言模型數(shù)據(jù)庫17的結(jié)構(gòu)示例。如上所述,通過利用統(tǒng)計(jì)技術(shù),針對從描述語法模型(其指示任務(wù)中的每個意圖) 產(chǎn)生的用于學(xué)習(xí)的文本執(zhí)行概率估計(jì)來構(gòu)建與任務(wù)中的每個意圖對應(yīng)的統(tǒng)計(jì)語言模型。相 反,通過利用統(tǒng)計(jì)技術(shù)針對從網(wǎng)站等收集的語料庫一般地執(zhí)行概率估計(jì)來構(gòu)建吸收統(tǒng)計(jì)語 言模型。這里,例如,統(tǒng)計(jì)語言模型是N-gram模型,其產(chǎn)生其中在第(i_l)個單詞以 W1,...和Wp1的順序出現(xiàn)之后,單詞Wi以第i個的順序出現(xiàn)的概率ρ (Wi IW1,. . .,WiJ,以近 似最接近的N個單詞(WiIWiI,... ,WiJ的序列比ρ(如上所述)。當(dāng)說話者的說話內(nèi)容指示所關(guān)注的任務(wù)中的意圖時,從通過學(xué)習(xí)具有意圖的學(xué)習(xí)文本而獲得的統(tǒng)計(jì)語言模型k獲 得的概率p(k) (WiIffm,...,Wi^1)具有高值,并且可以準(zhǔn)確地把握在所關(guān)注的任務(wù)中的意圖 1到N(其中,k是從1到N的整數(shù))。另一方面,通過使用包括從(例如)網(wǎng)站收集的大量語句的一般語料庫來創(chuàng)建吸 收統(tǒng)計(jì)語言模型,并且與具有任務(wù)中的每個意圖的統(tǒng)計(jì)語言模型相比,吸收統(tǒng)計(jì)語言模型 是由大量詞匯組成的自發(fā)說話語言模型(口語模型)。吸收統(tǒng)計(jì)語言模型包括指示任務(wù)中的意圖的詞匯,但是當(dāng)針對具有任務(wù)中的意圖 的說話內(nèi)容計(jì)算語言分?jǐn)?shù)時,具有任務(wù)中的意圖的統(tǒng)計(jì)語言模型具有比自發(fā)說話語言模型 更高的語言分?jǐn)?shù)。這是因?yàn)槲战y(tǒng)計(jì)語言模型是自發(fā)說話語言模型,并且具有比其中指定 了意圖的每個統(tǒng)計(jì)語言模型更大量的詞匯,因此具有特定意圖的詞匯的出現(xiàn)概率必然較 低。相反,當(dāng)說話者的說話內(nèi)容與所關(guān)注的任務(wù)無關(guān)時,其中與說話內(nèi)容類似的語句存在于指定意圖的學(xué)習(xí)文本中的概率較低。為此,其中與說話內(nèi)容類似的語句存在于一般 語料庫中的概率相對高。換句話說,從通過學(xué)習(xí)一般語料庫獲得的吸收統(tǒng)計(jì)語言模型獲得 的語言分?jǐn)?shù)比從通過學(xué)習(xí)指定意圖的學(xué)習(xí)文本獲得的任意統(tǒng)計(jì)語言模型獲得的語言分?jǐn)?shù) 相對更高。此外,可以通過從解碼器15輸出“其它”作為對應(yīng)的意圖來防止強(qiáng)制地將任意 意圖與說話內(nèi)容(其與任務(wù)不一致)相配的情況。圖8圖示當(dāng)根據(jù)本實(shí)施例的語音識別裝置針對任務(wù)“操作電視”執(zhí)行含義估計(jì)時 的操作示例。當(dāng)輸入的說話內(nèi)容指示在任務(wù)“操作電視”中的諸如“換頻道”、“觀看節(jié)目”之類 的任意意圖時,基于聲學(xué)分?jǐn)?shù)計(jì)算部件12計(jì)算出的聲學(xué)分?jǐn)?shù)和語言分?jǐn)?shù)計(jì)算部件13計(jì)算 出的語言分?jǐn)?shù),可以在解碼器15中搜索任務(wù)中的對應(yīng)意圖。相反,當(dāng)輸入的說話內(nèi)容不指示任務(wù)“操作電視”中的意圖(如,“該去超市了”) 時,參照吸收統(tǒng)計(jì)語言模型獲得的概率值期望是最高的,并且解碼器15獲得意圖“其它”作 為搜索結(jié)果。甚至當(dāng)識別出與任務(wù)無關(guān)的說話內(nèi)容時,除了與任務(wù)中的每個意圖對應(yīng)的統(tǒng)計(jì)語 言模型之外,根據(jù)本實(shí)施例的語音識別裝置通過將由自發(fā)說話語言模型等組成的吸收統(tǒng)計(jì) 語言模型應(yīng)用到語言模型數(shù)據(jù)庫17,從而不采用任務(wù)中的任意統(tǒng)計(jì)語言模型,而是使用吸 收統(tǒng)計(jì)語言模型,因此可以減少錯誤地提取意圖的風(fēng)險??梢岳糜布约败浖?zhí)行上述一系列處理。例如,在使用后者的情況下,可以以 執(zhí)行預(yù)定程序的個人計(jì)算機(jī)實(shí)現(xiàn)語音識別裝置。圖9圖示在本發(fā)明的實(shí)施例中提供的個人計(jì)算機(jī)的結(jié)構(gòu)示例。中央處理單元 (CPU) 121遵循在只讀存儲器(ROM) 122或記錄單元128中記錄的程序執(zhí)行各種處理。遵循 程序執(zhí)行的處理包括語音識別處理、創(chuàng)建用在語音識別處理中的統(tǒng)計(jì)語言模型的處理和創(chuàng) 建在創(chuàng)建統(tǒng)計(jì)語言模型中使用的學(xué)習(xí)數(shù)據(jù)的處理。每一個處理的細(xì)節(jié)如上所述。隨機(jī)存取存儲器(RAM) 123合適地存儲CPU 121執(zhí)行的程序和數(shù)據(jù)。CPU 12UR0M 122和RAM 123經(jīng)由總線124相互連接。CPU 121經(jīng)由總線124連接到輸入/輸出接口 125。輸入/輸出接口 125連接到包 括麥克風(fēng)、鍵盤、鼠標(biāo)、開關(guān)等的輸入單元126和包括顯示器、揚(yáng)聲器、燈等的輸出單元127。此外,CPU 121根據(jù)從輸入單元126輸入的命令執(zhí)行各種處理。 連接到輸入/輸出接口 125的記錄單元128是(例如)硬盤驅(qū)動器(HDD),并且記 錄要由CPU 121執(zhí)行的程序或諸如處理數(shù)據(jù)之類的各種計(jì)算機(jī)文件。通信單元129經(jīng)由諸 如因特網(wǎng)或其它網(wǎng)絡(luò)(任何一個都未示出)之類的通信網(wǎng)絡(luò)與外部裝置(未示出)通信。 此外,個人計(jì)算機(jī)可以經(jīng)由通信單元129獲得程序文件或下載數(shù)據(jù)文件以便將其記錄在記 錄單元128中。連接到輸入/輸出接口 125的驅(qū)動器130在磁盤151、光盤152、磁光盤153、半導(dǎo) 體存儲器154等安裝到其中時對它們進(jìn)行驅(qū)動,并且獲取在這樣的存儲區(qū)域中記錄的程序 或數(shù)據(jù)。如果需要的話,所獲得的程序或數(shù)據(jù)被傳送到記錄單元128以進(jìn)行記錄。當(dāng)利用軟件進(jìn)行一系列處理時,將組成軟件的程序從記錄介質(zhì)中安裝到被合并到 專用硬件中的計(jì)算機(jī)或能夠執(zhí)行各種功能的裝有各種程序的通用個人計(jì)算機(jī)中。如圖9所示,除了記錄程序的ROM 122、包含在記錄單元128中的硬盤等(與上述 的計(jì)算機(jī)不同,以預(yù)先合并到計(jì)算機(jī)中的狀態(tài)向用戶提供)之外,記錄介質(zhì)包括其中記錄 程序的磁盤151 (包括軟盤)、光盤152 (包括緊湊盤只讀存儲器(CD-ROM)和數(shù)字多功能盤 (DVD))、磁光盤153 (包括迷你盤(MD)(作為商標(biāo)))或包括半導(dǎo)體存儲器154的封裝介質(zhì) 等(將它們分發(fā)來向用戶提供程序)。此外,如果需要的話,則用于執(zhí)行上述一系列處理的程序可以通過諸如路由器或 調(diào)制解調(diào)器之類的接口、經(jīng)由有線或無線通信介質(zhì)(諸如局域網(wǎng)(LAN)、因特網(wǎng)或數(shù)字衛(wèi)星 廣播)安裝在計(jì)算機(jī)中。本發(fā)明包含涉及于2009年3月23日向日本專利局提交的日本優(yōu)先權(quán)專利申請JP 2009-070992中公開的主題,在這里通過引用將其全部內(nèi)容合并在此。本領(lǐng)域技術(shù)人員應(yīng)該理解,可以給予設(shè)計(jì)需要以及其它因素進(jìn)行各種修改、組合、 子組合以及替換,而他們落入所附權(quán)利要求及其等效物的范圍內(nèi)。
權(quán)利要求
一種語音識別裝置,包括一個或多個意圖提取語言模型,其中所關(guān)注的特定任務(wù)的每個意圖是固有的;吸收語言模型,其中所述任務(wù)的任意意圖不是固有的;語言分?jǐn)?shù)計(jì)算部件,用于計(jì)算指示所述意圖提取語言模型和所述吸收語言模型中的每一個與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和解碼器,用于基于由所述語言分?jǐn)?shù)計(jì)算部件計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì)說話內(nèi)容中的意圖。
2.如權(quán)利要求1所述的語音識別裝置,其中所述意圖提取語言模型是通過使由指示所述任務(wù)的意圖的多個語句組成的學(xué)習(xí) 數(shù)據(jù)經(jīng)歷統(tǒng)計(jì)處理而獲得的統(tǒng)計(jì)語言模型。
3.如權(quán)利要求1所述的語音識別裝置,其中所述吸收語言模型是通過使與指示任務(wù)的意圖無關(guān)或由自發(fā)的說話組成的大量 學(xué)習(xí)數(shù)據(jù)經(jīng)歷統(tǒng)計(jì)處理而獲得的統(tǒng)計(jì)語言模型。
4.如權(quán)利要求2所述的語音識別裝置,其中用于獲得所述意圖提取語言模型的學(xué)習(xí)數(shù)據(jù)由基于指示對應(yīng)的意圖的描述語法 模型產(chǎn)生并與意圖一致的語句組成。
5.一種語音識別方法,包括步驟第一語言分?jǐn)?shù)計(jì)算步驟,計(jì)算指示其中所關(guān)注的特定任務(wù)的每個意圖是固有的一個或 多個意圖提取語言模型與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);第二語言分?jǐn)?shù)計(jì)算步驟,計(jì)算指示其中所述任務(wù)的任意意圖不是固有的吸收語言模型 與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和基于在第一和第二語言分?jǐn)?shù)計(jì)算步驟中計(jì)算出的每個語言模型的語言分?jǐn)?shù)估計(jì)說話 內(nèi)容中的意圖。
6.一種語言模型產(chǎn)生裝置,包括單詞含義數(shù)據(jù)庫,其中關(guān)于所關(guān)注的特定任務(wù)的每個意圖,通過抽象化可能在指示意 圖的說話中出現(xiàn)的第一語音部分串的詞匯候選以及第二語音部分串的詞匯候選,登記了所 述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示抽象詞 匯的相同含義或類似意圖的一個或多個單詞;描述語法模型創(chuàng)建部件,其基于在所述單詞含義數(shù)據(jù)庫中登記的、指示任務(wù)的意圖的 所述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示所述 抽象詞匯的相同含義或類似意圖的一個或多個單詞,創(chuàng)建指示意圖的描述語法模型;收集部件,其通過針對意圖自動地從描述語法模型產(chǎn)生與每個意圖一致的語句來針對 意圖收集具有說話者可能說出的內(nèi)容的語料庫;和語言模型創(chuàng)建部件,其通過將針對意圖收集的語料庫經(jīng)歷統(tǒng)計(jì)處理來創(chuàng)建其中每個意 圖是固有的統(tǒng)計(jì)語言模型。
7.如權(quán)利要求6所述的語言模型產(chǎn)生裝置,其中所述單詞含義數(shù)據(jù)庫具有針對每一串在矩陣上排列的所述第一語音部分串的抽 象詞匯和所述第二語音部分串的抽象詞匯,并且具有在與具有意圖的所述第一語音部分的 詞匯以及所述第二語音部分的詞匯的組合對應(yīng)的列中給出的、指示意圖的存在的標(biāo)記。
8.一種語言模型產(chǎn)生方法,包括步驟通過抽象化用于傳達(dá)包含在所關(guān)注的任務(wù)中的每個意圖的必要短語來創(chuàng)建語法模型;通過使用所述語法模型自動地產(chǎn)生與每個意圖一致的語句來針對意圖收集具有說話 者可能說出的內(nèi)容的語料庫;和通過利用統(tǒng)計(jì)技術(shù)從每個語料庫執(zhí)行概率估計(jì)來構(gòu)建與每個意圖對應(yīng)的多個統(tǒng)計(jì)語言模型。
9.一種以計(jì)算機(jī)可讀格式描述以便在計(jì)算機(jī)上執(zhí)行用于語音識別的處理的計(jì)算機(jī)程 序,所述程序促使計(jì)算機(jī)用作一個或多個意圖提取語言模型,其中所關(guān)注的特定任務(wù)的每個意圖是固有的; 吸收語言模型,其中所述任務(wù)的任意意圖不是固有的;語言分?jǐn)?shù)計(jì)算部件,用于計(jì)算指示所述意圖提取語言模型和所述吸收語言模型中的每 一個與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和解碼器,用于基于由所述語言分?jǐn)?shù)計(jì)算部件計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì) 說話內(nèi)容中的意圖。
10.一種以計(jì)算機(jī)可讀格式描述以便在計(jì)算機(jī)上執(zhí)行用于產(chǎn)生語言模型的處理的計(jì)算 機(jī)程序,所述程序促使計(jì)算機(jī)用作單詞含義數(shù)據(jù)庫,其中關(guān)于所關(guān)注的特定任務(wù)的每個意圖,通過抽象化可能在指示意 圖的說話中出現(xiàn)的第一語音部分串的詞匯候選以及第二語音部分串的詞匯候選,登記了所 述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示所述抽 象詞匯的相同含義或類似意圖的一個或多個單詞;描述語法模型創(chuàng)建部件,其基于在所述單詞含義數(shù)據(jù)庫中登記的、指示任務(wù)的意圖的 所述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示所述 抽象詞匯的相同含義或類似意圖的一個或多個單詞,創(chuàng)建指示意圖的描述語法模型;收集部件,其通過針對意圖自動地從所述描述語法模型產(chǎn)生與每個意圖一致的語句來 針對意圖收集具有說話者可能說出的內(nèi)容的語料庫;和語言模型創(chuàng)建部件,其通過將針對意圖收集的語料庫經(jīng)歷統(tǒng)計(jì)處理來創(chuàng)建其中每個意 圖是固有的統(tǒng)計(jì)語言模型。
11.一種語言模型產(chǎn)生裝置,包括單詞含義數(shù)據(jù)庫,其中關(guān)于所關(guān)注的特定任務(wù)的每個意圖,通過抽象化可能在指示意 圖的說話中出現(xiàn)的第一語音部分串的詞匯候選以及第二語音部分串的詞匯候選,登記了所 述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示抽象詞 匯的相同含義或類似意圖的一個或多個單詞;描述語法模型創(chuàng)建單元,其基于在所述單詞含義數(shù)據(jù)庫中登記的、指示任務(wù)的意圖的 所述第一語音部分串的抽象詞匯和所述第二語音部分串的抽象詞匯的組合以及指示抽象 詞匯的相同含義或類似意圖的一個或多個單詞,創(chuàng)建指示意圖的描述語法模型;收集單元,其通過針對意圖自動地從所述描述語法模型產(chǎn)生與每個意圖一致的語句來 針對意圖收集具有說話者可能說出的內(nèi)容的語料庫;和語言模型創(chuàng)建單元,其通過將針對意圖收集的語料庫經(jīng)歷統(tǒng)計(jì)處理來創(chuàng)建其中每個意圖是固有的統(tǒng)計(jì)語言模型 。
全文摘要
公開了語音識別裝置和方法、語言模型產(chǎn)生裝置和方法及程序。所述語音識別裝置,包括一個或多個意圖提取語言模型,其中所關(guān)注的特定任務(wù)的意圖是固有的;吸收語言模型,其中任務(wù)的任意意圖不是固有的;語言分?jǐn)?shù)計(jì)算部件,用于計(jì)算指示意圖提取語言模型和吸收語言模型中的每一個與說話內(nèi)容之間的語言上的相似度的語言分?jǐn)?shù);和解碼器,用于基于由語言分?jǐn)?shù)計(jì)算部件計(jì)算出的每個語言模型的語言分?jǐn)?shù)來估計(jì)說話內(nèi)容中的意圖。
文檔編號G10L15/18GK101847405SQ20101013585
公開日2010年9月29日 申請日期2010年3月16日 優(yōu)先權(quán)日2009年3月23日
發(fā)明者前田幸德, 南野活樹, 本田等 申請人:索尼公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1