亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

語音識(shí)別裝置、方法和記錄有語音識(shí)別軟件程序的記錄介質(zhì)的制作方法

文檔序號(hào):2837506閱讀:375來源:國知局
專利名稱:語音識(shí)別裝置、方法和記錄有語音識(shí)別軟件程序的記錄介質(zhì)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及語音識(shí)別裝置、語音識(shí)別方法、以及其上記錄有語音識(shí) 別軟件程序的記錄介質(zhì),更具體地講,涉及一種語音識(shí)別裝置、語音識(shí) 別方法、以及其上記錄有語音識(shí)別軟件程序的記錄介質(zhì),其由于除了設(shè) 置有用于存儲(chǔ)識(shí)別詞匯單詞的識(shí)別單詞字典之外還設(shè)置有用于存儲(chǔ)可拋 棄詞匯單詞的可拋棄單詞字典,從而能夠拋棄背景噪聲、背景語音或識(shí) 別詞匯單詞以外的單詞的發(fā)聲,并且僅當(dāng)對(duì)識(shí)別詞匯單詞發(fā)聲時(shí)才輸出 識(shí)別結(jié)果。
背景技術(shù)
在過去已知這樣的語音識(shí)別裝置,該語音識(shí)別裝置將語音識(shí)別引擎 用作從用戶接收輸入以識(shí)別用戶發(fā)聲(語音)并且接受它們作為對(duì)系統(tǒng) 的輸入的裝置。例如,這種語音識(shí)別裝置已經(jīng)被實(shí)際用于包括語音門戶、 汽車導(dǎo)航系統(tǒng)等的信息提供系統(tǒng)。
此外,這種語音識(shí)別裝置受制于如下問題例如,根據(jù)設(shè)置有這種 語音識(shí)別裝置的信息提供系統(tǒng)的使用環(huán)境,背景噪聲、背景語音等可能 被誤識(shí)別為識(shí)別詞匯單詞。此外,存在如下問題當(dāng)用戶對(duì)識(shí)別詞匯單 詞以外的單詞發(fā)聲時(shí),這些單詞可能被誤識(shí)別為識(shí)別詞匯單詞。
為了消除這些問題,提出了一種語音識(shí)別裝置,該語音識(shí)別裝置除 了用于存儲(chǔ)識(shí)別詞匯單詞的識(shí)別單詞字典以外,還設(shè)置有用于存儲(chǔ)可拋 棄詞匯單詞的可拋棄單詞字典。具體地講,該語音識(shí)別裝置除了計(jì)算輸 入語音與識(shí)別詞匯單詞之間的相似度以外,還計(jì)算輸入語音與可拋棄詞 匯單詞之間的相似度。作為計(jì)算相似度的結(jié)果,當(dāng)識(shí)別詞匯單詞的相似 度高于可拋棄詞匯單詞的相似度時(shí),將識(shí)別詞匯單詞輸出作為識(shí)別結(jié)果。 另一方面,當(dāng)識(shí)別詞匯單詞的相似度小于可拋棄詞匯單詞的相似度時(shí),
拋棄輸入語音。因此,在可拋棄單詞字典中存儲(chǔ)背景噪聲、背景語音或 識(shí)別單詞字典以外的單詞作為可拋棄詞匯單詞,使得可以防止將背景噪 聲、背景語音或識(shí)別詞匯單詞以外的單詞誤識(shí)別為識(shí)別詞匯單詞(例如,
參見日本專利申請(qǐng)公報(bào)第2002-372988號(hào)或第H10-49190號(hào))。
然而,如果這種語音識(shí)別裝置中的識(shí)別詞匯單詞和可拋棄詞匯單詞 例如相同或相似,則盡管用戶對(duì)識(shí)別詞匯單詞發(fā)聲,但在可拋棄詞匯單 詞的相似度高于識(shí)別詞匯單詞的相似度時(shí),用戶發(fā)聲會(huì)被錯(cuò)誤地拋棄。
因此,在日本專利申請(qǐng)公報(bào)第2002-372988號(hào)中公開的語音識(shí)別裝 置中,可拋棄單詞去除單元從存儲(chǔ)有可拋棄單詞全集的可拋棄單詞數(shù)據(jù) 庫中去除與存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞相同或相似的可拋棄 詞匯單詞??蓲仐墕卧~去除單元通過將剩余在可拋棄單詞數(shù)據(jù)庫中的殘 余可拋棄詞匯單詞存儲(chǔ)在可拋棄單詞字典中,來產(chǎn)生可拋棄單詞字典。 這使得在用戶對(duì)識(shí)別詞匯單詞發(fā)聲時(shí)可以防止將用戶發(fā)聲錯(cuò)誤地拋棄。
然而,在上述日本專利申請(qǐng)公報(bào)第2002-372988號(hào)中公開的結(jié)構(gòu)中 存在下面的問題。
也就是說,在日本專利申請(qǐng)公報(bào)第2002-372988號(hào)的語音識(shí)別裝置 中,每當(dāng)存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí),必須通過 從可拋棄單詞數(shù)據(jù)庫中去除與識(shí)別詞匯單詞相同或相似的可拋棄詞匯單 詞并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲(chǔ)在可拋棄 單詞字典中,來對(duì)可拋棄單詞字典進(jìn)行更新。因此,當(dāng)存儲(chǔ)在識(shí)別單詞 字典中的識(shí)別詞匯單詞發(fā)生改變時(shí),需要耗時(shí)的人工操作來更新可拋棄 單詞字典。

發(fā)明內(nèi)容
考慮到上述問題作出本發(fā)明,并且本發(fā)明的目的是提供一種語音識(shí) 別裝置、語音識(shí)別方法、以及其上記錄有語音識(shí)別軟件程序的記錄介質(zhì), 其能夠當(dāng)用戶對(duì)識(shí)別詞匯單詞發(fā)聲時(shí)防止用戶發(fā)聲被錯(cuò)誤地拋棄,并且 同時(shí),即使當(dāng)存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí)也能夠 減小更新可拋棄單詞字典所需的耗時(shí)的人工操作。
為了實(shí)現(xiàn)上述目的,本發(fā)明的語音識(shí)別裝置包括語音輸入單元, 其將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù);語音分析單元,其將所述發(fā)聲語音
數(shù)據(jù)轉(zhuǎn)換成特征量;識(shí)別單詞字典,其存儲(chǔ)多個(gè)識(shí)別詞匯單詞;可拋棄 單詞字典,其存儲(chǔ)多個(gè)可拋棄詞匯單詞;語音驗(yàn)證單元,其利用通過所 述語音分析單元進(jìn)行的轉(zhuǎn)換而獲得的特征量,計(jì)算所述輸入語音與存儲(chǔ) 在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別詞匯單詞之間的相似度,利用通 過所述語音分析單元進(jìn)行的轉(zhuǎn)換而獲得的特征量,計(jì)算所述輸入語音與 存儲(chǔ)在所述可拋棄單詞字典中的所述多個(gè)可拋棄詞匯單詞之間的相似 度,并且,作為計(jì)算這些相似度的結(jié)果,從所述識(shí)別詞匯單詞中提取具 有最高相似度的識(shí)別詞匯單詞作為識(shí)別候選項(xiàng),并且從所述可拋棄詞匯 單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(xiàng);第一閾 值存儲(chǔ)單元,其存儲(chǔ)用作拋棄所述輸入語音的量度的第一閾值;以及第 二閾值存儲(chǔ)單元,其存儲(chǔ)第二閾值,所述第二閾值大于所述第一閾值并 且用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度。如果所述識(shí)別候選 項(xiàng)的相似度大于所述第二閾值,則所述語音驗(yàn)證單元輸出所述識(shí)別候選 項(xiàng)作為識(shí)別結(jié)果,并且如果所述識(shí)別候選項(xiàng)的相似度小于所述第二閾值, 則當(dāng)所述識(shí)別候選項(xiàng)的相似度大于所述第一閾值并且同時(shí)所述識(shí)別候選 項(xiàng)的相似度高于所述拋棄候選項(xiàng)的相似度時(shí),所述語音驗(yàn)證單元輸出所 述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
此外,傳統(tǒng)的語音識(shí)別裝置受制于如下問題當(dāng)存儲(chǔ)在可拋棄單詞 字典中的可拋棄詞匯單詞與存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞相同 或相似時(shí),在用戶發(fā)聲與拋棄候選項(xiàng)的相似度高于用戶發(fā)聲與識(shí)別候選 項(xiàng)的相似度的情況下,盡管用戶是對(duì)識(shí)別候選項(xiàng)進(jìn)行發(fā)聲,但是用戶發(fā) 聲也會(huì)被錯(cuò)誤地拋棄。因此,在傳統(tǒng)語音識(shí)別裝置中,每當(dāng)存儲(chǔ)在識(shí)別 單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí),必須通過從可拋棄單詞數(shù)據(jù)庫 中去除與識(shí)別詞匯單詞相同或相似的可拋棄詞匯單詞并將剩余在可拋棄 單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲(chǔ)在可拋棄單詞字典中,來對(duì)可 拋棄單詞字典進(jìn)行更新。因此,傳統(tǒng)的語音識(shí)別裝置受制于如下問題
當(dāng)存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí),需要耗時(shí)的人工
操作來更新可拋棄單詞字典。
另一方面,在本發(fā)明的語音識(shí)別裝置中,當(dāng)識(shí)別候選項(xiàng)的相似度大 于第二閾值時(shí),語音驗(yàn)證單元輸出識(shí)別候選項(xiàng)作為識(shí)別結(jié)果,而不管拋 棄候選項(xiàng)的相似度。應(yīng)該注意,第二閾值是用于輸出作為識(shí)別結(jié)果的識(shí) 別候選項(xiàng)的量度。因此,只要識(shí)別候選項(xiàng)的相似度大于第二閾值,則即 使在由于識(shí)別候選項(xiàng)和拋棄候選項(xiàng)相同或相似而使拋棄候選項(xiàng)的相似度 變得高于識(shí)別候選項(xiàng)的相似度的情況下,也可輸出識(shí)別候選項(xiàng)作為識(shí)別 結(jié)果。因此,在本發(fā)明的語音識(shí)別裝置中,例如,當(dāng)用戶對(duì)識(shí)別候選項(xiàng) 發(fā)聲時(shí),即使在可拋棄單詞字典中存儲(chǔ)有與識(shí)別詞匯單詞相同或相似的 可拋棄詞匯單詞,用戶發(fā)聲也不會(huì)被錯(cuò)誤地拋棄。因此,不需要按照用 于上述傳統(tǒng)語音識(shí)別裝置的方式(即,每當(dāng)存儲(chǔ)在識(shí)別單詞字典中的識(shí) 別詞匯單詞發(fā)生改變時(shí),從可拋棄單詞數(shù)據(jù)庫中去除與識(shí)別詞匯單詞相 同或相似的可拋棄詞匯單詞并將剩余在可拋棄單詞數(shù)據(jù)庫中的殘余可拋 棄詞匯單詞存儲(chǔ)在可拋棄單詞字典中)來更新可拋棄單詞字典。結(jié)果, 即使當(dāng)存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí)也能夠減小更 新可拋棄單詞字典所需的耗時(shí)的人工操作,同時(shí)與用戶對(duì)識(shí)別詞匯單詞 發(fā)聲這一事實(shí)無關(guān),能夠防止用戶發(fā)聲被錯(cuò)誤地拋棄。
在上述的本發(fā)明的語音識(shí)別裝置的優(yōu)選實(shí)施方式中,如果識(shí)別候選 項(xiàng)的相似度大于第一閾值,則當(dāng)識(shí)別候選項(xiàng)的相似度小于第二閾值并且 同時(shí)識(shí)別候選項(xiàng)的相似度小于拋棄候選項(xiàng)的相似度時(shí),語音驗(yàn)證單元拋 棄輸入語音,并且如果識(shí)別候選項(xiàng)的相似度小于第一閾值,則拋棄輸入 語音。
根據(jù)上述配置,如果識(shí)別候選項(xiàng)的相似度大于第一閾值,則當(dāng)識(shí)別 候選項(xiàng)的相似度小于第二閾值并且同時(shí)識(shí)別候選項(xiàng)的相似度小于拋棄候 選項(xiàng)的相似度時(shí),語音驗(yàn)證單元拋棄輸入語音。另一方面,如果識(shí)別候 選項(xiàng)的相似度小于第一閾值,則語音驗(yàn)證單元拋棄輸入語音。因此,將 背景噪聲、背景語音或識(shí)別詞匯單詞之外的單詞作為可拋棄詞匯單詞存 儲(chǔ)在可拋棄單詞字典中,這使得可以可靠地防止背景噪聲、背景語音或 識(shí)別詞匯單詞之外的單詞被誤識(shí)別為識(shí)別詞匯單詞。
在上述的本發(fā)明的語音識(shí)別裝置的優(yōu)選實(shí)施方式中,該裝置還包括 補(bǔ)償數(shù)據(jù)存儲(chǔ)單元,所述補(bǔ)償數(shù)據(jù)存儲(chǔ)單元存儲(chǔ)用于改變所述識(shí)別候選 項(xiàng)的相似度和所述拋棄候選項(xiàng)的相似度中的至少一個(gè)相似度的補(bǔ)償數(shù) 據(jù)。所述語音驗(yàn)證單元基于所述補(bǔ)償數(shù)據(jù),改變所述識(shí)別候選項(xiàng)的相似 度和所述拋棄候選項(xiàng)的相似度中的至少一個(gè)相似度。
根據(jù)上述配置,語音驗(yàn)證單元基于補(bǔ)償數(shù)據(jù)改變識(shí)別候選項(xiàng)的相似 度和拋棄候選項(xiàng)的相似度中的至少一個(gè)相似度。如果語音驗(yàn)證單元減小 識(shí)別候選項(xiàng)的相似度或者增大拋棄候選項(xiàng)的相似度,則該語音識(shí)別裝置 的識(shí)別率降低。另一方面,如果語音驗(yàn)證單元增大識(shí)別候選項(xiàng)的相似度 或者減小拋棄候選項(xiàng)的相似度,則該語音識(shí)別裝置的識(shí)別率上升。這使 得可以實(shí)現(xiàn)這樣的語音識(shí)別裝置,所述語音識(shí)別裝置適于設(shè)置有該語音 識(shí)別裝置的系統(tǒng)的實(shí)際情況(使用條件等)。
在上述的本發(fā)明的語音識(shí)別裝置的優(yōu)選實(shí)施方式中,所述第二閾值 存儲(chǔ)單元存儲(chǔ)分別對(duì)應(yīng)于各個(gè)所述識(shí)別詞匯單詞的多個(gè)第二閾值。
根據(jù)上述配置,在第二閾值存儲(chǔ)單元中存儲(chǔ)有分別對(duì)應(yīng)于各個(gè)所述 識(shí)別詞匯單詞的第二閾值。這使得語音驗(yàn)證單元可以響應(yīng)于識(shí)別詞匯單 詞來改變輸出作為識(shí)別結(jié)果的識(shí)別候選項(xiàng)的量度。
在上述的語音識(shí)別裝置的優(yōu)選實(shí)施方式中,所述語音識(shí)別裝置還包 括多個(gè)可拋棄單詞字典,其分別包含不同數(shù)目的可拋棄詞匯單詞;以 及選擇單元,其基于存儲(chǔ)在所述識(shí)別單詞字典中的識(shí)別詞匯單詞的數(shù)目, 從所述多個(gè)可拋棄單詞字典中選擇要由所述語音驗(yàn)證單元進(jìn)行相似度計(jì) 算的可拋棄單詞字典。
根據(jù)上述配置,所述選擇單元基于存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞 匯單詞的數(shù)目,從所述多個(gè)可拋棄單詞字典中選擇要由所述語音驗(yàn)證單 元進(jìn)行相似度計(jì)算的可拋棄單詞字典。例如,隨著存儲(chǔ)在識(shí)別單詞字典 中的識(shí)別詞匯單詞的數(shù)目的增加,該選擇單元選擇具有較小數(shù)目的可拋 棄詞匯單詞的可拋棄單詞字典。這可以使該語音識(shí)別裝置的識(shí)別速度保 持恒定,并且避免了使該語音識(shí)別裝置的識(shí)別速度降低。
為了實(shí)現(xiàn)上述目的,在本發(fā)明的語音識(shí)別方法中,設(shè)置有存儲(chǔ)有多
個(gè)識(shí)別詞匯單詞的識(shí)別單詞字典和存儲(chǔ)有多個(gè)可拋棄詞匯單詞的可拋棄 單詞字典的計(jì)算機(jī)執(zhí)行如下步驟語音輸入步驟,將輸入語音轉(zhuǎn)換成發(fā) 聲語音數(shù)據(jù);語音分析步驟,將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量;以及 語音驗(yàn)證步驟,利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征量, 計(jì)算所述輸入語音與存儲(chǔ)在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別詞匯單 詞之間的相似度,利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特征 量,計(jì)算所述輸入語音與存儲(chǔ)在所述可拋棄單詞字典中的所述多個(gè)可拋 棄詞匯單詞之間的相似度,并且,作為計(jì)算這些相似度的結(jié)果,從所述 識(shí)別詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候選項(xiàng), 并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作 為拋棄候選項(xiàng)。所述計(jì)算機(jī)能夠訪問第一閾值存儲(chǔ)單元和第二閾值存儲(chǔ) 單元,所述第一閾值存儲(chǔ)單元存儲(chǔ)用作拋棄所述輸入語音的量度的第一 閾值,所述第二閾值存儲(chǔ)單元存儲(chǔ)第二閾值,所述第二閾值大于所述第 一閾值并且用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度,并且所述 語音驗(yàn)證步驟還包括如下步驟如果所述識(shí)別候選項(xiàng)的相似度大于所述 第二閾值,則輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果,以及如果所述識(shí)別候 選項(xiàng)的相似度小于所述第二閾值,則當(dāng)所述識(shí)別候選項(xiàng)的相似度大于所 述第一閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似度高于所述拋棄候選項(xiàng)的相 似度時(shí),輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
為了實(shí)現(xiàn)上述目的,本發(fā)明的其上記錄有語音識(shí)別軟件程序的記錄 介質(zhì)是一種其上記錄有如下語音識(shí)別程序的記錄介質(zhì),所述語音識(shí)別程 序使得設(shè)置有存儲(chǔ)有多個(gè)識(shí)別詞匯單詞的識(shí)別單詞字典和存儲(chǔ)有多個(gè)可 拋棄詞匯單詞的可拋棄單詞字典的計(jì)算機(jī)執(zhí)行語音識(shí)別處理。使所述計(jì) 算機(jī)執(zhí)行如下處理語音輸入處理,將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù); 語音分析處理,將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量;以及語音驗(yàn)證處理,
利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量,計(jì)算所述輸入 語音與存儲(chǔ)在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別詞匯單詞之間的相似 度,利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特征量,計(jì)算所述 輸入語音與存儲(chǔ)在所述可拋棄單詞字典中的所述多個(gè)可拋棄詞匯單詞之
間的相似度,并且,作為計(jì)算這些相似度的結(jié)果,從所述識(shí)別詞匯單詞 中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候選項(xiàng),并且從所述可 拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選 項(xiàng)。所述計(jì)算機(jī)能夠訪問第一閾值存儲(chǔ)單元和第二閾值存儲(chǔ)單元,所述 第一閾值存儲(chǔ)單元存儲(chǔ)用作拋棄所述輸入語音的量度的第一閾值,所述 第二閾值存儲(chǔ)單元存儲(chǔ)第二閾值,所述第二閾值大于所述第一閾值并且 用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度。所述語音驗(yàn)證處理還 包括使所述計(jì)算機(jī)執(zhí)行如下處理當(dāng)所述識(shí)別候選項(xiàng)的相似度大于所述 第二閾值時(shí),輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果,以及當(dāng)所述識(shí)別候選 項(xiàng)的相似度小于所述第二閾值時(shí),如果所述識(shí)別候選項(xiàng)的相似度大于所 述第一閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似度高于所述拋棄候選項(xiàng)的相 似度時(shí),則輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
應(yīng)該注意,本發(fā)明的語音識(shí)別方法和其上記錄有語音識(shí)別軟件程序 的記錄介質(zhì)具有與上述語音識(shí)別裝置相同的效果。


圖1是示意性地示出了根據(jù)本發(fā)明第一實(shí)施方式的語音識(shí)別裝置的 結(jié)構(gòu)的框圖2是示出了語音識(shí)別裝置中使用的識(shí)別單詞字典的示例性數(shù)據(jù)結(jié) 構(gòu)的圖3是示出了語音識(shí)別裝置中使用的可拋棄單詞字典的示例性數(shù)據(jù) 結(jié)構(gòu)的圖4是示出了語音識(shí)別裝置中使用的第一閾值存儲(chǔ)單元的示例性數(shù) 據(jù)結(jié)構(gòu)的圖5是示出了語音識(shí)別裝置中使用的第二閾值存儲(chǔ)單元的示例性數(shù) 據(jù)結(jié)構(gòu)的圖6是示出了用戶發(fā)聲與對(duì)識(shí)別候選項(xiàng)以及拋棄候選項(xiàng)的發(fā)聲的相 似度之間的關(guān)系的概念圖7是示出了語音識(shí)別裝置的操作示例的流程圖8是示出了語音識(shí)別裝置中使用的語音驗(yàn)證單元的操作示例的流
程圖9是示意性地示出了根據(jù)本發(fā)明第二實(shí)施方式的語音識(shí)別裝置的
結(jié)構(gòu)的框圖10是示出了語音識(shí)別裝置中使用的補(bǔ)償數(shù)據(jù)存儲(chǔ)單元的示例性 數(shù)據(jù)結(jié)構(gòu)的圖ll是示出了語音識(shí)別裝置中使用的語音驗(yàn)證單元的操作示例的流
程圖,-
圖12是示意性地示出了根據(jù)本發(fā)明第三實(shí)施方式的語音識(shí)別裝置 的結(jié)構(gòu)的框圖13是示出了語音識(shí)別裝置中使用的第二閾值存儲(chǔ)單元的示例性 數(shù)據(jù)結(jié)構(gòu)的圖14是示意性地示出了在將存儲(chǔ)在第二閾值存儲(chǔ)單元中的第二閾 值存儲(chǔ)在語音識(shí)別裝置的識(shí)別單詞字典中的情況下的語音識(shí)別裝置的結(jié) 構(gòu)的框圖15是示出了識(shí)別單詞字典的示例性數(shù)據(jù)結(jié)構(gòu)的圖;以及 圖16是示意性地示出了根據(jù)本發(fā)明第四實(shí)施方式的語音識(shí)別裝置 的結(jié)構(gòu)的框圖。
具體實(shí)施例方式
下面,將參照附圖更加詳細(xì)地描述本發(fā)明的更具體的實(shí)施方式。 (實(shí)施方式1)
圖1是示意性地示出了根據(jù)本實(shí)施方式的語音識(shí)別裝置1的結(jié)構(gòu)的 框圖。即,根據(jù)本實(shí)施方式的語音識(shí)別裝置1設(shè)置有語音輸入單元2、 語音分析單元3、識(shí)別單詞字典4、可拋棄單詞字典5、聲學(xué)模型存儲(chǔ)單 元6、語音驗(yàn)證單元7、第一閾值存儲(chǔ)單元8、以及第二閾值存儲(chǔ)單元9。 根據(jù)本實(shí)施方式的語音識(shí)別裝置1是具有如下能力的裝置接收從例如 語音對(duì)話應(yīng)用等的較高級(jí)軟件程序傳遞的用戶語音,并且將識(shí)別結(jié)果返 回到該較高級(jí)軟件程序等。語音輸入單元2將輸入語音(發(fā)聲)轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)。具體地 講,在語音輸入期間,語音輸入單元2使用預(yù)定的語音區(qū)間確定標(biāo)準(zhǔn)來 確定輸入語音中的語音區(qū)間。語音輸入單元2將確定的語音區(qū)間中的語
音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)。語音輸入單元2將通過轉(zhuǎn)換而獲得的發(fā)聲語音 數(shù)據(jù)輸出到語音分析單元3。
語音分析單元3通過分析該發(fā)聲語音數(shù)據(jù)來計(jì)算特征量。通常,除 了 MFCC、 LPC倒頻譜或冪以及一次和二次回歸系數(shù)以外,特征量還是 多維矢量,該多維矢量包括但不限于通過利用主成分分析或判別分析對(duì) 值進(jìn)行維壓縮(dimensional compression)而獲得的矢量。語音分析單元 3將計(jì)算出的特征量輸出到語音驗(yàn)證單元7。應(yīng)該注意,語音分析單元3 可以設(shè)置有用于存儲(chǔ)計(jì)算出的特征量的存儲(chǔ)器。
識(shí)別單詞字典4存儲(chǔ)多個(gè)識(shí)別詞匯單詞和關(guān)于該多個(gè)識(shí)別詞匯單詞 的信息。如例如在圖2中所示出的,識(shí)別單詞字典4以識(shí)別單詞字典表 4a的形式,存儲(chǔ)多個(gè)識(shí)別詞匯單詞和關(guān)于該多個(gè)識(shí)別詞匯單詞的信息。 在圖2所示的示例中,識(shí)別單詞字典表4a存儲(chǔ)有單詞ID、單詞拼寫、單 詞讀音、以及音素序列。單詞ID表示與識(shí)別詞匯單詞惟一地關(guān)聯(lián)的信息。 單詞拼寫表示描述書寫識(shí)別詞匯單詞的方式的信息。單詞讀音表示與反 映在單詞拼寫中的識(shí)別詞匯單詞的讀音相關(guān)的信息。音素序列是要通過 語音驗(yàn)證單元7進(jìn)行相似度計(jì)算的識(shí)別詞匯單詞。應(yīng)該注意,盡管有關(guān) 識(shí)別詞匯單詞的信息包括上述的單詞ID、單詞拼寫和單詞讀音,但是它 還可以另外包括諸如與識(shí)別詞匯單詞之間的連接有關(guān)的規(guī)則(語法信息) 的其他任意信息。
在圖2所示的示例中,識(shí)別單詞字典表4a的第一行Rl存儲(chǔ)有單詞 ID "001"、單詞拼寫"Kyoto"、單詞讀音"kyouto"、以及因素序列
"/k/y/o/t/o/"。第二行R2存儲(chǔ)有單詞ID "002"、單詞拼寫"Shiga"、單 詞讀音"shiga"、以及音素序列"/s/h/i/g/a/"。第三行R3存儲(chǔ)有單詞ID
"003"、單詞拼寫"Osaka"、單詞讀音"oosaka"、以及音素序列"/o/s/a/k/a/"。 第四行R4存儲(chǔ)有單詞ID "004"、單詞拼寫"Nara"、單詞讀音"nam"、 以及音素序列"/n/a/r/a/"。第五行R5存儲(chǔ)有單詞ID "005"、單詞拼寫
"Wakayama"、單詞讀音"wakayama"、以及音素序列"/w/a/k/a/y/a/m/a/"。 第六行R6存儲(chǔ)有單詞ID"006"、單詞拼寫"Hyogo"、單詞讀音"hyougo"、 以及音素序列"/h/y/o/g/o/"。第七行R7存儲(chǔ)有單詞ID "007"、單詞拼寫 "Mie"、單詞讀音"mie"、以及音素序列"/m/i/e/"。換言之,識(shí)別單詞 字典表4a包含來自Kinki地區(qū)的地名,這僅是個(gè)示例。
可拋棄單詞字典5存儲(chǔ)有多個(gè)可拋棄詞匯單詞和關(guān)于該多個(gè)可拋棄 詞匯單詞的信息。如例如在圖3中所示出的,可拋棄單詞字典5以可拋 棄單詞字典表5a的形式,存儲(chǔ)有多個(gè)可拋棄詞匯單詞和關(guān)于該多個(gè)可拋 棄詞匯單詞的信息。在圖3所示的示例中,可拋棄單詞字典表5a存儲(chǔ)有 單詞ID、單詞拼寫、單詞讀音、以及音素序列。單詞ID表示與可拋棄詞 匯單詞惟一地關(guān)聯(lián)的信息。單詞拼寫表示描述書寫可拋棄詞匯單詞的方 式的信息。單詞讀音表示與反映在單詞拼寫中的可拋棄詞匯單詞的讀音 有關(guān)的信息。音素序列是要通過語音驗(yàn)證單元7進(jìn)行相似度計(jì)算的可拋 棄詞匯單詞。應(yīng)該注意,盡管有關(guān)可拋棄詞匯單詞的信息包括上述的單 詞ID、單詞拼寫和單詞讀音,但是它還可以另外包括諸如與可拋棄詞匯 單詞之間的連接有關(guān)的規(guī)則(語法信息)的其他任意信息。
在圖3所示的示例中,可拋棄單詞字典表5a的第一行Rl存儲(chǔ)有單 詞ID "101"、單詞拼寫"Tokyo"、單詞讀音"toukyou"、以及音素序列 "/t/o/k/y/o/"。第二行R2存儲(chǔ)有單詞ID"102"、單詞拼寫"Saga"、單詞 讀音"saga"、以及音素序列"/s/a/g/a/"。第三行R3存儲(chǔ)有單詞ID " 103"、 單詞拼寫"Oita"、單詞讀音"ooita"、以及音素序列"/o/i/t/a/"。第四行 R4存儲(chǔ)有單詞ID "104"、單詞拼寫"Okayama"、單詞讀音"okayama"、 以及音素序列"/o/k/a/y/a/m/a/"。第五行R5存儲(chǔ)有單詞ID " 105"、單詞 拼寫"Toyama"、單詞讀音"toyama"、以及音素序列"/t/o/y/a/m/a/"。
聲學(xué)模型存儲(chǔ)單元6存儲(chǔ)通過對(duì)描述何種音素趨于產(chǎn)生何種特征量 的信息進(jìn)行統(tǒng)計(jì)建模而獲得的數(shù)據(jù)。建議用HMM (隱馬爾科夫模型)、 DP (動(dòng)態(tài)規(guī)劃)等作為聲學(xué)模型的示例。
語音驗(yàn)證單元7利用通過語音分析單元3進(jìn)行的轉(zhuǎn)換而獲得的特征 量,來計(jì)算輸入語音與存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞之間的
相似度。此外,語音驗(yàn)證單元7利用通過語音分析單元3進(jìn)行的轉(zhuǎn)換而 獲得的特征量,來計(jì)算輸入語音與存儲(chǔ)在可拋棄單詞字典5中的可拋棄 詞匯單詞之間的相似度。具體地講,語音驗(yàn)證單元7通過比較通過語音
分析單元3進(jìn)行的轉(zhuǎn)換而獲得的特征量與存儲(chǔ)在聲學(xué)模型存儲(chǔ)單元6中
的數(shù)據(jù),來提取包含在語音區(qū)間內(nèi)的每幀(固定時(shí)段)的音素串。語音
驗(yàn)證單元7通過比較所提取的音素串與存儲(chǔ)在識(shí)別單詞字典4中的音素 序列,來計(jì)算識(shí)別詞匯單詞的相似度。此外,語音驗(yàn)證單元7通過比較 所提取的音素串與存儲(chǔ)在可拋棄單詞字典5中的音素序列,來計(jì)算可拋 棄詞匯單詞的相似度。此外,計(jì)算相似度的處理利用在相似度計(jì)算中采 用的先前已知的算法。
基于以上計(jì)算出的識(shí)別詞匯單詞的相似度,語音驗(yàn)證單元7從識(shí)別 詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候選項(xiàng)。此外,
基于以上計(jì)算出的可拋棄詞匯單詞的相似度,語音驗(yàn)證單元7從可拋棄 詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(xiàng)。
第一閾值存儲(chǔ)單元8存儲(chǔ)有第一閾值,該第一閾值被用作拋棄輸入 語音的量度。如例如在圖4中所示出的,第一閾值存儲(chǔ)單元8以第一閾 值存儲(chǔ)表8a的形式存儲(chǔ)第一閾值。在圖4所示的示例中,"0.5"被存儲(chǔ) 為第一閾值。應(yīng)該注意,例如由設(shè)置有語音識(shí)別裝置1的信息提供系統(tǒng) 的系統(tǒng)管理員來預(yù)先設(shè)定存儲(chǔ)在第一閾值存儲(chǔ)單元8中的第一閾值。
第二閾值存儲(chǔ)單元9存儲(chǔ)有第二閾值,該第二閾值大于第一閾值并 被用作輸出作為識(shí)別結(jié)果的識(shí)別候選項(xiàng)項(xiàng)的量度。如例如在圖5中所示 出的,第二閾值存儲(chǔ)單元9以第二閾值存儲(chǔ)表9a的形式存儲(chǔ)第二閾值。 在圖5所示的示例中,"0.8"被存儲(chǔ)為第二閾值。應(yīng)該注意,例如也由設(shè) 置有語音識(shí)別裝置1的信息提供系統(tǒng)的系統(tǒng)管理員來預(yù)先設(shè)定存儲(chǔ)在第 二閾值存儲(chǔ)單元9中的第二閾值。
另外,盡管使用識(shí)別單詞字典4、可拋棄單詞字典5、第一閾值存儲(chǔ) 單元8以及第二閾值存儲(chǔ)單元9以表的形式存儲(chǔ)數(shù)據(jù)的示例給出了以上 解釋,但是存儲(chǔ)格式不限于此。換言之,存儲(chǔ)格式是任意的。
如果識(shí)別候選項(xiàng)的相似度大于第二閾值,則語音驗(yàn)證單元7輸出該
識(shí)別候選項(xiàng)相作為識(shí)別結(jié)果。此外,如果識(shí)別候選項(xiàng)的相似度小于第二 閾值,則當(dāng)該識(shí)別候選項(xiàng)的相似度大于第一閾值并且同時(shí)該識(shí)別候選項(xiàng) 的相似度大于拋棄候選項(xiàng)的相似度時(shí),語音驗(yàn)證單元7輸出該識(shí)別候選 項(xiàng)。應(yīng)該注意,識(shí)別結(jié)果可以被傳遞到較高級(jí)軟件程序以及輸出到諸如 顯示器、揚(yáng)聲器和打印機(jī)等的輸出裝置。此外,識(shí)別結(jié)果可以作為命令 輸出到未示出的CPU。
另一方面,如果識(shí)別候選項(xiàng)的相似度大于第一閾值,則當(dāng)該識(shí)別候 選項(xiàng)的相似度小于第二閾值并且同時(shí)該識(shí)別候選項(xiàng)的相似度小于拋棄候
選項(xiàng)的相似度時(shí),語音驗(yàn)證單元7拋棄輸入語音。此外,當(dāng)識(shí)別候選項(xiàng) 的相似度小于第一閾值時(shí),語音驗(yàn)證單元7拋棄輸入語音。
這里具體例示了由語音驗(yàn)證單元7執(zhí)行的上述驗(yàn)證處理。圖6是示
出了用戶發(fā)聲與對(duì)識(shí)別候選項(xiàng)以及拋棄候選項(xiàng)的發(fā)聲的相似度之間的關(guān) 系的概念圖。S"是示出識(shí)別候選項(xiàng)"wakayama"與用戶發(fā)聲的相似度 的曲線。SL2是示出識(shí)別候選項(xiàng)"okayama"與用戶發(fā)聲的相似度的曲線。 SL3是示出識(shí)別候選項(xiàng)"toyama"與用戶發(fā)聲的相似度的曲線。T,表示第 一閾值。丁2表示第二閾值。應(yīng)該注意,用戶發(fā)聲之中示出的發(fā)聲 "Akayama"(圖6中的P2)表示"okayama"(圖6中的P4)與"wakayama" (圖6中的P》之間的發(fā)聲狀態(tài),所述發(fā)聲狀態(tài)更接近"okayama"。此 外,用戶發(fā)聲之中示出的"O口yama"(圖6中的P3)表示"wakayama" (圖6中的P。與"toyama"(圖6中的P"之間的發(fā)聲狀態(tài),所述發(fā)聲 狀態(tài)更接近"toyama"。
在這種情況下,當(dāng)用戶對(duì)單詞"wakayama"發(fā)聲(圖6中的P,)時(shí), SL,超過第二閾值T2,結(jié)果,語音驗(yàn)證單元7輸出識(shí)別候選項(xiàng)"wakayama" 作為識(shí)別結(jié)果。此外,當(dāng)用戶對(duì)單詞"Akayama"發(fā)聲(圖6中的P2) 時(shí),SL2超過SLp但是由于SL!超過第二閾值T2,所以語音驗(yàn)證單元7 輸出識(shí)別候選項(xiàng)"wakayama"作為識(shí)別結(jié)果。換言之,在過去,當(dāng)SL2 超過SL!時(shí),語音驗(yàn)證單元7拋棄用戶發(fā)音"A kayama",但是在本實(shí)施 方式中,即使在SL2超過SL,的情況下,語音驗(yàn)證單元7也輸出識(shí)別候選 項(xiàng)"wakayama"作為識(shí)別結(jié)果,只要SL!超過第二閾值T2即可。此外,
當(dāng)用戶對(duì)單詞"O口yama"發(fā)聲(圖6中的P3)時(shí),SL,變得小于第二 閾值了2,但是由于SI^超過第一閾值T,并且此外SL!超過SL3,所以語 音驗(yàn)證單元7輸出識(shí)別候選項(xiàng)"wakayama"作為識(shí)別結(jié)果。
另一方面,當(dāng)用戶對(duì)單詞"okayama"發(fā)聲(圖6中的P4)時(shí),SL, 變得小于第一閾值Tp結(jié)果,語音驗(yàn)證單元7拋棄用戶發(fā)聲"okayama"。 此外,當(dāng)用戶對(duì)單詞"toyama"發(fā)聲(圖6中的P》時(shí),SL,變得小于第 一閾值T,,結(jié)果,語音驗(yàn)證單元7拋棄用戶發(fā)聲"toyama"。
此外,通過在諸如個(gè)人計(jì)算機(jī)等的任何計(jì)算機(jī)上安裝軟件程序來實(shí) 現(xiàn)上述語音識(shí)別裝置1。換言之,通過根據(jù)軟件程序(其包括上述語音輸 入單元2、語音分析單元3、以及語音驗(yàn)證單元7的功能)運(yùn)行的計(jì)算機(jī) CPU來實(shí)現(xiàn)上述語音輸入單元2、語音分析單元3以及語音驗(yàn)證單元7。 因此,包括語音輸入單元2、語音分析單元3以及語音驗(yàn)證單元7的功能 的軟件程序或者其上記錄有該程序的記錄介質(zhì)代表本發(fā)明的實(shí)施方式。 此外,使用包括在計(jì)算機(jī)中的內(nèi)置存儲(chǔ)裝置或計(jì)算機(jī)可訪問的存儲(chǔ)裝置, 來實(shí)現(xiàn)識(shí)別單詞字典4、可拋棄單詞字典5、聲學(xué)模型存儲(chǔ)單元6、第一 閾值存儲(chǔ)單元8以及第二閾值存儲(chǔ)單元9。
接下來,將參照?qǐng)D7解釋由具有上述結(jié)構(gòu)的語音識(shí)別裝置1執(zhí)行的 處理。
圖7是概括示出了由語音識(shí)別裝置1執(zhí)行的處理的流程圖。即,如 圖7所示,當(dāng)用戶進(jìn)行發(fā)聲時(shí),語音輸入單元2利用預(yù)定的語音區(qū)間確 定標(biāo)準(zhǔn)來確定輸入語音中的語音區(qū)間,并將所確定的語音區(qū)間內(nèi)的語音 轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù)(Opl)。語音分析單元3通過分析該發(fā)聲語音數(shù)據(jù) 來計(jì)算特征量(Op2)。語音驗(yàn)證單元7然后執(zhí)行上述驗(yàn)證處理(Op3)。 即,語音驗(yàn)證單元7利用所述特征量執(zhí)行處理(驗(yàn)證處理),以輸出識(shí)別 候選項(xiàng)作為識(shí)別結(jié)果或者拋棄輸入語音。
接下來,將參照?qǐng)D8描述圖7的驗(yàn)證操作(Op3)。 圖8是概括示出了由語音驗(yàn)證單元7執(zhí)行的驗(yàn)證處理的流程圖。艮P, 如圖8所示,語音驗(yàn)證單元7通過比較通過語音分析單元3進(jìn)行的轉(zhuǎn)換 而獲得的特征量與存儲(chǔ)在聲學(xué)模型存儲(chǔ)單元6中的數(shù)據(jù),來提取包含在
語音區(qū)間中的每幀(固定時(shí)段)的音素串。語音驗(yàn)證單元7通過比較所 提取的音素串與存儲(chǔ)在識(shí)別單詞字典4中的音素序列,來計(jì)算識(shí)別詞匯
單詞的相似度(Op31)。此外,語音驗(yàn)證單元7通過比較所提取的音素串 與存儲(chǔ)在可拋棄單詞字典5中的音素序列,來計(jì)算可拋棄詞匯單詞的相 似度(Op32)。基于在Op31中計(jì)算出的識(shí)別詞匯單詞的相似度,語音驗(yàn) 證單元7從識(shí)別詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí) 別候選項(xiàng)(Op33)。此外,基于在Op32中計(jì)算出的可拋棄詞匯單詞的相 似度,語音驗(yàn)證單元7從可拋棄詞匯單詞中提取具有最高相似度的可拋 棄詞匯單詞作為拋棄候選項(xiàng)(Op34)。
這里,當(dāng)該識(shí)別候選項(xiàng)的相似度大于第二閾值時(shí)(Op35中為"是"), 語音驗(yàn)證單元7輸出該識(shí)別候選項(xiàng)作為識(shí)別結(jié)果(Op36)。另一方面,當(dāng) 該識(shí)別候選項(xiàng)的相似度小于第二閾值時(shí)(Op35中為"否"),控制前進(jìn)至 Op37。
在Op37中,當(dāng)該識(shí)別候選項(xiàng)的相似度大于第一閾值時(shí)(Op37中為 "是"),控制前進(jìn)至Op38。另一方面,當(dāng)該識(shí)別候選項(xiàng)的相似度小于第 —閾值時(shí)(Op37中為"否"),拋棄輸入語音(Op39)。
在Op38中,當(dāng)該識(shí)別候選項(xiàng)的相似度大于所述拋棄候選項(xiàng)的相似度 時(shí)(Op38中為"是"),語音驗(yàn)證單元7輸出該識(shí)別候選項(xiàng)作為識(shí)別結(jié)果 (Op36)。另一方面,當(dāng)該識(shí)別候選項(xiàng)的相似度小于所述拋棄候選項(xiàng)的相 似度時(shí)(Op38中為"否"),則語音驗(yàn)證單元7拋棄輸入語音(Op39)。
如上所述,在本實(shí)施方式的語音識(shí)別裝置1中,如果識(shí)別候選項(xiàng)的 相似度大于第二閾值,則語音驗(yàn)證單元7與拋棄候選項(xiàng)的相似度無關(guān)地 輸出該識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。應(yīng)該注意,第二閾值是輸出作為識(shí)別 結(jié)果的識(shí)別候選項(xiàng)的量度。因此,只要識(shí)別候選項(xiàng)的相似度大于第二閾 值,則即使在由于識(shí)別候選項(xiàng)和拋棄候選項(xiàng)相同或相似從而拋棄候選項(xiàng) 的相似度變得高于識(shí)別候選項(xiàng)的相似度的情況下,也可以輸出該識(shí)別候 選項(xiàng)作為識(shí)別結(jié)果。因此,在本實(shí)施方式的語音識(shí)別裝置1中,即使在 可拋棄單詞字典5中存儲(chǔ)有與識(shí)別詞匯單詞相同或相似的可拋棄詞匯單 詞,當(dāng)例如用戶對(duì)識(shí)別候選項(xiàng)發(fā)聲時(shí),用戶發(fā)聲也不會(huì)被錯(cuò)誤地拋棄。
因此,不需要按照在上述的傳統(tǒng)語音識(shí)別裝置中采用的方式(即,每當(dāng) 存儲(chǔ)在識(shí)別單詞字典中的識(shí)別詞匯單詞發(fā)生改變時(shí),通過從可拋棄單詞 數(shù)據(jù)庫中去除與識(shí)別詞匯單詞相同或相似的可拋棄詞匯單詞,并將剩余 在可拋棄單詞數(shù)據(jù)庫中的殘余可拋棄詞匯單詞存儲(chǔ)在可拋棄單詞字典 中),來更新可拋棄單詞字典。結(jié)果,即使當(dāng)存儲(chǔ)在識(shí)別單詞字典4中的 識(shí)別詞匯單詞發(fā)生改變時(shí),也能夠減小更新可拋棄單詞字典5所需的耗 時(shí)的人工操作,同時(shí)與用戶對(duì)識(shí)別詞匯單詞發(fā)聲這一事實(shí)無關(guān),防止了 用戶發(fā)聲被錯(cuò)誤地拋棄。 (實(shí)施方式2)
實(shí)施方式1描述了一個(gè)示例,在該示例中,語音驗(yàn)證單元輸出可拋 棄詞匯單詞中具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(xiàng)。與之 相對(duì)照,實(shí)施方式2描述了如下示例,在該示例中,語音驗(yàn)證單元從可 拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選 項(xiàng),并且基于補(bǔ)償數(shù)據(jù)減小所提取的拋棄候選項(xiàng)的相似度。
圖9是示意性地示出了根據(jù)本實(shí)施方式的語音識(shí)別裝置20的結(jié)構(gòu)的 框圖。S卩,根據(jù)本實(shí)施方式的語音識(shí)別裝置20是另外設(shè)置了補(bǔ)償數(shù)據(jù)存 儲(chǔ)單元21的、圖1的語音識(shí)別裝置1。此外,根據(jù)本實(shí)施方式的語音識(shí) 別裝置20設(shè)置有語音驗(yàn)證單元22,而不是圖1所示的語音驗(yàn)證單元7。 在圖9中,具有與圖1中的功能相同功能的組成部件被分配相同的附圖 標(biāo)記,并且省略對(duì)它們的詳細(xì)解釋。
補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21存儲(chǔ)用于減小拋棄候選項(xiàng)的相似度的補(bǔ)償數(shù) 據(jù)。如例如在圖IO中所示出的,補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21以補(bǔ)償數(shù)據(jù)表21a 的形式存儲(chǔ)補(bǔ)償數(shù)據(jù)。在圖IO所示的示例中,"0.1"被存儲(chǔ)為補(bǔ)償數(shù)據(jù)。 應(yīng)該注意,用于補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21的補(bǔ)償數(shù)據(jù)的存儲(chǔ)格式是任意的。
除了圖1的語音驗(yàn)證單元7的特征以外,語音驗(yàn)證單元22還設(shè)置有 這樣的特征,通過該特征可以減小拋棄候選項(xiàng)的相似度。具體地講,例 如,基于來自操作設(shè)置有語音識(shí)別裝置20的系統(tǒng)的用戶的指令,將讀信 號(hào)輸出到語音識(shí)別裝置20。通過檢測(cè)到該讀信號(hào),語音驗(yàn)證單元22讀取 存儲(chǔ)在補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21中的補(bǔ)償數(shù)據(jù)?;谒x取的補(bǔ)償數(shù)據(jù),語
音驗(yàn)證單元22減小拋棄候選項(xiàng)的相似度。
例如,讓我們假定語音驗(yàn)證單元22已提取了諸如"okayama"的拋 棄候選項(xiàng)。這里,如果拋棄候選項(xiàng)"okayama"的相似度是"0.85",則語 音驗(yàn)證單元22利用存儲(chǔ)在補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21中的補(bǔ)償數(shù)據(jù)"0.1"來 減小拋棄候選項(xiàng)"okayama"的相似度,即"0.85"。結(jié)果,拋棄候選項(xiàng)的 相似度被減小到"0.75"。語音驗(yàn)證單元22執(zhí)行處理,其中,基于拋棄候 選項(xiàng)"okay謹(jǐn)"的相似度(即"0.75"),語音驗(yàn)證單元22輸出識(shí)別候選 項(xiàng)作為識(shí)別結(jié)果或者拋棄輸入語音。即,當(dāng)拋棄候選項(xiàng)的相似度降低時(shí), 語音識(shí)別裝置20的識(shí)別率上升。這使得用戶可以向語音驗(yàn)證單元22發(fā) 出關(guān)于是否根據(jù)采用語音識(shí)別裝置20的系統(tǒng)的實(shí)際情況(使用條件等) 來減小拋棄候選項(xiàng)的相似度的指令。 —
此外,通過將軟件程序安裝在諸如個(gè)人計(jì)算機(jī)等的任何計(jì)算機(jī)上, 來實(shí)現(xiàn)上述語音識(shí)別裝置20。換言之,通過根據(jù)包括這些功能的軟件程 序而運(yùn)行的計(jì)算機(jī)CPU,來實(shí)現(xiàn)上述語音驗(yàn)證單元22。因此,包括了語 音驗(yàn)證單元22的功能的軟件程序或者其上記錄有該程序的記錄介質(zhì)代表 本發(fā)明的實(shí)施方式。此外,使用包括在計(jì)算機(jī)中的內(nèi)置存儲(chǔ)裝置或計(jì)算 機(jī)可訪問的存儲(chǔ)裝置來實(shí)現(xiàn)補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21。
接下來,將參照?qǐng)D11解釋由在具有上述結(jié)構(gòu)的語音識(shí)別裝置20中 采用的語音驗(yàn)證單元22執(zhí)行的驗(yàn)證處理。在圖11中,示出與圖8中的 處理相同的處理的部分被分配相同的附圖標(biāo)記,并且省略對(duì)它們的詳細(xì) 解釋。
圖11是概括示出了由語音驗(yàn)證單元22執(zhí)行的驗(yàn)證處理的流程圖。 在圖11所示的處理中,Op51設(shè)置在Op34與Op35之間。即,在Op51 中,語音驗(yàn)證單元22基于存儲(chǔ)在補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21中的補(bǔ)償數(shù)據(jù), 減小拋棄候選項(xiàng)的相似度。當(dāng)拋棄候選項(xiàng)的相似度減小時(shí),在Op38中將 識(shí)別候選項(xiàng)輸出作為識(shí)別結(jié)果變得更容易。即,當(dāng)拋棄候選項(xiàng)的相似度 降低時(shí),語音識(shí)別裝置20的識(shí)別率上升。
應(yīng)該注意,盡管使用了語音驗(yàn)證單元22基于補(bǔ)償數(shù)據(jù)減小拋棄候選 項(xiàng)的相似度的示例給出以上解釋,但是本發(fā)明不限于此。語音驗(yàn)證單元
22例如可以基于補(bǔ)償數(shù)據(jù)來增大拋棄候選項(xiàng)的相似度。當(dāng)拋棄候選項(xiàng)的 相似度增大時(shí),在Op38中拋棄輸入語音變得更容易。即,當(dāng)拋棄候選項(xiàng)
的相似度增大時(shí),語音識(shí)別裝置20的識(shí)別率下降。
此外,盡管使用了語音驗(yàn)證單元22基于補(bǔ)償數(shù)據(jù)增大或減小拋棄候 選項(xiàng)的相似度的示例給出以上解釋,但是本發(fā)明不限于此。語音驗(yàn)證單 元22例如可以基于補(bǔ)償數(shù)據(jù)增大或減小識(shí)別候選項(xiàng)的相似度。當(dāng)識(shí)別候 選項(xiàng)的相似度增大時(shí),在Op35、 Op37和Op38中將識(shí)別候選項(xiàng)輸出作為 識(shí)別結(jié)果變得更容易。即,當(dāng)識(shí)別候選項(xiàng)的相似度增大時(shí),語音識(shí)別裝 置20的識(shí)別率上升。另一方面,當(dāng)識(shí)別候選項(xiàng)的相似度降低時(shí),在Op35、 Op37和Op38中拋棄輸入語音變得更容易。即,當(dāng)識(shí)別候選項(xiàng)的相似度 減小時(shí),語音識(shí)別裝置20的識(shí)別率下降。
此外,盡管使用了補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21存儲(chǔ)針對(duì)所有識(shí)別詞匯單詞 或所有可拋棄詞匯單詞同時(shí)有效的補(bǔ)償數(shù)據(jù)的示例給出以上解釋,但是 本發(fā)明不限于此。補(bǔ)償數(shù)據(jù)存儲(chǔ)單元21例如可以存儲(chǔ)分別對(duì)應(yīng)于各個(gè)識(shí) 別詞匯單詞或各個(gè)可拋棄詞匯單詞的補(bǔ)償數(shù)據(jù)。在這種情況下,語音驗(yàn) 證單元22基于分別對(duì)應(yīng)于各個(gè)識(shí)別詞匯單詞或各個(gè)可拋棄詞匯單詞的補(bǔ) 償數(shù)據(jù),增大或減小識(shí)別候選項(xiàng)的相似度或拋棄候選項(xiàng)的相似度。
如上所述,在根據(jù)本實(shí)施方式的語音識(shí)別裝置20中,語音驗(yàn)證單元 22基于補(bǔ)償數(shù)據(jù),增大或減小識(shí)別候選項(xiàng)的相似度和拋棄候選項(xiàng)的相似 度中的至少一個(gè)相似度。如果語音驗(yàn)證單元22減小識(shí)別候選項(xiàng)的相似度 或者增大拋棄候選項(xiàng)的相似度,則語音識(shí)別裝置20的識(shí)別率下降。另一 方面,如果語音驗(yàn)證單元22增大識(shí)別候選項(xiàng)的相似度或者減小拋棄候選 項(xiàng)的相似度,則語音識(shí)別裝置20的識(shí)別率上升。這使得可以實(shí)現(xiàn)如下的 語音識(shí)別裝置20,該語音識(shí)別裝置20適于設(shè)置有該語音識(shí)別裝置20的 系統(tǒng)的實(shí)際情況(使用條件等)。 (實(shí)施方式3)
基于第二閾值存儲(chǔ)單元9存儲(chǔ)針對(duì)所有識(shí)別詞匯單詞同時(shí)有效的第 二閾值的示例解釋了實(shí)施方式1和實(shí)施方式2。與之相對(duì)照,將使用如下 示例解釋實(shí)施方式3,在該示例中第二閾值存儲(chǔ)單元9存儲(chǔ)分別對(duì)應(yīng)于各
個(gè)識(shí)別詞匯單詞的第二閾值。
圖12是示意性地示出了根據(jù)本實(shí)施方式的語音識(shí)別裝置30的結(jié)構(gòu) 的框圖。根據(jù)本實(shí)施方式的語音識(shí)別裝置30設(shè)置有第二閾值存儲(chǔ)單元31,
而不是圖9所示的第二閾值存儲(chǔ)單元9。在圖12中,具有與圖9中的功 能相同的功能的組成部件被分配相同的附圖標(biāo)記,并且省略對(duì)它們的詳 細(xì)解釋。
對(duì)于每個(gè)識(shí)別詞匯單詞,第二閾值存儲(chǔ)單元31存儲(chǔ)有一第二閾值, 該第二閾值大于第一閾值并且用作輸出作為識(shí)別結(jié)果的識(shí)別候選項(xiàng)的量 度。如例如在圖13中所示出的,第二閾值存儲(chǔ)單元31以第二閾值存儲(chǔ) 表31 a的形式存儲(chǔ)第二閾值。在圖13所示的示例中,第二閾值存儲(chǔ)表31 a 存儲(chǔ)有單詞ID和第二閾值。單詞ID對(duì)應(yīng)于存儲(chǔ)在識(shí)別單詞字典4中的 單詞ID。應(yīng)該注意,使用包括在計(jì)算機(jī)中的內(nèi)置存儲(chǔ)裝置或計(jì)算機(jī)可訪 問的存儲(chǔ)裝置來實(shí)現(xiàn)第二閾值存儲(chǔ)單元31。此外,用于第二閾值存儲(chǔ)單 元31的第二閾值的存儲(chǔ)格式是任意的。
在圖13所示的示例中,第二閾值存儲(chǔ)表31a的第一行R1存儲(chǔ)有單 詞ID "001"和第二閾值"0.7"。第二行R2存儲(chǔ)有單詞ID "002"和第 二閾值"0.8"。第三行R3存儲(chǔ)有單詞ID "003"和第二閾值"0.7"。第 四行R4存儲(chǔ)有單詞ID "004"和第二閾值"0.8"。第五行R5存儲(chǔ)有單 詞ID "005"和第二閾值"0.7"。第六行R6存儲(chǔ)有單詞ID "006"和第 二閾值"0.7"。第七行R7存儲(chǔ)有單詞ID "007"和第二閾值"0.9"。換 言之,在圖13所示的示例中,以如下方式設(shè)置第二閾值對(duì)于較短的識(shí) 別詞匯單詞,使第二閾值較大,同時(shí),對(duì)于較長的識(shí)別詞匯單詞,使第 二閾值較小。
此外,盡管使用如下示例給出以上解釋,在該示例中,多個(gè)識(shí)別詞 匯單詞和關(guān)于多個(gè)識(shí)別詞匯單詞的信息被存儲(chǔ)在識(shí)別單詞字典4中,并 且分別對(duì)應(yīng)于各個(gè)識(shí)別詞匯單詞的第二閾值被存儲(chǔ)在第二閾值存儲(chǔ)單元 31中;但是本發(fā)明不限于此。例如可將存儲(chǔ)在第二閾值存儲(chǔ)單元31中的 第二閾值設(shè)置在識(shí)別單詞字典4中。
圖14是示意性地示出了在將第二閾值存儲(chǔ)在識(shí)別單詞字典中的情
況下的語音識(shí)別裝置30a的結(jié)構(gòu)的框圖。S卩,圖14所示的語音識(shí)別裝置 30a沒有設(shè)置圖12所示的識(shí)別單詞字典4,而是設(shè)置了識(shí)別單詞字典32。 在圖14中,具有與圖12的功能相同的功能的組成部件被分配相同的附 圖標(biāo)記。識(shí)別單詞字典32存儲(chǔ)多個(gè)識(shí)別詞匯單詞、關(guān)于該多個(gè)識(shí)別詞 匯單詞的信息、以及第二閾值。如例如在圖15中所示出的,識(shí)別單詞字 典32以識(shí)別單詞字典表32a的形式存儲(chǔ)這些信息項(xiàng)。在圖15所示的示 例中,識(shí)別單詞字典表32a存儲(chǔ)有單詞ID、單詞拼寫、單詞讀音、音素 序列、以及第二閾值。應(yīng)該注意,用于識(shí)別單詞字典32中的這些信息項(xiàng) 的存儲(chǔ)格式是任意的。此外,在圖14所示的語音識(shí)別裝置30a中,識(shí)別 單詞字典32對(duì)應(yīng)于在權(quán)利要求書中提到的識(shí)別單詞字典和第二閾值存儲(chǔ) 單元。
如上所述,在根據(jù)本實(shí)施方式的語音識(shí)別裝置30和30a中,在第二 閾值存儲(chǔ)單元31或識(shí)別單詞字典32中存儲(chǔ)分別對(duì)應(yīng)于各個(gè)識(shí)別詞匯單 詞的第二閾值。這使語音驗(yàn)證單元22可以響應(yīng)于識(shí)別詞匯單詞來改變用 于輸出作為識(shí)別結(jié)果的識(shí)別候選項(xiàng)的量度。 (實(shí)施方式4)
使用設(shè)置有一個(gè)可拋棄單詞字典的示例解釋了實(shí)施方式1至3。與 之相對(duì)照,將使用設(shè)置有具有不同數(shù)目的可拋棄詞匯單詞的多個(gè)可拋棄 單詞字典的示例來解釋實(shí)施方式4。
圖16是示意性地示出了根據(jù)本實(shí)施方式的語音識(shí)別裝置40的結(jié)構(gòu) 的框圖。根據(jù)本實(shí)施方式的語音識(shí)別裝置40沒有設(shè)置圖12所示的可拋 棄單詞字典5,而是設(shè)置了多個(gè)可拋棄單詞字典41a至41c。此外,根據(jù) 本實(shí)施方式的語音識(shí)別裝置40是另外設(shè)置了選擇單元42的、圖12所示 的語音識(shí)別裝置30。應(yīng)該注意,盡管為了簡化說明圖16示出了三個(gè)可拋 棄單詞字典41a至41c,但是構(gòu)成語音識(shí)別裝置40的一部分的可拋棄單 詞字典的數(shù)目是任意的。
按照與圖12的可拋棄單詞字典5相同的方式,可拋棄單詞字典41a 至41c存儲(chǔ)多個(gè)可拋棄詞匯單詞和關(guān)于該多個(gè)可拋棄詞匯單詞的信息。 可拋棄單詞字典41a至41c是具有不同數(shù)目的可拋棄詞匯單詞的多個(gè)可
拋棄單詞字典。在本實(shí)施方式中,作為示例,可拋棄單詞字典41a存儲(chǔ) 有100個(gè)可拋棄詞匯單詞??蓲仐墕卧~字典41b存儲(chǔ)有500個(gè)可拋棄詞 匯單詞,包括存儲(chǔ)在可拋棄單詞字典41a中的所述100個(gè)可拋棄詞匯單 詞??蓲仐墕卧~字典41c存儲(chǔ)有900個(gè)可拋棄詞匯單詞,包括存儲(chǔ)在可 拋棄單詞字典41b中的所述500個(gè)可拋棄詞匯單詞。
選擇單元42基于存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目, 從多個(gè)可拋棄單詞字典41a至41c之中選擇要由語音驗(yàn)證單元22進(jìn)行相 似度計(jì)算的可拋棄單詞字典。在本實(shí)施方式中,選擇單元42按如下方式 選擇可拋棄單詞字典使識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目與可 拋棄單詞字典中的可拋棄詞匯單詞的數(shù)目之和為約1000個(gè)單詞。例如, 如果存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目是900個(gè)單詞,則 選擇單元42選擇存儲(chǔ)有100個(gè)可拋棄詞匯單詞的可拋棄單詞字典41a。 此外,例如,如果存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目是500 個(gè)單詞,則選擇單元42選擇存儲(chǔ)有500個(gè)可拋棄詞匯單詞的可拋棄單詞 字典41b。此外,例如,如果存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的 數(shù)目是100個(gè)單詞,則選擇單元42選擇存儲(chǔ)有900個(gè)可拋棄詞匯單詞的 可拋棄單詞字典41c。換言之,隨著存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯 單詞的數(shù)目增加,選擇單元42選擇具有較少數(shù)目的可拋棄詞匯單詞的可 拋棄單詞字典。結(jié)果,可以使要由語音驗(yàn)證單元22進(jìn)行相似度計(jì)算的可 拋棄詞匯單詞和識(shí)別詞匯單詞的數(shù)目保持恒定。
此外,通過將軟件程序安裝在諸如個(gè)人計(jì)算機(jī)等的任何計(jì)算機(jī)上, 來實(shí)現(xiàn)上述語音識(shí)別裝置40。換言之,通過根據(jù)包括這些功能的軟件程 序而運(yùn)行的計(jì)算機(jī)CPU來實(shí)現(xiàn)上述選擇單元41。因此,包括選擇單元 41的功能的軟件程序或其上記錄有該程序的記錄介質(zhì)代表本發(fā)明的實(shí)施 方式。此外,使用包括在計(jì)算機(jī)中的內(nèi)置存儲(chǔ)裝置或計(jì)算機(jī)可訪問的存 儲(chǔ)裝置,來實(shí)現(xiàn)可拋棄單詞字典41a至41c。
如上所述,在根據(jù)本實(shí)施方式的語音識(shí)別裝置40中,選擇單元42 基于存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目,從多個(gè)可拋棄單 詞字典41a至41c中選擇要由語音驗(yàn)證單元22進(jìn)行相似度計(jì)算的可拋棄
單詞字典。例如,隨著存儲(chǔ)在識(shí)別單詞字典4中的識(shí)別詞匯單詞的數(shù)目 增加,選擇單元42選擇具有較少數(shù)目的可拋棄詞匯單詞的可拋棄單詞字
典。這可以使語音識(shí)別裝置40的識(shí)別速度保持恒定,并且避免導(dǎo)致語音 識(shí)別裝置40的識(shí)別速度降低。
因此,本發(fā)明作為一種語音識(shí)別裝置、語音識(shí)別方法和其上記錄有 語音識(shí)別軟件程序的記錄介質(zhì)是有用的,其在用戶對(duì)識(shí)別詞匯單詞發(fā)聲 時(shí)能夠防止用戶發(fā)聲被錯(cuò)誤地拋棄,并且同時(shí)即使當(dāng)存儲(chǔ)在識(shí)別單詞字 典中的識(shí)別詞匯單詞發(fā)生改變時(shí)也能夠減少更新可拋棄單詞字典所需的 耗時(shí)的人工操作。
應(yīng)該注意,所有上述解釋的實(shí)施方式僅是本發(fā)明的說明性示例,并 且不應(yīng)基于這些實(shí)施方式來限制性地解釋本發(fā)明。本發(fā)明的范圍在權(quán)利 要求書而不是上述實(shí)施方式中指明,并且本發(fā)明的范圍旨在包括權(quán)利要 求書的等同物的意義和范圍內(nèi)的所有變型。
權(quán)利要求
1、一種語音識(shí)別裝置,該語音識(shí)別裝置包括語音輸入單元,其將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù);語音分析單元,其將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量;識(shí)別單詞字典,其存儲(chǔ)多個(gè)識(shí)別詞匯單詞;可拋棄單詞字典,其存儲(chǔ)多個(gè)可拋棄詞匯單詞;語音驗(yàn)證單元,其利用通過所述語音分析單元進(jìn)行的轉(zhuǎn)換而獲得的特征量,計(jì)算所述輸入語音與存儲(chǔ)在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別詞匯單詞之間的相似度,利用通過所述語音分析單元進(jìn)行的轉(zhuǎn)換而獲得的特征量,計(jì)算所述輸入語音與存儲(chǔ)在所述可拋棄單詞字典中的所述多個(gè)可拋棄詞匯單詞之間的相似度,并且,作為計(jì)算這些相似度的結(jié)果,從所述識(shí)別詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候選項(xiàng),并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(xiàng);第一閾值存儲(chǔ)單元,其存儲(chǔ)用作拋棄所述輸入語音的量度的第一閾值;以及第二閾值存儲(chǔ)單元,其存儲(chǔ)第二閾值,所述第二閾值大于所述第一閾值并且用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度,其中,如果所述識(shí)別候選項(xiàng)的相似度大于所述第二閾值,則所述語音驗(yàn)證單元輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果,并且如果所述識(shí)別候選項(xiàng)的相似度小于所述第二閾值,則當(dāng)所述識(shí)別候選項(xiàng)的相似度大于所述第一閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似度高于所述拋棄候選項(xiàng)的相似度時(shí),所述語音驗(yàn)證單元輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
2、 如權(quán)利要求1所述的語音識(shí)別裝置,其中,如果所述識(shí)別候選項(xiàng)的相似度大于所述第一閾值,則當(dāng)所述 識(shí)別候選項(xiàng)的相似度小于所述第二閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似 度小于所述拋棄候選項(xiàng)的相似度時(shí),所述語音驗(yàn)證單元拋棄所述輸入語 音,并且如果所述識(shí)別候選項(xiàng)的相似度小于所述第一閾值,則所述語音驗(yàn)證 單元拋棄所述輸入語音。
3、 如權(quán)利要求1所述的語音識(shí)別裝置,該語音識(shí)別裝置還包括補(bǔ)償 數(shù)據(jù)存儲(chǔ)單元,所述補(bǔ)償數(shù)據(jù)存儲(chǔ)單元存儲(chǔ)用于改變所述識(shí)別候選項(xiàng)的 相似度和所述拋棄候選項(xiàng)的相似度中的至少一個(gè)相似度的補(bǔ)償數(shù)據(jù),其中,所述語音驗(yàn)證單元基于所述補(bǔ)償數(shù)據(jù),改變所述識(shí)別候選項(xiàng) 的相似度和所述拋棄候選項(xiàng)的相似度中的至少一個(gè)相似度。
4、 如權(quán)利要求1所述的語音識(shí)別裝置,其中,所述第二閾值存儲(chǔ)單元存儲(chǔ)分別對(duì)應(yīng)于各個(gè)所述識(shí)別詞匯單詞的多個(gè)第二閾值。
5、 如權(quán)利要求1所述的語音識(shí)別裝置,該語音識(shí)別裝置還包括多個(gè)可拋棄單詞字典,其分別包含不同數(shù)目的可拋棄詞匯單詞;以及選擇單元,其基于存儲(chǔ)在所述識(shí)別單詞字典中的識(shí)別詞匯單詞的數(shù) 目,從所述多個(gè)可拋棄單詞字典中選擇要由所述語音驗(yàn)證單元進(jìn)行相似 度計(jì)算的可拋棄單詞字典。
6、 一種語音識(shí)別方法,其中,設(shè)置有存儲(chǔ)有多個(gè)識(shí)別詞匯單詞的識(shí)別單詞字典和存儲(chǔ)有多個(gè)可拋棄詞匯單詞的可拋棄單詞字典的計(jì)算機(jī)執(zhí)行如下步驟 語音輸入步驟,將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù); 語音分析步驟,將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量;以及 語音驗(yàn)證步驟,利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得的特 征量,計(jì)算所述輸入語音與存儲(chǔ)在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別 詞匯單詞之間的相似度,利用通過在所述語音分析步驟中的轉(zhuǎn)換而獲得 的特征量,計(jì)算所述輸入語音與存儲(chǔ)在所述可拋棄單詞字典中的所述多 個(gè)可拋棄詞匯單詞之間的相似度,并且,作為計(jì)算這些相似度的結(jié)果, 從所述識(shí)別詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候 選項(xiàng),并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯 單詞作為拋棄候選項(xiàng); 所述計(jì)算機(jī)能夠訪問第一閾值存儲(chǔ)單元和第二閾值存儲(chǔ)單元,所述 第一閾值存儲(chǔ)單元存儲(chǔ)用作拋棄所述輸入語音的量度的第一閾值,所述 第二閾值存儲(chǔ)單元存儲(chǔ)第二閾值,所述第二閾值大于所述第一閾值并且 用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度,并且所述語音驗(yàn)證步驟還包括如下步驟如果所述識(shí)別候選項(xiàng)的相似度大于所述第二閾值,則輸出所述識(shí)別 候選項(xiàng)作為識(shí)別結(jié)果,以及如果所述識(shí)別候選項(xiàng)的相似度小于所述第二閾值,則當(dāng)所述識(shí)別候 選項(xiàng)的相似度大于所述第一閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似度高于 所述拋棄候選項(xiàng)的相似度時(shí),輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
7、 一種記錄介質(zhì),其上記錄有語音識(shí)別軟件程序,該語音識(shí)別軟件 程序使得設(shè)置有存儲(chǔ)有多個(gè)識(shí)別詞匯單詞的識(shí)別單詞字典和存儲(chǔ)有多個(gè) 可拋棄詞匯單詞的可拋棄單詞字典的計(jì)算機(jī)執(zhí)行語音識(shí)別處理,其中,使所述計(jì)算機(jī)執(zhí)行如下處理語音輸入處理,將輸入語音轉(zhuǎn)換成發(fā)聲語音數(shù)據(jù);語音分析處理,將所述發(fā)聲語音數(shù)據(jù)轉(zhuǎn)換成特征量;以及語音驗(yàn)證處理,利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得的特 征量,計(jì)算所述輸入語音與存儲(chǔ)在所述識(shí)別單詞字典中的所述多個(gè)識(shí)別 詞匯單詞之間的相似度,利用通過在所述語音分析處理中的轉(zhuǎn)換而獲得 的特征量,計(jì)算所述輸入語音與存儲(chǔ)在所述可拋棄單詞字典中的所述多 個(gè)可拋棄詞匯單詞之間的相似度,并且,作為計(jì)算這些相似度的結(jié)果, 從所述識(shí)別詞匯單詞中提取具有最高相似度的識(shí)別詞匯單詞作為識(shí)別候 選項(xiàng),并且從所述可拋棄詞匯單詞中提取具有最高相似度的可拋棄詞匯單詞作為拋棄候選項(xiàng);并且所述計(jì)算機(jī)能夠訪問第一閾值存儲(chǔ)單元和第二閾值存儲(chǔ)單元,所述 第一閾值存儲(chǔ)單元存儲(chǔ)用作拋棄所述輸入語音的量度的第一閾值,所述 第二閾值存儲(chǔ)單元存儲(chǔ)第二閾值,所述第二閾值大于所述第一閾值并且 用作輸出作為識(shí)別結(jié)果的所述識(shí)別候選項(xiàng)的量度,并且所述語音驗(yàn)證處理還包括使所述計(jì)算機(jī)執(zhí)行如下處理- 如果所述識(shí)別候選項(xiàng)的相似度大于所述第二閾值,則輸出所述識(shí)別 候選項(xiàng)作為識(shí)別結(jié)果,以及如果所述識(shí)別候選項(xiàng)的相似度小于所述第二閾值,則當(dāng)所述識(shí)別候 選項(xiàng)的相似度大于所述第一閾值并且同時(shí)所述識(shí)別候選項(xiàng)的相似度高于 所述拋棄候選項(xiàng)的相似度時(shí),輸出所述識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。
全文摘要
本發(fā)明提供了語音識(shí)別裝置、方法和記錄有語音識(shí)別軟件程序的記錄介質(zhì)。當(dāng)識(shí)別候選項(xiàng)的相似度大于第二閾值時(shí),語音驗(yàn)證單元輸出識(shí)別候選項(xiàng)作為識(shí)別結(jié)果,并且當(dāng)識(shí)別候選項(xiàng)的相似度小于第二閾值時(shí),如果該識(shí)別候選項(xiàng)的相似度大于第一閾值并且同時(shí)該識(shí)別候選項(xiàng)的相似度大于拋棄候選項(xiàng)的相似度,則語音驗(yàn)證單元輸出識(shí)別候選項(xiàng)作為識(shí)別結(jié)果。應(yīng)該注意,第一閾值是用于拋棄輸入語音的量度。第二閾值大于第一閾值并且用作用于輸出作為識(shí)別結(jié)果的識(shí)別候選項(xiàng)的量度。
文檔編號(hào)G10L15/00GK101188109SQ20071018879
公開日2008年5月28日 申請(qǐng)日期2007年11月20日 優(yōu)先權(quán)日2006年11月20日
發(fā)明者原田將治 申請(qǐng)人:富士通株式會(huì)社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1