專利名稱:聲音識別用辭典編制裝置和聲音識別裝置的制作方法
技術領域:
本發(fā)明涉及對以非特定講話人為對象的聲音識別裝置中所使用的辭典進行編制的聲音識別用辭典編制裝置以及利用該辭典來識別聲音的聲音識別裝置。
背景技術:
過去,在以非特定的講話人為對象的聲音識別裝置中,規(guī)定識別詞匯的聲音識別用辭典是必不可少的。識別對象詞匯在系統(tǒng)設計時能夠規(guī)定的情況下,采用了事先編制的聲音識別用辭典,但在不能規(guī)定詞匯的情況下,或者應動態(tài)更改的情況下,通過人工輸入或者自動根據(jù)字符串信息來編制聲音識別用詞匯,并登記在辭典中。例如,電視節(jié)目切換裝置中的聲音識別裝置中,對包含節(jié)目信息的字符串信息進行形態(tài)要素分析,求出其標注的讀音,把得到的讀音登記在上述聲音識別用辭典中。例如對于“NHK新聞10”這一節(jié)目,把它的讀音“えぬえいちけいにゆ-すてん”作為表示該節(jié)目的單詞登記在聲音識別用辭典中。這樣,對用戶的“えぬえいちけいにゆ-すてん”這一發(fā)音,能夠實現(xiàn)把頻道切換到“NHK新聞10”上的功能。
并且,有一種方法是,考慮到用戶不是說完整的單詞,將其分割成構成復合單詞的單詞,并將由重新連接的部分字符串構成的改變說法的表現(xiàn)登記在辭典中(例如,特開2002-41081號公報公開的技術)。上述公報中所述的聲音識別用辭典編制裝置,對作為字符串信息而輸入的單詞進行分析,考慮全部讀音和全部連接單詞,編制發(fā)音單位/讀音的搭配,登記到聲音識別用辭典中。這樣,例如,希望對于上述“NHK新聞10”這一節(jié)目名稱,把“えぬえいちけいにゆ-す”、“にゆ-すてん”這樣的讀音登記到辭典中,即可正確地處理用戶的這些發(fā)音。
再者,上述聲音識別用辭典編制方法,提出了以下方法考慮上述改變說法的表現(xiàn)中附加的表示讀音準確性的優(yōu)良度、構成改變說法表現(xiàn)的單詞的出現(xiàn)順序、該單詞在改變說法表現(xiàn)中利用的頻率等進行加權,丙登記在聲音識別用辭典中。這樣,作為改變說法表現(xiàn),希望通過語音核對而選擇出更準確的單詞。
這樣,上述過去的聲音識別用辭典編制方法的目的在于對輸入的字符串信息進行分析,重新構成所有組合的單詞串,將其作為該單詞的改變說法表現(xiàn),將其讀音登記在聲音識別用辭典中,這樣,不僅能夠適應正式的單詞發(fā)音,而且也能夠適應用戶的任意省略的發(fā)音。
然而,上述過去的聲音識別用辭典編制方法,存在下列問題。
也就是說,首先,第1、在全包羅地生成了所有組合的字符串的情況下,其數(shù)量龐大。將其全部登記在聲音識別用辭典中的情況下,辭典巨大,由于計算量增加,以及類似音韻的許多單詞進行登記,有可能造成識別率降低。再者,由不同單詞生成的上述改變說法的表現(xiàn)變成相同的字符串、相同讀音的可能性大,比如即使想要正確地對其進行識別,也很難認出用戶的發(fā)音本來的意圖是哪個單詞。
并且,利用上述過去的聲音識別用辭典編制方法,為了從登記的非常多的改變說法的表現(xiàn)候補中選擇出看起來更正確的,主要利用與在改變說法的表現(xiàn)中表示的單詞相關的近似度(尤度),求出改變說法的表現(xiàn)的權重。但是,例如考慮到對“金曜ドラマ”進行縮略而發(fā)出“きんどら”的語音的這種情況下,決定生成改變說法的表現(xiàn)的主要原因除了組合使用的單詞外,并未考慮從所使用的單詞中抽出的音韻的個數(shù)以及作為各種音韻的連接的日語的自然性所產生的影響。因此,存在的問題是對改變說法的表現(xiàn)的近似度達不到適當值。
再者,單詞的改變說法的表現(xiàn),在對單詞加以特定的情況下,大致上是一一對應的,尤其在限定用戶的情況下,可以認為其趨勢是極顯著的。上述過去的聲音識別用辭典編制方法,對考慮了這種改變說法表現(xiàn)的使用履歷的改變說法的表現(xiàn)生成未進行控制,所以存在的問題是不能適當壓縮那種生成并登記在識別辭典中的改變說法的表現(xiàn)的個數(shù)。
發(fā)明內容
因此,本發(fā)明的目的在于提供高效率地編制省略單詞的改變說法的表現(xiàn)也能夠高效率識別的聲音識別用辭典的聲音識別用辭典編制裝置、以及利用這樣編制的聲音識別用辭典的節(jié)省資源且高性能的聲音識別裝置。
為了達到上述目的,本發(fā)明的聲音識別用辭典編制裝置,編制聲音識別用辭典,其特征在于,具有縮略語生成單元,對于由一個或一個以上的單詞構成的識別對象語,根據(jù)考慮了發(fā)音的容易程度的規(guī)則,生成上述識別對象語的縮略語;詞匯存儲單元,將已生成的縮略語和上述識別對象語一同作為上述聲音識別用辭典進行存儲。這樣,根據(jù)考慮了發(fā)音容易程度的規(guī)則,生成上述識別對象語的縮略語,并作為聲音識別用辭典進行登記,所以,能夠實現(xiàn)高效率地編制聲音識別用辭典的聲音識別用辭典編制裝置,該聲音識別用辭典可對省略單詞的改變說法的表現(xiàn)也能夠以高識別率進行識別。
在此,上述聲音識別用辭典編制裝置還具有上述聲音識別用辭典編制裝置還具有單詞劃分單元,把上述識別對象語劃分成結構單詞;以及音節(jié)(mora)串生成單元,根據(jù)被劃分的每個結構單詞的讀音,生成每個結構單詞的音節(jié)串,上述縮略語生成單元根據(jù)由上述音節(jié)串生成裝置生成的每個結構單詞的音節(jié)串,從每個結構單詞的音節(jié)串取出音節(jié)并進行連接,由此生成由一個或一個以上的音節(jié)構成的縮略語。這時,上述縮略語生成裝置也可以具有縮略語生成規(guī)則存儲部,存儲采用音節(jié)的縮略語生成規(guī)則;候補生成部,從上述每個結構單詞的音節(jié)串中取出音節(jié)并進行連接,來生成由一個或一個以上的音節(jié)構成的縮略語的候補;以及縮略語決定部,通過對已生成的縮略語的候補適用上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來決定最終生成的縮略語。
根據(jù)上述結構制成的聲音識別用辭典編制裝置,實現(xiàn)構筑從結構單詞的音節(jié)串中抽出部分音節(jié)串、并將其連接起來構成縮略語表現(xiàn)的規(guī)則。這樣,對新的識別對象語也能夠生成可能性大的縮略語表現(xiàn),并將其作為識別詞匯登記在識別用辭典中,由此,能夠實現(xiàn)不僅能夠正確識別對象語、而且能夠正確識別該單詞的縮略語表現(xiàn)的發(fā)音聲音識別裝置。
并且,在上述縮略語生成規(guī)則存儲部中存儲多個生成規(guī)則,上述縮略語決定部對已生成的縮略語的候補,計算出上述縮略語生成規(guī)則存儲部中存儲的多個規(guī)則分別對應的近似度,通過對已算出的近似度綜合考慮,決定發(fā)音概率,上述詞匯存儲單元將由上述縮略語決定部決定的縮略語及發(fā)音概率與上述識別對象語一同進行存儲。在此,也可以上述縮略語決定部,將上述多個規(guī)則分別對應的近似度乘上對應的加權系數(shù)而獲得的值進行合計,來決定上述發(fā)音概率。并且,也可以上述縮略語決定部,在上述縮略語的候補的發(fā)音概率超過一定閾值的情況下,決定為最終生成的縮略語。
根據(jù)上述結構,對識別對象語生成的1個或1個詞以上的縮略語,分別計算出發(fā)音概率,在上述聲音識別用辭典中與縮略語關聯(lián)起來進行存儲。這樣,能夠編制可實現(xiàn)如下聲音識別裝置的聲音識別用辭典,該聲音識別裝置即使在對一個詞的識別對象語生成了2個或2個詞以上的縮略語的情況下,也不由這些縮略語集中到一個詞上,而是將與已計算出的發(fā)音概率對應的權重賦予各縮略語,對于預計比較難于作為縮略語使用的縮略語賦予低的概率,在與聲音核對時能夠表現(xiàn)出高的識別精度。
并且,在上述縮略語生成規(guī)則存儲部中,存儲了與單詞搭配有關的第1規(guī)則,上述縮略語決定部可以根據(jù)上述第1規(guī)則,從上述候補中決定最終生成的縮略語。例如,在上述第1規(guī)則中也可以包括通過使修飾語和被修飾語配成對而生成縮略語的條件;也可以包括構成縮略語的修飾語和被修飾語的距離與上述近似度的關系。
根據(jù)上述結構,在生成與識別對象語相對應的縮略語時,能夠考慮構成識別對象語的單詞之間的關系,能夠生成基于結構單詞之間的關系的縮略語。這樣,能夠編制可實現(xiàn)如下的聲音識別裝置的聲音識別用辭典,該生意識別裝置在識別對象語中所包含的結構單詞中除去包含在縮略語中的可能性小的單詞,或者相反重點使用包含在縮略語中的可能性大的單詞,能夠生成更適當?shù)目s略語,并能夠避免把使用的可能性小的縮略語登記在識別用辭典中的情況,具有高的識別精度。
并且,在上述縮略語生成規(guī)則存儲部中存儲第2規(guī)則,該第2規(guī)則涉及生成縮略語時從結構單詞的音節(jié)串中取出的部分音節(jié)串的長度及該取出的部分音節(jié)串在結構單詞中的位置中的至少一個,上述縮略語決定部可以根據(jù)上述第2規(guī)則,從上述候補者中決定最終生成的縮略語。例如,在上述第2規(guī)則中可以包括表示上述部分音節(jié)串的長度的音節(jié)數(shù)和上述近似度的關系;在上述第2規(guī)則中也可以包括音節(jié)數(shù)和上述近似度的關系,所述音節(jié)數(shù)表示上述部分音節(jié)串在結構單詞中的位置、并對應于從結構單詞的開頭起的距離。
根據(jù)上述結構,能夠考慮在連接構成該單詞的單詞的部分音節(jié)來生成縮略語時的、抽出的部分音節(jié)串的個數(shù)和各個音節(jié)的出現(xiàn)位置、生成的縮略語的總音節(jié)個數(shù)。這樣,能夠利用叫做音節(jié)的日語等語言中的音韻的基本單位,使由多個單詞構成的單詞和長的單詞按音韻切短來生成縮略語時的與音韻抽出有關的一般的趨勢具有規(guī)則化。因此,在生成對應于識別對象語的縮略語的情況下,能夠生成更適當?shù)目s略語,能夠避免把使用的可能性小的縮略語登記在識別用辭典中,能夠編制可實現(xiàn)具有高識別精度的聲音識別裝置的聲音識別用辭典。
并且,在上述縮略語生成規(guī)則存儲部中,存儲與構成縮略語的部分音節(jié)串的連接有關的第3規(guī)則,上述縮略語決定部可以根據(jù)上述第3規(guī)則,從上述候補中決定最終生成的縮略語。例如,在上述第3規(guī)則中可以包括這樣的規(guī)則,該規(guī)則表示連接的2個部分音節(jié)串中位于前面的部分音節(jié)串的最后音節(jié)和位于后面的部分音節(jié)串的開頭音節(jié)的組合與上述近似度的關系。
根據(jù)上述結構,在從多個單詞構成的單詞和長的單詞生成縮略語時,使作為日語等語言其音韻串最好自然的一般趨勢,以所謂音節(jié)的連接概率的形式進行規(guī)則化。這樣,能夠編制可實現(xiàn)具有高識別精度的聲音識別裝置的聲音識別用辭典,該聲音識別裝置在由識別對象語生成縮略語時,能夠生成更適當?shù)目s略語,能夠避免把使用可能性小的縮略語登記在識別用辭典中。
并且,上述聲音識別用辭典編制裝置,也可以具有抽出條件存儲單元,存儲從包含識別對象語在內的字符串信息中抽出識別對象語的條件;字符串信息取得單元,取得包含識別對象語在內的字符串信息;以及識別對象語抽出單元,根據(jù)上述抽出條件存儲單元內存儲的條件,從由上述字符串信息取得單元所取得的字符串信息中抽出識別對象語,并發(fā)送到上述單詞劃分單元。
根據(jù)上述結構,能夠根據(jù)從字符串信息中抽出識別對象語的條件,適當?shù)爻槌鲎R別對象語,而且,能夠自動編制與該單詞對應的縮略語,并存儲到聲音識別用辭典中。再者,對上述編制的各縮略語,根據(jù)與在縮略語的生成中適用的規(guī)則對應的近似度計算出發(fā)音概率,將該發(fā)音概率也同時存儲到聲音識別用辭典中。這樣,對于從字符串信息中自動編制的1個或1個詞以上的縮略語,分別賦予發(fā)音概率,能夠編制可實現(xiàn)在與聲音核對時能夠達到很高的識別精度的聲音識別裝置的聲音識別用辭典。
并且,為了達到上述目的,涉及本發(fā)明的聲音識別裝置,利用聲音識別用辭典中所登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,其特征在于,具有識別裝置,利用由權利要求1記載的聲音識別用辭典編制裝置編制的聲音識別用辭典,來識別上述聲音。
根據(jù)上述結構,不僅事前編制的聲音識別用辭典中的詞匯能夠作為識別核對的對象,而且,由本發(fā)明的聲音識別用辭典編制裝置編制的、存儲了從字符串信息中抽出的識別對象語和由其生成的縮略語的聲音識別用辭典中的詞匯,也能夠作為識別核對的對象。這樣,能夠實現(xiàn)這樣的聲音識別裝置,其除了能夠正確識別像指令詞那樣的固定詞匯外,在發(fā)音如檢索關鍵字那樣從字符串信息中抽出的詞匯、以及其縮略語中的某詞匯時,也能夠正確進行識別。
在此,涉及本發(fā)明的聲音識別裝置,利用聲音識別用辭典登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,具有上述聲音識別用辭典編制裝置,可以利用由上述聲音識別用辭典編制裝置編制的聲音識別用辭典來識別上述聲音。
根據(jù)上述結構,通過把字符串信息輸入到已安裝的聲音識別用辭典編制裝置,自動地抽出識別對象語,并生成其縮略語,將其存儲到聲音識別用辭典中。因為聲音識別用辭典中存儲的這些詞匯在聲音識別裝置中能夠和聲音進行核對,所以,在具有應可變地增加、更改的詞匯的聲音識別裝置中,能夠從字符串信息中自動取得該詞匯及其縮略語,并登記到聲音識別用辭典中。
在此,在上述聲音識別用辭典中,上述縮略語和該縮略語的發(fā)音概率與上述識別對象語一被登記,上述聲音識別裝置可以考慮上述聲音識別用辭典中所登記的發(fā)音概率,來進行上述聲音的識別。并且,上述聲音識別裝置可以將作為上述聲音識別結果的候補和該候補的近似度一同生成,并在所生成的近似度上加上與上述發(fā)音概率對應的近似度,根據(jù)得到的加法運算值,把上述候補作為最終識別結果進行輸出。
根據(jù)上述結構,在從字符串信息中抽出識別對象語且生成其縮略語的過程中,對各縮略語的發(fā)音概率也進行計算,并存儲到聲音識別用辭典中。在聲音識別裝置中,當進行聲音核對時能夠把各縮略語的發(fā)音概率考慮在內進行核對,對于作為縮略語的可能性較小的縮略語,能夠進行賦予低概率的控制,能夠控制因不自然的縮略語的出現(xiàn)而造成聲音識別的正確識別概率降低。
并且,上述聲音識別裝置可以具有縮略語使用履歷存儲單元,將對上述聲音進行識別的縮略語和與該縮略語相對應的識別對象語作為使用履歷信息進行存儲;以及縮略語生成控制單元,根據(jù)上述縮略語使用履歷存儲單元中存儲的使用履歷信息,控制上述縮略語生成單元生成縮略語。例如,上述聲音識別用辭典編制裝置的縮略語生成單元可以具有縮略語生成規(guī)則存儲部,存儲采用音節(jié)的縮略語的生成規(guī)則候補生成部,從上述每個結構單詞的音節(jié)串中取出音節(jié)并進行連接,由此生成由一個或一個以上的音節(jié)構成的縮略語的候補;以及縮略語決定部,通過對已生成的縮略語的候補適用上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來決定最終生成的縮略語,上述縮略語生成控制單元,通過更改、刪除或增加上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來控制上述縮略語的生成。
同樣,上述聲音識別裝置還可以具有縮略語使用履歷存儲單元,將對上述聲音進行識別的縮略語和與該縮略語相對應的識別對象語作為使用履歷信息進行存儲;以及辭典編制裝置,根據(jù)存儲在上述縮略語使用履歷存儲裝置中的使用履歷信息,對上述聲音識別用辭典中存儲的縮略語進行編輯。例如,在上述聲音識別用辭典中,上述縮略語和該縮略語的發(fā)音概率與上述識別對象語一同被登記;上述辭典更改單元通過更改上述縮略語的發(fā)音概率,來對上述縮略語進行編輯。
根據(jù)上述結構,能夠根據(jù)用戶過去的與縮略語的使用有關的履歷信息,考慮與用戶的縮略語使用有關的趨勢,對上述縮略語生成規(guī)則進行控制。這是因為著眼于用戶的縮略語使用有一定的趨勢,且沒有對同一單詞充其量也只用2個詞的縮略語的情況。也就是說,在縮略語的新生成中能夠根據(jù)過去的縮略語利用情況,僅生成利用趨勢強的縮略語。并且,即使對于已存儲在上述聲音識別用辭典中的縮略語,也是在由同一單詞生成多個縮略語的情況下,如果很明顯是只用某一縮略語,而不用其他縮略語,則可以從辭典中刪除這些不用的縮略語。利用這種功能,能夠防止在上述聲音識別用辭典中登記多余的縮略語,控制聲音識別性能的降低。并且,在對不同的識別對象語生成的各縮略語中,即使存在共用的縮略語的情況下,也能夠根據(jù)過去的用戶的具體的縮略語使用信息來預測出其意圖是在哪個識別對象語。
而且,本發(fā)明不僅能夠實現(xiàn)作為如上述的聲音識別用辭典編制裝置和聲音識別裝置,而且能夠作為把這些裝置具有的特征性手段作為步驟的聲音識別用辭典編制方法和聲音識別方法來實現(xiàn);或者能夠作為使計算機執(zhí)行這些步驟的程序來而實現(xiàn)。并且,不言而喻,這種程序能夠通過CD-ROM等記錄媒體和互聯(lián)網(wǎng)等通信媒體來進行分配。
圖1是表示本發(fā)明第1實施方式中的聲音識別用辭典編制裝置的結構的功能框圖。
圖2是表示該聲音識別用辭典編制裝置進行的辭典編制處理的流程圖。
圖3是表示圖2所示的縮略語生成處理(S23)的詳細過程的流程圖。
圖4是表示該聲音識別用辭典編制裝置的縮略語生成部所具有的處理表(存儲臨時發(fā)生的中間數(shù)據(jù)等的表)的圖。
圖5是表示存儲在該聲音識別用辭典編制裝置的縮略語生成規(guī)則存儲部內的縮略語生成規(guī)則的例的圖。
圖6是表示存儲在該聲音識別用辭典編制裝置的詞匯存儲部內的聲音識別用辭典的例的圖。
圖7是表示本發(fā)明第2實施方式中的聲音識別裝置的結構的功能框圖。
圖8是表示該聲音識別裝置的學習功能的流程圖。
圖9是表示該聲音識別裝置的應用例的圖。
圖10(a)是表示從中文的識別對象語中利用聲音識別用辭典編制裝置10生成的縮略語的例的圖。
圖10(b)是表示從英文的識別對象語中利用聲音識別用辭典編制裝置10生成的縮略語的例的圖。
具體實施例方式
以下參照附圖,詳細說明本發(fā)明的實施方式。
圖1是表示本發(fā)明第1實施方式中的聲音識別用辭典編制裝置10的結構的功能框圖。該聲音識別用辭典編制裝置10是從識別對象語中生成其縮略語并登記作為辭典的裝置,其包括作為程序或邏輯電路實現(xiàn)的識別對象語分析部1和縮略語生成部7、用硬盤或非揮發(fā)性存儲器等存儲裝置等實現(xiàn)的分析用單詞辭典存儲部4、分析規(guī)則存儲部5、縮略語生成規(guī)則存儲部6以及詞匯存儲部8。
分析用單詞辭典存儲部4預先存儲了用于把識別對象語劃分成結構單詞的與單位單詞(形態(tài)要素)及其音韻系列的定義(音韻信息)有關的辭典。分析規(guī)則存儲部5預先存儲了用于把識別對象語劃分成在分析用單詞辭典存儲部4中存儲的單位單詞的規(guī)則(句法結構分析用規(guī)則)。
縮略語生成規(guī)則存儲部6預先存儲了用于生成預先構成的單詞的縮略語的多個規(guī)則即考慮了發(fā)音的容易程度的多個規(guī)則。在這些規(guī)則中,例如包括決定構成識別對象語的單詞本身、以及根據(jù)其搭配關系對從結構單詞中抽出部分音節(jié)(mora)串的單詞的規(guī)則;根據(jù)從結構單詞中抽出的部分音節(jié)的抽出位置、抽出個數(shù)及其組合時的總音節(jié)個數(shù),對適當?shù)牟糠忠艄?jié)進行抽出的規(guī)則;以及根據(jù)對已抽出的音節(jié)進行連接時的音節(jié)連接的自然性,對部分音節(jié)進行連接的規(guī)則等。
而且,所謂“音節(jié)”是指被看作是1個音(1拍)的音韻。若是日語,則大致上相當于平假名表示時的平假名的每一個字符。并且,對應于對俳句的5、7、5進行計數(shù)時的1個音。但是,對于拗音(帶有小寫的ヤゆよ的音)、促音(小寫的つ/縮短了的音)、撥音(鼻音)(ん),根據(jù)其是否作為1個音(1拍)發(fā)音,來決定是否作為獨立的1個音節(jié)進行處理。例如,若是“東京”,則由4個音節(jié)“と”、“う”、“きよ”、“う”構成;若是“札幌“,則由4個音節(jié)“さ”、“つ”、“ぽ”、“る”構成;若是“群馬”,則由3個音節(jié)“ぐ”、“ん”、“ま”構成。
識別對象語分析部1是對已輸入到該聲音識別用辭典編制裝置10內的識別對象語進行形態(tài)要素分析、句法結構分析、音節(jié)分析等的處理部,它由單詞劃分部2和音節(jié)串取得部3構成。單詞劃分部2根據(jù)分析用單詞辭典存儲部4內存儲的單詞信息和分析規(guī)則存儲部5內存儲的句法結構分析規(guī)則,把已輸入的識別對象語劃分成用于構成該識別對象語的單詞(結構單詞),并且,生成已劃分的結構單詞的搭配關系(表示修飾語和被修飾語的關系的信息)。音節(jié)串取得部3根據(jù)分析用單詞辭典存儲部4內存儲的單詞的音韻信息,對由該單詞劃分部2生成的每個結構單詞生成音節(jié)串。該識別對象語分析部1的分析結果,即由單詞劃分部2生成的信息(構成識別對象語的單詞信息和單詞之間的搭配關系)、以及從音節(jié)串取得部3生成的信息(表示各結構單詞的音韻系列的音節(jié)串)被發(fā)送到縮略語生成部7。
縮略語生成部7利用縮略語生成規(guī)則存儲部6中存儲的縮略語生成規(guī)則,根據(jù)從識別對象語分析部1中發(fā)送來的與識別對象語有關的信息,生成該識別對象語的0個或0個詞以上的縮略語。具體來說,根據(jù)搭配關系,對從識別對象語分析部1發(fā)送來的各個單詞的音節(jié)串進行組合,這樣,生成縮略語的候補,對于已生成的縮略語的各個候補,計算出縮略語生成規(guī)則存儲部6內存儲的各個規(guī)則的近似度。然后通過乘上一定的權重,并且對各個近似度進行合計,來計算出各個候補的發(fā)音概率,把具有一定值或一定值以上的發(fā)音概率的候補作為最終縮略語,與該發(fā)音概率和原來的識別對象語建立對應關系,存儲到詞匯存儲部8內。也就是說,被縮略語生成部7判斷為具有一定值或一定值以上的發(fā)音概率的縮略語,和表示是意思與已輸入的識別對象語相同的單詞的信息、以及其發(fā)音概率一同,作為聲音識別用辭典登記在詞匯存儲部8內。
詞匯存儲部8是在保存可以改寫的聲音識別用辭典并進行登記處理的部分,它將由縮略語生成部7生成的縮略語和發(fā)音概率,與輸入到該聲音識別用辭典編制裝置10內的識別對象語建立對應關系之外,將這些識別對象語、縮略語和發(fā)音概率登記作為聲音識別用辭典。
以下結合具體例子,詳細說明下述結構的聲音識別用辭典編制裝置10的動作。
圖2是由聲音識別用辭典編制裝置10的各個部分來執(zhí)行的詞典編制處理動作的流程圖。而且,在本圖中箭頭的左側,表示出作為識別對象語而輸入了“朝の連続ドラマ”的情況下的具體的中間數(shù)據(jù)和最終數(shù)據(jù)等;在右側表示出作為參照或存儲對象的數(shù)據(jù)名。
首先,在S21步驟,識別對象語被讀入到識別對象語分析部1的單詞劃分部2內。單詞劃分部2按照分析用單詞辭典存儲部4內存儲的單詞信息以及分析規(guī)則存儲部5內存儲的單詞劃分規(guī)則,將該識別對象語劃分成結構單詞,并求出各結構單詞的搭配關系。也就是說,進行形態(tài)要素分析和句法結構分析。這樣,識別對象語“朝の連続ドラマ”,例如劃分成“朝”、“の”、“連続”、“ドラマ”這樣的結構單詞,作為其搭配關系,生成(朝)→((連続→(ドラマ))這樣的關系。而且,在該搭配關系的表示中,箭頭的根部表示修飾語;箭頭的頭部表示被修飾語。
在S22步驟,音節(jié)串取得部3對在單詞劃分處理步驟S21步驟中被劃分的各結構單詞,賦予作為其音韻系列的音節(jié)串。在該步驟中,為了獲得結構單詞的音韻系列,利用分析用單詞辭典存儲部4內存儲的單詞的音韻信息。其結果,對在單詞劃分部2內取得的結構單詞“朝”、“の”、“連続”、“ドラマ”,分別賦予“アサ”、“ノ”、“レソゾク”、“トテマ”這樣的音節(jié)串。這樣獲得的音節(jié)串,與在上述S21步驟獲得的結構單詞和搭配關系的信息一同發(fā)送到縮略語生成部7內。
在S23步驟,根據(jù)從識別對象語分析部1發(fā)送來的結構單詞,搭配關系和音節(jié)串,由縮略語生成部7生成縮略語。在此,適用縮略語生成規(guī)則存儲部6內存儲的1個或1個以上的規(guī)則。在這些規(guī)則中,包括決定構成識別對象語的單詞本身、以及根據(jù)其搭配關系從結構單詞中抽出部分音節(jié)串的單詞的規(guī)則;根據(jù)從結構單詞中抽出的部分音節(jié)的抽出位置、抽出數(shù)及其組合時的總音節(jié)數(shù),對適當?shù)牟糠忠艄?jié)進行抽出的規(guī)則;以及根據(jù)對已抽出的音節(jié)進行連接時的音節(jié)連接的自然性,對部分音節(jié)進行連接的規(guī)則等。縮略語生成部7通過對適用于縮略語的生成的每個規(guī)則,分別計算出表示規(guī)則的一致度的近似度,并對按照多個規(guī)則進行計算的近似度進行綜合,來計算出已生成的縮略語的發(fā)音概率。其結果,例如,作為縮略語生成“アサドラ”、“レンドラ”、“アサレンドラ”,按此順序由高到低給出發(fā)音概率。
在S24步驟,詞匯存儲部8使縮略語生成部7所生成的縮略語及發(fā)音概率的組與識別對象語建立對應關系,存儲到聲音識別用辭典中。這樣,編制出已存儲了識別對象語的縮略語及其發(fā)音概率的聲音識別用辭典。
以下利用圖3~圖5,詳細說明圖2所示的縮略語生成處理(S23)的詳細過程。圖3是表示其詳細過程的流程圖,圖4表示縮略語生成部7所具有的處理表(用于存儲臨時發(fā)生的中間數(shù)據(jù)等的表),圖5表示縮略語生成規(guī)則存儲部6內存儲的縮略語生成規(guī)則6a的例子。
首先,縮略語生成部7根據(jù)從識別對象語分析部1發(fā)送來的結構單詞、搭配關系及音節(jié)串,生成縮略語的候補(圖3的S30)。具體來說,生成由從識別對象語分析部1發(fā)送來的結構單詞的搭配關系所表示的修飾語和被修飾語構成的所有的組合,作為縮略語候補。這時,如圖4的處理表中的“縮略語的候補”所示,對于各修飾語和被修飾語,不僅采用結構單詞的音節(jié)串,也采用其一部分丟失了的部分音節(jié)串。例如,修飾語“レンゾク”和被修飾語“ドラマ”的組合,不僅生成“レンゾクドラマ”,還生成“レンゾクドラ”、“レンドラマ”、“レンドラ”等丟掉一個或一個以上的音節(jié)而構成的所有的音節(jié)串,均作為縮略語候補。
然后,由縮略語生成部7對已生成的縮略語的各候補(圖3的S31~),分別計算出在縮略語生成規(guī)則存儲部6內存儲的每個縮略語生成規(guī)則的近似度(圖3的S32~S34),在一定的加權下通過對各近似度進行合計而計算出發(fā)音概率(圖3的S35),以上的處理反復進行(圖3的S30~S36)。
例如,縮略語生成規(guī)則之一,如圖5的規(guī)則1所示,是涉及搭配關系的規(guī)則,假設定義了使修飾語和被修飾語按此順序進行結合的規(guī)則,以及表示修飾語和被修飾語的距離(圖4上部表示的搭配關系圖中的段數(shù))越小則近似度越高的的函數(shù)等。那么,由縮略語生成部7對各個候補縮略語,計算出對應于這種規(guī)則1的近似度。例如對“レンドラ”,在確認其是修飾語和被修飾語按該順序結合的縮略語(否則把近似度定為0)的情況下,還確定修飾語“レン”和被修飾語“ドラ”的距離(這里“レン(ゾク)”修飾“ドラ(マ)”,所以為1段),并根據(jù)上述函數(shù)來確定與該距離相對應的近似度(這里為0.102)。
再有,若是“アサドラ”,則修飾語“アサ”和被修飾語“ドラ”的距離因“アサ”修飾“レンゾクトラマ”,所以為2段,并且,若是“アサレンドラ”,則修飾語和被修飾語的距離,因為具有上述“レンドラ”和“アサドラ”兩者的搭配關系,所以變成這2個距離的平均值,即成為1.5段。
并且,縮略語生成規(guī)則的另一例,如圖5的規(guī)則2所示,是有關部分音節(jié)串的規(guī)則,假設定義了與部分音節(jié)串的位置有關的規(guī)則以及與長度無關的規(guī)則等。具體來說,作為與部分音節(jié)串的位置有關的規(guī)則,定義了作為修飾語或被修飾語采用的音節(jié)串(部分音節(jié)串)的位置越接近原結構單詞的開頭則表示越高的其近似度的規(guī)則,即表示離開開頭的距離(原結構單詞的開頭和部音節(jié)串的開頭之間夾著的音節(jié)個數(shù))和近似度的關系的函數(shù)等。并且,作為與部分音節(jié)串的長度有關的規(guī)則,定義了構成部分音節(jié)串的音節(jié)的個數(shù)越接近2則表示近似度越高的規(guī)則,即表示部分音節(jié)串的長度(音節(jié)數(shù))和近似度的關系的函數(shù)??s略語生成部7對各個候補縮略語,分別計算出與這種規(guī)則2相對應的近似度。例如,對于“アサドラ”,對部分音節(jié)串“アサ”和“ドラ”分別確定在結構單詞“アサ”和“トラマ”中的位置和長度,并根據(jù)上述函數(shù)來確定各近似度,將這些近似度的平均值作為規(guī)則2的近似度(在此為0.128)。
并且,縮略語生成規(guī)則的另一例如圖5的規(guī)則3所示,是與音韻的連接有關的規(guī)則,假設定義了與部分音節(jié)串的結合部分有關的規(guī)則等。在此,作為與部分音節(jié)串的結合部分有關的規(guī)則被定義了在所結合的2個部分音節(jié)串中前面的部分音節(jié)串的最末尾音節(jié)和后面的部分音節(jié)串的開頭音節(jié)的結合是不自然的音韻組合(發(fā)音困難的音韻)的情況下,作為近似度低的數(shù)據(jù)表。縮略語生成部7對各個候補縮略語,計算出對應于這種規(guī)則3的近似度。具體來說,對各部分音節(jié)串的結合部分是否屬于登記在規(guī)則3的不自然的連接的某一種進行判斷,若屬于,則分配與該連接對應的近似度;不屬于該連接時,分配默認值的近似度(在此為0.050)。例如“アサレンドラ”,對于部分音節(jié)串“アサ”和“レン”的結合部分“サレ”是否屬于登記在規(guī)則3內的不自然的連接,進行判斷。在此,因為不屬于任一種,所以,把近似度定為默認(default)值(0.050)。
這樣,當對各個縮略語的候補計算出每個縮略語生成規(guī)則的近似度時,縮略語生成部7根據(jù)圖3的S35步驟所示的發(fā)音概率P(w)的計算式,對各個近似度x乘上權重(圖5所示的對應的每個規(guī)則的權重α)并進行合計,這樣計算出每個候補的發(fā)音概率(圖3的S35)。
最后,縮略語生成部7從所有的候補中確定發(fā)音概率超過預先設定的一定閾值的候補,將其作為最終的縮略語,與發(fā)音概率一起輸出到詞匯存儲部8(圖3的S37)。這樣,在詞匯存儲部8如圖6所示,編制出聲音識別用辭典8a,其中包括識別對象語的縮略語和發(fā)音概率。
按以上方法制作的聲音識別用辭典8a,不僅識別對象語,而且其縮略語也和發(fā)音概率一起被登記。所以,利用由該聲音識別用辭典編制裝置10編制的聲音識別用辭典,能夠實現(xiàn)這樣一種聲音識別裝置,即無論發(fā)音正式單詞的情況下,還是發(fā)音縮略語的情況下,均能夠檢測出是相同意圖的發(fā)音,能夠以高識別率來識別聲音。例如,在上述“朝の連続ドラマ”的例中,編制這樣的用于聲音識別裝置的聲音識別用辭典,該聲音識別用辭典無論是在用戶發(fā)音“アサノレンゾクドラマ”的情況下,還是發(fā)音“アサドラ”的情況下,均能夠將其識別為“朝の連続ドラマ”,所述聲音識別裝置具有相同的功能。
第2實施方式涉及安裝第1實施方式的聲音識別用辭典編制裝置10,利用由該聲音識別用辭典編制裝置10編制的聲音識別用辭典8a的聲音識別裝置的例子。本發(fā)明實施方式涉及這樣的聲音識別裝置,它具有從字符串信息中自動地抽出識別對象語、并將其存儲到聲音識別用辭典中的辭典更改功能,而且,由于利用與基于過去用戶使用縮略語的履歷的信息來控制縮略語的生成,因此,具有能夠抑制在聲音識別用辭典中登記使用的可能性小的縮略語的功能。而且,所謂字符串信息是指包括作為聲音識別裝置的識別對象的詞語(識別對象語)的信息,例如,若是根據(jù)收看數(shù)字電視節(jié)目的觀眾發(fā)出的節(jié)目名稱進行節(jié)目自動切換的聲音識別裝置的應用例,則節(jié)目名稱變成識別對象語,從廣播站發(fā)射來的電子節(jié)目數(shù)據(jù)變成字符串信息。
圖7是表示第2實施方式的聲音識別裝置30的結構的功能框圖。該聲音識別裝置30除了具有第1實施方式中的聲音識別用辭典編制裝置10外,還具有字符串信息取得部17、識別對象語抽出條件存儲部18、識別對象語抽出部19、聲音識別部20、用戶接口部25、縮略語使用履歷存儲部26以及縮略語生成規(guī)則控制部27。而且,聲音識別用辭典編制裝置10與第1實施方式的相同,其說明從略。
字符串信息取得部17、識別對象語抽出條件存儲部18、識別對象語抽出部19是用于從包含識別對象語的字符串信息中抽出識別對象語的部分。根據(jù)該結構,字符串信息取得部17取得包含識別對象語的字符串信息,接著在識別對象語抽出部19中從該字符串信息中抽出識別對象語。為了從字符串信息中抽出識別對象語,字符串信息在經(jīng)過形態(tài)要素分析后,根據(jù)識別對象語抽出條件存儲部18內存儲的識別對象語抽出條件進行抽出。被抽出的識別對象語發(fā)送到聲音識別用辭典編制裝置10內,進行該縮略語的編制和往識別辭典中的登記。
這樣,本實施方式的聲音識別裝置30中,從像電子節(jié)目數(shù)據(jù)那樣的字符串信息中自動抽出像節(jié)目名稱那樣的檢索關鍵字,編制出即使發(fā)出該關鍵字以及由該關鍵字生成的縮略語中的任一個均能正確進行聲音識別的聲音識別用辭典。而且,所謂識別對象語抽出條件存儲部18內存儲的識別對象語抽出條件是指例如對輸入到數(shù)字廣播接收機內的數(shù)字廣播數(shù)據(jù)中的電子節(jié)目數(shù)據(jù)進行識別的信息或對電子節(jié)目數(shù)據(jù)中的節(jié)目名稱進行識別的信息等。
聲音識別部20是對從話筒等輸入的輸入聲音根據(jù)由聲音識別用辭典編制裝置10編制的聲音識別用辭典來進行聲音識別的處理部,包括音響分析部21、音響模型存儲部22、固定詞匯存儲部23和核對部24。從話筒等輸入的聲音,由音響分析部21進行頻率分析等,變換成特征參數(shù)的系列(mel-cepstrum梅爾-倒頻譜系數(shù)等)。在核對部24內,采用音響模型存儲部22內存儲的模型(例如隱形馬爾可夫模型和混合高斯分布模型等),根據(jù)固定詞匯存儲部23內存儲的詞匯(固定詞匯)或者詞匯存儲部8內存儲的詞匯(通常語和縮略語),一邊合成用于識別各詞匯的模型,一邊與輸入聲音進行合成。其結果,獲得了較高近似度的單詞作為識別結果候補,發(fā)送到用戶接口部25。
根據(jù)這種結構,由該聲音識別部20把機器控制指令(例如節(jié)目切換中的發(fā)音“切換”)等系統(tǒng)構成時可決定的詞匯存儲到固定詞匯存儲部23中,并將像節(jié)目切換用的節(jié)目名稱那樣需要根據(jù)節(jié)目名稱的變化可進行更改的詞匯存儲到詞匯存儲部8,由此能夠同時識別雙方的詞匯。
并且,在詞匯存儲部8內不僅存儲縮略語,而且也存儲發(fā)音概率。該發(fā)音概率在核對部24內進行聲音的核對時被使用,由于發(fā)音概率低的縮略語難于識別,所以能夠抑制縮略語的過多出現(xiàn)造成的聲音識別裝置的性能降低。例如,核對部24在表示輸入的聲音和存儲在詞匯存儲部8內的詞匯的相關性的近似度上,加上與存儲在詞匯存儲部8內的發(fā)音概率對應的近似度(例如發(fā)音概率的對數(shù)值),把求得的加法計算值作為識別結果的最終近似度,在該最終近似度超過一定的閾值的情況下,把該詞匯作為識別結果候補而發(fā)送到用戶接口部25。而且,在超過一定閾值的識別結果候補有多個的情況下,僅將其中的近似度最高的候補起一定順序內的候補發(fā)送到用戶接口25。
但是,利用這種聲音識別用辭典編制裝置10也能夠對多個不同的識別對象語生成作為共用的音韻系列的縮略語。這是由于縮略語生成規(guī)則中存在的模糊性而產生的問題。通常,用戶認為一個縮略語用于表示一個對應的識別對象語。所以,需要能夠消除縮略語生成規(guī)則中存在的模糊性、根據(jù)已發(fā)音的縮略語提示適當?shù)膭幼?,并通過長期使用來提高識別率的具有學習功能的聲音識別裝置。用戶接口部25、縮略語使用履歷存儲部26、縮略語生成規(guī)則控制部27是用于該學習功能的結構要素。
也就是說,用戶接口部25,在用核對部24進行聲音核對的結果,不能夠把識別結果候補壓縮成一個的情況下,向用戶提示這些多個候補,并從用戶取得選擇指示。例如,對用戶的發(fā)話,將取得的多個識別結果的候補(作為切換目標的多個節(jié)目名稱)顯示到電視畫面上。用戶利用遙控器等從中選擇一個正確的候補,即可獲得所需的動作(用聲音來切換節(jié)目)。
這樣,發(fā)送到用戶接口部25的縮略語,或者由用戶從發(fā)送到用戶接口部25的多個縮略語中選擇的縮略語,被作為履歷信息發(fā)送并存儲到縮略語使用履歷存儲部26。存儲在縮略語使用履歷存儲部26內的履歷信息,匯集在縮略語生成規(guī)則控制部27內,用于對縮略語生成規(guī)則存儲部6內存儲的縮略語生成用規(guī)則或參數(shù)、以及用于計算縮略語發(fā)音概率的參數(shù)進行更改。同時通過用戶使用縮略語,在本來的單詞及其縮略語之間獲得1對1的對應關系的情況下,該信息也存儲在縮略語生成規(guī)則存儲部中。并且,關于這種縮略語生成規(guī)則存儲部6的規(guī)則的增加、更改、刪除的信息,也被發(fā)送到詞匯存儲部8,對已登記的縮略語進行重新評估,進行縮略語的刪除、更改,來進行辭典的更新。
圖8是表示這種聲音識別裝置30的學習功能的流程圖。
在從核對部24發(fā)送來的識別結果候補中包括存儲在詞匯存儲部8內的縮略語的情況下,用戶接口部25通過把該縮略語發(fā)送到縮略語使用履歷存儲部26,將其存儲到縮略語使用履歷存儲部26(S40)。這時,對于用戶選擇的縮略語,增加表示其內容的信息之后發(fā)送到縮略語使用履歷存儲部26。
縮略語生成規(guī)則控制部27,每經(jīng)過一定時間,或者每當一定的信息量存儲到縮略語使用履歷存儲部26內時,對存儲在縮略語使用履歷存儲部26內的縮略語進行統(tǒng)計性分析,以此生成規(guī)則性(S41)。例如,生成與縮略語的長度(音節(jié)數(shù))有關的頻率分布以及與構成縮略語的音節(jié)連接有關的頻率分布等。并且,根據(jù)用戶的選擇信息等,例如在能夠確認把節(jié)目名“朝の連続ドラマ”稱為“レンドラ”的情況下,也生成表示這些識別對象語和縮略語的一對一的對應關系的信息。而且,結束這種規(guī)則性的生成之后,縮略語生成規(guī)則控制部27把縮略語使用履歷存儲部26的存儲內容刪除,準備進一步存儲。
并且,縮略語生成規(guī)則控制部27根據(jù)已生成的規(guī)則性,對縮略語生成規(guī)則存儲部6內存儲的縮略語生成規(guī)則進行增加、更改或刪除(S42)。例如,根據(jù)與縮略語長度有關的頻率分布,修改與圖5的規(guī)則2內包括的部分音節(jié)串長度有關的規(guī)則(從表示分布的函數(shù)的參數(shù)中,確定平均值的參數(shù)等)。并且,在生成了表示識別對象語和縮略語的一對一的對應關系的信息的情況下,把該對應關系登記作為新的縮略語生成規(guī)則。
縮略語生成部7根據(jù)這樣增加、更改、刪除后的縮略語生成規(guī)則,反復進行對識別對象語的縮略語的生成,以此對詞匯存儲部8內存儲的聲音識別用辭典進行重新評估(S43)。例如,在根據(jù)新的縮略語生成規(guī)則重新計算縮略語“アサドラ”的發(fā)音概率的情況下,在對該發(fā)音概率進行更新,或者在由用戶對識別對象語“朝の連続ドラマ”選擇了“レントラ”作為縮略語的情況下,增加縮略語“レンドラ”的發(fā)音概率。
這樣,不僅利用本聲音識別裝置30來進行包括縮略語在內的聲音識別,而且,根據(jù)識別結果來更新縮略語生成規(guī)則,更改聲音識別用辭典,所以能夠發(fā)揮隨使用時間的增加能夠提高識別率的學習功能。
圖9(a)是表示這種聲音識別裝置30的應用例的圖。
在此,表示采用聲音的電視節(jié)目自動切換系統(tǒng)。該系統(tǒng)包括內置有聲音識別裝置30的STB(機頂盒;數(shù)字廣播接收機)40、電視接收機41和具有無線話筒功能的遙控器42。用戶的發(fā)話通過遙控器42的話筒作為聲音數(shù)據(jù)而發(fā)送到STB40,利用STB40中內置的聲音識別裝置30進行聲音識別,根據(jù)其識別結果進行節(jié)目切換。
例如,假設用戶的發(fā)話是“レンドラニキリカエ”。此時,該聲音通過遙控器42發(fā)送到STB40中內置的聲音識別裝置30。聲音識別裝置30的聲音識別部20如圖9(b)的處理過程所示,通過參照詞匯縮略語部8和固定詞匯存儲部23,對已輸入的聲音“レンドラニキリカエ”,檢測出其中包含有可變詞匯“レンドラ”(即識別對象語“朝の連続ドラマ”)和固定詞匯“キリカエ”。根據(jù)其結果,由STB40確認在預先作為廣播數(shù)據(jù)而接收并保持的電子節(jié)目數(shù)據(jù)中存在當前廣播中的節(jié)目“朝の連続ドラマ”之后,進行選擇該節(jié)目(在此為頻道6)的切換控制。
這樣,在本實施方式的聲音識別裝置中,不僅能夠同時進行像機器控制用命令語那樣的固定詞匯的識別、以及像節(jié)目檢索用節(jié)目名稱那樣的可變詞匯的識別,而且,無論是固定詞匯,還是可變詞匯,以及其縮略語表現(xiàn),通過與機器的控制等進行連動,即可進行所需要的處理。再者,利用考慮了用戶的過去的使用履歷的學習,能夠消除縮略語生成過程的模糊性,高效率地編制具有高識別率的聲音識別用辭典。
以上根據(jù)實施方式說明了涉及本發(fā)明的聲音識別用辭典編制裝置和聲音識別裝置。但本發(fā)明并不僅限于這些實施方式。
例如,在第1和第2實施方式中,表示以日語為對象的聲音識別用辭典編制裝置10和聲音識別裝置30的例子,但不言而喻,本發(fā)明不僅能夠適用于日語,也能夠適用于漢語和英語等日語以外的語言。圖10(a)是表示從漢語的識別對象語中利用聲音識別用辭典編制裝置10生成的縮略語的例的圖。圖10(b)是表示從英文的識別對象語中利用聲音識別用辭典編制裝置10生成的縮略語的例的圖。這些縮略語的生成,例如可以利用例如圖5所示的縮略語生成規(guī)則6a,“以識別對象語的開頭1個音節(jié)(syllable)為縮略語”、“將對構成識別對象語的各單詞的開頭1音節(jié)(syllable)進行連接的作為縮略語”等縮略語生成規(guī)則。
并且,第1實施方式的聲音識別用辭典編制裝置10生成發(fā)音概率高的縮略語,但也可以把未縮略的通常語作為生成對象。例如,縮略語生成部7不僅對縮略語,而且也可以對未縮略的識別對象語所對應的音節(jié)串(モ一ラ列),與預定的一定的發(fā)音概率一同以固定方式登記在詞匯存儲部8的聲音識別用辭典中。或者,在聲音識別裝置中,通過不僅將該聲音識別用辭典中所登記的縮略語包括在識別對象內,還將作為聲音識別用辭典的索引的識別對象語也包括在識別對象內,由此,不僅能夠識別縮略語,而且能夠同時識別與全拼字(音)相對應的通常詞語。
并且,在第1實施方式中,縮略語生成規(guī)則控制部27對存儲在縮略語生成規(guī)則存儲部6內的縮略語生成規(guī)則進行了更改等,但也可以直接對詞匯存儲部8的內容進行更改。具體來說,也可以對存儲在詞匯存儲部8內的聲音識別用辭典8a中登記的縮略語進行增加、更改或刪除,或者對被登記的縮略語的發(fā)音概率進行增減。這樣,根據(jù)存儲在縮略語使用履歷存儲部26內的使用履歷信息,直接修正聲音識別用辭典。
并且,存儲在縮略語生成規(guī)則存儲部6內的縮略語生成規(guī)則和規(guī)則中的術語的定義不僅限于本實施方式。例如在本實施方式中,修飾語和被修飾語的距離表示搭配關系圖中的段數(shù),但并不僅限于這種定義,也可以把表現(xiàn)修飾語和被修飾語的意思的繼續(xù)性的好壞的值定義為“修飾語和被修飾語的距離”。例如,“火紅的(夕陽))”和“(蔚藍色的(夕陽))”,因前者從意思上看是自然的,所以也可以采用使前者為近距離的尺度。
并且,在第2實施方式中,作為聲音識別裝置30的適用例,表示了數(shù)字廣播接收系統(tǒng)中的自動節(jié)目切換。但這種自動節(jié)目切換并不僅限于廣播系統(tǒng)等的單方向的通信系統(tǒng),不言而喻,也可以適用于互聯(lián)網(wǎng)和電話網(wǎng)等雙向通信系統(tǒng)中的節(jié)目切換。例如,通過把涉及本發(fā)明的聲音識別裝置安裝在攜帶式電話機內,能夠實現(xiàn)內容分配系統(tǒng),用于對用戶需要的內容的指定進行聲音識別,從互聯(lián)網(wǎng)上的地址對該內容進行下載。例如,若用戶發(fā)話為“クマピ—ヲダウンロ—ド”,則被識別為可變詞匯“クマピ-(“くまのピ一さん”的縮略語)”和固定詞匯“ダウンロ一ド”,從互聯(lián)網(wǎng)上的地址把來電鈴聲“くまのピ—さん(小熊)”下載到攜帶式電話機上。
同樣,涉及本發(fā)明的聲音識別裝置30不僅限于廣播系統(tǒng)和內容分配系統(tǒng)等通信系統(tǒng),而且也能夠適用于獨立的設備。例如,把涉及本發(fā)明的聲音識別裝置30內置于汽車導航裝置,實現(xiàn)對司機發(fā)話的行駛目的地名稱等進行聲音識別、并自動地顯示出其行駛目的地的地圖的既方便又安全的汽車導航裝置。例如,若一邊開車,一邊發(fā)話“カドカドヲヒヨヴジ”,則可變詞匯“カドカド”(“大阪府門真市大字門真”的縮略語)”和固定詞匯“ヒヨウジ”被識別,在汽車導航畫面上自動顯示“大阪府門真市大字門真”附近的地圖。
如上所述,利用本發(fā)明,可編制聲音識別裝置用的聲音識別用辭典,其不僅在識別對象語的正式發(fā)音時,而且在其縮略語發(fā)音時也同樣地工作。并且,本發(fā)明適用著眼于作為日語聲音的發(fā)音節(jié)奏的音節(jié)的縮略語生成規(guī)則,并且進一步賦予考慮了這些縮略語的發(fā)音概率的權重,所以,能夠避免無用的縮略語的生成和在識別辭典中的登記,且加權的并用,能夠避免出現(xiàn)的縮略語對聲音識別裝置的性能產生不良影響。
并且,在安裝了這種聲音識別用辭典編制裝置的聲音識別裝置中,在聲音識別用辭典編制部利用與縮略語使用有關的用戶履歷,由此,能夠消除因縮略語生成規(guī)則的模糊性而產生的原單詞與縮略語之間的多對多的對應關系,能夠高效率地編制聲音識別用辭典。
再者,涉及本發(fā)明的聲音識別裝置中,形成了把識別結果反映在聲音識別用辭典的編制過程的反饋,所以,能夠發(fā)揮隨著裝置的使用而不斷提高識別率的學習效果。
這樣,利用本發(fā)明,能夠以高識別率來識別包括縮略語的聲音,利用包括縮略語的聲音來進行廣播節(jié)目的切換、對移動電話手機的操作、以及對汽車導航裝置的指示等,本發(fā)明有很高的實用價值。
產業(yè)上的可利用性本發(fā)明作為編制以不確定的講話人為對象的聲音識別裝置中使用的辭典的聲音識別用辭典編制裝置、以及利用該辭典來識別聲音的聲音識別裝置等,尤其作為對包括縮略語的詞匯進行識別的聲音識別裝置等,例如能夠用于數(shù)字廣播接收機和汽車導航裝置等。
權利要求
1.一種聲音識別用辭典編制裝置,編制聲音識別用辭典,其特征在于,具有縮略語生成單元,對于由一個或一個以上的單詞構成的識別對象語,根據(jù)考慮了發(fā)音的容易程度的規(guī)則,生成上述識別對象語的縮略語;詞匯存儲單元,將所生成的縮略語和上述識別對象語一同作為上述聲音識別用辭典進行存儲。
2.如權利要求1所述的聲音識別用辭典編制裝置,其特征在于,上述聲音識別用辭典編制裝置還具有單詞劃分單元,把上述識別對象語劃分成結構單詞;以及音節(jié)串生成單元,根據(jù)被劃分的每個結構單詞的讀音,生成每個結構單詞的音節(jié)串,上述縮略語生成裝置根據(jù)由上述音節(jié)串生成單元生成的每個結構單詞的音節(jié)串,從每個結構單詞的音節(jié)串取出音節(jié)并進行連接,由此生成由一個或一個以上的音節(jié)構成的縮略語。
3.如權利要求2所述的聲音識別用辭典編制裝置,其特征在于,上述縮略語生成單元具有縮略語生成規(guī)則存儲部,存儲采用音節(jié)的縮略語生成規(guī)則;候補生成部,從上述每個結構單詞的音節(jié)串中取出音節(jié)并進行連接,來生成由一個或一個以上的音節(jié)構成的縮略語的候補;以及縮略語決定部,通過對已生成的縮略語的候補適用上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來決定最終生成的縮略語。
4.如權利要求3所述的聲音識別用辭典編制裝置,其特征在于,在上述縮略語生成規(guī)則存儲部中存儲多個生成規(guī)則,上述縮略語決定部對已生成的縮略語的候補,計算出上述縮略語生成規(guī)則存儲部中存儲的多個規(guī)則分別對應的近似度,通過對已算出的近似度綜合考慮,決定發(fā)音概率,上述詞匯存儲單元將由上述縮略語決定部決定的縮略語及發(fā)音概率與上述識別對象語一同進行存儲。
5.如權利要求4所述的聲音識別用辭典編制裝置,其特征在于,上述縮略語決定部,將上述多個規(guī)則分別對應的近似度乘上對應的加權系數(shù)而獲得的值進行合計,來決定上述發(fā)音概率。
6.如權利要求5所述的聲音識別用辭典編制裝置,其特征在于,上述縮略語決定部,在上述縮略語的候補的發(fā)音概率超過一定閾值的情況下,決定為最終生成的縮略語。
7.如權利要求4所述的聲音識別用辭典編制裝置,其特征在于,在上述縮略語生成規(guī)則存儲部中,存儲了與單詞搭配有關的第1規(guī)則,上述縮略語決定部根據(jù)上述第1規(guī)則,從上述候補中決定最終生成的縮略語。
8.如權利要求7所述的聲音識別用辭典編制裝置,其特征在于,在上述第1規(guī)則中包括通過使修飾語和被修飾語配成對而生成縮略語的條件。
9.如權利要求7所述的聲音識別用辭典編制裝置,其特征在于,在上述第1規(guī)則中包括表示構成縮略語的修飾語和被修飾語的距離與上述近似度之間關系的規(guī)則。
10.如權利要求4所述的聲音識別用辭典編制裝置,其特征在于,上述縮略語生成規(guī)則存儲部中存儲第2規(guī)則,該第2規(guī)則涉及生成縮略語時從結構單詞的音節(jié)串中取出的部分音節(jié)串的長度及該取出的部分音節(jié)串在結構單詞中的位置中的至少一個,上述縮略語決定部根據(jù)上述第2規(guī)則,從上述候補者中決定最終生成的縮略語。
11.如權利要求10所述的聲音識別用辭典編制裝置,其特征在于,在上述第2規(guī)則中包括表示上述部分音節(jié)串的長度的音節(jié)數(shù)和上述近似度的關系的規(guī)則。
12.如權利要求10所述的聲音識別用辭典編制裝置,其特征在于,在上述第2規(guī)則中包括這樣的規(guī)則,該規(guī)則表示音節(jié)數(shù)和上述近似度的關系,所述音節(jié)數(shù)表示上述部分音節(jié)串在結構單詞中的位置、且對應于從結構單詞的開頭起的距離。
13.如權利要求4所述的聲音識別用辭典編制裝置,其特征在于,在上述縮略語生成規(guī)則存儲部中,存儲與構成縮略語的部分音節(jié)串的連接有關的第3規(guī)則,上述縮略語決定部根據(jù)上述第3規(guī)則,從上述候補中決定最終生成的縮略語。
14.如權利要求13所述的聲音識別用辭典編制裝置,其特征在于,在上述第3規(guī)則中包括這樣的規(guī)則,該規(guī)則表示連接的2個部分音節(jié)串中位于前面的部分音節(jié)串的最后音節(jié)和位于后面的部分音節(jié)串的開頭音節(jié)的組合與上述近似度的關系。
15.如權利要求2所述的聲音識別用辭典編制裝置,其特征在于,上述聲音識別用辭典編制裝置,還具有抽出條件存儲單元,存儲從包含識別對象語在內的字符串信息中抽出識別對象語的條件;字符串信息取得單元,取得包含識別對象語在內的字符串信息;以及識別對象語抽出單元,根據(jù)上述抽出條件存儲單元內存儲的條件,從由上述字符串信息取得單元所取得的字符串信息中抽出識別對象語,并發(fā)送到上述單詞劃分單元。
16.一種聲音識別裝置,利用聲音識別用辭典中所登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,其特征在于,具有識別裝置,利用由權利要求1記載的聲音識別用辭典編制裝置編制的聲音識別用辭典,來識別上述聲音。
17.如權利要求16所述的聲音識別裝置,其特征在于,在上述聲音識別用辭典中,上述縮略語和該縮略語的發(fā)音概率與上述識別對象語一同被登記;上述聲音識別裝置考慮上述聲音識別用辭典中所登記的發(fā)音概率,進行上述聲音的識別。
18.如權利要求17所述的聲音識別裝置,其特征在于,上述識別裝置將作為上述聲音的識別結果的候補和該候補的近似度一同生成,并在生成的近似度上加上與上述發(fā)音概率相對應的近似度,根據(jù)得到的加法運算值,把上述候補作為最終識別結果進行輸出。
19.如權利要求16所述的聲音識別裝置,其特征在于,上述聲音識別裝置還具有縮略語使用履歷存儲單元,將對上述聲音進行識別的縮略語和與該縮略語相對應的識別對象語作為使用履歷信息進行存儲;以及縮略語生成控制單元,根據(jù)上述縮略語使用履歷存儲單元中存儲的使用履歷信息,控制上述縮略語生成單元生成縮略語。
20.如權利要求19所述的聲音識別裝置,其特征在于,上述聲音識別用辭典編制裝置的縮略語生成單元具有縮略語生成規(guī)則存儲部,存儲采用音節(jié)的縮略語的生成規(guī)則;候補生成部,從上述每個結構單詞的音節(jié)串中取出音節(jié)并進行連接,由此生成由一個或一個以上的音節(jié)構成的縮略語的候補;以及縮略語決定部,通過對已生成的縮略語的候補適用上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來決定最終生成的縮略語,上述縮略語生成控制單元,通過更改、刪除或增加上述縮略語生成規(guī)則存儲部中存儲的生成規(guī)則,來控制上述縮略語的生成。
21.如權利要求16所述的聲音識別裝置,其特征在于,上述聲音識別裝置還具有縮略語使用履歷存儲單元,將對上述聲音進行識別的縮略語和與該縮略語相對應的識別對象語作為使用履歷信息進行存儲;以及辭典編制裝置,根據(jù)存儲在上述縮略語使用履歷存儲裝置中的使用履歷信息,對上述聲音識別用辭典中存儲的縮略語進行編輯。
22.如權利要求21所述的聲音識別裝置,其特征在于,在上述聲音識別用辭典中,上述縮略語和該縮略語的發(fā)音概率與上述識別對象語一同被登記;上述辭典更改單元通過更改上述縮略語的發(fā)音概率,來對上述縮略語進行編輯。
23.一種聲音識別裝置,利用聲音識別用辭典中所登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,其特征在于,具有權利要求1所述的聲音識別用辭典編制裝置;以及識別裝置,利用由上述聲音識別用辭典編制裝置編制的聲音識別用辭典,來識別上述聲音。
24.一種聲音識別用辭典的編制方法,編制聲音識別用辭典,其特征在于,包括縮略語生成步驟,對于由一個或一個以上的單詞構成的識別對象語,根據(jù)考慮了發(fā)音的容易程度的規(guī)則,生成上述識別對象語的縮略語;以及詞匯登記步驟,將所生成的縮略語與上述識別對象語一同登記在上述聲音識別用辭典。
25.如權利要求24所述的聲音識別用辭典編制方法,其特征在于,上述聲音識別用辭典編制方法還包括單詞劃分步驟,把上述識別對象語劃分成結構單詞;以及音節(jié)串生成步驟,根據(jù)被劃分的每個結構單詞的讀音,生成每個結構單詞的音節(jié)串,在上述縮略語生成步驟中,根據(jù)由上述音節(jié)串生成單元生成的每個結構單詞的音節(jié)串,從每個結構單詞的音節(jié)串取出音節(jié)并進行連接,由此生成由一個或一個以上的音節(jié)構成的縮略語。
26.一種聲音識別方法,利用聲音識別用辭典中所登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,其特征在于,包括識別步驟,利用由權利要求24所述的聲音識別用辭典編制方法編制的聲音識別用辭典,來識別上述聲音。
27.一種聲音識別方法,利用聲音識別用辭典中所登記的詞匯所對應的模型,對被輸入的聲音進行核對,來進行識別,其特征在于,包括權利要求24所述的聲音識別用辭典編制方法中的步驟;以及利用由上述聲音識別用辭典編制方法編制的聲音識別用辭典,來識別上述聲音的步驟。
28.一種程序,用于編制聲音識別用辭典的聲音識別用辭典編制裝置,其特征在于,使計算機執(zhí)行權利要求24所述的聲音識別用辭典編制方法中的步驟。
29.一種程序,用于聲音識別裝置,該聲音識別裝置對被輸入的聲音,利用聲音識別用辭典中登記的詞匯所對應的模型進行核對,來進行識別,其特征在于使計算機執(zhí)行權利要求26所述的聲音識別方法中的步驟。
全文摘要
本發(fā)明的高效率編制對省略單詞的改變說法的表現(xiàn)也能夠高效率識別的聲音識別用辭典的聲音識別用辭典編制裝置(10),具有單詞劃分部(2),把由一個或一個以上的單詞構成的識別對象語劃分成結構單詞;音節(jié)串取得部(3),根據(jù)被劃分的每個結構單詞的讀音,生成每個結構單詞的音節(jié)串;省略語生成規(guī)則存儲部(6),存儲采用音節(jié)的縮略語的生成規(guī)則;縮略語生成部(7),從每個結構單詞的音節(jié)串中取出音節(jié)并進行連接,這樣來生成由一個或一個以上的音節(jié)構成的縮略語的候補,并對這些候補,使用縮略語生成規(guī)則,由此生成縮略語;以及詞匯存儲部(8),將所生成的縮略語和上述識別對象語一同作為上述聲音識別用辭典進行存儲。
文檔編號G10L15/10GK1711586SQ200380103048
公開日2005年12月21日 申請日期2003年11月7日 優(yōu)先權日2002年11月11日
發(fā)明者沖本純幸 申請人:松下電器產業(yè)株式會社