專利名稱:學習裝置、移動通信終端、信息識別系統(tǒng)以及學習方法
技術(shù)領(lǐng)域:
本發(fā)明涉及根據(jù)有關(guān)用戶發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的移動通信終端、生成涉及發(fā)話的內(nèi)容的識別的識別參數(shù)的學習裝置、包含這些的信息識別系統(tǒng)、利用此信息識別系統(tǒng)進行的學習方法。
背景技術(shù):
現(xiàn)在,不依靠音響信息,根據(jù)發(fā)話動作進行者的口部周圍的肌電信息以及口唇的影像等、有關(guān)調(diào)音器官的活動的信息,識別發(fā)話的內(nèi)容的信息識別方法已經(jīng)公知。據(jù)此,發(fā)話者不發(fā)出音響可從口及舌的活動識別發(fā)話的內(nèi)容,比如,如日本專利特開平7-181888號公報中所公開的,從由于疾病及事故等不能發(fā)聲的無咽頭者的口部等活動識別發(fā)話的內(nèi)容而代行發(fā)聲的裝置已經(jīng)在應用。
于是,在根據(jù)有關(guān)這種調(diào)音器官的活動的信息對發(fā)話內(nèi)容進行識別時,對應于每個話者的種種不同的發(fā)話特征對有關(guān)該調(diào)音器官的活動的信息等適應每個話者進行學習,生成每個話者固有的識別參數(shù),根據(jù)每個話者的識別參數(shù)識別發(fā)話內(nèi)容是重要的,由此可以提高發(fā)話內(nèi)容的識別精度。
發(fā)明內(nèi)容
這種信息識別方法,因為不需要音響信息,不受周圍雜音的影響,并且只需要進行活動口舌等的無聲發(fā)話動作,也可作為在室外等周圍雜音大的場所及辦公室和圖書館等要求安靜的場所的發(fā)話內(nèi)容的識別手段利用,比如可以適用于以便攜式電話為代表的移動通信終端。
可是,要根據(jù)有關(guān)調(diào)音器官的活動的信息進行發(fā)話內(nèi)容識別的學習需要大量的存儲器及計算能力,在處理能力及存儲器等有限制的便攜式電話等移動通信終端中實行這種學習等是困難的,在移動通信終端中進行基于有關(guān)調(diào)音器官的活動的信息的發(fā)話內(nèi)容的識別過去一直是困難的。
本發(fā)明正是鑒于上述情況而完成的,其目的在于提供可以在移動通信終端中進行基于有關(guān)調(diào)音器官的活動的信息的發(fā)話內(nèi)容的識別的學習裝置、移動通信終端、信息識別系統(tǒng)以及學習方法。
本發(fā)明涉及的學習裝置的是一種與可以經(jīng)網(wǎng)絡(luò)互相通信的移動通信終端一起,構(gòu)成根據(jù)有關(guān)在該移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)的學習裝置,其特征在于包括接受從上述移動通信終端發(fā)送的關(guān)于上述調(diào)音器官的活動的信息的調(diào)音器官信息接收單元;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得單元;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習單元;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送單元。
本發(fā)明涉及的移動通信終端的是一種與可以經(jīng)網(wǎng)絡(luò)互相通信的學習裝置一起,構(gòu)成根據(jù)有關(guān)在該移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)的移動通信終端,其特征在于包括取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得單元;將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習單元的調(diào)音器官信息發(fā)送單元;接收從上述學習單元發(fā)送的有關(guān)上述發(fā)話內(nèi)容的識別的識別參數(shù)的識別參數(shù)接收單元;以及根據(jù)有關(guān)上述調(diào)音器官動作的信息和上述識別參數(shù)進行針對上述發(fā)話動作內(nèi)容的識別的信息識別單元。
本發(fā)明涉及的信息識別系統(tǒng)的是一種包含移動通信終端和可以經(jīng)網(wǎng)絡(luò)與上述移動通信終端通信的學習裝置,根據(jù)有關(guān)在上述移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng),其特征在于上述移動通信終端包括取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得單元;將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習裝置的調(diào)音器官信息發(fā)送單元;接收從上述學習裝置發(fā)送的有關(guān)上述發(fā)話內(nèi)容的識別的識別參數(shù)的識別參數(shù)接收單元;根據(jù)有關(guān)上述調(diào)音器官動作的信息和上述識別參數(shù)進行針對上述發(fā)話動作內(nèi)容的識別的信息識別單元;而上述學習裝置包括接受從上述移動通信終端發(fā)送的關(guān)于上述調(diào)音器官的活動的信息的調(diào)音器官信息接收單元;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得單元;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習單元;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送單元。
本發(fā)明涉及的一種學習方法是一種包含移動通信終端和可以經(jīng)網(wǎng)絡(luò)與上述移動通信終端通信的學習裝置,根據(jù)有關(guān)在上述移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)中的學習方法,其特征在于包括上述移動通信終端取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得工序;上述移動通信終端將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習裝置的調(diào)音器官信息發(fā)送工序;上述學習裝置接收從上述移動通信終端發(fā)送的有關(guān)上述調(diào)音器官的活動的信息的調(diào)音器官信息接收工序;上述學習裝置取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得工序;上述學習裝置根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習工序;上述學習裝置將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送工序;以及上述移動通信終端接收從上述學習裝置發(fā)送的識別參數(shù)的識別參數(shù)接收工序。
本發(fā)明涉及的另一種學習方法是一種根據(jù)有關(guān)在上述移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)中的學習方法,其特征在于包括接收從上述移動通信終端發(fā)送的有關(guān)上述調(diào)音器官的活動的信息的調(diào)音器官信息接收工序;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得工序;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習工序;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送工序。
根據(jù)本發(fā)明的學習裝置、移動通信終端、信息識別系統(tǒng)及學習方法,向?qū)W習裝置發(fā)送有關(guān)用戶的調(diào)音器官的活動的信息、用來生成根據(jù)用戶的調(diào)音器官的活動的信息進行發(fā)話內(nèi)容的識別所必需的識別參數(shù)的計算負荷高的學習不是由移動通信終端而是由學習裝置進行。由此,與固定型的計算機等相比在處理速度及存儲器等的限制大的移動通信終端中進行學習時相比較,可以在短時間內(nèi)進行效率良好的學習。并且,通過這種學習可將適合用戶的識別參數(shù)發(fā)送到移動通信終端,自此以后,可以不與學習裝置等進行信息的收發(fā),而只利用移動通信終端適合地實施識別率高的發(fā)話內(nèi)容的識別。
此處,在上述學習裝置中備有將利用上述學習單元生成的識別參數(shù)對每個用戶進行存儲的識別參數(shù)數(shù)據(jù)庫,上述學習單元,在通過上述學習生成識別參數(shù)時,最好是參照過去對該用戶生成的識別參數(shù)。
另外,在上述信息識別系統(tǒng)中,上述學習裝置備有將利用上述學習單元生成的識別參數(shù)對每個用戶進行存儲的識別參數(shù)數(shù)據(jù)庫,上述學習單元,在通過上述學習生成識別參數(shù)時,最好是參照過去對該用戶生成的識別參數(shù)。
另外,在上述一種學習方法中,包含上述學習裝置將利用上述學習工序生成的識別參數(shù)對每個用戶存儲到識別參數(shù)數(shù)據(jù)庫的識別參數(shù)存儲工序,上述學習工序,在通過上述學習生成識別參數(shù)時,最好是參照過去對該用戶生成的識別參數(shù)。
另外,在上述另一種學習方法中,還包含將利用上述學習工序生成的識別參數(shù)對每個用戶進行存儲的識別參數(shù)存儲工序,在上述學習工序中,在通過上述學習生成識別參數(shù)時,最好是參照過去對該用戶生成的識別參數(shù)。
根據(jù)這些學習裝置、信息識別系統(tǒng)及學習方法,在學習裝置的學習中,在對應該提高識別率的各用戶每一個的過去的學習時得到的識別參數(shù)加以改良時,不需要將該過去的識別參數(shù)從各個移動通信終端發(fā)送到學習裝置,可以容易地逐次改良識別參數(shù)。
另外,在上述學習裝置中,上述教師數(shù)據(jù)取得單元具備將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成單元,上述識別參數(shù)發(fā)送單元最好還將該發(fā)話模式發(fā)送到上述移動通信終端。
另外,在上述移動通信終端中,上述識別參數(shù)接收單元,最好還接收從上述學習裝置發(fā)送的發(fā)話模式,對上述用戶提示上述發(fā)話模式的發(fā)話模式提示單元。
另外,在上述信息識別系統(tǒng)中,上述教師數(shù)據(jù)取得單元具備將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成單元,上述學習裝置的識別參數(shù)發(fā)送單元還將上述發(fā)話模式發(fā)送到上述移動通信終端,上述移動通信終端的識別參數(shù)接收單元,還接收從上述學習裝置發(fā)送的發(fā)話模式,上述移動通信終端具備對上述用戶提示上述發(fā)話模式的發(fā)話模式提示單元。
另外,在上述一種學習方法中,上述教師數(shù)據(jù)取得工序包含將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成工序,上述識別參數(shù)發(fā)送工序還將上述發(fā)話模式發(fā)送到上述移動通信終端,上述識別參數(shù)接收工序還接收從上述學習裝置發(fā)送的發(fā)話模式,上述移動通信終端包含對上述用戶提示上述發(fā)話模式的發(fā)話模式提示工序。
另外,在上述另一種學習方法中,上述教師數(shù)據(jù)取得工序最好包含將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成工序和將上述發(fā)話模式對上述移動通信終端進行發(fā)送的發(fā)話模式發(fā)送工序。
根據(jù)這些學習裝置、移動通信終端、信息識別系統(tǒng)及學習方法,適于學習的發(fā)話模式在學習裝置側(cè)生成并發(fā)送到移動通信終端,與在移動通信終端中在用戶可以進行根據(jù)此發(fā)話模式的發(fā)話一起,在學習裝置側(cè),將生成的發(fā)話模式作為教師數(shù)據(jù)進行學習,可有效地進行關(guān)于發(fā)話內(nèi)容的識別的學習。另外,因為在學習裝置側(cè)進行適于學習的發(fā)話模式的生成,即使生成這種發(fā)話模式,也不會增加移動通信終端的計算及存儲器等的負荷。
另外,在上述信息識別系統(tǒng)中,上述學習裝置具備將有關(guān)上述用戶的個人信息與該用戶相對應地進行存儲的個人信息數(shù)據(jù)庫,上述發(fā)話模式生成單元,最好是根據(jù)有關(guān)上述用戶的個人信息生成上述發(fā)話模式。
另外,在上述一種學習方法中,還包含上述學習裝置將有關(guān)上述用戶的個人信息與該用戶相對應地進行存儲的個人信息存儲工序,上述發(fā)話模式生成工序,最好是根據(jù)有關(guān)上述用戶的個人信息生成上述發(fā)話模式。
另外,在上述另一種學習方法中,包含將有關(guān)上述用戶的個人信息與該用戶相對應地進行存儲的個人信息存儲工序,上述發(fā)話模式生成工序,最好是根據(jù)有關(guān)上述用戶的個人信息生成上述發(fā)話模式。
根據(jù)這些學習裝置、信息識別系統(tǒng)及學習方法,可以根據(jù)各用戶的個人信息,比如,年齡、性別、方言等生成適于各用戶的發(fā)話模式,適于用戶的識別參數(shù)的生成可更有效地進行,移動通信終端的識別率更容易提高。
此外,在上述學習裝置中,上述調(diào)音器官信息接收單元,還接收有關(guān)從上述移動通信終端發(fā)送的上述發(fā)話動作時的音響的信息,上述教師數(shù)據(jù)取得單元,最好具備根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)的音響信息識別單元。
另外,在上述移動通信終端中,上述信息識別系統(tǒng)具備取得在上述發(fā)話動作實行時發(fā)生的有關(guān)音響的信息的音響取得單元,上述調(diào)音器官信息發(fā)送單元最好還向上述學習裝置發(fā)送有關(guān)上述音響的信息。
另外,在上述信息識別系統(tǒng)中,上述移動通信終端具備取得在上述發(fā)話動作實行時發(fā)生的有關(guān)音響的信息的音響取得單元,上述調(diào)音器官信息發(fā)送單元還向上述學習裝置發(fā)送有關(guān)上述音響的信息,上述學習裝置的調(diào)音器官信息接收單元,還接收有關(guān)從上述移動通信終端發(fā)送的有關(guān)上述音響的信息,上述教師數(shù)據(jù)取得單元,最好具備根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)的音響信息識別單元。
另外,在上述一種學習方法中,包含上述移動通信終端,取得在上述發(fā)話動作實行時發(fā)生的有關(guān)音響的信息的音響取得工序,上述調(diào)音器官信息發(fā)送工序還向上述學習裝置發(fā)送有關(guān)上述音響的信息,上述調(diào)音器官信息接收工序,還接收有關(guān)從上述移動通信終端發(fā)送的有關(guān)上述音響的信息,上述教師數(shù)據(jù)取得工序,最好包含根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)的音響信息識別工序。
另外,在上述另一種學習方法中,在上述調(diào)音器官信息接收工序中,還接收有關(guān)從上述移動通信終端發(fā)送的有關(guān)上述發(fā)話動作時的影響的信息,在上述教師數(shù)據(jù)取得工序中,最好包含根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)。
根據(jù)這些學習裝置、移動通信終端、信息識別系統(tǒng)及學習方法,因為在用戶進行發(fā)話動作時發(fā)生的音響信息發(fā)送到學習裝置并在學習裝置中根據(jù)此音響信息得到教師數(shù)據(jù),不會承受使用戶進行特定的發(fā)話模式的發(fā)話等的負擔,可以在進行通常的會話的同時得到有關(guān)發(fā)話內(nèi)容識別的識別參數(shù)。
圖1為示出本實施方案的信息識別系統(tǒng)的框圖。
圖2為示出圖中的移動通信終端的肌電信號檢出單元的一例的模式圖。
圖3為示出圖中的移動通信終端的肌電信號檢出單元的另一例的模式圖。
圖4為示出根據(jù)第一順序的學習方法的流程圖。
圖5為在圖4的學習方法中選出在數(shù)據(jù)中心側(cè)進行的工序的流程圖。
圖6為示出根據(jù)第二順序的學習方法的流程圖。
圖7為在圖6的學習方法中選出在數(shù)據(jù)中心側(cè)進行的工序的流程圖。
圖8為示出識別參數(shù)通過學習進行改良的順序的流程圖。
具體實施例方式
下面參照附圖對本發(fā)明的信息識別系統(tǒng)(聲音識別系統(tǒng))的優(yōu)選實施方案予以詳細說明。
圖1為示出本實施方案的信息識別系統(tǒng)的框圖。本實施方案的信息識別系統(tǒng)100,具備根據(jù)規(guī)定的識別參數(shù)進行發(fā)話內(nèi)容的識別的移動通信終端27,適合使用移動通信終端27的用戶通過學習生成識別參數(shù)的用作服務(wù)器計算機的數(shù)據(jù)中心28,這些設(shè)施經(jīng)過有線或無線網(wǎng)絡(luò)19互相連接。
移動通信終端27包括由肌電信號檢出單元11及肌電信號處理單元12構(gòu)成的肌電信息取得單元(調(diào)音器官信息取得單元)30;由音響信號檢出單元13及音響信號處理單元14構(gòu)成的音響信息取得單元31;和數(shù)據(jù)中心28進行信息收發(fā)的音響肌電信息發(fā)送單元(調(diào)音器官信息發(fā)送單元)15 以及發(fā)話模式識別參數(shù)接收單元(識別參數(shù)接收單元)16;進行發(fā)話內(nèi)容的識別的肌電信息識別單元(信息識別單元)17;提示識別結(jié)果的識別結(jié)果提示單元18以及向用戶提示發(fā)話模式的發(fā)話模式提示單元10;并且作為便攜式電話具有和其他的移動通信終端通信的功能(圖中未示出)。
音響信號檢出單元13檢出在用戶進行發(fā)話動作時發(fā)生的音響信號,音響信號處理單元14對由音響信號檢出單元13檢出的音響信號進行頻譜分析及對數(shù)倒頻譜分析等而取得音響信息。
肌電信號檢出單元11,檢出用戶進行發(fā)話動作時的口部周圍的筋肉(調(diào)音器官)的肌電信號,肌電信號處理單元12在對所取得的肌電信號進行放大的同時利用時間窗切出進行功率計算及頻譜分析等而取得肌電信息。
此處,用戶通過使唇、顎、齒、舌、鼻腔、軟口蓋等調(diào)音器官動作而進行發(fā)話動作。因為在這些調(diào)音器官中,主要是通過口部周圍的筋肉活動而完成調(diào)音動作,通過取得用戶口部周圍的筋肉的肌電信號就可以合適地取得關(guān)于調(diào)音器官的活動的信息。
此處,比如,在應用于折疊式移動通信終端時,如圖2所示,作為肌電信號檢出單元11,可在用戶面部皮膚接觸面上設(shè)置板狀電極42、43、44,并且,如圖3所示,可以在與皮膚接觸的部位設(shè)置針狀電極45、46、47、48、49、50。另外,為了精度高地從肌電信息識別發(fā)話內(nèi)容,最好是對肌電進行多信道檢出。
音響肌電信息發(fā)送單元15,如圖1所示,將來自肌電信號處理單元12的肌電信息及來自音響信號處理單元14的音響信息經(jīng)網(wǎng)絡(luò)19發(fā)送到數(shù)據(jù)中心28。
發(fā)話模式識別參數(shù)接收單元16,經(jīng)網(wǎng)絡(luò)19接收由數(shù)據(jù)中心28發(fā)送的來自肌電信息的發(fā)話內(nèi)容的識別所必需的識別參數(shù)及有關(guān)用戶要進行發(fā)話的發(fā)話模式的信息,發(fā)話模式提示單元10利用顯示器及揚聲器等將所接收的發(fā)話模式提示給用戶。
肌電信息識別單元17,根據(jù)發(fā)話模式識別參數(shù)接收單元16所接收的識別參數(shù)和來自肌電信號處理單元12的肌電信息,用戶進行發(fā)話動作的發(fā)話內(nèi)容的識別(聲音識別),識別結(jié)果提示單元18利用顯示器及揚聲器等將識別結(jié)果提示給用戶等或通過通信網(wǎng)發(fā)送到其他移動通信終端。
此處,作為肌電信息識別單元17的發(fā)話內(nèi)容識別算法,可采用種種的方法,比如,可以采用如在IEEE生物醫(yī)學工程學會志(NoboruSugie et al.,A speech employing a speech synthesizer voweldiscrimination from perioral muscles activities and vowel production,IEEE transaction on Biomedical Engineering,Vol.32,No.7,1985,pp485-490)所述的,使肌電信號通過通頻帶濾波器,計數(shù)與閾值的交叉次數(shù)辨別5個元音(a,i,u,e,o)的算法,也可采用在日本專利特開平7-181888號公報中所述的,將口部周圍的筋肉的肌電信息利用神經(jīng)網(wǎng)絡(luò)進行處理,不僅包含用戶的元音也包含輔音的檢出算法,并且也可采用隱藏Marcov模型等的算法。
另一方面,數(shù)據(jù)中心28包括經(jīng)網(wǎng)絡(luò)19和移動通信終端27進行信息收發(fā)的音響肌電信息接收單元(調(diào)音器官信息接收單元)24及發(fā)話模式識別參數(shù)發(fā)送單元(識別參數(shù)發(fā)送單元)22;構(gòu)成教師數(shù)據(jù)取得單元33的音響信息識別單元25及發(fā)話模式發(fā)生單元20;生成識別參數(shù)的肌電信息學習單元(學習單元)26;存儲種種信息的個人信息數(shù)據(jù)庫21及識別參數(shù)數(shù)據(jù)庫23。
音響肌電信息接收單元24,經(jīng)網(wǎng)絡(luò)19接收從移動通信終端27發(fā)送的肌電信息及音響信息。
在個人信息數(shù)據(jù)庫21中,與各用戶對應存儲使用移動通信終端27的每個用戶的性別、年齡、使用的方言等個人信息。
發(fā)話模式發(fā)生單元20,根據(jù)存儲于個人信息數(shù)據(jù)庫21中的個人信息,發(fā)生適于每個用戶學習的發(fā)話模式,在做成為教師數(shù)據(jù)的同時,將此發(fā)話模式發(fā)送到發(fā)話模式識別參數(shù)發(fā)送單元22。具體說,比如,根據(jù)該用戶的性別、年齡、方言等將該用戶最可能使用的單語、短語等及表示該用戶發(fā)話特征的語尾等的模式輸出。另外,在過去關(guān)于該用戶進行過學習時,還可根據(jù)存儲于識別參數(shù)數(shù)據(jù)庫23(詳情見后述)中的該用戶的學習次數(shù)、識別率數(shù)據(jù)等生成適于進一步提高該用戶的識別率的發(fā)話模式,比如,識別率不佳的單語等的發(fā)話模式。
音響信息識別單元25,根據(jù)音響肌電信息接收單元24接收的音響信息進行聲音識別取得聲音信息而取得與用戶的發(fā)話動作相對應的教師數(shù)據(jù)。此處,對于音響信息識別單元25的聲音識別方法沒有特別限定,比如,可利用基于頻譜包絡(luò)的隱藏Marcov模型及DP匹配法等。
肌電信息學習單元26,在取得利用音響肌電信息接收單元24接收的肌電信息的同時,作為與此肌電信息相對應的教師數(shù)據(jù),取得利用音響信息識別單元25取得的聲音信息及利用發(fā)話模式發(fā)生單元20發(fā)生的發(fā)話模式,關(guān)于由肌電信息產(chǎn)生的發(fā)話內(nèi)容的識別進行學習,生成用來對發(fā)話內(nèi)容進行識別的識別參數(shù)。
此處,具體說,也可對應于移動通信終端27的肌電信息識別單元17中使用的發(fā)話內(nèi)容的識別算法進行學習,比如,在肌電信息識別單元17中,在使用神經(jīng)網(wǎng)絡(luò)時,也可以對該神經(jīng)網(wǎng)絡(luò)應用反向傳播法。
在識別參數(shù)數(shù)據(jù)庫23中針對每個用戶存儲利用肌電信息學習單元26的學習所生成的識別參數(shù)、學習次數(shù)等的學習狀況、利用該識別參數(shù)的識別率等、由音響信息識別單元25識別的聲音信息等。另外,識別參數(shù)數(shù)據(jù)庫23,與個人信息數(shù)據(jù)庫21相連接,可以互相參照各用戶的學習次數(shù)等數(shù)據(jù)。
發(fā)話模式識別參數(shù)發(fā)送單元22,將存儲于識別參數(shù)數(shù)據(jù)庫23中的各個用戶的識別參數(shù)等以及由發(fā)話模式發(fā)生單元20生成的發(fā)話模式,經(jīng)網(wǎng)絡(luò)19發(fā)送到用戶的移動通信終端27。另外,根據(jù)需要,也可以將識別參數(shù)數(shù)據(jù)庫23及個人信息數(shù)據(jù)庫21的內(nèi)容也發(fā)送到移動通信終端27。
下面在對備有移動通信終端27及數(shù)據(jù)中心28的信息識別系統(tǒng)100的動作予以說明的同時,一并對本實施方案的信息識別系統(tǒng)100的學習方法予以說明。
首先,參照圖4及圖5,對于作為第一順序,具有移動通信終端27的用戶,在進行無聲或有聲的發(fā)話動作進行學習時的順序予以說明。另外,圖5是在圖4中選出數(shù)據(jù)中心28進行的工序的示圖。
用戶,如果在移動通信終端27中,開始進行利用第一順序的識別參數(shù)的學習的規(guī)定的按鈕操作,則移動通信終端27,對數(shù)據(jù)中心28通告開始利用第一順序的識別參數(shù)的學習(步驟101)。
然后,接受學習開始的通告的數(shù)據(jù)中心28,根據(jù)存儲于個人信息數(shù)據(jù)庫21中的有關(guān)該用戶的信息等,發(fā)生適合發(fā)話內(nèi)容識別的發(fā)話模式,將此發(fā)話模式發(fā)送到移動通信終端27(步驟102)。此處,在有關(guān)該用戶的信息在個人信息數(shù)據(jù)庫21中未登錄時,生成被認為適合于萬人的發(fā)話模式。另外,在過去關(guān)于該用戶進行過學習時,還根據(jù)存儲于識別參數(shù)數(shù)據(jù)庫23中的該用戶的學習次數(shù)及識別率數(shù)據(jù)等生成適用于進一步提高該用戶的識別率的發(fā)話數(shù)據(jù)。
移動通信終端27,接收由數(shù)據(jù)中心28發(fā)出的發(fā)話模式并向用戶提示發(fā)話模式(S103)。于是,用戶按照提示的發(fā)話模式,通過有聲或無聲進行發(fā)話動作。
于是,移動通信終端27,檢出用戶的發(fā)話動作時的肌電信號,對此肌電信號進行規(guī)定的處理而作為肌電信息,將肌電信息發(fā)送到數(shù)據(jù)中心28(步驟104)。
數(shù)據(jù)中心28,接收此肌電信息,根據(jù)作為與此肌電信息相對應的教師數(shù)據(jù)的發(fā)話模式進行關(guān)于發(fā)話內(nèi)容的識別而生成識別參數(shù)(步驟105)。另外,在該用戶過去進行過學習時,從識別參數(shù)數(shù)據(jù)庫23中讀出該用戶的過去的識別參數(shù),以對此識別參數(shù)進行改良的形式生成新的識別參數(shù)。
于是,在步驟106中,在學習不結(jié)束或不能生成足夠進行發(fā)話內(nèi)容識別的識別參數(shù)時,返回步驟102生成新的發(fā)話模式并以此為基礎(chǔ)進行學習。
另一方面,在生成足夠的識別參數(shù)時,進入步驟107,將取得的識別參數(shù),與該用戶的學習次數(shù)及該識別參數(shù)的識別率等的數(shù)據(jù)一起存儲于識別參數(shù)數(shù)據(jù)庫23,同時將識別參數(shù)發(fā)送到移動通信終端27。
于是,移動通信終端27,接收此識別參數(shù)(步驟108)。于是,自此以后,移動通信終端27,根據(jù)適合此用戶的識別參數(shù)和用戶的肌電信息,可由肌電信息識別單元17局部地以高識別率進行對發(fā)話內(nèi)容的識別,經(jīng)過識別的聲音信息(言語信息),利用畫面、揚聲器等輸出,并且經(jīng)網(wǎng)絡(luò)19發(fā)送到其他移動通信終端。
這樣,根據(jù)本實施方案,用戶的發(fā)話動作時的肌電信息發(fā)送到數(shù)據(jù)中心28,用來生成為進行基于肌電信息的發(fā)話內(nèi)容的識別所必需的識別參數(shù)的計算負荷高的學習,不是由移動通信終端27而是由數(shù)據(jù)中心28進行。由此,與固定型的計算機等相比,在處理速度和存儲器等的限制大的移動通信終端27中為識別發(fā)話內(nèi)容進行學習時相比較,可以在短時間內(nèi)進行效率良好的學習。并且,可將這樣取得的適合用戶的識別參數(shù)發(fā)送到移動通信終端27,自此以后,在移動通信終端27中,可以不與數(shù)據(jù)中心28等進行信息的收發(fā),而可以只利用移動通信終端27使用該識別參數(shù)實施識別率高的發(fā)話內(nèi)容的識別。
另外,在數(shù)據(jù)中心28中,存儲每個用戶的識別參數(shù),在數(shù)據(jù)中心28的學習中,在對各個用戶的過去學習時得到的識別參數(shù)加以改良時,不需要將該用戶過去的識別參數(shù)從各個移動通信終端27發(fā)送到數(shù)據(jù)中心28,可以容易地逐次改良識別參數(shù),容易提高移動通信終端27的識別率。
另外,因為適于學習的發(fā)話模式在數(shù)據(jù)中心28側(cè)生成并發(fā)送到移動通信終端27對用戶進行提示,與在移動通信終端27中在用戶可以進行根據(jù)適合于此學習的發(fā)話模式的發(fā)話一起,在數(shù)據(jù)中心28側(cè),根據(jù)該發(fā)話涉及到的肌電信息和作為教師數(shù)據(jù)的發(fā)話參數(shù)進行學習,可更有效地進行關(guān)于發(fā)話內(nèi)容的識別的學習,對移動通信終端27的發(fā)話內(nèi)容的識別的識別率可以更容易提高。另外,因為在數(shù)據(jù)中心28側(cè)進行適于各個用戶的學習的發(fā)話模式的生成,即使生成這種發(fā)話模式,也不會增加移動通信終端27的計算及存儲器等的負荷。
另外,在數(shù)據(jù)中心28中,存儲有各個用戶的個人信息,在發(fā)生發(fā)話模式時可以根據(jù)各個用戶的個人信息,比如,年齡、性別、方言等生成適于各用戶的發(fā)話模式,學習可更有效地進行。另外,因為個人信息數(shù)據(jù)存儲于數(shù)據(jù)中心28中,在學習時在參照個人信息時不需要從移動通信終端27向數(shù)據(jù)中心28發(fā)送個人信息。
下面,作為第二順序,對根據(jù)用戶的有聲的任意的發(fā)話動作進行學習的順序,參照圖6及圖7予以說明。另外,圖7為在圖6中選出在數(shù)據(jù)中心側(cè)進行的工序的示圖。
首先,用戶,如果在移動通信終端27中,開始進行利用第二順序的識別參數(shù)的學習的規(guī)定的按鈕操作,則移動通信終端27,對數(shù)據(jù)中心28通告開始利用第二順序的識別參數(shù)的學習(步驟201)。于是,用戶,利用移動通信終端27,對其他的移動通信終端等進行通常的,即發(fā)話模式不受制約的自由的聲音通話。
此時,移動通信終端27,與第一順序一樣地在取得用戶的聲音通話時的肌電信號并作為肌電信息發(fā)送到數(shù)據(jù)中心28的同時,檢出用戶的聲音通話時的音響信號,在實施此音響信號規(guī)定的處理并做成為音響信息之后,將此音響信息發(fā)送到數(shù)據(jù)中心28(步驟202)。
數(shù)據(jù)中心28,接收移動通信終端27發(fā)出的肌電信息及音響信息,進行根據(jù)音響信息的聲音識別,取得用戶進行聲音通話的聲音信息(言語信息)(步驟203)。
此外,數(shù)據(jù)中心28,根據(jù)肌電信息和作為與該肌電信息相對應的教師數(shù)據(jù)的聲音信息,進行關(guān)于來自肌電信息的發(fā)話內(nèi)容的識別的學習,生成識別參數(shù)(步驟204)。另外,在過去該用戶進行過學習時,與第一順序一樣,從識別參數(shù)數(shù)據(jù)庫23中讀出該用戶的過去的識別參數(shù),以對此識別參數(shù)進行改良的形式生成新的識別參數(shù)。
如果移動通信終端27的聲音通話結(jié)束,數(shù)據(jù)中心28,在將生成的識別參數(shù)及聲音信息等存儲于識別參數(shù)數(shù)據(jù)庫23的同時,將識別參數(shù)發(fā)送到移動通信終端27(步驟107),移動通信終端27接收識別參數(shù)(步驟108)。
于是,自此以后,移動通信終端27,根據(jù)適合此用戶的識別參數(shù)和用戶的肌電信息,可與上述同樣地局部地進行對發(fā)話內(nèi)容的識別。
在本實施方案中,因為有關(guān)用戶的發(fā)話動作的音響信息發(fā)送到數(shù)據(jù)中心28,在數(shù)據(jù)中心28中根據(jù)此音響信息得到教師數(shù)據(jù),不會承受使用戶進行特定的發(fā)話模式的發(fā)話等的負擔,可以在進行通常的會話的同時得到有關(guān)移動通信終端27側(cè)的發(fā)話內(nèi)容識別的識別參數(shù)。
另外,在移動通信終端27中,預先存儲即使是不進行學習也應該可以識別在移動通信終端27中由肌電信號產(chǎn)生的局部的發(fā)話內(nèi)容的、面向大眾的一般的識別參數(shù)。不過,如圖8所示,通過以任意順序反復進行根據(jù)上述第一順序的學習及根據(jù)上述第二順序的學習,移動通信終端27的識別參數(shù)對利用該移動通信終端27的每個用戶進行優(yōu)化,在各用戶的移動通信終端27中,通過利用此經(jīng)過優(yōu)化的識別參數(shù),可以以高識別率對移動通信終端27的發(fā)話內(nèi)容進行識別。
另外,本發(fā)明不限于上述實施方案,也可以有種種變型。
比如,在上述第一順序中,數(shù)據(jù)中心28的肌電信息學習單元26,數(shù)據(jù)中心28的肌電信息學習單元26,將由發(fā)話模式發(fā)生單元20發(fā)生的發(fā)話模式作為教師數(shù)據(jù)進行學習,在用戶以有聲方式發(fā)生發(fā)話模式時,也可將由音響信息識別單元25識別的聲音信息作為教師數(shù)據(jù),另外,也可以將發(fā)話模式及聲音信息兩者作為教師數(shù)據(jù)。
另外,上述信息識別系統(tǒng)100,在移動通信終端27中是對根據(jù)用戶的肌電信息的發(fā)話內(nèi)容進行識別,但不限于此。比如,在移動通信終端27中也可以取得用戶的口舌的活動的圖像等進行圖像處理而對發(fā)話內(nèi)容進行識別,歸根到底,只要是在移動通信終端27中根據(jù)關(guān)于調(diào)音器官的活動的信息進行發(fā)話內(nèi)容的識別就可以,數(shù)據(jù)中心28的學習是與此移動通信終端27的發(fā)話內(nèi)容的識別方法相對應的學習就可以。
另外,上述信息識別系統(tǒng)100,作為教師數(shù)據(jù)取得單元33,備有音響信息識別單元及發(fā)話模式發(fā)生單元20。但是,比如,在學習精度要求不到那樣程度時等等,備有其中的任何一個也可以。
如上所述,根據(jù)本發(fā)明的學習裝置、移動通信終端、信息識別系統(tǒng)及學習方法,向?qū)W習裝置發(fā)送有關(guān)用戶的調(diào)音器官的活動的信息、用來生成根據(jù)用戶的調(diào)音器官的活動的信息進行發(fā)話內(nèi)容的識別所必需的識別參數(shù)的計算負荷高的學習不是由移動通信終端而是由學習裝置進行。由此,與固定型的計算機等相比在處理速度及存儲器等的限制大的移動通信終端中進行學習時相比較,可以在短時間內(nèi)進行效率良好的學習。并且,將在學習裝置中取得的適合該用戶的識別參數(shù)發(fā)送到移動通信終端,自此以后,在移動通信終端中可以不與學習裝置等進行信息的收發(fā),而只利用移動通信終端適合地實施識別率高的發(fā)話內(nèi)容的識別。
由此,在室外及電車內(nèi)等使用的便攜式電話等的移動通信終端中,特別是可以根據(jù)有關(guān)調(diào)音器官的活動的信息,從無聲的發(fā)話合適地進行發(fā)話內(nèi)容的識別。
權(quán)利要求
1.一種學習裝置,與可以經(jīng)網(wǎng)絡(luò)互相通信的移動通信終端一起,構(gòu)成根據(jù)有關(guān)在該移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng),其特征在于包括接受從上述移動通信終端發(fā)送的關(guān)于上述調(diào)音器官的活動的信息的調(diào)音器官信息接收單元;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得單元;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習單元;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送單元。
2.如權(quán)利要求1所述的學習裝置,其特征在于包括將由上述學習單元生成的識別參數(shù)對上述每個用戶進行存儲的識別參數(shù)數(shù)據(jù)庫,上述學習單元,在通過上述學習生成識別參數(shù)時,參照過去對該用戶生成的識別參數(shù)。
3.如權(quán)利要求1或2所述的學習裝置,其特征在于上述教師數(shù)據(jù)取得單元包括將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成單元,上述識別參數(shù)發(fā)送單元還將該發(fā)話模式發(fā)送到上述移動通信終端。
4.如權(quán)利要求3所述的學習裝置,其特征在于包括將有關(guān)上述用戶的個人信息與該用戶相對應地進行存儲的個人信息數(shù)據(jù)庫,上述發(fā)話模式生成單元,根據(jù)有關(guān)上述用戶的個人信息生成上述發(fā)話模式。
5.如權(quán)利要求1~4中任何一項所述的學習裝置,其特征在于上述調(diào)音器官信息接收單元還接收有關(guān)從上述移動通信終端發(fā)送的上述發(fā)話動作時的音響的信息,上述教師數(shù)據(jù)取得單元包括根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)的音響信息識別單元。
6.一種移動通信終端,與可以經(jīng)網(wǎng)絡(luò)互相通信的學習裝置一起,構(gòu)成根據(jù)有關(guān)在該移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng),其特征在于包括取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得單元;將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習裝置的調(diào)音器官信息發(fā)送單元;接收從上述學習裝置發(fā)送的有關(guān)上述發(fā)話內(nèi)容的識別的識別參數(shù)的識別參數(shù)接收單元;以及根據(jù)有關(guān)上述調(diào)音器官動作的信息和上述識別參數(shù)進行針對上述發(fā)話動作內(nèi)容的識別的信息識別單元。
7.如權(quán)利要求6所述的移動通信終端,其特征在于上述識別參數(shù)接收單元還接收從上述學習裝置發(fā)送的發(fā)話模式,包括對上述用戶提示上述發(fā)話模式的發(fā)話模式提示單元。
8.如權(quán)利要求6或7所述的移動通信終端,其特征在于包括取得在上述發(fā)話動作實行時發(fā)生的有關(guān)音響的信息的音響取得單元,上述調(diào)音器官信息發(fā)送單元還向上述學習裝置發(fā)送有關(guān)上述音響的信息。
9.一種信息識別系統(tǒng),包含移動通信終端和可以經(jīng)網(wǎng)絡(luò)與上述移動通信終端通信的學習裝置,根據(jù)有關(guān)在上述移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息識別發(fā)話內(nèi)容,其特征在于上述移動通信終端包括取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得單元;將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習裝置的調(diào)音器官信息發(fā)送單元;接收從上述學習裝置發(fā)送的有關(guān)上述發(fā)話內(nèi)容的識別的識別參數(shù)的識別參數(shù)接收單元;以及根據(jù)有關(guān)上述調(diào)音器官動作的信息和上述識別參數(shù),進行針對上述發(fā)話動作內(nèi)容的識別的信息識別單元;上述學習裝置包括接受從上述移動通信終端發(fā)送的關(guān)于上述調(diào)音器官的活動的信息的調(diào)音器官信息接收單元;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得單元;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習單元;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送單元。
10.一種學習方法,是包含移動通信終端和可以經(jīng)網(wǎng)絡(luò)與上述移動通信終端通信的學習裝置,根據(jù)有關(guān)在上述移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)中的學習方法,其特征在于包括上述移動通信終端取得有關(guān)上述用戶進行發(fā)話動作時的上述用戶的調(diào)音器官的活動的信息的調(diào)音器官信息取得工序;上述移動通信終端將有關(guān)上述調(diào)音器官活動的信息發(fā)送到上述學習裝置的調(diào)音器官信息發(fā)送工序;上述學習裝置接收從上述移動通信終端發(fā)送的有關(guān)上述調(diào)音器官的活動的信息的調(diào)音器官信息接收工序;上述學習裝置取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得工序;上述學習裝置根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習工序;上述學習裝置將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送工序;以及上述移動通信終端接收從上述學習裝置發(fā)送的識別參數(shù)的識別參數(shù)接收工序。
11.一種學習方法,是一種根據(jù)有關(guān)在移動通信終端的用戶進行發(fā)話動作時的調(diào)音器官的活動的信息,識別發(fā)話內(nèi)容的信息識別系統(tǒng)中的學習方法,其特征在于包括接收從上述移動通信終端發(fā)送的有關(guān)上述調(diào)音器官的活動的信息的調(diào)音器官信息接收工序;取得與上述用戶的發(fā)話動作相對應的教師數(shù)據(jù)的教師數(shù)據(jù)取得工序;根據(jù)上述有關(guān)調(diào)音器官活動的信息和上述教師數(shù)據(jù),進行有關(guān)針對上述發(fā)話動作的發(fā)話內(nèi)容的識別的學習而生成識別參數(shù)的學習工序;以及將上述識別參數(shù)發(fā)送到上述移動通信終端的識別參數(shù)發(fā)送工序。
12.如權(quán)利要求11所述的學習方法,其特征在于還包括將利用上述學習工序生成的識別參數(shù)對每個用戶存儲到識別參數(shù)數(shù)據(jù)庫的識別參數(shù)存儲工序,在上述學習工序中,在通過上述學習生成識別參數(shù)時,參照過去對該用戶生成的識別參數(shù)。
13.如權(quán)利要求11或12所述的學習方法,其特征在于上述教師數(shù)據(jù)取得工序包括將發(fā)生上述用戶應該發(fā)話的模式作為教師數(shù)據(jù)的發(fā)話模式生成工序,以及將上述發(fā)話模式發(fā)送到上述移動通信終端的發(fā)話模式發(fā)送工序。
14.如權(quán)利要求13的學習裝置,其特征在于還包括上述學習裝置將有關(guān)上述用戶的個人信息與該用戶相對應地進行存儲的個人信息存儲工序,上述發(fā)話模式生成工序,根據(jù)有關(guān)上述用戶的個人信息生成上述發(fā)話模式。
15.如權(quán)利要求11~14中任何一項所述的學習方法,其特征在于在上述調(diào)音器官信息接收工序中,還接收有關(guān)從上述移動通信終端發(fā)送的有關(guān)上述發(fā)話動作時的影響的信息,在上述教師數(shù)據(jù)取得工序中,根據(jù)有關(guān)上述音響的信息進行聲音識別得到與上述發(fā)話動作相對應的教師數(shù)據(jù)。
全文摘要
提供一種學習裝置、移動通信終端、信息識別系統(tǒng)以及學習方法。將用戶的肌電信息發(fā)送到數(shù)據(jù)中心(28),用來生成進行基于肌電信息的發(fā)話內(nèi)容識別所必需的識別參數(shù)的計算負荷高的學習,不是由移動通信終端(27)而是由數(shù)據(jù)中心(28)進行。由此,與固定型的計算機等相比在處理速度及存儲器等的限制大的移動通信終端(27)中進行學習時相比較,可以在短時間內(nèi)進行效率良好的學習。并且,因為是將在數(shù)據(jù)中心(28)中取得的識別參數(shù)發(fā)送到移動通信終端(27),此后,可以不與學習裝置等進行信息的收發(fā),而只利用移動通信終端適合地實施識別率高的發(fā)話內(nèi)容的識別。
文檔編號G10L15/16GK1442992SQ0310379
公開日2003年9月17日 申請日期2003年2月19日 優(yōu)先權(quán)日2002年2月19日
發(fā)明者真鍋宏幸, 平巖明, 杉村利明 申請人:株式會社Ntt都科摩