24]圖3是說(shuō)明完成本發(fā)明的D順的學(xué)習(xí)設(shè)及的構(gòu)思的D順的內(nèi)部構(gòu)成的示意圖。
[00巧]圖4是說(shuō)明完成本發(fā)明的D順的學(xué)習(xí)設(shè)及的構(gòu)思的D順的內(nèi)部構(gòu)成的示意圖。
[0026] 圖5是說(shuō)明本發(fā)明的各實(shí)施方式設(shè)及的D順的基本構(gòu)成的示意圖。
[0027] 圖6是表示本發(fā)明的各實(shí)施方式中的不依賴于語(yǔ)言的獨(dú)立的子網(wǎng)絡(luò)(W下稱為 "獨(dú)立子網(wǎng)絡(luò)"。)和依賴于語(yǔ)言的子網(wǎng)絡(luò)(W下稱為"依賴子網(wǎng)絡(luò)"。)的連接方式的框圖。
[0028]圖7是表示本發(fā)明的各實(shí)施方式中的獨(dú)立子網(wǎng)絡(luò)與依賴子網(wǎng)絡(luò)的連接的具體構(gòu) 成的框圖。
[0029] 圖8是表示獨(dú)立子網(wǎng)絡(luò)與依賴子網(wǎng)絡(luò)的流通方式及連接方式的示意圖。
[0030] 圖9是實(shí)現(xiàn)本發(fā)明的實(shí)施方式設(shè)及的D順中的獨(dú)立子網(wǎng)絡(luò)與依賴子網(wǎng)絡(luò)的同時(shí)學(xué) 習(xí)的程序的流程圖。
[0031]圖10是實(shí)現(xiàn)將本發(fā)明的實(shí)施方式設(shè)及的D順中的獨(dú)立子網(wǎng)絡(luò)固定而進(jìn)行依賴子 網(wǎng)絡(luò)的學(xué)習(xí)的處理的程序的流程圖。
[003引圖11是執(zhí)行實(shí)施方式設(shè)及的D順的學(xué)習(xí)處理的計(jì)算機(jī)系統(tǒng)的外觀圖。
[0033] 圖12是表示圖11所示的計(jì)算機(jī)的內(nèi)部構(gòu)成的框圖。
【具體實(shí)施方式】
[0034] 在W下的說(shuō)明及附圖中,對(duì)同一部件賦予同一參照編號(hào)。因此,不再重復(fù)針對(duì)運(yùn)些 部件的詳細(xì)說(shuō)明。其中,W下的實(shí)施方式主要針對(duì)設(shè)及聲音識(shí)別的例子,但本發(fā)明并未限定 于運(yùn)種實(shí)施方式。例如也可適用于圖像識(shí)別。
[00對(duì)[基本想法]
[0036] 如上所述,在針對(duì)多語(yǔ)言聲音進(jìn)行D順的學(xué)習(xí)的情況下,需要使單獨(dú)的DNNW各自 的語(yǔ)言分開(kāi)獨(dú)立地學(xué)習(xí)??墒菫榇舜嬖谛枰L(zhǎng)時(shí)間的問(wèn)題。為了解決運(yùn)樣的問(wèn)題,在W下 的假設(shè)中進(jìn)行了多語(yǔ)言聲音的D順的學(xué)習(xí)。根據(jù)實(shí)驗(yàn),認(rèn)為該假設(shè)具有足夠的依據(jù)。
[0037] (1)對(duì)于各不相同的語(yǔ)言而言,作為對(duì)象的是相同的聲音。因此,多語(yǔ)言中共同的 特征、換言之從語(yǔ)言獨(dú)立出來(lái)的特征應(yīng)該在D順的某個(gè)相同的地方被處理。例如元音、輔 音、爆破音及摩擦音等音素屬性的檢測(cè)等相當(dāng)于此。運(yùn)些處理假設(shè)均在接近于輸入的層中 被進(jìn)行。目P,如圖3所示,假設(shè):在日文DNN60及英文DNN62的任一種中,處理上述那樣的音 素屬性的神經(jīng)元80及82等均位于接近于輸入層的位置。
[0038] (2)另一方面,參照?qǐng)D4,假設(shè)依賴于語(yǔ)言的處理在接近于輸出層的層內(nèi)的神經(jīng)元 (例如神經(jīng)元100及102等)中被處理。例如,從音素屬性向音素的匹配等處理相當(dāng)于此。
[0039] (3)依據(jù)W上內(nèi)容,通過(guò)將圖4的日文DNN60及英文DNN62的共同部分(神經(jīng)元 80及82集中的層)分割為此后的層,從而如圖5所示,能獲得不依賴于語(yǔ)言的獨(dú)立子網(wǎng)絡(luò) 120。日文DNN60及英文DNN62之中,剩余部分成為依賴于各個(gè)語(yǔ)言的依賴子網(wǎng)絡(luò)(例如日 文的依賴子網(wǎng)絡(luò)122及英文的依賴子網(wǎng)絡(luò)124)。
[0040] 基于運(yùn)種假設(shè),如果預(yù)先準(zhǔn)備學(xué)習(xí)完的獨(dú)立子網(wǎng)絡(luò)120,那么只是進(jìn)行僅依賴于特 定語(yǔ)言的依賴子網(wǎng)絡(luò)的學(xué)習(xí)并連接獨(dú)立子網(wǎng)絡(luò)120,就能獲得用于識(shí)別該語(yǔ)言的m^N。與進(jìn) 行D順整體的學(xué)習(xí)的情況相比較,因?yàn)橐蕾囎泳W(wǎng)絡(luò)的層的數(shù)量減小,所W可期待學(xué)習(xí)所需 的時(shí)間縮短。
[0041] 具體而言,可考慮W下那樣的構(gòu)成。參照?qǐng)D6,準(zhǔn)備獨(dú)立子網(wǎng)絡(luò)120和依賴子網(wǎng)絡(luò) 122及124。獨(dú)立子網(wǎng)絡(luò)120包含輸入層160、隱藏層162及輸出層164。依賴子網(wǎng)絡(luò)122 及124也同樣包含輸入層180及200、隱藏層182及202、W及輸出層184及204。使獨(dú)立子 網(wǎng)絡(luò)120的輸出層164的神經(jīng)元數(shù)和依賴子網(wǎng)絡(luò)122及124的輸入層180及200的神經(jīng)元 數(shù)一致。
[0042] 參照?qǐng)D7,例如在獨(dú)立子網(wǎng)絡(luò)120與依賴子網(wǎng)絡(luò)122的連接中,將獨(dú)立子網(wǎng)絡(luò)120 的輸出層164的各神經(jīng)元與依賴子網(wǎng)絡(luò)122的輸入層180的對(duì)應(yīng)的神經(jīng)元相互連接,作為 神經(jīng)元對(duì)220、222、……、224。因此,需要使輸出層164的神經(jīng)元數(shù)與輸入層180的神經(jīng)元 數(shù)一致。
[004引在學(xué)習(xí)時(shí)的學(xué)習(xí)數(shù)據(jù)的正向傳播(ForwardPropagation)中,將獨(dú)立子網(wǎng)絡(luò)120 側(cè)的神經(jīng)元的輸出Xi"設(shè)為向該輸入層180側(cè)的神經(jīng)元輸入的輸入yi^D。另外,在此i表示 神經(jīng)元的索引,"LI"為"LanguageIncbpendent"的縮略語(yǔ),表示從語(yǔ)言獨(dú)立出來(lái)的部分, "LD"為"LanguageDependent"的縮略語(yǔ),表示依賴于語(yǔ)言。W下的說(shuō)明中也同樣。
[0044] 在反向傳播度ack Propagation)中,獨(dú)立子網(wǎng)絡(luò)120的輸出層164內(nèi)的各神經(jīng)元 的誤差信號(hào)ei"是利用下式并根據(jù)依賴子網(wǎng)絡(luò)122或124的第2層的隱藏層內(nèi)的各神經(jīng)元 的誤差信號(hào)e,u來(lái)計(jì)算的。其中,j為神經(jīng)元的索引。
[0045][數(shù)學(xué)式1]
[0046]
[0047] 其中,在該式中,Wij為被給予依賴子網(wǎng)絡(luò)122或124內(nèi)的輸入層內(nèi)的第i個(gè)神經(jīng) 元和第2層的第j個(gè)神經(jīng)元的連接的權(quán)重。
[0048] 在本實(shí)施方式設(shè)及的系統(tǒng)中,使圖6及圖7所示那樣的獨(dú)立子網(wǎng)絡(luò)120及依賴子 網(wǎng)絡(luò)122 W及依賴子網(wǎng)絡(luò)124同時(shí)學(xué)習(xí)。具體參照?qǐng)D9及圖10的流程圖而在后面敘述,在 變更學(xué)習(xí)數(shù)據(jù)的同時(shí),交替地重復(fù)執(zhí)行在連接了獨(dú)立子網(wǎng)絡(luò)120與依賴子網(wǎng)絡(luò)122的D順 中使用日文的學(xué)習(xí)數(shù)據(jù)進(jìn)行學(xué)習(xí)的處理、和在連接了獨(dú)立子網(wǎng)絡(luò)120與依賴子網(wǎng)絡(luò)124的 中使用英文的學(xué)習(xí)數(shù)據(jù)進(jìn)行學(xué)習(xí)的處理。認(rèn)為通過(guò)該處理,運(yùn)些子網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),使得 日英運(yùn)兩種語(yǔ)言所共同的、不依賴于語(yǔ)言的處理的神經(jīng)元集中在獨(dú)立子網(wǎng)絡(luò)120中、進(jìn)行 日文所特有的處理的神經(jīng)元集中在依賴子網(wǎng)絡(luò)122中、進(jìn)行英文所特有的處理的神經(jīng)元集 中在依賴子網(wǎng)絡(luò)124中。
[004引[效果]
[0050] 如上所述,能獲得獨(dú)立子網(wǎng)絡(luò)120與依賴子網(wǎng)絡(luò)122及124,由此能獲得W下那樣 的效果。參照?qǐng)D8,如上所述,若日文的獨(dú)立子網(wǎng)絡(luò)120、英文的依賴子網(wǎng)絡(luò)122及124的學(xué) 習(xí)結(jié)束,則既可W使依賴子網(wǎng)絡(luò)122及124與獨(dú)立子網(wǎng)絡(luò)120成組后流通,也可W分開(kāi)獨(dú)立 地流通。
[0051] 例如,設(shè)與獨(dú)立子網(wǎng)絡(luò)120完全相同的獨(dú)立子網(wǎng)絡(luò)232已經(jīng)處于用戶的手跟前。該 用戶取得日文的依賴子網(wǎng)絡(luò)122并連接至獨(dú)立子網(wǎng)絡(luò)232的后級(jí),由此可構(gòu)筑日文的聲音 識(shí)別用的m^N。如果其他用戶保持與獨(dú)立子網(wǎng)絡(luò)120完全相同的獨(dú)立子網(wǎng)絡(luò)230,那么該用 戶取得英文的依賴子網(wǎng)絡(luò)124并連接至獨(dú)立子網(wǎng)絡(luò)230的后級(jí),由此可構(gòu)筑英文的聲音識(shí) 別用的面N。
[0052] 再有,根據(jù)上述假設(shè),獨(dú)立子網(wǎng)絡(luò)120應(yīng)該進(jìn)行學(xué)習(xí),使得無(wú)論是何種語(yǔ)言都能使 用。因此,使用該獨(dú)立子網(wǎng)絡(luò)120,如下所述能在短時(shí)間內(nèi)學(xué)習(xí)新的語(yǔ)言的面N。旨P,固定獨(dú) 立子網(wǎng)絡(luò)120 (將獨(dú)立子網(wǎng)絡(luò)120的參數(shù)均設(shè)為不變),并將用于新的語(yǔ)言(例如中文)的 未學(xué)習(xí)的依賴子網(wǎng)絡(luò)(中文用的依賴子網(wǎng)絡(luò))234連接至獨(dú)立子網(wǎng)絡(luò)120的后級(jí)。然后,固 定獨(dú)立子網(wǎng)絡(luò)120,使用中文的學(xué)習(xí)數(shù)據(jù)進(jìn)行由獨(dú)立子網(wǎng)絡(luò)120及依賴子網(wǎng)絡(luò)234構(gòu)成的 D順的學(xué)習(xí)。此時(shí),獨(dú)立子網(wǎng)絡(luò)120的參數(shù)不會(huì)變化,僅進(jìn)行依賴子網(wǎng)絡(luò)234的學(xué)習(xí)。通過(guò) 運(yùn)樣的處理,依賴子網(wǎng)絡(luò)234進(jìn)行學(xué)習(xí)W便具有適合于中文的參數(shù)的值,通過(guò)將依賴子網(wǎng) 絡(luò)234連接至獨(dú)立子網(wǎng)絡(luò)120的后級(jí),從而可構(gòu)筑中文的聲音識(shí)別用的m^N。當(dāng)然,對(duì)于該 依賴子網(wǎng)絡(luò)234而言,既可W與獨(dú)立子網(wǎng)絡(luò)120成組地流通,也可W分開(kāi)獨(dú)立地流通。在某 一用戶具有與獨(dú)立子網(wǎng)絡(luò)120相同的獨(dú)立子網(wǎng)絡(luò)236的情況下,該用戶僅取得依賴子網(wǎng)絡(luò)234就能與獨(dú)立子網(wǎng)絡(luò)236組合來(lái)構(gòu)筑新的中文用的面N。
[0053] 依賴子網(wǎng)絡(luò)234的層的數(shù)量與組合了獨(dú)立子網(wǎng)絡(luò)120和依賴子網(wǎng)絡(luò)234的D順相 比,較少。因此,依賴子網(wǎng)絡(luò)234的學(xué)習(xí)與進(jìn)行D順整體的學(xué)習(xí)的情況相比,遠(yuǎn)遠(yuǎn)地減少。結(jié) 果,即便在需要構(gòu)筑針對(duì)新的語(yǔ)言的D順時(shí)也能在比W往更短的時(shí)間內(nèi)準(zhǔn)備所需的面N。
[0054][程序構(gòu)成]
[00巧]上述的系統(tǒng)能通過(guò)計(jì)算機(jī)的硬件和在該硬件上執(zhí)行的計(jì)算機(jī)程序來(lái)實(shí)現(xiàn)。在圖9中示出實(shí)現(xiàn)使獨(dú)立子網(wǎng)絡(luò)120、日文的依賴子網(wǎng)絡(luò)122及英文的依賴子網(wǎng)絡(luò)124進(jìn)行學(xué)習(xí)的 處理的程序的流程圖,在圖10中追加地示出實(shí)現(xiàn)使中文的依賴子網(wǎng)絡(luò)234進(jìn)行學(xué)習(xí)的處理 的程序的流程圖。
[0056] 參照?qǐng)D9,使獨(dú)立子網(wǎng)絡(luò)與依賴子網(wǎng)絡(luò)(多個(gè),本例中為2個(gè))同時(shí)學(xué)習(xí)的程序, 包含:將獨(dú)立子網(wǎng)絡(luò)120初始化的步驟240、將依賴子網(wǎng)絡(luò)122初始化的步驟242、及將依 賴子網(wǎng)絡(luò)124初始化的步驟244。獨(dú)立子網(wǎng)絡(luò)120的初始化與通常的D順相同,是通過(guò) RBM巧estrictedBoltzmanMachine,受限玻爾茲曼機(jī))來(lái)進(jìn)行的。依賴子網(wǎng)絡(luò)122及124 的初始化將獨(dú)立子網(wǎng)絡(luò)120的輸出作為輸入,與獨(dú)立子網(wǎng)絡(luò)120同樣地使用RBM來(lái)進(jìn)行。其 中,也可W不使用獨(dú)立子網(wǎng)絡(luò)120的輸出而通過(guò)RBM使依賴子網(wǎng)絡(luò)122及124分別與獨(dú)立 子網(wǎng)絡(luò)120獨(dú)立地進(jìn)行初始化。
[0057] 接著,使用學(xué)習(xí)數(shù)據(jù)同時(shí)進(jìn)行獨(dú)立子網(wǎng)絡(luò)120化及依賴子網(wǎng)絡(luò)122及124的學(xué)習(xí)。 在本例中,學(xué)習(xí)數(shù)據(jù)由日文與英文雙方的聲音數(shù)據(jù)及音素識(shí)別結(jié)果構(gòu)成,且日英的學(xué)習(xí)數(shù) 據(jù)均分割成多個(gè)集合。
[0058] 本程序的、進(jìn)行學(xué)習(xí)的部分包含:針對(duì)學(xué)習(xí)數(shù)據(jù)的各集合執(zhí)行W下處理248的步 驟246 ;分開(kāi)獨(dú)立地輸出學(xué)習(xí)結(jié)果所能獲得的獨(dú)立子網(wǎng)絡(luò)120、日文的依賴子網(wǎng)絡(luò)122及英 文的依賴子網(wǎng)絡(luò)124的參數(shù),并分別存儲(chǔ)至未圖示的存儲(chǔ)介質(zhì),結(jié)束處理的步驟250。
[0059] 處理248包含:在獨(dú)立子網(wǎng)絡(luò)120的后級(jí)連