在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法

文檔序號(hào)：9401975閱讀：550來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法
【專利說明】在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)
[0001] Μ?
[0002] 存在許多不同類型的計(jì)算機(jī)實(shí)現(xiàn)的識(shí)別系統(tǒng)，其中這些識(shí)別系統(tǒng)被配置成相對(duì)于用戶所提出的輸入數(shù)據(jù)執(zhí)行某種形式的分類。例如，計(jì)算機(jī)實(shí)現(xiàn)的語音識(shí)別系統(tǒng)被配置成接收用戶的說出的話語并識(shí)別說出的話語中的詞。在另一示例中，手寫識(shí)別系統(tǒng)已被開發(fā) 出以接收手寫樣本并標(biāo)識(shí)例如該手寫樣本的作者、該手寫樣本中的個(gè)體字母、該手寫樣本中的詞等。在又一示例中，已經(jīng)開發(fā)出執(zhí)行面部識(shí)別、指紋識(shí)別等的計(jì)算機(jī)實(shí)現(xiàn)的識(shí)別系統(tǒng)。
[0003] 更具體地就語音識(shí)別而言，此類識(shí)別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如，自動(dòng)語音識(shí)別（ASR)系統(tǒng)已被并入到移動(dòng)電話、臺(tái)式計(jì)算機(jī)、汽車、游戲控制臺(tái)、顧客服務(wù)中心等，以便識(shí)別命令/問題并提供對(duì)此類命令/問題的適當(dāng)響應(yīng)。例如，在配備有ASR系統(tǒng) 的移動(dòng)電話中，用戶可以講出保留在移動(dòng)電話上的聯(lián)系人列表中的某一聯(lián)系人的名字，而移動(dòng)電話可發(fā)起對(duì)該聯(lián)系人的呼叫。
[0004] 然而，即使在數(shù)十年的研究以后，ASR在現(xiàn)實(shí)世界使用場(chǎng)景中的性能依然遠(yuǎn)遠(yuǎn)不能令人滿意。按常規(guī)而言，隱馬爾科夫模型（HMM)已經(jīng)是用于大詞匯量連續(xù)語音識(shí)別（LVCSR) 的主導(dǎo)技術(shù)。在用于ASR的常規(guī)HMM中，針對(duì)輸出狀態(tài)的觀測(cè)概率是使用高斯混合模型 (GMM)建模的。這些GMM-HMM系統(tǒng)通常被訓(xùn)練以最大化生成訓(xùn)練數(shù)據(jù)中觀測(cè)到的特征的可能性。近來，各種辨析策略和大邊界（large margin)技術(shù)已經(jīng)被探究。然而，這些技術(shù)的潛力受到GMM發(fā)射分布模型的限制的約束。
[0005] 部分地被利用人類語音生成和感知系統(tǒng)中某些類似性質(zhì)的期望所激勵(lì)，對(duì)ASR的較新近的研究已經(jīng)探究了分層架構(gòu)來執(zhí)行語音識(shí)別。在這些研究中，對(duì)模型參數(shù)（與這些分層架構(gòu)中的突觸相對(duì)應(yīng)的權(quán)重和權(quán)重偏誤（weight bias))的學(xué)習(xí)已經(jīng)是最突出和困難的問題之一。與ASR研究中的發(fā)展并行，來自神經(jīng)網(wǎng)絡(luò)研究的學(xué)習(xí)方法中所取得的當(dāng)前進(jìn) 展已經(jīng)激起了對(duì)探究深度神經(jīng)網(wǎng)絡(luò)（DNN)的興趣。DNN是具有許多隱藏層的密集連接的有向信念網(wǎng)絡(luò)。一般而言，DNN可被認(rèn)為是具有多層隱藏單元和至少一層可見單元的高度復(fù) 雜的非線性特征提取器，其中隱藏單元的每一層被學(xué)習(xí)來表示捕捉原始輸入數(shù)據(jù)中的高階相關(guān)的特征。
[0006] 傳統(tǒng)上，利用DNN的ASR系統(tǒng)被訓(xùn)練成與說話者/通道無關(guān)的。換言之，DNN的參數(shù)（例如，權(quán)重和權(quán)重偏誤）不是關(guān)于特定說話者和/或通道來學(xué)習(xí)的。這出于至少兩個(gè) 理由：首先，經(jīng)常難以獲得足夠的訓(xùn)練數(shù)據(jù)量來穩(wěn)健地學(xué)習(xí)針對(duì)某一說話者和/或通道的參數(shù)，因?yàn)榇蠖鄶?shù)用戶不期望花費(fèi)大量時(shí)間來提供有標(biāo)記的話語來訓(xùn)練ASR系統(tǒng)。而且，由于更寬且更深的隱藏層，DNN通常具有多得多的參數(shù)，并且還具有被設(shè)計(jì)成直接對(duì)senone 建模的大得多的輸出層。這使得適配結(jié)合語音識(shí)別利用的DNN成為相對(duì)困難的任務(wù)。
[0007] 施述
[0008] 以下是在本文更詳細(xì)描述的主題的簡要概述。本概述不旨在成為關(guān)于權(quán)利要求的范圍的限制。
[0009] 本文描述了與適配（adapt)在識(shí)別系統(tǒng)中采用的深度神經(jīng)網(wǎng)絡(luò)（DNN)的至少一個(gè) 參數(shù)有關(guān)的各種技術(shù)，其中所述適配是針對(duì)特定用戶或上下文進(jìn)行的。在一示例性實(shí)施例中，DNN可在自動(dòng)語音識(shí)別（ASR)系統(tǒng)中被用作上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型 (CD-DNN-HMM)系統(tǒng)的一部分。計(jì)算設(shè)備（諸如移動(dòng)電話、汽車中的計(jì)算設(shè)備、呼叫中心中的計(jì)算設(shè)備、游戲控制臺(tái)、服務(wù)器等）可包括ASR系統(tǒng)，該ASR系統(tǒng)包括已經(jīng)利用來自多個(gè)不同用戶的訓(xùn)練數(shù)據(jù)訓(xùn)練過的與說話者無關(guān)的（SI) CD-DNN-HMM系統(tǒng)。為了針對(duì)特定用戶或上下文（例如，特定移動(dòng)電話）改進(jìn)CD-DNN-HMM系統(tǒng)的識(shí)別能力，可能期望將該DNN適配到該特定用戶或上下文。此處描述的技術(shù)可被用來執(zhí)行這種適配而不需要用戶提出大量的訓(xùn)練數(shù)據(jù)。
[0010] 在ASR的上下文中，DNN被配置成直接對(duì)上下文相關(guān)單元（context dependent unit)建模，所述上下文相關(guān)單元在本文被稱為Senonec3Senone可以是三音素（triphone)、五音素（quinphone)等等。如上所述，可利用與多個(gè)不同用戶相對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)來訓(xùn)練SI ASR系統(tǒng)中的DNN。當(dāng)某一特定用戶提出期望通過利用包括DNN的ASR系統(tǒng)解碼的某一語音話語時(shí)，該語音話語被劃分成多個(gè)幀，并且針對(duì)某一個(gè)體幀的DNN的輸出是在該DNN所建模的senone上的概率分布。
[0011] 為了避免在為該特定用戶適配該DNN時(shí)對(duì)用于該特定用戶的訓(xùn)練數(shù)據(jù)（例如，所捕捉的該用戶的話語，經(jīng)常被稱為適配數(shù)據(jù)）的過擬合，這種適配可以按照保守方式進(jìn)行，使得未適配的DNN和已適配的DNN (具有使用適配數(shù)據(jù)適配的參數(shù)的所得DNN)之間的輸出偏差受到約束。在一示例性實(shí)施例中，這可以通過在執(zhí)行適配時(shí)正規(guī)化（regularize)成本函數(shù)來實(shí)現(xiàn)，然而也可以采用其他方法來使適配被保守地進(jìn)行。例如，在一示例性實(shí)施例中，可將Kullback-Leibler散度（KLD)正規(guī)化約束添加到適配準(zhǔn)則。因此，由已適配的DNN 所估計(jì)的多個(gè)幀上的senone分布被迫使相對(duì)接近由未適配的DNN所估計(jì)的senone分布。
[0012] 以上概述呈現(xiàn)了簡化概述，以提供對(duì)本文討論的系統(tǒng)和/或方法的一些方面的基本理解。本概述并不是對(duì)此處所討論的系統(tǒng)和/或方法的全面綜述。它并不旨在標(biāo)識(shí)關(guān)鍵 /重要元素，也不描繪這樣的系統(tǒng)和/或方法的范圍。其唯一目的是以簡化形式呈現(xiàn)一些概念，作為稍后呈現(xiàn)的更詳細(xì)實(shí)施例的序言。
[0013] 附圖簡述
[0014] 圖1是包括識(shí)別系統(tǒng)的一示例性計(jì)算設(shè)備的功能框圖，該識(shí)別系統(tǒng)包括DNN，其中所述DNN能適配到特定用戶和/或上下文。
[0015] 圖2例示出一示例性深度神經(jīng)網(wǎng)絡(luò)。
[0016] 圖3是一示例性系統(tǒng)的功能框圖，該示例性系統(tǒng)便于將識(shí)別系統(tǒng)的DNN適配到特定用戶。
[0017] 圖4是例示出用于基于所觀測(cè)到的輸入數(shù)據(jù)保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)的一種示例性方法的流程圖。
[0018] 圖5是例示出用于基于與正規(guī)化成本函數(shù)結(jié)合利用的正規(guī)化權(quán)重來適配DNN的參數(shù)的一種示例性方法的流程圖。
[0019] 圖6是一示例性計(jì)算系統(tǒng)。
[0020] 詳細(xì)描沐
[0021] 現(xiàn)在參考附圖描述涉及保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)來針對(duì)特定用戶或上下文定制這種深度神經(jīng)網(wǎng)絡(luò)的各種技術(shù)，其中在全部附圖中，相同的附圖標(biāo)記用于指代相同的元素。在以下描述中，為解釋起見，闡明了眾多具體細(xì)節(jié)以提供對(duì)一個(gè)或多個(gè)方面的全面理解。然而，顯然這（些）方面可以在沒有這些具體細(xì)節(jié)的情況下實(shí)施。在其他實(shí)例中，以框圖形式示出公知的結(jié)構(gòu)和設(shè)備以便于描述一個(gè)或多個(gè)方面。另外，要理解，被描述為由特定系統(tǒng)組件執(zhí)行的功能可由多個(gè)組件執(zhí)行。類似地，例如，一組件可被配置成執(zhí)行被描述為由多個(gè)組件執(zhí)行的功能。
[0022] 此外，術(shù)語"或"意指包括性"或"而非排斥性"或"。即，除非另有指定或從上下文可以清楚，否則短語"X采用A或B"意指任何自然的包括性排列。即，術(shù)語"X采用A或B" 被以下實(shí)例中的任一個(gè)滿足：X米用A ;X米用B ;或X米用A和B兩者。另外，本申請(qǐng)和所附權(quán)利要求書中所使用的冠詞"一"和"一種"一般應(yīng)被解釋為是指"一個(gè)或多個(gè)"，除非另有指定或從上下文可以清楚指的是單數(shù)形式。
[0023] 此外，如本文所使用的，術(shù)語"組件"和"系統(tǒng)"旨在包含配置有使得在被處理器執(zhí) 行時(shí)某一功能被執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀數(shù)據(jù)存儲(chǔ)。計(jì)算機(jī)可執(zhí)行指令可包括例程、功能等等。還要理解組件或系統(tǒng)可以位于單個(gè)設(shè)備上或分布在若干設(shè)備之間。而且，如此處所使用的，術(shù)語"示例性"旨在表示用作某些事物的例示或示例，而不意圖指示優(yōu) 選。
[0024] 現(xiàn)在參考圖1，例示出一示例性計(jì)算設(shè)備100,該示例性計(jì)算設(shè)備包括識(shí)別系統(tǒng) 102,該識(shí)別系統(tǒng)可識(shí)別計(jì)算設(shè)備100的用戶104所提出的輸入。計(jì)算設(shè)備100可以是客戶端計(jì)算設(shè)備，諸如移動(dòng)電話、游戲控制臺(tái)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算設(shè)備（板式計(jì)算設(shè)備）、汽車中的計(jì)算設(shè)備等。在另一示例中，計(jì)算設(shè)備100可以是由用戶104通過利用計(jì)算設(shè)備或電話遠(yuǎn)程訪問的計(jì)算設(shè)備，諸如包括在位于用戶104的遠(yuǎn)程的客戶服務(wù)中心中的計(jì)算設(shè)備。
[0025] 識(shí)別系統(tǒng)102可以是能識(shí)別用戶輸入的任何適當(dāng)?shù)淖R(shí)別系統(tǒng)。例如，識(shí)別系統(tǒng)102 可以是用于識(shí)別用戶104所提出的姿勢(shì)的系統(tǒng)、用于識(shí)別用戶104所提出的手寫中的字符的系統(tǒng)、能夠解碼用戶104所提出的話語中的詞的自動(dòng)語音識(shí)別（ASR)系統(tǒng)等。出于解釋目的，本文中識(shí)別系統(tǒng)102將被描述為ASR系統(tǒng)。然而，要理解，識(shí)別系統(tǒng)102可以是前面提到的識(shí)別系統(tǒng)類型中的任何類型，用于適配此處關(guān)于ASR系統(tǒng)描述的模型參數(shù)的適配技術(shù)能在這些其他類型的識(shí)別系統(tǒng)中被使用。
[0026] 在一示例性實(shí)施例中，識(shí)別系統(tǒng)102可包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型（⑶-DNN-HMM)。⑶-DNN-HMM包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)（在本文中將被稱為深度神經(jīng)網(wǎng)絡(luò)（DNN) 106)和隱馬爾可夫模型108 (HMM)。DNN106是具有多個(gè)層110的多層感知器。多個(gè)層110包括接收輸入觀測(cè)的輸入層（有時(shí)被稱為觀測(cè)層），其中所述觀測(cè)通過若干（例如，9到13個(gè)）幀聲學(xué)特征被提供給

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3 4

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：D·俞;姚開盛;蘇航;李鋼;F·塞德;
技術(shù)所有人：微軟技術(shù)許可有限責(zé)任公司;
我是此專利的發(fā)明人

上一篇：用于提供聯(lián)系人相關(guān)信息項(xiàng)的裝置和方法
上一篇：神經(jīng)網(wǎng)絡(luò)及編程方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度卷積神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

dnn深度神經(jīng)網(wǎng)絡(luò)相關(guān)技術(shù)

深度神經(jīng)網(wǎng)絡(luò)算法相關(guān)技術(shù)

深度神經(jīng)網(wǎng)絡(luò)模型相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法