在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)的制作方法
【專利說明】在識(shí)別系統(tǒng)中保守地適配深度神經(jīng)網(wǎng)絡(luò)
[0001] Μ?
[0002] 存在許多不同類型的計(jì)算機(jī)實(shí)現(xiàn)的識(shí)別系統(tǒng),其中這些識(shí)別系統(tǒng)被配置成相對(duì)于 用戶所提出的輸入數(shù)據(jù)執(zhí)行某種形式的分類。例如,計(jì)算機(jī)實(shí)現(xiàn)的語音識(shí)別系統(tǒng)被配置成 接收用戶的說出的話語并識(shí)別說出的話語中的詞。在另一示例中,手寫識(shí)別系統(tǒng)已被開發(fā) 出以接收手寫樣本并標(biāo)識(shí)例如該手寫樣本的作者、該手寫樣本中的個(gè)體字母、該手寫樣本 中的詞等。在又一示例中,已經(jīng)開發(fā)出執(zhí)行面部識(shí)別、指紋識(shí)別等的計(jì)算機(jī)實(shí)現(xiàn)的識(shí)別系 統(tǒng)。
[0003] 更具體地就語音識(shí)別而言,此類識(shí)別已經(jīng)是大量研究和商業(yè)開發(fā)的課題。例如,自 動(dòng)語音識(shí)別(ASR)系統(tǒng)已被并入到移動(dòng)電話、臺(tái)式計(jì)算機(jī)、汽車、游戲控制臺(tái)、顧客服務(wù)中 心等,以便識(shí)別命令/問題并提供對(duì)此類命令/問題的適當(dāng)響應(yīng)。例如,在配備有ASR系統(tǒng) 的移動(dòng)電話中,用戶可以講出保留在移動(dòng)電話上的聯(lián)系人列表中的某一聯(lián)系人的名字,而 移動(dòng)電話可發(fā)起對(duì)該聯(lián)系人的呼叫。
[0004] 然而,即使在數(shù)十年的研究以后,ASR在現(xiàn)實(shí)世界使用場(chǎng)景中的性能依然遠(yuǎn)遠(yuǎn)不能 令人滿意。按常規(guī)而言,隱馬爾科夫模型(HMM)已經(jīng)是用于大詞匯量連續(xù)語音識(shí)別(LVCSR) 的主導(dǎo)技術(shù)。在用于ASR的常規(guī)HMM中,針對(duì)輸出狀態(tài)的觀測(cè)概率是使用高斯混合模型 (GMM)建模的。這些GMM-HMM系統(tǒng)通常被訓(xùn)練以最大化生成訓(xùn)練數(shù)據(jù)中觀測(cè)到的特征的可 能性。近來,各種辨析策略和大邊界(large margin)技術(shù)已經(jīng)被探究。然而,這些技術(shù)的 潛力受到GMM發(fā)射分布模型的限制的約束。
[0005] 部分地被利用人類語音生成和感知系統(tǒng)中某些類似性質(zhì)的期望所激勵(lì),對(duì)ASR的 較新近的研究已經(jīng)探究了分層架構(gòu)來執(zhí)行語音識(shí)別。在這些研究中,對(duì)模型參數(shù)(與這些 分層架構(gòu)中的突觸相對(duì)應(yīng)的權(quán)重和權(quán)重偏誤(weight bias))的學(xué)習(xí)已經(jīng)是最突出和困難 的問題之一。與ASR研究中的發(fā)展并行,來自神經(jīng)網(wǎng)絡(luò)研究的學(xué)習(xí)方法中所取得的當(dāng)前進(jìn) 展已經(jīng)激起了對(duì)探究深度神經(jīng)網(wǎng)絡(luò)(DNN)的興趣。DNN是具有許多隱藏層的密集連接的有 向信念網(wǎng)絡(luò)。一般而言,DNN可被認(rèn)為是具有多層隱藏單元和至少一層可見單元的高度復(fù) 雜的非線性特征提取器,其中隱藏單元的每一層被學(xué)習(xí)來表示捕捉原始輸入數(shù)據(jù)中的高階 相關(guān)的特征。
[0006] 傳統(tǒng)上,利用DNN的ASR系統(tǒng)被訓(xùn)練成與說話者/通道無關(guān)的。換言之,DNN的參 數(shù)(例如,權(quán)重和權(quán)重偏誤)不是關(guān)于特定說話者和/或通道來學(xué)習(xí)的。這出于至少兩個(gè) 理由:首先,經(jīng)常難以獲得足夠的訓(xùn)練數(shù)據(jù)量來穩(wěn)健地學(xué)習(xí)針對(duì)某一說話者和/或通道的 參數(shù),因?yàn)榇蠖鄶?shù)用戶不期望花費(fèi)大量時(shí)間來提供有標(biāo)記的話語來訓(xùn)練ASR系統(tǒng)。而且,由 于更寬且更深的隱藏層,DNN通常具有多得多的參數(shù),并且還具有被設(shè)計(jì)成直接對(duì)senone 建模的大得多的輸出層。這使得適配結(jié)合語音識(shí)別利用的DNN成為相對(duì)困難的任務(wù)。
[0007] 施述
[0008] 以下是在本文更詳細(xì)描述的主題的簡要概述。本概述不旨在成為關(guān)于權(quán)利要求的 范圍的限制。
[0009] 本文描述了與適配(adapt)在識(shí)別系統(tǒng)中采用的深度神經(jīng)網(wǎng)絡(luò)(DNN)的至少一個(gè) 參數(shù)有關(guān)的各種技術(shù),其中所述適配是針對(duì)特定用戶或上下文進(jìn)行的。在一示例性實(shí)施例 中,DNN可在自動(dòng)語音識(shí)別(ASR)系統(tǒng)中被用作上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫模型 (CD-DNN-HMM)系統(tǒng)的一部分。計(jì)算設(shè)備(諸如移動(dòng)電話、汽車中的計(jì)算設(shè)備、呼叫中心中的 計(jì)算設(shè)備、游戲控制臺(tái)、服務(wù)器等)可包括ASR系統(tǒng),該ASR系統(tǒng)包括已經(jīng)利用來自多個(gè)不 同用戶的訓(xùn)練數(shù)據(jù)訓(xùn)練過的與說話者無關(guān)的(SI) CD-DNN-HMM系統(tǒng)。為了針對(duì)特定用戶或 上下文(例如,特定移動(dòng)電話)改進(jìn)CD-DNN-HMM系統(tǒng)的識(shí)別能力,可能期望將該DNN適配 到該特定用戶或上下文。此處描述的技術(shù)可被用來執(zhí)行這種適配而不需要用戶提出大量的 訓(xùn)練數(shù)據(jù)。
[0010] 在ASR的上下文中,DNN被配置成直接對(duì)上下文相關(guān)單元(context dependent unit)建模,所述上下文相關(guān)單元在本文被稱為Senonec3Senone可以是三音素(triphone)、 五音素(quinphone)等等。如上所述,可利用與多個(gè)不同用戶相對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)來訓(xùn)練SI ASR系統(tǒng)中的DNN。當(dāng)某一特定用戶提出期望通過利用包括DNN的ASR系統(tǒng)解碼的某一語 音話語時(shí),該語音話語被劃分成多個(gè)幀,并且針對(duì)某一個(gè)體幀的DNN的輸出是在該DNN所建 模的senone上的概率分布。
[0011] 為了避免在為該特定用戶適配該DNN時(shí)對(duì)用于該特定用戶的訓(xùn)練數(shù)據(jù)(例如,所 捕捉的該用戶的話語,經(jīng)常被稱為適配數(shù)據(jù))的過擬合,這種適配可以按照保守方式進(jìn)行, 使得未適配的DNN和已適配的DNN (具有使用適配數(shù)據(jù)適配的參數(shù)的所得DNN)之間的輸出 偏差受到約束。在一示例性實(shí)施例中,這可以通過在執(zhí)行適配時(shí)正規(guī)化(regularize)成本 函數(shù)來實(shí)現(xiàn),然而也可以采用其他方法來使適配被保守地進(jìn)行。例如,在一示例性實(shí)施例 中,可將Kullback-Leibler散度(KLD)正規(guī)化約束添加到適配準(zhǔn)則。因此,由已適配的DNN 所估計(jì)的多個(gè)幀上的senone分布被迫使相對(duì)接近由未適配的DNN所估計(jì)的senone分布。
[0012] 以上概述呈現(xiàn)了簡化概述,以提供對(duì)本文討論的系統(tǒng)和/或方法的一些方面的基 本理解。本概述并不是對(duì)此處所討論的系統(tǒng)和/或方法的全面綜述。它并不旨在標(biāo)識(shí)關(guān)鍵 /重要元素,也不描繪這樣的系統(tǒng)和/或方法的范圍。其唯一目的是以簡化形式呈現(xiàn)一些概 念,作為稍后呈現(xiàn)的更詳細(xì)實(shí)施例的序言。
[0013] 附圖簡述
[0014] 圖1是包括識(shí)別系統(tǒng)的一示例性計(jì)算設(shè)備的功能框圖,該識(shí)別系統(tǒng)包括DNN,其中 所述DNN能適配到特定用戶和/或上下文。
[0015] 圖2例示出一示例性深度神經(jīng)網(wǎng)絡(luò)。
[0016] 圖3是一示例性系統(tǒng)的功能框圖,該示例性系統(tǒng)便于將識(shí)別系統(tǒng)的DNN適配到特 定用戶。
[0017] 圖4是例示出用于基于所觀測(cè)到的輸入數(shù)據(jù)保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)的 一種示例性方法的流程圖。
[0018] 圖5是例示出用于基于與正規(guī)化成本函數(shù)結(jié)合利用的正規(guī)化權(quán)重來適配DNN的參 數(shù)的一種示例性方法的流程圖。
[0019] 圖6是一示例性計(jì)算系統(tǒng)。
[0020] 詳細(xì)描沐
[0021] 現(xiàn)在參考附圖描述涉及保守地適配深度神經(jīng)網(wǎng)絡(luò)的參數(shù)來針對(duì)特定用戶或上下 文定制這種深度神經(jīng)網(wǎng)絡(luò)的各種技術(shù),其中在全部附圖中,相同的附圖標(biāo)記用于指代相同 的元素。在以下描述中,為解釋起見,闡明了眾多具體細(xì)節(jié)以提供對(duì)一個(gè)或多個(gè)方面的全面 理解。然而,顯然這(些)方面可以在沒有這些具體細(xì)節(jié)的情況下實(shí)施。在其他實(shí)例中,以 框圖形式示出公知的結(jié)構(gòu)和設(shè)備以便于描述一個(gè)或多個(gè)方面。另外,要理解,被描述為由特 定系統(tǒng)組件執(zhí)行的功能可由多個(gè)組件執(zhí)行。類似地,例如,一組件可被配置成執(zhí)行被描述為 由多個(gè)組件執(zhí)行的功能。
[0022] 此外,術(shù)語"或"意指包括性"或"而非排斥性"或"。即,除非另有指定或從上下文 可以清楚,否則短語"X采用A或B"意指任何自然的包括性排列。即,術(shù)語"X采用A或B" 被以下實(shí)例中的任一個(gè)滿足:X米用A ;X米用B ;或X米用A和B兩者。另外,本申請(qǐng)和所 附權(quán)利要求書中所使用的冠詞"一"和"一種"一般應(yīng)被解釋為是指"一個(gè)或多個(gè)",除非另 有指定或從上下文可以清楚指的是單數(shù)形式。
[0023] 此外,如本文所使用的,術(shù)語"組件"和"系統(tǒng)"旨在包含配置有使得在被處理器執(zhí) 行時(shí)某一功能被執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀數(shù)據(jù)存儲(chǔ)。計(jì)算機(jī)可執(zhí)行指令可包 括例程、功能等等。還要理解組件或系統(tǒng)可以位于單個(gè)設(shè)備上或分布在若干設(shè)備之間。而 且,如此處所使用的,術(shù)語"示例性"旨在表示用作某些事物的例示或示例,而不意圖指示優(yōu) 選。
[0024] 現(xiàn)在參考圖1,例示出一示例性計(jì)算設(shè)備100,該示例性計(jì)算設(shè)備包括識(shí)別系統(tǒng) 102,該識(shí)別系統(tǒng)可識(shí)別計(jì)算設(shè)備100的用戶104所提出的輸入。計(jì)算設(shè)備100可以是客戶 端計(jì)算設(shè)備,諸如移動(dòng)電話、游戲控制臺(tái)、臺(tái)式計(jì)算機(jī)、膝上型計(jì)算機(jī)、平板計(jì)算設(shè)備(板式 計(jì)算設(shè)備)、汽車中的計(jì)算設(shè)備等。在另一示例中,計(jì)算設(shè)備100可以是由用戶104通過利 用計(jì)算設(shè)備或電話遠(yuǎn)程訪問的計(jì)算設(shè)備,諸如包括在位于用戶104的遠(yuǎn)程的客戶服務(wù)中心 中的計(jì)算設(shè)備。
[0025] 識(shí)別系統(tǒng)102可以是能識(shí)別用戶輸入的任何適當(dāng)?shù)淖R(shí)別系統(tǒng)。例如,識(shí)別系統(tǒng)102 可以是用于識(shí)別用戶104所提出的姿勢(shì)的系統(tǒng)、用于識(shí)別用戶104所提出的手寫中的字符 的系統(tǒng)、能夠解碼用戶104所提出的話語中的詞的自動(dòng)語音識(shí)別(ASR)系統(tǒng)等。出于解釋 目的,本文中識(shí)別系統(tǒng)102將被描述為ASR系統(tǒng)。然而,要理解,識(shí)別系統(tǒng)102可以是前面 提到的識(shí)別系統(tǒng)類型中的任何類型,用于適配此處關(guān)于ASR系統(tǒng)描述的模型參數(shù)的適配技 術(shù)能在這些其他類型的識(shí)別系統(tǒng)中被使用。
[0026] 在一示例性實(shí)施例中,識(shí)別系統(tǒng)102可包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)隱馬爾可夫 模型(⑶-DNN-HMM)。⑶-DNN-HMM包括上下文相關(guān)深度神經(jīng)網(wǎng)絡(luò)(在本文中將被稱為深度 神經(jīng)網(wǎng)絡(luò)(DNN) 106)和隱馬爾可夫模型108 (HMM)。DNN106是具有多個(gè)層110的多層感知 器。多個(gè)層110包括接收輸入觀測(cè)的輸入層(有時(shí)被稱為觀測(cè)層),其中所述觀測(cè)通過若 干(例如,9到13個(gè))幀聲學(xué)特征被提供給