一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法與流程

文檔序號(hào)：12274042閱讀：334來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>樂(lè)器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及自然語(yǔ)言模糊邊界確定算法，特別是一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法。

背景技術(shù)：

隨著人類(lèi)社會(huì)信息化程度和計(jì)算機(jī)軟硬件水平的提高，自然語(yǔ)言逐步變成了計(jì)算機(jī)應(yīng)用與人工智能研究領(lǐng)域的熱點(diǎn)，其基本目標(biāo)技術(shù)使計(jì)算機(jī)具有人類(lèi)的語(yǔ)言功能，如像人一樣能夠聽(tīng)、說(shuō)、讀、寫(xiě)的能力。根據(jù)應(yīng)用領(lǐng)域的不同，自然語(yǔ)言存在多處模糊邊界不能確定，導(dǎo)致利用率低的問(wèn)題，受到廣大學(xué)者的關(guān)注，也出現(xiàn)了很多好的方法。

現(xiàn)有技術(shù)有采用詞聯(lián)接的方法，對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定，該方法主要在自然語(yǔ)言環(huán)境建立動(dòng)態(tài)語(yǔ)料庫(kù)，并基于動(dòng)態(tài)語(yǔ)料庫(kù)建立詞聯(lián)接實(shí)例知識(shí)庫(kù)和高級(jí)知識(shí)庫(kù)，提取自然語(yǔ)言的特征，通過(guò)詞聯(lián)接對(duì)其進(jìn)行分類(lèi)確定，實(shí)現(xiàn)對(duì)自然語(yǔ)言模糊邊界的確定，但是存在確定時(shí)間過(guò)長(zhǎng)的問(wèn)題。

現(xiàn)有技術(shù)還有通過(guò)建立語(yǔ)言實(shí)體關(guān)系模型，根據(jù)該模型指定語(yǔ)言分析的流程和算法，推導(dǎo)出自然語(yǔ)言的結(jié)構(gòu)，并以此為基礎(chǔ)，進(jìn)行自然語(yǔ)言模糊邊界確定，但是改方法存在結(jié)果準(zhǔn)確度低的問(wèn)題；針對(duì)自然語(yǔ)言存在粗粒度語(yǔ)言無(wú)法表示自然語(yǔ)言的復(fù)雜對(duì)象間關(guān)系的問(wèn)題。另外還有文獻(xiàn)通過(guò)認(rèn)知語(yǔ)言學(xué)理論的方法進(jìn)行模糊邊界確定，該方法采用意向圖表示自然語(yǔ)言中對(duì)象節(jié)點(diǎn)間的聯(lián)系，通過(guò)屬性空間表示能夠數(shù)值化的自然語(yǔ)言，并在此基礎(chǔ)上，建立自然語(yǔ)言屬性空間及修改過(guò)程轉(zhuǎn)化的操作序列，實(shí)現(xiàn)自然語(yǔ)言模糊邊界的確定，但是該方法存在對(duì)抽象的自然語(yǔ)言模糊邊界難以確定的問(wèn)題。

針對(duì)傳統(tǒng)方法存在的問(wèn)題，提出基于大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法。根據(jù)自然語(yǔ)言識(shí)別原理，對(duì)聲學(xué)特征進(jìn)行分析，建立自然語(yǔ)言聲學(xué)模型及統(tǒng)計(jì)模型，采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析，并以此為基礎(chǔ)，采用深度學(xué)習(xí)法進(jìn)行自然語(yǔ)言特征識(shí)別，同時(shí)采用支持向量機(jī)法，根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分，在根據(jù)其約束條件，結(jié)合大數(shù)據(jù)分析法，確定自然語(yǔ)言模糊邊界。實(shí)驗(yàn)結(jié)果標(biāo)明，采用改進(jìn)的方法，相比傳統(tǒng)的方法其查全率和準(zhǔn)確率均有一定的提高，具有一定的優(yōu)勢(shì)。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的是提出一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法，提高了查全率和準(zhǔn)確率。

本發(fā)明采用以下方案實(shí)現(xiàn)：一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法，包括以下步驟：

步驟S1：進(jìn)行自然語(yǔ)言解碼識(shí)別分析：從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征經(jīng)過(guò)訓(xùn)練得到聲學(xué)模型，與發(fā)聲詞典、語(yǔ)言模型組成網(wǎng)絡(luò)，對(duì)新來(lái)的語(yǔ)言提取特征，經(jīng)聲學(xué)模型表示，通過(guò)維特比解碼得到識(shí)別結(jié)果；

步驟S2：進(jìn)行基于深度學(xué)習(xí)的自然語(yǔ)言特征識(shí)別；

步驟S3：在步驟S2的基礎(chǔ)上，采用大數(shù)據(jù)分析法對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定；采用支持向量機(jī)法，根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分，再根據(jù)其約束條件，結(jié)合大數(shù)據(jù)分析法，確定自然語(yǔ)言模糊邊界。

進(jìn)一步地，所述步驟S1具體包括以下步驟；

步驟S11:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征，并對(duì)其做歸一化處理；

步驟S12：建立自然語(yǔ)言聲學(xué)模型；

步驟S13：以步驟S12建立的自然語(yǔ)言聲學(xué)模型為基礎(chǔ)，進(jìn)一步建立自然語(yǔ)言統(tǒng)計(jì)模型,通過(guò)概率來(lái)表示詞序列在自然語(yǔ)言環(huán)境中出現(xiàn)的可能性；

步驟S14：在步驟S13建立自然語(yǔ)言統(tǒng)計(jì)模型的基礎(chǔ)上，采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析，為自然語(yǔ)言特征識(shí)別提供依據(jù)；得到解碼后的自然語(yǔ)言用下式進(jìn)行表示：

其中，P_j,m為自然語(yǔ)言的輸出，j表示第j個(gè)特征圖，m表示第m個(gè)解碼特征圖，n是下采樣因子，r是解碼大小，h_j,k表示自然語(yǔ)言輸出層的第j張?zhí)卣鲌D的第k個(gè)激活值。

進(jìn)一步地，所述步驟S2具體包括以下步驟：

步驟S21：對(duì)自然語(yǔ)言進(jìn)行預(yù)訓(xùn)練，計(jì)算出隱含層的概率，并對(duì)其進(jìn)行權(quán)重參數(shù)更新；

步驟S22：當(dāng)采用無(wú)監(jiān)督逐層預(yù)訓(xùn)練算法初始化深度神經(jīng)網(wǎng)絡(luò)參數(shù)后，按照誤差方向傳播對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整；

步驟S23：對(duì)自然語(yǔ)言特征進(jìn)行提取識(shí)別。

與現(xiàn)有技術(shù)相比，本發(fā)明有以下有益效果：本發(fā)明針對(duì)傳統(tǒng)的確定方法一直存在確定結(jié)果不準(zhǔn)確的問(wèn)題，提出基于大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法，根據(jù)自然語(yǔ)言識(shí)別原理，對(duì)聲學(xué)特征進(jìn)行分析，建立自然語(yǔ)言聲學(xué)模型及統(tǒng)計(jì)模型，采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析，并以此為基礎(chǔ)，采用深度學(xué)習(xí)法進(jìn)行自然語(yǔ)言特征識(shí)別，同時(shí)采用支持向量機(jī)法，根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分，在根據(jù)其約束條件，結(jié)合大數(shù)據(jù)分析法，確定自然語(yǔ)言模糊邊界。實(shí)驗(yàn)結(jié)果標(biāo)明，采用改進(jìn)的方法，相比傳統(tǒng)的方法其查全率和準(zhǔn)確率均有提高，具有一定的優(yōu)勢(shì)。

附圖說(shuō)明

圖1為本發(fā)明的方法流程示意圖。

圖2為本發(fā)明實(shí)施例的自然語(yǔ)言聲學(xué)模型結(jié)構(gòu)圖。

圖3為本發(fā)明實(shí)施例的自然語(yǔ)言識(shí)別中的C-l eve l網(wǎng)絡(luò)和H-l eve l網(wǎng)絡(luò)示意圖。

具體實(shí)施方式

下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。

本實(shí)施例提供了一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法，包括以下步驟：

步驟S2：進(jìn)行基于深度學(xué)習(xí)的自然語(yǔ)言特征識(shí)別；

在本實(shí)施例中，所述步驟S1具體包括以下步驟；

步驟S11:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征，并對(duì)其做歸一化處理；

步驟S12：建立自然語(yǔ)言聲學(xué)模型；

在本實(shí)施例中，所述步驟S2具體包括以下步驟：

步驟S21：對(duì)自然語(yǔ)言進(jìn)行預(yù)訓(xùn)練，計(jì)算出隱含層的概率，并對(duì)其進(jìn)行權(quán)重參數(shù)更新；

步驟S23：對(duì)自然語(yǔ)言特征進(jìn)行提取識(shí)別。

具體的，在本實(shí)施例中，首先進(jìn)行自然語(yǔ)言的解碼識(shí)別分析。

自然語(yǔ)言識(shí)別主要作用就是把一段語(yǔ)言信號(hào)轉(zhuǎn)換成相應(yīng)的文本信息，系統(tǒng)主要由自然語(yǔ)言特征提取，語(yǔ)言模型、聲學(xué)模型和解碼器等組成。訓(xùn)練識(shí)別的進(jìn)程是從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征經(jīng)過(guò)訓(xùn)練得到聲學(xué)模型，與發(fā)聲詞典、語(yǔ)言模型組成網(wǎng)絡(luò)，對(duì)新來(lái)的語(yǔ)言提取特征，經(jīng)聲學(xué)模型表示，通過(guò)維特比解碼得到識(shí)別結(jié)果。

大詞量連續(xù)自然語(yǔ)言識(shí)別系統(tǒng)實(shí)在隱馬爾科夫模型為框架的基礎(chǔ)上進(jìn)行統(tǒng)計(jì)訓(xùn)練，在給定自然語(yǔ)言特征序列O^T₁＝{o₁,0₂,...,0_T}后，結(jié)合聲學(xué)模型和語(yǔ)言模型，根據(jù)最大后驗(yàn)概率算法輸出詞序列其數(shù)學(xué)表示如下所示：

式中，P(W)為自然語(yǔ)言模型，表示特定自然語(yǔ)言詞序列W出現(xiàn)的先驗(yàn)概率；P(O^T₁|W)是聲學(xué)模型，表示給定自然語(yǔ)言詞序列為W時(shí)，輸出O^T₁的聲學(xué)特征時(shí)的概率；P(O^T₁)為聲學(xué)特征O^T₁的概率，與自然語(yǔ)言詞序列W無(wú)關(guān)，所以可以忽略掉。因而，式(1)可轉(zhuǎn)變?yōu)椋?/p>

聲學(xué)特征在一定程度上代表自然語(yǔ)言的聲學(xué)信號(hào),特征的好壞對(duì)自然語(yǔ)言識(shí)別的性能影響很大。只有從自然語(yǔ)言數(shù)據(jù)中提取出區(qū)分度較高的特征,通過(guò)這些特征數(shù)據(jù)訓(xùn)練的一些數(shù)據(jù)，學(xué)習(xí)模型才能表現(xiàn)突出。由于說(shuō)話人因?yàn)榈赜颉⒛挲g、說(shuō)話方式、發(fā)音習(xí)慣、說(shuō)話環(huán)境等不同,生成的自然語(yǔ)言或多或少會(huì)有一些差異。如何將聲學(xué)特征中表現(xiàn)說(shuō)話人個(gè)性的部分去掉,保留表達(dá)相同內(nèi)容的共性的東西,這對(duì)性能的提升很重要。聲學(xué)特征的提取可以認(rèn)為是對(duì)原始自然語(yǔ)言波形信號(hào)壓縮的過(guò)程,也可以認(rèn)為是對(duì)自然語(yǔ)言信號(hào)進(jìn)行解卷積的過(guò)程,這樣做是為了達(dá)到最好的分類(lèi)效果。語(yǔ)音信號(hào)在短時(shí)內(nèi)隨時(shí)間變化很緩慢，在10～30ms范圍里自然語(yǔ)言信號(hào)特征保持相對(duì)穩(wěn)定，這樣對(duì)自然語(yǔ)言信號(hào)處理可以通過(guò)短時(shí)分析。在自然語(yǔ)言識(shí)別中特征包括：線性預(yù)測(cè)參數(shù)，倒譜系數(shù)、梅爾頻率倒譜系數(shù)和感知線性預(yù)測(cè)系數(shù)等。由于倒譜系數(shù)是重要的自然語(yǔ)言特征參數(shù)，是以同態(tài)處理方法為基礎(chǔ)實(shí)現(xiàn)的，公式如下所示：

CEP(t)＝DEF^-1(ln|DEF(Frame(t))|) (3)

式中：Frame(t)為第t幀自然語(yǔ)言信號(hào)，DFT(·)和DFT^-1(·)分別表示離散傅里葉變換和反傅里葉變換。對(duì)語(yǔ)音波形信號(hào)提取特征之后,為了增強(qiáng)魯棒性,或者降低特征的維度,需要對(duì)原始特征做歸一化處理，表達(dá)式如下所示：

式中，N(s,w'_i)表示s與w'互為搭配的自然語(yǔ)言聲學(xué)特征在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)，N(w')為w'在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)。

聲學(xué)模型在自然語(yǔ)言學(xué)中起著重要的作用，表示了聲學(xué)基元產(chǎn)生特征序列的轉(zhuǎn)變進(jìn)程。給出一個(gè)聲學(xué)特征矢量，依據(jù)聲學(xué)模型來(lái)計(jì)算它屬于每個(gè)基元的概率值，通過(guò)最大似然準(zhǔn)則得出與特征序列對(duì)應(yīng)的狀態(tài)序列。大部分的自然語(yǔ)音聲學(xué)模型建立時(shí)，都使用隱馬爾科夫模型，用來(lái)描述自然語(yǔ)言?xún)?nèi)的隱含狀態(tài)和時(shí)間序列的轉(zhuǎn)換關(guān)系。HMM是一個(gè)使用參數(shù)來(lái)描述隨機(jī)過(guò)程統(tǒng)計(jì)特性狀態(tài)的概率模型，它對(duì)動(dòng)態(tài)時(shí)間序列的建模能力很突出，HMM主要分為兩部分，具體為有固定狀態(tài)數(shù)的隱式馬爾科夫鏈模型還有顯式的隨機(jī)函數(shù)集。這中間每個(gè)隨機(jī)函數(shù)值都與鏈中一個(gè)狀態(tài)有關(guān)聯(lián)，這樣就可以通過(guò)顯式過(guò)程產(chǎn)生的觀察序列來(lái)獲取隱式過(guò)程的相關(guān)信息。

HMM可以用以下五個(gè)參數(shù)來(lái)進(jìn)行描述，即為：

M＝{S,O,A,B,π} (5)

式中：S為模型所包含的有限隱含狀態(tài)的集合，O為輸出的可觀測(cè)序列的集合，A為狀態(tài)之間的轉(zhuǎn)移概率的集合，B為給定狀態(tài)的下輸出相應(yīng)輸出觀測(cè)值的概率，ρ為自然語(yǔ)言初始狀態(tài)概率的集合。自然語(yǔ)言聲學(xué)模型結(jié)構(gòu)如圖2所示，其中b_ij為狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率。

語(yǔ)音信號(hào)特征分布情況用簡(jiǎn)單高斯概率密度函數(shù)難以描述，實(shí)際應(yīng)用中常采用混合高斯模型來(lái)擬合語(yǔ)音信號(hào)，主要通過(guò)混合高斯函數(shù)來(lái)表示輸出概率B。即：

式中：O表示輸出狀態(tài)，i和j分別對(duì)應(yīng)相鄰兩個(gè)要轉(zhuǎn)換的狀態(tài)，p為混合數(shù)，μ_ij和∑_ij分別表示從狀態(tài)i轉(zhuǎn)換到j(luò)輸出狀態(tài)的均值和方差。

以上文建立的自然語(yǔ)言聲學(xué)模型為基礎(chǔ)，進(jìn)一步建立自然語(yǔ)言模型。自然語(yǔ)言統(tǒng)計(jì)模型,主要通過(guò)概率來(lái)表示詞序列在自然語(yǔ)言環(huán)境中出現(xiàn)的可能性,并不是基于語(yǔ)法規(guī)則的簡(jiǎn)單判斷。假設(shè)詞序列它出現(xiàn)的概率值可以表示為：

P(W₃|W₁W₂)...P(W_n|W₁W₂...W_n-1) (7)

式中：P(W₁)是W₁出現(xiàn)的概率，P(W₂|W₁)為在一直W₁、W₂的概率，則可類(lèi)推得到出現(xiàn)第n個(gè)詞的概率與它之前的n-1個(gè)詞相關(guān)。通過(guò)上式直接計(jì)算，不但會(huì)讓計(jì)算量隨著n的增大而增加，也會(huì)出現(xiàn)統(tǒng)計(jì)模型訓(xùn)練中數(shù)據(jù)稀疏的問(wèn)題。假設(shè)，詞w_i出現(xiàn)的概率只能由它前面的n-1個(gè)詞w_i-n+1,w_i-_N+2,...,w_i-2w_i-1所決定，則自然語(yǔ)言的統(tǒng)計(jì)模型可用下式進(jìn)行表示：

建立自然語(yǔ)言的統(tǒng)計(jì)模型，主要是解決自然語(yǔ)言數(shù)據(jù)稀疏的問(wèn)題，這是由于訓(xùn)練的語(yǔ)料庫(kù)規(guī)模不大,涵蓋的領(lǐng)域不廣泛,解決方法可以針對(duì)不同的領(lǐng)域收集自然語(yǔ)言,把這些自然語(yǔ)言合成大型語(yǔ)料庫(kù),合的時(shí)候可以考慮應(yīng)用場(chǎng)景按比例加入,另外還能對(duì)訓(xùn)練好的自然語(yǔ)言進(jìn)行平滑處理。

在建立自然語(yǔ)言統(tǒng)計(jì)模型的基礎(chǔ)上，采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析，為自然語(yǔ)言特征識(shí)別提供依據(jù)。維特比解碼算法運(yùn)用動(dòng)態(tài)規(guī)劃在由多個(gè)狀態(tài)構(gòu)成的搜索空間中尋找一條最佳的狀態(tài)序列路徑。語(yǔ)音識(shí)別中,聲學(xué)模型采取以HMM為基礎(chǔ),喊同步維特比解碼算法思路是以頓為單位,任意時(shí)刻對(duì)于每條路徑都假設(shè)當(dāng)前時(shí)刻為該路徑的連續(xù)部分,即某一路徑在某一時(shí)刻接下來(lái)的所有發(fā)展方向都要考慮,來(lái)進(jìn)行一個(gè)完整的搜索。但是在大詞匯連續(xù)語(yǔ)音識(shí)別中搜索路徑會(huì)隨著搜索的進(jìn)行急劇增多,應(yīng)對(duì)的方法就是加入一些剪枝的策略,有的還用一些路徑合并的方法。

加權(quán)有限狀態(tài)轉(zhuǎn)換器在自然語(yǔ)言識(shí)別過(guò)程中的作用就是構(gòu)建大規(guī)模靜態(tài)網(wǎng)絡(luò)，這種網(wǎng)絡(luò)包含了很多自然語(yǔ)言學(xué)知識(shí)，包括發(fā)聲詞典、語(yǔ)言模型、上下文關(guān)系和隱馬爾科夫模型等，使用WFST的解碼公式如下所示：

式中：o為自然語(yǔ)言的輸入特征序列，ω為尋找的最優(yōu)詞序列，f(ω)為自然語(yǔ)言模型，f(l|ω)為發(fā)生詞典，f(c|l)為上下文相關(guān)模型，f(h|c)為隱馬爾科夫模型，f(l|ω)f(ω)為單音子構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)，f(c|l)f(l|ω)f(ω)為上下文相關(guān)音子構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)(C-level網(wǎng)絡(luò))，f(h|c)f(c|l)f(l|ω)f(ω)為HMM狀態(tài)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)(H-level網(wǎng)絡(luò))。根據(jù)加權(quán)有限狀態(tài)機(jī)理論方法可將上述的各種知識(shí)進(jìn)行組合、優(yōu)化得到C-level網(wǎng)絡(luò)和H-level網(wǎng)絡(luò)如下所示：

式中：為組合操作，det()為確定化操作，min()為最小化操作，具體靜態(tài)搜索網(wǎng)絡(luò)的示意圖如圖3所示。假設(shè)，v＝[v₁,v₂,...,v_B]，v_B為第B個(gè)自然語(yǔ)言頻帶的特征值，則其激活值可以通過(guò)下式進(jìn)行計(jì)算：

式中：h_j,k為自然語(yǔ)言輸出層的第j張?zhí)卣鲌D，第k個(gè)激活值，s為卷積核的長(zhǎng)度，W^T_b,j為T(mén)時(shí)刻對(duì)應(yīng)第j個(gè)輸出值第b個(gè)頻帶的權(quán)重，a_j是對(duì)應(yīng)第j張?zhí)卣鲌D的偏置，θ(·)為激活函數(shù)。通過(guò)降采樣的方法計(jì)算出激活值的低分辨率，得到其解碼后的自然語(yǔ)言可用下式進(jìn)行表示：

式中：P_j,m為自然語(yǔ)言的輸出，j表示第j個(gè)特征圖，m表示第m個(gè)解碼特征圖，n是下采樣因子，r是解碼大小，表示要把多少自然語(yǔ)言進(jìn)行解碼。

和淺層網(wǎng)絡(luò)相比，深度學(xué)習(xí)網(wǎng)絡(luò)層次更深，是一種深層非線性網(wǎng)絡(luò)，可以通過(guò)海量數(shù)據(jù)的訓(xùn)練來(lái)構(gòu)建具有多層隱含層的深層模型，讓每層學(xué)習(xí)得到簡(jiǎn)單有用的特征，最終得到低維、稀疏、區(qū)分性的高層特征。詳細(xì)的步驟如下所示：

(1)自然語(yǔ)言預(yù)訓(xùn)練

給定訓(xùn)練的自然語(yǔ)言數(shù)據(jù)樣本v，則可表示出隱含層節(jié)點(diǎn)h_j的激活概率為：

式中：σ(·)為sigmoid函數(shù)，具體為σ(·)＝1/[1+exp(-x)]。

對(duì)獲得隱含層節(jié)點(diǎn)值做隨機(jī)化生成0.1的激活狀態(tài)，又可以根據(jù)隱含層節(jié)點(diǎn)狀態(tài)推出可見(jiàn)層輸入v'，對(duì)于線性可見(jiàn)層單元，重構(gòu)公式表示為：

式中：N(·)為高斯分布。在此基礎(chǔ)上，通過(guò)重構(gòu)后的可見(jiàn)層狀態(tài)值v'作為RBM結(jié)構(gòu)的輸入，計(jì)算出隱含層概率h'，并對(duì)其進(jìn)行權(quán)重參數(shù)更新為:

Δw_ij＝ε(〈v_ih_j〉-〈v'_ih'_j〉) (15)

式中〈·〉為對(duì)每個(gè)樣本取平均值，ε為學(xué)習(xí)率。

(2)網(wǎng)絡(luò)協(xié)調(diào)

當(dāng)采用無(wú)監(jiān)督逐層預(yù)訓(xùn)練算法初始化深度神經(jīng)網(wǎng)絡(luò)參數(shù)后，按照誤差方向傳播對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。假設(shè)有m個(gè)樣本訓(xùn)練集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，采用批量的梯度下降法去調(diào)整深度學(xué)習(xí)網(wǎng)絡(luò)。對(duì)于單個(gè)樣本(x,y)，其代價(jià)函數(shù)為：

(3)自然語(yǔ)言特征提取識(shí)別

假設(shè)，對(duì)于樣本訓(xùn)練集{(x⁽¹⁾,y⁽¹⁾),...,(x^(m),y^(m))}，有y⁽ⁱ⁾∈{1,2,...,k}，對(duì)于給定的輸入值x，進(jìn)行分類(lèi)的概率為p(y＝j(luò)|x)。因此，該函數(shù)應(yīng)輸出K維概率向量，該函數(shù)的形式如下：

其中：θ∈Rⁿ⁺¹為自然語(yǔ)言模型的參數(shù)，為對(duì)概率分布進(jìn)行歸一化處理，使概率向量累加和為1。概率向量結(jié)合神經(jīng)元的理論，得到輸出為第l隱含層的自然語(yǔ)言i，輸入為從第l-1層的所有自然語(yǔ)言數(shù)據(jù)的加權(quán)和，即：

式中：N(l-1)為第l-1層的自然語(yǔ)言個(gè)數(shù)，x_j為深度學(xué)習(xí)中第l-1層第j個(gè)輸出值，w_ji為自然語(yǔ)言i到j(luò)的連接權(quán)重，θ_i為第i個(gè)自然語(yǔ)言的偏置值。

假設(shè)有n個(gè)自然語(yǔ)言數(shù)據(jù)，隱含單元為m個(gè)，向量u和h分別表示可見(jiàn)單元和隱含單元狀態(tài)，則得到自然語(yǔ)言的特征可用下式表示：

式中：θ＝{w_ij,a_i,b_j}為模型參數(shù)，且均為實(shí)數(shù)。

在采用深度學(xué)習(xí)對(duì)自然語(yǔ)言特征進(jìn)行識(shí)別的基礎(chǔ)上，采用大數(shù)據(jù)分析法對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定。采用支持向量機(jī)法，根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分，在根據(jù)其約束條件，結(jié)合大數(shù)據(jù)分析法，確定自然語(yǔ)言模糊邊界。

給定一個(gè)訓(xùn)練樣本D_i＝(x_i,y_i),i＝1,2,...,l；y_i∈{+1,-1}，輸入樣本用x_i表示，l表示樣本數(shù)，y_i則表示兩類(lèi)自然語(yǔ)言數(shù)據(jù)的類(lèi)別值。要想同時(shí)滿足正確分開(kāi)樣本和保證間隔最大，可將其轉(zhuǎn)變?yōu)楹屑s束條件最小值問(wèn)題，表達(dá)式如下所示：

subject to yi[(WX_i)+b]-1≥0,i＝1,2,...,l (21)

當(dāng)訓(xùn)練集為線性不可分時(shí)，需要引入新的變量即松弛變量ε_i≥0，表達(dá)式轉(zhuǎn)變?yōu)槿缦滤荆?/p>

subject to yi[(WX_i)+b]≥1-ε_i,i＝1,2,...,l (23)

式中：c為懲罰系數(shù)，通常大于0，表示對(duì)錯(cuò)分樣本的懲罰程度，ε_i≥0。對(duì)二次固話的求解問(wèn)題，需要引入拉格朗日函數(shù)：

式中：α_i＞0，表示拉格朗日系數(shù)，經(jīng)過(guò)求解可得到最優(yōu)分類(lèi)函數(shù)：

此時(shí)需要滿足一下約束條件：

∫∫K(x₁,x₂)f(x₁)f(x₂)dx₁dx₂≥0 (26)

此時(shí)，若d(x₁)＜d(x₂)，則表示在滿足上述約束條件的基礎(chǔ)上，引入大數(shù)據(jù)分析法，對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定。

假設(shè)檢測(cè)區(qū)域內(nèi)，m_n是檢測(cè)時(shí)的期望值，m_f是自然語(yǔ)言屬性讀取的期望，那么最優(yōu)門(mén)限判定閾值為：

V_th＝0.5(m_n+m_f) (27)

在此基礎(chǔ)上，引入的大數(shù)據(jù)分析法，將自然語(yǔ)言劃分為兩類(lèi)：上升型自然語(yǔ)言屬性及下降型自然語(yǔ)言屬性。其中上升型自然語(yǔ)言屬性值在進(jìn)行檢測(cè)時(shí)比沒(méi)有檢測(cè)的自然語(yǔ)言屬性值要大，下降型自然語(yǔ)言屬性值在檢測(cè)時(shí)比沒(méi)有檢測(cè)時(shí)的自然語(yǔ)言屬性值要小。

假設(shè)是上升型的自然語(yǔ)言屬性，則判決公式為：

若是下降型自然語(yǔ)言屬性，則判決公式為：

式中：B為進(jìn)行檢測(cè)后的判決結(jié)果，對(duì)檢測(cè)結(jié)果進(jìn)行判決為1，未判決用0。V是自然語(yǔ)言數(shù)據(jù)的感知讀數(shù)。

由此發(fā)現(xiàn)，自然語(yǔ)言的模糊邊界即為檢測(cè)時(shí)的閾值V_th的等值線，距離等值線越近的自然語(yǔ)言數(shù)據(jù)其感應(yīng)到的屬性讀數(shù)和閾值V_th越接近，因此將自然語(yǔ)言的鄰居數(shù)據(jù)感知讀數(shù)依據(jù)讀數(shù)大小進(jìn)行不穩(wěn)定排序，若是上升型自然語(yǔ)言屬性，則根據(jù)降序進(jìn)行排列，若是下降型自然語(yǔ)言屬性，則根據(jù)升序進(jìn)行排列。然后獲取自然語(yǔ)言檢測(cè)時(shí)的閾值V_th在序列里的位置，左右各選取間隔閾值最近的個(gè)自然語(yǔ)言屬性值。對(duì)于多屬性的自然語(yǔ)言進(jìn)行檢測(cè)時(shí)，若mⁱ_n是對(duì)自然語(yǔ)言模糊邊界檢測(cè)時(shí)的屬性讀數(shù)期望值，mⁱ_f是對(duì)自然語(yǔ)言進(jìn)行檢測(cè)時(shí)的屬性讀數(shù)期望值，對(duì)于各屬性判定是否是邊界時(shí)的最優(yōu)門(mén)限值為：

Vⁱ_th＝0.5(mⁱ_n+mⁱ_f) (30)

若自然語(yǔ)言有m個(gè)屬性，Vⁱ為一個(gè)自然語(yǔ)言對(duì)于屬性i的讀數(shù)，對(duì)于多屬性自然語(yǔ)言模糊邊界判定是否為邊界，可先對(duì)單個(gè)屬性的自然語(yǔ)言進(jìn)行判決，那么多屬性自然語(yǔ)言邊界的判決結(jié)果為：

式中，B_i為單個(gè)屬性判決結(jié)果，m為常數(shù)。則自然語(yǔ)言模糊邊界確定理論要滿足：的數(shù)據(jù)所形成的閉合曲線，然后按照各個(gè)屬性閾值間隔各自序列左端的距離遠(yuǎn)近排出一個(gè)大小順序，得到擬合節(jié)點(diǎn)集合S，并以此為基礎(chǔ)進(jìn)行擬合，確定其是否為模糊邊界。

假設(shè)自然語(yǔ)言屬性集合S中有X個(gè)坐標(biāo)最大的屬性值，記作N_Xmax，其坐標(biāo)為(X max,Y)，找到X坐標(biāo)里最小節(jié)點(diǎn)記作N_Xmin，其坐標(biāo)為(X_min,Y)，找到Y(jié)坐標(biāo)最小節(jié)點(diǎn)，記作N_Ymin，其坐標(biāo)為(X,Y_min)，則其擬合函數(shù)表達(dá)式如下所示：

若_max-X_min≥Y_max-Y_min，則采用y＝ax2+bs+c進(jìn)行擬合，若X_max-X_min＜Y_max-Y_min，那么采用x＝ay2+by+c進(jìn)行擬合。已知擬合函數(shù)，則采用大數(shù)據(jù)分析法進(jìn)行分析，計(jì)算出自然語(yǔ)言模糊邊界閥值，解決自然語(yǔ)言模糊邊界確定不準(zhǔn)確的問(wèn)題。假設(shè)自然語(yǔ)言屬性1到屬性2(x_i,y_i)(i＝1,2,...,m)的距離平方和是最小曲線y_i＝p(x_i)，得到多項(xiàng)式擬合函數(shù)為：

若要分析結(jié)果更為精準(zhǔn)，需要滿足其必要條件，表達(dá)式為：

在滿足其必要條件的基礎(chǔ)上，計(jì)算得到自然語(yǔ)言模糊邊界閥值為：

式中，D_t為設(shè)定閥值。由此可知，當(dāng)D≤D_t時(shí)，D＝1，此時(shí)自然語(yǔ)言數(shù)據(jù)遠(yuǎn)離疑似邊界，可確定其不是所需的邊界；反之，當(dāng)D＞D_t時(shí)，D＝0，此時(shí)自然語(yǔ)言數(shù)據(jù)距離模糊邊界很近，確定模糊邊界為所需的邊界。

以上所述僅為本發(fā)明的較佳實(shí)施例，凡依本發(fā)明申請(qǐng)專(zhuān)利范圍所做的均等變化與修飾，皆應(yīng)屬本發(fā)明的涵蓋范圍。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張福泉;
技術(shù)所有人：閩江學(xué)院;
我是此專(zhuān)利的發(fā)明人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

圖像旋轉(zhuǎn)插值邊界模糊相關(guān)技術(shù)

邊界模糊相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法與流程