本發(fā)明涉及自然語(yǔ)言模糊邊界確定算法,特別是一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法。
背景技術(shù):
隨著人類(lèi)社會(huì)信息化程度和計(jì)算機(jī)軟硬件水平的提高,自然語(yǔ)言逐步變成了計(jì)算機(jī)應(yīng)用與人工智能研究領(lǐng)域的熱點(diǎn),其基本目標(biāo)技術(shù)使計(jì)算機(jī)具有人類(lèi)的語(yǔ)言功能,如像人一樣能夠聽(tīng)、說(shuō)、讀、寫(xiě)的能力。根據(jù)應(yīng)用領(lǐng)域的不同,自然語(yǔ)言存在多處模糊邊界不能確定,導(dǎo)致利用率低的問(wèn)題,受到廣大學(xué)者的關(guān)注,也出現(xiàn)了很多好的方法。
現(xiàn)有技術(shù)有采用詞聯(lián)接的方法,對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定,該方法主要在自然語(yǔ)言環(huán)境建立動(dòng)態(tài)語(yǔ)料庫(kù),并基于動(dòng)態(tài)語(yǔ)料庫(kù)建立詞聯(lián)接實(shí)例知識(shí)庫(kù)和高級(jí)知識(shí)庫(kù),提取自然語(yǔ)言的特征,通過(guò)詞聯(lián)接對(duì)其進(jìn)行分類(lèi)確定,實(shí)現(xiàn)對(duì)自然語(yǔ)言模糊邊界的確定,但是存在確定時(shí)間過(guò)長(zhǎng)的問(wèn)題。
現(xiàn)有技術(shù)還有通過(guò)建立語(yǔ)言實(shí)體關(guān)系模型,根據(jù)該模型指定語(yǔ)言分析的流程和算法,推導(dǎo)出自然語(yǔ)言的結(jié)構(gòu),并以此為基礎(chǔ),進(jìn)行自然語(yǔ)言模糊邊界確定,但是改方法存在結(jié)果準(zhǔn)確度低的問(wèn)題;針對(duì)自然語(yǔ)言存在粗粒度語(yǔ)言無(wú)法表示自然語(yǔ)言的復(fù)雜對(duì)象間關(guān)系的問(wèn)題。另外還有文獻(xiàn)通過(guò)認(rèn)知語(yǔ)言學(xué)理論的方法進(jìn)行模糊邊界確定,該方法采用意向圖表示自然語(yǔ)言中對(duì)象節(jié)點(diǎn)間的聯(lián)系,通過(guò)屬性空間表示能夠數(shù)值化的自然語(yǔ)言,并在此基礎(chǔ)上,建立自然語(yǔ)言屬性空間及修改過(guò)程轉(zhuǎn)化的操作序列,實(shí)現(xiàn)自然語(yǔ)言模糊邊界的確定,但是該方法存在對(duì)抽象的自然語(yǔ)言模糊邊界難以確定的問(wèn)題。
針對(duì)傳統(tǒng)方法存在的問(wèn)題,提出基于大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法。根據(jù)自然語(yǔ)言識(shí)別原理,對(duì)聲學(xué)特征進(jìn)行分析,建立自然語(yǔ)言聲學(xué)模型及統(tǒng)計(jì)模型,采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析,并以此為基礎(chǔ),采用深度學(xué)習(xí)法進(jìn)行自然語(yǔ)言特征識(shí)別,同時(shí)采用支持向量機(jī)法,根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分,在根據(jù)其約束條件,結(jié)合大數(shù)據(jù)分析法,確定自然語(yǔ)言模糊邊界。實(shí)驗(yàn)結(jié)果標(biāo)明,采用改進(jìn)的方法,相比傳統(tǒng)的方法其查全率和準(zhǔn)確率均有一定的提高,具有一定的優(yōu)勢(shì)。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的是提出一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法,提高了查全率和準(zhǔn)確率。
本發(fā)明采用以下方案實(shí)現(xiàn):一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法,包括以下步驟:
步驟S1:進(jìn)行自然語(yǔ)言解碼識(shí)別分析:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征經(jīng)過(guò)訓(xùn)練得到聲學(xué)模型,與發(fā)聲詞典、語(yǔ)言模型組成網(wǎng)絡(luò),對(duì)新來(lái)的語(yǔ)言提取特征,經(jīng)聲學(xué)模型表示,通過(guò)維特比解碼得到識(shí)別結(jié)果;
步驟S2:進(jìn)行基于深度學(xué)習(xí)的自然語(yǔ)言特征識(shí)別;
步驟S3:在步驟S2的基礎(chǔ)上,采用大數(shù)據(jù)分析法對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定;采用支持向量機(jī)法,根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分,再根據(jù)其約束條件,結(jié)合大數(shù)據(jù)分析法,確定自然語(yǔ)言模糊邊界。
進(jìn)一步地,所述步驟S1具體包括以下步驟;
步驟S11:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征,并對(duì)其做歸一化處理;
步驟S12:建立自然語(yǔ)言聲學(xué)模型;
步驟S13:以步驟S12建立的自然語(yǔ)言聲學(xué)模型為基礎(chǔ),進(jìn)一步建立自然語(yǔ)言統(tǒng)計(jì)模型,通過(guò)概率來(lái)表示詞序列在自然語(yǔ)言環(huán)境中出現(xiàn)的可能性;
步驟S14:在步驟S13建立自然語(yǔ)言統(tǒng)計(jì)模型的基礎(chǔ)上,采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析,為自然語(yǔ)言特征識(shí)別提供依據(jù);得到解碼后的自然語(yǔ)言用下式進(jìn)行表示:
其中,Pj,m為自然語(yǔ)言的輸出,j表示第j個(gè)特征圖,m表示第m個(gè)解碼特征圖,n是下采樣因子,r是解碼大小,hj,k表示自然語(yǔ)言輸出層的第j張?zhí)卣鲌D的第k個(gè)激活值。
進(jìn)一步地,所述步驟S2具體包括以下步驟:
步驟S21:對(duì)自然語(yǔ)言進(jìn)行預(yù)訓(xùn)練,計(jì)算出隱含層的概率,并對(duì)其進(jìn)行權(quán)重參數(shù)更新;
步驟S22:當(dāng)采用無(wú)監(jiān)督逐層預(yù)訓(xùn)練算法初始化深度神經(jīng)網(wǎng)絡(luò)參數(shù)后,按照誤差方向傳播對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整;
步驟S23:對(duì)自然語(yǔ)言特征進(jìn)行提取識(shí)別。
與現(xiàn)有技術(shù)相比,本發(fā)明有以下有益效果:本發(fā)明針對(duì)傳統(tǒng)的確定方法一直存在確定結(jié)果不準(zhǔn)確的問(wèn)題,提出基于大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法,根據(jù)自然語(yǔ)言識(shí)別原理,對(duì)聲學(xué)特征進(jìn)行分析,建立自然語(yǔ)言聲學(xué)模型及統(tǒng)計(jì)模型,采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析,并以此為基礎(chǔ),采用深度學(xué)習(xí)法進(jìn)行自然語(yǔ)言特征識(shí)別,同時(shí)采用支持向量機(jī)法,根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分,在根據(jù)其約束條件,結(jié)合大數(shù)據(jù)分析法,確定自然語(yǔ)言模糊邊界。實(shí)驗(yàn)結(jié)果標(biāo)明,采用改進(jìn)的方法,相比傳統(tǒng)的方法其查全率和準(zhǔn)確率均有提高,具有一定的優(yōu)勢(shì)。
附圖說(shuō)明
圖1為本發(fā)明的方法流程示意圖。
圖2為本發(fā)明實(shí)施例的自然語(yǔ)言聲學(xué)模型結(jié)構(gòu)圖。
圖3為本發(fā)明實(shí)施例的自然語(yǔ)言識(shí)別中的C-l eve l網(wǎng)絡(luò)和H-l eve l網(wǎng)絡(luò)示意圖。
具體實(shí)施方式
下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。
本實(shí)施例提供了一種引入大數(shù)據(jù)分析的自然語(yǔ)言模糊邊界確定方法,包括以下步驟:
步驟S1:進(jìn)行自然語(yǔ)言解碼識(shí)別分析:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征經(jīng)過(guò)訓(xùn)練得到聲學(xué)模型,與發(fā)聲詞典、語(yǔ)言模型組成網(wǎng)絡(luò),對(duì)新來(lái)的語(yǔ)言提取特征,經(jīng)聲學(xué)模型表示,通過(guò)維特比解碼得到識(shí)別結(jié)果;
步驟S2:進(jìn)行基于深度學(xué)習(xí)的自然語(yǔ)言特征識(shí)別;
步驟S3:在步驟S2的基礎(chǔ)上,采用大數(shù)據(jù)分析法對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定;采用支持向量機(jī)法,根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分,再根據(jù)其約束條件,結(jié)合大數(shù)據(jù)分析法,確定自然語(yǔ)言模糊邊界。
在本實(shí)施例中,所述步驟S1具體包括以下步驟;
步驟S11:從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征,并對(duì)其做歸一化處理;
步驟S12:建立自然語(yǔ)言聲學(xué)模型;
步驟S13:以步驟S12建立的自然語(yǔ)言聲學(xué)模型為基礎(chǔ),進(jìn)一步建立自然語(yǔ)言統(tǒng)計(jì)模型,通過(guò)概率來(lái)表示詞序列在自然語(yǔ)言環(huán)境中出現(xiàn)的可能性;
步驟S14:在步驟S13建立自然語(yǔ)言統(tǒng)計(jì)模型的基礎(chǔ)上,采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析,為自然語(yǔ)言特征識(shí)別提供依據(jù);得到解碼后的自然語(yǔ)言用下式進(jìn)行表示:
其中,Pj,m為自然語(yǔ)言的輸出,j表示第j個(gè)特征圖,m表示第m個(gè)解碼特征圖,n是下采樣因子,r是解碼大小,hj,k表示自然語(yǔ)言輸出層的第j張?zhí)卣鲌D的第k個(gè)激活值。
在本實(shí)施例中,所述步驟S2具體包括以下步驟:
步驟S21:對(duì)自然語(yǔ)言進(jìn)行預(yù)訓(xùn)練,計(jì)算出隱含層的概率,并對(duì)其進(jìn)行權(quán)重參數(shù)更新;
步驟S22:當(dāng)采用無(wú)監(jiān)督逐層預(yù)訓(xùn)練算法初始化深度神經(jīng)網(wǎng)絡(luò)參數(shù)后,按照誤差方向傳播對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整;
步驟S23:對(duì)自然語(yǔ)言特征進(jìn)行提取識(shí)別。
具體的,在本實(shí)施例中,首先進(jìn)行自然語(yǔ)言的解碼識(shí)別分析。
自然語(yǔ)言識(shí)別主要作用就是把一段語(yǔ)言信號(hào)轉(zhuǎn)換成相應(yīng)的文本信息,系統(tǒng)主要由自然語(yǔ)言特征提取,語(yǔ)言模型、聲學(xué)模型和解碼器等組成。訓(xùn)練識(shí)別的進(jìn)程是從原始波形語(yǔ)言數(shù)據(jù)中提取的聲學(xué)特征經(jīng)過(guò)訓(xùn)練得到聲學(xué)模型,與發(fā)聲詞典、語(yǔ)言模型組成網(wǎng)絡(luò),對(duì)新來(lái)的語(yǔ)言提取特征,經(jīng)聲學(xué)模型表示,通過(guò)維特比解碼得到識(shí)別結(jié)果。
大詞量連續(xù)自然語(yǔ)言識(shí)別系統(tǒng)實(shí)在隱馬爾科夫模型為框架的基礎(chǔ)上進(jìn)行統(tǒng)計(jì)訓(xùn)練,在給定自然語(yǔ)言特征序列OT1={o1,02,...,0T}后,結(jié)合聲學(xué)模型和語(yǔ)言模型,根據(jù)最大后驗(yàn)概率算法輸出詞序列其數(shù)學(xué)表示如下所示:
式中,P(W)為自然語(yǔ)言模型,表示特定自然語(yǔ)言詞序列W出現(xiàn)的先驗(yàn)概率;P(OT1|W)是聲學(xué)模型,表示給定自然語(yǔ)言詞序列為W時(shí),輸出OT1的聲學(xué)特征時(shí)的概率;P(OT1)為聲學(xué)特征OT1的概率,與自然語(yǔ)言詞序列W無(wú)關(guān),所以可以忽略掉。因而,式(1)可轉(zhuǎn)變?yōu)椋?/p>
聲學(xué)特征在一定程度上代表自然語(yǔ)言的聲學(xué)信號(hào),特征的好壞對(duì)自然語(yǔ)言識(shí)別的性能影響很大。只有從自然語(yǔ)言數(shù)據(jù)中提取出區(qū)分度較高的特征,通過(guò)這些特征數(shù)據(jù)訓(xùn)練的一些數(shù)據(jù),學(xué)習(xí)模型才能表現(xiàn)突出。由于說(shuō)話人因?yàn)榈赜颉⒛挲g、說(shuō)話方式、發(fā)音習(xí)慣、說(shuō)話環(huán)境等不同,生成的自然語(yǔ)言或多或少會(huì)有一些差異。如何將聲學(xué)特征中表現(xiàn)說(shuō)話人個(gè)性的部分去掉,保留表達(dá)相同內(nèi)容的共性的東西,這對(duì)性能的提升很重要。聲學(xué)特征的提取可以認(rèn)為是對(duì)原始自然語(yǔ)言波形信號(hào)壓縮的過(guò)程,也可以認(rèn)為是對(duì)自然語(yǔ)言信號(hào)進(jìn)行解卷積的過(guò)程,這樣做是為了達(dá)到最好的分類(lèi)效果。語(yǔ)音信號(hào)在短時(shí)內(nèi)隨時(shí)間變化很緩慢,在10~30ms范圍里自然語(yǔ)言信號(hào)特征保持相對(duì)穩(wěn)定,這樣對(duì)自然語(yǔ)言信號(hào)處理可以通過(guò)短時(shí)分析。在自然語(yǔ)言識(shí)別中特征包括:線性預(yù)測(cè)參數(shù),倒譜系數(shù)、梅爾頻率倒譜系數(shù)和感知線性預(yù)測(cè)系數(shù)等。由于倒譜系數(shù)是重要的自然語(yǔ)言特征參數(shù),是以同態(tài)處理方法為基礎(chǔ)實(shí)現(xiàn)的,公式如下所示:
CEP(t)=DEF-1(ln|DEF(Frame(t))|) (3)
式中:Frame(t)為第t幀自然語(yǔ)言信號(hào),DFT(·)和DFT-1(·)分別表示離散傅里葉變換和反傅里葉變換。對(duì)語(yǔ)音波形信號(hào)提取特征之后,為了增強(qiáng)魯棒性,或者降低特征的維度,需要對(duì)原始特征做歸一化處理,表達(dá)式如下所示:
式中,N(s,w'i)表示s與w'互為搭配的自然語(yǔ)言聲學(xué)特征在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù),N(w')為w'在訓(xùn)練語(yǔ)料中出現(xiàn)的次數(shù)。
聲學(xué)模型在自然語(yǔ)言學(xué)中起著重要的作用,表示了聲學(xué)基元產(chǎn)生特征序列的轉(zhuǎn)變進(jìn)程。給出一個(gè)聲學(xué)特征矢量,依據(jù)聲學(xué)模型來(lái)計(jì)算它屬于每個(gè)基元的概率值,通過(guò)最大似然準(zhǔn)則得出與特征序列對(duì)應(yīng)的狀態(tài)序列。大部分的自然語(yǔ)音聲學(xué)模型建立時(shí),都使用隱馬爾科夫模型,用來(lái)描述自然語(yǔ)言?xún)?nèi)的隱含狀態(tài)和時(shí)間序列的轉(zhuǎn)換關(guān)系。HMM是一個(gè)使用參數(shù)來(lái)描述隨機(jī)過(guò)程統(tǒng)計(jì)特性狀態(tài)的概率模型,它對(duì)動(dòng)態(tài)時(shí)間序列的建模能力很突出,HMM主要分為兩部分,具體為有固定狀態(tài)數(shù)的隱式馬爾科夫鏈模型還有顯式的隨機(jī)函數(shù)集。這中間每個(gè)隨機(jī)函數(shù)值都與鏈中一個(gè)狀態(tài)有關(guān)聯(lián),這樣就可以通過(guò)顯式過(guò)程產(chǎn)生的觀察序列來(lái)獲取隱式過(guò)程的相關(guān)信息。
HMM可以用以下五個(gè)參數(shù)來(lái)進(jìn)行描述,即為:
M={S,O,A,B,π} (5)
式中:S為模型所包含的有限隱含狀態(tài)的集合,O為輸出的可觀測(cè)序列的集合,A為狀態(tài)之間的轉(zhuǎn)移概率的集合,B為給定狀態(tài)的下輸出相應(yīng)輸出觀測(cè)值的概率,ρ為自然語(yǔ)言初始狀態(tài)概率的集合。自然語(yǔ)言聲學(xué)模型結(jié)構(gòu)如圖2所示,其中bij為狀態(tài)i到狀態(tài)j的轉(zhuǎn)移概率。
語(yǔ)音信號(hào)特征分布情況用簡(jiǎn)單高斯概率密度函數(shù)難以描述,實(shí)際應(yīng)用中常采用混合高斯模型來(lái)擬合語(yǔ)音信號(hào),主要通過(guò)混合高斯函數(shù)來(lái)表示輸出概率B。即:
式中:O表示輸出狀態(tài),i和j分別對(duì)應(yīng)相鄰兩個(gè)要轉(zhuǎn)換的狀態(tài),p為混合數(shù),μij和∑ij分別表示從狀態(tài)i轉(zhuǎn)換到j(luò)輸出狀態(tài)的均值和方差。
以上文建立的自然語(yǔ)言聲學(xué)模型為基礎(chǔ),進(jìn)一步建立自然語(yǔ)言模型。自然語(yǔ)言統(tǒng)計(jì)模型,主要通過(guò)概率來(lái)表示詞序列在自然語(yǔ)言環(huán)境中出現(xiàn)的可能性,并不是基于語(yǔ)法規(guī)則的簡(jiǎn)單判斷。假設(shè)詞序列它出現(xiàn)的概率值可以表示為:
P(W3|W1W2)...P(Wn|W1W2...Wn-1) (7)
式中:P(W1)是W1出現(xiàn)的概率,P(W2|W1)為在一直W1、W2的概率,則可類(lèi)推得到出現(xiàn)第n個(gè)詞的概率與它之前的n-1個(gè)詞相關(guān)。通過(guò)上式直接計(jì)算,不但會(huì)讓計(jì)算量隨著n的增大而增加,也會(huì)出現(xiàn)統(tǒng)計(jì)模型訓(xùn)練中數(shù)據(jù)稀疏的問(wèn)題。假設(shè),詞wi出現(xiàn)的概率只能由它前面的n-1個(gè)詞wi-n+1,wi-N+2,...,wi-2wi-1所決定,則自然語(yǔ)言的統(tǒng)計(jì)模型可用下式進(jìn)行表示:
建立自然語(yǔ)言的統(tǒng)計(jì)模型,主要是解決自然語(yǔ)言數(shù)據(jù)稀疏的問(wèn)題,這是由于訓(xùn)練的語(yǔ)料庫(kù)規(guī)模不大,涵蓋的領(lǐng)域不廣泛,解決方法可以針對(duì)不同的領(lǐng)域收集自然語(yǔ)言,把這些自然語(yǔ)言合成大型語(yǔ)料庫(kù),合的時(shí)候可以考慮應(yīng)用場(chǎng)景按比例加入,另外還能對(duì)訓(xùn)練好的自然語(yǔ)言進(jìn)行平滑處理。
在建立自然語(yǔ)言統(tǒng)計(jì)模型的基礎(chǔ)上,采用維特比解碼算法對(duì)自然語(yǔ)言進(jìn)行解碼分析,為自然語(yǔ)言特征識(shí)別提供依據(jù)。維特比解碼算法運(yùn)用動(dòng)態(tài)規(guī)劃在由多個(gè)狀態(tài)構(gòu)成的搜索空間中尋找一條最佳的狀態(tài)序列路徑。語(yǔ)音識(shí)別中,聲學(xué)模型采取以HMM為基礎(chǔ),喊同步維特比解碼算法思路是以頓為單位,任意時(shí)刻對(duì)于每條路徑都假設(shè)當(dāng)前時(shí)刻為該路徑的連續(xù)部分,即某一路徑在某一時(shí)刻接下來(lái)的所有發(fā)展方向都要考慮,來(lái)進(jìn)行一個(gè)完整的搜索。但是在大詞匯連續(xù)語(yǔ)音識(shí)別中搜索路徑會(huì)隨著搜索的進(jìn)行急劇增多,應(yīng)對(duì)的方法就是加入一些剪枝的策略,有的還用一些路徑合并的方法。
加權(quán)有限狀態(tài)轉(zhuǎn)換器在自然語(yǔ)言識(shí)別過(guò)程中的作用就是構(gòu)建大規(guī)模靜態(tài)網(wǎng)絡(luò),這種網(wǎng)絡(luò)包含了很多自然語(yǔ)言學(xué)知識(shí),包括發(fā)聲詞典、語(yǔ)言模型、上下文關(guān)系和隱馬爾科夫模型等,使用WFST的解碼公式如下所示:
式中:o為自然語(yǔ)言的輸入特征序列,ω為尋找的最優(yōu)詞序列,f(ω)為自然語(yǔ)言模型,f(l|ω)為發(fā)生詞典,f(c|l)為上下文相關(guān)模型,f(h|c)為隱馬爾科夫模型,f(l|ω)f(ω)為單音子構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu),f(c|l)f(l|ω)f(ω)為上下文相關(guān)音子構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)(C-level網(wǎng)絡(luò)),f(h|c)f(c|l)f(l|ω)f(ω)為HMM狀態(tài)構(gòu)成的網(wǎng)絡(luò)結(jié)構(gòu)(H-level網(wǎng)絡(luò))。根據(jù)加權(quán)有限狀態(tài)機(jī)理論方法可將上述的各種知識(shí)進(jìn)行組合、優(yōu)化得到C-level網(wǎng)絡(luò)和H-level網(wǎng)絡(luò)如下所示:
式中:為組合操作,det()為確定化操作,min()為最小化操作,具體靜態(tài)搜索網(wǎng)絡(luò)的示意圖如圖3所示。假設(shè),v=[v1,v2,...,vB],vB為第B個(gè)自然語(yǔ)言頻帶的特征值,則其激活值可以通過(guò)下式進(jìn)行計(jì)算:
式中:hj,k為自然語(yǔ)言輸出層的第j張?zhí)卣鲌D,第k個(gè)激活值,s為卷積核的長(zhǎng)度,WTb,j為T(mén)時(shí)刻對(duì)應(yīng)第j個(gè)輸出值第b個(gè)頻帶的權(quán)重,aj是對(duì)應(yīng)第j張?zhí)卣鲌D的偏置,θ(·)為激活函數(shù)。通過(guò)降采樣的方法計(jì)算出激活值的低分辨率,得到其解碼后的自然語(yǔ)言可用下式進(jìn)行表示:
式中:Pj,m為自然語(yǔ)言的輸出,j表示第j個(gè)特征圖,m表示第m個(gè)解碼特征圖,n是下采樣因子,r是解碼大小,表示要把多少自然語(yǔ)言進(jìn)行解碼。
和淺層網(wǎng)絡(luò)相比,深度學(xué)習(xí)網(wǎng)絡(luò)層次更深,是一種深層非線性網(wǎng)絡(luò),可以通過(guò)海量數(shù)據(jù)的訓(xùn)練來(lái)構(gòu)建具有多層隱含層的深層模型,讓每層學(xué)習(xí)得到簡(jiǎn)單有用的特征,最終得到低維、稀疏、區(qū)分性的高層特征。詳細(xì)的步驟如下所示:
(1)自然語(yǔ)言預(yù)訓(xùn)練
給定訓(xùn)練的自然語(yǔ)言數(shù)據(jù)樣本v,則可表示出隱含層節(jié)點(diǎn)hj的激活概率為:
式中:σ(·)為sigmoid函數(shù),具體為σ(·)=1/[1+exp(-x)]。
對(duì)獲得隱含層節(jié)點(diǎn)值做隨機(jī)化生成0.1的激活狀態(tài),又可以根據(jù)隱含層節(jié)點(diǎn)狀態(tài)推出可見(jiàn)層輸入v',對(duì)于線性可見(jiàn)層單元,重構(gòu)公式表示為:
式中:N(·)為高斯分布。在此基礎(chǔ)上,通過(guò)重構(gòu)后的可見(jiàn)層狀態(tài)值v'作為RBM結(jié)構(gòu)的輸入,計(jì)算出隱含層概率h',并對(duì)其進(jìn)行權(quán)重參數(shù)更新為:
Δwij=ε(〈vihj〉-〈v'ih'j〉) (15)
式中〈·〉為對(duì)每個(gè)樣本取平均值,ε為學(xué)習(xí)率。
(2)網(wǎng)絡(luò)協(xié)調(diào)
當(dāng)采用無(wú)監(jiān)督逐層預(yù)訓(xùn)練算法初始化深度神經(jīng)網(wǎng)絡(luò)參數(shù)后,按照誤差方向傳播對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。假設(shè)有m個(gè)樣本訓(xùn)練集{(x(1),y(1)),...,(x(m),y(m))},采用批量的梯度下降法去調(diào)整深度學(xué)習(xí)網(wǎng)絡(luò)。對(duì)于單個(gè)樣本(x,y),其代價(jià)函數(shù)為:
(3)自然語(yǔ)言特征提取識(shí)別
假設(shè),對(duì)于樣本訓(xùn)練集{(x(1),y(1)),...,(x(m),y(m))},有y(i)∈{1,2,...,k},對(duì)于給定的輸入值x,進(jìn)行分類(lèi)的概率為p(y=j(luò)|x)。因此,該函數(shù)應(yīng)輸出K維概率向量,該函數(shù)的形式如下:
其中:θ∈Rn+1為自然語(yǔ)言模型的參數(shù),為對(duì)概率分布進(jìn)行歸一化處理,使概率向量累加和為1。概率向量結(jié)合神經(jīng)元的理論,得到輸出為第l隱含層的自然語(yǔ)言i,輸入為從第l-1層的所有自然語(yǔ)言數(shù)據(jù)的加權(quán)和,即:
式中:N(l-1)為第l-1層的自然語(yǔ)言個(gè)數(shù),xj為深度學(xué)習(xí)中第l-1層第j個(gè)輸出值,wji為自然語(yǔ)言i到j(luò)的連接權(quán)重,θi為第i個(gè)自然語(yǔ)言的偏置值。
假設(shè)有n個(gè)自然語(yǔ)言數(shù)據(jù),隱含單元為m個(gè),向量u和h分別表示可見(jiàn)單元和隱含單元狀態(tài),則得到自然語(yǔ)言的特征可用下式表示:
式中:θ={wij,ai,bj}為模型參數(shù),且均為實(shí)數(shù)。
在采用深度學(xué)習(xí)對(duì)自然語(yǔ)言特征進(jìn)行識(shí)別的基礎(chǔ)上,采用大數(shù)據(jù)分析法對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定。采用支持向量機(jī)法,根據(jù)自然語(yǔ)言特征的顯著性進(jìn)行劃分,在根據(jù)其約束條件,結(jié)合大數(shù)據(jù)分析法,確定自然語(yǔ)言模糊邊界。
給定一個(gè)訓(xùn)練樣本Di=(xi,yi),i=1,2,...,l;yi∈{+1,-1},輸入樣本用xi表示,l表示樣本數(shù),yi則表示兩類(lèi)自然語(yǔ)言數(shù)據(jù)的類(lèi)別值。要想同時(shí)滿足正確分開(kāi)樣本和保證間隔最大,可將其轉(zhuǎn)變?yōu)楹屑s束條件最小值問(wèn)題,表達(dá)式如下所示:
subject to yi[(WXi)+b]-1≥0,i=1,2,...,l (21)
當(dāng)訓(xùn)練集為線性不可分時(shí),需要引入新的變量即松弛變量εi≥0,表達(dá)式轉(zhuǎn)變?yōu)槿缦滤荆?/p>
subject to yi[(WXi)+b]≥1-εi,i=1,2,...,l (23)
式中:c為懲罰系數(shù),通常大于0,表示對(duì)錯(cuò)分樣本的懲罰程度,εi≥0。對(duì)二次固話的求解問(wèn)題,需要引入拉格朗日函數(shù):
式中:αi>0,表示拉格朗日系數(shù),經(jīng)過(guò)求解可得到最優(yōu)分類(lèi)函數(shù):
此時(shí)需要滿足一下約束條件:
∫∫K(x1,x2)f(x1)f(x2)dx1dx2≥0 (26)
此時(shí),若d(x1)<d(x2),則表示在滿足上述約束條件的基礎(chǔ)上,引入大數(shù)據(jù)分析法,對(duì)自然語(yǔ)言模糊邊界進(jìn)行確定。
假設(shè)檢測(cè)區(qū)域內(nèi),mn是檢測(cè)時(shí)的期望值,mf是自然語(yǔ)言屬性讀取的期望,那么最優(yōu)門(mén)限判定閾值為:
Vth=0.5(mn+mf) (27)
在此基礎(chǔ)上,引入的大數(shù)據(jù)分析法,將自然語(yǔ)言劃分為兩類(lèi):上升型自然語(yǔ)言屬性及下降型自然語(yǔ)言屬性。其中上升型自然語(yǔ)言屬性值在進(jìn)行檢測(cè)時(shí)比沒(méi)有檢測(cè)的自然語(yǔ)言屬性值要大,下降型自然語(yǔ)言屬性值在檢測(cè)時(shí)比沒(méi)有檢測(cè)時(shí)的自然語(yǔ)言屬性值要小。
假設(shè)是上升型的自然語(yǔ)言屬性,則判決公式為:
若是下降型自然語(yǔ)言屬性,則判決公式為:
式中:B為進(jìn)行檢測(cè)后的判決結(jié)果,對(duì)檢測(cè)結(jié)果進(jìn)行判決為1,未判決用0。V是自然語(yǔ)言數(shù)據(jù)的感知讀數(shù)。
由此發(fā)現(xiàn),自然語(yǔ)言的模糊邊界即為檢測(cè)時(shí)的閾值Vth的等值線,距離等值線越近的自然語(yǔ)言數(shù)據(jù)其感應(yīng)到的屬性讀數(shù)和閾值Vth越接近,因此將自然語(yǔ)言的鄰居數(shù)據(jù)感知讀數(shù)依據(jù)讀數(shù)大小進(jìn)行不穩(wěn)定排序,若是上升型自然語(yǔ)言屬性,則根據(jù)降序進(jìn)行排列,若是下降型自然語(yǔ)言屬性,則根據(jù)升序進(jìn)行排列。然后獲取自然語(yǔ)言檢測(cè)時(shí)的閾值Vth在序列里的位置,左右各選取間隔閾值最近的個(gè)自然語(yǔ)言屬性值。對(duì)于多屬性的自然語(yǔ)言進(jìn)行檢測(cè)時(shí),若min是對(duì)自然語(yǔ)言模糊邊界檢測(cè)時(shí)的屬性讀數(shù)期望值,mif是對(duì)自然語(yǔ)言進(jìn)行檢測(cè)時(shí)的屬性讀數(shù)期望值,對(duì)于各屬性判定是否是邊界時(shí)的最優(yōu)門(mén)限值為:
Vith=0.5(min+mif) (30)
若自然語(yǔ)言有m個(gè)屬性,Vi為一個(gè)自然語(yǔ)言對(duì)于屬性i的讀數(shù),對(duì)于多屬性自然語(yǔ)言模糊邊界判定是否為邊界,可先對(duì)單個(gè)屬性的自然語(yǔ)言進(jìn)行判決,那么多屬性自然語(yǔ)言邊界的判決結(jié)果為:
式中,Bi為單個(gè)屬性判決結(jié)果,m為常數(shù)。則自然語(yǔ)言模糊邊界確定理論要滿足:的數(shù)據(jù)所形成的閉合曲線,然后按照各個(gè)屬性閾值間隔各自序列左端的距離遠(yuǎn)近排出一個(gè)大小順序,得到擬合節(jié)點(diǎn)集合S,并以此為基礎(chǔ)進(jìn)行擬合,確定其是否為模糊邊界。
假設(shè)自然語(yǔ)言屬性集合S中有X個(gè)坐標(biāo)最大的屬性值,記作NXmax,其坐標(biāo)為(X max,Y),找到X坐標(biāo)里最小節(jié)點(diǎn)記作NXmin,其坐標(biāo)為(Xmin,Y),找到Y(jié)坐標(biāo)最小節(jié)點(diǎn),記作NYmin,其坐標(biāo)為(X,Ymin),則其擬合函數(shù)表達(dá)式如下所示:
若max-Xmin≥Ymax-Ymin,則采用y=ax2+bs+c進(jìn)行擬合,若Xmax-Xmin<Ymax-Ymin,那么采用x=ay2+by+c進(jìn)行擬合。已知擬合函數(shù),則采用大數(shù)據(jù)分析法進(jìn)行分析,計(jì)算出自然語(yǔ)言模糊邊界閥值,解決自然語(yǔ)言模糊邊界確定不準(zhǔn)確的問(wèn)題。假設(shè)自然語(yǔ)言屬性1到屬性2(xi,yi)(i=1,2,...,m)的距離平方和是最小曲線yi=p(xi),得到多項(xiàng)式擬合函數(shù)為:
若要分析結(jié)果更為精準(zhǔn),需要滿足其必要條件,表達(dá)式為:
在滿足其必要條件的基礎(chǔ)上,計(jì)算得到自然語(yǔ)言模糊邊界閥值為:
式中,Dt為設(shè)定閥值。由此可知,當(dāng)D≤Dt時(shí),D=1,此時(shí)自然語(yǔ)言數(shù)據(jù)遠(yuǎn)離疑似邊界,可確定其不是所需的邊界;反之,當(dāng)D>Dt時(shí),D=0,此時(shí)自然語(yǔ)言數(shù)據(jù)距離模糊邊界很近,確定模糊邊界為所需的邊界。
以上所述僅為本發(fā)明的較佳實(shí)施例,凡依本發(fā)明申請(qǐng)專(zhuān)利范圍所做的均等變化與修飾,皆應(yīng)屬本發(fā)明的涵蓋范圍。