亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

短句解析模型建立方法及系統(tǒng)的制作方法

文檔序號:6626559閱讀:222來源:國知局
短句解析模型建立方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種短句解析模型建立方法及系統(tǒng)。該短句解析模型建立方法,包括以下步驟:獲取原始語句;將原始語句切分為詞序列;為詞序列中的每個(gè)詞賦予詞性;根據(jù)各個(gè)詞及其詞性識別命名實(shí)體;根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分;分析各個(gè)語法成分之間的依存關(guān)系;根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征;將抽取的特征構(gòu)建為特征向量,并兩兩組合形成二元分類的特征組合;將特征向量及二元分類的特征組合存儲至模型中。本發(fā)明的短句解析模型建立方法及系統(tǒng)能夠根據(jù)實(shí)際數(shù)據(jù)進(jìn)行優(yōu)化,在一定程度上模擬自然語言中局部的約束關(guān)系,從而大大提高了對于自然語言短句的識別解析的準(zhǔn)確性。
【專利說明】短句解析模型建立方法及系統(tǒng)

【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種短句解析模型建立方法及系統(tǒng)。

【背景技術(shù)】
[0002]在語音信號處理、語音識別、語音合成及自然語言理解等各項(xiàng)技術(shù)得到迅猛發(fā)展的今天,語音查詢具有很高的研究價(jià)值,其應(yīng)用也必將帶來很好的社會、經(jīng)濟(jì)效益。在語音查詢中,短句的自然語言理解與解析是影響語音查詢結(jié)果的關(guān)鍵。如何針對自然語言實(shí)現(xiàn)提高自然語言理解與解析的準(zhǔn)確度進(jìn)而提升語音查詢系統(tǒng)準(zhǔn)確率是一個(gè)重要的問題。
[0003]傳統(tǒng)的短句的自然語言解析方法通常是基于規(guī)則的方法,其核心思想是用文法來描述語言、分析語言。首先確定句子是否符合預(yù)先設(shè)定的規(guī)范,然后在文法規(guī)則各種各樣的組合方式之中,找出一種可能是該句子文法樹結(jié)構(gòu)的組合方式的搜索過程。基于規(guī)則的自然語言解析方法在實(shí)際的使用場合其表現(xiàn)往往不如基于統(tǒng)計(jì)的經(jīng)驗(yàn)主義方法那樣好。因?yàn)榛诮y(tǒng)計(jì)的經(jīng)驗(yàn)主義方法可以根據(jù)實(shí)際訓(xùn)練數(shù)據(jù)的情況不斷地優(yōu)化,而基于規(guī)則的理性主義方法很難根據(jù)實(shí)際的數(shù)據(jù)進(jìn)行調(diào)整。并且基于規(guī)則的方法很難模擬語言中局部的約束關(guān)系O
[0004]然而由于語音識別的特點(diǎn),用戶查詢在語音識別過程中就有可能產(chǎn)生識別結(jié)果的錯誤,再將此查詢字符串進(jìn)行基于規(guī)則的自然語言理解和解析會使得準(zhǔn)確性進(jìn)一步下降,如何建立基于查詢需求的更好的語言模型,將得到結(jié)果應(yīng)用到提升短句的自然語言解析系統(tǒng)是迫切需要解決的問題。


【發(fā)明內(nèi)容】

[0005]本發(fā)明要解決的技術(shù)問題是為了克服現(xiàn)有技術(shù)中的自然語言解析方法很難根據(jù)實(shí)際數(shù)據(jù)進(jìn)行優(yōu)化,難以模擬語言中局部的約束關(guān)系,從而導(dǎo)致對于短句的識別解析的準(zhǔn)確性不夠高的缺陷,提出一種短句解析模型建立方法及系統(tǒng)。
[0006]本發(fā)明是通過下述技術(shù)方案來解決上述技術(shù)問題的:
[0007]本發(fā)明提供了一種短句解析模型建立方法,其特點(diǎn)在于,包括以下步驟:
[0008]S1、獲取原始語句;
[0009]S2、將原始語句切分為詞序列;
[0010]S3、根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性;
[0011]S4、根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名;
[0012]S5、根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分;
[0013]S6、分析各個(gè)語法成分之間的依存關(guān)系;
[0014]S7、根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征;
[0015]S8、將抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合;
[0016]S9、將特征向量及二元分類的特征組合存儲至一模型中。
[0017]較佳地,該步驟S4包括以下步驟:
[0018]S41、采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體,并獲取若干最佳識別結(jié)果;
[0019]S42、采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果,識別具有嵌套結(jié)構(gòu)的命名實(shí)體。
[0020]較佳地,該步驟S41和S42中的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。Viterbi算法(Viterbi algorithm),亦稱維特比算法,屬于一種動態(tài)規(guī)劃算法,從普遍意義上來說這一算法可用于尋找最有可能產(chǎn)生觀測事件序列的-維特比路徑-隱含狀態(tài)序列。
[0021 ] 較佳地,該步驟S5還包括:根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
[0022]較佳地,該步驟S8中抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
[0023]本發(fā)明的短句解析模型建立方法,其基本原理大體如下:
[0024]將人名識別、地名識別以及機(jī)構(gòu)名識別等命名實(shí)體識別融合到一個(gè)相對統(tǒng)一的模型中。首先在詞語粗切分的結(jié)果集上,采用底層隱馬爾可夫模型識別出普通無嵌套的人名、地名和機(jī)構(gòu)名等,然后依次采取高層隱馬爾可夫模型識別出嵌套了人名、地名的復(fù)雜地名和機(jī)構(gòu)名。一是每一層隱馬爾可夫模型都采用N-Best策略,將產(chǎn)生的最好的若干個(gè)結(jié)果送到詞圖中供高層模型使用。二是低層的隱馬爾可夫模型通過詞語的生成模型為高層隱馬爾可夫模型的參數(shù)估計(jì)提供支持。
[0025]基于特征向量的方法具有特征構(gòu)造靈活,效率和準(zhǔn)確率較高的優(yōu)點(diǎn)。使用基于核的分類器對實(shí)例進(jìn)行二元或者多元的分類,其主要優(yōu)點(diǎn)是能夠?qū)⒌途S線性不可分問題通過對特征進(jìn)行組合或者分解,映射到高維空間,轉(zhuǎn)化為線性可分問題,同時(shí)通過對核函數(shù)的計(jì)算,隱藏了映射的細(xì)節(jié),從而使得時(shí)空復(fù)雜性降低到可以接受的范圍。核方法一般是和支持向量機(jī)等線性分類器配合使用的,它將復(fù)雜的分類問題分為兩個(gè)部分,分別是與問題無關(guān)的線性分類器,以及與問題相關(guān)的核函數(shù)。其中核函數(shù)的作用是通過對具體分類問題的分析,隱式的將線性不可分問題映射到高維空間,然后使用線性分類器進(jìn)行分類。
[0026]本發(fā)明還提供了一種短句解析模型建立系統(tǒng),其特點(diǎn)在于,包括:
[0027]—語句切分模塊,用于獲取原始語句,并將原始語句切分為詞序列;
[0028]一詞性賦予模塊,用于根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性;
[0029]一命名實(shí)體識別模塊,用于根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名;
[0030]一語法成分識別模塊,用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分;
[0031]一依存分析模塊,用于分析各個(gè)語法成分之間的依存關(guān)系,并根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征;
[0032]一特征組合模塊,用于將該依存分析模塊抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合;
[0033]一存儲模塊,用于將特征向量及二元分類的特征組合存儲至一模型中。
[0034]較佳地,該命名實(shí)體識別模塊用于首先采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體、并獲取若干最佳識別結(jié)果,然后采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果識別具有嵌套結(jié)構(gòu)的命名實(shí)體。
[0035]較佳地,該命名實(shí)體識別模塊采用的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。
[0036]較佳地,該語法成分識別模塊還用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
[0037]較佳地,該特征組合模塊抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
[0038]在符合本領(lǐng)域常識的基礎(chǔ)上,上述各優(yōu)選條件,可任意組合,即得本發(fā)明各較佳實(shí)例。
[0039]本發(fā)明的積極進(jìn)步效果在于:
[0040]本發(fā)明的短句解析模型建立方法及系統(tǒng)能夠根據(jù)實(shí)際數(shù)據(jù)進(jìn)行優(yōu)化,在一定程度上模擬自然語言中局部的約束關(guān)系,從而大大提高了對于自然語言短句的識別解析的準(zhǔn)確性。

【專利附圖】

【附圖說明】
[0041]圖1為本發(fā)明實(shí)施例1的短句解析模型建立方法的流程圖。
[0042]圖2為本發(fā)明實(shí)施例2的短句解析模型建立系統(tǒng)的示意圖。

【具體實(shí)施方式】
[0043]下面結(jié)合附圖給出本發(fā)明較佳實(shí)施例,以詳細(xì)說明本發(fā)明的技術(shù)方案,但并不因此將本發(fā)明限制在所述的實(shí)施例范圍之中。
[0044]實(shí)施例1
[0045]如圖1所示,本實(shí)施例的短句解析模型建立方法包括以下步驟:
[0046]S1、獲取原始語句;
[0047]S2、將原始語句切分為詞序列;
[0048]S3、根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性;
[0049]S4、根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名;
[0050]S5、根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分;
[0051]S6、分析各個(gè)語法成分之間的依存關(guān)系;
[0052]S7、根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征;
[0053]S8、將抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合;
[0054]S9、將特征向量及二元分類的特征組合存儲至一模型中。
[0055]其中該步驟S4包括以下步驟:
[0056]S41、采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體,并獲取若干最佳識別結(jié)果;
[0057]S42、采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果,識別具有嵌套結(jié)構(gòu)的命名實(shí)體。
[0058]步驟S5還包括:根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
[0059]并且,該步驟S41和S42中的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。該步驟S8中抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
[0060]實(shí)施例2
[0061]參考圖2所不,本實(shí)施例的短句解析模型建立系統(tǒng),包括一語句切分模塊1、一詞性賦予模塊2、一命名實(shí)體識別模塊3、一語法成分識別模塊4、一依存分析模塊5、一特征組合模塊6和一存儲模塊7。
[0062]該語句切分模塊用于獲取原始語句、并將原始語句切分為詞序列。該詞性賦予模塊用于根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性。該命名實(shí)體識別模塊用于根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名。該語法成分識別模塊用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分。該依存分析模塊,用于分析各個(gè)語法成分之間的依存關(guān)系,并根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征。該特征組合模塊,用于將該依存分析模塊抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合。該存儲模塊用于將特征向量及二元分類的特征組合存儲至一模型中。
[0063]其中,該命名實(shí)體識別模塊用于首先采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體、并獲取若干最佳識別結(jié)果,然后采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果識別具有嵌套結(jié)構(gòu)的命名實(shí)體。該命名實(shí)體識別模塊采用的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。
[0064]并且,該語法成分識別模塊還用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
[0065]該特征組合模塊抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
[0066]雖然以上描述了本發(fā)明的【具體實(shí)施方式】,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這些僅是舉例說明,本發(fā)明的保護(hù)范圍是由所附權(quán)利要求書限定的。本領(lǐng)域的技術(shù)人員在不背離本發(fā)明的原理和實(shí)質(zhì)的前提下,可以對這些實(shí)施方式做出多種變更或修改,但這些變更和修改均落入本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種短句解析模型建立方法,其特征在于,包括以下步驟: 51、獲取原始語句; 52、將原始語句切分為詞序列; 53、根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性; 54、根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名; 55、根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分; 56、分析各個(gè)語法成分之間的依存關(guān)系; 57、根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征; 58、將抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合; 59、將特征向量及二元分類的特征組合存儲至一模型中。
2.如權(quán)利要求1所述的短句解析模型建立方法,其特征在于,該步驟S4包括以下步驟: 541、采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體,并獲取若干最佳識別結(jié)果; 542、采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果,識別具有嵌套結(jié)構(gòu)的命名實(shí)體。
3.如權(quán)利要求2所述的短句解析模型建立方法,其特征在于,該步驟S41和S42中的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。
4.如權(quán)利要求1-3中任意一項(xiàng)所述的短句解析模型建立方法,其特征在于,該步驟S5還包括:根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
5.如權(quán)利要求1所述的短句解析模型建立方法,其特征在于,該步驟S8中抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
6.一種短句解析模型建立系統(tǒng),其特征在于,包括: 一語句切分模塊,用于獲取原始語句,并將原始語句切分為詞序列; 一詞性賦予模塊,用于根據(jù)預(yù)存的詞性規(guī)則為該詞序列中的每個(gè)詞賦予一詞性; 一命名實(shí)體識別模塊,用于根據(jù)各個(gè)詞及其詞性識別命名實(shí)體,命名實(shí)體包括人名、地名、機(jī)構(gòu)名; 一語法成分識別模塊,用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞在原始語句中的語法成分; 一依存分析模塊,用于分析各個(gè)語法成分之間的依存關(guān)系,并根據(jù)各個(gè)語法成分之間的依存關(guān)系,抽取語法成分作為特征; 一特征組合模塊,用于將該依存分析模塊抽取的特征構(gòu)建為特征向量,并使用二次多項(xiàng)式核對特征向量中的特征進(jìn)行兩兩組合形成二元分類的特征組合; 一存儲模塊,用于將特征向量及二元分類的特征組合存儲至一模型中。
7.如權(quán)利要求6所述的短句解析模型建立系統(tǒng),其特征在于,該命名實(shí)體識別模塊用于首先采用底層隱馬爾可夫模型識別普通無嵌套的命名實(shí)體、并獲取若干最佳識別結(jié)果,然后采用高層隱馬爾可夫模型、并利用該若干最佳識別結(jié)果識別具有嵌套結(jié)構(gòu)的命名實(shí)體。
8.如權(quán)利要求7所述的短句解析模型建立系統(tǒng),其特征在于,該命名實(shí)體識別模塊采用的底層隱馬爾可夫模型和高層隱馬爾可夫模型都采用Viterbi算法。
9.如權(quán)利要求6-8中任意一項(xiàng)所述的短句解析模型建立系統(tǒng),其特征在于,該語法成分識別模塊還用于根據(jù)各個(gè)詞、詞性及命名實(shí)體識別各個(gè)詞標(biāo)識動詞性謂詞及其語義,并根據(jù)預(yù)存的一詞表從各個(gè)詞中找出有可能充當(dāng)動詞的名詞,并進(jìn)行標(biāo)識為謂詞。
10.如權(quán)利要求6所述的短句解析模型建立系統(tǒng),其特征在于,該特征組合模塊抽取的特征包括句法成分特征和謂詞特征,謂詞特征包括謂詞原形、謂詞語態(tài)、子類框架。
【文檔編號】G06F17/27GK104199811SQ201410459446
【公開日】2014年12月10日 申請日期:2014年9月10日 優(yōu)先權(quán)日:2014年9月10日
【發(fā)明者】劉新 申請人:攜程計(jì)算機(jī)技術(shù)(上海)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1