亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法

文檔序號(hào):6566114閱讀:735來(lái)源:國(guó)知局
專利名稱:基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明屬于自然語(yǔ)言處理技術(shù)領(lǐng)域,主要涉及Web信息抽取領(lǐng)域,尤其涉及Web命名實(shí)體識(shí)別。具體是一種基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,主要用來(lái)識(shí)別出Web命名實(shí)體,實(shí)現(xiàn)對(duì)網(wǎng)頁(yè)信息的獲取以及預(yù)處理。
背景技術(shù)
Web命名實(shí)體識(shí)別技術(shù)主要針對(duì)Web頁(yè)面的信息進(jìn)行最基本數(shù)據(jù)的獲取。通過(guò)獲得數(shù)據(jù)從而能對(duì)網(wǎng)頁(yè)的內(nèi)容進(jìn)行識(shí)別,也為后續(xù)的各種應(yīng)用如信息抽取、自動(dòng)問(wèn)答、及其翻譯等都需要命名實(shí)體識(shí)別技術(shù)的支撐,這也是自然語(yǔ)言處理中一項(xiàng)基本工作。在網(wǎng)絡(luò)技術(shù)飛速發(fā)展,并廣泛應(yīng)用于各個(gè)領(lǐng)域的當(dāng)今,對(duì)它的研究非常重要。一般來(lái)說(shuō),命名實(shí)體識(shí)別就是對(duì)一篇或多篇待處理的文本,識(shí)別出其中出現(xiàn)的命名實(shí)體,比如人名、地名、機(jī)構(gòu)名、 時(shí)間日期、數(shù)字等。目前,對(duì)英文命名實(shí)體識(shí)別已經(jīng)取得了很好的效果,對(duì)它的研究與開(kāi)發(fā)主要集中在學(xué)習(xí)領(lǐng)域,包括隱馬爾可夫模型、最大熵模型和支持向量機(jī)等,一些系統(tǒng)已經(jīng)可以實(shí)際應(yīng)用。在第七屆信息理解會(huì)議(MUC-7)時(shí),最好的英文命名實(shí)體識(shí)別系統(tǒng)已經(jīng)達(dá)到了 95%的查全率和92 %的查準(zhǔn)率。與英文命名實(shí)體識(shí)別相比,中文命名實(shí)體識(shí)別的效果還差很多。 第二屆多語(yǔ)種實(shí)體評(píng)價(jià)會(huì)議(MET-2)時(shí),最好的中文命名實(shí)體識(shí)別系統(tǒng)在人名、地名、機(jī)構(gòu)名的查準(zhǔn)率分別為66、89、89%,查全率分別為92、91、88%。目前中文命名實(shí)體識(shí)別從方法上來(lái)說(shuō),主要是基于規(guī)則和統(tǒng)計(jì)這兩種方法?;谝?guī)則的方法一般采用特征字或特征詞觸發(fā)的方式來(lái)進(jìn)行命名實(shí)體識(shí)別?;诮y(tǒng)計(jì)的方法主要通過(guò),對(duì)大規(guī)模語(yǔ)料庫(kù)命名實(shí)體及其上下文進(jìn)行統(tǒng)計(jì)分析,構(gòu)建統(tǒng)計(jì)模型進(jìn)行命名實(shí)體識(shí)別。早期的中文命名實(shí)體識(shí)別模型包含數(shù)個(gè)子模型,每個(gè)子模型處理某一類實(shí)體,如對(duì)人名的識(shí)別可能使用基于規(guī)則的方法,對(duì)地名、機(jī)構(gòu)名的識(shí)別可能使用基于統(tǒng)計(jì)的方法。 例如,隱馬爾可夫模型、概率上下文無(wú)關(guān)語(yǔ)法、基于決策樹(shù)的語(yǔ)言模型、最大熵語(yǔ)言模型、條件隨機(jī)場(chǎng)模型等。隨后就出現(xiàn)了各種改進(jìn)模型,對(duì)不同的實(shí)體用統(tǒng)一的模型來(lái)處理。傳統(tǒng)識(shí)別方法并沒(méi)有考慮到所識(shí)別實(shí)體在Web中的一些顯示結(jié)構(gòu)特征,這樣對(duì)于 Web實(shí)體的特征表示就會(huì)不全面。另外一點(diǎn),傳統(tǒng)識(shí)別方法對(duì)Web命名實(shí)體的識(shí)別會(huì)針對(duì)不同實(shí)體建立不同模型,這樣就無(wú)法對(duì)那些到底是單獨(dú)實(shí)體還是其他復(fù)雜實(shí)體的一個(gè)成分這種情況進(jìn)行處理。同時(shí)建立多個(gè)模型也會(huì)大大增加識(shí)別的時(shí)間復(fù)雜度。最后一點(diǎn),傳統(tǒng)方法在訓(xùn)練過(guò)程中需要大量文本數(shù)據(jù),所以模型過(guò)于依賴訓(xùn)練文本集的大小。已有的命名實(shí)體識(shí)別模型在訓(xùn)練樣本上花費(fèi)的時(shí)間太大。目前中文命名實(shí)體的識(shí)別中對(duì)簡(jiǎn)單實(shí)體識(shí)別效果較好,對(duì)復(fù)雜實(shí)體,尤其是對(duì)于嵌套的復(fù)雜實(shí)體,識(shí)別效率和準(zhǔn)確率較低。本發(fā)明項(xiàng)目組對(duì)國(guó)內(nèi)外專利文獻(xiàn)和公開(kāi)發(fā)表的期刊論文檢索,再尚未發(fā)現(xiàn)與本發(fā)明密切相關(guān)和一樣的報(bào)道或文獻(xiàn)。

發(fā)明內(nèi)容
本發(fā)明是一種基于統(tǒng)計(jì)模型的命名實(shí)體識(shí)別方法,主要是對(duì)Web文檔進(jìn)行預(yù)處理,為后面的信息抽取,機(jī)器翻譯和問(wèn)答系統(tǒng)提供了基本保障。本發(fā)明主要針對(duì)Web上的命名實(shí)體利用統(tǒng)計(jì)模型進(jìn)行命名實(shí)體識(shí)別。本發(fā)明要解決的主要問(wèn)題是現(xiàn)有Web中文命名實(shí)體的識(shí)別,尤其是對(duì)復(fù)雜實(shí)體的識(shí)別精度不夠高,不夠準(zhǔn)的問(wèn)題,。下面對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明本發(fā)明是一種基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,其特征在于所述方法包括以下步驟A.將Web文本原始語(yǔ)料進(jìn)行分詞的預(yù)處理,并將原始文本映射到一個(gè)抽象符號(hào)集上,為之后的機(jī)器學(xué)習(xí),進(jìn)行文本的符號(hào)化描述做準(zhǔn)備;B.對(duì)命名實(shí)體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示,建立命名實(shí)體的特征庫(kù),使用MFVSM的多特征矢量的特征表示方法,對(duì)Web頁(yè)面的各命名實(shí)體進(jìn)行特征提?。籆.應(yīng)用概率統(tǒng)計(jì)算法建立MR-GHMM模型,利用推廣的Baum-WeIch算法計(jì)算初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率,即解決MR-GHMM的學(xué)習(xí)問(wèn)題;D.結(jié)合Web命名實(shí)體的多特征,將一種改進(jìn)的kick-off模型引入GHMM模型的計(jì)算中,采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果,并對(duì)各命名實(shí)體標(biāo)注,實(shí)現(xiàn)適用于多特征的Web命名實(shí)體識(shí)別;E. MR-GHMM模型將Web命名實(shí)體識(shí)別過(guò)程作為二層來(lái)處理,第一層進(jìn)行簡(jiǎn)單實(shí)體標(biāo)注;第二層進(jìn)行復(fù)雜嵌套實(shí)體識(shí)別,利用MR-GHMM對(duì)其轉(zhuǎn)移概率計(jì)算,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入,在第一層識(shí)別出來(lái)的簡(jiǎn)單實(shí)體基礎(chǔ)上進(jìn)行復(fù)雜嵌套實(shí)體識(shí)別。在現(xiàn)有方法中,一般采用單一文本特征來(lái)進(jìn)行實(shí)體的特征描述,同時(shí)模型的建立只是針對(duì)單獨(dú)實(shí)體。已有的命名實(shí)體識(shí)別模型在訓(xùn)練樣本上花費(fèi)的時(shí)間太大。本發(fā)明針對(duì) GHMM統(tǒng)計(jì)模型的最大概率求解進(jìn)行了改進(jìn),從而來(lái)優(yōu)化訓(xùn)練的效率。另一方面針對(duì)Web實(shí)體的特點(diǎn),采用實(shí)體的結(jié)構(gòu)特征和文本特征來(lái)進(jìn)行Web命名實(shí)體的多特征表示,提高識(shí)別精度。本發(fā)明的實(shí)現(xiàn)還在于步驟B中的命名實(shí)體特征提取包括如下步驟Bi.首先對(duì)網(wǎng)頁(yè)進(jìn)行Web命名實(shí)體的顯示風(fēng)格表示,形成結(jié)構(gòu)特征矢量^s ;B2.再對(duì)網(wǎng)頁(yè)的Web命名實(shí)體進(jìn)行文本特征表示,將文本特征轉(zhuǎn)換為一個(gè)有限的特征矢量;B3.根據(jù)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,使用MFVSM進(jìn)行Web頁(yè)面的各命名實(shí)體的多特征矢量特征表示:F, =[F,%F;],實(shí)現(xiàn)命名實(shí)體的特征提取。本發(fā)明將Web文本的結(jié)構(gòu)特征和文本特征相結(jié)合進(jìn)行實(shí)體的多特征表示,從而能夠更全面的表示出Web文本中實(shí)體的特征。為后續(xù)實(shí)體識(shí)別打好基礎(chǔ)。本發(fā)明的實(shí)現(xiàn)還在于所述步驟C中的建立MR-GHMM模型包括如下步驟Cl.計(jì)算MR-GHMM模型的參數(shù);C2.根據(jù)特征庫(kù)中建立好的特征表示,對(duì)原始預(yù)料進(jìn)行訓(xùn)練,得到命名實(shí)體的轉(zhuǎn)移概率,從而得到模型的概率P ;C3.對(duì)于給定模型λ,找出使P(0,Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
HMM是一種在自然語(yǔ)言處理領(lǐng)域中被廣泛應(yīng)用的統(tǒng)計(jì)模型。將其擴(kuò)展為廣義隱馬爾科夫模型GHMM從而考慮更多的特征表示,從而更加適合于中文命名實(shí)體識(shí)別中的人名識(shí)別、地名識(shí)別以及機(jī)構(gòu)名識(shí)別等復(fù)雜多特征實(shí)體的識(shí)別。本發(fā)明的實(shí)現(xiàn)還在于所述步驟D中的Web命名實(shí)體的識(shí)別包括如下步驟Dl.用Viterbi算法進(jìn)行特征詞自動(dòng)標(biāo)注,即從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果;D2.對(duì)于P(Tn)的計(jì)算采用基于概率統(tǒng)計(jì)的自然語(yǔ)言處理(n-gram語(yǔ)言模型),計(jì)算一個(gè)句子Tn= (ti;t2,……,tm)的概率
權(quán)利要求
1.一種基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,其特征在于所述方法包括以下步驟A.將Web文本原始語(yǔ)料進(jìn)行分詞的預(yù)處理,并將原始文本映射到一個(gè)抽象符號(hào)集上, 為之后的機(jī)器學(xué)習(xí),進(jìn)行文本的符號(hào)化描述做準(zhǔn)備;B.對(duì)命名實(shí)體建立相應(yīng)的結(jié)構(gòu)特征和文本特征表示,建立命名實(shí)體的特征庫(kù),使用 MFVSM的多特征矢量的特征表示方法,對(duì)Web頁(yè)面的各命名實(shí)體進(jìn)行特征提?。籆.應(yīng)用概率統(tǒng)計(jì)算法建立MR-GHMM模型,利用推廣的Baum-Welch算法計(jì)算模型的初始狀態(tài)概率、轉(zhuǎn)移狀態(tài)概率和狀態(tài)釋放概率,即解決MR-GHMM的學(xué)習(xí)問(wèn)題;D.結(jié)合Web命名實(shí)體的多特征,將一種改進(jìn)的back-off模型引入GHMM模型的計(jì)算中, 采用Viterbi算法從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果,并對(duì)各命名實(shí)體標(biāo)注,實(shí)現(xiàn)適用于多特征的Web命名實(shí)體識(shí)別;E.MR-GHMM模型將Web命名實(shí)體識(shí)別過(guò)程作為二層來(lái)處理,第一層進(jìn)行簡(jiǎn)單實(shí)體標(biāo)注; 第二層進(jìn)行復(fù)雜嵌套實(shí)體識(shí)別,利用MR-GHMM對(duì)其轉(zhuǎn)移概率計(jì)算,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入,在第一層識(shí)別出來(lái)的簡(jiǎn)單實(shí)體基礎(chǔ)上進(jìn)行復(fù)雜嵌套實(shí)體識(shí)別。
2.根據(jù)權(quán)利要求1所述的基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,其特征在于所述步驟1. 2中的命名實(shí)體特征提取包括如下步驟Bi.首先對(duì)網(wǎng)頁(yè)進(jìn)行Web命名實(shí)體的顯示風(fēng)格表示,形成結(jié)構(gòu)特征矢量廠‘; B2.再對(duì)網(wǎng)頁(yè)的Web命名實(shí)體進(jìn)行文本特征表示,將文本特征轉(zhuǎn)換為一個(gè)有限的特征矢量廠、B3.根據(jù)樣本數(shù)據(jù)進(jìn)行訓(xùn)練,使用MFVSM進(jìn)行Web頁(yè)面的各命名實(shí)體的多特征矢量特征表示:F,,實(shí)現(xiàn)命名實(shí)體的特征提取。
3.根據(jù)權(quán)利要求1或2所述的基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,其特征在于 所述步驟1. 3中的建立MR-GHMM模型包括如下步驟Cl.計(jì)算MR-GHMM模型的參數(shù);C2.根據(jù)特征庫(kù)中建立好的特征表示,對(duì)原始預(yù)料進(jìn)行訓(xùn)練,得到命名實(shí)體的轉(zhuǎn)移概率,從而得到模型的概率P;C3.對(duì)于給定模型λ,找出使P(0,Q| λ)最大的狀態(tài)轉(zhuǎn)移序列Q。
4.根據(jù)權(quán)利要求3所述的基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,其特征在于所述步驟1. 4中的Web命名實(shí)體的識(shí)別包括如下步驟Dl.用Viterbi算法進(jìn)行特征詞自動(dòng)標(biāo)注,S卩從所有可能的標(biāo)注序列中優(yōu)選出概率最大的標(biāo)注序列作為最終標(biāo)注結(jié)果;D2.對(duì)于P(Tn)的計(jì)算采用基于概率統(tǒng)計(jì)的自然語(yǔ)言處理,計(jì)算一個(gè)句子Tn= (ti; t2,……,tm)的概率T* = arg max log P(Tn |G") = arg max(log P(T" )-JlogP(i,) + X logP(i, | Gn))T T /=1 i=l其中Tn = (ti; t2,……,tm)是Gn = (gl, g2,……,gm)某個(gè)可能的特征詞標(biāo)注序列;D3.對(duì)于;|G")的計(jì)算方法,采用一種改進(jìn)的kick-ofT模型進(jìn)行計(jì)算,改進(jìn)的 /=1kick-off模型的表示如下
全文摘要
本發(fā)明是一種基于統(tǒng)計(jì)模型的Web命名實(shí)體識(shí)別方法,用結(jié)構(gòu)和文本特征對(duì)Web命名實(shí)體進(jìn)行多特征表示;本發(fā)明將統(tǒng)計(jì)方法和規(guī)則方法相結(jié)合,采用改進(jìn)的MR-GHMM來(lái)優(yōu)化訓(xùn)練的效率;用改進(jìn)隱馬爾可夫的模型對(duì)實(shí)體進(jìn)行標(biāo)注,對(duì)各命名實(shí)體標(biāo)注,實(shí)現(xiàn)實(shí)體識(shí)別;對(duì)Web復(fù)雜命名實(shí)體識(shí)別過(guò)程作為二層來(lái)處理,將第一層的標(biāo)注結(jié)果作為第二層處理的輸入進(jìn)行復(fù)雜嵌套實(shí)體識(shí)別。本發(fā)明與原有識(shí)別算法相比,該算法的識(shí)別準(zhǔn)確率提高了,模型訓(xùn)練的時(shí)間復(fù)雜度也大幅降低。通過(guò)對(duì)Web命名實(shí)體的多特征表示,針對(duì)不同領(lǐng)域的實(shí)體特征進(jìn)行修改,就可以應(yīng)用與Web上不同領(lǐng)域的命名實(shí)體進(jìn)行識(shí)別。
文檔編號(hào)G06F17/27GK102314417SQ201110284429
公開(kāi)日2012年1月11日 申請(qǐng)日期2011年9月22日 優(yōu)先權(quán)日2011年9月22日
發(fā)明者劉志鏡, 姚勇, 曲建銘, 朱旭東, 王煒華, 王燕, 王縱虎, 王靜, 賀文華, 趙輝, 陳東輝 申請(qǐng)人:西安電子科技大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1