亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

詞性標(biāo)注系統(tǒng)、用于訓(xùn)練詞性標(biāo)注模型的裝置及其方法

文檔序號:6577663閱讀:247來源:國知局
專利名稱:詞性標(biāo)注系統(tǒng)、用于訓(xùn)練詞性標(biāo)注模型的裝置及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然 語言處理領(lǐng)域,具體地,涉及一種詞性標(biāo)注系統(tǒng),用于訓(xùn)練詞性標(biāo) 注模型的裝置及其方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的廣泛普及以及社會的日益信息化,計(jì)算機(jī)可處理的自然語言文本數(shù) 量空前增長,面向海量信息的文本挖掘、信息提取、跨語言信息處理、人機(jī)交互等應(yīng)用需求 急速增長,自然語言處理技術(shù)是應(yīng)對上述需求的核心技術(shù)之一。詞性標(biāo)注是給文本中的每 個詞標(biāo)注上正確的詞性,它是自然語言處理的基礎(chǔ)。由于詞性標(biāo)注的結(jié)果直接影響自然語 言處理的上層處理領(lǐng)域(比如,詞頻統(tǒng)計(jì)、句法分析、組塊分析、語義分析等),因此獲得高 效和準(zhǔn)確的詞性標(biāo)注方法和系統(tǒng)非常重要。詞性標(biāo)注是自然語言處理領(lǐng)域的一個序列標(biāo)注問題,而條件隨機(jī)域模型 (Conditional Random Fields-CRFs)被廣泛應(yīng)用于處理自然語言中的序列標(biāo)注問題。條件 隨機(jī)域從本質(zhì)上講是一種用于在給定輸入結(jié)點(diǎn)值時計(jì)算制定輸出結(jié)點(diǎn)值的條件概率的無 向圖模型,它具有表達(dá)元素長距離依賴性和交疊性特征的能力,可以用于處理全局性關(guān)聯(lián) 較強(qiáng)的信息抽取工作。因此它有效地避免了像最大熵(MaximumEntropy-ME)和隱馬爾可夫 模型(Hidden Markov Model-HMM)等有向圖模型的強(qiáng)相關(guān)性假設(shè),客服了它們出現(xiàn)的標(biāo)注 偏置問題,是目前處理序列數(shù)據(jù)標(biāo)注問題的最好的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型。要獲得一個比較好 的詞性標(biāo)注模型,需要引入更加豐富的特征以及采用大規(guī)模標(biāo)注集進(jìn)行訓(xùn)練。然而CRFs的 訓(xùn)練過程是一個非常耗時和耗費(fèi)計(jì)算資源的工作,并且其訓(xùn)練時間以及計(jì)算資源的需求將 隨標(biāo)注標(biāo)簽數(shù)量指數(shù)增長。因此CRFs模型很少用在具有大標(biāo)注集合的大規(guī)模系統(tǒng)應(yīng)用中 (比如詞性標(biāo)注系統(tǒng)),通常用在特征較少并且小規(guī)模訓(xùn)練語料的應(yīng)用環(huán)境中??紤]到詞性 標(biāo)注的高準(zhǔn)確性要求,如何將CRFs模型應(yīng)用到具有大規(guī)模標(biāo)注集和大規(guī)模訓(xùn)練語料特征 的詞性標(biāo)注工作是一個急待解決的問題。對于上述問題,存在著一些相關(guān)解決方案,例如文獻(xiàn)1(1.Cohn T,Smith A, Osborne Μ. Scaling conditional randomfields using error-correcting codes. In Proc.the 43rd Annual Meeting ofthe Association for Computational Linguistics(ACL ' 05), Ann Arbor, Michigan !Association for Computational Linguistics, June 2005,pp. 10-17.)給出了一種將CRFs應(yīng)用到大標(biāo)注集合的方法。該文 獻(xiàn)引入誤差修正輸出碼(Error Correcting Output Code-ECOC,ECOC是一種系綜方法,先 定義冗余判決函數(shù),稱為譯碼過程-coding,然后基于上述判決函數(shù)構(gòu)造最終分類函數(shù)即解 碼過程-decoding)來解決大標(biāo)注集下的CRF訓(xùn)練問題。具體過程如下訓(xùn)練過程(編碼過 程)1)假定標(biāo)注集有m個標(biāo)簽(例如,NN-名詞,VB-動詞,JJ-形容詞,RB-副詞),人 工選定一個EC0C,假定其長度為n,該修正碼的目的就是將標(biāo)簽映射為一個η比特的向量, 示例如下
表 1通過上述編碼,該方法就將原來的標(biāo)注問題(也可以看作多分類問題),轉(zhuǎn)變成η 個相互獨(dú)立的二值分類問題,每一個列編碼就對應(yīng)著一個二值分類器,比如黑色框選定的 第三個分類器,它的目的就是將標(biāo)注為“NN,JJ”的詞和標(biāo)注為“VB,RB”的詞區(qū)分開來。2)構(gòu)建二值分類器的訓(xùn)練語料(通過修改原始語料來實(shí)現(xiàn),簡單來說就是將訓(xùn)練 語料中的標(biāo)注標(biāo)簽修改為對應(yīng)編碼中的值,比如要為上述第三個分類器構(gòu)造語料,那么只 需將原始語料中的所有標(biāo)注為“NN”,“JJ”重新標(biāo)注為“1”,而所有“VB”,“RB”替換為“0”)。 得到修改后的語料后,該方法采用傳統(tǒng)的CRFs訓(xùn)練方法來訓(xùn)練對應(yīng)的二值分類器。模型使用過程(解碼過程)1)給定任何一個句子,例如"NEC Develops word-leading technologyto prevent IP phone spam,,.2)對上述句子使用上述訓(xùn)練出來的所有二值分類器進(jìn)行分別標(biāo)注,并記錄標(biāo)注結(jié)
果,假定標(biāo)注結(jié)果如下 如上述所示,對于每一個詞都會對應(yīng)一個η比特的向量,采用比較常用的策略就 可以對比該向量和上述表1中的編碼向量,進(jìn)而尋找出一個匹配的標(biāo)簽并用它來標(biāo)注該 詞。比如對于詞“Develops”,其對應(yīng)的η比特向量和“VB”對應(yīng)的編碼最為接近,那么該系 統(tǒng)就將Develops標(biāo)注為“VB-動詞”。目前的技術(shù)并不能很有效地解決將CRF應(yīng)用到大規(guī)模標(biāo)注集的詞性標(biāo)注問題,使 得該方法離實(shí)際應(yīng)用還有距離,具體來說1)文獻(xiàn)1的方法的性能很大程度上取決于ECOC編碼的選取,但是選取一個理想的 ECOC是比較困難的。
2)上述的方案對訓(xùn)練耗時巨大以及高端的計(jì)算資源的嚴(yán)重依賴并沒有從根本上 解決。文獻(xiàn)[1]中的訓(xùn)練過程要訓(xùn)練η個二值分類器,其中η的大小取決于ECOC選取,針 對詞性標(biāo)注問題,這個值比較大,對應(yīng)的訓(xùn)練時間仍然很長,而且對高端計(jì)算資源的依賴依 然存在。另外在解碼過程中,由于要對所有二值分類器的逐個使用,再加上編碼匹配過程的 繁瑣,使得訓(xùn)練模型的應(yīng)用也非常耗時,也存在高端計(jì)算資源的依賴問題
發(fā)明內(nèi)容

本發(fā)明是引入詞性分層、分類的技術(shù),并結(jié)合層疊CRFs模型來解決傳統(tǒng)CRF難以 應(yīng)用到大規(guī)模標(biāo)注集下的詞性標(biāo)注問題。本發(fā)明可以自動從訓(xùn)練集中分析詞性之間的內(nèi)在 聯(lián)系,并依據(jù)這些內(nèi)在聯(lián)系構(gòu)建詞性層次樹來組織所有的詞性。根據(jù)這個詞性層次樹,本發(fā) 明引入層疊CRFs模型,進(jìn)而使得每層的標(biāo)記個數(shù)得以減少,并詳細(xì)設(shè)定了各模型之間的引 入關(guān)系,最后能夠自動訓(xùn)練出用于大規(guī)模標(biāo)注集的層疊CRFs詞性標(biāo)注模型??紤]到訓(xùn)練集 可能存在的稀疏問題,本發(fā)明還基于構(gòu)詞規(guī)則訓(xùn)練出對于未登錄詞的詞性猜測模型,以進(jìn) 一步提高本發(fā)明的詞性標(biāo)注的精度。根據(jù)本發(fā)明第一方面,提出了一種詞性標(biāo)注系統(tǒng),包括詞性標(biāo)注模型訓(xùn)練裝置, 用于基于詞性層次樹利用詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本來逐層逐節(jié)點(diǎn)地訓(xùn)練詞性 標(biāo)注模型;以及詞性標(biāo)注裝置,用于使用訓(xùn)練的詞性標(biāo)注模型對待標(biāo)注的文本進(jìn)行詞性標(biāo)注。根據(jù)本發(fā)明第二方面,提出了一種詞性標(biāo)注方法,包括詞性標(biāo)注模型訓(xùn)練步驟, 基于詞性層次樹利用詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本來逐層逐節(jié)點(diǎn)地訓(xùn)練詞性標(biāo)注 模型;以及詞性標(biāo)注步驟,使用訓(xùn)練的詞性標(biāo)注模型對待標(biāo)注的文本進(jìn)行詞性標(biāo)注。根據(jù)本發(fā)明第三方面,提出了一種用于訓(xùn)練詞性標(biāo)注模型的裝置,包括CRF模型 訓(xùn)練語料構(gòu)造單元,用于利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本逐層逐 節(jié)點(diǎn)地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練單元,用于利用CRF模 型訓(xùn)練語料構(gòu)造單元每次標(biāo)注的第二文本相應(yīng)地逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性 標(biāo)注模型。根據(jù)本發(fā)明第四方面,提出了一種用于訓(xùn)練詞性標(biāo)注模型的方法,包括CRF模型 訓(xùn)練語料構(gòu)造步驟,利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本逐層逐節(jié)點(diǎn) 地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練步驟,利用CRF模型訓(xùn)練語 料構(gòu)造步驟每次標(biāo)注的第二文本相應(yīng)地逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性標(biāo)注模型。本發(fā)明根本上解決了 CRFs用于大標(biāo)注集的詞性標(biāo)注問題,具體來說1)使得CRFs模型能夠用到大標(biāo)注集的詞性標(biāo)注工作,并且解決了對訓(xùn)練時間巨 大和高端計(jì)算資源的依賴性問題,本發(fā)明提出的系統(tǒng)和方法能夠在普通PC機(jī)上訓(xùn)練出詞 性標(biāo)注模型;2)提高了詞性標(biāo)注的精度,原因有二 其一,詞性序列標(biāo)注是一個全局關(guān)聯(lián)性較 強(qiáng)的工作,因此引入CRFs模型能夠有效地實(shí)現(xiàn)了全局最優(yōu),能夠提高詞性標(biāo)注精度;其二, 引入基于構(gòu)詞規(guī)則的未登錄詞詞性猜測機(jī)制,能夠有效地解決訓(xùn)練集的稀疏問題,也能夠 提高詞性標(biāo)注的整體精度;3)本發(fā)明提到的方法是全自動方法,能夠大大地減少訓(xùn)練和優(yōu)化詞性標(biāo)注模型的人工成本。


圖Ia示出了根據(jù)本發(fā)明第一實(shí)施例的詞性標(biāo)注系統(tǒng)的示意圖;圖Ib是根據(jù)本發(fā)明第一實(shí)施例的詞性標(biāo)注方法的流程圖;
圖2示出了根據(jù)本發(fā)明的詞性層次樹構(gòu)建裝置的示意圖;圖3示出了根據(jù)本發(fā)明的詞性層次樹構(gòu)建方法的流程圖;圖4a是詞性層次樹的一個示例結(jié)構(gòu)圖;圖4b和4c是詞性層次樹的數(shù)據(jù)結(jié)構(gòu)的一個示例;圖5a示出了根據(jù)本發(fā)明的詞性標(biāo)注模型訓(xùn)練裝置的示意結(jié)構(gòu)圖;圖5b示出了根據(jù)本發(fā)明的詞性標(biāo)注模型訓(xùn)練方法的流程圖;圖6a示出了根據(jù)本發(fā)明的詞性標(biāo)注裝置的示意圖;圖6b是根據(jù)本發(fā)明的詞性標(biāo)注方法的流程圖;圖7a示出了根據(jù)本發(fā)明第二實(shí)施例的詞性標(biāo)注系統(tǒng)的示意圖;圖7b是根據(jù)本發(fā)明第二實(shí)施例的詞性標(biāo)注方法的流程圖;圖8a示出了根據(jù)本發(fā)明第三實(shí)施例的詞性標(biāo)注系統(tǒng)的示意圖;圖8b是根據(jù)本發(fā)明第三實(shí)施例的詞性標(biāo)注方法的流程圖。
具體實(shí)施例方式下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的元件將由相同的參 考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中,將省略對已知功能和配置的具體描述, 以避免使本發(fā)明的主題不清楚。圖Ia是根據(jù)本發(fā)明第一實(shí)施例的詞性標(biāo)注系統(tǒng)的示意結(jié)構(gòu)圖。詞性標(biāo)注系統(tǒng)1中 的詞性標(biāo)注訓(xùn)練集10包括大量的已標(biāo)注的文本,即,已標(biāo)注的文本集合。詞性層次樹構(gòu)建 裝置14用于基于詞性標(biāo)注訓(xùn)練集10中的已標(biāo)注文本來分析詞性之間的關(guān)聯(lián)關(guān)系,并根據(jù) 分析的關(guān)聯(lián)關(guān)系構(gòu)建詞性層次樹15來層次化組織詞性標(biāo)注訓(xùn)練集中出現(xiàn)的標(biāo)注的詞性, 這種關(guān)聯(lián)關(guān)系例如可以是詞性之間的相似度。詞性標(biāo)注模型訓(xùn)練裝置12用于訓(xùn)練生成詞 性標(biāo)注模型13,該詞性標(biāo)注模型訓(xùn)練裝置從詞性標(biāo)注訓(xùn)練集10中讀取已標(biāo)注的文本,并根 據(jù)詞性層次樹15中的詞性結(jié)構(gòu)層次信息,構(gòu)建模型訓(xùn)練過程以訓(xùn)練用于詞性標(biāo)注的CRFs 詞性標(biāo)注模型13,其中訓(xùn)練得到的詞性標(biāo)注模型是層疊的詞性標(biāo)注模型。詞性標(biāo)注裝置22 用于根據(jù)得到的詞性標(biāo)注模型對未標(biāo)注文本中的詞的詞性進(jìn)行標(biāo)注。雖然圖Ia所示的詞性標(biāo)注系統(tǒng)包括詞性層次樹構(gòu)建裝置14,但是,可以理解地是 該詞性標(biāo)注系統(tǒng)也可以不包括該詞性層次樹構(gòu)建裝置,而是使用已經(jīng)構(gòu)建的詞性層次樹來 對待標(biāo)注文本進(jìn)行詞性標(biāo)注。該詞性層次樹例如可以是手工構(gòu)建的層次樹。以及,該詞性 標(biāo)注系統(tǒng)可以僅包括詞性標(biāo)注模型訓(xùn)練裝置12來生成用于詞性標(biāo)注的詞性標(biāo)注模型13。詞性層次樹15將詞性以樹狀結(jié)構(gòu)分層組織。圖4a示出了詞性層次樹的一個示例 結(jié)構(gòu),在該示例中該詞性層次樹一共有4層,0,1,2,3,其中第2和第3層的節(jié)點(diǎn)數(shù)為6個。 詞性層次樹的葉節(jié)點(diǎn)對應(yīng)的是真實(shí)的詞性,其余節(jié)點(diǎn)是任意設(shè)定的虛類名。圖4b和4c示 出了圖4a的詞性層次樹的數(shù)據(jù)結(jié)構(gòu)的一個例子。
圖Ib示出了詞性標(biāo)注方法的流程圖。在S 101,詞性層次樹構(gòu)建裝置14構(gòu)建詞性層次樹15來層次化組織詞性標(biāo)注訓(xùn)練集中出現(xiàn)的標(biāo)注的詞性。在S102,詞性標(biāo)注模型訓(xùn)練 裝置12從詞性標(biāo)注訓(xùn)練集10中讀取已標(biāo)注的文本,并根據(jù)詞性層次樹15中的詞性結(jié)構(gòu)層 次信息,生成詞性標(biāo)注模型13,該詞性標(biāo)注模型13是層疊結(jié)構(gòu)的標(biāo)注模型。在S103,詞性 標(biāo)注裝置22利用生成的詞性標(biāo)注模型13對輸入的文本進(jìn)行詞性標(biāo)注。下面首先結(jié)合圖2和圖3對如何生成詞性層次樹15進(jìn)行描述。圖2是根據(jù)本發(fā)明的詞性層次樹構(gòu)建裝置14的示意結(jié)構(gòu)圖。其中詞性特征模板選 擇單元140用于選擇表征詞性的語法表現(xiàn)的詞性特征模板,可以有多種方式表征詞性的語 法,例如可以選取已標(biāo)注文本中的當(dāng)前詞的前詞,前詞詞性,后詞和后詞詞性這幾種特征來 作為詞性特征模板。特征向量構(gòu)建單元141用于根據(jù)選擇出的詞性特征模板,針對詞性標(biāo) 注訓(xùn)練集10中出現(xiàn)的每一個詞性構(gòu)建對應(yīng)的特征向量。相似度計(jì)算單元142用于利用構(gòu) 建的特征向量對詞性標(biāo)注訓(xùn)練集10中的任意兩個詞性計(jì)算其相似度。聚類單元143用于 根據(jù)計(jì)算的相似度使用傳統(tǒng)層次聚類算法對詞性標(biāo)注訓(xùn)練集10中的所有詞性進(jìn)行聚類, 并根據(jù)預(yù)定規(guī)則生成詞性層次樹15。圖3示出了詞性層次樹構(gòu)建裝置生成詞性層次樹的方法的流程圖。在S301,詞性 特征模板選擇單元140選擇詞性的特征作為詞性特征模板,例如選擇已標(biāo)注文本中的當(dāng)前 詞的前詞,前詞詞性,后詞和后詞詞性這幾種特征。對于香港/ns評出/V十/m大/a杰 出/a青年/n這一已標(biāo)注好的文本,選擇的當(dāng)前詞為“評出”,當(dāng)前詞詞性為“V”,其詞性特 征表示如下 在S302,特征向量構(gòu)建單元141針對詞性標(biāo)注訓(xùn)練集10中出現(xiàn)的所有詞性,根據(jù) 詞性特征模板構(gòu)建對應(yīng)的特征向量。例如,詞性標(biāo)注訓(xùn)練集中共有dz個詞,Iz個詞性,給 定上述選定的詞性的特征,那么該模塊為任意一個詞性χ構(gòu)建如下向量1) x<前詞 > 前詞向量_向量維數(shù)為dz,向量對應(yīng)元素表征χ詞性的詞前面出現(xiàn)特 定詞的頻次2) x<前詞詞性 > 前詞詞性向量_向量維數(shù)為lz,向量對應(yīng)元素表征χ詞性的詞前 面出現(xiàn)特定詞性的頻次3)x<后詞 > 后詞向量_向量維數(shù)為dz,向量對應(yīng)元素表征χ詞性的詞后面出現(xiàn)特 定詞的頻次4) x<后詞詞性 > 后詞詞性向量_向量維數(shù)為lz,向量對應(yīng)元素表征χ詞性的詞后 面出現(xiàn)特定詞性的頻次在S303,相似度計(jì)算單元142用于對詞性標(biāo)注訓(xùn)練集10中的任意兩個詞性根據(jù)下 列步驟計(jì)算其相似度。例如,對于詞性xl和詞性x2,1)首先分別計(jì)算兩個詞性(xl,x2)的對應(yīng)特征向量的相似度
Simc (xl< 前詞 >,x2< 前詞 ,Simc (xl<前詞詞性>,x2<前詞詞性>),Simc (xl< 后詞 >,x2< 后詞 ,Simc (xl<后詞詞性>,x2<后詞詞性>)
2)使用下面公式計(jì)算總體相似度Sim(xl,x2) = wl*Simc(xl< 前詞 >,x2< 前詞 >)+w2*Simc (xl< 前詞詞性 >,x2< 前詞詞性 >)+w3*Simc (xl< 后詞 >,x2< 后詞 >)+w4*Simc (xl<后詞詞性>,x2<后詞詞性>)其中 wl+w2+w3+w4 = 1在步驟S304,聚類單元143根據(jù)計(jì)算出的相似度利用層次聚類算法(例如, K-means聚類算法)來對所有詞性進(jìn)行聚類,并根據(jù)預(yù)定規(guī)則生成層次樹。在本發(fā)明中,該 預(yù)定規(guī)則可以是限定每層的節(jié)點(diǎn)數(shù)小于n(n為正整數(shù))。例如,η等于8。下面將結(jié)合圖5a和圖5b描述如何生成詞性標(biāo)注模型。圖5a是根據(jù)本發(fā)明的詞 性標(biāo)注模型訓(xùn)練裝置12的結(jié)構(gòu)圖。詞性標(biāo)注模型訓(xùn)練裝置12包括CRF模型訓(xùn)練語料構(gòu) 造單元121,CRF模型訓(xùn)練單元122和邏輯電路120。CRF模型訓(xùn)練語料構(gòu)造單元121根據(jù) 詞性層次樹15對從詞性標(biāo)注訓(xùn)練集10中讀取的訓(xùn)練文本進(jìn)行逐層逐節(jié)點(diǎn)地標(biāo)注。CRF模 型訓(xùn)練單元122根據(jù)CRF模型訓(xùn)練語料構(gòu)造單元121每次標(biāo)注的訓(xùn)練文本相應(yīng)地逐層逐節(jié) 點(diǎn)地訓(xùn)練CRF模型。邏輯電路120控制CRF模型訓(xùn)練語料構(gòu)造單元121和CRF模型訓(xùn)練單 元122進(jìn)行詞性標(biāo)注模型訓(xùn)練。邏輯電路120裝載有詞性層次樹的層次數(shù)目,并在CRF模 型訓(xùn)練語料構(gòu)造單元121和CRF模型訓(xùn)練單元122每層處理完成之后,將層數(shù)增加1,直到 對詞性層次樹的最后一層的所有節(jié)點(diǎn)結(jié)束處理。圖5b是詞性標(biāo)注模型訓(xùn)練裝置生成詞性標(biāo)注模型的方法的流程圖。該流程圖包 括一個雙層循環(huán)的嵌套訓(xùn)練方法。該方法采用自頂?shù)较碌挠?xùn)練模式。上一層的訓(xùn)練結(jié)果對 下一層有影響,同層之間的訓(xùn)練可以獨(dú)立進(jìn)行。假設(shè)詞性層次樹共有η層,第i層有Hii個 節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)是j。首先在S601,邏輯電路120將第i層初始賦值為0。在S602,邏輯電 路120將節(jié)點(diǎn)j賦值為1。之后在S603,CRF模型訓(xùn)練語料構(gòu)造單元121構(gòu)造<i,j>CRF模 型訓(xùn)練語料,將原始詞性標(biāo)注訓(xùn)練集10中的已標(biāo)注文本中的詞性標(biāo)注標(biāo)簽替換為該標(biāo)簽 在詞性層次樹中的當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)名稱。在S604,CRF模型訓(xùn)練單元122利用<i,j>CRF 模型訓(xùn)練語料和選擇的特征模板訓(xùn)練<i,j>CRF模型,其中,在i = 0時,CRF模型訓(xùn)練單元 122選擇的特征模板包括前后各兩個詞、當(dāng)前詞的前字和后字以及前后各兩個詞之間的共 現(xiàn)(co-occurrence);在i > 0時,除了使用第0層用到的特征模板之外,還使用包括上一層 標(biāo)注結(jié)果中的前后各兩個詞的詞性,以及詞性之間的共現(xiàn)、詞與詞性之間的共現(xiàn)的特征模 板。在S605,將j值增加1并在S606判斷j是否大于Hii,如果j小于Hii則繼續(xù)執(zhí)行S603, 否則在S607將i值增加1并執(zhí)行S602,直到已經(jīng)對詞性層次樹中的所有層的節(jié)點(diǎn)執(zhí)行了 S603和S604,從而訓(xùn)練得到可以應(yīng)用于大規(guī)模標(biāo)注集的層疊詞性標(biāo)注模型。例如,給定一個標(biāo)注完好的句子香港/ns評出/V十/m大/a杰出/a青年/n在第0層,構(gòu)造<0,DCRF模型訓(xùn)練語料。首先對上述句子重新標(biāo)注。參見圖4a示出的詞性層次樹,該O層第1個節(jié)點(diǎn)的子節(jié)點(diǎn)分別是“l(fā)abell”,“l(fā)abel2”,“l(fā)abel3”和 “l(fā)abel4”。而圖4a中的實(shí)際詞性“V”對應(yīng)到詞性層次樹中的第一層節(jié)點(diǎn)名稱是“l(fā)abell”, 那么所有在原始訓(xùn)練集中標(biāo)注為“V”的詞,都將重新標(biāo)注該詞為“l(fā)abell”。在第0層對上述句子重新標(biāo)注后,得到如下句子香港/label3評出/labell 十/label2 大/labell 杰出/labell青年/label3在0層,訓(xùn)練CRF模型。選擇的特征模板包括“香港”,“評出,,等詞的前后各兩個 詞、當(dāng)前詞的前字和后字以及前后各兩個詞之間的共現(xiàn)(共現(xiàn)指兩個詞在一定上下文中同 時出現(xiàn)的情況)。之后,在第1層對上述句子再次重新標(biāo)注。對第1層第1個節(jié)點(diǎn)<1,1>,進(jìn)行 <1,DCRF模型訓(xùn)練語料構(gòu)造。參見圖4a的詞性層次樹,由于<1,1>節(jié)點(diǎn)的子節(jié)點(diǎn)包括 “l(fā)abell 1,label 12”,所以,將0層詞性標(biāo)注為“l(fā)abell”的詞進(jìn)一步細(xì)標(biāo)為“l(fā)abel 11, label 12”,即當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)名稱集合對于0層標(biāo)注結(jié)果香港/label3評出/labell十/label2大/labell 杰出 /labell青年/label3,在<1,1>節(jié)點(diǎn)重標(biāo)后的訓(xùn)練語料為香港/label3評出/labell2 十/label2 大/labelll 杰出/labelll 青年 /label3之后進(jìn)行<1,1>節(jié)點(diǎn)CRF模型訓(xùn)練。其中選擇的特征模板除了第0層的特征 模板之外,還包括上一層標(biāo)注結(jié)果中的前后各兩個詞的詞性,以及詞性之間的共現(xiàn)、詞 與詞性之間的共現(xiàn)。例如,對于“評出”一詞,其前后各兩個詞“香港”和“十”的詞性 "Iabel3" “l(fā)abel2”,上述詞性之間的共現(xiàn)、詞與詞性之間的共現(xiàn)。類似地,對<1,2>節(jié)點(diǎn),<1,3>節(jié)點(diǎn),<1,4>節(jié)點(diǎn)分別地進(jìn)行上述的CRF模型訓(xùn)練預(yù) 料構(gòu)造和CRF模型訓(xùn)練。直到對所有層的所有節(jié)點(diǎn)執(zhí)行了 CRF模型訓(xùn)練語料構(gòu)造和CRF模 型訓(xùn)練。圖6a示出了詞性標(biāo)注裝置的結(jié)構(gòu)圖。參見圖6a,詞性標(biāo)注裝置22包括邏輯電路 222,CRF模型特征構(gòu)造單元220和CRF詞性標(biāo)注單元221。邏輯電路222根據(jù)層疊的詞性 標(biāo)注模型,控制CRF模型特征構(gòu)造單元220和CRF詞性標(biāo)注單元221進(jìn)行詞性標(biāo)注。CRF模 型特征構(gòu)造單元220在邏輯電路222的控制下,為待標(biāo)注文本應(yīng)用<i,j>CRF模型逐層逐節(jié) 點(diǎn)地構(gòu)造特征,CRF詞性標(biāo)注單元221在邏輯電路222的控制下根據(jù)特征構(gòu)造單元220每 次構(gòu)造的特征數(shù)據(jù),相應(yīng)地逐層逐節(jié)點(diǎn)地進(jìn)行詞性標(biāo)注。圖6b是詞性標(biāo)注裝置執(zhí)行層疊CRF詞性標(biāo)注方法的流程圖。假設(shè)詞性標(biāo)注模型共 有η層,第i層有Hii個節(jié)點(diǎn),當(dāng)前節(jié)點(diǎn)是j。首先在S901,邏輯電路222將第i層初始賦值 為0。在S902,邏輯電路222將節(jié)點(diǎn)j賦值為1。之后在S903,CRF模型特征構(gòu)造單元220 為應(yīng)用<i,j>CRF模型構(gòu)造特征數(shù)據(jù),根據(jù)訓(xùn)練詞性標(biāo)注模型過程中設(shè)定的特征模板,構(gòu)建 CRFs模型的輸入特征數(shù)據(jù),針對不同的層i,使用以下兩種不同的方法之一1) i等于0的時候,執(zhí)行CRF模型的特征模板填充過程,即,直接從輸入的待標(biāo)注文 本中提取相關(guān)的特征信息,并填充到模板,生成對應(yīng)的CRFs模型的輸入特征數(shù)據(jù)。2) i不等于0的時候, 除了 0層中獲取的相關(guān)的特征信息,還包括從利用i-Ι層CRF 模型對待標(biāo)注文本進(jìn)行標(biāo)注的結(jié)果中抽取對應(yīng)的特征信息,生成對應(yīng)的CRFs模型的輸入特征數(shù)據(jù)。在S904,基于獲得的特征數(shù)據(jù),利用詞性標(biāo)注模型10的<i,j>CRF模型對待標(biāo)注文本進(jìn)行標(biāo)注。在S905,將j值增加1并在S906判斷j是否大于Hii,如果j小于Hii則繼續(xù)執(zhí)行 S903,否則在S907將i值增加1并執(zhí)行S902,直到已經(jīng)對詞性層次樹中的所有層的節(jié)點(diǎn)執(zhí) 行了 S903和S904。由此通過逐層地對文本進(jìn)行詞性標(biāo)注,實(shí)現(xiàn)了大規(guī)模標(biāo)注集的詞性標(biāo) 注。下面給出一個簡單示例,來進(jìn)一步說明整個標(biāo)注過程給定一個待標(biāo)注文本北京入圍十大宜居城市。第0層(應(yīng)用<0,DCRFs模型)標(biāo)注后的結(jié)果為北京/label3 入圍/labell 十/label2 大/labell 宜居 /labell 城市/label3第1層(應(yīng)用所有該層的CRFs模型)1.通過 <1,DCRFs 模型得到北京/label3 入圍/labell2 十/label2 大 / Iabelll 宜居/labelll 城市/label32.應(yīng)用 <1,2>CRFs 模型......第1層結(jié)束后的標(biāo)注結(jié)果為北京/label32入圍/labell2 十/label21 大/labelll 宜居/labelll 城 市 /label31第2 層1.通過<2,DCRFs模型得到北京/label32入圍/labell2 十/label21 大/a 宜居/a 城市/label312.應(yīng)用 <2,DCRFs 模型......最終能夠得到完整的標(biāo)注結(jié)果北京/ns入圍/V十/m大/a宜居/a城市/n圖7a是本發(fā)明第二實(shí)施例的詞性標(biāo)注系統(tǒng)的示意結(jié)構(gòu)圖。與圖Ia所示的詞性標(biāo) 注系統(tǒng)相比較,該詞性標(biāo)注系統(tǒng)還包括評估裝置16,調(diào)整裝置17和測試集構(gòu)建裝置18。測 試集構(gòu)建裝置18用于從詞性標(biāo)注訓(xùn)練集10中隨機(jī)選擇一個詞性標(biāo)注文本集合作為待標(biāo)注 文本集合的測試集。評估裝置16用于對利用詞性標(biāo)注模型對待標(biāo)注的測試集進(jìn)行詞性標(biāo) 注后的結(jié)果進(jìn)行評估,即,根據(jù)測試的結(jié)果評測標(biāo)注精度。調(diào)整裝置17用于根據(jù)評估裝置 的評估結(jié)果對詞性層次樹構(gòu)建裝置14進(jìn)行調(diào)整,從而生成更優(yōu)性能的詞性層次樹。圖7b示出了詞性標(biāo)注系統(tǒng)執(zhí)行詞性標(biāo)注的方法的流程圖。參考圖7b,在S701,測 試集構(gòu)建裝置18從詞性標(biāo)注訓(xùn)練集10中隨機(jī)提取一個子集作為測試集。在S702,詞性標(biāo) 注系統(tǒng)利用訓(xùn)練好的詞性標(biāo)注模型13對測試集進(jìn)行詞性標(biāo)注。在S703,評估裝置16對標(biāo) 注詞性的測試集的精度進(jìn)行評估并將評估結(jié)果發(fā)送到調(diào)整裝置17。之后在S704,調(diào)整裝置 17根據(jù)評估結(jié)果判詞性標(biāo)注模型的性能,并在詞性標(biāo)注模型的性能不滿足預(yù)定條件時,執(zhí) 行S705,對詞性層次樹構(gòu)建裝置14中使用的Wl,W2,W3和W4的閾值進(jìn)行調(diào)整以改變聚類 結(jié)果。在S706調(diào)整裝置利用啟發(fā)式規(guī)則對聚類結(jié)果進(jìn)行調(diào)整。啟發(fā)式規(guī)則例如是“η”和 “ns”應(yīng)該分到不同的組中。圖8a是根據(jù)本發(fā)明第三實(shí)施例的詞性標(biāo)注系統(tǒng)的結(jié)構(gòu)圖。對于未登錄詞,由于訓(xùn)練語料中不存在對應(yīng)的訓(xùn)練數(shù)據(jù),因此對這類詞的標(biāo)注往往精度比較低,進(jìn)而影響整體標(biāo) 注精度。本發(fā)明的詞性標(biāo)注系統(tǒng)可以對未登陸詞的詞性進(jìn)行修正,從而提高系統(tǒng)詞性標(biāo)注 的整體精度。與圖Ia所示的詞性標(biāo)注系統(tǒng)相比較,該詞性標(biāo)注系統(tǒng)還包括未登陸詞詞性猜 測模型構(gòu)建裝置19和未登陸詞詞性修正裝置21。未登陸詞詞性猜測模型構(gòu)建裝置19用于 從現(xiàn)有的詞性標(biāo)注訓(xùn)練集10中學(xué)習(xí)構(gòu)詞規(guī)則,并基于學(xué)習(xí)的構(gòu)詞規(guī)則創(chuàng)建未登陸詞詞性 猜測模型20。未登陸詞詞性修正裝置21用于利用未登陸詞詞性猜測模型來對利用詞性標(biāo) 注模型13標(biāo)注詞性的文本進(jìn)行未登陸詞的詞性修正。圖8b示出了根據(jù)本發(fā)明第三實(shí)施例的詞性標(biāo)注方法。參考圖8b,在S801,未登陸 詞詞性猜測模型構(gòu)建裝置19首先對詞性標(biāo)注訓(xùn)練集中的詞進(jìn)行直接成分切分并對直接成 分的屬性進(jìn)行分析(即,對每一個詞性標(biāo)注訓(xùn)練集中的詞找出其直接成分,并對直接成分 的屬性進(jìn)行標(biāo)注)以得到詞成分序列。
下面對直接成分的定義進(jìn)行簡單解釋。構(gòu)成一個大單位的小單位稱之為大單位 的成分,相應(yīng)地直接構(gòu)成一個大單位的小單位稱為直接成分。詞性標(biāo)注訓(xùn)練集中的詞本身 屬于詞,而不是比詞更小的組成成分,所以直接成分及直接成分屬性分析不同于一般意義 上的詞語切分和詞性標(biāo)注,而是對每一個由兩字及兩個以上的字構(gòu)成的詞性標(biāo)注訓(xùn)練集中 的詞都切成比它低一級的單位,比如兩字詞,低一級的單位就是構(gòu)成該兩字詞的單個字符 (語素),而對于三字及三字以上的,則將它切分為字典中存在的詞(最大匹配)以及剩余 的單個語素,比如“科學(xué)技術(shù)部”,假定字典中存在“科學(xué)”,“技術(shù)”兩個詞,而不存在“科學(xué) 技術(shù)”,“技術(shù)部”等,那么它切分后就是“科學(xué)/技術(shù)/部”,假定詞典中存在“科學(xué)”,“技術(shù) 部”,“技術(shù)”等詞,那么切分后就是“科學(xué)/技術(shù)部”。因此,這里的直接成分可能是詞,也可 能是語素。直接成分的屬性主要指的是語法屬性,以詞性標(biāo)記的形式顯示,包括所有可能的 詞性標(biāo)記。表1給出“冷暴力、掃射”兩個詞的直接成分切分和屬性分析結(jié)果 表1.詞直接成分切分與直接成分屬性分析結(jié)果示例得到對應(yīng)的序列冷暴力一冷2a N_B暴力4n N_E掃射一掃2v V_B射2v V_E;對于未登錄詞為“冷射”,那么得到的詞成分序列為 冷2a射2v在S802,未登陸詞詞性猜測模型構(gòu)建裝置19選擇詞性特征模板。在S803,未登陸詞詞性猜測模型構(gòu)建裝置19利用選擇的詞性特征模板對生成的 詞成分序列進(jìn)行轉(zhuǎn)換,并通過已知的機(jī)器學(xué)習(xí)算法生成未登陸詞詞性猜測模型20。例如,利用未登陸詞詞性猜測模型20得到“冷射”整個詞的詞性POS (冷2aV_B,射2vV_E) = V。在S804,詞性標(biāo)注系統(tǒng)利用生成的未登陸詞詞性猜測模型20對基于詞性標(biāo)注模 型13標(biāo)注的文本中的未登陸詞進(jìn)行重新標(biāo)注。假設(shè)對于詞成分序列“掃2v V_B射2v V_E”,選擇的特征模板是//Part-of-speech of the constituent wordUOl % x[_l,2]//the former one constituent' s second featu re(/)(〃 /〃 denotes a η ull feature)U02 %x
//the current constituent' s second feature (a)//Length of the constituent wordU03 % x[l,l]//the next one constituentr s first feature (2,2)//The constituent word itselfU04 %x
//the current one constituent' s zero feature那么對詞成分序列“掃2v V_B射2v V_E”進(jìn)行轉(zhuǎn)換,將其轉(zhuǎn)換為CRF等機(jī)器學(xué)習(xí)方法的輸入數(shù)據(jù)if(T(-l,2) =' /' ) tag = ‘ V_B'if (Τ (0,2) =' ν' ) tag = ' V_B'if(T(l,l) =' 2' ) tag =' V_B'if (Τ (0,0)=,掃,)tag =,V_B,if(T(-l,2) =' v' ) tag =' V_E'if (T (0,2) =' v' ) tag = ' V_E'if(T(l,l) =' 2' ) tag =' V_E'if (T(0,0)=,射,)tag =,V_E,雖然利用生成的未登陸詞詞性猜測模型20對基于詞性標(biāo)注模型13最終標(biāo)注得到 的文本中的未登陸詞進(jìn)行重新標(biāo)注,但是也可以利用生成的未登陸詞詞性猜測模型20對 基于詞性標(biāo)注模型13在當(dāng)前層標(biāo)注的文本中的未登陸詞進(jìn)行重新標(biāo)注,即用以修改當(dāng)前 層的詞性標(biāo)記結(jié)果,之后用于下一層的特征數(shù)據(jù)。本發(fā)明以中文文本為例,對具體實(shí)施方式
進(jìn)行了說明,但是很清楚地,本發(fā)明也可 以同樣用于對英語、日語以及其它語言的詞性標(biāo)注。盡管已經(jīng)參照具體實(shí)施例,對本發(fā)明進(jìn)行了描述,但本發(fā)明不應(yīng)當(dāng)由這些實(shí)施例 來限定,而應(yīng)當(dāng)僅由所附權(quán)利要求來限定。應(yīng)當(dāng)清楚,在不偏離本發(fā)明的范圍和精神的前提 下,本領(lǐng)域普通技術(shù)人員可以對實(shí)施例進(jìn)行改變或修改。
權(quán)利要求
一種詞性標(biāo)注系統(tǒng),包括詞性標(biāo)注模型訓(xùn)練裝置,用于基于詞性層次樹利用詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本來逐層逐節(jié)點(diǎn)地訓(xùn)練詞性標(biāo)注模型;以及詞性標(biāo)注裝置,用于使用訓(xùn)練的詞性標(biāo)注模型對待標(biāo)注的文本進(jìn)行詞性標(biāo)注。
2.如權(quán)利要求1所述的詞性標(biāo)注系統(tǒng),其中詞性標(biāo)注模型訓(xùn)練裝置包括CRF模型訓(xùn)練語料構(gòu)造單元,用于利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第 一文本逐層逐節(jié)點(diǎn)地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練單元,用于利用CRF模型訓(xùn)練語料構(gòu)造單元每次標(biāo)注的第二文本相應(yīng)地 逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性標(biāo)注模型。
3.如權(quán)利要求2所述的詞性標(biāo)注系統(tǒng),其中CRF模型訓(xùn)練語料構(gòu)造單元通過將第一文 本中的標(biāo)注詞性替換為與該詞性在詞性層次樹中的位置相對應(yīng)的當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)名稱 來行逐層逐節(jié)點(diǎn)地標(biāo)注。
4.如權(quán)利要求3所述的詞性標(biāo)注系統(tǒng),其中CRF模型訓(xùn)練單元以下列方式選擇特征模 板來逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型(a)當(dāng)前層是第O層,特征模板包括第二文本中每一個詞的前后各兩個詞、當(dāng)前詞的前 字和后字以及前后各兩個詞之間的共現(xiàn);和(b)當(dāng)前層不是第O層,特征模板包括第O層選擇的特征模板和上一層的第二文本中的 每一個詞的前后各兩個詞的詞性,以及詞性之間的共現(xiàn)、詞與詞性之間的共現(xiàn)。
5.如權(quán)利要求2所述的詞性標(biāo)注系統(tǒng),其中詞性標(biāo)注裝置包括CRF模型特征構(gòu)造單元,用于針對待標(biāo)注文本為應(yīng)用CRF模型逐層逐節(jié)點(diǎn)地構(gòu)造特征 數(shù)據(jù);以及CRF詞性標(biāo)注單元,用于根據(jù)特征數(shù)據(jù)構(gòu)造單元每次構(gòu)造的特征數(shù)據(jù)相應(yīng)地逐層逐節(jié) 點(diǎn)地進(jìn)行詞性標(biāo)注。
6.如權(quán)利要求5所述的詞性標(biāo)注系統(tǒng),其中CRF模型特征構(gòu)造單元按照下列方式構(gòu)建 CRF模型的特征數(shù)據(jù)(a)當(dāng)前層是第O層,從待標(biāo)注文本中提取用于填充在訓(xùn)練CRF模型時第O層選擇的特 征模板的特征數(shù)據(jù);和(b)當(dāng)前層不是第O層,使用第O層的特征數(shù)據(jù)以及從利用上一層CRFs模型對待標(biāo)注 文本進(jìn)行標(biāo)注后的第二文本中抽取特征數(shù)據(jù)。
7.如權(quán)利要求1所述的詞性標(biāo)注系統(tǒng),還包括詞性層次樹構(gòu)建裝置,用于通過對詞性標(biāo)注訓(xùn)練集中的已標(biāo)注文本的詞性之間的關(guān)系 進(jìn)行分析來構(gòu)建詞性層次樹。
8.如權(quán)利要求7所述的詞性標(biāo)注系統(tǒng),其中詞性層次樹構(gòu)建裝置包括詞性特征模板選擇單元,用于選擇表征詞性特征的特征模板;特征向量構(gòu)建單元,用于根據(jù)選擇的特征模板,為詞性標(biāo)注訓(xùn)練集中的詞性構(gòu)建對應(yīng) 的特征向量;相似度計(jì)算單元,用于利用特征向量計(jì)算詞性之間的相似度;以及聚類單元,用于根據(jù) 相似度對詞性進(jìn)行聚類,以生成詞性層次樹。
9.如權(quán)利要求8所述的詞性標(biāo)注系統(tǒng),還包括測試集構(gòu)造裝置,用于從詞性標(biāo)注訓(xùn)練集中隨機(jī)選擇已標(biāo)注詞性的文本集合作為測試集;評估裝置,用于對利用詞性標(biāo)注模型對來自測試集中的待標(biāo)注文本進(jìn)行詞性標(biāo)注的結(jié)果進(jìn)行評估;以及調(diào)整裝置,用于根據(jù)評估結(jié)果對詞性層次樹進(jìn)行調(diào)整。
10.如權(quán)利要求9所述的詞性標(biāo)注系統(tǒng),其中調(diào)整裝置對詞性層次樹構(gòu)建裝置在計(jì)算 詞性之間的相似度時使用的閾值進(jìn)行調(diào)整。
11.如權(quán)利要求1或2所述的詞性標(biāo)注系統(tǒng),還包括未登陸詞詞性猜測模型構(gòu)造裝置,用于從詞性標(biāo)注訓(xùn)練集中學(xué)習(xí)構(gòu)詞規(guī)則并構(gòu)造未登 陸詞詞性猜測模型;以及未登陸詞詞性修正裝置,用于使用未登陸詞詞性猜測模型對未登陸詞進(jìn)行詞性標(biāo)注, 并對使用詞性標(biāo)注模型標(biāo)注詞性的未登陸詞的詞性進(jìn)行修正。
12.—種詞性標(biāo)注方法,包括詞性標(biāo)注模型訓(xùn)練步驟,基于詞性層次樹利用詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本來 逐層逐節(jié)點(diǎn)地訓(xùn)練詞性標(biāo)注模型;以及詞性標(biāo)注步驟,使用訓(xùn)練的詞性標(biāo)注模型對待標(biāo)注的文本進(jìn)行詞性標(biāo)注。
13.如權(quán)利要求12所述的詞性標(biāo)注方法,其中詞性標(biāo)注模型訓(xùn)練步驟包括CRF模型訓(xùn)練語料構(gòu)造步驟,利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文 本逐層逐節(jié)點(diǎn)地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練步驟,利用CRF模型訓(xùn)練語料構(gòu)造步驟每次標(biāo)注的第二文本相應(yīng)地逐層 逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性標(biāo)注模型。
14.如權(quán)利要求13所述的詞性標(biāo)注方法,其中CRF模型訓(xùn)練語料構(gòu)造步驟包括通過將 第一文本中的標(biāo)注詞性替換為與該詞性在詞性層次樹中的位置相對應(yīng)的當(dāng)前節(jié)點(diǎn)的子節(jié) 點(diǎn)名稱來行逐層逐節(jié)點(diǎn)地標(biāo)注的步驟。
15.如權(quán)利要求14所述的詞性標(biāo)注方法,其中CRF模型訓(xùn)練步驟以下列方式選擇特征 模板來逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型(a)當(dāng)前層是第0層,特征模板包括第二文本中每一個詞的前后各兩個詞、當(dāng)前詞的前 字和后字以及前后各兩個詞之間的共現(xiàn);和(b)當(dāng)前層不是第0層,特征模板包括第0層選擇的特征模板和上一層的第二文本中的 每一個詞的前后各兩個詞的詞性,以及詞性之間的共現(xiàn)、詞與詞性之間的共現(xiàn)。
16.如權(quán)利要求13所述的詞性標(biāo)注方法,其中詞性標(biāo)注步驟包括CRF模型特征構(gòu)造步驟,針對待標(biāo)注文本為應(yīng)用CRF模型逐層逐節(jié)點(diǎn)地構(gòu)造特征數(shù)據(jù);以及CRF詞性標(biāo)注步驟,根據(jù)特征數(shù)據(jù)構(gòu)造步驟每次構(gòu)造的特征數(shù)據(jù)相應(yīng)地逐層逐節(jié)點(diǎn)地 進(jìn)行詞性標(biāo)注。
17.如權(quán)利要求16所述的詞性標(biāo)注方法,其中CRF模型特征構(gòu)造步驟按照下列方式構(gòu) 構(gòu)造CRF模型的特征數(shù)據(jù)(1)當(dāng)前層是第0層,從待標(biāo)注文本中提取用于填充在訓(xùn)練CRF模型時第0層選擇的特 征模板的特征數(shù)據(jù);和(2)當(dāng)前層不是第O層,使用第O層的特征數(shù)據(jù)以及從利用上一層CRFs模型對待標(biāo)注 文本進(jìn)行標(biāo)注后的第二文本中抽取特征數(shù)據(jù)。
18.如權(quán)利要求12所述的詞性標(biāo)注方法,還包括詞性層次樹構(gòu)建步驟,通過對詞性標(biāo)注訓(xùn)練集中的已標(biāo)注文本的詞性之間的關(guān)系進(jìn)行 分析來構(gòu)建詞性層次樹。
19.如權(quán)利要求18所述的詞性標(biāo)注方法,其中詞性層次樹構(gòu)建步驟包括詞性特征模板選擇步驟,選擇表征詞性特征的特征模板;特征向量構(gòu)建步驟,根據(jù)選擇的特征模板,為詞性標(biāo)注訓(xùn)練集中的詞性構(gòu)建對應(yīng)的特 征向量;相似度計(jì)算步驟,利用特征向量計(jì)算詞性之間的相似度;以及聚類步驟,根據(jù)相似度對詞性進(jìn)行聚類,以生成詞性層次樹。
20.如權(quán)利要求19所述的詞性標(biāo)注方法,還包括測試集構(gòu)造步驟,從詞性標(biāo)注訓(xùn)練集中隨機(jī)選擇已標(biāo)注詞性的文本集合作為測試集;評估步驟,對利用詞性標(biāo)注模型對來自測試集中的待標(biāo)注文本進(jìn)行詞性標(biāo)注的結(jié)果進(jìn) 行評估;以及調(diào)整步驟,根據(jù)評估結(jié)果對詞性層次樹進(jìn)行調(diào)整。
21.如權(quán)利要求20所述的詞性標(biāo)注方法,其中調(diào)整步驟包括對詞性層次樹構(gòu)建步驟在 計(jì)算詞性之間的相似度時使用的閥值進(jìn)行調(diào)整的步驟。
22.如權(quán)利要求12或13所述的詞性標(biāo)注方法,還包括未登陸詞詞性猜測模型構(gòu)造步驟,從詞性標(biāo)注訓(xùn)練集中學(xué)習(xí)構(gòu)詞規(guī)則并構(gòu)造未登陸詞 詞性猜測模型;以及未登陸詞詞性修正步驟,使用未登陸詞詞性猜測模型對未登陸詞進(jìn)行詞性標(biāo)注,并對 使用詞性標(biāo)注模型標(biāo)注詞性的未登陸詞的詞性進(jìn)行修正。
23.一種用于訓(xùn)練詞性標(biāo)注模型的裝置,包括CRF模型訓(xùn)練語料構(gòu)造單元,用于利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第 一文本逐層逐節(jié)點(diǎn)地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練單元,用于利用CRF模型訓(xùn)練語料構(gòu)造單元每次標(biāo)注的第二文本相應(yīng)地 逐層逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性標(biāo)注模型。
24.一種用于訓(xùn)練詞性標(biāo)注模型的方法,包括CRF模型訓(xùn)練語料構(gòu)造步驟,利用詞性層次樹將從詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文 本逐層逐節(jié)點(diǎn)地標(biāo)注為第二文本來構(gòu)造CRF模型訓(xùn)練語料;以及CRF模型訓(xùn)練步驟,利用CRF模型訓(xùn)練語料構(gòu)造步驟每次標(biāo)注的第二文本相應(yīng)地逐層 逐節(jié)點(diǎn)地訓(xùn)練CRF模型以得到詞性標(biāo)注模型。
全文摘要
本發(fā)明涉及一種詞性標(biāo)注系統(tǒng),包括詞性標(biāo)注模型訓(xùn)練裝置,用于基于詞性層次樹利用詞性標(biāo)注訓(xùn)練集中已標(biāo)注的第一文本來逐層逐節(jié)點(diǎn)地訓(xùn)練詞性標(biāo)注模型;以及詞性標(biāo)注裝置,用于使用訓(xùn)練的詞性標(biāo)注模型對待標(biāo)注的文本進(jìn)行詞性標(biāo)注。本發(fā)明還涉及一種詞性標(biāo)注方法、一種用于訓(xùn)練詞性標(biāo)注模型的裝置及其方法。根據(jù)本發(fā)明的系統(tǒng)和方法,實(shí)現(xiàn)了大規(guī)模標(biāo)注集中的詞性的標(biāo)注并提高了詞性標(biāo)注的精度。
文檔編號G06F17/27GK101866337SQ20091013271
公開日2010年10月20日 申請日期2009年4月14日 優(yōu)先權(quán)日2009年4月14日
發(fā)明者沈國陽, 胡長建, 趙凱, 邱立坤 申請人:日電(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1