亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

詞性標(biāo)注模型訓(xùn)練裝置、詞性標(biāo)注系統(tǒng)及其方法

文檔序號:6461606閱讀:259來源:國知局
專利名稱:詞性標(biāo)注模型訓(xùn)練裝置、詞性標(biāo)注系統(tǒng)及其方法
技術(shù)領(lǐng)域
本發(fā)明涉及文本信息處理領(lǐng)域,具體地,涉及一種詞性標(biāo)注模型訓(xùn) 練裝置及其方法, 一種詞性標(biāo)注系統(tǒng)及其方法。
背景技術(shù)
隨著互聯(lián)網(wǎng)的廣泛普及以及社會的日益信息化,文本信息越來越 多,對應(yīng)的文本信息處理的社會需求越來越大,人們越來越強(qiáng)烈地希 望用自然語言同計(jì)算機(jī)交流,并希望用自動化的手段處理海量的文本 信息。為了更好地處理文本信息,人們需要積累大量的語言數(shù)據(jù)資源, 其中包括詞典。作為處理文本的重要工具-詞典,往往是由人工編纂的, 詞典的主要組成包括詞及其屬性,目前開發(fā)的未登錄詞(文本中很多 詞不在現(xiàn)有詞典中,這些詞相對于現(xiàn)有詞典稱為未登錄詞)識別算法 能夠有效地從語境中提取未登錄詞,當(dāng)對未登錄詞的屬性標(biāo)注還是一 個(gè)相對新的研究課題。如果能夠依據(jù)現(xiàn)存的文本信息,對未登錄詞屬 性進(jìn)行準(zhǔn)確標(biāo)注,那么該技術(shù)將有助于實(shí)現(xiàn)詞典的自動編纂,也畢竟 促進(jìn)文本信息處理的發(fā)展。
在分詞技術(shù)中,對于未登錄詞的切分錯(cuò)誤極大地影響到整體分詞 的召回率,進(jìn)一步會影響到后續(xù)語法以及語義理解的準(zhǔn)確度,給信息 處理造成一定的困難。因此對未登錄詞的識別和對其的屬性自動標(biāo)注 成為兩個(gè)待解決的問題。本發(fā)明關(guān)注后者即對未登錄詞的屬性自動標(biāo) 注,并主要針對未登錄詞的詞性自動標(biāo)注為研究對象。 未登錄詞詞性自動標(biāo)注的必要性
1) 字典構(gòu)造時(shí)需要對未登錄詞標(biāo)注詞性。這項(xiàng)工作可以人為,但是采
用機(jī)器自動標(biāo)注、人校正的方式可以減輕人的負(fù)擔(dān);
2) 對某些在線應(yīng)用是必要的。例如關(guān)鍵詞提取(名詞可以是關(guān)鍵詞,形容詞不行)。
對于上述問題,業(yè)界存在一些相關(guān)解決方案,例如
專利CN1369877中給出一個(gè)新詞詞類(詞性)猜測的方法。該專利首
先為新詞中每一個(gè)字符確定一個(gè)分離概率,該概率描述在一個(gè)長度和 該多字符詞一樣長的并且具有一定特定此類的詞中可在該字符的當(dāng)前
位置上發(fā)現(xiàn)該字符的似然性。例如對于一個(gè)雙字符詞"AB",該專利 會為字符"A"確定出現(xiàn)在雙字符名詞中的第一字符出的第一概率, 出現(xiàn)在雙字符動詞的第一字符的第二概率以及出現(xiàn)在雙字符形容詞的 第一字符的第三概率。然后在詞類基上組合各字符的概率以便為每種 詞類形成一個(gè)分離中概率,基于該總概率對一個(gè)閾值比較,把概率超 過該閾值的每種詞類增加為該多字符詞的可能詞類。
文獻(xiàn)[Lu, X.F. Hybrid Methods for POS Guessing of Chinese Unknown Words. Proceedings of the ACL Student Research Workshop, pages l-6]基于人工創(chuàng)建的規(guī)則(這些規(guī)則是分別為不同長度的多字符 詞,依據(jù)中文詞的詞法構(gòu)成而創(chuàng)建,比如多字符詞"AB",如果A二B, 且A是名詞,AB是名詞)來進(jìn)行未登錄詞的詞性判斷。
目前的技術(shù)沒有能有效地解決對未登錄詞的詞性自動標(biāo)注問題, 其中專利CN1369877無法對存在字符分離概率為零的未登錄詞給出 合理詞性判斷,另外該詞性標(biāo)注的準(zhǔn)確度取決于選用的詞典,而文獻(xiàn) [Lu, X.F. Hybrid Methods for POS Guessing of Chinese Unknown Words-Proceedings of the ACL Student Research Workshop, pages 1-6]對應(yīng)的 方法Recall(20。/。)比較低。

發(fā)明內(nèi)容
本發(fā)明主要利用現(xiàn)有詞典以及外部媒介對未登錄詞進(jìn)行詞性標(biāo) 注。本發(fā)明可以自動從現(xiàn)有詞典中抽取構(gòu)詞規(guī)則(構(gòu)詞直接成分,直 接成分屬性和直接成分關(guān)系),并基于構(gòu)詞規(guī)則構(gòu)造詞性標(biāo)注模型,基 于詞性標(biāo)注模型對未登錄詞詞性進(jìn)行標(biāo)注,并計(jì)算對應(yīng)的可信度。然 后對于低可信度的詞性標(biāo)注,利用外部媒介抽取上下文并進(jìn)行分析,對這些詞性標(biāo)注進(jìn)行修正,最終給出準(zhǔn)確度較高的詞性標(biāo)注?;跇?gòu) 詞規(guī)則可以從本質(zhì)上分析詞的外在展現(xiàn)屬性,因此本方法能夠有效地 提高召回率,對于長登錄詞也同樣能夠給出合理的詞性標(biāo)注,同時(shí)對 詞典的依賴性較弱,有很好的穩(wěn)定性。另外由于本發(fā)明采用自動方法 抽取構(gòu)詞規(guī)則,并采用多種特征來訓(xùn)練學(xué)習(xí),因此能夠?qū)崿F(xiàn)高準(zhǔn)確度 的詞性標(biāo)注。
根據(jù)本發(fā)明第一方面,提出了一種詞性標(biāo)注模型訓(xùn)練裝置,包括 直接成分分析單元,用于對詞進(jìn)行直接成分分析,以獲得直接成分、 其屬性以及位置關(guān)系;轉(zhuǎn)換單元,用于將直接成分分析的結(jié)果轉(zhuǎn)換為 訓(xùn)練數(shù)據(jù);機(jī)器學(xué)習(xí)單元,用于對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從 而生成詞性標(biāo)注模型。
根據(jù)本發(fā)明第二方面,提出了一種詞性標(biāo)注模型訓(xùn)練方法,包括 直接成分分析步驟,對詞進(jìn)行直接成分分析,以獲得直接成分、其屬
性以及位置關(guān)系;轉(zhuǎn)換步驟,將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 以及機(jī)器學(xué)習(xí)步驟,對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性 標(biāo)注模型。
根據(jù)本發(fā)明第三方面,提出一種詞性標(biāo)注系統(tǒng),包括詞性標(biāo)注
模型訓(xùn)練裝置,用于對詞執(zhí)行直接成分分析以訓(xùn)練生成詞性標(biāo)注模型;
以及基于模型的詞性標(biāo)注裝置,用于利用詞性標(biāo)注模型對未登錄詞進(jìn)
行詞性標(biāo)注。
根據(jù)本發(fā)明第四方面,提出一種詞性標(biāo)注方法,包括詞性標(biāo)注
模型訓(xùn)練步驟,對詞執(zhí)行直接成分分析以訓(xùn)練生成詞性標(biāo)注模型;以
及基于模型的詞性標(biāo)注步驟,利用詞性標(biāo)注模型對未登錄詞進(jìn)行詞性標(biāo)注。
根據(jù)本發(fā)明第五方面,提出一種詞性標(biāo)注系統(tǒng),包括基于模型 的詞性標(biāo)注裝置,用于利用詞性標(biāo)注模型對未登錄詞進(jìn)行第一詞性標(biāo) 注;以及基于可信度的詞性標(biāo)注裝置,用于利用可信度模型獲取未登 錄詞的詞性標(biāo)注的可信度,并對可信度小于預(yù)定閾值的未登錄詞進(jìn)行 第二詞性標(biāo)注。
根據(jù)本發(fā)明第六方面,提出一種詞性標(biāo)注方法,包括基于模型
10的詞性標(biāo)注步驟,利用詞性標(biāo)注模型對未登錄詞進(jìn)行第一詞性標(biāo)注; 以及基于可信度的詞性標(biāo)注步驟,利用可信度模型獲取未登錄詞的詞 性標(biāo)注的可信度,并對可信度小于預(yù)定閾值的未登錄詞進(jìn)行第二詞性 標(biāo)注。
本發(fā)明獲得如下有益效果
提高了未登錄詞詞性標(biāo)注的召回率,特別對長的未登錄詞能夠給 出合理的詞性標(biāo)注;
解決了自動從現(xiàn)有詞典中抽取構(gòu)詞規(guī)則,分析較多構(gòu)詞特征,實(shí) 現(xiàn)高準(zhǔn)確度詞性標(biāo)注的難題;
從詞典中抽取構(gòu)詞規(guī)律,從本質(zhì)上分析詞的外在語法屬性,降低對 特定詞典的依賴,方法穩(wěn)定性較好。


圖la是示出了本發(fā)明的詞性標(biāo)注系統(tǒng)的第一實(shí)施例的示意圖lb是示出了本發(fā)明的詞性標(biāo)注方法的第一實(shí)施例的流程圖2a是示出了本發(fā)明的詞性標(biāo)注系統(tǒng)第二實(shí)施例的示意圖2b是示出了本發(fā)明的詞性標(biāo)注方法的第二實(shí)施例的流程圖3a和3b示出了詞典的示意圖4a示出了本發(fā)明的詞性標(biāo)注模型訓(xùn)練裝置的示意圖; 圖4b示出了本發(fā)明的詞性標(biāo)準(zhǔn)模型訓(xùn)練方法的流程圖; 圖5a是示出了詞典語義擴(kuò)展裝置的示意圖; 圖5b是示出了詞典語義擴(kuò)展方法的流程圖6a是示出了本發(fā)明的可信度模型生成裝置的第一實(shí)施例的示意圖6b是示出了本發(fā)明的生成可信度模型的方法的第一實(shí)施例的流程
圖6c是示出了本發(fā)明的可信度模型生成裝置的第二實(shí)施例的示意圖6d是示出了本發(fā)明的生成可信度模型的方法的第二實(shí)施例的流程
圖7a是示出了本發(fā)明的基于可信度的詞性標(biāo)注裝置的示意圖; 圖7b是示出了本發(fā)明的基于可信度的詞性標(biāo)注方法的流程圖。
具體實(shí)施例方式
下面,將參考附圖描述本發(fā)明的優(yōu)選實(shí)施例。在附圖中,相同的 元件將由相同的參考符號或數(shù)字表示。此外,在本發(fā)明的下列描述中, 將省略對已知功能和配置的具體描述,以避免使本發(fā)明的主題不清楚。
圖la是示出了本發(fā)明的詞性標(biāo)注系統(tǒng)的第一實(shí)施例的示意圖。其 中左邊虛框示出了詞性標(biāo)注模型訓(xùn)練設(shè)備IO,而右邊虛框示出了詞性 標(biāo)注設(shè)備20。詞性標(biāo)注模型訓(xùn)練設(shè)備10包括詞典1,詞典語義擴(kuò)展裝置 2,詞性標(biāo)注模型訓(xùn)練裝置3,詞性標(biāo)注模型4;詞性標(biāo)注設(shè)備20包括輸 入裝置6,基于模型的詞性標(biāo)注裝置7以及輸出裝置11。其中詞典l用于 存儲待處理語言的基本詞條,即,包括詞以及詞的其它相關(guān)屬性;詞 典語義擴(kuò)展裝置2用于對詞典的語義擴(kuò)展提供支持,生成擴(kuò)充詞,以彌 補(bǔ)詞典收詞不足的情況,擴(kuò)充詞可以看作是詞典的一部分;詞性標(biāo)注 模型訓(xùn)練裝置3用于讀取詞典中的詞條(可以包括擴(kuò)充詞),以進(jìn)行特 征提取與特征分析轉(zhuǎn)化,最終通過機(jī)器學(xué)習(xí)訓(xùn)練生成詞性標(biāo)注模型4, 詞性標(biāo)注設(shè)備20利用該詞性標(biāo)注模型4可以對未登錄詞的詞性進(jìn)行標(biāo) 注。輸入裝置6用于接收輸入的未登錄詞,可以人工輸入也可以通過接 口從別的系統(tǒng)導(dǎo)入;基于模型的詞性標(biāo)注裝置7用于利用標(biāo)注模型訓(xùn)練 設(shè)備生成的詞性標(biāo)注模型4來對輸入的未登錄詞進(jìn)行標(biāo)注;輸出裝置11
用于輸出標(biāo)注詞性的未登錄詞。
圖lb是示出了根據(jù)本發(fā)明第一實(shí)施例的詞性標(biāo)注方法的流程圖。 首先,在SIOI,輸入裝置6輸入未登錄詞。在S102,利用詞性標(biāo)注模 型訓(xùn)練裝置3生成的詞性標(biāo)注模型4,基于模型的詞性標(biāo)注裝置7對未登 錄詞進(jìn)行詞性標(biāo)注。之后,在S103,輸出裝置ll輸出已經(jīng)標(biāo)注詞性的 未登錄詞。
下面將結(jié)合圖4a和4b來描述詞性標(biāo)注模型訓(xùn)練裝置如何根據(jù)訓(xùn) 練詞性標(biāo)注模型來標(biāo)注詞性。詞性標(biāo)注模型訓(xùn)練裝置需要對詞典中的 詞執(zhí)行特征提取和特征分析轉(zhuǎn)化。 一般地,詞典收錄了待處理語言核 心詞匯, 一般規(guī)模在5萬以上。詞典可以包括一個(gè)詞語的目錄,并對目 錄中的每一個(gè)詞語都標(biāo)注了相應(yīng)的詞性,有些還給出其他相關(guān)信息,例如詞法或者語義信息,圖3a示出了字典的數(shù)據(jù)結(jié)構(gòu),圖3b示出了字
典的詞的示例。
詞性標(biāo)注模型訓(xùn)練裝置可以采用任意一種機(jī)器學(xué)習(xí)模型進(jìn)行詞
性標(biāo)注模型訓(xùn)練。機(jī)器學(xué)習(xí)大體可以分為兩類第一為基于分類器的,
比如決策樹、Bayes方法、支持向量機(jī)(SVM),第二類是基于馬爾可夫 模型的,比如HMM (Hiden Markov model,隱馬爾可夫)、MEMM (Maximum Entropy Markov Model , 最大熵馬爾可夫)、CRF (conditional random fields, 條件隨機(jī)域)。
本發(fā)明以CRF (條件隨機(jī)域)模型為例,說明該詞性標(biāo)注模型訓(xùn) 練裝置。參考圖4a以及圖la,詞性標(biāo)注模型訓(xùn)練裝置包括直接成分分 析單元301,用于將詞典中的詞以及詞典語義擴(kuò)展裝置2的擴(kuò)充詞進(jìn)行 直接成分切分、直接成分屬性以及位置關(guān)系分析;特征模板選擇單元 304,用于選擇特征模板;CRF轉(zhuǎn)換單元302,用于借助于特征模板選 擇單元304選擇的特征模板對直接成分分析單元301的分析結(jié)果進(jìn)行特 征轉(zhuǎn)換,CRF機(jī)器學(xué)習(xí)單元303,用于利用CRF機(jī)器學(xué)習(xí)算法對特征轉(zhuǎn) 換的結(jié)果進(jìn)行學(xué)習(xí),生成詞性標(biāo)注模型。需要注意的是,如果采用其 它的機(jī)器學(xué)習(xí)方法,則該詞性標(biāo)注模型訓(xùn)練裝置可以不需要使用特征 模板,從而不包括特征模板選擇單元304。
圖4b示出了根據(jù)本發(fā)明的詞性標(biāo)注模型訓(xùn)練方法的流程圖。 首先,在S306,直接成分分析單元301對詞典的詞(可以包括擴(kuò) 充詞)進(jìn)行直接成分分析,即進(jìn)行直接成分切分、直接成分屬性以及 位置關(guān)系分析。
下面將解釋直接成分的含義。構(gòu)成一個(gè)大單位的小單位稱之為大 單位的成分,相應(yīng)地直接構(gòu)成一個(gè)大單位的小單位稱為直接成分。對 詞典詞進(jìn)行直接成分分析及直接成分屬性分析就是對每一個(gè)詞典詞都 找到它的直接成分,并標(biāo)注直接成分的屬性。詞典詞本身屬于詞,而 不是比詞更小的組成成分,所以此處的直接成分切分及直接成分屬性 分析不同于一般意義上的詞語切分和詞性標(biāo)注,而是對每一個(gè)由兩字 及兩個(gè)以上的字構(gòu)成的詞典詞都切成比它低一級的單位(直接成分切 分),比如兩字詞,低一級的單位就是構(gòu)成該兩字詞的單個(gè)字符(語素),
13而對于三字及三字以上的,則將它切分為字典中存在的詞以及剩余的 單個(gè)語素,比如"科學(xué)技術(shù)部",假定字典中存在"科學(xué)","技術(shù)"兩 個(gè)詞,而不存在"科學(xué)技術(shù)","技術(shù)部"等,那么它切分后的直接成 分就是"科學(xué)/技術(shù)/部",假定詞典中存在"科學(xué)","技術(shù)部","技術(shù)" 等詞,那么切分后的直接成分就是"科學(xué)/技術(shù)部"(低一級的單位), 而不是切分為"科學(xué)/技術(shù)/部"。因此,這里的直接成分可能是詞,也 可能是語素。直接成分的屬性主要指的是語法屬性,以詞性標(biāo)記的形 式顯示,包括所有可能的詞性標(biāo)記。對擴(kuò)充詞執(zhí)行的直接成分分析、 直接成分屬性以及位置分析與對詞典的相同。下表給出直接成分分析單元301執(zhí)行直接成分切分、屬性分析、位 置分析的一個(gè)示例。其中"灌渠、灌水、科學(xué)技術(shù)部"三個(gè)詞的直接 成分切分、屬性和位置分析結(jié)果如下所示直接成分直接成分長度 (字節(jié))直接成分屬性灌2V渠2N灌2V水2N科學(xué)4N技術(shù)4N部2N在S307,特征模板選擇單元304選擇執(zhí)行CRF轉(zhuǎn)化所需的特征模板,該特征模板是根據(jù)直接成分及其屬性選擇特征,然后利用現(xiàn)有的 CRF特征模板定制得到的,特征模板選擇單元304將該特征模板提供給 CRF轉(zhuǎn)換單元302。特征模板可以涉及待標(biāo)注直接成分自身及前后若干 個(gè)直接成分的若干個(gè)屬性。以下是4個(gè)特征模板的示例,這4個(gè)模板涉及待標(biāo)注直接成分自身及前后各一個(gè)直接成分的三種屬性
〃Part-of-speech of the constituent word (直接成分的詞性) U01:%x[-1,2] 〃 the former one constituent's second feature(/)(、V〃 denotes a null feature)(前一個(gè)直接成分的第二特征(/) ("/"表示空 特征)
U02:%x
〃the current constituent's second feature(a)(當(dāng)前直 接成分的第二特征(a))
〃Length of the constituent word (直接成分詞的長度)
U03:%x[l,l〗〃the next one constituent's first feature(2,2)(下一個(gè)
直接成分的第一特征(2, 2))
〃The constituent word itself (直接成分詞本身)
U04:%x
〃the current one constituent's zero feature(冷)(當(dāng)前
一個(gè)直接成分的零特征(例如,冷)
在S308, CRF轉(zhuǎn)換單元302利用選擇的特征模板,將詞典詞的直 接成分、直接成分屬性、直接成分之間關(guān)系轉(zhuǎn)換為特征作為CRF機(jī)器 學(xué)習(xí)的輸入數(shù)據(jù)。從而,CRF轉(zhuǎn)換單元302獲得了詞典詞的直接成分 的相應(yīng)的特征信息。
轉(zhuǎn)換的輸入數(shù)據(jù)示例如下(tag的格式為"詞性標(biāo)記_位置(這里的 詞性指的是整個(gè)詞的詞性)",例如,"B"表示起始位置,"M"表示 中間位置,"E"表示結(jié)尾位置,對于中間位置,還可以設(shè)置中間的第 一個(gè)位置以及中間的第n個(gè)位置) jf(T(-l,2)=7') tag='N—B' jf(T(0,2)=V) tag='N—B' jf(T(l,l)='2') tag='N—B' if(T(O,O) 灌O tag='N—B'
if(T(-l,2)=V') tag='N—E' if(T(0,2)='n') tag='N—E' if(T(l,l)='2') tag='N—E' jf(T(O,OK渠')tag='N_E'if(T(-l,2)=7') tag='V—B' if(T(0,2)=V) tag='V—B' if(T(l,l)='2') tag='V—B' if(T(O,OK灌')tag='V—B'if(T(-l,2)=V') tag='V—E' if(T(0,2)='n') tag='V—E' jf(T(l,l)='2') tag='V_E' jf(T(0,0)一水')tag='V—E'if(T(-l,2)=7') tag='N—B' if(T(0,2)='n') tag='N—B' if(T(l,l)='《)tag-'N一B' if(T(O,O) 科學(xué)')tag='N—B'if(T(-l,2)='iV) tag='N_M' if(T(0,2)=YT) tag='N—M' if(T(l,l)='4) tag='N_M' if(T(O,O) 技術(shù)')tag='N—M'if(T(畫l,2)='n') tag='N—E' if(T(0,2)='n') tag='N—E' if(T(l,l)='2') tag='N—E' if(T(O,OK部')tag='N—E'在S309, CRF機(jī)器學(xué)習(xí)單元303接收特征信息,并通過CRF機(jī)器學(xué)習(xí)算法生成詞性標(biāo)注模型。圖5a是示出了詞典語義擴(kuò)展裝置的示意圖。詞典語義擴(kuò)展裝置用 于借助語義擴(kuò)展來豐富現(xiàn)有詞典的信息,構(gòu)筑更加豐富的詞語特征, 并優(yōu)化未登錄詞的詞性標(biāo)注模型的構(gòu)建,以提高未登錄詞的詞性標(biāo)注準(zhǔn)確度。該詞典語義擴(kuò)展裝置2包括同義詞擴(kuò)展單元21;反義詞擴(kuò)展單
元22以及同類詞擴(kuò)展單元23。
圖5b是示出了詞典語義擴(kuò)展方法的流程圖。詞典語義擴(kuò)展裝置2
對詞典進(jìn)行進(jìn)一步的語義擴(kuò)展。
在S501,同義詞擴(kuò)展單元21根據(jù)同義詞對詞典中的詞進(jìn)行擴(kuò)展, 以生成擴(kuò)充詞,并將這些詞存放到擴(kuò)充詞表24中。該同義詞擴(kuò)展單元 2首先對詞典中的詞進(jìn)行切分,然后利用切分后的直接成分的同義詞, 對原詞中的直接成分進(jìn)行替換,以構(gòu)成擴(kuò)充詞。例如-
詞典存在詞"觀/看",其中"看"的同義詞有"察",那么"觀/
察"可以作為同義詞擴(kuò)展得到的擴(kuò)充詞。
在S502,反義詞擴(kuò)展單元22根據(jù)反義詞對詞典中的詞進(jìn)行擴(kuò)展,
和步驟S501類似,只是使用切分成分的反義詞進(jìn)行替換,以生成擴(kuò)
充詞,并存放在擴(kuò)充詞表24中。例如
詞典中存在"熱菜",其中"熱"的反義詞有"冷",那么"冷菜"
就是反義詞擴(kuò)展得到的擴(kuò)充詞。
在S503,同類詞擴(kuò)展單元23根據(jù)詞的同類詞對詞典中的詞進(jìn)行
擴(kuò)展,禾口 S501類似,只是用于替換的詞是要被替換的詞的同類詞,
并存放在擴(kuò)充詞表24中。其中同類可以從構(gòu)詞方法上去分析,也包括
自定義分類的同類,例如
1) "紅蘋果,,到"綠蘋果"是依據(jù)修飾的顏色同類上擴(kuò)展
2) "千人"到"萬人"是從數(shù)量修飾同類上擴(kuò)展
3) "宅女"到"宅男"是從主體的性別同類上擴(kuò)展
4) "房托"到"婚托"是從主體對應(yīng)職業(yè)同類上擴(kuò)展
5) "飄過"到"閃過"是從語義的類似上擴(kuò)展
6) "美發(fā)"到"亮發(fā)"是基于形容詞"美"和"亮"都能夠用于使動
而擴(kuò)展。'
最終獲得的擴(kuò)充詞表24可以作為詞典的一部分一起用于詞性標(biāo) 注模型訓(xùn)練。
圖2a是示出了本發(fā)明的詞性標(biāo)注系統(tǒng)的第二實(shí)施例的示意圖。該 詞性標(biāo)注系統(tǒng)與圖la所示的第一實(shí)施例的詞性標(biāo)注系統(tǒng)的不同在于還包括可信度模型5;基于可信度的詞性標(biāo)注裝置8以及詞性標(biāo)注融合 裝置9。可信度模型5存儲了已計(jì)算的可信度數(shù)據(jù)模型,該模型可以由 一個(gè)可信度模型生成裝置生成,其中可信度指的是對"一個(gè)模型判斷一個(gè)詞的詞性"的準(zhǔn)確程度的估計(jì);基于可信度的詞性標(biāo)注裝置8用于利用可信度模型,對輸入的未登錄詞計(jì)算可信度,并對可信度低的詞進(jìn)行詞性標(biāo)注;詞性融合裝置9用于對基于模型的詞性標(biāo)注裝置7和基 于可信度的詞性標(biāo)注裝置8標(biāo)注的未登錄詞的詞性進(jìn)行融合,可以采用 已知的方法來融合標(biāo)注的未登錄詞的詞性。通過采用本發(fā)明的第一實(shí)施例的詞性標(biāo)注系統(tǒng)和本發(fā)明的第二實(shí) 施例的詞性標(biāo)注系統(tǒng)可以實(shí)現(xiàn)對未登錄詞的詞性的準(zhǔn)確標(biāo)注,可以應(yīng) 用于各種文本信息處理系統(tǒng),從而獲得準(zhǔn)確的詞性標(biāo)注。此外,雖然 示出了詞性標(biāo)注系統(tǒng)包括詞典語義擴(kuò)展裝置2,但是,很明顯地,詞 性標(biāo)注系統(tǒng)也可以不包括該詞典語義擴(kuò)展裝置2。圖2b示出了根據(jù)本發(fā)明第二實(shí)施例的詞性標(biāo)注方法。在S201,輸 入裝置6輸入未登錄詞。在S202,基于模型的詞性標(biāo)注裝置7利用詞性 標(biāo)注模型對未登錄詞的詞性進(jìn)行標(biāo)注。在S203,基于可信度的詞性標(biāo) 注裝置8利用可信度模型5獲取未登錄詞的可信度,其中,對可信度低 于預(yù)定閾值的未登錄詞,則可以根據(jù)未登錄詞的上下文對該未登錄詞 的詞性進(jìn)行標(biāo)注。最后,在S204,對基于模型的詞性標(biāo)注裝置7所標(biāo) 注的未登錄詞的詞性以及基于可信度的詞性標(biāo)注裝置8所標(biāo)注的未登錄詞的詞性進(jìn)行融合,從而獲得標(biāo)注的準(zhǔn)確率較高的詞性。詞性標(biāo)注模型4是基于詞語內(nèi)部結(jié)構(gòu)特征的詞性標(biāo)注模型,該模型的有效性是建立在"一個(gè)詞語的語法屬性由它的構(gòu)成決定"的假設(shè) 之上。上述假設(shè)在大部分情況是正確的,詞的構(gòu)成本質(zhì)上決定了詞語 可能展示出那些語法屬性,不過也存在一些特殊情況,使得僅僅使用 詞的結(jié)構(gòu)判斷詞性的準(zhǔn)確度下降,比如, 一種情況,對于有些詞語來 說,其內(nèi)部構(gòu)成決定了它具有多種可能的語法屬性,但在實(shí)際使用中 并不一定完全展示出來,能看到的只是這多種可能的語法屬性中的一 部分;另一種情況下,有些詞語在剛產(chǎn)生的時(shí)候沒有表現(xiàn)出某些語法 屬性,隨著使用的增多,其用法也不斷發(fā)展變化,可能會表現(xiàn)出一些新的語法屬性;還有一種情況,某種詞性的詞語可以通過某種手段轉(zhuǎn) 化成另一種詞性。除此之外,任何一種機(jī)器學(xué)習(xí)方法都受到訓(xùn)練語料 的局限,對于訓(xùn)練語料所無法覆蓋的特征,其預(yù)測結(jié)果自然也不會很 可靠?;谶@些原因,僅僅使用內(nèi)部結(jié)構(gòu)不能達(dá)到最好的預(yù)測效果。 有必要通過觀察詞語的實(shí)際用法來對通過內(nèi)部結(jié)構(gòu)判斷的結(jié)果進(jìn)行補(bǔ) 充和修正。本發(fā)明采用可信度模型的目的就是為了判斷通過內(nèi)部結(jié)構(gòu) 判斷的結(jié)果是否可信,對于可信度較低的結(jié)果再結(jié)合詞語的實(shí)際用法 (通過上下文來表示)來予以補(bǔ)充和修正。
下面將參考圖6a—6d對如何獲得可信度模型進(jìn)行描述。 圖6a示出了本發(fā)明的可信度模型生成裝置的第一實(shí)施例。該可信 度模型生成裝置包括詞典直接成分分析及轉(zhuǎn)換單元401以及得分值計(jì) 算單元402。詞典直接成分分析及轉(zhuǎn)換單元401用于基于詞典來執(zhí)行直 接成分分析,即,直接成分分詞,直接成分屬性以及位置關(guān)系的分析, 之后將獲得的分析結(jié)果轉(zhuǎn)化為直接成分詞性-詞長序列;得分值計(jì)算單 元402用于根據(jù)對與序列匹配的所有詞的詞性進(jìn)行分析計(jì)算每一個(gè)直
接成分詞性-詞長序列的得分,并將每一個(gè)直接成分詞性-詞長序列和 其對應(yīng)得分值作為可信度模型。
圖6b示出了本發(fā)明第一實(shí)施例的可信度模型生成裝置生成可信
度模型的方法的流程圖。該種方法是先驗(yàn)的,直接基于詞典詞進(jìn)行分 析和統(tǒng)計(jì)來獲得可信度模型,具體地,分析詞典中所有直接成分詞性-詞長序列來構(gòu)造可信度模型。首先,在S403,詞典直接成分分析及轉(zhuǎn) 換單元401采集對詞典進(jìn)行直接成分切分和直接成分屬性、位置分析 后輸出的內(nèi)容;將輸出的內(nèi)容轉(zhuǎn)化為直接成分詞性-詞長序列,比如31 的一條輸出為"灌渠^灌2 V渠2 N",那么對應(yīng)的詞性序列就 為"V2N2",相應(yīng)地,"灌渠"與序列"V2N2"匹配。之后,得分值 計(jì)算單元402在S404,提取所有唯一的直接成分詞性-詞長序列,并構(gòu) 造一個(gè)集合,提取任意一個(gè)直接成分詞性-詞長序列,通過以下的步驟 (1)和(2)計(jì)算對應(yīng)的可信度得分值(以第K個(gè)直接成分詞性-詞長
為例);
(1)統(tǒng)計(jì)詞典中匹配第尺個(gè)詞性序列的所有詞典詞,并依據(jù)詞的詞性來分別計(jì)數(shù)(2)提取詞語數(shù)目最多的前兩個(gè)詞性(詞的詞性)按照下面的計(jì)算公 式計(jì)算該詞性序列的可信度得分值A(chǔ):,—c畫,(a I p =尸,)_ c畫" I p =)(1,1)其中,^是尸山iy^……尸 丄。的序列,這一序列是以直接成分分析輸 出內(nèi)容為基礎(chǔ)上轉(zhuǎn)變而來,其中"是與第《個(gè)詞語構(gòu)成詞性序列對應(yīng)的任意詞語『or式的直接成分的數(shù)量,戶2表示『or式的第"個(gè)直接成 分的詞性,L2表示『w《的第"個(gè)直接成分的長度;Cmm《&)指的是 與第尺個(gè)詞性序列^匹配的詞典詞數(shù)量,0^"《&|尸=尸,)指的是與第 K個(gè)詞性序列&匹配并且標(biāo)記為詞性&的詞典詞的數(shù)量,&|尸=尸 )指的是與第尺個(gè)詞性序列^匹配并且標(biāo)記為詞性 巧+/的詞典詞的數(shù)量,其中P,和A+,分別是符合序列^的詞典詞所涉 及的詞性中詞語數(shù)量最多的兩個(gè)詞性。最后,在S405,得分值計(jì)算單元402將直接成分詞性-詞長以及計(jì) 算出來的對應(yīng)的直接成分詞性-詞長序列的可信度得分值作為詞性標(biāo) 注的可信度模型并存放到可信度模型5中。圖6c示出了本發(fā)明的可信度模型生成裝置的第二實(shí)施例示意 圖。參考圖6c,該可信度模型生成裝置包括測試詞語集合直接成分分 析及轉(zhuǎn)換單元408和得分值計(jì)算單元409。圖6d是示出了本發(fā)明的生成可信度模型的方法的第二實(shí)施例流程圖。 該實(shí)施例中所采用的生成可信度模型的方法是后驗(yàn)的,在獲得初步的 詞性標(biāo)注模型之后,通過計(jì)算測試詞語集合的正確率來獲得詞性標(biāo)注 的可信度模型。即,應(yīng)用詞性標(biāo)注模型去標(biāo)注給定的測試集,通過測 試結(jié)果分析來生成可信度模型。首先,釆用一個(gè)給定的標(biāo)注好詞性的測試詞語集合,其結(jié)構(gòu)類似 于詞典l。在S410,測試詞語集合直接成分分析及轉(zhuǎn)換單元408對該 測試詞語集合的任何一個(gè)詞語,進(jìn)行直接成分切分和直接成分屬性、 位置分析,并輸出,之后,將上一步驟的分析和直接成分標(biāo)注結(jié)果,轉(zhuǎn)化為直接成分詞性-詞長序列。在S411,得分值計(jì)算單元409提取 所有唯一的直接成分詞性-詞長序列,并構(gòu)造一個(gè)集合,提取任意一個(gè) 直接成分詞性-詞長序列,通過以下步驟(1)計(jì)算其對應(yīng)的可信度得 分值(以第K個(gè)直接成分詞性-詞長為例);
(1)提取測試詞語集合中與第尺個(gè)詞性序列匹配的所有詞,逐一使 用詞性標(biāo)注模型4進(jìn)行標(biāo)注,統(tǒng)計(jì)標(biāo)注正確的詞語個(gè)數(shù)和標(biāo)注錯(cuò)誤的 詞語個(gè)數(shù),然后使用下面的計(jì)算公式來計(jì)算該詞語構(gòu)成詞性序列的可 信度得分值A(chǔ):
^ i尸'.=^we) — I r = y^/je)
* 一 Cow"/(&)
(1.2)
其中,^是尸/L^P,2……尸 丄 的序列,這一序列是以直接成分分析輸 出內(nèi)容為基礎(chǔ)上轉(zhuǎn)變而來,其中"是對應(yīng)該詞語構(gòu)成詞性序列的任意 詞語m^《的直接成分的數(shù)量,i^表示『c^4的第n個(gè)直接成分的詞
性,丄2表示w^式的第w個(gè)直接成分的長度;a^"《&)指的是測試詞
語集合中與第《個(gè)詞性序列&匹配的詞語數(shù)量,Cb,《&l尸4n^)指 的是測試詞語集合中與第尺個(gè)詞語構(gòu)成詞性序列6V并且自動詞性標(biāo) 注結(jié)果正確的詞的數(shù)量,Co柳《&l/^/a/w)指的是測試詞語集合中與 第K個(gè)詞語構(gòu)成詞性序列&并且自動詞性標(biāo)注結(jié)果錯(cuò)誤的詞的數(shù)量。 最后,在S412,得分值計(jì)算單元409將直接成分詞性-詞長以及計(jì) 算出來的對應(yīng)的直接成分詞性-詞長序列的可信度得分值作為詞性標(biāo) 注的可信度模型并存放到可信度模型5中。
圖7a是示出了本發(fā)明的基于可信度的詞性標(biāo)注裝置的示意圖?;?于可信度的詞性標(biāo)注裝置包括可信度獲取單元61,用于利用可信度模 型獲取未登錄詞的詞性標(biāo)注的可信度;可信度判斷單元62,用于判斷 未登錄詞的詞性標(biāo)注的可信度是否低于預(yù)定閾值;語料搜索單元63, 用于從語料中搜索包含可信度低于預(yù)定閾值的未登錄詞的句子;詞性 標(biāo)注單元64,用于基于全局或局部上下文判斷不確定詞性的未登錄詞 的詞性,并標(biāo)注。該詞性標(biāo)注裝置還可以包括一個(gè)融合單元(未示出), 在詞性確定單元64采用多種方法確定未登錄詞的詞性時(shí)對詞性標(biāo)注的
21結(jié)果進(jìn)行融合。此外,基于可信度的詞性標(biāo)注裝置可以不包括該語料 搜索單元63,可以在確定低可信度的未登錄詞之后,由手工對未登錄 詞的詞性進(jìn)行標(biāo)注。圖7b是示出了根據(jù)本發(fā)明的基于可信度的詞性標(biāo)注方法的流程 圖。在S601,可信度獲取單元61利用可信度模型獲得未登錄詞的詞 性標(biāo)注的可信度,例如,對于未登錄詞"灌田"由于其詞性序列是 V2N2,所以,可信度獲取單元61從可信度模型中獲得有關(guān)詞性序列 為V2N2的可信度得分值。在S602,可信度判斷單元62判斷未登錄 詞的詞性標(biāo)注的可信度得分值是否低于預(yù)定閾值,如果否定,則結(jié)束, 否則執(zhí)行步驟S603。在S603,語料搜索單元63從語料中搜索出包含 低可信度的未登錄詞的句子,可以使用各種方法和途徑獲取含有指定 未登錄詞的語料,例如通過指定關(guān)鍵詞獲取搜索引擎返回結(jié)果,或者 從一個(gè)大的文本數(shù)據(jù)庫中檢索含有指定未登錄詞的句子。在S604,詞 性標(biāo)注單元64基于全局或局部上下文判斷未登錄詞的詞性并標(biāo)注,基 于全局上下文判斷未登錄詞的詞性的各種方法的實(shí)例,可以是一個(gè), 也可以是很多個(gè)。例如不需要準(zhǔn)備訓(xùn)練語料的基于規(guī)則的投票方法, 需要準(zhǔn)備訓(xùn)練語料的KNN分類方法。之后,如果在S604采用了多種 方法來標(biāo)注未登錄詞的詞性,則在S605,將所有方法標(biāo)注的結(jié)果整合 為一個(gè)統(tǒng)一的結(jié)果。整合的方法很多,例如投票方法,用各種方法所 得結(jié)果進(jìn)行投票,得票最多的結(jié)果為好的結(jié)果。最后,在S606,獲得 詞性標(biāo)注的結(jié)果。雖然基于可信度的詞性標(biāo)注方法采用搜索語料并基于全局或局 部上下文判斷未登錄詞的詞性,但是,很明顯地,也可以在確定低可 信度的未登錄詞之后,由手工對未登錄詞的詞性進(jìn)行標(biāo)注。盡管已經(jīng)參照具體實(shí)施例,對本發(fā)明進(jìn)行了描述,但本發(fā)明不應(yīng) 當(dāng)由這些實(shí)施例來限定,而應(yīng)當(dāng)僅由所附權(quán)利要求來限定。應(yīng)當(dāng)清楚, 在不偏離本發(fā)明的范圍和精神的前提下,本領(lǐng)域普通技術(shù)人員可以對 實(shí)施例進(jìn)行改變或修改。
權(quán)利要求
1.一種詞性標(biāo)注模型訓(xùn)練裝置,包括直接成分分析單元,用于對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換單元,用于將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù);機(jī)器學(xué)習(xí)單元,用于對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
2. 如權(quán)利要求l所述的詞性標(biāo)注模型訓(xùn)練裝置,其中直接成分分 析單元將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或語素,以獲得直接成分,其中m22。
3. 如權(quán)利要求l所述的詞性標(biāo)注模型訓(xùn)練裝置,其中還包括詞典 語義擴(kuò)展單元,用于對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充詞表。
4. 如權(quán)利要求l所述的詞性標(biāo)注模型訓(xùn)練裝置,其中轉(zhuǎn)換單元通 過使用特征模板執(zhí)行所述轉(zhuǎn)換。
5. —種詞性標(biāo)注模型訓(xùn)練方法,包括直接成分分析步驟,對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換步驟,將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 機(jī)器學(xué)習(xí)步驟,對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
6. 如權(quán)利要求5所述的詞性標(biāo)注模型訓(xùn)練方法,其中直接成分分 析步驟包括將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或 語素,以獲得直接成分,其中n^2。
7. 如權(quán)利要求5所述的詞性標(biāo)注模型訓(xùn)練方法,其中還包括詞典語義擴(kuò)展步驟,對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充詞表。
8. 如權(quán)利要求5所述的詞性標(biāo)注模型訓(xùn)練方法,其中轉(zhuǎn)換步驟包 括通過使用特征模板執(zhí)行所述轉(zhuǎn)換的步驟。
9. 一種詞性標(biāo)注系統(tǒng),包括詞性標(biāo)注模型訓(xùn)練裝置,用于對詞執(zhí)行直接成分分析以訓(xùn)練生成 詞性標(biāo)注模型;基于模型的詞性標(biāo)注裝置,用于利用詞性標(biāo)注模型對未登錄詞進(jìn) 行詞性標(biāo)注。
10. 如權(quán)利要求9所述的詞性標(biāo)注系統(tǒng),其中詞性標(biāo)注模型訓(xùn)練裝置包括直接成分分析單元,用于對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換單元,用于將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 機(jī)器學(xué)習(xí)單元,用于對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
11. 如權(quán)利要求10所述的詞性標(biāo)注系統(tǒng),其中直接成分分析單元 用于將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或語素,以 獲得直接成分,其中n^2。
12. 如權(quán)利要求9所述的詞性標(biāo)注系統(tǒng),其中詞性標(biāo)注模型訓(xùn)練 裝置還包括詞典語義擴(kuò)展單元,用于對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充 詞表。
13. 如權(quán)利要求10所述的詞性標(biāo)注系統(tǒng),其中轉(zhuǎn)換單元通過使用 特征模板執(zhí)行所述轉(zhuǎn)換。
14. 一種詞性標(biāo)注方法,包括詞性標(biāo)注模型訓(xùn)練步驟,對詞執(zhí)行直接成分分析以訓(xùn)練生成詞性 標(biāo)注模型;基于模型的詞性標(biāo)注步驟,利用詞性標(biāo)注模型對未登錄詞進(jìn)行詞 性標(biāo)注。
15. 如權(quán)利要求14所述的詞性標(biāo)注方法,其中詞性標(biāo)注模型訓(xùn)練 步驟還包括直接成分分析步驟,對詞進(jìn)行直接成分分析,以獲得直接成分、 其屬性以及位置關(guān)系;轉(zhuǎn)換步驟,將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 機(jī)器學(xué)習(xí)步驟,對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
16. 如權(quán)利要求15所述的詞性標(biāo)注方法,其中直接成分分析步驟 包括將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或語素,以 獲得直接成分,其中m22。
17. 如權(quán)利要求14所述的詞性標(biāo)注方法,其中詞性標(biāo)注模型訓(xùn)練 步驟還包括詞典語義擴(kuò)展步驟,對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充詞表。
18. 如權(quán)利要求15所述的詞性標(biāo)注方法,其中轉(zhuǎn)換步驟包括通過 使用特征模板執(zhí)行所述轉(zhuǎn)換的步驟。
19. 一種詞性標(biāo)注系統(tǒng),包括基于模型的詞性標(biāo)注裝置,用于利用詞性標(biāo)注模型對未登錄詞進(jìn) 行第一詞性標(biāo)注;基于可信度的詞性標(biāo)注裝置,用于利用可信度模型獲取未登錄詞 的詞性標(biāo)注的可信度,并對可信度小于預(yù)定閾值的未登錄詞進(jìn)行第二 詞性標(biāo)注。
20. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),還包括融合裝置,用于將第一詞性標(biāo)注結(jié)果與第二詞性標(biāo)注結(jié)果融合。
21. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),還包括生成詞性標(biāo)注模 型的詞性標(biāo)注模型訓(xùn)練裝置,其中詞性標(biāo)注模型訓(xùn)練裝置包括直接成分分析單元,用于對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換單元,用于將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 機(jī)器學(xué)習(xí)單元,用于對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
22. 如權(quán)利要求21所述的詞性標(biāo)注系統(tǒng),其中直接成分分析單元 用于將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或語素,以 獲得直接成分,其中m22。
23. 如權(quán)利要求21所述的詞性標(biāo)注系統(tǒng),其中詞性標(biāo)注模型訓(xùn)練 裝置還包括詞典語義擴(kuò)展單元,用于對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充 詞表。
24. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),其中還包括生成可信度模型的可信度模型生成裝置,其中可信度模型生成裝置包括-轉(zhuǎn)換單元,用于將詞典中的每一個(gè)詞轉(zhuǎn)換為與所述詞的所有直接成分對應(yīng)的詞性-詞長序列;以及得分值計(jì)算單元,用于根據(jù)對與每個(gè)詞性-詞長序列匹配的所有詞的詞性的分析針對每一個(gè)詞性-詞長序列計(jì)算得分值,并將所有的詞性-詞長序列和其對應(yīng)的得分值作為可信度模型。
25. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),其中還包括生成可信度 模型的可信度模型生成裝置,其中可信度模型生成裝置包括轉(zhuǎn)換單元,用于將測試詞語集合中的每一個(gè)詞轉(zhuǎn)換為與所述詞的所有直接成分對應(yīng)的詞性-詞長序列;以及得分值計(jì)算單元,用于通過測量詞性標(biāo)注模型應(yīng)用于與詞性-詞長 序列匹配的所有詞的精度來針對每一個(gè)詞性-詞長序列計(jì)算得分值,并 將所有的詞性-詞長序列和其對應(yīng)的得分值作為可信度模型。
26. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),其中基于可信度的詞性標(biāo)注裝置包括可信度獲取單元,用于從可信度模型獲得未登錄詞的詞性標(biāo)注的 可信度-,可信度判斷單元,用于判斷未登錄詞的詞性標(biāo)注的可信度是否小于預(yù)定閾值;以及詞性標(biāo)注單元,用于手工對可信度小于預(yù)定閾值的未登錄詞進(jìn)行 第二詞性標(biāo)注。
27. 如權(quán)利要求19所述的詞性標(biāo)注系統(tǒng),其中基于可信度的詞性 標(biāo)注裝置包括可信度獲取單元,用于從可信度模型獲得未登錄詞的詞性標(biāo)注的 可信度;可信度判斷單元,用于判斷未登錄詞的詞性標(biāo)注的可信度是否小 于預(yù)定閾值;語料搜索單元,用于搜索語料以檢索出包含可信度小于預(yù)定閾值 的未登錄詞的句子;以及詞性標(biāo)注單元,用于基于句子中的上下文確定可信度小于預(yù)定閾值的未登錄詞的詞性,以進(jìn)行第二詞性標(biāo)注。
28. —種詞性標(biāo)注方法,包括基于模型的詞性標(biāo)注步驟,利用詞性標(biāo)注模型對未登錄詞進(jìn)行第一詞性標(biāo)注;以及基于可信度的詞性標(biāo)注步驟,利用可信度模型獲取未登錄詞的詞 性標(biāo)注的可信度,并對可信度小于預(yù)定閾值的未登錄詞進(jìn)行第二詞性 標(biāo)注。
29. 如權(quán)利要求28所述的詞性標(biāo)注方法,還包括 融合步驟,將第一詞性標(biāo)注結(jié)果與第二詞性標(biāo)注結(jié)果融合。
30. 如權(quán)利要求28所述的詞性標(biāo)注方法,還包括生成詞性標(biāo)注模 型的詞性標(biāo)注模型訓(xùn)練步驟,其中詞性標(biāo)注模型訓(xùn)練步驟包括直接成分分析步驟,對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換步驟,將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù); 機(jī)器學(xué)習(xí)步驟,對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。
31. 如權(quán)利要求30所述的詞性標(biāo)注方法,其中直接成分分析步驟 用于將m個(gè)字構(gòu)成的詞切分為與所述詞有關(guān)的下一級詞和/或語素,以 獲得直接成分,其中n^2。
32. 如權(quán)利要求30所述的詞性標(biāo)注方法,其中詞性標(biāo)注模型訓(xùn)練 步驟還包括詞典語義擴(kuò)展步驟,對詞典進(jìn)行語義擴(kuò)展,生成擴(kuò)充詞表。
33. 如權(quán)利要求28所述的詞性標(biāo)注方法,其中還包括生成可信度 模型的可信度模型生成步驟,包括轉(zhuǎn)換步驟,將詞典中的每一個(gè)詞轉(zhuǎn)換為與所述詞的所有直接成分 對應(yīng)的詞性-詞長序列;以及得分值計(jì)算步驟,根據(jù)對與每個(gè)詞性-詞長序列匹配的所有詞的詞 性的分析針對每一個(gè)詞性-詞長序列計(jì)算得分值,并將所有的詞性-詞 長序列和其對應(yīng)的得分值作為可信度模型。
34. 如權(quán)利要求28所述的詞性標(biāo)注方法,其中還包括生成可信度模型的可信度模型生成步驟,包括轉(zhuǎn)換步驟,將測試詞語集合中的每一個(gè)詞轉(zhuǎn)換為與所述詞的所有 直接成分對應(yīng)的詞性-詞長序列;以及得分值計(jì)算步驟,通過測量詞性標(biāo)注模型應(yīng)用于與詞性-詞長序列 匹配的所有詞的精度來針對每一個(gè)詞性-詞長序列計(jì)算得分值,并將所 有的詞性-詞長序列和其對應(yīng)的得分值作為可信度模型。
35. 如權(quán)利要求28所述的詞性標(biāo)注方法,其中基于可信度的詞性標(biāo)注步驟包括可信度獲取步驟,從可信度模型獲得登錄詞的詞性標(biāo)注的可信度;可信度判斷步驟,判斷未登錄詞的詞性標(biāo)注的可信度是否小于預(yù) 定閾值;詞性標(biāo)注步驟,手工對可信度小于預(yù)定閾值的未登錄詞進(jìn)行第二 詞性標(biāo)注。
36. 如權(quán)利要求28所述的詞性標(biāo)注方法,其中基于可信度的詞性 標(biāo)注步驟包括可信度獲取步驟,用于從可信度模型獲得未登錄詞的詞性標(biāo)注的 可信度;可信度判斷步驟,判斷未登錄詞的詞性標(biāo)注的可信度是否小于預(yù) 定閾值;語料搜索步驟,搜索語料以檢索出包含可信度小于預(yù)定閾值的未 登錄詞的句子;以及詞性標(biāo)注步驟,基于句子中的上下文確定可信度小于預(yù)定閾值的 未登錄詞的詞性,以進(jìn)行第二詞性標(biāo)注。
全文摘要
本發(fā)明涉及一種詞性標(biāo)注模型訓(xùn)練裝置,包括直接成分分析單元,用于對詞進(jìn)行直接成分分析,以獲得直接成分、其屬性以及位置關(guān)系;轉(zhuǎn)換單元,用于將直接成分分析的結(jié)果轉(zhuǎn)換為訓(xùn)練數(shù)據(jù);機(jī)器學(xué)習(xí)單元,用于對轉(zhuǎn)換的訓(xùn)練數(shù)據(jù)進(jìn)行機(jī)器學(xué)習(xí),從而生成詞性標(biāo)注模型。以及涉及一種詞性標(biāo)注模型訓(xùn)練方法。以及一種詞性標(biāo)注系統(tǒng)及其方法,系統(tǒng)包括詞性標(biāo)注模型訓(xùn)練裝置,用于通過對詞典中的詞執(zhí)行直接成分分析,以訓(xùn)練生成詞性標(biāo)注模型;以及基于模型的詞性標(biāo)注裝置,用于利用詞性標(biāo)注模型對未登錄詞進(jìn)行詞性標(biāo)注。根據(jù)本發(fā)明的系統(tǒng),可以根據(jù)現(xiàn)有的文本信息,對未登錄詞的詞性進(jìn)行準(zhǔn)確標(biāo)注,提高了文本信息處理的效率。
文檔編號G06F17/27GK101539907SQ20081008546
公開日2009年9月23日 申請日期2008年3月19日 優(yōu)先權(quán)日2008年3月19日
發(fā)明者胡長建, 凱 趙, 邱立坤 申請人:日電(中國)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1