一種設(shè)定crf預(yù)測值的方法和裝置制造方法
【專利摘要】本發(fā)明提出一種設(shè)定條件隨機域(CRF)預(yù)測值的方法和裝置,其中方法包括:獲取訓(xùn)練語料和特征抓取算法;修改所述訓(xùn)練語料和特征抓取算法,使采用修改后的訓(xùn)練語料和特征抓取算法所抓取的特征中包含預(yù)設(shè)值的特征;采用所述特征訓(xùn)練CRF預(yù)測所使用的模型;在測試語料中增加預(yù)設(shè)值的信息,將所述測試語料采用所述模型進行預(yù)測,得到滿足預(yù)設(shè)值的預(yù)測結(jié)果。本發(fā)明能夠達(dá)到預(yù)測結(jié)果滿足預(yù)設(shè)值,同時使整體的預(yù)測結(jié)果最優(yōu)。
【專利說明】一種設(shè)定CRF預(yù)測值的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及條件隨機域(CRF, Conditional Random Fields)【技術(shù)領(lǐng)域】,尤其涉及 一種設(shè)定CRF預(yù)測值的方法和裝置。
【背景技術(shù)】
[0002] CRF是一種判別式概率模型,是隨機場的一種,常用于標(biāo)注或分析序列資料,如自 然語言文字或是生物序列。
[0003] CRF算法是序列標(biāo)注的主要算法,其數(shù)學(xué)公式為:
[0004]
【權(quán)利要求】
1. 一種設(shè)定條件隨機域CRF預(yù)測值的方法,其特征在于,所述方法包括: 獲取訓(xùn)練語料和特征抓取算法; 修改所述訓(xùn)練語料和特征抓取算法,使采用修改后的訓(xùn)練語料和特征抓取算法所抓取 的特征中包含預(yù)設(shè)值的特征; 采用所述特征訓(xùn)練CRF預(yù)測所使用的模型; 在測試語料中增加預(yù)設(shè)值的信息,將所述測試語料采用所述模型進行預(yù)測,得到滿足 預(yù)設(shè)值的預(yù)測結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,當(dāng)采用CRF++方式實現(xiàn)CRF分詞時, 所述預(yù)測語料包括文本信息列和對應(yīng)的標(biāo)記值列; 所述修改訓(xùn)練語料的方式為:在所述訓(xùn)練語料中增加預(yù)設(shè)值列,所述預(yù)設(shè)值的取值為 預(yù)先設(shè)定的無效值;并增加 m份訓(xùn)練語料,每份訓(xùn)練語料包括文本信息列、標(biāo)記值列和預(yù)設(shè) 值列,標(biāo)記值列和預(yù)設(shè)值列的取值相同,并且每份訓(xùn)練語料中標(biāo)記值列和預(yù)設(shè)值列的取值 分別為標(biāo)記值的各個可能取值;其中,所述m為標(biāo)記值的可能取值的個數(shù); 所述特征抓取算法采用特征模板實現(xiàn); 所述修改特征抓取算法的方式為:在所述特征模板的最后一項之后增加當(dāng)前行的預(yù)設(shè) 值列;并新增一行特征模塊,其內(nèi)容為當(dāng)前行的預(yù)設(shè)值列; 所述測試語料包括文本信息列; 所述在測試語料中增加預(yù)設(shè)值的信息的方式為:在所述測試語料中增加預(yù)設(shè)值列;針 對文本信息列中的任意一行文本信息,當(dāng)不需要設(shè)定該文本信息的預(yù)測結(jié)果時,將所述預(yù) 設(shè)值列中該行的預(yù)設(shè)值設(shè)置為預(yù)先設(shè)定的無效值;當(dāng)需要設(shè)定該文本信息的預(yù)測結(jié)果時, 將所述預(yù)設(shè)值列中該行的預(yù)設(shè)值設(shè)置為需要設(shè)定的預(yù)測值。
3. -種設(shè)定條件隨機域CRF預(yù)測值的裝置,其特征在于,所述裝置包括: 獲取模塊,用于獲取訓(xùn)練語料和特征抓取算法; 修改模塊,用于修改所述訓(xùn)練語料和特征抓取算法,使采用修改后的訓(xùn)練語料和特征 抓取算法所抓取的特征中包含預(yù)設(shè)值的特征;并采用所述特征訓(xùn)練CRF預(yù)測所使用的模 型; 預(yù)測模塊,用于在測試語料中增加預(yù)設(shè)值的信息,將所述測試語料采用所述模型進行 預(yù)測,得到滿足預(yù)設(shè)值的預(yù)測結(jié)果。
4. 根據(jù)權(quán)利要求3所述的裝置,其特征在于,當(dāng)采用CRF++方式實現(xiàn)CRF分詞時, 所述預(yù)測語料包括文本信息列和對應(yīng)的標(biāo)記值列; 所述修改模塊修改訓(xùn)練語料的方式為:在所述訓(xùn)練語料中增加預(yù)設(shè)值列,所述預(yù)設(shè)值 的取值為預(yù)先設(shè)定的無效值;并增加 m份訓(xùn)練語料,每份訓(xùn)練語料包括文本信息列、標(biāo)記值 列和預(yù)設(shè)值列,標(biāo)記值列和預(yù)設(shè)值列的取值相同,并且每份訓(xùn)練語料中標(biāo)記值列和預(yù)設(shè)值 列的取值分別為標(biāo)記值的各個可能取值;其中,所述m為標(biāo)記值的可能取值的個數(shù); 所述特征抓取算法采用特征模板實現(xiàn); 所述修改模塊修改特征抓取算法的方式為:在所述特征模板的最后一項之后增加當(dāng)前 行的預(yù)設(shè)值列;并新增一行特征模塊,其內(nèi)容為當(dāng)前行的預(yù)設(shè)值列; 所述測試語料包括文本信息列; 所述測試模塊在測試語料中增加預(yù)設(shè)值的信息的方式為:在所述測試語料中增加預(yù)設(shè) 值列;針對文本信息列中的任意一行文本信息,當(dāng)不需要設(shè)定該文本信息的預(yù)測結(jié)果時,將 所述預(yù)設(shè)值列中該行的預(yù)設(shè)值設(shè)置為預(yù)先設(shè)定的無效值;當(dāng)需要設(shè)定該文本信息的預(yù)測結(jié) 果時,將所述預(yù)設(shè)值列中該行的預(yù)設(shè)值設(shè)置為需要設(shè)定的預(yù)測值。
【文檔編號】G06F17/27GK104142916SQ201410007419
【公開日】2014年11月12日 申請日期:2014年1月8日 優(yōu)先權(quán)日:2014年1月8日
【發(fā)明者】吳小平 申請人:騰訊科技(深圳)有限公司