亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分類器訓(xùn)練方法、類型識別方法及裝置的制造方法

文檔序號:9396850閱讀:601來源:國知局
分類器訓(xùn)練方法、類型識別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及自然語言處理領(lǐng)域,特別涉及一種分類器訓(xùn)練方法、類型識別方法及 裝置。
【背景技術(shù)】
[0002] 短信內(nèi)容識別和提取是自然語言處理的一個實際應(yīng)用。
[0003] 以識別生日類短信為例,相關(guān)技術(shù)中提供了一種識別方法,該識別方法預(yù)先設(shè)置 了若干個關(guān)鍵詞,通過識別短信的內(nèi)容中是否包括全部或部分關(guān)鍵詞,來識別該短信是否 為攜帶有生日日期的短信。

【發(fā)明內(nèi)容】

[0004] 為了解決直接使用關(guān)鍵詞進行類型識別并不準(zhǔn)確的問題,本公開提供一種分類器 訓(xùn)練方法、類型識別方法及裝置。所述技術(shù)方案如下:
[0005] 根據(jù)本公開實施例的第一方面,提供了一種分類器訓(xùn)練方法,該方法包括:
[0006] 從樣本信息中提取攜帶有目標(biāo)關(guān)鍵字的樣本分句;
[0007] 根據(jù)每條樣本分句是否屬于目標(biāo)類別,對樣本分句進行二值標(biāo)注,得到樣本訓(xùn)練 集;
[0008] 對樣本訓(xùn)練集中的每個樣本分句進行分詞,得到若干個詞語;
[0009] 從若干個詞語中提取出指定特征集合,指定特征集合包括至少一個特征詞;
[0010] 根據(jù)指定特征集合中的特征詞構(gòu)建分類器;
[0011] 根據(jù)樣本訓(xùn)練集中的二值標(biāo)注結(jié)果對分類器進行訓(xùn)練。
[0012] 在一個可選的實施例中,從若干個詞語中提取出指定特征集合,包括:
[0013] 根據(jù)卡方檢驗從若干個詞語中提取出指定特征集合;
[0014] 或,
[0015] 根據(jù)信息增益從若干個詞語中提取出指定特征集合。
[0016] 在一個可選的實施例中,根據(jù)指定特征集合中的特征詞構(gòu)建分類器,包括:
[0017] 將指定特征集合中的特征詞構(gòu)建樸素貝葉斯分類器,各個特征詞在樸素貝葉斯分 類器中互相獨立。
[0018] 在一個可選的實施例中,根據(jù)樣本訓(xùn)練集中的二值標(biāo)注結(jié)果對分類器進行訓(xùn)練, 包括:
[0019] 對于樸素貝葉斯分類器中的每個特征詞,根據(jù)樣本訓(xùn)練集中的二值標(biāo)注結(jié)果,統(tǒng) 計出攜帶有特征詞的分句屬于目標(biāo)類別的第一條件概率,和,攜帶有特征詞的分句不屬于 目標(biāo)類別的第二條件概率;
[0020] 根據(jù)各個特征詞、第一條件概率和第二條件概率,得到訓(xùn)練后的樸素貝葉斯分類 器。
[0021] 根據(jù)本公開的第二方面,提供了一種類型識別方法,該方法包括:
[0022] 從原始信息中提取攜帶有目標(biāo)關(guān)鍵字的分句;
[0023] 根據(jù)提取出的分句中屬于指定特征集合的特征詞,生成原始信息的特征集合,指 定特征集合中的特征詞是根據(jù)攜帶有目標(biāo)關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的;
[0024] 將原始信息的特征集合輸入訓(xùn)練后的分類器中進行預(yù)測,分類器是預(yù)先根據(jù)指定 特征集合中的特征詞構(gòu)建的分類器;
[0025] 獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于目標(biāo)類別或不屬于目標(biāo)類 別。
[0026] 在一個可選的實施例中,將原始信息的特征集合輸入訓(xùn)練后的分類器中進行預(yù) 測,包括:
[0027] 將原始信息的特征集合中的每個特征詞,輸入訓(xùn)練后的樸素貝葉斯分類器中,計 算原始信息屬于目標(biāo)類別的第一預(yù)測概率和原始信息不屬于目標(biāo)類別的第二預(yù)測概率;
[0028] 根據(jù)第一預(yù)測概率和第二預(yù)測概率的大小關(guān)系,預(yù)測原始信息是否屬于目標(biāo)類 別;
[0029] 其中,訓(xùn)練后的樸素貝葉斯分類器中包括每個特征詞的第一條件概率和第二條件 概率,第一條件概率是攜帶有特征詞的分句屬于目標(biāo)類別的概率,第二條件概率是攜帶有 特征詞的分句不屬于目標(biāo)類別的概率。
[0030] 在一個可選的實施例中,該方法還包括:
[0031 ] 若預(yù)測出原始信息屬于目標(biāo)類別,則從原始信息中提取目標(biāo)信息。
[0032] 在一個可選的實施例中,目標(biāo)信息是生日日期;
[0033] 從原始信息中提取目標(biāo)信息,包括:
[0034] 通過正則表達(dá)式從原始信息中提取生日日期;
[0035] 或,
[0036] 將原始信息的接收日期提取為生日日期。
[0037] 根據(jù)本公開的第三方面,提供了一種分類器訓(xùn)練裝置,該裝置包括:
[0038] 分句提取模塊,被配置為從樣本信息中提取攜帶有目標(biāo)關(guān)鍵字的樣本分句;
[0039] 分句標(biāo)注模塊,被配置為根據(jù)每條樣本分句是否屬于目標(biāo)類別,對樣本分句進行 二值標(biāo)注,得到樣本訓(xùn)練集;
[0040] 分句分詞模塊,被配置為對樣本訓(xùn)練集中的每個樣本分句進行分詞,得到若干個 詞語;
[0041] 特征詞提取模塊,被配置為從若干個詞語中提取出指定特征集合,指定特征集合 包括至少一個特征詞;
[0042] 分類器構(gòu)建模塊,被配置為根據(jù)指定特征集合中的特征詞構(gòu)建分類器;
[0043] 分類器訓(xùn)練模塊,被配置為根據(jù)樣本訓(xùn)練集中的二值標(biāo)注結(jié)果對分類器進行訓(xùn) 練。
[0044] 在一個可選的實施例中,特征詞提取模塊,被配置為根據(jù)卡方檢驗從若干個詞語 中提取出指定特征集合;或,特征詞提取模塊,被配置為根據(jù)信息增益從若干個詞語中提取 出指定特征集合。
[0045] 在一個可選的實施例中,分類器構(gòu)建模塊,被配置為將指定特征集合中的特征詞 構(gòu)建樸素貝葉斯分類器,各個特征詞在樸素貝葉斯分類器中互相獨立。
[0046] 在一個可選的實施例中,分類器訓(xùn)練模塊,包括:
[0047] 統(tǒng)計子模塊,被配置為對于樸素貝葉斯分類器中的每個特征詞,根據(jù)樣本訓(xùn)練集 中的二值標(biāo)注結(jié)果,統(tǒng)計出攜帶有特征詞的分句屬于目標(biāo)類別的第一條件概率,和,攜帶有 特征詞的分句不屬于目標(biāo)類別的第二條件概率;
[0048] 訓(xùn)練子模塊,被配置為根據(jù)各個特征詞、第一條件概率和第二條件概率,得到訓(xùn)練 后的樸素貝葉斯分類器。
[0049] 根據(jù)本公開的第四方面,提供了一種類型識別裝置,該裝置包括:
[0050] 原始提取模塊,被配置為從原始信息中提取攜帶有目標(biāo)關(guān)鍵字的分句;
[0051] 特征提取模塊,被配置為根據(jù)提取出的分句中屬于指定特征集合的特征詞,生成 原始信息的特征集合,指定特征集合中的特征詞是根據(jù)攜帶有目標(biāo)關(guān)鍵詞的樣本分句的分 詞結(jié)果所提取得到的;
[0052] 特征輸入模塊,被配置為將原始信息的特征集合輸入訓(xùn)練后的分類器中進行預(yù) 測,分類器是預(yù)先根據(jù)指定特征集合中的特征詞構(gòu)建的分類器;
[0053] 結(jié)果獲取模塊,被配置為獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于目 標(biāo)類別或不屬于目標(biāo)類別。
[0054] 在一個可選的實施例中,特征輸入模塊,包括:
[0055] 計算子模塊,被配置為將原始信息的特征集合中的每個特征詞,輸入訓(xùn)練后的樸 素貝葉斯分類器中,計算原始信息屬于目標(biāo)類別的第一預(yù)測概率和原始信息不屬于目標(biāo)類 別的第二預(yù)測概率;
[0056] 預(yù)測子模塊,被配置為根據(jù)第一預(yù)測概率和第二預(yù)測概率的大小關(guān)系,預(yù)測原始 信息是否屬于目標(biāo)類別;
[0057] 其中,訓(xùn)練后的樸素貝葉斯分類器中包括每個特征詞的第一條件概率和第二條件 概率,第一條件概率是攜帶有特征詞的分句屬于目標(biāo)類別的概率,第二條件概率是攜帶有 特征詞的分句不屬于目標(biāo)類別的概率。
[0058] 在一個可選的實施例中,該裝置還包括:
[0059] 信息提取模塊,被配置為在預(yù)測出原始信息屬于目標(biāo)類別時,從原始信息中提取 目標(biāo)信息。
[0060] 在一個可選的實施例中,目標(biāo)信息是生日日期;
[0061] 信息提取模塊,被配置為通過正則表達(dá)式從原始信息中提取生日日期;
[0062] 或,
[0063] 信息提取模塊,被配置為將原始信息的接收日期提取為生日日期。
[0064] 根據(jù)本公開的第五方面,提供了一種分類器訓(xùn)練裝置,該裝置包括:
[0065] 處理器;
[0066] 用于存儲處理器可執(zhí)行指令的存儲器;
[0067] 其中,處理器被配置為:
[0068] 從樣本信息中提取攜帶有目標(biāo)關(guān)鍵字的樣本分句;
[0069] 根據(jù)每條樣本分句是否屬于目標(biāo)類別,對樣本分句進行二值標(biāo)注,得到樣本訓(xùn)練 集;
[0070] 對樣本訓(xùn)練集中的每個樣本分句進行分詞,得到若干個詞語;
[0071] 從若干個詞語中提取出指定特征集合,指定特征集合包括至少一個特征詞;
[0072] 根據(jù)指定特征集合中的特征詞構(gòu)建分類器;
[0073] 根據(jù)樣本訓(xùn)練集中的二值標(biāo)注結(jié)果對分類器進行訓(xùn)練。
[0074] 根據(jù)本公開的第六方面,提供了一種類型識別裝置,該裝置包括:
[0075] 處理器;
[0076] 用于存儲處理器可執(zhí)行指令的存儲器;
[0077] 其中,處理器被配置為:
[0078] 從原始信息中提取攜帶有目標(biāo)關(guān)鍵字的分句;
[0079] 根據(jù)提取出的分句中屬于指定特征集合的特征詞,生成原始信息的特征集合,指 定特征集合中的特征詞是根據(jù)攜帶有目標(biāo)關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的;
[0080] 將原始信息的特征集合輸入訓(xùn)練后的分類器中進行預(yù)測,分類器是預(yù)先根據(jù)指定 特征集合中的特征詞構(gòu)建的分類器;
[0081] 獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于目標(biāo)類別或不屬于目標(biāo)類 別。
[0082] 本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
[0083] 通過對樣本訓(xùn)練集中的每個樣本分句進行分詞得到若干個詞語,從該若干個詞語 中提取出指定特征集合,根據(jù)指定特征集合中的特征詞構(gòu)建分類器;解決了單純使用生日 關(guān)鍵字進行短信類別分析時,識別結(jié)果不準(zhǔn)確的問題;由于指定特征集合中的特征詞是根 據(jù)攜帶有目標(biāo)關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的,所以該分類器能夠?qū)y帶有目 標(biāo)關(guān)鍵詞的分句做出較為準(zhǔn)確的預(yù)測,達(dá)到了識別結(jié)果較為準(zhǔn)確的效果。
[0084] 應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性的,并不能限制本 公開。
【附圖說明】
[0085] 此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施 例,并于說明書一起用于解釋本公開的原理。
[0086] 圖1是根據(jù)一示例性實施例示出的一種分類器訓(xùn)練方法的流程圖;
[0087] 圖2是根據(jù)另一示例性實施例示出的一種分類器訓(xùn)練方法的流程圖;
[0088] 圖3是根據(jù)一示例性實施例示出
當(dāng)前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1