征詞構(gòu)建分類器;解決了單純使用生日關(guān)鍵字進行短信類別分析時,識別結(jié)果不準 確的問題;由于指定特征集合中的特征詞是根據(jù)攜帶有目標關(guān)鍵詞的樣本分句的分詞結(jié)果 所提取得到的,所以該分類器能夠?qū)y帶有目標關(guān)鍵詞的分句做出較為準確的預(yù)測,達到 了識別結(jié)果較為準確的效果。
[0227] 本實施例還通過卡方檢驗或信息增益從樣本訓(xùn)練集的各個分句中提取特征詞,能 夠提取出對分類準確性有較佳作用的特征詞,從而提高樸素貝葉斯分類器的分類準確性。
[0228] 圖7是根據(jù)一示例性實施例示出的一種類型識別裝置的框圖,如圖7所示,該類型 識別裝置包括但不限于:
[0229] 原始提取模塊720,被配置為從原始信息中提取攜帶有目標關(guān)鍵字的分句;
[0230] 特征提取模塊740,被配置為根據(jù)提取出的分句中屬于指定特征集合的特征詞,生 成原始信息的特征集合,指定特征集合中的特征詞是根據(jù)攜帶有目標關(guān)鍵詞的樣本分句的 分詞結(jié)果所提取得到的;
[0231] 特征輸入模塊760,被配置為將原始信息的特征集合輸入訓(xùn)練后的分類器中進行 預(yù)測,分類器是預(yù)先根據(jù)指定特征集合中的特征詞構(gòu)建的分類器;
[0232] 結(jié)果獲取模塊780,被配置為獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于 目標類別或不屬于目標類別。
[0233] 綜上所述,本實施例提供的類型識別裝置,通過指定特征集合來提取分句中的特 征詞,作為原始信息的特征集合,然后將該特征集合輸入至訓(xùn)練后的分類器中預(yù)測,該分類 器是預(yù)先根據(jù)指定特征集合中的特征詞構(gòu)建的分類器;解決了單純使用生日關(guān)鍵字進行短 信類別分析時,識別結(jié)果不準確的問題;由于指定特征集合中的特征詞是根據(jù)攜帶有目標 關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的,所以該分類器能夠?qū)y帶有目標關(guān)鍵詞的分 句做出較為準確的預(yù)測,達到了識別結(jié)果較為準確的效果。
[0234] 圖8是根據(jù)一示例性實施例示出的一種類型識別裝置的框圖,如圖8所示,該類型 識別裝置包括但不限于:
[0235] 原始提取模塊720,被配置為從原始信息中提取攜帶有目標關(guān)鍵字的分句;
[0236] 特征提取模塊740,被配置為根據(jù)提取出的分句中屬于指定特征集合的特征詞,生 成原始信息的特征集合,指定特征集合中的特征詞是根據(jù)攜帶有目標關(guān)鍵詞的樣本分句的 分詞結(jié)果所提取得到的;
[0237] 特征輸入模塊760,被配置為將原始信息的特征集合輸入訓(xùn)練后的分類器中進行 預(yù)測,分類器是預(yù)先根據(jù)指定特征集合中的特征詞構(gòu)建的分類器;
[0238] 結(jié)果獲取模塊780,被配置為獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于 目標類別或不屬于目標類別。
[0239] 可選地,特征輸入模塊760,包括:
[0240] 計算子模塊762,被配置為將原始信息的特征集合中的每個特征詞,輸入訓(xùn)練后的 樸素貝葉斯分類器中,計算原始信息屬于目標類別的第一預(yù)測概率和原始信息不屬于目標 類別的第二預(yù)測概率;
[0241] 預(yù)測子模塊764,被配置為根據(jù)第一預(yù)測概率和第二預(yù)測概率的大小關(guān)系,預(yù)測原 始信息是否屬于目標類別;
[0242] 其中,訓(xùn)練后的樸素貝葉斯分類器中包括每個特征詞的第一條件概率和第二條件 概率,第一條件概率是攜帶有特征詞的分句屬于目標類別的概率,第二條件概率是攜帶有 特征詞的分句不屬于目標類別的概率。
[0243] 可選地,該裝置還包括:
[0244] 信息提取模塊790,被配置為在預(yù)測出原始信息屬于目標類別時,從原始信息中提 取目標信息。
[0245] 可選地,目標信息是生日日期;
[0246] 信息提取模塊790,被配置為通過正則表達式從原始信息中提取生日日期;
[0247] 或,
[0248] 信息提取模塊790,被配置為將原始信息的接收日期提取為生日日期。
[0249] 綜上所述,本實施例提供的類型識別裝置,通過指定特征集合來提取分句中的特 征詞,作為原始信息的特征集合,然后將該特征集合輸入至訓(xùn)練后的分類器中預(yù)測,該分類 器是預(yù)先根據(jù)指定特征集合中的特征詞構(gòu)建的分類器;解決了單純使用生日關(guān)鍵字進行短 信類別分析時,識別結(jié)果不準確的問題;由于指定特征集合中的特征詞是根據(jù)攜帶有目標 關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的,所以該分類器能夠?qū)y帶有目標關(guān)鍵詞的分 句做出較為準確的預(yù)測,達到了識別結(jié)果較為準確的效果。
[0250] 本實施例提供的類型識別裝置,還通過在預(yù)測出原始信息屬于目標類別后,從原 始信息中提取目標信息,實現(xiàn)對生日日期、出行日期之類的目標信息的提取,為后續(xù)自動生 成提醒事項、日歷標記等功能提供數(shù)據(jù)支持。
[0251 ] 關(guān)于上述實施例中的裝置,其中各個模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法 的實施例中進行了詳細描述,此處將不做詳細闡述說明。
[0252] 本公開一示例性實施例提供了一種分類器訓(xùn)練裝置,能夠?qū)崿F(xiàn)本公開提供的分 類器訓(xùn)練方法,該分類器訓(xùn)練裝置包括:處理器、用于存儲處理器可執(zhí)行指令的存儲器;其 中,處理器被配置為:
[0253] 從樣本信息中提取攜帶有目標關(guān)鍵字的樣本分句;
[0254] 根據(jù)每條樣本分句是否屬于目標類別,對樣本分句進行二值標注,得到樣本訓(xùn)練 集;
[0255] 對樣本訓(xùn)練集中的每個樣本分句進行分詞,得到若干個詞語;
[0256] 從若干個詞語中提取出指定特征集合,指定特征集合包括至少一個特征詞;
[0257] 根據(jù)指定特征集合中的特征詞構(gòu)建分類器;
[0258] 根據(jù)樣本訓(xùn)練集中的二值標注結(jié)果對分類器進行訓(xùn)練。
[0259] 本公開一示例性實施例提供了一種類型識別裝置,能夠?qū)崿F(xiàn)本公開提供的類型識 別方法,該類型識別裝置包括:處理器、用于存儲處理器可執(zhí)行指令的存儲器;其中,處理 器被配置為:
[0260] 從原始信息中提取攜帶有目標關(guān)鍵字的分句;
[0261] 根據(jù)提取出的分句中屬于指定特征集合的特征詞,生成原始信息的特征集合,指 定特征集合中的特征詞是根據(jù)攜帶有目標關(guān)鍵詞的樣本分句的分詞結(jié)果所提取得到的;
[0262] 將原始信息的特征集合輸入訓(xùn)練后的分類器中進行預(yù)測,分類器是預(yù)先根據(jù)指定 特征集合中的特征詞構(gòu)建的分類器;
[0263] 獲取分類器的預(yù)測結(jié)果,預(yù)測結(jié)果表征原始信息屬于目標類別或不屬于目標類 別。
[0264] 圖9是根據(jù)一示例性實施例示出的一種用分類器訓(xùn)練裝置或類型識別裝置的框 圖。例如,裝置900可以是移動電話,計算機,數(shù)字廣播終端,消息收發(fā)設(shè)備,游戲控制臺,平 板設(shè)備,醫(yī)療設(shè)備,健身設(shè)備,個人數(shù)字助理等。
[0265] 參照圖9,裝置900可以包括以下一個或多個組件:處理組件902,存儲器904,電 源組件906,多媒體組件908,音頻組件910,輸入/輸出(I/O)接口 912,傳感器組件914,以 及通信組件916。
[0266] 處理組件902通??刂蒲b置900的整體操作,諸如與顯示,電話呼叫,數(shù)據(jù)通信,相 機操作和記錄操作相關(guān)聯(lián)的操作。處理組件902可以包括一個或多個處理器918來執(zhí)行指 令,以完成上述的方法的全部或部分步驟。此外,處理組件902可以包括一個或多個模塊, 便于處理組件902和其他組件之間的交互。例如,處理組件902可以包括多媒體模塊,以方 便多媒體組件908和處理組件902之間的交互。
[0267] 存儲器904被配置為存儲各種類型的數(shù)據(jù)以支持在裝置900的操作。這些數(shù)據(jù)的 示例包括用于在裝置900上操作的任何應(yīng)用程序或方法的指令,聯(lián)系人數(shù)據(jù),電話簿數(shù)據(jù), 消息,圖片,視頻等。存儲器904可以由任何類型的易失性或非易失性存儲設(shè)備或者它們的 組合實現(xiàn),如靜態(tài)隨機存取存儲器(SRAM),電可擦除可編程只讀存儲器(EEPROM),可擦除 可編程只讀存儲器(EPROM),可編程只讀存儲器(PROM),只讀存儲器(ROM),磁存儲器,快閃 存儲器,磁盤或光盤。
[0268] 電源組件906為裝置900的各種組件提供電力。電源組件906可以包括電源管理 系統(tǒng),一個或多個電源,及其他與為裝置900生成、管理和分配電力相關(guān)聯(lián)的組件。
[0269] 多媒體組件908包括在裝置900和用戶之間的提供一個輸出接口的屏幕。在一些 實施例中,屏幕可以包括液晶顯示器(LCD)和觸摸面板(TP)。如果屏幕包括觸摸面板,屏幕 可以被實現(xiàn)為觸摸屏,以接收來自用戶的輸入信號。觸摸面板包括一個或多個觸摸傳感器 以感測觸摸、滑動和觸摸面板上的手勢。觸摸傳感器可以不僅感測觸摸或滑動動作的邊界, 而且還檢測與觸摸或滑動操作相關(guān)的持續(xù)時間和壓力。在一些實施例中,多媒體組件908 包括一個前置攝像頭和/或后置攝像頭。當裝置900處于操作模式,如拍攝模式或視頻模 式時,前置攝像頭和/或后置攝像頭可以接收外部的多媒體數(shù)據(jù)。每個前置攝像頭和后置 攝像頭可以是一個固定的光學(xué)透鏡系統(tǒng)或具有焦距和光學(xué)變焦能力。
[0270] 音頻組件910被配置為輸出和/或輸入音頻信號。例如,音頻組件910包括一個 麥克風(fēng)(MIC),當裝置900處于操作模式,如呼叫模式、記錄模式和語音識別模式時,麥克風(fēng) 被配置為接收外部音頻信號。所接收的音頻信號可以被進一步存儲在存儲器904或經(jīng)由通 信組件916發(fā)送。在一些實施例中,音頻組件910還包括一個揚聲器,用于輸出音頻信號。 [0271 ] I/O接口 912為處理組件902和外圍接口模塊之間提供接口,上述外圍接口模塊可 以是鍵盤,點擊輪,按鈕等。這些按鈕可包括但不限于:主頁按鈕、音量按鈕、啟動按鈕和鎖 定按鈕。
[0272] 傳感器組件914包括一個或多個傳感器,用于為裝置900提供各個方面的狀態(tài)評 估。例如,傳感器組件914可以檢測到裝置900的打開/關(guān)閉狀態(tài),組件的相對定位,例如 組件為裝置900的顯示器和小鍵盤,傳感器組件914還可以檢測裝置900或裝置900 -個 組件的位置改變,用戶與裝置900接觸的存在或不存在,裝置900方位或加速/減速和裝置 900的溫度變化。傳感器組件914可以包括接近傳感器,被配置用來在沒有任何的物理接觸 時檢測附近物體的存在。傳感器組件914還可以包括光傳感器,如CMOS或CXD圖像傳感器, 用于在成像應(yīng)用中使用。在一些實施例中,該傳感器組件914還可以包括加速度傳感器,陀 螺儀傳感器,磁傳感器,壓力傳感器或溫度傳感器。
[0273] 通信組件916被配置為便于裝置900和其他設(shè)備之間有線或無線方式的通信。裝 置900可以接入基于通信標準的無線網(wǎng)絡(luò),如Wi-Fi,2G或3G,或它們的組合。在一個示例 性實施例中,通信組件916經(jīng)由廣播信道接收來自外部廣播管理系統(tǒng)的廣播信號