一種指令識別方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及一種指令識別方法,其特征在于,包括步驟:S1,對指令采用兩種方法進行切分,得到兩種切分結果;S2,判斷切分結果是否相同;S3,確定歧義字段、消除歧義,得到最終切分結果;S4,將最終切分結果進行指標量化,得到關鍵詞;S5,將關鍵詞與分類關聯(lián)表進行匹配;S6,判斷是否每一個關鍵詞能夠與分類關聯(lián)表中類別進行匹配;S7,對無法匹配的關鍵詞進行分類;S8,確定指令最終分類。本發(fā)明實現(xiàn)了對用戶搜索請求的指令識別;通過對用戶搜索請求進行分詞處理,提取關鍵詞以及對搜索請求進行分類處理,獲知用戶搜索指令所屬類別,進而得到用戶現(xiàn)時需求。
【專利說明】
一種指令識別方法及系統(tǒng)
技術領域
[0001 ]本發(fā)明涉及數(shù)據(jù)分類領域,具體涉及一種指令識別方法及系統(tǒng)。 技術背景
[0002] 隨著實時營銷的不斷發(fā)展,對用戶需求分析成為及其重要的一部分。通過對用戶 搜索請求進行語義識別,分析挖掘其請求,獲取用戶現(xiàn)時需求,從而可向用戶實時推送相關 需求內(nèi)容。
[0003] 語義識別,就是對用戶搜索內(nèi)容文字進行分詞處理,獲取有效關鍵詞并對關鍵詞 進行分類處理,進而得出用戶需求類別。
[0004] 所謂分詞,就是將句子切分成一個一個單獨的詞。是將連續(xù)的句子按照一定的規(guī) 范重新組合成詞序列的過程。以中文分詞技術為例,分詞技術的目標就是將一句話切分為 一個一個單獨的中文詞語。而將句子切分為單獨的詞,是實現(xiàn)機器識別人類語言的第一步, 因此分詞技術至關重要。
[0005] 所謂關鍵詞,就是對分詞處理后獲得的所有詞語進行重要性分析,超過重要性閥 值的詞語即為關鍵詞。
[0006] 但是目前的指令分析、指令識別技術對用戶指令分析的不夠準確,基于這種不夠 準確的分析、識別技術所得到的結論進行的后期處理也會產(chǎn)生較大的偏差。
[0007] 鑒于上述缺陷,本發(fā)明創(chuàng)作者經(jīng)過長時間的研究和實踐終于獲得了本發(fā)明。
【發(fā)明內(nèi)容】
[0008] 為解決上述技術缺陷,本發(fā)明采用的技術方案在于,提供包括步驟:
[0009] S1,對指令采用兩種方法進行切分,得到兩種切分結果;
[0010] S2,判斷切分結果是否相同,若否,則執(zhí)行下述步驟S3;若是,則得到最終切分結 果,執(zhí)行下述步驟S4;
[0011] S3,確定切分方式分歧,消除分歧得到最終切分結果;
[0012] S4,將最終切分結果進行指標量化,得到若干關鍵詞;
[0013] S5,將關鍵詞與分類關聯(lián)表進行匹配;
[0014] S6,判斷每一個關鍵詞是否能夠與分類關聯(lián)表中類別進行匹配,若否,執(zhí)行下述步 驟S7;若是,執(zhí)行下述步驟S8;
[0015] S7,對無法匹配的關鍵詞進行分類;
[0016] S8,確定指令最終分類。
[0017] 較佳的,所述步驟S1中,所述兩種方法分別為正向最大匹配法與逆向最大匹配法。
[0018] 較佳的,所述步驟S3具體為:確定兩種切分結果出現(xiàn)分歧的分歧字段位置,對該分 歧字段位置進行支持性判定,選定支持度因子較高的切分方法對應的切分結果作為最終切 分結果。
[0019] 較佳的,所述步驟S3中,所述支持度因子通過下式確定:
[0020]
[0021]
[0022] 其中,S(123)為信息庫中字段1、字段2、字段3同時出現(xiàn)的概率,S(12)為字段1與字 段2同時出現(xiàn)的概率,S(23)為字段2與字段3同時出現(xiàn)的概率,S(l/23)為將字段123切分為 1/23情況的支持度因子,S(12/3)為將字段123切分為12/3情況的支持度因子。
[0023] 較佳的,還包括將無法匹配關鍵詞的分類結果寫入分類關聯(lián)表的步驟。
[0024]較佳的,所述步驟S7具體為:
[0025] 將與分類關聯(lián)表中詞語無法獲得匹配的關鍵詞轉化為關鍵詞詞向量,將分類關聯(lián) 表中的所有類別轉換成類別詞向量,以類別詞向量為中心,對關鍵詞詞向量進行K均值聚 類,再根據(jù)設定的聚類結果,將無法匹配的關鍵詞進行分類。
[0026] -種實現(xiàn)所述方法的指令識別系統(tǒng),包括,一雙向分詞模塊,用于對指令采用兩種 方法進行切分,得到兩種切分結果;
[0027] -分詞判斷模塊,用于判定切分結果是否相同;
[0028] -分歧消除模塊,用于確定切分方式分歧,消除分歧得到最終切分結果;
[0029] -重要性統(tǒng)計模塊,用于將切分結果進行指標量化,得到關鍵詞;
[0030] -關聯(lián)表匹配模塊,用于將關鍵詞與分類關聯(lián)表進行匹配;
[0031] -匹配判斷模塊,用于判斷每一個關鍵詞是否能夠與分類關聯(lián)表中類別進行匹 配;
[0032] -聚類分類單元,用于對無法匹配的關鍵詞進行分類;
[0033] -分類確定單元,用于確定指令最終分類。
[0034] 較佳的,還包括一更新模塊,用于將無法匹配關鍵詞的分類結果寫入分類關聯(lián)表。
[0035] 與現(xiàn)有技術相比較,本發(fā)明的有益效果在于:本發(fā)明實現(xiàn)了對用戶搜索請求的指 令識別;通過對用戶搜索請求進行分詞處理,提取關鍵詞以及對搜索請求進行分類處理,獲 知用戶搜索指令所屬類別,進而得到用戶現(xiàn)時需求;運用兩種分詞法進行分詞以及根據(jù)量 化法消除歧義,使分詞結果更加準確無誤;運用關聯(lián)表匹配及聚類進行分類,使分類更加速 度,更加準確;為實時營銷提供快速準確的用戶需求。
【附圖說明】
[0036] 圖1為本發(fā)明所述指令識別方法流程圖。
【具體實施方式】
[0037] 為便于本領域技術人員對本發(fā)明的技術方案和有益效果進行理解,特結合附圖對
【具體實施方式】進行如下描述。
[0038] 本發(fā)明所述的指令識別方法,包括如下步驟:
[0039] S1:對指令采用兩種方法進行切分,得到兩種切分結果;
[0040] 獲取用戶搜索請求,對其分別運用兩種不同的方法進行分詞,獲得相應切分結果, 因為同時存在使用兩種不同的匹配方法進行分詞,所以存在兩種分類結構相同以及兩種分 類結果不同的情況,所以,在步驟S1結束后,進入步驟S2的判斷步驟。
[0041] 優(yōu)選的,所述步驟S1采用的兩種不同方法為正向最大匹配法與逆向最大匹配法。 [0042] 正向最大匹配法與逆向最大匹配法分別從正向、逆向匹配詞匯,得到分類結果,以 "美寶蓮的口紅怎么樣"為例,正向最大匹配法從正向最大開始匹配,逐漸濾掉不是詞匯的 構成方式,例如:
[0043] "美寶蓮的口紅怎么樣"不是一個詞,將"樣"字去掉,仍然不是一個詞,如此經(jīng)過多 次最后一個字的刪除,得到"美寶蓮"是單獨的詞,從而得到"美寶蓮/的/ 口紅/怎么樣"這個 切分結果;
[0044] 對于逆向最大匹配法,先判斷"美寶蓮的口紅怎么樣"不是一個詞,將"美"去掉,再 判斷仍然不是一個詞,再分兩次將"寶""蓮"去掉,每次從前面刪除一個字,得到"怎么樣"是 獲得的第一個詞;再對"美寶蓮的口紅"進行逆向最大匹配,從而得到逆向最大匹配的切分 結果"美寶蓮/的/口紅/怎么樣"
[0045] S2:判斷切分結果是否相同;
[0046] 判斷步驟S1中根據(jù)不同的匹配算法得到的切分結果是否相同,若是,則得到最終 切分結果,執(zhí)行步驟S4,若否,則執(zhí)行步驟S3。
[0047] S3:確定切分方式分歧,消除分歧得到最終切分結果;
[0048] 若所述步驟S2中確定切分結果不同,則能夠判定,本次需要進行切分的指令是存 在分歧的,對于這種具有分歧的詞匯,得到了兩種不同的切分結果,步驟S3對于這兩種不同 的切分結果進行對比、評判,通過人工判別或者算法判別選取更合理的切分方法,將該切分 方法得到的切分結果確定為最終切分結果,并執(zhí)行步驟S4。
[0049] S4:將最終切分結果進行指標量化,得到若干關鍵詞。
[0050] 對最終切分結果進行指標量化,賦予最終切分結果一個可以衡量的參數(shù),并且根 據(jù)該參數(shù)進行排序,取較優(yōu)的作為關鍵詞。
[0051] 例如,可以對切分結果進行重要程度排序、針對程度排序、頻率排序、期望值排序 等,這里給出重要程度排序的方法:對確定的切分結果中所有詞語運用TF-I DF算法計算詞 語重要程度,根據(jù)詞語的重要程度大小對其進行從大到小的排列,根據(jù)預設的閥值(如重要 程度閥值或排列閥值)提取關鍵詞,其中TF-IDF算法為term frequency-inverse document frequency算法,是統(tǒng)計中常用算法。
[0052] S5:將關鍵詞與分類關聯(lián)表進行匹配。
[0053]分類關聯(lián)表本質(zhì)是一個數(shù)據(jù)表,其中預先設定好眾多詞語以及詞語對應的類別, 并且事先存放好,當步驟S4結束后,將切分結果進行重要性處理后,得到若干關鍵詞,在所 述步驟S5中對關鍵詞與分類關聯(lián)表進行匹配,理想情況下是關鍵詞在分類關聯(lián)表中存在, 則能夠順利將分類關鍵詞進行分類。但是一張分類關聯(lián)表的大小是有限的,預設的值也是 有限的,并且詞匯是人類創(chuàng)造出來的,世界上不斷有新的詞匯誕生。
[0054]為了讓分類關聯(lián)表具有學習、自我完善的能力,對于那些分類關聯(lián)表中不存在的 詞匯,采用下述方法進行補充。
[0055] S6:判斷是否每一個關鍵詞能夠與分類關聯(lián)表中類別進行匹配,若是,執(zhí)行步驟 S8;若否,執(zhí)行步驟S7;
[0056] 步驟S6中,首先對關鍵詞是否能夠完全與關聯(lián)表中的數(shù)據(jù)進行良好的匹配進行一 個判斷,若關鍵詞中存在分類關聯(lián)表中不存在的關鍵詞,則給出否定判斷;若關鍵詞中的所 有,都能夠在分類關聯(lián)表中找到對應存在,則給出肯定判斷。
[0057] S7:對無法匹配的關鍵詞進行分類。
[0058] 將與分類關聯(lián)表中詞語無法獲得匹配的關鍵詞轉化為關鍵詞詞向量,將分類關聯(lián) 表中的所有類別轉換成類別詞向量,以類別詞向量為中心,對關鍵詞詞向量進行K均值聚 類,再根據(jù)設定的聚類結果,將無法匹配的關鍵詞進行分類,即最終詞語向量歸屬于的聚類 中心所對應的類別,就是該詞語的類別。K均值聚類為常用聚類算法。
[0059] S8:確定指令最終分類。
[0060] 所有詞語分類完成后,統(tǒng)計各個類別所包含的關鍵詞數(shù)量,選取數(shù)量最多的一類 作為該搜索指令的類別,將用戶搜索請求及其所屬類別形成列表并存儲。
[0061] 作為一種改進的方案,還包括步驟S8后的步驟S9,將無法匹配關鍵詞的分類結果 寫入分類關聯(lián)表。
[0062] 實施例二
[0063] 實施例二與實施例一相似,不同之處在于,所述步驟S3采用如下方法:
[0064] 計算歧義字段的支持度因子S(supp〇rt),根據(jù)支持度因子比較結果,確定切分結 果,如:對有歧義的123字段存在兩種切分結果:1/23或12/3,此時計算并比較兩者支持度因 子:
[0065]
[0066]
[0067]在上述各式中,S(123)為本信息庫中字段1、字段2、字段3同時出現(xiàn)的概率,S(12) 為字段1與字段2同時出現(xiàn)的概率,S(23)為字段2與字段3同時出現(xiàn)的概率,信息庫為一數(shù)據(jù) 庫,用于存放歷史指令信息及指令識別信息合集。若S( 1/23)大于S( 12/3),則選擇第一種切 分結果作為最終切分結果,否則選擇第二種切分結果作為最終切分結果,從而確定最終切 分結果。
[0068]本發(fā)明還給出了實現(xiàn)上述方法的系統(tǒng)。
[0069]包括:
[0070] -雙向分詞模塊,用于對指令進行雙向切分;
[0071] -分詞判斷模塊,用于判定切分結果是否相同;
[0072] -歧義消除模塊,用于確定歧義字段,消除歧義;
[0073] -重要性統(tǒng)計模塊,用于將切分結果進行指標量化,得到關鍵詞;
[0074] -關聯(lián)表匹配模塊,用于將關鍵詞與分類關聯(lián)表進行匹配;
[0075] -匹配判斷模塊,用于判斷是否每一個關鍵詞能夠與分類關聯(lián)表中類別進行匹 配;
[0076] -聚類分類單元,用于對無法匹配的關鍵詞進行分類;
[0077] -分類確定單元,用于確定指令最終分類。
[0078] -更新模塊,用于將將無法匹配關鍵詞的分類結果寫入分類關聯(lián)表的步驟。
[0079]以上所述僅為本發(fā)明的較佳實施例,對本發(fā)明而言僅僅是說明性的,而非限制性 的。本專業(yè)技術人員理解,在本發(fā)明權利要求所限定的精神和范圍內(nèi)可對其進行許多改變 和修改,甚至等效,但都將落入本發(fā)明的保護范圍內(nèi)。
【主權項】
1. 一種指令識別方法,其特征在于,包括步驟: S1,對指令采用兩種方法進行切分,得到兩種切分結果; S2,判斷切分結果是否相同,若否,則執(zhí)行下述步驟S3;若是,則得到最終切分結果,執(zhí) 行下述步驟S4; S3,確定切分方式分歧,消除分歧得到最終切分結果; S4,將最終切分結果進行指標量化,得到若干關鍵詞; S5,將關鍵詞與分類關聯(lián)表進行匹配; S6,判斷每一個關鍵詞是否能夠與分類關聯(lián)表中類別進行匹配,若否,執(zhí)行下述步驟 S7;若是,執(zhí)行下述步驟S8; S7,對無法匹配的關鍵詞進行分類; S8,確定指令最終分類。2. 如權利要求1所述的指令識別方法,其特征在于,所述步驟S1中,所述兩種方法分別 為正向最大匹配法與逆向最大匹配法。3. 如權利要求1所述的指令識別方法,其特征在于,所述步驟S3具體為:確定兩種切分 結果出現(xiàn)分歧的分歧字段位置,對該分歧字段位置進行支持性判定,選定支持度因子較高 的切分方法對應的切分結果作為最終切分結果。4. 如權利要求3所述的指令識別方法,其特征在于,所述步驟S3中,所述支持度因子通 過下式確定:其中,SQ23)為信息庫中字段1、字段2、字段3同時出現(xiàn)的概率,S(12)為字段1與字段2 同時出現(xiàn)的概率,S(23)為字段2與字段3同時出現(xiàn)的概率,S(l/23)為將字段123切分為1/23 情況的支持度因子,S(12/3)為將字段123切分為12/3情況的支持度因子。5. 如權利要求1-4中任一項所述的指令識別方法,其特征在于,還包括將無法匹配關鍵 詞的分類結果寫入分類關聯(lián)表的步驟。6. 如權利要求1-4中任一項所述的指令識別方法,其特征在于,所述步驟S7具體為: 將與分類關聯(lián)表中詞語無法獲得匹配的關鍵詞轉化為關鍵詞詞向量,將分類關聯(lián)表中 的所有類別轉換成類別詞向量,W類別詞向量為中屯、,對關鍵詞詞向量進行K均值聚類,再 根據(jù)設定的聚類結果,將無法匹配的關鍵詞進行分類。7. -種實現(xiàn)權利要求1~6中所述方法的指令識別系統(tǒng),其特征在于,包括,一雙向分詞 模塊,用于對指令采用兩種方法進行切分,得到兩種切分結果; 一分詞判斷模塊,用于判定切分結果是否相同; 一分歧消除模塊,用于確定切分方式分歧,消除分歧得到最終切分結果; 一重要性統(tǒng)計模塊,用于將切分結果進行指標量化,得到關鍵詞; 一關聯(lián)表匹配模塊,用于將關鍵詞與分類關聯(lián)表進行匹配; 一匹配判斷模塊,用于判斷每一個關鍵詞是否能夠與分類關聯(lián)表中類別進行匹配; 一聚類分類單元,用于對無法匹配的關鍵詞進行分類; 一分類確定單元,用于確定指令最終分類。8.如權利要求7中所述的指令識別系統(tǒng),其特征在于,還包括一更新模塊,用于將無法 匹配關鍵詞的分類結果寫入分類關聯(lián)表。
【文檔編號】G06F17/30GK105975480SQ201610250478
【公開日】2016年9月28日
【申請日】2016年4月20日
【發(fā)明人】李青海, 簡宋全, 侯大勇, 鄒立斌
【申請人】廣州精點計算機科技有限公司