詞典更新方法及裝置的制造方法
【技術領域】
[0001] 本發(fā)明涉及智能交互領域,尤其涉及一種詞典更新方法及裝置。
【背景技術】
[0002] 在中文信息處理的眾多領域,均需要基于詞典完成對應的功能。例如,在智能檢索 系統(tǒng)或智能對話系統(tǒng)中,通過分詞、問題檢索、相似度匹配、確定檢索結果或智能對話的答 案等,其中每個過程都是通過詞語為最小單位進行計算,計算的基礎為詞語詞典,所以詞語 詞典對于整個系統(tǒng)的性能有著很大的影響。
[0003] 社會文化的進步和變迀、經(jīng)濟商業(yè)的快速發(fā)展,往往帶動著語言的變化,而最快速 體現(xiàn)語言變化的就是新詞的出現(xiàn)。特別是在特定領域內,是否能在新詞出現(xiàn)后及時更新詞 語詞典,對詞語詞典所在的智能對話系統(tǒng)的系統(tǒng)效率有著決定性的影響。
[0004] 現(xiàn)有技術中都是采用人工的方式向詞典中添加新詞。詞典中包含單獨詞,新詞也 就是新發(fā)現(xiàn)的單獨詞至少有以下三個來源:客戶提供的領域內的新詞;通過客戶提供的語 料發(fā)現(xiàn)的新詞;運營過程中發(fā)現(xiàn)的新詞。
[0005] 圖1是現(xiàn)有技術中一種更新詞典的流程圖,包括:
[0006] S11,人工通過閱讀發(fā)現(xiàn)候選數(shù)據(jù)串;
[0007] S12,通過檢索判斷候選數(shù)據(jù)串是否包括在已有的詞典中;
[0008] S13,當候選數(shù)據(jù)串未包括在詞典中時,將該候選數(shù)據(jù)串作為新的單獨詞添加到已 有詞典中從而形成新的詞典。
[0009] 但是上述人工的工作方式導致詞典的維護成本高,效率低,且容易發(fā)生遺漏,最終 使得新詞不能及時添加到詞典中。
【發(fā)明內容】
[0010] 本發(fā)明解決的技術問題是如何降低詞典維護成本,提升詞典更新效率。
[0011] 為解決上述技術問題,本發(fā)明實施例提供一種詞典更新方法,所述詞典更新方法 包括:
[0012] 對接收到的語料進行預處理,以得到文本數(shù)據(jù);
[0013] 對所述文本數(shù)據(jù)進行分行處理,得到語句數(shù)據(jù);
[0014] 依照基礎詞典中包含的單獨詞對所述語句數(shù)據(jù)進行分詞處理,以得到分詞后的詞 語數(shù)據(jù);
[0015] 對相鄰的所述分詞后的詞語數(shù)據(jù)進行組合處理,以生成候選數(shù)據(jù)串;
[0016] 對所述候選數(shù)據(jù)串進行判斷處理,以發(fā)現(xiàn)新詞;
[0017] 若發(fā)現(xiàn)新詞,則將所述新詞添加至所述基礎詞典,以更新所述基礎詞典。
[0018] 可選的,所述生成候選數(shù)據(jù)串,包括:利用Bigram模型將同一行的語句數(shù)據(jù)中相 鄰詞語作為候選數(shù)據(jù)串。
[0019] 可選的,所述詞典更新方法,還包括:依照更新后的基礎詞典重新對所述語句數(shù)據(jù) 進行分詞處理、組合處理和判斷處理,并利用每次發(fā)現(xiàn)的新詞不斷更新所述基礎詞典。
[0020] 可選的,所述對所述候選數(shù)據(jù)串進行判斷處理,以發(fā)現(xiàn)新詞包括:內部判斷和/或 外部判斷;
[0021 ] 所述內部判斷包括:計算候選數(shù)據(jù)串成為新詞的概率特征值,所述候選數(shù)據(jù)串成 為新詞的概率特征值在預設范圍內時,該候選數(shù)據(jù)串為新詞;
[0022] 所述外部判斷包括:計算所述候選數(shù)據(jù)串中各詞語與其外側詞語構成新詞的概率 特征值,去除各詞語與其外側詞語構成新詞的概率特征值在預設范圍外的候選數(shù)據(jù)串,剩 余的候選數(shù)據(jù)串為新詞。
[0023] 可選的,所述計算候選數(shù)據(jù)串成為新詞的概率特征值包括以下至少一種:
[0024] 計算候選數(shù)據(jù)串出現(xiàn)的頻次、頻率或根據(jù)所述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計算 得到的數(shù)值;
[0025] 計算候選數(shù)據(jù)串中各個詞語數(shù)據(jù)間的互信息;
[0026] 計算候選數(shù)據(jù)串的邊界詞語數(shù)據(jù)與內側詞語數(shù)據(jù)的信息熵。
[0027] 可選的,當需計算的所述候選數(shù)據(jù)串成為新詞的概率特征值的種類多于一種時, 判斷計算次序在前的概率特征值是否在預設范圍內,僅對概率特征值在預設范圍內的候選 數(shù)據(jù)串進行次序在后的概率特征值的計算。
[0028] 可選的,所述對所述候選數(shù)據(jù)串進行判斷處理,以發(fā)現(xiàn)新詞依次包括:
[0029] 計算所述候選數(shù)據(jù)串的頻次,去除所述頻次在預設范圍外的候選數(shù)據(jù)串;
[0030] 計算剩余的所述候選數(shù)據(jù)串的互信息,去除所述互信息在預設范圍外的候選數(shù)據(jù) 串;
[0031] 計算剩余的所述候選數(shù)據(jù)串邊界詞語數(shù)據(jù)與內側詞語數(shù)據(jù)的信息熵,去除所述信 息熵在預設范圍外的候選數(shù)據(jù)串;
[0032] 計算剩余的所述候選數(shù)據(jù)串邊界詞語數(shù)據(jù)與外側詞語數(shù)據(jù)的信息熵,去除所述信 息熵在預設范圍外的候選數(shù)據(jù)串。
[0033] 可選的,所述計算所述候選數(shù)據(jù)串中各詞語與其外側詞語構成新詞的概率特征值 包括:計算候選數(shù)據(jù)串的邊界詞語數(shù)據(jù)與外側詞語數(shù)據(jù)的信息熵。
[0034] 可選的,所述對接收到的語料進行預處理,以得到文本數(shù)據(jù)包括:將語料的格式統(tǒng) 一為文本格式;過濾臟詞、敏感詞和停用詞中的一種或多種。
[0035] 可選的,所述分詞處理采用字典雙向最大匹配法、HMM方法和CRF方法中的一種或 多種。
[0036] 可選的,所述詞典更新方法還包括:設定候選數(shù)據(jù)串的長度范圍,以排除長度在所 述長度范圍之外的候選數(shù)據(jù)串。
[0037] 本發(fā)明實施例還提供一種詞典更新裝置,包括:預處理單元、分行處理單元、分詞 處理單元、組合處理單元、新詞發(fā)現(xiàn)單元以及更新單元;其中:
[0038] 所述預處理單元,適于對接收到的語料進行預處理,以得到文本數(shù)據(jù);
[0039] 所述分行處理單元,適于對所述文本數(shù)據(jù)進行分行處理,得到語句數(shù)據(jù);
[0040] 所述分詞處理單元,適于依照基礎詞典中包含的詞語數(shù)據(jù)對所述語句數(shù)據(jù)進行分 詞處理,以得到分詞后的詞語數(shù)據(jù);
[0041] 所述組合處理單元,適于對相鄰的所述分詞后的詞語數(shù)據(jù)進行組合處理,以生成 候選數(shù)據(jù)串;
[0042] 所述新詞發(fā)現(xiàn)單元,適于對所述候選數(shù)據(jù)串進行判斷處理,以發(fā)現(xiàn)新詞;
[0043] 所述更新單元,適于在發(fā)現(xiàn)新詞后,所述新詞添加至所述基礎詞典,以更新所述基 礎詞典。
[0044] 可選的,所述組合處理單元適于利用Bigram模型將同一行的語句數(shù)據(jù)中相鄰詞 語作為候選數(shù)據(jù)串。
[0045] 可選的,所述詞典更新裝置還包括:更新迭代單元,適于在所述基礎詞典更新后指 示所述分詞處理單元基于更新后的基礎詞典,對所述語句數(shù)據(jù)進行分詞處理,指示所述組 合處理單元生成候選數(shù)據(jù)串,指示所述新詞發(fā)現(xiàn)單元對所述候選數(shù)據(jù)串進行判斷處理,以 發(fā)現(xiàn)新詞,并指示所述更新單元利用發(fā)現(xiàn)的新詞更新所述基礎詞典。
[0046] 可選的,所述新詞發(fā)現(xiàn)單元包括:內部判斷單元和/或外部判斷單元;其中:
[0047] 所述內部判斷單元,適于計算候選數(shù)據(jù)串成為新詞的概率特征值,所述候選數(shù)據(jù) 串成為新詞的概率特征值在預設范圍內時,該候選數(shù)據(jù)串為新詞;
[0048] 所述外部判斷單元,適于計算所述候選數(shù)據(jù)串中各詞語與其外側詞語構成新詞的 概率特征值,去除各詞語與其外側詞語構成新詞的概率特征值在預設范圍外的候選數(shù)據(jù) 串,剩余的候選數(shù)據(jù)串為新詞。
[0049] 可選的,所述內部判斷單元適于計算候選數(shù)據(jù)串成為新詞的概率特征值包括以下 至少一種:
[0050] 計算候選數(shù)據(jù)串出現(xiàn)的頻次、頻率或根據(jù)所述候選數(shù)據(jù)串出現(xiàn)的頻次和頻率計算 得到的數(shù)值;
[0051] 計算候選數(shù)據(jù)串中各個詞語數(shù)據(jù)間的互信息;
[0052] 計算候選數(shù)據(jù)串的邊界詞語數(shù)據(jù)與內側詞語數(shù)據(jù)的信息熵。
[0053] 可選的,當需計算的所述候選數(shù)據(jù)串成為新詞的概率特征值的種類多于一種時, 所述內部判斷單元適于判斷計算次序在前的概率特征值是否在預設范圍內,僅對概率特征 值在預設范圍內的候選數(shù)據(jù)串進行次序在后的概率特征值的計算。
[0054] 可選的,所述新詞發(fā)現(xiàn)單元包括:內部判斷單元和外部判斷單元,所述內部判斷單 元包括:頻次過濾單元、互信息過濾單元以及內部信息熵過濾單元;所述外部判斷單元包 括外部信息熵過濾單元;
[0055] 所述頻次過濾單元,適于計算所述候選數(shù)據(jù)串的頻次,去除所述頻次在預設范圍 外的候選數(shù)據(jù)串;
[0056] 所述互信息過濾單元,適于計算經(jīng)所述頻次過濾單元過濾后,剩余的所述候選數(shù) 據(jù)串的互信息,去除所述互信息在預設范圍外的候選數(shù)據(jù)串;
[0057] 內部信息熵過濾單元,適于計算經(jīng)所述互信息過濾單元過濾后,剩余的所述候選 數(shù)據(jù)串邊界詞語數(shù)據(jù)與內側詞語數(shù)據(jù)的信息熵,去除所述信息熵在預設范圍外的候選數(shù)據(jù) 串;
[0058] 所述外部信息熵過濾單元,適于計算經(jīng)所述內部信息熵過濾單元過濾后,剩余的 所述候選數(shù)據(jù)串邊界詞語數(shù)據(jù)與外側詞語數(shù)據(jù)的信息熵,去除所述信息熵在預設范圍外的 候選數(shù)據(jù)串。
[0059] 可選的,所述外部判斷單元適于計算候選數(shù)據(jù)串的邊界詞語數(shù)據(jù)與外側詞語數(shù)據(jù) 的信息熵。
[0060] 可選的,所述預處理單元適于將語料的格式統(tǒng)一為文本格式;過濾臟詞、敏感詞和 停用詞中的一種或多種。
[0061] 可選的,所述分詞處理單元適于采用字典雙向最大匹配法、HMM方法和CRF方法中 的一種或多種。
[006