1.一種詞庫生成方法,其特征在于,包括:
當(dāng)預(yù)設(shè)時間段到達(dá)時,獲取至少一個待分詞文檔;
按照第一預(yù)設(shè)劃分策略,將所述至少一個待分詞文檔劃分成至少一個第一字符串集合,其中,一個待分詞文檔對應(yīng)一個第一字符串集合;
根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與所述至少一個第一字符串集合中每個第一字符串集合對應(yīng)的第一詞語集合,得到至少一個第一詞語集合;
根據(jù)所述至少一個第一詞語集合,確定第一詞庫。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述預(yù)設(shè)內(nèi)聚模型和所述預(yù)設(shè)比較策略,確定與一個第一字符串集合對應(yīng)的所述第一詞語集合的方法包括:
根據(jù)所述預(yù)設(shè)內(nèi)聚模型,計算第一字符串的第一內(nèi)聚度,所述第一字符串為所述一個第一字符串集合中的任意一個字符串;
根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語;
當(dāng)判斷出所述第一字符串中存在所述第一詞語時,將所述第一字符串存儲至第一詞語集合中,直至判斷完所述一個第一字符串集合中的所有字符串,得到所述第一詞語集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述計算第一字符串的第一內(nèi)聚度,包括:
統(tǒng)計所述一個第一字符串集合的第一數(shù)量和所述第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,所述第一待分詞文檔為所述至少一個待分詞文檔中所述一個第一字符串集合對應(yīng)的待分詞文檔;
按照所述預(yù)設(shè)內(nèi)聚模型將所述第一字符串劃分成左部分和右部分;
在所述第一待分詞文檔中分別統(tǒng)計所述左部分的第三數(shù)量和所述右部分的第四數(shù)量;
根據(jù)所述第一數(shù)量、所述第二數(shù)量、所述第三數(shù)量和所述第四數(shù)量計算所述第一內(nèi)聚度。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語,包括:
獲取預(yù)設(shè)內(nèi)聚度閾值;
將所述第一內(nèi)聚度與所述預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較;
當(dāng)所述第一內(nèi)聚度大于所述預(yù)設(shè)內(nèi)聚度閾值時,判斷所述第一字符串中存在所述第一詞語;
當(dāng)所述第一內(nèi)聚度小于所述預(yù)設(shè)內(nèi)聚度閾值時,判斷所述第一字符串中不存在所述第一詞語。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取預(yù)設(shè)內(nèi)聚度閾值,包括:
選取N個無歧義基本詞;
在所述至少一個待分詞文檔中計算所述N個無歧義基本詞分別對應(yīng)的第三內(nèi)聚度集合;
將所述第三內(nèi)聚度集合劃分成至少一個區(qū)域,在所述至少一個區(qū)域中確定第四數(shù)量最多的第一區(qū)域,所述第四數(shù)量為所述第三內(nèi)聚度集合中所述第一區(qū)域內(nèi)的第三內(nèi)聚度的個數(shù);
根據(jù)所述第四數(shù)量和所述第三內(nèi)聚度計算所述第一區(qū)域中的內(nèi)聚度平均值,并將所述內(nèi)聚度平均值確定為所述預(yù)設(shè)內(nèi)聚度閾值。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述至少一個第一詞語集合,確定第一詞庫,包括:
根據(jù)所述至少一個第一詞語集合確定第一詞語庫;
判斷是否存在第二詞庫,所述第二詞庫為已經(jīng)存在的詞庫;
當(dāng)存在所述第二詞庫時,將所述第一詞語庫中的第二詞語與所述第二詞庫的第三詞語進(jìn)行匹配;
當(dāng)所述第二詞語與所述第三詞語匹配失敗時,將所述第二詞語添加至所述第二詞庫中;
當(dāng)不存在所述第二詞庫時,將所述第一詞語庫確定為所述第一詞庫。
7.一種詞庫生成裝置,其特征在于,所述裝置包括:
獲取單元,用于當(dāng)預(yù)設(shè)時間段到達(dá)時,獲取至少一個待分詞文檔;
劃分單元,用于按照第一預(yù)設(shè)劃分策略,將所述至少一個待分詞文檔劃分成至少一個第一字符串集合,其中,一個待分詞文檔對應(yīng)一個第一字符串集合;
確定單元,用于根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與所述至少一個第一字符串集合中每個第一字符串集合對應(yīng)的第一詞語集合,得到至少一個第一詞語集合;根據(jù)所述至少一個第一詞語集合,確定第一詞庫。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述裝置還包括:計算單元、判斷單元和存儲單元;
所述計算單元,用于根據(jù)所述預(yù)設(shè)內(nèi)聚模型,計算第一字符串的第一內(nèi)聚度,所述第一字符串為所述一個第一字符串集合中的任意一個字符串;
所述判斷單元,用于根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語;
所述存儲單元,用于當(dāng)判斷出所述第一字符串中存在所述第一詞語時,將所述第一字符串存儲至第一詞語集合中,直至判斷完所述一個第一字符串集合中的所有字符串,得到所述第一詞語集合。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述裝置還包括:統(tǒng)計單元和劃分單元;
所述統(tǒng)計單元,用于統(tǒng)計所述一個第一字符串集合的第一數(shù)量和所述第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,所述第一待分詞文檔為所述至少一個待分詞文檔中所述一個第一字符串集合對應(yīng)的待分詞文檔;
所述劃分單元,用于按照所述預(yù)設(shè)內(nèi)聚模型將所述第一字符串劃分成左部分和右部分;
所述統(tǒng)計單元,還用于在所述第一待分詞文檔中分別統(tǒng)計所述左部分的第三數(shù)量和所述右部分的第四數(shù)量;
所述計算單元,具體用于根據(jù)所述第一數(shù)量、所述第二數(shù)量、所述第三數(shù)量和所述第四數(shù)量計算所述第一內(nèi)聚度。
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括:匹配單元和添加單元;
所述確定單元,還用于根據(jù)所述至少一個第一詞語集合確定第一詞語庫;
所述判斷單元,還用于判斷是否存在第二詞庫,所述第二詞庫為已經(jīng)存在的詞庫;
所述匹配單元,還用于當(dāng)存在所述第二詞庫時,將所述第一詞語庫中的第二詞語與所述第二詞庫的第三詞語進(jìn)行匹配;
所述添加單元,用于當(dāng)所述第二詞語與所述第三詞語匹配失敗時,將所述第二詞語添加至所述第二詞庫中;
所述確定單元,還用于當(dāng)不存在所述第二詞庫時,將所述第一詞語庫確定為所述第一詞庫。