詞語聯(lián)想方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理領(lǐng)域,特別是涉及一種詞語聯(lián)想方法及裝置。
【背景技術(shù)】
[0002] 通過詞語聯(lián)想可以挖掘發(fā)現(xiàn)不同的詞語在文本中的相關(guān)性,從而衍生出各式各樣 的應(yīng)用。因此,在文本分析中,給定一個文檔集合,挖掘出與目標(biāo)詞最相關(guān)的詞是很有價值 的。
[0003] 例如,在中國移動業(yè)務(wù)領(lǐng)域,對"流量"這個詞語進(jìn)行聯(lián)想,可以對移動提供新業(yè)務(wù) 提供參考價值,如用戶辦理最多的流量是"30M",因此,當(dāng)對"流量"這個詞語進(jìn)行聯(lián)想后, 可以將"流量30M"的業(yè)務(wù)推薦給用戶。又例如,在電子商務(wù)領(lǐng)域中,購買"牛奶"的同時,很 多人會同時購買"面包",因此對"牛奶"這個詞語聯(lián)想,可以給用戶推薦其它商品,比如"面 包"。
[0004] 然而,現(xiàn)有的技術(shù)無法從給定文檔集合中提取與目標(biāo)詞最相關(guān)的詞語。
【發(fā)明內(nèi)容】
[0005] 有鑒于上述現(xiàn)有技術(shù)所存在的缺陷,本發(fā)明的目的是要解決現(xiàn)有的技術(shù)無法從給 定文檔集合中提取與目標(biāo)詞最相關(guān)的詞語的問題,因此,本發(fā)明實施例提供一種詞語聯(lián)想 方法,技術(shù)方案如下:
[0006] 一種詞語聯(lián)想方法,包括:
[0007] 獲取文檔集合,所述文檔集合中包含至少一個文檔;
[0008] 將所述文檔中的語句進(jìn)行分詞處理,得到至少一個詞語信息;
[0009] 對每個所述詞語信息進(jìn)行分析,得到所述詞語信息的分析信息,將所述詞語信息 以及所述分析信息保存;
[0010] 從所述保存的詞語信息中選出目標(biāo)詞語,計算所述目標(biāo)詞語的TF-IDF ;
[0011] 計算除所述目標(biāo)詞語外其他詞語的TF-IDF ;
[0012] 循環(huán)所述目標(biāo)詞語外其他所有詞語,計算其他所有詞語與所述目標(biāo)詞語的關(guān)聯(lián) 度;
[0013] 依據(jù)所述關(guān)聯(lián)度,將排名前N的詞語作為與所述目標(biāo)詞組相關(guān)的詞組。
[0014] 優(yōu)選的,在上述的詞語聯(lián)想方法中,所述對每個所述詞語信息進(jìn)行分析,得到所述 詞語信息的分析信息,包括:
[0015] 對每個所述詞語信息進(jìn)行統(tǒng)計,得到所述詞語信息在所述文檔集合中出現(xiàn)的總次 數(shù)、所述詞語信息出現(xiàn)的文檔數(shù)、所述文檔集合中總的詞語數(shù)目、所述文檔集合中總的文檔 的數(shù)目。
[0016] 優(yōu)選的,在上述的詞語聯(lián)想方法中,所述計算所述目標(biāo)詞語的TF-IDF,包括:
[0017] 根據(jù)公式TF-IDF = TFXIDF計算所述目標(biāo)詞語的TF-IDF,其中:
[0018] 所述TF目標(biāo)詞語的詞頻=所述目標(biāo)詞語在所述文檔集合中出現(xiàn)的總次數(shù)/所述 文檔集合中總的詞語數(shù)目;
[0019]
[0020] 優(yōu)選的,在上述的詞語聯(lián)想方法中,所述計算其他所有詞語與所述目標(biāo)詞語的關(guān) 聯(lián)度,包括:
[0021] 根據(jù)公式關(guān)聯(lián)度=1_|所述目標(biāo)詞語的TF-IDF-除所述目標(biāo)詞語的其他詞語的 TF-IDF| 。
[0022] 優(yōu)選的,在上述的詞語聯(lián)想方法中,還包括:
[0023] 獲取停止詞列表;
[0024] 將得到的所述多個詞語信息與所述停止詞列表中的停止詞一一對比,在所述詞語 信息中篩選出與所述停止詞列表中停止詞相同的詞語;
[0025] 刪除所述篩選出的詞語。
[0026] 本發(fā)明實施例還提供一種詞語聯(lián)想裝置,包括:
[0027] 獲取單元,用于獲取文檔集合,所述文檔集合中包含至少一個文檔;
[0028] 分詞處理單元,用于將所述文檔中的語句進(jìn)行分詞處理,得到至少一個詞語信 息;
[0029] 分析單元,用于對每個所述詞語信息進(jìn)行分析,得到所述詞語信息的分析信息,將 所述詞語信息以及所述分析信息保存;
[0030] 第一 TF-IDF處理單元,用于從所述保存的詞語信息中選出目標(biāo)詞語,計算所述目 標(biāo)詞語的TF-IDF ;
[0031] 第二TF-IDF處理單元,用于計算除所述目標(biāo)詞語外其他詞語的TF-IDF ;
[0032] 關(guān)聯(lián)度計算單元,用于循環(huán)所述目標(biāo)詞語外其他所有詞語,計算其他所有詞語與 所述目標(biāo)詞語的關(guān)聯(lián)度;
[0033] 關(guān)聯(lián)單元,用于依據(jù)所述關(guān)聯(lián)度,將排名前N的詞語作為與所述目標(biāo)詞組相關(guān)的 詞組。
[0034] 優(yōu)選的,在上述的詞語聯(lián)想裝置中,所述分析單元,包括:
[0035] 統(tǒng)計模塊,用于對每個所述詞語信息進(jìn)行統(tǒng)計,得到所述詞語信息在所述文檔集 合中出現(xiàn)的總次數(shù)、所述詞語信息出現(xiàn)的文檔數(shù)、所述文檔集合中總的詞語數(shù)目、所述文檔 集合中總的文檔的數(shù)目。
[0036] 優(yōu)選的,在上述的詞語聯(lián)想裝置中,所述第一 TF-IDF處理單元,包括:
[0037] 第一計算子模塊,用于根據(jù)公式TF-IDF = TFXIDF計算所述目標(biāo)詞語的TF-IDF, 其中:
[0038] 所述TF目標(biāo)詞語的詞頻=所述目標(biāo)詞語在所述文檔集合中出現(xiàn)的總次數(shù)/所述 文檔集合中總的詞語數(shù)目;
[0039]
[0040] 優(yōu)選的,在上述的詞語聯(lián)想裝置中,所述關(guān)聯(lián)度計算單元,包括:
[0041] 關(guān)聯(lián)度計算子模塊,用于公式關(guān)聯(lián)度=1_|所述目標(biāo)詞語的TF-IDF-除所述目標(biāo) 詞語的其他詞語的TF-IDFI。
[0042] 優(yōu)選的,在上述的詞語聯(lián)想裝置中,還包括:
[0043] 停止詞列表獲取單元,用于獲取停止詞列表;
[0044] 詞語篩選單元,用于將得到的所述多個詞語信息與所述停止詞列表中的停止詞 一一對比,在所述詞語信息中篩選出與所述停止詞列表中停止詞相同的詞語;
[0045] 詞語刪除單元,用于刪除所述篩選出的詞語。
[0046] 本發(fā)明與現(xiàn)有技術(shù)相比具有明顯的優(yōu)點和有益效果。借由上述技術(shù)方案,本發(fā)明 的詞語聯(lián)想方法,至少具有下列優(yōu)點:
[0047] 本發(fā)明實施例提供一種基于TF-IDF的詞語聯(lián)想分析方法,可以從給定文檔集合 中挖掘出與目標(biāo)詞語最相關(guān)詞語。
【附圖說明】
[0048] 圖1為本發(fā)明實施例提供的詞語聯(lián)想方法的一種流程示意圖;
[0049] 圖2為本發(fā)明實施例提供的詞語聯(lián)想方法的另一流程示意圖;
[0050] 圖3為本發(fā)明實施例提供的詞語聯(lián)想方法的另一流程示意圖;
[0051] 圖4為本發(fā)明實施例提供的詞語聯(lián)想方法的另一流程示意圖;
[0052] 圖5為本發(fā)明實施例提供的詞語聯(lián)想裝置的一種結(jié)構(gòu)示意圖。
【具體實施方式】
[0053] 為更進(jìn)一步闡述本發(fā)明為達(dá)成預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,以下結(jié) 合附圖及較佳實施例,對依據(jù)本發(fā)明提出的(名稱)其【具體實施方式】、步驟、結(jié)構(gòu)、特征及其 功效詳細(xì)說明。
[0054] 實施例一
[0055] 參見圖1,本發(fā)明實施例提供一種詞語聯(lián)想方法,包括:
[0056] 步驟110 :獲取文檔集合,文檔集合中包含至少一個文檔。
[0057] 步驟120 :將文檔中的語句進(jìn)行分詞處理,得到至少一個詞語信息。
[0058] 循環(huán)上述文檔集合中所有的文檔,對每個文檔均進(jìn)行分詞處理,如文檔集合中包 含文檔"感謝您的來電",則對該文檔進(jìn)行分詞處理,分詞處理后得到的三個詞語信息,分別 為"感謝""您的""來電"??梢赃x用分詞器對文檔進(jìn)行分詞處理,分詞器可以選用庖丁解 牛、imdict、mmseg4j、IK分詞器。優(yōu)選的,本發(fā)明實施例使用IK分詞器。
[0059] 步驟130 :對每個詞語信息進(jìn)行分析,得到詞語信息的分析信息,將詞語信息以及 分析信息保存。
[0060] 對各個文檔中的每個詞語進(jìn)行處理和分析,將其中出現(xiàn)的各個詞語的信息保存。 分析信息可以包括每個詞語在文檔集合中出現(xiàn)的總的次數(shù),詞語出現(xiàn)的文檔數(shù)。
[0061] 步驟140 :從保存的詞語信息中選出目標(biāo)詞語,計算目標(biāo)詞語的TF-IDF。
[0062] 其中,TF-IDF(term frequency - inverse document frequency)是一種用于資訊 檢索與資訊探勘的常用加權(quán)技術(shù)。
[0063] 步驟150 :計算除目標(biāo)詞語外其他詞語的TF-IDF。
[0064] 步驟160 :循環(huán)目標(biāo)詞語外其他所有詞語,計算其他所有詞語與目標(biāo)詞語的關(guān)聯(lián) 度。
[0065] 步驟170 :依據(jù)關(guān)聯(lián)度,將排名前N的詞語作為與目標(biāo)詞組相關(guān)的詞組。
[0066] 可以根據(jù)計算的關(guān)聯(lián)度進(jìn)行倒序排列,選取其中最靠前的TOP N作為結(jié)果返回,排 名前N的詞語作為與目標(biāo)詞組相關(guān)的詞組。
[0067] 需要說明的是,N為大于等于1的自然數(shù),其可以根據(jù)實際情況設(shè)定,在此不做限 定。
[0068] 本發(fā)明實施例提供一種基于TF-IDF的詞語聯(lián)想分析方法,可以從給定文檔集合 中挖掘出與目標(biāo)詞語最相關(guān)詞語。
[0069] 實施例二
[0070] 參見圖2,本發(fā)明實施例提供一種詞語聯(lián)想方法,包括:
[0071] 步驟210 :獲取文檔集合,文檔集合中包含至少一個文檔。
[0072] 步驟220 :將文檔中的語句進(jìn)行分詞處理,得到至少一個詞語信息。
[0073] 循環(huán)上述文檔集合中所有的文檔,對每個文檔均進(jìn)行分詞處理,如文檔集合中包 含文檔"感謝您的來電",則對該文檔進(jìn)行分詞處理,分詞處理后得到的三個詞語信息,分別 為"感謝""您的""來電"??梢赃x用分詞器對文檔進(jìn)行分詞處理,分詞器可以選用庖丁解 牛、imdict、mmseg4j、IK分詞器。優(yōu)選的,本發(fā)明實施例使用IK分詞器。
[0074] 步驟230 :對每個詞語信息進(jìn)行分析,得到詞語信息的四個分析信息,將詞語信息 以及四個分析信息保存,其中,四個分析參數(shù)為所述詞語信息在所述文檔集合中出現(xiàn)的總 次數(shù)、所述詞語信息出現(xiàn)的文檔數(shù)、所述文檔集合中總的詞語數(shù)目、所述文檔集合中總的文 檔的數(shù)目。
[0075] 對每個所述詞語信息進(jìn)行統(tǒng)計,得到所述詞語信息在所述文檔集合中出現(xiàn)的總次 數(shù)、所述詞語信息出現(xiàn)的文檔數(shù)、所述文檔集合中總的詞語數(shù)目、所述文檔集合中總的文檔 的數(shù)目。
[0076] 步驟240 :從保存的詞語信息中選出目標(biāo)詞語,根據(jù)公式TF-IDF計算目標(biāo)詞語的 TF-IDF〇
[0077] 根據(jù)目標(biāo)詞語,在得到的所有詞語中查找與該目標(biāo)詞語相同的詞語,如果沒有查 找出,則這個目標(biāo)詞語沒有相關(guān)聯(lián)的詞語,結(jié)束流程,如果查找到,則將目標(biāo)詞語相關(guān)的分 析信息提取出來,公式TF-IDF計算目標(biāo)詞語的TF-IDF。
[0078] 其中,TF-IDF(term frequency - inverse document frequency)是一種用于資訊 檢索與資訊探勘的常用加權(quán)技術(shù)。
[0079] TF-IDF公式=TFX IDF計算所述目標(biāo)詞語的TF-IDF,
[00