專利名稱:一種挖掘詞匯的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種挖掘詞匯的方法及裝置。
背景技術(shù):
目前,詞匯的挖掘主要是新詞識(shí)別,即挖掘出詞典中未出現(xiàn)的新詞。在進(jìn)行新詞挖掘時(shí),通常將初始文檔經(jīng)過文本預(yù)處理獲得候選新詞表1,然后對(duì)候選新詞表進(jìn)行分詞,按照詞性去除不能構(gòu)詞的詞語,再采用原子詞匯構(gòu)詞法對(duì)文中的候選詞串進(jìn)行統(tǒng)計(jì),形成候選新詞表2 ;根據(jù)領(lǐng)域特點(diǎn)對(duì)候選新詞表2進(jìn)行過濾;利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選;根據(jù)領(lǐng)域詞匯庫的熱點(diǎn)詞根來篩選掉部分垃圾詞串,生成新詞表,再通過排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值對(duì)結(jié)果進(jìn)行排序。然而,采用現(xiàn)有技術(shù)挖掘詞匯吋,獲得新詞詞匯的準(zhǔn)確率較低,并且沒有對(duì)詞匯進(jìn)行分領(lǐng)域,不能確定詞匯的領(lǐng)域?qū)傩浴?br>
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種挖掘詞匯的方法及裝置,可以提高挖掘詞匯的準(zhǔn)確性,并確定挖掘的詞匯的領(lǐng)域?qū)傩浴5谝环矫?,本發(fā)明提供一種挖掘詞匯的方法,包括:確定第一語料集中第一候選詞的特征值;根據(jù)所述第一候選詞的特征值,確定分類器;確定第二語料集中第二候選詞以及第ニ候選詞的特征值;根據(jù)所述第二候選詞、所述第二候選詞的特征值以及所述分類器,對(duì)所述第二候選詞分類,并確定所述第二候選詞中的目標(biāo)詞匯;根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù);根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域。在第一種可能的實(shí)施例中,結(jié)合第一方面,所述第一候選詞的特征值包括所述第一候選詞的重復(fù)度、所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的規(guī)則特征值;所述確定第一語料集中第一候選詞的特征值包括:計(jì)算所述第一候選詞的詞頻或者文檔頻度,確定所述第一候選詞的所述詞頻或者所述文檔頻度為所述第一候選詞的重復(fù)度;計(jì)算所述第一候選詞的互信息或者卡方檢驗(yàn)或者色子矩陣,確定所述第一候選詞的所述信息或者所述卡方檢驗(yàn)或者所述色子矩陣為所述第一候選詞的內(nèi)聚度;計(jì)算所述第一候選詞的左右熵,確定所述第一候選詞的所述左右熵為所述第一候選詞的自由度;將發(fā)現(xiàn)規(guī)則轉(zhuǎn)換為發(fā)現(xiàn)特征,以及將過濾規(guī)則轉(zhuǎn)換為過濾特征,分別計(jì)算所述第一候選詞的發(fā)現(xiàn)特征值和過濾特征值。
在第二種可能的實(shí)施例中,結(jié)合第一方面中第一種可能的實(shí)施例,所述計(jì)算所述第一候選詞的左右熵包括:根據(jù)預(yù)設(shè)規(guī)則計(jì)算所述第一候選詞的左右熵;所述預(yù)設(shè)規(guī)則為當(dāng)所述第一候選詞的左側(cè)或者右側(cè)出現(xiàn)臨界點(diǎn)時(shí),確定所述臨界點(diǎn)為一個(gè)單獨(dú)的字符。在第三種可能的實(shí)施例中,結(jié)合第一方面中第一種可能的實(shí)施例,所述將發(fā)現(xiàn)規(guī)則轉(zhuǎn)換為發(fā)現(xiàn)特征包括:將發(fā)現(xiàn)出的候選詞和未發(fā)現(xiàn)出的候選詞標(biāo)記為不同的發(fā)現(xiàn)特征值;所述將過濾規(guī)則轉(zhuǎn)換為過濾特征包括:將過濾出的候選詞和未過濾的候選詞標(biāo)記為不同的過濾特征值。在第四種可能的實(shí)施例中,結(jié)合第一方面中第二種可能的實(shí)施例或者第三種可能的實(shí)施例,所述根據(jù)所述第一候選詞的特征值,確定分類器包括:根據(jù)所述第一候選詞的重復(fù)度過濾第一候選詞,獲得第三候選詞;根據(jù)所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的所述發(fā)現(xiàn)特征值和所述過濾特征值,以及所述第三候選詞,訓(xùn)練分類器。在第五種可能的實(shí)施例中,結(jié)合第一方面中第四種可能的實(shí)施例,所述根據(jù)所述第二候選詞、所述第二候選詞的特征值以及所述分類器,對(duì)所述第二候選詞分類,并確定所述第二候選詞中的目標(biāo)詞匯包括:對(duì)所述第二候選詞、所述第二候選詞的特征值應(yīng)用所述分類器,將所述第二候選詞的分類為詞匯和垃圾串;將所述垃圾串刪除;確定所述詞匯為所述第二候選詞中的目標(biāo)詞匯。在第六種可能的實(shí)施例中,結(jié)合第一方面或者結(jié)合第一方面中第五種可能的實(shí)施例,所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)包括:根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù);根據(jù)所述目標(biāo)詞匯的詞匯分?jǐn)?shù),確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)。在第七種可能的實(shí)施例中,結(jié)合第一方面中第六種可能的實(shí)施例,所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù)包括:根據(jù)S(w, D) = R(w, D)*I(w, D)*F(w, D)確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù),其中,所述S(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的詞匯分?jǐn)?shù),所述R(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的重復(fù)度,所述I (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的內(nèi)聚度,所述F (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的
自由度。在第八種可能的實(shí)施例中,結(jié)合第一方面中第七種可能的實(shí)施例,在所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)之后,還包括:根據(jù)
權(quán)利要求
1.種挖掘詞匯的方法,其特征在于,包括: 確定第一語料集中第一候選詞的特征值; 根據(jù)所述第一候選詞的特征值,確定分類器; 確定第二語料集中第二候選詞以及第ニ候選詞的特征值; 根據(jù)所述第二候選詞、所述第二候選詞的特征值以及所述分類器,對(duì)所述第二候選詞分類,并確定所述第二候選詞中的目標(biāo)詞匯; 根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù); 根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域。
2.據(jù)權(quán)利要求1所述的挖掘詞匯的方法,其特征在于,所述第一候選詞的特征值包括所述第一候選詞的重復(fù)度、所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的規(guī)則特征值; 所述確定第一語料集中第一候選詞的特征值包括: 計(jì)算所述第一候選詞的詞頻或者文檔頻度,確定所述第一候選詞的所述詞頻或者所述文檔頻度為所述第一候選詞的重復(fù)度; 計(jì)算所述第一候選詞的互信息或者卡方檢驗(yàn)或者色子矩陣,確定所述第一候選詞的所述信息或者所述卡方檢驗(yàn)或者所述色子矩陣為所述第一候選詞的內(nèi)聚度; 計(jì)算所述第一候選詞的左右熵,確定所述第一候選詞的所述左右熵為所述第一候選詞的自由度; 將發(fā)現(xiàn)規(guī)則轉(zhuǎn)換為發(fā)現(xiàn)特征,以及將過濾規(guī)則轉(zhuǎn)換為過濾特征,分別計(jì)算所述第一候選詞的發(fā)現(xiàn)特征值和過濾特征值。
3.據(jù)權(quán)利要求2所述的挖掘詞匯的方法,其特征在于,所述計(jì)算所述第一候選詞的左右熵包括: 根據(jù)預(yù)設(shè)規(guī)則計(jì)算所述第一候選詞的左右熵;所述預(yù)設(shè)規(guī)則為當(dāng)所述第一候選詞的左側(cè)或者右側(cè)出現(xiàn)臨界點(diǎn)時(shí),確定所述臨界點(diǎn)為ー個(gè)単獨(dú)的字符。
4.據(jù)權(quán)利要求2所述的挖掘詞匯的方法,其特征在于,所述將發(fā)現(xiàn)規(guī)則轉(zhuǎn)換為發(fā)現(xiàn)特征包括:將發(fā)現(xiàn)出的候選詞和未發(fā)現(xiàn)出的候選詞標(biāo)記為不同的發(fā)現(xiàn)特征值; 所述將過濾規(guī)則轉(zhuǎn)換為過濾特征包括:將過濾出的候選詞和未過濾的候選詞標(biāo)記為不同的過濾特征值。
5.據(jù)權(quán)利要求3或4所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述第一候選詞的特征值,確定分類器包括: 根據(jù)所述第一候選詞的重復(fù)度過濾第一候選詞,獲得第三候選詞; 根據(jù)所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的所述發(fā)現(xiàn)特征值和所述過濾特征值,以及所述第三候選詞,訓(xùn)練分類器。
6.據(jù)權(quán)利要求5所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述第二候選詞、所述第二候選詞的特征值以及所述分類器,對(duì)所述第二候選詞分類,并確定所述第二候選詞中的目標(biāo)詞匯包括: 對(duì)所述第二候選詞、所述第二候選詞的特征值應(yīng)用所述分類器,將所述第二候選詞的分類為詞匯和垃圾串; 將所述垃圾串刪除;確定所述詞匯為所述第二候選詞中的目標(biāo)詞匯。
7.據(jù)權(quán)利要求1或6所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)包括: 根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù); 根據(jù)所述目標(biāo)詞匯的詞匯分?jǐn)?shù),確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)。
8.據(jù)權(quán)利要求7所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù)包括: 根據(jù)S(w,D) = R(w,D)*I (w,D)*F(w,D)確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù),其中,所述S (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的詞匯分?jǐn)?shù),所述R(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的重復(fù)度,所述I (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的內(nèi)聚度,所述F(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的自由度。
9.據(jù)權(quán)利要求8所述的挖掘詞匯的方法,其特征在于,在所述根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)之后,還包括:根據(jù)
10.據(jù)權(quán)利要求9所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述目標(biāo)詞匯的詞匯分?jǐn)?shù),確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)包括: 根據(jù)
11.據(jù)權(quán)利要求1或10所述的挖掘詞匯的方法,其特征在于,所述根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域包括: 根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域?yàn)楣苍~匯或者領(lǐng)域詞匯; 將所述公共詞匯保存到公共詞典中; 將所述領(lǐng)域詞匯保存到相應(yīng)的領(lǐng)域詞典中。
12.種挖掘詞匯的裝置,其特征在于,包括: 抽取模塊,用于確定第一語料集中第一候選詞的特征值; 訓(xùn)練模塊,用于根據(jù)所述第一候選詞的特征值,確定分類器; 所述抽取模塊,還用于確定第二語料集中第二候選詞以及第ニ候選詞的特征值; 分類模塊,用于根據(jù)所述第二候選詞、所述第二候選詞的特征值以及所述分類器,對(duì)所述第二候選詞分類,并確定所述第二候選詞中的目標(biāo)詞匯; 計(jì)分模塊,用于根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù); 領(lǐng)域劃分模塊,用于根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域。
13.據(jù)權(quán)利要求12所述的挖掘詞匯的裝置,其特征在于,所述第一候選詞的特征值包括所述第一候選詞的重復(fù)度、所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的規(guī)則特征值; 所述抽取模塊包括: 計(jì)算單元,用于計(jì)算所述第一候選詞的詞頻或者文檔頻度,確定所述第一候選詞的所述詞頻或者所述文檔頻度為所述第一候選詞的重復(fù)度; 以及計(jì)算所述第一候選詞的互信息或者卡方檢驗(yàn)或者色子矩陣,確定所述第一候選詞的所述信息或者所述卡方檢驗(yàn)或者所述色子矩陣為所述第一候選詞的內(nèi)聚度; 以及計(jì)算所述第一候選詞的左右熵,確定所述第一候選詞的所述左右熵為所述第一候選詞的自由度; 轉(zhuǎn)換單元 ,用于將發(fā)現(xiàn)規(guī)則轉(zhuǎn)換為發(fā)現(xiàn)特征,以及將過濾規(guī)則轉(zhuǎn)換為過濾特征,分別計(jì)算所述第一候選詞的發(fā)現(xiàn)特征值和過濾特征值。
14.據(jù)權(quán)利要求13所述的挖掘詞匯的裝置,其特征在干, 所述計(jì)算単元用于: 根據(jù)預(yù)設(shè)規(guī)則計(jì)算所述第一候選詞的左右熵;所述預(yù)設(shè)規(guī)則為當(dāng)所述第一候選詞的左側(cè)或者右側(cè)出現(xiàn)臨界點(diǎn)時(shí),確定所述臨界點(diǎn)為ー個(gè)単獨(dú)的字符。
15.據(jù)權(quán)利要求13所述的挖掘詞匯的裝置,其特征在干, 所述轉(zhuǎn)換模塊,用于將發(fā)現(xiàn)出的候選詞和未發(fā)現(xiàn)出的候選詞標(biāo)記為不同的發(fā)現(xiàn)特征值; 以及將過濾出的候選詞和未過濾的候選詞標(biāo)記為不同的過濾特征值。
16.據(jù)權(quán)利要求14或15所述的挖掘詞匯的裝置,其特征在于,所述訓(xùn)練模塊包括: 過濾單元,用于根據(jù)所述第一候選詞的重復(fù)度過濾第一候選詞,獲得第三候選詞; 訓(xùn)練單元,用于根據(jù)所述第一候選詞的內(nèi)聚度、所述第一候選詞的自由度以及所述第一候選詞的所述發(fā)現(xiàn)特征值和所述過濾特征值,以及所述第三候選詞,訓(xùn)練分類器。
17.據(jù)權(quán)利要求16所述的挖掘詞匯的裝置,其特征在于,所述分類模塊包括: 分類單元,用于對(duì)所述第二候選詞、所述第二候選詞的特征值應(yīng)用所述分類器,將所述第二候選詞的分類為詞匯和垃圾串; 刪除單元,用于將所述垃圾串刪除; 確定單元,用于確定所述詞匯為所述第二候選詞中的目標(biāo)詞匯。
18.據(jù)權(quán)利要求12或17所述的挖掘詞匯的裝置,其特征在于,所述計(jì)分模塊包括: 第一計(jì)分單元,用于根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù); 第二計(jì)分單元,用于根據(jù)所述目標(biāo)詞匯的詞匯分?jǐn)?shù),確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù)。
19.據(jù)權(quán)利要求18所述的挖掘詞匯的裝置,其特征在于,所述第一計(jì)分單元用于: 根據(jù)S(w,D) = R(w,D)*I (w,D)*F(w,D)確定所述目標(biāo)詞匯的詞匯分?jǐn)?shù),其中,所述S (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的詞匯分?jǐn)?shù),所述R(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的重復(fù)度,所述I (w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的內(nèi)聚度,所述F(w,D)表示所述第二語料集所屬領(lǐng)域D的目標(biāo)詞匯w的自由度。
20.據(jù)權(quán)利要求19所述的挖掘詞匯的裝置,其特征在于,所述第一計(jì)分單元還用于:根據(jù)
21.據(jù)權(quán)利要求20所述的挖掘詞匯的裝置,其特征在于,所述第二計(jì)分單元用于: 根據(jù)6
22.據(jù)權(quán)利要求12或21所述的挖掘詞匯的裝置,其特征在于,所述領(lǐng)域劃分模塊包括: 領(lǐng)域劃分単元,用于根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域?yàn)楣苍~匯或者領(lǐng)域詞匯; 保存単元,用于將所述公共詞匯保存到公共詞典中; 所述保存単元,還用于將所述領(lǐng)域詞匯保存到相應(yīng)的領(lǐng)域詞典中。
全文摘要
本發(fā)明公開一種挖掘詞匯的方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,可以提高挖掘詞匯的準(zhǔn)確性,并確定挖掘的詞匯的領(lǐng)域?qū)傩?。本發(fā)明通過確定語料集中候選詞以及候選詞的特征值;根據(jù)所述候選詞、所述候選詞的特征值以及分類器,對(duì)所述候選詞分類,并確定所述候選詞中的目標(biāo)詞匯;根據(jù)所述目標(biāo)詞匯的特征值,確定所述目標(biāo)詞匯的領(lǐng)域分?jǐn)?shù);根據(jù)所述領(lǐng)域分?jǐn)?shù)確定所述目標(biāo)詞匯的領(lǐng)域。本發(fā)明提供的實(shí)施例適于發(fā)現(xiàn)新詞匯時(shí)采用。
文檔編號(hào)G06F17/30GK103092966SQ20131002424
公開日2013年5月8日 申請(qǐng)日期2013年1月23日 優(yōu)先權(quán)日2013年1月23日
發(fā)明者關(guān)濤, 李金奎, 毛帆, 馬建春 申請(qǐng)人:盤古文化傳播有限公司