一種復(fù)合詞挖掘方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種復(fù)合詞挖掘方法及裝置。該方法包括:獲取詞性序列集合;在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典;判斷是否需要進(jìn)行再次挖掘;若是,返回獲取詞性序列集合的步驟。通過上述方式,本發(fā)明根據(jù)詞性序列集合對語料中的復(fù)合詞進(jìn)行循環(huán)挖掘,可實(shí)現(xiàn)覆蓋廣的復(fù)合詞挖掘。
【專利說明】一種復(fù)合詞挖掘方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文本信息處理【技術(shù)領(lǐng)域】,特別涉及一種復(fù)合詞挖掘方法及裝置。
【背景技術(shù)】
[0002]詞典又作“辭典”,是收集詞匯按某種順序排列并加以解釋供人檢查參考的工具書。從內(nèi)容來區(qū)分,有語文詞典、專科詞典和綜合性詞典之分。而在表現(xiàn)形式上,又分為紙質(zhì)的詞典和電子化的詞典。一般隨著信息的增長,需要不斷地往詞典中加入新詞以滿足需要。
[0003]其中,隨著計算機(jī)網(wǎng)絡(luò)技術(shù)的快速發(fā)展和推廣,網(wǎng)絡(luò)數(shù)據(jù)急劇膨脹,各種新詞特別是復(fù)合新詞不斷誕生并被廣泛地應(yīng)用到實(shí)際生活中,影響著人們的生活。同時,這些新詞呈現(xiàn)出覆蓋領(lǐng)域廣的特點(diǎn),往往散落在海量的網(wǎng)頁語料中,所以亟需找到一種覆蓋廣的挖掘新詞特別是挖掘復(fù)合新詞的方法,能夠?qū)⑦@些新詞從網(wǎng)頁語料中挖掘出來。
【發(fā)明內(nèi)容】
[0004]本發(fā)明主要解決的技術(shù)問題是提供一種覆蓋廣的復(fù)合詞挖掘方法及裝置。
[0005]為解決上述技術(shù)問題,本發(fā)明采用的一個技術(shù)方案是:提供一種復(fù)合詞挖掘方法,該方法包括步驟:獲取詞性序列集合;在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典;判斷是否需要進(jìn)行再次挖掘;若是,返回獲取詞性序列集合的步驟。
[0006]其中,在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典的步驟之后,方法進(jìn)一步包括步驟:判斷第一詞典中的復(fù)合詞對應(yīng)的詞性序列是否包括至少一個詞性的N(N>=2)次重復(fù);若是,將詞性序列簡化為包括至少一個詞性的N-1 (N>=2)次重復(fù)的簡化型詞性序列,其中簡化是指對詞性序列中至少一個詞性的重復(fù)進(jìn)行去重處理,得到簡化型詞性序列;根據(jù)詞性序列集合復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞;將復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至第一詞典。
[0007]其中,將復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至第一詞典的步驟包括:獲取簡化型詞性序列對應(yīng)的復(fù)合詞在語料中出現(xiàn)的頻次,視為第一頻次,并且獲取復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語在語料中出現(xiàn)的頻次,視為第二頻次;判斷第二頻次與第一頻次之間的比值是否大于第一閾值;若比值大于第一閾值,則在第一詞典中刪除簡化型詞性序列對應(yīng)的復(fù)合詞并添加復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語;返回判斷是否需要進(jìn)行再次挖掘。
[0008]其中,獲取詞性序列集合的步驟包括:判斷第一詞典中是否已存儲有復(fù)合詞;若否,則抽取第二詞典中復(fù)合詞在語料中的頻次大于第二閾值的詞性序列并存儲至詞性序列集合;若是,則抽取第一詞典中復(fù)合詞在語料中的頻次大于第三閾值的詞性序列并存儲至詞性序列集合。
[0009]其中,抽取第二詞典中復(fù)合詞在語料中的頻次大于第二閾值的詞性序列并存儲至詞性序列集合的步驟包括:利用分詞工具對語料進(jìn)行分詞和詞性標(biāo)注;獲取第二詞典中復(fù)合詞在語料中對應(yīng)的多個詞性序列;分別獲取對應(yīng)詞性序列的復(fù)合詞在語料中出現(xiàn)的頻次,視為第三頻次;判斷第三頻次是否大于第二閾值;若第三頻次大于第二閾值,則存儲詞性序列至詞性序列集合。
[0010]其中,抽取第一詞典中復(fù)合詞在語料中的頻次大于第三閾值的詞性序列并存儲至詞性序列集合的步驟包括:獲取對應(yīng)第一詞典的詞性序列集合;根據(jù)第一詞典對語料進(jìn)行分詞和詞性標(biāo)注;獲取第一詞典中復(fù)合詞在語料中對應(yīng)的多個詞性序列;分別獲取對應(yīng)詞性序列的復(fù)合詞在語料中出現(xiàn)的頻次,視為第四頻次;判斷第四頻次是否大于第三閾值;若第四頻次大于第三閾值,則存儲詞性序列至詞性序列集合。
[0011]其中,在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典的步驟包括:在語料中提取詞性序列符合詞性序列集合的復(fù)合詞;獲取復(fù)合詞在語料中出現(xiàn)的頻次,視為第五頻次;判斷第五頻次是否大于第四閾值;若第五頻次大于第四閾值,則存儲復(fù)合詞至第一詞典。
[0012]其中,判斷是否需要進(jìn)行再次挖掘的步驟具體為:判斷添加至第一詞典的復(fù)合詞的總數(shù)是否大于第五閾值,若大于第五閾值,則判斷為需要進(jìn)行再次挖掘,否則判斷為不需要進(jìn)行再次挖掘。
[0013]其中,判斷是否需要進(jìn)行復(fù)合詞的再次挖掘的步驟具體為:判斷是否達(dá)到預(yù)定的挖掘次數(shù),若未達(dá)到預(yù)定的挖掘次數(shù),則判斷為需要進(jìn)行再次挖掘,否則判斷為不需要進(jìn)行再次挖掘。
[0014]其中,詞性序列集合采用正則表達(dá)式描述。
[0015]其中,所述方法還包括步驟:根據(jù)復(fù)合詞在語料中出現(xiàn)的頻次標(biāo)識復(fù)合詞為“熱詞-復(fù)合詞”、“新詞-復(fù)合詞”或“復(fù)合詞”。
[0016]為解決上述技術(shù)問題,本發(fā)明采用的另一個技術(shù)方案是:提供一種復(fù)合詞挖掘裝置,該裝置包括:獲取模塊,獲取詞性序列集合;第一匹配模塊,在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典;第一判斷模塊,判斷是否需要進(jìn)行復(fù)合詞的再次挖掘。
[0017]其中,裝置進(jìn)一步包括:第二判斷模塊,判斷第一詞典中的復(fù)合詞對應(yīng)的詞性序列是否包括至少一個詞性的N(N>=2)次重復(fù);簡化模塊,當(dāng)?shù)诙袛嗄K判斷第一詞典中的復(fù)合詞對應(yīng)的詞性序列包括至少一個詞性的N(N>=2)次重復(fù)時,將詞性序列簡化為包括至少一個詞性的N-1 (N>=2)次重復(fù)的簡化型詞性序列;第二匹配模塊,根據(jù)詞性序列集合復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞并將復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至第一詞典。
[0018]其中,獲取模塊包括:第一判斷單元,判斷第一詞典中是否已存儲有復(fù)合詞;第一獲取單元,當(dāng)?shù)谝慌袛嗄K判斷第一詞典未存儲復(fù)合詞時,存儲第二詞典中復(fù)合詞在語料中的頻次大于第二閾值的詞性序列至詞性序列集合;第二獲取單元,當(dāng)?shù)谝慌袛嗄K判斷第一詞典存儲有復(fù)合詞時,存儲第一詞典中復(fù)合詞在語料中的頻次大于第三閾值的詞性序列至詞性序列集合。
[0019]其中,裝置進(jìn)一步包括:標(biāo)識模塊,根據(jù)復(fù)合詞在語料中出現(xiàn)的頻次標(biāo)識復(fù)合詞為“熱詞-復(fù)合詞”、“新詞-復(fù)合詞”或“復(fù)合詞”。
[0020]本發(fā)明的有益效果是:與現(xiàn)有技術(shù)相比,本發(fā)明復(fù)合詞挖掘方法包括:獲取詞性序列集合;在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典;判斷是否需要進(jìn)行再次挖掘;若是,返回獲取詞性序列集合的步驟。通過上述方式,本發(fā)明根據(jù)詞性序列集合對語料中復(fù)合詞進(jìn)行循環(huán)挖掘,實(shí)現(xiàn)覆蓋廣的復(fù)合詞挖掘。
【專利附圖】
【附圖說明】
[0021]圖1是本發(fā)明復(fù)合詞挖掘方法第一實(shí)施方式的流程圖;
[0022]圖2是本發(fā)明復(fù)合詞挖掘方法第二實(shí)施方式的流程圖;
[0023]圖3是圖2中在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典的流程圖;
[0024]圖4是圖2中將復(fù)合簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至第一詞典的流程圖;
[0025]圖5是本發(fā)明復(fù)合詞挖掘方法第三實(shí)施方式的流程圖;
[0026]圖6是圖5中抽取第二詞典中復(fù)合詞在語料中的頻次大于第二閾值的詞性序列并存儲至詞性序列集合的流程圖;
[0027]圖7是圖5中抽取第一詞典中復(fù)合詞在語料中的頻次大于第三閾值的詞性序列并存儲至詞性序列集合的流程圖;
[0028]圖8是某一輸入法的展示界面示意圖;
[0029]圖9是本發(fā)明復(fù)合詞挖掘裝置第一實(shí)施方式的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]下面結(jié)合附圖和實(shí)施方式對本發(fā)明進(jìn)行詳細(xì)說明。
[0031]圖1是本發(fā)明復(fù)合詞挖掘方法第一實(shí)施方式的流程圖。如圖1所示,該方法包括步驟:
[0032]S10、開始;
[0033]S11、獲取詞性序列集合,并執(zhí)行步驟S12 ;
[0034]詞性是詞的一種屬性,不同語言中的詞都定義有一種或者多種不同的詞性。例如:日語中的詞分為動詞、形容詞、形容動詞、名詞、代詞、數(shù)詞、副詞、連體詞、連續(xù)詞、感嘆詞、助動詞和助詞等詞性。特別地,日語中的詞性被稱為“品詞”。漢語中的詞分為名詞、動詞、形容詞、數(shù)詞、量詞、代詞、副詞、介詞、連詞、助詞、擬聲詞和嘆詞等詞性。英語中的詞分為noun(名詞)、verb (動詞)、pronoun (代詞)、adjective (形容詞)、adverb (副詞)、numeral (數(shù)詞)、article (冠詞)、preposition (介詞)、conjunction (連詞)、inter jection (感嘆詞)、gerund (動名詞)等詞性。在其他語言中,詞也可分為多種不同的詞性,在此不再贅述。
[0035]詞性序列是相對于復(fù)合詞而言的,復(fù)合詞是指由兩個或多個詞結(jié)合后作為一個新詞來使用的詞,復(fù)合詞的詞性是指由兩個或多個詞的詞性組成的詞性序列。特別地,日語中的詞性序列被稱為“品詞序列”。例如:日語中的“情報検索”這個復(fù)合詞,其品詞序列是“名詞-動詞”,“増?zhí)镉腥A”這個復(fù)合詞,其品詞序列是“名詞-姓-名詞-名”。漢語中的“三個代表”這個復(fù)合詞,其詞性序列是“量詞-名詞”,“羨慕嫉妒恨”這個復(fù)合詞,其詞性序列為“動詞-動詞-動詞”;英語中的“information retrieval”這個復(fù)合詞,其詞性序列是“名詞-名詞”,“pattern recognition and machine learning”這個復(fù)合詞,其詞性序列是“名詞-名詞-連詞-名詞-動名詞”;
[0036]進(jìn)一步,同一復(fù)合詞可以有多個不同的詞性序列。例如:日語中“ Af >9大t〈”這個復(fù)合詞,其品詞序列可以是“副詞-形容詞”、“名詞-形容詞”等。
[0037]詞性序列集合中的詞性序列各不相同,詞性序列集合可以從第一詞典中獲取,或者從第二詞典中獲取,或者采用預(yù)設(shè)規(guī)則等。在本發(fā)明第一實(shí)施方式中,第一詞典為存儲有本發(fā)明挖掘出來的復(fù)合詞的詞典,在進(jìn)行復(fù)合詞挖掘前,第一詞典中未存儲任何復(fù)合詞。第二詞典為存儲有復(fù)合詞的已有小規(guī)模詞典。預(yù)設(shè)規(guī)則是指例如預(yù)先設(shè)定詞性序列集合中包括有“人姓-人名,,,“名詞-名詞”,“動詞-動詞”等詞性序列。
[0038]在本發(fā)明第一實(shí)施方式中,第一次執(zhí)行Sll,從第二詞典獲取詞性序列集合或者米用預(yù)定規(guī)則。再次執(zhí)行S11,從第一詞典獲取詞性序列集合。
[0039]S12、在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典,并執(zhí)行步驟S13 ;
[0040]在語料中分別匹配和詞性序列集合中的詞性序列相同的詞語并存儲至第一詞典。語料可以為網(wǎng)頁語料、某本書的語料或者其他類型的語料。在本發(fā)明第一實(shí)施方式中,均以網(wǎng)頁語料為例來進(jìn)行說明。 [0041]網(wǎng)頁語料中存儲有經(jīng)過分詞和詞性標(biāo)注的句子。例如,以日語為例,網(wǎng)頁語料中存儲有“太郎ti花子#読& T ^ 3本&次郎1二渡^ tz (大郎把花子正在讀著的書給二郎了)”這個句子,其在網(wǎng)頁語料中存儲的格式為:
[0042]太郎/名詞ti/助詞花子/名詞力5/助詞読&/動詞T/助詞P 3/動詞本/名詞& /助詞次/名詞郎/名詞I助詞渡/動詞t: /助動詞
[0043]在網(wǎng)頁語料中,“次郎”經(jīng)過分詞被切分成“次”和“郎”兩個詞。如果詞性序列集合,也即品詞序列集合中有“名詞-名詞”這個品詞序列,即兩個名詞可以合并成一個復(fù)合名詞,提取品詞序列符合“名詞-名詞”的復(fù)合詞便可得到“次郎”這個復(fù)合詞。
[0044]在執(zhí)行步驟S 12后,“次郎”被存儲至第一詞典,其對應(yīng)的品詞序列為“名詞-名詞”。
[0045]又例如,網(wǎng)頁語料中存儲有兩個句子,這兩個句子中都包括有“ A t >9大t〈”,其在網(wǎng)頁語料中存儲的格式為:
[0046]w0/名詞wl/助詞A t D /副詞大t < /形容詞w2/名詞
[0047]w3/名詞wl/助詞A t D /名詞大t < /形容詞w4/名詞
[0048]其中,w0-w4代表日語中的詞。
[0049]在網(wǎng)頁語料中,uht ”大爸 < 經(jīng)分詞被切分為“ *主>9 ’’和“大爸< ”,“ *主>9 ’’對應(yīng)的品詞為“副詞” “名詞”,“大務(wù) < ”對應(yīng)的品詞為“形容詞”。
[0050]如果品詞序列集合中有“副詞-形容詞”這個品詞序列,在網(wǎng)頁語料中提取品詞序列符合“副詞-形容詞”的復(fù)合詞便可得到“ A t >9大t〈”這個復(fù)合詞。
[0051]在執(zhí)行步驟S12后,“A t >9大t < ”被存儲至第一詞典,其對應(yīng)的品詞序列為“副詞-形容詞”。同時,在網(wǎng)頁語料中對“ A t ”大爸〈”進(jìn)行匹配,還可以獲取到“ A t ”大爸 < ”對應(yīng)的另一個品詞序列“名詞-形容詞”。
[0052]在本實(shí)施方式中,如果需要進(jìn)行再次挖掘,再次執(zhí)行步驟S11,從存儲有“ A t >9大務(wù) < ”這個復(fù)合詞的第一詞典中可以獲取到包括品詞序列“副詞-形容詞”和“名詞-形容詞”的品詞序列集合,實(shí)現(xiàn)對品詞序列集合的擴(kuò)展。
[0053]在實(shí)際應(yīng)用中,不同語言的網(wǎng)頁語料中存儲有大量的句子,例如,在網(wǎng)頁語料提取符合“副詞-形容詞”的復(fù)合詞,將會提取到大量的詞性序列為“副詞-形容詞”的復(fù)合詞并存儲至第一詞典。又因?yàn)樘崛〉降膹?fù)合詞在網(wǎng)頁語料中對應(yīng)有多個不同的詞性序列,因此再次執(zhí)行步驟S11,從第一詞典中就能獲取到除“副詞-形容詞”之外的多個互不相同的詞性序列組成的詞性序列集合,以實(shí)現(xiàn)覆蓋廣、速度快的復(fù)合詞的挖掘。
[0054]為了進(jìn)一步提高挖掘速度,詞性序列集合用正則表達(dá)式來描述。例如,詞性序列集合中包括“名詞-動詞-動詞”,“名詞-動詞”和“動詞-動詞”這三個詞性序列,其相應(yīng)的正則表達(dá)式為“名詞{1}動詞{1-2} I名詞{0}動詞{2}”。在語料中提取詞性序列符合詞性序列集合的復(fù)合詞時,不是分別對“名詞-動詞-動詞”,“名詞-動詞”和“動詞-動詞”這三個詞性序列進(jìn)行提取,而是利用等價的正則表達(dá)式“名詞{1}動詞{1-2} I名詞{0}動詞{2} ”來提取,三次循環(huán)變成一次循環(huán),可大大提高挖掘速度。
[0055]S13、判斷是否需要進(jìn)行再次挖掘?若是,執(zhí)行步驟S11,若否,執(zhí)行步驟S14 ;
[0056]可以判斷添加至第一詞典的復(fù)合詞的總數(shù)是否大于第五閾值,若大于第五閾值,則判斷為需要進(jìn)行再次挖掘,執(zhí)行步驟Sll ;否則判斷為不需要進(jìn)行再次挖掘,流程結(jié)束。
[0057]具體來說,例如設(shè)定這個閾值為5個,假設(shè)經(jīng)過第一次挖掘,添加至第一詞典的復(fù)合詞的總數(shù)為10個,10個大于第五閾值,則繼續(xù)第二次挖掘。經(jīng)過第二次挖掘,添加至第一詞典的復(fù)合詞的總數(shù)為4個,4個小于第五閾值則流程結(jié)束。其中,第一詞典中復(fù)合詞的數(shù)量為14個。
[0058]還可以判斷是否達(dá)到預(yù)定的挖掘次數(shù),預(yù)定的挖掘次數(shù)可根據(jù)實(shí)際情況進(jìn)行設(shè)定,若未達(dá)到預(yù)定的挖掘次數(shù),則判斷為需要進(jìn)行再次挖掘,執(zhí)行步驟S 11 ;否則判斷為不需要進(jìn)行再次挖掘,流程結(jié)束。
[0059]具體來說,例如設(shè)定預(yù)定的挖掘次數(shù)為5次,在完成5次挖掘后流程結(jié)束。
[0060]S14、結(jié)束。
[0061 ] 通過上述實(shí)施方式,本申請第一實(shí)施方式可以從語料中挖掘到詞性序列符合詞性序列集合的大量復(fù)合詞,進(jìn)一步,通過對復(fù)合詞的循環(huán)挖掘,可大大擴(kuò)展詞性序列集合,進(jìn)而實(shí)現(xiàn)覆蓋廣的復(fù)合詞的挖掘。
[0062]圖2是本發(fā)明復(fù)合詞挖掘方法第二實(shí)施方式的流程圖。如圖2所示,該方法包括步驟:
[0063]S20、開始;
[0064]在本實(shí)施方式中,以網(wǎng)頁語料為例進(jìn)行說明。
[0065]S21、獲取詞性序列集合,并執(zhí)行步驟S22 ;
[0066]詞性序列集合可以從第一詞典中獲取,或者從第二詞典中獲取,或者采用預(yù)定規(guī)則等。在本實(shí)施方式中,獲取到的詞性序列集合中包括“名詞-名詞”這個詞性序列。
[0067]S22、在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典,并執(zhí)行步驟S23 ;
[0068]圖3是圖2中在語料中提取詞性序列符合詞性序列集合的復(fù)合詞并存儲至第一詞典的流程圖。如圖2所示,步驟S22具體包括如下步驟:
[0069]S221、在語料中提取詞性序列符合詞性序列集合的復(fù)合詞,并執(zhí)行步驟S222 ;[0070]在語料中分別匹配和詞性序列集合中的詞性序列相同的詞語。在本實(shí)施方式中,網(wǎng)頁語料中包括4個句子,句子中的每一個詞的詞性均為“名詞”,其在網(wǎng)頁語料中存儲的格式為:
[0071]
【權(quán)利要求】
1.一種復(fù)合詞挖掘方法,其特征在于,所述方法包括步驟: 獲取詞性序列集合; 在語料中提取詞性序列符合所述詞性序列集合的復(fù)合詞并存儲至第一詞典; 判斷是否需要進(jìn)行再次挖掘; 若是,返回所述獲取詞性序列集合的步驟。
2.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述在語料中提取詞性序列符合所述詞性序列集合的復(fù)合詞并存儲至第一詞典的步驟之后,所述方法進(jìn)一步包括步驟: 判斷所述第一詞典中的所述復(fù)合詞對應(yīng)的詞性序列是否包括至少一個詞性的N(N>=2)次重復(fù); 若是,將所述詞性序列簡化為包括至少一個詞性的N-1 (N>=2)次重復(fù)的簡化型詞性序列,其中所述簡化是指對所述詞性序列中至少一個詞性的重復(fù)進(jìn)行去重處理,得到所述簡化型詞性序列; 根據(jù)所述詞性序列集合復(fù)合所述簡化型詞性序列對應(yīng)的復(fù)合詞; 將所述復(fù)合所述簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至所述第一詞典; 返回所述判斷是否需要進(jìn)行再次挖掘。
3.根據(jù)權(quán)利要求2所述的復(fù)合詞挖掘方法,其特征在于,所述將所述復(fù)合所述簡化型詞性序列對應(yīng)的所述復(fù)合詞而得到的詞語存儲至所述第一詞典的步驟包括: 獲取所述簡化型詞性序列對應(yīng)的所述復(fù)合詞在語料中出現(xiàn)的頻次,視為第一頻次,并且獲取復(fù)合所述簡化型詞性序列對`應(yīng)的所述復(fù)合詞而得到的詞語在語料中出現(xiàn)的頻次,視為第二頻次; 判斷所述第二頻次與所述第一頻次之間的比值是否大于第一閾值; 若所述比值大于所述第一閾值,則在所述第一詞典中刪除所述簡化型詞性序列對應(yīng)的復(fù)合詞,并添加復(fù)合所述簡化型詞性序列對應(yīng)的所述復(fù)合詞而得到的詞語。
4.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述獲取詞性序列集合的步驟包括: 判斷所述第一詞典中是否已存儲有所述復(fù)合詞; 若否,則抽取第二詞典中復(fù)合詞在所述語料中的頻次大于第二閾值的詞性序列并存儲至詞性序列集合; 若是,則抽取所述第一詞典中復(fù)合詞在所述語料中的頻次大于第三閾值的詞性序列并存儲至詞性序列集合。
5.根據(jù)權(quán)利要求4所述的復(fù)合詞挖掘方法,其特征在于,所述抽取第二詞典中復(fù)合詞在所述語料中的頻次大于第二閾值的詞性序列并存儲至詞性序列集合的步驟包括: 利用分詞工具對所述語料進(jìn)行分詞和詞性標(biāo)注; 獲取第二詞典中復(fù)合詞在所述語料中對應(yīng)的多個詞性序列; 分別獲取對應(yīng)所述詞性序列的所述復(fù)合詞在所述語料中出現(xiàn)的頻次,視為第三頻次; 判斷所述第三頻次是否大于第二閾值; 若所述第三頻次大于所述第二閾值,則存儲所述詞性序列至所述詞性序列集合。
6.根據(jù)權(quán)利要求4所述的復(fù)合詞挖掘方法,其特征在于,所述抽取第一詞典中復(fù)合詞在所述語料中的頻次大于第三閾值的詞性序列并存儲至詞性序列集合的步驟包括: 獲取對應(yīng)所述第一詞典的詞性序列集合; 根據(jù)所述第一詞典對語料進(jìn)行分詞和詞性標(biāo)注; 獲取所述第一詞典中復(fù)合詞在所述語料中對應(yīng)的多個詞性序列; 分別獲取對應(yīng)所述詞性序列的所述復(fù)合詞在所述語料中出現(xiàn)的頻次,視為第四頻次; 判斷所述第四頻次是否大于所述第三閾值; 若所述第四頻次大于所述第三閾值,則存儲所述詞性序列至所述詞性序列集合。
7.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述在語料中提取詞性序列符合所述詞性序列集合的復(fù)合詞并存儲至第一詞典的步驟包括: 在語料中提取詞性序列符合所述詞性序列集合的復(fù)合詞; 獲取所述復(fù)合詞在所述語料中出現(xiàn)的頻次,視為第五頻次; 判斷所述第五頻次是否大于第四閾值; 若所述第五頻次大于第四閾值,則存儲所述復(fù)合詞至第一詞典。
8.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述判斷是否需要進(jìn)行再次挖掘的步驟具體為: 判斷添加至所述第一詞典的所述復(fù)合詞的總數(shù)是否大于第五閾值,若大于所述第五閾值,則判斷為需要進(jìn)行`再次挖掘,否則判斷為不需要進(jìn)行再次挖掘。
9.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述判斷是否需要進(jìn)行復(fù)合詞的再次挖掘的步驟具體為: 判斷是否達(dá)到預(yù)定的挖掘次數(shù),若未達(dá)到所述預(yù)定的挖掘次數(shù),則判斷為需要進(jìn)行再次挖掘,否則判斷為不需要進(jìn)行再次挖掘。
10.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述詞性序列集合采用正則表達(dá)式描述。
11.根據(jù)權(quán)利要求1所述的復(fù)合詞挖掘方法,其特征在于,所述方法進(jìn)一步包括步驟:根據(jù)所述復(fù)合詞在所述語料中出現(xiàn)的頻次標(biāo)識所述復(fù)合詞為“熱詞-復(fù)合詞”、“新詞-復(fù)合詞”或“復(fù)合詞”。
12.一種復(fù)合詞挖掘裝置,其特征在于,所述裝置包括: 獲取模塊,獲取詞性序列集合; 第一匹配模塊,在語料中提取詞性序列符合所述詞性序列集合的復(fù)合詞并存儲至第一詞典; 第一判斷模塊,判斷是否需要進(jìn)行復(fù)合詞的再次挖掘。
13.根據(jù)權(quán)利要求12所述的復(fù)合詞挖掘裝置,其特征在于,所述裝置進(jìn)一步包括: 第二判斷模塊,判斷所述第一詞典中的所述復(fù)合詞對應(yīng)的詞性序列是否包括至少一個詞性的N(N>=2)次重復(fù); 簡化模塊,當(dāng)?shù)诙袛嗄K判斷所述第一詞典中的所述復(fù)合詞對應(yīng)的詞性序列包括至少一個詞性的N(N>=2)次重復(fù)時,將所述詞性序列簡化為包括至少一個詞性的N-1 (N>=2)次重復(fù)的簡化型詞性序列; 第二匹配模塊,根據(jù)所述詞性序列集合復(fù)合所述簡化型詞性序列對應(yīng)的復(fù)合詞并將所述復(fù)合所述簡化型詞性序列對應(yīng)的復(fù)合詞而得到的詞語存儲至所述第一詞典。
14.根據(jù)權(quán)利要求12所述的復(fù)合詞挖掘裝置,其特征在于,所述獲取模塊包括: 第一判斷單元,判斷所述第一詞典中是否已存儲有所述復(fù)合詞; 第一獲取單元,當(dāng)?shù)谝慌袛嗄K判斷所述第一詞典未存儲所述復(fù)合詞時,存儲第二詞典中復(fù)合詞在所述語料中的頻次大于第二閾值的詞性序列至詞性序列集合; 第二獲取單元,當(dāng)?shù)谝慌袛嗄K判斷所述第一詞典存儲有所述復(fù)合詞時,存儲第一詞典中復(fù)合詞在所述語料中的頻次大于第三閾值的詞性序列至詞性序列集合。
15.根據(jù)權(quán)利要求12所述的復(fù)合詞挖掘裝置,其特征在于,所述裝置進(jìn)一步包括: 標(biāo)識模塊,根據(jù)所述復(fù)合詞在所述語料中出現(xiàn)的頻次標(biāo)識所述復(fù)合詞為“熱詞-復(fù)合詞”、“新 詞-復(fù)合詞”或“復(fù)合詞”。
【文檔編號】G06F17/30GK103870472SQ201210532140
【公開日】2014年6月18日 申請日期:2012年12月11日 優(yōu)先權(quán)日:2012年12月11日
【發(fā)明者】吳先超, 陳曉昕, 何徑舟, 黃鋆 申請人:百度國際科技(深圳)有限公司