一種漢語疊詞的自動(dòng)獲取方法

文檔序號(hào)：6636924閱讀：449來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種漢語疊詞的自動(dòng)獲取方法
【專利摘要】本發(fā)明公開了一種漢語疊詞的自動(dòng)獲取方法，利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)以獲得各類疊詞候選集；并在此基礎(chǔ)上，通過疊詞度的運(yùn)算判斷實(shí)現(xiàn)AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的自動(dòng)獲??；并在疊詞度判斷的基礎(chǔ)上，進(jìn)一步通過左、右鄰接熵的運(yùn)算判斷實(shí)現(xiàn)AA式疊詞的自動(dòng)獲取。本發(fā)明根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息，結(jié)合疊詞度和信息熵的判斷，實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取，經(jīng)實(shí)驗(yàn)證明，本發(fā)明準(zhǔn)確率高，有利于更為更為精準(zhǔn)的開展自然語言的信息化處理工作，在自然語言處理領(lǐng)域中具有十分明顯的實(shí)用意義，可廣泛推廣使用。
【專利說明】一種漢語疊詞的自動(dòng)獲取方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及人工智能計(jì)算機(jī)領(lǐng)域中的自然語言處理，特別涉及一種利用自然語言處理來實(shí)現(xiàn)漢語疊詞的自動(dòng)獲取方法。

【背景技術(shù)】
[0002] 在大量的自然語言應(yīng)用中，有一個(gè)基本的而又共同的問題：對(duì)由一個(gè)由短文本構(gòu) 成的語料集（以下簡稱短文本語料集或語料集），如何將其中的短文本按照某種相似度聚集成不同的類。
[0003] 漢語中的疊詞是一種特殊的語言現(xiàn)象，漢語疊詞由兩個(gè)或兩個(gè)以上的字形和字義都相同的漢字，重疊在一起使用所組成的詞語。漢語疊詞在自然語言中的使用越來越廣泛，并且有不斷的新的疊詞出現(xiàn)，這對(duì)自然語言處理帶來了更多的挑戰(zhàn)。比如在中文文本自動(dòng) 校對(duì)領(lǐng)域，字詞插入錯(cuò)誤，都是相同的字或詞的插入，但由于漢語疊詞的存在，在錯(cuò)別字識(shí) 別的過程中經(jīng)過統(tǒng)計(jì)分析可能會(huì)將疊詞當(dāng)做成插入錯(cuò)誤。而如果將滿足疊詞格式都看成疊詞的話，則很多類似疊詞式的插入錯(cuò)誤會(huì)被過濾掉，因?yàn)椴皇撬械脑~都可以當(dāng)做疊詞出現(xiàn)。因此，需要來判斷重復(fù)出現(xiàn)的串是否是疊詞，如果是不是疊詞，則認(rèn)為該串是一個(gè)字詞插入錯(cuò)誤。
[0004] 很多漢語研究者對(duì)疊詞進(jìn)行了分類，漢語的疊詞種類有很多。一般而論，疊詞自動(dòng) 獲取方法的基本思想對(duì)大規(guī)模語料中重復(fù)出現(xiàn)的"疊詞"模式串進(jìn)行判斷，如果該"疊詞"模式串高頻重復(fù)出現(xiàn)，那么該模式串很可能是一個(gè)疊詞。
[0005] 在疊詞自動(dòng)獲取中，常遇到幾個(gè)難題需要解決：
[0006] 1)疊詞自動(dòng)獲取是一個(gè)自然語言處理的問題，因此在獲取前需要進(jìn)行分詞，因此首先要對(duì)疊詞在分詞后的結(jié)構(gòu)進(jìn)行分析，并且需要對(duì)滿足候選模式的進(jìn)行統(tǒng)計(jì)和存儲(chǔ)。
[0007] 2)如何來對(duì)疊詞進(jìn)行量化？高頻出現(xiàn)的"疊詞"模式串不一定真是一個(gè)疊詞，因此需要利用量化的指標(biāo)來對(duì)疊詞進(jìn)行判斷。例如在"一車車的"這個(gè)串中"一車車"滿足"ABB" 式疊詞結(jié)構(gòu)、"車車的"滿足"AAB"式疊詞，且都是高頻出現(xiàn)，但是我們認(rèn)為"一車車"是一個(gè) 疊詞，而"車車的"不是一個(gè)疊詞。因此，需要定義一種對(duì)疊詞量化的方法來判斷模式串是否是一個(gè)疊詞。
[0008] 3)對(duì)于"ABB"式和"AAB"式疊詞，其中的"BB"或"AA"不一定是"AA"式疊詞，例如："血淋淋"是一個(gè)"ABB"式疊詞，而"淋淋"就不是一個(gè)"AA"式疊詞，因此還需要對(duì)滿足"AA"式疊詞進(jìn)行進(jìn)一步的判斷。
[0009] 因此想要實(shí)現(xiàn)疊詞的自動(dòng)獲取并獲得較高的準(zhǔn)確率，需要考慮如下有待解決的問題：
[0010] 技術(shù)問題1:漢語分詞后疊詞分詞的疊詞模式以及大規(guī)模語料統(tǒng)計(jì)。對(duì)漢語文本分詞后進(jìn)行分析，對(duì)疊詞的模式進(jìn)行歸類，如何設(shè)計(jì)一種合理的數(shù)據(jù)結(jié)果對(duì)大規(guī)模語料進(jìn) 行統(tǒng)計(jì)？
[0011] 技術(shù)問題2 :疊詞的量化問題。怎么根據(jù)統(tǒng)計(jì)信息來量化地判斷一個(gè)疊詞候選是否是一個(gè)真正的疊詞？
[0012] 技術(shù)問題3 :對(duì)"AA"式疊詞進(jìn)行獲取和驗(yàn)證。如何利用統(tǒng)計(jì)信息對(duì)"AA"式疊詞候選進(jìn)行獲取和驗(yàn)證？
[0013] 針對(duì)上述難題和問題，結(jié)合疊詞在中文文本自動(dòng)校對(duì)領(lǐng)域的字詞插入錯(cuò)誤，本發(fā) 明提出并且實(shí)現(xiàn)了 AAB式、ABB式、AA式、ABA式、ABAB式、AABB式漢語疊詞的自動(dòng)獲取方法。

【發(fā)明內(nèi)容】

[0014] 發(fā)明目的：為了克服現(xiàn)有技術(shù)中存在的不足，本發(fā)明提供了一種漢語疊詞的自動(dòng) 獲取方法，以實(shí)現(xiàn)AAB式、ABB式、AA式、ABA式、ABAB式、AABB式漢語疊詞的自動(dòng)獲取。
[0015] 技術(shù)方案：
[0016] 為達(dá)到上述目的，本發(fā)明提供的一種漢語疊詞的自動(dòng)獲取方法，包括以下步驟：
[0017] 利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟：
[0018] 對(duì)分詞后的語料，根據(jù)疊詞的定義、類型以及分詞后的模式，利用五元組模型來統(tǒng) 計(jì)滿足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞模式的五元組，并作為候選疊詞加入到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中去；
[0019] 自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟：
[0020] 遍歷AAB式、ABB式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞，逐一計(jì)算疊詞度，將疊詞度大于預(yù)設(shè)疊詞度閾值的候選疊詞列入疊詞庫，以實(shí)現(xiàn)語料中AAB式、ABB 式、ABA式、ABAB式、AABB式疊詞的自動(dòng)獲??；
[0021] 自動(dòng)獲取AA式疊詞的步驟：
[0022] 遍歷對(duì)應(yīng)的AA式疊詞候選集中的候選疊詞，逐一計(jì)算疊詞度；對(duì)疊詞度大于預(yù)設(shè) 疊詞度閾值的候選疊詞，計(jì)算其鄰接信息熵，并將鄰接信息熵大于預(yù)設(shè)信息熵閾值的候選疊詞列入疊詞庫，以實(shí)現(xiàn)語料中AA式疊詞的自動(dòng)獲取。
[0023] 優(yōu)選的，所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中，
[0024] 所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系，為：Five-Element Model = (leftfford, leftlnterval, word, rightlnterval, rightfford)；
[0025] 其中：word為當(dāng)前統(tǒng)計(jì)的詞，IeftWord是與詞word左邊相隔距離為 leftlnterval 的詞；leftlnterval 表不 word 與 IeftWord 之間的距離；rightWord 是與詞 word右邊相隔距離為rightlnterval的詞；rightlnterval表不word與rightWord之間的距離。
[0026] 當(dāng) leftlnterval = 0 時(shí)表不 IeftWord 與 word 是相鄰，當(dāng) leftlnterval = 1 時(shí) 表不IeftWord與word中間隔一個(gè)詞，以此類推，rightlnterval的含義與leftlnterval類似。
[0027] 所述 AAB 式五元組模型包括（A, 0, AB, 0, *)，（*，0, A, 0, AB)，（AA, 0, B, 0, *)， (A，0, A，0, B)，（*，0, AA，0, B);
[0028] 所述 ABB 式五元組模型包括（A，0, B，0, B)，（A，0, BB，0, *)，（*，0, A，0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B);
[0029] 所述 AA 式五元組模型包括（*，0, A, 0, A), (*，0, AA, 0, *), (A, 0, A, 0, *);
[0030] 所述ABA式五元組模型包括（A，0, B，0, A)，其中B是一個(gè)單字詞；
[0031] 所述 ABAB 式五元組模型包括（AB，0, AB，0, *)，（*，0, AB，0, AB);
[0032] 所述 AABB 式五元組模型包括（AA，0, BB，0, *)，（*，0, AA，0, BB);
[0033] 上述五元組中的代表任意詞；
[0034] 所述 AAB 式疊詞候選集為：SAAB = {(A，0, AB，*)，（*，0, A，0, AB)，（AA，0, B，0,，*)， (A，0, A，0, B)，（*，0, AA，0, B)};
[0035] 所述 ABB 式疊詞候選集為：SABB = {(A，0, B，0, B)，（A，0, BB，0, *)，（*，0, A，0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B)};
[0036] 所述 AA 式疊詞候選集為：SAA = {(*，0, A, 0, A), (*，0, AA, 0, *)，（A, 0, A, 0, *)};
[0037] 所述ABA式疊詞候選集為：SABA ={ (A，0, B，0, A)，其中B是一個(gè)單字詞};
[0038] 所述 ABAB 式疊詞候選集為：SABAB ={ (AB，0, AB，0, *)，（*，0, AB，0, AB)};
[0039] 所述 AABB 式疊詞候選集為：SAABB ={ (AA，0, BB，0, *)，（*，0, AA，0, BB)}。
[0040] 優(yōu)選的，所述自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟和自動(dòng) 獲取AA式疊詞的步驟中，所述疊詞度ComDegr ee用于表示疊詞的內(nèi)部組成部分的結(jié)合程度：
[0041] 所述AAB式疊詞的疊詞度為：
[0042] ComDegree(AAB) - min (log (p(A).p(AB)),i〇g(P(AA)*p(B)),i〇g(P(A)*p(A)*i〇g(B))) ⑴；
[0043] 所述ABB式疊詞的疊詞度為：
[0044] ComDegree(ABB) = min (log ⑵；
[0045] 所述AA式疊詞的疊詞度為：
[0046] ComDegree(AA) = ⑴；
[0047] 所述ABA式疊詞的疊詞度為：
[0048] ComDegree(ABA) = log ^^(A))⑷；
[0049] 所述ABAB式疊詞的疊詞度為：
[0050] ComDegree(ABAB) = 1():(:::) (5);
[0051] 所述AABB式疊詞的疊詞度為：
[0052] ComDegree(AABB) = (6);
[0053] 其中P (W)表示詞W在語料中的出現(xiàn)概率，p (W) = Count (W) /N，N表示語料中所有詞的頻率，min (X，Y)表示最小值函數(shù)。
[0054] 優(yōu)選的，所述自動(dòng)獲取AA式疊詞的步驟中，所述鄰接信息熵H (AA)包括左信息熵 LH(AA)和右信息熵RH(AA);
[0055] 所述左信息熵LH(AA)的計(jì)算步驟包括：
[0056] 統(tǒng)計(jì)AA的左鄰接詞W集合LAd jWordSet = (W1, ... WJ，及對(duì)應(yīng)的左鄰接詞和AA的共現(xiàn)頻次LF = (F1,…Fj ;
[0057] 計(jì)算獲得左信息熵LH(AA):
[0058] LH(AA) = - Ef=O P(W； |AA) * l〇gP(Wj |AA) (7)；
[0059] 所述右信息熵RH(AA)的計(jì)算步驟包括：
[0060] 統(tǒng)計(jì)AA的右鄰接詞W集合RAd jWordSet = (W1,... WJ，及對(duì)應(yīng)的左鄰接詞和AA的共現(xiàn)頻次RF = (F1，…FJ ;
[0061] 計(jì)算獲得右信息熵RH(AA):
[0062] RH(AA) =P(WiIAA) * IogP(WiIAA) (8)；
[0063] 上述 P(WiIAA) =
[0064] 優(yōu)選的，所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中，還包括分別統(tǒng) 計(jì)候選疊詞的出現(xiàn)頻率的步驟：遍歷AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞，統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候選疊詞的出現(xiàn)頻率分別為：
[0065] Count(AAB) = Eil=lABl{freq(ei)|e i G SAAB}；
[0066] Count(ABB) = EjiiBBl{freq(ei)|ei e SABB}；
[0067] Count(AA) = G SAA}；
[0068] Count(ABA) = 2|hBAl{freq(ei)Iei G SABA};
[0069] Count(ABAB) = I]|=iBABl{freq(ei)|ei G SABAB|；
[0070] Count(AABB) = E|!：tABB丨{freq(ei)|e; e SAABB}。
[0071] 優(yōu)選的,所述預(yù)設(shè)疊詞度閾值為3. 5,所述預(yù)設(shè)信息熵閾值為2. 0。
[0072] 有益效果：本發(fā)明利用結(jié)構(gòu)合理的五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)以獲得各類疊詞候選集；并在此基礎(chǔ)上，通過疊詞度的運(yùn)算判斷實(shí)現(xiàn)AAB式、ABB式、ABA式、ABAB式、 AABB式疊詞的自動(dòng)獲??；并在疊詞度判斷的基礎(chǔ)上，進(jìn)一步通過左、右鄰接熵的運(yùn)算判斷實(shí)現(xiàn)AA式疊詞的自動(dòng)獲取。本發(fā)明根據(jù)結(jié)構(gòu)合理的五元組模型獲得的統(tǒng)計(jì)信息，結(jié)合疊詞度和信息熵的判斷，實(shí)現(xiàn)了疊詞的量化判斷和自動(dòng)獲取，經(jīng)實(shí)驗(yàn)證明，本發(fā)明準(zhǔn)確率高，有利于更為更為精準(zhǔn)的開展自然語言的信息化處理工作，可廣泛推廣使用。如結(jié)合到中文文本自動(dòng)校對(duì)領(lǐng)域中，疊詞的自動(dòng)獲取，可以有效改善"將疊詞當(dāng)做插入錯(cuò)誤"的誤判，也可以避免矯枉過正，將"不是疊詞卻類似疊詞式的插入錯(cuò)誤"被全部過濾掉而產(chǎn)生的漏判，在自然語言處理領(lǐng)域中具有十分明顯的實(shí)用意義。
[0073] 對(duì)本發(fā)明進(jìn)行大規(guī)模語料（8G)中自動(dòng)獲取疊詞的實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果表明：本發(fā)明提供的漢語疊詞的自動(dòng)獲取方法能有效的獲得漢語疊詞，本發(fā)明在試驗(yàn)語料中獲得"AA"式疊詞1012個(gè)、"AAB"式疊詞3512個(gè)、"ABB"式疊詞980個(gè)，"ABA"式疊詞6350個(gè)、"ABAB"式疊詞2958個(gè)，"AABB"式疊詞1175個(gè)。統(tǒng)計(jì)分析后得知，本發(fā)明提供的漢語疊詞的自動(dòng)獲取方法，其疊詞獲取的準(zhǔn)確率高達(dá)85. 7%。

【專利附圖】

【附圖說明】
[0074] 圖1是實(shí)施例中的漢語疊詞的自動(dòng)獲取方法的流程圖。

【具體實(shí)施方式】
[0075] 下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作更進(jìn)一步的說明。
[0076] 根據(jù)漢語疊詞的定義，對(duì)疊詞進(jìn)行如下分類："AA"、"AAB"、"ABB"、"ABA"、"AABB"、 "ABAB"、"AABC"、"BCAA" 和 "ABAC"。對(duì)于 "ABAC"、"BCAA"、"AABC" 型疊詞一般都是固定的表達(dá)法，大部分收錄在漢語成語詞典中。本發(fā)明是針對(duì)"AA"、"AAB"、"ABB"、"ABA"、"ABAB"、 "AABB"這六種類型的疊詞進(jìn)行自動(dòng)獲取。
[0077] 如圖1所示，本實(shí)施例提供的漢語疊詞的自動(dòng)獲取方法，包括以下步驟：
[0078] 1.利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟，包括：
[0079] I. 1五元組模型統(tǒng)計(jì)的步驟：
[0080] 疊詞自動(dòng)獲取需要對(duì)疊詞模式串進(jìn)行統(tǒng)計(jì)以及對(duì)其上下文信息進(jìn)行統(tǒng)計(jì)，為了便于對(duì)大規(guī)模語料進(jìn)行統(tǒng)計(jì)和存儲(chǔ)，以方便后面疊詞的計(jì)算和判斷，本發(fā)明對(duì)分詞后的語料，根據(jù)疊詞的定義、類型以及分詞后的模式，利用五元組模型來統(tǒng)計(jì)滿足AAB式、ABB式、AA 式、ABA式、ABAB式、AABB式疊詞模式的五元組。
[0081] 所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系，為：Five-Element Model = (leftfford, leftlnterval, word, rightlnterval, rightfford)；
[0082] 其中：word為當(dāng)前統(tǒng)計(jì)的詞，IeftWord是與詞word左邊相隔距離為 leftlnterval 的詞；leftlnterval 表不 word 與 IeftWord 之間的距離；rightWord 是與詞 word右邊相隔距離為rightlnterval的詞；rightlnterval表不word與rightWord之間的距離。
[0083] 當(dāng) leftlnterval = 0 時(shí)表不 IeftWord 與 word 是相鄰，當(dāng) leftlnterval = 1 時(shí) 表不IeftWord與word中間隔一個(gè)詞，以此類推，rightlnterval的含義與leftlnterval類似。五元組模型統(tǒng)計(jì)中，IeftIntervaK = 2, rightlnterval〈 = 2,本發(fā)明經(jīng)實(shí)驗(yàn)判斷，窗口寬度為[_1，1]已經(jīng)包含了足夠的語義信息和上下文詞的信息。
[0084] 由于疊詞是相鄰的詞，因此，只需要考慮leftlnterval和rightlnterval相等且為0的五元組模型，因此本實(shí)施例中：
[0085] 所述 AAB 式五元組模型包括（A, 0, AB, 0, *)，（*，0, A, 0, AB)，（AA, 0, B, 0, *)， (A，0, A，0, B)，（*，0, AA，0, B);
[0086] 所述 ABB 式五元組模型包括（A，0, B，0, B)，（A，0, BB，0, *)，（*，0, A，0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B);
[0087] 所述 AA 式五元組模型包括（*，0, A, 0, A), (*，0, AA, 0, *), (A, 0, A, 0, *);
[0088] 所述ABA式五元組模型包括（A，0, B，0, A)，其中B是一個(gè)單字詞；
[0089] 所述 ABAB 式五元組模型包括（AB, 0, AB, 0, *)，〇, 0, AB, 0, AB);
[0090] 所述 AABB 式五元組模型包括（AA, 0, BB, 0, *)，（*，0, AA, 0, BB);
[0091] 上述五元組中的代表任意詞。
[0092] 1. 2疊詞模式候選獲取的步驟：將上述統(tǒng)計(jì)獲得的滿足五元組模型疊詞模式的五元組模式串，作為候選疊詞加入到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中去，其中：
[0093] AAB 式疊詞候選集為：SAAB = {(A，0, AB，*)，（*，0, A，0, AB)，（AA，0, B，0,，*)， (A，0, A，0, B)，（*，0, AA，0, B)};
[0094] ABB 式疊詞候選集為：SABB = {(A，0, B，0, B)，（A，0, BB，0, *)，（*，0, A，0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B)};
[0095] AA 式疊詞候選集為：SAA = {(*，0, A，0, A)，（*，0, AA，0, *)，（A，0, A，0, *)};
[0096] ABA式疊詞候選集為：SABA ={ (A，0, B，0, A)，其中B是一個(gè)單字詞};
[0097] ABAB 式疊詞候選集為：SABAB = {(AB，0, AB，0, *)，（*，0, AB，0, AB)};
[0098] AABB 式疊詞候選集為：SAABB = {(AA，0, BB，0, *)，（*，0, AA，0, BB)}。
[0099] 1. 3統(tǒng)計(jì)候選疊詞出現(xiàn)頻率的步驟（圖中未示出）：遍歷AAB式、ABB式、AA式、ABA 式、ABAB式、AABB式疊詞候選集中的候選疊詞，統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB 式、AABB式候選疊詞的出現(xiàn)頻率分別為：

【權(quán)利要求】
1. 一種漢語疊詞的自動(dòng)獲取方法，其特征在于包括以下步驟：利用五元組模型對(duì)分詞后的語料進(jìn)行統(tǒng)計(jì)的步驟：對(duì)分詞后的語料，根據(jù)疊詞的定義、類型以及分詞后的模式，利用五元組模型來統(tǒng)計(jì)滿足AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞模式的五元組，并作為候選疊詞加入到對(duì)應(yīng)的AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中去；自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟：遍歷AAB式、ABB式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞，逐一計(jì)算疊詞度，將疊詞度大于預(yù)設(shè)疊詞度閾值的候選疊詞列入疊詞庫，以實(shí)現(xiàn)語料中AAB式、ABB式、 ABA式、ABAB式、AABB式疊詞的自動(dòng)獲取；自動(dòng)獲取AA式疊詞的步驟：遍歷對(duì)應(yīng)的AA式疊詞候選集中的候選疊詞，逐一計(jì)算疊詞度；對(duì)疊詞度大于預(yù)設(shè)疊詞度閾值的候選疊詞，計(jì)算其鄰接信息熵，并將鄰接信息熵大于預(yù)設(shè)信息熵閾值的候選疊詞列入疊詞庫，以實(shí)現(xiàn)語料中AA式疊詞的自動(dòng)獲取。
2. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法，其特征在于：所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中，所述五元組模型用于表示和統(tǒng)計(jì)詞與詞之間的關(guān)系，為：Five-Element Model = (Ief tfford, leftlnterval, word, rightlnterval, rightfford)；其中：word為當(dāng)前統(tǒng)計(jì)的詞，IeftWord是與詞word左邊相隔距離為IeftInterval的詞；leftlnterval表不word與IeftWord之間的距離；rightWord是與詞word右邊相隔距離為 rightlnterval 的詞；rightlnterval 表不 word 與 rightWord 之間的距離；所述 AAB 式五元組模型包括（A, 0, AB, 0, *),(*，0, A, 0, AB)，（AA, 0, B, 0, *), (A, 0, A, 0, B), (*, 0, AA, 0, B)；所述 ABB 式五元組模型包括（A, 0, B, 0, B)，（A, 0, BB, 0, *)，（*，0, A, 0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B); 所述 AA 式五元組模型包括（*，0, A, 0, A), (*，0, AA, 0, *), (A, 0, A, 0, *); 所述ABA式五元組模型包括（A，0, B，0, A)，其中B是一個(gè)單字詞；所述 ABAB 式五元組模型包括（AB，0, AB，0, *)，（*，0, AB，0, AB); 所述 AABB 式五元組模型包括（AA，0, BB，0, *)，（*，0, AA，0, BB); 上述五元組中的代表任意詞；所述 AAB 式疊詞候選集為：SAAB = {(A，0, AB，*)，（*，0, A，0, AB)，（AA，0, B，0,，*)， (A，0, A，0, B)，（*，0, AA，0, B)}; 所述 ABB 式疊詞候選集為：SABB = {(A，0, B，0, B)，（A，0, BB，0, *)，（*，0, A，0, BB)， (AB，0, B，0, *)，（*，0, AB，0, B)}; 所述 AA 式疊詞候選集為：SAA = {(*，0, A, 0, A), (*，0, AA, 0, *)，（A, 0, A, 0, *)}; 所述ABA式疊詞候選集為：SABA ={ (A，0, B，0, A)，其中B是一個(gè)單字詞}; 所述 ABAB 式疊詞候選集為：SABAB ={ (AB，0, AB，0, *)，（*，0, AB，0, AB)}; 所述 AABB 式疊詞候選集為：SAABB ={ (AA，0, BB，0, *)，（*，0, AA，0, BB)}。
3. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法，其特征在于：所述自動(dòng)獲取AAB式、ABB式、ABA式、ABAB式、AABB式疊詞的步驟和自動(dòng)獲取AA式疊詞的步驟中，所述疊詞度ComDegree用于表示疊詞的內(nèi)部組成部分的結(jié)合程度：所述AAB式疊詞的疊詞度為：
斷械A(chǔ)RR =F?*愚福的愚福瘡士 .
所述AA式疊詞的疊詞度為：
所述ABA式疊詞的疊詞度為：
所述ABAB式疊詞的疊詞度為：
所述AABB式疊詞的疊詞度為：
其中P(W)表示詞W在語料中的出現(xiàn)概率，min (X，Y)表示最小值函數(shù)。
4. 根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法，其特征在于：所述自動(dòng)獲取AA式疊詞的步驟中，所述鄰接信息熵H(AA)包括左信息熵LH(AA)和右信息熵RH(AA); 所述左信息熵LH(AA)的計(jì)算步驟包括：統(tǒng)計(jì)AA的左鄰接詞W集合LAdjWordSet = (W1,... WJ，及對(duì)應(yīng)的左鄰接詞和AA的共現(xiàn)頻次LF = (F1,…Fj ; 計(jì)算獲得左信息熵LH(AA):
所述右信息熵RH(AA)的計(jì)算步驟包括：統(tǒng)計(jì)AA的右鄰接詞W集合RAdjWordSet = (W1,... WJ，及對(duì)應(yīng)的左鄰接詞和AA的共現(xiàn)頻次RF = (F1,…Fj ; 計(jì)算獲得右信息熵RH(AA):
5. 根據(jù)權(quán)利要求2所述的漢語疊詞的自動(dòng)獲取方法，其特征在于：所述利用五元組模型對(duì)分詞后的預(yù)料進(jìn)行統(tǒng)計(jì)的步驟中，還包括分別統(tǒng)計(jì)候選疊詞的出現(xiàn)頻率的步驟：遍歷AAB式、ABB式、AA式、ABA式、ABAB式、AABB式疊詞候選集中的候選疊詞，統(tǒng)計(jì)得到AAB式、ABB式、AA式、ABA式、ABAB式、AABB式候選疊詞的出現(xiàn)頻率分別為：

6.根據(jù)權(quán)利要求1所述的漢語疊詞的自動(dòng)獲取方法，其特征在于：所述預(yù)設(shè)疊詞度閾值為3. 5,所述預(yù)設(shè)信息熵閾值為2. 0。
【文檔編號(hào)】G06F17/27GK104375986SQ201410720547
【公開日】2015年2月25日申請(qǐng)日期:2014年12月2日優(yōu)先權(quán)日:2014年12月2日
【發(fā)明者】劉亮亮, 吳健康, 馬健申請(qǐng)人:江蘇科技大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉亮亮;吳健康;馬健;
技術(shù)所有人：江蘇科技大學(xué);
我是此專利的發(fā)明人

上一篇：一種消防設(shè)施維保方法
上一篇：移動(dòng)終端相機(jī)標(biāo)定方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種漢語疊詞的自動(dòng)獲取方法