一種漢語兼語結(jié)構(gòu)獲取系統(tǒng)和方法與流程

文檔序號：12596085閱讀：來源：國知局

技術(shù)特征：

1.一種漢語兼語結(jié)構(gòu)獲取系統(tǒng)，其特征在于：包括對原始訓練語料庫Corpus進行分詞，形成分詞語料庫TCorpus的模塊A；識別分詞語料庫TCorpus中的每條語句S_i中動詞的模塊B；應用兼語模式對TCorpus中的語句進行分析，對滿足兼語模式的語句形成候選兼語結(jié)構(gòu)，并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中的模塊C；驗證候選兼語結(jié)構(gòu)庫SOBase，并輸出最終結(jié)果SOBaseResult的模塊D；

上面所述模塊中，模塊A采用一個開源的ICTCLAS系統(tǒng)對RCorpus中的每篇輸入文本進行分詞，并且將每篇文本按照句子的自然分割進行分拆，形成不含有句子標點符號的簡單句；因此，TCorpus每個句子的形式為Si＝“W1/posl W2/pos2…Wi/posi…Wn/posn”，其中每個Wi是一個漢語詞、漢字、標點符號、阿拉伯數(shù)字、英文單詞或字母，posi是其對應的詞性；模塊A產(chǎn)生分詞后的結(jié)果將傳給模塊B，模塊B識別分詞語料庫TCorpus中的每條語句Si中的動詞或動詞詞組；模塊B對TCorpus中的每條語句Si進行動詞合并處理，即出現(xiàn)“W₁/v W₂/v”時，則按照“W₁W₂/v”進行合并處理，即將兩個或兩個以上的動詞，合并為一個動詞，稱此過程為動詞合并處理；在上述處理后，對修飾動詞的副詞進行消除處理，即將動詞前的所有修飾副詞全部刪除；模塊B完成動詞識別、副詞處理后，將結(jié)果傳給模塊C；模塊C應用兼語模式對TCorpus中的語句進行分析，對滿足兼語模式的語句形成候選兼語結(jié)構(gòu)，并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中；模塊C完成兼語模式分析后，將結(jié)果傳給模塊D以便驗證兼語結(jié)構(gòu)的正確性；模塊D對候選兼語結(jié)構(gòu)庫SOBase中的每條記錄<“V_i，1…V_i，2”，“N_i，1V_i，1N_i，2V_i，2N_i，3”>進行兼語搭配常見性驗證、兼語搭配多樣性驗證。

2.一種漢語兼語結(jié)構(gòu)獲取方法，其特征在于：包括以下步驟：

第一步：對原始訓練語料庫Corpus進行分詞，形成分詞語料庫TCorpus；

采用一個開源的ICTCLAS系統(tǒng)對Corpus中的每篇輸入文本D進行分詞，并且將每篇文本按照句子的自然分割進行分拆，形成不含有句子標點符號的簡單句；因此，TCorpus每個句子的形式為S_i＝“W₁/pos₁W₂/pos₂…W_i/pos₁…W_n/pos_n”，其中每個W_i是一個漢語詞、漢字、標點符號、阿拉伯數(shù)字、英文單詞或字母，pos_i是其對應的詞性；

在分詞算法中，詞性的標記已經(jīng)在計算機界通行；通常的詞性有a表示形容詞、b表示區(qū)別詞、c表示連詞、d表示副詞、h表示前綴詞、j表示簡稱詞、k表示后綴詞、m表示數(shù)詞、n表示名詞、p表示介詞、q表示量詞、r表示代詞、u表示助詞、z表示狀態(tài)詞；

第二步：識別分詞語料庫TCorpus中的每條語句S_i中的動詞或動詞詞組；

當出現(xiàn)“W₁/v W₂/v”，則按照“W₁W₂/v”進行合并處理，即將兩個或兩個以上的動詞，合并為一個動詞，稱此過程為動詞合并處理；在上述處理后，對修飾動詞的副詞進行消除處理，即將動詞前的所有修飾副詞全部刪除；將處理后的語句仍放入TCorpus中；

第三步：應用兼語模式對TCorpus中的語句進行分析，對滿足兼語模式的語句形成候選兼語結(jié)構(gòu)，并且置入待驗證的兼語結(jié)構(gòu)庫SOBase中；

所述應用兼語模式對TCorpus中的語句進行分析，是指采用5種兼語模式，將TCorpus中的符合兼語模式之一的語句挑選出來，置入待驗證的兼語結(jié)構(gòu)庫SOBase中；

具體而言，對TCorpus中任一語句SO_i，當它含有超過2的動詞，或者僅含有1個動詞，則放棄該句；否則，設(shè)SO_i的形式為“N_i，1V_i，1N_i，2V_i，2N_i，3”，這里，下標i代表第i個語句意思；下面的主要任務(wù)是檢查N_i，2是否滿足5種兼語模式之一；如果滿足5種兼語模式之一，則將二元對<“V_i，1…V_i，2”，“N_i，1V_i，1N_i，2V_i，2N_i，3”>放入SOBase中；否則，放棄SO_i；

所述的5種兼語模式：設(shè)兼語句的一般形式為“N₁V₁N₂V₂N₃”，其中N₂即為兼語；在獲取兼語結(jié)構(gòu)時，僅考慮兼語N₂滿足以下模式的兼語語句，也就是，當語料庫足夠大時，兼語是其它形式的兼語句的兼語結(jié)構(gòu)也能從兼語滿足以下5種模式的兼語句中獲得：

模式1：數(shù)詞+名詞；

模式2：數(shù)詞+量詞+名詞；

模式3：{這，這場，這次，這個，這位，這種，這些，那，那場，那次，那個，那位，那種，那些，它，它們}，該集合中的元素為常見代詞，通常用于指代非生命的物體或者動物，其中的任何一個元素本身都是一個模式；

模式4：{這，這場，這次，這個，這位，這種，這些，那，那場，那次，那個，那位，那種，那些}+名詞，這是一個由代詞與名稱構(gòu)成的兼語模式；

模式5：{他，他們，我，我們，她，她們}，該集合中的元素為常見代詞，通常用于指代人物，其中的任何一個元素本身都是一個模式；

第四步：驗證候選兼語結(jié)構(gòu)庫SOBase，并輸出最終結(jié)果SOBaseResult；

對候選兼語結(jié)構(gòu)庫SOBase中的每條記錄<“V_i，1…V_i，2”，“N_i，1V_i，1N_i，2V_i，2N_i，3”>，采用兩種驗證技術(shù)：兼語搭配常見性驗證、兼語搭配多樣性，它們都是確保兼語結(jié)構(gòu)正確的必要條件；

所述兼語搭配常見性驗證，是指當SO_i＝“N_i，1V_i，1N_i，2V_i，2N_i，3”是一個正確的兼語句，則兼語結(jié)構(gòu)“V_i，1…V_i，2”在TCorpus中的其他語句中出現(xiàn)，而不是僅僅出現(xiàn)在兼語句SO_i中；

所述兼語搭配多樣性驗證，是指如果SO_i＝“N_i，1V_i，1N_i，2V_i，2N_i，3”是一個正確的兼語句，那么形如SO′_i＝“N′_i，1V_i，1N′_i，2V_i，2N′_i，3”、SO″_i＝“N″_i，1V_i，1N″_i，2V_i，2N″_i，3”的兼語句在TCorpus也應該多次出現(xiàn)。

3.根據(jù)權(quán)利要求2所述的一種漢語兼語結(jié)構(gòu)獲取方法，其特征在于：所述第四步的具體實施步驟為：

首先引入兩個非負的閾值a和b，其中a∈(0，1]，b∈(0，1]

步驟D1：設(shè)置SOBaseResult為空，用以保存驗證過的、正確的兼語結(jié)構(gòu)的結(jié)果；

步驟D2：如果SOBase空，則轉(zhuǎn)步驟D6；

步驟D3：對SOBase中的任一一個記錄<“V_i，1…V_i，2”，“N_i，1V_i，1N_i，2V_i，2N_i，3”>，將<“V_i，1…V_i，2”，“N_i，_，1V_i，1N_i，2V_i，2N_i，3”>從SOBase中取出；

步驟D4：如果cof(“V_i，1…V_i，2”)>a，那么將“V_i，1…V_i，2”放入集合SOBaseResult中，轉(zhuǎn)步驟D2；

所述cof(“V_i，1…V_i，2”)反映了兼語結(jié)構(gòu)“V_i，1…V_i，2”的常見性，它的計算如下：cof(“V_i，1…V_i，2”)＝TCorpus含有“V_i，1…V_i，2”結(jié)構(gòu)語句條數(shù)/TCorpus中的語句數(shù)；當cof(V_i，1…V_i，2)>a時，將“V_i，1…V_i，2”視為一個正確的兼語結(jié)構(gòu)；

步驟D5：如果muf(“V_i，1…V_i，2”)>b，那么將“V_i，1…V_i，2”放入集合SOBaseResult中；

所述muf(“V_i，1…V_i，2”)是一個刻畫兼語搭配多樣性的數(shù)學方法，它的計算子步驟如下：開始時，設(shè)置V_*，1和V_*，2為空集合；

步驟D51：在SOBase中，如果存在<“V_x…V_i，2”，“N_i，1V_xN_i，2V_i，2N_i，3”>，那么將V_x放入集合V_*，1中；

步驟D52：在SOBase中，如果存在<“V_i，1…V_y”，“N_i，1V_i，1N_i，2V_yN_i，3”>，那么將V_y放入集合V_*，2中；

步驟D53：計算muf(“V_i，1…V_i，2”)：計算公式如下：

$<mrow> <mi>m</mi> <mi>u</mi> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <msub> <mmultiscripts> <mi>V</mi> <mprescripts/> <none/> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </mmultiscripts> <mrow> <mi>i</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>...</mo> <msup> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mi>c</mi> <mi>o</mi> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <msub> <mmultiscripts> <mi>V</mi> <mprescripts/> <none/> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </mmultiscripts> <mrow> <mi>i</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>...</mo> <msup> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mo>Σ</mo> <mrow> <msub> <mi>V</mi> <mi>x</mi> </msub> <mo>&Element;</mo> <msub> <mi>V</mi> <mrow> <mo>*</mo> <mo>,</mo> <mn>1</mn> </mrow> </msub> </mrow> </msub> <mrow> <mi>c</mi> <mi>o</mi> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <msub> <mmultiscripts> <mi>V</mi> <mprescripts/> <none/> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </mmultiscripts> <mi>x</mi> </msub> <mo>...</mo> <msup> <msub> <mi>V</mi> <mrow> <mi>i</mi> <mo>,</mo> <mn>2</mn> </mrow> </msub> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> </mrow> <mo>+</mo> <msub> <mo>Σ</mo> <mrow> <msub> <mi>V</mi> <mi>y</mi> </msub> <mo>&Element;</mo> <msub> <mi>V</mi> <mrow> <mo>*</mo> <mo>,</mo> <mn>2</mn> </mrow> </msub> </mrow> </msub> <mrow> <mi>c</mi> <mi>o</mi> <mi>f</mi> <mrow> <mo>(</mo> <mrow> <msub> <mmultiscripts> <mi>V</mi> <mprescripts/> <none/> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </mmultiscripts> <mrow> <mi>i</mi> <mo>,</mo> <mn>1</mn> </mrow> </msub> <mo>...</mo> <msup> <msub> <mi>V</mi> <mi>y</mi> </msub> <mrow> <mo>′</mo> <mo>′</mo> </mrow> </msup> </mrow> <mo>)</mo> </mrow> </mrow> </mrow> </mfrac> </mrow>$

步驟D6：輸出最終兼語結(jié)構(gòu)結(jié)果SOBaseResult。

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種漢語兼語結(jié)構(gòu)獲取系統(tǒng)和方法與流程