一種領(lǐng)域術(shù)語(yǔ)抽取的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是一種領(lǐng)域術(shù)語(yǔ)抽取的方法。
【背景技術(shù)】
[0002] 領(lǐng)域術(shù)語(yǔ)或?qū)I(yè)術(shù)語(yǔ)是以語(yǔ)音或文字為載體來(lái)表達(dá)或限定專業(yè)概念的約定性符 號(hào)。隨著科學(xué)技術(shù)的蓬勃發(fā)展、新技術(shù)的不斷涌現(xiàn)以及互聯(lián)網(wǎng)技術(shù)的日新月異,一些特定 領(lǐng)域的專業(yè)術(shù)語(yǔ)不斷擴(kuò)大與更新,因此按照傳統(tǒng)的人工搜集領(lǐng)域術(shù)語(yǔ)的方式已無(wú)法滿足實(shí) 際需求,自動(dòng)抽取領(lǐng)域術(shù)語(yǔ)(ATE,Automatic Term Extraction)已成為了必然。實(shí)際應(yīng)用 中,領(lǐng)域術(shù)語(yǔ)抽取在構(gòu)建領(lǐng)域本體、中文分詞、信息抽取、詞典編纂、信息檢索、機(jī)器翻譯、文 本分類、自動(dòng)文摘等方面均具有重要意義。
[0003] 目前,業(yè)內(nèi)所采用的領(lǐng)域術(shù)語(yǔ)抽取方法僅僅是基于單一方面對(duì)詞匯進(jìn)行分析以及 判定,領(lǐng)域術(shù)語(yǔ)提取效果比較差。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的之一是提供一種領(lǐng)域術(shù)語(yǔ)抽取的方法,以解決現(xiàn)有技術(shù)中對(duì)于領(lǐng)域 術(shù)語(yǔ)提取效果比較差的問(wèn)題。
[0005] 在一些說(shuō)明性實(shí)施例中,所述領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:對(duì)原始語(yǔ)料以語(yǔ)素為 單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組 成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該 候選術(shù)語(yǔ)的多個(gè)特征參數(shù);利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ) 度;抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
[0006] 與現(xiàn)有技術(shù)相比,本發(fā)明的說(shuō)明性實(shí)施例包括以下優(yōu)點(diǎn):
[0007] 本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充 分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
【附圖說(shuō)明】
[0008] 此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā) 明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0009] 圖1是按照本發(fā)明的說(shuō)明性實(shí)施例的流程圖。
[0010]
[0011]
【具體實(shí)施方式】
[0012] 在以下詳細(xì)描述中,提出大量特定細(xì)節(jié),以便于提供對(duì)本發(fā)明的透徹理解。但是, 本領(lǐng)域的技術(shù)人員會(huì)理解,即使沒(méi)有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下,沒(méi)有詳 細(xì)描述眾所周知的方法、過(guò)程、組件和電路,以免影響對(duì)本發(fā)明的理解。
[0013] 本發(fā)明中所采用的術(shù)語(yǔ)"語(yǔ)素"是指語(yǔ)言數(shù)據(jù)中的不可拆分的最小單位,對(duì)應(yīng)為一 個(gè)字或一個(gè)單詞。
[0014] 如圖1所示,公開(kāi)了一種領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:
[0015] S11、對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每 個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成;
[0016] S12、從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分 析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù);
[0017] S13、利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度;
[0018] S14、抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
[0019] 本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充 分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
[0020] 以下對(duì)上述方法進(jìn)行詳細(xì)說(shuō)明:
[0021] 例如:原始語(yǔ)料"中華人民共和國(guó)"進(jìn)行切分,首先以兩個(gè)語(yǔ)素單位進(jìn)行切分,可以 獲得"中華"、"華人"、"人民"、"民共"、"共和"、"和國(guó)"六個(gè)候選術(shù)語(yǔ),再以三個(gè)語(yǔ)素單位進(jìn) 行切分,可以獲得"中華人"、"華人民"、"人民共"、"民共和"、"共和國(guó)"五個(gè)候選術(shù)語(yǔ),再以 4個(gè)語(yǔ)素單位進(jìn)行切分,可以獲得"中華人民"、"華人民共"、"人民共和"、"民共和國(guó)"四個(gè) 候選術(shù)語(yǔ),再以5個(gè)語(yǔ)素單位進(jìn)行切分,可以獲得"中華人民共"、"華人民共和"、"人民共和 國(guó)"三個(gè)候選術(shù)語(yǔ),再以6個(gè)語(yǔ)素單位進(jìn)行切分,可以獲得"中華人民共和"、"華人民共和國(guó)" 兩個(gè)候選術(shù)語(yǔ),以7個(gè)語(yǔ)素單位進(jìn)行切分,即得到候選術(shù)語(yǔ)"中華人民共和國(guó)"。以上共獲得 21個(gè)候選術(shù)語(yǔ)。
[0022] 以上的切分過(guò)程是為了便于更快的理解本發(fā)明的說(shuō)明性實(shí)施例的示例,原始語(yǔ)料 可以是一個(gè)文本或一個(gè)文本集合,其中由大量的語(yǔ)素組成,切分過(guò)程更加復(fù)雜,另外,如果 術(shù)語(yǔ)過(guò)長(zhǎng),該術(shù)語(yǔ)就可以理解為一個(gè)句子了,所以對(duì)術(shù)語(yǔ)的長(zhǎng)度需要進(jìn)行限定,限定最大切 分單位,例如最大切分單位為10個(gè)語(yǔ)素。
[0023] 所述從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分 析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù),具體包括:
[0024] 1)、對(duì)候選術(shù)語(yǔ)的出現(xiàn)概率進(jìn)行分析,即候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率; 該候選術(shù)語(yǔ)的出現(xiàn)次數(shù)比上候選術(shù)語(yǔ)的總數(shù)。
[0025] 例如該候選術(shù)語(yǔ)在原始語(yǔ)料中與其它7個(gè)候選術(shù)語(yǔ)相同,那么該候選術(shù)語(yǔ)的出現(xiàn) 次數(shù)為8次,再比上候選術(shù)語(yǔ)的總數(shù),即得到該候選術(shù)語(yǔ)的出現(xiàn)概率。
[0026] 2)、對(duì)候選術(shù)語(yǔ)進(jìn)行互信息的分析,得到候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分,所 述任意兩部分的互信息的最小值。
[0027] 例如:分析的候選術(shù)語(yǔ)C的長(zhǎng)度為1個(gè)語(yǔ)素單位,以第k個(gè)語(yǔ)素位置,進(jìn)行拆分,得 到的前部為(^?C k,后部為ck+1?C lt)
[0028] 按照如下公式進(jìn)行互信息的計(jì)算:
【主權(quán)項(xiàng)】
1. 一種領(lǐng)域術(shù)語(yǔ)抽取的方法,其特征在于,包括: 對(duì)原始語(yǔ)料W語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候 選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成; 從詞頻、互信息、左右滴、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定 該候選術(shù)語(yǔ)的多個(gè)特征參數(shù); 利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度; 抽取所述領(lǐng)域術(shù)語(yǔ)度高于闊值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
2. 根據(jù)權(quán)利要求1方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每 個(gè)所述候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中 包括每個(gè)候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分,所述任意兩部分的互信息的最小值。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中 包括每個(gè)所述候選術(shù)語(yǔ)的左右滴;其中,所述候選術(shù)語(yǔ)的左右滴為該候選術(shù)語(yǔ)的左滴和右 滴兩者中的最大值。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中 包括每個(gè)所述候選術(shù)語(yǔ)具有的每個(gè)語(yǔ)素均在歷史語(yǔ)料庫(kù)中獨(dú)立成詞的概率。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中 包括每個(gè)所述候選術(shù)語(yǔ)的每個(gè)語(yǔ)素在所述歷史語(yǔ)料庫(kù)中處于詞頭位置、詞中位置和詞尾位 置的出現(xiàn)概率。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中 包括每個(gè)所述候選術(shù)語(yǔ)中的領(lǐng)域概率; 所述領(lǐng)域概率通過(guò)對(duì)該候選術(shù)語(yǔ)所具有的每個(gè)語(yǔ)素或語(yǔ)素組合在歷史語(yǔ)料庫(kù)中出現(xiàn) 概率進(jìn)行計(jì)算獲得。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從詞頻、互信息、左右滴、獨(dú)立性和結(jié) 構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)至少包括: 候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率P ; 候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分,所述任意兩部分的互信息的最小值MI ; 每個(gè)所述候選術(shù)語(yǔ)的左右滴LRH ; 候選術(shù)語(yǔ)具有的每個(gè)語(yǔ)素在歷史語(yǔ)料庫(kù)中獨(dú)立成詞的概率IPW ; 候選術(shù)語(yǔ)的每個(gè)語(yǔ)素在所述歷史語(yǔ)料庫(kù)中處于詞頭位置、詞中位置和詞尾位置的出現(xiàn) 概率IPC;化及, 候選術(shù)語(yǔ)中的領(lǐng)域概率PC ; 所述利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度,具體包括: 按照如下公式計(jì)算出每個(gè)候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度Termhood ; Termhood = Ki ? P+K2 ? MI+K3 ? LRH+K4 ? IPW+K5 ? IPC+Ke ? PC 其中,Ki、K2、K3、K4、Ks和K e為通過(guò)給定樣本利用最小二乘法計(jì)算出的領(lǐng)域術(shù)語(yǔ)度調(diào)節(jié) 系數(shù),所述領(lǐng)域術(shù)語(yǔ)度調(diào)節(jié)系數(shù)為多元線性回歸系數(shù)。
【專利摘要】一種領(lǐng)域術(shù)語(yǔ)抽取的方法,包括:對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分,獲得若干候選術(shù)語(yǔ),其中,每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成;從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析,確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù);利用確定的所述多個(gè)特征參數(shù),計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度;抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行充分的分析,保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
【IPC分類】G06F17-30, G06F17-27
【公開(kāi)號(hào)】CN104598530
【申請(qǐng)?zhí)枴緾N201410831590
【發(fā)明人】江潮, 張芃
【申請(qǐng)人】語(yǔ)聯(lián)網(wǎng)(武漢)信息技術(shù)有限公司
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2014年12月26日