一種領(lǐng)域術(shù)語(yǔ)抽取的方法

文檔序號(hào)：8282351閱讀：438來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種領(lǐng)域術(shù)語(yǔ)抽取的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于數(shù)據(jù)挖掘技術(shù)領(lǐng)域，尤其是一種領(lǐng)域術(shù)語(yǔ)抽取的方法。
【背景技術(shù)】
[0002] 領(lǐng)域術(shù)語(yǔ)或?qū)I(yè)術(shù)語(yǔ)是以語(yǔ)音或文字為載體來(lái)表達(dá)或限定專業(yè)概念的約定性符號(hào)。隨著科學(xué)技術(shù)的蓬勃發(fā)展、新技術(shù)的不斷涌現(xiàn)以及互聯(lián)網(wǎng)技術(shù)的日新月異，一些特定領(lǐng)域的專業(yè)術(shù)語(yǔ)不斷擴(kuò)大與更新，因此按照傳統(tǒng)的人工搜集領(lǐng)域術(shù)語(yǔ)的方式已無(wú)法滿足實(shí) 際需求，自動(dòng)抽取領(lǐng)域術(shù)語(yǔ)（ATE，Automatic Term Extraction)已成為了必然。實(shí)際應(yīng)用中，領(lǐng)域術(shù)語(yǔ)抽取在構(gòu)建領(lǐng)域本體、中文分詞、信息抽取、詞典編纂、信息檢索、機(jī)器翻譯、文本分類、自動(dòng)文摘等方面均具有重要意義。
[0003] 目前，業(yè)內(nèi)所采用的領(lǐng)域術(shù)語(yǔ)抽取方法僅僅是基于單一方面對(duì)詞匯進(jìn)行分析以及判定，領(lǐng)域術(shù)語(yǔ)提取效果比較差。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的之一是提供一種領(lǐng)域術(shù)語(yǔ)抽取的方法，以解決現(xiàn)有技術(shù)中對(duì)于領(lǐng)域術(shù)語(yǔ)提取效果比較差的問(wèn)題。
[0005] 在一些說(shuō)明性實(shí)施例中，所述領(lǐng)域術(shù)語(yǔ)抽取的方法，包括：對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分，獲得若干候選術(shù)語(yǔ)，其中，每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成；從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)；利用確定的所述多個(gè)特征參數(shù)，計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ) 度；抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
[0006] 與現(xiàn)有技術(shù)相比，本發(fā)明的說(shuō)明性實(shí)施例包括以下優(yōu)點(diǎn)：
[0007] 本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充分的分析，保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
【附圖說(shuō)明】
[0008] 此處所說(shuō)明的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本發(fā) 明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明，并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中：
[0009] 圖1是按照本發(fā)明的說(shuō)明性實(shí)施例的流程圖。
[0010]
[0011]
【具體實(shí)施方式】
[0012] 在以下詳細(xì)描述中，提出大量特定細(xì)節(jié)，以便于提供對(duì)本發(fā)明的透徹理解。但是，本領(lǐng)域的技術(shù)人員會(huì)理解，即使沒(méi)有這些特定細(xì)節(jié)也可實(shí)施本發(fā)明。在其它情況下，沒(méi)有詳細(xì)描述眾所周知的方法、過(guò)程、組件和電路，以免影響對(duì)本發(fā)明的理解。
[0013] 本發(fā)明中所采用的術(shù)語(yǔ)"語(yǔ)素"是指語(yǔ)言數(shù)據(jù)中的不可拆分的最小單位，對(duì)應(yīng)為一個(gè)字或一個(gè)單詞。
[0014] 如圖1所示，公開(kāi)了一種領(lǐng)域術(shù)語(yǔ)抽取的方法，包括：
[0015] S11、對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分，獲得若干候選術(shù)語(yǔ)，其中，每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成；
[0016] S12、從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)；
[0017] S13、利用確定的所述多個(gè)特征參數(shù)，計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度；
[0018] S14、抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
[0019] 本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行多個(gè)維度的充分的分析，保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
[0020] 以下對(duì)上述方法進(jìn)行詳細(xì)說(shuō)明：
[0021] 例如：原始語(yǔ)料"中華人民共和國(guó)"進(jìn)行切分，首先以兩個(gè)語(yǔ)素單位進(jìn)行切分，可以獲得"中華"、"華人"、"人民"、"民共"、"共和"、"和國(guó)"六個(gè)候選術(shù)語(yǔ)，再以三個(gè)語(yǔ)素單位進(jìn) 行切分，可以獲得"中華人"、"華人民"、"人民共"、"民共和"、"共和國(guó)"五個(gè)候選術(shù)語(yǔ)，再以 4個(gè)語(yǔ)素單位進(jìn)行切分，可以獲得"中華人民"、"華人民共"、"人民共和"、"民共和國(guó)"四個(gè) 候選術(shù)語(yǔ)，再以5個(gè)語(yǔ)素單位進(jìn)行切分，可以獲得"中華人民共"、"華人民共和"、"人民共和國(guó)"三個(gè)候選術(shù)語(yǔ)，再以6個(gè)語(yǔ)素單位進(jìn)行切分，可以獲得"中華人民共和"、"華人民共和國(guó)" 兩個(gè)候選術(shù)語(yǔ)，以7個(gè)語(yǔ)素單位進(jìn)行切分，即得到候選術(shù)語(yǔ)"中華人民共和國(guó)"。以上共獲得 21個(gè)候選術(shù)語(yǔ)。
[0022] 以上的切分過(guò)程是為了便于更快的理解本發(fā)明的說(shuō)明性實(shí)施例的示例，原始語(yǔ)料可以是一個(gè)文本或一個(gè)文本集合，其中由大量的語(yǔ)素組成，切分過(guò)程更加復(fù)雜，另外，如果術(shù)語(yǔ)過(guò)長(zhǎng)，該術(shù)語(yǔ)就可以理解為一個(gè)句子了，所以對(duì)術(shù)語(yǔ)的長(zhǎng)度需要進(jìn)行限定，限定最大切分單位，例如最大切分單位為10個(gè)語(yǔ)素。
[0023] 所述從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)，具體包括：
[0024] 1)、對(duì)候選術(shù)語(yǔ)的出現(xiàn)概率進(jìn)行分析，即候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率；該候選術(shù)語(yǔ)的出現(xiàn)次數(shù)比上候選術(shù)語(yǔ)的總數(shù)。
[0025] 例如該候選術(shù)語(yǔ)在原始語(yǔ)料中與其它7個(gè)候選術(shù)語(yǔ)相同，那么該候選術(shù)語(yǔ)的出現(xiàn) 次數(shù)為8次，再比上候選術(shù)語(yǔ)的總數(shù)，即得到該候選術(shù)語(yǔ)的出現(xiàn)概率。
[0026] 2)、對(duì)候選術(shù)語(yǔ)進(jìn)行互信息的分析，得到候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分，所述任意兩部分的互信息的最小值。
[0027] 例如：分析的候選術(shù)語(yǔ)C的長(zhǎng)度為1個(gè)語(yǔ)素單位，以第k個(gè)語(yǔ)素位置，進(jìn)行拆分，得到的前部為(^?C k，后部為ck+1?C lt)
[0028] 按照如下公式進(jìn)行互信息的計(jì)算：
【主權(quán)項(xiàng)】
1. 一種領(lǐng)域術(shù)語(yǔ)抽取的方法，其特征在于，包括：對(duì)原始語(yǔ)料W語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分，獲得若干候選術(shù)語(yǔ)，其中，每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成；從詞頻、互信息、左右滴、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)；利用確定的所述多個(gè)特征參數(shù)，計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度；抽取所述領(lǐng)域術(shù)語(yǔ)度高于闊值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。
2. 根據(jù)權(quán)利要求1方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)所述候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率。
3. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分，所述任意兩部分的互信息的最小值。
4. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)所述候選術(shù)語(yǔ)的左右滴；其中，所述候選術(shù)語(yǔ)的左右滴為該候選術(shù)語(yǔ)的左滴和右滴兩者中的最大值。
5. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)所述候選術(shù)語(yǔ)具有的每個(gè)語(yǔ)素均在歷史語(yǔ)料庫(kù)中獨(dú)立成詞的概率。
6. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)所述候選術(shù)語(yǔ)的每個(gè)語(yǔ)素在所述歷史語(yǔ)料庫(kù)中處于詞頭位置、詞中位置和詞尾位置的出現(xiàn)概率。
7. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)中包括每個(gè)所述候選術(shù)語(yǔ)中的領(lǐng)域概率；所述領(lǐng)域概率通過(guò)對(duì)該候選術(shù)語(yǔ)所具有的每個(gè)語(yǔ)素或語(yǔ)素組合在歷史語(yǔ)料庫(kù)中出現(xiàn) 概率進(jìn)行計(jì)算獲得。
8. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述從詞頻、互信息、左右滴、獨(dú)立性和結(jié) 構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)至少包括：候選術(shù)語(yǔ)在所述原始語(yǔ)料中的出現(xiàn)概率P ; 候選術(shù)語(yǔ)被分割為任意長(zhǎng)度的兩部分，所述任意兩部分的互信息的最小值MI ; 每個(gè)所述候選術(shù)語(yǔ)的左右滴LRH ; 候選術(shù)語(yǔ)具有的每個(gè)語(yǔ)素在歷史語(yǔ)料庫(kù)中獨(dú)立成詞的概率IPW ; 候選術(shù)語(yǔ)的每個(gè)語(yǔ)素在所述歷史語(yǔ)料庫(kù)中處于詞頭位置、詞中位置和詞尾位置的出現(xiàn) 概率IPC;化及，候選術(shù)語(yǔ)中的領(lǐng)域概率PC ; 所述利用確定的所述多個(gè)特征參數(shù)，計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度，具體包括：按照如下公式計(jì)算出每個(gè)候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度Termhood ; Termhood = Ki ? P+K2 ? MI+K3 ? LRH+K4 ? IPW+K5 ? IPC+Ke ? PC 其中，Ki、K2、K3、K4、Ks和K e為通過(guò)給定樣本利用最小二乘法計(jì)算出的領(lǐng)域術(shù)語(yǔ)度調(diào)節(jié) 系數(shù)，所述領(lǐng)域術(shù)語(yǔ)度調(diào)節(jié)系數(shù)為多元線性回歸系數(shù)。
【專利摘要】一種領(lǐng)域術(shù)語(yǔ)抽取的方法，包括：對(duì)原始語(yǔ)料以語(yǔ)素為單位進(jìn)行任意長(zhǎng)度的切分，獲得若干候選術(shù)語(yǔ)，其中，每個(gè)所述候選術(shù)語(yǔ)由至少二個(gè)語(yǔ)素組成；從詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)多個(gè)維度對(duì)每個(gè)所述候選術(shù)語(yǔ)進(jìn)行分析，確定該候選術(shù)語(yǔ)的多個(gè)特征參數(shù)；利用確定的所述多個(gè)特征參數(shù)，計(jì)算出該候選術(shù)語(yǔ)的領(lǐng)域術(shù)語(yǔ)度；抽取所述領(lǐng)域術(shù)語(yǔ)度高于閾值的候選術(shù)語(yǔ)作為新的領(lǐng)域術(shù)語(yǔ)。本發(fā)明通過(guò)詞頻、互信息、左右熵、獨(dú)立性和結(jié)構(gòu)上對(duì)候選術(shù)語(yǔ)進(jìn)行充分的分析，保證提取的術(shù)語(yǔ)可靠性和準(zhǔn)確性較高。
【IPC分類】G06F17-30, G06F17-27
【公開(kāi)號(hào)】CN104598530
【申請(qǐng)?zhí)枴緾N201410831590
【發(fā)明人】江潮, 張芃
【申請(qǐng)人】語(yǔ)聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司
【公開(kāi)日】2015年5月6日
【申請(qǐng)日】2014年12月26日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江潮;張芃;
技術(shù)所有人：語(yǔ)聯(lián)網(wǎng)（武漢）信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

術(shù)語(yǔ)抽取相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種領(lǐng)域術(shù)語(yǔ)抽取的方法