亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向開放文本的領(lǐng)域概念抽取方法

文檔序號:9911007閱讀:672來源:國知局
一種面向開放文本的領(lǐng)域概念抽取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及領(lǐng)域知識庫構(gòu)建技術(shù)領(lǐng)域,具體地說,本發(fā)明涉及一種面向開放文本 的領(lǐng)域概念抽取方法。
【背景技術(shù)】
[0002] 世界已經(jīng)入網(wǎng)絡(luò)化的大數(shù)據(jù)時代。網(wǎng)絡(luò)化的大數(shù)據(jù)數(shù)量巨大、形式復(fù)雜、密度低, 如過要充分地挖掘其中蘊含的巨大價值,就需要以知識庫的形式將這些數(shù)據(jù)組織起來。知 識庫分為普通知識庫和領(lǐng)域知識庫,領(lǐng)域知識庫注重知識的深度,反映領(lǐng)域概念及其關(guān)系。 領(lǐng)域概念是一種領(lǐng)域知識的表現(xiàn)形式,它是人類在認(rèn)知過程中對于特定事物的抽象描述。 開放文本的領(lǐng)域概念識別主要關(guān)注如何利用計算機實現(xiàn)自動或者半自動地從互聯(lián)網(wǎng)上眾 多無結(jié)構(gòu)文本中獲取上述領(lǐng)域概念。目前,領(lǐng)域概念抽取及領(lǐng)域知識庫技術(shù)在信息檢索、文 本分類、機器翻譯等自然語言處理領(lǐng)域得到了廣泛的應(yīng)用。
[0003] 目前,領(lǐng)域概念識別方法主要分為人工識別和自動識別兩大類:
[0004] 1.人工識別主要時依靠專家知識進行識別概念,或者同時依靠專家知識和從百科 等其它來源所收集的相關(guān)信息來識別概念。這種方法需要對領(lǐng)域知識有一定了解的專家來 進行數(shù)據(jù)處理,雖然可以確保知識的準(zhǔn)確率,但所需要的時間和人工成本比較高,因此所能 處理的開放文本規(guī)模有限,所構(gòu)建的知識庫與自動識別概念構(gòu)建的知識庫規(guī)模相差較大, 無法適應(yīng)當(dāng)前以爆炸形式增長的大規(guī)模web數(shù)據(jù)。
[0005] 2.自動概念識別主要是通過基于統(tǒng)計的方法對互聯(lián)網(wǎng)開放文本數(shù)據(jù)中的概念、屬 性、關(guān)系等進行抽取與識別。自動概念識別方法可以分為傳統(tǒng)的統(tǒng)計方法和基于機器學(xué)習(xí) 的統(tǒng)計方法。傳統(tǒng)的統(tǒng)計方法通過定義一些統(tǒng)計量及相應(yīng)的評價指標(biāo)對候選領(lǐng)域概念進行 篩選,最終得到領(lǐng)域相關(guān)性較高的概念?;跈C器學(xué)習(xí)的統(tǒng)計方法通過學(xué)習(xí)標(biāo)注的語料獲 取規(guī)則,然后根據(jù)這些規(guī)則識別領(lǐng)域概念。然而,目前不論是基于傳統(tǒng)的統(tǒng)計方法,還是基 于機器學(xué)習(xí)的統(tǒng)計方法,其識別準(zhǔn)確率和召回率都有待提高。
[0006] 因此,當(dāng)前迫切需要一種能夠提高準(zhǔn)確率和召回率的自動領(lǐng)域概念識別的解決方 案。

【發(fā)明內(nèi)容】

[0007] 因此,本發(fā)明的任務(wù)是提供一種能夠克服現(xiàn)有技術(shù)的上述缺陷的基站休眠解決方 案。
[0008] 本發(fā)明提供了一種面向開放文本的領(lǐng)域概念抽取方法,包括下列步驟:
[0009] 1)遍歷語料庫中的所有開放文本,分別從每一篇開放文本中提取候選領(lǐng)域概念; [0010] 2)對于每一候選領(lǐng)域概念,利用該候選領(lǐng)域概念的短語拆分結(jié)果、上下文信息和 百科分類信息得到該候選領(lǐng)域概念所關(guān)聯(lián)的詞向量,將該詞向量中的所有的詞分別作為該 候選領(lǐng)域概念所關(guān)聯(lián)的領(lǐng)域標(biāo)簽;
[0011] 3)用步驟1)得出的所有候選領(lǐng)域概念構(gòu)建候選領(lǐng)域概念集合A,用步驟2)得出的 所有領(lǐng)域標(biāo)簽構(gòu)建領(lǐng)域標(biāo)簽集合B;基于所述候選領(lǐng)域概念集合A中各個元素與領(lǐng)域標(biāo)簽集 合B中各個元素的關(guān)聯(lián)關(guān)系,利用HI TS算法進行迭代計算,得出表征所述候選領(lǐng)域概念集合 A中各個候選領(lǐng)域概念在該候選領(lǐng)域概念集合A中的重要程度的權(quán)值,將候選領(lǐng)域概念的權(quán) 值作為該候選領(lǐng)域概念的領(lǐng)域相關(guān)度;
[0012] 4)根據(jù)各個候選領(lǐng)域概念的特征判斷其是否為領(lǐng)域概念,所述候選領(lǐng)域概念的特 征包括該候選領(lǐng)域概念的所述領(lǐng)域相關(guān)度。
[0013] 其中,所述步驟1)包括下列子步驟:
[0014] 11)對開放文本的原始語料進行分詞;
[0015] 12)對于分詞結(jié)果,通過進行句法分析得到其中名詞或名詞短語,并將所述名詞和 名詞短語作為所述候選領(lǐng)域概念。
[0016] 其中,所述步驟12)還包括:合并相同的名詞和名詞短語,統(tǒng)計各個名詞和名詞短 語的出現(xiàn)頻次作為相應(yīng)候選領(lǐng)域概念的出現(xiàn)頻次。
[0017] 其中,所述步驟2)中,所述HITS算法為加權(quán)HITS算法。
[0018] 其中,所述步驟3)包括下列子步驟:
[0019] 31)基于預(yù)設(shè)的各個領(lǐng)域標(biāo)簽的權(quán)值的初始值,計算各個候選領(lǐng)域概念的領(lǐng)域相 關(guān)度;
[0020] 32)基于步驟31)所得出的各個候選領(lǐng)域概念的領(lǐng)域相關(guān)度,計算并更新各個領(lǐng)域 標(biāo)簽的權(quán)值;
[0021] 33)基于步驟32)所得出的各個領(lǐng)域標(biāo)簽的權(quán)值,計算并更新各個候選領(lǐng)域概念的 領(lǐng)域相關(guān)度;
[0022] 34)重復(fù)步驟32)和33),直至所述領(lǐng)域相關(guān)度或所述領(lǐng)域標(biāo)簽的權(quán)值收斂。
[0023] 其中,所述步驟31)和33)中,基于下述規(guī)則計算和更新所述領(lǐng)域相關(guān)度:候選領(lǐng)域 概念的所述領(lǐng)域相關(guān)度為與該候選領(lǐng)域概念相關(guān)聯(lián)的各個領(lǐng)域標(biāo)簽的權(quán)值的加權(quán)和;所述 步驟32)中,基于下述規(guī)則計算和更新所述領(lǐng)域標(biāo)簽的權(quán)值:領(lǐng)域標(biāo)簽的權(quán)值為與該領(lǐng)域標(biāo) 簽相關(guān)聯(lián)的候選領(lǐng)域概念的領(lǐng)域相關(guān)度的加權(quán)和。
[0024] 其中,所述步驟32)中,在計算各個領(lǐng)域標(biāo)簽的權(quán)值時,所述的各個候選領(lǐng)域概念 的領(lǐng)域相關(guān)度的權(quán)重分別根據(jù)該候選領(lǐng)域概念的出現(xiàn)頻次得出。
[0025] 其中,所述步驟31)和33)中,在計算各個候選領(lǐng)域概念的領(lǐng)域相關(guān)度時,所述的各 個領(lǐng)域標(biāo)簽的權(quán)重分別根據(jù)該領(lǐng)域標(biāo)簽的出現(xiàn)頻次得出。
[0026] 其中,所述步驟4)中,所述候選領(lǐng)域概念的特征還包括該候選領(lǐng)域概念的出現(xiàn)頻 次。
[0027] 其中,所述步驟4)還包括:當(dāng)所述候選領(lǐng)域概念的出現(xiàn)頻次大于預(yù)設(shè)的出現(xiàn)頻次 閾值,且所述候選領(lǐng)域概念的領(lǐng)域相關(guān)度大于預(yù)設(shè)的領(lǐng)域相關(guān)度閾值時,判定該候選領(lǐng)域 概念為正式的領(lǐng)域概念;否則,丟棄所述候選領(lǐng)域概念。
[0028] 與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0029] 1、本發(fā)明能夠有效利用候選領(lǐng)域概念的字面特征和上下文特征來識別領(lǐng)域概念, 從而提尚了準(zhǔn)確率和召回率。
[0030] 2、本發(fā)明能夠更好地識別出那些重要的低頻概念。
【附圖說明】
[0031] 以下,結(jié)合附圖來詳細(xì)說明本發(fā)明的實施例,其中:
[0032] 圖1示出了本發(fā)明一個實施例的面向開放文本的領(lǐng)域概念抽取方法的整體流程;
[0033] 圖2示出了本發(fā)明一個實施例中從原始語料中提取候選領(lǐng)域概念的一個具體流 程;
[0034] 圖3示出了本發(fā)明一個實施例中將候選領(lǐng)域概念擴展為詞向量的具體流程;
[0035] 圖4示出了本發(fā)明一個實施例中計算每個候選領(lǐng)域概念的領(lǐng)域相關(guān)度的流程;
[0036] 圖5示出了本發(fā)明一個實施例中所構(gòu)造的二部圖的示例;
[0037] 圖6示出了本發(fā)明一個實施例中一個句法分析樹的示例;
[0038] 圖7示出了本實施例中將一個候選領(lǐng)域概念進行擴展并最終得出該候選領(lǐng)域概念 對應(yīng)的詞向量的示例。
【具體實施方式】
[0039] 如前文所述,現(xiàn)有的面向開放文本的領(lǐng)域概念抽取方法的準(zhǔn)確率和召回率都有待 提高。發(fā)明人對此做了深入分析,發(fā)現(xiàn):一方面,現(xiàn)有的領(lǐng)域概念抽取方案中,通常僅考慮候 選領(lǐng)域概念本身的字面特征,未考慮其上下文特征,這樣在領(lǐng)域概念抽取過程中就難以引 入上下文信息所造成的影響,導(dǎo)致實際應(yīng)用中表現(xiàn)較差。另一方面,現(xiàn)有的識別方案中,詞 頻往往會被作為一種重要的識別依據(jù),然而,在很多領(lǐng)域中一些重要的領(lǐng)域概念在開放文 本中出現(xiàn)的頻次并不高。這就導(dǎo)致在領(lǐng)域概念抽取時有可能忽略實際上很重要的低頻領(lǐng)域 概念。基于此,發(fā)明人一方面將候選領(lǐng)域概念的上下文特征引入,另一方面,針對低頻領(lǐng)域 概念做出優(yōu)化,從而提出了一種基于詞向量和加權(quán)HITS算法的面向開放文本的領(lǐng)域概念抽 取方法。
[0040] 圖1示出了本發(fā)明一個實施例的面向開放文本的領(lǐng)域概念抽取方法的整體流程, 包括下列步驟100~400:
[0041] 步驟100:遍歷原始語料庫中的每一篇開放文本,對于每一篇開放文本,分別從其 中提取候選領(lǐng)域概念。本實施例中,對于一篇開放文中,提取其中候選領(lǐng)域概念的方法是: 對原始語料使用ICTCLAS進行分詞,例如"發(fā)動機管理系統(tǒng)"拆分為"發(fā)動機"、"管理"、"系 統(tǒng)";使用Stanford句法分析工具進行句法分析得到可能構(gòu)成領(lǐng)域概念的詞語,合并與過濾 這些詞語得到最終的候選領(lǐng)域概念。其中,可
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1