一種基于文檔類型的實體識別合作學習算法
【技術領域】
[0001] 本發(fā)明屬于計算機領域,更具體地設及一種基于文檔類型的實體識別合作學習算 法,能很好地提高實體識別的準確率。
【背景技術】
[0002] 隨著信息產(chǎn)業(yè)的發(fā)展,計算機網(wǎng)絡規(guī)模日益擴大,大量的信息都W電子文檔的形 式出現(xiàn)在人們面前。同時在各種公司企業(yè)中,大量的數(shù)據(jù)也W該種形式被積累下來。而該 些數(shù)據(jù)中的大多數(shù)潛在有用信息都是W非結構化的形式存在的。而該些大量的自由文本的 積累也為語義技術在企業(yè)級環(huán)境中的應用提出了挑戰(zhàn)。因此,人迫切需要一些技術去處理 該些信息。實體鏈接技術作為一個能夠將文本中提到的詞鏈接到它在某個知識庫中的實體 的技術,而越來越受關注。將非結構化的文檔和某個知識庫鏈接能夠實現(xiàn)諸如企業(yè)及捜索, 信息抽取和文本分類等多項任務,那么該樣能夠為企業(yè)信息資源的管理和利用提供更大的 可能性。然而對于非結構化的文檔,在進行實體連接處理之前,首先需要做的對文檔進行命 名實體識別。命名實體識別是指識別文本中具有特定意義的實體,主要包括人名、地名、機 構名、專有名詞等。命名實體識別是進行實體鏈接一個前提工作,識別的質量會直接影響到 后續(xù)的一系列工作。
[0003] 目前比較常用的命名實體識別技術可粗略的分為兩類,首先是在同一個數(shù)據(jù)集合 上訓練多個算法的模型,然后將該些模型集成在一起,采用的是集成學習的模式;第二類是 當數(shù)據(jù)集足夠大的時候,將該數(shù)據(jù)集切分成多個,然后在該些子數(shù)據(jù)集上運行同一個算法, 獲得此算法的多個模型,然后將該些模型進行集成用于命名實體識別。雖然W上兩種方法 都能夠完成命名實體識別任務,但是它們在準確率上都還有所欠缺。
[0004] 2012 年,由LiJ,LiuC發(fā)表的IE邸論文"ACooperativeC〇-learningApproach 化rCone巧tDetectioninDo州ments"中,提出了一種文檔中概念識別的合作學習方法。 它不僅能夠完成實體識別任務,同時值得一提的是它能將大量的稀疏標記的文檔用作訓練 數(shù)據(jù)。其核屯、思想是;首先將所有稀疏標記的文檔中抽取所有的標記實體形成一個字典,W 該字典去更新訓練語料中的每一個文檔,將預處理的后的訓練語料分成n個子集,然后在 該n個子集上分別運行條件隨機場模型,訓練出n個實體識別模型。然后利用協(xié)同訓練算 法,將n個模型分別在其他n-1個訓練集合上運行,則對應每個訓練集合都會有n-1個標記 結果集,按照一定規(guī)則選取n-1結果集中新識別的實體更新前一次迭代的所對應訓練集, 用于下一次分類器的訓練,如果該些更新后的訓練集和對應的前一次所用的訓練集的差異 性都小于或等于某個規(guī)定的值,那么則終止訓練,并將訓練的基礎模型按照一定規(guī)則集成。 總的來說,該個方法W協(xié)同訓練的方式更好地利用稀疏標記的訓練語料,W集成學習的模 式實現(xiàn)基礎模型集成。但是由于它只采用了一種學習算法,在一些情況下實體識別準確率 可能欠佳。
[0005] 2004年,由化0UY,Gol血anS.Re等發(fā)表的IE邸論文"Democraticco-learning" 中,提出了一種民主協(xié)同訓練方法。該個方法實現(xiàn)主要講的如何利用無標記數(shù)據(jù)作為訓練 數(shù)據(jù)來訓練實模型,進而來提升監(jiān)督學習算法的準確率。其核屯、思想是;首先利用已標記的 數(shù)據(jù)訓練多個學習器的模型,然后用該些模型對未標記的數(shù)據(jù)集進行標注,將所獲得的標 記結果集中符合相應規(guī)則的標記用來更新訓練數(shù)據(jù)集。然后用更新后的訓練集訓重新訓練 學習器,重復上述步驟,直到標記結果集中沒有新的標記能用來更新訓練集,則停止訓練, 并將所獲得的模型按照相應規(guī)則進行集成。此算法采用了集成學習的模式,雖然考慮了學 習器的多樣性,但是每次循環(huán)訓練學習器都是用的同一數(shù)據(jù)集,沒有考慮到數(shù)據(jù)集的多樣 性,該是它的一個不足。
[0006] 上面介紹的已有方法雖然都針對標注問題的準確率進行了算法改進,但是他們都 只考慮了一個方面要么是考慮了數(shù)據(jù)集的多樣性沒有考慮算法的多樣性,要么是考慮了算 法的多樣性沒有考慮數(shù)據(jù)集的多樣性,并不能將該兩個方面的需求都滿足。
【發(fā)明內容】
[0007] 本發(fā)明提出了一種基于文檔類型的實體識別合作學習算法,結合了集成學習和協(xié) 同訓練技術,同時采用了條件隨機場模型,隱式馬爾可夫模型和最大滴馬爾可夫模型S個 算法作為實體識別的基礎算法,能很好地更高的實體識別的準確率。
[000引一種基于文檔類型的實體識別合作學習算法,該算法包括模型構建模塊、模型應 用W及模型集成。其中,模型構建模塊包括基于文檔類型的實體識別分類器構建和文本分 類器構建。模型應用包括文檔類型識別和基于文檔類型的實體識別;模型集成包括兩個層 次的模型組合:
[0009] (1)首先分類別對所構建的基礎模型進行集成,即分別對所構建的基于文檔類型 的條件隨機場模型,隱式馬爾可夫模型W及最大滴馬爾可夫模型S類基礎模型進行模型內 的集成,屬于同類型模型的集成;
[0010] (2)其次對所用的S類模型進行集成,即對已完成的模型內集成的上述S類模型 進行模型間集成,屬于不同類型模型的集成。
[0011] 對于=類基礎模型進行模型內集成需要采用一種帶有權值的多數(shù)投票策略,具體 的,權值由每個基礎模型的可信度來定義,而對于每個基礎模型的可信度,采用對應輸出句 子的概率來度量,進而實現(xiàn)了同類型模型內的集成。
[0012] 對所用的=類模型進行模型間集成,采用不帶權值的多數(shù)投票策略,即對基于文 檔類型所構建的=類不同的基礎模型,在模型內集成完成后,進行模型間集成時認為它們 之間的可信度時一樣的,因此用不帶權值的多數(shù)投票策略實現(xiàn)不同類型模型的集成。該樣, 完成了模型集成,構建出了基于文檔類別的實體識別模型。
[0013] 更詳細的,基于文檔類型的實體識別分類器構建;包括五個子模塊,首先是對輸入 數(shù)據(jù)的預處理模塊,抽取稀疏標記的訓練數(shù)據(jù)集中已標記的實體,構成一個字典,然后W該 字典去更新每個訓練文檔;其次是基于文檔類型的條件隨機場模型構建,最大滴馬爾可夫 模型構建和隱式馬爾可夫模型構建,主要是學習器的訓練;最后的子模塊是模型集成,將訓 練獲得的基于文檔類型的實體識別模型進行集成。
[0014] 文本分類器構建;主要是根據(jù)文檔特征數(shù)據(jù)進行學習器訓練,獲得相應的文本分 類模型。
[0015] 文檔類型識別:主要是應構建的文本分類模型對待處理語料進行文本分類,W進 行后續(xù)處理。
[0016] 基于文檔類型的實體識別;主要是根據(jù)文檔類型識別處理結果選擇對應的基于文 檔類型的實體識別模型進行文檔標注工作。
[0017] 與現(xiàn)有技術相比,本發(fā)明具有W下優(yōu)點:
[001引本發(fā)明W已知文檔類型作為條件,結合了集成學習和協(xié)同訓練技術,選擇條件隨 機場等=個算法作為基礎算法,同時,根據(jù)文檔類型對訓練集進行了切分,該樣既考慮了分 類器的多樣性,也考慮了數(shù)據(jù)集的多樣性,能更好的提高實體識別的準確率。
【附圖說明】
[0019] 結合附圖,從下面對本發(fā)明實施例的詳細描述,將更好地理解本發(fā)明,其中:
[0020] 圖1為本發(fā)明一個實施例的基于文檔類型的實體識別合作學習系統(tǒng)框圖。
[0021] 圖中;1、數(shù)據(jù)集預處理裝置,2、基于文檔類型的分類器構建裝置,3、文本分類器構 建裝置,4、模型應用裝置,41、文本分類處理單元,42、實體識別處理單元。
【具體實施方式】
[0022] 下面將詳細描述本發(fā)明各個方面的特征和示例性實施例
[0023] 基于文檔類型的實體識別合作學習系統(tǒng)框圖如圖1所示,包括:數(shù)據(jù)集預處理裝 置(1),基于文檔類型的分類器構建裝置(2),文本分類器構建裝置(3),模型應用裝置(4)。 其中;數(shù)據(jù)集預處理裝置(1)與基于文檔類型的分類器構建裝