本發(fā)明涉及一種機(jī)構(gòu)名識(shí)別領(lǐng)域,具體地說(shuō)是一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置。
背景技術(shù):
命名實(shí)體識(shí)別及其關(guān)系抽取就是從文本中抽取出實(shí)體相關(guān)的知識(shí)的過(guò)程,是信息抽取的重要任務(wù),是眾多自然語(yǔ)言處理領(lǐng)域的基礎(chǔ),具有重要的研究意義和應(yīng)用價(jià)值。
命名實(shí)體識(shí)別最初使用的方法就是基于規(guī)則的方法,是通過(guò)使用詞法規(guī)則、語(yǔ)法規(guī)則甚至語(yǔ)義規(guī)則來(lái)進(jìn)行命名實(shí)體的識(shí)別。規(guī)則一般都是由領(lǐng)域?qū)<疫M(jìn)行人工編寫(xiě)的,或者在人工編寫(xiě)的基礎(chǔ)上從訓(xùn)練語(yǔ)料中學(xué)習(xí)得到新的規(guī)則。命名實(shí)體識(shí)別的過(guò)程即規(guī)則匹配的過(guò)程。基于規(guī)則的方法實(shí)現(xiàn)簡(jiǎn)單,準(zhǔn)確率較高,然而由于規(guī)則的有限性,召回率較低?;谝?guī)則的系統(tǒng)需要花費(fèi)大量的專業(yè)的人力資源,并且缺乏適應(yīng)性。
基于統(tǒng)計(jì)的命名實(shí)體識(shí)別方法,是機(jī)器學(xué)習(xí)方法在自然語(yǔ)言處理領(lǐng)域的應(yīng)用。條件隨機(jī)場(chǎng)(Condition一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置l R一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置ndom Fields—CRF)是目前條件最好的序列標(biāo)注的模型,其中最常用的是簡(jiǎn)單的一階線性模型?;诮y(tǒng)計(jì)的方法利用語(yǔ)料進(jìn)行訓(xùn)練,然后根據(jù)訓(xùn)練好的模型進(jìn)行識(shí)別。標(biāo)注語(yǔ)料不需要專業(yè)人員,并且花費(fèi)時(shí)間較短。這類(lèi)系統(tǒng)可移植性較好?;诮y(tǒng)計(jì)方法的系統(tǒng)其效果常常會(huì)受到語(yǔ)料庫(kù)規(guī)模和質(zhì)量的影響,并且在自然語(yǔ)言處理領(lǐng)域,往往因?yàn)檎Z(yǔ)料規(guī)模小而產(chǎn)生過(guò)擬合。
機(jī)構(gòu)名中存在大量的縮寫(xiě)現(xiàn)象,縮寫(xiě)經(jīng)常出現(xiàn)在以下兩種情況下:(1)這個(gè)縮寫(xiě)廣為所知,例如全球著名的公司、機(jī)構(gòu),品牌等(2)該縮寫(xiě)并未廣為所知,在前文中已經(jīng)提到過(guò)該縮寫(xiě)的全稱,并且有提及其簡(jiǎn)稱。機(jī)構(gòu)名簡(jiǎn)稱的識(shí)別也是比較困難的問(wèn)題。
維基百科是一個(gè)開(kāi)放的、動(dòng)態(tài)的、全球合作編輯的具有豐富知識(shí)的資源。維基百科通過(guò)模板規(guī)范化、協(xié)同編輯、邀請(qǐng)優(yōu)秀學(xué)者編輯學(xué)術(shù)條目等方法來(lái)保證條目的可靠性、準(zhǔn)確性和規(guī)范性,因此是非常好的無(wú)標(biāo)注的訓(xùn)練語(yǔ)料,目前已有大量的研究基于維基百科來(lái)獲取知識(shí),最常見(jiàn)的是開(kāi)放的關(guān)系抽取、命名實(shí)體消歧、本體構(gòu)建以及語(yǔ)義網(wǎng)。
在各種評(píng)測(cè)會(huì)議上已經(jīng)取得了較好的效果,也有學(xué)者認(rèn)為命名實(shí)體識(shí)別這個(gè)問(wèn)題并沒(méi)有很好的解決,并且呼吁繼續(xù)研究命名實(shí)體識(shí)別問(wèn)題,原因如下:
命名實(shí)體識(shí)別只是在有限的文本類(lèi)型(主要是新聞?wù)Z料中)和實(shí)體類(lèi)別(主要是人名、地名)中取得了效果。與其它信息檢索領(lǐng)域相比,命名實(shí)體評(píng)測(cè)語(yǔ)料比較小,容易產(chǎn)生過(guò)擬合。通用的識(shí)別多種命名實(shí)體的系統(tǒng)性能很差。中文的命名實(shí)體識(shí)別與英文的相比,挑戰(zhàn)更大,目前未解決的難題更多。此外,從評(píng)測(cè)效果來(lái)看,中文機(jī)構(gòu)名的識(shí)別效果最差。
命名實(shí)體是一個(gè)開(kāi)放集合,因此存在大量的未登錄詞(語(yǔ)料中不存在的詞)。在評(píng)測(cè)的訓(xùn)練語(yǔ)料上有很好的效果,而在真實(shí)的環(huán)境中效果較差,其中的主要原因是算法過(guò)度擬合了訓(xùn)練語(yǔ)料,而泛化能力差。
MCL(The M一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置rkov Cluster一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置lgorithm)算法是一種圖結(jié)構(gòu)算法。在圖中,一個(gè)聚類(lèi)中的節(jié)點(diǎn)相互連接更加緊密,不同聚類(lèi)之間的節(jié)點(diǎn)相互連接不太緊密。在圖中進(jìn)行隨機(jī)游走,那么在一個(gè)聚類(lèi)中進(jìn)行游走的概率大于在不同聚類(lèi)之中進(jìn)行游走的概率。
Biem一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置nn提出的CW(Chinese Whisper)算法是對(duì)MCL算法的改進(jìn),進(jìn)行了更加嚴(yán)格的限制,使其收斂更快,從而能處理更多的場(chǎng)景。CW算法比較簡(jiǎn)單,其數(shù)學(xué)公式描述如下:
D0=In;//將D0初始化為單位矩陣
for e一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置ch iter一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置tion://每一次迭代
Dt-1=m一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置xrow(Dt-1);//m一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置xrow將矩陣匯總每一行的最大值設(shè)為1,其余設(shè)為0
Dt=Dt-1一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置G;
CW算法的時(shí)間復(fù)雜度為O(k*|E|),與圖中邊的個(gè)數(shù)有關(guān),而與節(jié)點(diǎn)個(gè)數(shù)無(wú)關(guān)。CW算法已經(jīng)被應(yīng)用在語(yǔ)言識(shí)別、詞性標(biāo)注和詞義消解等任務(wù)中。因此CW算法比較適合具有稀疏性的NLP任務(wù)中。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的技術(shù)任務(wù)是提供一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置。
本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,方法步驟如下:
第一步,從維基百科中自動(dòng)抽取機(jī)構(gòu)名,進(jìn)行簡(jiǎn)稱詞典的構(gòu)建,利用簡(jiǎn)稱詞典,形成機(jī)構(gòu)名簡(jiǎn)稱特征;
第二步,從訓(xùn)練數(shù)據(jù)中,結(jié)合傳統(tǒng)的分詞、詞性標(biāo)注和依存樹(shù)特征,形成最終的特征;
第三步,從維基百科文檔中,進(jìn)行正文提取、分詞等預(yù)處理,使用CW聚類(lèi)方法進(jìn)行詞語(yǔ)的聚類(lèi),使用詞語(yǔ)的類(lèi)別特征作為語(yǔ)義特征;
第四步,基于CRF進(jìn)行訓(xùn)練時(shí),提取機(jī)構(gòu)名簡(jiǎn)稱特征和詞語(yǔ)類(lèi)別的語(yǔ)義特征,利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)生成機(jī)構(gòu)名是別的CRF模型,進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果;
第五步,對(duì)于未標(biāo)注的數(shù)據(jù),利用CRF識(shí)別進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果。
優(yōu)選的,包括震蕩監(jiān)測(cè)的CW算法;
對(duì)于每一條邊,除了存儲(chǔ)權(quán)重信息之外,還需要存儲(chǔ)端點(diǎn)的類(lèi)別信息,以及震蕩的次數(shù);
在節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn),當(dāng)震蕩超過(guò)一定閾值時(shí),把該節(jié)點(diǎn)標(biāo)記為同一類(lèi)別。
優(yōu)選的,包括簡(jiǎn)稱詞典的構(gòu)建方法:
從維基百科中構(gòu)建機(jī)構(gòu)名簡(jiǎn)稱詞典,首先需要識(shí)別哪些條目是表示機(jī)構(gòu)名,然后從該條目的文字內(nèi)容中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從重定向關(guān)系中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從其它條目的錨文本中獲取機(jī)構(gòu)名的簡(jiǎn)稱。
優(yōu)選的,包括特征模板的設(shè)計(jì),根據(jù)以下規(guī)則設(shè)計(jì)特征模板:
從句子中出現(xiàn)機(jī)構(gòu)名的尾詞位置開(kāi)始向前所形成的名詞短語(yǔ),有可能是機(jī)構(gòu)名;
某些特定詞語(yǔ)可以指示其上下文可能包含機(jī)構(gòu)名,這些詞語(yǔ)成為邊界詞;
某些特定詞語(yǔ)可以指示其所直接依賴或間接依賴的詞語(yǔ)可為機(jī)構(gòu)名,這些詞語(yǔ)稱為依賴詞;
所述的特征模板為:
T01 W[n] 當(dāng)前詞語(yǔ);
T02 W[n-1] 當(dāng)前位置前一位置的詞語(yǔ);
T03 W[n+1] 當(dāng)前位置后一位置的詞語(yǔ);
T04 POS[n] 當(dāng)前詞語(yǔ)的詞性;
T05 POS[n-1] 當(dāng)前位置前一位置的詞語(yǔ)的詞性;
T06 POS[n+1] 當(dāng)前位置后一位置的詞語(yǔ)的詞性;
T07 Class[n] 當(dāng)前位置的聚類(lèi)類(lèi)別;
T08 InDict[n] 當(dāng)前位置的詞語(yǔ)是否在簡(jiǎn)稱詞典中;
T09 LDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊直接依賴詞語(yǔ);
T10 RDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊直接依賴詞語(yǔ);
T11 LIDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊間接依賴詞語(yǔ);
T12 RIDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊間接依賴詞語(yǔ);
T13 W[n]&&Pos[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的詞性;
T14 W[n]&&Class[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的類(lèi)別;
每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合;其中T1-T3是基于詞語(yǔ)的上下文的特征,T4-T6是基于詞語(yǔ)的詞性特征,T7是基于詞語(yǔ)的類(lèi)別特征,T8是為了處理簡(jiǎn)稱的問(wèn)題,T9-T12是基于依存句法的特征,T13-T14是組合特征。
一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類(lèi)模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊;
其中,簡(jiǎn)稱詞典構(gòu)建模塊和詞語(yǔ)聚類(lèi)模塊用于生成更加豐富的特征;
CRF訓(xùn)練模塊是利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)模型;
CRF識(shí)別模塊是利用訓(xùn)練好的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行識(shí)別,也可以用來(lái)進(jìn)行算法的測(cè)試和評(píng)估。
本發(fā)明的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置和現(xiàn)有技術(shù)相比,主要貢獻(xiàn)如下:
1、提出了基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,并且提出了使用維基百科自動(dòng)構(gòu)建機(jī)構(gòu)名詞典的方法;
2、使用了基于圖的聚類(lèi)算法進(jìn)行詞語(yǔ)聚類(lèi),并且使用詞語(yǔ)的類(lèi)別特征作為語(yǔ)義特征;
3、改進(jìn)了圖聚類(lèi)算法CW,提出的震蕩檢測(cè)CW算法,并未改變CW的時(shí)間復(fù)雜度,所以其時(shí)間復(fù)雜度仍然為O(k*|E|),由于使用了更加復(fù)雜的結(jié)構(gòu)表示圖中的邊,空間占用略微提高,但是空間復(fù)雜度并沒(méi)有改變。因此,本文提出的震蕩檢測(cè)CW算法保留了CW算法的高效性,又解決了其由于震蕩而不能收斂的問(wèn)題;
4、構(gòu)建了包含大量未登錄機(jī)構(gòu)名的測(cè)試語(yǔ)料,該語(yǔ)料更具有說(shuō)服力;
5、本發(fā)明提出的裝置與目前最好的開(kāi)源工具相比,F(xiàn)1值提高了8%左右。
附圖說(shuō)明
附圖1為一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法的系統(tǒng)結(jié)構(gòu)圖;
附圖2為CW算法的震蕩現(xiàn)象的初始狀態(tài)示意圖;
附圖3為CW算法的震蕩現(xiàn)象的震蕩中狀態(tài)示意圖;
具體實(shí)施方式
實(shí)施例1:
一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,方法步驟如下:
第一步,從維基百科中自動(dòng)抽取機(jī)構(gòu)名,進(jìn)行簡(jiǎn)稱詞典的構(gòu)建,利用簡(jiǎn)稱詞典,形成機(jī)構(gòu)名簡(jiǎn)稱特征;
第二步,從訓(xùn)練數(shù)據(jù)中,結(jié)合傳統(tǒng)的分詞、詞性標(biāo)注和依存樹(shù)特征,形成最終的特征;
第三步,從維基百科文檔中,進(jìn)行正文提取、分詞等預(yù)處理,使用CW聚類(lèi)方法進(jìn)行詞語(yǔ)的聚類(lèi),使用詞語(yǔ)的類(lèi)別特征作為語(yǔ)義特征;
使用詞語(yǔ)聚類(lèi)算法CW對(duì)大量語(yǔ)料進(jìn)行處理,自動(dòng)得到詞語(yǔ)的類(lèi)別。
第四步,基于CRF進(jìn)行訓(xùn)練時(shí),提取機(jī)構(gòu)名簡(jiǎn)稱特征和詞語(yǔ)類(lèi)別的語(yǔ)義特征,利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)生成機(jī)構(gòu)名是別的CRF模型,進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果;
第五步,對(duì)于未標(biāo)注的數(shù)據(jù),利用CRF識(shí)別進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果。
一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類(lèi)模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊;
其中,簡(jiǎn)稱詞典構(gòu)建模塊和詞語(yǔ)聚類(lèi)模塊用于生成更加豐富的特征;
CRF訓(xùn)練模塊是利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)模型;
CRF識(shí)別模塊是利用訓(xùn)練好的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行識(shí)別,也可以用來(lái)進(jìn)行算法的測(cè)試和評(píng)估。
震蕩監(jiān)測(cè)的CW算法;
對(duì)于每一條邊,除了存儲(chǔ)權(quán)重信息之外,還需要存儲(chǔ)端點(diǎn)的類(lèi)別信息,以及震蕩的次數(shù);
在節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn),當(dāng)震蕩超過(guò)一定閾值時(shí),把該節(jié)點(diǎn)標(biāo)記為同一類(lèi)別。
本發(fā)明提出了一種震蕩檢測(cè)算法,當(dāng)震蕩出現(xiàn)時(shí),把震蕩的點(diǎn)的類(lèi)別設(shè)置為相同的類(lèi)別。
見(jiàn)附圖2,對(duì)于每一條邊,除了存儲(chǔ)權(quán)重信息之外,還需要存儲(chǔ)端點(diǎn)的類(lèi)別信息,以及震蕩的次數(shù)。對(duì)于圖中的第j條邊Ej,Ej用一個(gè)元組表示Ej={W,CNi,CNk,NC}。其中W表示Ej的權(quán)重,Ej連接Ni和Nk兩個(gè)節(jié)點(diǎn),并假設(shè)Ej有一個(gè)隱式的方向,從Ni連向Nk,而CNi和CNk分別表示上一次迭代中Ni和Nk的類(lèi)別,而NC表示本次迭代之前,邊Ej上存在的震蕩次數(shù)。
對(duì)于每一次迭代,使用CW算法計(jì)算出Ni和Nk的新的類(lèi)別CNi'和CNk',那么Ej更新規(guī)則如下:
如果CNi'==CNk',則同一條邊連接的兩個(gè)點(diǎn)的類(lèi)別相同,不屬于震蕩,Ej={W,CNi',CNk',0}
如果CNi'=CNk并且CNk'=CNi,那么發(fā)生震蕩,Ej={W,CNi',CNk',NC+1}
否則,沒(méi)有發(fā)生震蕩,Ej={W,CNi',CNk',0}
如果震蕩次數(shù)超過(guò)某一閾值之后,可以設(shè)置Ej={W,CNi',CNi',0}或Ej={W,CNk',CNi',0}。
如附圖2、3中,附圖2是初始狀態(tài),附圖3是震蕩中的另一狀態(tài),震蕩現(xiàn)象發(fā)生時(shí),在附圖2和附圖3中的狀態(tài)之間循環(huán)切換。
如圖中的節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn),震蕩超過(guò)一定閾值時(shí),把圖中的點(diǎn)標(biāo)記為同一類(lèi)別。
簡(jiǎn)稱詞典的構(gòu)建方法:
維基百科可以從Media Wiki中下載原始的數(shù)據(jù),也可以從DBPedia中獲取解析好的元數(shù)據(jù),包括連接信息,摘要信息,目錄信息,參考信息等。
從維基百科中構(gòu)建機(jī)構(gòu)名簡(jiǎn)稱詞典,首先需要識(shí)別哪些條目是表示機(jī)構(gòu)名,然后從該條目的文字內(nèi)容中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從重定向關(guān)系中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從其它條目的錨文本中獲取。
機(jī)構(gòu)名簡(jiǎn)稱特征,基于維基百科的語(yǔ)料自動(dòng)取大量的機(jī)構(gòu)名的簡(jiǎn)稱。
機(jī)構(gòu)名簡(jiǎn)稱的自動(dòng)抽取,使用維基百科中的條目的描述信息、使用維基百科中的鏈接錨節(jié)點(diǎn)進(jìn)行抽取。
機(jī)構(gòu)名條目的識(shí)別比較簡(jiǎn)單,可以根據(jù)條目的目錄信息來(lái)進(jìn)行構(gòu)建。機(jī)構(gòu)名的類(lèi)別是個(gè)有限集,例如,“納斯達(dá)克上市公司”,“美國(guó)軟件公司”,等。使用規(guī)則的方法,如果該條目所屬于的所有目錄都是與機(jī)構(gòu)名有關(guān)的,就說(shuō)明該條目表示的是機(jī)構(gòu)名,否則該條目表示的不是機(jī)構(gòu)名。
基于條目的摘要信息抽取機(jī)構(gòu)名簡(jiǎn)稱。維基百科中的條目都具有一定的描述規(guī)范,摘要簡(jiǎn)要地描述條目的主要信息,對(duì)于機(jī)構(gòu)名,一般會(huì)包括機(jī)構(gòu)名的簡(jiǎn)稱信息。維基百科的頁(yè)面的摘要通常是以條目名稱開(kāi)頭,或者是條目名稱的全稱或簡(jiǎn)稱,并且以特殊的格式顯示,例如黑體。本文使用正則表達(dá)式來(lái)抽取文本中所包含的機(jī)構(gòu)名簡(jiǎn)稱。
此外,利用條目之間的重定向關(guān)系補(bǔ)充簡(jiǎn)稱詞典。重定向關(guān)系,例如,當(dāng)檢索“WTO”時(shí),會(huì)重定向到“世界衛(wèi)生組織”。
由于分詞的原因,簡(jiǎn)稱詞典中的機(jī)構(gòu)名簡(jiǎn)稱不一定都在一個(gè)詞語(yǔ)中,例如“電子科大位于成都。”,被分詞成“電子科大位于成都。”。,而“電子”和“科大”并不是簡(jiǎn)稱詞典中的一個(gè)條目。所以判斷當(dāng)前詞語(yǔ)是否在簡(jiǎn)稱詞典中需要進(jìn)行特殊處理,對(duì)句子進(jìn)行提前匹配和標(biāo)注,本文使用了基于字典樹(shù)的方法。每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合。其中,T1-T3是基于詞語(yǔ)的上下文的特征,T4-T6是基于詞語(yǔ)的詞性。
特征模板
條件隨機(jī)場(chǎng)算法中最重要的是特征模板的設(shè)計(jì)。特征可以認(rèn)為是訓(xùn)練語(yǔ)料的數(shù)據(jù)分布,可以從多個(gè)維度分析訓(xùn)練語(yǔ)料的分布。
NLP中的特征一般都是二值特征函數(shù),只取0和1?;谠~的機(jī)構(gòu)名識(shí)別方法中,當(dāng)前詞標(biāo)記為E_ORG,并且下一個(gè)位置的詞為“學(xué)?!?,可以表示為:
(公式1)
機(jī)構(gòu)名識(shí)別中可以使用非常豐富的特征,例如句法特征,文法特征等。特征是專家通過(guò)對(duì)數(shù)據(jù)的理解來(lái)設(shè)計(jì)的,本發(fā)明提出幾條規(guī)則來(lái)引導(dǎo)特征的設(shè)計(jì)。
從句子中出現(xiàn)機(jī)構(gòu)名的尾詞位置開(kāi)始向前所形成的名詞短語(yǔ),有可能是機(jī)構(gòu)名。
某些特定詞語(yǔ)可以指示其上下文可能包含機(jī)構(gòu)名,這些詞語(yǔ)成為邊界詞。
某些特定詞語(yǔ)可以指示其所直接依賴或間接依賴的詞語(yǔ)可為機(jī)構(gòu)名,這些詞語(yǔ)稱為依賴詞。
根據(jù)以上三條指示規(guī)則以及經(jīng)驗(yàn),本發(fā)明設(shè)計(jì)的基于詞的機(jī)構(gòu)名的特征模板如表1所示。
表1特征模板
每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合。其中,T1-T3是基于詞語(yǔ)的上下文的特征,T4-T6是基于詞語(yǔ)的詞性
特征,T7是基于詞語(yǔ)的類(lèi)別特征,T8是為了處理簡(jiǎn)稱的問(wèn)題,T9-T12是基于依存句法的特征,T13-T14是組合特征。
通過(guò)上面具體實(shí)施方式,所述技術(shù)領(lǐng)域的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的幾種具體實(shí)施方式。在公開(kāi)的實(shí)施方式的基礎(chǔ)上,所述技術(shù)領(lǐng)域的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。