1.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,方法步驟如下:
第一步,從維基百科中自動(dòng)抽取機(jī)構(gòu)名,進(jìn)行簡(jiǎn)稱詞典的構(gòu)建,利用簡(jiǎn)稱詞典,形成機(jī)構(gòu)名簡(jiǎn)稱特征;
第二步,從訓(xùn)練數(shù)據(jù)中,結(jié)合分詞、詞性標(biāo)注和依存樹(shù)特征,形成最終的特征;
第三步,從維基百科文檔中,進(jìn)行正文提取、分詞等預(yù)處理,使用CW聚類方法進(jìn)行詞語(yǔ)的聚類,使用詞語(yǔ)的類別特征作為語(yǔ)義特征;
第四步,基于CRF進(jìn)行訓(xùn)練時(shí),提取機(jī)構(gòu)名簡(jiǎn)稱特征和詞語(yǔ)類別的語(yǔ)義特征,利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)生成機(jī)構(gòu)名是別的CRF模型,進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果;
第五步,對(duì)于未標(biāo)注的數(shù)據(jù),利用CRF識(shí)別進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括震蕩監(jiān)測(cè)的CW算法;
對(duì)于每一條邊,除了存儲(chǔ)權(quán)重信息之外,還需要存儲(chǔ)端點(diǎn)的類別信息,以及震蕩的次數(shù);
在節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn),當(dāng)震蕩超過(guò)一定閾值時(shí),把該節(jié)點(diǎn)標(biāo)記為同一類別。
3.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括簡(jiǎn)稱詞典的構(gòu)建方法:
從維基百科中構(gòu)建機(jī)構(gòu)名簡(jiǎn)稱詞典,首先需要識(shí)別哪些條目是表示機(jī)構(gòu)名,然后從該條目的文字內(nèi)容中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從重定向關(guān)系中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從其它條目的錨文本中獲取機(jī)構(gòu)名的簡(jiǎn)稱。
4.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括特征模板的設(shè)計(jì),根據(jù)以下規(guī)則設(shè)計(jì)特征模板:
從句子中出現(xiàn)機(jī)構(gòu)名的尾詞位置開(kāi)始向前所形成的名詞短語(yǔ),有可能是機(jī)構(gòu)名;
某些特定詞語(yǔ)可以指示其上下文可能包含機(jī)構(gòu)名,這些詞語(yǔ)成為邊界詞;
某些特定詞語(yǔ)可以指示其所直接依賴或間接依賴的詞語(yǔ)可為機(jī)構(gòu)名,這些詞語(yǔ)稱為依賴詞;
所述的特征模板為:
T01 W[n] 當(dāng)前詞語(yǔ);
T02 W[n-1] 當(dāng)前位置前一位置的詞語(yǔ);
T03 W[n+1] 當(dāng)前位置后一位置的詞語(yǔ);
T04 POS[n] 當(dāng)前詞語(yǔ)的詞性;
T05 POS[n-1] 當(dāng)前位置前一位置的詞語(yǔ)的詞性;
T06 POS[n+1] 當(dāng)前位置后一位置的詞語(yǔ)的詞性;
T07 Class[n] 當(dāng)前位置的聚類類別;
T08 InDict[n] 當(dāng)前位置的詞語(yǔ)是否在簡(jiǎn)稱詞典中;
T09 LDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊直接依賴詞語(yǔ);
T10 RDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊直接依賴詞語(yǔ);
T11 LIDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊間接依賴詞語(yǔ);
T12 RIDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊間接依賴詞語(yǔ);
T13 W[n]&&Pos[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的詞性;
T14 W[n]&&Class[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的類別;
每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合;其中T1-T3是基于詞語(yǔ)的上下文的特征,T4-T6是基于詞語(yǔ)的詞性特征,T7是基于詞語(yǔ)的類別特征,T8是為了處理簡(jiǎn)稱的問(wèn)題,T9-T12是基于依存句法的特征,T13-T14是組合特征。
5.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,其特征在于,機(jī)構(gòu)名抽取裝置包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊;
其中,簡(jiǎn)稱詞典構(gòu)建模塊和詞語(yǔ)聚類模塊用于生成更加豐富的特征;
CRF訓(xùn)練模塊是利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)模型;
CRF識(shí)別模塊是利用訓(xùn)練好的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行識(shí)別,也可以用來(lái)進(jìn)行算法的測(cè)試和評(píng)估。