一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置與流程

文檔序號(hào)：12470418閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置與流程

技術(shù)特征：

1.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法，其特征在于,方法步驟如下：

第一步，從維基百科中自動(dòng)抽取機(jī)構(gòu)名，進(jìn)行簡(jiǎn)稱詞典的構(gòu)建，利用簡(jiǎn)稱詞典，形成機(jī)構(gòu)名簡(jiǎn)稱特征；

第二步，從訓(xùn)練數(shù)據(jù)中，結(jié)合分詞、詞性標(biāo)注和依存樹(shù)特征，形成最終的特征；

第三步，從維基百科文檔中，進(jìn)行正文提取、分詞等預(yù)處理，使用CW聚類方法進(jìn)行詞語(yǔ)的聚類，使用詞語(yǔ)的類別特征作為語(yǔ)義特征；

第四步，基于CRF進(jìn)行訓(xùn)練時(shí)，提取機(jī)構(gòu)名簡(jiǎn)稱特征和詞語(yǔ)類別的語(yǔ)義特征，利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)生成機(jī)構(gòu)名是別的CRF模型，進(jìn)行算法的測(cè)試和評(píng)估，標(biāo)注結(jié)果；

第五步，對(duì)于未標(biāo)注的數(shù)據(jù)，利用CRF識(shí)別進(jìn)行算法的測(cè)試和評(píng)估，標(biāo)注結(jié)果。

2.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法，其特征在于，包括震蕩監(jiān)測(cè)的CW算法；

對(duì)于每一條邊，除了存儲(chǔ)權(quán)重信息之外，還需要存儲(chǔ)端點(diǎn)的類別信息，以及震蕩的次數(shù)；

在節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn)，當(dāng)震蕩超過(guò)一定閾值時(shí)，把該節(jié)點(diǎn)標(biāo)記為同一類別。

3.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法，其特征在于，包括簡(jiǎn)稱詞典的構(gòu)建方法：

從維基百科中構(gòu)建機(jī)構(gòu)名簡(jiǎn)稱詞典，首先需要識(shí)別哪些條目是表示機(jī)構(gòu)名，然后從該條目的文字內(nèi)容中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱，或者從重定向關(guān)系中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱，或者從其它條目的錨文本中獲取機(jī)構(gòu)名的簡(jiǎn)稱。

4.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法，其特征在于，包括特征模板的設(shè)計(jì)，根據(jù)以下規(guī)則設(shè)計(jì)特征模板：

從句子中出現(xiàn)機(jī)構(gòu)名的尾詞位置開(kāi)始向前所形成的名詞短語(yǔ)，有可能是機(jī)構(gòu)名；

某些特定詞語(yǔ)可以指示其上下文可能包含機(jī)構(gòu)名，這些詞語(yǔ)成為邊界詞；

某些特定詞語(yǔ)可以指示其所直接依賴或間接依賴的詞語(yǔ)可為機(jī)構(gòu)名，這些詞語(yǔ)稱為依賴詞；

所述的特征模板為：

T01 W[n] 當(dāng)前詞語(yǔ)；

T02 W[n-1] 當(dāng)前位置前一位置的詞語(yǔ)；

T03 W[n+1] 當(dāng)前位置后一位置的詞語(yǔ)；

T04 POS[n] 當(dāng)前詞語(yǔ)的詞性；

T05 POS[n-1] 當(dāng)前位置前一位置的詞語(yǔ)的詞性；

T06 POS[n+1] 當(dāng)前位置后一位置的詞語(yǔ)的詞性；

T07 Class[n] 當(dāng)前位置的聚類類別；

T08 InDict[n] 當(dāng)前位置的詞語(yǔ)是否在簡(jiǎn)稱詞典中；

T09 LDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊直接依賴詞語(yǔ)；

T10 RDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊直接依賴詞語(yǔ)；

T11 LIDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊間接依賴詞語(yǔ)；

T12 RIDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊間接依賴詞語(yǔ)；

T13 W[n]&&Pos[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的詞性；

T14 W[n]&&Class[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的類別；

每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合；其中T1-T3是基于詞語(yǔ)的上下文的特征，T4-T6是基于詞語(yǔ)的詞性特征，T7是基于詞語(yǔ)的類別特征，T8是為了處理簡(jiǎn)稱的問(wèn)題，T9-T12是基于依存句法的特征，T13-T14是組合特征。

5.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置，其特征在于，機(jī)構(gòu)名抽取裝置包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊；

其中，簡(jiǎn)稱詞典構(gòu)建模塊和詞語(yǔ)聚類模塊用于生成更加豐富的特征；

CRF訓(xùn)練模塊是利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)模型；

CRF識(shí)別模塊是利用訓(xùn)練好的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行識(shí)別，也可以用來(lái)進(jìn)行算法的測(cè)試和評(píng)估。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

語(yǔ)義信息組織方法包括相關(guān)技術(shù)

語(yǔ)義信息相關(guān)技術(shù)

基于語(yǔ)義的信息檢索相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置與流程