亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法和裝置與流程

文檔序號(hào):12470418閱讀:來(lái)源:國(guó)知局

技術(shù)特征:

1.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,方法步驟如下:

第一步,從維基百科中自動(dòng)抽取機(jī)構(gòu)名,進(jìn)行簡(jiǎn)稱詞典的構(gòu)建,利用簡(jiǎn)稱詞典,形成機(jī)構(gòu)名簡(jiǎn)稱特征;

第二步,從訓(xùn)練數(shù)據(jù)中,結(jié)合分詞、詞性標(biāo)注和依存樹(shù)特征,形成最終的特征;

第三步,從維基百科文檔中,進(jìn)行正文提取、分詞等預(yù)處理,使用CW聚類方法進(jìn)行詞語(yǔ)的聚類,使用詞語(yǔ)的類別特征作為語(yǔ)義特征;

第四步,基于CRF進(jìn)行訓(xùn)練時(shí),提取機(jī)構(gòu)名簡(jiǎn)稱特征和詞語(yǔ)類別的語(yǔ)義特征,利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)生成機(jī)構(gòu)名是別的CRF模型,進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果;

第五步,對(duì)于未標(biāo)注的數(shù)據(jù),利用CRF識(shí)別進(jìn)行算法的測(cè)試和評(píng)估,標(biāo)注結(jié)果。

2.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括震蕩監(jiān)測(cè)的CW算法;

對(duì)于每一條邊,除了存儲(chǔ)權(quán)重信息之外,還需要存儲(chǔ)端點(diǎn)的類別信息,以及震蕩的次數(shù);

在節(jié)點(diǎn)中增加震蕩次數(shù)檢驗(yàn),當(dāng)震蕩超過(guò)一定閾值時(shí),把該節(jié)點(diǎn)標(biāo)記為同一類別。

3.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括簡(jiǎn)稱詞典的構(gòu)建方法:

從維基百科中構(gòu)建機(jī)構(gòu)名簡(jiǎn)稱詞典,首先需要識(shí)別哪些條目是表示機(jī)構(gòu)名,然后從該條目的文字內(nèi)容中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從重定向關(guān)系中識(shí)別機(jī)構(gòu)名的簡(jiǎn)稱,或者從其它條目的錨文本中獲取機(jī)構(gòu)名的簡(jiǎn)稱。

4.根據(jù)權(quán)利要求1所述的一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取方法,其特征在于,包括特征模板的設(shè)計(jì),根據(jù)以下規(guī)則設(shè)計(jì)特征模板:

從句子中出現(xiàn)機(jī)構(gòu)名的尾詞位置開(kāi)始向前所形成的名詞短語(yǔ),有可能是機(jī)構(gòu)名;

某些特定詞語(yǔ)可以指示其上下文可能包含機(jī)構(gòu)名,這些詞語(yǔ)成為邊界詞;

某些特定詞語(yǔ)可以指示其所直接依賴或間接依賴的詞語(yǔ)可為機(jī)構(gòu)名,這些詞語(yǔ)稱為依賴詞;

所述的特征模板為:

T01 W[n] 當(dāng)前詞語(yǔ);

T02 W[n-1] 當(dāng)前位置前一位置的詞語(yǔ);

T03 W[n+1] 當(dāng)前位置后一位置的詞語(yǔ);

T04 POS[n] 當(dāng)前詞語(yǔ)的詞性;

T05 POS[n-1] 當(dāng)前位置前一位置的詞語(yǔ)的詞性;

T06 POS[n+1] 當(dāng)前位置后一位置的詞語(yǔ)的詞性;

T07 Class[n] 當(dāng)前位置的聚類類別;

T08 InDict[n] 當(dāng)前位置的詞語(yǔ)是否在簡(jiǎn)稱詞典中;

T09 LDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊直接依賴詞語(yǔ);

T10 RDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊直接依賴詞語(yǔ);

T11 LIDDependency[n] 當(dāng)前位置的詞語(yǔ)的左邊間接依賴詞語(yǔ);

T12 RIDDependency[n] 當(dāng)前位置的詞語(yǔ)的右邊間接依賴詞語(yǔ);

T13 W[n]&&Pos[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的詞性;

T14 W[n]&&Class[n-1] 當(dāng)前位置的詞語(yǔ)與其前一個(gè)位置的詞語(yǔ)的類別;

每一個(gè)特征模板對(duì)應(yīng)著所有具有該含義的特征的集合;其中T1-T3是基于詞語(yǔ)的上下文的特征,T4-T6是基于詞語(yǔ)的詞性特征,T7是基于詞語(yǔ)的類別特征,T8是為了處理簡(jiǎn)稱的問(wèn)題,T9-T12是基于依存句法的特征,T13-T14是組合特征。

5.一種基于語(yǔ)義信息的機(jī)構(gòu)名抽取裝置,其特征在于,機(jī)構(gòu)名抽取裝置包括簡(jiǎn)稱詞典構(gòu)建模塊、詞語(yǔ)聚類模塊、CRF訓(xùn)練模塊和CRF識(shí)別模塊4個(gè)模塊;

其中,簡(jiǎn)稱詞典構(gòu)建模塊和詞語(yǔ)聚類模塊用于生成更加豐富的特征;

CRF訓(xùn)練模塊是利用CRF算法對(duì)標(biāo)注的訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)模型;

CRF識(shí)別模塊是利用訓(xùn)練好的模型對(duì)未標(biāo)注的數(shù)據(jù)進(jìn)行識(shí)別,也可以用來(lái)進(jìn)行算法的測(cè)試和評(píng)估。

當(dāng)前第2頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1