一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法

文檔序號(hào)：9471356閱讀：1256來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文術(shù)語(yǔ)自動(dòng)識(shí)別技術(shù)領(lǐng)域，具體涉及一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí) 別方法。
【背景技術(shù)】
[0002] 中文專利文獻(xiàn)中含有大量領(lǐng)域術(shù)語(yǔ)，對(duì)這些術(shù)語(yǔ)進(jìn)行自動(dòng)識(shí)別是信息抽取、文本挖掘等領(lǐng)域的重要任務(wù)。自動(dòng)術(shù)語(yǔ)識(shí)別（AutomaticTermRecognition，ATR)是信息抽取研究領(lǐng)域的重要組成部分。它是指通過(guò)無(wú)人工干預(yù)或盡量少的人工干預(yù)方法，從自由文本中自動(dòng)識(shí)別出能夠代表某個(gè)專業(yè)領(lǐng)域中一般概念的詞匯串的過(guò)程。通過(guò)術(shù)語(yǔ)自動(dòng)識(shí)別技術(shù) 構(gòu)建的術(shù)語(yǔ)庫(kù)是非常重要的基礎(chǔ)數(shù)據(jù)資源，為中文分詞、本體構(gòu)建、詞典編撰與更新、自動(dòng) 標(biāo)引、信息檢索以及機(jī)器翻譯等提供不可或缺的數(shù)據(jù)支持。此外，伴隨著信息技術(shù)的高速發(fā) 展，數(shù)字化信息資源與日劇增，對(duì)這些資源進(jìn)行術(shù)語(yǔ)的自動(dòng)識(shí)別對(duì)于及時(shí)把握領(lǐng)域最新發(fā) 展?fàn)顩r及未來(lái)發(fā)展趨勢(shì)具有十分重要的意義。
[0003] 中文專利文獻(xiàn)是重要的數(shù)字化信息資源，它們記載著各學(xué)科領(lǐng)域的最新發(fā)明成果，其中存在著大量的專業(yè)術(shù)語(yǔ)。結(jié)合對(duì)中文專利文獻(xiàn)的觀察分析與前人的研究，可以發(fā)現(xiàn) 專利文獻(xiàn)中的術(shù)語(yǔ)具有如下幾個(gè)明顯特點(diǎn)：（1)專利文獻(xiàn)中的術(shù)語(yǔ)嵌套現(xiàn)象較為常見；（2) 專利文獻(xiàn)中的術(shù)語(yǔ)具有較強(qiáng)的領(lǐng)域相關(guān)性，即高頻率出現(xiàn)在某一領(lǐng)域的術(shù)語(yǔ)在另外的領(lǐng)域中低頻出現(xiàn)甚至不出現(xiàn)；（3)專利文獻(xiàn)中的術(shù)語(yǔ)具有重復(fù)出現(xiàn)的特點(diǎn)，即術(shù)語(yǔ)在整個(gè)專利文獻(xiàn)集中的多篇文獻(xiàn)中出現(xiàn)；(4)專利術(shù)語(yǔ)長(zhǎng)度較長(zhǎng)，通常由2-5詞構(gòu)成；(5)專利術(shù)語(yǔ)大多是由名詞或復(fù)合名詞構(gòu)成。以上術(shù)語(yǔ)的特點(diǎn)是對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語(yǔ)自動(dòng)識(shí)別的重要依據(jù)。
[0004] 目前，常用的術(shù)語(yǔ)自動(dòng)識(shí)別方法主要有兩種：
[0005] 第一種為傳統(tǒng)的規(guī)則與統(tǒng)計(jì)相結(jié)合的術(shù)語(yǔ)識(shí)別方法：在生成候選術(shù)語(yǔ)集的過(guò)程中，先對(duì)中文文本進(jìn)行分詞和詞性標(biāo)注處理，通過(guò)觀察標(biāo)注好的語(yǔ)料總結(jié)出構(gòu)成術(shù)語(yǔ)的詞性規(guī)則集，利用這些詞性規(guī)則在語(yǔ)料中匹配生成候選術(shù)語(yǔ)集；依靠人工編寫詞性規(guī)則的方式雖然識(shí)別精度較高，但對(duì)編寫者的語(yǔ)言學(xué)知識(shí)依賴性太大，不同人對(duì)同一個(gè)語(yǔ)料編寫的詞性規(guī)則并不一致；雖然在得到候選術(shù)語(yǔ)階段這些方法不需要利用詞性規(guī)則，但是在對(duì)句子進(jìn)行粗切分時(shí)對(duì)外部的資源依賴性太大，外部資源的質(zhì)量往往決定了得到的候選術(shù)語(yǔ)集的質(zhì)量；在對(duì)候選術(shù)語(yǔ)集進(jìn)行排序方面，當(dāng)前常用的排序算法存在對(duì)于識(shí)別長(zhǎng)度較短的術(shù) 語(yǔ)或者出現(xiàn)頻率較低的術(shù)語(yǔ)不理想的缺陷；
[0006] 第二種識(shí)別術(shù)語(yǔ)的方法是采用近年來(lái)在信息抽取領(lǐng)域逐漸趨于研究熱點(diǎn)的機(jī)器學(xué)習(xí)算法，機(jī)器學(xué)習(xí)算法的缺陷是其對(duì)訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量要求較高，并且需要人工標(biāo) 注大量數(shù)據(jù)，語(yǔ)料的訓(xùn)練也需要花費(fèi)較長(zhǎng)的時(shí)間。
[0007] 另外，目前主流的候選術(shù)語(yǔ)排序算法對(duì)長(zhǎng)度較短術(shù)語(yǔ)識(shí)別效果不理想。

【發(fā)明內(nèi)容】

[0008] 針對(duì)上述現(xiàn)有技術(shù)中存在的問(wèn)題，本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技術(shù)缺陷的中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法。
[0009] 為了實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明采用的技術(shù)方案如下：
[0010] -種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法，包括以下步驟：
[0011] 步驟1):基于專利標(biāo)題自動(dòng)生成詞性規(guī)則，利用漢語(yǔ)詞法分析系統(tǒng)將專利標(biāo)題切分為子串和停用詞，以所述停用詞為分隔符，將所述子串的詞性規(guī)則提取出，并將其作為生成候選術(shù)語(yǔ)的詞性規(guī)則；
[0012] 步驟2):手工構(gòu)建停用詞表，將停用詞加入停用詞表中；
[0013] 步驟3):對(duì)生成的所述詞性規(guī)則按照所含詞性的個(gè)數(shù)進(jìn)行分類，對(duì)每一類所述詞性規(guī)則按照出現(xiàn)頻率降序排列，并只取Top5條規(guī)則應(yīng)用到中文專利文獻(xiàn)的正文部分進(jìn)行詞性匹配，生成候選術(shù)語(yǔ)集合，然后將抽取出的候選術(shù)語(yǔ)按照所包含詞的個(gè)數(shù)進(jìn)行分類；
[0014] 步驟4):利用TermRank排序算法對(duì)候選術(shù)語(yǔ)進(jìn)行排序，所述TermRank排序算法定義如公式（1)所示：
[0016] 其中，T1為候選術(shù)語(yǔ)，TR(TJ為候選術(shù)語(yǔ)T1的TermRank值；M為包含候選術(shù)語(yǔ)Ti 的專利文獻(xiàn)數(shù)量；jlGK)為包含候選術(shù)語(yǔ)T1的專利文獻(xiàn)d,中T 詞頻；C(d,)為專利文獻(xiàn)士中抽取出的候選術(shù)語(yǔ)數(shù)量；IT1I為候選術(shù)語(yǔ)1\的長(zhǎng)度，Count(T1)為候選術(shù)語(yǔ)T1中包含的停用詞數(shù)量；
[0017] 對(duì)候選術(shù)語(yǔ)列表中的每一個(gè)所述候選術(shù)語(yǔ)按照公式（1)計(jì)算其TermRank值，經(jīng)排序后，取Top-N條作為最終術(shù)語(yǔ)表。
[0018] 進(jìn)一步地，所述步驟2)具體采用以下三種方法選取停用詞來(lái)構(gòu)建停用詞表：
[0019] 方法一：對(duì)專利標(biāo)題分詞后進(jìn)行詞頻統(tǒng)計(jì)，將出現(xiàn)頻率高于20的停用詞加入停用詞表；
[0020] 方法二：將明顯不會(huì)出現(xiàn)在術(shù)語(yǔ)中的詞性加入停用詞表；
[0021] 方法三：應(yīng)用所述方法一和所述方法二生成的停用詞表對(duì)所述專利標(biāo)題進(jìn)行過(guò)濾后，對(duì)所述專利標(biāo)題中的剩余詞串進(jìn)行人工觀察，若再發(fā)現(xiàn)新的停用詞，也將其加入到停用詞表中。
[0022] 進(jìn)一步地，在所述步驟3)中，將所述詞性規(guī)則分為四類，即2詞詞性規(guī)則、3詞詞性規(guī)則、4詞詞性規(guī)則和5詞詞性規(guī)則。
[0023] 進(jìn)一步地，在所述步驟3)中，將所述候選術(shù)語(yǔ)分為四類，即2詞候選術(shù)語(yǔ)、3詞候選術(shù)語(yǔ)、4詞候選術(shù)語(yǔ)和5詞候選術(shù)語(yǔ)。
[0024] 進(jìn)一步地，在所述步驟4)中，當(dāng)M值較大或者較小時(shí)，分別利用公式（2)和公式 (3)對(duì)所述公式（1)的第一項(xiàng)和第二項(xiàng)進(jìn)行歸一化處理，其中，所述公式（2)和公式（3)分別為：
[0026] {ITiIXcount(Ti)-minITiIXcount(Ti)} /{maxITiIXcount(Ti)-minITiIXcount( T1M(3)〇
[0027] 本發(fā)明提供的中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法，首先利用統(tǒng)計(jì)學(xué)方法從專利標(biāo)題中自動(dòng)學(xué)習(xí)出構(gòu)成術(shù)語(yǔ)的詞性規(guī)則，解決了人工總結(jié)術(shù)語(yǔ)詞性規(guī)則的不足；采用TermRank 排序方法對(duì)候選術(shù)語(yǔ)進(jìn)行排序，綜合考慮了專利文獻(xiàn)中的語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)特征，能夠較好的區(qū)分術(shù)語(yǔ)和非術(shù)語(yǔ)，具有較高的可靠性，可以很好地滿足實(shí)際應(yīng)用的需要。
【附圖說(shuō)明】
[0028] 圖1為本發(fā)明的流程圖；
[0029] 圖2為中文專利標(biāo)題形式化表示示意圖。
【具體實(shí)施方式】
[0030] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0031] 如圖1所示，一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法，包括以下步驟：
[0032] 步驟1):基于專利標(biāo)題自動(dòng)生成詞性規(guī)則，利用漢語(yǔ)詞法分析系統(tǒng)將專利標(biāo)題切分為子串和停用詞，以所述停用詞為分隔符，將所述子串的詞性規(guī)則提取出，并將其作為生成候選術(shù)語(yǔ)的詞性規(guī)則；
[0033] 專利文獻(xiàn)一般是對(duì)發(fā)明、實(shí)用新型、外觀設(shè)計(jì)的記載，其標(biāo)題是對(duì)整個(gè)文獻(xiàn)的高度概括，因此往往會(huì)直接給出所要描述的對(duì)象。專利文獻(xiàn)的標(biāo)題中都至少包含一個(gè)正確術(shù)語(yǔ)。根據(jù)中文專利標(biāo)題的以上特點(diǎn)，將標(biāo)題形式化地表示成如圖2所示，其中，Wl(i= 1，2,… n)表示專利標(biāo)題被ICTCLAS切分出的詞，W1…wa，w?！瓀d以及wf*" \為標(biāo)題中的術(shù)語(yǔ)，分別表示為CTl，CT2,CT3 ;^和we是不屬于任何術(shù)語(yǔ)構(gòu)成部分的詞，本文稱其為停用詞，其構(gòu)建方法在3. 2節(jié)介紹。
[0034] 以停用詞ST1，ST2為分隔符，將子串CT1，CT2,CT3的詞性規(guī)則提取出，即可作為下一步生成候選術(shù)語(yǔ)的詞性規(guī)則。例如，專利"一 /m種/q電動(dòng)/b汽車/n的Aidel 電量/n顯示器/n裝置/n"中包含術(shù)語(yǔ)："電動(dòng)/b汽車/n"、"電量/n顯示器/n"。提取出它們的詞性規(guī)則："b+n"、"n+n"，并將它們添加至詞性規(guī)則集中，作為下一步生成候選術(shù)語(yǔ) 的詞性規(guī)則。
[0035] 步驟2):手工構(gòu)建停用詞表，將停用詞加入停用詞表中；
[0036] 停用詞是從專利標(biāo)題中自動(dòng)生成詞性規(guī)則的重要資源。本發(fā)明選擇手工構(gòu)建停用詞表，而不是直接采用現(xiàn)成的通用停用詞表，是因?yàn)楝F(xiàn)成的通用停用詞表內(nèi)的某些停用詞在專利文獻(xiàn)中有可能是術(shù)語(yǔ)的組成部分。例如，"排/V"在通用停用詞表中存在，但在"全自動(dòng)/b排/V紙/n機(jī)/ng"中，它又是構(gòu)成術(shù)語(yǔ)的一部分，因此不能將其加入停用詞表。類似 "排/V"這類在通用停用詞表中存在，但在中文專利文獻(xiàn)中又是構(gòu)成術(shù)語(yǔ)的部分的詞在語(yǔ)料中大量存在。
[0037] 具體采用以下三種方法選取停用詞來(lái)構(gòu)建停用詞表：
[0038] 方法一：對(duì)專利標(biāo)題分詞后進(jìn)行詞頻統(tǒng)計(jì)，將出現(xiàn)頻率高于20的停用詞加入停用詞表；
[0039] 方法二：將明顯不會(huì)出現(xiàn)在術(shù)語(yǔ)中的詞性加入停用詞表；
[0040] 方法三：應(yīng)用所述方法一和所述方法二生成的停用詞表對(duì)所述專利標(biāo)題進(jìn)行過(guò)濾后，對(duì)所述專利標(biāo)題中的剩余詞串進(jìn)行人工觀察，若再發(fā)現(xiàn)新的停用詞，也將其加入到停用詞表中。
[0041] 步驟3):對(duì)生成的所述詞性規(guī)則按照所含詞性的個(gè)數(shù)進(jìn)行分類，自動(dòng)生成的詞性規(guī)則數(shù)量較多，無(wú)法將它們?nèi)繎?yīng)用到文獻(xiàn)中進(jìn)行術(shù)語(yǔ)匹配，因此需要有選擇地從中挑選出部分詞性規(guī)則，在步驟3)中，將所述詞性規(guī)則分為四類，即2詞詞性規(guī)則、3詞詞性規(guī)則、 4詞詞性規(guī)則和5詞詞性規(guī)則；然后對(duì)每一類所述詞性規(guī)則按照出現(xiàn)頻率降序排列，并只取 Top5條規(guī)則應(yīng)用到中文專利文獻(xiàn)的正文部分進(jìn)行詞性匹配，生成候選術(shù)語(yǔ)集合，然后將抽取出的候選術(shù)語(yǔ)按照所包含詞的個(gè)數(shù)進(jìn)行分類，將所述候選術(shù)語(yǔ)分為四類，即2詞候選術(shù) 語(yǔ)、3詞候選術(shù)語(yǔ)、4詞候選術(shù)語(yǔ)和5詞候選術(shù)語(yǔ)，這樣對(duì)候選術(shù)語(yǔ)分類的目的是為了讓每一類長(zhǎng)度的術(shù)語(yǔ)都單獨(dú)構(gòu)成一張候選術(shù)語(yǔ)表，在對(duì)其利用步驟4)中的TermRank排序算法進(jìn) 行排序時(shí)能夠不受其它長(zhǎng)度的術(shù)語(yǔ)的影響，從而排序結(jié)果更公平；
[0042] 步驟4):對(duì)候選術(shù)語(yǔ)排序的目的是為了確定最終術(shù)語(yǔ)表。一個(gè)好的排序算法能夠將候選術(shù)語(yǔ)列表中分散的正確或錯(cuò)誤的術(shù)語(yǔ)重新排序，使正確的術(shù)語(yǔ)的權(quán)重增大，排名位置盡量靠前，反之亦然。利用TermRank排序算法對(duì)候選術(shù)語(yǔ)進(jìn)行排序，所述TermRank排序算法定義如公式（1)所示：

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：呂學(xué)強(qiáng);董志安;
技術(shù)所有人：北京信息科技大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

人臉自動(dòng)識(shí)別方法綜述相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法