一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于中文術(shù)語(yǔ)自動(dòng)識(shí)別技術(shù)領(lǐng)域,具體涉及一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí) 別方法。
【背景技術(shù)】
[0002] 中文專利文獻(xiàn)中含有大量領(lǐng)域術(shù)語(yǔ),對(duì)這些術(shù)語(yǔ)進(jìn)行自動(dòng)識(shí)別是信息抽取、文本 挖掘等領(lǐng)域的重要任務(wù)。自動(dòng)術(shù)語(yǔ)識(shí)別(AutomaticTermRecognition,ATR)是信息抽取 研究領(lǐng)域的重要組成部分。它是指通過(guò)無(wú)人工干預(yù)或盡量少的人工干預(yù)方法,從自由文本 中自動(dòng)識(shí)別出能夠代表某個(gè)專業(yè)領(lǐng)域中一般概念的詞匯串的過(guò)程。通過(guò)術(shù)語(yǔ)自動(dòng)識(shí)別技術(shù) 構(gòu)建的術(shù)語(yǔ)庫(kù)是非常重要的基礎(chǔ)數(shù)據(jù)資源,為中文分詞、本體構(gòu)建、詞典編撰與更新、自動(dòng) 標(biāo)引、信息檢索以及機(jī)器翻譯等提供不可或缺的數(shù)據(jù)支持。此外,伴隨著信息技術(shù)的高速發(fā) 展,數(shù)字化信息資源與日劇增,對(duì)這些資源進(jìn)行術(shù)語(yǔ)的自動(dòng)識(shí)別對(duì)于及時(shí)把握領(lǐng)域最新發(fā) 展?fàn)顩r及未來(lái)發(fā)展趨勢(shì)具有十分重要的意義。
[0003] 中文專利文獻(xiàn)是重要的數(shù)字化信息資源,它們記載著各學(xué)科領(lǐng)域的最新發(fā)明成 果,其中存在著大量的專業(yè)術(shù)語(yǔ)。結(jié)合對(duì)中文專利文獻(xiàn)的觀察分析與前人的研究,可以發(fā)現(xiàn) 專利文獻(xiàn)中的術(shù)語(yǔ)具有如下幾個(gè)明顯特點(diǎn):(1)專利文獻(xiàn)中的術(shù)語(yǔ)嵌套現(xiàn)象較為常見;(2) 專利文獻(xiàn)中的術(shù)語(yǔ)具有較強(qiáng)的領(lǐng)域相關(guān)性,即高頻率出現(xiàn)在某一領(lǐng)域的術(shù)語(yǔ)在另外的領(lǐng)域 中低頻出現(xiàn)甚至不出現(xiàn);(3)專利文獻(xiàn)中的術(shù)語(yǔ)具有重復(fù)出現(xiàn)的特點(diǎn),即術(shù)語(yǔ)在整個(gè)專利 文獻(xiàn)集中的多篇文獻(xiàn)中出現(xiàn);(4)專利術(shù)語(yǔ)長(zhǎng)度較長(zhǎng),通常由2-5詞構(gòu)成;(5)專利術(shù)語(yǔ)大 多是由名詞或復(fù)合名詞構(gòu)成。以上術(shù)語(yǔ)的特點(diǎn)是對(duì)中文專利文獻(xiàn)進(jìn)行術(shù)語(yǔ)自動(dòng)識(shí)別的重要 依據(jù)。
[0004] 目前,常用的術(shù)語(yǔ)自動(dòng)識(shí)別方法主要有兩種:
[0005] 第一種為傳統(tǒng)的規(guī)則與統(tǒng)計(jì)相結(jié)合的術(shù)語(yǔ)識(shí)別方法:在生成候選術(shù)語(yǔ)集的過(guò)程 中,先對(duì)中文文本進(jìn)行分詞和詞性標(biāo)注處理,通過(guò)觀察標(biāo)注好的語(yǔ)料總結(jié)出構(gòu)成術(shù)語(yǔ)的詞 性規(guī)則集,利用這些詞性規(guī)則在語(yǔ)料中匹配生成候選術(shù)語(yǔ)集;依靠人工編寫詞性規(guī)則的方 式雖然識(shí)別精度較高,但對(duì)編寫者的語(yǔ)言學(xué)知識(shí)依賴性太大,不同人對(duì)同一個(gè)語(yǔ)料編寫的 詞性規(guī)則并不一致;雖然在得到候選術(shù)語(yǔ)階段這些方法不需要利用詞性規(guī)則,但是在對(duì)句 子進(jìn)行粗切分時(shí)對(duì)外部的資源依賴性太大,外部資源的質(zhì)量往往決定了得到的候選術(shù)語(yǔ)集 的質(zhì)量;在對(duì)候選術(shù)語(yǔ)集進(jìn)行排序方面,當(dāng)前常用的排序算法存在對(duì)于識(shí)別長(zhǎng)度較短的術(shù) 語(yǔ)或者出現(xiàn)頻率較低的術(shù)語(yǔ)不理想的缺陷;
[0006] 第二種識(shí)別術(shù)語(yǔ)的方法是采用近年來(lái)在信息抽取領(lǐng)域逐漸趨于研究熱點(diǎn)的機(jī)器 學(xué)習(xí)算法,機(jī)器學(xué)習(xí)算法的缺陷是其對(duì)訓(xùn)練語(yǔ)料的規(guī)模和質(zhì)量要求較高,并且需要人工標(biāo) 注大量數(shù)據(jù),語(yǔ)料的訓(xùn)練也需要花費(fèi)較長(zhǎng)的時(shí)間。
[0007] 另外,目前主流的候選術(shù)語(yǔ)排序算法對(duì)長(zhǎng)度較短術(shù)語(yǔ)識(shí)別效果不理想。
【發(fā)明內(nèi)容】
[0008] 針對(duì)上述現(xiàn)有技術(shù)中存在的問(wèn)題,本發(fā)明的目的在于提供一種可避免出現(xiàn)上述技 術(shù)缺陷的中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法。
[0009] 為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案如下:
[0010] -種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法,包括以下步驟:
[0011] 步驟1):基于專利標(biāo)題自動(dòng)生成詞性規(guī)則,利用漢語(yǔ)詞法分析系統(tǒng)將專利標(biāo)題切 分為子串和停用詞,以所述停用詞為分隔符,將所述子串的詞性規(guī)則提取出,并將其作為生 成候選術(shù)語(yǔ)的詞性規(guī)則;
[0012] 步驟2):手工構(gòu)建停用詞表,將停用詞加入停用詞表中;
[0013] 步驟3):對(duì)生成的所述詞性規(guī)則按照所含詞性的個(gè)數(shù)進(jìn)行分類,對(duì)每一類所述詞 性規(guī)則按照出現(xiàn)頻率降序排列,并只取Top5條規(guī)則應(yīng)用到中文專利文獻(xiàn)的正文部分進(jìn)行 詞性匹配,生成候選術(shù)語(yǔ)集合,然后將抽取出的候選術(shù)語(yǔ)按照所包含詞的個(gè)數(shù)進(jìn)行分類;
[0014] 步驟4):利用TermRank排序算法對(duì)候選術(shù)語(yǔ)進(jìn)行排序,所述TermRank排序算法 定義如公式(1)所示:
[0016] 其中,T1為候選術(shù)語(yǔ),TR(TJ為候選術(shù)語(yǔ)T1的TermRank值;M為包含候選術(shù)語(yǔ)Ti 的專利文獻(xiàn)數(shù)量;jlGK)為包含候選術(shù)語(yǔ)T1的專利文獻(xiàn)d,中T 詞頻;C(d,)為專利文 獻(xiàn)士中抽取出的候選術(shù)語(yǔ)數(shù)量;IT1I為候選術(shù)語(yǔ)1\的長(zhǎng)度,Count(T1)為候選術(shù)語(yǔ)T1中包 含的停用詞數(shù)量;
[0017] 對(duì)候選術(shù)語(yǔ)列表中的每一個(gè)所述候選術(shù)語(yǔ)按照公式(1)計(jì)算其TermRank值,經(jīng)排 序后,取Top-N條作為最終術(shù)語(yǔ)表。
[0018] 進(jìn)一步地,所述步驟2)具體采用以下三種方法選取停用詞來(lái)構(gòu)建停用詞表:
[0019] 方法一:對(duì)專利標(biāo)題分詞后進(jìn)行詞頻統(tǒng)計(jì),將出現(xiàn)頻率高于20的停用詞加入停用 詞表;
[0020] 方法二:將明顯不會(huì)出現(xiàn)在術(shù)語(yǔ)中的詞性加入停用詞表;
[0021] 方法三:應(yīng)用所述方法一和所述方法二生成的停用詞表對(duì)所述專利標(biāo)題進(jìn)行過(guò)濾 后,對(duì)所述專利標(biāo)題中的剩余詞串進(jìn)行人工觀察,若再發(fā)現(xiàn)新的停用詞,也將其加入到停用 詞表中。
[0022] 進(jìn)一步地,在所述步驟3)中,將所述詞性規(guī)則分為四類,即2詞詞性規(guī)則、3詞詞性 規(guī)則、4詞詞性規(guī)則和5詞詞性規(guī)則。
[0023] 進(jìn)一步地,在所述步驟3)中,將所述候選術(shù)語(yǔ)分為四類,即2詞候選術(shù)語(yǔ)、3詞候選 術(shù)語(yǔ)、4詞候選術(shù)語(yǔ)和5詞候選術(shù)語(yǔ)。
[0024] 進(jìn)一步地,在所述步驟4)中,當(dāng)M值較大或者較小時(shí),分別利用公式(2)和公式 (3)對(duì)所述公式(1)的第一項(xiàng)和第二項(xiàng)進(jìn)行歸一化處理,其中,所述公式(2)和公式(3)分 別為:
[0026] {ITiIXcount(Ti)-minITiIXcount(Ti)} /{maxITiIXcount(Ti)-minITiIXcount( T1M(3)〇
[0027] 本發(fā)明提供的中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法,首先利用統(tǒng)計(jì)學(xué)方法從專利標(biāo)題 中自動(dòng)學(xué)習(xí)出構(gòu)成術(shù)語(yǔ)的詞性規(guī)則,解決了人工總結(jié)術(shù)語(yǔ)詞性規(guī)則的不足;采用TermRank 排序方法對(duì)候選術(shù)語(yǔ)進(jìn)行排序,綜合考慮了專利文獻(xiàn)中的語(yǔ)言學(xué)和統(tǒng)計(jì)學(xué)特征,能夠較好 的區(qū)分術(shù)語(yǔ)和非術(shù)語(yǔ),具有較高的可靠性,可以很好地滿足實(shí)際應(yīng)用的需要。
【附圖說(shuō)明】
[0028] 圖1為本發(fā)明的流程圖;
[0029] 圖2為中文專利標(biāo)題形式化表示示意圖。
【具體實(shí)施方式】
[0030] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖和具體實(shí)施 例對(duì)本發(fā)明做進(jìn)一步說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅用以解釋本發(fā)明,并不用 于限定本發(fā)明。
[0031] 如圖1所示,一種中文專利文獻(xiàn)術(shù)語(yǔ)自動(dòng)識(shí)別方法,包括以下步驟:
[0032] 步驟1):基于專利標(biāo)題自動(dòng)生成詞性規(guī)則,利用漢語(yǔ)詞法分析系統(tǒng)將專利標(biāo)題切 分為子串和停用詞,以所述停用詞為分隔符,將所述子串的詞性規(guī)則提取出,并將其作為生 成候選術(shù)語(yǔ)的詞性規(guī)則;
[0033] 專利文獻(xiàn)一般是對(duì)發(fā)明、實(shí)用新型、外觀設(shè)計(jì)的記載,其標(biāo)題是對(duì)整個(gè)文獻(xiàn)的高度 概括,因此往往會(huì)直接給出所要描述的對(duì)象。專利文獻(xiàn)的標(biāo)題中都至少包含一個(gè)正確術(shù)語(yǔ)。 根據(jù)中文專利標(biāo)題的以上特點(diǎn),將標(biāo)題形式化地表示成如圖2所示,其中,Wl(i= 1,2,… n)表示專利標(biāo)題被ICTCLAS切分出的詞,W1…wa,w?!瓀d以及wf*" \為標(biāo)題中的術(shù)語(yǔ),分別 表示為CTl,CT2,CT3 ;^和we是不屬于任何術(shù)語(yǔ)構(gòu)成部分的詞,本文稱其為停用詞,其構(gòu)建 方法在3. 2節(jié)介紹。
[0034] 以停用詞ST1,ST2為分隔符,將子串CT1,CT2,CT3的詞性規(guī)則提取出,即可作為 下一步生成候選術(shù)語(yǔ)的詞性規(guī)則。例如,專利"一 /m種/q電動(dòng)/b汽車/n的Aidel 電量/n顯示器/n裝置/n"中包含術(shù)語(yǔ):"電動(dòng)/b汽車/n"、"電量/n顯示器/n"。提取出 它們的詞性規(guī)則:"b+n"、"n+n",并將它們添加至詞性規(guī)則集中,作為下一步生成候選術(shù)語(yǔ) 的詞性規(guī)則。
[0035] 步驟2):手工構(gòu)建停用詞表,將停用詞加入停用詞表中;
[0036] 停用詞是從專利標(biāo)題中自動(dòng)生成詞性規(guī)則的重要資源。本發(fā)明選擇手工構(gòu)建停用 詞表,而不是直接采用現(xiàn)成的通用停用詞表,是因?yàn)楝F(xiàn)成的通用停用詞表內(nèi)的某些停用詞 在專利文獻(xiàn)中有可能是術(shù)語(yǔ)的組成部分。例如,"排/V"在通用停用詞表中存在,但在"全自 動(dòng)/b排/V紙/n機(jī)/ng"中,它又是構(gòu)成術(shù)語(yǔ)的一部分,因此不能將其加入停用詞表。類似 "排/V"這類在通用停用詞表中存在,但在中文專利文獻(xiàn)中又是構(gòu)成術(shù)語(yǔ)的部分的詞在語(yǔ)料 中大量存在。
[0037] 具體采用以下三種方法選取停用詞來(lái)構(gòu)建停用詞表:
[0038] 方法一:對(duì)專利標(biāo)題分詞后進(jìn)行詞頻統(tǒng)計(jì),將出現(xiàn)頻率高于20的停用詞加入停用 詞表;
[0039] 方法二:將明顯不會(huì)出現(xiàn)在術(shù)語(yǔ)中的詞性加入停用詞表;
[0040] 方法三:應(yīng)用所述方法一和所述方法二生成的停用詞表對(duì)所述專利標(biāo)題進(jìn)行過(guò)濾 后,對(duì)所述專利標(biāo)題中的剩余詞串進(jìn)行人工觀察,若再發(fā)現(xiàn)新的停用詞,也將其加入到停用 詞表中。
[0041] 步驟3):對(duì)生成的所述詞性規(guī)則按照所含詞性的個(gè)數(shù)進(jìn)行分類,自動(dòng)生成的詞性 規(guī)則數(shù)量較多,無(wú)法將它們?nèi)繎?yīng)用到文獻(xiàn)中進(jìn)行術(shù)語(yǔ)匹配,因此需要有選擇地從中挑選 出部分詞性規(guī)則,在步驟3)中,將所述詞性規(guī)則分為四類,即2詞詞性規(guī)則、3詞詞性規(guī)則、 4詞詞性規(guī)則和5詞詞性規(guī)則;然后對(duì)每一類所述詞性規(guī)則按照出現(xiàn)頻率降序排列,并只取 Top5條規(guī)則應(yīng)用到中文專利文獻(xiàn)的正文部分進(jìn)行詞性匹配,生成候選術(shù)語(yǔ)集合,然后將抽 取出的候選術(shù)語(yǔ)按照所包含詞的個(gè)數(shù)進(jìn)行分類,將所述候選術(shù)語(yǔ)分為四類,即2詞候選術(shù) 語(yǔ)、3詞候選術(shù)語(yǔ)、4詞候選術(shù)語(yǔ)和5詞候選術(shù)語(yǔ),這樣對(duì)候選術(shù)語(yǔ)分類的目的是為了讓每一 類長(zhǎng)度的術(shù)語(yǔ)都單獨(dú)構(gòu)成一張候選術(shù)語(yǔ)表,在對(duì)其利用步驟4)中的TermRank排序算法進(jìn) 行排序時(shí)能夠不受其它長(zhǎng)度的術(shù)語(yǔ)的影響,從而排序結(jié)果更公平;
[0042] 步驟4):對(duì)候選術(shù)語(yǔ)排序的目的是為了確定最終術(shù)語(yǔ)表。一個(gè)好的排序算法能夠 將候選術(shù)語(yǔ)列表中分散的正確或錯(cuò)誤的術(shù)語(yǔ)重新排序,使正確的術(shù)語(yǔ)的權(quán)重增大,排名位 置盡量靠前,反之亦然。利用TermRank排序算法對(duì)候選術(shù)語(yǔ)進(jìn)行排序,所述TermRank排序 算法定義如公式(1)所示: