專利名稱:一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)應(yīng)用和自然語(yǔ)言處理領(lǐng)域,特別涉及一種面向?qū)W科領(lǐng)域的新專 業(yè)詞匯識(shí)別方法。
背景技術(shù):
面向?qū)W科領(lǐng)域的專業(yè)詞匯與通用詞匯不同,具有鮮明的領(lǐng)域特色,通常由基本詞 根、專業(yè)基礎(chǔ)詞匯等構(gòu)成,是在通用詞匯基礎(chǔ)上發(fā)展起來(lái)的詞匯用語(yǔ)。新專業(yè)詞匯是專業(yè)領(lǐng) 域的未登錄詞和新詞。未登錄詞被定義為未在詞典中出現(xiàn)的詞,通常包括縮略詞、專有名 詞、派生詞、復(fù)合詞、數(shù)字類復(fù)合詞等。新詞也是未在詞典中出現(xiàn)的詞,屬于未登錄詞,包含 兩層含義通過(guò)各種途徑產(chǎn)生的、具有基本詞匯所沒(méi)有的新形式、新意義或新用法的詞語(yǔ); 出現(xiàn)在某一時(shí)間段內(nèi)或自某一時(shí)間點(diǎn)以來(lái)首次出現(xiàn)的具有新詞形、新詞義或者新用法的詞 匯等。自然語(yǔ)言處理領(lǐng)域的專家一直嘗試借助計(jì)算機(jī)從大規(guī)模的文本中自動(dòng)抽取新詞 和未登錄詞。新詞發(fā)現(xiàn)的方法通常有基于規(guī)則或基于統(tǒng)計(jì)方法?;谝?guī)則的方法是根據(jù)構(gòu)詞特 征或詞語(yǔ)外型特點(diǎn)建立規(guī)則庫(kù)或模式庫(kù),然后通過(guò)匹配規(guī)則發(fā)現(xiàn)新詞。領(lǐng)域?qū)<腋鶕?jù)語(yǔ)言 學(xué)原理,結(jié)合領(lǐng)域知識(shí)體系制定一系列規(guī)則來(lái)處理各種語(yǔ)言現(xiàn)象,以發(fā)現(xiàn)新詞。這種方法可 發(fā)現(xiàn)較高質(zhì)量的新詞,但是靈活性差,而且要制定全面的規(guī)則費(fèi)時(shí)費(fèi)力?;诮y(tǒng)計(jì)的方法是 通過(guò)對(duì)詞語(yǔ)的共現(xiàn)進(jìn)行概率統(tǒng)計(jì)來(lái)提取候選串,然后再利用語(yǔ)言知識(shí)過(guò)濾掉垃圾串;或計(jì) 算相關(guān)度,尋找相關(guān)度最大的字與字的組合。這種方法適用于任何領(lǐng)域,但需要大量的訓(xùn)練 語(yǔ)料,而且查找的效率并不是很高。主要原因是忽略了不同詞語(yǔ)的構(gòu)詞模式,構(gòu)詞能力和上 下文語(yǔ)義關(guān)系等對(duì)各個(gè)詞語(yǔ)構(gòu)成新詞的影響。比較實(shí)用的方法是結(jié)合概率統(tǒng)計(jì)和規(guī)則幾何 方法進(jìn)行新詞發(fā)現(xiàn),如采用二元統(tǒng)計(jì)模型或質(zhì)子串分解等,利用頻次統(tǒng)計(jì)選擇候選詞串,然 后利用組詞規(guī)則等過(guò)濾,最后由人工選擇確定最終的新詞結(jié)果。目前,由于新詞出現(xiàn)的速度之快,形式之靈活,且沒(méi)有固定的形成規(guī)律,導(dǎo)致當(dāng)前 并沒(méi)有權(quán)威的標(biāo)準(zhǔn)來(lái)判斷一個(gè)詞語(yǔ)是否為新詞,所以對(duì)結(jié)果的檢驗(yàn)很大程度上依賴于人工 的經(jīng)驗(yàn)判斷。常用的方法中,統(tǒng)計(jì)的方法會(huì)受數(shù)據(jù)稀疏問(wèn)題的影響,不利于低頻新詞和長(zhǎng)度 較長(zhǎng)的新詞的發(fā)現(xiàn)?;谝?guī)則的方法中,過(guò)濾的效果也依賴于規(guī)則獲取的完備性。
發(fā)明內(nèi)容
本發(fā)明就是針對(duì)上述背景技術(shù)中的不足之處,而提出的一種面向?qū)W科領(lǐng)域的新專 業(yè)詞匯識(shí)別方法,以快速發(fā)現(xiàn)較高質(zhì)量的新詞。本發(fā)明的目的是通過(guò)如下技術(shù)措施來(lái)實(shí)現(xiàn)的。一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,該方法使用的硬件部分包括文本預(yù)處 理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、重復(fù)子 串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法依次包括以下步驟
4(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換,然后進(jìn)行文本清洗、去除噪音文字,再抽取 出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串,形成候選新詞表1 ;
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理 后的內(nèi)容進(jìn)行分詞,然后按照詞性去除不能構(gòu)詞的詞語(yǔ),再采用原子詞匯構(gòu)詞法對(duì)文中的 候選詞串進(jìn)行統(tǒng)計(jì),形成候選新詞表2 ;
(3)垃圾詞串過(guò)濾部件主要是針對(duì)領(lǐng)域特點(diǎn)來(lái)對(duì)候選新詞表進(jìn)行過(guò)濾,過(guò)濾掉不符合 領(lǐng)域特點(diǎn)的部分,具體可以利用專業(yè)詞庫(kù)、規(guī)則庫(kù)或者模式庫(kù)等進(jìn)行匹配過(guò)濾;
(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選;
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)進(jìn)一步篩選掉部 分垃圾詞串,生成新詞表,再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值來(lái)對(duì)結(jié)果進(jìn)行排 序。領(lǐng)域詞匯庫(kù)主要是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞 所組成的。在上述技術(shù)方案中,步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清 洗模塊和具有特殊符號(hào)標(biāo)志的詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部 轉(zhuǎn)換為便于處理的TXT格式;文檔清洗模塊是去除文中的無(wú)用信息,包括圖形圖像、圖表、 作者信息和參考文獻(xiàn);具有特殊符號(hào)標(biāo)志的詞串抽取模塊是指抽取出用“ ”、‘’、()、《》標(biāo)記 的長(zhǎng)度不大于10的內(nèi)容。在上述技術(shù)方案中,步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建 與統(tǒng)計(jì)部件的具體工作步驟如下
(2-1)用基于通用詞庫(kù)的分詞系統(tǒng),如中國(guó)科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué) 統(tǒng)計(jì)分詞系統(tǒng)或者SEG分詞系統(tǒng)和SEGTAG系統(tǒng)等對(duì)所有文章進(jìn)行分詞,并做好詞性標(biāo)注; 分詞結(jié)果中,詞與詞之間用空格隔開,標(biāo)點(diǎn)符號(hào)和停用詞都去掉,在其所在的位置用“#”代 替;
(2-2)對(duì)于分詞結(jié)果,考慮到現(xiàn)代漢語(yǔ)中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的 詞語(yǔ),而這些詞語(yǔ)多是助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位詞、時(shí)間詞、數(shù)詞、擬 聲詞、成語(yǔ)等,所以將屬于這些詞性的詞語(yǔ)直接從分詞結(jié)果中刪除;
(2-3)對(duì)處理過(guò)后的分詞結(jié)果,使用原子詞匯構(gòu)詞法進(jìn)行候選新詞串統(tǒng)計(jì),將可能構(gòu)成 新詞的候選詞串全部寫進(jìn)候選新詞表2中。具體實(shí)現(xiàn)過(guò)程如下
(2-3-1)針對(duì)分詞結(jié)果,以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串,并去掉只包含 有一個(gè)詞語(yǔ)的字符串,例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢(shì)/n,切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢(shì)/η”三個(gè)字符串;
(2-3-2)對(duì)剩下的由多個(gè)詞連續(xù)構(gòu)成的字符串從后向前進(jìn)行掃描,每次以一個(gè)詞語(yǔ)作 為一個(gè)掃描單位,進(jìn)行如下處理
(a)將當(dāng)前掃描的詞串作為后綴1,后綴2為空;
(b)掃描下一個(gè)詞語(yǔ),作為前綴;
(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞
串;
(d)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將它加到新詞表2中;
(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;
(f)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將 它加到新詞表2中;
(g)將當(dāng)前前綴作為后綴2,當(dāng)前詞串作為后綴1;
(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。在上述技術(shù)方案中,步驟(3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下 對(duì)構(gòu)造出來(lái)的候選新詞串,利用已有的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù),如常用前綴詞匯庫(kù)、后綴 詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等,對(duì)于凡是不滿足上述規(guī)則 要求的詞串全部刪除。在上述技術(shù)方案中,步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工 作步驟如下
(5-1)利用已有的領(lǐng)域詞匯庫(kù),根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度,計(jì)算新詞串為專業(yè)詞匯的 概率值;庫(kù)中各詞根頻度的計(jì)算方法為,取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次,除以該表中 所有詞根的總頻次,若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞,那么直接利用各個(gè)熱點(diǎn)詞根的 頻度;若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫(kù)中,那么其頻度的計(jì)算方法為以把該詞加入到 領(lǐng)域詞匯庫(kù)中后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過(guò)將構(gòu) 成該新詞串的所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值;即對(duì)于新詞ABC,若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫(kù)中的概率分別為P (A)、P (B)和P (C),則新詞ABC的領(lǐng)域相關(guān)度的計(jì) 算方法為P(A) XP(B)XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前 25%進(jìn)行保留,加入新詞表,否則進(jìn)行刪除;
(5-2)對(duì)于已選出來(lái)候選新詞表1中的內(nèi)容,如果詞條的長(zhǎng)度大于6,將其進(jìn)行分詞,按 以上步驟進(jìn)行處理,對(duì)于長(zhǎng)度不大于6的詞條,去掉表示序號(hào)而與新詞無(wú)關(guān)的詞,然后將其 直接加入新詞表中;
(5-3)計(jì)算各個(gè)新詞的序值,對(duì)新詞進(jìn)行排序輸出。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專 業(yè)術(shù)語(yǔ),并對(duì)結(jié)果進(jìn)行排序,彌補(bǔ)了現(xiàn)有算法的不足,更有利于人們把握這個(gè)學(xué)科的發(fā)展動(dòng) 向和核心價(jià)值。
圖1是本發(fā)明的基本原理圖。圖2是本發(fā)明核心算法基于貪婪的原子詞匯構(gòu)詞法的流程圖。圖3是本發(fā)明重復(fù)子串處理的流程圖。
具體實(shí)施例方式下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。如圖1所示,為本發(fā)明的基本原理圖。初始文檔經(jīng)過(guò)文本預(yù)處理、新詞串統(tǒng)計(jì)、垃
6圾詞串過(guò)濾和結(jié)果排序后,將從文中發(fā)現(xiàn)的新詞語(yǔ)輸出,其中要用到一個(gè)分詞系統(tǒng)、一個(gè)或 多個(gè)規(guī)則庫(kù),在詞匯領(lǐng)域相關(guān)度的計(jì)算部分,用到了已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫(kù),并且在計(jì)算 新詞的序值以對(duì)結(jié)果進(jìn)行排序時(shí)還要用已發(fā)現(xiàn)的新詞來(lái)充實(shí)分詞系統(tǒng)的通用詞典。本發(fā)明 的核心算法用在候選新詞串的統(tǒng)計(jì)部分,同時(shí)在過(guò)濾垃圾詞串的過(guò)程中充分考慮了詞性、 詞語(yǔ)的構(gòu)詞能力和構(gòu)詞方式等因素。在對(duì)重復(fù)子串進(jìn)行處理,在對(duì)結(jié)果進(jìn)行排序的過(guò)程中, 也直觀地體現(xiàn)了該新詞的“熱點(diǎn)”程度。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,該方法使用的硬件部分包括文 本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、 重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法依次包括以下步 驟
(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換,然后進(jìn)行文本清洗、去除噪音文字,再抽取 出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串,形成候選新詞表1 ;
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理 后的內(nèi)容進(jìn)行分詞,然后按照詞性去除不能構(gòu)詞的詞語(yǔ),再采用原子詞匯構(gòu)詞法對(duì)文中的 候選詞串進(jìn)行統(tǒng)計(jì),形成候選新詞表2 ;
(3)垃圾詞串過(guò)濾部件主要是針對(duì)領(lǐng)域特點(diǎn)來(lái)對(duì)候選新詞表進(jìn)行過(guò)濾,過(guò)濾掉不符合 領(lǐng)域特點(diǎn)的部分,具體可以利用專業(yè)詞庫(kù)、規(guī)則庫(kù)或者模式庫(kù)等進(jìn)行匹配過(guò)濾;
(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選;
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)進(jìn)一步篩選掉部 分垃圾詞串,生成新詞表,再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值來(lái)對(duì)結(jié)果進(jìn)行排 序。領(lǐng)域詞匯庫(kù)主要是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞 所組成的。在上述實(shí)施例中,步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗 模塊和具有特殊符號(hào)標(biāo)志的詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn) 換為便于處理的TXT格式,為了不影響效果,要求盡量保留原文的格式和字符順序;文檔清 洗模塊是去除文中的無(wú)用信息,包括圖形圖像、圖表、作者信息和參考文獻(xiàn);具有特殊符號(hào) 標(biāo)志的詞串抽取模塊是指對(duì)所有文章進(jìn)行掃描,抽取出文中用“”、‘‘、()、《》、一等標(biāo)記 的長(zhǎng)度不大于10的內(nèi)容,形成候選新詞表1,并從原文中剔除關(guān)聯(lián)內(nèi)容,在其出現(xiàn)的位置用 “#”填補(bǔ)。在上述實(shí)施例中,步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與 統(tǒng)計(jì)部件的工作步驟如下
(2-1)用通用詞匯庫(kù)構(gòu)造的分詞系統(tǒng)對(duì)所有文章進(jìn)行分詞,并做好詞性標(biāo)注。分詞結(jié) 果中,詞與詞之間用空格隔開;去掉標(biāo)點(diǎn)符號(hào)和停用詞,將其所在的位置用“#”代替。例如 “從工業(yè)社會(huì)到信息社會(huì)的巨大轉(zhuǎn)折中?!钡姆衷~結(jié)果為“從/P工業(yè)/n社會(huì)/n #/信息 /n社會(huì)/n #/巨大/a轉(zhuǎn)折/vn中/f。,,;
(2-2)對(duì)于分詞結(jié)果,考慮到某些詞性的詞語(yǔ)不具有構(gòu)詞能力,或者構(gòu)詞能力較弱,將 這些詞從文中刪除。被刪除的對(duì)象是屬于助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位 詞、時(shí)間詞、數(shù)詞、擬聲詞、成語(yǔ)等的詞語(yǔ),如“的”,“在”、“前”等,將其所在的位置用“ # ”代 替;(2-3)對(duì)處理過(guò)后的文檔,使用貪婪的原子詞匯構(gòu)詞法構(gòu)建候選詞串,統(tǒng)計(jì)候選詞串形 成候選新詞表2。構(gòu)建候選新詞的算法的主要思想為如果一個(gè)詞語(yǔ)的前面或后面緊跟著 的是標(biāo)點(diǎn)符號(hào),那么這個(gè)詞語(yǔ)不可能與標(biāo)點(diǎn)符號(hào)前面或者后面的詞語(yǔ)構(gòu)成新詞,如果這個(gè) 詞語(yǔ)的前面或者后面緊挨著的是“的”,“了 ”,“地”,“還”之類構(gòu)詞能力很差的詞語(yǔ),那么這 個(gè)詞語(yǔ)也不可能與這些詞語(yǔ)或者這些詞之前與之后的詞語(yǔ)構(gòu)成新詞; 具體實(shí)現(xiàn)過(guò)程如下
(2-3-1)針對(duì)分詞結(jié)果,以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串,并去掉只包含 有一個(gè)詞語(yǔ)的字符串,例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢(shì)/n,切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢(shì)/η”三個(gè)字符串;
(2-3-2)對(duì)剩下的由多個(gè)詞連續(xù)構(gòu)成的字符串從后向前進(jìn)行掃描,每次以一個(gè)詞語(yǔ)作 為一個(gè)掃描單位,進(jìn)行如下處理
(a)將當(dāng)前掃描的詞串作為后綴1,后綴2為空;
(b)掃描下一個(gè)詞語(yǔ),作為前綴;
(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞
串;
(d)判斷新詞串是否已存在于候選新詞表中,如果在就將其頻次加1,如果不在就將它 加到候選新詞表2中;
(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;
(f)判斷新詞串是否已存在于候選新詞表中,如果在就將其頻次加1,如果不在就將它 加到候選新詞表2中;
(g)將當(dāng)前前綴作為后綴2,當(dāng)前詞串作為后綴1;
(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。上述算法的步驟流程如圖2所示,為本發(fā)明中核心算法。使用這個(gè)算法進(jìn)行統(tǒng)計(jì), 是基于以下前提如果一個(gè)詞語(yǔ)的前面或后面緊跟著的是標(biāo)點(diǎn)符號(hào),那么這個(gè)詞語(yǔ)不可能 與標(biāo)點(diǎn)符號(hào)前面或者后面詞語(yǔ)構(gòu)成新詞,如果這個(gè)詞語(yǔ)的前面或者后面緊挨著的是“的”, “了”,“地”,“還”之類的停用詞,那么這個(gè)詞語(yǔ)也不可能與這些停用詞之前或之后的詞語(yǔ)構(gòu) 成新詞。如果以一個(gè)詞語(yǔ)作為一個(gè)單位,那么每三個(gè)或者兩個(gè)連續(xù)的單位構(gòu)成的新詞串都 是統(tǒng)計(jì)的對(duì)象,按照從后向前的順序掃描整個(gè)字符串,在算法的執(zhí)行過(guò)程中,如果以當(dāng)前讀 取的詞作為前綴,那么后綴就有兩個(gè),根據(jù)當(dāng)前新詞串的后綴對(duì)象的不同,分別進(jìn)行處理。在上述實(shí)施例中,步驟(3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下對(duì) 構(gòu)造出來(lái)的候選新詞串,已有的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù),如常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、 “互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等,對(duì)于凡是不滿足上述規(guī)則要求的詞 串全部刪除。在上述實(shí)施例中,步驟(4)中所述的重復(fù)子串篩選部件的具體工作步驟為對(duì)于候 選詞串表中剩下的詞串,類似于“手提電腦”、“手提電”、“提電腦”含有相同內(nèi)容的部分,采 用頻率相減法進(jìn)行過(guò)濾,該方法的執(zhí)行過(guò)程如圖3所示計(jì)算長(zhǎng)詞串Y的頻率PL(Y)減去短詞串X的頻率PL(X),建立規(guī)則 Rl 若差值>=0,則說(shuō)明X每次均出現(xiàn)在Y中,則將其去除;
R2 若差值<0,則說(shuō)明X也作為新詞串單獨(dú)出現(xiàn),則將X保留,且PL (X) =PL (X) -PL (Y); R3 若差值<0且PL(Y) <=3,則將長(zhǎng)詞串Y刪除。其原理為對(duì)于含有相同內(nèi)容的子串和父串,計(jì)算其頻度差,然后根據(jù)不同的結(jié)果 進(jìn)行取舍,即可淘汰一部分出現(xiàn)頻度比較低的詞串。在上述實(shí)施例中,步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件包括新專業(yè) 詞匯提煉模塊和結(jié)果排序模塊。其中新專業(yè)詞匯提煉模塊的具體工作步驟如下利用已有 的學(xué)科領(lǐng)域詞匯庫(kù),根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度,計(jì)算新詞串為專業(yè)詞匯的概率值;庫(kù)中各 詞根頻度的計(jì)算方法為,取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次,除以該表中所有詞根的總 頻次,若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞,那么直接利用各個(gè)熱點(diǎn)詞根的頻度;若構(gòu)成 新詞串的詞不在領(lǐng)域詞匯庫(kù)中,那么其頻度的計(jì)算方法為以把該詞加入到領(lǐng)域詞匯庫(kù)中 后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過(guò)將構(gòu)成該新詞串的 所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值。即對(duì)于新詞ABC,若詞根A、B和C在學(xué)科 領(lǐng)域詞匯庫(kù)中的概率分別為P(A)、P(B)和P(C),則新詞ABC的領(lǐng)域相關(guān)度的計(jì)算方法為 P(A) XP(B) XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前25%進(jìn)行 保留,加入最終新詞表,將其保留,否則進(jìn)行刪除。
步驟(5)中所述的結(jié)果排序模塊的具體工作步驟為
(5-1)對(duì)于候選新詞表1中存放的用“ ”、‘ ’、()、《》等特殊符號(hào)標(biāo)記的長(zhǎng)度不大于10 的詞條,如果詞條的長(zhǎng)度大于6,將其進(jìn)行分詞,按以上方法進(jìn)行處理,對(duì)于長(zhǎng)度不大于6的 詞條,去掉“1”,“2”,“一”,“二”,“圖一”,“圖二”,“第一”,“第二”,“如圖一所示”,等表示 序號(hào)而與新詞無(wú)關(guān)的詞,然后將其直接加入新詞表中;
(5-2)將經(jīng)過(guò)上述處理的新詞加到分詞系統(tǒng)的詞典中,再次對(duì)原文進(jìn)行分詞,并統(tǒng)計(jì)重 新分詞后的詞語(yǔ)個(gè)數(shù),新詞串的個(gè)數(shù);
(5-3)計(jì)算各個(gè)新詞的序值,對(duì)新詞進(jìn)行排序,新詞序值的計(jì)算公式為 F (w) =f (w) ·ρ (w)
其中w為某一新詞串;F(W)為詞串w經(jīng)計(jì)算后的最終序值;
f(w)為測(cè)試語(yǔ)料中詞串w的出現(xiàn)頻度;P(W)為詞串w在測(cè)試語(yǔ)料中的文檔覆蓋率;N 為測(cè)試語(yǔ)料中的總詞數(shù)。對(duì)于所有構(gòu)造出來(lái)的候選詞串,總是有相當(dāng)一部分不符合語(yǔ)法要求,也缺乏實(shí)在 的語(yǔ)法意義,需要過(guò)濾掉。在具體的處理過(guò)程中,采用三個(gè)步驟來(lái)實(shí)現(xiàn)(1)垃圾詞串篩選, 利用常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等, 將不滿足規(guī)則要求的詞串全部刪除。在這一處理中充分考慮了詞義對(duì)構(gòu)詞的影響。(2)重 復(fù)子串的處理,對(duì)于“手提電腦”、“手提電”、“提電腦”這樣含有相同內(nèi)容的詞串,通過(guò)分析 發(fā)現(xiàn),總有部分是垃圾串,像該例中的“手提電”和“提電腦”就不符合語(yǔ)法要求,采用頻率 相減法,通過(guò)比較子串和父串的頻度關(guān)系,可以過(guò)濾掉部分垃圾詞串。(3)專業(yè)詞匯頻度計(jì) 算,這個(gè)步驟中利用已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫(kù),計(jì)算各個(gè)詞語(yǔ)為專業(yè)詞匯的概率值,這里主 要是利用了詞語(yǔ)的頻度差異,所以測(cè)試語(yǔ)料庫(kù)的大小會(huì)對(duì)結(jié)果有一定影響。
權(quán)利要求
一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,該方法使用的硬件部分包括文本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件,其特征在于該方法包括以下步驟(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換,進(jìn)行文本清洗、去除噪音文字,再抽取出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串,形成候選新詞表1;(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理后的內(nèi)容進(jìn)行分詞,然后按照詞性去除不能構(gòu)詞的詞語(yǔ),再采用原子詞匯構(gòu)詞法對(duì)文中的候選詞串進(jìn)行統(tǒng)計(jì),形成候選新詞表2;(3)垃圾詞串過(guò)濾部件針對(duì)領(lǐng)域特點(diǎn)對(duì)候選新詞表進(jìn)行過(guò)濾,過(guò)濾掉不符合領(lǐng)域特點(diǎn)的部分;(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選;(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)篩選掉部分垃圾詞串,生成新詞表,再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值對(duì)結(jié)果進(jìn)行排序;其中領(lǐng)域詞匯庫(kù)是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞所組成的。
2.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,其特征在于步 驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗模塊和具有特殊符號(hào)標(biāo)志的 詞串抽取模塊;其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn)換為便于處理的TXT格式; 文檔清洗模塊是去除文中的無(wú)用信息,包括圖形圖像、圖表、作者信息和參考文獻(xiàn);具有特 殊符號(hào)標(biāo)志的詞串抽取模塊是指抽取出用“”、‘’、()、《》標(biāo)記的長(zhǎng)度不大于10的內(nèi)容。
3.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,其特征在于步驟 (2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件的具體工作步驟如下(2-1)用基于通用詞庫(kù)的分詞系統(tǒng)對(duì)所有文章進(jìn)行分詞,并做好詞性標(biāo)注;分詞結(jié)果 中,詞與詞之間用空格隔開,標(biāo)點(diǎn)符號(hào)和停用詞都去掉,在其所在的位置用“#”代替;所述 通用詞庫(kù)的分詞系統(tǒng)為中國(guó)科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué)統(tǒng)計(jì)分詞系統(tǒng)或者 SEG分詞系統(tǒng)和SEGTAG系統(tǒng);(2-2)對(duì)于分詞結(jié)果,考慮到現(xiàn)代漢語(yǔ)中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的 詞語(yǔ),而這些詞語(yǔ)多是助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位詞、時(shí)間詞、數(shù)詞、擬 聲詞、成語(yǔ),所以將屬于這些詞性的詞語(yǔ)直接從分詞結(jié)果中刪除;(2-3)對(duì)處理過(guò)后的分詞結(jié)果,使用原子詞匯構(gòu)詞法進(jìn)行候選新詞串統(tǒng)計(jì),將可能構(gòu)成 新詞的候選詞串全部寫進(jìn)候選新詞表2中;具體實(shí)現(xiàn)過(guò)程如下(2-3-1)針對(duì)分詞結(jié)果,以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串,并去掉只包含有 一個(gè)詞語(yǔ)的字符串;(2-3-2)對(duì)每個(gè)字符串從后向前進(jìn)行掃描,每次以一個(gè)詞語(yǔ)作為一個(gè)掃描單位,進(jìn)行如 下處理(a)將當(dāng)前掃描的詞串作為后綴1,后綴2為空;(b)掃描下一個(gè)詞語(yǔ),作為前綴;(c)判斷后綴1是否為空,若為空轉(zhuǎn)到步驟(e),如果不為空,用前綴+后綴1組成新詞串;(d)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將它加到新詞表2中;(e)判斷后綴2是否為空,如果是,轉(zhuǎn)到步驟(g),如果不為空,用前綴+后綴2組成新 詞串;(f)判斷新詞串是否已存在于候選新詞表2中,如果在就將其頻次加1,如果不在就將 它加到新詞表2中;(g)將當(dāng)前前綴作為后綴2,當(dāng)前詞串作為后綴1;(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符,如果是則算法結(jié)束,如果不是轉(zhuǎn)向 步驟(b)。
4.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,其特征在于步驟 (3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下對(duì)構(gòu)造出來(lái)的候選新詞串,利用已有 的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù),如常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊 詞過(guò)濾、模式匹配規(guī)則,對(duì)于凡是不滿足上述規(guī)則要求的詞串全部刪除。
5.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,其特征在于步驟 (5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工作步驟如下(5-1)利用已有的領(lǐng)域詞匯庫(kù),根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度,計(jì)算新詞串為專業(yè)詞匯的 概率值;庫(kù)中各詞根頻度的計(jì)算方法為,取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次,除以該表中 所有詞根的總頻次,若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞,那么直接利用各個(gè)熱點(diǎn)詞根的 頻度;若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫(kù)中,那么其頻度的計(jì)算方法為以把該詞加入到 領(lǐng)域詞匯庫(kù)中后的詞根數(shù)量作為被除數(shù),除數(shù)為1,取二者之商作為其頻度;最后通過(guò)將構(gòu) 成該新詞串的所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值;即對(duì)于新詞ABC,若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫(kù)中的概率分別為P (A)、P (B)和P (C),則新詞ABC的領(lǐng)域相關(guān)度的計(jì) 算方法為P(A) XP(B)XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試,根據(jù)數(shù)據(jù)的正態(tài)分布特征,取所有數(shù)據(jù)的前 25%進(jìn)行保留,加入新詞表,否則進(jìn)行刪除;(5-2)對(duì)于已選出來(lái)候選新詞表1中的內(nèi)容,如果詞條的長(zhǎng)度大于6,將其進(jìn)行分詞,按 以上步驟進(jìn)行處理,對(duì)于長(zhǎng)度不大于6的詞條,去掉表示序號(hào)而與新詞無(wú)關(guān)的詞,然后將其 直接加入新詞表中;(5-3)計(jì)算各個(gè)新詞的序值,對(duì)新詞進(jìn)行排序輸出。
全文摘要
本發(fā)明屬于計(jì)算機(jī)應(yīng)用和自然語(yǔ)言處理領(lǐng)域,提供一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法,其原理是將初始文檔經(jīng)過(guò)文本預(yù)處理、新詞串統(tǒng)計(jì)、垃圾詞串過(guò)濾和結(jié)果排序等步驟后,輸出從文中發(fā)現(xiàn)的新詞語(yǔ),本發(fā)明可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專業(yè)術(shù)語(yǔ),并對(duì)結(jié)果進(jìn)行排序,彌補(bǔ)了現(xiàn)有算法的不足,更有利于人們把握這個(gè)學(xué)科的發(fā)展動(dòng)向和核心價(jià)值。
文檔編號(hào)G06F17/27GK101950309SQ201010299588
公開日2011年1月19日 申請(qǐng)日期2010年10月8日 優(yōu)先權(quán)日2010年10月8日
發(fā)明者劉清堂, 劉瑤瑤, 吳林靜, 黃濤, 黃 煥 申請(qǐng)人:華中師范大學(xué)