一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法

文檔序號(hào)：6333141閱讀：628來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法
技術(shù)領(lǐng)域：
本發(fā)明屬于計(jì)算機(jī)應(yīng)用和自然語(yǔ)言處理領(lǐng)域，特別涉及一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法。
背景技術(shù)：
面向?qū)W科領(lǐng)域的專業(yè)詞匯與通用詞匯不同，具有鮮明的領(lǐng)域特色，通常由基本詞根、專業(yè)基礎(chǔ)詞匯等構(gòu)成，是在通用詞匯基礎(chǔ)上發(fā)展起來(lái)的詞匯用語(yǔ)。新專業(yè)詞匯是專業(yè)領(lǐng) 域的未登錄詞和新詞。未登錄詞被定義為未在詞典中出現(xiàn)的詞，通常包括縮略詞、專有名詞、派生詞、復(fù)合詞、數(shù)字類復(fù)合詞等。新詞也是未在詞典中出現(xiàn)的詞，屬于未登錄詞，包含兩層含義通過(guò)各種途徑產(chǎn)生的、具有基本詞匯所沒(méi)有的新形式、新意義或新用法的詞語(yǔ)；出現(xiàn)在某一時(shí)間段內(nèi)或自某一時(shí)間點(diǎn)以來(lái)首次出現(xiàn)的具有新詞形、新詞義或者新用法的詞匯等。自然語(yǔ)言處理領(lǐng)域的專家一直嘗試借助計(jì)算機(jī)從大規(guī)模的文本中自動(dòng)抽取新詞和未登錄詞。新詞發(fā)現(xiàn)的方法通常有基于規(guī)則或基于統(tǒng)計(jì)方法?；谝?guī)則的方法是根據(jù)構(gòu)詞特征或詞語(yǔ)外型特點(diǎn)建立規(guī)則庫(kù)或模式庫(kù)，然后通過(guò)匹配規(guī)則發(fā)現(xiàn)新詞。領(lǐng)域?qū)＜腋鶕?jù)語(yǔ)言學(xué)原理，結(jié)合領(lǐng)域知識(shí)體系制定一系列規(guī)則來(lái)處理各種語(yǔ)言現(xiàn)象，以發(fā)現(xiàn)新詞。這種方法可發(fā)現(xiàn)較高質(zhì)量的新詞，但是靈活性差，而且要制定全面的規(guī)則費(fèi)時(shí)費(fèi)力?；诮y(tǒng)計(jì)的方法是通過(guò)對(duì)詞語(yǔ)的共現(xiàn)進(jìn)行概率統(tǒng)計(jì)來(lái)提取候選串，然后再利用語(yǔ)言知識(shí)過(guò)濾掉垃圾串；或計(jì) 算相關(guān)度，尋找相關(guān)度最大的字與字的組合。這種方法適用于任何領(lǐng)域，但需要大量的訓(xùn)練語(yǔ)料，而且查找的效率并不是很高。主要原因是忽略了不同詞語(yǔ)的構(gòu)詞模式，構(gòu)詞能力和上下文語(yǔ)義關(guān)系等對(duì)各個(gè)詞語(yǔ)構(gòu)成新詞的影響。比較實(shí)用的方法是結(jié)合概率統(tǒng)計(jì)和規(guī)則幾何方法進(jìn)行新詞發(fā)現(xiàn)，如采用二元統(tǒng)計(jì)模型或質(zhì)子串分解等，利用頻次統(tǒng)計(jì)選擇候選詞串，然后利用組詞規(guī)則等過(guò)濾，最后由人工選擇確定最終的新詞結(jié)果。目前，由于新詞出現(xiàn)的速度之快，形式之靈活，且沒(méi)有固定的形成規(guī)律，導(dǎo)致當(dāng)前并沒(méi)有權(quán)威的標(biāo)準(zhǔn)來(lái)判斷一個(gè)詞語(yǔ)是否為新詞，所以對(duì)結(jié)果的檢驗(yàn)很大程度上依賴于人工的經(jīng)驗(yàn)判斷。常用的方法中，統(tǒng)計(jì)的方法會(huì)受數(shù)據(jù)稀疏問(wèn)題的影響，不利于低頻新詞和長(zhǎng)度較長(zhǎng)的新詞的發(fā)現(xiàn)?；谝?guī)則的方法中，過(guò)濾的效果也依賴于規(guī)則獲取的完備性。

發(fā)明內(nèi)容
本發(fā)明就是針對(duì)上述背景技術(shù)中的不足之處，而提出的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，以快速發(fā)現(xiàn)較高質(zhì)量的新詞。本發(fā)明的目的是通過(guò)如下技術(shù)措施來(lái)實(shí)現(xiàn)的。一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，該方法使用的硬件部分包括文本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件，其特征在于該方法依次包括以下步驟
4(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換，然后進(jìn)行文本清洗、去除噪音文字，再抽取出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串，形成候選新詞表1 ；
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理后的內(nèi)容進(jìn)行分詞，然后按照詞性去除不能構(gòu)詞的詞語(yǔ)，再采用原子詞匯構(gòu)詞法對(duì)文中的候選詞串進(jìn)行統(tǒng)計(jì)，形成候選新詞表2 ；
(3)垃圾詞串過(guò)濾部件主要是針對(duì)領(lǐng)域特點(diǎn)來(lái)對(duì)候選新詞表進(jìn)行過(guò)濾，過(guò)濾掉不符合領(lǐng)域特點(diǎn)的部分，具體可以利用專業(yè)詞庫(kù)、規(guī)則庫(kù)或者模式庫(kù)等進(jìn)行匹配過(guò)濾；
(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選；
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)進(jìn)一步篩選掉部分垃圾詞串，生成新詞表，再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值來(lái)對(duì)結(jié)果進(jìn)行排序。領(lǐng)域詞匯庫(kù)主要是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞所組成的。在上述技術(shù)方案中，步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗模塊和具有特殊符號(hào)標(biāo)志的詞串抽取模塊；其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn)換為便于處理的TXT格式；文檔清洗模塊是去除文中的無(wú)用信息，包括圖形圖像、圖表、作者信息和參考文獻(xiàn)；具有特殊符號(hào)標(biāo)志的詞串抽取模塊是指抽取出用“ ”、‘’、()、《》標(biāo)記的長(zhǎng)度不大于10的內(nèi)容。在上述技術(shù)方案中，步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件的具體工作步驟如下
(2-1)用基于通用詞庫(kù)的分詞系統(tǒng)，如中國(guó)科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué) 統(tǒng)計(jì)分詞系統(tǒng)或者SEG分詞系統(tǒng)和SEGTAG系統(tǒng)等對(duì)所有文章進(jìn)行分詞，并做好詞性標(biāo)注；分詞結(jié)果中，詞與詞之間用空格隔開，標(biāo)點(diǎn)符號(hào)和停用詞都去掉，在其所在的位置用“#”代替；
(2-2)對(duì)于分詞結(jié)果，考慮到現(xiàn)代漢語(yǔ)中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的詞語(yǔ)，而這些詞語(yǔ)多是助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位詞、時(shí)間詞、數(shù)詞、擬聲詞、成語(yǔ)等，所以將屬于這些詞性的詞語(yǔ)直接從分詞結(jié)果中刪除；
(2-3)對(duì)處理過(guò)后的分詞結(jié)果，使用原子詞匯構(gòu)詞法進(jìn)行候選新詞串統(tǒng)計(jì)，將可能構(gòu)成新詞的候選詞串全部寫進(jìn)候選新詞表2中。具體實(shí)現(xiàn)過(guò)程如下
(2-3-1)針對(duì)分詞結(jié)果，以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串，并去掉只包含有一個(gè)詞語(yǔ)的字符串，例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢(shì)/n，切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢(shì)/η”三個(gè)字符串；
(2-3-2)對(duì)剩下的由多個(gè)詞連續(xù)構(gòu)成的字符串從后向前進(jìn)行掃描，每次以一個(gè)詞語(yǔ)作為一個(gè)掃描單位，進(jìn)行如下處理
(a)將當(dāng)前掃描的詞串作為后綴1，后綴2為空；
(b)掃描下一個(gè)詞語(yǔ)，作為前綴；
(c)判斷后綴1是否為空，若為空轉(zhuǎn)到步驟(e)，如果不為空，用前綴+后綴1組成新詞
串；
(d)判斷新詞串是否已存在于候選新詞表2中，如果在就將其頻次加1，如果不在就將它加到新詞表2中；
(e)判斷后綴2是否為空，如果是，轉(zhuǎn)到步驟(g)，如果不為空，用前綴+后綴2組成新詞串；
(f)判斷新詞串是否已存在于候選新詞表2中，如果在就將其頻次加1，如果不在就將它加到新詞表2中；
(g)將當(dāng)前前綴作為后綴2，當(dāng)前詞串作為后綴1；
(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符，如果是則算法結(jié)束，如果不是轉(zhuǎn)向步驟(b)。在上述技術(shù)方案中，步驟(3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下對(duì)構(gòu)造出來(lái)的候選新詞串，利用已有的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù)，如常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等，對(duì)于凡是不滿足上述規(guī)則要求的詞串全部刪除。在上述技術(shù)方案中，步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工作步驟如下
(5-1)利用已有的領(lǐng)域詞匯庫(kù)，根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度，計(jì)算新詞串為專業(yè)詞匯的概率值；庫(kù)中各詞根頻度的計(jì)算方法為，取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次，除以該表中所有詞根的總頻次，若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞，那么直接利用各個(gè)熱點(diǎn)詞根的頻度；若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫(kù)中，那么其頻度的計(jì)算方法為以把該詞加入到領(lǐng)域詞匯庫(kù)中后的詞根數(shù)量作為被除數(shù)，除數(shù)為1，取二者之商作為其頻度；最后通過(guò)將構(gòu) 成該新詞串的所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值；即對(duì)于新詞ABC，若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫(kù)中的概率分別為P (A)、P (B)和P (C)，則新詞ABC的領(lǐng)域相關(guān)度的計(jì) 算方法為P(A) XP(B)XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試，根據(jù)數(shù)據(jù)的正態(tài)分布特征，取所有數(shù)據(jù)的前 25%進(jìn)行保留，加入新詞表，否則進(jìn)行刪除；
(5-2)對(duì)于已選出來(lái)候選新詞表1中的內(nèi)容，如果詞條的長(zhǎng)度大于6，將其進(jìn)行分詞，按以上步驟進(jìn)行處理，對(duì)于長(zhǎng)度不大于6的詞條，去掉表示序號(hào)而與新詞無(wú)關(guān)的詞，然后將其直接加入新詞表中；
(5-3)計(jì)算各個(gè)新詞的序值，對(duì)新詞進(jìn)行排序輸出。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專業(yè)術(shù)語(yǔ)，并對(duì)結(jié)果進(jìn)行排序，彌補(bǔ)了現(xiàn)有算法的不足，更有利于人們把握這個(gè)學(xué)科的發(fā)展動(dòng) 向和核心價(jià)值。

圖1是本發(fā)明的基本原理圖。圖2是本發(fā)明核心算法基于貪婪的原子詞匯構(gòu)詞法的流程圖。圖3是本發(fā)明重復(fù)子串處理的流程圖。
具體實(shí)施例方式下面結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。如圖1所示，為本發(fā)明的基本原理圖。初始文檔經(jīng)過(guò)文本預(yù)處理、新詞串統(tǒng)計(jì)、垃
6圾詞串過(guò)濾和結(jié)果排序后，將從文中發(fā)現(xiàn)的新詞語(yǔ)輸出，其中要用到一個(gè)分詞系統(tǒng)、一個(gè)或多個(gè)規(guī)則庫(kù)，在詞匯領(lǐng)域相關(guān)度的計(jì)算部分，用到了已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫(kù)，并且在計(jì)算新詞的序值以對(duì)結(jié)果進(jìn)行排序時(shí)還要用已發(fā)現(xiàn)的新詞來(lái)充實(shí)分詞系統(tǒng)的通用詞典。本發(fā)明的核心算法用在候選新詞串的統(tǒng)計(jì)部分，同時(shí)在過(guò)濾垃圾詞串的過(guò)程中充分考慮了詞性、詞語(yǔ)的構(gòu)詞能力和構(gòu)詞方式等因素。在對(duì)重復(fù)子串進(jìn)行處理，在對(duì)結(jié)果進(jìn)行排序的過(guò)程中，也直觀地體現(xiàn)了該新詞的“熱點(diǎn)”程度。本發(fā)明一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，該方法使用的硬件部分包括文本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件，其特征在于該方法依次包括以下步驟
(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換，然后進(jìn)行文本清洗、去除噪音文字，再抽取出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串，形成候選新詞表1 ；
(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理后的內(nèi)容進(jìn)行分詞，然后按照詞性去除不能構(gòu)詞的詞語(yǔ)，再采用原子詞匯構(gòu)詞法對(duì)文中的候選詞串進(jìn)行統(tǒng)計(jì)，形成候選新詞表2 ；
(3)垃圾詞串過(guò)濾部件主要是針對(duì)領(lǐng)域特點(diǎn)來(lái)對(duì)候選新詞表進(jìn)行過(guò)濾，過(guò)濾掉不符合領(lǐng)域特點(diǎn)的部分，具體可以利用專業(yè)詞庫(kù)、規(guī)則庫(kù)或者模式庫(kù)等進(jìn)行匹配過(guò)濾；
(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選；
(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)進(jìn)一步篩選掉部分垃圾詞串，生成新詞表，再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值來(lái)對(duì)結(jié)果進(jìn)行排序。領(lǐng)域詞匯庫(kù)主要是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞所組成的。在上述實(shí)施例中，步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗模塊和具有特殊符號(hào)標(biāo)志的詞串抽取模塊；其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn) 換為便于處理的TXT格式，為了不影響效果，要求盡量保留原文的格式和字符順序；文檔清洗模塊是去除文中的無(wú)用信息，包括圖形圖像、圖表、作者信息和參考文獻(xiàn)；具有特殊符號(hào) 標(biāo)志的詞串抽取模塊是指對(duì)所有文章進(jìn)行掃描，抽取出文中用“”、‘‘、()、《》、一等標(biāo)記的長(zhǎng)度不大于10的內(nèi)容，形成候選新詞表1，并從原文中剔除關(guān)聯(lián)內(nèi)容，在其出現(xiàn)的位置用 “#”填補(bǔ)。在上述實(shí)施例中，步驟(2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件的工作步驟如下
(2-1)用通用詞匯庫(kù)構(gòu)造的分詞系統(tǒng)對(duì)所有文章進(jìn)行分詞，并做好詞性標(biāo)注。分詞結(jié) 果中，詞與詞之間用空格隔開；去掉標(biāo)點(diǎn)符號(hào)和停用詞，將其所在的位置用“#”代替。例如 “從工業(yè)社會(huì)到信息社會(huì)的巨大轉(zhuǎn)折中?！钡姆衷~結(jié)果為“從/P工業(yè)/n社會(huì)/n #/信息 /n社會(huì)/n #/巨大/a轉(zhuǎn)折/vn中/f。，，；
(2-2)對(duì)于分詞結(jié)果，考慮到某些詞性的詞語(yǔ)不具有構(gòu)詞能力，或者構(gòu)詞能力較弱，將這些詞從文中刪除。被刪除的對(duì)象是屬于助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位詞、時(shí)間詞、數(shù)詞、擬聲詞、成語(yǔ)等的詞語(yǔ)，如“的”，“在”、“前”等，將其所在的位置用“ # ”代替；(2-3)對(duì)處理過(guò)后的文檔，使用貪婪的原子詞匯構(gòu)詞法構(gòu)建候選詞串，統(tǒng)計(jì)候選詞串形成候選新詞表2。構(gòu)建候選新詞的算法的主要思想為如果一個(gè)詞語(yǔ)的前面或后面緊跟著的是標(biāo)點(diǎn)符號(hào)，那么這個(gè)詞語(yǔ)不可能與標(biāo)點(diǎn)符號(hào)前面或者后面的詞語(yǔ)構(gòu)成新詞，如果這個(gè) 詞語(yǔ)的前面或者后面緊挨著的是“的”，“了 ”，“地”，“還”之類構(gòu)詞能力很差的詞語(yǔ)，那么這個(gè)詞語(yǔ)也不可能與這些詞語(yǔ)或者這些詞之前與之后的詞語(yǔ)構(gòu)成新詞；具體實(shí)現(xiàn)過(guò)程如下
(2-3-1)針對(duì)分詞結(jié)果，以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串，并去掉只包含有一個(gè)詞語(yǔ)的字符串，例如從教/V學(xué)/V技術(shù)/n #/學(xué)習(xí)/V技術(shù)/n #/嬗變M #/順 Μ/ν #/這種/r發(fā)展/V趨勢(shì)/n，切分為“從教/V學(xué)/V技術(shù)/n ”、“學(xué)習(xí)/V技術(shù)/η”、 “這種/r發(fā)展/V趨勢(shì)/η”三個(gè)字符串；
(2-3-2)對(duì)剩下的由多個(gè)詞連續(xù)構(gòu)成的字符串從后向前進(jìn)行掃描，每次以一個(gè)詞語(yǔ)作為一個(gè)掃描單位，進(jìn)行如下處理
(a)將當(dāng)前掃描的詞串作為后綴1，后綴2為空；
(b)掃描下一個(gè)詞語(yǔ)，作為前綴；
(c)判斷后綴1是否為空，若為空轉(zhuǎn)到步驟(e)，如果不為空，用前綴+后綴1組成新詞
串；
(d)判斷新詞串是否已存在于候選新詞表中，如果在就將其頻次加1，如果不在就將它加到候選新詞表2中；
(e)判斷后綴2是否為空，如果是，轉(zhuǎn)到步驟(g)，如果不為空，用前綴+后綴2組成新詞串；
(f)判斷新詞串是否已存在于候選新詞表中，如果在就將其頻次加1，如果不在就將它加到候選新詞表2中；
(g)將當(dāng)前前綴作為后綴2，當(dāng)前詞串作為后綴1；
(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符，如果是則算法結(jié)束，如果不是轉(zhuǎn)向步驟(b)。上述算法的步驟流程如圖2所示，為本發(fā)明中核心算法。使用這個(gè)算法進(jìn)行統(tǒng)計(jì)，是基于以下前提如果一個(gè)詞語(yǔ)的前面或后面緊跟著的是標(biāo)點(diǎn)符號(hào)，那么這個(gè)詞語(yǔ)不可能與標(biāo)點(diǎn)符號(hào)前面或者后面詞語(yǔ)構(gòu)成新詞，如果這個(gè)詞語(yǔ)的前面或者后面緊挨著的是“的”， “了”，“地”，“還”之類的停用詞，那么這個(gè)詞語(yǔ)也不可能與這些停用詞之前或之后的詞語(yǔ)構(gòu) 成新詞。如果以一個(gè)詞語(yǔ)作為一個(gè)單位，那么每三個(gè)或者兩個(gè)連續(xù)的單位構(gòu)成的新詞串都是統(tǒng)計(jì)的對(duì)象，按照從后向前的順序掃描整個(gè)字符串，在算法的執(zhí)行過(guò)程中，如果以當(dāng)前讀取的詞作為前綴，那么后綴就有兩個(gè)，根據(jù)當(dāng)前新詞串的后綴對(duì)象的不同，分別進(jìn)行處理。在上述實(shí)施例中，步驟(3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下對(duì) 構(gòu)造出來(lái)的候選新詞串，已有的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù)，如常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、 “互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等，對(duì)于凡是不滿足上述規(guī)則要求的詞串全部刪除。在上述實(shí)施例中，步驟(4)中所述的重復(fù)子串篩選部件的具體工作步驟為對(duì)于候選詞串表中剩下的詞串，類似于“手提電腦”、“手提電”、“提電腦”含有相同內(nèi)容的部分，采用頻率相減法進(jìn)行過(guò)濾，該方法的執(zhí)行過(guò)程如圖3所示計(jì)算長(zhǎng)詞串Y的頻率PL(Y)減去短詞串X的頻率PL(X)，建立規(guī)則 Rl 若差值>=0，則說(shuō)明X每次均出現(xiàn)在Y中，則將其去除；
R2 若差值<0，則說(shuō)明X也作為新詞串單獨(dú)出現(xiàn)，則將X保留，且PL (X) =PL (X) -PL (Y)； R3 若差值<0且PL(Y) <=3，則將長(zhǎng)詞串Y刪除。其原理為對(duì)于含有相同內(nèi)容的子串和父串，計(jì)算其頻度差，然后根據(jù)不同的結(jié)果進(jìn)行取舍，即可淘汰一部分出現(xiàn)頻度比較低的詞串。在上述實(shí)施例中，步驟(5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件包括新專業(yè) 詞匯提煉模塊和結(jié)果排序模塊。其中新專業(yè)詞匯提煉模塊的具體工作步驟如下利用已有的學(xué)科領(lǐng)域詞匯庫(kù)，根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度，計(jì)算新詞串為專業(yè)詞匯的概率值；庫(kù)中各詞根頻度的計(jì)算方法為，取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次，除以該表中所有詞根的總頻次，若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞，那么直接利用各個(gè)熱點(diǎn)詞根的頻度；若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫(kù)中，那么其頻度的計(jì)算方法為以把該詞加入到領(lǐng)域詞匯庫(kù)中后的詞根數(shù)量作為被除數(shù)，除數(shù)為1，取二者之商作為其頻度；最后通過(guò)將構(gòu)成該新詞串的所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值。即對(duì)于新詞ABC，若詞根A、B和C在學(xué)科領(lǐng)域詞匯庫(kù)中的概率分別為P(A)、P(B)和P(C)，則新詞ABC的領(lǐng)域相關(guān)度的計(jì)算方法為 P(A) XP(B) XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試，根據(jù)數(shù)據(jù)的正態(tài)分布特征，取所有數(shù)據(jù)的前25%進(jìn)行保留，加入最終新詞表，將其保留，否則進(jìn)行刪除。
步驟(5)中所述的結(jié)果排序模塊的具體工作步驟為
(5-1)對(duì)于候選新詞表1中存放的用“ ”、‘ ’、()、《》等特殊符號(hào)標(biāo)記的長(zhǎng)度不大于10 的詞條，如果詞條的長(zhǎng)度大于6，將其進(jìn)行分詞，按以上方法進(jìn)行處理，對(duì)于長(zhǎng)度不大于6的詞條，去掉“1”，“2”，“一”，“二”，“圖一”，“圖二”，“第一”，“第二”，“如圖一所示”，等表示序號(hào)而與新詞無(wú)關(guān)的詞，然后將其直接加入新詞表中；
(5-2)將經(jīng)過(guò)上述處理的新詞加到分詞系統(tǒng)的詞典中，再次對(duì)原文進(jìn)行分詞，并統(tǒng)計(jì)重新分詞后的詞語(yǔ)個(gè)數(shù)，新詞串的個(gè)數(shù)；
(5-3)計(jì)算各個(gè)新詞的序值，對(duì)新詞進(jìn)行排序，新詞序值的計(jì)算公式為 F (w) =f (w) ·ρ (w)
其中w為某一新詞串；F(W)為詞串w經(jīng)計(jì)算后的最終序值；
f(w)為測(cè)試語(yǔ)料中詞串w的出現(xiàn)頻度；P(W)為詞串w在測(cè)試語(yǔ)料中的文檔覆蓋率；N 為測(cè)試語(yǔ)料中的總詞數(shù)。對(duì)于所有構(gòu)造出來(lái)的候選詞串，總是有相當(dāng)一部分不符合語(yǔ)法要求，也缺乏實(shí)在的語(yǔ)法意義，需要過(guò)濾掉。在具體的處理過(guò)程中，采用三個(gè)步驟來(lái)實(shí)現(xiàn)(1)垃圾詞串篩選，利用常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則等，將不滿足規(guī)則要求的詞串全部刪除。在這一處理中充分考慮了詞義對(duì)構(gòu)詞的影響。(2)重復(fù)子串的處理，對(duì)于“手提電腦”、“手提電”、“提電腦”這樣含有相同內(nèi)容的詞串，通過(guò)分析發(fā)現(xiàn)，總有部分是垃圾串，像該例中的“手提電”和“提電腦”就不符合語(yǔ)法要求，采用頻率相減法，通過(guò)比較子串和父串的頻度關(guān)系，可以過(guò)濾掉部分垃圾詞串。(3)專業(yè)詞匯頻度計(jì) 算，這個(gè)步驟中利用已經(jīng)構(gòu)建好的領(lǐng)域詞匯庫(kù)，計(jì)算各個(gè)詞語(yǔ)為專業(yè)詞匯的概率值，這里主要是利用了詞語(yǔ)的頻度差異，所以測(cè)試語(yǔ)料庫(kù)的大小會(huì)對(duì)結(jié)果有一定影響。
權(quán)利要求
一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，該方法使用的硬件部分包括文本預(yù)處理部件、基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件、垃圾詞串過(guò)濾部件、重復(fù)子串篩選部件、新專業(yè)詞匯提煉和結(jié)果排序部件，其特征在于該方法包括以下步驟(1)文本預(yù)處理部件對(duì)文本格式進(jìn)行轉(zhuǎn)換，進(jìn)行文本清洗、去除噪音文字，再抽取出文中用特殊符號(hào)標(biāo)志的長(zhǎng)度不大于10的詞串，形成候選新詞表1；(2)基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件首先對(duì)經(jīng)過(guò)上述文本預(yù)處理后的內(nèi)容進(jìn)行分詞，然后按照詞性去除不能構(gòu)詞的詞語(yǔ)，再采用原子詞匯構(gòu)詞法對(duì)文中的候選詞串進(jìn)行統(tǒng)計(jì)，形成候選新詞表2；(3)垃圾詞串過(guò)濾部件針對(duì)領(lǐng)域特點(diǎn)對(duì)候選新詞表進(jìn)行過(guò)濾，過(guò)濾掉不符合領(lǐng)域特點(diǎn)的部分；(4)重復(fù)子串篩選部件利用頻率相減法對(duì)包含有相同內(nèi)容的重復(fù)子串進(jìn)行篩選；(5)新專業(yè)詞匯提煉和結(jié)果排序部件先借助領(lǐng)域詞匯庫(kù)的熱點(diǎn)詞根來(lái)篩選掉部分垃圾詞串，生成新詞表，再通過(guò)排序算法計(jì)算所發(fā)現(xiàn)的每個(gè)新詞的序值對(duì)結(jié)果進(jìn)行排序；其中領(lǐng)域詞匯庫(kù)是從專業(yè)領(lǐng)域文獻(xiàn)、教材、資料等中預(yù)先分揀出的屬于該專業(yè)領(lǐng)域的詞所組成的。
2.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，其特征在于步驟(1)中所述的文本預(yù)處理部件包括格式轉(zhuǎn)換模塊、文檔清洗模塊和具有特殊符號(hào)標(biāo)志的詞串抽取模塊；其中格式轉(zhuǎn)換模塊是把其他格式的文檔全部轉(zhuǎn)換為便于處理的TXT格式；文檔清洗模塊是去除文中的無(wú)用信息，包括圖形圖像、圖表、作者信息和參考文獻(xiàn)；具有特殊符號(hào)標(biāo)志的詞串抽取模塊是指抽取出用“”、‘’、()、《》標(biāo)記的長(zhǎng)度不大于10的內(nèi)容。
3.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，其特征在于步驟 (2)中所述的基于貪婪的原子詞匯構(gòu)詞法的新詞串構(gòu)建與統(tǒng)計(jì)部件的具體工作步驟如下(2-1)用基于通用詞庫(kù)的分詞系統(tǒng)對(duì)所有文章進(jìn)行分詞，并做好詞性標(biāo)注；分詞結(jié)果中，詞與詞之間用空格隔開，標(biāo)點(diǎn)符號(hào)和停用詞都去掉，在其所在的位置用“#”代替；所述通用詞庫(kù)的分詞系統(tǒng)為中國(guó)科學(xué)院的ICTCLAS系統(tǒng)、哈爾濱工業(yè)大學(xué)統(tǒng)計(jì)分詞系統(tǒng)或者 SEG分詞系統(tǒng)和SEGTAG系統(tǒng)；(2-2)對(duì)于分詞結(jié)果，考慮到現(xiàn)代漢語(yǔ)中有很多不具有構(gòu)詞能力或者構(gòu)詞能力較弱的詞語(yǔ)，而這些詞語(yǔ)多是助詞、介詞、代詞、嘆詞、副詞、連詞、語(yǔ)氣詞、方位詞、時(shí)間詞、數(shù)詞、擬聲詞、成語(yǔ)，所以將屬于這些詞性的詞語(yǔ)直接從分詞結(jié)果中刪除；(2-3)對(duì)處理過(guò)后的分詞結(jié)果，使用原子詞匯構(gòu)詞法進(jìn)行候選新詞串統(tǒng)計(jì)，將可能構(gòu)成新詞的候選詞串全部寫進(jìn)候選新詞表2中；具體實(shí)現(xiàn)過(guò)程如下(2-3-1)針對(duì)分詞結(jié)果，以“#/”為分隔符將全文切分成一個(gè)個(gè)字符串，并去掉只包含有一個(gè)詞語(yǔ)的字符串；(2-3-2)對(duì)每個(gè)字符串從后向前進(jìn)行掃描，每次以一個(gè)詞語(yǔ)作為一個(gè)掃描單位，進(jìn)行如下處理(a)將當(dāng)前掃描的詞串作為后綴1，后綴2為空；(b)掃描下一個(gè)詞語(yǔ)，作為前綴；(c)判斷后綴1是否為空，若為空轉(zhuǎn)到步驟(e)，如果不為空，用前綴+后綴1組成新詞串；(d)判斷新詞串是否已存在于候選新詞表2中，如果在就將其頻次加1，如果不在就將它加到新詞表2中；(e)判斷后綴2是否為空，如果是，轉(zhuǎn)到步驟(g)，如果不為空，用前綴+后綴2組成新詞串；(f)判斷新詞串是否已存在于候選新詞表2中，如果在就將其頻次加1，如果不在就將它加到新詞表2中；(g)將當(dāng)前前綴作為后綴2，當(dāng)前詞串作為后綴1；(h)判斷當(dāng)前前綴是否為該字符串中最后一個(gè)字符，如果是則算法結(jié)束，如果不是轉(zhuǎn)向步驟(b)。
4.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，其特征在于步驟 (3)中所述的垃圾詞串過(guò)濾部件的具體工作步驟如下對(duì)構(gòu)造出來(lái)的候選新詞串，利用已有的規(guī)則庫(kù)、詞庫(kù)或者模式庫(kù)，如常用前綴詞匯庫(kù)、后綴詞匯庫(kù)、“互斥性子串”過(guò)濾規(guī)則、特殊詞過(guò)濾、模式匹配規(guī)則，對(duì)于凡是不滿足上述規(guī)則要求的詞串全部刪除。
5.根據(jù)權(quán)利要求1所述的一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，其特征在于步驟 (5)中所述的新專業(yè)詞匯提煉和結(jié)果排序部件的具體工作步驟如下(5-1)利用已有的領(lǐng)域詞匯庫(kù)，根據(jù)庫(kù)中各熱點(diǎn)詞根的頻度，計(jì)算新詞串為專業(yè)詞匯的概率值；庫(kù)中各詞根頻度的計(jì)算方法為，取該詞根在領(lǐng)域詞匯庫(kù)中的出現(xiàn)頻次，除以該表中所有詞根的總頻次，若新詞串中包含有領(lǐng)域詞匯庫(kù)中的詞，那么直接利用各個(gè)熱點(diǎn)詞根的頻度；若構(gòu)成新詞串的詞不在領(lǐng)域詞匯庫(kù)中，那么其頻度的計(jì)算方法為以把該詞加入到領(lǐng)域詞匯庫(kù)中后的詞根數(shù)量作為被除數(shù)，除數(shù)為1，取二者之商作為其頻度；最后通過(guò)將構(gòu) 成該新詞串的所有詞語(yǔ)的頻度值相乘得到該新詞串的概率值；即對(duì)于新詞ABC，若詞根A、B 和C在學(xué)科領(lǐng)域詞匯庫(kù)中的概率分別為P (A)、P (B)和P (C)，則新詞ABC的領(lǐng)域相關(guān)度的計(jì) 算方法為P(A) XP(B)XP(C)。經(jīng)多次實(shí)驗(yàn)測(cè)試，根據(jù)數(shù)據(jù)的正態(tài)分布特征，取所有數(shù)據(jù)的前 25%進(jìn)行保留，加入新詞表，否則進(jìn)行刪除；(5-2)對(duì)于已選出來(lái)候選新詞表1中的內(nèi)容，如果詞條的長(zhǎng)度大于6，將其進(jìn)行分詞，按以上步驟進(jìn)行處理，對(duì)于長(zhǎng)度不大于6的詞條，去掉表示序號(hào)而與新詞無(wú)關(guān)的詞，然后將其直接加入新詞表中；(5-3)計(jì)算各個(gè)新詞的序值，對(duì)新詞進(jìn)行排序輸出。
全文摘要
本發(fā)明屬于計(jì)算機(jī)應(yīng)用和自然語(yǔ)言處理領(lǐng)域，提供一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法，其原理是將初始文檔經(jīng)過(guò)文本預(yù)處理、新詞串統(tǒng)計(jì)、垃圾詞串過(guò)濾和結(jié)果排序等步驟后，輸出從文中發(fā)現(xiàn)的新詞語(yǔ)，本發(fā)明可以較好地發(fā)現(xiàn)學(xué)科領(lǐng)域的專業(yè)術(shù)語(yǔ)，并對(duì)結(jié)果進(jìn)行排序，彌補(bǔ)了現(xiàn)有算法的不足，更有利于人們把握這個(gè)學(xué)科的發(fā)展動(dòng)向和核心價(jià)值。
文檔編號(hào)G06F17/27GK101950309SQ201010299588
公開日2011年1月19日申請(qǐng)日期2010年10月8日優(yōu)先權(quán)日2010年10月8日
發(fā)明者劉清堂, 劉瑤瑤, 吳林靜, 黃濤, 黃煥申請(qǐng)人:華中師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉清堂;黃濤;劉瑤瑤;黃煥;吳林靜
技術(shù)所有人：華中師范大學(xué)
我是此專利的發(fā)明人

上一篇：分子動(dòng)力學(xué)模擬中壁面邊界的模擬方法
上一篇：Bios刷新裝置及利用其進(jìn)行bios數(shù)據(jù)刷新的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向?qū)W科領(lǐng)域的新專業(yè)詞匯識(shí)別方法