本發(fā)明涉及領(lǐng)域概念
技術(shù)領(lǐng)域:
,具體涉及一種智能領(lǐng)域概念自動獲取系統(tǒng)。
背景技術(shù):
:領(lǐng)域概念是指在特定領(lǐng)域中以較高的頻率出現(xiàn)且能代表該領(lǐng)域特征的詞。領(lǐng)域概念自動獲取的關(guān)鍵是候選概念的獲取和對候選概念的評價方法,因為只有候選概念的獲取方法和評價方法是有效的,才可能得到準(zhǔn)確的領(lǐng)域概念。另外,領(lǐng)域概念不僅包括單個的詞語,也包含一些復(fù)合詞語,即由多個詞語組成的詞串。因此進(jìn)行領(lǐng)域概念獲取前要先提取語料庫中的復(fù)合詞語,并且候選概念的判定條件也要針對復(fù)合詞語做相應(yīng)的改變,以免在選擇候選概念時將復(fù)合詞語領(lǐng)域概念過濾掉。此外,在獲取領(lǐng)域概念時不可避免地會存在語義相近的概念,對各個領(lǐng)域概念分別統(tǒng)計其頻數(shù)將會導(dǎo)致其統(tǒng)計結(jié)果偏低,從而導(dǎo)致某些領(lǐng)域概念被遺漏,因此在概念自動獲取過程中還要考慮語義相似的領(lǐng)域概念的獲取?,F(xiàn)有的領(lǐng)域概念獲取系統(tǒng)存在以下缺陷:第一,并沒有考慮復(fù)合詞語領(lǐng)域概念;第二,并沒有考慮領(lǐng)域概念的語義相似。技術(shù)實現(xiàn)要素:針對上述問題,本發(fā)明旨在提供一種智能領(lǐng)域概念自動獲取系統(tǒng)。本發(fā)明的目的采用以下技術(shù)方案來實現(xiàn):提供了一種智能領(lǐng)域概念自動獲取系統(tǒng),包括前臺信息輸入子系統(tǒng)和后臺領(lǐng)域概念獲取子系統(tǒng),所述前臺信息輸入子系統(tǒng)用于輸入用戶想要了解的領(lǐng)域,所述后臺領(lǐng)域概念獲取子系統(tǒng)用于從語料庫中獲取相應(yīng)的領(lǐng)域概念。本發(fā)明的有益效果為:實現(xiàn)了領(lǐng)域概念的準(zhǔn)確獲取。附圖說明利用附圖對本發(fā)明作進(jìn)一步說明,但附圖中的實施例不構(gòu)成對本發(fā)明的任何限制,對于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。圖1是本發(fā)明的結(jié)構(gòu)示意圖;附圖標(biāo)記:前臺信息輸入子系統(tǒng)1、后臺領(lǐng)域概念獲取子系統(tǒng)2。具體實施方式結(jié)合以下實施例對本發(fā)明作進(jìn)一步描述。參見圖1,本實施例的一種智能領(lǐng)域概念自動獲取系統(tǒng),包括前臺信息輸入子系統(tǒng)1和后臺領(lǐng)域概念獲取子系統(tǒng)2,所述前臺信息輸入子系統(tǒng)1用于輸入用戶想要了解的領(lǐng)域,所述后臺領(lǐng)域概念獲取子系統(tǒng)2用于從語料庫中獲取相應(yīng)的領(lǐng)域概念。本實施例實現(xiàn)了領(lǐng)域概念的準(zhǔn)確獲取。優(yōu)選的,所述前臺信息輸入子系統(tǒng)1包括語言輸入模塊和文字輸入模塊,所述語言輸入模塊用于識別輸入的語言信息,所述文字輸入模塊用于識別輸入的文字信息,所述語言輸入模塊包括語言信息采集單元、語言信息存儲單元、語言信息傳輸單元、聲音文字轉(zhuǎn)換單元和文字識別單元,所述語言信息采集單元用于采集語言信息,所述語言信息存儲單元用于存儲采集到的語言信息,所述語言信息傳輸單元用于將存儲的語言信息傳輸至聲音文字轉(zhuǎn)換單元,所述聲音文字轉(zhuǎn)換單元用于將聲音信息轉(zhuǎn)化為文字信息,所述文字識別單元用于對文字信息進(jìn)行識別。本優(yōu)選實施例實現(xiàn)了信息的語言輸入。優(yōu)選的,所述文字輸入模塊包括文字信息輸入單元、文字信息存儲單元、文字信息閱讀單元、通信單元和文字信息識別單元,所述文字信息輸入單元用于手動書寫文字信息,所述文字信息存儲單元用于存儲寫入的文字信息,所述文字信息閱讀單元用于閱讀存儲的文字信息,所述通信單元用于將閱讀出的文字信息傳輸至文字信息識別單元,所述文字信息識別單元用于對接收的文字信息進(jìn)行識別。本優(yōu)選實施例實現(xiàn)了信息的手寫輸入。所述后臺領(lǐng)域概念獲取子系統(tǒng)包括詞語集合生成模塊和領(lǐng)域概念獲取模塊,所述詞語集合生成模塊用于根據(jù)語料庫生成詞語集合,所述領(lǐng)域概念獲取模塊用于根據(jù)詞語集合獲取領(lǐng)域概念;所述根據(jù)語料庫生成詞語集合具體為:(1)對語料庫以句為單位進(jìn)行分詞,去除停用詞,生成詞語集合w,從詞語集合w中提取多元詞組,得到候選詞集合wl;(2)若wl不為空,則取字符串w,其中,w∈wl,若w滿足復(fù)合詞語判定條件,則w是復(fù)合詞語,加入復(fù)合詞語集合cw=cw∪w;(3)輸出詞語集合w=w∪cw。所述復(fù)合詞語判定條件具體為:(1)設(shè)字符串w=s1s2…sn,s1,s2,…,sn為對其分詞后得到的詞語,用a表示s1,s2,…,sn的互信息指數(shù):式中,p(s1,s2,…,sn)為詞語s1,s2,…,sn在語料庫中共同出現(xiàn)的概率,p(s1)為詞語s1出現(xiàn)的概率,p(s2)為詞語s2出現(xiàn)的概率,…,p(sn)為詞語sn出現(xiàn)的概率,其中,其中,f(s1,s2,…,sn)為包含詞語s1,s2,…,sn在的句子的數(shù)量,f(s1)為包含詞語s1的句子的數(shù)量,f(s2)為包含詞語s2的句子的數(shù)量,…,f(sn)為包含詞語sn的句子的數(shù)量,f表示句子總數(shù);(2)對于給定的閾值a1,若滿足a(s1,s2,…,sn)>a1,則確定w是復(fù)合詞語。本優(yōu)選實施例在獲取領(lǐng)域概念前,首先對語料庫中的復(fù)合詞語進(jìn)行提取,將其加入領(lǐng)域概念候選詞集合,防止在選取候選概念過程中將復(fù)合詞語的領(lǐng)域概念篩選掉,克服了以往領(lǐng)域概念獲取過程中沒有考慮復(fù)合詞語的缺陷,在復(fù)合詞語的提取過程中,提出了全新的復(fù)合詞語判定條件,獲取了準(zhǔn)確的復(fù)合詞語集合。優(yōu)選的,所述根據(jù)詞語集合獲取領(lǐng)域概念具體為:(1)預(yù)先從領(lǐng)域知識庫中選取領(lǐng)域概念作為初始領(lǐng)域概念集合dc;(2)對于詞語集合w中的詞語s,采用余弦相似度計算其語義相似度sim(s,dc),若滿足sim(s,dc)>sim1,則將s加入領(lǐng)域概念集合中,得到一次更新的領(lǐng)域概念集合,并從w集合中移除,得到更新的詞語集合,其中,sim1為給定閾值;(3)從更新的詞語集合中逐一選取詞語s,若滿足候選概念判定條件,則將s加入候選概念集合cc中;(4)對候選概念集合cc中的每個候選概念s進(jìn)行評價,獲取評價值m,選取評價值最大的前eh個詞語加入到一次更新的領(lǐng)域概念集合,得到最終的領(lǐng)域概念集合,其中eh∈[6,10]。所述候選概念判定條件具體為:(1)計算語料庫中包含詞語s的句子數(shù)量,句子數(shù)量等于組成這個詞語的各個詞語的句子數(shù)量之和:式中,f(s)表示語料庫中包含詞語s的句子數(shù)量,n表示s包含的詞語的個數(shù),si表示s包含的第i個詞語;(2)計算語料庫中詞語s與初始領(lǐng)域概念集合中的任一領(lǐng)域概念共同出現(xiàn)的句子數(shù)量:式中,f(s,dc)表示詞語s與初始領(lǐng)域概念集合中的任一領(lǐng)域概念共同出現(xiàn)的句子數(shù)量,dc表示初始領(lǐng)域概念集合中的任一領(lǐng)域概念;(3)計算詞語s的候選值z:式中,fmax(s,dc)表示詞語s與初始領(lǐng)域概念集合中某一領(lǐng)域概念共同出現(xiàn)的句子數(shù)量的最大值;若z>z1,則詞語s為候選概念,其中,z1為設(shè)定閾值。所述評價值m采用以下公式確定:本優(yōu)選實施例在獲取領(lǐng)域概念的過程中,考慮了領(lǐng)域概念的語義相似,避免了采用統(tǒng)計方法漏掉語義相似的領(lǐng)域概念,獲取的領(lǐng)域概念更為全面,在確定領(lǐng)域概念的過程中,首先確定候選概念,然后確定領(lǐng)域概念,獲取的領(lǐng)域概念更為符合領(lǐng)域特征。采用本發(fā)明智能領(lǐng)域概念自動獲取系統(tǒng)對獲取領(lǐng)域概念,當(dāng)eh取不同值時,對領(lǐng)域概念獲取準(zhǔn)確性和領(lǐng)域概念獲取時間進(jìn)行統(tǒng)計,同未采用本發(fā)明相比,產(chǎn)生的有益效果如下表所示:eh領(lǐng)域概念獲取準(zhǔn)確性提高領(lǐng)域概念獲取時間減少631%32%724%27%820%25%916%20%1015%18%最后應(yīng)當(dāng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對本發(fā)明保護(hù)范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細(xì)地說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實質(zhì)和范圍。當(dāng)前第1頁12