本發(fā)明涉及信息挖掘技術領域,特別是涉及一種新詞的識別方法及裝置。
背景技術:
隨著時代的發(fā)展與技術的進步,新詞大量出現(xiàn)已經(jīng)成為不可避免的語言現(xiàn)象,新詞在一定程度上是指最近特別流行并興起的詞,如“老九門”、“藍瘦”、“香菇”、“怒路癥”等。新詞識別是自然語言處理、自動分詞、信息檢索、詞典編纂以及機器翻譯等領域的一項基礎研究,從特定領域的語料庫中發(fā)現(xiàn)的新詞可以豐富人類語言知識,幫助解決一些歧義切分的問題。
現(xiàn)有的基于統(tǒng)計的新詞識別的方法,先通過統(tǒng)計特征提取候選新詞,然后利用語言知識排除不是新詞的詞。具體的,先對文本進行分詞提取語料庫中所有的候選新詞,然后通過對分詞后的詞每個候選新詞進行統(tǒng)計分析,根據(jù)統(tǒng)計成詞特征(比如,詞性、詞的互信息、詞的信息熵等)計算每個候選新詞的成詞程度,再根據(jù)提取符合該統(tǒng)計成詞特征的詞作為候選新詞,并對每個候選新詞的成詞程度對這些候選新詞進行排序,再最后利用語言知識排除這些候選新詞排序中不是新詞的詞,得到新詞的排序,并提取新詞。
但是,現(xiàn)有的基于統(tǒng)計的新詞識別方法,需要對語料庫中的每個候選新詞進行成詞特征計算,并根據(jù)成詞特征計算到的成詞程度來識別新詞,但利用所有語料的數(shù)據(jù)進行計算,籠統(tǒng)的識別語料進行提取,導致新詞識別的準確率不高。
技術實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種新詞的識別方法及裝置,提高新詞識別的準確率。具體技術方案如下:
本發(fā)明實施例公開了一種新詞的識別方法,所述方法包括:
獲取待處理語料庫中當前時間點之前的第一預設時間段內的語料,和所述待處理語料庫中除所述第一預設時間段內的語料之外的剩余語料;
根據(jù)n-gram語言模型獲取所述第一預設時間段內的語料的候選新詞,所述n-gram語言模型表征組成所述候選新詞的字的個數(shù);
計算所述候選新詞在所述第一預設時間段內的語料中的成詞特征,得到所述候選新詞的第一成詞程度;
計算所述候選新詞在所述剩余語料中的成詞特征,得到所述候選新詞的第二成詞程度;
根據(jù)所述第一成詞程度和所述第二成詞程度,計算所述候選新詞的新穎程度;
根據(jù)所述第一成詞程度和所述新穎程度,計算所述候選新詞的衡量度,并對所述衡量度進行排序,識別所述候選新詞中的新詞。
可選的,所述成詞特征包括:互信息,信息熵,孤立度中的一種或多種,
所述計算所述候選新詞在所述第一預設時間段內的語料中的成詞特征,得到所述候選新詞的第一成詞程度,包括:
根據(jù)所述第一預設時間段內的互信息、信息熵和孤立度,得到所述候選新詞的第一成詞程度;
所述計算所述候選新詞在所述剩余語料中的成詞特征,得到所述候選新詞的第二成詞程度,包括:
根據(jù)所述剩余語料中的互信息、信息熵和孤立度,得到所述候選新詞的第二成詞程度。
可選的,所述根據(jù)所述第一預設時間段內互信息、信息熵和孤立度,得到所述候選新詞的第一成詞程度,包括:
根據(jù)公式:
d1=i1*h1*logc1
得到所述候選新詞的第一成詞程度,其中,d1表示所述候選新詞的第一成詞程度,i1表示所述候選新詞的在所述第一預設時間段內的語料中的互信息,且i1為除0以外的自然數(shù),h1表示所述候選新詞在所述第一預設時間段內的語料中的信息熵,且h1為除0以外的自然數(shù),c1表示所述候選新詞在所述第一預設時間段內的語料中的孤立度,且c1為除0以外的自然數(shù);
相應的,所述根據(jù)所述剩余語料中的互信息、信息熵和孤立度,得到所述候選新詞的第二成詞程度,包括:
根據(jù)公式:
d2=i2*h2*logc2
得到所述候選新詞的第二成詞程度,其中,d2表示所述候選新詞的第二成詞程度,i2表示所述候選新詞在所述剩余語料中的互信息,且i2為除0以外的自然數(shù),h2表示所述候選新詞在所述剩余語料中的信息熵,且h2為除0以外的自然數(shù),c2表示所述候選新詞在所述剩余語料中的孤立度,且c2為除0以外的自然數(shù)。
可選的,所述根據(jù)所述第一成詞程度和所述第二成詞程度,計算所述候選新詞的新穎程度,包括:
計算所述第一成詞程度和所述第二成詞程度的比值,得到所述候選新詞的新穎程度。
可選的,所述計算所述第一成詞程度和所述第二成詞程度的比值,得到所述候選新詞的新穎程度,包括:
根據(jù)公式:
得到所述候選新詞的新穎程度,其中,n表示所述候選新詞的新穎程度,d1表示所述候選新詞在所述第一預設時間段內的語料中的第一成詞程度,d2表示所述候選新詞在所述剩余語料中的第二成詞程度。
可選的,所述根據(jù)所述第一成詞程度和所述新穎程度,計算所述候選新詞的衡量度,包括:
根據(jù)公式:
t=d1n
計算所述候選新詞的衡量度,其中,t表示所述候選新詞的衡量度,d1表示所述候選新詞的第一成詞程度,n表示所述候選新詞的新穎程度;
對所述衡量度進行排序,得到所述候選新詞的重要程度;
根據(jù)所述重要程度識別所述候選新詞中的新詞。
本發(fā)明實施例還公開了一種新詞的識別裝置,所述裝置包括:
第一獲取模塊,用于獲取待處理語料庫中當前時間點之前的第一預設時間段內的語料,和所述待處理語料庫中除所述第一預設時間段內的語料之外的剩余語料;
第二獲取模塊,用于根據(jù)n-gram語言模型獲取所述第一預設時間段內的語料的候選新詞,所述n-gram語言模型表征組成所述候選新詞的字的個數(shù);
第一計算模塊,用于計算所述候選新詞在所述第一預設時間段內的語料中的成詞特征,得到所述候選新詞的第一成詞程度;
第二計算模塊,用于計算所述候選新詞在所述剩余語料中的成詞特征,得到所述候選新詞的第二成詞程度;
第三計算模塊,用于根據(jù)所述第一成詞程度和所述第二成詞程度,計算所述候選新詞的新穎程度;
提取模塊,用于根據(jù)所述第一成詞程度和所述新穎程度,計算所述候選新詞的衡量度,并對所述衡量度進行排序,識別所述候選新詞中的新詞。
可選的,所述成詞特征包括:互信息,信息熵,孤立度中的一種或多種,
所述第一計算模塊,包括:
第一計算子模塊,用于根據(jù)所述第一預設時間段內的互信息、信息熵和孤立度,得到所述候選新詞的第一成詞程度;
所述第二計算模塊,包括:
第二計算子模塊,用于根據(jù)所述剩余語料中的互信息、信息熵和孤立度,得到所述候選新詞的第二成詞程度。
可選的,所述第一計算子模塊,包括:
第一計算單元,用于根據(jù)公式:
d1=i1*h1*logc1
得到所述候選新詞的第一成詞程度,其中,d1表示所述候選新詞的第一成詞程度,i1表示所述候選新詞的在所述第一預設時間段內的語料中的互信息,且i1為除0以外的自然數(shù),h1表示所述候選新詞在所述第一預設時間段內的語料中的信息熵,且h1為除0以外的自然數(shù),c1表示所述候選新詞在所述第一預設時間段內的語料中的孤立度,且c1為除0以外的自然數(shù);
相應的,所述第二計算子模塊,包括:
第二計算單元,用于根據(jù)公式:
d2=i2*h2*logc2
得到所述候選新詞的第二成詞程度,其中,d2表示所述候選新詞的第二成詞程度,i2表示所述候選新詞在所述剩余語料中的互信息,且i2為除0以外的自然數(shù),h2表示所述候選新詞在所述剩余語料中的信息熵,且h2為除0以外的自然數(shù),c2表示所述候選新詞在所述剩余語料中的孤立度,且c2為除0以外的自然數(shù)。
可選的,所述第三計算模塊,包括:
第三計算子模塊,用于計算所述第一成詞程度和所述第二成詞程度的比值,得到所述候選新詞的新穎程度。
可選的,所述第三計算子模塊,包括:
第三計算單元,用于根據(jù)公式:
得到所述候選新詞的新穎程度,其中,n表示所述候選新詞的新穎程度,d1表示所述候選新詞在所述第一預設時間段內的語料中的第一成詞程度,d2表示所述候選新詞在所述剩余語料中的第二成詞程度。
可選的,所述提取模塊,包括:
第四計算子模塊,用于根據(jù)公式:
t=d1n
計算所述候選新詞的衡量度,其中,t表示所述候選新詞的衡量度,d1表示所述候選新詞的第一成詞程度,n表示所述候選新詞的新穎程度;
排序子模塊,用于對所述衡量度進行排序,得到所述候選新詞的重要程度;
提取子模塊,用于根據(jù)所述重要程度識別所述候選新詞中的新詞。
本發(fā)明實施例提供的一種新詞的識別方法及裝置,先通過將待處理語料庫的語料進行分段,分為當前時間點之前的第一預設時間段內的語料,和除第一預設時間段內的語料之外的剩余語料,并將第一預設時間段內的語料中的詞作為候選新詞;然后分別計算候選新詞在第一預設時間段內的語料中,和剩余語料中的成詞特征,得到候選新詞的第一成詞程度和第二成詞程度;再根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度;最后根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,并對衡量度進行排序,識別候選新詞中的新詞。相對于現(xiàn)有的識別待處理語料庫中的每個候選新詞的方法,本發(fā)明通過分段識別語料中的詞,即識別第一預設時間段內的語料中的詞,考慮了候選新詞的新穎程度,從而提高了新詞識別的準確率。當然,實施本發(fā)明的任一產(chǎn)品或方法并不一定需要同時達到以上所述的所有優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種新詞的識別方法的一種流程示意圖;
圖2為本發(fā)明實施例提供的一種新詞的識別方法的另一種流程示意圖;
圖3為本發(fā)明實施例提供的一種新詞的識別裝置的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
新詞識別主要包括兩項具體任務:(1)候選新詞的識別以及垃圾字串的過濾;(2)新詞詞性的詞性識別。當前,國內外開展的研究工作主要圍繞第一個方面進行,對于新詞詞性的識別還有很多工作值得進一步深入,本發(fā)明也將圍繞第一個方面展開。而候選新詞的識別是基于候選新詞的類型,例如,視頻行業(yè)垂直中文網(wǎng)站,常見的新詞類型主要有如下形式:人名(如:a生前:積極對抗病魔撰寫治病經(jīng)歷,人名:a);地名(如:美國阿拉巴馬州女子監(jiān)獄三成獄警性侵女囚,地名:阿拉巴馬州);機構名(如:如何評價馭勢科技這個公司?機構名:馭勢科技);劇名(如:一馬換三羊第5集預告,劇名:一馬換三羊);歌名(如:萌妹b喊麥,求這個主播名字,歌名:b);游戲名(如:c最強坑隊友之劍圣打野攻略。游戲名:c);菜名(如:家常主食大全之雞絲涼面,菜名:雞絲面);名詞(如:有錢任性高富帥霸氣秒殺碰瓷團伙,新詞:高富帥);動詞(如:快遞哥月入三萬這絕對不是扯淡,新詞:扯淡);簡稱(如:d奇談動畫講堂不明覺厲的英聯(lián)邦,新詞:不明覺厲);形容詞(如:乖萌e變身臥底達人逼瘋f求放過,新詞:乖萌)等。對于上述的各類新詞的發(fā)現(xiàn),人名、地名和機構名可以通過實體識別動態(tài)完成;對于剩余類別,主要是通過對大量的語料使用新詞識別算法識別出來。
目前新詞識別的主要算法分為兩類,基于規(guī)則的方法和基于統(tǒng)計的方法?;谝?guī)則的方法利用構詞學原理、配合語義信息或詞性信息來構造模板,然后通過匹配來發(fā)現(xiàn)新詞。基于統(tǒng)計的方法是通過對語料中的詞條組成或特征信息進行統(tǒng)計來識別新詞。基于規(guī)則的方法準確率高,針對性強,但手工編寫和維護規(guī)則比較困難,且規(guī)則一般是領域相關的,所以適應性和移植性比較差;而基于統(tǒng)計方法的靈活、適應性強,可移植性好。因此,本發(fā)明采用基于統(tǒng)計的方法識別新詞,并且提出了新穎度的概念,能有效提高真正意思上新詞的識別,同時結合一些有效規(guī)則和語言知識,能有效的提取各種新詞,并且可以通過不同特征的排序方式,獲取不同類型的新詞。具體過程如下:
參見圖1,圖1為本發(fā)明實施例提供的一種新詞的識別方法的一種流程示意圖,包括如下步驟:
s101,獲取待處理語料庫中當前時間點之前的第一預設時間段內的語料,和待處理語料庫中除第一預設時間段內的語料之外的剩余語料。
具體的,先獲取待處理語料庫,然后,對待處理語料庫進行分段,分為當前時間點之前的第一預設時間段內的語料,和除第一預設時間段內的語料之外的剩余語料。例如,將待處理語料庫的語料劃分為當前時間點之前最近n個月內的語料,和最近n個月之前的所有語料,這里,根據(jù)實際情況確定分段的時間點。
s102,根據(jù)n-gram語言模型獲取第一預設時間段內的語料的候選新詞,n-gram語言模型表征組成候選新詞的字的個數(shù)。
具體的,n-gram(n元語法)是計算機語言學中經(jīng)常使用到的統(tǒng)計模型,是大詞匯連續(xù)語言識別中常用的一種語言模型,對中文而言,稱之為漢語語言模型(clm,chineselanguagemodel)。該模型基于這樣一種假設,第n個詞的出現(xiàn)只與前面n-1個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現(xiàn)概率的乘積。這些概率可以通過直接從語料中統(tǒng)計n個詞同時出現(xiàn)的次數(shù)得到。例如,要對視頻垂直行業(yè)的語料庫進行新詞識別,那么,先獲取視頻垂直行業(yè)的語料一份,并對語料進行清洗、過濾。為方便描述,設句子由w=(w1,w2……wn)構成,其中wn表示句子中的第n個詞。如需要識別出n元的詞語,則需要生成n+1元詞串,因為需要計算n元詞的前接及后接成分,如需要識別三元詞,則需要抽取所有的四元詞及對應詞頻,抽取過程比較簡單,順利遍歷一遍語料即可統(tǒng)計出所有n+1元詞組及詞頻。
由于真正意義上的新詞應該是指最近特別流行并興起的詞因此,本方案考慮了詞的新穎程度,即將語料庫進行分段,并提取當前時間點之前的第一預設時間段內的語料的候選新詞,與現(xiàn)有的對所有語料的數(shù)據(jù)進行計算,籠統(tǒng)的識別語料進行提取,極大的提高了新詞識別的準確率。
s103,計算候選新詞在第一預設時間段內的語料中的成詞特征,得到候選新詞的第一成詞程度。
具體的,候選新詞的第一成詞程度是通過計算候選新詞的在第一預設時間段內的語料中的成詞特征得到的,計算候選新詞在第一預設時間段內的語料中的成詞特征,這里的成詞特征包括候選新詞的互信息、信息熵及孤立度等。計算成詞特征反映了候選新詞在第一預設時間段內的語料中的內部凝固程度、自由運用程度等特征,可以提高候選新詞作為最終識別的新詞的重要度量。
s104,計算候選新詞在剩余語料中的成詞特征,得到候選新詞的第二成詞程度。
具體的,候選新詞的第一成詞程度是通過計算候選新詞的剩余語料中的成詞特征得到的,計算候選新詞在剩余語料中的成詞特征,這里的成詞特征包括候選新詞的互信息、信息熵及孤立度等。計算成詞特征反映了候選新詞在剩余語料中的內部凝固程度、自由運用程度等特征,可以提高候選新詞作為最終識別的新詞的重要度量。
s105,根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度。
具體的,由于在現(xiàn)有的方法中,利用語料庫中的所有數(shù)據(jù)計算候選新詞的成詞特征,得到的是一批字典中沒有的詞,但并不是真正意義上的新詞,因為并沒有引入時間相關的變量。真正意義上的新詞應該是指最近特別流行并興起的詞,為有效提取這類新詞,本方案通過按時間將語料分為兩個部分,通過計算候選新詞在這兩個部分中的成詞特征,得到第一成詞程度和第二成詞程度,然后根據(jù)第一成詞程度和第二成詞程度來衡量候選新詞的新穎程度,極大的提高了新詞識別的準確率。
s106,根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,并對衡量度進行排序,識別候選新詞中的新詞。
具體的,先通過第一成詞程度與第二成詞程度的比值來衡量候選新詞的新穎程度,然后綜合候選新詞的新穎程度和第一成詞程度得到新詞的衡量度,并根據(jù)衡量度對候選新詞排序,當?shù)谝怀稍~程度與第二成詞程度的比值越大新穎程度越大時,根據(jù)衡量度從大到小的排序選擇前n個詞作為最后識別的新詞,也可以選擇所有大于閾值的候選新詞作為新詞,當?shù)谝怀稍~程度與第二成詞程度的比值越小新穎程度越大時,根據(jù)衡量度從小到大的排序選擇前n個詞作為最后識別的新詞,也可以選擇所有小于閾值的候選新詞作為新詞。
由此可見,通過本發(fā)明實施例提供的一種新詞的識別方法,先通過將待處理語料庫的語料進行分段,分為當前時間點之前的第一預設時間段內的語料,和除第一預設時間段內的語料之外的剩余語料,并將第一預設時間段內的語料中的詞作為候選新詞;然后分別計算候選新詞在第一預設時間段內的語料中,和剩余語料中的成詞特征,得到候選新詞的第一成詞程度和第二成詞程度;再根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度;最后根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,并對所述衡量度進行排序,識別所述候選新詞中的新詞,相對于現(xiàn)有的識別待處理語料庫中的每個候選新詞的方法,本發(fā)明通過分段識別語料中的詞,即識別第一預設時間段內的語料中的詞,考慮了候選新詞的新穎程度,從而提高了新詞識別的準確率。
在本發(fā)明一個可選的實施例中,成詞特征包括:互信息,信息熵,孤立度中的一種或多種。
互信息是信息論理一種有用的信息度量,它可以看成是一個隨機變量中包含的關于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性。
根據(jù)公式:
計算候選新詞中字與字之間的互信息,其中,i(x,y)表示隨機變量x,y的互信息,p(x,y)表示隨機變量x,y的聯(lián)合分布,p(x)表示隨機變量x的邊緣分布,p(y)表示隨機變量y的邊緣分布??梢姡バ畔⑹锹?lián)合分布與邊緣分布乘積的相對熵。其中,對于二元詞x1x2,則直接計算i(x1,x2),對于三元詞x1x2x3,分別計算i(x1x2,x3)、i(x1x2,x3)和i(x1x3,x2),對于n元詞以此類推。
由于中文詞與詞之間沒有特殊符號,所以任何連續(xù)的字符段都有可能成詞。本發(fā)明就基于任何字符段都能成詞的原則,對任何連續(xù)的字符段都考慮其成詞程度?,F(xiàn)有的方法對于成詞程度的度量主要有兩個方面:1、內部凝固程度;2、自由運用程度。其中,內部凝固程度主要衡量詞的內部結構。通常,詞頻往往是成詞最直觀的因素,然后通過設置詞頻閾值來提取字符段,超過該閾值則認為是合理的詞。但是,僅僅考慮詞頻是不夠的,例如在視頻行業(yè)中文網(wǎng)站,“集預告”出現(xiàn)次數(shù)遠遠大于“預告片”(因為視頻行業(yè)有大量“第x集預告”),但“預告片”是詞,“集預告”不是詞,所以使用詞頻來衡量詞的內部凝固度是不合適的。本發(fā)明采用互信息的方法衡量詞的內部凝固程度,互信息是能夠有效的表示兩個變量間的緊密程度。例如二元詞“漂亮”,設p(“漂”)為“漂”在語料中出現(xiàn)的概率,p(“亮”)為“亮”在語料中出現(xiàn)的概率,p(“漂亮”)為“漂亮”在語料中出現(xiàn)的概率,則“漂”和“亮”的互信息可以表示為:
i(“漂”,“亮”)=p(“漂”)×p(“亮”)/p(“漂亮”)。
可見,通過互信息的方法衡量詞的內部凝固程度,使得計算結果更加準確。
通過計算候選新詞的互信息之后,如果僅依靠詞的內部凝固度作為成詞標準,則“臥虎藏”也能單獨成詞,因為這三個字總是隨著“臥虎藏龍”一起出現(xiàn),所以緊密度高,但“臥虎藏龍”才是想要的詞。通過分析發(fā)現(xiàn),之所以“臥虎藏”不能成詞是因為該字符串后接的字都是“龍”,此時它的后接部分基本固定,不能跟其他字搭配使用,即自由運用程度低。同理還要考慮他的前接成分是否具有該特性。而信息熵能反映一個變量的結果帶來的信息量,即一個事情確定性的度量,如果越確定,則信息熵越小,反之越大。信息熵這個詞是c.e.shannon從熱力學借用過來的。熱力學中的熱熵是表示分子狀態(tài)混亂程度的物理量,香農(nóng)用信息熵的概念來描述信源的不確定度。信息熵可以檢測一個詞靈活使用的程度,如上面的“臥虎藏”,如果后接字只有“龍”,則其后接詞完全確定,根據(jù)信息熵的定義及計算公式,其對應的信息熵為0。需要說明的是,對于信息熵為0的詞,在識別新詞的過程中,會將該詞排出。
對于信息熵的定義如下:若信源符號有n種取值:u1…ui…un,對應概率為:p1…pi…pn,且各種符號的出現(xiàn)彼此獨立,這時,信源的平均不確定性應當為單個符號不確定性的統(tǒng)計平均值(e),可稱為信息熵,即:
其中,h(u)表示信息熵,pi表示信源符號ui對應的概率,e[-logpi]表示單個符號不確定性的統(tǒng)計平均值,即信源的平均不確定性。
在新詞的識過程中,取hp、hs分別為詞的上文熵和下文熵,以hp為例,則pi為候選新詞第i個上文字出現(xiàn)的概率,計算公式如下:
其中,pi為候選新詞第i個上文字出現(xiàn)的概率,ni為第i個上文字出現(xiàn)的次數(shù)。
通過計算候選新詞的信息熵之后,如果直接使用上述信息熵會存在不少問題,例如在視頻行業(yè)中,會存在大量以“高清版”結尾的標題,這樣“高清版”的hs則會很低,因為緊接其后的字符大部分是句號或者換行,但“高清版”卻是個很好的詞。為了處理這種情況,引入了一種特殊機制,將每一個標點符號都作為不同的一個上下文,即相同標點符號也視為多個分別指出現(xiàn)一次的符號,這樣“高清版”的下文熵就會大大增加,也符合其構詞的特點。本發(fā)明中,采用hp和hs中的最小值作為候選新詞的上下文熵。
另外,本發(fā)明除了計算候選新詞的互信息和信息熵之外,還考慮了候選新詞的孤立度。由于對于一些詞的上下文經(jīng)常為空格、行首、行尾、標點等,這些特征在一定程度上體現(xiàn)了該詞的孤立程度,從成詞特征可以看出,孤立程度越高的候選新詞其成詞程度越強,而且該類詞大部分都是人名、劇名、游戲等實體性詞,應加大這類詞的成詞程度,因此本發(fā)明使用孤立度來衡量這種特征。
根據(jù)公式:
c=min(cp,cs)
計算候選新詞的孤立度。其中,c為候選新詞的孤立度,cp表示候選新詞前文是空格、行首、標點等的數(shù)量,cs表示下文是空格、行尾、標點等的數(shù)量。
計算候選新詞在第一預設時間段內的語料中的成詞特征,得到候選新詞的第一成詞程度,包括:
根據(jù)第一預設時間段內的互信息、信息熵和孤立度,得到候選新詞的第一成詞程度;
計算候選新詞在剩余語料中的成詞特征,得到候選新詞的第二成詞程度,包括:
根據(jù)剩余語料中的互信息、信息熵和孤立度,得到候選新詞的第二成詞程度。
具體的,本發(fā)明通過分別計算候選新詞在第一預設時間段內的語料中,和剩余語料中的成詞特征,得到候選新詞的第一成詞程度和第二成詞程度,在成詞特征的計算中考慮了候選新詞的互信息,信息熵和孤立度,有效的提高了候選新詞成詞程度的準確性。如果單獨的計算其中一種特征,或者其中兩種特征來得到候選新詞的成詞程度,最終也能根據(jù)成詞程度識別出新詞,只是識別的準確率相對同時考慮這三種成詞特征較低而已。例如,在視頻行業(yè)垂直網(wǎng)站,存在一些由極為生僻的字組成的沒有意義的噪音詞,如“尛尛”,該詞的內部凝固程度特別高,自由運動度也不低,但該詞并不是很理想的詞。對于有些歌名或劇名,在視頻行業(yè)垂直網(wǎng)站往往前后都是特殊的符號,如包含在書名號或雙引號中,所以其前后的字符變化極少,即信息熵極少,但這類詞確實是好詞,所以對于該類詞需要做些特殊處理,例如加強書名號和雙引號對信息熵的貢獻量,提升該類詞的成詞程度。再者,互信息只能衡量兩個變量之間的緊密度,對于二元以上的詞組,如何劃分也極為重要,本發(fā)明使用了全拆分取乘積的方法,有效的解決了該類問題。同時,可以通過不同特征的排序方式,獲取不同類型的新詞。
在本發(fā)明實施例中,根據(jù)第一預設時間段內互信息、信息熵和孤立度,得到候選新詞的第一成詞程度,包括:
根據(jù)公式:
d1=i1*h1*logc1
得到候選新詞的第一成詞程度,其中,d1表示候選新詞的第一成詞程度,i1表示候選新詞的在第一預設時間段內的語料中的互信息,且i1為除0以外的自然數(shù),h1表示候選新詞在第一預設時間段內的語料中的信息熵,且h1為除0以外的自然數(shù),c1表示候選新詞在第一預設時間段內的語料中的孤立度,且c1為除0以外的自然數(shù);這里,i1、h1和c1都為除0以外的自然數(shù),由于,當其中任何一個成詞特征為0時,所計算的成詞程度都為0,成詞程度為0的候選新詞不能被作為新詞而被識別,因此對于這種情況,在計算的過程中直接會將成詞特征為0的結果排除掉。
相應的,根據(jù)剩余語料中的互信息、信息熵和孤立度,得到候選新詞的第二成詞程度,包括:
根據(jù)公式:
d2=i2*h2*logc2
得到候選新詞的第二成詞程度,其中,d2表示候選新詞的第二成詞程度,i2表示候選新詞在剩余語料中的互信息,且i2為除0以外的自然數(shù),h2表示候選新詞在剩余語料中的信息熵,且h2為除0以外的自然數(shù),c2表示候選新詞在剩余語料中的孤立度,且c2為除0以外的自然數(shù)。這里,i2、h2和c2都為除0以外的自然數(shù),由于,當其中任何一個成詞特征為0時,所計算的成詞程度都為0,成詞程度為0的候選新詞不能被作為新詞而被識別,因此對于這種情況,在計算的過程中直接會將成詞特征為0的結果排除掉。
在本發(fā)明實施例中,根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度,包括:
計算第一成詞程度和第二成詞程度的比值,得到候選新詞的新穎程度。
這里,由于第一預設時間段內的語料和剩余語料中的不同,在第一預設時間段內的語料要接近當前時間段,要少于剩余語料,所以通過第一成詞程度與第二成詞程度的比值來衡量候選新詞的新穎程度。其中,第一成詞程度和第二成詞程度的比值包括第一成詞程度和第二成詞程度的比得到的值,和第二成詞程度和第一成詞程度的比得到的值,當計算第一成詞程度和第二成詞程度的比值時,比值越大,新穎程度越大;當計算第二成詞程度和第一成詞程度的比值時,比值越小,新穎程度越大。本發(fā)明以其中一種計算比值為例,計算候選新詞的新穎程度,例如計算第一成詞程度和第二成詞程度的比值,得到候選新詞的新穎程度。
具體的,計算第一成詞程度和第二成詞程度的比值,得到候選新詞的新穎程度,包括:
根據(jù)公式:
得到候選新詞的新穎程度,其中,n表示候選新詞的新穎程度,d1表示候選新詞在第一預設時間段內的語料中的第一成詞程度,d2表示候選新詞在剩余語料中的第二成詞程度。其中,d1與d2的比值越大,則候選新詞的新穎程度越大。
相應的,計算第二成詞程度和第一成詞程度的比值,得到候選新詞的新穎程度,包括:
根據(jù)公式:
得到候選新詞的新穎程度,其中,n表示候選新詞的新穎程度,d1表示候選新詞在第一預設時間段內的語料中的第一成詞程度,d2表示候選新詞在剩余語料中的第二成詞程度。其中,d2與d1的比值越小,則候選新詞的新穎程度越大。
根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,包括:
根據(jù)公式:
t=d1n
計算候選新詞的衡量度,其中,t表示候選新詞的衡量度,d1表示候選新詞的第一成詞程度,n表示候選新詞的新穎程度;
對衡量度進行排序,得到候選新詞的重要程度;這里,綜合候選新詞的新穎程度和成詞程度來對候選新詞排序,得到候選新詞的重要程度。
根據(jù)重要程度識別候選新詞中的新詞。本發(fā)明提出的新詞識別的方法,能應用到垂直視頻網(wǎng)站和其他行業(yè)中,并取得了不錯的實際效果,有效的解決了新詞、未登錄詞給詞法分詞、實體識別等任務帶來的困難。因為本發(fā)明識別的新詞在一定程度上是最近較流行的詞,所以能通過識別的新詞一定程度發(fā)現(xiàn)最近的熱點新聞事件,為一些特殊的業(yè)務服務。
另外,本發(fā)明提出的新詞的識別方法還可以應用于搜索引擎的分詞模塊,第一,通過將識別的新詞加入詞典,能有效提高分詞程序性能;第二,能識別大量的新劇名、新歌名、新人名等實體,為實體識別服務提供了基礎。通過上述兩點,提升搜索引擎的整體點擊率及用戶體驗。
參見圖2,圖2為本發(fā)明實施例提供的一種新詞的識別方法的另一種流程示意圖,由于本發(fā)明是通過分段識別語料中的詞,即將待處理語料庫的語料進行分段,分為當前時間點之前的第一預設時間段內的語料,和除第一預設時間段內的語料之外的剩余語料,并將第一預設時間段內的語料中的詞作為候選新詞,而這里的第一預設時間段內的語料是按照實際需求來劃分的,因此,本方案以一個月為例,通過將全部語料劃分為當前時間點之前一個月內的語料和除一個月內的語料之外的剩余語料來識別新詞,具體實施方式包括如下步驟:
s201,獲取語料庫中的全部語料,這里的全部語料指的是待處理語料庫中的全部語料。
s202,一個月內的語料。這里,一個月內的語料在本發(fā)明中對應的是第一預設時間段內的語料,本實施例將全部語料劃分為兩個時間段的語料,包括一個月內的語料和除一個月內的語料的剩余語料。其中,一個月內的語料是指當前時間點之前的一個月內的語料,即最近的一個月內的語料,相對于現(xiàn)有的識別待處理語料庫中的每個候選新詞的方法,本發(fā)明實施例通過識別一個月內的語料中的新詞,考慮了候選新詞的新穎程度,從而提高了新詞識別的準確率。
s203,除一個月內的語料的剩余語料,是指本發(fā)明中除第一預設時間段內的語料之外的剩余語料,這里,除一個月內的語料的剩余語料是指待處理語料庫中除當前時間點的最近一個月的語料之外的所有語料,是通過對語料庫分段得到的。
s204和s205,從語料庫中獲取一個月內的語料的n-gram,通過n-gram提取一個月內的語料中的n元詞作為候選新詞,這里的n-gram主要是提取語料庫中的候選新詞為n元詞的一種統(tǒng)計。
s206,計算候選新詞在一個月內的語料中的成詞特征,這里成詞特征包括一個月內的語料的互信息i、信息熵h和孤立度c。
s207,計算候選新詞在除一個月內的語料的剩余語料中的成詞特征,這里成詞特征包括除一個月內的語料的剩余語料的互信息i、信息熵h和孤立度c。
s208,成詞程度d1。這里,成詞程度d1是通過計算候選新詞在一個月內的語料中的成詞特征得到的。
s209,成詞程度d2。這里,成詞程度d2是通過計算候選新詞在除一個月內的語料的剩余語料中的成詞特征得到的。
s210,候選新詞的新穎程度n。這里,新穎程度n是通過成詞程度d1與成詞程度d2的比值計算得到的,比值越大,說明新穎程度越新。
s211,新詞衡量度t。這里,新詞衡量度t是通過成詞程度d1與新穎程度n的乘積計算的得到的,乘積越大,新詞衡量度t越大,即新詞被識別的概率越大。
最后,通過對衡量度進行排序,并過濾字典中已經(jīng)存在的候選新詞,即可得到一批新詞,這里,也可以通過給予各成詞特征不同的權重,從而選出側重點不同的詞,例如,提高互信息的權重,那些量少但緊密度極高的詞會優(yōu)先選出(例如:“葡萄”);提高孤立度的權重,那些量大的詞會優(yōu)先選出(例如:“我們”)。通過上述方法得到的是一批字典中沒有的詞,但并不是真正意義上的新詞,因為并沒有引入時間相關的變量。由于真正意義上的新詞應該是指最近特別流行并興起的詞,例如“怒路癥”、“老九門”、“藍瘦”等,為有效提取這類新詞,通過按時間將語料分為兩個部分,本發(fā)明實施例用當前時間點的一個月內的語料產(chǎn)生候選新詞,計算候選新詞在這一個月的成詞程度d1,然后計算這些候選新詞在除一個月內的語料的剩余語料中的成詞程度d2,通過d1與d2的比值來衡量候選新詞的新穎程度n,最后綜合候選新詞的新穎程度和成詞程度來對候選新詞排序,從而提取新詞。這里,由于一個月內的語料更接近當前時間點,提取的候選新詞更有可能成為真正意義上的新詞,所以,通過識別一個月內的語料產(chǎn)生候選新詞,很大程度上提高了新詞識別的準確率。
參見圖3,圖3為本發(fā)明實施例提供的一種新詞的識別裝置的結構示意圖,包括如下模塊:
第一獲取模塊301,用于獲取待處理語料庫中當前時間點之前的第一預設時間段內的語料,和待處理語料庫中除第一預設時間段內的語料之外的剩余語料;
第二獲取模塊302,用于根據(jù)n-gram語言模型獲取第一預設時間段內的語料的候選新詞,n-gram語言模型表征組成候選新詞的字的個數(shù);
第一計算模塊303,用于計算候選新詞在第一預設時間段內的語料中的成詞特征,得到候選新詞的第一成詞程度;
第二計算模塊304,用于計算候選新詞在剩余語料中的成詞特征,得到候選新詞的第二成詞程度;
第三計算模塊305,用于根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度;
提取模塊306,用于根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,并對衡量度進行排序,識別候選新詞中的新詞。
進一步的,成詞特征包括:互信息,信息熵,孤立度中的一種或多種,
第一計算模塊303,包括:
第一計算子模塊,用于根據(jù)第一預設時間段內的互信息、信息熵和孤立度,得到候選新詞的第一成詞程度;
第二計算模塊304,包括:
第二計算子模塊,用于根據(jù)剩余語料中的互信息、信息熵和孤立度,得到候選新詞的第二成詞程度。
進一步的,第一計算子模塊,包括:
第一計算單元,用于根據(jù)公式:
d1=i1*h1*logc1
得到候選新詞的第一成詞程度,其中,d1表示候選新詞的第一成詞程度,i1表示候選新詞的在第一預設時間段內的語料中的互信息,且i1為除0以外的自然數(shù),h1表示候選新詞在第一預設時間段內的語料中的信息熵,且h1為除0以外的自然數(shù),c1表示候選新詞在第一預設時間段內的語料中的孤立度,且c1為除0以外的自然數(shù);
相應的,第二計算子模塊,包括:
第二計算單元,用于根據(jù)公式:
d2=i2*h2*logc2
得到候選新詞的第二成詞程度,其中,d2表示候選新詞的第二成詞程度,i2表示候選新詞在剩余語料中的互信息,且i2為除0以外的自然數(shù),h2表示候選新詞在剩余語料中的信息熵,且h2為除0以外的自然數(shù),c2表示候選新詞在剩余語料中的孤立度,且c2為除0以外的自然數(shù)。
進一步的,第三計算模塊305,包括:
第三計算子模塊,用于計算第一成詞程度和第二成詞程度的比值,得到候選新詞的新穎程度。
進一步的,第三計算子模塊,包括:
第三計算單元,用于根據(jù)公式:
得到候選新詞的新穎程度,其中,n表示候選新詞的新穎程度,d1表示候選新詞在第一預設時間段內的語料中的第一成詞程度,d2表示候選新詞在剩余語料中的第二成詞程度。
進一步的,提取模塊306,包括:
第四計算子模塊,用于根據(jù)公式:
t=d1n
計算候選新詞的衡量度,其中,t表示候選新詞的衡量度,d1表示候選新詞的第一成詞程度,n表示候選新詞的新穎程度;
排序子模塊,用于對衡量度進行排序,得到候選新詞的重要程度;
提取子模塊,用于根據(jù)重要程度識別候選新詞中的新詞。
由此可見,本發(fā)明實施例提供的一種新詞的識別裝置,先通過將待處理語料庫的語料進行分段,分為當前時間點之前的第一預設時間段內的語料,和除第一預設時間段內的語料之外的剩余語料,并將第一預設時間段內的語料中的詞作為候選新詞;然后分別計算候選新詞在第一預設時間段內的語料中,和剩余語料中的成詞特征,得到候選新詞的第一成詞程度和第二成詞程度;再根據(jù)第一成詞程度和第二成詞程度,計算候選新詞的新穎程度;最后根據(jù)第一成詞程度和新穎程度,計算候選新詞的衡量度,并對所述衡量度進行排序,識別所述候選新詞中的新詞,提高了新詞識別的準確率。
需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。