專利名稱::一種中文網(wǎng)頁新詞自動獲取方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,特別是涉及一種獲取新詞的方法。
背景技術(shù):
:隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展和推廣,網(wǎng)絡(luò)數(shù)據(jù)急劇膨脹,這些數(shù)據(jù)具有更新速度快、數(shù)據(jù)量龐大、數(shù)據(jù)組織形式不規(guī)范等特點,但也蘊藏著極多的有價值信息。另外由于人們相互交流需求的增加,網(wǎng)絡(luò)成為信息發(fā)布、傳播的平臺。由此產(chǎn)生的一些網(wǎng)絡(luò)用語、熱門詞匯,被廣泛的運用到了實際生活中,影響著人們的生活,一些新詞逐漸被人們所接受,擴充了漢語詞匯。這些新出現(xiàn)的詞匯呈現(xiàn)出產(chǎn)生速度快、覆蓋領(lǐng)域廣的特點,往往散落在海量的網(wǎng)絡(luò)文本中,靠人工去查看和檢索是不可想象的,因此亟需一個可以檢測網(wǎng)絡(luò)數(shù)據(jù)并自動發(fā)現(xiàn)新詞的方法。為了能夠獲取新詞,現(xiàn)有技術(shù)提供了如下的三種方法第一種方法,獲取搜索引擎的查詢關(guān)鍵詞或聊天數(shù)據(jù),統(tǒng)計候選新詞的頻率信息,并結(jié)合基于候選新詞上下文規(guī)則的分析,從候選新詞中獲取新詞;第二種方法,利用搜索引擎對候選新詞進行精確搜索和模糊搜索,獲取搜索結(jié)果,根據(jù)結(jié)果從候選新詞中獲取新詞;第三種方法,將候選新詞與已有詞典中的詞進行比較,確定詞典中不存在的候選新詞為新詞。但是,現(xiàn)有技術(shù)至少存在以下問題第一種方法搜索引擎的查詢關(guān)鍵詞和聊天記錄這樣的用戶數(shù)據(jù)并不容易獲取,而且使用不當還會有泄露用戶隱私的問題;第二種方法在搜索引擎中對每一個候選新詞進行搜索,算法效率低,適用性差;第三種方法存在時效性低以及新詞查找范圍不全的缺陷。另外,由于中文自身的特點,詞與詞之間沒有明確的邊界,識別中文新詞更加困難。目前獲取中文新詞的方法,都以中文文本的自動分詞為基礎(chǔ),大多采用概率詞法分析系統(tǒng)ICTCLAS或是類似的基于詞典查找的方法切分中文文本內(nèi)容得到詞。但是這種基于詞典查找的方法創(chuàng)建和維護詞典困難,對于要識別的新詞沒有處理能力。綜上所述,上述各種方法均存在新詞獲取方法效率低、實時性不足、新詞查找范圍不全或?qū)χ形闹С中圆畹娜毕荨?br/>發(fā)明內(nèi)容本發(fā)明的目的在于克服已有技術(shù)的不足之處,提供一種中文網(wǎng)頁新詞自動獲取的方法,該方法擴大了獲取新詞的范圍,中文分詞方法簡便易行,處理效率高,并提高了新詞發(fā)現(xiàn)的準確率和科學性。為實現(xiàn)上述目的,本發(fā)明提供了一種中文網(wǎng)頁新詞自動獲取的方法,其特征在于,首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫;所述原始數(shù)據(jù)庫初始設(shè)為空,用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù);所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞,以及要刪除的已用詞;設(shè)置新詞獲取周期;該方法包括以下步驟1)當新詞獲取周期到來時,從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并對該正文文本進行預(yù)處理得到句子片段;2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻,連同詞串的時間信息一并存入原始數(shù)據(jù)庫;3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留,否則從原始數(shù)據(jù)庫中刪除;詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾,最后刪除與停用詞數(shù)據(jù)庫中相同的詞串,得到初選新詞串;5)對初選新詞串的時間信息進行時序分析,得到新詞,并等待下一新詞獲取周期到來時,轉(zhuǎn)步驟1);具體包括以下步驟51)設(shè)定時序分析的開始日期s,基本時間單位g,基本時間單位數(shù)目n,時序分析閾值S;基本時間單位g取值范圍為1-15天,基本時間單位數(shù)目n取值范圍為5-30個,時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串,構(gòu)成詞串集合C;對C中每個詞串t,查看其在從s開始,g*n天內(nèi)的詞頻,得到g*n矩陣的詞頻數(shù)據(jù),對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)ai,a2,...,an;53)設(shè)評價函數(shù)f(ai+1,a》:1,!/a,+1>a,0,=陽l,<a,./0,+1,《)=54)計算n個評價函數(shù)總和S的值=£/(",+|,",),如果S>S即判定該初選新詞串為新詞,否則將該該初選新詞串刪除,等待下一新詞獲取周期到來時,轉(zhuǎn)步驟1)。為進一步提高新詞獲取的準確率,本發(fā)明基于上述方法還提出另一種中文網(wǎng)頁新詞自動獲取的方法,其特征在于,首先設(shè)置原始數(shù)據(jù)庫、停用詞數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫;所述原始數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫初始設(shè)為空,用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù);所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞,以及要刪除的已用詞;所述過濾詞數(shù)據(jù)庫用于存放在獲取過程中標識出要刪除的詞;設(shè)置新詞獲取周期;該方法包括以下步驟1)當新詞獲取周期到來時,從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并對該正文文本進行預(yù)處理得到句子片段;2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻,連同詞串的時間信息一并存入原始數(shù)據(jù)庫;3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留,否則從原始數(shù)據(jù)庫中刪除;詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾,最后刪除與停用詞數(shù)據(jù)庫和當前過濾詞數(shù)據(jù)庫中相同的詞串,得到初選新詞串;5)對初選新詞串的時間信息進行時序分析,得到候選新詞串;具體包括以下步驟51)設(shè)定時序分析的開始日期s,基本時間單位g,基本時間單位數(shù)目n,時序分析閾值S;基本時間單位g取值范圍為1-15天,基本時間單位數(shù)目n取值范圍為5-30個,時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串,構(gòu)成詞串集合C;對C中每個詞串t,查看其在從s開始,g*n天內(nèi)的詞頻,得到g*n矩陣的詞頻數(shù)據(jù),對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)ai,a2,...,an;53)設(shè)評價函數(shù)f(ai+1,a》:<formula>formulaseeoriginaldocumentpage7</formula>54)計算n個評價函數(shù)總和S的值<formula>formulaseeoriginaldocumentpage7</formula>如果S>S即判定該初選新詞串為候選新詞串,否則將該該初選新詞串刪除;,6)對步驟5)得到的候選新詞串再由人工標記為新詞或過濾詞串,將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫中,等待下一新詞獲取周期到來時,轉(zhuǎn)步驟1)。本發(fā)明的中文網(wǎng)頁新詞自動獲取方法與現(xiàn)有的技術(shù)相比,具有以下優(yōu)點1、利用易在互聯(lián)網(wǎng)上獲得的不同類型WEB數(shù)據(jù)尋找新詞?;ヂ?lián)網(wǎng)已經(jīng)滲透到人們?nèi)粘I畹姆椒矫婷?,各種網(wǎng)絡(luò)應(yīng)用方式如新聞網(wǎng)站、BBS、博客等逐漸成為信息發(fā)布、傳播的新渠道。這些網(wǎng)絡(luò)數(shù)據(jù)中包含大量的新詞。本發(fā)明中,使用網(wǎng)絡(luò)渠道獲取大規(guī)模中文文本,進行新詞的自動獲取工作,與從語料庫中尋找新詞相比具有實時性。獲取的是已公布在網(wǎng)絡(luò)上的新聞網(wǎng)站、BBS和博客的網(wǎng)頁,因此不會涉及個人隱私的問題。另外,對BBS和博客網(wǎng)頁的獲取也擴充了單一新聞網(wǎng)頁的獲取,擴大了獲取新詞的范圍。2、采用n-gram方法中文分詞。相比基于詞典查找的中文分詞方法,n-gram方法簡便易行,處理效率高,且不會遺漏任何可能的詞,另外也沒有創(chuàng)建和維護詞典的麻煩。3、根據(jù)漢語語言規(guī)則設(shè)置停用詞數(shù)據(jù)庫來過濾詞串,提高過濾的準確率;4、引入時間序列分析方法新詞的一種定義中認為,被普遍的認可、廣泛應(yīng)用的才是新詞。滿足這一特征的直接表現(xiàn)就是該詞持續(xù)了一段時間,詞頻隨時間而變化,是時間的函數(shù)。本發(fā)明中引入時間序列分析方法來考察候選新詞是否滿足廣泛應(yīng)用性。通過對詞頻變化趨勢的分析,獲得了更多信息,進一步提高新詞發(fā)現(xiàn)的準確率和科學性。5、實現(xiàn)增量學習停用詞數(shù)據(jù)庫可以不斷更新添加,使整個新詞獲取方法成為一個動態(tài)積累的過程,使準確率逐步提高。本發(fā)明還可設(shè)置過濾詞數(shù)據(jù)庫,每次詞串過濾的結(jié)果用于更新過濾詞數(shù)據(jù)庫,形成了反饋,實現(xiàn)增量學習,進一步提高新詞獲取的準確率。圖1為本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取的方法流程圖。圖2為本發(fā)明提出的另一種中文網(wǎng)頁新詞自動獲取的方法流程圖。具體實施例方式本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取方法,結(jié)合附圖及實施例詳細描述如下本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取的方法,首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫;所述原始數(shù)據(jù)庫初始設(shè)為空,用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù);所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞(還可根據(jù)需要隨時更改),以及要刪除的已用詞;設(shè)置新詞獲取周期(周期的長短可以根據(jù)實際應(yīng)用需要而定,若想獲得近期內(nèi)的新詞則可設(shè)置周期短,否則可設(shè)置周期長一些,還可根據(jù)具體具體情況作適當調(diào)整;一般設(shè)為1-30天),該方法內(nèi)容如圖1所示,包括以下步驟1)當新詞獲取周期到來時,從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并對該正文文本進行預(yù)處理得到句子片段;具體包括以下步驟11)通過共享的網(wǎng)頁爬蟲程序或RSS獲取軟件采集不同類型的網(wǎng)頁(例如利用一個共享的網(wǎng)頁爬蟲程序采集指定新聞網(wǎng)站和BBS的網(wǎng)頁,利用一個共享的RSS獲取軟件采集指定的博客網(wǎng)頁);12)利用常用的網(wǎng)頁解析軟件從網(wǎng)頁中提取正文的內(nèi)容和正文的時間信息,獲得網(wǎng)頁上的中文文本,然后(利用共享的文件存儲軟件Lemur)將該中文文本存入硬盤;上述網(wǎng)頁的采集和解析也可以利用其他的軟件,只要該軟件能完成采集網(wǎng)頁和解析網(wǎng)頁的任務(wù)就可以。13)對該中文文本進行預(yù)處理,去除網(wǎng)頁標簽、替換標識符、切分文本和去除非中文字符(因為獲得的網(wǎng)頁正文內(nèi)容往往還包含未清除干凈的網(wǎng)頁標簽、標識符等影響新詞識別的字符,所以要進行文本的預(yù)處理);具體包括131)掃描整個文本,將找到的所有網(wǎng)頁標簽(一般為成對出現(xiàn)的尖括號)及其中的內(nèi)容從文本中去除。132)掃描步驟131)得到的文本,將找到的網(wǎng)頁標識符替換成相應(yīng)的字符(網(wǎng)頁中常使用的標識符包括" "、"$"、"&"和""",分別用空格、"$"、"&"和雙引號替換;其他的網(wǎng)頁標識符也可作相應(yīng)符號替換);133)利用文本中的標點符號或回車換行符作為切分文本的標志,把步驟132)處理后的文本切分為句子片段;134)對切分后的每個句子片段進行掃描,保留在漢字編碼范圍內(nèi)的字符,刪除其他的字符(字符顯示都是按照一定的編碼方式,網(wǎng)頁中采用較多的是Unicode編碼。又因為網(wǎng)頁中的字符顯示較為雜亂,一些不可能是新詞的特殊字符會影響新詞識別的效果,漢字在Unicode中的編碼范圍是\u4e00_\u9fa5)。2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻(即相同詞串出現(xiàn)的次數(shù)),連同詞串的時間信息一并存入原始數(shù)據(jù)庫;具體包括以下步驟21)利用n-gram方法對預(yù)處理后的每個句子片段進行劃分,順次將臨近的n個漢字聚集在一起形成一個詞串(比如一句話"我愛中國",n取為2時,可以得到如下三個詞串:"我愛"、"愛中"、"中國",n可以取l、2和3,或根據(jù)需要取值,一般不超過4);22)掃描n-gram分詞得到的所有詞串,統(tǒng)計每個詞串出現(xiàn)的次數(shù),記為詞串的詞頻(例如在n-gram分詞產(chǎn)生詞串中出現(xiàn)詞串"中國"的次數(shù));23)將劃分出的所有詞串、統(tǒng)計的詞頻,以及步驟12)提取出來的正文的時間信息一起存入原始數(shù)據(jù)庫;本實施例的原始數(shù)據(jù)庫中設(shè)有兩個表,一個是文檔索引表,存放文檔信息,另一個表是詞串表,按文檔存放詞串和詞頻。原始數(shù)據(jù)庫的表結(jié)構(gòu)如下文檔索引表的結(jié)構(gòu)字段名稱字段說明Textld主鍵,自動遞增URL網(wǎng)頁的URL地址Pubdata源html的日期Content解析出的網(wǎng)頁正文內(nèi)容Type網(wǎng)頁類型,分為新聞網(wǎng)頁、BBS和博客詞串表的結(jié)構(gòu)字段名稱字段說明Wordn-gram方法劃分出的詞串Frequency該詞出現(xiàn)的頻率Articles出現(xiàn)該詞的文章,對應(yīng)上表的Textld3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留,否則從原始數(shù)據(jù)庫(詞串表)中刪除;詞頻閾值可以根據(jù)情況調(diào)整,一般取值范圍為l-10,在實施例中,可設(shè)定的詞頻閾值是1;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾,最后刪除與停用詞數(shù)據(jù)庫中相同的詞串,得到初選新詞串;具體包括以下步驟定義連續(xù)的n_l個字或字符相等的,并且詞長為n的兩個詞串稱為相鄰串(即第一個詞串的首(尾)字與第二個詞條的首(尾)字不同,其余字全部相同,如詞串"我愛"與"愛中"是相鄰串,"我愛中華人民共和"與"愛中華人民共和國"是相鄰串),如果較長的詞串中包含另一個較短的詞串,則把較長的詞串稱作父串,較短的詞串稱作子串(子串是由父串中連續(xù)若干個字符組成的,子串是相對父串而言的,如"愛中"是"愛中國"的子串);41)如果兩個相鄰串的詞頻相同,則兩個詞都被刪除,如果其中一個詞串的詞頻高于另一個,則刪除詞頻低的詞串,保留詞頻高的詞串;42)掃描步驟41)保留的詞串,比較每對子串和父串的詞頻,如果兩者的詞頻完全相同,則刪除子串,保留父串;43)將步驟42)保留的詞串用停用詞數(shù)據(jù)庫中的詞串進行過濾,得到初選新詞串;(停用詞數(shù)據(jù)庫的停用詞是根據(jù)漢語語言規(guī)則確定的字,在詞串特定位置出現(xiàn)時一定不會構(gòu)成一個有意義的詞,停用詞分為前停詞、后停詞和廣義停詞。前停詞一般出現(xiàn)在詞尾,很少出現(xiàn)在詞首,如"兒、子、然、于、邊、么、們、乎"。后停詞典與前停詞相反,很少出現(xiàn)在詞尾,如"老、阿"。廣義停詞可以根據(jù)需要設(shè)定為已有的詞或是預(yù)設(shè)定的要刪除的詞,如通用詞典或?qū)I(yè)詞典中的詞。這些前停詞、后停詞和廣義停詞構(gòu)成了停用詞數(shù)據(jù)庫;過濾的方法是;若詞串的第一個字為前停詞,則刪除該詞串。若詞串的最后一個字為后停詞,則刪除該詞串。如果一個詞串是廣義停詞,則刪除該詞串)本實施例的停用詞數(shù)據(jù)庫的表結(jié)構(gòu)字段名稱字段說明StopWord停用詞Type該停用詞的類型前停詞、后停詞或廣義停詞5)對初選新詞串的時間信息進行時序分析,得到新詞;具體包括以下步驟51)設(shè)定時序分析的開始日期s,基本時間單位g,基本時間單位數(shù)目n,時序分析閾值S?;緯r間單位g—般取值范圍為l-15天,基本時間單位數(shù)目n—般取值范圍為5-30個,時序分析閾值S—般取值范圍為0-30。(本實施例中g(shù)設(shè)為2天,n設(shè)為10個,S設(shè)為5)。52)讀出日期s的所有初選新詞串,構(gòu)成詞串集合C;對C中每個詞串t,查看其在從s開始,g*n天內(nèi)的詞頻,得到g*n矩陣的詞頻數(shù)據(jù),對該詞頻數(shù)據(jù)每g個為一組進行聚合(本實施例中采用求算術(shù)平均值的方法)得到l*n的矩陣詞頻數(shù)據(jù)ai,a2,...,an;53)設(shè)評價函數(shù)f(ai+1,a》本實施例中設(shè)置的評價函數(shù)如下<formula>formulaseeoriginaldocumentpage10</formula>54)計算n個評價函數(shù)總和S的值S-l;/(",+p",),如果S〉S即判定該初選新詞串為新詞,否則將該該初選新詞串刪除。本發(fā)明還提出另一種方法,該方法在上述方法的基礎(chǔ)上還可包括以下內(nèi)容設(shè)置過濾詞數(shù)據(jù)庫初始為空;在所述步驟4)中還包括若詞串與當前過濾詞數(shù)據(jù)庫中的詞相同,則刪除該詞串6)對步驟5)得到的新詞串再由人工標記分為新詞和過濾詞串,將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫。(過濾詞數(shù)據(jù)庫存放的是本方法每次運行經(jīng)過人機交互后確定的要過濾的詞串。這些詞串不是新詞,又很難被機器識別。過濾詞數(shù)據(jù)庫可以增量添加,可進一步提高獲取新詞的精度。)在實施例中過濾詞數(shù)據(jù)庫的表結(jié)構(gòu)為<table>tableseeoriginaldocumentpage11</column></row><table>權(quán)利要求一種中文網(wǎng)頁新詞自動獲取的方法,其特征在于,首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫;所述原始數(shù)據(jù)庫初始設(shè)為空,用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù);所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞,以及要刪除的已用詞;設(shè)置新詞獲取周期;該方法包括以下步驟1)當新詞獲取周期到來時,從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并對該正文文本進行預(yù)處理得到句子片段;2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻,連同詞串的時間信息一并存入原始數(shù)據(jù)庫;3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留,否則從原始數(shù)據(jù)庫中刪除;詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾,最后刪除與停用詞數(shù)據(jù)庫中相同的詞串,得到初選新詞串;5)對初選新詞串的時間信息進行時序分析,得到新詞,并等待下一新詞獲取周期到來時,轉(zhuǎn)步驟1);具體包括以下步驟51)設(shè)定時序分析的開始日期s,基本時間單位g,基本時間單位數(shù)目n,時序分析閾值δ;基本時間單位g取值范圍為1-15天,基本時間單位數(shù)目n取值范圍為5-30個,時序分析閾值δ取值范圍為0-30;52)讀出日期s的所有初選新詞串,構(gòu)成詞串集合C;對C中每個詞串t,查看其在從s開始,g*n天內(nèi)的詞頻,得到g*n矩陣的詞頻數(shù)據(jù),對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)a1,a2,...,an;53)設(shè)評價函數(shù)f(ai+1,ai)<mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>a</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>></mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mo>-</mo><mn>1</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo><</mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr></mtable></mfenced></mrow>54)計算n個評價函數(shù)總和S的值如果S>δ即判定該初選新詞串為新詞,否則將該初選新詞串刪除,等待下一新詞獲取周期到來時,轉(zhuǎn)步驟1)。F2009102379793C0000012.tif2.—種中文網(wǎng)頁新詞自動獲取的方法,其特征在于,首先設(shè)置原始數(shù)據(jù)庫、停用詞數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫;所述原始數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫初始設(shè)為空,用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù);所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞,以及要刪除的已用詞;所述過濾詞數(shù)據(jù)庫用于存放在獲取過程中標識出的要刪除的詞;設(shè)置新詞獲取周期;該方法包括以下步驟1)當新詞獲取周期到來時,從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并對該正文文本進行預(yù)處理得到句子片段;2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻,連同詞串的時間信息一并存入原始數(shù)據(jù)庫;3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留,否則從原始數(shù)據(jù)庫中刪除;詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾,最后刪除與停用詞數(shù)據(jù)庫和當前過濾詞數(shù)據(jù)庫中相同的詞串,得到初選新詞串;5)對初選新詞串的時間信息進行時序分析,得到候選新詞串;具體包括以下步驟51)設(shè)定時序分析的開始日期s,基本時間單位g,基本時間單位數(shù)目n,時序分析閾值S;基本時間單位g取值范圍為1-15天,基本時間單位數(shù)目n取值范圍為5-30個,時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串,構(gòu)成詞串集合C;對C中每個詞串t,查看其在從s開始,g*n天內(nèi)的詞頻,得到g*n矩陣的詞頻數(shù)據(jù),對該詞頻數(shù)據(jù)每g個為一組進行聚合得到hn的矩陣詞頻數(shù)據(jù)ai,a2,..53)設(shè)評價函數(shù)f(aw,a》:1,a,+1>",<formula>formulaseeoriginaldocumentpage3</formula>54)計算n個評價函數(shù)總和S的值S=^/"+1,",),如果S>S即判定該初選新詞串為候選新詞串,否則將該該初選新詞串刪除;,6)對步驟5)得到的候選新詞串再由人工標記為新詞或過濾詞串,將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫中,等待下一新詞獲取周期到來時,轉(zhuǎn)步驟l)。3.如權(quán)利要求1或2所述方法,其特征在于,所述步驟1)具體包括以下步驟11)通過共享的網(wǎng)頁爬蟲程序或RSS獲取軟件采集不同類型的網(wǎng)頁;12)利用常用的網(wǎng)頁解析軟件從網(wǎng)頁中提取正文的內(nèi)容和正文的時間信息,獲得網(wǎng)頁上的中文文本,然后將該中文文本存入硬盤;13)對該中文文本進行預(yù)處理,去除網(wǎng)頁標簽、替換標識符、切分文本和去除非中文字符。4.如權(quán)利要求3所述方法,其特征在于,所述步驟31)具體包括131)掃描整個文本,將找到的所有網(wǎng)頁標簽及其中的內(nèi)容從文本中去除;132)掃描步驟131)得到的文本,將找到的網(wǎng)頁標識符替換成相應(yīng)的字符;133)利用文本中的標點符號或回車換行符作為切分文本的標志,把步驟132)處理后的文本切分為句子片段;134)對切分后的每個句子片段進行掃描,保留在漢字編碼范圍內(nèi)的字符,刪除其他的字符。5.如權(quán)利要求1或2所述方法,其特征在于,所述步驟2)具體包括以下步驟21)利用n-gram方法對預(yù)處理后的每個句子片段進行劃分,順次將臨近的n個漢字聚集在一起形成一個詞串,n為1-4的整數(shù);22)掃描n-gram分詞得到的所有詞串,統(tǒng)計每個詞串的詞頻;23)將劃分出的所有詞串、統(tǒng)計的詞頻,以及步驟12)提取出來的正文的時間信息一起存入原始數(shù)據(jù)庫;所述原始數(shù)據(jù)庫中設(shè)有存放文檔信息的文檔索引表和存放詞串和詞頻的詞串表。6.如權(quán)利要求1或2所述方法,其特征在于,所述步驟4)具體包括以下步驟定義連續(xù)的n-l個字或字符相等的,并且詞長為n的兩個詞串稱為相鄰串,如果較長的詞串中包含另一個較短的詞串,則把較長的詞串稱作父串,較短的詞串稱作子串;41)如果兩個相鄰串的詞頻相同,則這兩個詞串都被刪除,如果其中一個詞串的詞頻高于另一個,則刪除詞頻低的詞串,保留詞頻高的詞串;42)掃描步驟41)保留的詞串,比較每對子串和父串的詞頻,如果兩者的詞頻完全相同,則刪除子串,保留父串;43)將步驟42)保留的詞串用停用詞數(shù)據(jù)庫中的詞串進行過濾,得到初選新詞串;所述停用詞數(shù)據(jù)庫的停用詞包括前停詞、后停詞和廣義停詞;過濾的方法是;若詞串的第一個字為前停詞,則刪除該詞串。若詞串的最后一個字為后停詞,則刪除該詞串。如果一個詞串是廣義停詞,則刪除該詞串。全文摘要本發(fā)明涉及中文網(wǎng)頁新詞自動獲取的方法,屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
;該方法包括從Internet采集不同類型的網(wǎng)頁,解析出含有時間信息的網(wǎng)頁正文文本,并進行預(yù)處理,對得到句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻,連同詞串的時間信息一并存入原始數(shù)據(jù)庫;根據(jù)詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾,詞頻大于等于詞頻閾值的詞串保留;對保留的詞串做相鄰串比較和父子串比較后進行再過濾,刪除與停用詞數(shù)據(jù)庫中相同的詞串,對得到初選新詞串的時間信息進行時序分析,得到新詞;還可再包括將由人工標記得到的過濾詞串添加到過濾詞數(shù)據(jù)庫中。該方法擴大了獲取新詞的范圍,中文分詞方法簡便易行,處理效率高,并提高了新詞發(fā)現(xiàn)的準確率和科學性。文檔編號G06F17/30GK101706807SQ200910237979公開日2010年5月12日申請日期2009年11月27日優(yōu)先權(quán)日2009年11月27日發(fā)明者卞小丁,孫立遠,袁睿翕申請人:清華大學