一種中文網(wǎng)頁新詞自動獲取方法

文檔序號：6584692閱讀：224來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種中文網(wǎng)頁新詞自動獲取方法
技術(shù)領(lǐng)域：
：本發(fā)明屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘
技術(shù)領(lǐng)域：
，特別是涉及一種獲取新詞的方法。
背景技術(shù)：
：隨著計算機網(wǎng)絡(luò)技術(shù)的快速發(fā)展和推廣，網(wǎng)絡(luò)數(shù)據(jù)急劇膨脹，這些數(shù)據(jù)具有更新速度快、數(shù)據(jù)量龐大、數(shù)據(jù)組織形式不規(guī)范等特點，但也蘊藏著極多的有價值信息。另外由于人們相互交流需求的增加，網(wǎng)絡(luò)成為信息發(fā)布、傳播的平臺。由此產(chǎn)生的一些網(wǎng)絡(luò)用語、熱門詞匯，被廣泛的運用到了實際生活中，影響著人們的生活，一些新詞逐漸被人們所接受，擴充了漢語詞匯。這些新出現(xiàn)的詞匯呈現(xiàn)出產(chǎn)生速度快、覆蓋領(lǐng)域廣的特點，往往散落在海量的網(wǎng)絡(luò)文本中，靠人工去查看和檢索是不可想象的，因此亟需一個可以檢測網(wǎng)絡(luò)數(shù)據(jù)并自動發(fā)現(xiàn)新詞的方法。為了能夠獲取新詞，現(xiàn)有技術(shù)提供了如下的三種方法第一種方法，獲取搜索引擎的查詢關(guān)鍵詞或聊天數(shù)據(jù)，統(tǒng)計候選新詞的頻率信息，并結(jié)合基于候選新詞上下文規(guī)則的分析，從候選新詞中獲取新詞；第二種方法，利用搜索引擎對候選新詞進行精確搜索和模糊搜索，獲取搜索結(jié)果，根據(jù)結(jié)果從候選新詞中獲取新詞；第三種方法，將候選新詞與已有詞典中的詞進行比較，確定詞典中不存在的候選新詞為新詞。但是，現(xiàn)有技術(shù)至少存在以下問題第一種方法搜索引擎的查詢關(guān)鍵詞和聊天記錄這樣的用戶數(shù)據(jù)并不容易獲取，而且使用不當還會有泄露用戶隱私的問題；第二種方法在搜索引擎中對每一個候選新詞進行搜索，算法效率低，適用性差；第三種方法存在時效性低以及新詞查找范圍不全的缺陷。另外，由于中文自身的特點，詞與詞之間沒有明確的邊界，識別中文新詞更加困難。目前獲取中文新詞的方法，都以中文文本的自動分詞為基礎(chǔ)，大多采用概率詞法分析系統(tǒng)ICTCLAS或是類似的基于詞典查找的方法切分中文文本內(nèi)容得到詞。但是這種基于詞典查找的方法創(chuàng)建和維護詞典困難，對于要識別的新詞沒有處理能力。綜上所述，上述各種方法均存在新詞獲取方法效率低、實時性不足、新詞查找范圍不全或?qū)χ形闹С中圆畹娜毕荨?br/>發(fā)明內(nèi)容本發(fā)明的目的在于克服已有技術(shù)的不足之處，提供一種中文網(wǎng)頁新詞自動獲取的方法，該方法擴大了獲取新詞的范圍，中文分詞方法簡便易行，處理效率高，并提高了新詞發(fā)現(xiàn)的準確率和科學性。為實現(xiàn)上述目的，本發(fā)明提供了一種中文網(wǎng)頁新詞自動獲取的方法，其特征在于，首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫；所述原始數(shù)據(jù)庫初始設(shè)為空，用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù)；所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞，以及要刪除的已用詞；設(shè)置新詞獲取周期；該方法包括以下步驟1)當新詞獲取周期到來時，從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并對該正文文本進行預(yù)處理得到句子片段；2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留，否則從原始數(shù)據(jù)庫中刪除；詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾，最后刪除與停用詞數(shù)據(jù)庫中相同的詞串，得到初選新詞串；5)對初選新詞串的時間信息進行時序分析，得到新詞，并等待下一新詞獲取周期到來時，轉(zhuǎn)步驟1);具體包括以下步驟51)設(shè)定時序分析的開始日期s，基本時間單位g，基本時間單位數(shù)目n，時序分析閾值S;基本時間單位g取值范圍為1-15天，基本時間單位數(shù)目n取值范圍為5-30個，時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串，構(gòu)成詞串集合C;對C中每個詞串t，查看其在從s開始，g*n天內(nèi)的詞頻，得到g*n矩陣的詞頻數(shù)據(jù)，對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)ai，a2，...，an;53)設(shè)評價函數(shù)f(ai+1，a》:1，！/a,+1>a,0，=陽l，<a,./0,+1,《)=54)計算n個評價函數(shù)總和S的值=￡/(",+|，",)，如果S>S即判定該初選新詞串為新詞，否則將該該初選新詞串刪除，等待下一新詞獲取周期到來時，轉(zhuǎn)步驟1)。為進一步提高新詞獲取的準確率，本發(fā)明基于上述方法還提出另一種中文網(wǎng)頁新詞自動獲取的方法，其特征在于，首先設(shè)置原始數(shù)據(jù)庫、停用詞數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫；所述原始數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫初始設(shè)為空，用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù)；所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞，以及要刪除的已用詞；所述過濾詞數(shù)據(jù)庫用于存放在獲取過程中標識出要刪除的詞；設(shè)置新詞獲取周期；該方法包括以下步驟1)當新詞獲取周期到來時，從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并對該正文文本進行預(yù)處理得到句子片段；2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留，否則從原始數(shù)據(jù)庫中刪除；詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾，最后刪除與停用詞數(shù)據(jù)庫和當前過濾詞數(shù)據(jù)庫中相同的詞串，得到初選新詞串；5)對初選新詞串的時間信息進行時序分析，得到候選新詞串；具體包括以下步驟51)設(shè)定時序分析的開始日期s，基本時間單位g，基本時間單位數(shù)目n，時序分析閾值S;基本時間單位g取值范圍為1-15天，基本時間單位數(shù)目n取值范圍為5-30個，時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串，構(gòu)成詞串集合C;對C中每個詞串t，查看其在從s開始，g*n天內(nèi)的詞頻，得到g*n矩陣的詞頻數(shù)據(jù)，對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)ai，a2，...，an;53)設(shè)評價函數(shù)f(ai+1，a》:<formula>formulaseeoriginaldocumentpage7</formula>54)計算n個評價函數(shù)總和S的值<formula>formulaseeoriginaldocumentpage7</formula>如果S>S即判定該初選新詞串為候選新詞串，否則將該該初選新詞串刪除；，6)對步驟5)得到的候選新詞串再由人工標記為新詞或過濾詞串，將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫中，等待下一新詞獲取周期到來時，轉(zhuǎn)步驟1)。本發(fā)明的中文網(wǎng)頁新詞自動獲取方法與現(xiàn)有的技術(shù)相比，具有以下優(yōu)點1、利用易在互聯(lián)網(wǎng)上獲得的不同類型WEB數(shù)據(jù)尋找新詞?；ヂ?lián)網(wǎng)已經(jīng)滲透到人們?nèi)粘Ｉ畹姆椒矫婷?，各種網(wǎng)絡(luò)應(yīng)用方式如新聞網(wǎng)站、BBS、博客等逐漸成為信息發(fā)布、傳播的新渠道。這些網(wǎng)絡(luò)數(shù)據(jù)中包含大量的新詞。本發(fā)明中，使用網(wǎng)絡(luò)渠道獲取大規(guī)模中文文本，進行新詞的自動獲取工作，與從語料庫中尋找新詞相比具有實時性。獲取的是已公布在網(wǎng)絡(luò)上的新聞網(wǎng)站、BBS和博客的網(wǎng)頁，因此不會涉及個人隱私的問題。另外，對BBS和博客網(wǎng)頁的獲取也擴充了單一新聞網(wǎng)頁的獲取，擴大了獲取新詞的范圍。2、采用n-gram方法中文分詞。相比基于詞典查找的中文分詞方法，n-gram方法簡便易行，處理效率高，且不會遺漏任何可能的詞，另外也沒有創(chuàng)建和維護詞典的麻煩。3、根據(jù)漢語語言規(guī)則設(shè)置停用詞數(shù)據(jù)庫來過濾詞串，提高過濾的準確率；4、引入時間序列分析方法新詞的一種定義中認為，被普遍的認可、廣泛應(yīng)用的才是新詞。滿足這一特征的直接表現(xiàn)就是該詞持續(xù)了一段時間，詞頻隨時間而變化，是時間的函數(shù)。本發(fā)明中引入時間序列分析方法來考察候選新詞是否滿足廣泛應(yīng)用性。通過對詞頻變化趨勢的分析，獲得了更多信息，進一步提高新詞發(fā)現(xiàn)的準確率和科學性。5、實現(xiàn)增量學習停用詞數(shù)據(jù)庫可以不斷更新添加，使整個新詞獲取方法成為一個動態(tài)積累的過程，使準確率逐步提高。本發(fā)明還可設(shè)置過濾詞數(shù)據(jù)庫，每次詞串過濾的結(jié)果用于更新過濾詞數(shù)據(jù)庫，形成了反饋，實現(xiàn)增量學習，進一步提高新詞獲取的準確率。圖1為本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取的方法流程圖。圖2為本發(fā)明提出的另一種中文網(wǎng)頁新詞自動獲取的方法流程圖。具體實施例方式本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取方法，結(jié)合附圖及實施例詳細描述如下本發(fā)明提出的一種中文網(wǎng)頁新詞自動獲取的方法，首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫；所述原始數(shù)據(jù)庫初始設(shè)為空，用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù)；所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞(還可根據(jù)需要隨時更改)，以及要刪除的已用詞；設(shè)置新詞獲取周期(周期的長短可以根據(jù)實際應(yīng)用需要而定，若想獲得近期內(nèi)的新詞則可設(shè)置周期短，否則可設(shè)置周期長一些，還可根據(jù)具體具體情況作適當調(diào)整；一般設(shè)為1-30天)，該方法內(nèi)容如圖1所示，包括以下步驟1)當新詞獲取周期到來時，從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并對該正文文本進行預(yù)處理得到句子片段；具體包括以下步驟11)通過共享的網(wǎng)頁爬蟲程序或RSS獲取軟件采集不同類型的網(wǎng)頁(例如利用一個共享的網(wǎng)頁爬蟲程序采集指定新聞網(wǎng)站和BBS的網(wǎng)頁，利用一個共享的RSS獲取軟件采集指定的博客網(wǎng)頁)；12)利用常用的網(wǎng)頁解析軟件從網(wǎng)頁中提取正文的內(nèi)容和正文的時間信息，獲得網(wǎng)頁上的中文文本，然后(利用共享的文件存儲軟件Lemur)將該中文文本存入硬盤；上述網(wǎng)頁的采集和解析也可以利用其他的軟件，只要該軟件能完成采集網(wǎng)頁和解析網(wǎng)頁的任務(wù)就可以。13)對該中文文本進行預(yù)處理，去除網(wǎng)頁標簽、替換標識符、切分文本和去除非中文字符(因為獲得的網(wǎng)頁正文內(nèi)容往往還包含未清除干凈的網(wǎng)頁標簽、標識符等影響新詞識別的字符，所以要進行文本的預(yù)處理)；具體包括131)掃描整個文本，將找到的所有網(wǎng)頁標簽(一般為成對出現(xiàn)的尖括號)及其中的內(nèi)容從文本中去除。132)掃描步驟131)得到的文本，將找到的網(wǎng)頁標識符替換成相應(yīng)的字符(網(wǎng)頁中常使用的標識符包括"&nbsp"、"&#36"、"&amp"和"&quot"，分別用空格、"$"、"&"和雙引號替換；其他的網(wǎng)頁標識符也可作相應(yīng)符號替換)；133)利用文本中的標點符號或回車換行符作為切分文本的標志，把步驟132)處理后的文本切分為句子片段；134)對切分后的每個句子片段進行掃描，保留在漢字編碼范圍內(nèi)的字符，刪除其他的字符(字符顯示都是按照一定的編碼方式，網(wǎng)頁中采用較多的是Unicode編碼。又因為網(wǎng)頁中的字符顯示較為雜亂，一些不可能是新詞的特殊字符會影響新詞識別的效果，漢字在Unicode中的編碼范圍是\u4e00_\u9fa5)。2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻(即相同詞串出現(xiàn)的次數(shù))，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；具體包括以下步驟21)利用n-gram方法對預(yù)處理后的每個句子片段進行劃分，順次將臨近的n個漢字聚集在一起形成一個詞串(比如一句話"我愛中國"，n取為2時，可以得到如下三個詞串:"我愛"、"愛中"、"中國"，n可以取l、2和3，或根據(jù)需要取值，一般不超過4);22)掃描n-gram分詞得到的所有詞串，統(tǒng)計每個詞串出現(xiàn)的次數(shù)，記為詞串的詞頻(例如在n-gram分詞產(chǎn)生詞串中出現(xiàn)詞串"中國"的次數(shù))；23)將劃分出的所有詞串、統(tǒng)計的詞頻，以及步驟12)提取出來的正文的時間信息一起存入原始數(shù)據(jù)庫；本實施例的原始數(shù)據(jù)庫中設(shè)有兩個表，一個是文檔索引表，存放文檔信息，另一個表是詞串表，按文檔存放詞串和詞頻。原始數(shù)據(jù)庫的表結(jié)構(gòu)如下文檔索引表的結(jié)構(gòu)字段名稱字段說明Textld主鍵，自動遞增URL網(wǎng)頁的URL地址Pubdata源html的日期Content解析出的網(wǎng)頁正文內(nèi)容Type網(wǎng)頁類型，分為新聞網(wǎng)頁、BBS和博客詞串表的結(jié)構(gòu)字段名稱字段說明Wordn-gram方法劃分出的詞串Frequency該詞出現(xiàn)的頻率Articles出現(xiàn)該詞的文章，對應(yīng)上表的Textld3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留，否則從原始數(shù)據(jù)庫(詞串表)中刪除；詞頻閾值可以根據(jù)情況調(diào)整，一般取值范圍為l-10，在實施例中，可設(shè)定的詞頻閾值是1;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾，最后刪除與停用詞數(shù)據(jù)庫中相同的詞串，得到初選新詞串；具體包括以下步驟定義連續(xù)的n_l個字或字符相等的，并且詞長為n的兩個詞串稱為相鄰串(即第一個詞串的首(尾)字與第二個詞條的首(尾)字不同，其余字全部相同，如詞串"我愛"與"愛中"是相鄰串，"我愛中華人民共和"與"愛中華人民共和國"是相鄰串)，如果較長的詞串中包含另一個較短的詞串，則把較長的詞串稱作父串，較短的詞串稱作子串(子串是由父串中連續(xù)若干個字符組成的，子串是相對父串而言的，如"愛中"是"愛中國"的子串)；41)如果兩個相鄰串的詞頻相同，則兩個詞都被刪除，如果其中一個詞串的詞頻高于另一個，則刪除詞頻低的詞串，保留詞頻高的詞串；42)掃描步驟41)保留的詞串，比較每對子串和父串的詞頻，如果兩者的詞頻完全相同，則刪除子串，保留父串；43)將步驟42)保留的詞串用停用詞數(shù)據(jù)庫中的詞串進行過濾，得到初選新詞串；(停用詞數(shù)據(jù)庫的停用詞是根據(jù)漢語語言規(guī)則確定的字，在詞串特定位置出現(xiàn)時一定不會構(gòu)成一個有意義的詞，停用詞分為前停詞、后停詞和廣義停詞。前停詞一般出現(xiàn)在詞尾，很少出現(xiàn)在詞首，如"兒、子、然、于、邊、么、們、乎"。后停詞典與前停詞相反，很少出現(xiàn)在詞尾，如"老、阿"。廣義停詞可以根據(jù)需要設(shè)定為已有的詞或是預(yù)設(shè)定的要刪除的詞，如通用詞典或?qū)I(yè)詞典中的詞。這些前停詞、后停詞和廣義停詞構(gòu)成了停用詞數(shù)據(jù)庫；過濾的方法是；若詞串的第一個字為前停詞，則刪除該詞串。若詞串的最后一個字為后停詞，則刪除該詞串。如果一個詞串是廣義停詞，則刪除該詞串)本實施例的停用詞數(shù)據(jù)庫的表結(jié)構(gòu)字段名稱字段說明StopWord停用詞Type該停用詞的類型前停詞、后停詞或廣義停詞5)對初選新詞串的時間信息進行時序分析，得到新詞；具體包括以下步驟51)設(shè)定時序分析的開始日期s，基本時間單位g，基本時間單位數(shù)目n，時序分析閾值S?；緯r間單位g—般取值范圍為l-15天，基本時間單位數(shù)目n—般取值范圍為5-30個，時序分析閾值S—般取值范圍為0-30。(本實施例中g(shù)設(shè)為2天，n設(shè)為10個，S設(shè)為5)。52)讀出日期s的所有初選新詞串，構(gòu)成詞串集合C;對C中每個詞串t，查看其在從s開始，g*n天內(nèi)的詞頻，得到g*n矩陣的詞頻數(shù)據(jù)，對該詞頻數(shù)據(jù)每g個為一組進行聚合(本實施例中采用求算術(shù)平均值的方法)得到l*n的矩陣詞頻數(shù)據(jù)ai，a2，...，an;53)設(shè)評價函數(shù)f(ai+1，a》本實施例中設(shè)置的評價函數(shù)如下<formula>formulaseeoriginaldocumentpage10</formula>54)計算n個評價函數(shù)總和S的值S-l;/(",+p",)，如果S〉S即判定該初選新詞串為新詞，否則將該該初選新詞串刪除。本發(fā)明還提出另一種方法，該方法在上述方法的基礎(chǔ)上還可包括以下內(nèi)容設(shè)置過濾詞數(shù)據(jù)庫初始為空；在所述步驟4)中還包括若詞串與當前過濾詞數(shù)據(jù)庫中的詞相同，則刪除該詞串6)對步驟5)得到的新詞串再由人工標記分為新詞和過濾詞串，將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫。(過濾詞數(shù)據(jù)庫存放的是本方法每次運行經(jīng)過人機交互后確定的要過濾的詞串。這些詞串不是新詞，又很難被機器識別。過濾詞數(shù)據(jù)庫可以增量添加，可進一步提高獲取新詞的精度。)在實施例中過濾詞數(shù)據(jù)庫的表結(jié)構(gòu)為<table>tableseeoriginaldocumentpage11</column></row><table>權(quán)利要求一種中文網(wǎng)頁新詞自動獲取的方法，其特征在于，首先設(shè)置原始數(shù)據(jù)庫和停用詞數(shù)據(jù)庫；所述原始數(shù)據(jù)庫初始設(shè)為空，用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù)；所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞，以及要刪除的已用詞；設(shè)置新詞獲取周期；該方法包括以下步驟1)當新詞獲取周期到來時，從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并對該正文文本進行預(yù)處理得到句子片段；2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留，否則從原始數(shù)據(jù)庫中刪除；詞頻閾值的取值范圍為1-10；4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾，最后刪除與停用詞數(shù)據(jù)庫中相同的詞串，得到初選新詞串；5)對初選新詞串的時間信息進行時序分析，得到新詞，并等待下一新詞獲取周期到來時，轉(zhuǎn)步驟1)；具體包括以下步驟51)設(shè)定時序分析的開始日期s，基本時間單位g，基本時間單位數(shù)目n，時序分析閾值δ；基本時間單位g取值范圍為1-15天，基本時間單位數(shù)目n取值范圍為5-30個，時序分析閾值δ取值范圍為0-30；52)讀出日期s的所有初選新詞串，構(gòu)成詞串集合C；對C中每個詞串t，查看其在從s開始，g*n天內(nèi)的詞頻，得到g*n矩陣的詞頻數(shù)據(jù)，對該詞頻數(shù)據(jù)每g個為一組進行聚合得到l*n的矩陣詞頻數(shù)據(jù)a1，a2，...，an；53)設(shè)評價函數(shù)f(ai+1，ai)<mrow><mi>f</mi><mrow><mo>(</mo><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>,</mo><msub><mi>a</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><mn>1</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>></mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo>=</mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr><mtr><mtd><mo>-</mo><mn>1</mn><mo>,</mo></mtd><mtd><mi>if</mi></mtd><mtd><msub><mi>a</mi><mrow><mi>i</mi><mo>+</mo><mn>1</mn></mrow></msub><mo><</mo><msub><mi>a</mi><mi>i</mi></msub></mtd></mtr></mtable></mfenced></mrow>54)計算n個評價函數(shù)總和S的值如果S＞δ即判定該初選新詞串為新詞，否則將該初選新詞串刪除，等待下一新詞獲取周期到來時，轉(zhuǎn)步驟1)。F2009102379793C0000012.tif2.—種中文網(wǎng)頁新詞自動獲取的方法，其特征在于，首先設(shè)置原始數(shù)據(jù)庫、停用詞數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫；所述原始數(shù)據(jù)庫和過濾詞數(shù)據(jù)庫初始設(shè)為空，用于存放本新詞獲取方法處理過程中產(chǎn)生的數(shù)據(jù)；所述的停用詞數(shù)據(jù)庫預(yù)先存放有根據(jù)漢語語言規(guī)則不可能出現(xiàn)的詞，以及要刪除的已用詞；所述過濾詞數(shù)據(jù)庫用于存放在獲取過程中標識出的要刪除的詞；設(shè)置新詞獲取周期；該方法包括以下步驟1)當新詞獲取周期到來時，從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并對該正文文本進行預(yù)處理得到句子片段；2)對預(yù)處理后的句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；3)根據(jù)預(yù)先設(shè)定的詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留，否則從原始數(shù)據(jù)庫中刪除；詞頻閾值的取值范圍為1-10;4)對步驟3)保留的詞串做相鄰串比較和父子串比較后進行再過濾，最后刪除與停用詞數(shù)據(jù)庫和當前過濾詞數(shù)據(jù)庫中相同的詞串，得到初選新詞串；5)對初選新詞串的時間信息進行時序分析，得到候選新詞串；具體包括以下步驟51)設(shè)定時序分析的開始日期s，基本時間單位g，基本時間單位數(shù)目n，時序分析閾值S;基本時間單位g取值范圍為1-15天，基本時間單位數(shù)目n取值范圍為5-30個，時序分析閾值S取值范圍為0-30;52)讀出日期s的所有初選新詞串，構(gòu)成詞串集合C;對C中每個詞串t，查看其在從s開始，g*n天內(nèi)的詞頻，得到g*n矩陣的詞頻數(shù)據(jù)，對該詞頻數(shù)據(jù)每g個為一組進行聚合得到hn的矩陣詞頻數(shù)據(jù)ai，a2，..53)設(shè)評價函數(shù)f(aw，a》:1,a,+1>",<formula>formulaseeoriginaldocumentpage3</formula>54)計算n個評價函數(shù)總和S的值S=^/"+1，",)，如果S>S即判定該初選新詞串為候選新詞串，否則將該該初選新詞串刪除；，6)對步驟5)得到的候選新詞串再由人工標記為新詞或過濾詞串，將過濾詞串添加到步驟4)的過濾詞數(shù)據(jù)庫中，等待下一新詞獲取周期到來時，轉(zhuǎn)步驟l)。3.如權(quán)利要求1或2所述方法，其特征在于，所述步驟1)具體包括以下步驟11)通過共享的網(wǎng)頁爬蟲程序或RSS獲取軟件采集不同類型的網(wǎng)頁；12)利用常用的網(wǎng)頁解析軟件從網(wǎng)頁中提取正文的內(nèi)容和正文的時間信息，獲得網(wǎng)頁上的中文文本，然后將該中文文本存入硬盤；13)對該中文文本進行預(yù)處理，去除網(wǎng)頁標簽、替換標識符、切分文本和去除非中文字符。4.如權(quán)利要求3所述方法，其特征在于，所述步驟31)具體包括131)掃描整個文本，將找到的所有網(wǎng)頁標簽及其中的內(nèi)容從文本中去除；132)掃描步驟131)得到的文本，將找到的網(wǎng)頁標識符替換成相應(yīng)的字符；133)利用文本中的標點符號或回車換行符作為切分文本的標志，把步驟132)處理后的文本切分為句子片段；134)對切分后的每個句子片段進行掃描，保留在漢字編碼范圍內(nèi)的字符，刪除其他的字符。5.如權(quán)利要求1或2所述方法，其特征在于，所述步驟2)具體包括以下步驟21)利用n-gram方法對預(yù)處理后的每個句子片段進行劃分，順次將臨近的n個漢字聚集在一起形成一個詞串，n為1-4的整數(shù)；22)掃描n-gram分詞得到的所有詞串，統(tǒng)計每個詞串的詞頻；23)將劃分出的所有詞串、統(tǒng)計的詞頻，以及步驟12)提取出來的正文的時間信息一起存入原始數(shù)據(jù)庫；所述原始數(shù)據(jù)庫中設(shè)有存放文檔信息的文檔索引表和存放詞串和詞頻的詞串表。6.如權(quán)利要求1或2所述方法，其特征在于，所述步驟4)具體包括以下步驟定義連續(xù)的n-l個字或字符相等的，并且詞長為n的兩個詞串稱為相鄰串，如果較長的詞串中包含另一個較短的詞串，則把較長的詞串稱作父串，較短的詞串稱作子串；41)如果兩個相鄰串的詞頻相同，則這兩個詞串都被刪除，如果其中一個詞串的詞頻高于另一個，則刪除詞頻低的詞串，保留詞頻高的詞串；42)掃描步驟41)保留的詞串，比較每對子串和父串的詞頻，如果兩者的詞頻完全相同，則刪除子串，保留父串；43)將步驟42)保留的詞串用停用詞數(shù)據(jù)庫中的詞串進行過濾，得到初選新詞串；所述停用詞數(shù)據(jù)庫的停用詞包括前停詞、后停詞和廣義停詞；過濾的方法是；若詞串的第一個字為前停詞，則刪除該詞串。若詞串的最后一個字為后停詞，則刪除該詞串。如果一個詞串是廣義停詞，則刪除該詞串。全文摘要本發(fā)明涉及中文網(wǎng)頁新詞自動獲取的方法，屬于互聯(lián)網(wǎng)數(shù)據(jù)挖掘
技術(shù)領(lǐng)域：
；該方法包括從Internet采集不同類型的網(wǎng)頁，解析出含有時間信息的網(wǎng)頁正文文本，并進行預(yù)處理，對得到句子片段進行n-gram分詞產(chǎn)生詞串并統(tǒng)計詞頻，連同詞串的時間信息一并存入原始數(shù)據(jù)庫；根據(jù)詞頻閾值對原始數(shù)據(jù)庫中的詞串進行過濾，詞頻大于等于詞頻閾值的詞串保留；對保留的詞串做相鄰串比較和父子串比較后進行再過濾，刪除與停用詞數(shù)據(jù)庫中相同的詞串，對得到初選新詞串的時間信息進行時序分析，得到新詞；還可再包括將由人工標記得到的過濾詞串添加到過濾詞數(shù)據(jù)庫中。該方法擴大了獲取新詞的范圍，中文分詞方法簡便易行，處理效率高，并提高了新詞發(fā)現(xiàn)的準確率和科學性。文檔編號G06F17/30GK101706807SQ200910237979公開日2010年5月12日申請日期2009年11月27日優(yōu)先權(quán)日2009年11月27日發(fā)明者卞小丁,孫立遠,袁睿翕申請人:清華大學

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫立遠;袁睿翕;卞小丁
技術(shù)所有人：清華大學
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構(gòu)動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

試論新詞語的引申方法相關(guān)技術(shù)

網(wǎng)頁獲取mac地址方法相關(guān)技術(shù)

新詞相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文網(wǎng)頁新詞自動獲取方法