一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法

文檔序號(hào)：6610316閱讀：220來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種文本信息處理領(lǐng)域，特別是涉及一種從短文本中發(fā)現(xiàn)新詞的方法和系統(tǒng)。
背景技術(shù)：
在自然語言處理或計(jì)算語言學(xué)中，新詞是指以前從來沒有出現(xiàn)過的詞匯，或者是以前出現(xiàn)過的詞匯的新用法。新詞一般在詞典中沒有收錄，因此也有不少人把新詞等同于未登錄詞。
隨著時(shí)代的進(jìn)歩和經(jīng)濟(jì)的發(fā)展，在人們?nèi)粘Ｉ畹母鞣礁髅娑疾粩嘤楷F(xiàn)出大量的新詞，尤其是隨著互聯(lián)網(wǎng)在中國(guó)的日益普及，大量網(wǎng)絡(luò)新詞層出不窮，日常生活中產(chǎn)生的新詞也得以更快的傳播。據(jù)報(bào)道，我國(guó)每年至少出現(xiàn)漢語新詞或新用法1000個(gè)以上。由于移動(dòng)通信在中國(guó)的普及，手機(jī)短信在中國(guó)成了男女老少都喜歡的交流方式，在手機(jī)短信中也產(chǎn)生了很多新詞語、新說法；即
時(shí)通信軟件，如騰訊QQ、微軟MSN、雅虎通、Google Talk、 AOL的ICQ等，都擁有龐大的用戶群，每時(shí)每刻都有無數(shù)即時(shí)消息從互聯(lián)網(wǎng)發(fā)送；在線聊天室、 BBS等也都有集聚了眾多的眼球……有大量新詞是通過手機(jī)短信、即時(shí)消息、 BBS等創(chuàng)造并傳播的，從這些短文本中發(fā)現(xiàn)新詞也具有巨大的商業(yè)價(jià)值。
現(xiàn)有技術(shù)的一種利用搜索引擎的用戶搜索日志來發(fā)現(xiàn)新詞的方法，在大量用戶提交的搜索關(guān)鍵詞中統(tǒng)計(jì)各關(guān)鍵詞的出現(xiàn)頻次，如果大于某個(gè)預(yù)先設(shè)定的閾值，則作為新詞輸出。該技術(shù)能夠比較準(zhǔn)確、實(shí)時(shí)地發(fā)現(xiàn)互聯(lián)網(wǎng)的新詞，但是該方法所需要的搜索日志一般只有商用搜索引擎公司可以獲得，一般用戶根本無法使用該方法。也有學(xué)者提出了 "有意義串"的概念，有意義串一般認(rèn)為是具有特定語義，能夠獨(dú)立使用的語言單位，其很大一部分就是新詞。
現(xiàn)有技術(shù)中通過考査字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面來判斷字符串是否是有意義串。有意義串的穩(wěn)定性是指一個(gè)有意義串應(yīng)該具有一定的使用頻次，不是偶爾出現(xiàn)的字符串；有意義串的獨(dú)立性是指有意義串應(yīng)該使用靈活，可以在很多語用環(huán)境中出現(xiàn)；有意義串的完整性是指有意義串應(yīng)具有完整的語義?，F(xiàn)有技術(shù)中，判斷一個(gè)字符串是否是有意義的，一般也可以從穩(wěn)定性、獨(dú) 立性和完整性三個(gè)方面考査。首先統(tǒng)計(jì)字符串在語料中的出現(xiàn)頻次，如果字符串的出現(xiàn)頻次大于一定閾值，一般認(rèn)為字符串是穩(wěn)定的；再統(tǒng)計(jì)字符串在語料中所有出現(xiàn)位置左側(cè)和右側(cè)不同的字符或詞語的數(shù)量，如果左右兩側(cè)不同的字符或詞語數(shù)量大于一定閾值，則認(rèn)為字符串是獨(dú)立的；然后判斷字符串是否是完整的，即當(dāng)且僅當(dāng)不存在任何字符串B，字符串A是字符串B的子串，且字符串A的出現(xiàn)頻次也大于預(yù)先設(shè)定的閾值，則認(rèn)為字符串A是完整的。但是，基于字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面判斷字符串是否為有意義串或新詞的方法，只適合于從大規(guī)模語料中發(fā)現(xiàn)新詞。當(dāng)給定的語料只是一個(gè)較短的文本，如一篇文章，一個(gè)段落，甚至只有一個(gè)句子，一條手機(jī)短信或一條即時(shí)消息時(shí)，一般情況下該短文本中很難出現(xiàn)頻次較高的字符串。而現(xiàn)有技術(shù)基于搜索日志的新詞發(fā)現(xiàn)方法需要大量的搜索日志，基于字符串穩(wěn)定性、獨(dú)立性和完整性的新詞發(fā)現(xiàn)方法也需要大規(guī)模的語料，這些新詞發(fā)現(xiàn)方法幾乎都不可能發(fā)現(xiàn)單個(gè)短文本中的新詞。例如，如果用戶只給定了一個(gè)句子"今年的足球?qū)氊愓嫫粒?，假定詞典中已經(jīng)包含詞語今年、的、足球、寶貝、真、漂亮，現(xiàn)有方法不能從單獨(dú)的這個(gè)句子中發(fā)現(xiàn)"足球?qū)?貝"是一個(gè)新詞。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于提供一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)，能夠有效地從很短的文本中發(fā)現(xiàn)新詞。為了解決上述問題，本發(fā)明提供了一種短文本的新詞發(fā)現(xiàn)方法，包括以下步驟步驟A，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu)成候選新詞隹厶.朱口；步驟B，利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞；
步驟C，將候選新詞作為査詢關(guān)鍵詞，在搜索引擎中搜索，并由此統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄；歩驟D，根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。所述搜索為精確搜索，或者精確搜索和模糊搜索；所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。所述判斷候選新詞是否為最終新詞，包括以下步驟中的一個(gè)或者一個(gè)以上步驟的組合歩驟D1，如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出；步驟D2，如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出；步驟D3，如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。所述歩驟A還可以包括下列步驟步驟A1，設(shè)定一預(yù)定閥值，短文本中所有連續(xù)多個(gè)字符或者詞語組合所包含的字符或詞語長(zhǎng)度小于所述預(yù)定閾值。步驟A2，將所述組合限制在一個(gè)句子，一個(gè)分句或所有以標(biāo)點(diǎn)符號(hào)隔開的句子單元中。所述步驟B可以包括下列步驟步驟B1，在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí)，如果一個(gè)候選新詞在系統(tǒng)詞典庫出現(xiàn)，則去掉該候選新詞；步驟B2，在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí)，去掉以特定字符或詞語開始的候選新詞。為實(shí)現(xiàn)本發(fā)明還提供一種短文本的新詞發(fā)現(xiàn)系統(tǒng)，包括獲取模塊，過濾模塊、搜索模塊、判斷模塊，其中-所述獲取模塊，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu)成候選新詞集合；所述過濾模塊，用于利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè)定規(guī)
則的候選新詞；所述搜索模塊，用于將候選新詞作為査詢關(guān)鍵詞，在搜索引擎中搜索，并由此統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄；所述判斷模塊，用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。所述搜索為精確搜索，或者精確搜索和模糊搜索；所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。所述判斷模塊，包括第一判斷模塊，第二判斷模塊，第三判斷模塊，其中所述第一判斷模塊，用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第二判斷模塊，用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第三判斷模塊，用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。所述的閥值分別通過預(yù)先設(shè)定而得到，或者通過語料訓(xùn)練而得到。本發(fā)明的短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)與現(xiàn)有技術(shù)相比，具有以下優(yōu)點(diǎn)1、采用計(jì)算機(jī)自動(dòng)處理，能夠有效發(fā)現(xiàn)短文本中的新詞。2、能夠有效發(fā)現(xiàn)那些在語料中出現(xiàn)頻次非常低，甚至只出現(xiàn)一次的新詞。

圖1是本發(fā)明短文本的新詞發(fā)現(xiàn)方法的流程示意圖；圖2是本發(fā)明短文本的新詞發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí) 施例，對(duì)本發(fā)明的一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng) 當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。本發(fā)明的核心思想在于，當(dāng)文本規(guī)模非常小，甚至只有一個(gè)句子時(shí)，能夠有效發(fā)現(xiàn)短文本中的新詞。并且，本發(fā)明用搜索引擎分別精確搜索和模糊搜索
短文本中的候選新詞，這相當(dāng)于使用了搜索引擎龐大的數(shù)據(jù)庫作為語料，相當(dāng) 于擴(kuò)展文本的規(guī)模，從而能夠發(fā)現(xiàn)短文本中的新詞。如圖1所示，本發(fā)明利用搜索引擎從短文本中發(fā)現(xiàn)新詞的方法包括以下歩驟步驟IOI，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu)成候選新詞集合；獲取短文本中所有候選新詞，產(chǎn)生短文本中所有連續(xù)的字符或詞語的組合。其中，既可以獲取短文本中所有連續(xù)若干字符的組合，也可以獲取連續(xù)若干詞語的組合。所述短文本既可以是一個(gè)句子，也可以是多個(gè)句子的組合。較佳地，為了降低處理規(guī)模，可以對(duì)組合包含的字符或詞語數(shù)設(shè)定一個(gè)最大值，即候選新詞長(zhǎng)度小于一閾值。并且，可以將組合限制在一個(gè)句子，一個(gè) 分句或所有以標(biāo)點(diǎn)符號(hào)隔開的句子單元中，即保證候選新詞中不出現(xiàn)逗號(hào)、句號(hào)、疑問號(hào)、感嘆號(hào)等標(biāo)點(diǎn)符號(hào)。歩驟102，利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞。其中，可以設(shè)置一個(gè)系統(tǒng)詞典庫，如果一個(gè)候選新詞在系統(tǒng)詞典庫中出現(xiàn)，則去掉該候選新詞。還可以去掉以某些特定字符或詞語開始的候選新詞。步驟103，將候選新詞作為査詢關(guān)鍵詞，在搜索引擎中進(jìn)行精確搜索，或進(jìn)行精確搜索和模糊搜索，并由此統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié) 果數(shù)量、以及返回的精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。其中，通過將候選新詞作為査詢關(guān)鍵詞，到搜索引擎進(jìn)行精確搜索，可獲得返回的精確搜索結(jié)果數(shù)量和前多條精確搜索結(jié)果記錄。通過將候選新詞作為查詢關(guān)鍵詞直接輸入到搜索框査詢，到搜索引擎進(jìn)行模糊搜索，可獲得返回的模糊搜索結(jié)果數(shù)量。所述的前多條精確搜索結(jié)果記錄，指利用搜索引擎進(jìn)行精確搜索，得到的結(jié)果記錄中，排序在前的，并被搜索引擎認(rèn)為，與査詢關(guān)鍵詞相關(guān)度較高的多條搜索結(jié)果記錄，例如，利用Google搜索引擎進(jìn)行精確搜索，返回得到10000 條搜索結(jié)果記錄，則前多條精確搜索結(jié)果記錄，可以是其返回結(jié)果中的前10
條或者前100條等精確搜索結(jié)果記錄。
所述搜索引擎是一種現(xiàn)有技術(shù)，如Google搜索引擎，百度搜索引擎，Yahoo 搜索引擎等各種公開公用的搜索引擎或者其它的專用搜索引擎。在這些搜索引擎中，可以進(jìn)行精確搜索和模糊搜索，并獲得搜索結(jié)果及其排名。本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明的描述，可以實(shí)現(xiàn)通過現(xiàn)有搜索引擎利用精確搜索和模糊搜索，獲得搜索結(jié)果和排名，因此，在本發(fā)明中不再一一詳細(xì)描述。
步驟104，根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及精確搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。
在本發(fā)明中，可以通過如下幾個(gè)步驟中的其中一個(gè)或任意幾個(gè)步驟來判斷確定最終新詞(1) 如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出。(2) 如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出。(3) 如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。
例如，如果對(duì)于候選新詞"足球?qū)氊?，在比較常用的搜索引擎如百度中精確搜索"足球?qū)氊?可以返回4,440,000個(gè)返回結(jié)果，模糊搜索"足球?qū)氊? 可以返回4,450,000個(gè)返回結(jié)果，可以看出"足球?qū)氊? 一詞在互聯(lián)網(wǎng)上已經(jīng) 非常頻繁地出現(xiàn)了，把"足球?qū)氊?作為新詞輸出。
再例如，若將第二閾值設(shè)為60%，如果某個(gè)候選新詞的精確搜索結(jié)果為 2000個(gè)，模糊搜索結(jié)果為3000個(gè)，那么兩者比值為66.6%，大于該第二閾值 60%，故應(yīng)將該候選新詞作為新詞輸出。
再例如，若候選新詞"禽流感"有如下五條返回結(jié)果記錄鐘南山透霧禽流感病毒滯未剪顯^異。廣東游你控禽流感形勢(shì)遭緩。有7 乂感染禽流感事伴。發(fā)觀一宗禽流感疑似病樹。
領(lǐng)布5條禁令防控禽流感。則"禽流感"左側(cè)的字符分別為{露，控，染，宗，控}，右側(cè)的字符為{病，形，事，疑，EOS}，因此左側(cè)不同的字符為{露，控、染，宗},右側(cè)不同的字符為{病，形，事，疑，EOS}，其中EOS表示句子結(jié)束。在百度中精確搜索"火速桌面搜索"返回2,690個(gè)結(jié)果，而模糊搜索"火速桌面搜索"返回250,000個(gè)結(jié)果。獲取精確搜索"火速桌面搜索"的前100 條結(jié)果記錄，"火速桌面搜索"左右側(cè)不同的字符數(shù)分別為124和97，若左右側(cè)不同字符數(shù)閾值為90，則"火速桌面搜索"作為新詞輸出。相應(yīng)于本發(fā)明的短文本新詞發(fā)現(xiàn)方法，本發(fā)明還提供一種短文本的新詞發(fā) 現(xiàn)系統(tǒng)，如圖2所示，其包括獲取模塊21，過濾模塊22、搜索模塊23、判斷模塊24，其中所述獲取模塊21，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu) 成候選新詞集合。所述過濾模塊22，用于利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè) 定規(guī)則的候選新詞。所述搜索模塊23，用于將候選新詞作為查詢關(guān)鍵詞，在搜索引擎中搜索，并由此統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄。所述判斷模塊24，用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及精確搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。較佳地，所述判斷模塊24，包括第一判斷模塊241，第二判斷模塊242，第三判斷模塊243，其中所述第一判斷模塊241，用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第二判斷模塊242，用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第三判斷模塊243，用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。本發(fā)明的短文本新詞發(fā)現(xiàn)系統(tǒng)，以與本發(fā)明的短文本新詞發(fā)現(xiàn)方法相同的
過程工作，因此，在本發(fā)明實(shí)施例中，不再一一重復(fù)描述。下面結(jié)合圖1，以一具體實(shí)施例詳細(xì)說明本發(fā)明在短文本中發(fā)現(xiàn)新詞的方法和系統(tǒng)。例如，如果用戶只給定了一個(gè)句子"今年的足球?qū)氊愓嫫粒?，如系統(tǒng) 詞典庫只已經(jīng)包含詞語今年、的、足球、寶貝、真、漂亮，現(xiàn)有方法幾乎都不可能從單獨(dú)的這個(gè)句子中發(fā)現(xiàn)"足球?qū)氊?是一個(gè)新詞，而候選新詞"足球?qū)氊?在比較常用的搜索引擎如百度中精確搜索"足球?qū)氊?可以返回4,440,000 個(gè)返回結(jié)果，模糊搜索"足球?qū)氊?可以返回4,450,000個(gè)返回結(jié)果，可以看出在一般網(wǎng)頁中若既出現(xiàn)"足球"一詞，又出現(xiàn)"寶貝"一詞，則很可能是"足球"和"寶貝"連續(xù)出現(xiàn)且"足球"在"寶貝"之前，候選新詞"足球?qū)氊? 很可能是一個(gè)新詞。如圖1中步驟101所示，獲取文本中所有候選新詞，就是產(chǎn)生文本中所有連續(xù)的字符或詞語的組合。例如若字符組合最大長(zhǎng)度為4，則文本"今年的足球?qū)氊愓嫫?包含的候選新詞有*今年、年的、的足、足球、球?qū)?、寶貝、貝真、真漂、漂?*今年的、年的足、的足球、足球?qū)?、球?qū)氊?、寶貝真、真漂?*今年的足、年的足球、的足球?qū)殹⒆闱驅(qū)氊?、球?qū)氊愓?、寶貝真漂?貝真漂亮如圖1步驟102所示，確定符合預(yù)先設(shè)定規(guī)則的候選新詞，就是對(duì)歩驟 101中產(chǎn)生的候選新詞按照一些規(guī)則進(jìn)行過濾，例如，系統(tǒng)詞典庫已經(jīng)包含詞語今年、足球、寶貝、漂亮，則可以過濾掉這些詞典已有詞語。確定符合預(yù)先設(shè)定規(guī)則的候選新詞，還可以過濾掉一些不能成為新詞的字符串，如過濾掉以特定字符開始或結(jié)束的字符串，例如以"的"開始的候選新詞不能為新詞，從而可以過濾掉候選新詞的足、的足球、的足球?qū)殹Ｈ鐖D1步驟103所示，將候選新詞作為出現(xiàn)關(guān)鍵詞到搜索引擎(如Google) 做精確搜索和模糊搜索，獲取精確搜索和模糊搜索的返回結(jié)果數(shù)，以及精確搜索的前多條搜索返回結(jié)果記錄。如圖1歩驟104所示，判斷候選新詞是否為新詞，可以從精確搜索返回結(jié) 果數(shù)、模糊搜索返回結(jié)果數(shù)來判斷，例如若精確搜索返回結(jié)果數(shù)大于一閾值，且精確搜索返回結(jié)果數(shù)與模糊搜索返回結(jié)果數(shù)之比大于一閾值，則將候選新詞
作為新詞輸出。或者，如圖1步驟104所示，判斷候選新詞是否為新詞，還可以統(tǒng)計(jì)在精確搜索前多條記錄中候選新詞左側(cè)和右側(cè)的不同字符(或詞語)數(shù)量，如果不同字符(或詞語)的數(shù)量大于一閾值，則將字符串作為新詞輸出。本發(fā)明中所述的所有閥值可以分別通過預(yù)先設(shè)定而得到，也可以通過語料訓(xùn)練而得到。語料訓(xùn)練方法是一種現(xiàn)有技術(shù)，如通過隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)訓(xùn)練語料進(jìn)行訓(xùn)練的方法。其不是本發(fā)明的發(fā)明點(diǎn)，因此，在本發(fā)明中不再一一詳細(xì)描述。本發(fā)明的短文本新詞發(fā)現(xiàn)方法和系統(tǒng)與現(xiàn)有技術(shù)相比，采用計(jì)算機(jī)自動(dòng)處理，能夠有效發(fā)現(xiàn)短文本中的新詞，發(fā)現(xiàn)那些在語料中出現(xiàn)頻次非常低，甚至只出現(xiàn)一次的新詞。當(dāng)然，本發(fā)明還可有其他多種實(shí)施例，在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變型，但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1、一種短文本的新詞發(fā)現(xiàn)方法，其特征在于，包括以下步驟步驟A，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu)成候選新詞集合；步驟B，利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞；步驟C，將候選新詞作為查詢關(guān)鍵詞，在搜索引擎中搜索，并由此統(tǒng)計(jì)返回的搜索結(jié)果以及搜索結(jié)果記錄；步驟D，根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及精確搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。
2、根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法，其特征在于，所述搜索為精確搜索，或者精確搜索和模糊搜索-，所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。
3、根據(jù)權(quán)利要求1或2所述的短文本的新詞發(fā)現(xiàn)方法，其特征在于，所述判斷候選新詞是否為最終新詞，包括以下步驟中的一個(gè)或者一個(gè)以上步驟的組合步驟D1，如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出；步驟D2，如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出；步驟D3，如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。
4、根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟A還包括下列步驟步驟A1，設(shè)定一預(yù)定閥值，短文本中所有連續(xù)多個(gè)字符或者詞語組合所包含的字符或詞語長(zhǎng)度小于所述預(yù)定閾值。步驟A2，將所述組合限制在一個(gè)句子，一個(gè)分句或所有以標(biāo)點(diǎn)符號(hào)隔開的句子單元中。
5、根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟B包括下列步驟步驟Bl，在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí)，如果一個(gè)候選新詞在系統(tǒng)詞典庫出現(xiàn)，則去掉該候選新詞；歩驟B2，在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí)，去掉以特定字符或詞語開始的候選新詞。
6、一種短文本的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，包括獲取模塊，過濾模塊、搜索模塊、判斷模塊，其中所述獲取模塊，獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合，構(gòu)成候選新詞集合；所述過濾模塊，用于利用設(shè)置的系統(tǒng)詞典庫，過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞；所述搜索模塊，用于將候選新詞作為查詢關(guān)鍵詞，在搜索引擎中搜索，并由此統(tǒng)計(jì)返回的搜索結(jié)果以及搜索結(jié)果記錄；所述判斷模塊，用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù)，以及搜索結(jié)果記錄，判斷候選新詞是否為最終新詞。
7、根據(jù)權(quán)利要求6所述的短文本的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，所述搜索為精確搜索，或者精確搜索和模糊搜索；所述搜索結(jié)果為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。
8、根據(jù)權(quán)利要求6或7所述的短文本的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，所述判斷模塊，包括第一判斷模塊，第二判斷模塊，第三判斷模塊，其中所述第一判斷模塊，用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第二判斷模塊，用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值，則將候選新詞作為最終新詞輸出；所述第三判斷模塊，用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值，則將候選新詞作為最終新詞輸出。
9、根據(jù)權(quán)利要求8所述的短文本的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，所述的閥值分別通過預(yù)先設(shè)定而得到，或者通過語料訓(xùn)練而得到。
全文摘要
本發(fā)明公開了一種從短文本中發(fā)現(xiàn)新詞的方法，包括以下步驟獲取短文本中所有多個(gè)連續(xù)字符或詞語，構(gòu)成候選新詞集合；確定符合預(yù)先設(shè)定規(guī)則的候選新詞；將候選新詞作為查詢關(guān)鍵詞，在搜索引擎中進(jìn)行精確搜索和模糊搜索，獲取返回結(jié)果的數(shù)量和前多條精確搜索結(jié)果記錄；利用搜索引擎精確搜索返回結(jié)果數(shù)、模糊搜索結(jié)果數(shù)、精確搜索前多條結(jié)果記錄等判斷候選新詞是否為新詞。本發(fā)明所述方法能夠發(fā)現(xiàn)短文本中出現(xiàn)的新詞，即便該新詞在短文本中就只出現(xiàn)一次，同時(shí)新詞發(fā)現(xiàn)的準(zhǔn)確率也很高。
文檔編號(hào)G06F17/27GK101118556SQ20071012187
公開日2008年2月6日申請(qǐng)日期2007年9月17日優(yōu)先權(quán)日2007年9月17日
發(fā)明者黃玉蘭, 龔才春申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龔才春;黃玉蘭
技術(shù)所有人：中國(guó)科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

新詞發(fā)現(xiàn)算法相關(guān)技術(shù)

新詞發(fā)現(xiàn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法