專利名稱:一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種文本信息處理領(lǐng)域,特別是涉及一種從短文本中發(fā)現(xiàn)新詞 的方法和系統(tǒng)。
背景技術(shù):
在自然語言處理或計(jì)算語言學(xué)中,新詞是指以前從來沒有出現(xiàn)過的詞匯, 或者是以前出現(xiàn)過的詞匯的新用法。新詞一般在詞典中沒有收錄,因此也有不 少人把新詞等同于未登錄詞。
隨著時(shí)代的進(jìn)歩和經(jīng)濟(jì)的發(fā)展,在人們?nèi)粘I畹母鞣礁髅娑疾粩嘤楷F(xiàn)出 大量的新詞,尤其是隨著互聯(lián)網(wǎng)在中國(guó)的日益普及,大量網(wǎng)絡(luò)新詞層出不窮, 日常生活中產(chǎn)生的新詞也得以更快的傳播。據(jù)報(bào)道,我國(guó)每年至少出現(xiàn)漢語新詞或新用法1000個(gè)以上。由于移動(dòng)通信在中國(guó)的普及,手機(jī)短信在中國(guó)成了 男女老少都喜歡的交流方式,在手機(jī)短信中也產(chǎn)生了很多新詞語、新說法;即
時(shí)通信軟件,如騰訊QQ、微軟MSN、雅虎通、Google Talk、 AOL的ICQ等,都擁有龐大的用戶群,每時(shí)每刻都有無數(shù)即時(shí)消息從互聯(lián)網(wǎng)發(fā)送;在線聊天室、 BBS等也都有集聚了眾多的眼球……有大量新詞是通過手機(jī)短信、即時(shí)消息、 BBS等創(chuàng)造并傳播的,從這些短文本中發(fā)現(xiàn)新詞也具有巨大的商業(yè)價(jià)值。
現(xiàn)有技術(shù)的一種利用搜索引擎的用戶搜索日志來發(fā)現(xiàn)新詞的方法,在大量 用戶提交的搜索關(guān)鍵詞中統(tǒng)計(jì)各關(guān)鍵詞的出現(xiàn)頻次,如果大于某個(gè)預(yù)先設(shè)定的 閾值,則作為新詞輸出。該技術(shù)能夠比較準(zhǔn)確、實(shí)時(shí)地發(fā)現(xiàn)互聯(lián)網(wǎng)的新詞,但 是該方法所需要的搜索日志一般只有商用搜索引擎公司可以獲得,一般用戶根 本無法使用該方法。也有學(xué)者提出了 "有意義串"的概念,有意義串一般認(rèn)為是具有特定語義, 能夠獨(dú)立使用的語言單位,其很大一部分就是新詞。
現(xiàn)有技術(shù)中通過考査字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面來判斷字 符串是否是有意義串。有意義串的穩(wěn)定性是指一個(gè)有意義串應(yīng)該具有一定的使 用頻次,不是偶爾出現(xiàn)的字符串;有意義串的獨(dú)立性是指有意義串應(yīng)該使用靈 活,可以在很多語用環(huán)境中出現(xiàn);有意義串的完整性是指有意義串應(yīng)具有完整 的語義?,F(xiàn)有技術(shù)中,判斷一個(gè)字符串是否是有意義的, 一般也可以從穩(wěn)定性、獨(dú) 立性和完整性三個(gè)方面考査。首先統(tǒng)計(jì)字符串在語料中的出現(xiàn)頻次,如果字符 串的出現(xiàn)頻次大于一定閾值, 一般認(rèn)為字符串是穩(wěn)定的;再統(tǒng)計(jì)字符串在語料 中所有出現(xiàn)位置左側(cè)和右側(cè)不同的字符或詞語的數(shù)量,如果左右兩側(cè)不同的字 符或詞語數(shù)量大于一定閾值,則認(rèn)為字符串是獨(dú)立的;然后判斷字符串是否是 完整的,即當(dāng)且僅當(dāng)不存在任何字符串B,字符串A是字符串B的子串,且 字符串A的出現(xiàn)頻次也大于預(yù)先設(shè)定的閾值,則認(rèn)為字符串A是完整的。但是,基于字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面判斷字符串是否為 有意義串或新詞的方法,只適合于從大規(guī)模語料中發(fā)現(xiàn)新詞。當(dāng)給定的語料只是一個(gè)較短的文本,如一篇文章, 一個(gè)段落,甚至只有一 個(gè)句子, 一條手機(jī)短信或一條即時(shí)消息時(shí), 一般情況下該短文本中很難出現(xiàn)頻 次較高的字符串。而現(xiàn)有技術(shù)基于搜索日志的新詞發(fā)現(xiàn)方法需要大量的搜索日 志,基于字符串穩(wěn)定性、獨(dú)立性和完整性的新詞發(fā)現(xiàn)方法也需要大規(guī)模的語料, 這些新詞發(fā)現(xiàn)方法幾乎都不可能發(fā)現(xiàn)單個(gè)短文本中的新詞。例如,如果用戶只 給定了一個(gè)句子"今年的足球?qū)氊愓嫫粒?,假定詞典中已經(jīng)包含詞語今年、 的、足球、寶貝、真、漂亮,現(xiàn)有方法不能從單獨(dú)的這個(gè)句子中發(fā)現(xiàn)"足球?qū)?貝"是一個(gè)新詞。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于提供一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng), 能夠有效地從很短的文本中發(fā)現(xiàn)新詞。為了解決上述問題,本發(fā)明提供了一種短文本的新詞發(fā)現(xiàn)方法,包括以下 步驟步驟A,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu)成候選新詞隹厶.朱口 ;步驟B,利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞;
步驟C,將候選新詞作為査詢關(guān)鍵詞,在搜索引擎中搜索,并由此統(tǒng)計(jì)返 回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄;歩驟D,根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù),以及搜 索結(jié)果記錄,判斷候選新詞是否為最終新詞。所述搜索為精確搜索,或者精確搜索和模糊搜索; 所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量; 所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。 所述判斷候選新詞是否為最終新詞,包括以下步驟中的一個(gè)或者一個(gè)以上步驟的組合歩驟D1,如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則將候選新詞作為 最終新詞輸出;步驟D2,如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾 值,則將候選新詞作為最終新詞輸出;步驟D3,如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符 或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞輸出。所述歩驟A還可以包括下列步驟步驟A1,設(shè)定一預(yù)定閥值,短文本中所有連續(xù)多個(gè)字符或者詞語組合所 包含的字符或詞語長(zhǎng)度小于所述預(yù)定閾值。步驟A2,將所述組合限制在一個(gè)句子, 一個(gè)分句或所有以標(biāo)點(diǎn)符號(hào)隔開 的句子單元中。所述步驟B可以包括下列步驟步驟B1,在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí),如果一個(gè)候選新詞在 系統(tǒng)詞典庫出現(xiàn),則去掉該候選新詞;步驟B2,在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí),去掉以特定字符或詞 語開始的候選新詞。為實(shí)現(xiàn)本發(fā)明還提供一種短文本的新詞發(fā)現(xiàn)系統(tǒng),包括獲取模塊,過濾模 塊、搜索模塊、判斷模塊,其中-所述獲取模塊,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu)成候 選新詞集合;所述過濾模塊,用于利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè)定規(guī)
則的候選新詞;所述搜索模塊,用于將候選新詞作為査詢關(guān)鍵詞,在搜索引擎中搜索,并由此統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄;所述判斷模塊,用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù),以及搜索結(jié)果記錄,判斷候選新詞是否為最終新詞。 所述搜索為精確搜索,或者精確搜索和模糊搜索; 所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量; 所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。 所述判斷模塊,包括第一判斷模塊,第二判斷模塊,第三判斷模塊,其中 所述第一判斷模塊,用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則將候選新詞作為最終新詞輸出;所述第二判斷模塊,用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾值,則將候選新詞作為最終新詞輸出;所述第三判斷模塊,用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞輸出。 所述的閥值分別通過預(yù)先設(shè)定而得到,或者通過語料訓(xùn)練而得到。 本發(fā)明的短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)1、采用計(jì)算機(jī)自動(dòng)處理,能夠有效發(fā)現(xiàn)短文本中的新詞。2、能夠有效發(fā)現(xiàn)那些在語料中出現(xiàn)頻次非常低,甚至只出現(xiàn)一次的新詞。
圖1是本發(fā)明短文本的新詞發(fā)現(xiàn)方法的流程示意圖; 圖2是本發(fā)明短文本的新詞發(fā)現(xiàn)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí) 施例,對(duì)本發(fā)明的一種短文本的新詞發(fā)現(xiàn)方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng) 當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明的核心思想在于,當(dāng)文本規(guī)模非常小,甚至只有一個(gè)句子時(shí),能夠 有效發(fā)現(xiàn)短文本中的新詞。并且,本發(fā)明用搜索引擎分別精確搜索和模糊搜索
短文本中的候選新詞,這相當(dāng)于使用了搜索引擎龐大的數(shù)據(jù)庫作為語料,相當(dāng) 于擴(kuò)展文本的規(guī)模,從而能夠發(fā)現(xiàn)短文本中的新詞。如圖1所示,本發(fā)明利用搜索引擎從短文本中發(fā)現(xiàn)新詞的方法包括以下歩驟步驟IOI,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu)成候選新 詞集合;獲取短文本中所有候選新詞,產(chǎn)生短文本中所有連續(xù)的字符或詞語的組合。其中,既可以獲取短文本中所有連續(xù)若干字符的組合,也可以獲取連續(xù)若 干詞語的組合。所述短文本既可以是一個(gè)句子,也可以是多個(gè)句子的組合。 較佳地,為了降低處理規(guī)模,可以對(duì)組合包含的字符或詞語數(shù)設(shè)定一個(gè)最 大值,即候選新詞長(zhǎng)度小于一閾值。并且,可以將組合限制在一個(gè)句子, 一個(gè) 分句或所有以標(biāo)點(diǎn)符號(hào)隔開的句子單元中,即保證候選新詞中不出現(xiàn)逗號(hào)、句 號(hào)、疑問號(hào)、感嘆號(hào)等標(biāo)點(diǎn)符號(hào)。歩驟102,利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè)定規(guī)則的候選 新詞。其中,可以設(shè)置一個(gè)系統(tǒng)詞典庫,如果一個(gè)候選新詞在系統(tǒng)詞典庫中出現(xiàn), 則去掉該候選新詞。還可以去掉以某些特定字符或詞語開始的候選新詞。步驟103,將候選新詞作為査詢關(guān)鍵詞,在搜索引擎中進(jìn)行精確搜索,或 進(jìn)行精確搜索和模糊搜索,并由此統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié) 果數(shù)量、以及返回的精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。其中,通過將候選新詞作為査詢關(guān)鍵詞,到搜索引擎進(jìn)行精確搜索,可獲 得返回的精確搜索結(jié)果數(shù)量和前多條精確搜索結(jié)果記錄。通過將候選新詞作為 查詢關(guān)鍵詞直接輸入到搜索框査詢,到搜索引擎進(jìn)行模糊搜索,可獲得返回的 模糊搜索結(jié)果數(shù)量。所述的前多條精確搜索結(jié)果記錄,指利用搜索引擎進(jìn)行精確搜索,得到的 結(jié)果記錄中,排序在前的,并被搜索引擎認(rèn)為,與査詢關(guān)鍵詞相關(guān)度較高的多 條搜索結(jié)果記錄,例如,利用Google搜索引擎進(jìn)行精確搜索,返回得到10000 條搜索結(jié)果記錄,則前多條精確搜索結(jié)果記錄,可以是其返回結(jié)果中的前10
條或者前100條等精確搜索結(jié)果記錄。
所述搜索引擎是一種現(xiàn)有技術(shù),如Google搜索引擎,百度搜索引擎,Yahoo 搜索引擎等各種公開公用的搜索引擎或者其它的專用搜索引擎。在這些搜索引 擎中,可以進(jìn)行精確搜索和模糊搜索,并獲得搜索結(jié)果及其排名。本領(lǐng)域技術(shù) 人員根據(jù)本發(fā)明的描述,可以實(shí)現(xiàn)通過現(xiàn)有搜索引擎利用精確搜索和模糊搜 索,獲得搜索結(jié)果和排名,因此,在本發(fā)明中不再一一詳細(xì)描述。
步驟104,根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù),以及 精確搜索結(jié)果記錄,判斷候選新詞是否為最終新詞。
在本發(fā)明中,可以通過如下幾個(gè)步驟中的其中一個(gè)或任意幾個(gè)步驟來判斷確定最終新詞(1) 如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則將候選新詞作為 最終新詞輸出。(2) 如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾 值,則將候選新詞作為最終新詞輸出。(3) 如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符 或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞 輸出。
例如,如果對(duì)于候選新詞"足球?qū)氊?,在比較常用的搜索引擎如百度中 精確搜索"足球?qū)氊?可以返回4,440,000個(gè)返回結(jié)果,模糊搜索"足球?qū)氊? 可以返回4,450,000個(gè)返回結(jié)果,可以看出"足球?qū)氊? 一詞在互聯(lián)網(wǎng)上已經(jīng) 非常頻繁地出現(xiàn)了,把"足球?qū)氊?作為新詞輸出。
再例如,若將第二閾值設(shè)為60%,如果某個(gè)候選新詞的精確搜索結(jié)果為 2000個(gè),模糊搜索結(jié)果為3000個(gè),那么兩者比值為66.6%,大于該第二閾值 60%,故應(yīng)將該候選新詞作為新詞輸出。
再例如,若候選新詞"禽流感"有如下五條返回結(jié)果記錄 鐘南山透霧禽流感病毒滯未剪顯^異。 廣東游你控禽流感形勢(shì)遭緩。 有7 乂感染禽流感事伴。 發(fā)觀 一宗禽流感疑似病樹。
領(lǐng)布5條禁令防控禽流感。 則"禽流感"左側(cè)的字符分別為{露,控,染,宗,控},右側(cè)的字符為{病,形,事,疑,EOS},因此左側(cè)不同的字符為{露,控、染,宗},右側(cè)不同的 字符為{病,形,事,疑,EOS},其中EOS表示句子結(jié)束。在百度中精確搜索"火速桌面搜索"返回2,690個(gè)結(jié)果,而模糊搜索"火 速桌面搜索"返回250,000個(gè)結(jié)果。獲取精確搜索"火速桌面搜索"的前100 條結(jié)果記錄,"火速桌面搜索"左右側(cè)不同的字符數(shù)分別為124和97,若左 右側(cè)不同字符數(shù)閾值為90,則"火速桌面搜索"作為新詞輸出。相應(yīng)于本發(fā)明的短文本新詞發(fā)現(xiàn)方法,本發(fā)明還提供一種短文本的新詞發(fā) 現(xiàn)系統(tǒng),如圖2所示,其包括獲取模塊21,過濾模塊22、搜索模塊23、判斷 模塊24,其中所述獲取模塊21,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu) 成候選新詞集合。所述過濾模塊22,用于利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè) 定規(guī)則的候選新詞。所述搜索模塊23,用于將候選新詞作為查詢關(guān)鍵詞,在搜索引擎中搜索, 并由此統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量以及搜索結(jié)果記錄。所述判斷模塊24,用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索 結(jié)果數(shù),以及精確搜索結(jié)果記錄,判斷候選新詞是否為最終新詞。較佳地,所述判斷模塊24,包括第一判斷模塊241,第二判斷模塊242, 第三判斷模塊243,其中所述第一判斷模塊241,用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則 將候選新詞作為最終新詞輸出;所述第二判斷模塊242,用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值 大于第二預(yù)定閾值,則將候選新詞作為最終新詞輸出;所述第三判斷模塊243,用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右 側(cè)不同的字符或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞輸 出。本發(fā)明的短文本新詞發(fā)現(xiàn)系統(tǒng),以與本發(fā)明的短文本新詞發(fā)現(xiàn)方法相同的
過程工作,因此,在本發(fā)明實(shí)施例中,不再一一重復(fù)描述。下面結(jié)合圖1,以一具體實(shí)施例詳細(xì)說明本發(fā)明在短文本中發(fā)現(xiàn)新詞的方 法和系統(tǒng)。例如,如果用戶只給定了一個(gè)句子"今年的足球?qū)氊愓嫫粒?,如系統(tǒng) 詞典庫只已經(jīng)包含詞語今年、的、足球、寶貝、真、漂亮,現(xiàn)有方法幾乎都不 可能從單獨(dú)的這個(gè)句子中發(fā)現(xiàn)"足球?qū)氊?是一個(gè)新詞,而候選新詞"足球?qū)氊?在比較常用的搜索引擎如百度中精確搜索"足球?qū)氊?可以返回4,440,000 個(gè)返回結(jié)果,模糊搜索"足球?qū)氊?可以返回4,450,000個(gè)返回結(jié)果,可以看 出在一般網(wǎng)頁中若既出現(xiàn)"足球"一詞,又出現(xiàn)"寶貝"一詞,則很可能是"足 球"和"寶貝"連續(xù)出現(xiàn)且"足球"在"寶貝"之前,候選新詞"足球?qū)氊? 很可能是一個(gè)新詞。如圖1中步驟101所示,獲取文本中所有候選新詞,就是產(chǎn)生文本中所 有連續(xù)的字符或詞語的組合。例如若字符組合最大長(zhǎng)度為4,則文本"今年的 足球?qū)氊愓嫫?包含的候選新詞有*今年、年的、的足、足球、球?qū)?、寶貝、貝真、真漂、漂?*今年的、年的足、的足球、足球?qū)?、球?qū)氊?、寶貝真、真漂?*今年的足、年的足球、的足球?qū)殹⒆闱驅(qū)氊?、球?qū)氊愓?、寶貝真漂?貝真漂亮如圖1步驟102所示,確定符合預(yù)先設(shè)定規(guī)則的候選新詞,就是對(duì)歩驟 101中產(chǎn)生的候選新詞按照一些規(guī)則進(jìn)行過濾,例如,系統(tǒng)詞典庫已經(jīng)包含詞語今年、足球、寶貝、漂亮,則可以過濾掉這些詞典已有詞語。確定符合預(yù)先設(shè)定規(guī)則的候選新詞,還可以過濾掉一些不能成為新詞的字 符串,如過濾掉以特定字符開始或結(jié)束的字符串,例如以"的"開始的候選新詞不能為新詞,從而可以過濾掉候選新詞的足、的足球、的足球?qū)殹H鐖D1步驟103所示,將候選新詞作為出現(xiàn)關(guān)鍵詞到搜索引擎(如Google) 做精確搜索和模糊搜索,獲取精確搜索和模糊搜索的返回結(jié)果數(shù),以及精確搜 索的前多條搜索返回結(jié)果記錄。如圖1歩驟104所示,判斷候選新詞是否為新詞,可以從精確搜索返回結(jié) 果數(shù)、模糊搜索返回結(jié)果數(shù)來判斷,例如若精確搜索返回結(jié)果數(shù)大于一閾值, 且精確搜索返回結(jié)果數(shù)與模糊搜索返回結(jié)果數(shù)之比大于一閾值,則將候選新詞
作為新詞輸出。或者,如圖1步驟104所示,判斷候選新詞是否為新詞,還可以統(tǒng)計(jì)在精 確搜索前多條記錄中候選新詞左側(cè)和右側(cè)的不同字符(或詞語)數(shù)量,如果不 同字符(或詞語)的數(shù)量大于一閾值,則將字符串作為新詞輸出。本發(fā)明中所述的所有閥值可以分別通過預(yù)先設(shè)定而得到,也可以通過語料 訓(xùn)練而得到。語料訓(xùn)練方法是一種現(xiàn)有技術(shù),如通過隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)訓(xùn)練語料進(jìn)行訓(xùn)練的方法。其不是本發(fā)明的發(fā)明點(diǎn),因此, 在本發(fā)明中不再一一詳細(xì)描述。本發(fā)明的短文本新詞發(fā)現(xiàn)方法和系統(tǒng)與現(xiàn)有技術(shù)相比,采用計(jì)算機(jī)自動(dòng)處 理,能夠有效發(fā)現(xiàn)短文本中的新詞,發(fā)現(xiàn)那些在語料中出現(xiàn)頻次非常低,甚至 只出現(xiàn)一次的新詞。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情 況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變型,但 這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1、一種短文本的新詞發(fā)現(xiàn)方法,其特征在于,包括以下步驟步驟A,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu)成候選新詞集合;步驟B,利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞;步驟C,將候選新詞作為查詢關(guān)鍵詞,在搜索引擎中搜索,并由此統(tǒng)計(jì)返回的搜索結(jié)果以及搜索結(jié)果記錄;步驟D,根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果數(shù),以及精確搜索結(jié)果記錄,判斷候選新詞是否為最終新詞。
2、 根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法,其特征在于,所述搜 索為精確搜索,或者精確搜索和模糊搜索-,所述搜索結(jié)果數(shù)量為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量; 所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。
3、 根據(jù)權(quán)利要求1或2所述的短文本的新詞發(fā)現(xiàn)方法,其特征在于,所 述判斷候選新詞是否為最終新詞,包括以下步驟中的一個(gè)或者一個(gè)以上步驟的 組合步驟D1,如果精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則將候選新詞作為 最終新詞輸出;步驟D2,如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第二預(yù)定閾 值,則將候選新詞作為最終新詞輸出;步驟D3,如果在前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不同的字符 或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞輸出。
4、 根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法,其特征在于,所述步 驟A還包括下列步驟步驟A1,設(shè)定一預(yù)定閥值,短文本中所有連續(xù)多個(gè)字符或者詞語組合所 包含的字符或詞語長(zhǎng)度小于所述預(yù)定閾值。步驟A2,將所述組合限制在一個(gè)句子, 一個(gè)分句或所有以標(biāo)點(diǎn)符號(hào)隔開 的句子單元中。
5、 根據(jù)權(quán)利要求1所述的短文本的新詞發(fā)現(xiàn)方法,其特征在于,所述步 驟B包括下列步驟步驟Bl,在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí),如果一個(gè)候選新詞在 系統(tǒng)詞典庫出現(xiàn),則去掉該候選新詞;歩驟B2,在確定符合預(yù)先設(shè)定規(guī)則的候選新詞時(shí),去掉以特定字符或詞語開始的候選新詞。
6、 一種短文本的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,包括獲取模塊,過濾模塊、搜索模塊、判斷模塊,其中所述獲取模塊,獲取短文本的所有連續(xù)的多個(gè)字符或詞語的組合,構(gòu)成候選新詞集合;所述過濾模塊,用于利用設(shè)置的系統(tǒng)詞典庫,過濾并確定符合預(yù)先設(shè)定規(guī)則的候選新詞;所述搜索模塊,用于將候選新詞作為查詢關(guān)鍵詞,在搜索引擎中搜索,并 由此統(tǒng)計(jì)返回的搜索結(jié)果以及搜索結(jié)果記錄;所述判斷模塊,用于根據(jù)搜索模塊得到的精確搜索結(jié)果數(shù)和模糊搜索結(jié)果 數(shù),以及搜索結(jié)果記錄,判斷候選新詞是否為最終新詞。
7、 根據(jù)權(quán)利要求6所述的短文本的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述搜 索為精確搜索,或者精確搜索和模糊搜索;所述搜索結(jié)果為精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量; 所述搜索結(jié)果記錄為精確搜索結(jié)果中的前多條精確搜索結(jié)果記錄。
8、 根據(jù)權(quán)利要求6或7所述的短文本的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所 述判斷模塊,包括第一判斷模塊,第二判斷模塊,第三判斷模塊,其中所述第一判斷模塊,用于當(dāng)精確搜索結(jié)果數(shù)量大于第一預(yù)定閾值,則將候 選新詞作為最終新詞輸出;所述第二判斷模塊,用于當(dāng)精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于 第二預(yù)定閾值,則將候選新詞作為最終新詞輸出;所述第三判斷模塊,用于當(dāng)前多條精確搜索結(jié)果記錄中候選新詞左右側(cè)不 同的字符或詞語數(shù)量均大于第三預(yù)定閾值,則將候選新詞作為最終新詞輸出。
9、 根據(jù)權(quán)利要求8所述的短文本的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述的 閥值分別通過預(yù)先設(shè)定而得到,或者通過語料訓(xùn)練而得到。
全文摘要
本發(fā)明公開了一種從短文本中發(fā)現(xiàn)新詞的方法,包括以下步驟獲取短文本中所有多個(gè)連續(xù)字符或詞語,構(gòu)成候選新詞集合;確定符合預(yù)先設(shè)定規(guī)則的候選新詞;將候選新詞作為查詢關(guān)鍵詞,在搜索引擎中進(jìn)行精確搜索和模糊搜索,獲取返回結(jié)果的數(shù)量和前多條精確搜索結(jié)果記錄;利用搜索引擎精確搜索返回結(jié)果數(shù)、模糊搜索結(jié)果數(shù)、精確搜索前多條結(jié)果記錄等判斷候選新詞是否為新詞。本發(fā)明所述方法能夠發(fā)現(xiàn)短文本中出現(xiàn)的新詞,即便該新詞在短文本中就只出現(xiàn)一次,同時(shí)新詞發(fā)現(xiàn)的準(zhǔn)確率也很高。
文檔編號(hào)G06F17/27GK101118556SQ20071012187
公開日2008年2月6日 申請(qǐng)日期2007年9月17日 優(yōu)先權(quán)日2007年9月17日
發(fā)明者黃玉蘭, 龔才春 申請(qǐng)人:中國(guó)科學(xué)院計(jì)算技術(shù)研究所