亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法

文檔序號(hào):6613582閱讀:185來源:國知局
專利名稱:一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種文本信息處理領(lǐng)域,特別是一種利用搜索引擎來輔助發(fā)現(xiàn) 語料中新詞的方法和系統(tǒng)。
背景技術(shù)
在自然語言處理或計(jì)算語言學(xué)中,新詞是指以前從來沒有出現(xiàn)過的詞匯, 或者是以前出現(xiàn)過的詞匯的新用法。新詞一般在詞典中沒有收錄,因此也有不 少人把新詞等同于未登錄詞。隨著時(shí)代的進(jìn)步和經(jīng)濟(jì)的發(fā)展,在人們?nèi)粘I畹母鞣礁髅娑疾粩嘤楷F(xiàn)出 大量的新詞,尤其是隨著互聯(lián)網(wǎng)在中國的日益普及,大量網(wǎng)絡(luò)新詞層出不窮, 日常生活中產(chǎn)生的新詞也得以更快的傳播。據(jù)報(bào)道,我國每年至少出現(xiàn)漢語新詞或新用法iooo個(gè)以上。新詞出現(xiàn)的速度不斷加快,新詞出現(xiàn)的領(lǐng)域不斷增多,而使用傳統(tǒng)的人工方法搜集新詞語并編篡詞典的方法,既耗時(shí)又耗力,而 且很難保證不遺漏新詞。人們迫切需要使用自動(dòng)檢測(cè)方法快速輸出若干候選新 詞供人工篩選,從而減輕工作量。在每個(gè)學(xué)科和領(lǐng)域都有相應(yīng)的領(lǐng)域術(shù)語,收 集和整理這些領(lǐng)域術(shù)語對(duì)各領(lǐng)域的學(xué)術(shù)研究和交流也具有重要的意義。然而領(lǐng)域?qū)<乙话悴皇窃~典編篡專家,領(lǐng)域?qū)<乙话愫茈y勝任領(lǐng)域術(shù)語的編篡工作; 而詞典編篡專家一般也不是特定領(lǐng)域的技術(shù)專家,所以詞典編篡專家也很難單 獨(dú)編寫各領(lǐng)域的領(lǐng)域詞典。人們?cè)诰幋垲I(lǐng)域詞典的時(shí)候也迫切希望通過計(jì)算機(jī) 處理相關(guān)的領(lǐng)域語料,自動(dòng)挖掘該領(lǐng)域的候選術(shù)語集合,在此基礎(chǔ)上進(jìn)行人工編篡c現(xiàn)有一種利用搜索引擎的用戶搜索日志來發(fā)現(xiàn)新詞的方法,在大量用戶提 交的搜索關(guān)鍵詞中統(tǒng)計(jì)各關(guān)鍵詞的出現(xiàn)頻次,如果大于某個(gè)預(yù)先設(shè)定的閾值, 則作為新詞輸出,該方法能夠比較準(zhǔn)確、實(shí)時(shí)地發(fā)現(xiàn)互聯(lián)網(wǎng)的新詞。但是其很 難用于特定領(lǐng)域的術(shù)語抽取和領(lǐng)域詞典編篡,而且該方法所需要的搜索日志一 般只有商用搜索引擎公司可以獲得, 一般用戶根本無法使用該方法。
也有學(xué)者提出了 "有意義串"的概念,有意義串一般認(rèn)為是具有特定語義, 能夠獨(dú)立使用的語言單位,其很大一部分就是新詞?,F(xiàn)有技術(shù)一般通過考查字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面來判斷 字符串是否是有意義串。有意義串的穩(wěn)定性是指一個(gè)有意義串應(yīng)該具有一定的 使用頻次,不是偶爾出現(xiàn)的字符串;有意義串的獨(dú)立性是指有意義串應(yīng)該使用 靈活,可以在很多語用環(huán)境中出現(xiàn);有意義串的完整性是指有意義串應(yīng)具有完整的語義?,F(xiàn)有技術(shù)中,判斷一個(gè)字符串是否是有意義的, 一般也可以從穩(wěn)定性、獨(dú) 立性和完整性三個(gè)方面考査。首先統(tǒng)計(jì)字符串在語料中的出現(xiàn)頻次,如果字符串的出現(xiàn)頻次大于一定閾值, 一般認(rèn)為字符串是穩(wěn)定的;再統(tǒng)計(jì)字符串在語料 中所有出現(xiàn)位置左側(cè)和右側(cè)不同的字符或詞語的數(shù)量,如果左右兩側(cè)不同的字 符或詞語數(shù)量大于一定閾值,則認(rèn)為字符串是獨(dú)立的;然后判斷字符串A是 否是完整的,即當(dāng)且僅當(dāng)不存在任何字符串B,字符串A是B的子串,且字 符串B的出現(xiàn)頻次也大于預(yù)先設(shè)定的閾值。但是,基于字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面判斷字符串是否為 有意義串或新詞的方法,很難設(shè)定一個(gè)合適的閾值。閾值太小,新詞發(fā)現(xiàn)的準(zhǔn) 確率很低,很多沒有意義的垃圾串有可能輸出;閾值太大,語料中部分有意義 串或新詞將不能輸出?;谧址姆€(wěn)定性、獨(dú)立性和完整性的方法也只能識(shí) 別大規(guī)模語料中出現(xiàn)頻次比較高的那部分新詞,對(duì)于部分具有明確語義,能夠 獨(dú)立使用的新詞,很可能由于在語料中的使用頻次不是很高而不能輸出。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于提供一種新詞發(fā)現(xiàn)方法和系統(tǒng),既能夠有 效發(fā)現(xiàn)語料中的高頻新詞,又能有效發(fā)現(xiàn)語料中出現(xiàn)頻次較低的新詞。為了解決上述問題,本發(fā)明提供了一種新詞發(fā)現(xiàn)方法,其特點(diǎn)在于,包括 以下步驟步驟A,獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串; 歩驟B,確定符合預(yù)先設(shè)定規(guī)則的字符串;步驟C,對(duì)剩余的字符串,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不 同字符或詞語的數(shù)量;
步驟D,將所述剩余的字符串左右側(cè)不同字符或詞語數(shù)均大于第二預(yù)設(shè)閾 值的字符串,作為新詞輸出;步驟E,將剩下的字符串作為查詢關(guān)鍵詞,到搜索引擎中進(jìn)行搜索,統(tǒng)計(jì) 返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄;步驟F,根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值比較結(jié)果, 判斷并確定最終新詞。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,所述步驟A中,所述獲取字符串是使用 重復(fù)串發(fā)現(xiàn)方法獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,所述重復(fù)串發(fā)現(xiàn)方法為基于后綴樹索引的 重復(fù)串發(fā)現(xiàn)方法、基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法、基于N元遞增的重復(fù)串 發(fā)現(xiàn)方法、以及基于Apriori的重復(fù)串發(fā)現(xiàn)方法中的一種。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,確定符合預(yù)先設(shè)定規(guī)則的字符串,所述步 驟B中,所述預(yù)先設(shè)定規(guī)則為去掉以特定字符開始的字符串;和/或去掉以特定字符結(jié)束的字符串。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,所述步驟E中,所述在搜索引擎中進(jìn)行搜 索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄,包括如下步驟在搜索引擎中進(jìn)行精確搜索,或進(jìn)行精確搜索和模糊搜索,統(tǒng)計(jì)返回的精 確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及精確搜索前多條結(jié)果記錄。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,所述歩驟E中,返回的搜索結(jié)果數(shù)量和搜 索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果,具體為返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值;和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值;和/或字符串在精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量 均大于第五預(yù)設(shè)閾值。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,通過將剩下的字符串作為查詢關(guān)鍵詞直接 輸入到搜索框查詢,分別到搜索引擎進(jìn)行精確搜索和模糊搜索,獲得返回的精 確搜索結(jié)果數(shù)量和模糊搜索結(jié)果數(shù)量。優(yōu)選的,所述的新詞發(fā)現(xiàn)方法,所述步驟F中,所述判斷并確定最終新詞, 包括以下步驟中的一個(gè)或一個(gè)以上的組合 步驟Fl,如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值,則將該字符串 作為最終新詞輸出;步驟F2,如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù) 設(shè)閾值,則將該字符串作為最終新詞輸出;步驟F3,如果在精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符 或詞語數(shù)量均大于所述第五預(yù)設(shè)閾值,則將該字符串作為最終新詞輸出。為實(shí)現(xiàn)本發(fā)明目的還提供一種新詞發(fā)現(xiàn)系統(tǒng),包括獲取模塊,過濾模塊, 搜索模塊和判斷模塊,其中所述獲取模塊,用于獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閥值的所有字符串;所述過濾模塊,用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合,并對(duì)符合預(yù)先 設(shè)定規(guī)則的字符串,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞 語的數(shù)量,將左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串作為新詞輸 出;所述搜索模塊,用于將剩下的字符串作為査詢關(guān)鍵詞,在搜索引擎中進(jìn)行 搜索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄;所述判斷模塊,用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值 的比較結(jié)果,判斷并確定最終新詞。所述搜索模塊中的搜索是指精確搜索,或者精確搜索和模糊搜索;所述搜 索模塊中的搜索結(jié)果數(shù)量,是指精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量;所述 搜索模塊中的搜索結(jié)果記錄,是指精確搜索前多條結(jié)果記錄。所述判斷模塊中返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較 結(jié)果,是指返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值;和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值; 和/或字符串在返回的精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞 語數(shù)量均大于第五預(yù)設(shè)閾值。本發(fā)明所述方法與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)1、采用計(jì)算機(jī)自動(dòng)處理,獲取語料中的新詞,可以大大縮減人工收集和 整理新詞的時(shí)間;
2、 如果語料為特定領(lǐng)域的語料,則可以實(shí)現(xiàn)領(lǐng)域術(shù)語的挖掘并實(shí)現(xiàn)領(lǐng)域 詞典的自動(dòng)生成,縮減領(lǐng)域?qū)<液驮~典編篡專家的工作量;3、 不僅可以發(fā)現(xiàn)大規(guī)模語料的新詞,也可以發(fā)現(xiàn)小規(guī)模語料的新詞;既 可以發(fā)現(xiàn)語料中出現(xiàn)頻次較高的新詞,也可以發(fā)現(xiàn)語料中頻次較低的新詞。


圖1是本發(fā)明新詞發(fā)現(xiàn)方法過程的流程圖; 圖2是本發(fā)明新詞發(fā)現(xiàn)系統(tǒng)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí) 施例,對(duì)本發(fā)明的一種新詞發(fā)現(xiàn)方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解, 此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。本發(fā)明的核心思想在于,當(dāng)一個(gè)字符串在語料中的出現(xiàn)頻次較低時(shí),已有 的方法無法有效判斷該字符串是否為新詞;或者當(dāng)語料規(guī)模不足夠大時(shí),可能 語料中有很多新詞由于頻次不是很高而不能有效識(shí)別,而本發(fā)明到搜索引擎分 別精確搜索和/或模糊搜索低頻字符串,這相當(dāng)于使用了搜索引擎索引了的龐 大的數(shù)據(jù)庫作為語料,無疑擴(kuò)展了語料的規(guī)模,從而能夠發(fā)現(xiàn)一部分原始語料 中頻次較低的新詞。例如,在《西游記》 一書中,"鐵扇公主" 一詞只在孫行者三調(diào)芭蕉扇時(shí) 出現(xiàn),而在其它章節(jié)沒有出現(xiàn),在《西游記》全書中總共才出現(xiàn)6次,使用已 有方法幾乎都不可能發(fā)現(xiàn)這個(gè)新詞。而在百度中精確搜索可以找到251,000篇 與"鐵扇公主"相關(guān)的網(wǎng)頁,通過對(duì)精確搜索返回結(jié)果數(shù)量和精確搜索返回結(jié) 果記錄左右側(cè)不同字符數(shù)量的統(tǒng)計(jì)都可以識(shí)別"鐵扇公主"為新詞。本發(fā)明利用搜索引擎發(fā)現(xiàn)新詞的方法包括以下步驟步驟Sl,獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串。步驟S2,確定符合預(yù)先設(shè)定規(guī)則的字符串。所述預(yù)先設(shè)定的規(guī)則可以是 去掉以特定字符開始的字符串;和/或去掉以特定字符結(jié)束的字符串。步驟S3,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的 數(shù)量。
例如,假設(shè)字符串"禽流感"在如下五個(gè)句子出現(xiàn) 鐘南1//透露禽流感病毒滯未剪顯變異。 廣東的鵬禽流慼形勢(shì)遭緩。7 A感染禽流感事伴。 發(fā)現(xiàn)一宗禽流感疑似病樹。 領(lǐng)布5條禁令你控禽流感。 則"禽流感"左側(cè)的字符分別為{露,控,染,宗,控},右側(cè)的字符為{病, 形,事,疑,EOS},因此左側(cè)不同的字符有為{露,控、染,宗},右側(cè)不同的字符為{病,形,事,疑,EOS},其中EOS表示句子結(jié)束。通過這種方法 即可計(jì)算出每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量。步驟S4,若字符串左右側(cè)不同字符或詞語數(shù)均大于第二預(yù)設(shè)閾值,則將 該字符串作為新詞輸出。步驟S5,將剩下的字符串作為查詢關(guān)鍵詞,到搜索引擎中進(jìn)行精確搜索, 或進(jìn)行精確搜索和模糊搜索,并由此統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索 結(jié)果數(shù)量、以及精確搜索的前多條結(jié)果記錄;步驟S6,若返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值,和/或精確搜索結(jié) 果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值,和/或字符串在精確搜索前 多條返回結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值,則將 該字符串作為新詞輸出。在本發(fā)明中,利用搜索引擎進(jìn)行精確搜索和模糊搜索,根據(jù)精確搜索返回 結(jié)果數(shù)、模糊搜索返回結(jié)果數(shù)、以及精確搜索前多條結(jié)果記錄等,判斷剩下的 字符串(即頻次較低的字符串)是否為新詞,例如,通過如下幾個(gè)步驟中的其 中 一個(gè)或任意幾個(gè)步驟來輔助判斷剩下的字符串是否為新詞(1) 如果精確搜索結(jié)果數(shù)量大于第三預(yù)設(shè)閾值,則將該字符串作為 新詞輸出。(2) 如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾 值,則將該字符串作為新詞輸出。(3) 如果在前多條精確搜索結(jié)果記錄中該字符串左右側(cè)不同的字符 或詞語數(shù)量均大于第五預(yù)設(shè)閾值,則將該字符串作為最終新詞 輸出。 例如,如果在剩下的字符串中有"足球?qū)氊?,在比較常用的搜索引擎如百度中精確搜索"足球?qū)氊?可以返回4,440,000個(gè)返回結(jié)果,模糊搜索"足 球?qū)氊?可以返回4,450,000個(gè)返回結(jié)果,可以看出在一般網(wǎng)頁中若既出現(xiàn)"足 球" 一詞,又出現(xiàn)"寶貝" 一詞,則很可能是"足球"和"寶貝"連續(xù)出現(xiàn)且 "足球"在"寶貝"之前,字符串"足球?qū)氊?很可能是一個(gè)新詞。再例如,在百度中精確搜索"火速桌面搜索"返回2,690個(gè)結(jié)果,而模糊 搜索"火速桌面搜索"返回250,000個(gè)結(jié)果。獲取精確搜索"火速桌面搜索" 的前100條結(jié)果記錄,"火速桌面搜索"左右側(cè)不同的字符數(shù)分別為124和 97,若左右側(cè)不同字符數(shù)閾值為90,則"火速桌面搜索"應(yīng)作為新詞輸出。本發(fā)明中所述的所有閥值可以分別通過預(yù)先設(shè)定而得到,也可以通過語料 訓(xùn)練而得到。語料訓(xùn)練方法是一種現(xiàn)有技術(shù),如通過隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)訓(xùn)練語料進(jìn)行訓(xùn)練的方法。其不是本發(fā)明的發(fā)明點(diǎn),因此, 在本發(fā)明中不再一一詳細(xì)描述。下面結(jié)合圖1對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行詳細(xì)說明。步驟101,獲取語料中所有出現(xiàn)頻次大于預(yù)設(shè)閾值的字符串。可以使用各種重復(fù)串發(fā)現(xiàn)方法,或者是基于后綴樹索引的重復(fù)串發(fā)現(xiàn)方法;或者是基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法;或者是基于N元遞增的重復(fù)串發(fā)現(xiàn)方法;或者是基于Apriori的重復(fù)串發(fā)現(xiàn)方法等,來獲取語料中所有出現(xiàn)頻次大于預(yù)設(shè)閥值的字符串。重復(fù)串發(fā)現(xiàn)方法可以基于字符發(fā)現(xiàn)頻次大于閾值的若干個(gè)連續(xù)的字符,也可以先對(duì)語料進(jìn)行分詞,發(fā)現(xiàn)頻次大于閾值的若干個(gè)連續(xù)的詞語。步驟102,確定符合預(yù)先設(shè)定規(guī)則的字符串,對(duì)步驟101中產(chǎn)生的字符串按照預(yù)先設(shè)定的規(guī)則進(jìn)行過濾,過濾掉一些不能為新詞的字符串,過濾掉以特定字符開始或結(jié)束的字符串,例如以"們"開始的字符串或以"的"結(jié)束的字符串很多都不能為新詞,可以過濾掉。步驟103,統(tǒng)計(jì)字符串左側(cè)右側(cè)不同的字符(或詞語)的數(shù)量,如果左側(cè)或右側(cè)不同的字符(或詞語)的數(shù)量大于一預(yù)先設(shè)定的閾值,則將字符串作為新詞輸出。步驟104,將剩下的字符串作為出現(xiàn)關(guān)鍵詞到搜索引擎(如Google)做精 確搜索和模糊搜索,獲取精確搜索和模糊搜索的返回結(jié)果數(shù),若精確搜索返回 結(jié)果數(shù)大于一閾值,或精確搜索返回結(jié)果數(shù)與模糊搜索返回結(jié)果數(shù)之比大于一 閾值,則將該字符串作為新詞輸出。步驟105,獲取精確搜索的前多條搜索記錄。步驟106,統(tǒng)計(jì)在精確搜索前多條記錄中字符串左側(cè)和右側(cè)的不同字符 (或詞語),如果左右兩側(cè)不同字符(或詞語)的數(shù)量均大于一定閾值,則將 字符串作為新詞輸出。相應(yīng)于本發(fā)明的新詞發(fā)現(xiàn)方法,本發(fā)明還提供一種新詞發(fā)現(xiàn)系統(tǒng),其包括 獲取模塊,過濾模塊,搜索模塊和判斷模塊,其中所述獲取模塊,用于獲取語料中所有出現(xiàn)頻次大于第一預(yù)設(shè)閥值的字符串;所述過濾模塊,用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合,過濾掉不符合預(yù)先設(shè)定規(guī)則的字符串;并對(duì)符合預(yù)先設(shè)定規(guī)則的字符串,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量,若字符串左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值,則將字符串作為新詞輸出;所述搜索模塊,用于將剩下的字符串作為査詢關(guān)鍵詞,在搜索引擎中進(jìn)行 搜索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄;所述判斷模塊,用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值 的比較結(jié)果,判斷并確定最終新詞。搜索模塊在搜索引擎中進(jìn)行精確搜索,或進(jìn)行精確搜索和模糊搜索,統(tǒng)計(jì) 返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及返回的精確搜索前多條結(jié) 果記錄。判斷模塊中將返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié) 果,是指返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值;和/或精確搜索結(jié)果數(shù) 與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值;和/或字符串在精確搜索返回的 前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。判斷模塊判斷并確定最終新詞,是指以下過程中的一個(gè)或一個(gè)以上的組合.如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值,則將該字符串作為最終新
詞輸出;如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù)設(shè)閾值,則 將該字符串作為最終新詞輸出;如果精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符或詞語數(shù)量 均大于所述第五預(yù)設(shè)閾值,則將該字符串作為最終新詞輸出。本發(fā)明中的一種新詞發(fā)現(xiàn)系統(tǒng),以與本發(fā)明的一種新詞發(fā)現(xiàn)方法相同的過 程進(jìn)行工作,因此,在本發(fā)明實(shí)施例中,不再一一進(jìn)行重復(fù)詳細(xì)描述。本發(fā)明所述的新詞發(fā)現(xiàn)方法和系統(tǒng)采用計(jì)算機(jī)自動(dòng)處理,獲取語料中的新 詞,可以大大縮減人工收集和整理新詞的時(shí)間,如果語料為特定領(lǐng)域的語料, 則可以實(shí)現(xiàn)領(lǐng)域術(shù)語的挖掘并實(shí)現(xiàn)領(lǐng)域詞典的自動(dòng)生成,縮減領(lǐng)域?qū)<液驮~典編篡專家的工作量;而且,其不僅可以發(fā)現(xiàn)大規(guī)模語料的新詞,也可以發(fā)現(xiàn)小 規(guī)模語料的新詞;既可以發(fā)現(xiàn)語料中出現(xiàn)頻次較高的新詞,也可以發(fā)現(xiàn)語料中 頻次較低的新詞。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本發(fā)明精神及其實(shí)質(zhì)的情 況下,熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變型,但 這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1、一種新詞發(fā)現(xiàn)方法,其特征在于,包括以下步驟步驟A,獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串;步驟B,確定符合預(yù)先設(shè)定規(guī)則的字符串;步驟C,對(duì)剩余的字符串,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量;步驟D,將所述剩余的字符串中左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串,作為新詞輸出;步驟E,將剩下的字符串作為查詢關(guān)鍵詞,在搜索引擎中進(jìn)行搜索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄;步驟F,根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果,判斷并確定最終新詞。
2、 根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟A中, 所述獲取字符串是使用重復(fù)串發(fā)現(xiàn)方法獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾 值的所有字符串。
3、 根據(jù)權(quán)利要求2所述的新詞發(fā)現(xiàn)方法,其特征在于,所述重復(fù)串發(fā)現(xiàn) 方法為基于后綴樹索引的重復(fù)串發(fā)現(xiàn)方法、基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法、 基于N元遞增的重復(fù)串發(fā)現(xiàn)方法、以及基于Apriori的重復(fù)串發(fā)現(xiàn)方法中的一 種。
4、 根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述歩驟B中, 所述預(yù)先設(shè)定規(guī)則為去掉以特定字符開始的字符串;和/或 去掉以特定字符結(jié)束的字符串。
5、 根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟E中, 所述在搜索引擎中進(jìn)行搜索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄, 包括如下步驟在搜索引擎中進(jìn)行精確搜索,或進(jìn)行精確搜索和模糊搜索,統(tǒng)計(jì)返回的精 確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及精確搜索前多條結(jié)果記錄。
6、 根據(jù)權(quán)利要求5所述的新詞發(fā)現(xiàn)方法,其特征在于,所述步驟E中,返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果,具體為 返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值;和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值; 和/或字符串在精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量 均大于第五預(yù)設(shè)閾值。
7、 根據(jù)權(quán)利要求6所述的新詞發(fā)現(xiàn)方法,其特征在于,所述歩驟F中, 所述判斷并確定最終新詞,包括以下步驟中的一個(gè)或一個(gè)以上的組合步驟Fl,如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值,則將該字符串 作為最終新詞輸出;步驟F2,如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù) 設(shè)閾值,則將該字符串作為最終新詞輸出;步驟F3,如果在精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符 或詞語數(shù)量均大于所述第五預(yù)設(shè)閾值,則將該字符串作為最終新詞輸出。
8、 一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于,包括獲取模塊,過濾模塊,搜索模 塊和判斷模塊,其中所述獲取模塊,用于獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閥值的所有字符串;所述過濾模塊,用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合,并對(duì)符合預(yù)先 設(shè)定規(guī)則的字符串,計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞 語的數(shù)量,將左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串作為新詞輸 出;所述搜索模塊,用于將剩下的字符串作為查詢關(guān)鍵詞,在搜索引擎中進(jìn)行 搜索,統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄;所述判斷模塊,用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值 的比較結(jié)果,判斷并確定最終新詞。
9、 根據(jù)權(quán)利要求8所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述搜索模塊中 的搜索是指精確搜索,或者精確搜索和模糊搜索;所述搜索模塊中的搜索結(jié)果 數(shù)量,是指精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量;所述搜索模塊中的搜索結(jié) 果記錄,是指精確搜索前多條結(jié)果記錄。
10、 根據(jù)權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng),其特征在于,所述判斷模塊中 返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果,是指 返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值;和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值;和/或字符串在返回的精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞 語數(shù)量均大于第五預(yù)設(shè)閾值。
全文摘要
本發(fā)明公開了一種發(fā)現(xiàn)新詞的方法,包括以下步驟查找語料中所有出現(xiàn)頻次大于一定閾值的字符串;統(tǒng)計(jì)每一個(gè)字符串在語料中所有出現(xiàn)位置的左側(cè)和右側(cè)各有多少個(gè)不同的字符或詞語;若字符串左右側(cè)不同字符或詞語數(shù)量均大于某個(gè)預(yù)先設(shè)定的閾值,則將該字符串作為新詞輸出;否則在搜索引擎網(wǎng)站對(duì)字符串進(jìn)行精確搜索和模糊搜索,若精確搜索返回結(jié)果數(shù)量大于一定閾值,和/或精確搜索和模糊搜索返回的結(jié)果數(shù)量之比大于一定閾值,和/或精確搜索返回結(jié)果網(wǎng)頁中字符串的左右側(cè)字符或詞語種類數(shù)大于一定閾值,則將該字符串作為新詞輸出。本發(fā)明既能夠發(fā)現(xiàn)在語料中出現(xiàn)頻次較高的新詞,也能夠發(fā)現(xiàn)在語料中出現(xiàn)頻次較低的新詞,同時(shí)新詞發(fā)現(xiàn)的準(zhǔn)確率較高。
文檔編號(hào)G06F17/30GK101131705SQ200710175229
公開日2008年2月27日 申請(qǐng)日期2007年9月27日 優(yōu)先權(quán)日2007年9月27日
發(fā)明者黃玉蘭, 龔才春 申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1