一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法

文檔序號(hào)：6613582閱讀：185來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種文本信息處理領(lǐng)域，特別是一種利用搜索引擎來輔助發(fā)現(xiàn) 語料中新詞的方法和系統(tǒng)。
背景技術(shù)：
在自然語言處理或計(jì)算語言學(xué)中，新詞是指以前從來沒有出現(xiàn)過的詞匯，或者是以前出現(xiàn)過的詞匯的新用法。新詞一般在詞典中沒有收錄，因此也有不少人把新詞等同于未登錄詞。隨著時(shí)代的進(jìn)步和經(jīng)濟(jì)的發(fā)展，在人們?nèi)粘Ｉ畹母鞣礁髅娑疾粩嘤楷F(xiàn)出大量的新詞，尤其是隨著互聯(lián)網(wǎng)在中國的日益普及，大量網(wǎng)絡(luò)新詞層出不窮，日常生活中產(chǎn)生的新詞也得以更快的傳播。據(jù)報(bào)道，我國每年至少出現(xiàn)漢語新詞或新用法iooo個(gè)以上。新詞出現(xiàn)的速度不斷加快，新詞出現(xiàn)的領(lǐng)域不斷增多，而使用傳統(tǒng)的人工方法搜集新詞語并編篡詞典的方法，既耗時(shí)又耗力，而且很難保證不遺漏新詞。人們迫切需要使用自動(dòng)檢測(cè)方法快速輸出若干候選新詞供人工篩選，從而減輕工作量。在每個(gè)學(xué)科和領(lǐng)域都有相應(yīng)的領(lǐng)域術(shù)語，收集和整理這些領(lǐng)域術(shù)語對(duì)各領(lǐng)域的學(xué)術(shù)研究和交流也具有重要的意義。然而領(lǐng)域?qū)＜乙话悴皇窃~典編篡專家，領(lǐng)域?qū)＜乙话愫茈y勝任領(lǐng)域術(shù)語的編篡工作；而詞典編篡專家一般也不是特定領(lǐng)域的技術(shù)專家，所以詞典編篡專家也很難單獨(dú)編寫各領(lǐng)域的領(lǐng)域詞典。人們?cè)诰幋垲I(lǐng)域詞典的時(shí)候也迫切希望通過計(jì)算機(jī) 處理相關(guān)的領(lǐng)域語料，自動(dòng)挖掘該領(lǐng)域的候選術(shù)語集合，在此基礎(chǔ)上進(jìn)行人工編篡c現(xiàn)有一種利用搜索引擎的用戶搜索日志來發(fā)現(xiàn)新詞的方法，在大量用戶提交的搜索關(guān)鍵詞中統(tǒng)計(jì)各關(guān)鍵詞的出現(xiàn)頻次，如果大于某個(gè)預(yù)先設(shè)定的閾值，則作為新詞輸出，該方法能夠比較準(zhǔn)確、實(shí)時(shí)地發(fā)現(xiàn)互聯(lián)網(wǎng)的新詞。但是其很難用于特定領(lǐng)域的術(shù)語抽取和領(lǐng)域詞典編篡，而且該方法所需要的搜索日志一般只有商用搜索引擎公司可以獲得，一般用戶根本無法使用該方法。
也有學(xué)者提出了 "有意義串"的概念，有意義串一般認(rèn)為是具有特定語義，能夠獨(dú)立使用的語言單位，其很大一部分就是新詞?，F(xiàn)有技術(shù)一般通過考查字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面來判斷字符串是否是有意義串。有意義串的穩(wěn)定性是指一個(gè)有意義串應(yīng)該具有一定的使用頻次，不是偶爾出現(xiàn)的字符串；有意義串的獨(dú)立性是指有意義串應(yīng)該使用靈活，可以在很多語用環(huán)境中出現(xiàn)；有意義串的完整性是指有意義串應(yīng)具有完整的語義?，F(xiàn)有技術(shù)中，判斷一個(gè)字符串是否是有意義的，一般也可以從穩(wěn)定性、獨(dú) 立性和完整性三個(gè)方面考査。首先統(tǒng)計(jì)字符串在語料中的出現(xiàn)頻次，如果字符串的出現(xiàn)頻次大于一定閾值，一般認(rèn)為字符串是穩(wěn)定的；再統(tǒng)計(jì)字符串在語料中所有出現(xiàn)位置左側(cè)和右側(cè)不同的字符或詞語的數(shù)量，如果左右兩側(cè)不同的字符或詞語數(shù)量大于一定閾值，則認(rèn)為字符串是獨(dú)立的；然后判斷字符串A是否是完整的，即當(dāng)且僅當(dāng)不存在任何字符串B，字符串A是B的子串，且字符串B的出現(xiàn)頻次也大于預(yù)先設(shè)定的閾值。但是，基于字符串的穩(wěn)定性、獨(dú)立性和完整性三個(gè)方面判斷字符串是否為有意義串或新詞的方法，很難設(shè)定一個(gè)合適的閾值。閾值太小，新詞發(fā)現(xiàn)的準(zhǔn) 確率很低，很多沒有意義的垃圾串有可能輸出；閾值太大，語料中部分有意義串或新詞將不能輸出?；谧址姆€(wěn)定性、獨(dú)立性和完整性的方法也只能識(shí) 別大規(guī)模語料中出現(xiàn)頻次比較高的那部分新詞，對(duì)于部分具有明確語義，能夠獨(dú)立使用的新詞，很可能由于在語料中的使用頻次不是很高而不能輸出。發(fā)明內(nèi)容本發(fā)明所要解決的技術(shù)問題在于提供一種新詞發(fā)現(xiàn)方法和系統(tǒng)，既能夠有效發(fā)現(xiàn)語料中的高頻新詞，又能有效發(fā)現(xiàn)語料中出現(xiàn)頻次較低的新詞。為了解決上述問題，本發(fā)明提供了一種新詞發(fā)現(xiàn)方法，其特點(diǎn)在于，包括以下步驟步驟A，獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串；歩驟B，確定符合預(yù)先設(shè)定規(guī)則的字符串；步驟C，對(duì)剩余的字符串，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量；
步驟D，將所述剩余的字符串左右側(cè)不同字符或詞語數(shù)均大于第二預(yù)設(shè)閾值的字符串，作為新詞輸出；步驟E，將剩下的字符串作為查詢關(guān)鍵詞，到搜索引擎中進(jìn)行搜索，統(tǒng)計(jì) 返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄；步驟F，根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值比較結(jié)果，判斷并確定最終新詞。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，所述步驟A中，所述獲取字符串是使用重復(fù)串發(fā)現(xiàn)方法獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，所述重復(fù)串發(fā)現(xiàn)方法為基于后綴樹索引的重復(fù)串發(fā)現(xiàn)方法、基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法、基于N元遞增的重復(fù)串發(fā)現(xiàn)方法、以及基于Apriori的重復(fù)串發(fā)現(xiàn)方法中的一種。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，確定符合預(yù)先設(shè)定規(guī)則的字符串，所述步驟B中，所述預(yù)先設(shè)定規(guī)則為去掉以特定字符開始的字符串；和/或去掉以特定字符結(jié)束的字符串。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，所述步驟E中，所述在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄，包括如下步驟在搜索引擎中進(jìn)行精確搜索，或進(jìn)行精確搜索和模糊搜索，統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及精確搜索前多條結(jié)果記錄。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，所述歩驟E中，返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，具體為返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值；和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值；和/或字符串在精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，通過將剩下的字符串作為查詢關(guān)鍵詞直接輸入到搜索框查詢，分別到搜索引擎進(jìn)行精確搜索和模糊搜索，獲得返回的精確搜索結(jié)果數(shù)量和模糊搜索結(jié)果數(shù)量。優(yōu)選的，所述的新詞發(fā)現(xiàn)方法，所述步驟F中，所述判斷并確定最終新詞，包括以下步驟中的一個(gè)或一個(gè)以上的組合步驟Fl，如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出；步驟F2，如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù) 設(shè)閾值，則將該字符串作為最終新詞輸出；步驟F3，如果在精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符或詞語數(shù)量均大于所述第五預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出。為實(shí)現(xiàn)本發(fā)明目的還提供一種新詞發(fā)現(xiàn)系統(tǒng)，包括獲取模塊，過濾模塊，搜索模塊和判斷模塊，其中所述獲取模塊，用于獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閥值的所有字符串；所述過濾模塊，用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合，并對(duì)符合預(yù)先設(shè)定規(guī)則的字符串，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量，將左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串作為新詞輸出；所述搜索模塊，用于將剩下的字符串作為査詢關(guān)鍵詞，在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄；所述判斷模塊，用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，判斷并確定最終新詞。所述搜索模塊中的搜索是指精確搜索，或者精確搜索和模糊搜索；所述搜索模塊中的搜索結(jié)果數(shù)量，是指精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索模塊中的搜索結(jié)果記錄，是指精確搜索前多條結(jié)果記錄。所述判斷模塊中返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，是指返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值；和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值；和/或字符串在返回的精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。本發(fā)明所述方法與現(xiàn)有技術(shù)相比，具有以下優(yōu)點(diǎn)1、采用計(jì)算機(jī)自動(dòng)處理，獲取語料中的新詞，可以大大縮減人工收集和整理新詞的時(shí)間；
2、如果語料為特定領(lǐng)域的語料，則可以實(shí)現(xiàn)領(lǐng)域術(shù)語的挖掘并實(shí)現(xiàn)領(lǐng)域詞典的自動(dòng)生成，縮減領(lǐng)域?qū)＜液驮~典編篡專家的工作量；3、不僅可以發(fā)現(xiàn)大規(guī)模語料的新詞，也可以發(fā)現(xiàn)小規(guī)模語料的新詞；既可以發(fā)現(xiàn)語料中出現(xiàn)頻次較高的新詞，也可以發(fā)現(xiàn)語料中頻次較低的新詞。

圖1是本發(fā)明新詞發(fā)現(xiàn)方法過程的流程圖；圖2是本發(fā)明新詞發(fā)現(xiàn)系統(tǒng)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下結(jié)合附圖及實(shí) 施例，對(duì)本發(fā)明的一種新詞發(fā)現(xiàn)方法和系統(tǒng)進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解，此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明，并不用于限定本發(fā)明。本發(fā)明的核心思想在于，當(dāng)一個(gè)字符串在語料中的出現(xiàn)頻次較低時(shí)，已有的方法無法有效判斷該字符串是否為新詞；或者當(dāng)語料規(guī)模不足夠大時(shí)，可能語料中有很多新詞由于頻次不是很高而不能有效識(shí)別，而本發(fā)明到搜索引擎分別精確搜索和/或模糊搜索低頻字符串，這相當(dāng)于使用了搜索引擎索引了的龐大的數(shù)據(jù)庫作為語料，無疑擴(kuò)展了語料的規(guī)模，從而能夠發(fā)現(xiàn)一部分原始語料中頻次較低的新詞。例如，在《西游記》一書中，"鐵扇公主" 一詞只在孫行者三調(diào)芭蕉扇時(shí) 出現(xiàn)，而在其它章節(jié)沒有出現(xiàn)，在《西游記》全書中總共才出現(xiàn)6次，使用已有方法幾乎都不可能發(fā)現(xiàn)這個(gè)新詞。而在百度中精確搜索可以找到251,000篇與"鐵扇公主"相關(guān)的網(wǎng)頁，通過對(duì)精確搜索返回結(jié)果數(shù)量和精確搜索返回結(jié) 果記錄左右側(cè)不同字符數(shù)量的統(tǒng)計(jì)都可以識(shí)別"鐵扇公主"為新詞。本發(fā)明利用搜索引擎發(fā)現(xiàn)新詞的方法包括以下步驟步驟Sl，獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串。步驟S2，確定符合預(yù)先設(shè)定規(guī)則的字符串。所述預(yù)先設(shè)定的規(guī)則可以是去掉以特定字符開始的字符串；和/或去掉以特定字符結(jié)束的字符串。步驟S3，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量。
例如，假設(shè)字符串"禽流感"在如下五個(gè)句子出現(xiàn) 鐘南1//透露禽流感病毒滯未剪顯變異。廣東的鵬禽流慼形勢(shì)遭緩。7 A感染禽流感事伴。發(fā)現(xiàn)一宗禽流感疑似病樹。領(lǐng)布5條禁令你控禽流感。則"禽流感"左側(cè)的字符分別為{露，控，染，宗，控}，右側(cè)的字符為{病，形，事，疑，EOS}，因此左側(cè)不同的字符有為{露，控、染，宗}，右側(cè)不同的字符為{病，形，事，疑，EOS}，其中EOS表示句子結(jié)束。通過這種方法即可計(jì)算出每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量。步驟S4，若字符串左右側(cè)不同字符或詞語數(shù)均大于第二預(yù)設(shè)閾值，則將該字符串作為新詞輸出。步驟S5，將剩下的字符串作為查詢關(guān)鍵詞，到搜索引擎中進(jìn)行精確搜索，或進(jìn)行精確搜索和模糊搜索，并由此統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及精確搜索的前多條結(jié)果記錄；步驟S6，若返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值，和/或精確搜索結(jié) 果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值，和/或字符串在精確搜索前多條返回結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值，則將該字符串作為新詞輸出。在本發(fā)明中，利用搜索引擎進(jìn)行精確搜索和模糊搜索，根據(jù)精確搜索返回結(jié)果數(shù)、模糊搜索返回結(jié)果數(shù)、以及精確搜索前多條結(jié)果記錄等，判斷剩下的字符串(即頻次較低的字符串)是否為新詞，例如，通過如下幾個(gè)步驟中的其中一個(gè)或任意幾個(gè)步驟來輔助判斷剩下的字符串是否為新詞(1) 如果精確搜索結(jié)果數(shù)量大于第三預(yù)設(shè)閾值，則將該字符串作為新詞輸出。(2) 如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值，則將該字符串作為新詞輸出。(3) 如果在前多條精確搜索結(jié)果記錄中該字符串左右側(cè)不同的字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出。例如，如果在剩下的字符串中有"足球?qū)氊?，在比較常用的搜索引擎如百度中精確搜索"足球?qū)氊?可以返回4,440,000個(gè)返回結(jié)果，模糊搜索"足球?qū)氊?可以返回4,450,000個(gè)返回結(jié)果，可以看出在一般網(wǎng)頁中若既出現(xiàn)"足球" 一詞，又出現(xiàn)"寶貝" 一詞，則很可能是"足球"和"寶貝"連續(xù)出現(xiàn)且 "足球"在"寶貝"之前，字符串"足球?qū)氊?很可能是一個(gè)新詞。再例如，在百度中精確搜索"火速桌面搜索"返回2，690個(gè)結(jié)果，而模糊搜索"火速桌面搜索"返回250,000個(gè)結(jié)果。獲取精確搜索"火速桌面搜索" 的前100條結(jié)果記錄，"火速桌面搜索"左右側(cè)不同的字符數(shù)分別為124和 97，若左右側(cè)不同字符數(shù)閾值為90，則"火速桌面搜索"應(yīng)作為新詞輸出。本發(fā)明中所述的所有閥值可以分別通過預(yù)先設(shè)定而得到，也可以通過語料訓(xùn)練而得到。語料訓(xùn)練方法是一種現(xiàn)有技術(shù)，如通過隱馬爾可夫模型(Hidden Markov Model, HMM)對(duì)訓(xùn)練語料進(jìn)行訓(xùn)練的方法。其不是本發(fā)明的發(fā)明點(diǎn)，因此，在本發(fā)明中不再一一詳細(xì)描述。下面結(jié)合圖1對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行詳細(xì)說明。步驟101，獲取語料中所有出現(xiàn)頻次大于預(yù)設(shè)閾值的字符串。可以使用各種重復(fù)串發(fā)現(xiàn)方法，或者是基于后綴樹索引的重復(fù)串發(fā)現(xiàn)方法；或者是基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法；或者是基于N元遞增的重復(fù)串發(fā)現(xiàn)方法；或者是基于Apriori的重復(fù)串發(fā)現(xiàn)方法等，來獲取語料中所有出現(xiàn)頻次大于預(yù)設(shè)閥值的字符串。重復(fù)串發(fā)現(xiàn)方法可以基于字符發(fā)現(xiàn)頻次大于閾值的若干個(gè)連續(xù)的字符，也可以先對(duì)語料進(jìn)行分詞，發(fā)現(xiàn)頻次大于閾值的若干個(gè)連續(xù)的詞語。步驟102，確定符合預(yù)先設(shè)定規(guī)則的字符串，對(duì)步驟101中產(chǎn)生的字符串按照預(yù)先設(shè)定的規(guī)則進(jìn)行過濾，過濾掉一些不能為新詞的字符串，過濾掉以特定字符開始或結(jié)束的字符串，例如以"們"開始的字符串或以"的"結(jié)束的字符串很多都不能為新詞，可以過濾掉。步驟103，統(tǒng)計(jì)字符串左側(cè)右側(cè)不同的字符(或詞語)的數(shù)量，如果左側(cè)或右側(cè)不同的字符(或詞語)的數(shù)量大于一預(yù)先設(shè)定的閾值，則將字符串作為新詞輸出。步驟104，將剩下的字符串作為出現(xiàn)關(guān)鍵詞到搜索引擎(如Google)做精確搜索和模糊搜索，獲取精確搜索和模糊搜索的返回結(jié)果數(shù)，若精確搜索返回結(jié)果數(shù)大于一閾值，或精確搜索返回結(jié)果數(shù)與模糊搜索返回結(jié)果數(shù)之比大于一閾值，則將該字符串作為新詞輸出。步驟105，獲取精確搜索的前多條搜索記錄。步驟106，統(tǒng)計(jì)在精確搜索前多條記錄中字符串左側(cè)和右側(cè)的不同字符 (或詞語)，如果左右兩側(cè)不同字符(或詞語)的數(shù)量均大于一定閾值，則將字符串作為新詞輸出。相應(yīng)于本發(fā)明的新詞發(fā)現(xiàn)方法，本發(fā)明還提供一種新詞發(fā)現(xiàn)系統(tǒng)，其包括獲取模塊，過濾模塊，搜索模塊和判斷模塊，其中所述獲取模塊，用于獲取語料中所有出現(xiàn)頻次大于第一預(yù)設(shè)閥值的字符串；所述過濾模塊，用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合，過濾掉不符合預(yù)先設(shè)定規(guī)則的字符串；并對(duì)符合預(yù)先設(shè)定規(guī)則的字符串，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量，若字符串左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值，則將字符串作為新詞輸出；所述搜索模塊，用于將剩下的字符串作為査詢關(guān)鍵詞，在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄；所述判斷模塊，用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，判斷并確定最終新詞。搜索模塊在搜索引擎中進(jìn)行精確搜索，或進(jìn)行精確搜索和模糊搜索，統(tǒng)計(jì) 返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及返回的精確搜索前多條結(jié) 果記錄。判斷模塊中將返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié) 果，是指返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值；和/或精確搜索結(jié)果數(shù) 與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值；和/或字符串在精確搜索返回的前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。判斷模塊判斷并確定最終新詞，是指以下過程中的一個(gè)或一個(gè)以上的組合.如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值，則將該字符串作為最終新
詞輸出；如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出；如果精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符或詞語數(shù)量均大于所述第五預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出。本發(fā)明中的一種新詞發(fā)現(xiàn)系統(tǒng)，以與本發(fā)明的一種新詞發(fā)現(xiàn)方法相同的過程進(jìn)行工作，因此，在本發(fā)明實(shí)施例中，不再一一進(jìn)行重復(fù)詳細(xì)描述。本發(fā)明所述的新詞發(fā)現(xiàn)方法和系統(tǒng)采用計(jì)算機(jī)自動(dòng)處理，獲取語料中的新詞，可以大大縮減人工收集和整理新詞的時(shí)間，如果語料為特定領(lǐng)域的語料，則可以實(shí)現(xiàn)領(lǐng)域術(shù)語的挖掘并實(shí)現(xiàn)領(lǐng)域詞典的自動(dòng)生成，縮減領(lǐng)域?qū)＜液驮~典編篡專家的工作量；而且，其不僅可以發(fā)現(xiàn)大規(guī)模語料的新詞，也可以發(fā)現(xiàn)小規(guī)模語料的新詞；既可以發(fā)現(xiàn)語料中出現(xiàn)頻次較高的新詞，也可以發(fā)現(xiàn)語料中頻次較低的新詞。當(dāng)然，本發(fā)明還可有其他多種實(shí)施例，在不背離本發(fā)明精神及其實(shí)質(zhì)的情況下，熟悉本領(lǐng)域的技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變型，但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。
權(quán)利要求
1、一種新詞發(fā)現(xiàn)方法，其特征在于，包括以下步驟步驟A，獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串；步驟B，確定符合預(yù)先設(shè)定規(guī)則的字符串；步驟C，對(duì)剩余的字符串，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量；步驟D，將所述剩余的字符串中左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串，作為新詞輸出；步驟E，將剩下的字符串作為查詢關(guān)鍵詞，在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄；步驟F，根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，判斷并確定最終新詞。
2、根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟A中，所述獲取字符串是使用重復(fù)串發(fā)現(xiàn)方法獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閾值的所有字符串。
3、根據(jù)權(quán)利要求2所述的新詞發(fā)現(xiàn)方法，其特征在于，所述重復(fù)串發(fā)現(xiàn) 方法為基于后綴樹索引的重復(fù)串發(fā)現(xiàn)方法、基于后綴數(shù)組的重復(fù)串發(fā)現(xiàn)方法、基于N元遞增的重復(fù)串發(fā)現(xiàn)方法、以及基于Apriori的重復(fù)串發(fā)現(xiàn)方法中的一種。
4、根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法，其特征在于，所述歩驟B中，所述預(yù)先設(shè)定規(guī)則為去掉以特定字符開始的字符串；和/或去掉以特定字符結(jié)束的字符串。
5、根據(jù)權(quán)利要求1所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟E中，所述在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄，包括如下步驟在搜索引擎中進(jìn)行精確搜索，或進(jìn)行精確搜索和模糊搜索，統(tǒng)計(jì)返回的精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量、以及精確搜索前多條結(jié)果記錄。
6、根據(jù)權(quán)利要求5所述的新詞發(fā)現(xiàn)方法，其特征在于，所述步驟E中，返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，具體為返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值；和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值；和/或字符串在精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。
7、根據(jù)權(quán)利要求6所述的新詞發(fā)現(xiàn)方法，其特征在于，所述歩驟F中，所述判斷并確定最終新詞，包括以下步驟中的一個(gè)或一個(gè)以上的組合步驟Fl，如果精確搜索結(jié)果數(shù)量大于所述第三預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出；步驟F2，如果精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于所述第四預(yù) 設(shè)閾值，則將該字符串作為最終新詞輸出；步驟F3，如果在精確搜索前多條結(jié)果記錄中該字符串左右側(cè)不同的字符或詞語數(shù)量均大于所述第五預(yù)設(shè)閾值，則將該字符串作為最終新詞輸出。
8、一種新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，包括獲取模塊，過濾模塊，搜索模塊和判斷模塊，其中所述獲取模塊，用于獲取語料中出現(xiàn)頻次大于第一預(yù)設(shè)閥值的所有字符串；所述過濾模塊，用于確定符合預(yù)先設(shè)定規(guī)則的字符串集合，并對(duì)符合預(yù)先設(shè)定規(guī)則的字符串，計(jì)算每個(gè)字符串在語料中所有位置的左右側(cè)不同字符或詞語的數(shù)量，將左右側(cè)不同字符或詞語數(shù)大于第二預(yù)設(shè)閾值的字符串作為新詞輸出；所述搜索模塊，用于將剩下的字符串作為查詢關(guān)鍵詞，在搜索引擎中進(jìn)行搜索，統(tǒng)計(jì)返回的搜索結(jié)果數(shù)量、以及搜索結(jié)果記錄；所述判斷模塊，用于根據(jù)返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，判斷并確定最終新詞。
9、根據(jù)權(quán)利要求8所述的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，所述搜索模塊中的搜索是指精確搜索，或者精確搜索和模糊搜索；所述搜索模塊中的搜索結(jié)果數(shù)量，是指精確搜索結(jié)果數(shù)量、模糊搜索結(jié)果數(shù)量；所述搜索模塊中的搜索結(jié) 果記錄，是指精確搜索前多條結(jié)果記錄。
10、根據(jù)權(quán)利要求9所述的新詞發(fā)現(xiàn)系統(tǒng)，其特征在于，所述判斷模塊中返回的搜索結(jié)果數(shù)量和搜索結(jié)果記錄與預(yù)設(shè)閾值的比較結(jié)果，是指返回的精確搜索結(jié)果數(shù)大于第三預(yù)設(shè)閾值；和/或精確搜索結(jié)果數(shù)與模糊搜索結(jié)果數(shù)的比值大于第四預(yù)設(shè)閾值；和/或字符串在返回的精確搜索前多條結(jié)果記錄中的左右側(cè)不同字符或詞語數(shù)量均大于第五預(yù)設(shè)閾值。
全文摘要
本發(fā)明公開了一種發(fā)現(xiàn)新詞的方法，包括以下步驟查找語料中所有出現(xiàn)頻次大于一定閾值的字符串；統(tǒng)計(jì)每一個(gè)字符串在語料中所有出現(xiàn)位置的左側(cè)和右側(cè)各有多少個(gè)不同的字符或詞語；若字符串左右側(cè)不同字符或詞語數(shù)量均大于某個(gè)預(yù)先設(shè)定的閾值，則將該字符串作為新詞輸出；否則在搜索引擎網(wǎng)站對(duì)字符串進(jìn)行精確搜索和模糊搜索，若精確搜索返回結(jié)果數(shù)量大于一定閾值，和/或精確搜索和模糊搜索返回的結(jié)果數(shù)量之比大于一定閾值，和/或精確搜索返回結(jié)果網(wǎng)頁中字符串的左右側(cè)字符或詞語種類數(shù)大于一定閾值，則將該字符串作為新詞輸出。本發(fā)明既能夠發(fā)現(xiàn)在語料中出現(xiàn)頻次較高的新詞，也能夠發(fā)現(xiàn)在語料中出現(xiàn)頻次較低的新詞，同時(shí)新詞發(fā)現(xiàn)的準(zhǔn)確率較高。
文檔編號(hào)G06F17/30GK101131705SQ200710175229
公開日2008年2月27日申請(qǐng)日期2007年9月27日優(yōu)先權(quán)日2007年9月27日
發(fā)明者黃玉蘭, 龔才春申請(qǐng)人:中國科學(xué)院計(jì)算技術(shù)研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：龔才春;黃玉蘭
技術(shù)所有人：中國科學(xué)院計(jì)算技術(shù)研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

新詞發(fā)現(xiàn)算法相關(guān)技術(shù)

新詞發(fā)現(xiàn)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新詞發(fā)現(xiàn)方法和系統(tǒng)的制作方法