一種網(wǎng)絡(luò)新詞識(shí)別方法與流程

文檔序號(hào)：12120960閱讀：1022來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域，更具體地，涉及一種網(wǎng)絡(luò)新詞識(shí)別方法。

背景技術(shù)：

語言隨著科技的發(fā)展而不斷演變，從詞語層面上看就是新詞不斷涌現(xiàn)。語言學(xué)者對大量新詞的出現(xiàn)給予了廣泛關(guān)注，80年代后，學(xué)者們通過不同角度用不同方式對新詞識(shí)別做了很多研究工作。除此之外，自然語言處理領(lǐng)域的專家們利用計(jì)算機(jī)技術(shù)從大規(guī)模語料庫進(jìn)行新詞識(shí)別。目前，以微軟亞洲研究院、北京語言大學(xué)、搜狗科技、中科院計(jì)算所等機(jī)構(gòu)為代表的科研人員在新詞識(shí)別領(lǐng)域做了大量的研究工作，取得了諸多優(yōu)秀成果，加速了中文自然語言處理技術(shù)的發(fā)展。

新詞識(shí)別的研究方法總體上分為兩種：基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?；谝?guī)則的新詞識(shí)別的主要思想是根據(jù)新詞的構(gòu)詞特性去建立規(guī)則庫和專業(yè)詞庫，然后去匹配制定的語言規(guī)則，從而發(fā)現(xiàn)新詞。這種方法缺點(diǎn)在于會(huì)被局限在某一領(lǐng)域，其移植性和適應(yīng)性差，并且需要建立規(guī)則庫。基于統(tǒng)計(jì)的方法是利用統(tǒng)計(jì)模型對頻繁出現(xiàn)的字串進(jìn)行統(tǒng)計(jì)，生成候選新詞，再利用構(gòu)詞規(guī)則和現(xiàn)有詞典排除不是新詞的垃圾串。這種方法一般適合查找較短的新詞語，對于超過四字的新詞語基本無效，且存在數(shù)據(jù)稀疏、準(zhǔn)確率低的問題。目前使用得比較多的方法是結(jié)合上述兩種方法，用統(tǒng)計(jì)規(guī)則大規(guī)模獲取候選新詞，在此基礎(chǔ)上通過對應(yīng)規(guī)則進(jìn)行垃圾串過濾來控制新詞的識(shí)別質(zhì)量。

在這個(gè)互聯(lián)網(wǎng)高速發(fā)展的時(shí)代，隨著網(wǎng)絡(luò)用戶數(shù)量快速增長，每分每秒都會(huì)有大量網(wǎng)絡(luò)用語出現(xiàn)，電子商務(wù)領(lǐng)域的商品描述信息里肯定也會(huì)出現(xiàn)一定數(shù)量的網(wǎng)絡(luò)新詞。因此，辨識(shí)網(wǎng)絡(luò)新詞并對商品描述信息做出正確的分詞具有極高的現(xiàn)實(shí)意義，是本領(lǐng)域研究的重點(diǎn)。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明為解決以上現(xiàn)有技術(shù)的難題，提供了一種網(wǎng)絡(luò)新詞識(shí)別方法，該方法能夠有效的識(shí)別出網(wǎng)絡(luò)新詞。

為實(shí)現(xiàn)以上發(fā)明目的，采用的技術(shù)方案是：

一種網(wǎng)絡(luò)新詞識(shí)別方法，包括以下步驟：

S1.使用網(wǎng)絡(luò)蜘蛛對網(wǎng)頁進(jìn)行抓取，然后從抓取的網(wǎng)頁中提取文本信息，并對提取文本信息進(jìn)行預(yù)處理；

S2.將文本信息中前后被空格隔開的候選新詞提取出來，然后執(zhí)行步驟S3；將文本信息中重復(fù)出現(xiàn)的候選新詞提取出來，執(zhí)行步驟S7；

S3計(jì)算候選新詞i的字串長度L，判斷L是否大于1小于4，若是執(zhí)行步驟S4，否則執(zhí)行步驟S5；

S4.判斷候選新詞i是否已經(jīng)存儲(chǔ)在詞典中，若是則將候選新詞i過濾掉，否則通過人工校對后將候選新詞i添加入詞典中；

S5.判斷候選新詞i能否被分詞詞典切分，若是，則將候選新詞i過濾掉，否則通過人工校對后將候選新詞i添加入詞典中；

S6.令i＝i+1，然后執(zhí)行步驟S3；

S7.統(tǒng)計(jì)文本信息中候選新詞j的左鄰接詞個(gè)數(shù)m和右鄰接詞個(gè)數(shù)n，判斷m、n是否分別大于設(shè)定的閾值，若是則執(zhí)行步驟S8，否則將候選新詞j過濾掉；

S8.統(tǒng)計(jì)候選新詞j的構(gòu)詞強(qiáng)度，若構(gòu)詞強(qiáng)度大于所設(shè)定的閾值，則在通過人工校對后將候選新詞j添加入詞典中；否則將候選新詞j過濾掉；

S9.令j＝j(luò)+1然后執(zhí)行步驟S7。

上述方案中，本發(fā)明提供的新詞識(shí)別方法能夠?qū)χ貜?fù)串和文章關(guān)鍵詞、超鏈接詞、標(biāo)點(diǎn)符號(hào)中間的詞這些特殊格式的新詞進(jìn)行識(shí)別，因此能夠很好地適應(yīng)于網(wǎng)絡(luò)新詞的特點(diǎn)并將其識(shí)別出來，實(shí)驗(yàn)證明，本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。

優(yōu)選地，所述步驟S1中，對文本信息進(jìn)行預(yù)處理具體包括以下操作：

(1)利用標(biāo)點(diǎn)符號(hào)將大段文字分成若干短句；

(2)將短句中構(gòu)詞能力不強(qiáng)的單字刪除，如呢、啊、吧、么等。

優(yōu)選地，所述步驟S8中，統(tǒng)計(jì)候選新詞j構(gòu)詞強(qiáng)度的具體過程如下：

(1)統(tǒng)計(jì)詞首的構(gòu)詞強(qiáng)度：

其中，L是詞典的詞條總數(shù)，Head(x,s)是二值函數(shù)，定義如下：

(2)統(tǒng)計(jì)詞中的構(gòu)詞強(qiáng)度：

(3)統(tǒng)計(jì)詞尾的構(gòu)詞強(qiáng)度：

則候選新詞j構(gòu)詞強(qiáng)度表示為：

與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果是：

本發(fā)明提供的新詞識(shí)別方法能夠?qū)χ貜?fù)串和文章關(guān)鍵詞、超鏈接詞、標(biāo)點(diǎn)符號(hào)中間的詞這些特殊格式的新詞進(jìn)行識(shí)別，因此能夠很好地適應(yīng)于網(wǎng)絡(luò)新詞的特點(diǎn)并將其識(shí)別出來，實(shí)驗(yàn)證明，本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。

附圖說明

圖1為識(shí)別方法的流程示意圖。

圖2為對重復(fù)出現(xiàn)的候選新詞進(jìn)行是識(shí)別的流程圖。

具體實(shí)施方式

附圖僅用于示例性說明，不能理解為對本專利的限制；

以下結(jié)合附圖和實(shí)施例對本發(fā)明做進(jìn)一步的闡述。

實(shí)施例1

如圖1、2所示，本發(fā)明提供的方法具體包括以下步驟：

S1.使用網(wǎng)絡(luò)蜘蛛對網(wǎng)頁進(jìn)行抓取，然后從抓取的網(wǎng)頁中提取文本信息，并對提取文本信息進(jìn)行預(yù)處理；

S2.將文本信息中前后被空格隔開的候選新詞提取出來，然后執(zhí)行步驟S3；將文本信息中重復(fù)出現(xiàn)的候選新詞提取出來，執(zhí)行步驟S7；

S3計(jì)算候選新詞i的字串長度L，判斷L是否大于1小于4，若是執(zhí)行步驟S4，否則執(zhí)行步驟S5；

S4.判斷候選新詞i是否已經(jīng)存儲(chǔ)在詞典中，若是則將候選新詞i過濾掉，否則通過人工校對后將候選新詞i添加入詞典中；

S5.判斷候選新詞i能否被分詞詞典切分，若是，則將候選新詞i過濾掉，否則通過人工校對后將候選新詞i添加入詞典中；

S6.令i＝i+1，然后執(zhí)行步驟S3；

其中，左鄰接詞個(gè)數(shù)是指文本中與候選新詞(散串)左邊相鄰的不同元素個(gè)數(shù)；右鄰接詞個(gè)數(shù)是指文本中與候選新詞(散串)右邊相鄰的不同元素個(gè)數(shù)；

S9.令j＝j(luò)+1然后執(zhí)行步驟S7。

其中，對文本信息進(jìn)行預(yù)處理具體包括以下操作：

(1)利用標(biāo)點(diǎn)符號(hào)將大段文字分成若干短句；

(2)將短句中構(gòu)詞能力不強(qiáng)的單字刪除，如呢、啊、吧、么等。

本實(shí)施例中，統(tǒng)計(jì)候選新詞j構(gòu)詞強(qiáng)度的具體過程如下：

(1)統(tǒng)計(jì)詞首的構(gòu)詞強(qiáng)度：

其中，L是詞典的詞條總數(shù)，Head(x,s)是二值函數(shù)，定義如下：

(2)統(tǒng)計(jì)詞中的構(gòu)詞強(qiáng)度：

(3)統(tǒng)計(jì)詞尾的構(gòu)詞強(qiáng)度：

則候選新詞j構(gòu)詞強(qiáng)度表示為：

實(shí)施例2

本實(shí)施例在實(shí)施例1的基礎(chǔ)上，進(jìn)行了具體的實(shí)驗(yàn)，本次實(shí)驗(yàn)利用網(wǎng)絡(luò)蜘蛛在網(wǎng)上下載大量網(wǎng)頁，這些網(wǎng)頁主要來自于新浪網(wǎng)、搜狐網(wǎng)、騰訊網(wǎng)、天涯論壇和貓撲論壇等。這些網(wǎng)站包含的文本信息全面，涉及到各個(gè)領(lǐng)域，具有很強(qiáng)的時(shí)效性。網(wǎng)上出現(xiàn)的新詞一般會(huì)很快的在這些網(wǎng)站流行起來。本次實(shí)驗(yàn)下載了上面幾個(gè)網(wǎng)站2015年12月的4000張網(wǎng)頁，其中科技類、體育類、娛樂類、新聞?lì)惛?000張，經(jīng)過刪除HTML網(wǎng)絡(luò)標(biāo)簽，提取網(wǎng)頁正文和其他文字(關(guān)鍵詞、標(biāo)題、超鏈接等)后，得到大小為32.5M的純文本。

本次實(shí)驗(yàn)中，網(wǎng)絡(luò)新詞識(shí)別算法識(shí)別出新詞1264個(gè)。識(shí)別出的這些新詞中，二字詞468個(gè)，三字詞524個(gè)，四字詞125個(gè)，其他為四字以上詞或英文縮略詞。

下列是一部分識(shí)別的新詞，由于使用的詞典的詞條數(shù)目比較少，有些已經(jīng)不是新詞的詞條也被識(shí)別出來，然后被人工添加到詞典中。

二字新詞：神馬、醬紫、弓強(qiáng)、拍磚、狂頂、呵呵、斑竹、厚厚、咔咔、拋磚、馬甲、打鐵、蓋樓、辣雞、口年、達(dá)人、御姐、口胡、廢柴、收聲、耽美、攻受、同人、鴨梨、圍脖、騷年、智捉、草根、團(tuán)購、蝸居、杯具、坑爹、李剛、鳳姐、恒大、心塞、不造、逗比、補(bǔ)刀、彈幕、浮云、點(diǎn)贊、顏值、悲催、壁咚、灰機(jī)、偶吧、給力、吐槽、菜鳥、小強(qiáng)、逼格、閃客、哈韓、跑酷、快閃等。

三字新詞：打醬油、犀利哥、南山南、注孤生、漲姿勢、我伙呆、何棄療、么么噠、蒜你狠、高富帥、白富美、洗剪吹、然并卵、啃老族、惡趣味、阿加西、歐巴桑、小鮮肉、鬧太套、尷尬癌、伐開心、城會(huì)玩、瑯琊榜、宮心計(jì)、富二代、火星文、思密達(dá)、中二病、廣場舞、閃電俠、喜當(dāng)?shù)?、正能量、比特幣、毀三觀、秀恩愛、烏龍球、馬賽克、蒙太奇、一把手、撬墻角、閉門羹、月光族等。

四字新詞：累覺不愛、八榮八恥、愛老虎油、非誠勿擾、不明覺厲、十動(dòng)然拒、男默女淚、火鉗劉明、喜大普奔、細(xì)思極恐、人艱不拆、你行你上、不忍直視、不作不死、有錢任性、腦洞大開、走召弓強(qiáng)、笑而不語、光盤行動(dòng)、以房養(yǎng)老、潮汐車道、壓力山大、讓子彈飛、海綿寶寶、宮鎖心玉、藥家鑫案等。

其他：羨慕嫉妒恨、快樂大本營、越策越開心、圖樣圖森破、且行且珍惜、duang、主要看氣質(zhì)、hold住、待我長發(fā)齊腰、DIY、H1N1、深藏功與名、豆腐渣工程、BB霜、庫茲涅佐夫、中國好聲音等。

通過以上實(shí)驗(yàn)可知，本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。

顯然，本發(fā)明的上述實(shí)施例僅僅是為清楚地說明本發(fā)明所作的舉例，而并非是對本發(fā)明的實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說，在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對所有的實(shí)施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚軍;張凱華;
技術(shù)所有人：中山大學(xué);
我是此專利的發(fā)明人

上一篇：一種超級(jí)電容器集流板的制作方法與工藝
上一篇：一種超級(jí)電容器防爆裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

網(wǎng)絡(luò)新詞相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)新詞識(shí)別方法與流程