本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,更具體地,涉及一種網(wǎng)絡(luò)新詞識(shí)別方法。
背景技術(shù):
語言隨著科技的發(fā)展而不斷演變,從詞語層面上看就是新詞不斷涌現(xiàn)。語言學(xué)者對大量新詞的出現(xiàn)給予了廣泛關(guān)注,80年代后,學(xué)者們通過不同角度用不同方式對新詞識(shí)別做了很多研究工作。除此之外,自然語言處理領(lǐng)域的專家們利用計(jì)算機(jī)技術(shù)從大規(guī)模語料庫進(jìn)行新詞識(shí)別。目前,以微軟亞洲研究院、北京語言大學(xué)、搜狗科技、中科院計(jì)算所等機(jī)構(gòu)為代表的科研人員在新詞識(shí)別領(lǐng)域做了大量的研究工作,取得了諸多優(yōu)秀成果,加速了中文自然語言處理技術(shù)的發(fā)展。
新詞識(shí)別的研究方法總體上分為兩種:基于規(guī)則的方法和基于統(tǒng)計(jì)的方法?;谝?guī)則的新詞識(shí)別的主要思想是根據(jù)新詞的構(gòu)詞特性去建立規(guī)則庫和專業(yè)詞庫,然后去匹配制定的語言規(guī)則,從而發(fā)現(xiàn)新詞。這種方法缺點(diǎn)在于會(huì)被局限在某一領(lǐng)域,其移植性和適應(yīng)性差,并且需要建立規(guī)則庫。基于統(tǒng)計(jì)的方法是利用統(tǒng)計(jì)模型對頻繁出現(xiàn)的字串進(jìn)行統(tǒng)計(jì),生成候選新詞,再利用構(gòu)詞規(guī)則和現(xiàn)有詞典排除不是新詞的垃圾串。這種方法一般適合查找較短的新詞語,對于超過四字的新詞語基本無效,且存在數(shù)據(jù)稀疏、準(zhǔn)確率低的問題。目前使用得比較多的方法是結(jié)合上述兩種方法,用統(tǒng)計(jì)規(guī)則大規(guī)模獲取候選新詞,在此基礎(chǔ)上通過對應(yīng)規(guī)則進(jìn)行垃圾串過濾來控制新詞的識(shí)別質(zhì)量。
在這個(gè)互聯(lián)網(wǎng)高速發(fā)展的時(shí)代,隨著網(wǎng)絡(luò)用戶數(shù)量快速增長,每分每秒都會(huì)有大量網(wǎng)絡(luò)用語出現(xiàn),電子商務(wù)領(lǐng)域的商品描述信息里肯定也會(huì)出現(xiàn)一定數(shù)量的網(wǎng)絡(luò)新詞。因此,辨識(shí)網(wǎng)絡(luò)新詞并對商品描述信息做出正確的分詞具有極高的現(xiàn)實(shí)意義,是本領(lǐng)域研究的重點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為解決以上現(xiàn)有技術(shù)的難題,提供了一種網(wǎng)絡(luò)新詞識(shí)別方法,該方法能夠有效的識(shí)別出網(wǎng)絡(luò)新詞。
為實(shí)現(xiàn)以上發(fā)明目的,采用的技術(shù)方案是:
一種網(wǎng)絡(luò)新詞識(shí)別方法,包括以下步驟:
S1.使用網(wǎng)絡(luò)蜘蛛對網(wǎng)頁進(jìn)行抓取,然后從抓取的網(wǎng)頁中提取文本信息,并對提取文本信息進(jìn)行預(yù)處理;
S2.將文本信息中前后被空格隔開的候選新詞提取出來,然后執(zhí)行步驟S3;將文本信息中重復(fù)出現(xiàn)的候選新詞提取出來,執(zhí)行步驟S7;
S3計(jì)算候選新詞i的字串長度L,判斷L是否大于1小于4,若是執(zhí)行步驟S4,否則執(zhí)行步驟S5;
S4.判斷候選新詞i是否已經(jīng)存儲(chǔ)在詞典中,若是則將候選新詞i過濾掉,否則通過人工校對后將候選新詞i添加入詞典中;
S5.判斷候選新詞i能否被分詞詞典切分,若是,則將候選新詞i過濾掉,否則通過人工校對后將候選新詞i添加入詞典中;
S6.令i=i+1,然后執(zhí)行步驟S3;
S7.統(tǒng)計(jì)文本信息中候選新詞j的左鄰接詞個(gè)數(shù)m和右鄰接詞個(gè)數(shù)n,判斷m、n是否分別大于設(shè)定的閾值,若是則執(zhí)行步驟S8,否則將候選新詞j過濾掉;
S8.統(tǒng)計(jì)候選新詞j的構(gòu)詞強(qiáng)度,若構(gòu)詞強(qiáng)度大于所設(shè)定的閾值,則在通過人工校對后將候選新詞j添加入詞典中;否則將候選新詞j過濾掉;
S9.令j=j(luò)+1然后執(zhí)行步驟S7。
上述方案中,本發(fā)明提供的新詞識(shí)別方法能夠?qū)χ貜?fù)串和文章關(guān)鍵詞、超鏈接詞、標(biāo)點(diǎn)符號(hào)中間的詞這些特殊格式的新詞進(jìn)行識(shí)別,因此能夠很好地適應(yīng)于網(wǎng)絡(luò)新詞的特點(diǎn)并將其識(shí)別出來,實(shí)驗(yàn)證明,本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。
優(yōu)選地,所述步驟S1中,對文本信息進(jìn)行預(yù)處理具體包括以下操作:
(1)利用標(biāo)點(diǎn)符號(hào)將大段文字分成若干短句;
(2)將短句中構(gòu)詞能力不強(qiáng)的單字刪除,如呢、啊、吧、么等。
優(yōu)選地,所述步驟S8中,統(tǒng)計(jì)候選新詞j構(gòu)詞強(qiáng)度的具體過程如下:
(1)統(tǒng)計(jì)詞首的構(gòu)詞強(qiáng)度:
其中,L是詞典的詞條總數(shù),Head(x,s)是二值函數(shù),定義如下:
(2)統(tǒng)計(jì)詞中的構(gòu)詞強(qiáng)度:
(3)統(tǒng)計(jì)詞尾的構(gòu)詞強(qiáng)度:
則候選新詞j構(gòu)詞強(qiáng)度表示為:
與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
本發(fā)明提供的新詞識(shí)別方法能夠?qū)χ貜?fù)串和文章關(guān)鍵詞、超鏈接詞、標(biāo)點(diǎn)符號(hào)中間的詞這些特殊格式的新詞進(jìn)行識(shí)別,因此能夠很好地適應(yīng)于網(wǎng)絡(luò)新詞的特點(diǎn)并將其識(shí)別出來,實(shí)驗(yàn)證明,本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。
附圖說明
圖1為識(shí)別方法的流程示意圖。
圖2為對重復(fù)出現(xiàn)的候選新詞進(jìn)行是識(shí)別的流程圖。
具體實(shí)施方式
附圖僅用于示例性說明,不能理解為對本專利的限制;
以下結(jié)合附圖和實(shí)施例對本發(fā)明做進(jìn)一步的闡述。
實(shí)施例1
如圖1、2所示,本發(fā)明提供的方法具體包括以下步驟:
S1.使用網(wǎng)絡(luò)蜘蛛對網(wǎng)頁進(jìn)行抓取,然后從抓取的網(wǎng)頁中提取文本信息,并對提取文本信息進(jìn)行預(yù)處理;
S2.將文本信息中前后被空格隔開的候選新詞提取出來,然后執(zhí)行步驟S3;將文本信息中重復(fù)出現(xiàn)的候選新詞提取出來,執(zhí)行步驟S7;
S3計(jì)算候選新詞i的字串長度L,判斷L是否大于1小于4,若是執(zhí)行步驟S4,否則執(zhí)行步驟S5;
S4.判斷候選新詞i是否已經(jīng)存儲(chǔ)在詞典中,若是則將候選新詞i過濾掉,否則通過人工校對后將候選新詞i添加入詞典中;
S5.判斷候選新詞i能否被分詞詞典切分,若是,則將候選新詞i過濾掉,否則通過人工校對后將候選新詞i添加入詞典中;
S6.令i=i+1,然后執(zhí)行步驟S3;
S7.統(tǒng)計(jì)文本信息中候選新詞j的左鄰接詞個(gè)數(shù)m和右鄰接詞個(gè)數(shù)n,判斷m、n是否分別大于設(shè)定的閾值,若是則執(zhí)行步驟S8,否則將候選新詞j過濾掉;
其中,左鄰接詞個(gè)數(shù)是指文本中與候選新詞(散串)左邊相鄰的不同元素個(gè)數(shù);右鄰接詞個(gè)數(shù)是指文本中與候選新詞(散串)右邊相鄰的不同元素個(gè)數(shù);
S8.統(tǒng)計(jì)候選新詞j的構(gòu)詞強(qiáng)度,若構(gòu)詞強(qiáng)度大于所設(shè)定的閾值,則在通過人工校對后將候選新詞j添加入詞典中;否則將候選新詞j過濾掉;
S9.令j=j(luò)+1然后執(zhí)行步驟S7。
上述方案中,本發(fā)明提供的新詞識(shí)別方法能夠?qū)χ貜?fù)串和文章關(guān)鍵詞、超鏈接詞、標(biāo)點(diǎn)符號(hào)中間的詞這些特殊格式的新詞進(jìn)行識(shí)別,因此能夠很好地適應(yīng)于網(wǎng)絡(luò)新詞的特點(diǎn)并將其識(shí)別出來,實(shí)驗(yàn)證明,本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。
其中,對文本信息進(jìn)行預(yù)處理具體包括以下操作:
(1)利用標(biāo)點(diǎn)符號(hào)將大段文字分成若干短句;
(2)將短句中構(gòu)詞能力不強(qiáng)的單字刪除,如呢、啊、吧、么等。
本實(shí)施例中,統(tǒng)計(jì)候選新詞j構(gòu)詞強(qiáng)度的具體過程如下:
(1)統(tǒng)計(jì)詞首的構(gòu)詞強(qiáng)度:
其中,L是詞典的詞條總數(shù),Head(x,s)是二值函數(shù),定義如下:
(2)統(tǒng)計(jì)詞中的構(gòu)詞強(qiáng)度:
(3)統(tǒng)計(jì)詞尾的構(gòu)詞強(qiáng)度:
則候選新詞j構(gòu)詞強(qiáng)度表示為:
實(shí)施例2
本實(shí)施例在實(shí)施例1的基礎(chǔ)上,進(jìn)行了具體的實(shí)驗(yàn),本次實(shí)驗(yàn)利用網(wǎng)絡(luò)蜘蛛在網(wǎng)上下載大量網(wǎng)頁,這些網(wǎng)頁主要來自于新浪網(wǎng)、搜狐網(wǎng)、騰訊網(wǎng)、天涯論壇和貓撲論壇等。這些網(wǎng)站包含的文本信息全面,涉及到各個(gè)領(lǐng)域,具有很強(qiáng)的時(shí)效性。網(wǎng)上出現(xiàn)的新詞一般會(huì)很快的在這些網(wǎng)站流行起來。本次實(shí)驗(yàn)下載了上面幾個(gè)網(wǎng)站2015年12月的4000張網(wǎng)頁,其中科技類、體育類、娛樂類、新聞?lì)惛?000張,經(jīng)過刪除HTML網(wǎng)絡(luò)標(biāo)簽,提取網(wǎng)頁正文和其他文字(關(guān)鍵詞、標(biāo)題、超鏈接等)后,得到大小為32.5M的純文本。
本次實(shí)驗(yàn)中,網(wǎng)絡(luò)新詞識(shí)別算法識(shí)別出新詞1264個(gè)。識(shí)別出的這些新詞中,二字詞468個(gè),三字詞524個(gè),四字詞125個(gè),其他為四字以上詞或英文縮略詞。
下列是一部分識(shí)別的新詞,由于使用的詞典的詞條數(shù)目比較少,有些已經(jīng)不是新詞的詞條也被識(shí)別出來,然后被人工添加到詞典中。
二字新詞:神馬、醬紫、弓強(qiáng)、拍磚、狂頂、呵呵、斑竹、厚厚、咔咔、拋磚、馬甲、打鐵、蓋樓、辣雞、口年、達(dá)人、御姐、口胡、廢柴、收聲、耽美、攻受、同人、鴨梨、圍脖、騷年、智捉、草根、團(tuán)購、蝸居、杯具、坑爹、李剛、鳳姐、恒大、心塞、不造、逗比、補(bǔ)刀、彈幕、浮云、點(diǎn)贊、顏值、悲催、壁咚、灰機(jī)、偶吧、給力、吐槽、菜鳥、小強(qiáng)、逼格、閃客、哈韓、跑酷、快閃等。
三字新詞:打醬油、犀利哥、南山南、注孤生、漲姿勢、我伙呆、何棄療、么么噠、蒜你狠、高富帥、白富美、洗剪吹、然并卵、啃老族、惡趣味、阿加西、歐巴桑、小鮮肉、鬧太套、尷尬癌、伐開心、城會(huì)玩、瑯琊榜、宮心計(jì)、富二代、火星文、思密達(dá)、中二病、廣場舞、閃電俠、喜當(dāng)?shù)?、正能量、比特幣、毀三觀、秀恩愛、烏龍球、馬賽克、蒙太奇、一把手、撬墻角、閉門羹、月光族等。
四字新詞:累覺不愛、八榮八恥、愛老虎油、非誠勿擾、不明覺厲、十動(dòng)然拒、男默女淚、火鉗劉明、喜大普奔、細(xì)思極恐、人艱不拆、你行你上、不忍直視、不作不死、有錢任性、腦洞大開、走召弓強(qiáng)、笑而不語、光盤行動(dòng)、以房養(yǎng)老、潮汐車道、壓力山大、讓子彈飛、海綿寶寶、宮鎖心玉、藥家鑫案等。
其他:羨慕嫉妒恨、快樂大本營、越策越開心、圖樣圖森破、且行且珍惜、duang、主要看氣質(zhì)、hold住、待我長發(fā)齊腰、DIY、H1N1、深藏功與名、豆腐渣工程、BB霜、庫茲涅佐夫、中國好聲音等。
通過以上實(shí)驗(yàn)可知,本發(fā)明提供的新詞識(shí)別方法能夠有效地對網(wǎng)絡(luò)新詞進(jìn)行識(shí)別。
顯然,本發(fā)明的上述實(shí)施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實(shí)施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對所有的實(shí)施方式予以窮舉。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明權(quán)利要求的保護(hù)范圍之內(nèi)。