亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

新詞發(fā)現(xiàn)系統(tǒng)及方法

文檔序號:6503398閱讀:204來源:國知局
新詞發(fā)現(xiàn)系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種新詞發(fā)現(xiàn)系統(tǒng)及方法,該系統(tǒng)包括:外站抓取模組,用于從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞;搜索新詞模組,統(tǒng)計(jì)用戶搜索過的詞條,并提取頻率最高的前N個(gè)詞條作為用戶搜索新詞;以及去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶搜索新詞匯總并去重,得到最終的最新新詞,本發(fā)明避免了傳統(tǒng)新詞發(fā)現(xiàn)算法所導(dǎo)致的沉重的運(yùn)算負(fù)擔(dān),不僅可以獲得時(shí)下最新的新詞,還可以有效的保持互聯(lián)網(wǎng)應(yīng)用的時(shí)效性。
【專利說明】新詞發(fā)現(xiàn)系統(tǒng)及方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明關(guān)于一種新詞發(fā)現(xiàn)系統(tǒng)及方法,特別是涉及一種用于內(nèi)容推薦的新詞發(fā)現(xiàn) 系統(tǒng)及方法。

【背景技術(shù)】
[0002] 伴隨著計(jì)算機(jī)的飛速發(fā)展,互聯(lián)網(wǎng)行業(yè)中越來越多的應(yīng)用和文本操作有關(guān),最常 見的應(yīng)用就是搜索,還有很多具體應(yīng)用比如說視頻推薦、商品推薦、語音合成、語音識別等, 這些應(yīng)用都有個(gè)共同點(diǎn)就是都和文本有關(guān),需要理解文本的內(nèi)容,目前,基本的處理步驟 是,獲取文本之后對文本進(jìn)行分詞;然后對分好的詞語進(jìn)行詞性標(biāo)注,最后再做其他處理比 如說提取關(guān)鍵詞,再應(yīng)用這些關(guān)鍵詞進(jìn)行后續(xù)的處理。這里最基礎(chǔ)的處理步驟就是分詞, 如果分詞結(jié)果不好,將會對后續(xù)的處理帶來巨大的影響,所以,分詞是重中之重,而任何分 詞算法都對訓(xùn)練數(shù)據(jù)或者詞典中沒有出現(xiàn)的詞很難處理好,這就導(dǎo)致系統(tǒng)經(jīng)過一段時(shí)間的 使用之后,隨著越來越多的新詞出現(xiàn),處理的效果將會越變越差,為了解決這個(gè)問題,新詞 發(fā)現(xiàn)算法應(yīng)運(yùn)而生,一般是從海量互聯(lián)網(wǎng)數(shù)據(jù)中,通過新詞發(fā)現(xiàn)算法來提取其中的新詞,然 而,這樣做會有幾個(gè)問題,一是海量互聯(lián)網(wǎng)數(shù)據(jù)也很難覆蓋所有的新詞,二是從眾多互聯(lián)網(wǎng) 數(shù)據(jù)中提取新詞的計(jì)算代價(jià)很大,三是新詞發(fā)現(xiàn)算法都會帶來一定的噪聲數(shù)據(jù),導(dǎo)致提取 的新詞中有一些詞是不規(guī)則詞,這也會對分詞效果造成比較大的影響,除非加入人工糾錯(cuò), 否則自動(dòng)提取的新詞有比較大的問題。


【發(fā)明內(nèi)容】

[0003] 為克服上述現(xiàn)有技術(shù)存在的不足,本發(fā)明之目的在于提供一種用于內(nèi)容推薦的新 詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的新詞、用戶搜索詞條提取的用戶搜索新詞和其 他途徑獲取的新詞結(jié)合起來來獲取最終的新詞,避免了傳統(tǒng)新詞發(fā)現(xiàn)算法所導(dǎo)致的沉重的 運(yùn)算負(fù)擔(dān),不僅可以獲得時(shí)下最新的新詞,還可以有效的保持互聯(lián)網(wǎng)應(yīng)用的時(shí)效性。
[0004] 為達(dá)上述及其它目的,本發(fā)明提出一種新詞發(fā)現(xiàn)系統(tǒng),至少包括:
[0005] 外站抓取模組,用于從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新 詞;
[0006] 搜索新詞模組,統(tǒng)計(jì)用戶搜索過的詞條,并提取頻率最高的前N個(gè)詞條作為用戶 搜索新詞;以及
[0007] 去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶 搜索新詞匯總并去重,得到最終的最新新詞。
[0008] 進(jìn)一步地,該系統(tǒng)還包括一其他新詞來源模塊,以用于獲取其他途徑獲得的新詞 作為其他來源新詞。
[0009] 進(jìn)一步地,該其他新詞來源模塊提取數(shù)據(jù)庫中頻率最高的Μ個(gè)詞條做為其他來源 新詞。
[0010] 進(jìn)一步地,該去重模組將該外站抓取模組抓取的總的外站新詞、該搜索新詞模組 提取的用戶搜索新詞以及該其他新詞來源模塊提取的其他來源新詞匯總并去重,得到最終 的最新新詞。
[0011] 進(jìn)一步地,該系統(tǒng)還包括一首次去重模組,以將該外站抓取模組從各外部網(wǎng)站抓 取的新詞去重后再進(jìn)行匯總為總的外站新詞。
[0012] 為達(dá)到上述及其他目的,本發(fā)明還提供一種新詞發(fā)現(xiàn)方法,包括如下步驟:
[0013] 從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞;
[0014] 統(tǒng)計(jì)用戶搜索過的詞條,并提取頻率最高的前N個(gè)詞條作為用戶搜索新詞;
[0015] 將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終的最新新 。
[0016] 進(jìn)一步地,于該將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重步驟之 前,還包括獲取其他途徑獲得的新詞作為其他來源新詞的步驟。
[0017] 進(jìn)一步地,提取數(shù)據(jù)庫中頻率最高的Μ個(gè)詞條做為其他來源新詞。
[0018] 進(jìn)一步地,將抓取的總的外站新詞、提取的用戶搜索新詞匯及其他來源新詞匯總 并去重,得到最終的最新新詞。
[0019] 進(jìn)一步地,將從各外部網(wǎng)站抓取的新詞去重后再進(jìn)行匯總為總的外站新詞。
[0020] 與現(xiàn)有技術(shù)相比,本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的外站 新詞、根據(jù)用戶搜索的詞條提取的用戶搜索新詞和其他來源新詞結(jié)合起來的方法來獲取最 終的最新新詞,不僅可以避免新詞發(fā)現(xiàn)算法所造成的沉重的運(yùn)算負(fù)擔(dān),還可以獲得時(shí)下最 新的新詞,有效地保持互聯(lián)網(wǎng)應(yīng)用的時(shí)效性。

【專利附圖】

【附圖說明】
[0021] 圖1為本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)的系統(tǒng)架構(gòu)圖;
[0022] 圖2為本發(fā)明一種新詞發(fā)現(xiàn)方法的步驟流程圖。

【具體實(shí)施方式】
[0023] 以下通過特定的具體實(shí)例并結(jié)合【專利附圖】
附圖
【附圖說明】本發(fā)明的實(shí)施方式,本領(lǐng)域技術(shù)人員可 由本說明書所揭示的內(nèi)容輕易地了解本發(fā)明的其它優(yōu)點(diǎn)與功效。本發(fā)明亦可通過其它不同 的具體實(shí)例加以施行或應(yīng)用,本說明書中的各項(xiàng)細(xì)節(jié)亦可基于不同觀點(diǎn)與應(yīng)用,在不背離 本發(fā)明的精神下進(jìn)行各種修飾與變更。
[0024] 圖1為本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)的系統(tǒng)架構(gòu)圖。如圖1所示,本發(fā)明一種新詞發(fā) 現(xiàn)系統(tǒng),至少包括:外站抓取模組101、搜索新詞模組102以及去重模組103。
[0025] 其中外站抓取模組101,用于從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外 站新詞,這里的外部網(wǎng)站可以是百度風(fēng)云榜、新浪微博新詞等,但不以此為限,假設(shè)從百度 風(fēng)云榜抓取的外站新詞有"秒殺、潛水、雷...等",從新浪微博新詞抓取的外站新詞有" 踩、沙發(fā)、斑竹...等";搜索新詞模組102,統(tǒng)計(jì)用戶搜索詞條,并提取頻率最高的前Ν個(gè) 詞條作為用戶搜索新詞,假設(shè)用戶曾搜索過"秒殺、斑竹、鼠標(biāo)手、冏、沙發(fā)、驢友、hold住、 河蟹..."等詞,搜索新詞模組102統(tǒng)計(jì)該些詞搜索的頻率,提取頻率最高的前N個(gè)詞條作 為用戶搜索新詞,如前N個(gè)詞條為"秒殺、斑竹、驢友、河蟹";去重模組103,用于將外站 抓取模組101抓取的總的外站新詞和搜索新詞模組102提取的用戶搜索新詞匯總并去重, 得到最終的最新新詞,在此,最終的最新新詞則為"秒殺、潛水、雷、踩、沙發(fā)、斑竹、驢友、河 蟹"。
[0026] 較佳的,由于外部網(wǎng)站不僅僅包括百度風(fēng)云榜、新浪微博新詞,還包括很多其他站 點(diǎn),從各站點(diǎn)抓取的外站新詞有可能有很多重復(fù),因此,本發(fā)明之新詞發(fā)現(xiàn)系統(tǒng)還可以包括 一首次去重模組104,以將外站抓取模組101從各外部網(wǎng)站抓取的新詞去重后再進(jìn)行匯總 為總的外站新詞。
[0027] 較佳的,除了外部網(wǎng)站及用戶搜索詞條的新詞來源外,本發(fā)明還可以具有其他的 新詞來源,因此本發(fā)明之新詞發(fā)現(xiàn)系統(tǒng)還可以包括一其他新詞來源模塊105,用于獲取其他 途徑獲得的新詞,如數(shù)據(jù)庫中的數(shù)據(jù),其他新詞來源模塊105提取其中頻率最高的Μ個(gè)詞 條做為其他來源新詞,如"涂鴉、外掛、秒殺、綁定"等,相應(yīng)的,去重模組103則將外站抓 取模組101抓取的總的外站新詞、搜索新詞模組102提取的用戶搜索新詞以及其他新詞來 源模塊105提取的其他來源新詞匯總并去重,得到最終的最新新詞,則為"秒殺、潛水、雷、 踩、沙發(fā)、斑竹、驢友、河蟹、涂鴉、外掛、綁定"。
[0028] 圖2為本發(fā)明一種新詞發(fā)現(xiàn)方法的步驟流程圖。如圖2所示,本發(fā)明一種新詞發(fā) 現(xiàn)方法,包括如下步驟:
[0029] 步驟201,從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞。其中,外部 網(wǎng)站可以是百度風(fēng)云榜、新浪微博新詞等,但不以此為限,舉例說明,假設(shè)從百度風(fēng)云榜抓 取的外站新詞有"秒殺、潛水、雷...等",從新浪微博新詞抓取的外站新詞有"踩、沙發(fā)、 斑竹...等",則匯總后的總的外站新詞為"秒殺、潛水、雷、踩、沙發(fā)、斑竹..."。
[0030] 步驟202,統(tǒng)計(jì)用戶搜索的詞條,并提取頻率最高的前Ν個(gè)詞條作為用戶搜索新 詞。舉例說明,假設(shè)用戶曾搜索過"秒殺、斑竹、鼠標(biāo)手、冏、沙發(fā)、驢友、hold住、河蟹" 等詞,則本步驟統(tǒng)計(jì)該些詞搜索的頻率,提取頻率最高的前N個(gè)詞條作為用戶搜索新詞,如 前N個(gè)詞條為"秒殺、斑竹、驢友、河蟹"。
[0031] 步驟203,將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終 的最新新詞,在此,經(jīng)過匯總并去重后的最終的最新新詞則為"秒殺、潛水、雷、踩、沙發(fā)、斑 竹、驢友、河蟹"。
[0032] 較佳地,由于外部網(wǎng)站不僅僅包括百度風(fēng)云榜、新浪微博新詞,還包括很多其他站 點(diǎn),從各站點(diǎn)抓取的外站新詞有可能有很多重復(fù),因此,在步驟201中,則需將從各外部網(wǎng) 站抓取的新詞去重后再進(jìn)行匯總為總的外站新詞。
[0033] 較佳的,除了外部網(wǎng)站及用戶搜索詞條的新詞來源外,本發(fā)明還可以具有其他的 新詞來源,在步驟203之前,還可以包括如下步驟:獲取其他途徑獲得的新詞作為其他來源 新詞,如數(shù)據(jù)庫中的數(shù)據(jù),其他新詞來源模塊105提取其中頻率最高的Μ個(gè)詞條做為其他 來源新詞,如"涂鴉、外掛、秒殺、綁定"等,相應(yīng)的,于步驟203中,則需將抓取的總的外站 新詞、提取的用戶搜索新詞以及其他來源新詞匯總并去重,得到最終的最新新詞,則為"秒 殺、潛水、雷、踩、沙發(fā)、斑竹、5戶友、河蟹、涂鴉、外掛、綁定"。
[0034] 綜上所述,本發(fā)明一種新詞發(fā)現(xiàn)系統(tǒng)及方法,通過將外部網(wǎng)站抓取的外站新詞、根 據(jù)用戶搜索的詞條提取的用戶搜索新詞和其他來源新詞結(jié)合起來的方法來獲取最終的最 新新詞,不僅可以避免新詞發(fā)現(xiàn)算法所造成的沉重的運(yùn)算負(fù)擔(dān),還可以獲得時(shí)下最新的新 詞,有效地保持互聯(lián)網(wǎng)應(yīng)用的時(shí)效性。
[0035] 上述實(shí)施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何本 領(lǐng)域技術(shù)人員均可在不違背本發(fā)明的精神及范疇下,對上述實(shí)施例進(jìn)行修飾與改變。因此, 本發(fā)明的權(quán)利保護(hù)范圍,應(yīng)如權(quán)利要求書所列。
【權(quán)利要求】
1. 一種新詞發(fā)現(xiàn)系統(tǒng),至少包括: 外站抓取模組,用于從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞; 搜索新詞模組,統(tǒng)計(jì)用戶搜索過的詞條,并提取頻率最高的前N個(gè)詞條作為用戶搜索 新詞;以及 去重模組,將該外站抓取模組抓取的總的外站新詞和該搜索新詞模組提取的用戶搜索 新詞匯總并去重,得到最終的最新新詞。
2. 如權(quán)利要求1所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該系統(tǒng)還包括一其他新詞來 源模塊,以用于獲取其他途徑獲得的新詞作為其他來源新詞。
3. 如權(quán)利要求2所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該其他新詞來源模塊提取數(shù) 據(jù)庫中頻率最高的Μ個(gè)詞條做為其他來源新詞。
4. 如權(quán)利要求3所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該去重模組將該外站抓取模 組抓取的總的外站新詞、該搜索新詞模組提取的用戶搜索新詞以及該其他新詞來源模塊提 取的其他來源新詞匯總并去重,得到最終的最新新詞。
5. 如權(quán)利要求1所述的一種新詞發(fā)現(xiàn)系統(tǒng),其特征在于:該系統(tǒng)還包括一首次去重模 組,以將該外站抓取模組從各外部網(wǎng)站抓取的新詞去重后再進(jìn)行匯總為總的外站新詞。
6. -種新詞發(fā)現(xiàn)方法,包括如下步驟: 從當(dāng)前網(wǎng)站的外部網(wǎng)站抓取新詞并匯總,獲得總的外站新詞; 統(tǒng)計(jì)用戶搜索過的詞條,并提取頻率最高的前Ν個(gè)詞條作為用戶搜索新詞; 將抓取的總的外站新詞和提取的用戶搜索新詞匯總并去重,得到最終的最新新詞。
7. 如權(quán)利要求6所述的一種新詞發(fā)現(xiàn)方法,其特征在于,于該將抓取的總的外站新詞 和提取的用戶搜索新詞匯總并去重步驟之前,還包括獲取其他途徑獲得的新詞作為其他來 源新詞的步驟。
8. 如權(quán)利要求7所述的一種新詞發(fā)現(xiàn)方法,其特征在于:提取數(shù)據(jù)庫中頻率最高的Μ 個(gè)詞條做為其他來源新詞。
9. 如權(quán)利要求8所述的一種新詞發(fā)現(xiàn)方法,其特征在于:將抓取的總的外站新詞、提取 的用戶搜索新詞匯及其他來源新詞匯總并去重,得到最終的最新新詞。
10. 如權(quán)利要求6所述的一種新詞發(fā)現(xiàn)方法,其特征在于:將從各外部網(wǎng)站抓取的新詞 去重后再進(jìn)行匯總為總的外站新詞。
【文檔編號】G06F17/30GK104216878SQ201310205571
【公開日】2014年12月17日 申請日期:2013年5月29日 優(yōu)先權(quán)日:2013年5月29日
【發(fā)明者】王玉平, 陳運(yùn)文, 姜迅 申請人:酷盛(天津)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1