本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
:,特別涉及一種詞匯生成、分類方法及裝置。
背景技術(shù):
::在互聯(lián)網(wǎng)的飛速發(fā)展下,文字的發(fā)展速度越來越快,詞匯在不斷更新變化,在許多領(lǐng)域涌現(xiàn)出大量的新的網(wǎng)絡(luò)詞匯。用戶在訪問網(wǎng)頁時(shí),遇到新的網(wǎng)絡(luò)詞匯,如果不了解的話,可能需要查詢,此時(shí)網(wǎng)站可以從存儲(chǔ)的網(wǎng)絡(luò)詞庫中查找新的網(wǎng)絡(luò)詞匯的類別等信息,便于用戶理解,以及,在對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞處理時(shí),也需要借助網(wǎng)絡(luò)詞庫來支撐。可見,網(wǎng)絡(luò)詞庫是否完備,直接影響著網(wǎng)頁中文字內(nèi)容信息提取是否完全。然而,由于網(wǎng)絡(luò)詞匯的產(chǎn)生、傳播速度快,更新特別頻繁等特點(diǎn),導(dǎo)致網(wǎng)絡(luò)詞庫在很多情況下是不完備的,網(wǎng)絡(luò)詞庫的更新速度遠(yuǎn)遠(yuǎn)滯后于新詞匯的出現(xiàn)速度。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種詞匯生成、分類方法及裝置,用于解決網(wǎng)絡(luò)詞庫的更新速度較慢的技術(shù)問題。第一方面,提供一種詞匯生成方法,包括:獲得至少一個(gè)通信話單信息,所述通信話單信息包括用戶訪問的網(wǎng)頁地址;對(duì)所述至少一個(gè)通信話單信息分別包括的網(wǎng)頁地址進(jìn)行解析,獲得對(duì)應(yīng)的搜索語句;獲得所述搜索語句包括的搜索詞匯,并從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯。結(jié)合第一方面,在第一方面的第一種可能的實(shí)現(xiàn)方式中,從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯,包括:從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯,所述第一數(shù)量為正整數(shù);將所述第一數(shù)量個(gè)搜索詞匯中的任意兩個(gè)搜索詞匯兩兩進(jìn)行比較,若一個(gè)搜索詞匯完全包括在另一個(gè)搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個(gè)搜索詞匯,所述第二數(shù)量個(gè)搜索詞匯為所述新詞匯。結(jié)合第一方面或第一方面的第一種可能的實(shí)現(xiàn)方式,在第一方面的第二種可能的實(shí)現(xiàn)方式中,獲得至少一個(gè)通信話單信息,包括:將獲得的全部的通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為所述至少一個(gè)通信話單信息。結(jié)合第一方面的第二種可能的實(shí)現(xiàn)方式,在第一方面的第三種可能的實(shí)現(xiàn)方式中,在得到新詞匯之后,還包括:根據(jù)所述用戶訪問的網(wǎng)頁地址確定所述新詞匯的類別。結(jié)合第一方面的第三種可能的實(shí)現(xiàn)方式,在第一方面的第四種可能的實(shí)現(xiàn)方式中,所述通信話單信息中還包括用戶標(biāo)識(shí);根據(jù)所述用戶訪問的網(wǎng)頁地址獲取新詞匯的類別,包括:獲得所述新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)所述第三數(shù)量個(gè)關(guān)鍵詞,以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別。結(jié)合第一方面的第四種可能的實(shí)現(xiàn)方式,在第一方面的第五種可能的實(shí)現(xiàn)方式中,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞包括:對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從所述至少一個(gè)網(wǎng) 頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第一方面的第五種可能的實(shí)現(xiàn)方式,在第一方面的第六種可能的實(shí)現(xiàn)方式中,從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞,包括:獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的所述第三數(shù)量個(gè)網(wǎng)頁詞匯,所述第三數(shù)量個(gè)網(wǎng)頁詞匯為所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第一方面的第六種可能的實(shí)現(xiàn)方式,在第一方面的第七種可能的實(shí)現(xiàn)方式中,根據(jù)第三數(shù)量個(gè)關(guān)鍵詞以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別,包括:獲得所述詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得所述第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得所述第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為所述新詞匯的類別。第二方面,提供一種詞匯分類方法,包括:獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)所述第三數(shù)量個(gè)關(guān)鍵詞以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別。結(jié)合第二方面,在第二方面的第一種可能的實(shí)現(xiàn)方式中,對(duì)網(wǎng)頁內(nèi)容進(jìn)行 分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞包括:對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從所述至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第二方面的第一種可能的實(shí)現(xiàn)方式,在第二方面的第二種可能的實(shí)現(xiàn)方式中,從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞,包括:獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的所述第三數(shù)量個(gè)網(wǎng)頁詞匯,所述第三數(shù)量個(gè)網(wǎng)頁詞匯為所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第二方面的第二種可能的實(shí)現(xiàn)方式,在第二方面的第三種可能的實(shí)現(xiàn)方式中,根據(jù)所述第三數(shù)量個(gè)關(guān)鍵詞以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別,包括:獲得所述詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得所述第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得所述第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為所述新詞匯的類別。第三方面,提供一種詞匯生成裝置,包括:第一獲取模塊,用于獲得至少一個(gè)通信話單信息,所述通信話單信息包括用戶訪問的網(wǎng)頁地址;解析模塊,用于對(duì)所述至少一個(gè)通信話單信息分別包括的網(wǎng)頁地址進(jìn)行解析,獲得對(duì)應(yīng)的搜索語句;第二獲取模塊,用于獲得所述搜索語句包括的搜索詞匯,并從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯。結(jié)合第三方面,在第三方面的第一種可能的實(shí)現(xiàn)方式中,所述第二獲取模塊用于:從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯,所述第一數(shù)量為正整數(shù);將所述第一數(shù)量個(gè)搜索詞匯中的任意兩個(gè)搜索詞匯兩兩進(jìn)行比較,若一個(gè)搜索詞匯完全包括在另一個(gè)搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個(gè)搜索詞匯,所述第二數(shù)量個(gè)搜索詞匯為所述新詞匯。結(jié)合第三方面或第三方面的第一種可能的實(shí)現(xiàn)方式,在第三方面的第二種可能的實(shí)現(xiàn)方式中,所述第一獲取模塊用于:將獲得的全部的通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為所述至少一個(gè)通信話單信息。結(jié)合第三方面的第二種可能的實(shí)現(xiàn)方式,在第三方面的第三種可能的實(shí)現(xiàn)方式中,所述裝置還包括第一類別確定模塊,用于在所述所述第二獲取模塊得到新詞匯之后,根據(jù)所述用戶訪問的網(wǎng)頁地址確定所述新詞匯的類別。結(jié)合第三方面的第三種可能的實(shí)現(xiàn)方式,在第三方面的第四種可能的實(shí)現(xiàn)方式中,所述通信話單信息中還包括用戶標(biāo)識(shí);所述第一類別確定模塊用于:獲得所述新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)所述第三數(shù)量個(gè)關(guān)鍵詞,以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別。結(jié)合第三方面的第四種可能的實(shí)現(xiàn)方式,在第三方面的第五種可能的實(shí)現(xiàn)方式中,所述第一類別確定模塊用于:對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從所述至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第三方面的第五種可能的實(shí)現(xiàn)方式,在第三方面的第六種可能的實(shí)現(xiàn)方式中,所述第一類別確定模塊用于:獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的所述第三數(shù)量個(gè)網(wǎng)頁詞匯,所述第三數(shù)量個(gè)網(wǎng)頁詞匯為所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第三方面的第六種可能的實(shí)現(xiàn)方式,在第三方面的第七種可能的實(shí)現(xiàn)方式中,所述第一類別確定模塊用于:獲得所述詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得所述第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得所述第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為所述新詞匯的類別。第四方面,提供一種詞匯分類裝置,包括:第三獲取模塊,用于獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;第四獲取模塊,用于對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;第二類別確定模塊,用于根據(jù)所述第三數(shù)量個(gè)關(guān)鍵詞,以及所述關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定所述新詞匯的類別。結(jié)合第四方面,在第四方面的第一種可能的實(shí)現(xiàn)方式中,所述第四獲取模 塊用于:對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從所述至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第四方面的第一種可能的實(shí)現(xiàn)方式,在第四方面的第二種可能的實(shí)現(xiàn)方式中,所述第四獲取模塊用于:獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的所述第三數(shù)量個(gè)網(wǎng)頁詞匯,所述第三數(shù)量個(gè)網(wǎng)頁詞匯為所述第三數(shù)量個(gè)關(guān)鍵詞。結(jié)合第四方面的第二種可能的實(shí)現(xiàn)方式,在第四方面的第三種可能的實(shí)現(xiàn)方式中,所述第二類別確定模塊用于:獲得所述詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得所述第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得所述第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為所述新詞匯的類別。本發(fā)明實(shí)施例中,可以根據(jù)通信話單信息來更新網(wǎng)絡(luò)詞庫,有大量的用戶每天都在不斷地訪問網(wǎng)頁,可能在很短的時(shí)間內(nèi)就可以產(chǎn)生大量的有效的通信話單信息,可見,通信話單信息的數(shù)據(jù)量巨大,那么,基于這些通信話單信息來生成新詞匯,生成新詞匯的效率也可以得到較大的提高,加快了網(wǎng)絡(luò)詞庫的更新速度。附圖說明圖1為本發(fā)明實(shí)施例中詞匯生成方法的流程圖;圖2為本發(fā)明實(shí)施例中從搜索詞匯中得到新詞匯的流程圖;圖3為本發(fā)明實(shí)施例中詞匯分類方法的流程圖;圖4為本發(fā)明實(shí)施例中確定關(guān)鍵詞的第一個(gè)流程圖;圖5為本發(fā)明實(shí)施例中確定關(guān)鍵詞的第二個(gè)流程圖;圖6為本發(fā)明實(shí)施例中獲得新詞匯的類別的流程圖;圖7為本發(fā)明實(shí)施例中詞匯生成裝置的結(jié)構(gòu)框圖;圖8為本發(fā)明實(shí)施例中詞匯分類裝置的結(jié)構(gòu)框圖;圖9為本發(fā)明實(shí)施例中詞匯生成裝置的結(jié)構(gòu)示意圖;圖10為本發(fā)明實(shí)施例中詞匯分類裝置的結(jié)構(gòu)示意圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。另外,本文中術(shù)語“系統(tǒng)”和“網(wǎng)絡(luò)”在本文中常被可互換使用。本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,如無特殊說明,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。下面結(jié)合說明書附圖對(duì)本發(fā)明實(shí)施例作進(jìn)一步詳細(xì)描述。請(qǐng)參見圖1,本發(fā)明一個(gè)實(shí)施例提供一種詞匯生成方法,所述方法的流程描述如下。步驟101:獲得至少一個(gè)通信話單信息,通信話單信息包括用戶訪問的網(wǎng)頁地址;步驟102:對(duì)至少一個(gè)通信話單信息分別包括的網(wǎng)頁地址進(jìn)行解析,獲得 對(duì)應(yīng)的搜索語句;步驟103:獲得搜索語句包括的搜索詞匯,并從搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯??蛇x的,在本發(fā)明另一實(shí)施例中,可以通過通信運(yùn)營商獲得至少一個(gè)通信話單信息,這里的通信運(yùn)營商例如可以包括中國電信、聯(lián)通等運(yùn)營商,或其他虛擬運(yùn)營商等。例如,通信運(yùn)營商可以設(shè)置用于統(tǒng)計(jì)或監(jiān)控用戶的流量信息的系統(tǒng),比如可以稱為流量統(tǒng)計(jì)系統(tǒng),可以位于網(wǎng)關(guān)上,該系統(tǒng)的接口例如為Gn口,只要簽約該通信運(yùn)營商的用戶訪問網(wǎng)頁,就會(huì)通過Gn口向該流量統(tǒng)計(jì)系統(tǒng)輸入通信話單信息,通信話單信息中可以包括用戶訪問的網(wǎng)頁地址(例如為URL(UniformResourceLocator,統(tǒng)一資源定位符))。從通信運(yùn)營商處獲得通信話單信息,由于通信運(yùn)營商處得到的通信話單信息覆蓋面非常廣,則生成的新網(wǎng)絡(luò)詞匯的覆蓋面也會(huì)比較廣,采用通信運(yùn)營商提供的通信話單信息作為新詞匯生成的數(shù)據(jù)來源,產(chǎn)生的新詞匯就可以覆蓋絕大多數(shù)行業(yè),能夠滿足大多數(shù)場(chǎng)景的需求。同時(shí),由于通信運(yùn)營商處的通信話單信息的數(shù)據(jù)量巨大,例如在很短的時(shí)間內(nèi)就可以產(chǎn)生大量的有效的通信話單信息,那么,基于這些通信話單信息生成新詞匯的效率也可以得到較大的提高,加快了網(wǎng)絡(luò)詞庫的更新速度。可選的,在本發(fā)明另一實(shí)施例中,一個(gè)通信話單信息中除了包括用戶訪問的網(wǎng)頁地址之外,還可以包括對(duì)應(yīng)的用戶標(biāo)識(shí),即表明是該用戶標(biāo)識(shí)對(duì)應(yīng)的用戶訪問了該網(wǎng)頁地址。用戶標(biāo)識(shí)例如可以是用戶的手機(jī)號(hào),或者可以是PC(個(gè)人計(jì)算機(jī))或其他設(shè)備的IP(InternetProtocol,網(wǎng)際協(xié)議)地址,等等,本發(fā)明對(duì)此不作限制。因此,通信運(yùn)營商處保存的通信話單信息,包含的信息量比較大,基本能夠覆蓋大多數(shù)用戶的訪問記錄,覆蓋面比較廣,則生成的新詞匯的覆蓋面也會(huì)比較廣,采用通信運(yùn)營商提供的通信話單信息作為新詞匯生成的數(shù)據(jù)來源,產(chǎn) 生的新詞匯就可以覆蓋絕大多數(shù)行業(yè),能夠滿足大多數(shù)場(chǎng)景的需求??蛇x的,在本發(fā)明另一實(shí)施例中,獲得至少一個(gè)通信話單信息,包括:將獲得的全部通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為至少一個(gè)通信話單信息。在該實(shí)施例中,可以預(yù)先設(shè)定一些網(wǎng)絡(luò)域名,例如將預(yù)先設(shè)定的網(wǎng)絡(luò)域名稱為預(yù)設(shè)網(wǎng)絡(luò)域名。通過設(shè)置預(yù)設(shè)網(wǎng)絡(luò)域名,可以從多個(gè)通信話單信息中篩選出部分通信話單信息進(jìn)行處理,減少后續(xù)的工作量,同時(shí)也可以篩選出所需要的通信話單信息。例如,共獲得了兩個(gè)通信話單信息,分別為通信話單信息1和通信話單信息2,其中,通信話單信息1包括的URL為:http://weibo.com/u/1907304573/home?topnav=1&wvr=6#1438310730976,通信話單信息2包括的URL為:http://www.baidu.com/s?wd=%E7%88%B8%E7%88%B8%E5%8E%BB%E5%93%AA%E5%84%BF%E5%A5%BD%E7%9C%8B%E5%90%97&ie=utf-8&f=8&rsv_bp=1&tn=baidu&rsv_pq=e94ca8e90001044f&rsv_t=1cdfYEptSpeUTkK0BPGcjQGNusLfdv6ypMqZbTBsAQJIHOHsxs6MkS57suY&bs=%E8%AF%AD%E6%B3%95%E8%A7%84%E5%88%99%E7%9A%84%E5%AE%9A%E4%B9%89。例如預(yù)設(shè)網(wǎng)絡(luò)域名為:www.baidu.com。則分別將通信話單信息1包括的URL和通信話單信息2包括的URL與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,可以確定通信話單信息2能夠與預(yù)設(shè)網(wǎng)絡(luò)域名相匹配,則可以將通信話單信息2作為篩選出的通信話單信息,可以丟棄通信話單信息1。在獲得通信話單信息后,可以根據(jù)步驟102,對(duì)每個(gè)通信話單信息所包括的網(wǎng)頁地址進(jìn)行解析,從而可以獲得網(wǎng)頁地址所對(duì)應(yīng)的搜索語句。例如,對(duì)一個(gè)網(wǎng)頁地址進(jìn)行解析,得到其對(duì)應(yīng)的搜索語句為“爸爸去哪兒好看嗎”。通過解析網(wǎng)頁地址獲得搜索語句的實(shí)施過程,可參考現(xiàn)有技術(shù)中的過程,此處不多贅述。例如,可以對(duì)得到的每個(gè)搜索語句分別進(jìn)行字詞順序組合,生成待選詞 組合(即搜索詞匯)。在本發(fā)明另一實(shí)施例中,為了減少工作量,當(dāng)一個(gè)待選詞組合包括的字?jǐn)?shù)大于預(yù)定字?jǐn)?shù)閾值時(shí),可以丟棄該待選詞組合,預(yù)定字?jǐn)?shù)閾值可根據(jù)不同的情況設(shè)定,例如可以將預(yù)定字?jǐn)?shù)閾值設(shè)定為7,這樣,如果一個(gè)待選詞組合中包括的字?jǐn)?shù)大于7時(shí),就可以丟棄該待選詞組合。當(dāng)然,預(yù)定字?jǐn)?shù)閾值也可以設(shè)定為其他數(shù)值,根據(jù)不同需求進(jìn)行設(shè)定即可,本發(fā)明不作限制。例如,一個(gè)搜索語句為“爸爸去哪兒好看嗎”,根據(jù)該搜索語句所生成的待選詞組合為:“爸爸,爸爸去,爸爸去哪,爸爸去哪兒,爸爸去哪兒好,爸爸去哪兒好看,爸爸去哪兒好看嗎,爸去,爸去哪,爸去哪兒,爸去哪兒好,爸去哪兒好看,爸去哪兒好看嗎,去哪,去哪兒,去哪兒好,去哪兒好看,去哪兒好看嗎,哪兒,哪兒好,哪兒好看,哪兒好看嗎,兒好,兒好看,兒好看嗎,好看,好看嗎,看嗎”。例如,預(yù)定字?jǐn)?shù)閾值為7,則根據(jù)該搜索語句生成的待選詞組合中,可以丟棄爸爸去哪兒好看和爸爸去哪兒好看嗎這兩個(gè)待選詞組合。對(duì)剩下的待選詞組合,即,對(duì)剩下的搜索詞匯,可以根據(jù)步驟103,分別與詞庫進(jìn)行匹配,看對(duì)于剩下的每個(gè)待選詞組合,是否已經(jīng)包括在了詞庫中。例如,在如前的例子中得到的待選詞組合中,“爸爸”、“哪兒”等待選詞組合已經(jīng)包括在了詞庫中,則可以丟棄已包括在詞庫中的待選詞組合。在丟棄已包括在詞庫中的搜索詞匯后,可以將剩余的搜索詞匯中的全部或部分作為得到的新詞匯??蛇x的,請(qǐng)參見圖2,在本發(fā)明另一實(shí)施例中,從搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯,包括:步驟201:從搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯,第一數(shù)量 為正整數(shù);步驟202:將第一數(shù)量個(gè)搜索詞匯中的任意兩個(gè)搜索詞匯兩兩進(jìn)行比較,若一個(gè)搜索詞匯完全包括在另一個(gè)搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個(gè)搜索詞匯,第二數(shù)量個(gè)搜索詞匯為新詞匯。例如,在丟棄已包括在詞庫中的搜索詞匯后,還剩下5個(gè)搜索詞匯,則還可以分別確定這5個(gè)搜索詞匯的出現(xiàn)次數(shù),預(yù)設(shè)次數(shù)閾值可以是根據(jù)經(jīng)驗(yàn)設(shè)定,或者也可以是根據(jù)需求設(shè)定,本發(fā)明不作限制。其中,搜索詞匯出現(xiàn)的次數(shù),可以根據(jù)獲取的全部通信話單信息來進(jìn)行確定,當(dāng)然也可以通過其他方式確定。例如可以將預(yù)設(shè)次數(shù)閾值設(shè)置為5000,當(dāng)然也可以設(shè)定為其他數(shù)值。例如在剩下的5個(gè)搜索詞匯中,確定第一個(gè)搜索詞匯的出現(xiàn)次數(shù)為7680次,第二個(gè)搜索詞匯的出現(xiàn)次數(shù)為13次,第三個(gè)搜索詞匯的出現(xiàn)次數(shù)為5513次,第四個(gè)搜索詞匯的出現(xiàn)次數(shù)為4677次,第五個(gè)搜索詞匯的出現(xiàn)次數(shù)為2518次,則可以提取第一個(gè)搜索詞匯和第三個(gè)搜索詞匯作為待選的新詞匯,而可以丟棄其他的三個(gè)搜索詞匯,此時(shí)第一數(shù)量為2。在篩選出出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯后,可以將這第一數(shù)量個(gè)搜索詞匯進(jìn)行兩兩比較。例如,第一數(shù)量為2,這兩個(gè)搜索詞匯分別為“爸爸去哪”和“爸爸去哪兒”,可采用最大長度詞語匹配約減方式,可以看到,“爸爸去哪兒”中包含“爸爸去哪”,也就是說,“爸爸去哪”這個(gè)搜索詞匯完全包含在“爸爸去哪兒”這個(gè)搜索詞匯中,因此,可以丟棄“爸爸去哪”這個(gè)搜索詞匯,“爸爸去哪兒”這個(gè)搜索詞匯就是得到的新詞匯,此時(shí)第二數(shù)量為1。通過篩選出現(xiàn)次數(shù)較多的搜索詞匯,可以盡量保證得到的新詞匯是比較熱門的詞匯,關(guān)注這類詞匯的用戶比較多,可以提高得到的新詞匯的利用率。以及,通過去掉重復(fù)詞匯可以有效減少待處理的詞匯量,減輕設(shè)備的負(fù)擔(dān)。在得到新詞匯后,可能還會(huì)涉及到對(duì)新詞匯進(jìn)行分類,以幫助用戶理解 新詞匯,同時(shí)便于用戶在詞庫中更好地進(jìn)行搜索??蛇x的,在本發(fā)明另一實(shí)施例中,在得到新詞匯之后,還包括:根據(jù)用戶訪問的網(wǎng)頁地址確定新詞匯的類別。下面介紹一種可能的對(duì)新詞匯進(jìn)行分類的方法。請(qǐng)參見圖3,基于同一發(fā)明構(gòu)思及上述各實(shí)施例,本發(fā)明另一實(shí)施例介紹一種詞匯分類方法,該方法的流程描述如下。步驟301:獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;步驟302:對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;步驟303:根據(jù)第三數(shù)量個(gè)關(guān)鍵詞以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別。需要說明的是,圖3中進(jìn)行詞匯分類時(shí),所針對(duì)的新詞匯可以是通過圖1或圖2流程中的詞匯生成方法生成的新詞匯,或者也可以是通過其他方式獲取的新詞匯,例如可以是通過現(xiàn)有技術(shù)中的方式獲取的新詞匯,圖3流程所對(duì)應(yīng)的實(shí)施例所要保護(hù)的是對(duì)新詞匯進(jìn)行分類的方式,對(duì)于新詞匯的來源不作限制。即,圖3流程中所述的新詞匯可以來源于步驟103中獲得的新詞匯,或者也可以是人工收集的新詞匯,等等。為了便于區(qū)分,在后面的介紹過程中,可以認(rèn)為圖3流程以及后續(xù)流程中的新詞匯是第一新詞匯,即,第一新詞匯可以是步驟103中獲得的任意一個(gè)新詞匯,或者也可以是人工收集的任意一個(gè)新詞匯,等等。對(duì)每個(gè)新詞匯進(jìn)行分類的過程都可以相同或類似,在對(duì)多個(gè)新詞匯進(jìn)行分類的時(shí)候,可以并行實(shí)現(xiàn)圖3的方法,也可以串行實(shí)現(xiàn)圖3的方法,本發(fā)明不作限制。因此下面介紹的對(duì)一個(gè)新詞匯進(jìn)行分類的方法即可涵蓋對(duì)多個(gè)新詞匯進(jìn)行分類的過程。那么,如果第一新詞匯是步驟103中獲得的任意一個(gè)新詞匯,則步驟301可以發(fā)生在步驟103之后,如果第一新詞匯是人工收集的任意一個(gè)新詞匯,則圖3流程與圖1流程兩個(gè)大的方法流程的執(zhí)行順序可以任意,甚至圖3流程與 圖1流程可以單獨(dú)實(shí)施,互不影響。那么,步驟301可以是,獲得第一新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容,步驟303可以是,根據(jù)第三數(shù)量個(gè)關(guān)鍵詞以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定第一新詞匯的類別。例如,在獲得第一新詞匯后,可以確定第一新詞匯對(duì)應(yīng)的通信話單信息,第一新詞匯對(duì)應(yīng)的通信話單信息,可能是一個(gè),也可能是多個(gè)。通信話單信息中除了包括用戶訪問的網(wǎng)頁地址之外,還可以包括對(duì)應(yīng)的用戶標(biāo)識(shí),那么,根據(jù)通信話單信息中包括的用戶標(biāo)識(shí),可以確定該用戶標(biāo)識(shí)對(duì)應(yīng)的用戶訪問過的網(wǎng)頁地址,從而可以獲取該用戶訪問過的網(wǎng)頁內(nèi)容。例如可以通過爬蟲(一種自動(dòng)獲取網(wǎng)頁內(nèi)容的程序)獲取該用戶標(biāo)識(shí)訪問過的網(wǎng)頁內(nèi)容,當(dāng)然也可以通過其他方式獲取,本發(fā)明對(duì)此不作限制。在獲得該用戶標(biāo)識(shí)對(duì)應(yīng)的用戶訪問過的網(wǎng)頁內(nèi)容后,對(duì)獲得的每個(gè)網(wǎng)頁內(nèi)容進(jìn)行分詞(例如將一個(gè)網(wǎng)頁地址對(duì)應(yīng)的內(nèi)容看作一個(gè)網(wǎng)頁內(nèi)容),則獲得的網(wǎng)頁內(nèi)容可能是一個(gè)也可以是多個(gè),這些網(wǎng)頁內(nèi)容分詞后可以得到至少一個(gè)詞匯,例如將對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞后得到的詞匯稱為網(wǎng)頁詞匯,即,得到的至少一個(gè)網(wǎng)頁詞匯對(duì)應(yīng)一個(gè)網(wǎng)頁內(nèi)容或?qū)?yīng)多個(gè)網(wǎng)頁內(nèi)容。其中,可以采用分詞技術(shù)對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞,分詞技術(shù)可以將各類結(jié)構(gòu)復(fù)雜的網(wǎng)頁中包括的文字內(nèi)容轉(zhuǎn)換成網(wǎng)絡(luò)詞匯的集合??蛇x的,請(qǐng)參見圖4,在本發(fā)明另一實(shí)施例中,對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞,包括:步驟401:對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,該部分網(wǎng)頁詞匯為不包括新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;步驟402:從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞。其中,步驟402為對(duì)步驟302中介紹的步驟:得到第三數(shù)量個(gè)關(guān)鍵詞,的 細(xì)化過程。即,在對(duì)每個(gè)網(wǎng)頁內(nèi)容進(jìn)行分詞后,可以得到每個(gè)網(wǎng)頁內(nèi)容對(duì)應(yīng)的網(wǎng)頁詞匯。如果一個(gè)網(wǎng)頁內(nèi)容對(duì)應(yīng)的網(wǎng)頁詞匯中不包括第一新詞匯,可能表明該網(wǎng)頁內(nèi)容與第一新詞匯無關(guān),如果將該網(wǎng)頁內(nèi)容也作為確定第一新詞匯的類別的因素,則可能會(huì)導(dǎo)致確定的結(jié)果不夠準(zhǔn)確,而且信息量也比較大,增加了設(shè)備的工作負(fù)擔(dān),因此,可以從得到的網(wǎng)頁詞匯中去掉這個(gè)網(wǎng)頁內(nèi)容對(duì)應(yīng)的網(wǎng)頁詞匯。那么,就可以在去掉了這類網(wǎng)頁內(nèi)容對(duì)應(yīng)的網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞,這樣確定出的關(guān)鍵詞與第一新詞匯的關(guān)系可能較為密切,能夠用來比較好地確定第一新詞匯的類別??蛇x的,本發(fā)明另一實(shí)施例提供一種從網(wǎng)頁詞匯中確定關(guān)鍵詞的方式,這里的方式只是一種舉例,本發(fā)明不限于采用其他確定關(guān)鍵詞的方式。例如,請(qǐng)參見圖5,從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞,包括:步驟501:獲得去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF(termfrequency–inversedocumentfrequency,詞頻-反轉(zhuǎn)文件頻率)分?jǐn)?shù);步驟502:按照分?jǐn)?shù)從高到低的順序,獲得剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的第三數(shù)量個(gè)網(wǎng)頁詞匯,第三數(shù)量個(gè)網(wǎng)頁詞匯為第三數(shù)量個(gè)關(guān)鍵詞。在該實(shí)施例中,第三數(shù)量的具體值可根據(jù)實(shí)際需求設(shè)定,本發(fā)明不作限制。在去掉不包括第一新詞匯的網(wǎng)頁內(nèi)容包括的網(wǎng)頁詞匯后,可以計(jì)算剩下的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù),在得到每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù)后,可以按照分?jǐn)?shù)由高到低的順序?qū)W(wǎng)頁詞匯進(jìn)行排序,那么,如果將排序后的結(jié)果看做是一個(gè)序列,就可以從這個(gè)序列中取前面的第三數(shù)量個(gè)網(wǎng)頁詞匯作為關(guān)鍵詞。其中,TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估字詞對(duì)于一個(gè)文件集或一個(gè)語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時(shí)會(huì)隨著它在語料庫中出現(xiàn)的頻率成反比下降。TF-IDF加權(quán)的各種形式常被搜尋引擎應(yīng)用,作為文件與用戶查詢之間相關(guān)程度的度量或評(píng)級(jí)。除了TF-IDF以外,因特網(wǎng)上的搜尋引擎還會(huì)使用基于連結(jié)分析的評(píng)級(jí)方法,以確定文件在搜尋結(jié)果中出現(xiàn)的順序。計(jì)算TD-IDF的分?jǐn)?shù),公式如下:tfidfi,j=tfi,j×idfi(1)公式(1)中,tfi,j為詞頻,指的是某一個(gè)給定的詞匯在該文件dj中出現(xiàn)的頻率,idf為逆向文件頻率,是一個(gè)詞匯普遍重要性的度量,其中ni,j是該詞匯在文件dj中的出現(xiàn)次數(shù),而分母則是在文件dj中所有詞匯的出現(xiàn)次數(shù)之和,|D|為語料庫中的文件總數(shù),|{j:ti∈dj}|為包含詞語ti的文件的數(shù)目(即ni,j≠0的文件數(shù)目)??蛇x的,在本發(fā)明另一實(shí)施例中,可以根據(jù)貝葉斯分類方式來確定第一新詞匯的類別。例如,請(qǐng)參見圖6,根據(jù)第三數(shù)量個(gè)關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別,包括:步驟601:獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;步驟602:根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;步驟603:確定總概率最高的類別為新詞匯的類別。其中,詞匯類別信息可以是已知的,例如可以包括體育類別、娛樂類別等等,詞匯類別信息中每種類別的先驗(yàn)概率也可以是已知的,例如體育類別的先驗(yàn)概率為0.5,IT(InformationTechnology,互聯(lián)網(wǎng)技術(shù))類別的先驗(yàn)概率 為0.5,等等。獲得第三數(shù)量個(gè)關(guān)鍵詞后,可以計(jì)算其中的每個(gè)關(guān)鍵詞在每種類別下的條件概率,計(jì)算條件概率的方式可參考現(xiàn)有技術(shù)中的方式,本發(fā)明不多贅述。在獲得每種類別的先驗(yàn)概率和第三數(shù)量個(gè)關(guān)鍵詞的條件概率后,可以根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率。例如,共包括兩個(gè)類別,分別為類別1和類別2,類別1的先驗(yàn)概率為先驗(yàn)概率1,類別2的先驗(yàn)概率為先驗(yàn)概率2,第三數(shù)量為2,分別為關(guān)鍵詞1和關(guān)鍵詞2,關(guān)鍵詞1在類別1下的條件概率為條件概率11,關(guān)鍵詞1在類別2下的條件概率為條件概率12,關(guān)鍵詞2在類別1下的條件概率為條件概率21,關(guān)鍵詞2在類別2下的條件概率為條件概率22。則,計(jì)算第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率,一種可能的方式如下:關(guān)鍵詞1和關(guān)鍵詞2對(duì)應(yīng)于類別1的總概率=先驗(yàn)概率1*條件概率11*條件概率21關(guān)鍵詞1和關(guān)鍵詞2對(duì)應(yīng)于類別2的總概率=先驗(yàn)概率2*條件概率12*條件概率22例如,求得關(guān)鍵詞1和關(guān)鍵詞2對(duì)應(yīng)于類別1的總概率大于關(guān)鍵詞1和關(guān)鍵詞2對(duì)應(yīng)于類別2的總概率,則可以將類別1確定為第一新詞匯的類別。本發(fā)明實(shí)施例中,在獲得新詞匯后,可以通過對(duì)使用該新詞匯的用戶標(biāo)識(shí)訪問的網(wǎng)頁內(nèi)容進(jìn)行分析,確定該新詞匯的類別,無需人工確定新詞匯的類別,減輕了人工操作的負(fù)擔(dān),也提高了設(shè)備的智能性。同時(shí),也無需先訓(xùn)練語料庫,通過將新詞匯與語料庫進(jìn)行匹配的方式來確定新詞匯的類別,節(jié)省了訓(xùn)練語料庫所帶來的大量工作量,減輕設(shè)備在確定新詞匯的類別時(shí)的負(fù)擔(dān)。而且,在確定新詞匯的類別時(shí),是通過與新詞匯相關(guān)的網(wǎng)頁內(nèi)容來確定,能夠盡量使確定的結(jié)果較為準(zhǔn)確。下面通過一個(gè)比較完整的例子來介紹詞匯生成過程和詞匯分類過程。一、詞匯生成過程的示例。預(yù)先設(shè)置有預(yù)設(shè)網(wǎng)絡(luò)域名,首先,根據(jù)步驟101,從通信運(yùn)營商處獲得至少一個(gè)通信話單信息,每個(gè)通信話單信息中包括URL以及對(duì)應(yīng)的用戶標(biāo)識(shí)。在獲得至少一個(gè)通信話單信息后,根據(jù)如前介紹的步驟:將獲得的全部通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為至少一個(gè)通信話單信息,將獲得的通信話單信息分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,找出滿足解析條件的通信話單信息,即能夠與預(yù)設(shè)網(wǎng)絡(luò)域名匹配的通信話單信息,對(duì)找出的通信話單信息包括的URL進(jìn)行解析,可以得到用戶輸入的搜索語句。假設(shè)預(yù)設(shè)網(wǎng)絡(luò)域名如表1所示,能夠與預(yù)設(shè)網(wǎng)絡(luò)域名匹配的一個(gè)通信話單信息如表2所示。根據(jù)步驟102,對(duì)表2中的URL進(jìn)行解析,即,對(duì)表2中的“%E7%88%B8%E7%88%B8%E5%8E%BB%E5%93%AA%E5%84%BF%E5%A5%BD%E7%9C%8B%E5%90%97”進(jìn)行解析,對(duì)其進(jìn)行編譯得到用戶輸入的搜索語句,這里解析出的搜索語句為:“爸爸去哪兒好看嗎”。表1預(yù)設(shè)網(wǎng)絡(luò)域名域名編號(hào)預(yù)設(shè)網(wǎng)絡(luò)域名…0001www.baidu.com…表2通信話單信息對(duì)得到的搜索語句進(jìn)行字詞順序組合,生成待選詞組合(即搜索詞匯)。其中,當(dāng)一個(gè)待選詞組合包括的字?jǐn)?shù)大于預(yù)定字?jǐn)?shù)閾值時(shí),可以丟棄該字詞順序組合,例如將預(yù)定字?jǐn)?shù)閾值設(shè)定為7,這樣,如果一個(gè)待選詞組合中包括的字?jǐn)?shù)大于7時(shí),就可以丟棄該待選詞組合。例如,根據(jù)“爸爸去哪兒好看嗎”這個(gè)搜索語句所生成的待選詞組合為:“爸爸,爸爸去,爸爸去哪,爸爸去哪兒,爸爸去哪兒好,爸爸去哪兒好看,爸爸去哪兒好看嗎,爸去,爸去哪,爸去哪兒,爸去哪兒好,爸去哪兒好看,爸去哪兒好看嗎,去哪,去哪兒,去哪兒好,去哪兒好看,去哪兒好看嗎,哪兒,哪兒好,哪兒好看,哪兒好看嗎,兒好,兒好看,兒好看嗎,好看,好看嗎,看嗎”。根據(jù)步驟103,將得到的待選詞組合分別與詞庫進(jìn)行匹配,去除在詞庫中已包含的待選詞組合。例如,如上得到的待選詞組合中,“爸爸”、“哪兒”等待選詞組合在詞庫中匹配成功,即這些待選詞組合已經(jīng)包括在了詞庫中,因此舍棄這些被匹配成功的詞匯。根據(jù)步驟201,對(duì)于舍棄被匹配成功的詞匯后剩下的待選詞組合,分別統(tǒng)計(jì)其中每個(gè)待選詞組合的出現(xiàn)次數(shù),并篩選出超過預(yù)設(shè)次數(shù)閾值的待選詞組合。例如,預(yù)設(shè)次數(shù)閾值=5000,即表示在一個(gè)待選詞字詞組合被用戶搜索的次數(shù)大于5000次時(shí),才會(huì)將該待選詞組合提取出來。例如,對(duì)剩下的待選詞組合的出現(xiàn)次數(shù)的統(tǒng)計(jì)結(jié)果如表3所示。表3待選詞字詞組合的出現(xiàn)次數(shù)待選詞組合出現(xiàn)次數(shù)爸爸去13爸爸去哪5600爸爸去哪兒7680爸爸去哪兒好23……經(jīng)過統(tǒng)計(jì)發(fā)現(xiàn),“爸爸去哪”和“爸爸去哪兒”出現(xiàn)的次數(shù)都大于5000,這兩個(gè)待選詞組合被選擇出來。根據(jù)步驟202,對(duì)篩選出的待選詞組合,采用相同字詞最大長度詞語匹配約減,得到最終的待選詞組合,即為新詞匯。篩選出的待選詞組合為“爸爸去哪”和“爸爸去哪兒”,采用最大長度詞語匹配約減,“爸爸去哪兒”完全包含“爸爸去哪”,因此,丟棄“爸爸去哪”這個(gè)待選詞組合,得到最終的待選詞組合,即,“爸爸去哪兒”就作為最終得到的新詞匯。二、詞匯分類過程的示例。根據(jù)步驟301,對(duì)于獲得的新詞匯,可以獲知其對(duì)應(yīng)的通信話單信息,在通信話單信息中包括用戶標(biāo)識(shí),則可以通過爬蟲獲取該用戶標(biāo)識(shí)對(duì)應(yīng)的用戶訪問過的網(wǎng)頁內(nèi)容。假設(shè)獲得的新詞匯為“納什”,“納什”這個(gè)新詞匯對(duì)應(yīng)的用戶標(biāo)識(shí)如表4所示,表4中的用戶標(biāo)識(shí)所訪問過的URL如表5所示:表4新詞匯對(duì)應(yīng)的用戶標(biāo)識(shí)用戶標(biāo)識(shí)新詞匯0001納什0002納什……表5用戶標(biāo)識(shí)訪問的URL用戶標(biāo)識(shí)URL0001http://news.xinhuanet.com/sports/2015-04/18/c_127704822.html0001http://www.infoq.com/cn/news/2014/03/tag-personal-data/0002http://g.hupu.com/nba/players/stevenash-514.html…..可以通過爬蟲獲得表2所示的URL對(duì)應(yīng)的網(wǎng)頁內(nèi)容。假設(shè)“http://news.xinhuanet.com/sports/2015-04/18/c_127704822.html”這個(gè)URL對(duì)應(yīng)的網(wǎng)頁內(nèi)容如下:<title>納什太陽誰成就了誰?_NBA烽火_籃壇風(fēng)云_體育論壇_新浪網(wǎng)</title><metaname="keywords"content=""/><divid="p_content"><pstyle="text-indent:2em;">上個(gè)賽季,年近34歲的納什在連續(xù)席卷了兩屆MVP之后,又交出了更出色的數(shù)據(jù):18.6分,11.6次助攻,九成的罰球命中率以及45.5%的三分球。過去的三年發(fā)生了什么?是什么讓納什更出色?是他的進(jìn)攻技巧日臻完美,還是得益于安東尼的戰(zhàn)術(shù)?或許納什、小斯和馬里昂更應(yīng)該感謝彼此太陽的突變,讓“跑轟”這個(gè)名詞不再陌生。知道安東尼是怎么訓(xùn)練球隊(duì)的進(jìn)攻嗎?隊(duì)內(nèi)訓(xùn)練,球隊(duì)不是遵循24秒進(jìn)攻,而是20秒。進(jìn)攻的政策就是如果你不投籃,你就將失去上場(chǎng)時(shí)間。在安東尼的執(zhí)教下,太陽的跑轟戰(zhàn)術(shù)有序而又“雜亂”。而這個(gè)有序和“雜亂”雖然是安東尼制定的戰(zhàn)術(shù),卻是由場(chǎng)上的“大腦”納什來執(zhí)行完成的。跑轟提供了一個(gè)展示納什組織能力的更大的舞臺(tái)。他的組織功力自不必說,這是進(jìn)攻有序的保障。同時(shí)他總能將球輸送到空位的隊(duì)友手中,這種誰有機(jī) 會(huì)誰投的進(jìn)攻又呈現(xiàn)“雜亂”的假象。如果沒有納什,安東尼的跑轟不會(huì)發(fā)揮得如此極致,因?yàn)槁?lián)盟幾乎沒有人具有納什那種在敞開進(jìn)攻狀態(tài)的視野;同樣,沒有跑轟,納什的能力也不會(huì)得到百分百的體現(xiàn),他也只是那個(gè)在達(dá)拉斯的中規(guī)中矩的后衛(wèi)。納什和安東尼成就了彼此。當(dāng)然小斯、馬里昂的運(yùn)動(dòng)天賦是跑轟戰(zhàn)術(shù)中不可或缺的元素。很難再找出比他倆更適合跑轟的鋒線球員了。有了納什的組織,小斯、馬里昂的得分就容易多了(但是我不贊同馬里昂是納什效應(yīng)的產(chǎn)物)。同時(shí)他們的存在使得跑轟戰(zhàn)術(shù)不是單純投籃,更多了雷霆萬鈞的激情四射,也讓納什的組織更立體化,比賽也更精彩了。太陽的三劍客應(yīng)該感激彼此,雖然太陽的跑轟戰(zhàn)術(shù)風(fēng)生水起,但沒有總冠軍總讓他們少了一分說服力。有人說奪得總冠軍的第一手段是防守。不過看看幾個(gè)月前的西區(qū)半決賽,馬刺的防守已經(jīng)有點(diǎn)跟不住太陽進(jìn)攻的步伐了。再看看現(xiàn)在聯(lián)盟越來越多的球隊(duì)開始奉行小球跑轟戰(zhàn)術(shù),太陽的成功已經(jīng)不言自明了。納什、安東尼、小斯們成就了彼此,他們的那些事也將和跑轟成為NBA歷史上濃重的一筆<spanstyle="text-indent:2em;"></span></p><divclass="zdfyclearfix"></div><center><tableborder="0"align="center"width="40%"><tr></tr></table></center></div>在得到網(wǎng)頁內(nèi)容后,根據(jù)步驟302,對(duì)每個(gè)網(wǎng)頁內(nèi)容進(jìn)行分詞操作,得到第三數(shù)量個(gè)關(guān)鍵詞。則通過對(duì)該網(wǎng)頁內(nèi)容進(jìn)行分詞,假設(shè)可以得到如下網(wǎng)頁詞匯:納什,太陽,罰球,總冠軍,組織,后衛(wèi),安東尼,訓(xùn)練,NBA,……在對(duì)每個(gè)網(wǎng)頁內(nèi)容進(jìn)行分詞操作之后,根據(jù)步驟401,去除不包含新詞匯的網(wǎng)頁內(nèi)容對(duì)應(yīng)的全部網(wǎng)頁詞匯。例如,http://www.infoq.com/cn/news/2014/03/tag-personal-data/這個(gè)URL對(duì)應(yīng)的網(wǎng)頁內(nèi)容中不包含“納什”這個(gè)新詞匯,則丟棄該URL對(duì)應(yīng)的網(wǎng)頁詞匯。對(duì)剩余的網(wǎng)頁詞匯,根據(jù)步驟402,或可以根據(jù)步驟501,分別計(jì)算其中 每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù),再根據(jù)步驟502,依據(jù)分?jǐn)?shù)的高低選擇關(guān)鍵詞。其中,TF-IDF分?jǐn)?shù)的計(jì)算方式如前已有描述,可以根據(jù)公式(1)計(jì)算每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù)。假設(shè)對(duì)上述網(wǎng)頁內(nèi)容得到的網(wǎng)頁詞匯,通過TF-IDF計(jì)算后得到的每個(gè)網(wǎng)頁詞匯的分?jǐn)?shù)如表6所示。表6網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù)網(wǎng)頁詞匯TF-IDF分?jǐn)?shù)火箭0.77太陽0.86總冠軍0.43主場(chǎng)0.52…………這里為了便于理解,假設(shè)設(shè)定的第三數(shù)量為3,即要挑選3個(gè)關(guān)鍵詞。則根據(jù)表6,確定挑選的3個(gè)關(guān)鍵詞為“太陽”,“火箭”和“主場(chǎng)”,即,得到的種子詞表征向量為[“太陽”,“火箭”,“主場(chǎng)”]。對(duì)種子詞表征向量進(jìn)行貝葉斯分類,計(jì)算新詞匯的類別。進(jìn)行貝葉斯分類的過程,示例如下:根據(jù)步驟601,獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率。假設(shè)詞匯類別信息中包括的類別的先驗(yàn)概率如表7所示,和種子詞(即關(guān)鍵詞)的條件概率如表8所示。表7類別的先驗(yàn)概率類別先驗(yàn)概率體育0.5IT0.5……表8種子詞的條件概率種子詞類別條件概率太陽體育0.6太陽IT0.4火箭體育0.6火箭IT0.1主場(chǎng)體育0.8主場(chǎng)IT0.1………………請(qǐng)參見表9,為假設(shè)的新詞匯所對(duì)應(yīng)的種子詞表征向量。表9新詞匯對(duì)應(yīng)的種子詞表征向量新詞匯種子詞納什火箭、主場(chǎng)、太陽……………根據(jù)表7-表9,以及步驟602,對(duì)新詞匯“納什”計(jì)算其在每種類別下的總概率,即在每種類別下的分類概率,計(jì)算過程如表10所示。則,對(duì)于“納什”這個(gè)新詞匯,屬于體育類別的總概率=0.5*0.6*0.8*0.6=0.44屬于IT類別的總概率=0.5*0.1*0.1*0.4=0.002通過計(jì)算結(jié)果,根據(jù)步驟603,可以確定“納什”這個(gè)新詞匯的類別為體育類別。本發(fā)明實(shí)施例中,可以通過對(duì)使用新詞匯的用戶訪問過的網(wǎng)頁內(nèi)容進(jìn)行分析來確定新詞匯的類別,確定的結(jié)果比較準(zhǔn)確。且在確定的過程中可以通過貝葉斯分類等方式來進(jìn)行計(jì)算,可以使得獲得的結(jié)果更為合理。以下結(jié)合附圖介紹本發(fā)明實(shí)施例中的裝置。請(qǐng)參見圖7,基于同一發(fā)明構(gòu)思及上述各實(shí)施例,本發(fā)明一個(gè)實(shí)施例提供一種詞匯生成裝置,所述裝置可以包括第一獲取模塊701、解析模塊702和第二獲取模塊703。第一獲取模塊701,用于獲得至少一個(gè)通信話單信息,通信話單信息包括用戶訪問的網(wǎng)頁地址;解析模塊702,用于對(duì)至少一個(gè)通信話單信息分別包括的網(wǎng)頁地址進(jìn)行解析,獲得對(duì)應(yīng)的搜索語句;第二獲取模塊703,用于獲得搜索語句包括的搜索詞匯,并從搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯。可選的,在本發(fā)明另一實(shí)施例中,第二獲取模塊703用于:從搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯,第一數(shù)量為正整數(shù);將第一數(shù)量個(gè)搜索詞匯中的任意兩個(gè)搜索詞匯兩兩進(jìn)行比較,若一個(gè)搜索詞匯完全包括在另一個(gè)搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個(gè)搜索詞匯,第二數(shù)量個(gè)搜索詞匯為新詞匯??蛇x的,在本發(fā)明另一實(shí)施例中,第一獲取模塊701用于:將獲得的全部的通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為至少一個(gè)通信話單信息??蛇x的,在本發(fā)明另一實(shí)施例中,所述裝置還包括第一類別確定模塊,第一類別確定模塊用于在第二獲取模塊703得到新詞匯之后,根據(jù)用戶訪問的網(wǎng)頁地址確定新詞匯的類別??蛇x的,在本發(fā)明另一實(shí)施例中,通信話單信息中還包括用戶訪問的網(wǎng) 頁地址對(duì)應(yīng)的用戶標(biāo)識(shí);第一類別確定模塊用于:獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)第三數(shù)量個(gè)關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別。可選的,在本發(fā)明另一實(shí)施例中,第一類別確定模塊用于:對(duì)所述網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從所述至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,該部分網(wǎng)頁詞匯為不包括新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞。可選的,在本發(fā)明另一實(shí)施例中,第一類別確定模塊用于:獲得去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的第三數(shù)量個(gè)網(wǎng)頁詞匯,第三數(shù)量個(gè)網(wǎng)頁詞匯為第三數(shù)量個(gè)關(guān)鍵詞。可選的,在本發(fā)明另一實(shí)施例中,第一類別確定模塊用于:獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為新詞匯的類別。請(qǐng)參見圖8,基于同一發(fā)明構(gòu)思及上述各實(shí)施例,本發(fā)明一個(gè)實(shí)施例提供一種詞匯分類裝置,所述裝置可以包括第三獲取模塊801、第四獲取模塊802和第二類別確定模塊803。第三獲取模塊801,用于獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo) 識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;第四獲取模塊802,用于對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;第二類別確定模塊803,用于根據(jù)第三數(shù)量個(gè)關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別??蛇x的,在本發(fā)明另一實(shí)施例中,第四獲取模塊802還用于:對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;用于從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞??蛇x的,在本發(fā)明另一實(shí)施例中,第四獲取模塊802用于:獲得去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的第三數(shù)量個(gè)網(wǎng)頁詞匯,第三數(shù)量個(gè)網(wǎng)頁詞匯為第三數(shù)量個(gè)關(guān)鍵詞??蛇x的,在本發(fā)明另一實(shí)施例中,第二類別確定模塊803用于:獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為新詞匯的類別。請(qǐng)參見圖9,基于同一發(fā)明構(gòu)思及上述各實(shí)施例,本發(fā)明一個(gè)實(shí)施例提供一種詞匯生成裝置,該詞匯生成裝置可以包括存儲(chǔ)器901和處理器902。處理器902具體可以是中央處理器或ASIC(ApplicationSpecificIntegratedCircuit,特定應(yīng)用集成電路),可以是一個(gè)或多個(gè)用于控制程序執(zhí)行的集成電路,可以是使用FPGA(FieldProgrammableGateArray,現(xiàn)場(chǎng)可編程門陣列) 開發(fā)的硬件電路,可以是基帶芯片。存儲(chǔ)器901的數(shù)量可以是一個(gè)或多個(gè)。存儲(chǔ)器901可以包括ROM(ReadOnlyMemory,只讀存儲(chǔ)器)、RAM(RandomAccessMemory,隨機(jī)存取存儲(chǔ)器)和磁盤存儲(chǔ)器。存儲(chǔ)器901可以通過總線與處理器902相連接,或者也可以通過專門的連接線與處理器902連接。通過對(duì)處理器902進(jìn)行設(shè)計(jì)編程,將前述所示的方法所對(duì)應(yīng)的代碼固化到芯片內(nèi),從而使芯片在運(yùn)行時(shí)能夠執(zhí)行前述實(shí)施例中的所示的方法。如何對(duì)處理器902進(jìn)行設(shè)計(jì)編程為本領(lǐng)域技術(shù)人員所公知的技術(shù),這里不再贅述。本發(fā)明實(shí)施例中,存儲(chǔ)器901,用于存儲(chǔ)處理器902執(zhí)行任務(wù)所需的指令;處理器902,用于執(zhí)行存儲(chǔ)器901存儲(chǔ)的指令,獲得至少一個(gè)通信話單信息,通信話單信息包括用戶訪問的網(wǎng)頁地址;對(duì)至少一個(gè)通信話單信息分別包括的網(wǎng)頁地址進(jìn)行解析,獲得對(duì)應(yīng)的搜索語句;獲得搜索語句包括的搜索詞匯,并從搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯??蛇x的,在本發(fā)明另一實(shí)施例中,處理器902用于:從搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預(yù)設(shè)次數(shù)閾值的第一數(shù)量個(gè)搜索詞匯,第一數(shù)量為正整數(shù);將第一數(shù)量個(gè)搜索詞匯中的任意兩個(gè)搜索詞匯兩兩進(jìn)行比較,若一個(gè)搜索詞匯完全包括在另一個(gè)搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個(gè)搜索詞匯,第二數(shù)量個(gè)搜索詞匯為新詞匯。可選的,在本發(fā)明另一實(shí)施例中,處理器902用于:將獲得的全部的通信話單信息對(duì)應(yīng)的網(wǎng)頁地址分別與預(yù)設(shè)網(wǎng)絡(luò)域名進(jìn)行匹配,匹配成功的通信話單信息為至少一個(gè)通信話單信息??蛇x的,在本發(fā)明另一實(shí)施例中,處理器902還用于:在得到新詞匯之后,根據(jù)用戶訪問的網(wǎng)頁地址確定新詞匯的類別??蛇x的,在本發(fā)明另一實(shí)施例中,通信話單信息中還包括用戶訪問的網(wǎng) 頁地址對(duì)應(yīng)的用戶標(biāo)識(shí);處理器902還用于:獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)第三數(shù)量個(gè)關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別??蛇x的,在本發(fā)明另一實(shí)施例中,處理器902用于:對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,該部分網(wǎng)頁詞匯為不包括新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞。可選的,在本發(fā)明另一實(shí)施例中,處理器902還用于:獲得去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的第三數(shù)量個(gè)網(wǎng)頁詞匯,第三數(shù)量個(gè)網(wǎng)頁詞匯為第三數(shù)量個(gè)關(guān)鍵詞。可選的,在本發(fā)明另一實(shí)施例中,處理器902還用于:獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為新詞匯的類別。請(qǐng)參見圖10,基于同一發(fā)明構(gòu)思及上述各實(shí)施例,本發(fā)明一個(gè)實(shí)施例提供一種詞匯分類裝置,該詞匯分類裝置可以包括存儲(chǔ)器1001和處理器1002。處理器1002具體可以是中央處理器或ASIC,可以是一個(gè)或多個(gè)用于控制程序執(zhí)行的集成電路,可以是使用FPGA開發(fā)的硬件電路,可以是基帶芯片。 存儲(chǔ)器1001的數(shù)量可以是一個(gè)或多個(gè)。存儲(chǔ)器1001可以包括ROM、RAM和磁盤存儲(chǔ)器。存儲(chǔ)器1001可以通過總線與處理器1002相連接,或者也可以通過專門的連接線與處理器1002連接。通過對(duì)處理器1002進(jìn)行設(shè)計(jì)編程,將前述所示的方法所對(duì)應(yīng)的代碼固化到芯片內(nèi),從而使芯片在運(yùn)行時(shí)能夠執(zhí)行前述實(shí)施例中的所示的方法。如何對(duì)處理器1002進(jìn)行設(shè)計(jì)編程為本領(lǐng)域技術(shù)人員所公知的技術(shù),這里不再贅述。本發(fā)明實(shí)施例中,存儲(chǔ)器1001,用于存儲(chǔ)處理器1002執(zhí)行任務(wù)所需的指令;處理器1002,用于執(zhí)行存儲(chǔ)器1001存儲(chǔ)的指令,獲得新詞匯對(duì)應(yīng)的通信話單信息中包括的用戶標(biāo)識(shí)的用戶訪問過的網(wǎng)頁內(nèi)容;對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作,得到第三數(shù)量個(gè)關(guān)鍵詞;根據(jù)第三數(shù)量個(gè)關(guān)鍵詞,以及關(guān)鍵詞對(duì)應(yīng)的詞匯類別信息,確定新詞匯的類別??蛇x的,在本發(fā)明另一實(shí)施例中,處理器1002還用于:對(duì)網(wǎng)頁內(nèi)容進(jìn)行分詞操作得到至少一個(gè)網(wǎng)頁詞匯,從至少一個(gè)網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,部分網(wǎng)頁詞匯為不包括新詞匯的網(wǎng)頁內(nèi)容所包括的網(wǎng)頁詞匯;從去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定第三數(shù)量個(gè)關(guān)鍵詞??蛇x的,在本發(fā)明另一實(shí)施例中,處理器1002還用于:獲得去除部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個(gè)網(wǎng)頁詞匯的TF-IDF分?jǐn)?shù);按照分?jǐn)?shù)從高到低的順序,獲得剩余的網(wǎng)頁詞匯中分?jǐn)?shù)靠前的第三數(shù)量個(gè)網(wǎng)頁詞匯,第三數(shù)量個(gè)網(wǎng)頁詞匯為第三數(shù)量個(gè)關(guān)鍵詞??蛇x的,在本發(fā)明另一實(shí)施例中,處理器1002用于:獲得詞匯類別信息中每種類別的先驗(yàn)概率,以及獲得第三數(shù)量個(gè)關(guān)鍵詞 中的每個(gè)關(guān)鍵詞在每種類別下的條件概率;根據(jù)獲得的先驗(yàn)概率和條件概率,獲得第三數(shù)量個(gè)關(guān)鍵詞對(duì)應(yīng)于每種類別的總概率;確定總概率最高的類別為新詞匯的類別。本發(fā)明實(shí)施例中,可以根據(jù)通信話單信息來更新網(wǎng)絡(luò)詞庫,有大量的用戶每天都在不斷地訪問網(wǎng)頁,可能在很短的時(shí)間內(nèi)就可以產(chǎn)生大量的有效的通信話單信息,可見,通信話單信息的數(shù)據(jù)量巨大,那么,基于這些通信話單信息來生成新詞匯,生成新詞匯的效率也可以得到較大的提高,加快了網(wǎng)絡(luò)詞庫的更新速度。在本發(fā)明另一實(shí)施例中,可以從通信運(yùn)營商處獲得通信話單信息,由于通信運(yùn)營商處得到的通信話單信息覆蓋面非常廣,則生成的新網(wǎng)絡(luò)詞匯的覆蓋面也會(huì)比較廣,采用通信運(yùn)營商提供的通信話單信息作為新詞匯生成的數(shù)據(jù)來源,產(chǎn)生的新詞匯就可以覆蓋絕大多數(shù)行業(yè),能夠滿足大多數(shù)場(chǎng)景的需求。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能單元的劃分進(jìn)行舉例說明,實(shí)際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元,以完成以上描述的全部或者部分功能。上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元或單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為 單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)或processor(處理器)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、ROM、RAM、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,以上實(shí)施例僅用以對(duì)本申請(qǐng)的技術(shù)方案進(jìn)行了詳細(xì)介紹,但以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想,不應(yīng)理解為對(duì)本發(fā)明的限制。本
技術(shù)領(lǐng)域:
:的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3