1.一種詞匯生成方法,其特征在于,包括:
獲得至少一個通信話單信息,所述通信話單信息包括用戶訪問的網(wǎng)頁地址;
對所述至少一個通信話單信息分別包括的網(wǎng)頁地址進行解析,獲得對應的搜索語句;
獲得所述搜索語句包括的搜索詞匯,并從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯。
2.如權利要求1所述的方法,其特征在于,從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯,包括:
從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預設次數(shù)閾值的第一數(shù)量個搜索詞匯,所述第一數(shù)量為正整數(shù);
將所述第一數(shù)量個搜索詞匯中的任意兩個搜索詞匯兩兩進行比較,若一個搜索詞匯完全包括在另一個搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個搜索詞匯,所述第二數(shù)量個搜索詞匯為所述新詞匯。
3.如權利要求1或2所述的方法,其特征在于,所述獲得至少一個通信話單信息,包括:
將獲得的全部的通信話單信息對應的網(wǎng)頁地址分別與預設網(wǎng)絡域名進行匹配,匹配成功的通信話單信息為所述至少一個通信話單信息。
4.如權利要求3所述的方法,其特征在于,在所述得到新詞匯之后,還包括:
根據(jù)所述用戶訪問的網(wǎng)頁地址確定所述新詞匯的類別。
5.如權利要求4所述的方法,其特征在于,所述通信話單信息中還包括用戶標識;所述根據(jù)所述用戶訪問的網(wǎng)頁地址確定新詞匯的類別,包括:
獲得所述新詞匯對應的通信話單信息中包括的用戶標識的用戶訪問過的 網(wǎng)頁內容;
對所述網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞;
根據(jù)所述第三數(shù)量個關鍵詞,以及所述關鍵詞對應的詞匯類別信息,確定所述新詞匯的類別。
6.如權利要求5所述的方法,其特征在于,所述對網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞包括:
對所述網(wǎng)頁內容進行分詞操作得到至少一個網(wǎng)頁詞匯,從所述至少一個網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內容所包括的網(wǎng)頁詞匯;
從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個關鍵詞。
7.如權利要求6所述的方法,其特征在于,所述從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個關鍵詞,包括:
獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個網(wǎng)頁詞匯的詞頻-反轉文件頻率TF-IDF分數(shù);
按照分數(shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分數(shù)靠前的所述第三數(shù)量個網(wǎng)頁詞匯,所述第三數(shù)量個網(wǎng)頁詞匯為所述第三數(shù)量個關鍵詞。
8.如權利要求7所述的方法,其特征在于,所述根據(jù)第三數(shù)量個關鍵詞以及所述關鍵詞對應的詞匯類別信息,確定所述新詞匯的類別,包括:
獲得所述詞匯類別信息中每種類別的先驗概率,以及獲得所述第三數(shù)量個關鍵詞中的每個關鍵詞在每種類別下的條件概率;
根據(jù)獲得的先驗概率和條件概率,獲得所述第三數(shù)量個關鍵詞對應于每種類別的總概率;
確定總概率最高的類別為所述新詞匯的類別。
9.一種詞匯分類方法,其特征在于,包括:
獲得新詞匯對應的通信話單信息中包括的用戶標識的用戶訪問過的網(wǎng)頁 內容;
對所述網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞;
根據(jù)所述第三數(shù)量個關鍵詞以及所述關鍵詞對應的詞匯類別信息,確定所述新詞匯的類別。
10.如權利要求9所述的方法,其特征在于,所述對網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞包括:
對所述網(wǎng)頁內容進行分詞操作得到至少一個網(wǎng)頁詞匯,從所述至少一個網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內容所包括的網(wǎng)頁詞匯;
從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個關鍵詞。
11.如權利要求10所述的方法,其特征在于,所述從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個關鍵詞,包括:
獲得去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中的每個網(wǎng)頁詞匯的詞頻-反轉文件頻率TF-IDF分數(shù);
按照分數(shù)從高到低的順序,獲得所述剩余的網(wǎng)頁詞匯中分數(shù)靠前的所述第三數(shù)量個網(wǎng)頁詞匯,所述第三數(shù)量個網(wǎng)頁詞匯為所述第三數(shù)量個關鍵詞。
12.如權利要求11所述的方法,其特征在于,所述根據(jù)所述第三數(shù)量個關鍵詞以及所述關鍵詞對應的詞匯類別信息,確定所述新詞匯的類別,包括:
獲得所述詞匯類別信息中每種類別的先驗概率,以及獲得所述第三數(shù)量個關鍵詞中的每個關鍵詞在每種類別下的條件概率;
根據(jù)獲得的先驗概率和條件概率,獲得所述第三數(shù)量個關鍵詞對應于每種類別的總概率;
確定總概率最高的類別為所述新詞匯的類別。
13.一種詞匯生成裝置,其特征在于,包括:
第一獲取模塊,用于獲得至少一個通信話單信息,所述通信話單信息包括用戶訪問的網(wǎng)頁地址;
解析模塊,用于對所述至少一個通信話單信息分別包括的網(wǎng)頁地址進行解析,獲得對應的搜索語句;
第二獲取模塊,用于獲得所述搜索語句包括的搜索詞匯,并從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,得到新詞匯。
14.如權利要求13所述的裝置,其特征在于,所述第二獲取模塊用于:
從所述搜索詞匯中去除已包括在詞庫中的搜索詞匯,并從剩余的搜索詞匯中選擇出現(xiàn)次數(shù)大于預設次數(shù)閾值的第一數(shù)量個搜索詞匯,所述第一數(shù)量為正整數(shù);
將所述第一數(shù)量個搜索詞匯中的任意兩個搜索詞匯兩兩進行比較,若一個搜索詞匯完全包括在另一個搜索詞匯中,則去除被包含的搜索詞匯,得到第二數(shù)量個搜索詞匯,所述第二數(shù)量個搜索詞匯為所述新詞匯。
15.如權利要求13或14所述的裝置,其特征在于,所述第一獲取模塊用于:
將獲得的全部通信話單信息對應的網(wǎng)頁地址分別與預設網(wǎng)絡域名進行匹配,匹配成功的通信話單信息為所述至少一個通信話單信息。
16.如權利要求13-14任一所述的裝置,其特征在于,所述裝置還包括第一類別確定模塊,用于在所述第二獲取模塊得到新詞匯之后,根據(jù)所述用戶訪問的網(wǎng)頁地址確定所述新詞匯的類別。
17.如權利要求16所述的裝置,其特征在于,所述通信話單信息中還包括用戶訪問的網(wǎng)頁地址對應的用戶標識;所述第一類別確定模塊用于:
獲得所述新詞匯對應的通信話單信息中包括的用戶標識的用戶訪問過的網(wǎng)頁內容;
對所述網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞;
根據(jù)所述第三數(shù)量個關鍵詞,以及所述關鍵詞對應的詞匯類別信息,確 定所述新詞匯的類別。
18.一種詞匯分類裝置,其特征在于,包括:
第三獲取模塊,用于獲得新詞匯對應的通信話單信息中包括的用戶標識的用戶訪問過的網(wǎng)頁內容;
第四獲取模塊,用于對所述網(wǎng)頁內容進行分詞操作得到第三數(shù)量個關鍵詞;
第二類別確定模塊,用于根據(jù)所述第三數(shù)量個關鍵詞,以及所述關鍵詞對應的詞匯類別信息,確定所述新詞匯的類別。
19.如權利要求18所述的裝置,其特征在于,所述第四獲取模塊還用于:
對所述網(wǎng)頁內容進行分詞操作得到至少一個網(wǎng)頁詞匯,從所述至少一個網(wǎng)頁詞匯中去除部分網(wǎng)頁詞匯,所述部分網(wǎng)頁詞匯為不包括所述新詞匯的網(wǎng)頁內容所包括的網(wǎng)頁詞匯;
從去除所述部分網(wǎng)頁詞匯后剩余的網(wǎng)頁詞匯中確定所述第三數(shù)量個關鍵詞。
20.如權利要求19所述的裝置,其特征在于,所述第二類別確定模塊用于:
獲得所述詞匯類別信息中每種類別的先驗概率,以及獲得所述第三數(shù)量個關鍵詞中的每個關鍵詞在每種類別下的條件概率;
根據(jù)獲得的先驗概率和條件概率,獲得所述第三數(shù)量個關鍵詞對應于每種類別的總概率;
確定總概率最高的類別為所述新詞匯的類別。