一種關(guān)鍵詞的確定方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及關(guān)鍵詞領(lǐng)域,特別涉及一種關(guān)鍵詞的確定方法及裝置。
【背景技術(shù)】
[0002]隨著大數(shù)據(jù)的增加,用戶對處理大數(shù)據(jù)方法的要求也越來越高。在實(shí)際應(yīng)用中,經(jīng)常會有一種需求,就是確定用戶的待搜索詞條與給定的詞包中存在的相同的詞條,以下將這些相同的詞條稱為關(guān)鍵詞,確定出的關(guān)鍵詞可以被用來分析用戶的行為特點(diǎn)、向用戶推薦信息等。
[0003]現(xiàn)有的確定關(guān)鍵詞的方法有以下兩種:
[0004]第一,通過循環(huán)給定的詞包中的子詞條的方式在用戶的待搜索詞條中查找相同的子詞條,進(jìn)而將查找到的相同的子詞條確定為關(guān)鍵詞,例如:一個用戶的待搜索詞條為“名字是李明明”,詞包中有1000個詞條,那么就需要將詞包中的每個子詞條都在待搜索詞條中進(jìn)行查找,這樣,就查找了 1000次,這只是對于一條待搜索詞條,對于多條待搜索詞條來說,查找的次數(shù)會更多,查找次數(shù)的增多使得查找算法繁雜度增加,查找時間增長使得數(shù)據(jù)處理速度變慢。
[0005]第二,通過循環(huán)待搜索詞條分詞后的子詞條的方式在給定的詞包中查找相同的子詞條,進(jìn)而將查找到的相同的子詞條確定為關(guān)鍵詞,分詞時是依據(jù)由語料訓(xùn)練得到的語料庫中的詞條分割待搜索詞條,如上面的例子,語料庫中可能有“名字”、“是”、“李明明”等詞條,“名字是李明明”分詞后可以為“名字”、“是”、“李明明”,此方法是“名字”、“是”、“李明明”這三個子詞條分別在詞包中查找是否存在相同的子詞條,只需要查找三次,與第一種方法相比,查找次數(shù)的明顯減少使得算法繁雜度降低,查找時間的縮短使得數(shù)據(jù)處理速度變快,但是現(xiàn)有的分詞受語料庫中的詞條的限制,往往會出現(xiàn)一些分詞后的子詞條不符合原待搜索詞條的詞意的情況,如果語料庫中沒有“李明明”,而有“李明”、“明”等詞條,上述的“名字是李明明”分詞后可以為“名字”、“是”、“李明” “明”,這樣給定的詞包中如果有“李明”,則“李明”將會被確定為關(guān)鍵詞,顯然,“李明”與原待搜索詞條中的“李明明”的詞意不同,這樣就直接影響確定的關(guān)鍵詞的準(zhǔn)確性。
[0006]綜上所述,如何快速且準(zhǔn)確的確定關(guān)鍵詞成為一個亟待解決的問題。
【發(fā)明內(nèi)容】
[0007]基于上述問題,本發(fā)明實(shí)施例公開了一種關(guān)鍵詞的確定方法及裝置,能夠快速且準(zhǔn)確的確定關(guān)鍵詞。技術(shù)方案如下:
[0008]第一方面,本發(fā)明實(shí)施例提供了一種關(guān)鍵詞的確定方法,包括:
[0009]獲得待搜索詞條;
[0010]根據(jù)預(yù)設(shè)的順序字符分割規(guī)則,對用戶的待搜索詞條進(jìn)行分割,得到待搜索子詞條集合;其中,所述待搜索子詞條集合中包括至少一個待搜索子詞條,且所述待搜索子詞條為所述待搜索詞條中的部分內(nèi)容或全部內(nèi)容;[0011 ] 在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條;
[0012]在查找到所述相同的目標(biāo)子詞條后,將查找到的所述相同的目標(biāo)子詞條確定為所述待搜索詞條所對應(yīng)的關(guān)鍵詞。
[0013]可選的,所述在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條,包括:
[0014]在預(yù)先存儲于哈希表的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0015]可選的,所述目標(biāo)詞包中最長的目標(biāo)子詞條的長度通過max-length表示,所述目標(biāo)詞包中最短的目標(biāo)子詞條的長度通過min-length表示;
[0016]則所述根據(jù)預(yù)設(shè)的順序字符分割規(guī)則,對用戶的待搜索詞條進(jìn)行分割,得到待搜索子詞條集合之后,且所述在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條之前,還包括:
[0017]統(tǒng)計(jì)所得到的待搜索子詞條集合中的每個待搜索子詞條的長度;
[0018]將統(tǒng)計(jì)的待搜索子詞條的長度大于max-length和小于min-length的待搜索子詞條從所述待搜索子詞條集合中去除;
[0019]則所述在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條,包括:
[0020]在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與去除后得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0021]可選的,所述目標(biāo)詞包中包括至少一個目標(biāo)子詞包,其中,所述目標(biāo)子詞包包括單一長度的目標(biāo)子詞條,不同目標(biāo)子詞包括中的目標(biāo)子詞條的長度不同;
[0022]則所述根據(jù)預(yù)設(shè)的順序字符分割規(guī)則,對用戶的待搜索詞條進(jìn)行分割,得到待搜索子詞條集合之后,且所述在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條之前,還包括:
[0023]統(tǒng)計(jì)所得到的待搜索子詞條集合中的每個待搜索子詞條的長度;
[0024]將具有相同長度的待搜索子詞條歸到一個等長待搜索子詞條集合中,以使得每個等長待搜索子詞條集合中都包括單一長度的待搜索子詞條;
[0025]則在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條,包括:
[0026]在預(yù)先存儲的每個目標(biāo)子詞包中分別查找與對應(yīng)的具有相同長度的等長待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0027]可選的,還包括:將所確定的關(guān)鍵詞突出顯示。
[0028]可選的,還包括:向用戶推送與所述關(guān)鍵詞相關(guān)的信息。
[0029]第二方面,本發(fā)明實(shí)施例還提供了一種關(guān)鍵詞的確定裝置,包括:
[0030]獲得單元,用于獲得待搜索詞條;
[0031]分割單元,用于根據(jù)預(yù)設(shè)的順序字符分割規(guī)則,對用戶的待搜索詞條進(jìn)行分割,得到待搜索子詞條集合;其中,所述待搜索子詞條集合中包括至少一個待搜索子詞條,且所述待搜索子詞條為所述待搜索詞條中的部分內(nèi)容或全部內(nèi)容;
[0032]查找單元,用于在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條;
[0033]確定單元,用于在查找到所述相同的目標(biāo)子詞條后,將查找到的所述相同的目標(biāo)子詞條確定為所述待搜索詞條所對應(yīng)的關(guān)鍵詞。
[0034]可選的,所述查找單元,具體用于:
[0035]在預(yù)先存儲于哈希表的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與所得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0036]可選的,所述目標(biāo)詞包中最長的目標(biāo)子詞條的長度通過max-length表示,所述目標(biāo)詞包中最短的目標(biāo)子詞條的長度通過min-length表示;
[0037]則所述分割單元觸發(fā)后,且查找單元觸發(fā)前,還包括:
[0038]統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所得到的待搜索子詞條集合中的每個待搜索子詞條的長度;
[0039]去除單元,用于將統(tǒng)計(jì)的待搜索子詞條的長度大于max-length和小于min-length的待搜索子詞條從所述待搜索子詞條集合中去除;
[0040]則所述查找單元,具體用于:在預(yù)先存儲的至少包括一個目標(biāo)子詞條的目標(biāo)詞包中,查找與去除后得到的待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0041]可選的,所述目標(biāo)詞包中包括至少一個目標(biāo)子詞包,其中,所述目標(biāo)子詞包包括單一長度的目標(biāo)子詞條,不同目標(biāo)子詞包括中的目標(biāo)子詞條的長度不同;
[0042]則所述分割單元觸發(fā)后,且查找單元觸發(fā)前,還包括:
[0043]統(tǒng)計(jì)單元,統(tǒng)計(jì)所得到的待搜索子詞條集合中的每個待搜索子詞條的長度;
[0044]歸類單元,用于將具有相同長度的待搜索子詞條歸到一個等長待搜索子詞條集合中,以使得每個等長待搜索子詞條集合中都包括單一長度的待搜索子詞條;
[0045]則所述查找單元,具體用于:在預(yù)先存儲的每個目標(biāo)子詞包中分別查找與對應(yīng)的具有相同長度的等長待搜索子詞條集合中的待搜索子詞條相同的目標(biāo)子詞條。
[0046]可選的,還包括:顯示單元,用于將所確定的關(guān)鍵詞突出顯示。
[0047]可選的,還包括:推送單元,用于向用戶推送與所述關(guān)鍵詞相關(guān)的信息。
[0048]本發(fā)明實(shí)施例根據(jù)預(yù)設(shè)的順序字符分割規(guī)則,對用戶的待搜索詞條進(jìn)行分割,然后遍歷分割后的每個待搜索子詞條,在目標(biāo)詞包中查找是否存在與待搜索詞條分割后的待搜索子詞條相同的目標(biāo)子詞條,當(dāng)查找到后,將查找到的相同的目標(biāo)子詞條確定為關(guān)鍵詞。這樣,在整個過程中,查找的次數(shù)即為待搜索詞條分割后的待搜索子詞條的數(shù)量,在實(shí)際應(yīng)用中,待搜索子詞條的數(shù)量會遠(yuǎn)遠(yuǎn)小于目標(biāo)詞包中的目標(biāo)子詞條的數(shù)量,因此,相比現(xiàn)有第一種技術(shù),查找次數(shù)明顯減少,算法繁雜度和時間消耗度降低,數(shù)據(jù)處理速度變快;相比現(xiàn)有第二種技術(shù),順序字符分割后的待搜索子詞條包括了待搜索詞條分割后的所有情況,查找結(jié)果準(zhǔn)確度會更高,相應(yīng)的,確定的關(guān)鍵詞準(zhǔn)確度也變高,就準(zhǔn)確度增加的程度而言,增加的查找次數(shù)帶來的對數(shù)據(jù)處理速度的影響可