段“午餐”,得到篩選結果為“外賣”、“訂餐”和“叫”,隨后可將篩選結果中分詞長度最短的分詞片段“叫”濾除,得到篩選結果為“外賣”和“訂餐”,并將篩選結果確定為中心詞訓練集。
[0100]其中,步驟S152包括步驟S1521(圖中未示出)、步驟S1522(圖中未示出)和步驟S1523(圖中未示出)。步驟S1521:將各個分詞片段通過向量維度的方式來表示;步驟S1522:提取中心詞訓練集中各個分詞片段的特征屬性;步驟S1523:基于特征屬性,對以向量維度的方式來表示的分詞片段進行分類訓練來生成機器學習算法。
[0101]其中,特征屬性包括但不限于:
[0102]詞性相關信息;
[0103]與相應的歷史搜索關鍵詞的關系信息;
[0104]TF-1DF;
[0105]特殊詞相關信息;
[0106]實體詞相關信息。
[0107]例如,將篩選得到的分詞片段,如“外賣”和“訂餐”通過多維度向量來表示各分詞的不同表示方式,并通過類別標注方法為每個通過多維度向量表示后的分詞標注分詞類另IJ,并將每個通過多維度向量表示后的分詞與分詞片段“外賣”和“訂餐”對應的詞標注為正例,其它詞為負例,隨后,提取中心詞訓練集中各個分詞片段的特征屬性,包括詞性相關信息,如不僅考慮詞自身的詞性,還兼顧其前詞和后詞的詞性的相關信息、與相應的歷史搜索關鍵詞的關系信息、TF_IDF(Term Frequency-1nverse Document Frequency)、特殊詞相關信息,如是否出現(xiàn)在特殊詞表中和實體詞相關信息如是否在實體詞表中等,基于特征屬性,對以向量維度來表示的分詞片段進行分類訓練來生成機器學習算法,如可通過Liblinear(分類器)對以向量維度來表示的分詞片段“外賣”和“訂餐”進行離線分類訓練來生成機器學習算法。
[0108]在一具體應用場景中,當用戶通過終端設備在搜索引擎的輸入框中輸入搜索關鍵詞如“春節(jié)搶紅包”,搜索引擎的服務器實時獲取用戶輸入的搜索關鍵詞“春節(jié)搶紅包”;隨后,提取搜索關鍵詞中對應的中心詞,如“春節(jié)”、“搶”和“紅包”,根據(jù)本發(fā)明方案中生成的機器學習算法提取到的中心詞“春節(jié)”、“搶”和“紅包”確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議如“微信搶紅包”、“春節(jié)搶紅包活動”、“春節(jié)搶紅包攻略”、“支付寶春節(jié)搶紅包”等,如圖3所示。
[0109]圖4為本發(fā)明中另一實施例的基于中心詞確定搜索建議的裝置的結構示意圖。
[0110]獲取模塊410獲取來自終端設備的用戶輸入的搜索關鍵詞;提取模塊420提取與搜索關鍵詞對應的中心詞;推薦模塊430根據(jù)中心詞確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議。
[0111]本發(fā)明的實施例中,提出了一種基于中心詞確定搜索建議的方案,根據(jù)獲取來自終端設備的用戶輸入的搜索關鍵詞,可提取與搜索關鍵詞對應的中心詞,隨后根據(jù)中心詞確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議。本方案通過機器學習算法提取與搜索關鍵詞對應的中心詞,可實現(xiàn)中心詞的自動提取,通過標準化且客觀的方式準確地提取巨大數(shù)量級的搜索關鍵詞的中心詞,從而極大地節(jié)約了提取中心詞的人力及時間成本;同時,通過機器學習算法在中心詞提取過程中進行分類訓練,使得提取到的中心詞更符合用戶的真實搜索意圖,避免了因人為主觀評價中心詞的不同標準而導致提取的中心詞與實際用戶的真實搜索意圖偏差較大的情況,實現(xiàn)了高效準確提取巨大數(shù)量級搜索關鍵詞的中心詞的目的,并根據(jù)提取到的中心詞向用戶推薦最符合其感興趣的搜索關鍵詞,幫助用戶快速且準確地搜索到其所需的查詢結果,提高用戶的搜索體驗。
[0112]獲取模塊410獲取來自終端設備的用戶輸入的搜索關鍵詞。
[0113]例如,用戶通過終端設備在搜索引擎的輸入框中輸入搜索關鍵詞如“外賣訂餐”,搜索引擎的服務器實時獲取到用戶輸入的搜索關鍵詞“外賣訂餐”,隨后,提取搜索關鍵詞中對應的中心詞如“外賣”和“訂餐”,并根據(jù)中心詞“外賣”和“訂餐”確定向用戶推薦的與搜索關鍵詞相關聯(lián)的搜索建議如“百度外賣”、“美團外賣”等。
[0114]提取模塊420提取與搜索關鍵詞對應的中心詞。
[0115]在一優(yōu)選實施例中,提取模塊包括第一提取單元(圖中未示出)。第一提取單元通過機器學習算法提取與搜索關鍵詞對應的中心詞。
[0116]例如,各個用戶通過搜索引擎分別針對各個歷史搜索關鍵詞進行搜索,針對每一歷史搜索關鍵詞獲取相應的多個搜索結果項,各個用戶從多個搜索結果項選中任一搜索結果項,通過將選中同一搜索結果項對應的歷史搜索關鍵詞進行聚合,并通過對聚合后搜索關鍵詞自動標注其中PV(Page View,頁面瀏覽量)最高的搜索關鍵詞的中心詞作為離線訓練的訓練集,隨后用多維向量表示訓練集中的每個中心詞,并通過離線訓練來生成機器學習算法,當搜索引擎的服務器在線獲取用戶輸入的搜索關鍵詞“外賣訂餐”后,通過離線訓練得到的機器學習算法提取“外賣訂餐”的中心詞如“外賣”和“訂餐”。
[0117]在一優(yōu)選實施例中,該裝置還包括獲取生成模塊(圖中未示出)和處理模塊(圖中未示出)。獲取生成模塊獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞,并生成對應于同一統(tǒng)一資源定位符的搜索關鍵詞集合;處理模塊對搜索關鍵詞集合中的多個歷史搜索關鍵詞進行處理,并對處理結果進行模型訓練來生成機器學習算法。
[0118]如圖5所示,獲取生成模塊具體包括第一獲取單元541、第二提取單元542和第二獲取單元543。第一獲取單元541獲取針對多個用戶的歷史搜索點擊記錄;第二提取單元542提取歷史搜索點擊記錄中歷史搜索關鍵詞與搜索結果項、及搜索結果項與統(tǒng)一資源定位符的對應關系;第二獲取單元543根據(jù)對應關系來獲取對應同一統(tǒng)一資源定位符的多個歷史搜索關鍵詞。
[0119]其中,第二提取單元具體用于提取歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關鍵詞,及多個用戶基于其各自輸入的歷史搜索關鍵詞所點擊的搜索結果項之間的對應關系;及提取搜索結果項與相對應的統(tǒng)一資源定位符的對應關系。
[0120]例如,獲取針對多個用戶的歷史搜索點擊記錄,從歷史搜索點擊記錄提取歷史搜索點擊記錄中多個用戶分別輸入的歷史搜索關鍵詞如“外賣”、“外賣訂餐”,并提取多個用戶基于其各自輸入的歷史搜索關鍵詞所點擊的搜索結果項,以及歷史搜索關鍵詞及搜索結果項之間的對應關系,如基于用戶輸入的歷史搜索關鍵詞“外賣訂餐”在搜索引擎中進行搜索,可得到搜索結果項包括指向“百度外賣官網(wǎng)”的搜索結果項、指向“美團外賣官網(wǎng)”的搜索結果項等,用戶從多個搜索結果項中點擊選中搜索結果項“百度外賣官網(wǎng)”,可得到用戶基于輸入的歷史搜索關鍵詞“外賣訂餐”選中的搜索結果項為“百度外賣官網(wǎng)”,即提取歷史搜索關鍵詞“外賣訂餐”與搜索結果項為“百度外賣官網(wǎng)”的對應關系;隨后,提取與搜索結果項“百度外賣官網(wǎng)”對應的URL(Uniform Resource Locator,統(tǒng)一資源定位符)http: //waima1.baidu.com,進而提取歷史搜索關鍵詞“外賣訂餐”與URL:http://waima1.baidu.com的對應關系;隨后根據(jù)提取到的多個歷史搜索關鍵詞與多個URL的對應關系來獲取對應同一URL,如http://waima1.baidu.com的多個歷史搜索關鍵詞,如獲取到與URL: http://waima1.baidu.com對應的歷史搜索關鍵詞包括“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”等,隨后生成對應于同一http: //waima1.baidu.com的搜索關鍵詞集合,其中包括“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”。
[0121]其中,處理模塊具體包括處理單元和生成單元。處理單元對搜索關鍵詞集合中的多個歷史搜索關鍵詞進行分詞處理,以獲取包括多個分詞片段的中心詞訓練集;生成單元基于中心詞訓練集進行模型訓練來生成機器學習算法。
[0122]其中,處理單元包括處理子單元和篩選子單元。處理子單元對搜索關鍵詞集合中的歷史搜索關鍵詞分別進行分詞處理,以獲取多個分詞片段;篩選子單元將多個分詞片段進行篩選處理,并將篩選結果確定為中心詞訓練集。
[0123]其中,分詞處理的方法包括但不限于:
[0124]正向最大匹配法(由左到右的方向);
[0125]逆向最大匹配法(由右到左的方向);
[0126]最少切分(使每一句中切出的詞數(shù)最小);
[0127]雙向最大匹配法(進行由左到右、由右到左兩次掃描)。
[0128]其中,篩選處理的方法包括:將不包括在候選詞表中的分詞片段濾除;將分詞長度最短的分詞片段濾除。
[0129]例如,對應于同一http://waima1.baidu.com的搜索關鍵詞集合中,包括歷史搜索關鍵詞“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”,對該搜索關鍵詞集合中的歷史搜索關鍵詞分別進行分詞處理,如對歷史搜索關鍵詞“外賣送餐”、“外賣訂餐”、“午餐外賣”和“叫外賣”分別進行分詞處理,以獲取多個分詞片段;如對歷史搜索關鍵詞“外賣送餐”通過正向最大匹配法進行分詞得到分詞片段“外賣”和“送餐”,同理,分別對歷史搜索關鍵詞“夕卜賣訂餐”、“午餐外賣”和“