基于中心詞確定搜索建議的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體而言,本發(fā)明涉及一種基于中心詞確定搜索建議的方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)的迅猛發(fā)展,互聯(lián)網(wǎng)可對(duì)幾乎現(xiàn)有的一切日常問題提供解決方案或相關(guān)解決方案,為人們的生活和工作提供了極大的便利。用戶在使用網(wǎng)絡(luò)搜索引擎進(jìn)行相關(guān)查詢時(shí),現(xiàn)有的網(wǎng)絡(luò)搜索引擎可根據(jù)用戶輸入的搜索關(guān)鍵詞向用戶提供與搜索關(guān)鍵詞相關(guān)的搜索建議,用戶可從搜索建議中選擇與其查詢意圖更為匹配的關(guān)鍵詞進(jìn)行搜索查詢,現(xiàn)有的獲取與搜索關(guān)鍵相關(guān)的搜索建議的方法為通過人工預(yù)標(biāo)注的方式提取搜索關(guān)鍵詞的中心詞,并根據(jù)提取的中心詞向用戶推薦其最可能感興趣的搜索關(guān)鍵詞。但是,人工預(yù)標(biāo)注的中心詞提取方式只適用于極少量的搜索關(guān)鍵詞,隨著搜索引擎的普通使用,隨之相應(yīng)的搜索關(guān)鍵詞激增,通過人工預(yù)標(biāo)注的中心詞提取方式無法滿足龐大數(shù)量級(jí)的搜索關(guān)鍵詞提取需求。一方面,人工標(biāo)注提取中心詞的方式無法對(duì)中心詞實(shí)現(xiàn)自動(dòng)化的提取,同時(shí),需要較多的人力和時(shí)間才能完成提取相應(yīng)的中心詞,且提取效率太低;另一方面,由于每個(gè)人對(duì)同一中心詞的主觀評(píng)價(jià)不同,因此對(duì)同一中心詞的標(biāo)注也不同,可能會(huì)導(dǎo)致提取的中心詞與實(shí)際用戶的真實(shí)搜索目標(biāo)偏差較大。
[0003]因此,需要一種自動(dòng)化提取搜索關(guān)鍵詞的中心詞的方法,實(shí)現(xiàn)高效準(zhǔn)確的提取數(shù)量巨大的搜索關(guān)鍵詞中的中心詞的目的。
【發(fā)明內(nèi)容】
[0004]為克服上述技術(shù)問題或者至少部分地解決上述技術(shù)問題,特提出以下技術(shù)方案:
[0005]本發(fā)明的實(shí)施例提出了一種基于中心詞確定搜索建議的方法,包括:
[0006]獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞;
[0007]提取與搜索關(guān)鍵詞對(duì)應(yīng)的中心詞;
[0008]根據(jù)中心詞確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議。
[0009]優(yōu)選地,提取與搜索關(guān)鍵詞對(duì)應(yīng)的中心詞,包括:
[0010]通過機(jī)器學(xué)習(xí)算法提取與搜索關(guān)鍵詞對(duì)應(yīng)的中心詞。
[0011]優(yōu)選地,該方法還包括:
[0012]獲取對(duì)應(yīng)同一統(tǒng)一資源定位符的多個(gè)歷史搜索關(guān)鍵詞,并生成對(duì)應(yīng)于同一統(tǒng)一資源定位符的搜索關(guān)鍵詞集合;
[0013]對(duì)搜索關(guān)鍵詞集合中的多個(gè)歷史搜索關(guān)鍵詞進(jìn)行處理,并對(duì)處理結(jié)果進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0014]優(yōu)選地,獲取對(duì)應(yīng)同一統(tǒng)一資源定位符的多個(gè)歷史搜索關(guān)鍵詞,具體包括:
[0015]獲取針對(duì)多個(gè)用戶的歷史搜索點(diǎn)擊記錄;
[0016]提取歷史搜索點(diǎn)擊記錄中歷史搜索關(guān)鍵詞與搜索結(jié)果項(xiàng)、及搜索結(jié)果項(xiàng)與統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系;
[0017]根據(jù)對(duì)應(yīng)關(guān)系來獲取對(duì)應(yīng)同一統(tǒng)一資源定位符的多個(gè)歷史搜索關(guān)鍵詞。
[0018]優(yōu)選地,提取歷史搜索點(diǎn)擊記錄中歷史搜索關(guān)鍵詞與搜索結(jié)果項(xiàng)、及搜索結(jié)果項(xiàng)與統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系,具體包括:
[0019]提取歷史搜索點(diǎn)擊記錄中多個(gè)用戶分別輸入的歷史搜索關(guān)鍵詞,及多個(gè)用戶基于其各自輸入的歷史搜索關(guān)鍵詞所點(diǎn)擊的搜索結(jié)果項(xiàng)之間的對(duì)應(yīng)關(guān)系;及
[0020]提取搜索結(jié)果項(xiàng)與相對(duì)應(yīng)的統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系。
[0021]優(yōu)選地,對(duì)搜索關(guān)鍵詞集合中的多個(gè)歷史搜索關(guān)鍵詞進(jìn)行處理,并對(duì)處理結(jié)果進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法,具體包括:
[0022]對(duì)搜索關(guān)鍵詞集合中的多個(gè)歷史搜索關(guān)鍵詞進(jìn)行分詞處理,以獲取包括多個(gè)分詞片段的中心詞訓(xùn)練集;
[0023]基于中心詞訓(xùn)練集進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0024]優(yōu)選地,對(duì)搜索關(guān)鍵詞集合中的歷史搜索關(guān)鍵詞進(jìn)行分詞處理,以獲取包括多個(gè)分詞片段的中心詞訓(xùn)練集,包括:
[0025]對(duì)搜索關(guān)鍵詞集合中的歷史搜索關(guān)鍵詞分別進(jìn)行分詞處理,以獲取多個(gè)分詞片段;
[0026]將多個(gè)分詞片段進(jìn)行篩選處理,并將篩選結(jié)果確定為中心詞訓(xùn)練集。
[0027]優(yōu)選地,基于中心詞訓(xùn)練集進(jìn)行模型訓(xùn)練來生成機(jī)器學(xué)習(xí)算法,包括:
[0028]將各個(gè)分詞片段通過向量維度的方式來表不;
[0029]提取中心詞訓(xùn)練集中各個(gè)分詞片段的特征屬性;
[0030]基于特征屬性,對(duì)以向量維度的方式來表示的分詞片段進(jìn)行分類訓(xùn)練來生成機(jī)器學(xué)習(xí)算法。
[0031]其中,特征屬性包括單不限于以下任一項(xiàng):
[0032]詞性相關(guān)信息;
[0033]與相應(yīng)的歷史搜索關(guān)鍵詞的關(guān)系信息;
[0034]TF-1DF;
[0035]特殊詞相關(guān)信息;
[0036]實(shí)體詞相關(guān)信息。
[0037]本發(fā)明的另一實(shí)施例提出了一種基于中心詞確定搜索建議的裝置,包括:
[0038]獲取模塊,用于獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞;
[0039]提取模塊,用于提取與所述搜索關(guān)鍵詞對(duì)應(yīng)的中心詞;
[0040]推薦模塊,用于根據(jù)所述中心詞確定向用戶推薦的與所述搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議。
[0041 ]優(yōu)選地,所述提取模塊包括:
[0042]第一提取單元,用于通過機(jī)器學(xué)習(xí)算法提取與所述搜索關(guān)鍵詞對(duì)應(yīng)的中心詞。
[0043]優(yōu)選地,該裝置還包括:
[0044]獲取生成模塊,用于獲取對(duì)應(yīng)同一統(tǒng)一資源定位符的多個(gè)歷史搜索關(guān)鍵詞,并生成對(duì)應(yīng)于所述同一統(tǒng)一資源定位符的搜索關(guān)鍵詞集合;
[0045]處理模塊,用于對(duì)所述搜索關(guān)鍵詞集合中的多個(gè)歷史搜索關(guān)鍵詞進(jìn)行處理,并對(duì)處理結(jié)果進(jìn)行模型訓(xùn)練來生成所述機(jī)器學(xué)習(xí)算法。
[0046]優(yōu)選地,所述獲取生成模塊具體包括:
[0047]第一獲取單元,用于獲取針對(duì)多個(gè)用戶的歷史搜索點(diǎn)擊記錄;
[0048]第二提取單元,用于提取所述歷史搜索點(diǎn)擊記錄中歷史搜索關(guān)鍵詞與搜索結(jié)果項(xiàng)、及搜索結(jié)果項(xiàng)與統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系;
[0049]第二獲取單元,用于根據(jù)所述對(duì)應(yīng)關(guān)系來獲取對(duì)應(yīng)同一統(tǒng)一資源定位符的多個(gè)歷史搜索關(guān)鍵詞。
[0050]優(yōu)選地,所述第二提取單元具體用于
[0051]提取所述歷史搜索點(diǎn)擊記錄中多個(gè)用戶分別輸入的歷史搜索關(guān)鍵詞,及多個(gè)用戶基于其各自輸入的歷史搜索關(guān)鍵詞所點(diǎn)擊的搜索結(jié)果項(xiàng)之間的對(duì)應(yīng)關(guān)系;及提取所述搜索結(jié)果項(xiàng)與相對(duì)應(yīng)的統(tǒng)一資源定位符的對(duì)應(yīng)關(guān)系。
[0052]優(yōu)選地,所述處理模塊具體包括:
[0053]處理單元,用于對(duì)所述搜索關(guān)鍵詞集合中的多個(gè)歷史搜索關(guān)鍵詞進(jìn)行分詞處理,以獲取包括多個(gè)分詞片段的中心詞訓(xùn)練集;
[0054]生成單元,用于基于所述中心詞訓(xùn)練集進(jìn)行模型訓(xùn)練來生成所述機(jī)器學(xué)習(xí)算法。
[0055]優(yōu)選地,所述處理單元包括:
[0056]處理子單元,用于對(duì)所述搜索關(guān)鍵詞集合中的歷史搜索關(guān)鍵詞分別進(jìn)行分詞處理,以獲取多個(gè)分詞片段;
[0057]篩選子單元,用于將所述多個(gè)分詞片段進(jìn)行篩選處理,并將篩選結(jié)果確定為中心詞訓(xùn)練集。
[0058]優(yōu)選地,所述生成單元包括:
[0059]表示子單元,用于將所述各個(gè)分詞片段通過向量維度的方式來表示;
[0060]提取子單元,用于提取所述中心詞訓(xùn)練集中各個(gè)分詞片段的特征屬性;
[0061]生成子單元,用于基于所述特征屬性,對(duì)以向量維度的方式來表示的所述分詞片段進(jìn)行分類訓(xùn)練來生成所述機(jī)器學(xué)習(xí)算法。
[0062]其中,所述特征屬性包括以下至少任一項(xiàng):
[0063]詞性相關(guān)信息;
[0064]與相應(yīng)的歷史搜索關(guān)鍵詞的關(guān)系信息;
[0065]TF-1DF;
[0066]特殊詞相關(guān)信息;
[0067]實(shí)體詞相關(guān)信息。
[0068]本發(fā)明的實(shí)施例中,提出了一種基于中心詞確定搜索建議的方案,根據(jù)獲取來自終端設(shè)備的用戶輸入的搜索關(guān)鍵詞,可提取與搜索關(guān)鍵詞對(duì)應(yīng)的中心詞,隨后根據(jù)中心詞確定向用戶推薦的與搜索關(guān)鍵詞相關(guān)聯(lián)的搜索建議。本方案通過機(jī)器學(xué)習(xí)算法提取與搜索關(guān)鍵詞對(duì)應(yīng)的中心詞,可實(shí)現(xiàn)中心詞的自動(dòng)提取,通過標(biāo)準(zhǔn)化且客觀的方式準(zhǔn)確地提取巨大數(shù)量級(jí)的搜索關(guān)鍵詞的中心詞,從而極大地節(jié)約了提取中心詞的人力及時(shí)間成本;同時(shí),通過機(jī)器學(xué)習(xí)算法在中心詞提取過程中進(jìn)行分類訓(xùn)練,使得提取到的中心詞更符合用戶的真實(shí)搜索意圖,避免了因人為主觀評(píng)價(jià)中心詞的不同標(biāo)準(zhǔn)而導(dǎo)致提取的中心詞與實(shí)際用戶的真實(shí)搜索意圖偏差較大的情況,實(shí)現(xiàn)了高效準(zhǔn)確提取巨大數(shù)量級(jí)搜索關(guān)鍵詞的中心詞的目的,并根據(jù)提取到的中心詞向用戶推薦最符合其感興趣的搜索關(guān)鍵詞,幫助用戶快速且準(zhǔn)確地搜索到其所需的查詢結(jié)果,提高用戶的搜索體驗(yàn)。
[0069]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,這些將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0070]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0071]圖1為本發(fā)明中一個(gè)實(shí)施例的基于中心詞確定搜索建議的方法的流程圖;
[0072]圖2為本發(fā)明中一個(gè)優(yōu)選實(shí)施例的基于中心詞確定搜索建議的方法的流程圖;
[007