亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

搜索方法及裝置與流程

文檔序號:12364167閱讀:178來源:國知局
搜索方法及裝置與流程

本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種搜索方法及裝置。



背景技術(shù):

搜索引擎是指根據(jù)一定的策略、運用特定的計算機程序從互聯(lián)網(wǎng)上搜集信息,在對信息進行組織和處理后,為用戶提供搜索服務(wù),將用戶搜索相關(guān)的信息展示給用戶的系統(tǒng)。據(jù)國家統(tǒng)計局的報道,中國網(wǎng)民人數(shù)已經(jīng)超過了4億,這個數(shù)據(jù)意味著中國已經(jīng)超過美國成為世界上第一大網(wǎng)民國,且中國的網(wǎng)站總數(shù)量已經(jīng)超過了200萬。因此,如何利用搜索服務(wù)最大限度滿足用戶需求,對于互聯(lián)網(wǎng)企業(yè)而言,始終是一個重要的課題。用戶可以將搜索關(guān)鍵詞提供給相關(guān)應(yīng)用,由應(yīng)用將搜索關(guān)鍵詞,發(fā)送給搜索引擎。搜索引擎則根據(jù)搜索關(guān)鍵詞,在數(shù)據(jù)庫中進行搜索,以獲得與搜索關(guān)鍵詞匹配的搜索結(jié)果,并返回給應(yīng)用進行輸出。

然而,由于用戶所提供的搜索關(guān)鍵詞可能不是很恰當,例如,語法不嚴格、關(guān)鍵詞不完整等情況,完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,可能會使得搜索結(jié)果無法滿足用戶的真正意圖,使得用戶需要通過應(yīng)用反復(fù)進行搜索,這樣,會增加應(yīng)用與搜索引擎之間的數(shù)據(jù)交互,從而導(dǎo)致了搜索引擎的處理負擔的增加。



技術(shù)實現(xiàn)要素:

本發(fā)明的多個方面提供一種搜索方法及裝置,用以降低搜索引擎的處理負擔。

本發(fā)明的一方面,提供一種搜索方法,包括:

獲取用戶提供的搜索關(guān)鍵詞;

根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞;

將所述引導(dǎo)關(guān)鍵詞,提供給所述用戶。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞,包括:

根據(jù)所述搜索關(guān)鍵詞,獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞;

根據(jù)所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),選擇所述至少一個聚類關(guān)鍵詞。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述根據(jù)所述搜索關(guān)鍵詞,獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞之前,還包括:

根據(jù)用戶歷史行為數(shù)據(jù),獲得共現(xiàn)搜索關(guān)鍵詞序列;

對所述共現(xiàn)搜索關(guān)鍵詞序列,進行聚合處理,以獲得至少一個搜索關(guān)鍵詞類;

根據(jù)所述至少一個搜索關(guān)鍵詞類,獲得所述至少一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述根據(jù)所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),選擇所述至少一個聚類關(guān)鍵詞之前,還包括:

獲取所述每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞的語義特征;

根據(jù)所述聚類關(guān)鍵詞的語義特征,獲得兩兩聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù)。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述點擊情況數(shù)據(jù)包括CTR和期望收益值中的至少一項。

本發(fā)明的另一方面,提供一種搜索裝置,包括:

獲取單元,用于獲取用戶提供的搜索關(guān)鍵詞;

匹配單元,用于根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞;

引導(dǎo)單元,用于將所述引導(dǎo)關(guān)鍵詞,提供給所述用戶。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述匹配單元,具體用于

根據(jù)所述搜索關(guān)鍵詞,獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞;以及

根據(jù)所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),選擇所述至少一個聚類關(guān)鍵詞。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述匹配單元,還用于

根據(jù)用戶歷史行為數(shù)據(jù),獲得共現(xiàn)搜索關(guān)鍵詞序列;

對所述共現(xiàn)搜索關(guān)鍵詞序列,進行聚合處理,以獲得至少一個搜索關(guān)鍵詞類;以及

根據(jù)所述至少一個搜索關(guān)鍵詞類,獲得所述至少一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述匹配單元,還用于

獲取所述每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞的語義特征;以及

根據(jù)所述聚類關(guān)鍵詞的語義特征,獲得兩兩聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù)。

如上所述的方面和任一可能的實現(xiàn)方式,進一步提供一種實現(xiàn)方式,所述點擊情況數(shù)據(jù)包括CTR和期望收益值中的至少一項。

由上述技術(shù)方案可知,本發(fā)明實施例通過獲取用戶提供的搜索關(guān)鍵詞,進而根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞,使得能夠?qū)⑺鲆龑?dǎo)關(guān)鍵詞,提供給所述用戶,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,因此,能夠避免現(xiàn)有技術(shù)中由于用戶通過應(yīng)用反復(fù)進行搜索而導(dǎo)致的增加應(yīng)用與搜索引擎之間的數(shù)據(jù)交互的問題,從而降低了搜索引擎的處理負擔。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索結(jié)果的有效性。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索的效率。

另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗。

【附圖說明】

為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明一實施例提供的搜索方法的流程示意圖;

圖2為本發(fā)明另一實施例提供的搜索裝置的結(jié)構(gòu)示意圖。

【具體實施方式】

為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的全部其他實施例,都屬于本發(fā)明保護的范圍。

需要說明的是,本發(fā)明實施例中所涉及的終端可以包括但不限于手機、個人數(shù)字助理(Personal Digital Assistant,PDA)、無線手持設(shè)備、平板電腦(Tablet Computer)、個人電腦(Personal Computer,PC)、MP3播放器、MP4播放器、可穿戴設(shè)備(例如,智能眼鏡、智能手表、智能手環(huán)等)等。

另外,本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。

圖1為本發(fā)明一實施例提供的搜索方法的流程示意圖,如圖1所示。

101、獲取用戶提供的搜索關(guān)鍵詞。

102、根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞。

103、將所述引導(dǎo)關(guān)鍵詞,提供給所述用戶。

需要說明的是,101~103的執(zhí)行主體的部分或全部可以為位于本地終端的應(yīng)用,或者還可以為設(shè)置在位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包(Software Development Kit,SDK)等功能單元,或者還可以為位于網(wǎng)絡(luò)側(cè)服務(wù)器中的搜索引擎,或者還可以為位于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng),本實施例對此不進行特別限定。

可以理解的是,所述應(yīng)用可以是安裝在終端上的本地程序(nativeApp),或者還可以是終端上的瀏覽器的一個網(wǎng)頁程序(webApp),本實施例對此不進行特別限定。

這樣,通過獲取用戶提供的搜索關(guān)鍵詞,進而根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞,使得能夠?qū)⑺鲆龑?dǎo)關(guān)鍵詞,提供給所述用戶,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,因此,能夠避免現(xiàn)有技術(shù)中由于用戶通過應(yīng)用反復(fù)進行搜索而導(dǎo)致的增加應(yīng)用與搜索引擎之間的數(shù)據(jù)交互的問題,從而降低了搜索引擎的處理負擔。

可選地,在本實施例的一個可能的實現(xiàn)方式中,在101中,具體可以采集用戶所提供的所述搜索關(guān)鍵詞。具體來說,具體可以通過用戶所觸發(fā)的搜索命令實現(xiàn)。具體可以采用但不限于下述幾種方式觸發(fā)搜索命令:

方式一:

用戶可以在當前應(yīng)用所展現(xiàn)的頁面上所輸入所述搜索關(guān)鍵詞,然后,通過點擊該頁面上的搜索按鈕例如,百度一下,以觸發(fā)搜索命令,該搜索命令中包含所述搜索關(guān)鍵詞。其中,用戶輸入所述搜索關(guān)鍵詞的順序可以為任意順序。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。

方式二:

采用異步加載技術(shù)例如,Ajax異步加載或Jsonp異步加載等,實時獲取用戶在當前應(yīng)用所展現(xiàn)的頁面上所輸入的輸入內(nèi)容,為了與搜索關(guān)鍵詞進行區(qū)分,此時的輸入內(nèi)容可以稱為是輸入關(guān)鍵詞。其中,用戶輸入所述搜索關(guān)鍵詞的順序可以為任意順序。具體地,具體可以提供Ajax接口或Jsonp接口等接口,這些接口可以使用Java、超級文本預(yù)處理(Hypertext Preprocessor,PHP)語言等語言進行編寫,其具體的調(diào)用可以使用Jquery,或者原生的JavaScript等語言進行編寫。

方式三:用戶可以通過長按當前應(yīng)用所展現(xiàn)的頁面上的語音搜索按鈕,說出想要輸入的語音內(nèi)容,然后,松開語音搜索按鈕,以觸發(fā)搜索命令,該搜索命令中包含根據(jù)所說出的語音內(nèi)容轉(zhuǎn)換的文本形式的搜索關(guān)鍵詞。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。

方式四:用戶可以通過點擊當前應(yīng)用所展現(xiàn)的頁面上的語音搜索按鈕,說出想要輸入的語音內(nèi)容,待結(jié)束說出語音內(nèi)容一段時間例如,2秒鐘之后,則觸發(fā)搜索命令,該搜索命令中包含根據(jù)所說出的語音內(nèi)容轉(zhuǎn)換的文本形式的搜索關(guān)鍵詞。這樣,在接收到該搜索命令之后,則可以解析出其中所包含的所述搜索關(guān)鍵詞。

在獲取到所述輸入關(guān)鍵詞之后,則可以執(zhí)行后續(xù)操作即102~103。

可選地,在本實施例的一個可能的實現(xiàn)方式中,在102中,具體可以根據(jù)所述搜索關(guān)鍵詞,獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞。進而,則可以根據(jù)所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),選擇所述至少一個聚類關(guān)鍵詞。

其中,所述點擊情況數(shù)據(jù)可以包括但不限于點擊到達率(Click-Through-Rate,CTR)即點擊率和點擊期望收益值即Q值中的至少一項,本實施例對此不進行特別限定。

在一個具體的實現(xiàn)過程中,還可以進一步根據(jù)用戶歷史行為數(shù)據(jù),獲得共現(xiàn)搜索關(guān)鍵詞序列。進而,則可以對所述共現(xiàn)搜索關(guān)鍵詞序列,進行聚合處理,以獲得至少一個搜索關(guān)鍵詞類。然后,可以根據(jù)所述至少一個搜索關(guān)鍵詞類,獲得所述至少一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞。

這里,用戶歷史行為數(shù)據(jù)的采集,可以依賴于用戶的用戶意圖(Session)段數(shù)據(jù)。其中,Session段是一個邏輯意義,即用戶在一定時間段之內(nèi)的檢索行為,它代表一個用戶在某段時間內(nèi)的一個行為意圖,從用戶的瀏覽行為來看,Session段具體可以規(guī)約成在語義上具有相同關(guān)聯(lián)的連續(xù)檢索行為。

首先,需要從Session段數(shù)據(jù)中,找出共現(xiàn)的搜索關(guān)鍵詞,組成包括若干個共現(xiàn)關(guān)鍵詞的共現(xiàn)搜索關(guān)鍵詞序列?;谶@些共現(xiàn)搜索關(guān)鍵詞序列,可以構(gòu)建一個有方向的初始圖結(jié)構(gòu),其圖的節(jié)點為這些共現(xiàn)搜索關(guān)鍵詞,邊的初始權(quán)重即點擊情況數(shù)據(jù)則是所有Session段數(shù)據(jù)中兩個共現(xiàn)搜索關(guān)鍵詞出現(xiàn)的總次數(shù)。

構(gòu)建出初始圖結(jié)構(gòu)之后,可以開始進行聚合處理。具體聚合處理的方法可以采用如下方法:

1)、將初始圖結(jié)構(gòu)中的每個節(jié)點,初始化為一個搜索關(guān)鍵詞類;

2)、對于每個搜索關(guān)鍵詞類,找出它相鄰的搜索關(guān)鍵詞類,計算兩個搜索關(guān)鍵詞類之間的相似度;

具體來說,兩個搜索關(guān)鍵詞類之間的相似度的計算可以包括兩個部分:第一個部分是兩個搜索關(guān)鍵詞類之間的語義相似度;第二個部分是兩個搜索關(guān)鍵詞類的出度節(jié)點之間的結(jié)構(gòu)相似度,以及兩個搜索關(guān)鍵詞類的入度節(jié)點之間的結(jié)構(gòu)相似度。對這兩個部分的相似度進行運算處理,例如,加權(quán)運算等,獲得一個運算數(shù)值,作為兩個搜索關(guān)鍵詞類之間的相似度。

其中,第一個部分的語義相似度的計算方法為:

計算一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞與另一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞之間的語義相似度,然后,取平均值例如加權(quán)平均值或算術(shù)平均值,作為兩個搜索關(guān)鍵詞類之間的語義相似度。

第二個部分中入度節(jié)點之間的結(jié)構(gòu)相似度的計算方法為:

找出每個搜索關(guān)鍵詞類的入度節(jié)點,根據(jù)這些入度節(jié)點的特征數(shù)據(jù),計算兩個搜索關(guān)鍵詞類的入度節(jié)點之間的結(jié)構(gòu)相似度。入度節(jié)點,是指有向圖中作為圖中邊的終點的節(jié)點。

第二個部分中出度節(jié)點之間的結(jié)構(gòu)相似度的計算方法為:

找出每個搜索關(guān)鍵詞類的出度節(jié)點,根據(jù)這些出度節(jié)點的特征數(shù)據(jù),計算兩個搜索關(guān)鍵詞類的出度節(jié)點之間的結(jié)構(gòu)相似度。出度節(jié)點,是指有向圖中作為圖中邊的起點的節(jié)點。

3)、若兩個搜索關(guān)鍵詞類之間的相似度小于或等于預(yù)先設(shè)置的相似度閾值,則將這兩個搜索關(guān)鍵詞類進行合并,獲得一個新的搜索關(guān)鍵詞類。

4)、以上過程持續(xù)執(zhí)行多輪,最后,結(jié)果趨向穩(wěn)定則停止,即該輪所產(chǎn)生的搜索關(guān)鍵詞類的數(shù)目與前一輪所產(chǎn)生的搜索關(guān)鍵詞類的數(shù)目之間的差值,小于數(shù)目閾值,或達到指定輪數(shù),則停止。

至此,則構(gòu)建出來一個由若干個搜索關(guān)鍵詞類組成的圖結(jié)構(gòu)。

本實施例所采用的這種聚合處理類似于自底向上的層次聚類(Hierarchical Clustering),區(qū)別之處在于,Hierarchical Clustering每次尋找的是所有搜索關(guān)鍵詞類中最接近的兩個搜索關(guān)鍵詞類進行合并,而上述聚合處理則是對所有搜索關(guān)鍵詞類,找出它相鄰的搜索關(guān)鍵詞類中能夠合并的搜索關(guān)鍵詞類進行合并,處理效率較高。

在構(gòu)建好上述基于搜索關(guān)鍵詞類的圖結(jié)構(gòu)之后,還需要進一步對節(jié)點與節(jié)點之間的邊進行一個預(yù)估處理,以獲得一個權(quán)重即預(yù)估得分例如,CTR得分,來表示聚類關(guān)鍵詞與聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù)。這樣,可以將預(yù)估得分較低的邊去除,能夠有效避免匹配的聚類關(guān)鍵詞太多,同時,也可以作為一個預(yù)排序的結(jié)果。用戶可以根據(jù)排序的結(jié)果,從與所述搜索關(guān)鍵詞所匹配的聚類關(guān)鍵詞所對應(yīng)的其他聚類關(guān)鍵詞中,選擇部分聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞。

傳統(tǒng)的做法是通過梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)模型來計算,通過計算兩個搜索關(guān)鍵詞類的統(tǒng)計特征,然后通過點擊的訓練樣本來進行模型訓練,最后將訓練好的模型進行候選數(shù)據(jù)預(yù)測,得到最終的預(yù)估得分結(jié)果。這種方法,其泛化能力較弱且只能考慮統(tǒng)計信息,而很多沒有出現(xiàn)過的新的搜索關(guān)鍵詞即聚類關(guān)鍵詞,可能缺乏統(tǒng)計信息而得不到較好的一個預(yù)估得分,導(dǎo)致沒有展現(xiàn)機會。

在另一個具體的實現(xiàn)過程中,還可以進一步獲取所述每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞的語義特征,進而,則可以根據(jù)所述聚類關(guān)鍵詞的語義特征,獲得兩兩聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù)。

具體來說,可以根據(jù)聚類關(guān)鍵詞的語義特征,利用語義向量(Embedding)深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)或GBDT模型,獲得預(yù)估得分。這樣,可以充分考慮語義信息,同時具有較好的泛化能力,對于沒有出現(xiàn)過的新的搜索關(guān)鍵詞即聚類關(guān)鍵詞,也不會因為找不到統(tǒng)計特征,導(dǎo)致預(yù)估得分異常。例如,兩個聚類關(guān)鍵詞經(jīng)過一個向量(Embedding)層,以使得聚類關(guān)鍵詞映射到一個多維空間中,變成一個詞向量。然后,將向量(Embedding)層所輸出的詞向量輸入詞袋(Bag of words)模型,之后再進行隱層變換處理,將得到的結(jié)果進行數(shù)量(DOT)乘積。DOT乘積獲得的結(jié)果,可以通過損失函數(shù)(logloss函數(shù))作為目標函數(shù),來進行該語義Embedding DNN的學習,得到最終的預(yù)估得分。

可選地,DOT乘積獲得的結(jié)果,可以作為GBDT模型的特征,也可以經(jīng)過一些變換之后,得到最終的預(yù)估得分。

至此,將節(jié)點與節(jié)點之間的邊的權(quán)重即預(yù)估得分計算完成之后,完整的圖結(jié)構(gòu)就構(gòu)建完成了。這樣,則可以根據(jù)所述搜索關(guān)鍵詞,利用所構(gòu)建的圖結(jié)構(gòu),獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞,并進一步根據(jù)節(jié)點與節(jié)點之間的邊的權(quán)重所指示的所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),可以選擇點擊情況數(shù)據(jù)所指示的點擊情況最好的指定數(shù)量的聚類關(guān)鍵詞,作為所述至少一個聚類關(guān)鍵詞,或者還可以選擇選擇點擊情況數(shù)據(jù)大于或等于預(yù)設(shè)閾值的聚類關(guān)鍵詞,作為所述至少一個聚類關(guān)鍵詞,本實施例對此不進行特別限定。

具體來說,具體可以將所構(gòu)建的圖結(jié)構(gòu),存儲到終端的存儲設(shè)備中。

例如,所述終端的存儲設(shè)備可以為慢速存儲設(shè)備,具體可以為計算機系統(tǒng)的硬盤,或者還可以為手機的非運行內(nèi)存即物理內(nèi)存,例如,只讀存儲器(Read-Only Memory,ROM)和內(nèi)存卡等,本實施例對此不進行特別限定。

或者,再例如,所述終端的存儲設(shè)備還可以為快速存儲設(shè)備,具體可以為計算機系統(tǒng)的內(nèi)存,或者還可以為手機的運行內(nèi)存即系統(tǒng)內(nèi)存,例如,隨機存儲器(Random Access Memory,RAM)等,本實施例對此不進行特別限定。

由于所采用的CTR預(yù)估方式所獲得的點擊情況數(shù)據(jù),只考慮了與搜索關(guān)鍵詞對應(yīng)的一次點擊即單輪的聚類關(guān)鍵詞的點擊情況,而要達到收益的全局最大化,還需要進一步考慮多次點擊即多輪的聚類關(guān)鍵詞的點擊情況,例如,當前聚類關(guān)鍵詞A的CTR雖然比聚類關(guān)鍵詞B的CTR高,但點擊過去之后,聚類關(guān)鍵詞B所對應(yīng)的聚類關(guān)鍵詞的CTR卻比聚類關(guān)鍵詞A所對應(yīng)的聚類關(guān)鍵詞的CTR高很多,因此聚類關(guān)鍵詞B的總體收益也更大。這樣,如果按照CTR,選擇聚類關(guān)鍵詞A的話,那么,總體收益則不是最大。因此,本發(fā)明可以引入增強學習算法(Reinforcement Learning),來動態(tài)調(diào)整和學習每次所獲得的聚類關(guān)鍵詞的排序,從而盡可能達到全局最優(yōu)。

具體來說,具體可以采用Q Learning算法,其中,術(shù)語狀態(tài)(State)定義為當前聚類關(guān)鍵詞,術(shù)語行為(Action)為相鄰的聚類關(guān)鍵詞。這種情況下,對于每個State下的每個Action,可以學習一個Q值即Q(state,action),該值是對該State下,采取該Action所能獲取的期望收益的一個近似估計。然后,通過不斷調(diào)整這個Q值,使得這個估計越來越接近真實的期望收益。

本發(fā)明中,在用戶獲得引導(dǎo)關(guān)鍵詞之后,可以利用該引導(dǎo)關(guān)鍵詞,來執(zhí)行搜索操作。例如,利用引導(dǎo)關(guān)鍵詞,作為本次搜索的關(guān)鍵詞,執(zhí)行搜索操作;或者,再例如,利用搜索關(guān)鍵詞和引導(dǎo)關(guān)鍵詞,共同作為本次搜索的關(guān)鍵詞,執(zhí)行搜索操作,本實施例對此不進行特別限定。

相比于現(xiàn)有的技術(shù)方案,本發(fā)明所提供的技術(shù)方案有以下技術(shù)優(yōu)點:

1)、從意圖(intent)的角度來構(gòu)建一個圖結(jié)構(gòu),每個意圖即節(jié)點不再是單獨的一個搜索關(guān)鍵詞,而是一個由相似搜索關(guān)鍵詞所組成的搜索關(guān)鍵詞類(query cluster),每個搜索關(guān)鍵詞類代表用戶一個較為明確的意圖,引導(dǎo)的過程是一個意圖跳轉(zhuǎn)的過程。這種做法適用的場景更廣泛,尤其是對話場景下的通用引導(dǎo)推薦。

2)、采用語義向量(Embedding)深層神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)來估計意圖之間的跳轉(zhuǎn)概率,考慮了意圖之間的語義信息,大大提高了模型的泛化能力。這種語義模型,能夠緩解統(tǒng)計特征缺失,或者新的搜索關(guān)鍵詞的統(tǒng)計特征非常稀疏所帶來的預(yù)估不準的問題。

3)、考慮多輪收益而不是單輪收益,由于引導(dǎo)是一個多輪的過程,給用戶提供的每次引導(dǎo),以及用戶的每次點擊,都將影響到后續(xù)整體的收益。因此,考慮多輪的長期收益,而非單輪的短期收益,是一個更好合理的方式。

本實施例中,通過獲取用戶提供的搜索關(guān)鍵詞,進而根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞,使得能夠?qū)⑺鲆龑?dǎo)關(guān)鍵詞,提供給所述用戶,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,因此,能夠避免現(xiàn)有技術(shù)中由于用戶通過應(yīng)用反復(fù)進行搜索而導(dǎo)致的增加應(yīng)用與搜索引擎之間的數(shù)據(jù)交互的問題,從而降低了搜索引擎的處理負擔。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索結(jié)果的有效性。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索的效率。

另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗。

需要說明的是,對于前述的各方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。

在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述的部分,可以參見其他實施例的相關(guān)描述。

圖2為本發(fā)明另一實施例提供的搜索裝置的結(jié)構(gòu)示意圖,如圖2所示。本實施例的搜索裝置可以包括獲取單元21、匹配單元22和引導(dǎo)單元23。其中,獲取單元21,用于獲取用戶提供的搜索關(guān)鍵詞;匹配單元22,用于根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞;引導(dǎo)單元23,用于將所述引導(dǎo)關(guān)鍵詞,提供給所述用戶。

需要說明的是,本實施例所提供的搜索裝置的部分或全部可以為位于本地終端的應(yīng)用,或者還可以為設(shè)置在位于本地終端的應(yīng)用中的插件或軟件開發(fā)工具包(Software Development Kit,SDK)等功能單元,或者還可以為位于網(wǎng)絡(luò)側(cè)服務(wù)器中的搜索引擎,或者還可以為位于網(wǎng)絡(luò)側(cè)的分布式系統(tǒng),本實施例對此不進行特別限定。

可以理解的是,所述應(yīng)用可以是安裝在終端上的本地程序(nativeApp),或者還可以是終端上的瀏覽器的一個網(wǎng)頁程序(webApp),本實施例對此不進行特別限定。

可選地,在本實施例的一個可能的實現(xiàn)方式中,所述匹配單元22,具體可以用于根據(jù)所述搜索關(guān)鍵詞,獲得與所述搜索關(guān)鍵詞匹配的聚類關(guān)鍵詞;以及根據(jù)所述匹配的聚類關(guān)鍵詞與其他聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù),選擇所述至少一個聚類關(guān)鍵詞。

其中,所述點擊情況數(shù)據(jù)可以包括但不限于點擊到達率(Click-Through-Rate,CTR)即點擊率和點擊期望收益值即Q值中的至少一項,本實施例對此不進行特別限定。

在一個具體的實現(xiàn)過程中,所述匹配單元22,還可以進一步用于根據(jù)用戶歷史行為數(shù)據(jù),獲得共現(xiàn)搜索關(guān)鍵詞序列;對所述共現(xiàn)搜索關(guān)鍵詞序列,進行聚合處理,以獲得至少一個搜索關(guān)鍵詞類;以及根據(jù)所述至少一個搜索關(guān)鍵詞類,獲得所述至少一個搜索關(guān)鍵詞類中每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞。

在另一個具體的實現(xiàn)過程中,所述匹配單元22,還可以進一步用于獲取所述每個搜索關(guān)鍵詞類的聚類關(guān)鍵詞的語義特征;以及根據(jù)所述聚類關(guān)鍵詞的語義特征,獲得兩兩聚類關(guān)鍵詞之間的點擊情況數(shù)據(jù)。

需要說明的是,圖1對應(yīng)的實施例中方法,可以由本實施例提供的搜索裝置實現(xiàn)。詳細描述可以參見圖1對應(yīng)的實施例中的相關(guān)內(nèi)容,此處不再贅述。

本實施例中,通過獲取單元獲取用戶提供的搜索關(guān)鍵詞,進而由匹配單元根據(jù)所述搜索關(guān)鍵詞,獲得對應(yīng)的至少一個聚類關(guān)鍵詞,以作為引導(dǎo)關(guān)鍵詞,使得所述引導(dǎo)單元能夠?qū)⑺鲆龑?dǎo)關(guān)鍵詞,提供給所述用戶,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,因此,能夠避免現(xiàn)有技術(shù)中由于用戶通過應(yīng)用反復(fù)進行搜索而導(dǎo)致的增加應(yīng)用與搜索引擎之間的數(shù)據(jù)交互的問題,從而降低了搜索引擎的處理負擔。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索結(jié)果的有效性。

另外,采用本發(fā)明所提供的技術(shù)方案,由于不再完全依賴搜索關(guān)鍵詞執(zhí)行搜索操作,而是結(jié)合根據(jù)搜索關(guān)鍵詞所獲得的至少一個聚類關(guān)鍵詞執(zhí)行搜索操作,使得搜索結(jié)果基本滿足用戶的真正意圖,從而提高了搜索的效率。

另外,采用本發(fā)明所提供的技術(shù)方案,能夠有效地提高用戶的體驗。

所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的系統(tǒng),裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。

在本發(fā)明所提供的幾個實施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機械或其它的形式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機裝置(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(Read-Only Memory,ROM)、隨機存取存儲器(Random Access Memory,RAM)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

最后應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1