一種基于查詢詞的檢索方法及裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N基于查詢詞的檢索方法及裝置,其中所述方法包括接收提交的查詢詞;判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特征數(shù)據(jù)庫包括具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;若是,則按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系獲取與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。本申請可以提高檢索效率。
【專利說明】-種基于查詢詞的檢索方法及裝置
【技術領域】
[0001] 本申請涉及信息搜索的【技術領域】,特別是涉及一種基于查詢詞的檢索方法,以及, 一種基于查詢詞的檢索裝置。
【背景技術】
[0002] 隨著網(wǎng)絡技術的發(fā)展和普及,能幫助用戶在海量的網(wǎng)絡資源中搜索其所需信息的 搜索引擎技術也得到了大力發(fā)展和普及,目前,搜索引擎已成為每個網(wǎng)民不可缺少的上網(wǎng) 工具之一。
[0003] -般而言,搜索引擎是基于用戶提交的查詢關鍵詞進行檢索,用戶在搜索頁面輸 入檢索關鍵詞(query),搜索引擎會采用該query在線上進行檢索,判斷是否有匹配的信 息。然而,這樣檢索過程會導致處理的時間過長,因此,如何提高搜索引擎的搜索效率,成為 本領域技術人員迫切需要解決的問題。
【發(fā)明內容】
[0004] 本申請所要解決的技術問題是提供一種基于查詢詞的檢索方法,用以提高檢索效 率。
[0005] 相應的,本申請還提供了一種基于查詢詞的檢索裝置,用以保證上述方法在實際 中的應用。
[0006] 為了解決上述問題,本申請公開了一種基于查詢詞的檢索方法,包括:
[0007] 接收提交的查詢詞;
[0008] 判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特征數(shù)據(jù)庫包括具 有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;
[0009] 若是,則按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系獲取與 所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。
[0010] 優(yōu)選地,所述方法還包括:
[0011] 若所述查詢詞不存在于所述第一特征數(shù)據(jù)庫中,從第二特征數(shù)據(jù)庫中查找所述查 詢詞,并返回與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù),其中,所述第二特征數(shù)據(jù)庫包括具有非指 定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;
[0012] 其中,所述第二特征數(shù)據(jù)庫通過如下方式生成:
[0013] 獲取預設時間段內的一個或多個查詢詞;
[0014] 獲取目標網(wǎng)頁數(shù)據(jù);
[0015] 分別計算所述一個或多個關鍵詞與目標網(wǎng)頁數(shù)據(jù)的相關性;
[0016] 依據(jù)所述相關性建立關鍵詞和產(chǎn)品數(shù)據(jù)的對應關系;
[0017] 從所述關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系中去除所述具有指定特征的關鍵詞和 目標網(wǎng)頁數(shù)據(jù)的對應關系,將剩下的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系作為具有非指定特 征的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系保存為第二特征數(shù)據(jù)庫。
[0018] 優(yōu)選地,所述方法還包括:
[0019] 若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非指定特征的關鍵詞,在 所述返回的目標網(wǎng)頁數(shù)據(jù)被點擊時,獲取與所述目標網(wǎng)頁數(shù)據(jù)對應的具有指定特征的關鍵 詞,建立所述具有非指定特征的關鍵詞與具有指定特征的關鍵詞的關聯(lián)關系。
[0020] 優(yōu)選地,所述方法還包括:
[0021] 若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非指定特征的關鍵詞,將 所述查詢詞作為候選的具有指定特征的關鍵詞。
[0022] 優(yōu)選地,所述查詢詞包括提交的查詢詞以及依據(jù)所述提交的查詢詞生成的擴展查 詢詞。
[0023] 本申請還公開了一種基于查詢詞的檢索裝置,包括:
[0024] 查詢詞接收模塊,用于接收提交的查詢詞;
[0025] 判斷模塊,用于判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特 征數(shù)據(jù)庫包括具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;若是,則執(zhí)行返回 模塊;
[0026] 返回模塊,用于按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系 獲取與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。
[0027] 優(yōu)選地,所述裝置還包括:
[0028] 查找模塊,用于在所述查詢詞不存在于所述第一特征數(shù)據(jù)庫中時,從第二特征數(shù) 據(jù)庫中查找所述查詢詞,并返回與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù),其中,所述第二特征數(shù) 據(jù)庫包括具有非指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;
[0029] 其中,所述第二特征數(shù)據(jù)庫通過如下方式生成:
[0030] 獲取預設時間段內的一個或多個查詢詞;
[0031] 獲取目標網(wǎng)頁數(shù)據(jù);
[0032] 分別計算所述一個或多個關鍵詞與目標網(wǎng)頁數(shù)據(jù)的相關性;
[0033] 依據(jù)所述相關性建立關鍵詞和產(chǎn)品數(shù)據(jù)的對應關系;
[0034] 從所述關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系中去除所述具有指定特征的關鍵詞和 目標網(wǎng)頁數(shù)據(jù)的對應關系,將剩下的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系作為具有非指定特 征的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系保存為第二特征數(shù)據(jù)庫。
[0035] 優(yōu)選地,所述裝置還包括:
[0036] 關聯(lián)關系建立模塊,用于若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有 非指定特征的關鍵詞,在所述返回的目標網(wǎng)頁數(shù)據(jù)被點擊時,獲取與所述目標網(wǎng)頁數(shù)據(jù)對 應的具有指定特征的關鍵詞,建立所述具有非指定特征的關鍵詞與具有指定特征的關鍵詞 的關聯(lián)關系。
[0037] 優(yōu)選地,所述裝置還包括:
[0038] 候選關鍵詞指定模塊,用于在所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具 有非指定特征的關鍵詞時,將所述查詢詞作為候選的具有指定特征的關鍵詞。
[0039] 優(yōu)選地,所述查詢詞包括提交的查詢詞以及依據(jù)所述提交的查詢詞生成的擴展查 詢詞。
[0040] 與現(xiàn)有技術相比,本申請具有以下優(yōu)點:
[0041] 第一,本申請通過搜集一段時間內的具有指定特征的關鍵詞,線下計算所述具有 指定特征的關鍵詞與對應的目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系,并存儲于第一特征數(shù)據(jù)庫中。這樣 當接收到用戶提交的查詢詞時,只需要在所述第一特征數(shù)據(jù)庫中查找所述查詢詞,若查找 成功則返回匹配的目標網(wǎng)頁數(shù)據(jù),從而提高基于查詢詞的檢索效率。
[0042] 第二,本申請同時在線下預置第二特征數(shù)據(jù)庫,存儲有收集來的具有非指定特征 的關鍵詞與對應的目標網(wǎng)頁數(shù)據(jù),當所述用戶提交的查詢詞不能在所述第一特征數(shù)據(jù)庫中 找到時,在所述第二特征數(shù)據(jù)庫中查找所述查詢詞,這樣在提高檢索效率的同時,也提高了 檢索的準確率。
[0043] 第三,本申請可以將命中所述第二特征數(shù)據(jù)庫的查詢詞作為候選的具有指定特征 的關鍵詞并推薦給用戶,從而提高第一特征數(shù)據(jù)庫中目標網(wǎng)頁數(shù)據(jù)的覆蓋率,進一步提高 檢索的效率。
【專利附圖】
【附圖說明】
[0044] 圖1是本申請一種基于查詢詞的檢索方法實施例1的步驟流程圖;
[0045] 圖2是本申請一種基于查詢詞的檢索方法實施例2的步驟流程圖;
[0046] 圖3是本申請一種基于查詢詞的檢索方法實施例2中第二特征數(shù)據(jù)庫生成步驟流 程圖;
[0047] 圖4是本申請一種基于查詢詞的檢索方法實施例3的步驟流程圖;
[0048] 圖5是本申請一種基于查詢詞的檢索方法實施例4的步驟流程圖;
[0049] 圖6是本申請一種基于查詢詞的檢索裝置實施例的結構框圖。
【具體實施方式】
[0050] 為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實 施方式對本申請作進一步詳細的說明。
[0051] 本申請實施例的核心構思之一在于,通過獲取一段時間內的關鍵詞和目標網(wǎng)頁數(shù) 據(jù),并對其進行相關性計算得到優(yōu)質綁定關系集合,從所述優(yōu)質綁定關系集合中過濾掉具 有指定特征的關鍵詞與目標網(wǎng)頁數(shù)據(jù)的關系對,獲得的是具有非指定特征的關鍵詞與目標 網(wǎng)頁數(shù)據(jù)的虛綁定集合,當用戶提交的查詢詞命中所述虛綁定集合時,給出符合用戶查詢 意圖的目標網(wǎng)頁數(shù)據(jù)。
[0052] 參照圖1,示出了一種基于查詢詞的檢索方法實施例1的步驟流程圖,具體可以包 括以下步驟:
[0053] 步驟101,接收提交的查詢詞;
[0054] 步驟102,判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特征數(shù)據(jù) 庫包括具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;
[0055] 步驟103,若是,則按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關 系獲取與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。
[0056] 在本申請實施例中,通過搜集一段時間內的查詢詞,線下計算所述查詢詞與對應 的目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系,并存儲于第一特征數(shù)據(jù)庫中。這樣當接收到用戶提交的查詢 詞時,只需要在所述第一特征數(shù)據(jù)庫中查找所述查詢詞,若查找成功則返回匹配的目標網(wǎng) 頁數(shù)據(jù),從而避免現(xiàn)有技術中線上查詢效率低的問題。
[0057] 參照圖2,示出了一種基于查詢詞的檢索方法實施例2的步驟流程圖,具體可以包 括以下步驟:
[0058] 步驟201,預置第一特征數(shù)據(jù)庫,所述第一特征數(shù)據(jù)庫包括具有指定特征的關鍵詞 與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;
[0059] 其中,所述指定特征的關鍵詞為與目標網(wǎng)頁數(shù)據(jù)之間具有某種對應關系的的關鍵 詞,例如,可以是在歷史查詢記錄中,統(tǒng)計利用某一關鍵詞進行查詢,獲得的搜索結果中用 戶點擊頻率最高的目標網(wǎng)頁數(shù)據(jù),然后將該關鍵詞作為指定的特征關鍵詞,并建立該指定 的特征關鍵詞與用戶點擊頻率最高的目標網(wǎng)頁數(shù)據(jù)之間的對應關系?;蛘呖梢允菫榱颂岣?搜索效率而人為設定某一關鍵詞與某一目標網(wǎng)頁數(shù)據(jù)具有特定對應關系,則將該關鍵詞作 為指定特征的關鍵詞。
[0060] 步驟202,接收提交的查詢詞;
[0061] 在實際應用中,所述查詢詞可以是單獨的詞條,也可以是其他粒度的語義單元,t匕 如使用主題模型中的topic作為基本的語義單元。
[0062] 在具體實現(xiàn)中,所述查詢詞可以包括提交的查詢詞以及依據(jù)所述提交的查詢詞生 成的擴展查詢詞。在本申請實施例的一種優(yōu)選實施例中,所述擴展關鍵詞,可以采用如下步 驟獲?。?br>
[0063] 1),將在預設時間段內采集的一個或多個關鍵詞改寫成其他形式,生成擴展詞;
[0064] 在實際中,可以采用各種改寫方式對查詢詞進行改寫,查詢詞改寫可以包括去除 冗余詞、同義詞替換、去除次要屬性等等,比如用戶提交的查詢詞為"I want to buy black tea",去除冗余詞后變成"black tea";又如,"laptop display"同義詞替換后變成"laptop screen";或者,"8g red mp3"去除次要信息后變?yōu)?red mp3"或者"8g mp3"。
[0065] 2),將命中的擴展詞編成字典;
[0066] 實際上,可以采用鍵值對(key-value)的形式存儲所述擴展詞與查詢詞的關系。
[0067] 為了使本領域技術人員能更好地理解本申請實施例,以下通過一個具體實例說明 所述生成提交的查詢詞對應的擴展關鍵詞的過程:
[0068] 線下流程:日志中記錄的一條用戶查詢"2013fashion usb sd card",可以將其改 寫為"usb sd card"、"sd card"、"sd memory card"的等價形式,并將原詞與這三個詞的對 應關系與入到字典中。
[0069] 線上流程:有用戶輸入"2013fashion usb sd card",在沒有找到直接匹配的廣 告的情況下,擴展匹配引擎查找改寫詞字典,發(fā)現(xiàn)用戶輸入的原詞有"usb sd Card"、"sd card"、"sd memory card"三個同義詞形式,于是廣告引擎使用這三個詞來在廣告數(shù)據(jù)庫中 查找,再返回命中的廣告產(chǎn)品。
[0070] 步驟203,判斷所述查詢詞是否存在于所述第一特征數(shù)據(jù)庫中;若是,則執(zhí)行步驟 204 ;若否,則執(zhí)行步驟205 ;
[0071] 其中,判斷所述查詢詞是否存在于所述第一特征數(shù)據(jù)庫中的方法包括:判斷所述 查詢詞與第一特征數(shù)據(jù)庫中的指定特征關鍵詞是否匹配,若匹配,則認為所說查詢詞存在 于所述第一特征數(shù)據(jù)庫中。
[0072] 步驟204,按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系獲取 與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回;
[0073] 步驟205,預置第二特征數(shù)據(jù)庫,所述第二特征數(shù)據(jù)庫包括具有非指定特征的關鍵 詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系,從所述第二特征數(shù)據(jù)庫中查找所述查詢詞,并返回與 所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù);
[0074] 參考圖3所示的第二特征數(shù)據(jù)庫生成步驟流程圖,在本申請實施例的一種優(yōu)選實 施例中,所述第二特征數(shù)據(jù)庫生成的步驟可以包括:
[0075] 步驟S1,獲取預設時間段內的一個或多個關鍵詞;
[0076] 應用于本申請實施例,可以從日志系統(tǒng)中采集預設時間段內的一個或多個關鍵 詞,生成關鍵詞集合。
[0077] 步驟S2,獲得目標網(wǎng)頁數(shù)據(jù);
[0078] 步驟S3,分別計算所述一個或多個關鍵詞與目標網(wǎng)頁數(shù)據(jù)的相關性;
[0079] 具體而言,相關性是指一個目標網(wǎng)頁數(shù)據(jù)能滿足一個關鍵詞所代表的用戶查詢意 圖的程度;或者兩個不同的關鍵詞所代表的用戶查詢意圖的相似程度。其中,用戶查詢意 圖可以包括用戶對于目標網(wǎng)頁數(shù)據(jù)的種類,功用,形狀顏色等外觀品質,以及容量質地等內 在品質的要求。比如用戶輸入的查詢詞為"red case for iphone",其中case表明產(chǎn)品種 類,red表示外觀,for iphone表示功用,查詢詞的每一個部分都表示了一種明確的用戶查 詢意圖。
[0080] 在本申請實施例中,設置有相關性計算模塊計算關鍵詞集合與目標網(wǎng)頁數(shù)據(jù)的相 關性,并設置有質量模塊保證關鍵詞和目標網(wǎng)頁數(shù)據(jù)之間的相關性達到可用的標準。作為 本實施例的一種優(yōu)選示例,所述關鍵詞和目標網(wǎng)頁數(shù)據(jù)的相關性Si可以采用如下方式計 算:
[0081]
【權利要求】
1. 一種基于查詢詞的檢索方法,其特征在于,包括: 接收提交的查詢詞; 判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特征數(shù)據(jù)庫包括具有指 定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系; 若是,則按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系獲取與所述 查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。
2. 根據(jù)權利要求1所述的方法,其特征在于,還包括: 若所述查詢詞不存在于所述第一特征數(shù)據(jù)庫中,從第二特征數(shù)據(jù)庫中查找所述查詢 詞,并返回與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù),其中,所述第二特征數(shù)據(jù)庫包括具有非指定 特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系; 其中,所述第二特征數(shù)據(jù)庫通過如下方式生成: 獲取預設時間段內的一個或多個查詢詞; 獲取目標網(wǎng)頁數(shù)據(jù); 分別計算所述一個或多個關鍵詞與目標網(wǎng)頁數(shù)據(jù)的相關性; 依據(jù)所述相關性建立關鍵詞和產(chǎn)品數(shù)據(jù)的對應關系; 從所述關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系中去除所述具有指定特征的關鍵詞和目標 網(wǎng)頁數(shù)據(jù)的對應關系,將剩下的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系作為具有非指定特征的 關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系保存為第二特征數(shù)據(jù)庫。
3. 根據(jù)權利要求2所述的方法,其特征在于,還包括: 若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非指定特征的關鍵詞,在所述 返回的目標網(wǎng)頁數(shù)據(jù)被點擊時,獲取與所述目標網(wǎng)頁數(shù)據(jù)對應的具有指定特征的關鍵詞, 建立所述具有非指定特征的關鍵詞與具有指定特征的關鍵詞的關聯(lián)關系。
4. 根據(jù)權利要求2所述的方法,其特征在于,還包括: 若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非指定特征的關鍵詞,將所述 查詢詞作為候選的具有指定特征的關鍵詞。
5. 根據(jù)權利要求1-4任一權利要求所述的方法,其特征在于,所述查詢詞包括提交的 查詢詞以及依據(jù)所述提交的查詢詞生成的擴展查詢詞。
6. -種基于查詢詞的檢索裝置,其特征在于,包括: 查詢詞接收模塊,用于接收提交的查詢詞; 判斷模塊,用于判斷所述查詢詞是否存在于第一特征數(shù)據(jù)庫中,其中所述第一特征數(shù) 據(jù)庫包括具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系;若是,則執(zhí)行返回模 塊; 返回模塊,用于按照所述具有指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系獲取 與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù)并返回。
7. 根據(jù)權利要求6所述的裝置,其特征在于,還包括: 查找模塊,用于在所述查詢詞不存在于所述第一特征數(shù)據(jù)庫中時,從第二特征數(shù)據(jù)庫 中查找所述查詢詞,并返回與所述查詢詞匹配的目標網(wǎng)頁數(shù)據(jù),其中,所述第二特征數(shù)據(jù)庫 包括具有非指定特征的關鍵詞與對應目標網(wǎng)頁數(shù)據(jù)的關聯(lián)關系; 其中,所述第二特征數(shù)據(jù)庫通過如下方式生成: 獲取預設時間段內的一個或多個查詢詞; 獲取目標網(wǎng)頁數(shù)據(jù); 分別計算所述一個或多個關鍵詞與目標網(wǎng)頁數(shù)據(jù)的相關性; 依據(jù)所述相關性建立關鍵詞和產(chǎn)品數(shù)據(jù)的對應關系; 從所述關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系中去除所述具有指定特征的關鍵詞和目標 網(wǎng)頁數(shù)據(jù)的對應關系,將剩下的關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系作為具有非指定特征的 關鍵詞和目標網(wǎng)頁數(shù)據(jù)的對應關系保存為第二特征數(shù)據(jù)庫。
8. 根據(jù)權利要求7所述的裝置,其特征在于,還包括: 關聯(lián)關系建立模塊,用于若所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非指 定特征的關鍵詞,在所述返回的目標網(wǎng)頁數(shù)據(jù)被點擊時,獲取與所述目標網(wǎng)頁數(shù)據(jù)對應的 具有指定特征的關鍵詞,建立所述具有非指定特征的關鍵詞與具有指定特征的關鍵詞的關 聯(lián)關系。
9. 根據(jù)權利要求7所述的裝置,其特征在于,還包括: 候選關鍵詞指定模塊,用于在所述第二特征數(shù)據(jù)庫中存在與所述查詢詞相同的具有非 指定特征的關鍵詞時,將所述查詢詞作為候選的具有指定特征的關鍵詞。
10. 根據(jù)權利要求6-9任一權利要求所述的裝置,其特征在于,所述查詢詞包括提交的 查詢詞以及依據(jù)所述提交的查詢詞生成的擴展查詢詞。
【文檔編號】G06F17/30GK104142945SQ201310167400
【公開日】2014年11月12日 申請日期:2013年5月8日 優(yōu)先權日:2013年5月8日
【發(fā)明者】謝可, 蘇上海, 黃鵬 申請人:阿里巴巴集團控股有限公司