搜索引擎及其實現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本公開一般涉及計算機技術(shù)領(lǐng)域,具體涉及信息檢索領(lǐng)域,尤其涉及一種搜索引 擎及其實現(xiàn)方法。
【背景技術(shù)】
[0002] 互聯(lián)網(wǎng)提供了對各種各樣的資源的訪問入口,這些資源例如包括圖像文件、音頻 文件、視頻文件和網(wǎng)頁等。用戶可以通過搜索系統(tǒng)或搜索引擎來搜索希望訪問的資源。
[0003] 在搜索過程中,通常由用戶輸入一個查詢(Query),搜索引擎返回與查詢匹配的結(jié) 果。查詢可以是文本查詢,包括一個或多個搜索詞語(Term)或短語。搜索引擎例如可以通 過文本相關(guān)的匹配方法返回與搜索查詢對應(yīng)的搜索結(jié)果。
[0004] 在實際搜索過程中,通過文本相關(guān)的匹配方法返回的結(jié)果往往與用戶的查詢需求 不匹配,發(fā)生轉(zhuǎn)義。例如,用戶搜某明星A,搜索結(jié)果中可能包含"A座駕"相關(guān)的文本;搜 "中國國旗",可能出來"海里有掛滿中國國旗的漁船"的結(jié)果。
[0005] 現(xiàn)有的文本匹配方案主要有:查詢與搜索結(jié)果文本的共有部分占查詢以及搜索結(jié) 果的比例、BM25的相關(guān)性方式等。但是這些匹配方案無法解決上面提到的轉(zhuǎn)義問題。
【發(fā)明內(nèi)容】
[0006] 鑒于現(xiàn)有技術(shù)中的上述缺陷或不足,期望提供一種能夠有效解決搜索結(jié)果轉(zhuǎn)義問 題的方案。
[0007] 第一方面,本申請實施例提供了一種搜索引擎的實現(xiàn)方法。該方法包括:接收用戶 輸入的查詢請求;獲取與查詢請求匹配的候選結(jié)果;基于點擊轉(zhuǎn)義模型確定查詢請求與每 個候選結(jié)果之間的語義相關(guān)度;以及根據(jù)語義相關(guān)度對候選結(jié)果進行排序;其中,點擊轉(zhuǎn) 義模型包括轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典,轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞 語及其上下文,非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞語及其上下文。
[0008] 第二方面,本申請實施例還提供了一種搜索引擎,包括:接收單元,用于接收用戶 輸入的查詢請求;搜索單元,用于搜索與所述查詢請求匹配的候選結(jié)果;語義相關(guān)度確定 單元,用于基于點擊轉(zhuǎn)義模型確定所述查詢請求與每個候選結(jié)果之間的語義相關(guān)度;以及 排序單元,用于根據(jù)所述語義相關(guān)度對候選結(jié)果進行排序。其中,點擊轉(zhuǎn)義模型包括轉(zhuǎn)義 詞典和/或非轉(zhuǎn)義詞典,所述轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞語及其上下 文,所述非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞語及其上下文。
[0009] 本申請實施例提供的搜索引擎及其實現(xiàn)方法,通過基于點擊獲取與URL關(guān)聯(lián)的 HTTP請求鏈,能夠得到較為全面的URL關(guān)聯(lián)的網(wǎng)頁內(nèi)容,從而能夠?qū)阂饩W(wǎng)址進行準確檢 測。按照本申請實施例的技術(shù)方案,根據(jù)語義相關(guān)度對搜索的候選結(jié)果進行排序,能夠提高 搜索結(jié)果的排序效果,避免不符合用戶搜索需求的結(jié)果(也即轉(zhuǎn)義結(jié)果)出現(xiàn)在搜索結(jié)果 列表的前列,從而確保用戶具有良好的使用體驗。
【附圖說明】
[0010] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它 特征、目的和優(yōu)點將會變得更明顯:
[0011] 圖1示出了可以應(yīng)用本申請實施例的示例性系統(tǒng)架構(gòu)100 ;
[0012] 圖2示出了根據(jù)本申請實施例的構(gòu)建點擊轉(zhuǎn)義模型的方法的示例性流程圖;
[0013] 圖3示出了根據(jù)本申請實施例的利用詞對齊獲取相鄰上下文的一個示例性實現(xiàn);
[0014] 圖4示出了根據(jù)本申請實施例的搜索引擎的實現(xiàn)方法的示例性流程圖;
[0015] 圖5示出了根據(jù)本申請實施例的基于點擊轉(zhuǎn)義模型確定查詢請求與候選結(jié)果之 間的語義相關(guān)度的方法的示例性流程圖;
[0016] 圖6示出了根據(jù)本申請實施例的對語句進行處理的結(jié)果的示意圖;
[0017] 圖7示出了根據(jù)本申請實施例的基于點擊轉(zhuǎn)義模型調(diào)整分詞相似度權(quán)重的方法 的一種示例性流程圖;
[0018] 圖8示出了根據(jù)本申請實施例的搜索引擎的示例性結(jié)構(gòu)框圖;以及
[0019] 圖9示出了適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0020] 下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖?,此處所描 述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與發(fā)明相關(guān)的部分。
[0021] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
[0022] 如【背景技術(shù)】中所提到的,在文本搜索中,通常會因為文本的局部匹配而導(dǎo)致轉(zhuǎn)義 問題。例如,搜索蚊香,結(jié)果包含蚊香盒子;搜索手機,結(jié)果包含手機皮套;搜索常山,結(jié)果 包含常山大白菜等。這種問題在利用文本搜索圖片中尤其明顯。例如,搜索"明星A"的圖 片,結(jié)果包含:明星A攝影圖、明星A寫真高清圖片、明星A演唱會、明星A座駕等。這些結(jié) 果里面,明星A座駕是轉(zhuǎn)義的結(jié)果,并非用戶真正想要的結(jié)果。
[0023] 鑒于現(xiàn)有技術(shù)的上述缺陷,本申請實施例提供了一種按照語義轉(zhuǎn)義度對搜索結(jié)果 進行排序的方案,以解決上述轉(zhuǎn)義問題??梢岳斫?,通常在搜索過程所展現(xiàn)的結(jié)果中,點擊 次數(shù)高的結(jié)果往往是用戶想要的結(jié)果。換言之,點擊次數(shù)高的結(jié)果相對于用戶的查詢Query 而言不發(fā)生轉(zhuǎn)義的概率很高。與之相反,對于多次展現(xiàn),但是點擊次數(shù)低甚至無點擊的結(jié)果 通常是用戶不想要的,也即這些結(jié)果相對于用戶的Query而言發(fā)生轉(zhuǎn)義的概率很高。另外, 在對轉(zhuǎn)義的數(shù)據(jù)進行分析時發(fā)現(xiàn),大多數(shù)的轉(zhuǎn)義都是發(fā)生在相鄰的上下文中,而對于距離 較遠的上下文基本沒有影響。因此,基于上述分析提出了本申請諸實施例的搜索引擎的實 現(xiàn)方法。
[0024] 請參考圖1,其示出了可以應(yīng)用本申請實施例的示例性系統(tǒng)架構(gòu)100。
[0025] 如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、網(wǎng)絡(luò)103和服務(wù)器104。網(wǎng) 絡(luò)103用以在終端設(shè)備101、102和服務(wù)器104之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)103可以包 括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0026] 用戶110可以使用終端設(shè)備101、102通過網(wǎng)絡(luò)103與服務(wù)器104交互,以訪問各 種服務(wù),例如搜索信息、瀏覽網(wǎng)頁、下載數(shù)據(jù)等。終端設(shè)備1〇1、1〇2上可以安裝有各種客戶 端應(yīng)用,例如可以接入統(tǒng)一資源定位符URL云服務(wù)的應(yīng)用,包括但不限于瀏覽器、安全應(yīng)用 等。
[0027] 終端設(shè)備101、102可以是各種電子設(shè)備,例如可以包括但不限于,各種可移動便 攜設(shè)備,諸如智能手機、平板電腦、個人數(shù)字助理、電子書閱讀器等,以及各種固定式終端設(shè) 備,諸如個人電腦、智能電視、查詢服務(wù)終端等。
[0028] 服務(wù)器104可以是提供各種服務(wù)的服務(wù)器。服務(wù)器可以響應(yīng)于用戶的服務(wù)請求而 提供服務(wù)。可以理解,一個服務(wù)器可以提供一種或多種服務(wù),同一種服務(wù)也可以由多個服務(wù) 器來提供。在本申請的實施例中,所涉及的服務(wù)器104可以是搜索服務(wù)器。
[0029] 應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需 要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
[0030] 為了描述本申請實施例的搜索引擎的實現(xiàn)方法,首先描述本申請實施例中提出的 點擊轉(zhuǎn)義模型的構(gòu)建。如前面所分析的,點擊次數(shù)高的搜索結(jié)果相對于對應(yīng)的查詢Query 不發(fā)生轉(zhuǎn)義的概率高;而點擊次數(shù)低甚至無點擊的搜索結(jié)果相對于對應(yīng)的Query發(fā)生轉(zhuǎn)義 的概率高。另外,大多數(shù)的轉(zhuǎn)義都是發(fā)生在相鄰的上下文中,而對于距離較遠的上下文基本 沒有影響。因此,在本申請的實施例中,通過學(xué)習(xí)查詢請求與搜索結(jié)果(例如以網(wǎng)頁標題表 示)Query-Title對的點擊數(shù),同時考慮轉(zhuǎn)義發(fā)生的上下文來構(gòu)建點擊轉(zhuǎn)義模型。具體而 言,點擊轉(zhuǎn)義模型可以包括轉(zhuǎn)義詞典和/或非轉(zhuǎn)義詞典,其中轉(zhuǎn)義詞典包括確定發(fā)生轉(zhuǎn)義 的搜索結(jié)果的對應(yīng)詞語及其上下文,非轉(zhuǎn)義詞典包括確定未發(fā)生轉(zhuǎn)義的搜索結(jié)果的對應(yīng)詞 語及其上下文。
[0031] 圖2示出了根據(jù)本申請實施例的構(gòu)建點擊轉(zhuǎn)義模型的方法的示例性流程圖。
[0032] 如圖2所示,在步驟210中,獲取Query-Title對的點擊展現(xiàn)比。
[0033] 點擊轉(zhuǎn)義模型可以通過學(xué)習(xí)歷史Query-Title對來構(gòu)建。這些歷史Query-Title 對可以保存在Query日志中。Query日志例如記錄了每次用戶查詢會話中所使用的查詢請 求Query、展現(xiàn)的搜索結(jié)果以及用戶對搜索結(jié)果的點擊操作等。這些搜索結(jié)果例如可以用網(wǎng) 頁標題Title來表征,因此,Query-Title對指的是查詢-搜索結(jié)果對。
[0034] 可以對每個Query-Title對的展現(xiàn)情況和點擊情況進行統(tǒng)計,從而得到 Query-Title對的點擊展現(xiàn)比。這里,點擊展現(xiàn)比為點擊數(shù)與展現(xiàn)數(shù)之比,其中展現(xiàn)數(shù)指示 搜索結(jié)果Title響應(yīng)于查詢請求Query而被展現(xiàn)的次數(shù),點擊數(shù)指示搜索結(jié)果Title響應(yīng) 于查詢請求Query而展現(xiàn)時被用戶點擊的次數(shù)。
[0035] 從前面分析可知,點擊次數(shù)高的搜索結(jié)果相對于對應(yīng)的查詢Query不發(fā)生轉(zhuǎn)義的 概率高,而點擊次數(shù)低甚至無點擊的搜索結(jié)果相對于對應(yīng)的Query發(fā)生轉(zhuǎn)義的概率高。因 此,Query-Title對的點擊展現(xiàn)比可以較好地表征Title相對于Query的轉(zhuǎn)義度或轉(zhuǎn)義概 率。本領(lǐng)域技術(shù)人員可以理解,也可以使用諸如展現(xiàn)點擊比或構(gòu)建基于點擊次數(shù)的其他參 數(shù)來表征轉(zhuǎn)義度或轉(zhuǎn)義概率,本申請在此方面沒有限制。
[0036] 接著,在步驟220中,利用詞對齊在搜索結(jié)果Title中獲取與查詢Query語句中詞 語對齊的相鄰上下文。