專利名稱:倒排索引求交方法
技術(shù)領(lǐng)域:
本發(fā)明屬于倒排索引技術(shù)領(lǐng)域,特別涉及倒排索引求交的方法。
背景技術(shù):
搜索引擎中使用最廣泛的數(shù)據(jù)結(jié)構(gòu)是倒排索引,它由字典和倒排列表兩部分組 成。其中字典為關(guān)鍵詞和倒排列表之間建立一一對(duì)應(yīng)關(guān)系,而倒排列表由一系列稱為張貼 的基本單元組成。每個(gè)張貼由包含相應(yīng)關(guān)鍵詞的網(wǎng)頁(yè)的文檔標(biāo)識(shí)符(稱為docID)、頻率和位 置等信息組成。在本發(fā)明中,我們假設(shè)每個(gè)倒排列表僅由一系列docID組成。參閱
圖1,示出了現(xiàn)有搜索引擎的處理流程,具體步驟如下所述
步驟S101、獲取用戶查詢請(qǐng)求。搜索引擎不斷接收用戶查詢請(qǐng)求,然后對(duì)查詢 進(jìn)行分詞,得到與其對(duì)應(yīng)的關(guān)鍵詞。步驟S102、對(duì)查詢請(qǐng)求對(duì)應(yīng)的倒排列表進(jìn)行求交。通過(guò)倒排索引中的字典 找到查詢的關(guān)鍵詞對(duì)應(yīng)的倒排列表,并且對(duì)它們進(jìn)行求交。步驟S103、將求交結(jié)果按某種方式返回給用戶。二分搜索、插值搜索以及基于跳表的搜索,是步驟S102中最常用的搜索 方法。在整個(gè)處理流程中S102占用時(shí)間較多,是我們優(yōu)化的主要對(duì)象。
發(fā)明內(nèi)容
本發(fā)明的目的是針對(duì)現(xiàn)有的倒排索引求交方法占用時(shí)間較多的不足,提供一種新 型的基于線性回歸的倒排索引求交方法。本發(fā)明提供的倒排索引求交方法,包括 第1、離線預(yù)處理
對(duì)每個(gè)倒排列表作),
以docID的索引2為橫坐標(biāo)、值乃為縱坐標(biāo)作二維散點(diǎn)圖,其中〗=1,2,…,| ㈨I, I??;)|
表示■!⑷包含的docID個(gè)數(shù)且一㈨, 為非負(fù)整數(shù),基于最小二乘法生成一條線
性回歸直線
權(quán)利要求
1. 一種倒排索引求交方法,其特征在于,包括 第1、離線預(yù)處理對(duì)每個(gè)倒排列表作),以docID的索引力橫坐標(biāo)、值Λ為縱坐標(biāo)作二維散點(diǎn)圖,其中
全文摘要
一種倒排索引求交方法。該方法包括預(yù)處理,對(duì)每個(gè)倒排列表,以docID的索引為橫坐標(biāo)、值為縱坐標(biāo)作二維散點(diǎn)圖,基于最小二乘法生成一條線性回歸直線,使得圖中所有點(diǎn)到該直線的豎直離差的平方和最小,求出左安全搜索距離、右安全搜索距離,保存所求出的線性回歸信息。倒排索引求交,根據(jù)已保存的倒排列表的線性回歸信息,確定要找的docID在該倒排列表中的安全搜索范圍,然后在此范圍內(nèi)采用已有的某種搜索方法進(jìn)行搜索。本發(fā)明的倒排索引求交方法可以縮小搜索范圍,減少搜索時(shí)間,縮短搜索引擎的響應(yīng)時(shí)間,提高用戶體驗(yàn)。
文檔編號(hào)G06F17/30GK102136011SQ20111011816
公開日2011年7月27日 申請(qǐng)日期2011年5月9日 優(yōu)先權(quán)日2011年5月9日
發(fā)明者劉曉光, 吳迪, 張帆, 敖耐勇, 王剛 申請(qǐng)人:南開大學(xué)