專利名稱:一種信息檢索方法及其裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種信息檢索方法及其裝置、系統(tǒng)。
背景技術(shù):
近年來,互聯(lián)網(wǎng)已成為廣告行業(yè)的一個重要的媒體途徑。許多大的門戶網(wǎng)站或搜索引擎網(wǎng)站都提供了投放廣告的平臺。這些廣告投放平臺大都基于搜索引擎的原理,根據(jù)用戶訪問瀏覽器頁面的行為對用戶進(jìn)行分類,并根據(jù)廣告主的投放策略在互聯(lián)網(wǎng)上選擇目標(biāo)受眾來定向投放廣告。
廣告投放系統(tǒng)中最重要的模塊是廣告搜索模塊,它根據(jù)其他模塊提取的表征用戶興趣和特征的關(guān)鍵字、分類等信息,尋找期望對該類用戶進(jìn)行廣告投放的最匹配廣告,并返回該條廣告給投放的其他模塊,以最終將該廣告展示到用戶訪問的頁面上。
圖I是現(xiàn)有技術(shù)中搜索引擎技術(shù)的方法流程圖,如圖I所示,搜索引擎技術(shù)對用戶各查詢詞不做區(qū)分,只依賴于各查詢詞在某文檔中出現(xiàn)的頻率,以及各查詢詞在文檔集中出現(xiàn)的頻率來計算查詢詞和文檔的相關(guān)性得分,并根據(jù)得分對文檔進(jìn)行排序,以返回最有價值的文檔。在廣告投放系統(tǒng)中,表征用戶特征的各查詢詞通常有高低之分,例如,一個用戶通常擁有多個興趣組,并屬于多種分類,但根據(jù)用戶近期的訪問行為可以對其各個興趣的高低進(jìn)行區(qū)分,因此如果簡單采用搜索引擎系統(tǒng)的評分算法,則無法準(zhǔn)確的描述廣告的目標(biāo)受眾的特征。
此外搜索引擎通常不對文檔中各關(guān)鍵詞進(jìn)行區(qū)分,即使區(qū)分,也只是對文檔的不同域信息賦以不同的權(quán)重,并沒有詳細(xì)區(qū)分文檔中各關(guān)鍵詞,而在廣告投放系統(tǒng)中,廣告中的各關(guān)鍵詞通常為廣告主綁定的策略信息和競價關(guān)鍵詞,這些信息都有高低之分,例如,某個廣告主更關(guān)心對某一類用戶進(jìn)行廣告投放,他可能會付給該競價詞較高的價格,因此簡單的使用搜索引擎的技術(shù)無法準(zhǔn)確地給出廣告主對廣告信息的描述。發(fā)明內(nèi)容
為了解決采用搜索引擎技術(shù)來實現(xiàn)廣告投放系統(tǒng)的不足,本發(fā)明提出了一種信息檢索方法,包括
步驟SI、對信息庫中的每一個信息文件進(jìn)行分詞獲取策略詞,按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重;
步驟S2、在所述信息庫范圍內(nèi)為各策略詞創(chuàng)建倒排索引表,將各策略詞在各信息文件中的權(quán)重、出現(xiàn)次數(shù)和出現(xiàn)的位置記錄在所述倒排索引表中;
步驟S3、當(dāng)接收到用戶檢索請求時,提取該檢索請求中的特征詞,依據(jù)所述倒排索引表,將包含至少一個所述特征詞的信息文件作為候選信息文件,分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分;
步驟S4、依據(jù)所述總得分對所述候選信息文件進(jìn)行排序,將排序在前的候選信息文件推送給所述用戶。
進(jìn)一步地,步驟SI中按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重具體為
依據(jù)各信息文件的投放主對各策略詞的報價作為各策略詞在各信息文件中的權(quán)重,或依據(jù)各信息文件的投放主對各策略詞的給定權(quán)重和/或該策略詞與該信息文件的相似度,將所述給定權(quán)重或相似度進(jìn)行歸一化處理后所得值作為各策略詞在各信息文件中的權(quán)重。
進(jìn)一步地,所述步驟S3中所述分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分具體為
依據(jù)各特征詞與所述用戶的行為特征的相關(guān)性,分別計算各特征詞的權(quán)重,依據(jù)各特征詞的權(quán)重和所述倒排索引表,分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分。
進(jìn)一步地,所述分別計算各特征詞的權(quán)重具體包括
獲取所述用戶的檢索歷史和/或用戶屬性,將各特征詞在所述檢索歷史中出現(xiàn)的頻率作為特征詞的權(quán)重和/或?qū)⑺鲇脩魧傩耘c各特征詞的相關(guān)度作為特征詞的權(quán)重。
進(jìn)一步地,步驟S3中所述分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分具體為候選信息文件D與用戶查詢中所有特征詞 Q的相關(guān)性總得分等于
權(quán)利要求
1.一種信息檢索方法,其特征在于,包括 步驟SI、對信息庫中的每一個信息文件進(jìn)行分詞獲取策略詞,按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重; 步驟S2、在所述信息庫范圍內(nèi)為各策略詞創(chuàng)建倒排索引表,將各策略詞在各信息文件中的權(quán)重、出現(xiàn)次數(shù)和出現(xiàn)的位置記錄在所述倒排索引表中; 步驟S3、當(dāng)接收到用戶檢索請求時,提取該檢索請求中的特征詞,依據(jù)所述倒排索引表,將包含至少一個所述特征詞的信息文件作為候選信息文件,分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分; 步驟S4、依據(jù)所述總得分對所述候選信息文件進(jìn)行排序,將排序在前的候選信息文件推送給所述用戶。
2.如權(quán)利要求1所述的信息檢索方法,其特征在于,步驟SI中按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重具體為 依據(jù)各信息文件的投放主對各策略詞的報價作為各策略詞在各信息文件中的權(quán)重,或依據(jù)各信息文件的投放主對各策略詞的給定權(quán)重和/或該策略詞與該信息文件的相似度,將所述給定權(quán)重或相似度進(jìn)行歸一化處理后所得值作為各策略詞在各信息文件中的權(quán)重。
3.如權(quán)利要求1或2所述的信息檢索方法,其特征在于,所述步驟S3中所述分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分具體為 依據(jù)各特征詞與所述用戶的行為特征的相關(guān)性,分別計算各特征詞的權(quán)重,依據(jù)各特征詞的權(quán)重和所述倒排索引表,分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分。
4.如權(quán)利要求3所述的信息檢索方法,其特征在于,所述分別計算各特征詞的權(quán)重具體包括 獲取所述用戶的檢索歷史和/或用戶屬性,將各特征詞在所述檢索歷史中出現(xiàn)的頻率作為特征詞的權(quán)重和/或?qū)⑺鲇脩魧傩耘c各特征詞的相關(guān)度作為特征詞的權(quán)重。
5.如權(quán)利要求4所述的信息檢索方法,其特征在于,步驟S3中所述分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分具體為候選信息文件D與用戶查詢中所有特征詞Q的相關(guān)性總得分等于
6.一種信息檢索裝置,設(shè)于服務(wù)端,其特征在于,包括如下單元 倒排索引表創(chuàng)建單元,用于預(yù)先對信息庫中的每一個信息文件進(jìn)行分詞獲取策略詞,按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重,在所述信息庫范圍內(nèi)為各策略詞創(chuàng)建倒排索引表,將各策略詞在各信息文件中的權(quán)重、出現(xiàn)次數(shù)和出現(xiàn)的位置記錄在倒排索引表中; 篩選單元,用于當(dāng)收到客戶端發(fā)送的特征詞時,依據(jù)所述倒排索引表創(chuàng)建單元預(yù)先創(chuàng)建的倒排索引表,將包含至少一個所述特征詞的信息文件篩選出來作為候選信息文件; 打分單元,用于分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分; 排序單元,用于依據(jù)所述總得分對所述候選信息文件進(jìn)行排序; 文件推送單元,用于將排序在前的候選信息文件推送給所述客戶端。
7.如權(quán)種要求6所述的信息檢索裝置,其特征在于,所述倒排索引表創(chuàng)建單元按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重具體為 依據(jù)各信息文件的投放主對各策略詞的報價作為各策略詞在各信息文件中的權(quán)重,或依據(jù)各信息文件的投放主對各策略詞的給定權(quán)重和/或該策略詞與該信息文件的相似度,將所述給定權(quán)重或相似度進(jìn)行歸一化處理后所得值作為各策略詞在各信息文件中的權(quán)重。
8.如權(quán)利要求6或7所述的信息檢索裝置,其特征在于,所述篩選單元還用于對所述提取的特征詞計算權(quán)重,包括依據(jù)各特征詞與所述用戶的行為特征的相關(guān)性,分別計算各特征詞的權(quán)重,依據(jù)各特征詞的權(quán)重和所述倒排索引表,分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分。
9.如權(quán)利要求8所述的信息檢索裝置,其特征在于,所述篩選單元分別計算各特征詞的權(quán)重具體包括獲取所述用戶的檢索歷史和/或用戶屬性,將各特征詞在所述檢索歷史中出現(xiàn)的頻率作為特征詞的權(quán)重和/或?qū)⑺鲇脩魧傩耘c各特征詞的相關(guān)度作為特征詞的權(quán)重。
10.如權(quán)利要求9所述的信息檢索裝置,其特征在于,所述篩選單元分別計算每一個所述候選信息文件與所述用戶檢索請求中的所有特征詞的相關(guān)程度的總得分具體為候選信息文件D與用戶查詢中所有特征詞Q的相關(guān)性總得分等于
全文摘要
本發(fā)明公開了一種信息檢索方法及其裝置,其中,方法包括對信息庫中的每一個信息文件進(jìn)行分詞獲取策略詞,按照預(yù)設(shè)的評分標(biāo)準(zhǔn)獲取各策略詞在各信息文件中的權(quán)重;S2、創(chuàng)建倒排索引表,將各策略詞在各信息文件中的權(quán)重記錄在倒排索引表中;S3、當(dāng)接收到用戶檢索請求時,提取該檢索請求中的特征詞;S4、依據(jù)各特征詞與用戶的行為特征的相關(guān)性,分別計算各特征詞的權(quán)重;S5、獲取候選信息文件分別計算各候選信息件的總得分;S6、依據(jù)總得分對候選信息文件進(jìn)行排序,將排序在前的候選信息文件推送給用戶。本發(fā)明使信息文件的推送到更加準(zhǔn)確的定位目標(biāo)受眾,使信息文件的推送更有針對性。
文檔編號G06F17/30GK102982153SQ20121050078
公開日2013年3月20日 申請日期2012年11月29日 優(yōu)先權(quán)日2012年11月29日
發(fā)明者羅峰, 黃蘇支, 李娜 申請人:北京億贊普網(wǎng)絡(luò)技術(shù)有限公司