亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位方法

文檔序號:6608717閱讀:244來源:國知局
專利名稱:一種網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位方法
技術(shù)領(lǐng)域
本發(fā)明屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,特別是涉及一種基于用戶行為分析、挖掘的網(wǎng)絡(luò)關(guān)鍵資源頁面定位的自動化處理方法。

背景技術(shù)
搜索引擎是以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組織和處理后為用戶提供網(wǎng)絡(luò)信息服務(wù)的計算機(jī)系統(tǒng),它包括計算機(jī)網(wǎng)絡(luò)、計算機(jī)硬件系統(tǒng)以及在硬件系統(tǒng)上運(yùn)行的軟件程序三個部分。它的主要作用是幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的能夠滿足用戶需求的高質(zhì)量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用戶查詢?nèi)糠?。搜索引擎通過被稱為網(wǎng)絡(luò)爬行器的工具進(jìn)行信息搜索,用索引器對抓取的信息進(jìn)行整理,進(jìn)而使用查詢器進(jìn)行用戶查詢,并返回相關(guān)結(jié)果列表,提供相關(guān)信息以滿足用戶的查詢需求。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,用戶在搜索框輸入能反映自己查詢需求的關(guān)鍵詞,通過瀏覽器提交給搜索引擎后,搜索引擎返回和用戶輸入的內(nèi)容相關(guān)的搜索結(jié)果信息列表,用戶進(jìn)行點(diǎn)擊查找所需要的信息。
網(wǎng)絡(luò)關(guān)鍵資源頁面可以理解為是關(guān)于查詢主題權(quán)威可信,且對用戶獲取信息最有用的頁面。根據(jù)文本檢索會議TREC(Text Retrieval Conference)網(wǎng)絡(luò)信息檢索部分的權(quán)威定義,關(guān)鍵資源頁面應(yīng)當(dāng)是某個關(guān)鍵站點(diǎn)的入口頁面,此站點(diǎn)提供了關(guān)于某個主題的可靠信息(這里的入口頁面不一定是通常意義上的“主頁”,它可能是大規(guī)模站點(diǎn)的接入頁面,也可能是某個子站點(diǎn)或者某一類頁面集合的接入頁面)。因此,關(guān)鍵資源頁面之所以關(guān)鍵,是因為它提供給用戶一個源于某個主題的可靠信息入口。用戶通過關(guān)鍵資源頁面,可以比較快捷的查找到所需要的信息。同時,某個主題的關(guān)鍵資源頁面數(shù)要比其相關(guān)頁面數(shù)少得多(相關(guān)頁面動輒成百上千,而關(guān)鍵資源頁面往往只有幾個到十幾個),這也方便用戶將注意力集中到少數(shù)一些與自己的查詢主題最貼切的頁面上。
當(dāng)前網(wǎng)絡(luò)信息檢索中超過80%的檢索需求可以用關(guān)鍵資源查找技術(shù)加以實(shí)現(xiàn),在這一大部分檢索需求中,只有關(guān)鍵資源頁面是查詢用戶所需要的結(jié)果。因此,自動準(zhǔn)確地查找某一查詢主題下的關(guān)鍵資源對于網(wǎng)絡(luò)信息檢索工具提高其信息收集的有效性十分重要,其定位技術(shù)也成為了網(wǎng)絡(luò)信息檢索研究和應(yīng)用中的重點(diǎn)考察問題之一。反映在國際信息檢索研究最高水平的美國計算機(jī)學(xué)會情報檢索專業(yè)組SIGIR(International ACM SIGIR Conference onResearch and Development in Information Retrieval)會議上,關(guān)鍵資源查找技術(shù)無論從論文數(shù)目還是質(zhì)量來看,一直都是近年討論的熱點(diǎn)。查找關(guān)鍵資源,是當(dāng)前網(wǎng)絡(luò)信息檢索的發(fā)展熱點(diǎn),也已經(jīng)獲得了一些卓有成效的理論研究和實(shí)驗結(jié)果。但總的來說,關(guān)鍵資源定位技術(shù)研究的發(fā)展還停留在一個比較低的水平上,作為評價標(biāo)準(zhǔn)的前十位結(jié)果檢索精度(Precision at 10documents,P@10)一直在20%左右徘徊,而表現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)不同于普通數(shù)據(jù)的許多查詢無關(guān)特征也沒有得到充分的考察。
關(guān)鍵資源定位技術(shù)按照出發(fā)點(diǎn)不同,通??煞譃閮纱箢悾谝活愂菑捻撁娼嵌瘸霭l(fā),根據(jù)頁面特征判斷該頁面是否為關(guān)鍵資源,如文本內(nèi)容、超鏈接關(guān)系等。這一類關(guān)鍵資源頁面也通常也被稱為高質(zhì)量頁面,若其與某查詢主題相關(guān)時,也被稱為檢索目標(biāo)頁面;另一類是從需求出發(fā),根據(jù)給定的查詢主題,從大量的頁面中,篩選出該主題相關(guān)的頁面。兩類不同的定位方式有著不同定位方法和應(yīng)用環(huán)境。
第一類主題無關(guān)的關(guān)鍵資源定位技術(shù)可以通過相關(guān)的頁面質(zhì)量評估方式來對頁面進(jìn)行評級,判定是否為關(guān)鍵資源頁面,現(xiàn)有的技術(shù)主要基于頁面之間的超鏈接關(guān)系以及一些頁面自身的特征來實(shí)現(xiàn)頁面的質(zhì)量評估,已有的技術(shù)主要有PageRank、Hits等算法技術(shù)。該類技術(shù)可應(yīng)用于搜索引擎的分級索引,檢索結(jié)果排序等相關(guān)環(huán)境中,用來提高搜索引擎的檢索速度和精確性。
另一類主題相關(guān)的定位技術(shù)由于直接從用戶需求出發(fā),關(guān)鍵資源頁面和主題相關(guān)聯(lián),能大量減少和給定主題無關(guān)的頁面,大幅度的提高存儲頁面的有效性和存儲資源的利用率。主題相關(guān)的關(guān)鍵資源定位技術(shù)有很多需求強(qiáng)烈的實(shí)際應(yīng)用,如根據(jù)查詢主題和關(guān)鍵資源頁面架構(gòu)Web的目錄式搜索;對查詢主題進(jìn)行答案標(biāo)注,進(jìn)而實(shí)現(xiàn)對搜索引擎的評價;應(yīng)用于返回的查詢結(jié)果中,提高查詢精度等,這些需求和應(yīng)用都無法通過第一類技術(shù)來完成和實(shí)現(xiàn),其關(guān)鍵資源頁面必須和特定的主題相關(guān)聯(lián)。
已有的主題相關(guān)的網(wǎng)絡(luò)關(guān)鍵資源頁面判定基本上都是對給定的主題,用人工的方式去判斷某一個頁面是否是該主題下的關(guān)鍵資源,需要大量的人力勞動。美國國家技術(shù)研究所(NIST)組織的文本檢索會議(TREC)經(jīng)過多年積累,提出了能減少人力勞動的技術(shù),其核心被稱為結(jié)果池過濾技術(shù)(Pooling)。但無論怎樣,已有主題相關(guān)的網(wǎng)絡(luò)關(guān)鍵資源定位技術(shù)其缺點(diǎn)是明顯的,盡管手工標(biāo)注的工作量被大大減少,但大規(guī)模的主題相關(guān)的關(guān)鍵資源頁面的定位仍然難以操作和實(shí)現(xiàn),而且手工標(biāo)注帶來的員工主觀影響也很難避免。特別對于大規(guī)模、實(shí)時(語料規(guī)模超過10億頁面,每天或每幾天都有大量的查詢主題)的網(wǎng)絡(luò)信息檢索的應(yīng)用和分析是遠(yuǎn)遠(yuǎn)不夠的。另外,一般的搜索過程本身可以看作一種定位方式,但搜索引擎返回的結(jié)果頁面過多,檢索精度低,用戶滿意度不高。
在實(shí)際商用搜索引擎中,用戶對查詢返回結(jié)果會按照自己的理解和滿意程度進(jìn)行點(diǎn)擊,很容易對用戶的該點(diǎn)擊行為進(jìn)行記錄,該用戶查詢點(diǎn)擊信息記錄通常也被稱為搜索引擎日志。查詢記錄點(diǎn)擊信息不但體現(xiàn)了用戶的查詢興趣,也包含了用戶對查詢結(jié)果挑選和判斷。因此,從用戶的查詢點(diǎn)擊信息中篩選相關(guān)的查詢主題是可行的,已有統(tǒng)計研究表明,在日常的用戶搜索中,查詢最頻繁的1%的查詢詞占了70%以上的查詢次數(shù),因此只要對用戶點(diǎn)擊信息進(jìn)行統(tǒng)計,找出那些常用的用戶查詢,則能代表大多數(shù)用戶查詢需求,分析其相關(guān)用戶點(diǎn)擊行為就能對該主題下的關(guān)鍵資源頁面進(jìn)行有效的自動定位。


發(fā)明內(nèi)容
本發(fā)明的目的是針對已有方法的不足,提出了基于用戶行為分析的網(wǎng)絡(luò)關(guān)鍵資源定位方法。該方法利用已有的在多家搜索引擎上的用戶查詢及其點(diǎn)擊行為,從宏觀統(tǒng)計角度出發(fā),提取用戶關(guān)心的查詢主題,并分析關(guān)鍵資源頁面的用戶點(diǎn)擊分布特征,挑選出對應(yīng)的關(guān)鍵資源頁面。由于分析過程融合了多家搜索引擎的用戶行為,能夠避免因單個搜索引擎索引數(shù)據(jù)規(guī)模和檢索策略給關(guān)鍵資源定位時所帶來的偏向性和不足,在一定程度上保證了網(wǎng)絡(luò)關(guān)鍵資源定位的查全率和準(zhǔn)確性。另外,由于挑選查詢主題和關(guān)鍵資源頁面的定位過程是由計算機(jī)自動完成,因此可以及時、準(zhǔn)確、客觀的反映查詢主題和關(guān)鍵資源頁面的時效性和準(zhǔn)確性。
該方法的具體內(nèi)容描述如下 1.利用用戶的查詢頻率、結(jié)果點(diǎn)擊等信息,自動篩選出具有時效性,能夠反映大部分用戶的查詢需求,且能夠被較準(zhǔn)確標(biāo)注的查詢主題; 2.根據(jù)不同搜索引擎上的用戶行為,分別計算各個查詢主題對應(yīng)的被點(diǎn)擊頁面及其點(diǎn)擊率,得到該查詢主題下所有被點(diǎn)擊頁面及其點(diǎn)擊率所組成的關(guān)鍵資源頁面候選集和查詢用戶點(diǎn)擊分布; 3.利用融合方法,由多個搜索引擎上的用戶點(diǎn)擊分布得到各查詢主題的整體查詢用戶點(diǎn)擊分布特征; 4.根據(jù)融合后各個主題的查詢點(diǎn)擊分布特征,篩選對應(yīng)的關(guān)鍵資源頁面。
本發(fā)明的特征在于 它是在計算機(jī)上完成的,依次含有如下步驟(步驟1和2分別在各個搜索引擎日志上獨(dú)立操作) 步驟1.查詢主題的篩選 步驟1.1數(shù)據(jù)預(yù)處理 網(wǎng)絡(luò)關(guān)鍵資源頁面定位所使用的查詢主題、關(guān)鍵資源頁面以及定位過程中所使用到的相關(guān)信息來源于多個搜索引擎的用戶日志,對于這些搜索引擎用戶日志,它至少需要包含以下內(nèi)容信息才能用于網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位 表1供關(guān)鍵資源定位使用的搜索引擎用戶日志需包含的內(nèi)容 一般搜索引擎服務(wù)提供商都可以很容易的通過搜索引擎網(wǎng)絡(luò)服務(wù)器得到以上信息,從而保證了本方法的可行性。由于各個搜索引擎對其用戶日志存儲格式和表現(xiàn)形式上有所差別,具體處理過程略有差別,但基本上都需要如下步驟對用戶日志進(jìn)行預(yù)處理 步驟1.1.1進(jìn)行用戶日志編碼轉(zhuǎn)換,將服務(wù)器記錄的編碼格式轉(zhuǎn)換成國家標(biāo)準(zhǔn)漢字編碼的GBK格式。
步驟1.1.2利用表1中列出的內(nèi)容項對用戶日志進(jìn)行整理,去除表1內(nèi)容項之外的信息,并將日志整理成以上內(nèi)容項字符串的形式。
步驟1.1.3利用字符串匹配技術(shù)(如改進(jìn)的字符串模式匹配算法KMP)過濾用戶查詢中的噪聲信息,包括違禁查詢詞、某些在線商品推廣使用的查詢詞等,僅保留直接反映搜索引擎普通用戶查詢需求與行為的內(nèi)容項。
經(jīng)過數(shù)據(jù)預(yù)處理過程,我們可以從中提取表1中列舉的內(nèi)容,并應(yīng)用于方法的以下步驟。
步驟1.2查詢主題挑選 按照以下規(guī)則挑選所需要的查詢主題集合S 若某個查詢Q在搜索引擎日志中被不同的用戶查詢的次數(shù)小于20次,則排除在S之外; 否則把該查詢Q放入查詢集合S中。
用查詢的用戶數(shù)對查詢主題進(jìn)行一定的篩選,保證所選擇的查詢能夠反應(yīng)當(dāng)前用戶的查詢趨勢,保證時效性和關(guān)注度,有一定的代表性。另外,挑選那些用戶數(shù)較多的查詢,能減少在關(guān)鍵資源定位過程中,因個別用戶的點(diǎn)擊行為,而帶來的較大的波動性。
步驟2.基于單搜索引擎日志的查詢用戶點(diǎn)擊率特征提取 步驟2.1提取各頁面的“用戶點(diǎn)擊率”信息 對于查詢集合S中的每個查詢Q,都有一系列被點(diǎn)擊的結(jié)果頁面,通過表1提供的用戶查詢和點(diǎn)擊信息,我們可以得到這一系列被點(diǎn)擊的結(jié)果頁面地址URL,并針對該查詢計算每個頁面URL的“用戶點(diǎn)擊率”,即用戶對該頁面點(diǎn)擊次數(shù)的比例。對于該查詢Q,每個頁面的“用戶點(diǎn)擊率”的計算公式是
其中,“查詢結(jié)果URL用戶的點(diǎn)擊次數(shù)”可以通過對查詢Q而被用戶點(diǎn)擊的URL計數(shù)得到,而“查詢Q用戶的總點(diǎn)擊數(shù)”可以通過對查詢Q的用戶點(diǎn)擊計數(shù)得到。
按照其定義,由于“查詢結(jié)果URL用戶的點(diǎn)擊次數(shù)”必然小于等于“查詢Q用戶的總點(diǎn)擊數(shù)”,因此“用戶點(diǎn)擊率”的取值范圍在0和1之間。對查詢Q,其各用戶點(diǎn)擊的結(jié)果頁面URL的“用戶點(diǎn)擊率”和為1。
步驟2.2生成查詢的關(guān)鍵資源頁面候選集 對于查詢Q的所有用戶點(diǎn)擊頁面及其對應(yīng)的“用戶點(diǎn)擊率”,按如下規(guī)則生成查詢Q對應(yīng)的關(guān)鍵資源頁面候選集 若某頁面對應(yīng)的“用戶點(diǎn)擊率”小于0.05,則剔除該頁面; 否則把該頁面加入該查詢對應(yīng)的關(guān)鍵資源頁面候選集。
對于查詢Q,步驟2.1確定了其對應(yīng)的用戶點(diǎn)擊過的頁面的“用戶點(diǎn)擊率”。對于“用戶點(diǎn)擊率”大的頁面,表示對于該查詢主題和頁面的相關(guān)性,用戶有比較一致的認(rèn)可。相反,“用戶點(diǎn)擊率”小的頁面,用戶的認(rèn)可度低,查詢和頁面之間相關(guān)的可能性較小。對于查詢Q,“用戶點(diǎn)擊率”小的頁面一方面有很多,另一方面和給定的主題相關(guān)性很弱,因此事先把這類頁面從候選集合中去除,減少后續(xù)無用的處理。
步驟2.3生成查詢的“用戶點(diǎn)擊分布” 對于查詢Q,統(tǒng)計其頁面候選集中的頁面和對應(yīng)的“用戶點(diǎn)擊率”,即得到該查詢對應(yīng)的“用戶點(diǎn)擊分布”。
查詢Q的“用戶點(diǎn)擊分布”描述了和查詢主題Q相關(guān)的關(guān)鍵資源頁面候選集,以及每個頁面作為該查詢Q的關(guān)鍵資源頁面的可信度和支持度,其對應(yīng)的“用戶點(diǎn)擊率”值越大表示該點(diǎn)擊結(jié)果頁面越可能成為該查詢的關(guān)鍵資源頁面。
步驟3.多搜索引擎日志的查詢用戶點(diǎn)擊分布融合 步驟3.1提取單搜索引擎用戶日志對查詢主題的“查詢可信度”信息 根據(jù)查詢主題Q在各個搜索引擎用戶日志SE中的查詢用戶數(shù)信息,我們可以計算得到不同搜索引擎日志SE對于該查詢主題Q的“查詢可信度”,其主要量化了該查詢主題在不同搜索引擎日志上得到的“用戶點(diǎn)擊分布”的可靠程度。對于查詢Q,每個搜索引擎日志SEj的“查詢可信度”的計算公式是
其中,“搜索引擎日志SEj中查詢Q的總用戶數(shù)”可以對搜索引擎日志SEj中查詢Q的不同Id計數(shù)得到,分母是各個搜索引擎日志上用戶數(shù)取對數(shù)的和,對“查詢可信度”值進(jìn)行歸一化處理。
按照其定義,由于分子“l(fā)og(搜索引擎日志SEj中查詢Q的總用戶數(shù))”必然小于或者等于分母,因此“查詢可信度”的取值范圍必然在0至1之間。
查詢可信度計算公式反映了對于查詢Q和搜索引擎日志SE,當(dāng)用戶數(shù)比較少時,其“查詢可信度”對查詢Q的用戶數(shù)比較敏感;當(dāng)用戶數(shù)比較大時,用戶數(shù)對“查詢可信度”的影響就相對減弱。
步驟3.2多搜索引擎用戶日志融合 用P(CRP|查詢Q)表示融合后的對于查詢Q的點(diǎn)擊結(jié)果頁面CRP的“用戶點(diǎn)擊率”信息,用條件分布的全概率公式計算公式是
其中,P(SEi|查詢Q)表示對于查詢Q,搜索引擎用戶日志SEi給出的支持度,用(2)式的“查詢可信度”計算得到,P(CRP|SEi,查詢Q)表示在搜索引擎日志SEi中,對于查詢Q,點(diǎn)擊結(jié)果頁面CRP的點(diǎn)擊率,用(1)式的該結(jié)果頁面在該搜索引擎上的“用戶點(diǎn)擊率”計算得到。由概率的相關(guān)概念可以知道P(CRP|查詢Q)的取值范圍必然在0至1之間。
同步驟2.2,根據(jù)融合后的“用戶點(diǎn)擊率”P(CRP|查詢Q),我們可以得到該查詢Q融合多家搜索引擎日志信息后的“用戶點(diǎn)擊分布”。
融合后查詢的“用戶點(diǎn)擊分布”排除了單個搜索引擎日志上得到的“用戶點(diǎn)擊分布”存在的偏向性。
步驟4.查詢相關(guān)的關(guān)鍵資源頁面判定 對步驟1挑選得到的查詢集合S中的每個查詢Q及其對應(yīng)的關(guān)鍵資源頁面候選集,根據(jù)步驟3得到該查詢Q融合后的“用戶點(diǎn)擊分布”信息,按照如下規(guī)則來對該查詢主題Q進(jìn)行關(guān)鍵資源頁面的篩選 對于每個查詢Q,其融合后“用戶點(diǎn)擊率”最大的連續(xù)前M個頁面即是其對應(yīng)搜索引擎用戶日志的關(guān)鍵資源頁面,其中M滿足從融合后“用戶點(diǎn)擊率”最大的頁面開始,連續(xù)前M個頁面的融合后“用戶點(diǎn)擊率”之和大于0.9,但連續(xù)前M-1個頁面的融合后“用戶點(diǎn)擊率”之和小于0.9。
根據(jù)步驟1至步驟4,我們就可以自動得到查詢主題,以及該主題下對應(yīng)的關(guān)鍵資源頁面,實(shí)現(xiàn)主題相關(guān)的關(guān)鍵資源頁面的自動定位。
為了驗證本發(fā)明的有效性、可靠性和應(yīng)用性,我們設(shè)計和測試了相關(guān)的實(shí)驗。
首先對關(guān)鍵資源頁面定位的正確性進(jìn)行測試。
從數(shù)據(jù)源上,我們使用了4個常用搜索引擎的用戶查詢點(diǎn)擊信息記錄。另外,選擇了314個查詢主題,并使用Pooling的方式,對這些查詢進(jìn)行了人工標(biāo)注主題相關(guān)頁面。Pooling池包括國內(nèi)Sogou,Baidu,Google,Zhongsou,Yisou,Sina等各大著名搜索引擎,每個搜索引擎返回前20個結(jié)果作為池中的備選答案。自動定位關(guān)鍵資源頁面的平均正確率為0.661,非錯誤率為0.885(正確率為對于某個主題,主題相關(guān)的頁面占整個被自動標(biāo)注的頁面比例,非錯誤率是指除去不相關(guān)的頁面后的頁面占整個被自動標(biāo)注的頁面的比例,因為這里有一些頁面沒有出現(xiàn)在pooling池,因此沒法對其進(jìn)行判斷)。表2列出了部分查詢主題相關(guān)的關(guān)鍵資源頁面 表2部分查詢主題及其對應(yīng)的關(guān)鍵資源頁面定位結(jié)果 該關(guān)鍵資源定位方法可以用于考察不同主題領(lǐng)域下,各搜索引擎的檢索性能。我們利用查詢?nèi)罩痉謩e對百度風(fēng)云榜和雅虎風(fēng)向標(biāo)TOP榜中各不同領(lǐng)域的不同查詢主題進(jìn)行關(guān)鍵資源頁面定位,得到不同領(lǐng)域中當(dāng)前用戶所關(guān)心的查詢主題和關(guān)鍵資源頁面,并利用定位結(jié)果對國內(nèi)各大搜索引擎在不同的領(lǐng)域檢索效果進(jìn)行考察。表3列出了關(guān)于軟件和體育領(lǐng)域各大搜索引擎的檢索效果排名(分別對應(yīng)百度風(fēng)云榜和雅虎風(fēng)向標(biāo),使用常用的檢索評價指標(biāo)MAP)。
表3軟件領(lǐng)域檢索效果排名 表3體育領(lǐng)域檢索領(lǐng)域效果排名 本發(fā)明能夠自動地從多個搜索引擎的用戶行為日志數(shù)據(jù)中自動發(fā)現(xiàn)表現(xiàn)用戶興趣的搜索主題,并對各個主題進(jìn)行關(guān)鍵資源頁面的自動定位。該方法能很好的避免單個搜索引擎日志引來的偏向性,實(shí)現(xiàn)一定程度的公平公正,并把網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位方法應(yīng)用到實(shí)際的很多對于現(xiàn)在信息檢索研究和應(yīng)用有很大困難的環(huán)境中去,如我們在這里舉例的用網(wǎng)絡(luò)關(guān)鍵資源定位方法實(shí)現(xiàn)對搜索引擎的自動評價。



圖1.網(wǎng)絡(luò)關(guān)鍵資源頁面定位方法流程; 圖2.預(yù)處理后單搜索引擎信息組織結(jié)構(gòu)圖; 圖3.融合算法描述; 圖4.關(guān)鍵資源頁面判定流程。

具體實(shí)施例方式 附圖1描述了本方法的流程。本方法對于網(wǎng)絡(luò)關(guān)鍵資源頁面定位具有廣泛的適應(yīng)性和應(yīng)用性。下面利用搜狗搜索引擎網(wǎng)站提供的關(guān)于四個常用搜索引擎日志進(jìn)行查詢主題的篩選和關(guān)鍵資源頁面定位,就以上方法發(fā)明進(jìn)行詳細(xì)的流程說明。
1.數(shù)據(jù)預(yù)處理 所使用的日志包括在2006年11月8號至2006年11月28號的28天時間內(nèi)的搜狗搜索引擎公司收集到的四個常用搜索引擎的用戶查詢點(diǎn)擊信息記錄,共有非空查詢點(diǎn)擊信息55,647,885條(四個搜索引擎分別有32,184,307條,9,105,887條,4,766,920條,9,590,771條)。記錄中的包括的信息有 表4Sogou搜索引擎提供的4個常用搜索引擎用戶日志包含信息項 FromUrl信息中包含了該日志所屬的搜索引擎。通常,該地址的變量中包含了相關(guān)的查詢關(guān)鍵詞。ToUrl即用戶點(diǎn)擊結(jié)果頁面。因此,這些日志包含了表1所對應(yīng)的數(shù)據(jù)信息項,可以用于關(guān)鍵資源頁面的定位。
日志的預(yù)處理包括過濾非搜索引擎日志記錄(如搜索引擎的站內(nèi)互相跳轉(zhuǎn)等);對搜索引擎日志按搜索引擎進(jìn)行分類,得到四大常用搜索引擎各自的用戶查詢點(diǎn)擊信息記錄;從FromUrl的變量中提取相關(guān)的查詢關(guān)鍵詞部分,進(jìn)行URL轉(zhuǎn)碼,并最終統(tǒng)一轉(zhuǎn)碼成GBK編碼;過濾記錄中非表1所需要的無用信息以及相關(guān)噪音信息,統(tǒng)一計算查詢的用戶數(shù),“用戶點(diǎn)擊率”等信息。
2.查詢主題集合篩選 搜索引擎的用戶查詢有一定的重復(fù)性和密集性,對于用戶關(guān)心的主題,其查詢主題則會經(jīng)常被查詢用戶提交查詢。查詢主題的密集性也被我們用于對查詢關(guān)鍵資源頁面定位的宏觀分析。以下為查詢主題集合的篩選過程,該過程在各個搜索引擎的查詢?nèi)罩旧溪?dú)立進(jìn)行考察和篩選。
單個搜索引擎日志上的查詢主題集合篩選流程 對每個搜索引擎日志中出現(xiàn)的查詢,根據(jù)其用戶查詢量進(jìn)行篩選,如果總查詢次數(shù)少于20,則認(rèn)為這個查詢沒有足夠的宏觀用戶點(diǎn)擊行為信息,無法進(jìn)行有效的分析,同時該主題也缺少足夠的代表性用來描述查詢用戶所關(guān)心的話題,剔除該查詢主題。否則,將該查詢進(jìn)行保留。根據(jù)以前我們對Sogou日志進(jìn)行分析后發(fā)現(xiàn),用戶查詢次數(shù)大于100的查詢超過3萬個,而用戶在這部分查詢上的總點(diǎn)擊次數(shù)占到全部點(diǎn)擊次數(shù)的70%左右,這與前人的一些研究結(jié)果相同,即搜索引擎中,較少數(shù)量的查詢被反復(fù)查詢,占據(jù)大多數(shù)的搜索引擎服務(wù)。用查詢的用戶數(shù)對對查詢主題進(jìn)行篩選,保證所選擇的查詢能夠反應(yīng)用戶的查詢趨勢和熱點(diǎn),保證時效性和關(guān)注度,有一定的代表性。另外,挑選那些用戶數(shù)較多的查詢,能控制關(guān)鍵資源定位過程中,因個別用戶的點(diǎn)擊行為,而帶來的較大的不確定性。
3.多搜索引擎日志信息融合 圖3的融合算法描述了對多個搜索引擎日志進(jìn)行信息融合,并最終得到每個查詢主題所對應(yīng)的關(guān)鍵資源頁面集合的查詢分布。這里首先利用各搜索引擎日志信息計算各搜索引擎的查詢主題對應(yīng)的局部查詢分布和查詢可信度。然后利用(3)式計算多日志情況下每個查詢主題的對應(yīng)的關(guān)鍵資源頁面集的整體查詢分布,也即融合后的查詢分布。
使用融合后的查詢分布,而不是每個搜索引擎日志自己的查詢分布,可以較好的避免因單個搜索引擎日志所帶來的檢索列表排序的偏向和單個搜索引擎因資源有限而帶來的數(shù)據(jù)集的偏向。
4.主題相關(guān)的關(guān)鍵資源頁而判定 主題相關(guān)的關(guān)鍵資源頁面判定可以參見圖4所示的流程。該定位流程就是從查詢關(guān)鍵資源候選集合中,挑選出用戶點(diǎn)擊率大的頁面。這里的用戶點(diǎn)擊率是根據(jù)多個搜索引擎查詢?nèi)罩拘畔⑷诤系玫降?。由圖中的篩選流程可知,只有融合后“用戶點(diǎn)擊率”大于0.1,且該主題相關(guān)的所有關(guān)鍵資源頁面的“用戶點(diǎn)擊率”之和大于0.9時,該主題的關(guān)鍵資源頁面判定過程才結(jié)束。
該判定過程把用戶認(rèn)可度高的用戶點(diǎn)擊結(jié)果頁面判定為該查詢主題的關(guān)鍵資源頁面,而不是把所有的用戶點(diǎn)擊頁面判定為關(guān)鍵資源頁面,剔除了因用戶誤點(diǎn)擊,或者因搜索結(jié)果頁面的誤導(dǎo)等原因而點(diǎn)擊的頁面,能很大程度地保證所定位的網(wǎng)絡(luò)關(guān)鍵資源頁面的質(zhì)量以及和主題的相關(guān)性。
按照以上步驟,就可以實(shí)現(xiàn)對網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位,利用宏觀搜索引擎用戶的行為查找用戶關(guān)注的查詢主題,并對其進(jìn)行網(wǎng)絡(luò)關(guān)鍵資源頁面的有效定位。
權(quán)利要求
1.一種網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位方法,其特征在于該方法依次含有以下內(nèi)容
步驟(1).計算機(jī)按以下步驟在各個搜索引擎系統(tǒng)的搜索引擎用戶日志上篩選查詢主題步驟(1.1).數(shù)據(jù)預(yù)處理,其步驟如下
步驟(1.1.1).計算機(jī)通過搜索引擎網(wǎng)絡(luò)服務(wù)器搜索用戶日志,并把該服務(wù)器記錄的編碼格式轉(zhuǎn)換成國家標(biāo)準(zhǔn)漢字編碼GBK格式;
步驟(1.1.2).去除步驟(1.1.1)所述用戶日志中除了下述內(nèi)容項之外的信息,所述下述內(nèi)容項包括用戶提交的查詢Query(以下簡稱Q)、對應(yīng)于這個查詢用戶點(diǎn)擊的結(jié)果地址URL、以及由搜索引擎系統(tǒng)自動分配的用戶標(biāo)識號ID,并把得到的日志整理成包含以上內(nèi)容項的字符串形式;
步驟(1.1.3).利用字符串匹配方法過濾步驟(1.1.2)得到的用戶查詢中的噪聲信息,僅保留直接反映搜索引擎普通用戶查詢需求與行為的內(nèi)容項;
步驟(1.2).挑選查詢主題集合S,
若某個查詢Q在用戶日志中被不同的用戶來查詢的次數(shù)小于20次,則排除在集合S之外;否則,把該查詢主題放入該查詢主題集合S中;
步驟(2).對每個查詢Q,按以下步驟提取查詢用戶點(diǎn)擊率
步驟(2.1).按以下公式計算各查詢Q的查詢用戶點(diǎn)擊率
該查詢用戶點(diǎn)擊率在0到1之間;對查詢Q,其各用戶點(diǎn)擊的結(jié)果頁面URL的用戶點(diǎn)擊率之總和為1;
步驟(2.2).生成查詢Q的關(guān)鍵資源頁面候選集
若某頁面對應(yīng)的用戶點(diǎn)擊率小于0.05,則剔除該頁面;否則,把該頁面加入到該查詢Q對應(yīng)的關(guān)鍵資源頁面候選集中;
步驟(2.3).生成查詢Q的用戶點(diǎn)擊率分布
對于查詢Q,統(tǒng)計其頁面候選集中的頁面和對應(yīng)的用戶點(diǎn)擊率,得到與該查詢Q對應(yīng)的用戶點(diǎn)擊率分布;
步驟(3).多搜索引擎日志的查詢Q的用戶點(diǎn)擊率分布的融合,其步驟如下
步驟(3.1).按下式計算單搜索引擎用戶日志對查詢Q的查詢可信度信息
搜索引擎用戶日志SEj上的查詢可信度為
該SEj查詢可信度在0到1之間;
步驟(3.2).多搜索引擎用戶日志的融合
融合后的對于查詢Q的點(diǎn)擊結(jié)果頁面CRP的用戶點(diǎn)擊率信息用P(CRP|查詢Q)表示
其中,P(SEi|查詢Q)表示對于查詢Q,SEi給出的支持度,用步驟(3.1)得到的查詢可信度表示,
P(CRP|SEi,查詢Q)表示在搜索引擎日志SEi中,對于查詢Q,點(diǎn)擊結(jié)果頁面的點(diǎn)擊率,用步驟(2.1)得到的用戶點(diǎn)擊率表示。
步驟(3.3).根據(jù)步驟(3.2)得到的融合后的用戶點(diǎn)擊率P(CRP|查詢Q),對于查詢Q,得到對應(yīng)于各個搜索引擎用戶日志SEi的融合后的用戶點(diǎn)擊分布;
步驟(4).判定與查詢Q相關(guān)的關(guān)鍵資源頁面
對于步驟(1)中挑選得到的每個查詢Q及步驟(2)得到的與其對應(yīng)的關(guān)鍵資源頁面候選集,用步驟(3)得到每個查詢Q在融合后的用戶點(diǎn)擊分布信息,再按以下規(guī)則來對查詢Q進(jìn)行關(guān)鍵資源頁面的篩選
從各查詢Q中挑選各自融合后用戶點(diǎn)擊率最大的連續(xù)前M個頁面就是各搜索引擎用戶日志對應(yīng)的查詢Q的關(guān)鍵資源頁面,其中M滿足從融合后用戶點(diǎn)擊率最大的頁面開始,連續(xù)前M個頁面的融合后的用戶點(diǎn)擊點(diǎn)擊率之和大于0.9,但連續(xù)前M-1個頁面的融合后用戶點(diǎn)擊率之和小于0.9。
全文摘要
一種網(wǎng)絡(luò)關(guān)鍵資源頁面的自動定位方法,屬于互聯(lián)網(wǎng)信息處理領(lǐng)域,其特征在于它首先從多家搜索引擎用戶查詢點(diǎn)擊信息記錄中篩選出具有時效性和代表性的查詢主題詞,提取出其對應(yīng)的用戶點(diǎn)擊結(jié)果頁面和結(jié)果頁面的“用戶點(diǎn)擊率”,得到查詢主題集合、關(guān)鍵資源頁面候選集和“用戶點(diǎn)擊分布”;隨后對多家搜索引擎的用戶查詢點(diǎn)擊信息記錄上得到的“用戶點(diǎn)擊分布”進(jìn)行融合,利用“查詢可信度”信息得到融合后的“用戶點(diǎn)擊分布”;最后根據(jù)融合后的“用戶點(diǎn)擊分布”對關(guān)鍵資源頁面候選集中的頁面進(jìn)行判定,得到主題相關(guān)的關(guān)鍵資源頁面。該方法具有計算機(jī)自動,準(zhǔn)確客觀和迅速定位的優(yōu)點(diǎn)。
文檔編號G06F17/30GK101105801SQ20071009853
公開日2008年1月16日 申請日期2007年4月20日 優(yōu)先權(quán)日2007年4月20日
發(fā)明者岑榮偉, 劉奕群, 敏 張, 金奕江, 馬少平 申請人:清華大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1