一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法,包括:獲取用戶的檢索請(qǐng)求;根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求;如果是,檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù);將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。根據(jù)本發(fā)明所述方法,提供了一種及時(shí)補(bǔ)充范文網(wǎng)頁數(shù)據(jù)庫的機(jī)制,不斷擴(kuò)充數(shù)據(jù)庫內(nèi)容以滿足更多用戶的需求,提升召回率。另外,本發(fā)明還提供了一種相應(yīng)的優(yōu)化裝置。
【專利說明】一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)搜索領(lǐng)域,特別是涉及一種用于范文搜索的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法和裝置。
【背景技術(shù)】
[0002]范文搜索是網(wǎng)頁搜索中一種很重要的需求,被搜索的范文類型眾多,包括但不限于各類公文、文秘書信、工作計(jì)劃、總結(jié)報(bào)告、心得體會(huì)、演講致辭、作文作業(yè)、各種論文等等。在例如學(xué)生非放假期間、年底工作總結(jié)期間的高峰期,每天可以占到總網(wǎng)頁搜索量的1%左右。實(shí)際中,大多數(shù)范文需求對(duì)于字?jǐn)?shù)都有固定要求,因而很多用戶都會(huì)在進(jìn)行范文搜索時(shí)輸入字?jǐn)?shù),如“讀后感400字”、“獎(jiǎng)學(xué)金申請(qǐng)書800字”等。即使在搜索時(shí)沒有明確將字?jǐn)?shù)輸入,也會(huì)存在有對(duì)于該范文字?jǐn)?shù)的潛在要求;例如,論文類的范文一般不低于8000字;入黨申請(qǐng)書類的范文一般要求有3000?5000字,等等。
[0003]對(duì)于范文搜索,目前存在的問題主要有兩個(gè):一是當(dāng)前檢索機(jī)制只能通過標(biāo)題、網(wǎng)頁內(nèi)容匹配來命中字?jǐn)?shù)的需求,對(duì)于沒有相關(guān)字?jǐn)?shù)的網(wǎng)頁排序不公平;由于找不到相應(yīng)的字?jǐn)?shù)的字段,也使得召回率不足;二是在目前檢索結(jié)果的標(biāo)題摘要下,用戶只能通過相應(yīng)字段飄紅來判定是否是自己想要的信息,對(duì)于很多有欺騙性質(zhì)的頁面、字?jǐn)?shù)是否滿足要求等都是沒有預(yù)期的。
[0004]圖1示出了當(dāng)前范文搜索的搜索結(jié)果頁示意圖,用戶輸入的范文搜索請(qǐng)求是“以家為題的作文350字”;在搜索結(jié)果頁中,除了第一條結(jié)果的標(biāo)題摘要直接命中350字外,其它結(jié)果都不知道有多少字?jǐn)?shù),只能將“350字”這個(gè)關(guān)鍵詞丟棄來進(jìn)行排序,對(duì)于一些潛在與350字非常接近的結(jié)果來說就顯得非常不公平;用戶也不知道什么結(jié)果是好結(jié)果,只能逐個(gè)點(diǎn)擊查看,效率比較低下。
【發(fā)明內(nèi)容】
[0005]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的用于范文搜索的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法和相應(yīng)的裝置。
[0006]依據(jù)本發(fā)明的一個(gè)方面,提供了一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法,包括:
[0007]獲取用戶的檢索請(qǐng)求;
[0008]根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求;
[0009]如果是,檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù);
[0010]將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。
[0011]可選地,添加步驟包括:判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中;如果是,則不添加所述新增數(shù)據(jù)項(xiàng);如果否,則添加所述新增數(shù)據(jù)項(xiàng)。
[0012]可選地,新增數(shù)據(jù)項(xiàng)中的關(guān)鍵詞對(duì)應(yīng)于范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文類型;其中添加步驟包括:在范文網(wǎng)頁數(shù)據(jù)庫中,確定與新增數(shù)據(jù)項(xiàng)具有相同范文類型的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)的項(xiàng)數(shù);如所述項(xiàng)數(shù)小于預(yù)定數(shù)量,則添加所述新增數(shù)據(jù)項(xiàng);如所述項(xiàng)數(shù)大于或等于預(yù)定數(shù)量,則不添加所述新增數(shù)據(jù)項(xiàng)。
[0013]可選地,被提取的結(jié)果網(wǎng)頁是問答社區(qū)網(wǎng)頁,包括提出問題的主樓塊和回答問題的次樓塊;其中提取范文數(shù)據(jù)的步驟包括:將所述關(guān)鍵詞與網(wǎng)頁主樓塊的文字內(nèi)容進(jìn)行匹配;如匹配,判斷次樓塊的文字內(nèi)容的字?jǐn)?shù)是否大于預(yù)定閾值;如果是,確定字?jǐn)?shù)大于預(yù)定閾值的次樓塊為待提取次樓塊;且提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:待提取次樓塊的文字內(nèi)容的標(biāo)題,待提取次樓塊的文字內(nèi)容的正文,待提取次樓塊的文字內(nèi)容的字?jǐn)?shù)。
[0014]可選地,確定待提取次樓塊的步驟還包括:根據(jù)所述關(guān)鍵詞確定元關(guān)鍵詞;將所述元關(guān)鍵詞與字?jǐn)?shù)大于預(yù)定閾值的次樓塊的文字內(nèi)容進(jìn)行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0015]可選地,所述網(wǎng)頁中待提取次樓塊為多個(gè),則所述網(wǎng)頁對(duì)應(yīng)的范文網(wǎng)頁數(shù)據(jù)項(xiàng)包括與待提取次樓塊數(shù)量相應(yīng)的多個(gè)范文數(shù)據(jù)。
[0016]可選地,被提取的結(jié)果網(wǎng)頁是文字網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括正文標(biāo)題和正文內(nèi)容;其中提取范文數(shù)據(jù)的步驟包括:將所述關(guān)鍵詞與正文標(biāo)題進(jìn)行匹配;如匹配,提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:正文標(biāo)題,正文內(nèi)容,和正文內(nèi)容的字?jǐn)?shù)。
[0017]可選地,被提取的結(jié)果網(wǎng)頁是文庫資源網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括范文文檔的URL資源鏈接和描述對(duì)應(yīng)范文文檔的文字內(nèi)容;其中提取范文數(shù)據(jù)的步驟包括:將所述關(guān)鍵詞與描述對(duì)應(yīng)范文文檔的文字內(nèi)容進(jìn)行匹配;如匹配,經(jīng)由所述URL資源鏈接下載所述范文文檔;提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:描述范文文檔的文字內(nèi)容,和所述范文文檔。
[0018]根據(jù)本發(fā)明的另一方面,提供了一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化裝置,包括:
[0019]請(qǐng)求獲取單元,適于獲取用戶的檢索請(qǐng)求;
[0020]請(qǐng)求判斷單元,適于根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求;
[0021]范文數(shù)據(jù)單元,適于檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,并根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù);
[0022]數(shù)據(jù)添加單元,適于將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。
[0023]可選地,數(shù)據(jù)添加單元還適于:判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中;如果是,則不添加所述新增數(shù)據(jù)項(xiàng);如果否,則添加所述新增數(shù)據(jù)項(xiàng)。
[0024]可選地,新增數(shù)據(jù)項(xiàng)中的關(guān)鍵詞對(duì)應(yīng)于范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文類型;其中數(shù)據(jù)添加單元還適于:在范文網(wǎng)頁數(shù)據(jù)庫中,確定與新增數(shù)據(jù)項(xiàng)具有相同范文類型的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)的項(xiàng)數(shù);如所述項(xiàng)數(shù)小于預(yù)定數(shù)量,則添加所述新增數(shù)據(jù)項(xiàng);如所述項(xiàng)數(shù)大于或等于預(yù)定數(shù)量,則不添加所述新增數(shù)據(jù)項(xiàng)。
[0025]可選地,被提取的結(jié)果網(wǎng)頁是問答社區(qū)網(wǎng)頁,包括提出問題的主樓塊和回答問題的次樓塊;其中范文數(shù)據(jù)單元還包括:匹配單元,適于將所述關(guān)鍵詞與網(wǎng)頁主樓塊的文字內(nèi)容進(jìn)行匹配;次樓塊確定單元,適于如匹配,判斷次樓塊的文字內(nèi)容的字?jǐn)?shù)是否大于預(yù)定閾值;如果是,確定字?jǐn)?shù)大于預(yù)定閾值的次樓塊為待提取次樓塊;以及提取單元,適于提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:待提取次樓塊的文字內(nèi)容的標(biāo)題,待提取次樓塊的文字內(nèi)容的正文,待提取次樓塊的文字內(nèi)容的字?jǐn)?shù)。
[0026]可選地,次樓塊確定單元還適于:根據(jù)所述關(guān)鍵詞確定元關(guān)鍵詞;將所述元關(guān)鍵詞與字?jǐn)?shù)大于預(yù)定閾值的次樓塊的文字內(nèi)容進(jìn)行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0027]可選地,所述網(wǎng)頁中待提取次樓塊為多個(gè),則所述網(wǎng)頁對(duì)應(yīng)的范文網(wǎng)頁數(shù)據(jù)項(xiàng)包括與待提取次樓塊數(shù)量相應(yīng)的多個(gè)范文數(shù)據(jù)。
[0028]可選地,被提取的結(jié)果網(wǎng)頁是文字網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括正文標(biāo)題和正文內(nèi)容;其中范文數(shù)據(jù)單元還包括:匹配單元,適于將所述關(guān)鍵詞與正文標(biāo)題進(jìn)行匹配;提取單元,適于如匹配,提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:正文標(biāo)題,正文內(nèi)容,和正文內(nèi)容的字?jǐn)?shù)。
[0029]可選地,被提取的結(jié)果網(wǎng)頁是文庫資源網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括范文文檔的URL資源鏈接和描述對(duì)應(yīng)范文文檔的文字內(nèi)容;其中范文數(shù)據(jù)單元還包括:匹配單元,適于將所述關(guān)鍵詞與描述對(duì)應(yīng)范文文檔的文字內(nèi)容進(jìn)行匹配;下載單元,適于如匹配,經(jīng)由所述URL資源鏈接下載所述范文文檔;提取單元,適于提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:描述范文文檔的文字內(nèi)容,和所述范文文檔。
[0030]本發(fā)明所述范文網(wǎng)頁數(shù)據(jù)庫建立在搜索引擎服務(wù)器側(cè),包括一定數(shù)量的范文網(wǎng)頁數(shù)據(jù)項(xiàng),所述范文網(wǎng)頁數(shù)據(jù)項(xiàng)包括了范文類型、范文網(wǎng)頁的范文數(shù)據(jù)和范文網(wǎng)頁對(duì)應(yīng)的URL,所述范文數(shù)據(jù)典型地包括范文的標(biāo)題、正文和字?jǐn)?shù)。用戶發(fā)出范文搜索請(qǐng)求時(shí),在網(wǎng)頁爬蟲抓取的基礎(chǔ)網(wǎng)頁庫進(jìn)行常規(guī)搜索的同時(shí),還在范文網(wǎng)頁數(shù)據(jù)庫中進(jìn)行搜索。由于范文網(wǎng)頁數(shù)據(jù)庫中包含了各種范文網(wǎng)頁的范文標(biāo)題、正文以及字?jǐn)?shù),使得真正與用戶所要求的范文字?jǐn)?shù)相同、相近的范文網(wǎng)頁出現(xiàn)在搜索結(jié)果頁中,并且能在搜索結(jié)果排序時(shí)能排在前面,進(jìn)一步還能在搜索結(jié)果頁中將范文字?jǐn)?shù)顯示給用戶,由此提升搜索質(zhì)量和用戶體驗(yàn)。
[0031]根據(jù)本發(fā)明的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法和裝置,對(duì)于在范文網(wǎng)頁數(shù)據(jù)庫中未檢索到的、且能滿足用戶范文需求的網(wǎng)頁,通過用戶的點(diǎn)擊不斷反饋補(bǔ)充到范文網(wǎng)頁庫中,不斷擴(kuò)充范文網(wǎng)頁數(shù)據(jù)庫中范文網(wǎng)頁數(shù)據(jù)項(xiàng)的數(shù)量以提升召回率,滿足更多用戶的需求。并且,由于新增數(shù)據(jù)項(xiàng)是根據(jù)用戶對(duì)結(jié)果網(wǎng)頁的點(diǎn)擊反饋進(jìn)行的,所以新增數(shù)據(jù)項(xiàng)與用戶需求相關(guān)度非常高,從而能夠提高下一步經(jīng)由范文網(wǎng)頁數(shù)據(jù)庫檢索的質(zhì)量。
[0032]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說明】
[0033]通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0034]圖1是現(xiàn)有技術(shù)的范文搜索的搜索結(jié)果頁示意圖;[0035]圖2是本發(fā)明所述范文網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)示意圖;
[0036]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法的流程圖;
[0037]圖4是本發(fā)明所述范文網(wǎng)頁數(shù)據(jù)庫的一范文網(wǎng)頁數(shù)據(jù)項(xiàng)的示意圖;
[0038]圖5是根據(jù)本發(fā)明另一實(shí)施例的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化裝置的框圖。
【具體實(shí)施方式】
[0039]下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0040]本發(fā)明所述范文網(wǎng)頁數(shù)據(jù)庫,包括多個(gè)范文網(wǎng)頁數(shù)據(jù)項(xiàng),每一范文網(wǎng)頁數(shù)據(jù)項(xiàng)對(duì)應(yīng)一范文網(wǎng)頁,具體包括該范文網(wǎng)頁的范文類型、范文網(wǎng)頁的范文數(shù)據(jù)和范文網(wǎng)頁對(duì)應(yīng)的URL。典型地,范文網(wǎng)頁的范文數(shù)據(jù)包括范文標(biāo)題、范文正文和范文字?jǐn)?shù)。圖2示意性地示出了本發(fā)明所述范文網(wǎng)頁數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)示意圖。
[0041]范文網(wǎng)頁數(shù)據(jù)庫建立在搜索引擎的服務(wù)器端。首先,通過網(wǎng)絡(luò)爬蟲對(duì)互聯(lián)網(wǎng)上范文資源網(wǎng)站的范文網(wǎng)頁進(jìn)行抓?。痪W(wǎng)絡(luò)爬蟲是一個(gè)技術(shù)成熟的、能自動(dòng)提取互聯(lián)網(wǎng)上網(wǎng)頁的程序,它根據(jù)既定的規(guī)則為搜索引擎從互聯(lián)網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。所有被網(wǎng)絡(luò)爬蟲抓取的網(wǎng)頁將會(huì)被存貯在服務(wù)器側(cè);同時(shí)可進(jìn)行一定的分析、過濾,建立索引,生成供用戶檢索使用的基礎(chǔ)檢索庫(或索引數(shù)據(jù)庫);網(wǎng)絡(luò)爬蟲可以在全網(wǎng)絡(luò)范圍內(nèi)進(jìn)行范文網(wǎng)頁的抓取,也可以在指定的多個(gè)范文資源網(wǎng)站的范圍內(nèi)進(jìn)行網(wǎng)頁抓取,所述指定的范文資源網(wǎng)站可以由搜索服務(wù)提供商和/或用戶不斷進(jìn)行添加和更新。然后,針對(duì)存儲(chǔ)在服務(wù)器側(cè)的、已被抓取到的范文網(wǎng)頁,根據(jù)與所要提取的范文類型相對(duì)應(yīng)的關(guān)鍵詞,提取該類型范文網(wǎng)頁的范文數(shù)據(jù)。具體地,首先需要將關(guān)鍵詞與范文網(wǎng)頁的內(nèi)容進(jìn)行匹配;如匹配,則從范文網(wǎng)頁的內(nèi)容中提取范文數(shù)據(jù)。最后,基于已提取的范文網(wǎng)頁的范文數(shù)據(jù),建立范文網(wǎng)頁數(shù)據(jù)庫。
[0042]當(dāng)用戶在瀏覽器客戶端發(fā)起檢索請(qǐng)求時(shí),搜索引擎的服務(wù)器獲取用戶的檢索請(qǐng)求,例如“入黨申請(qǐng)書3000字”,此請(qǐng)求表示用戶希望搜索到字?jǐn)?shù)在3000字左右的入黨申請(qǐng)書范文。服務(wù)器接收到檢索請(qǐng)求后,會(huì)對(duì)檢索請(qǐng)求的內(nèi)容進(jìn)行分析,獲取其中的檢索項(xiàng),對(duì)于上述檢索請(qǐng)求,其檢索項(xiàng)為“入黨申請(qǐng)書”和“3000字”;根據(jù)檢索項(xiàng)“入黨申請(qǐng)書”,判斷其為范文檢索請(qǐng)求。
[0043]當(dāng)判斷用戶的檢索請(qǐng)求是范文檢索請(qǐng)求時(shí),進(jìn)一步根據(jù)檢索請(qǐng)求攜帶的關(guān)鍵詞,在范文數(shù)據(jù)庫中進(jìn)行檢索。檢索請(qǐng)求攜帶的關(guān)鍵詞,對(duì)應(yīng)于前述檢索項(xiàng),包括主題關(guān)鍵詞和字?jǐn)?shù)關(guān)鍵詞。例如,檢索請(qǐng)求“入黨申請(qǐng)書3000字”,其主題關(guān)鍵詞為“入黨申請(qǐng)書”,字?jǐn)?shù)關(guān)鍵詞為“3000”。在范文數(shù)據(jù)庫的檢索過程中,可先將主題關(guān)鍵詞與范文類型進(jìn)行匹配,然后根據(jù)二者匹配情況,進(jìn)一步將主題關(guān)鍵詞在相應(yīng)的范文標(biāo)題和/或范文正文中進(jìn)行匹配。示例性地,對(duì)于檢索請(qǐng)求“入黨申請(qǐng)書3000字”,在范文類型和/或范文標(biāo)題和/或范文正文中對(duì)主題關(guān)鍵詞“入黨申請(qǐng)書”進(jìn)行匹配,若匹配成功,即判斷主題關(guān)鍵詞檢索命中。在主題關(guān)鍵詞檢索命中之后,在命中的范文網(wǎng)頁數(shù)據(jù)項(xiàng)中,進(jìn)一步將字?jǐn)?shù)關(guān)鍵詞與范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文字?jǐn)?shù)進(jìn)行匹配,并建立二者的匹配度。示例性地,對(duì)于檢索請(qǐng)求“入黨申請(qǐng)書3000字”,若一范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文字?jǐn)?shù)為3000字,則匹配度為100% ;另一數(shù)據(jù)項(xiàng)的范文字?jǐn)?shù)為5000字,則匹配度為60%。優(yōu)選地,若字?jǐn)?shù)匹配度低于某一閾值,例如匹配度低于50%,可在檢索結(jié)果中舍棄此范文網(wǎng)頁數(shù)據(jù)項(xiàng)對(duì)應(yīng)的范文網(wǎng)頁。
[0044]在檢索步驟之后,提取檢索到的與所述關(guān)鍵詞匹配的范文網(wǎng)頁數(shù)據(jù)項(xiàng)的關(guān)鍵項(xiàng)信息,并在檢索結(jié)果頁中顯示所述關(guān)鍵項(xiàng)信息。其中,被提取的關(guān)鍵項(xiàng)信息包括范文標(biāo)題和范文字?jǐn)?shù),范文標(biāo)題可以讓用戶初步了解范文的具體主題,范文字?jǐn)?shù)則能夠讓用戶直觀了解該范文字?jǐn)?shù)是否滿足自己的需求。優(yōu)選地,被提取的關(guān)鍵項(xiàng)信息還可包括部分范文正文,以使得用戶能夠在不點(diǎn)擊打開范文網(wǎng)頁的情況下就知曉范文的部分內(nèi)容。在搜索結(jié)果頁中,根據(jù)范文字?jǐn)?shù)與字?jǐn)?shù)關(guān)鍵詞的匹配度由高到低對(duì)在范文網(wǎng)頁數(shù)據(jù)庫中檢索到的范文網(wǎng)頁進(jìn)行排序。
[0045]另一方面,在范文網(wǎng)頁數(shù)據(jù)庫中進(jìn)行檢索的同時(shí),還根據(jù)請(qǐng)求內(nèi)容的關(guān)鍵詞,在基礎(chǔ)網(wǎng)頁庫進(jìn)行檢索。如上所述,基礎(chǔ)網(wǎng)頁庫,即搜索引擎的索引數(shù)據(jù)庫,包括由網(wǎng)絡(luò)爬蟲下載存儲(chǔ)到服務(wù)器側(cè)的網(wǎng)頁;在基礎(chǔ)網(wǎng)頁庫的檢索是互聯(lián)網(wǎng)搜索領(lǐng)域的一項(xiàng)成熟技術(shù),在此不再贅述。最后,在檢索結(jié)果頁中合并在范文網(wǎng)頁數(shù)據(jù)庫檢索到的范文網(wǎng)頁和在基礎(chǔ)網(wǎng)頁庫檢索到的范文網(wǎng)頁。具體地,在檢索結(jié)果頁中,在范文網(wǎng)頁數(shù)據(jù)庫檢索到的范文網(wǎng)頁排在基礎(chǔ)網(wǎng)頁庫檢索到的范文網(wǎng)頁的前面。
[0046]綜上所述,由于范文網(wǎng)頁數(shù)據(jù)庫中包含了各種范文網(wǎng)頁的范文標(biāo)題、正文以及字?jǐn)?shù),使得真正與用戶所要求的范文字?jǐn)?shù)相同、相近的范文網(wǎng)頁出現(xiàn)在搜索結(jié)果頁中,并且能在搜索結(jié)果排序時(shí)能排在前面,進(jìn)一步還能在搜索結(jié)果頁中將范文字?jǐn)?shù)顯示給用戶,由此提升搜索質(zhì)量和用戶體驗(yàn)。但是,如果范文網(wǎng)頁數(shù)據(jù)庫中某種范文類型的范文網(wǎng)頁數(shù)據(jù)項(xiàng)的數(shù)量不足,就很有可能不能滿足用戶的范文檢索需求,導(dǎo)致范文網(wǎng)頁數(shù)據(jù)庫的上述優(yōu)點(diǎn)不能發(fā)揮,最后在檢索結(jié)果頁中呈現(xiàn)給用戶的還是從基礎(chǔ)網(wǎng)頁庫中得出的檢索結(jié)果。
[0047]在本實(shí)施例中,提供了一種范文網(wǎng)頁數(shù)據(jù)的優(yōu)化方法,在搜索引擎的服務(wù)器側(cè)執(zhí)行。圖3示出了所述優(yōu)化方法的流程圖,包括步驟S302-S308,其中:
[0048]步驟S302:獲取用戶的檢索請(qǐng)求;
[0049]步驟S304:根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求;
[0050]步驟S306:如果是,檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù);
[0051]步驟S308:將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。
[0052]本實(shí)施例方法從步驟S302開始,搜索引擎的服務(wù)器獲取用戶的檢索請(qǐng)求,例如“入黨申請(qǐng)書3000字”,此請(qǐng)求表示用戶希望搜索到字?jǐn)?shù)在3000字左右的入黨申請(qǐng)書范文
坐坐寸寸ο
[0053]服務(wù)器接收到檢索請(qǐng)求后,會(huì)對(duì)檢索請(qǐng)求的內(nèi)容進(jìn)行分析,獲取其中的檢索項(xiàng),即此時(shí)進(jìn)入步驟S304。對(duì)于檢索請(qǐng)求“入黨申請(qǐng)書3000字”,其檢索項(xiàng)為“入黨申請(qǐng)書”和“3000字”。根據(jù)檢索項(xiàng)“入黨申請(qǐng)書”,步驟S304判斷其為范文檢索請(qǐng)求。關(guān)于對(duì)檢索請(qǐng)求進(jìn)行分析獲取檢索項(xiàng),有多種成熟的技術(shù)能夠?qū)崿F(xiàn),在此不再贅述。
[0054]當(dāng)判斷用戶的檢索請(qǐng)求是范文檢索請(qǐng)求時(shí),進(jìn)一步根據(jù)檢索請(qǐng)求攜帶的關(guān)鍵詞(對(duì)應(yīng)于前述檢索項(xiàng),例如主題關(guān)鍵詞“入黨申請(qǐng)書”和字?jǐn)?shù)關(guān)鍵詞“ 3000 ”),同時(shí)在范文數(shù)據(jù)庫和基礎(chǔ)網(wǎng)頁庫中進(jìn)行檢索,并在檢索結(jié)果頁中合并在范文網(wǎng)頁數(shù)據(jù)庫檢索到的范文網(wǎng)頁和在基礎(chǔ)網(wǎng)頁庫檢索到的范文網(wǎng)頁,此時(shí)進(jìn)入到步驟S306,檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù)。具體地,在步驟S306中,服務(wù)器檢測(cè)用戶在瀏覽器側(cè)對(duì)搜索結(jié)果頁中提供的結(jié)果網(wǎng)頁(包括在范文網(wǎng)頁數(shù)據(jù)庫檢索到的范文網(wǎng)頁,和在基礎(chǔ)網(wǎng)頁庫檢索到的范文網(wǎng)頁)的選擇,即檢測(cè)來自瀏覽器側(cè)的用戶對(duì)某結(jié)果網(wǎng)頁的URL鏈接的點(diǎn)擊動(dòng)作的反饋,服務(wù)器判斷該結(jié)果網(wǎng)頁是與用戶范文需求較為相關(guān)的一范文網(wǎng)頁,并根據(jù)此反饋對(duì)該結(jié)果網(wǎng)頁進(jìn)行解析、提取其中的范文數(shù)據(jù)。
[0055]可選地,所述結(jié)果網(wǎng)頁是問答社區(qū)網(wǎng)站的范文網(wǎng)頁;問答社區(qū)網(wǎng)站以一個(gè)主樓塊提出問題,多個(gè)次樓塊回答問題的形式,直接、快速地滿足了用戶搜索答案的需求,幾乎能解決日常生活中的所有問題,由此也形成了一個(gè)巨大的內(nèi)容資源。目前,國內(nèi)已有很多較有影響的問答社區(qū)網(wǎng)站,例如百度知道,360問答,搜搜問問,天涯問答等等。下面以檢索請(qǐng)求“入黨申請(qǐng)書3000字”為例詳細(xì)描述步驟S306如何提取問答社區(qū)網(wǎng)站的范文網(wǎng)頁的范文數(shù)據(jù)。
[0056]首先,判斷主樓塊的文字內(nèi)容與主題關(guān)鍵詞“入黨申請(qǐng)書”是否匹配;其中,問答社區(qū)網(wǎng)頁的主樓塊和各個(gè)次樓塊的文字內(nèi)容,已經(jīng)由網(wǎng)絡(luò)爬蟲提取出來。當(dāng)主樓塊的文字內(nèi)容與主題關(guān)鍵詞“入黨申請(qǐng)書”匹配時(shí),判斷次樓塊的文字內(nèi)容的字?jǐn)?shù)是否大于預(yù)定閾值。根據(jù)一篇入黨申請(qǐng)書通常所要求的最低字?jǐn)?shù),設(shè)定該預(yù)定閾值,例如2000字,低于預(yù)定閾值2000字的次樓塊將被舍棄。因?yàn)樵趩柎鹕鐓^(qū)網(wǎng)頁中,很多次樓塊的內(nèi)容極有可能不是對(duì)主樓塊所提問題的答案,例如次樓塊內(nèi)容為“不知道”、“我也很想知道”等等;而字?jǐn)?shù)大于2000字的次樓塊,就極有可能是一篇真正的入黨申請(qǐng)書的范文。
[0057]當(dāng)然,對(duì)于不同的范文類型,應(yīng)該對(duì)范文字?jǐn)?shù)設(shè)置不同的預(yù)定閾值。例如,對(duì)于類型為“請(qǐng)假條”的范文,其預(yù)定閾值可以設(shè)置得相對(duì)較低,例如10字。
[0058]優(yōu)選地,如次樓塊的文字內(nèi)容大于了預(yù)定閾值2000字,可基于關(guān)鍵詞進(jìn)一步對(duì)次樓塊進(jìn)行篩選,判斷字?jǐn)?shù)大于預(yù)定閾值的次樓塊的內(nèi)容與元關(guān)鍵詞是否匹配。這里的元關(guān)鍵詞,或者為關(guān)鍵詞本身,或者從關(guān)鍵詞中提取得來。對(duì)于本示例中的關(guān)鍵詞“入黨申請(qǐng)書”,確定其元關(guān)鍵詞為“申請(qǐng)”和“入黨”。在問答社區(qū)網(wǎng)頁中,次樓塊通常可由任何網(wǎng)絡(luò)用戶進(jìn)行添加,因此字?jǐn)?shù)大于預(yù)定閾值的次樓塊的內(nèi)容也有可能與主樓塊所提問題無關(guān),例如次樓塊為網(wǎng)絡(luò)用戶惡意粘貼的廣告等。通過將次樓塊內(nèi)容與元關(guān)鍵詞進(jìn)行匹配,可以進(jìn)一步確定次樓塊的內(nèi)容與入黨申請(qǐng)書的相關(guān)性。另一方面,次樓塊中一篇關(guān)于入黨申請(qǐng)書的范文也有可能未出現(xiàn)“入黨申請(qǐng)書”的完整字段,而元關(guān)鍵詞“申請(qǐng)”和“入黨”保證了不會(huì)將其遺漏。若次樓塊與元關(guān)鍵詞匹配,確定該次樓塊為待提取次樓塊,即確定該次樓塊的內(nèi)容包含主題為“入黨申請(qǐng)書”的范文。
[0059]最后,從所述待提取次樓塊的“入黨申請(qǐng)書”范文中提取范文數(shù)據(jù),包括范文標(biāo)題,范文正文,以及范文字?jǐn)?shù)。從次樓塊的文字內(nèi)容中提取上述范文數(shù)據(jù)的具體實(shí)現(xiàn),并非本發(fā)明的發(fā)明點(diǎn)所在,其實(shí)現(xiàn)細(xì)節(jié)在此不再贅述。
[0060]發(fā)明人注意到,對(duì)于問答社區(qū)網(wǎng)站的一個(gè)范文網(wǎng)頁,其多個(gè)次樓塊都有可能被確定為待提取次樓塊,即多個(gè)次樓塊都能滿足字?jǐn)?shù)要求和元關(guān)鍵詞匹配,故該范文網(wǎng)頁對(duì)應(yīng)的范文網(wǎng)頁數(shù)據(jù)項(xiàng)將包括多條范文數(shù)據(jù),如圖4所示,其中每條范文數(shù)據(jù)與每個(gè)待提取次樓塊的內(nèi)容對(duì)應(yīng)。
[0061]通過本實(shí)施例,準(zhǔn)確提取了問答社區(qū)網(wǎng)站中所包含的范文數(shù)據(jù),最大限度地去除了無效內(nèi)容或惡意廣告內(nèi)容。
[0062]可選地,所述結(jié)果網(wǎng)頁是文字網(wǎng)站的范文網(wǎng)頁;文字網(wǎng)站的網(wǎng)頁以文字為主,在網(wǎng)頁的主要區(qū)域內(nèi)以諸如文稿的形式介紹該網(wǎng)頁的主要內(nèi)容,例如新聞網(wǎng)站、博客網(wǎng)站等等。典型地,文字網(wǎng)站的網(wǎng)頁都包括正文標(biāo)題和正文內(nèi)容,通過網(wǎng)絡(luò)爬蟲能夠獲取這些信息。下面仍將以主題關(guān)鍵詞“入黨申請(qǐng)書”為例來介紹針對(duì)文字網(wǎng)站的范文網(wǎng)頁的范文數(shù)據(jù)提取方法。
[0063]根據(jù)本實(shí)施例的范文數(shù)據(jù)提取方法,對(duì)于文字網(wǎng)站,首先將關(guān)鍵詞“入黨申請(qǐng)書”與正文標(biāo)題進(jìn)行匹配;如匹配,確定該網(wǎng)頁為類型為“入黨申請(qǐng)書”的范文網(wǎng)頁,則進(jìn)一步在正文內(nèi)容中提取正文標(biāo)題,正文內(nèi)容,和正文內(nèi)容的字?jǐn)?shù),將其作為該網(wǎng)頁的范文數(shù)據(jù)。
[0064]可選地,所述結(jié)果網(wǎng)頁是文庫資源網(wǎng)站的范文網(wǎng)頁,文庫資源網(wǎng)站能夠?yàn)橛脩籼峁└鞣N文章、論文的下載服務(wù),例如萬方數(shù)據(jù)網(wǎng)等等。典型地,文庫資源網(wǎng)站的網(wǎng)頁包括范文文檔的URL資源鏈接和描述該范文文檔的文字內(nèi)容。
[0065]根據(jù)本實(shí)施例的范文數(shù)據(jù)提取方法,對(duì)于文庫資源網(wǎng)站,首先將關(guān)鍵詞“入黨申請(qǐng)書”與文庫資源網(wǎng)頁中描述范文文檔的文字內(nèi)容進(jìn)行匹配;如匹配,確定該文庫資源網(wǎng)頁為類型為“入黨申請(qǐng)書”的范文網(wǎng)頁,則經(jīng)由所述URL資源鏈接下載所述范文文檔;進(jìn)一步地,提取描述范文文檔的文字內(nèi)容和所下載的范文文檔作為該網(wǎng)頁的范文數(shù)據(jù)。
[0066]在步驟S306提取好范文數(shù)據(jù)后,進(jìn)入步驟S308,將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增的范文網(wǎng)頁數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。其中,所述關(guān)鍵詞對(duì)應(yīng)于范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文類型。
[0067]可選地,在向范文網(wǎng)頁數(shù)據(jù)庫添加新增數(shù)據(jù)項(xiàng)之前,判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中;如果否,則添加所述新增數(shù)據(jù)項(xiàng);如果是,則不添加所述新增數(shù)據(jù)項(xiàng)。由此,避免了在范文網(wǎng)頁數(shù)據(jù)庫中重復(fù)添加相同范文網(wǎng)頁的數(shù)據(jù)項(xiàng)。
[0068]可選地,在向范文網(wǎng)頁數(shù)據(jù)庫添加新增數(shù)據(jù)項(xiàng)之前,先在范文網(wǎng)頁數(shù)據(jù)庫中確定與新增數(shù)據(jù)項(xiàng)具有相同范文類型的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)的項(xiàng)數(shù);如所述項(xiàng)數(shù)小于預(yù)定數(shù)量,則添加所述新增數(shù)據(jù)項(xiàng);如所述項(xiàng)數(shù)大于或等于預(yù)定數(shù)量,則不添加所述新增數(shù)據(jù)項(xiàng)。例如,對(duì)于范文類型“入黨申請(qǐng)書”,所述預(yù)定數(shù)量設(shè)置為10萬;若范文網(wǎng)頁數(shù)據(jù)庫中范文類型為“入黨申請(qǐng)書”的已有范文網(wǎng)頁數(shù)據(jù)項(xiàng)為8萬條,說明該類型的范文網(wǎng)頁數(shù)量不足,則繼續(xù)添加所述新增數(shù)據(jù)項(xiàng)。
[0069]本發(fā)明另一實(shí)施例提供了一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化裝置,設(shè)置在搜索引擎的服務(wù)器側(cè);圖5示出了根據(jù)本實(shí)施例的范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化裝置的框圖,包括單元502-508。
[0070]當(dāng)用戶向搜索引擎發(fā)出檢索請(qǐng)求時(shí),請(qǐng)求獲取單元502獲取用戶的檢索請(qǐng)求;然后請(qǐng)求判斷單元504根據(jù)請(qǐng)求內(nèi)容的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否是范文檢索請(qǐng)求。
[0071]當(dāng)判斷用戶的檢索請(qǐng)求是范文檢索請(qǐng)求時(shí),進(jìn)一步根據(jù)檢索請(qǐng)求攜帶的關(guān)鍵詞,同時(shí)在范文數(shù)據(jù)庫和基礎(chǔ)網(wǎng)頁庫中進(jìn)行檢索,并在檢索結(jié)果頁中合并在范文網(wǎng)頁數(shù)據(jù)庫檢索到的范文網(wǎng)頁和在基礎(chǔ)網(wǎng)頁庫檢索到的范文網(wǎng)頁。此時(shí),范文數(shù)據(jù)單元506檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,并根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù)。具體地,服務(wù)器檢測(cè)用戶在瀏覽器側(cè)對(duì)搜索結(jié)果頁中提供的結(jié)果網(wǎng)頁的選擇,即檢測(cè)來自瀏覽器側(cè)的用戶對(duì)某結(jié)果網(wǎng)頁的URL鏈接的點(diǎn)擊動(dòng)作的反饋,服務(wù)器判斷該結(jié)果網(wǎng)頁是與用戶范文需求較為相關(guān)的一范文網(wǎng)頁,并根據(jù)此反饋對(duì)該結(jié)果網(wǎng)頁進(jìn)行解析、提取其中的范文數(shù)據(jù)。
[0072]可選地,范文數(shù)據(jù)單元506包括:匹配單元,適于將關(guān)鍵詞與問答社區(qū)網(wǎng)頁主樓塊的文字內(nèi)容進(jìn)行匹配;次樓塊確定單元,適于在關(guān)鍵詞與主樓塊匹配時(shí),判斷次樓塊的文字內(nèi)容的字?jǐn)?shù)是否大于預(yù)定閾值,并且如果次樓塊文字大于預(yù)定閾值,則確定字?jǐn)?shù)大于預(yù)定閾值的次樓塊為待提取次樓塊;以及提取單元,適于提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括待提取次樓塊的文字內(nèi)容的標(biāo)題,待提取次樓塊的文字內(nèi)容的正文,待提取次樓塊的文字內(nèi)容的字?jǐn)?shù)。優(yōu)選地,在確定次樓塊的內(nèi)容字?jǐn)?shù)大于預(yù)定閾值后,次樓塊確定單元進(jìn)一步將字?jǐn)?shù)大于預(yù)定閾值的次樓塊的內(nèi)容與元關(guān)鍵詞(關(guān)鍵詞本身,或根據(jù)所述關(guān)鍵詞確定)進(jìn)行匹配;如匹配,確定匹配的次樓塊為待提取次樓塊。
[0073]可選地,范文數(shù)據(jù)單元506包括匹配單元,適于將所述關(guān)鍵詞與文字網(wǎng)頁的正文標(biāo)題進(jìn)行匹配;以及提取單元,適于在關(guān)鍵詞與正文標(biāo)題匹配時(shí),提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:正文標(biāo)題,正文內(nèi)容,和正文內(nèi)容的字?jǐn)?shù)。
[0074]可選地,范文數(shù)據(jù)單元506包括匹配單元,適于將所述關(guān)鍵詞與文庫資源網(wǎng)頁中描述對(duì)應(yīng)范文文檔的文字內(nèi)容進(jìn)行匹配;下載單元,適于在關(guān)鍵詞與描述文字匹配時(shí),經(jīng)由所述URL資源鏈接下載范文文檔;和提取單元,適于提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:描述范文文檔的文字內(nèi)容,和所述范文文檔。
[0075]在范文數(shù)據(jù)提取完成之后,數(shù)據(jù)添加單元508將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增范文網(wǎng)頁數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中,其中所述關(guān)鍵詞對(duì)應(yīng)于范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文類型。
[0076]可選地,數(shù)據(jù)添加單元在向范文網(wǎng)頁數(shù)據(jù)庫添加新增數(shù)據(jù)項(xiàng)之前,判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中;如果是,則不添加所述新增數(shù)據(jù)項(xiàng);如果否,則添加所述新增數(shù)據(jù)項(xiàng)。
[0077]可選地,數(shù)據(jù)添加單元在向范文網(wǎng)頁數(shù)據(jù)庫添加新增數(shù)據(jù)項(xiàng)之前,先在范文網(wǎng)頁數(shù)據(jù)庫中確定與新增數(shù)據(jù)項(xiàng)具有相同范文類型的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)的項(xiàng)數(shù);如所述項(xiàng)數(shù)小于預(yù)定數(shù)量,則添加所述新增數(shù)據(jù)項(xiàng);如所述項(xiàng)數(shù)大于或等于預(yù)定數(shù)量,則不添加所述新增數(shù)據(jù)項(xiàng)。
[0078]根據(jù)本實(shí)施例所述的范文數(shù)據(jù)庫優(yōu)化方法和裝置,提供了一種及時(shí)補(bǔ)充范文網(wǎng)頁數(shù)據(jù)庫的機(jī)制,尤其是在范文網(wǎng)頁數(shù)據(jù)庫中無結(jié)果網(wǎng)頁或結(jié)果網(wǎng)頁很少的情況下,通過用戶對(duì)基礎(chǔ)檢索庫中得到的結(jié)果網(wǎng)頁的互動(dòng)反饋,及時(shí)將該結(jié)果網(wǎng)頁的范文數(shù)據(jù)補(bǔ)充到范文數(shù)據(jù)庫中,從而不斷擴(kuò)充數(shù)據(jù)庫內(nèi)容以滿足更多用戶的需求,提升召回率。
[0079]在此提供的算法和顯示不與任何特定計(jì)算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對(duì)任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實(shí)現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對(duì)特定語言所做的描述是為了披露本發(fā)明的最佳實(shí)施方式。
[0080]在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說明書的理解。
[0081]類似地,應(yīng)當(dāng)理解,為了精簡(jiǎn)本公開并幫助理解各個(gè)發(fā)明方面中的一個(gè)或多個(gè),在上面對(duì)本發(fā)明的示例性實(shí)施例的描述中,本發(fā)明的各個(gè)特征有時(shí)被一起分組到單個(gè)實(shí)施例、圖、或者對(duì)其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個(gè)權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如下面的權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個(gè)實(shí)施例的所有特征。因此,遵循【具體實(shí)施方式】的權(quán)利要求書由此明確地并入該【具體實(shí)施方式】,其中每個(gè)權(quán)利要求本身都作為本發(fā)明的單獨(dú)實(shí)施例。
[0082]本領(lǐng)域那些技術(shù)人員可以理解,可以對(duì)實(shí)施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們?cè)O(shè)置在與該實(shí)施例不同的一個(gè)或多個(gè)設(shè)備中。可以把實(shí)施例中的模塊或單元或組件組合成一個(gè)模塊或單元或組件,以及此外可以把它們分成多個(gè)子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對(duì)本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個(gè)特征可以由提供相同、等同或相似目的的替代特征來代替。
[0083]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實(shí)施例包括其它實(shí)施例中所包括的某些特征而不是其它特征,但是不同實(shí)施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實(shí)施例。例如,在下面的權(quán)利要求書中,所要求保護(hù)的實(shí)施例的任意之一都可以以任意的組合方式來使用。
[0084]本發(fā)明的各個(gè)部件實(shí)施例可以以硬件實(shí)現(xiàn),或者以在一個(gè)或者多個(gè)處理器上運(yùn)行的軟件模塊實(shí)現(xiàn),或者以它們的組合實(shí)現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實(shí)踐中使用微處理器或者數(shù)字信號(hào)處理器(DSP )來實(shí)現(xiàn)根據(jù)本發(fā)明實(shí)施例的范文網(wǎng)頁數(shù)據(jù)優(yōu)化裝置中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實(shí)現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計(jì)算機(jī)程序和計(jì)算機(jī)程序產(chǎn)品)。這樣的實(shí)現(xiàn)本發(fā)明的程序可以存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上,或者可以具有一個(gè)或者多個(gè)信號(hào)的形式。這樣的信號(hào)可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號(hào)上提供,或者以任何其他形式提供。
[0085]應(yīng)該注意的是上述實(shí)施例對(duì)本發(fā)明進(jìn)行說明而不是對(duì)本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計(jì)出替換實(shí)施例。在權(quán)利要求中,不應(yīng)將位于括號(hào)之間的任何參考符號(hào)構(gòu)造成對(duì)權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個(gè)”不排除存在多個(gè)這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計(jì)算機(jī)來實(shí)現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個(gè)可以是通過同一個(gè)硬件項(xiàng)來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權(quán)利要求】
1.一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化方法,包括: 獲取用戶的檢索請(qǐng)求; 根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求;如果是,檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù); 將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。
2.根據(jù)權(quán)利要求1所述的優(yōu)化方法,其中,添加步驟包括 判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中; 如果是,則不添加所述新增數(shù)據(jù)項(xiàng); 如果否,則添加所述新增數(shù)據(jù)項(xiàng)。
3.根據(jù)權(quán)利要求1或2所述的優(yōu)化方法,其中新增數(shù)據(jù)項(xiàng)中的關(guān)鍵詞對(duì)應(yīng)于范文網(wǎng)頁數(shù)據(jù)項(xiàng)的范文類型;其中 添加步驟包括 在范文網(wǎng)頁數(shù)據(jù)庫中,確定與新增數(shù)據(jù)項(xiàng)具有相同范文類型的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)的項(xiàng)數(shù); 如所述項(xiàng)數(shù)小于預(yù)定數(shù)量,則添加所述新增數(shù)據(jù)項(xiàng); 如所述項(xiàng)數(shù)大于或等于預(yù)定數(shù)量,則不添加所述新增數(shù)據(jù)項(xiàng)。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的優(yōu)化方法,其中被提取的結(jié)果網(wǎng)頁是問答社區(qū)網(wǎng)頁,包括提出問題的主樓塊和回答問題的次樓塊;其中提取范文數(shù)據(jù)的步驟包括 將所述關(guān)鍵詞與網(wǎng)頁主樓塊的文字內(nèi)容進(jìn)行匹配; 如匹配,判斷次樓塊的文字內(nèi)容的字?jǐn)?shù)是否大于預(yù)定閾值; 如果是,確定字?jǐn)?shù)大于預(yù)定閾值的次樓塊為待提取次樓塊;且提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:待提取次樓塊的文字內(nèi)容的標(biāo)題,待提取次樓塊的文字內(nèi)容的正文,待提取次樓塊的文字內(nèi)容的字?jǐn)?shù)。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的優(yōu)化方法,確定待提取次樓塊的步驟還包括: 根據(jù)所述關(guān)鍵詞確定元關(guān)鍵詞; 將所述元關(guān)鍵詞與字?jǐn)?shù)大于預(yù)定閾值的次樓塊的文字內(nèi)容進(jìn)行匹配; 如匹配,確定匹配的次樓塊為待提取次樓塊。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的優(yōu)化方法,所述網(wǎng)頁中待提取次樓塊為多個(gè),則所述網(wǎng)頁對(duì)應(yīng)的范文網(wǎng)頁數(shù)據(jù)項(xiàng)包括與待提取次樓塊數(shù)量相應(yīng)的多個(gè)范文數(shù)據(jù)。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的優(yōu)化方法,其中被提取的結(jié)果網(wǎng)頁是文字網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括正文標(biāo)題和正文內(nèi)容;其中提取范文數(shù)據(jù)的步驟包括: 將所述關(guān)鍵詞與正文標(biāo)題進(jìn)行匹配; 如匹配,提取該結(jié)果網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:正文標(biāo)題,正文內(nèi)容,和正文內(nèi)容的字?jǐn)?shù)。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的優(yōu)化方法,其中被提取的結(jié)果網(wǎng)頁是文庫資源網(wǎng)站網(wǎng)頁,其網(wǎng)頁包括范文文檔的URL資源鏈接和描述對(duì)應(yīng)范文文檔的文字內(nèi)容;其中提取范文數(shù)據(jù)的步驟包括: 將所述關(guān)鍵詞與描述對(duì)應(yīng)范文文檔的文字內(nèi)容進(jìn)行匹配;如匹配,經(jīng)由所述URL資源鏈接下載所述范文文檔; 提取該網(wǎng)頁的范文數(shù)據(jù);其中所述范文數(shù)據(jù)包括:描述范文文檔的文字內(nèi)容,和所述范文文檔。
9.一種范文網(wǎng)頁數(shù)據(jù)庫的優(yōu)化裝置,包括: 請(qǐng)求獲取單元,適于獲取用戶的檢索請(qǐng)求; 請(qǐng)求判斷單元,適于根據(jù)所述檢索請(qǐng)求中攜帶的關(guān)鍵詞,判斷所述檢索請(qǐng)求是否屬于范文檢索請(qǐng)求; 范文數(shù)據(jù)單元,適于檢測(cè)用戶在檢索結(jié)果頁中對(duì)結(jié)果網(wǎng)頁的交互反饋,并根據(jù)所述交互反饋提取對(duì)應(yīng)的結(jié)果網(wǎng)頁中的范文數(shù)據(jù); 數(shù)據(jù)添加單元,適于將所述關(guān)鍵詞、所述結(jié)果網(wǎng)頁中的范文數(shù)據(jù)及結(jié)果網(wǎng)頁URL作為新增數(shù)據(jù)項(xiàng)添加到范文網(wǎng)頁數(shù)據(jù)庫中。
10.根據(jù)權(quán)利要求9所述的優(yōu)化裝置,其中,數(shù)據(jù)添加單元還適于 判斷結(jié)果網(wǎng)頁URL是否包含在范文網(wǎng)頁數(shù)據(jù)庫的現(xiàn)有范文網(wǎng)頁數(shù)據(jù)項(xiàng)中; 如果是,則不添加所述新增數(shù)據(jù)項(xiàng); 如果否,則添加所述新增數(shù)`據(jù)項(xiàng)。
【文檔編號(hào)】G06F17/30GK103678597SQ201310684066
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月13日 優(yōu)先權(quán)日:2013年12月13日
【發(fā)明者】侯小虎 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司