信息搜索與發(fā)布方法與系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種信息搜索與發(fā)布方法。涉及互聯(lián)網(wǎng)領(lǐng)域;解決了通用性搜索引擎功能局限性的問題。該方法包括:獲取目標(biāo)網(wǎng)頁;對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息;向所述用戶發(fā)布所述針對用戶的信息。本發(fā)明提供的技術(shù)方案適用于互聯(lián)網(wǎng)檢索,實(shí)現(xiàn)了針對用戶習(xí)慣的要求定向精確的進(jìn)行信息發(fā)布。
【專利說明】信息搜索與發(fā)布方法與系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,尤其涉及一種信息搜索與發(fā)布方法與系統(tǒng)。
【背景技術(shù)】
[0002]目前,隨著網(wǎng)絡(luò)的快速發(fā)展,萬維網(wǎng)逐漸成為用戶在工作、生活和學(xué)習(xí)中不可缺少的一部分,如何準(zhǔn)確、高效地從萬維網(wǎng)上獲取信息成為一個巨大挑戰(zhàn)。通用性搜索引擎作為一個輔助人們檢索信息的工具存在著一定的局限性,如:
[0003](I)不同領(lǐng)域、不同背景的用戶具有不同的搜索需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁;
[0004](2)通用搜索只能在用戶輸入搜索條件時進(jìn)行被動搜索,不能主動為用戶提供訂制信息。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種信息搜索與發(fā)布方法與系統(tǒng),解決了通用性搜索引擎功能局限性的問題。
[0006]—種信息搜索與發(fā)布方法與系統(tǒng),包括:
[0007]獲取目標(biāo)網(wǎng)頁;
[0008]對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息;
[0009]向所述用戶發(fā)布所述針對用戶的信息。
[0010]優(yōu)選的,所述獲取目標(biāo)網(wǎng)頁包括:
[0011]搜索目標(biāo)網(wǎng)頁;
[0012]緩存所述目標(biāo)網(wǎng)頁。
[0013]優(yōu)選的,所述搜索目標(biāo)網(wǎng)頁包括:
[0014]設(shè)置領(lǐng)域范圍和領(lǐng)域字典;
[0015]以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁;
[0016]將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征;
[0017]根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類。
[0018]優(yōu)選的,所述以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁包括:
[0019]以領(lǐng)域字典為關(guān)鍵字進(jìn)行檢索,得到候選URL ;
[0020]從所述候選URL中選取與所述領(lǐng)域范圍相關(guān)性較高的URL進(jìn)行抓取,作為目標(biāo)網(wǎng)頁。
[0021]優(yōu)選的,所述緩存所述目標(biāo)網(wǎng)頁包括:
[0022]讀取所述目標(biāo)網(wǎng)頁;
[0023]根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值;
[0024]以所述散列值作為索引,將所述目標(biāo)網(wǎng)頁存儲到散列值目錄。[0025]優(yōu)選的,所述對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息包括:
[0026]讀取多個目標(biāo)網(wǎng)頁的信息;
[0027]根據(jù)預(yù)置的分類條件,對讀取到的多個目標(biāo)網(wǎng)頁的信息進(jìn)行分類;
[0028]對分類后的各類別進(jìn)行聚類分析;
[0029]將聚類分析后的目標(biāo)網(wǎng)頁按照分類進(jìn)行存儲,作為針對用戶的信息。
[0030]優(yōu)選的,所述向所述用戶發(fā)布所述針對用戶的信息包括:
[0031]根據(jù)預(yù)置的發(fā)布條件,讀取所述針對用戶的信息;
[0032]向用戶推送相應(yīng)的所述針對用戶的信息。
[0033]本發(fā)明還提供了一種信息搜索與發(fā)布系統(tǒng),包括:
[0034]信息收集模塊,用于獲取目標(biāo)網(wǎng)頁;
[0035]信息分析模塊,用于對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息;
[0036]信息發(fā)布模塊,用于向所述用戶發(fā)布所述針對用戶的信息。
[0037]優(yōu)選的,所述信息收集模塊包括:
[0038]信息搜索子模塊,用于搜索目標(biāo)網(wǎng)頁,具體用于設(shè)置領(lǐng)域范圍和領(lǐng)域字典,以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁,將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征,根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類;
[0039]信息緩存子模塊,用于緩存所述目標(biāo)網(wǎng)頁,具體用于讀取所述目標(biāo)網(wǎng)頁,根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值,以所述散列值作為索弓I,將所述目標(biāo)網(wǎng)頁存儲到散列值目錄。
[0040]本發(fā)明提供了一種信息搜索與發(fā)布方法與系統(tǒng),獲取目標(biāo)網(wǎng)頁,對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息,向所述用戶發(fā)布所述針對用戶的信息。實(shí)現(xiàn)了針對用戶習(xí)慣的要求定向精確的進(jìn)行信息發(fā)布,解決了通用性搜索引擎功能局限性的問題。
【專利附圖】
【附圖說明】
[0041]圖1是本發(fā)明的實(shí)施例中在TCP/IP網(wǎng)絡(luò)中信息搜索與發(fā)布系統(tǒng)的組網(wǎng)示意圖;
[0042]圖2是本發(fā)明的實(shí)施例一中的信息搜索的流程圖;
[0043]圖3是本發(fā)明的實(shí)施例一中信息緩存的流程圖;
[0044]圖4是本發(fā)明的實(shí)施例一中信息分析的流程圖;
[0045]圖5是本發(fā)明的實(shí)施例一中信息發(fā)布的流程圖;
[0046]圖6是本發(fā)明的實(shí)施例二中信息搜索與發(fā)布系統(tǒng)架構(gòu)的示意圖;
[0047]圖7是圖6中信息收集模塊601的結(jié)構(gòu)示意圖;
[0048]圖8是本發(fā)明的實(shí)施例三中信息搜索與發(fā)布系統(tǒng)的主流程圖。
【具體實(shí)施方式】
[0049]通用性搜索引擎作為一個輔助人們檢索信息的工具存在著一定的局限性。為了解決上述問題,本發(fā)明的實(shí)施例提出了一種信息搜索與發(fā)布方法與系統(tǒng),能夠準(zhǔn)確、主動、高效地向用戶提供信息的信息搜索與發(fā)布。
[0050]本發(fā)明的實(shí)施例所提出的信息搜索與發(fā)布方法與系統(tǒng),其基本原理是:運(yùn)用聚焦爬蟲技術(shù)搜索信息、運(yùn)用散列技術(shù)緩存信息、運(yùn)用信息挖掘技術(shù)分析信息、運(yùn)用主動推送技術(shù)發(fā)布信息。首先設(shè)置規(guī)則與參數(shù);然后搜索并緩存信息,根據(jù)用戶的設(shè)定分析信息,最后以主動推送方式將信息發(fā)送給用戶。
[0051]下文中將結(jié)合附圖對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互任意組合。
[0052]首先結(jié)合附圖,對本發(fā)明的實(shí)施例一進(jìn)行說明。
[0053]本發(fā)明實(shí)施例提供了一種信息搜索與發(fā)布方法,設(shè)置搜索、分析與發(fā)布規(guī)則及緩存配置,進(jìn)行信息搜索,將搜索到的信息進(jìn)行存儲,對信息進(jìn)行分類與聚類,根據(jù)用戶設(shè)定將信息主動推送給用戶。
[0054]其中,信息搜索與發(fā)布系統(tǒng)的工作流程為:
[0055]初始化階段,在管理模塊的界面中設(shè)置搜索、分析與發(fā)布規(guī)則及緩存配置,并將規(guī)則與緩存配置信息儲存到信息庫中;
[0056]信息搜索階段,在信息搜索模塊中進(jìn)行信息搜索;
[0057]信息緩存階段,搜索到的信息在緩存模塊中進(jìn)行存儲;
[0058]信息分析階段,在分析模塊中對信息進(jìn)行分類與聚類;
[0059]信息發(fā)布階段,在信息發(fā)布模塊中根據(jù)用戶設(shè)定將信息主動推送給用戶。
[0060]在TCP/IP中信息搜索與發(fā)布系統(tǒng)的組網(wǎng)結(jié)構(gòu)如圖1所示。其中,
[0061]局域網(wǎng),包括網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)安全設(shè)備、主機(jī)與終端,其中網(wǎng)絡(luò)設(shè)備包括路由器與交換機(jī);網(wǎng)絡(luò)安全設(shè)備包括防火墻、VPN、網(wǎng)絡(luò)防病毒系統(tǒng)及入侵檢測系統(tǒng)等;主機(jī)包括Web服務(wù)器、郵件服務(wù)器及文件服務(wù)器等;終端包括用戶計(jì)算機(jī)及自助終端。
[0062]Internet,包括路由器,可以傳送和路由網(wǎng)絡(luò)流量;
[0063]信息搜索與發(fā)布系統(tǒng),用于搜索與緩存網(wǎng)頁,分析用戶關(guān)注信息,并根據(jù)用戶設(shè)定的發(fā)布條件發(fā)送給用戶。
[0064]參照圖2所示的流程圖對信息搜索流程作進(jìn)一步的詳細(xì)說明。包括以下步驟:
[0065]步驟201:設(shè)置領(lǐng)域范圍和領(lǐng)域字典;
[0066]本發(fā)明實(shí)施例所涉及的領(lǐng)域范圍是指用戶的關(guān)注點(diǎn),比如新聞、金融等;領(lǐng)域字典是指與用戶的關(guān)注點(diǎn)相關(guān)的關(guān)鍵字。
[0067]本步驟中,用戶可在搜索界面對領(lǐng)域范圍選項(xiàng)進(jìn)行選擇,搜索服務(wù)提供方在搜索引擎管理界面設(shè)置與領(lǐng)域范圍相關(guān)的URL。
[0068]步驟202:以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁;
[0069]本步驟中,以領(lǐng)域字典為關(guān)鍵字進(jìn)行檢索,得到候選URL,以領(lǐng)域范圍為主題進(jìn)行網(wǎng)頁分析,預(yù)測與主題相關(guān)的候選URL,從所述候選URL中選取與所述領(lǐng)域范圍相關(guān)性較高的URL進(jìn)行抓取,作為目標(biāo)網(wǎng)頁。
[0070]步驟203:將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征;
[0071]步驟204、根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類。[0072]運(yùn)用信息提取技術(shù)獲取并設(shè)定網(wǎng)頁內(nèi)容特征,網(wǎng)頁內(nèi)容特征是指與領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語,信息提取技術(shù)就是將與領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)定為網(wǎng)頁內(nèi)容特征。
[0073]設(shè)定用戶瀏覽網(wǎng)頁行為特征。用戶瀏覽網(wǎng)頁行為特征就是根據(jù)時間進(jìn)行排序與根據(jù)領(lǐng)域范圍進(jìn)行分類后的網(wǎng)頁內(nèi)容特征。
[0074]參照圖3所示的流程圖對信息緩存流程作進(jìn)一步的詳細(xì)說明。包括以下步驟:
[0075]步驟301:讀取目標(biāo)網(wǎng)頁。
[0076]步驟302:根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值;
[0077]本步驟中,運(yùn)用散列算法對各目標(biāo)網(wǎng)頁的URL與搜索時間求MD5值作為該目標(biāo)網(wǎng)頁的散列值。
[0078]步驟303:以所述散列值作為索引,將所述目標(biāo)網(wǎng)頁存儲到散列值目錄。
[0079]參照圖4所示的流程圖對信息分析流程作進(jìn)一步的詳細(xì)說明。包括以下步驟:
[0080]步驟401:讀取多個目標(biāo)網(wǎng)頁的信息;
[0081]本步驟中,一次性讀取多條,即一次性讀取一個用戶多次搜索的網(wǎng)頁。
[0082]步驟402:根據(jù)預(yù)置的分類條件,對讀取到的多個目標(biāo)網(wǎng)頁的信息進(jìn)行分類;
[0083]本步驟中,根據(jù)用戶設(shè)定的特定條件,例如時間、領(lǐng)域與關(guān)注點(diǎn)/關(guān)注范圍等,對讀取的目標(biāo)網(wǎng)頁進(jìn)行分類。
[0084]步驟403:運(yùn)用信息挖掘算法對分類后的信息進(jìn)行聚類分析;
[0085]本步驟中,具體的,根據(jù)網(wǎng)頁內(nèi)容特征與時間對網(wǎng)頁進(jìn)行分類,將具有相同時間段和相同網(wǎng)頁內(nèi)容特征的網(wǎng)頁分為一類;生成的結(jié)果是領(lǐng)域范圍為頂級類別、網(wǎng)頁內(nèi)容特征為多層子類別,時間為葉類別的網(wǎng)頁。
[0086]步驟404:將聚類分析后的目標(biāo)網(wǎng)頁按照分類進(jìn)行存儲,作為針對用戶的信息。參照圖5所示的流程圖對信息發(fā)布流程作進(jìn)一步的詳細(xì)說明。包括以下步驟:
[0087]步驟501:根據(jù)預(yù)置的發(fā)布條件,讀取所述針對用戶的信息;
[0088]本步驟中,在達(dá)到預(yù)置的發(fā)布條件時,讀取與該發(fā)布條件相應(yīng)的用戶的信息準(zhǔn)備進(jìn)行發(fā)布。
[0089]發(fā)布條件可以是時間設(shè)置與關(guān)注點(diǎn),比如早上8點(diǎn)發(fā)布天氣預(yù)報(bào),上午十點(diǎn)發(fā)布新聞。
[0090]步驟502:向用戶推送相應(yīng)的所述針對用戶的信息;
[0091]本步驟中可以運(yùn)用主動推送技術(shù)將信息發(fā)送給用戶。
[0092]下面結(jié)合附圖,對本發(fā)明的實(shí)施例二進(jìn)行說明。
[0093]參照圖6所示的示意圖對信息搜索與發(fā)布系統(tǒng)架構(gòu)作進(jìn)一步的詳細(xì)說明。
[0094]該系統(tǒng)包括:
[0095]信息收集模塊601,用于獲取目標(biāo)網(wǎng)頁;
[0096]信息分析模塊602,用于對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息;
[0097]信息發(fā)布模塊603,用于向所述用戶發(fā)布所述針對用戶的信息。
[0098]優(yōu)選的,所述信息收集模塊601的結(jié)構(gòu)如圖7所示,包括:[0099]信息搜索子模塊6011,用于搜索目標(biāo)網(wǎng)頁,具體用于設(shè)置領(lǐng)域范圍和領(lǐng)域字典,以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁,將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征,根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類;
[0100]信息緩存子模塊6012,用于緩存所述目標(biāo)網(wǎng)頁,具體用于讀取所述目標(biāo)網(wǎng)頁,根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值,以所述散列值作為索引,將所述目標(biāo)網(wǎng)頁存儲到散列值目錄。
[0101]優(yōu)選的,該系統(tǒng)還包括信息庫604,用于存儲搜索、分析與發(fā)布規(guī)則,其中包括信息搜索規(guī)則表、信息分析規(guī)則表與信息發(fā)布規(guī)則表,每個規(guī)則表由表名稱、規(guī)則名、規(guī)則描述、規(guī)則信息與規(guī)則創(chuàng)建時間字段組成。
[0102]下面結(jié)合附圖,對本發(fā)明的實(shí)施例三進(jìn)行說明。
[0103]參照圖8所示的流程圖對信息搜索與發(fā)布系統(tǒng)主流程作進(jìn)一步的詳細(xì)說明。包括以下步驟:
[0104]步驟801:進(jìn)行初始化,設(shè)置搜索、分析與發(fā)布規(guī)則及緩存配置,并將規(guī)則與緩存配置信息儲存到信息庫中;
[0105]步驟802:運(yùn)用聚焦爬蟲技術(shù)搜索網(wǎng)頁信息;
[0106]步驟803:運(yùn)用散列技術(shù)對搜索到的信息進(jìn)行存儲;
[0107]步驟804:對信息進(jìn)行分類及運(yùn)用數(shù)據(jù)挖掘技術(shù)對信息進(jìn)行聚類;
[0108]步驟805:根據(jù)用戶設(shè)定將信息主動推送給用戶。
[0109]本發(fā)明的實(shí)施例提供了一種信息搜索與發(fā)布方法與系統(tǒng),獲取目標(biāo)網(wǎng)頁,對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息,向所述用戶發(fā)布所述針對用戶的信息。實(shí)現(xiàn)了針對用戶習(xí)慣的要求定向精確的進(jìn)行信息發(fā)布,解決了通用性搜索引擎功能局限性的問題。本發(fā)明的實(shí)施例所提供的技術(shù)方案克服通用搜索引擎不準(zhǔn)確與被動搜索的缺點(diǎn),提供一種在TCP/IP網(wǎng)絡(luò)中對信息進(jìn)行搜索、緩存、分析與發(fā)布方法及其系統(tǒng),使用戶能夠方便、快捷、高效地根據(jù)自己的關(guān)注點(diǎn)或關(guān)注范圍訂制信息,使信息通過網(wǎng)站發(fā)布與用戶登錄查看的被動傳播方式,轉(zhuǎn)變?yōu)橹鲃訛橛脩敉扑陀喼菩畔⒌膫鞑シ绞健?br>
[0110]本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的全部或部分步驟可以使用計(jì)算機(jī)程序流程來實(shí)現(xiàn),所述計(jì)算機(jī)程序可以存儲于一計(jì)算機(jī)可讀存儲介質(zhì)中,所述計(jì)算機(jī)程序在相應(yīng)的硬件平臺上(如系統(tǒng)、設(shè)備、裝置、器件等)執(zhí)行,在執(zhí)行時,包括方法實(shí)施例的步驟之一或其組合。
[0111]可選地,上述實(shí)施例的全部或部分步驟也可以使用集成電路來實(shí)現(xiàn),這些步驟可以被分別制作成一個個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。
[0112]上述實(shí)施例中的各裝置/功能模塊/功能單元可以采用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個的計(jì)算裝置上,也可以分布在多個計(jì)算裝置所組成的網(wǎng)絡(luò)上。
[0113]上述實(shí)施例中的各裝置/功能模塊/功能單元以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計(jì)算機(jī)可讀取存儲介質(zhì)中。上述提到的計(jì)算機(jī)可讀取存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0114]任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求所述的保護(hù)范圍為準(zhǔn)。
【權(quán)利要求】
1.一種信息搜索與發(fā)布方法,其特征在于,包括: 獲取目標(biāo)網(wǎng)頁; 對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息; 向所述用戶發(fā)布所述針對用戶的信息。
2.根據(jù)權(quán)利要求1所述的信息搜索與發(fā)布方法,其特征在于,所述獲取目標(biāo)網(wǎng)頁包括: 搜索目標(biāo)網(wǎng)頁; 緩存所述目標(biāo)網(wǎng)頁。
3.根據(jù)權(quán)利要求2所述的信息搜索與發(fā)布方法,其特征在于,所述搜索目標(biāo)網(wǎng)頁包括: 設(shè)置領(lǐng)域范圍和領(lǐng)域字典; 以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁; 將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征; 根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類。
4.根據(jù)權(quán)利要求3所述的信息搜索與發(fā)布方法,其特征在于,所述以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁包括: 以領(lǐng)域字典為關(guān)鍵字進(jìn)行檢索,得到候選URL ; 從所述候選URL中選取與所述·領(lǐng)域范圍相關(guān)性較高的URL進(jìn)行抓取,作為目標(biāo)網(wǎng)頁。
5.根據(jù)權(quán)利要求4所述的信息搜索與發(fā)布方法,其特征在于,所述緩存所述目標(biāo)網(wǎng)頁包括: 讀取所述目標(biāo)網(wǎng)頁; 根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值; 以所述散列值作為索引,將所述目標(biāo)網(wǎng)頁存儲到散列值目錄。
6.根據(jù)權(quán)利要求3所述的信息搜索與發(fā)布方法,其特征在于,所述對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息包括: 讀取多個目標(biāo)網(wǎng)頁的信息; 根據(jù)預(yù)置的分類條件,對讀取到的多個目標(biāo)網(wǎng)頁的信息進(jìn)行分類; 對分類后的各類別進(jìn)行聚類分析; 將聚類分析后的目標(biāo)網(wǎng)頁按照分類進(jìn)行存儲,作為針對用戶的信息。
7.根據(jù)權(quán)利要求6所述的信息搜索與發(fā)布方法,其特征在于,所述向所述用戶發(fā)布所述針對用戶的信息包括: 根據(jù)預(yù)置的發(fā)布條件,讀取所述針對用戶的信息; 向用戶推送相應(yīng)的所述針對用戶的信息。
8.一種信息搜索與發(fā)布系統(tǒng),其特征在于,包括: 信息收集模塊,用于獲取目標(biāo)網(wǎng)頁; 信息分析模塊,用于對所述目標(biāo)網(wǎng)頁進(jìn)行聚類分析,生成并存儲針對用戶的信息; 信息發(fā)布模塊,用于向所述用戶發(fā)布所述針對用戶的信息。
9.根據(jù)權(quán)利要求8所述的信息搜索與發(fā)布系統(tǒng),其特征在于,所述信息收集模塊包括: 信息搜索子模塊,用于搜索目標(biāo)網(wǎng)頁,具體用于設(shè)置領(lǐng)域范圍和領(lǐng)域字典,以所述領(lǐng)域字典為關(guān)鍵字進(jìn)行搜索,獲取目標(biāo)網(wǎng)頁,將與所述領(lǐng)域字典中的關(guān)鍵字相匹配的網(wǎng)頁中詞語設(shè)置為網(wǎng)頁內(nèi)容特征,根據(jù)時間對所述網(wǎng)頁內(nèi)容特征進(jìn)行排序,并根據(jù)所述領(lǐng)域范圍對獲取的目標(biāo)網(wǎng)頁進(jìn)行分類; 信息緩存子模塊,用于緩存所述目標(biāo)網(wǎng)頁,具體用于讀取所述目標(biāo)網(wǎng)頁,根據(jù)所述目標(biāo)網(wǎng)頁與搜索時間,運(yùn)用散列算法分別計(jì)算各目標(biāo)網(wǎng)頁的散列值,以所述散列值作為索引,將所述目標(biāo)網(wǎng)頁存儲到散列值 目錄。
【文檔編號】G06F17/30GK103530418SQ201310522447
【公開日】2014年1月22日 申請日期:2013年10月29日 優(yōu)先權(quán)日:2013年10月29日
【發(fā)明者】陳俊 申請人:北京永信至誠科技有限公司