一種智能垂直搜索方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供了一種智能垂直搜索方法和系統(tǒng),涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】。所述的方法包括:根據(jù)用戶端的查詢詞與分類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與查詢詞相關(guān)的條目,并按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述該行業(yè)已分類的各條目通過以下步驟獲得:獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn)行加權(quán)分析確定各條目所屬類別;和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得的已分類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。通過本申請可更精確、更全面、更快捷的展現(xiàn)與用戶關(guān)注點相關(guān)的信息。
【專利說明】一種智能垂直搜索方法和系統(tǒng)
[0001] 本發(fā)明專利申請是申請日為2011年09月29日、申請?zhí)枮?01110300772. 3、名稱 為"一種智能垂直搜索方法和系統(tǒng)"的中國發(fā)明專利申請的分案申請。
【技術(shù)領(lǐng)域】
[0002] 本申請涉及網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,特別是涉及一種智能垂直搜索方法和系統(tǒng)。
【背景技術(shù)】
[0003] 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,互聯(lián)網(wǎng)上的信息呈現(xiàn)爆炸性的發(fā)展,這導(dǎo)致用戶如果想 要在網(wǎng)絡(luò)中尋找到自己需要的信息,必須通過搜索去獲取自己需要的信息,搜索是廣大網(wǎng) 民獲取信息,到達(dá)指定網(wǎng)站的主要渠道。
[0004] 現(xiàn)有技術(shù)中,一種是通用搜索,通過搜索引擎主動派出"蜘蛛"程序,對整個互聯(lián)網(wǎng) 的網(wǎng)站信息進(jìn)行檢索,蜘蛛爬蟲在抓取一個頁面后,對該頁面進(jìn)行分析入庫,并讀取頁面的 所有連接,然后對這些連接再進(jìn)行抓取分析。通過上千蜘蛛的周期性不停抓取,實現(xiàn)了對 整個互聯(lián)網(wǎng)的所有網(wǎng)頁信息的索引,并直接根據(jù)關(guān)鍵詞匹配將所有與該關(guān)鍵詞相關(guān)的信息 以相關(guān)度排序返回給用戶,其優(yōu)點是搜索范圍廣,但缺點是用戶通過關(guān)鍵詞搜索返回的是 大而全的結(jié)果,沒法提供按行業(yè)特征進(jìn)行分類篩選的服務(wù),無法分類顯示,然而哪些內(nèi)容是 用戶本次搜索中想搜到的則無法進(jìn)行判斷,用戶需要花很長時間在結(jié)果中找自己需要的信 肩、。
[0005] 另外一種是垂直搜索,其站內(nèi)資源的深度搜索,用戶在其網(wǎng)站上添加相應(yīng)數(shù)據(jù),系 統(tǒng)對該數(shù)據(jù)進(jìn)行檢查與過濾,搜索引擎將這些數(shù)據(jù)進(jìn)行中文分詞建立索引,供其他用戶查 詢,是某個網(wǎng)站針對其站內(nèi)信息的搜索服務(wù),其網(wǎng)站內(nèi)的信息是由其站內(nèi)用戶直接將各種 信息添加入該網(wǎng)站的各個分類中,其優(yōu)點是分類清晰,但缺點是搜索范圍較窄,提供的結(jié)果 不夠全面,用戶需通過與其他搜索引擎配合使用才能了解到全面的信息。
【發(fā)明內(nèi)容】
[0006] 本申請所要解決的技術(shù)問題是提供一種垂直智能垂直搜索方法和系統(tǒng),解決用戶 在搜索信息時無法全面、準(zhǔn)確、快速的獲取相關(guān)信息的缺點。
[0007] 為了解決上述問題,本申請公開了一種智能垂直搜索方法,包括:
[0008] 獲取用戶端選擇的一行業(yè)中輸入的查詢詞;
[0009] 根據(jù)所述查詢詞與分類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類 別與查詢詞相關(guān)的條目,并按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述 的條目為電子商務(wù)網(wǎng)頁中的一項或多項業(yè)務(wù)內(nèi)容;
[0010] 其中,所述該行業(yè)已分類的各條目通過以下步驟獲得:
[0011] 獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
[0012] 將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn)行加權(quán)分 析確定各條目所屬類別;
[0013] 和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得的已分 類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
[0014] 優(yōu)選的,所述的查詢詞包括:
[0015] 將用戶的輸入的關(guān)鍵詞作為查詢詞;
[0016] 或者,將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為查詢詞;其 中,所述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
[0017] 優(yōu)選的,還包括以下安全檢測步驟:
[0018] 步驟A、對于所述獲取的待分類的每個條目所在的鏈接地址,通過安全檢查引擎和 木馬查殺引擎檢查所述鏈接地址是否安全,如果安全,則對所述條目進(jìn)行分類;
[0019] 和/或,步驟B,對于所述分類數(shù)據(jù)庫中的已分類的條目所在的鏈接地址,通過安 全檢查引擎不斷遍歷每個鏈接地址,如果不安全,則將該鏈接地址的相關(guān)數(shù)據(jù)從分類數(shù)據(jù) 庫中刪除;
[0020] 和/或,步驟C,對于用戶點擊的一條目所在的鏈接地址,通過安全檢查引擎檢查 該鏈接地址是否安全,如果不安全,則提示用戶并在分類數(shù)據(jù)庫中將該鏈接地址的相關(guān)數(shù) 據(jù)刪除。
[0021] 優(yōu)選的,通過安全檢查引擎和木馬查殺引擎檢查所述鏈接地址是否安全的過程通 過以下步驟進(jìn)行:
[0022] 步驟P1,對于所述獲取的待分類的每個條目所在的鏈接地址,將該鏈接地址提交 給安全檢查引擎檢查其是否在安全等級庫中存在;
[0023] 步驟P2,如果存在并安全,則對所述條目進(jìn)行分類;
[0024] 步驟P3,如果存在但不安全,則發(fā)送警告信息,并過濾掉該鏈接地址的相關(guān)數(shù)據(jù);
[0025] 步驟P4,如果不存在,則通過木馬查殺引擎檢查該鏈接地址,判斷該鏈接是否安 全,如果安全,將該鏈接地址存入安全等級庫,并轉(zhuǎn)入步驟P1。
[0026] 優(yōu)選的,還包括以下安全檢測步驟:
[0027] 通過包括所述條目的鏈接地址icp備案信息和/或網(wǎng)站實名認(rèn)證系統(tǒng)對所述條目 進(jìn)行安全檢測。
[0028] 優(yōu)選的,在獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息時包括:
[0029] 自動抓取步驟,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
[0030] 補充錄入步驟,用于補充錄入一網(wǎng)頁的條目及相關(guān)信息。
[0031] 優(yōu)選的,在按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶端時包括:
[0032] 將條目相關(guān)的用戶行為入口直接提供給用戶端。
[0033] 優(yōu)選的,還包括:
[0034] 智能糾錯步驟,通過智能糾錯引擎對于用戶錯誤輸入的查詢詞進(jìn)行糾錯。
[0035] 優(yōu)選的,所述條目各關(guān)鍵詞i的出現(xiàn)次數(shù)比率與已分類條目各關(guān)鍵詞i的出現(xiàn)概 率的差值,通過對數(shù)加權(quán),計算出條目對應(yīng)的分類c偏差值G(c),偏差值越小則相似度越 高,取最低的偏差值所在分類來確定條目所屬分類。
[0036] 相應(yīng)的本申請還公開了一種智能垂直搜索系統(tǒng),包括:
[0037] 搜索引擎,用于獲取用戶端選擇的一行業(yè)中輸入的查詢詞;根據(jù)所述查詢詞與分 類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與查詢詞相關(guān)的條目,并按 類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述的條目為電子商務(wù)網(wǎng)頁中的 一項或多項業(yè)務(wù)內(nèi)容;
[0038] 分類數(shù)據(jù)庫,用于存儲各行業(yè)已分類數(shù)據(jù);
[0039] 數(shù)據(jù)獲取模塊,用于獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
[0040] 分類器,用于將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果 進(jìn)行加權(quán)分析確定各條目所屬類別;和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率 與根據(jù)預(yù)先統(tǒng)計獲得的已分類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
[0041] 優(yōu)選的,還包括:
[0042] 安全檢查模塊,用于對于所述獲取的待分類的每個條目所在的鏈接地址,通過安 全檢查引擎和木馬查殺引擎檢查所述鏈接地址是否安全,如果安全,則對所述條目進(jìn)行分 類;
[0043] 和/或,對于所述分類數(shù)據(jù)庫中的已分類的條目所在的鏈接地址,通過安全檢查 引擎不斷遍歷每個鏈接地址,如果不安全,則將該鏈接地址的相關(guān)數(shù)據(jù)從分類數(shù)據(jù)庫中刪 除;
[0044] 和/或,對于用戶點擊的一條目所在的鏈接地址,通過安全檢查引擎檢查該鏈接 地址是否安全,如果不安全,則提示用戶并在分類數(shù)據(jù)庫中將該鏈接地址的相關(guān)數(shù)據(jù)刪除。
[0045] 優(yōu)選的,還包括:
[0046] 關(guān)鍵詞建議引擎,用于根據(jù)用戶的輸入詞返回建議詞;所述的建議詞通過預(yù)先統(tǒng) 計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
[0047] 優(yōu)選的,還包括:
[0048] 智能糾錯引擎,用于對于用戶錯誤輸入的查詢詞進(jìn)行糾錯。
[0049] 優(yōu)選的,所述的數(shù)據(jù)獲取模塊包括:
[0050] 數(shù)據(jù)抓取器,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
[0051] 補充錄入模塊,用于補充錄入一網(wǎng)頁的條目及相關(guān)信息。
[0052] 優(yōu)選的,還包括:
[0053] 接口提供模塊,用于在按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶端時將 條目相關(guān)的用戶行為入口直接提供給用戶端。
[0054] 與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點:
[0055] 本申請通過以行業(yè)分類為搜索起點,獲取網(wǎng)絡(luò)中各行業(yè)的所有網(wǎng)站的條目,并通 過將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn)行加權(quán)分析確定 各條目所屬類別和/或根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得 的已分類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別;在對一行業(yè)的所有條 目進(jìn)行分類后,當(dāng)用戶進(jìn)行查詢時,搜索引擎可以根據(jù)所述查詢詞與分類數(shù)據(jù)庫中的該行 業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與查詢詞相關(guān)的條目,并按類別將各所述類別 的條目及相關(guān)信息展現(xiàn)給用戶;本申請通過建立自動分類系統(tǒng),實現(xiàn)了數(shù)據(jù)的自動分類和 篩選功能,可以更精確、更全面、更快捷的展現(xiàn)與用戶關(guān)注點相關(guān)的信息。
【專利附圖】
【附圖說明】
[0056] 圖1是本申請一種智能垂直搜索方法的流程不意圖;
[0057] 圖2是本申請一種智能垂直搜索方法的統(tǒng)計學(xué)分類法的有效性示意圖;
[0058] 圖3是本申請一種智能垂直搜索方法最佳的分類流程示意圖;
[0059] 圖4是本申請一種智能垂直搜索方法的建議詞有效性示意圖;
[0060] 圖5是本申請一種智能垂直搜索方法優(yōu)選的條目分類前安全檢查流程示意圖; [0061] 圖6是本申請一種智能垂直搜索系統(tǒng)的結(jié)構(gòu)示意圖;
[0062] 圖7是本申請一種智能垂直搜索系統(tǒng)優(yōu)選的結(jié)構(gòu)示意圖。
【具體實施方式】
[0063] 為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實 施方式對本申請作進(jìn)一步詳細(xì)的說明。
[0064] 參照圖1,示出了本申請一種智能垂直搜索方法的流程示意圖,包括:
[0065] 步驟110,獲取用戶端選擇的一行業(yè)中輸入的查詢詞。
[0066] 步驟120,根據(jù)所述查詢詞與分類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果, 獲取各類別與查詢詞相關(guān)的條目,并按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶; 其中,所述的條目為電子商務(wù)網(wǎng)頁中的一項或多項業(yè)務(wù)內(nèi)容。其中,業(yè)務(wù)內(nèi)容不含新聞、 廣告、問答等非主營業(yè)務(wù)信息,并且不包含網(wǎng)頁上抬頭、廣告或者icp (Internet Content Provider,網(wǎng)絡(luò)內(nèi)容服務(wù)商)備案等左上或下方等區(qū)域的信息。
[0067] 其中,所述該行業(yè)已分類的各條目通過以下步驟獲得:
[0068] 步驟210,獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息;
[0069] 步驟220,將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn) 行加權(quán)分析確定各條目所屬類別;
[0070] 和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得的已分 類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
[0071] 本申請可在線下預(yù)先通過步驟210和步驟220對各行業(yè)進(jìn)行進(jìn)一步分類。比如說 對于教育行業(yè),可以將其分為少兒教育,中等教育,高等教育,職業(yè)教育等大類,在少兒教育 中又可以分為幼兒、幼升小、一年級、二年級、三年級、四年級、五年級、六年級、小升初等類, 中等教育又可以分為初一、初-、初二、1?中預(yù)科、1? 一、1? -、1?二、大學(xué)預(yù)科等類,1?等教 育又可以分為英語四六級、新概念、英語相關(guān)、小語種、考研英語、考研數(shù)學(xué)、考研政治、考研 專業(yè)課、托福、雅思等類,職業(yè)教育又可以分為職業(yè)英語、職業(yè)小語種、財會、自考、計算機(jī)、 駕校、建筑工程、經(jīng)貿(mào)/金融、醫(yī)藥、在職研究生、人力資源、公務(wù)員等類。其中,每個類都會 含有相應(yīng)的多個關(guān)鍵詞,比如說少兒教育類中含有幼兒、幼升小、一年級、二年級、三年級、 四年級、五年級、六年級、小升初、初級英語、數(shù)學(xué)、語文、學(xué)前班、特長班等關(guān)鍵詞。
[0072] 又比如說對于游戲行業(yè),可以分為游戲類型、游戲題材和游戲畫面等類,游戲類型 又可以分為角色扮演、回合制、動作游戲、FPS射擊、TPS射擊賽、車競速、體育運動、音樂舞 蹈、格斗對戰(zhàn)、策略等類;游戲題材又可以分為武俠、玄幻、奇幻、科幻、卡通、歷史等類;游 戲畫面又可以分為3D、2D、2. ?等類。其中每個類都會含有相應(yīng)的多個關(guān)鍵詞。
[0073] 在分類時,首先通過步驟210按行業(yè)獲取網(wǎng)絡(luò)中該行業(yè)所有網(wǎng)站的所有條目,所 述的條目為電子商務(wù)網(wǎng)頁中的一項或多項業(yè)務(wù)內(nèi)容,其中業(yè)務(wù)內(nèi)容的不含新聞、廣告、問答 等非主營業(yè)務(wù)信息,并且不包含網(wǎng)頁上抬頭、廣告或者icp備案等左上或下方等區(qū)域的信 息,比如說教育行業(yè)各教育類型網(wǎng)站的課程內(nèi)容及其名稱,比如"考研英語沖刺班"及其內(nèi) 容。
[0074] 其中,在獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息時包括:
[0075] 自動抓取步驟,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息。
[0076] 其中,自動抓取步驟過程可通過以下步驟進(jìn)行:
[0077] 步驟ml,自動搜索該行業(yè)所有網(wǎng)站的鏈接地址,生成抓取列表,并記錄每次抓取時 間以及抓取狀態(tài)。
[0078] 步驟m2,采用分布式部署,根據(jù)地域分布,對不同網(wǎng)站進(jìn)行周期性抓取。如果網(wǎng)站 數(shù)據(jù)有變動,網(wǎng)站方可以采用主動通知機(jī)制,調(diào)用本申請?zhí)峁┑耐ㄖ涌?,實現(xiàn)對該網(wǎng)站數(shù) 據(jù)的實時更新。網(wǎng)站數(shù)據(jù)有變化時只需訪問本申請?zhí)峁┑耐ㄖ刂?,該地址即可觸發(fā)抓取 行為。
[0079] 步驟m3,對抓取來的數(shù)據(jù)進(jìn)行安全檢查和有效性檢查。安全檢查將地址提交給安 全檢查模塊檢查該地址是否有木馬或病毒存在,從而返回提示是否收錄該地址。有效性檢 查將檢查該地址是否能正常打開,如果該地址返回不存在或者其他錯誤,本次抓取將不會 收錄該地址。
[0080] 步驟m4,將數(shù)據(jù)提交給分類器進(jìn)行分類處理,抓取程序繼續(xù)抓取新的數(shù)據(jù)。當(dāng)本次 抓取結(jié)束后,數(shù)據(jù)抓取器將重新開始抓取,并判斷文件是否有更新從而確定是否跳過抓取 下一條記錄。
[0081] 補充錄入步驟,用于補充錄入一網(wǎng)頁的條目及相關(guān)信息??捎糜谘a充自動抓取步 驟未抓取到的內(nèi)容。
[0082] 普通的web數(shù)據(jù)是非結(jié)構(gòu)化數(shù)據(jù),如果使用傳統(tǒng)的抓取web頁面的方式則需要對 數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析,在這個過程中,由于系統(tǒng)的智能識別能力有限,必將導(dǎo)致部分信息的 丟失。為了解決這一問題,本申請結(jié)合問題的特點,與數(shù)據(jù)源提供方建立了一種合作機(jī)制, 通過由本申請制定并提供行業(yè)數(shù)據(jù)格式標(biāo)準(zhǔn),由數(shù)據(jù)源提供方按照該標(biāo)準(zhǔn)填寫數(shù)據(jù)內(nèi)容, 從而達(dá)到了事半功倍的效果??梢酝ㄟ^如下方法建立格式標(biāo)準(zhǔn):選定需要進(jìn)行垂直搜索的 行業(yè),比如教育、游戲;分析該行業(yè)的數(shù)據(jù)特點,制定格式標(biāo)準(zhǔn)。以游戲為例,當(dāng)人們提到游 戲時會想到游戲名稱,游戲類型,游戲簡介,游戲地址等相關(guān)信息,對這些信息進(jìn)行歸納整 理,最終形成標(biāo)準(zhǔn)接口。形成的游戲接口字段如下:
[0083]
【權(quán)利要求】
1. 一種智能垂直搜索方法,其特征在于,包括: 獲取用戶端選擇的一行業(yè)中輸入的查詢詞; 根據(jù)所述查詢詞與分類數(shù)據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與 查詢詞相關(guān)的條目,并按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述的條 目為電子商務(wù)網(wǎng)頁中的一項或多項業(yè)務(wù)內(nèi)容; 其中,所述該行業(yè)已分類的各條目通過以下步驟獲得: 獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息; 將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn)行加權(quán)分析確 定各條目所屬類別; 和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根據(jù)預(yù)先統(tǒng)計獲得的已分類條 目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的查詢詞包括: 將用戶的輸入的關(guān)鍵詞作為查詢詞; 或者,將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為查詢詞;其中,所 述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括以下安全檢測步驟: 步驟A、對于所述獲取的待分類的每個條目所在的鏈接地址,通過安全檢查引擎和木馬 查殺引擎檢查所述鏈接地址是否安全,如果安全,則對所述條目進(jìn)行分類; 和/或,步驟B,對于所述分類數(shù)據(jù)庫中的已分類的條目所在的鏈接地址,通過安全檢 查引擎不斷遍歷每個鏈接地址,如果不安全,則將該鏈接地址的相關(guān)數(shù)據(jù)從分類數(shù)據(jù)庫中 刪除; 和/或,步驟C,對于用戶點擊的一條目所在的鏈接地址,通過安全檢查引擎檢查該鏈 接地址是否安全,如果不安全,則提示用戶并在分類數(shù)據(jù)庫中將該鏈接地址的相關(guān)數(shù)據(jù)刪 除。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,通過安全檢查引擎和木馬查殺引擎檢查 所述鏈接地址是否安全的過程通過以下步驟進(jìn)行: 步驟P1,對于所述獲取的待分類的每個條目所在的鏈接地址,將該鏈接地址提交給安 全檢查引擎檢查其是否在安全等級庫中存在; 步驟P2,如果存在并安全,則對所述條目進(jìn)行分類; 步驟P3,如果存在但不安全,則發(fā)送警告信息,并過濾掉該鏈接地址的相關(guān)數(shù)據(jù); 步驟P4,如果不存在,則通過木馬查殺引擎檢查該鏈接地址,判斷該鏈接是否安全,如 果安全,將該鏈接地址存入安全等級庫,并轉(zhuǎn)入步驟P1。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括以下安全檢測步驟: 通過包括所述條目的鏈接地址icp備案信息和/或網(wǎng)站實名認(rèn)證系統(tǒng)對所述條目進(jìn)行 安全檢測。
6. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在獲取所述行業(yè)所有網(wǎng)頁的所有條目及 相關(guān)信息時包括: 自動抓取步驟,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息; 補充錄入步驟,用于補充錄入一網(wǎng)頁的條目及相關(guān)信息。
7. 根據(jù)權(quán)利要求1所述的方法,其特征在于,在按類別將各所述類別的條目及相關(guān)信 息展現(xiàn)給用戶端時包括: 將條目相關(guān)的用戶行為入口直接提供給用戶端。
8. 根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 智能糾錯步驟,通過智能糾錯引擎對于用戶錯誤輸入的查詢詞進(jìn)行糾錯。
9. 根據(jù)權(quán)利要求1所述的方法,其特征在于: 所述條目各關(guān)鍵詞i的出現(xiàn)次數(shù)比率與已分類條目各關(guān)鍵詞i的出現(xiàn)概率的差值,通 過對數(shù)加權(quán),計算出條目對應(yīng)的分類c偏差值G(c),偏差值越小則相似度越高,取最低的偏 差值所在分類來確定條目所屬分類。
10. -種智能垂直搜索系統(tǒng),其特征在于,包括: 搜索引擎,用于獲取用戶端選擇的一行業(yè)中輸入的查詢詞;根據(jù)所述查詢詞與分類數(shù) 據(jù)庫中的該行業(yè)已分類的各條目匹配的結(jié)果,獲取各類別與查詢詞相關(guān)的條目,并按類別 將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶;其中,所述的條目為電子商務(wù)網(wǎng)頁中的一項 或多項業(yè)務(wù)內(nèi)容; 分類數(shù)據(jù)庫,用于存儲各行業(yè)已分類數(shù)據(jù); 數(shù)據(jù)獲取模塊,用于獲取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息; 分類器,用于將各條目中的關(guān)鍵詞與該行業(yè)各類別對應(yīng)的關(guān)鍵詞的詞法匹配結(jié)果進(jìn)行 加權(quán)分析確定各條目所屬類別;和/或,根據(jù)未分類條目的各關(guān)鍵詞的出現(xiàn)次數(shù)比率與根 據(jù)預(yù)先統(tǒng)計獲得的已分類條目的各關(guān)鍵詞的出現(xiàn)概率的相似度確定各條目所屬類別。
11. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 安全檢查模塊,用于對于所述獲取的待分類的每個條目所在的鏈接地址,通過安全檢 查引擎和木馬查殺引擎檢查所述鏈接地址是否安全,如果安全,則對所述條目進(jìn)行分類; 和/或,對于所述分類數(shù)據(jù)庫中的已分類的條目所在的鏈接地址,通過安全檢查引擎 不斷遍歷每個鏈接地址,如果不安全,則將該鏈接地址的相關(guān)數(shù)據(jù)從分類數(shù)據(jù)庫中刪除; 和/或,對于用戶點擊的一條目所在的鏈接地址,通過安全檢查引擎檢查該鏈接地址 是否安全,如果不安全,則提示用戶并在分類數(shù)據(jù)庫中將該鏈接地址的相關(guān)數(shù)據(jù)刪除。
12. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 關(guān)鍵詞建議引擎,用于根據(jù)用戶的輸入詞返回建議詞;所述的建議詞通過預(yù)先統(tǒng)計的 用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
13. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 智能糾錯引擎,用于對于用戶錯誤輸入的查詢詞進(jìn)行糾錯。
14. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,所述的數(shù)據(jù)獲取模塊包括: 數(shù)據(jù)抓取器,用于自動抓取所述行業(yè)所有網(wǎng)頁的所有條目及相關(guān)信息; 補充錄入模塊,用于補充錄入一網(wǎng)頁的條目及相關(guān)信息。
15. 根據(jù)權(quán)利要求10所述的系統(tǒng),其特征在于,還包括: 接口提供模塊,用于在按類別將各所述類別的條目及相關(guān)信息展現(xiàn)給用戶端時將條目 相關(guān)的用戶行為入口直接提供給用戶端。
【文檔編號】G06F17/30GK104063513SQ201410328404
【公開日】2014年9月24日 申請日期:2011年9月29日 優(yōu)先權(quán)日:2011年9月29日
【發(fā)明者】趙軼, 許小東 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司