專利名稱:一種搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種搜索方法和系統(tǒng)。
背景技術(shù):
在搜索領(lǐng)域,經(jīng)常需要分析用戶輸入的查詢詞相關(guān)的分類,即分析用戶的查詢意圖,然后基于該查詢詞相關(guān)的分類或者說用戶的查詢意圖針對性的展示相關(guān)站點(diǎn)給用戶。 隨著這種趨勢的發(fā)展,用戶的查詢意圖識別成為搜索引擎中非常重要的一個領(lǐng)域。一般來說,對于用戶輸入的查詢詞,該查詢詞在客觀上會屬于某一個類別,比如對于用戶輸入的 “單反相機(jī)”這個查詢詞,“單反相機(jī)”客觀上可屬于攝像器材類行業(yè),即對于用戶來說,其輸入的查詢詞具有對應(yīng)該行業(yè)的查詢意圖。在傳統(tǒng)的通用搜索引擎中,一般只根據(jù)網(wǎng)站的權(quán)重和查詢詞的匹配情況對結(jié)果進(jìn)行展現(xiàn),基本上沒有在用戶查詢意圖層面進(jìn)行考慮,即用戶輸入的查詢詞和網(wǎng)站的相關(guān)性,無法針對性的做出相應(yīng)展示,也無法更精準(zhǔn)更客觀的將查詢結(jié)果展現(xiàn)給用戶。針對上述情況,現(xiàn)有技術(shù)中設(shè)計(jì)并運(yùn)用了類別查詢的方法,判斷查詢詞所屬的相關(guān)類別,然后將查詢結(jié)果中對應(yīng)類別的查詢結(jié)果整理展示給用戶端?,F(xiàn)有技術(shù)中,進(jìn)行類別查詢時,多以手工標(biāo)注,分析用戶點(diǎn)擊行為等方法來獲取用戶輸入的查詢詞與某些行業(yè)類別的相關(guān)性。手工標(biāo)注的方法一般是通過手工標(biāo)注出有行業(yè)需求查詢詞,以此為訓(xùn)練數(shù)據(jù)來訓(xùn)練分類模型,來獲取用戶輸入的查詢詞與某些行業(yè)類別網(wǎng)站的相關(guān)性,該方法由于采用人工進(jìn)行標(biāo)注行業(yè)需求查詢詞,導(dǎo)致獲取成本高,代價(jià)太大,且主觀性較強(qiáng)。分析用戶點(diǎn)擊行為的方法包括兩種方法其一是通過用戶點(diǎn)擊行為來獲取行業(yè)需求查詢詞,以此為訓(xùn)練數(shù)據(jù)來訓(xùn)練分類模型,來獲取用戶輸入的查詢詞與某些行業(yè)類別網(wǎng)站的相關(guān)性;其二是通過用戶在行業(yè)站點(diǎn)中的搜索行為來獲取行業(yè)需求查詢詞,以此為訓(xùn)練數(shù)據(jù)來訓(xùn)練分類模型來獲取用戶輸入的查詢詞與某些行業(yè)類別網(wǎng)站的相關(guān)性。上述兩種方法由于用戶的點(diǎn)擊行為存在一定的非理性因素等原因,比如對于一些小眾的行業(yè)類別, 可能不存在用戶查詢點(diǎn)擊的歷史記錄,或者用戶在行業(yè)網(wǎng)站內(nèi)輸入了非該行業(yè)的查詢詞, 導(dǎo)致基于用戶點(diǎn)擊行為相關(guān)歷史數(shù)據(jù)所建立的模型不夠準(zhǔn)確,從而導(dǎo)致判斷用戶輸入的查詢詞與某些行業(yè)類別網(wǎng)站的相關(guān)性時出現(xiàn)偏差;并且,由于受行業(yè)站點(diǎn)自身的限制,使用戶點(diǎn)擊行為數(shù)據(jù)獲取的代價(jià)高昂并且受數(shù)據(jù)量的限制,用戶點(diǎn)擊行為數(shù)據(jù)獲取的門檻高,獲取方式不夠便捷,導(dǎo)致數(shù)據(jù)難以獲取,且不能保證搜索結(jié)果中強(qiáng)相關(guān)類別對應(yīng)的搜索結(jié)果被優(yōu)先顯示。
發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種搜索方法和系統(tǒng),能更客觀、更精確、更便捷的分析用戶輸入的查詢詞與行業(yè)類別的相關(guān)性,可更客觀、更精確、更便捷與查詢詞展現(xiàn)相關(guān)的搜索結(jié)果。為了解決上述問題,本申請公開了一種搜索方法,其特征在于,包括
接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果;利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析, 獲得所述查詢詞與各強(qiáng)相關(guān)分類特征集合相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端。優(yōu)選的,所述強(qiáng)相關(guān)分類特征集合分別包括一行業(yè)類別對應(yīng)的特征信息;通過如下步驟獲取,包括獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得;將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析對應(yīng)的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,所述特征信息包括網(wǎng)址和/或文本信息;所述強(qiáng)相關(guān)分類特征集合包括行業(yè)類別對應(yīng)的網(wǎng)址列表和/或語言模型,對應(yīng)記錄所述特征信息。優(yōu)選的,將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與第三初始搜索結(jié)果集合中各特征信息的出現(xiàn)頻率進(jìn)行比較分析時將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合;和/或,將所述第二初始搜索結(jié)果集合的文本信息中各詞的出現(xiàn)頻率與所述詞在所述第三初始搜索結(jié)果集合的文本信息中的出現(xiàn)頻率進(jìn)行比較,獲得各詞的比較值;基于所述比較值和相應(yīng)的詞進(jìn)行處理得到與初始分類詞集合所在分類相應(yīng)的語言模型并存入相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,所述方法還包括當(dāng)所述比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時,將該網(wǎng)址對應(yīng)的文本信息的各詞在第二初始搜索結(jié)果中的出現(xiàn)頻率與所述各詞在第三初始搜索結(jié)果中的出現(xiàn)頻率進(jìn)行比較,當(dāng)比較結(jié)果大于第三強(qiáng)相關(guān)閾值時,則將該網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析時將所述第一初始搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合中的各網(wǎng)址進(jìn)行匹配,并統(tǒng)計(jì)第一初始搜索結(jié)果中網(wǎng)址與各強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù);和/或,將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。優(yōu)選的,所述方法還包括
6
當(dāng)所述第一初始搜索結(jié)果中網(wǎng)址與一強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)大于第一強(qiáng)相關(guān)閾值時,和/或,當(dāng)所述綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān)。優(yōu)選的,所述從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果展示給用戶端包括將第一初始搜索結(jié)果的各條結(jié)果逐條與強(qiáng)相關(guān)分類集合進(jìn)行匹配,當(dāng)一條搜索結(jié)果的網(wǎng)址屬于強(qiáng)相關(guān)分類特征集合中網(wǎng)址列表,和/或,所述搜索結(jié)果的綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值,則從第一初始搜索結(jié)果中提取該搜索結(jié)果;將提取出的各搜索結(jié)果優(yōu)先展示給用戶端。優(yōu)選的,所述方法還包括當(dāng)所述查詢詞與各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果均不符合判定條件時,則依據(jù)各分類對應(yīng)的分類詞模型判斷所述查詢詞是否屬于相應(yīng)分類;所述各分類對應(yīng)的分類詞模型基于各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建。優(yōu)選的,所述文本信息包括標(biāo)題信息和/或摘要信息。相應(yīng)的本申請還公開了一種搜索系統(tǒng),包括初始搜索模塊,用于接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果;匹配分析模塊,用于利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與強(qiáng)相關(guān)分類特征集合中相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;結(jié)果處理模塊,用于當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端。優(yōu)選的,還包括強(qiáng)相關(guān)分類特征集合獲取模塊,用于獲取分別包括一行業(yè)類別對應(yīng)的特征信息的強(qiáng)相關(guān)分類特征集合;所述模塊包括特征信息獲取子模塊,用于獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得;處理子模塊,用于將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析得到的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,所述的處理子模塊包括第一處理子單元,用于將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合;和/或,第二處理子單元,用于將所述第二初始搜索結(jié)果集合的文本信息中各詞的出現(xiàn)頻率與所述詞在所述第三初始搜索結(jié)果集合的文本信息中的出現(xiàn)頻率進(jìn)行比較,獲得各詞的比較值;基于所述比較值和相應(yīng)的詞進(jìn)行處理得到語言模型并存入相應(yīng)的強(qiáng)相關(guān)分類特征
口 O優(yōu)選的,所述處理子模塊還包括當(dāng)比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時,將該網(wǎng)址對應(yīng)的文本信息的各詞在第二初始搜索結(jié)果中的出現(xiàn)頻率與所述各詞在第三初始搜索結(jié)果中的出現(xiàn)頻率進(jìn)行比較,當(dāng)比較結(jié)果大于第三強(qiáng)相關(guān)閾值時,則將該網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,所述匹配分析模塊包括第一分析匹配模塊,用于將所述第一初始搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合中的各網(wǎng)址進(jìn)行匹配,并統(tǒng)計(jì)第一初始搜索結(jié)果中網(wǎng)址與各強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù);和/或,第二分析匹配模塊,用于將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。優(yōu)選的所述結(jié)果處理模塊包括第一結(jié)果處理子模塊,用于當(dāng)所述第一初始搜索結(jié)果中網(wǎng)址與一強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)大于第一強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與該分類強(qiáng)相關(guān);和/或,第二結(jié)果處理子模塊當(dāng)所述綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān)。優(yōu)選的,所述結(jié)果處理模塊還包括第三結(jié)果處理子模塊,當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果不符合判定條件時,則依據(jù)各分類對應(yīng)的分類詞模型判斷所述查詢詞是否屬于相應(yīng)分類;所述各分類對應(yīng)的分類詞模型基于各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建。優(yōu)選的,所述從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果展示給用戶端包括將第一初始搜索結(jié)果的各條結(jié)果逐條與強(qiáng)相關(guān)分類集合進(jìn)行匹配,當(dāng)一條搜索結(jié)果的網(wǎng)址屬于強(qiáng)相關(guān)分類特征集合中網(wǎng)址列表,和/或,所述搜索結(jié)果的綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值,則從第一初始搜索結(jié)果中提取該搜索結(jié)果;將提取出的各搜索結(jié)果優(yōu)先展示給用戶端。其中,所述特征信息包括網(wǎng)址和/或文本信息;所述強(qiáng)相關(guān)分類特征集合包括行業(yè)類別對應(yīng)的網(wǎng)址列表和/或語言模型,對應(yīng)記錄所述特征信息。與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn)利用由通用搜索引擎采用隨機(jī)詞集合搜索得到的第二初始搜索結(jié)果集合,與由通用搜索引擎采用分類詞集合得到的第三初始搜索結(jié)果集合,將上述兩個搜索結(jié)果集合中信息進(jìn)行比較分析,得到該類別的強(qiáng)相關(guān)分類特征集合;對于輸入的查詢詞,將各行業(yè)類別對應(yīng)的強(qiáng)相關(guān)分類特征集合與對應(yīng)所述查詢詞的初始搜索結(jié)果近行匹配分析處理,如果相關(guān)性結(jié)果符合判斷條件,則該查詢詞與相應(yīng)行業(yè)類別強(qiáng)相關(guān),然后針對該查詢詞的強(qiáng)相關(guān)行業(yè)類別進(jìn)行相應(yīng)展示。本申請首先利用隨機(jī)詞和分類詞的搜索結(jié)果進(jìn)行處理,可以便捷容易的獲取數(shù)據(jù),建立用于分類的強(qiáng)相關(guān)分類特征集合,所以對于數(shù)據(jù)源沒有量的制約;其次,本申請是基于前述搜索結(jié)果集合建立的用于分類的強(qiáng)相關(guān)分類特征集合,基于搜索引擎客觀的搜索結(jié)果,并且可以對查詢詞分類更加準(zhǔn)確,從而保證了查詢詞對應(yīng)的搜索結(jié)果中強(qiáng)相關(guān)類別對應(yīng)的搜索結(jié)果被優(yōu)先顯示。
圖I是本申請一種搜索方法的流程示意圖;圖2是本申請獲取強(qiáng)相關(guān)分類特征集合方法的流程示意圖;圖3是本申請一種搜索系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本申請作進(jìn)一步詳細(xì)的說明。本申請的核心思想之一是,利用隨機(jī)詞集合在通用搜索引擎中的搜索結(jié)果,和分類詞在通用搜索引擎中的搜索結(jié)果,建立多個強(qiáng)相關(guān)分類特征集合,所述強(qiáng)相關(guān)分類特征集合包括一個行業(yè)類別對應(yīng)的網(wǎng)址列表和/或語言模型,對應(yīng)記錄所述特征信息,即根據(jù)各個詞與網(wǎng)頁相關(guān)性得到的搜索結(jié)果;然后當(dāng)用戶輸入的查詢詞后,首先獲取搜索引擎初步搜索得到的結(jié)果,即根據(jù)查詢詞與網(wǎng)絡(luò)中各網(wǎng)頁的相關(guān)性得到的搜索結(jié)果,然后利用前述得到的各強(qiáng)相關(guān)分類特征集合對該搜索結(jié)果進(jìn)行分析,分析查詢詞與各強(qiáng)相關(guān)分類特征集合對應(yīng)分類的相關(guān)性結(jié)果,當(dāng)相關(guān)性結(jié)果符合判定條件時,則可認(rèn)為該查詢詞與該強(qiáng)相關(guān)分類特征集合對應(yīng)的分類強(qiáng)相關(guān)。其中,對于分類,一般來說,基本上是全網(wǎng)中基于行業(yè)進(jìn)行分類,如軟件、影視、音樂等。參照圖1,示出了本申請一種搜索方法的流程示意圖,具體可以包括以下步驟步驟110,接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果。對于通用搜索引擎來說,在接收到用戶端輸入的查詢詞后,對其進(jìn)行分詞等操作, 然后基于分詞結(jié)果在索引中查找所有與分詞相關(guān)的網(wǎng)頁及其內(nèi)容,再進(jìn)一步對搜索得到的網(wǎng)頁及其內(nèi)容進(jìn)行后續(xù)處理,直至返回用戶端進(jìn)行展示。而本步驟與通用搜索引擎的工作方式基本相同,即將查詢詞進(jìn)行分詞等操作,然后基于分詞結(jié)果在索引中查找所有與分詞相關(guān)的網(wǎng)頁及其內(nèi)容。比如輸入“搜狗瀏覽器下載”,搜索引擎會“搜狗瀏覽器下載”分詞為 “搜狗”、“瀏覽器”、“下載”等詞,然后基于這些詞聯(lián)合或者單獨(dú)在全網(wǎng)中搜索相關(guān)的網(wǎng)頁及其內(nèi)容。對于與搜索引擎查詢詞相關(guān)的各網(wǎng)頁及其內(nèi)容,一般,搜索引擎會按一定的排序規(guī)則對各網(wǎng)頁及其內(nèi)容進(jìn)行排序。本申請可以獲取與輸入的查詢詞對應(yīng)的全部網(wǎng)頁及其內(nèi)容,也可獲取排序靠前的大于一定數(shù)量的網(wǎng)頁及其內(nèi)容,該數(shù)量可以根據(jù)實(shí)際情況進(jìn)行限定。步驟120,利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與強(qiáng)相關(guān)分類特征集合中相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到。
在實(shí)際中,本申請可預(yù)先建立各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合,所述強(qiáng)相關(guān)分類特征集合與各分類一一對應(yīng),其中的特征信息通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行處理得到,所述特征信息用于判斷所述查詢詞與特定的某一強(qiáng)相關(guān)分類特征集合相應(yīng)分類的相關(guān)性。比如建立軟件類強(qiáng)相關(guān)分類特征集合,影視類強(qiáng)相關(guān)分類特征集合,或者是計(jì)算機(jī)設(shè)備類強(qiáng)相關(guān)分類特征集合。優(yōu)選的,參照圖2,其示出了本申請強(qiáng)相關(guān)分類特征集合的獲取方法流程示意圖。所述各類別強(qiáng)相關(guān)分類特征集合通過如下獲取步驟包括步驟S10,獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得。一般情況下,可先從全網(wǎng)的網(wǎng)絡(luò)查詢?nèi)罩局须S機(jī)出一個“隨機(jī)詞集合”,逐個將隨機(jī)詞集合中的詞打入通用搜索引擎,得到與隨機(jī)詞相關(guān)的搜索結(jié)果,比如網(wǎng)頁及其內(nèi)容,然后可獲取各條搜索結(jié)果中的特征信息,比如網(wǎng)頁的網(wǎng)址、網(wǎng)頁的標(biāo)題、網(wǎng)頁的摘要等,實(shí)際中通過獲取網(wǎng)頁的URL(統(tǒng)一資源定位符,Uniform/Universal Resource Locator)獲取網(wǎng)頁的網(wǎng)址。本步驟可在得到每條搜索結(jié)果時即可獲取該條搜索結(jié)果的特征信息,也可在獲取到所有條搜索結(jié)果時再獲取搜索結(jié)果中的特征信息,本申請不對其加以限制。然后,再從全網(wǎng)中的行業(yè)網(wǎng)站內(nèi)取出分類實(shí)體名稱組成“分類詞集合”,比如全網(wǎng)中的若干個行業(yè)網(wǎng)站內(nèi)取出行業(yè)實(shí)體名稱組成“行業(yè)分類詞集合”,打入通用搜索引擎,得到與分類詞相關(guān)的搜索結(jié)果,比如網(wǎng)頁及其內(nèi)容,然后可獲取各條搜索結(jié)果中的特征信息, 比如網(wǎng)頁的網(wǎng)址、網(wǎng)頁的標(biāo)題、網(wǎng)頁的摘要等,實(shí)際中通過獲取網(wǎng)頁的URL(統(tǒng)一資源定位符,Uniform/Universal Resource Locator)獲取網(wǎng)頁的網(wǎng)址。本步驟可在得到每條搜索結(jié)果時即可獲取該條搜索結(jié)果的特征信息,也可在獲取到所有條搜索結(jié)果時再獲取搜索結(jié)果中的特征信息,本申請不對其加以限制。具體比如,在軟件類別的行業(yè)網(wǎng)站“天空下載”: http://www. skycn. com/等網(wǎng)站中的軟件下載排行榜抓取“迅雷7”、“騰訊QQ 2011”等特征詞作為軟件類的初始分類詞,打入搜索引擎,從對應(yīng)的搜索結(jié)果中獲取上述信息。步驟S20,將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析對應(yīng)的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。在前述步驟獲取到第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息后,可計(jì)算相同特征信息在各自集合的特征信息中出現(xiàn)的概率,然后將兩者進(jìn)行比較分析,然后再將比較分析結(jié)果與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。在實(shí)際中,所述的特征信息包括文本信息和/或網(wǎng)址信息。所述的強(qiáng)相關(guān)分類特征集合包括行業(yè)類別對應(yīng)的語言模型和/或網(wǎng)址列表,對應(yīng)記錄文本信息和/或網(wǎng)址。優(yōu)選的,將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與第三初始搜索結(jié)果集合中的特征信息的出現(xiàn)頻率進(jìn)行比較分析時包括步驟R21,將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;將第二初始搜索結(jié)果中的網(wǎng)址i的出現(xiàn)頻率與該網(wǎng)址i在第三初始搜索結(jié)果的出現(xiàn)頻率進(jìn)行比較,一般情況下,可求上述兩者的比值P,P =第三初始搜索結(jié)果中網(wǎng)址i的出現(xiàn)頻率/第二初始搜索結(jié)果中網(wǎng)址i的出現(xiàn)頻率。步驟R22,當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。比如,當(dāng)上述P值大于強(qiáng)需求閾值時,則將相應(yīng)網(wǎng)址i存入行業(yè)類別強(qiáng)相關(guān)分類特征集合,比如如果初始分類詞為軟件類時,若WWW. SOROU. com的P值大于強(qiáng)需求閾值,可將 WWW. SOROU. com加入軟件類對應(yīng)的強(qiáng)相關(guān)分類特征集合。如果初始分類詞為影視類時,若 http://www. ku6. com的P值大于某強(qiáng)需求閾值,則可將www. ku6. com加入影視類對應(yīng)的強(qiáng)相關(guān)分類特征集合。其中所述強(qiáng)需求閾值可根據(jù)實(shí)際精度需求設(shè)置。本申請中強(qiáng)需求閾值的設(shè)置原則可以根據(jù)需求不同進(jìn)行設(shè)定,如對精度要求高的需求則設(shè)置較高的閾值,對于召回要求高的需求則設(shè)置較低的閾值,通??捎靡延械乃惴▽Σ樵冊~進(jìn)行匹配,得到每一個查詢詞和該詞對應(yīng)的結(jié)果匹配次數(shù),然后判斷所有查詢詞的意圖,之后再依照需求的精度反向計(jì)算出強(qiáng)需求閾值。另外,優(yōu)選的,將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較,還包括步驟R23,當(dāng)比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時,將該網(wǎng)址對應(yīng)的文本信息的各詞在第二初始搜索結(jié)果中的出現(xiàn)頻率與所述各詞在第三初始搜索結(jié)果中的出現(xiàn)頻率進(jìn)行比較,當(dāng)比較結(jié)果大于第三強(qiáng)相關(guān)閾值時,則將該網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。比如詞m在第三初始搜索結(jié)果中的出現(xiàn)頻率/詞m在第二初始搜索結(jié)果中的出現(xiàn)頻率=L,L值大于第三相關(guān)閾值時,則可將該網(wǎng)址存入相應(yīng)強(qiáng)相關(guān)分類特征集合。所述第三相關(guān)閾值也可根據(jù)實(shí)際需求設(shè)置。其中,所述的網(wǎng)址可包括網(wǎng)站的域名,也可包括該網(wǎng)站的二級目錄或者某些格式的模板鏈接。在實(shí)際中,對于第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在第三初始搜索結(jié)果集合中的出現(xiàn)頻率對應(yīng)的比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時的情況,對于所述網(wǎng)址對應(yīng)的文本信息的詞m在第二初始搜索結(jié)果中的出現(xiàn)頻率與詞m在第三初始搜索結(jié)果中的出現(xiàn)頻率的比較結(jié)果大于某一閾值時,也可不將其與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合,并將其單獨(dú)存入一個中等相關(guān)分類特征集合,并以所述網(wǎng)址對應(yīng)的文本信息的詞m在第二初始搜索結(jié)果中的出現(xiàn)頻率與詞m在第三初始搜索結(jié)果中的出現(xiàn)頻率的比較結(jié)果作為該網(wǎng)址的比較值,然后在后續(xù)分析一查詢詞與該分類的相關(guān)性時將該中等相關(guān)分類特征集合作為輔助評判集合。和/或,步驟Q21,將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。即將所述第二初始搜索結(jié)果集合中的文本信息中詞j的出現(xiàn)頻率與該詞j在所述第三初始搜索結(jié)果集合中的文本信息的出現(xiàn)頻率進(jìn)行比較,獲得詞j的比較值。一般情況下,可求上述兩者的比值P作為詞j的比較值,P =第三初始搜索結(jié)果中文本信息中詞j的出現(xiàn)頻率/第二初始搜索結(jié)果中各文本信息中詞j的出現(xiàn)頻率。實(shí)際中,所述文本信息包括標(biāo)題信息和/或摘要信息。步驟Q22,將所述比較值進(jìn)行處理得到語言模型并與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。對于網(wǎng)頁來說,本申請優(yōu)選的獲取網(wǎng)頁的標(biāo)題信息、和/或摘要信息。本申請可單獨(dú)對標(biāo)題信息或摘要信息通過各種建模方法建立語言模型,也可將標(biāo)題信息和摘要信息通過各種建模方法一起建立語言模型,用來對后續(xù)的詞進(jìn)行分析處理。然后將P值作為該詞j的比較值與該詞j 一起作為數(shù)據(jù)處理得到語言模型,并存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。然后,即可利用強(qiáng)相關(guān)分類特征集合中的特征信息對所初始述搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與相應(yīng)分類的相關(guān)性分析結(jié)果。優(yōu)選的,利用強(qiáng)相關(guān)分類特征集合中的特征信息對所初始述搜索結(jié)果進(jìn)行匹配分析包括步驟S30,將所述第一初始搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合中的各網(wǎng)址進(jìn)行匹配,并統(tǒng)計(jì)第一初始搜索結(jié)果中網(wǎng)址與各強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)。將用戶端輸入的查詢詞進(jìn)行分詞等操作,獲取到第一初始搜索結(jié)果中各與該分詞相關(guān)的各網(wǎng)頁及其內(nèi)容后,可提取各條結(jié)果逐條與各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合中的網(wǎng)址進(jìn)行匹配,當(dāng)對某一個強(qiáng)相關(guān)分類特征集合匹配上一個,即記錄與該強(qiáng)相關(guān)分類特征集合匹配上一次,然后統(tǒng)計(jì)與該強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)。比如第一初始搜索結(jié)果中的各URL中出現(xiàn)了 50個與www. sogou. com相關(guān)的鏈接,而軟件類的強(qiáng)相關(guān)分類特征集合中包括了 www. sogou. com這個網(wǎng)址或者說存入了與前述相同www. sogou. com相關(guān)的鏈接,那么第一初始搜索結(jié)果中有50個與www. sogou. com相關(guān)的條目匹配成功,或者直接將各相關(guān)鏈接與所述集合中的鏈接進(jìn)行完整匹配,如果都匹配上,則可統(tǒng)計(jì)該查詢詞的第一初始搜索結(jié)果與軟件分類的強(qiáng)相關(guān)分類特征集合網(wǎng)址的匹配次數(shù)為50次。即可統(tǒng)計(jì)搜索結(jié)果與該強(qiáng)相關(guān)分類特征集合中網(wǎng)址的匹配次數(shù)為50次。和/或,步驟S40,將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。在搜索引擎將用戶端輸入的查詢詞進(jìn)行分詞等操作,獲取到第一初始搜索結(jié)果中與該分詞相關(guān)的各網(wǎng)頁及其內(nèi)容后,可提取各網(wǎng)頁的網(wǎng)頁內(nèi)容中的文本信息的詞與各相關(guān)分類特征模型的語言模型中的詞進(jìn)行匹配分析。在前述例子中,對于軟件類強(qiáng)相關(guān)分類特征集合的語言模型中包括了軟件類各詞的比較值,比如“搜狗”0. 9分,“瀏覽器”0. 7分,“下載”0. 6分,如果獲取到第一初始搜索結(jié)果中某條目的文本信息含有“搜狗”、“瀏覽器”和“下載”,那么將該條目的文本信息與所述語言模型中的詞進(jìn)行匹配分析,得到該條目對應(yīng)的文本信息的總比較值為2. 2分。在本申請中,一般對于一個網(wǎng)頁的文本信息,分析該文本信息的總比較值。另外,對于網(wǎng)頁來說,本申請優(yōu)選的獲取網(wǎng)頁的標(biāo)題信息、和/或摘要信息作為文本信息,根據(jù)語言模型的建立情況,可單獨(dú)將標(biāo)題信息與標(biāo)題語言模型進(jìn)行匹配,或單獨(dú)將摘要信息與摘要語言模型進(jìn)行匹配,也可將標(biāo)題信息和摘要信息作為整體與整體的語言模型進(jìn)行匹配。另外,還包括步驟S50,當(dāng)所述查詢詞與各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果均不符合判定條件時,則依據(jù)各分類對應(yīng)的分類詞模型判斷所述查詢詞是否屬于相應(yīng)分類;所述各分類對應(yīng)的分類詞模型基于各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建,所述分類詞模型用于判斷所述查詢詞是否屬于相應(yīng)分類。比如,如果存在10個行業(yè)類別對應(yīng)的強(qiáng)相關(guān)分類特征集合,即10個強(qiáng)相關(guān)分類特征集合。對于用戶輸入的查詢詞A,通過前述步驟,查詢詞A與所述10個強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果均不符合判定條件時。比如查詢詞A對應(yīng)的搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合的網(wǎng)址的匹配總次數(shù)均小于等于第一強(qiáng)相關(guān)閾值,且查詢詞A對應(yīng)的搜索結(jié)果中的文本信息與每個強(qiáng)相關(guān)分類特征集合的語言模型的綜合匹配結(jié)果均小于等于第二強(qiáng)相關(guān)閾值,那么就無法判斷查詢詞A與哪一個強(qiáng)相關(guān)分類特征集合強(qiáng)相關(guān),即查詢詞A近似于中性詞,不屬于多數(shù)行業(yè)類別,此時就可采用本步驟進(jìn)行輔助判斷。本申請可預(yù)先根據(jù)獲取的分類詞,比如行業(yè)分類詞,通過比如n-gram(大詞匯連續(xù)語音識別中常用的一種語言模型),貝葉斯,crf (條件隨機(jī)域模型)等方法構(gòu)建分類詞模型。然后基于該分類詞模型判斷查詢詞與相應(yīng)分類的關(guān)系。比如當(dāng)前建立了一個軟件類別分類詞模型,對于查詢詞“海豚瀏覽器下載”,由于某些原因搜索結(jié)果并不是很準(zhǔn)確,即所述相關(guān)性結(jié)果不符合判定條件時,本申請可以以已知的分類詞來建立分類詞模型,來預(yù)測這個詞是否是這個行業(yè)類別的查詢,比如“瀏覽器”在正例(即軟件分類詞集合)中出現(xiàn)的概率是O. 09,負(fù)例(非軟件分類詞集合)中是O. 02,“海豚”在正例中的概率是O. 04, 在負(fù)例中是O. 08,“下載”在正例中的概率是O. I,在負(fù)例中是O. 04,由此我們可以計(jì)算出 (O. 09*0. 04*0. 1)/(0. 02*0. 08*0. 04) = 5. 625,大于我們規(guī)定的第二強(qiáng)相關(guān)閾值,可以得出這個查詢詞很有很大的概率就是軟件行業(yè)查詢詞,所以可以給第一初始搜索結(jié)果中的軟件類網(wǎng)站加權(quán),來彌補(bǔ)搜索結(jié)果不準(zhǔn)確的問題或者說相關(guān)性結(jié)果不符合判定條件時的問題。其中,對于分類詞模型的構(gòu)建,是基于對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建,比如軟件類別的分類詞模型,那么通過前述步驟建立軟件類別強(qiáng)相關(guān)分類特征集合時, 即獲得了該類別的語言模型,該語言模型中包括了詞及該詞的比較值,那么該語言模型中大于一定閾值的詞即可作為軟件類別的分類詞。更進(jìn)一步的,基于將已知的分類詞作為種子,通過迭代的方式獲取更完善的分類詞優(yōu)選的,所述分類詞可通過以下步驟獲取步驟S51,當(dāng)某類別對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型中某詞的比較值大于第四強(qiáng)相關(guān)閾值時,將該詞作為分類詞,并將該詞再次在搜索引擎中進(jìn)行搜索,獲取與該詞相關(guān)的搜索結(jié)果。比如前述說明中對于語言模型中,各詞具有一個比較值,當(dāng)詞i的比較值大于一定閾值時,即可將其作為相應(yīng)分類的分類詞加入相應(yīng)分類的分類詞集合。步驟S52,將所述搜索結(jié)果中文本信息中除查詢詞外未出現(xiàn)過的新詞與所述強(qiáng)相關(guān)分類特征集合中的語言模型進(jìn)行綜合匹配,當(dāng)匹配得到的計(jì)算結(jié)果大于第四強(qiáng)相關(guān)閾值時,將所述新詞加入分類詞。將該分類詞集合中的分類詞逐個打入本系統(tǒng)的搜索引擎中,通過前述步驟獲取各網(wǎng)頁的文本信息,將該文本信息的詞通過前述語言模型進(jìn)行匹配分析,對于比較值繼續(xù)大于所述第四強(qiáng)相關(guān)閾值的新詞,將該新詞作為分類詞加入分類詞集合,從而建立分類詞模型。本申請也可將所述分類詞集合中的分類詞作為種子詞打入通用搜索引擎,獲取對應(yīng)搜索結(jié)果集合中的特征信息,并再隨機(jī)選取一批隨機(jī)詞打入通用搜索引擎獲取搜索結(jié)果集合中的特征信息;然后再進(jìn)行步驟S20對上述兩份搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率進(jìn)行比較分析,從而形成迭代過程。如此迭代處理,可對強(qiáng)相關(guān)分類特征集合進(jìn)行進(jìn)一步優(yōu)化處理,并且同時也可優(yōu)化分類詞模型。本過程利用搜索結(jié)果獲取到的符合閾值條件的分類詞,然后再用該結(jié)果中的分類詞進(jìn)行迭代獲取,可保證分類詞的客觀性和及時性,從而使基于該分類詞集合建立的分類詞模型更加準(zhǔn)確。步驟130,當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并優(yōu)先展示給用戶端。當(dāng)判斷出查詢詞與某個分類強(qiáng)相關(guān),即判斷出用戶的意圖時候,我們可以更針對性的去滿足用戶的需求,比如可以提升該類別的強(qiáng)相關(guān)網(wǎng)站的權(quán)重,或者對該類別的強(qiáng)相關(guān)網(wǎng)站進(jìn)行聚合,或者把該類別的強(qiáng)相關(guān)網(wǎng)站明確的標(biāo)識出來,或者解析該類別的強(qiáng)相關(guān)網(wǎng)站內(nèi)容并做結(jié)構(gòu)化展示等。相應(yīng)的,當(dāng)相關(guān)性結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端時包括步驟S31,當(dāng)所述第一初始搜索結(jié)果中網(wǎng)址與一強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)大于第一強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān)。對于第一初始搜索結(jié)果中各網(wǎng)址與某強(qiáng)相關(guān)分類特征集合中強(qiáng)相關(guān)網(wǎng)址的匹配總次數(shù),當(dāng)該次數(shù)大于第一強(qiáng)相關(guān)閾值,即可確認(rèn)當(dāng)前查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)類別強(qiáng)相關(guān),即與相應(yīng)分類強(qiáng)相關(guān)。其中,所述第一強(qiáng)相關(guān)閾值可根據(jù)實(shí)際情況設(shè)置。和/或,步驟S41,當(dāng)所述綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與該分類強(qiáng)相關(guān)。比如前述的文本信息匹配的總比較值大于第二強(qiáng)相關(guān)閾值時,也可確認(rèn)當(dāng)前查詢詞與相應(yīng)類別強(qiáng)相關(guān)。其中,所述第二強(qiáng)相關(guān)閾值可根據(jù)實(shí)際情況設(shè)置。優(yōu)選的,所述從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端包括將第一初始搜索結(jié)果的各條結(jié)果逐條與強(qiáng)相關(guān)分類集合進(jìn)行匹配,當(dāng)一條搜索結(jié)果的網(wǎng)址屬于強(qiáng)相關(guān)分類特征集合中網(wǎng)址列表,和/或,所述一條搜索結(jié)果的綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時則從第一初始搜索結(jié)果中提取該搜索結(jié)果;將提取出的各條搜索結(jié)果優(yōu)先展示給用戶端。比如,對于用戶輸入的“搜狗瀏覽器下載”,將該查詢詞對應(yīng)的第一初始搜索結(jié)果中的各網(wǎng)址與軟件類的強(qiáng)相關(guān)分類特征集合的各網(wǎng)址進(jìn)行匹配,從第一初始搜索結(jié)果中將匹配成功的網(wǎng)址對應(yīng)的搜索結(jié)果進(jìn)行提取,并將提取得到的搜索結(jié)果優(yōu)先展示給客戶端。比如,對于查詢詞A,如果其搜索結(jié)果有100條,那么這些搜索結(jié)果逐條與相應(yīng)強(qiáng)相關(guān)分類特征集合進(jìn)行匹配,匹配成功則將其進(jìn)行標(biāo)記或者直接提取。進(jìn)一步的說,逐條將搜索結(jié)果的網(wǎng)址和相應(yīng)強(qiáng)相關(guān)分類特征集合的網(wǎng)址,和/或逐條將搜索結(jié)果的詞和相應(yīng)強(qiáng)相關(guān)分類特征集合的語言模型進(jìn)行綜合匹配,當(dāng)匹配上則標(biāo)記或者直接提取該條搜索結(jié)果,然后將匹配上相應(yīng)強(qiáng)相關(guān)分類特征集合的搜索結(jié)果優(yōu)先展示給用戶端,從而保證了查詢詞對應(yīng)的搜索結(jié)果中強(qiáng)相關(guān)類別對應(yīng)的搜索結(jié)果被優(yōu)先顯示。對于確認(rèn)與用戶端輸入的查詢詞強(qiáng)相關(guān)的分類,可將第一初始搜索結(jié)果中的相應(yīng)分類的網(wǎng)頁及其內(nèi)容整理展示給用戶端,即分析出用戶的客觀需求后進(jìn)行針對性的展示。需要說明的是,對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本發(fā)明所必須的。參照圖3,其示出了本申請一種搜索系統(tǒng)的結(jié)構(gòu)示意圖,具體可以包括初始搜索模塊310,用于接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果;匹配分析模塊320,用于利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與強(qiáng)相關(guān)分類特征集合中相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;結(jié)果處理模塊330,用于當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端。還包括強(qiáng)相關(guān)分類特征集合獲取模塊340,用于獲取分別包括一行業(yè)類別對應(yīng)的特征信息的強(qiáng)相關(guān)分類特征集合;所述模塊包括特征信息獲取子模塊,用于獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得;處理子模塊,用于將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析得到的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。所述的處理子模塊包括第一處理子單元,用于將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合;和/或,第二處理子單元,用于將所述第二初始搜索結(jié)果集合的文本信息中各詞的出現(xiàn)頻率與所述詞在所述第三初始搜索結(jié)果集合的文本信息中的出現(xiàn)頻率進(jìn)行比較,獲得各詞的比較值;基于所述比較值和相應(yīng)的詞進(jìn)行處理得到語言模型并存入相應(yīng)的強(qiáng)相關(guān)分類特征
口 O優(yōu)選的,所述處理子模塊還包括當(dāng)比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時,將該網(wǎng)址對應(yīng)的文本信息的各詞在第二初始搜索結(jié)果中的出現(xiàn)頻率與所述各詞在第三初始搜索結(jié)果中的出現(xiàn)頻率進(jìn)行比較,當(dāng)比較結(jié)果大于第三強(qiáng)相關(guān)閾值時,則將該網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。優(yōu)選的,所述匹配分析模塊320包括第一分析匹配模塊,用于將所述第一初始搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合中的各網(wǎng)址進(jìn)行匹配,并統(tǒng)計(jì)第一初始搜索結(jié)果中網(wǎng)址與各強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù);和/或,第二分析匹配模塊,用于將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。優(yōu)選的,所述結(jié)果處理模塊330包括第一結(jié)果處理子模塊,用于當(dāng)所述第一初始搜索結(jié)果中網(wǎng)址與一強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)大于第一強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與該分類強(qiáng)相關(guān);和/或,第二結(jié)果處理子模塊當(dāng)所述綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān)。所述結(jié)果處理模塊330還包括第三結(jié)果處理子模塊,當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果不符合判定條件時,則依據(jù)各分類對應(yīng)的分類詞模型判斷所述查詢詞是否屬于相應(yīng)分類;所述各分類對應(yīng)的分類詞模型基于各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建。其中,所述特征信息包括網(wǎng)址和/或文本信息;所述強(qiáng)相關(guān)分類特征集合包括行業(yè)類別對應(yīng)的網(wǎng)址列表和/或語言模型,對應(yīng)記錄所述特征信息。對于系統(tǒng)實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。以上對本申請所提供的一種搜索方法和系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
權(quán)利要求
1.一種搜索方法,其特征在于,包括接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果;利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與各強(qiáng)相關(guān)分類特征集合相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述強(qiáng)相關(guān)分類特征集合分別包括一行業(yè)類別對應(yīng)的特征信息;通過如下步驟獲取,包括獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得;將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析對應(yīng)的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述特征信息包括網(wǎng)址和/或文本信息;所述強(qiáng)相關(guān)分類特征集合包括行業(yè)類別對應(yīng)的網(wǎng)址列表和/或語言模型,對應(yīng)記錄所述特征信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與第三初始搜索結(jié)果集合中各特征信息的出現(xiàn)頻率進(jìn)行比較分析時將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合;和/或,將所述第二初始搜索結(jié)果集合的文本信息中各詞的出現(xiàn)頻率與所述詞在所述第三初始搜索結(jié)果集合的文本信息中的出現(xiàn)頻率進(jìn)行比較,獲得各詞的比較值;基于所述比較值和相應(yīng)的詞進(jìn)行處理得到與初始分類詞集合所在分類相應(yīng)的語言模型并存入相應(yīng)的強(qiáng)相關(guān)分類特征集合。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括當(dāng)所述比較結(jié)果小于等于強(qiáng)需求閾值而大于弱需求閾值時,將該網(wǎng)址對應(yīng)的文本信息的各詞在第二初始搜索結(jié)果中的出現(xiàn)頻率與所述各詞在第三初始搜索結(jié)果中的出現(xiàn)頻率進(jìn)行比較,當(dāng)比較結(jié)果大于第三強(qiáng)相關(guān)閾值時,則將該網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。
6.根據(jù)權(quán)利要求3、4或5所述的方法,其特征在于,利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析時將所述第一初始搜索結(jié)果中的網(wǎng)址與各強(qiáng)相關(guān)分類特征集合中的各網(wǎng)址進(jìn)行匹配,并統(tǒng)計(jì)第一初始搜索結(jié)果中網(wǎng)址與各強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù);和/或,將所述第一初始搜索結(jié)果的文本信息中的詞與各強(qiáng)相關(guān)分類特征集合中的語言模型的詞進(jìn)行綜合匹配。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括當(dāng)所述第一初始搜索結(jié)果中網(wǎng)址與一強(qiáng)相關(guān)分類特征集合匹配上的總次數(shù)大于第一強(qiáng)相關(guān)閾值時,和/或,當(dāng)所述綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值時,則確認(rèn)所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān)。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端包括將第一初始搜索結(jié)果的各條結(jié)果逐條與強(qiáng)相關(guān)分類集合進(jìn)行匹配,當(dāng)一條搜索結(jié)果的網(wǎng)址屬于強(qiáng)相關(guān)分類特征集合中網(wǎng)址列表,和/或,所述搜索結(jié)果的綜合匹配的結(jié)果大于第二強(qiáng)相關(guān)閾值,則從第一初始搜索結(jié)果中提取該搜索結(jié)果;將提取出的各搜索結(jié)果優(yōu)先展示給用戶端。
9.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括當(dāng)所述查詢詞與各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果均不符合判定條件時,則依據(jù)各分類對應(yīng)的分類詞模型判斷所述查詢詞是否屬于相應(yīng)分類;所述各分類對應(yīng)的分類詞模型基于各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的語言模型構(gòu)建。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于所述文本信息包括標(biāo)題信息和/或摘要信息。
11.一種搜索系統(tǒng),其特征在于,包括初始搜索模塊,用于接收用戶端輸入的查詢詞,并獲取對應(yīng)的第一初始搜索結(jié)果;匹配分析模塊,用于利用各分類對應(yīng)的強(qiáng)相關(guān)分類特征集合對所述第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與強(qiáng)相關(guān)分類特征集合中相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合通過通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;結(jié)果處理模塊,用于當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,則所述查詢詞與所述強(qiáng)相關(guān)分類特征集合相應(yīng)的分類強(qiáng)相關(guān),從第一初始搜索結(jié)果中提取所述分類的搜索結(jié)果并展示給用戶端。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,還包括強(qiáng)相關(guān)分類特征集合獲取模塊,用于獲取分別包括一行業(yè)類別對應(yīng)的特征信息的強(qiáng)相關(guān)分類特征集合;所述模塊包括特征信息獲取子模塊,用于獲取第二初始搜索結(jié)果集合中的特征信息和第三初始搜索結(jié)果集合中的特征信息;所述第二初始搜索結(jié)果集合通過將隨機(jī)詞集合輸入通用搜索引擎獲得,所述第三初始搜索結(jié)果集合通過將初始分類詞集合輸入通用搜索引擎獲得;處理子模塊,用于將第二初始搜索結(jié)果集合中的各特征信息的出現(xiàn)頻率與所述特征信息在第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較分析,并將比較分析得到的特征信息存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其特征在于,所述的處理子模塊包括第一處理子單元,用于將第二初始搜索結(jié)果集合中各網(wǎng)址的出現(xiàn)頻率與所述網(wǎng)址在所述第三初始搜索結(jié)果集合中的出現(xiàn)頻率進(jìn)行比較;當(dāng)比較結(jié)果大于強(qiáng)需求閾值時,將所述網(wǎng)址存入與初始分類詞集合所在分類相應(yīng)的強(qiáng)相關(guān)分類特征集合;和/或,第二處理子單元,用于將所述第二初始搜索結(jié)果集合的文本信息中各詞的出現(xiàn)頻率與所述詞在所述第三初始搜索結(jié)果集合的文本信息中的出現(xiàn)頻率進(jìn)行比較,獲得各詞的比較值;基于所述比較值和相應(yīng)的詞進(jìn)行處理得到語言模型并存入相應(yīng)的強(qiáng)相關(guān)分類特征集合ο
全文摘要
本申請?zhí)峁┝艘环N搜索方法和系統(tǒng),涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域。本申請的方法包括利用各強(qiáng)相關(guān)分類特征集合對對應(yīng)用戶的查詢詞的第一初始搜索結(jié)果進(jìn)行匹配分析,獲得所述查詢詞與各強(qiáng)相關(guān)分類特征集合相應(yīng)分類的相關(guān)性分析結(jié)果;所述強(qiáng)相關(guān)分類特征集合由通用搜索引擎對隨機(jī)詞集合的搜索結(jié)果和分類詞集合的搜索結(jié)果進(jìn)行比較處理得到;當(dāng)所述查詢詞與特定分類對應(yīng)的強(qiáng)相關(guān)分類特征集合的相關(guān)性分析結(jié)果符合判定條件時,針對相應(yīng)分類進(jìn)行處理。本申請可便捷的獲取數(shù)據(jù),對于數(shù)據(jù)源沒有量的制約;所述強(qiáng)相關(guān)分類特征集合是基于搜索引擎的客觀結(jié)果的,可更客觀、準(zhǔn)確的對查詢詞分類,從而保證了搜索結(jié)果中強(qiáng)相關(guān)類別對應(yīng)的搜索結(jié)果被優(yōu)先顯示。
文檔編號G06F17/30GK102609539SQ20121003572
公開日2012年7月25日 申請日期2012年2月16日 優(yōu)先權(quán)日2012年2月16日
發(fā)明者張帆 申請人:北京搜狗信息服務(wù)有限公司, 北京搜狗科技發(fā)展有限公司