亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)站分類的方法及系統(tǒng)的制作方法

文檔序號:6472085閱讀:161來源:國知局

專利名稱::網(wǎng)站分類的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及網(wǎng)絡(luò)4支術(shù)領(lǐng)域,尤其涉及一種網(wǎng)站分類的方法及系統(tǒng)。
背景技術(shù)
:搜索引擎運營商需要事先對眾多網(wǎng)站進行分類,以便在用戶輸入關(guān)^:字時,有針對性地從對應(yīng)類型的網(wǎng)站顯示關(guān)鍵字對應(yīng)的信息。參見表i,為網(wǎng)站分類舉例。表i網(wǎng)站類型關(guān)鍵字舉例網(wǎng)站舉例視頻公主小妹在線觀看遍地英雄視頻鉆石王老五全集www.qire.comwww.tudou.comwww.youku.com小說蘭心有期小"i兌玄幻這輩子愛定你www.xxsy.combook.sohu.comhjsm.tom.com軟件office2000文件格式兼容包dos矮人視頻轉(zhuǎn)換軟件download.zol.com.cndl.pconline.com.cnwww.skycn.com財經(jīng)搜狐股票多股行情關(guān)稅減讓易基價值精選stock.business.sohu.comwww.mathfund.comgb.chineseworldnet.com搜索引擎如果能夠預(yù)先對網(wǎng)站進行分類,用戶在搜索時發(fā)給搜索引擎一個特定類型的關(guān)鍵字(例如視頻類查詢詞),搜索引擎可以優(yōu)先到對應(yīng)類型網(wǎng)站(如視頻類網(wǎng)站)中進行檢索,或者將檢索結(jié)果中來自對應(yīng)類型網(wǎng)站(如視頻類網(wǎng)站)的結(jié)果排在前面,以提高搜索的精度。下面介紹現(xiàn)有的網(wǎng)站方類方案如果某一用戶搜索關(guān)^t定字q之后,在搜索結(jié)果中點擊了網(wǎng)站s的網(wǎng)頁,則稱q指向s。所有用戶搜索關(guān)鍵字q之后,在搜索結(jié)果中點擊了網(wǎng)站s的網(wǎng)頁的次數(shù)累積之和,稱為q指向s的次數(shù)?,F(xiàn)有的確定網(wǎng)站是否屬于某一類型網(wǎng)站的方案,是基于關(guān)鍵字的。第一步生成該類型t關(guān)鍵字的集合;第二步為了判斷某個網(wǎng)站s是否屬于類型t,統(tǒng)計指向s的所有關(guān)4建字,計算其中屬于t的關(guān)鍵字的比例。定義"網(wǎng)站s屬于類型t的概率"為p(S—r),則有ycow""")其中,ef是指向網(wǎng)站s的屬于類型t的關(guān)鍵字,②"""《)是e「指向網(wǎng)站s的次數(shù),e,是指向網(wǎng)站s的所有關(guān)鍵字,co"",(2,)是e,指向網(wǎng)站s的次數(shù)。在尸(s—r)達到設(shè)定的閾值時,確定網(wǎng)站s屬于類型t。上述方案存在以下不足(1)由于屬于某類網(wǎng)站的關(guān)鍵字往往是數(shù)目龐大的,因此很難枚舉出某個類型的所有關(guān)鍵字,比如,視頻類關(guān)鍵字可能有無數(shù)個,無法找全,采用某類不全的關(guān)4定字計算出來的p(s—r)會偏小。(2)該方案以關(guān)鍵字分類為前提,而關(guān)鍵字分類本身還是一個尚未得到完善的技術(shù)問題,關(guān)鍵字分類結(jié)果中難以避免含有錯誤,因此造成以此為基礎(chǔ)的網(wǎng)站分類方案不準確。本申請人在申請?zhí)?00710103028.8的專利文件中,7>開了一種網(wǎng)站分類方法,概括而言,該專利的方法就是采用類似上述介紹的以關(guān)鍵字分類為基礎(chǔ)的網(wǎng)站分類方法,因此也存在上述(l)、(2)的不足。
發(fā)明內(nèi)容本發(fā)明提供一種網(wǎng)站分類的方法及系統(tǒng),以解決現(xiàn)有方案分類不準確的問題。為此,本發(fā)明實施例采用如下技術(shù)方案一種網(wǎng)站分類的方法,包括以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)^t字并點擊網(wǎng)址的信息;利用統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;利用待分類網(wǎng)站的向量與種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;根據(jù)相似度大小,確定待分類網(wǎng)站的類型。所述以該關(guān)鍵字集合建立待分類網(wǎng)站的向量的過程為統(tǒng)計所述關(guān)鍵字集合中各關(guān)鍵字分別指向待分類網(wǎng)站的次數(shù);構(gòu)成所述待分類網(wǎng)站的向量,其中,由所述關(guān)鍵字集合中關(guān)鍵字數(shù)量確定向量維度,并將各關(guān)鍵字指向待分類網(wǎng)站的次數(shù)作為各維度的數(shù)值。所述根據(jù)相似度大小確定待分類網(wǎng)站的類型的過程為將所述相似度與預(yù)置的相似度閾值進行比較;如果所述相似度大于或等于相似度閾值,則確定待分類網(wǎng)站的類型為所述種子網(wǎng)站的類型;否則,將待分類網(wǎng)站劃為雜類,或者,將待分類網(wǎng)站的向量與所述關(guān)鍵字集合對應(yīng)的其他種子網(wǎng)站的向量進行相似度計算,確定網(wǎng)站是否同屬于該其他種子網(wǎng)站的類型。優(yōu)選地,所述種子網(wǎng)站為多個,并且,各個種子網(wǎng)站屬于相同類型的網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)4定字集合對應(yīng)各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并采用加權(quán)累加法或平均值法,根據(jù)這多個相似度確定所述待分類網(wǎng)站和種子網(wǎng)站的相似度。7或者,所述種子網(wǎng)站為多個,并且,各個種子網(wǎng)站屬于不同類型的網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)鍵字集合對應(yīng)各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并從這多個相似度中選取出最大值作為所述待分類網(wǎng)站和種子網(wǎng)站的相似度?;蛘撸龇N子網(wǎng)站為多類種子網(wǎng)站集,各類種子網(wǎng)站集包括多個種子網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)鍵字集合對應(yīng)各類種子網(wǎng)站集中各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各類種子網(wǎng)站集中各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并采用加權(quán)累加法或平均值法,根據(jù)這多個相似度確定所述待分類網(wǎng)站和各類種子網(wǎng)站集的相似度;從所述待分類網(wǎng)站和各類種子網(wǎng)站集的相似度中,選取最大值作為所述待分類網(wǎng)站和種子網(wǎng)站的相似度。其中,釆用向量夾角余弦法或者空間坐標距離法計算待分類網(wǎng)站和種子網(wǎng)站的相似度。一種網(wǎng)站分類的系統(tǒng),包括統(tǒng)計單元,用于以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信息;待分類網(wǎng)站控制單元,用于利用所述統(tǒng)計單元獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;種子網(wǎng)站控制單元,用于確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;相似度計算單元,用于利用所述待分類網(wǎng)站控制單元獲得的待分類網(wǎng)站的向量,以及所述種子網(wǎng)站控制單元獲得的種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;判斷單元,用于根據(jù)所述相似度計算單元獲得的相似度大小,確定待分類網(wǎng)站的類型。所述待分類網(wǎng)站控制單元包括關(guān)鍵字集合確定子單元,用于利用所述統(tǒng)計單元獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)^t建字集合;統(tǒng)計子單元,用于統(tǒng)計所述關(guān)鍵字集合中各關(guān)鍵字分別指向待分類網(wǎng)站的次數(shù);向量確定8子單元,用于構(gòu)成所述待分類網(wǎng)站的向量,其中,由所述關(guān)鍵字集合中關(guān)鍵字數(shù)量確定向量維度,并將各關(guān)鍵字指向待分類網(wǎng)站的次數(shù)作為各維度的數(shù)值。所述判斷單元包括比較子單元,用于將所述相似度計算單元獲得的相似度與子貞置的相似度閾1直進^亍比較;類型確定及指示子單元,用于才艮4居所述比較子單元的比較結(jié)果劃分待分類網(wǎng)站的類型如果所述相似度大于或等于相似度閾值,則確定待分類網(wǎng)站的類型為所述種子網(wǎng)站的類型;否則,將待分類網(wǎng)站劃為雜類,或者,指示所述種子網(wǎng)站控制單元確定其他種子網(wǎng)站,并指示所述相似度計算單元計算待分類網(wǎng)站與所述其他種子網(wǎng)站的相似度,確定網(wǎng)站是否同屬于該其他種子網(wǎng)站的類型。對于上述技術(shù)方案的技術(shù)效果分析如下在現(xiàn)有方案中,例如,存在關(guān)鍵字"火箭對爵士比賽"和"青花瓷",其中,"火箭對爵士比賽,,屬于體育類關(guān)鍵字,但用戶搜索之后若想觀看視頻,就會點擊視頻網(wǎng)站,"青花瓷"屬于百科類關(guān)鍵字,但它同時也是一首歌曲的名字,如果用戶目的是看它的MV,也會點擊視頻網(wǎng)站。若釆用現(xiàn)有方案,如果不把這兩個關(guān)鍵字作為視頻類關(guān)鍵字,則指向視頻類網(wǎng)站的視頻類關(guān)鍵字的比例就會偏低。也就是說,由于"火箭對爵士比賽,,不屬于生成該視頻類型T關(guān)鍵字的集合,那么按照現(xiàn)有方案,不會將此關(guān)鍵字計算到T指向視頻網(wǎng)站的次數(shù),繼而導(dǎo)致指向視頻類網(wǎng)站的視頻類關(guān)鍵字的比例偏低。而在本發(fā)明中,不考慮"火箭對爵士比賽"和"青花瓷"本身的關(guān)鍵字類型,只要這樣的關(guān)鍵字指向某類種子網(wǎng)站,且指向待確定的網(wǎng)站,則就可以根據(jù)待分類網(wǎng)站與種子網(wǎng)站的相似度判斷待分類網(wǎng)站的類型??梢?,本發(fā)明與現(xiàn)有方案相比,不依賴關(guān)鍵字分類,而是通過與確定類型的種子網(wǎng)站的相似度確定網(wǎng)站類型,實現(xiàn)更加準確的網(wǎng)站分類。圖1為本發(fā)明網(wǎng)站分類方法流程圖2為本發(fā)明網(wǎng)站分類系統(tǒng)結(jié)構(gòu)示意圖。具體實施例方式本發(fā)明中,一個網(wǎng)站類型采用點擊了這個網(wǎng)站的關(guān)鍵字組成的向量表示,首先枚舉出一個或幾個典型的已知類型的種子網(wǎng)站,然后,再計算待分類網(wǎng)站與種子網(wǎng)站的向量相似度,如果相似度足夠高,則確定該網(wǎng)站屬于種子網(wǎng)站相同類型的網(wǎng)站。概括而言,本發(fā)明提供的網(wǎng)站分類方法包括以下步驟步驟l:以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信息;步驟2:利用統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;步驟3:確定已知類型的種子網(wǎng)站,并以所述關(guān)4定字集合建立所述種子網(wǎng)站的向量;步驟4:利用待分類網(wǎng)站的向量與種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;步驟5:根據(jù)相似度大小,確定待分類網(wǎng)站的類型。其中,關(guān)鍵字集合至少包括一個關(guān)鍵字,一般包括多個關(guān)鍵字,由此計算的向量才能夠更加全面表示網(wǎng)站的類型。下面結(jié)合附圖,對本發(fā)明實施例進行詳細介紹。參見圖1,為本發(fā)明網(wǎng)站分類方法流程圖,包括S101:以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信息;對于某段時間內(nèi),統(tǒng)計的原始數(shù)據(jù)包括用戶搜索的關(guān)鍵字,以及最后點擊的網(wǎng)站地址,參見表2,為搜索的關(guān)鍵字與點擊的網(wǎng)址的統(tǒng)計示例。表2<table>tableseeoriginaldocumentpage11</column></row><table>通過表2的原始數(shù)據(jù),可統(tǒng)計出一段時間內(nèi)點擊各個網(wǎng)站的關(guān)鍵字及其搜索次數(shù),參見表3。表3<table>tableseeoriginaldocumentpage11</column></row><table>S102:利用S101統(tǒng)計信息,采用向量表示網(wǎng)站;用向量^表示網(wǎng)站S,^的每一維度是指向S的關(guān)鍵字Q,維度的數(shù)值是Q指向S的次數(shù)。假設(shè)共有四個關(guān)鍵字Q1、Q2、Q3和Q4;假設(shè)網(wǎng)站S#皮Ql指向1次,#皮Q2指向0次,凈皮Q3指向3次,凈皮Q4指向2次;則S對應(yīng)的向量為rs={l,0,3,2}。S103:確定種子網(wǎng)站及其向量;對于一個類別,枚舉一個或多個種子網(wǎng)站,并計算出上述四個關(guān)鍵字Ql、Q2、Q3和Q4對應(yīng)該種子網(wǎng)站的向量。^i殳確定一個種子網(wǎng)站M,其向量為S104:利用待分類網(wǎng)站的向量與種子網(wǎng)站的向量,計算待分類網(wǎng)站與種子網(wǎng)站的相似度;在待分類網(wǎng)站S和種子網(wǎng)站M的向量都已知的情況下,可利用向量夾角余弦或者空間坐標距離等方法,計算出二者的相似度。上述相似度計算方法都是成熟的算法,此處不多作介紹。下面以向量夾角余弦為例,計算網(wǎng)站S和M之間的相似度若網(wǎng)站S的向量為^=(a,,a2,a3,...,a),種子網(wǎng)站M的向量為7M=(/73,...,6),則網(wǎng)站S和M之間的相似度丄^為S'M+a22十…+《x》j2+622+...+62S105:根據(jù)待分類網(wǎng)站和種子網(wǎng)站的相似度,判斷待分類網(wǎng)站的類型。如果待分類網(wǎng)站S和種子網(wǎng)站的相似度丄^足夠大,例如,大于或等于預(yù)置的相似度閾值,則可確定網(wǎng)站S是與種子網(wǎng)站M類型相同的網(wǎng)站,比如,如果種子網(wǎng)站M為#見頻網(wǎng)站,則可確定S也為一見頻類網(wǎng)站。如果相似度丄^小于預(yù)置的相似度閾值,則可進一步計算S與其他類型的種子網(wǎng)站的相似度、并判斷是否與其他種子網(wǎng)站類型相同,或者,直接將網(wǎng)站S劃定為雜類網(wǎng)站,所謂雜類網(wǎng)站即是除一般類型網(wǎng)站之外的類型不確定網(wǎng)站。本發(fā)明與現(xiàn)有方法相比,不依賴關(guān)鍵字分類,而是通過與確定類型的種子網(wǎng)站的相似度確定網(wǎng)站類型,實現(xiàn)更加準確的網(wǎng)站分類。例如,存在關(guān)鍵字"火箭對爵士比賽,,和"青花瓷",其中,"火箭對爵士比賽"屬于體育類關(guān)鍵字,但用戶搜索之后若想觀看視頻,就會點擊視頻網(wǎng)站,"青花瓷"屬于百科類關(guān)鍵字,但它同時也是一首歌曲的名字,如果用戶目的是看它的MV,也會點擊視頻網(wǎng)站。如果采用現(xiàn)有方案,如果不把這兩個關(guān)鍵字作為視頻類關(guān)鍵字,則指向視頻類網(wǎng)站的視頻類關(guān)鍵字的比例就會偏低。也就是說,由于"火箭對爵士比賽,,不屬于生成該視頻類型T關(guān)鍵字的集合,那么按照現(xiàn)有方案,不會將此關(guān)鍵字計算到T指向視頻網(wǎng)站的次數(shù),繼而導(dǎo)致指向視頻類網(wǎng)站的視頻類關(guān)鍵字的比例偏低。而在本發(fā)明中,不考慮"火箭對爵士比賽,,和"青花瓷,,本身的關(guān)鍵字類型,只要這樣的關(guān)鍵字指向某類種子網(wǎng)站,且指向待確定的網(wǎng)站,則就可以根據(jù)待分類網(wǎng)站與種子網(wǎng)站的相似度確定待分類網(wǎng)站的類型。進一步而言,一個關(guān)鍵字可以指向若干個類型的網(wǎng)站,計算網(wǎng)站A與網(wǎng)站B的相似度時,僅考慮關(guān)鍵字指向網(wǎng)站A和B的次數(shù),而不考慮關(guān)鍵字指向其他網(wǎng)站的次數(shù),例如四個關(guān)鍵字,前三個僅是視頻關(guān)鍵字,第四個既是視頻類也是體育類關(guān)鍵字,網(wǎng)站A對應(yīng)的向量是(100,100,100,1),網(wǎng)站B對應(yīng)的向量是(200,200,200,2),網(wǎng)站C對應(yīng)的向量是(O,1,1,100),由此,網(wǎng)站A和B的相似度為1,完全相關(guān),如果網(wǎng)站B為視頻類種子網(wǎng)站,即可確定網(wǎng)站A也是視頻類網(wǎng)站,網(wǎng)站A和網(wǎng)站B的相似度與網(wǎng)站C無關(guān)。由此可以看出,跨類別的關(guān)鍵字(第四個關(guān)鍵字)或者不易區(qū)分類別的關(guān)鍵字,對于本發(fā)明不會帶來負面影響。下面介紹應(yīng)用本發(fā)明的兩個具體實例。如前所述,本發(fā)明主要是計算待分類網(wǎng)站與某類型種子網(wǎng)站之間的相似度,從而確定網(wǎng)站類型,在具體應(yīng)用中,可依據(jù)同一類型的多個種子網(wǎng)站,以及,不同類型的多個種子網(wǎng)站,來確定網(wǎng)站類型。第一實例對于同屬某類型的多個網(wǎng)站,其側(cè)重點也有所不同,因此被相同關(guān)鍵字指向的概率也不盡相同。例如,同屬于視頻類的多個網(wǎng)站,有的側(cè)重電影視頻和電視劇視頻,有的側(cè)重歌曲MV,有的則側(cè)重時事新聞的視頻,因此,當用戶輸入某個視頻關(guān)鍵字時,各個視頻網(wǎng)站被用戶點擊的概率是不同的,假如用戶搜索一個典型的影視名稱關(guān)鍵字,則該關(guān)鍵字指向側(cè)重電影視頻的網(wǎng)站的概率就最高。因此,在執(zhí)行S103步驟時,可以確定同屬該類型的多個網(wǎng)站作為種子網(wǎng)站,并計算待分類網(wǎng)站與各種子網(wǎng)站的相似度,最終確定網(wǎng)站類型。參見表4,為第一實例表格,其中包括同屬某類A的多個種子網(wǎng)站與待分類網(wǎng)站X的相似度關(guān)系。<table>tableseeoriginaldocumentpage14</column></row><table>假設(shè)存在多個同屬類型a的種子網(wǎng)站4、4.....4,在采用某個關(guān)鍵字集合計算待分類網(wǎng)站x與種子網(wǎng)站的相似度時,分別計算網(wǎng)站x與種子網(wǎng)站4、4、…、4的相似度丄K4A、…、zXA,最后,由相似度z^、…、丄n按照比例計算出網(wǎng)站x與類型a網(wǎng)站的相似度丄n,即采用加權(quán)累加法乂a確定丄丄U="A,4+"2丄^2十…+""丄義A其中,"。%.....^均為大于等于0、小于等于1的數(shù)值,并且%+2++=1。具體各a、a,、…、a"的取^f直可以才艮4居對應(yīng)網(wǎng)站4、4、…、4的知名度或者歷史被點擊率確定。最簡單的一種做法,直接采用平均值法確定丄^:可見,第一實例采用多個同屬類型的種子網(wǎng)站,較僅采用一個種子網(wǎng)站判斷待分類網(wǎng)站類型的方案,能夠進一步提高網(wǎng)站分類的精度。第二實例在根據(jù)某類種子網(wǎng)站判斷待分類網(wǎng)站類型時,有可能存在待分類網(wǎng)站與某類種子網(wǎng)站相似度較小的情況,從而導(dǎo)致無法將待分類網(wǎng)站劃分為該類種子網(wǎng)站的范疇。如果此時僅有一個類型的種子網(wǎng)站,就難以明確待分類網(wǎng)站的類型,因此,可枚舉多個類型的網(wǎng)站作為種子網(wǎng)站。參見表5,為第二實例表格,其中包括屬于不同某類的多個種子網(wǎng)站與待分類網(wǎng)站X的相似度關(guān)系。表5<table>tableseeoriginaldocumentpage15</column></row><table>假設(shè)存在多個屬于不同類型的種子網(wǎng)站A、B.....W,在采用某個關(guān)鍵字集合計算待分類網(wǎng)站X與種子網(wǎng)站的相似度時,分別計算網(wǎng)站X與種子網(wǎng)站A、B、…、W的相似度丄w、i^B、…、4,『,最后,通過比較相似度Z^、4,,.....、w大小,確定網(wǎng)站X為相似度最大值對應(yīng)的類型。假設(shè)網(wǎng)站X與類型I的種子網(wǎng)站相似度最大則將網(wǎng)站X與類型I種子網(wǎng)站的相似度作為與相似度作為最終的相似度,與預(yù)置的相似度閾值進行比較,如果大于或等于相似度閾值,則可確定網(wǎng)站X是屬于類型I的網(wǎng)站??梢姡诙嵗ㄟ^枚舉多個類型的種子網(wǎng)站,可判斷出待分類網(wǎng)站與哪類種子網(wǎng)站相似度更高,從而更加準確地劃分網(wǎng)站類型。另外,第一實例與第二實例的方法可結(jié)合應(yīng)用,即,同時枚舉出多個類型的種子網(wǎng)站集,每類種子網(wǎng)站集又包括多個種子網(wǎng)站,在計算待分類網(wǎng)站與種子網(wǎng)站相似度時,首先釆用第一實例的方法,計算出各類種子網(wǎng)站集與待分類網(wǎng)站的相似度,然后再通過第二實例的方法,選取出相似度最大的種子網(wǎng)站集,將此相似度與預(yù)置的相似度閾值進行比較,從而確定網(wǎng)站類型。與上述方法相對應(yīng),本發(fā)明還提供一種網(wǎng)站分類系統(tǒng),該系統(tǒng)可由軟件、硬件或軟硬件結(jié)合實現(xiàn),在實際應(yīng)用中,該系統(tǒng)可存在于搜索引擎的服務(wù)器中。參見圖2,為本發(fā)明提供的系統(tǒng)內(nèi)部結(jié)構(gòu)示意圖,該系統(tǒng)包括統(tǒng)計單元201、待分類網(wǎng)站控制單元202、種子網(wǎng)站控制單元203、相似度計算單元204以及判斷單元205,其中統(tǒng)計單元201,用于以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信自待分類網(wǎng)站控制單元202,用于利用統(tǒng)計單元201獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;種子網(wǎng)站控制單元203,用于確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;相似度計算單元204,用于利用待分類網(wǎng)站控制單元202獲得的待分類網(wǎng)站的向量,以及種子網(wǎng)站控制單元203獲得的種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;判斷單元205,用于根據(jù)相似度計算單元204獲得的相似度大小,確定待分類網(wǎng)站的類型。優(yōu)選地,待分類網(wǎng)站控制單元202包括關(guān)鍵字集合確定子單元2021,用于利用統(tǒng)計單元201獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合;統(tǒng)計子單元2022,用于統(tǒng)計所述關(guān)鍵字集合中各關(guān)鍵字分別指向待分類網(wǎng)站的次it;向量確定子單元2023,用于構(gòu)成所述待分類網(wǎng)站的向量,其中,由所述關(guān)鍵字集合中關(guān)鍵字數(shù)量確定向量維度,并將各關(guān)鍵字指向待分類網(wǎng)站的次數(shù)作為各維度的數(shù)值。優(yōu)選地,判斷單元205包括比較子單元2051,用于將相似度計算單元204獲得的相似度與預(yù)置的相似度閾值進行比較;16類型確定及指示子單元2052,用于根據(jù)比較子單元2051的比較結(jié)果劃分待分類網(wǎng)站的類型如果所述相似度大于或等于相似度閾值,則確定待分類網(wǎng)站的類型為所述種子網(wǎng)站的類型;否則,將待分類網(wǎng)站劃為雜類,或者,指示種子網(wǎng)站控制單元203確定其他種子網(wǎng)站,并指示相似度計算單元204計算待分類網(wǎng)站與所述其他種子網(wǎng)站的相似度,確定網(wǎng)站是否同屬于該其他種子網(wǎng)站的類型。另外,本發(fā)明提供的系統(tǒng)可以采用上述介紹的第一實例或/和第二實例方式進^f亍工作,即,可通過種子網(wǎng)站控制單元203設(shè)置多個屬于同一類型的種子網(wǎng)站,并分別計算各種子網(wǎng)站的向量;通過相似度計算單元204分別計算待分類網(wǎng)站與各種子網(wǎng)站的相似度,最后根據(jù)這多個相似度,采用加權(quán)累加法或取平均值法,計算出待分類網(wǎng)站與種子網(wǎng)站的相似度。或者,可通過種子網(wǎng)站控制單元203設(shè)置多個屬于不同類型的種子網(wǎng)站,并分別計算各類種子網(wǎng)站的向量;通過相似度計算單元204分別計算待分類網(wǎng)站與各類種子網(wǎng)站的相似度,最后從這多個相似度選取出最大值,作為待分類網(wǎng)站與種子網(wǎng)站的相似度。或者,可通過種子網(wǎng)站控制單元203設(shè)置多類種子網(wǎng)站集,其中各類種子網(wǎng)站集包括多個種子網(wǎng)站,并計算各類種子網(wǎng)站集中各個種子網(wǎng)站的向量;通過相似度計算單元204分別利用待分類網(wǎng)站的向量與各類種子網(wǎng)站集中各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并采用加權(quán)累加法或平均值法,根據(jù)這多個相似度確定所述待分類網(wǎng)站和各類種子網(wǎng)站集的相似度,并從待分類網(wǎng)站和各類種子網(wǎng)站集的相似度中,選取最大值作為待分類網(wǎng)站和種子網(wǎng)站的相似度。本發(fā)明與現(xiàn)有方案相比,不依賴關(guān)鍵字分類,而是通過與確定類型的種子網(wǎng)站的相似度確定網(wǎng)站類型,可實現(xiàn)更加準確的網(wǎng)站分類。本領(lǐng)域普通技術(shù)人員可以理解,實現(xiàn)上述實施例的方法的過程可以通過程序指令相關(guān)的硬件來完成,所述的程序可以存儲于可讀取存儲介質(zhì)中,該程序在執(zhí)行時執(zhí)行上述方法中的對應(yīng)步驟。所述的存儲介質(zhì)可以如ROM/RAM、磁碟、光盤等。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當指出,對于本
技術(shù)領(lǐng)域
的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng)視為本發(fā)明的保護范圍。權(quán)利要求1、一種網(wǎng)站分類的方法,其特征在于,包括以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信息;利用統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;利用待分類網(wǎng)站的向量與種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;根據(jù)相似度大小,確定待分類網(wǎng)站的類型。2、根據(jù)權(quán)利要求l所述方法,其特征在于,所述以該關(guān)鍵字集合建立待分類網(wǎng)站的向量的過程為統(tǒng)計所述關(guān)鍵字集合中各關(guān)鍵字分別指向待分類網(wǎng)站的次數(shù);構(gòu)成所述待分類網(wǎng)站的向量,其中,由所述關(guān)鍵字集合中關(guān)鍵字數(shù)量確定向量維度,并將各關(guān)鍵字指向待分類網(wǎng)站的次數(shù)作為各維度的數(shù)值。3、根據(jù)權(quán)利要求l所述方法,其特征在于,所述根據(jù)相似度大小確定待分類網(wǎng)站的類型的過程為將所述相似度與預(yù)置的相似度闊值進行比較;如果所述相似度大于或等于相似度閾值,則確定待分類網(wǎng)站的類型為所述種子網(wǎng)站的類型;否則,將待分類網(wǎng)站劃為雜類,或者,將待分類網(wǎng)站的向量與所述關(guān)鍵字集合對應(yīng)的其他種子網(wǎng)站的向量進行相似度計算,確定網(wǎng)站是否同屬于該其他種子網(wǎng)站的類型。4、根據(jù)權(quán)利要求l所述方法,其特征在于,所述種子網(wǎng)站為多個,并且,各個種子網(wǎng)站屬于相同類型的網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)鍵字集合對應(yīng)各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并采用加權(quán)累加法或平均值法,根據(jù)這多個相似度確定所述待分類網(wǎng)站和種子網(wǎng)站的相似度。5、根據(jù)權(quán)利要求l所述方法,其特征在于,所述種子網(wǎng)站為多個,并且,各個種子網(wǎng)站屬于不同類型的網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)鍵字集合對應(yīng)各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并從這多個相似度中選取出最大值作為所述待分類網(wǎng)站和種子網(wǎng)站的相似度。6、根據(jù)權(quán)利要求l所述方法,其特征在于,所述種子網(wǎng)站為多類種子網(wǎng)站集,各類種子網(wǎng)站集包括多個種子網(wǎng)站;所述確定關(guān)鍵字集合對應(yīng)于種子網(wǎng)站的向量,是指分別計算所述關(guān)鍵字集合對應(yīng)各類種子網(wǎng)站集中各個種子網(wǎng)站的向量;所述計算待分類網(wǎng)站和種子網(wǎng)站的相似度,是指分別利用待分類網(wǎng)站的向量與各類種子網(wǎng)站集中各個種子網(wǎng)站的向量,計算待分類網(wǎng)站與各個種子網(wǎng)站的相似度,并采用加權(quán)累加法或平均值法,根據(jù)這多個相似度確定所述待分類網(wǎng)站和各類種子網(wǎng)站集的相似度;從所述待分類網(wǎng)站和各類種子網(wǎng)站集的相似度中,選取最大值作為所述待分類網(wǎng)站和種子網(wǎng)站的相似度。7、根據(jù)權(quán)利要求1至6任一項所述方法,其特征在于,采用向量夾角余弦法或者空間坐標距離法計算待分類網(wǎng)站和種子網(wǎng)站的相似度。8、一種網(wǎng)站分類的系統(tǒng),其特征在于,包括統(tǒng)計單元,用于以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)^t字并點擊網(wǎng)址的信息;待分類網(wǎng)站控制單元,用于利用所述統(tǒng)計單元獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;種子網(wǎng)站控制單元,用于確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;相似度計算單元,用于利用所述待分類網(wǎng)站控制單元獲得的待分類網(wǎng)站的向量,以及所述種子網(wǎng)站控制單元獲得的種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;判斷單元,用于根據(jù)所述相似度計算單元獲得的相似度大小,確定待分類網(wǎng)站的類型。9、根據(jù)權(quán)利要求8所述系統(tǒng),其特征在于,所述待分類網(wǎng)站控制單元包括關(guān)^:字集合確定子單元,用于利用所述統(tǒng)計單元獲得的統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合;統(tǒng)計子單元,用于統(tǒng)計所述關(guān)鍵字集合中各關(guān)鍵字分別指向待分類網(wǎng)站的次凄大;向量確定子單元,用于構(gòu)成所述待分類網(wǎng)站的向量,其中,由所述關(guān)4建字集合中關(guān)鍵字數(shù)量確定向量維度,并將各關(guān)鍵字指向待分類網(wǎng)站的次數(shù)作為各維度的數(shù)值。10、根據(jù)權(quán)利要求8所述系統(tǒng),其特征在于,所述判斷單元包括比較子單元,用于將所述相似度計算單元獲得的相似度與預(yù)置的相似度閾值進行比較;類型確定及指示子單元,用于根據(jù)所述比較子單元的比較結(jié)果劃分待分類網(wǎng)站的類型如果所述相似度大于或等于相似度閾值,則確定待分類網(wǎng)站的類型為所述種子網(wǎng)站的類型;否則,將待分類網(wǎng)站劃為雜類,或者,指示所述種子網(wǎng)站控制單元確定其他種子網(wǎng)站,并指示所述相似度計算單元計算待分類網(wǎng)站與所述其他種子網(wǎng)站的相似度,確定網(wǎng)站是否同屬于該其他種子網(wǎng)站的類型。全文摘要本發(fā)明公開了一種網(wǎng)站分類方法及系統(tǒng),其中的方法包括以網(wǎng)站為單位,統(tǒng)計用戶搜索關(guān)鍵字并點擊網(wǎng)址的信息;利用統(tǒng)計信息,確定指向待分類網(wǎng)站的關(guān)鍵字集合,并以該關(guān)鍵字集合建立待分類網(wǎng)站的向量;確定已知類型的種子網(wǎng)站,并以所述關(guān)鍵字集合建立所述種子網(wǎng)站的向量;利用待分類網(wǎng)站的向量與種子網(wǎng)站的向量,計算待分類網(wǎng)站和種子網(wǎng)站的相似度;根據(jù)相似度大小,確定待分類網(wǎng)站的類型。本發(fā)明與現(xiàn)有方法相比,不依賴關(guān)鍵字分類,而是通過與確定類型的種子網(wǎng)站的相似度確定網(wǎng)站類型,可實現(xiàn)更加準確的網(wǎng)站分類。文檔編號G06F17/30GK101458713SQ200810246669公開日2009年6月17日申請日期2008年12月29日優(yōu)先權(quán)日2008年12月29日發(fā)明者勇王申請人:北京搜狗科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1