亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

確定站點的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備的制作方法

文檔序號:6423734閱讀:419來源:國知局
專利名稱:確定站點的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種確定站點對應(yīng)的領(lǐng)域信息的方法、系統(tǒng)及設(shè)備,以及對站點與站點之間、站點與頁面之間相關(guān)性進行判定的方法、系統(tǒng)及設(shè)備。
背景技術(shù)
在信息搜索技術(shù)中,經(jīng)常需要對互聯(lián)網(wǎng)中各站點對應(yīng)的領(lǐng)域信息進行表示和劃分,根據(jù)各站點對應(yīng)的領(lǐng)域信息來判定站點之間的相關(guān)性以及某一特定頁面與站點之間的相關(guān)性。同一站點可以對應(yīng)一個或多個領(lǐng)域,例如對于一個游戲站點而言,對應(yīng)的領(lǐng)域可以包括游戲下載領(lǐng)域以及游戲攻略領(lǐng)域等,領(lǐng)域信息的劃分方式不同,站點對應(yīng)的領(lǐng)域信息也會有所不同。目前常用的確定站點對應(yīng)的領(lǐng)域信息的方式有標簽方式和分類樹方式。 標簽方式是指針對每一個站點,在該站點對外展示的列表中開辟指定的字段記錄該站點對應(yīng)的領(lǐng)域信息。分類樹方式是指利用分類樹的樹狀結(jié)構(gòu)來記錄有父子關(guān)系的站點對應(yīng)的領(lǐng)域信息。例如,在游戲領(lǐng)域的站點中,站點對應(yīng)的領(lǐng)域信息有網(wǎng)絡(luò)游戲和單機游戲,而在網(wǎng)絡(luò)游戲的領(lǐng)域信息之下,又進一步有游戲下載、游戲攻略等子領(lǐng)域信息,以及動作游戲、策略游戲、角色扮演游戲等子領(lǐng)域信息。通過上述標簽方式或分類樹方式確定站點對應(yīng)的領(lǐng)域信息的方式,只能粗粒度地確定特定領(lǐng)域的站點對應(yīng)的領(lǐng)域信息,對于進一步的細粒度的領(lǐng)域信息的劃分,其運算量將會非常大。例如針對動作游戲A下載和動作游戲B下載的專題站點的區(qū)別較小,而互聯(lián)網(wǎng)中區(qū)別較小的站點非常多,若分類樹的葉子節(jié)點是細粒度的區(qū)別劃分,則游戲站點的分類樹將會非常龐大,難以實現(xiàn)。更何況面對互聯(lián)網(wǎng)中包羅萬象的各種站點,類似于“游戲”這樣的領(lǐng)域不計其數(shù),若都按照標簽方式或分類樹的方案來細粒度地區(qū)分站點對應(yīng)的領(lǐng)域信息,則運算量過大很難實現(xiàn);若每個站點僅粗粒度地確定對應(yīng)的領(lǐng)域信息,則站點對應(yīng)的領(lǐng)域信息區(qū)分能力不足,將會導(dǎo)致站點的相關(guān)性以及頁面與站點之間相關(guān)性判定不準確。

發(fā)明內(nèi)容
本發(fā)明實施例提供一種確定站點的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備,用以解決現(xiàn)有技術(shù)中存在站點的領(lǐng)域信息確定不準確,導(dǎo)致站點的相關(guān)性以及頁面與站點之間相關(guān)性判定不準確的問題。一種確定站點對應(yīng)的領(lǐng)域信息的方法,所述方法包括確定站點內(nèi)的多個頁面,針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度;根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。一種確定站點之間相關(guān)性的方法,所述方法包括生成M個屬于第一站點的頁面,所述M個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù);確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點和第二站點之間的相關(guān)度;其中,第一站點對應(yīng)的領(lǐng)域信息和第二站點對應(yīng)的領(lǐng)域信息是通過以下方式確定的針對屬于屬于同一站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的 各主題的似然度,確定頁面所屬站點對應(yīng)的領(lǐng)域信息。一種確定頁面與站點之間相關(guān)性的方法,所述方法包括確定站點對應(yīng)的領(lǐng)域信息所表示的主題;確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度;其中,站點對應(yīng)的領(lǐng)域信息是通過以下方式確定的針對站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。一種確定站點對應(yīng)的領(lǐng)域信息的設(shè)備,包括頁面確定模塊,用于確定站點內(nèi)的多個頁面;第一似然度確定模塊,用于針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度;領(lǐng)域信息確定模塊,用于根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。一種確定站點之間相關(guān)性的設(shè)備,包括頁面生成模塊,用于生成M個屬于第一站點的頁面,所述M個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù);第二似然度確定模塊,用于確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;第一相關(guān)度確定模塊,用于根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表不的主題的似然度確定第一站點和第二站點之間的相關(guān)度;領(lǐng)域信息確定模塊,用于針對屬于屬于同一站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定頁面所屬站點對應(yīng)的領(lǐng)域信息。一種確定頁面與站點之間相關(guān)性的設(shè)備,包括主題確定模塊,用于確定站點對應(yīng)的領(lǐng)域信息所表示的主題;第三似然度確定模塊,用于確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;第二相關(guān)度確定模塊,用于根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度;領(lǐng)域信息確定模塊,用于針對站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。本發(fā)明實施例針對站點內(nèi)的每一頁面,確定該頁面相對于預(yù)設(shè)的多個主題中每個主題的似然度,并根據(jù)每個頁面對于各主題的似然度來表示頁面所屬站點的主題分布,進而來確定站點對應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點內(nèi)各頁面與每個預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點對應(yīng)的領(lǐng)域信息是細粒度、準確的領(lǐng)域信息,進而提高利用領(lǐng)域信息對站點之間、站點與頁面之間相關(guān)性判定的準確性。


圖I為本發(fā)明實施例一確定站點對應(yīng)的領(lǐng)域信息的方法示意圖; 圖2為本發(fā)明實施例二確定站點之間相關(guān)性的方法示意圖;圖3為本發(fā)明實施例三確定頁面與站點之間相關(guān)性的方法示意圖;圖4為本發(fā)明實施例四確定站點對應(yīng)的領(lǐng)域信息的設(shè)備結(jié)構(gòu)示意圖;圖5為本發(fā)明實施例五確定站點之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖;圖6為本發(fā)明實施例六確定頁面與站點之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖。
具體實施例方式為了確定互聯(lián)網(wǎng)中各類站點的領(lǐng)域信息,本發(fā)明實施例提出一種新的確定站點對應(yīng)的領(lǐng)域信息的方案,針對站點內(nèi)的每一頁面,確定該頁面相對于預(yù)設(shè)的多個主題中每個主題的似然度,并根據(jù)每個頁面對于各主題的似然度來表示頁面所屬站點的主題分布,進而來確定站點對應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點內(nèi)各頁面與每個預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點對應(yīng)的領(lǐng)域信息是細粒度、準確的領(lǐng)域信息,進而提高利用領(lǐng)域信息對站點之間、站點與頁面之間相關(guān)性判定的準確性。本發(fā)明各實施例中涉及的站點是指互聯(lián)網(wǎng)中的各類型網(wǎng)站,包括大型的門戶網(wǎng)站、各種專題網(wǎng)站等。站點對應(yīng)的領(lǐng)域信息是指能夠表示該站點包括的主題的各種信息,同一站點可以包括至少一個主題。本發(fā)明各實施例中涉及的似然度是指頁面的內(nèi)容與某一主題相關(guān)的程度,是一個概率值,其取值大小為(0,1)。下面結(jié)合說明書附圖對本發(fā)明實施例進行詳細描述。實施例一如圖I所示,為本發(fā)明實施例一中確定站點對應(yīng)的領(lǐng)域信息的方法示意圖,所述方法包括以下步驟步驟101 :訓(xùn)練頁面內(nèi)容與預(yù)設(shè)數(shù)量的多個主題之間的似然度關(guān)系。本步驟是在為特定的站點確定對應(yīng)的領(lǐng)域信息之前的配置步驟,是本實施例的優(yōu)選步驟。在本步驟的方案中,利用搜索引擎從互聯(lián)網(wǎng)中抓取海量的網(wǎng)頁,如數(shù)以百萬計的網(wǎng)頁,并對這些網(wǎng)頁進行模型訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個主題之間似然度的關(guān)系,即頁面內(nèi)容與對于某一主題的似然度的概率模型。本實施例中涉及的預(yù)設(shè)的多個主題并不全然是預(yù)設(shè)的,其中,主題的個數(shù)是預(yù)設(shè)的,但各個主題的內(nèi)容是根據(jù)搜索引擎抓取的互聯(lián)網(wǎng)上的海量頁面后,使用設(shè)定的算法訓(xùn)練出來的。由于搜索引擎從互聯(lián)網(wǎng)中抓取的頁面預(yù)先不可知,因此,預(yù)設(shè)的多個主題的內(nèi)容也無法預(yù)先確定,只能預(yù)先確定所述多個主題的數(shù)量,在訓(xùn)練過程中自動生成相應(yīng)數(shù)量的主題,以及頁面內(nèi)容與預(yù)設(shè)的多個主題之間的似然度關(guān)系。具體地,本步驟中可以采用潛層語義分析(PLSA)算法來對抓取的海量頁面進行訓(xùn)練,進而確定抓取的海量頁面中的內(nèi)容與預(yù)設(shè)的所述多個主題之間似然度的關(guān)系。PLSA算法可以分兩部分,一部分是通過大量頁面訓(xùn)練主題,以及識別頁面主題所使用的數(shù)學模型的參數(shù)(可簡化的認為是word到主題之間的似然度關(guān)系,與頁面無關(guān));另外一部分是 應(yīng)用上一步中訓(xùn)練出的模型,識別具體頁面對應(yīng)每一主題的似然度。主要內(nèi)容為每個頁面都由若干主題構(gòu)成,每個主題在該頁面占有一定的比重p (z I d),或者每個頁面都以一定的概率P (z I d)屬于某一主題,并且假定在給定主題的條件下,每個詞都以一定的概率P(w|z)產(chǎn)生。這樣,頁面和頁面中的詞的共現(xiàn)的情況可以用以下公式⑴描述
t. -W^T 取稱I
C".............Iw;i = p(d'> / p(2|.|djp:;\'iz.r I
■-:=!( I )而PLSA分析的結(jié)果,就是得出p (z I d)、p (w I z)這些概率的值(評價標準是使得數(shù)據(jù)集合似然度最大)。具體來說,這些結(jié)果可以描述為主題分布的概率p (Z);頁面屬于某一主題的概率p (z |d);詞對某一主題的支撐程度p (w I z)。主題的數(shù)目在訓(xùn)練前已預(yù)先設(shè)定,而主題的真實含義在PISA分析完成之前無法確定,只能通過過其支撐詞來表現(xiàn),也就是對于某個主題Z,選擇p (w I z)最高的一些詞,可以估計該主題Z的含義。由于主題只是進行語義關(guān)聯(lián)的一個橋梁,所以也無需知道其確切含義。但是一般來說,不同主題下支撐詞的區(qū)分性大,同一主題下的支撐詞相關(guān)性大,效果較為明顯,表明PLSA模型中的潛在主題的概念確實體現(xiàn)了頁面中的語義類別信息。當確定了 p (w |z)體現(xiàn)的詞對某一主題的支撐程度,通過不同詞的P (w |z)分布就可以確定詞之間語義相關(guān)性的大小,進而確定頁面中詞與主題之間的似然度。步驟102 :確定站點內(nèi)的多個頁面。在經(jīng)過步驟101的概率模型訓(xùn)練后,每當需要對互聯(lián)網(wǎng)中某一特定站點對應(yīng)的領(lǐng)域信息進行確定時,將從本步驟開始執(zhí)行,利用搜索引擎抓取該站點內(nèi)的多個頁面。為了使抓取的站點內(nèi)的頁面能夠最優(yōu)地反映站點對應(yīng)的領(lǐng)域信息,本步驟可以抓取站點內(nèi)的所有頁面。考慮到某些站點內(nèi)的頁面數(shù)量非常多,本實施例也不限于從站點內(nèi)抓取部分頁面,但抓取的頁面數(shù)量也應(yīng)達到能夠反映站點主要頁面的程度。在執(zhí)行本步驟時,可以根據(jù)站點內(nèi)包含的頁面總數(shù)量以及對站點對應(yīng)的領(lǐng)域信息的準確性需求,確定抓取的站點內(nèi)頁面的數(shù)量。步驟103 :針對站點內(nèi)的每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度。利用步驟101中訓(xùn)練得到的概率模型,即利用確定的頁面中的內(nèi)容與所述多個主題之間似然度的關(guān)系,可以分別確定站點內(nèi)每一頁面對于預(yù)設(shè)的多個主題的似然度。假設(shè)預(yù)設(shè)的主題數(shù)量為100,則在本步驟中可以確定一個頁面對于每一主題的似然度,將得到的100個似然度結(jié)合在一起,可以得到該頁面對于100個主題的100維似然向量,這100維的似然向量中的每一向量參數(shù)是頁面對于某一主題的似然度的數(shù)值。預(yù)設(shè)的100個主題數(shù)量可以看作是100維的向量空間,每一主題可以看作是在這100維的向量空間內(nèi)的一個軸。向量空間中的任意一個區(qū)域都可以表示實際的主題,這是因 為根據(jù)向量空間中的任意一個區(qū)域與100個軸的距離可以表示該區(qū)域與這100個軸的相關(guān)性,與該區(qū)域與最相關(guān)的至少一個軸所表示的主題就可以看作是該區(qū)域所表示的主題。由于預(yù)設(shè)的主題數(shù)量較大(主題數(shù)量為100),向量空間中可以表示的主題可以是這100個主題的任意排列,因此,向量空間實際可以表示的主題數(shù)量是非常龐大的。根據(jù)本步驟中I確定頁面的100維似然向量,可以將該頁面映射為100維向量空間內(nèi)的一個點,以此類推,確定的站點內(nèi)的每個頁面都可以映射為100維向量空間內(nèi)的一個點。步驟104 :根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。在步驟103中,已經(jīng)將每個頁面映射至100維向量空間,從空間上來說,通過100維向量空間中的點來表不站點內(nèi)的各頁面。由于屬于同一站點的各頁面之間具有一定的相關(guān)性,因此,映射到向量空間內(nèi)的各點也可能具有某種特定的空間分布,如部分頁面映射的點比較集中,剩余部分頁面映射的點比較分散。從整體上來說,可以認為站點對應(yīng)的領(lǐng)域信息所表示的主題在向量空間內(nèi)的區(qū)域是映射點分布比較集中的區(qū)域,而在該區(qū)域之外映射點分布會比較分散甚至沒有分布。本步驟可以通過高斯分布的相應(yīng)算法來確定站點的領(lǐng)域信息,具體方式為首先,根據(jù)每個頁面的似然向量確定至少一個高斯分布。由于站點內(nèi)的各頁面映射在向量空間中的點可以通過至少一個高斯分布的中點和方差來表示,可逆的,根據(jù)每個頁面的似然向量已確定的頁面在向量空間中的點可以確定至少一個高斯分布。然后,利用EM算法確定每個高斯分布的最大似然參數(shù),包括高斯分布的中點、方差以及該高斯分布的權(quán)重,并將確定的最大似然參數(shù)作為站點對應(yīng)的領(lǐng)域信息,通過高斯分布的最大似然參數(shù)來表示該站點的主題。具體地,確定高斯分布的參數(shù)是通過以下方式實現(xiàn)的第一步為每個高斯分布指定一個隨機的參數(shù)。第二步對于頁面映射在向量空間中的每一個點,計算點屬于每一個高斯分布的概率,按照概率,將點拆分并關(guān)聯(lián)到各個高斯分布上。舉例來講,如果某個點屬于3個高斯分布的概率分別是0. 3,0. 3,0. 4,那么每個高斯分布分別獲得0. 3,0. 3,0. 4個點。第三步對于每一個高斯分布,考察屬于它的所有點,重新設(shè)定該高斯分布的參數(shù),具體為權(quán)重設(shè)置為屬于該高斯分布的點的數(shù)量除以點的總數(shù);中點值設(shè)置為屬于該高斯分布的點的均值;方差設(shè)置為屬于該高斯分布的點的平均方差。如果第三步確定的高斯分布的參數(shù)的變化幅度(相對于第三步之前)小于一定閾值,則認為已經(jīng)確定了高斯分布的參數(shù),否則轉(zhuǎn)到第二步,直至最終確定高斯分布的參數(shù)。上述三步是在已知高斯分布的個數(shù)的情況下,確定高斯分布的參數(shù)方法,本實施例方案中,確定高斯分布個數(shù)的方法為第一步將屬于一個站點的頁面映射在向量空間中的點分割成兩個集合,使用第
一個集合中的點,對于I個高斯分布、2個高斯分布、3個高斯分布、......、n個高斯分布的
情況,依次使用上面的方法確定高斯分布的參數(shù)。第二步使用第二個集合中的點,以及上一步訓(xùn)練出來的I個高斯分布、2個高斯
分布、3個高斯分布、......、n個高斯分布這n種情況,分別計算第二個集合中的點對n種
情況的似然度。若計算結(jié)果為k個高斯分布的時候似然度最大,則該站點在向量空間中有k個高斯分布。步驟105 :存儲站點對應(yīng)的領(lǐng)域信息。在本步驟中,可以將站點的地址以及該站點在高斯分布中的參數(shù)分別作為key和value存儲在數(shù)據(jù)庫中,作為該站點的主題數(shù)據(jù)庫,后續(xù)在需要查詢某一站點的領(lǐng)域信息時,可以根據(jù)該站點的地址作為關(guān)鍵字key查詢數(shù)據(jù)庫,找到該站點的key對應(yīng)的value。通過本發(fā)明實施例一的方案,可以在不依賴網(wǎng)絡(luò)管理員人工參與的情況下,可以自動確定互聯(lián)網(wǎng)中任意站點對應(yīng)的領(lǐng)域信息,且由于預(yù)設(shè)的主題維度可以自由確定,因此,在主題維度較高時,可以細粒度地表示站點對應(yīng)的領(lǐng)域信息,準確地確定站點對應(yīng)的領(lǐng)域信息所表示的主題;另外,本發(fā)明實施例從多維向量空間的角度來表征站點內(nèi)的頁面在多維向量空間中的位置,從空間上直觀地表示站點內(nèi)的頁面映射的點匯聚在一起的情況,直觀地表示站點在多維向量空間內(nèi)分布的區(qū)域,從整體上反映站點的主題。實施例二在利用實施例一的方案確定各站點對應(yīng)的領(lǐng)域信息后,本發(fā)明實施例二提出一種確定站點之間相關(guān)性的方法,在本實施例二的方案中,所涉及的第一站點和第二站點是互聯(lián)網(wǎng)中的兩個站點,這兩個站點對應(yīng)的領(lǐng)域信息可以按照實施例一的方式確定。如圖2所示,所述方法包括以下步驟步驟201 :確定第一站點和第二站點的領(lǐng)域信息以及該領(lǐng)域信息所表示的主題。由于第一站點的主題數(shù)據(jù)庫中存儲了第一站點的key和value,因此,根據(jù)第一站點的地址key,可以從主題數(shù)據(jù)庫中查找出第一站點的value。同理,可以確定第二站點的value。由于在實施例一的方案中,將站點的高斯分布參數(shù)作為站點的value,因此,在本步驟中,第一站點的value是第一站點的高斯分布參數(shù),第二站點的value是第二站點的高斯分布參數(shù)。步驟202 :生成M個屬于第一站點的頁面tl、t2.、tM。由于生成的M個頁面是屬于第一站點的頁面,因此,所述M(正整數(shù))個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均較高,如大于第一閾值。在實施例一的步驟103和步驟104中,是根據(jù)站點內(nèi)的頁面對于設(shè)定的多個主題的似然度確定第一站點對應(yīng)的領(lǐng)域信息的,而本步驟是相反的過程,根據(jù)已知的第一站點對應(yīng)的領(lǐng)域信息,生成對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度較高的頁面。步驟203 :確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度。在本步驟中,分別計算頁面tl、t2. . .、tM屬于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的概率,即頁面tl、t2. . .、tM對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度pl、p2. . .、pM0步驟204 :根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點和第二站點之間的相關(guān)度。本步驟的具體算法為
確定pl、p2. .. 41的取值大小,將?1、?2...、PM分別與第二閾值進行比較,存在以下三種情況情況I :似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,所述第一門限值大于第二門限值。由于一部分(不占主導(dǎo)部分)屬于第一站點的頁面與第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度較高,另一部分(也不占主導(dǎo)部分)屬于第一站點的頁面與第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度較低,因此,第一站點和第二站點的領(lǐng)域信息相關(guān),無從屬關(guān)系。例如若第一站點的領(lǐng)域信息所表示的主題為“動作游戲下載”,第二站點的領(lǐng)域信息所表示的主題為“動作游戲攻略”,這個兩個站點的主題有一定的相關(guān)性,因此,有一部分屬于第一站點的頁面與第二站點的“動作游戲攻略”主題的相關(guān)度很高,另一部分屬于第一站點的頁面與第二站點的“動作游戲攻略”主題的相關(guān)度較低,因此,第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息有一定的相關(guān)性。從多維向量空間上來說,第一站點的頁面映射在多維向量空間中的匯聚區(qū)域一部分與第二站點主題的區(qū)域重合。情況2 :似然度大于第二閾值的頁面數(shù)量不大于第二門限值。由于大部分屬于第一站點的頁面與第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度較低,因此,第一站點和第二站點的領(lǐng)域信息不相關(guān)。例如若第一站點的領(lǐng)域信息所表示的主題為“動作游戲下載”,第二站點的領(lǐng)域信息所表示的主題為“某品牌手機銷售”,這個兩個站點的主題不相關(guān),因此,大部分屬于第一站點的頁面與第二站點的主題的相關(guān)度很低,因此,第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息沒有相關(guān)性。從多維向量空間上來說,第一站點的頁面映射在多維向量空間中的匯聚區(qū)域與第二站點主題的區(qū)域沒有重合之處。情況3 :似然度大于第二閾值的頁面數(shù)量大于第一門限值,由于大部分屬于第一站點的頁面與第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度較高,因此,第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息。例如若第一站點的領(lǐng)域信息所表示的主題為“動作游戲下載”,第二站點的領(lǐng)域信息所表示的主題為“游戲下載”,則屬于第一站點的大部分頁面的主題都與“動作游戲下載”相關(guān),這些頁面與第二站點的“游戲下載”主題的相關(guān)度很高,因此,可以確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息。從多維向量空間上來說,第一站點的頁面映射在多維向量空間中的匯聚區(qū)域被包含在第二站點主題的區(qū)域中。在上述情況3中,可能是第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息,特殊地,也可能是第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息重合的情況,為了進一步判斷第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息的關(guān)系,還可以進一步地執(zhí)行以下操作首先,生成N(正整數(shù))個屬于第二站點的頁面,所述N個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值。然后,確定生成的N個頁面中,每個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度,若對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,即大部分屬于第二站點的頁面與第一站點的主題相關(guān)性高,則第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息重合;否則,第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息。需要說明的是,本步驟中確定的第一站點和第二站點之間的相關(guān)性是根據(jù)第一站 點內(nèi)頁面與第二站點的主題的似然度大小來定量描述的,各閾值的取值大小不同、各門限值的取值大小不同,都可能會影響兩個站點相關(guān)性的強弱。例如若第二閾值設(shè)定為Q時,計算結(jié)果是“第一站點和第二站點相關(guān)”,第二閾值設(shè)定為q時(Q大于q),計算結(jié)果是“第三站點和第四站點相關(guān)”,則由于Q大于q,對于第三站點和第四站點相關(guān)性判定更加嚴格,因此,第三站點和第四站點的相關(guān)性大于第一站點和第二站點的相關(guān)性。上述步驟202中涉及的第一閾值和步驟204中涉及的第二閾值可以取值相同,也可以取值不同,可以根據(jù)實際對相關(guān)性要求高低的情況選取。實施例三與實施例二類似的,在利用實施例一的方案確定各站點對應(yīng)的領(lǐng)域信息后,本發(fā)明實施例三提出一種確定頁面與站點之間相關(guān)性的方法,在本實施例三的方案中,所涉及的站點是互聯(lián)網(wǎng)中的一個站點,這個站點對應(yīng)的領(lǐng)域信息可以按照實施例一的方式確定。如圖3所示,所述方法包括以下步驟步驟301 :確定站點對應(yīng)的領(lǐng)域信息所表示的主題。本步驟的實現(xiàn)方式與實施例二的步驟201相同,此處不再贅述。步驟302 :確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度。在本步驟中,計算待比較頁面屬于站點對應(yīng)的領(lǐng)域信息所表示的主題的概率,SP待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度P。步驟303 :根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度。本步驟的具體實現(xiàn)方式為若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則所述待比較頁面從屬于所述站點。若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則所述待比較頁面和所述站點相關(guān)。若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則所述待比較頁面和所述站點不相關(guān),所述第三閾值大于第四閾值。
通過本發(fā)明實施例二和實施例三的方案,根據(jù)實施例一中已確定的站點的領(lǐng)域信息,可以判定站點之間的相關(guān)性以及頁面與站點之間的相關(guān)性,有效地提高了相關(guān)性判定的準確性。實施例四如圖4所示,為本發(fā)明實施例四中確定站點對應(yīng)的領(lǐng)域信息的設(shè)備結(jié)構(gòu)示意圖,包括頁面確定模塊11、第一似然度確定模塊12和領(lǐng)域信息確定模塊13,其中頁面確定模塊11用于確定站點內(nèi)的多個頁面;第一似然度確定模塊12用于針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度;領(lǐng)域信息確定模塊13用于根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。還包括訓(xùn)練模塊14,用于對預(yù)先確定的多個頁面進行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個主題之間似然度的關(guān)系,訓(xùn)練模塊14可以采用PLAS算法對頁面進行訓(xùn)練。
所述第一似然度確定模塊12具體用于針對每一頁面,利用確定的多個頁面中的每一頁面內(nèi)容分別與所述多個主題之間似然度的關(guān)系,確定該頁面與所述多個主題中的各主題的似然度。所述領(lǐng)域信息確定模塊13具體用于根據(jù)每個頁面對于各主題的似然度,得到每個頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量,根據(jù)得到的每個頁面的似然向量確定至少一個高斯分布,以及確定每個高斯分布的參數(shù),將確定的參數(shù)作為站點對應(yīng)的領(lǐng)域信息,確定高斯分布參數(shù)的方式包括但不限于EM算法。本發(fā)明實施例四中的確定站點對應(yīng)的領(lǐng)域信息的設(shè)備還具有能夠?qū)崿F(xiàn)實施例一中各步驟的功能模塊,此處不再贅述。實施例五如圖5所示,為本發(fā)明實施例五中確定站點之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖,包括頁面生成模塊21、第二似然度確定模塊22、第一相關(guān)度確定模塊23和領(lǐng)域信息確定模塊24,其中頁面生成模塊21用于生成M個屬于第一站點的頁面,所述M個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第一閾值,所述M為正整數(shù);第二似然度確定模塊22用于確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;第一相關(guān)度確定模塊23用于根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點和第二站點之間的相關(guān)度;領(lǐng)域信息確定模塊24用于針對屬于屬于同一站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定頁面所屬站點對應(yīng)的領(lǐng)域信息。本實施例中的領(lǐng)域信息確定模塊24可以是具有實施例四中的確定站點對應(yīng)的領(lǐng)域信息的設(shè)備各項功能的功能模塊。所述第一相關(guān)度確定模塊23具體用于若對于第二站點對應(yīng)的領(lǐng)域信息所表不的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息;若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息相關(guān);若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息不相關(guān),所述第一門限值大于第二門限值。所述頁面生成模塊21還用于在確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息時,生成N個屬于第二站點的頁面,所述N個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第一閾值,N為正整數(shù);所述第二似然度確定模塊22還用于確定生成的N個頁面中,每個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;所述第一相關(guān)度確定模塊23還用于若對于第一站點對應(yīng)的領(lǐng)域信息所表不的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息重合。本發(fā)明實施例五中的確定站點之間相關(guān)性的設(shè)備還具有能夠?qū)崿F(xiàn)實施例二中各步驟的功能模塊,此處不再贅述。 實施例六如圖6所示,為本發(fā)明實施例六中確定頁面與站點之間相關(guān)性的設(shè)備結(jié)構(gòu)示意圖,包括主題確定模塊31、第三似然度確定模塊32、第二相關(guān)度確定模塊33和領(lǐng)域信息確定模塊34,其中主題確定模塊31用于確定站點對應(yīng)的領(lǐng)域信息所表示的主題;第三似然度確定模塊32用于確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度;第二相關(guān)度確定模塊33用于根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度;領(lǐng)域信息確定模塊34用于針對站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。本實施例中的領(lǐng)域信息確定模塊34可以是具有實施例四中的確定站點對應(yīng)的領(lǐng)域信息的設(shè)備各項功能的功能模塊。第二相關(guān)度確定模塊33具體用于若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則確定所述待比較頁面從屬于所述站點;若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點相關(guān);若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點不相關(guān),所述第三閾值大于第四閾值。本發(fā)明實施例六中的確定頁面與站點之間相關(guān)性的設(shè)備還具有能夠?qū)崿F(xiàn)實施例三中各步驟的功能模塊,此處不再贅述。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu) 選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種確定站點對應(yīng)的領(lǐng)域信息的方法,其特征在于,所述方法包括 確定站點內(nèi)的多個頁面,針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度; 根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。
2.如權(quán)利要求I所述的方法,其特征在于,確定站點內(nèi)的多個頁面之前,所述方法還包括 對預(yù)設(shè)的多個頁面進行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個主題之間似然度的關(guān)系; 針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,具體包括 針對每一頁面,利用確定的多個頁面中的每一頁面內(nèi)容分別與所述多個主題之間似然度的關(guān)系,確定該頁面與所述多個主題中的各主題的似然度。
3.如權(quán)利要求I所述的方法,其特征在于,根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息,具體包括 根據(jù)每個頁面對于各主題的似然度,得到每個頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量; 根據(jù)得到的每個頁面的似然向量確定至少一個高斯分布; 確定每個高斯分布的參數(shù),并將確定的參數(shù)作為站點對應(yīng)的領(lǐng)域信息。
4.如權(quán)利要求3所述的方法,其特征在于,所述高斯分布的參數(shù)包括高斯分布的中點、方差以及該高斯分布的權(quán)重。
5.一種確定站點之間相關(guān)性的方法,其特征在于,所述方法包括 生成M個屬于第一站點的頁面,所述M個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù); 確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點和第二站點之間的相關(guān)度; 其中,第一站點對應(yīng)的領(lǐng)域信息和第二站點對應(yīng)的領(lǐng)域信息是通過以下方式確定的針對屬于屬于同一站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定頁面所屬站點對應(yīng)的領(lǐng)域信息。
6.如權(quán)利要求5所述的方法,其特征在于,確定第一站點和第二站點之間的相關(guān)度,具體包括 若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息; 若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息相關(guān); 若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息不相關(guān);所述第一門限值大于第二門限值。
7.如權(quán)利要求6所述的方法,其特征在于,在確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息時,所述方法還包括 生成N個屬于第二站點的頁面,所述N個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,N為正整數(shù); 確定生成的N個頁面中,每個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 若對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息重合。
8.一種確定頁面與站點之間相關(guān)性的方法,其特征在于,所述方法包括 確定站點對應(yīng)的領(lǐng)域信息所表示的主題; 確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度; 其中,站點對應(yīng)的領(lǐng)域信息是通過以下方式確定的 針對站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。
9.如權(quán)利要求8所述的方法,其特征在于,根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度,具體包括 若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第三閾值,則所述待比較頁面從屬于所述站點; 若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點相關(guān); 若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點不相關(guān); 所述第三閾值大于第四閾值。
10.一種確定站點對應(yīng)的領(lǐng)域信息的設(shè)備,其特征在于,包括 頁面確定模塊,用于確定站點內(nèi)的多個頁面; 第一似然度確定模塊,用于針對每一頁面,確定該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度; 領(lǐng)域信息確定模塊,用于根據(jù)每個頁面對于各主題的似然度,確定站點對應(yīng)的領(lǐng)域信肩、O
11.如權(quán)利要求10所述的設(shè)備,其特征在于,還包括 訓(xùn)練模塊,用于對預(yù)先確定的多個頁面進行訓(xùn)練,根據(jù)訓(xùn)練結(jié)果分別確定預(yù)設(shè)的多個頁面中的每一頁面內(nèi)容分別與預(yù)設(shè)數(shù)量的所述多個主題之間似然度的關(guān)系; 第一似然度確定模塊,具體用于針對每一頁面,利用確定的多個頁面中的每一頁面內(nèi)容分別與所述多個主題之間似然度的關(guān)系,確定該頁面與所述多個主題中的各主題的似然度。
12.如權(quán)利要求10所述的設(shè)備,其特征在于,領(lǐng)域信息確定模塊,具體用于根據(jù)每個頁面對于各主題的似然度,得到每個頁面的似然向量,所述似然向量的維度等于所述預(yù)設(shè)數(shù)量,根據(jù)得到的每個頁面的似然向量確定至少一個高斯分布,以及確定每個高斯分布的參數(shù),將確定的參數(shù)作為站點對應(yīng)的領(lǐng)域信息。
13.一種確定站點之間相關(guān)性的設(shè)備,其特征在于,確定站點之間相關(guān)性的設(shè)備包括 頁面生成模塊,用于生成M個屬于第一站點的頁面,所述M個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,所述M為正整數(shù); 第二似然度確定模塊,用于確定生成的M個頁面中,每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第一相關(guān)度確定模塊,用于根據(jù)每個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度確定第一站點和第二站點之間的相關(guān)度; 領(lǐng)域信息確定模塊,用于針對屬于屬于同一站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定頁面所屬站點對應(yīng)的領(lǐng)域信息。
14.如權(quán)利要求13所述的確定站點之間相關(guān)性的設(shè)備,其特征在于, 第一相關(guān)度確定模塊,具體用于若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息;若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第一門限值且大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息相關(guān);若對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量不大于第二門限值,則確定第一站點的領(lǐng)域信息和第二站點的領(lǐng)域信息不相關(guān),所述第一門限值大于第二門限值。
15.如權(quán)利要求14所述的確定站點之間相關(guān)性的設(shè)備,其特征在于, 頁面生成模塊,還用于在確定第一站點的領(lǐng)域信息從屬于第二站點的領(lǐng)域信息時,生成N個屬于第二站點的頁面,所述N個頁面對于第二站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度均大于第一閾值,N為正整數(shù); 第二似然度確定模塊,還用于確定生成的N個頁面中,每個頁面對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第一相關(guān)度確定模塊,還用于若對于第一站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度大于第二閾值的頁面數(shù)量大于第一門限值,則確定第一站點的領(lǐng)域信息與第二站點的領(lǐng)域信息重合。
16.—種確定頁面與站點之間相關(guān)性的設(shè)備,其特征在于,確定頁面與站點之間相關(guān)性的設(shè)備包括 主題確定模塊,用于確定站點對應(yīng)的領(lǐng)域信息所表示的主題; 第三似然度確定模塊,用于確定待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度; 第二相關(guān)度確定模塊,用于根據(jù)待比較頁面對于所述站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度的大小確定待比較頁面和所述站點之間的相關(guān)度; 領(lǐng)域信息確定模塊,用于針對站點內(nèi)的每個頁面,根據(jù)該頁面對于預(yù)設(shè)數(shù)量的多個主題中的各主題的似然度,確定站點對應(yīng)的領(lǐng)域信息。
17.如權(quán)利要求16所述的確定頁面與站點之間相關(guān)性的設(shè)備,其特征在于,第二相關(guān)度確定模塊,具體用于若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題 的似然度大于第三閾值,則確定所述待比較頁面從屬于所述站點;若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第三閾值且大于第四閾值,則確定所述待比較頁面和所述站點相關(guān);若待比較頁面對于站點對應(yīng)的領(lǐng)域信息所表示的主題的似然度不大于第四閾值,則確定所述待比較頁面和所述站點不相關(guān),所述第三閾值大于第四閾值。
全文摘要
本發(fā)明公開了一種確定站點的領(lǐng)域信息以及相關(guān)性判定方法、系統(tǒng)及設(shè)備,主要內(nèi)容包括針對站點內(nèi)的每一頁面,確定該頁面相對于預(yù)設(shè)的多個主題中每個主題的似然度,并根據(jù)每個頁面對于各主題的似然度來表示頁面所屬站點的主題分布,進而來確定站點對應(yīng)的領(lǐng)域信息,由于預(yù)設(shè)的主題數(shù)量可以很高,因此,根據(jù)站點內(nèi)各頁面與每個預(yù)設(shè)的主題之間的似然度關(guān)系確定的頁面所表示的主題數(shù)量可以是海量的,使得最終確定的站點對應(yīng)的領(lǐng)域信息是細粒度、準確的領(lǐng)域信息,進而提高利用領(lǐng)域信息對站點之間、站點與頁面之間相關(guān)性判定的準確性。
文檔編號G06F17/30GK102779120SQ20111011808
公開日2012年11月14日 申請日期2011年5月9日 優(yōu)先權(quán)日2011年5月9日
發(fā)明者張子云 申請人:北京百度網(wǎng)訊科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1