亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)處理的方法及裝置與流程

文檔序號(hào):12120905閱讀:來源:國(guó)知局

技術(shù)特征:

1.一種數(shù)據(jù)處理的方法,其特征在于,包括:

獲取至少一個(gè)目標(biāo)地址;

從每個(gè)所述目標(biāo)地址對(duì)應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù);

對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,

所述對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理,包括:

針對(duì)每個(gè)目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

<mrow> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </msup> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>,</mo> </mrow>

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> </mrow>

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

<mrow> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每?jī)蓚€(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每?jī)蓚€(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每?jī)蓚€(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,

在所述獲取至少一個(gè)目標(biāo)地址之前,進(jìn)一步包括:

預(yù)先設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則;

所述獲取至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址。

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,

所述預(yù)先設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則,包括:

確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則;

根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,

所述根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址,包括:

根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對(duì)應(yīng)的至少一個(gè)待處理地址;

對(duì)所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

6.一種數(shù)據(jù)處理的裝置,其特征在于,包括:

獲取單元,用于獲取至少一個(gè)目標(biāo)地址;

抽取單元,用于從每個(gè)所述目標(biāo)地址對(duì)應(yīng)的網(wǎng)頁中,抽取每個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù);

排重單元,用于對(duì)各個(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)進(jìn)行排重處理。

7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,

所述排重單元,具體用于:

針對(duì)每個(gè)目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù),從當(dāng)前目標(biāo)數(shù)據(jù)中抽取預(yù)設(shè)數(shù)量個(gè)出現(xiàn)次數(shù)最多的關(guān)鍵詞,確定每個(gè)所述關(guān)鍵詞的出現(xiàn)次數(shù);

計(jì)算每個(gè)所述關(guān)鍵詞的哈希值;

根據(jù)公式一確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)所述關(guān)鍵詞的關(guān)鍵詞相似參數(shù),其中,所述公式一為:

<mrow> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>=</mo> <msup> <mrow> <mo>(</mo> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> <msub> <mi>X</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> </msup> <msub> <mi>N</mi> <mi>j</mi> </msub> <mo>,</mo> </mrow>

其中,Wi為所述當(dāng)前目標(biāo)數(shù)據(jù)的第j個(gè)關(guān)鍵詞的第i個(gè)關(guān)鍵詞相似參數(shù),Xj,i為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的哈希值從右開始的第i位的值,Nj為所述當(dāng)前目標(biāo)數(shù)據(jù)的所述第j個(gè)關(guān)鍵詞的出現(xiàn)次數(shù);

根據(jù)公式二確定所述當(dāng)前目標(biāo)數(shù)據(jù)的每個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),其中,所述公式二為:

<mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>W</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>i</mi> </mrow> </msub> <mo>,</mo> </mrow>

其中,Ai為所述當(dāng)前目標(biāo)數(shù)據(jù)的第i個(gè)目標(biāo)數(shù)據(jù)相似參數(shù),n為所述預(yù)設(shè)數(shù)量;

根據(jù)公式三,確定所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù),其中,所述公式三為:

<mrow> <msub> <mi>B</mi> <mi>i</mi> </msub> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <mn>1</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&gt;</mo> <mn>0</mn> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mn>0</mn> <mo>,</mo> </mrow> </mtd> <mtd> <mrow> <msub> <mi>A</mi> <mi>i</mi> </msub> <mo>&le;</mo> <mn>0</mn> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>,</mo> </mrow>

其中,Bi為所述當(dāng)前目標(biāo)數(shù)據(jù)的最終相似參數(shù)從右開始的第i位的值;

根據(jù)公式四,確定每?jī)蓚€(gè)所述目標(biāo)地址對(duì)應(yīng)的目標(biāo)數(shù)據(jù)的綜合相似參數(shù),其中,所述公式四為:

C=D xor F,

其中,D為第一目標(biāo)數(shù)據(jù)的最終相似參數(shù),F(xiàn)為第二目標(biāo)數(shù)據(jù)的最終相似參數(shù),C為所述第一目標(biāo)數(shù)據(jù)和所述第二目標(biāo)數(shù)據(jù)的綜合相似參數(shù);

判斷每?jī)蓚€(gè)目標(biāo)數(shù)據(jù)的綜合相似參數(shù)中1的個(gè)數(shù)是否小于等于預(yù)設(shè)個(gè)數(shù),如果是,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)相似,否則,確定當(dāng)前兩個(gè)目標(biāo)數(shù)據(jù)不相似;

排除每?jī)蓚€(gè)相似的目標(biāo)數(shù)據(jù)中的任意一個(gè)目標(biāo)數(shù)據(jù)。

8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,

進(jìn)一步包括:設(shè)置單元,用于設(shè)置目標(biāo)網(wǎng)站對(duì)應(yīng)的地址解析規(guī)則;

所述獲取單元,用于根據(jù)所述地址解析規(guī)則,確定所述目標(biāo)網(wǎng)站對(duì)應(yīng)的至少一個(gè)目標(biāo)地址。

9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,

所述設(shè)置單元,用于確定所述目標(biāo)網(wǎng)站的地址構(gòu)建規(guī)則,根據(jù)所述地址構(gòu)建規(guī)則,設(shè)置所述地址解析規(guī)則。

10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,

所述所述獲取單元,用于根據(jù)所述地址解析規(guī)則,解析出所述目標(biāo)網(wǎng)址對(duì)應(yīng)的至少一個(gè)待處理地址,對(duì)所述至少一個(gè)待處理地址進(jìn)行排重處理,將排重處理后剩余的待處理地址作為所述目標(biāo)地址。

當(dāng)前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1