亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置與流程

文檔序號(hào):11620585閱讀:337來(lái)源:國(guó)知局
爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置與流程
本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域
,特別是涉及一種爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置。
背景技術(shù)
:網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則,自動(dòng)的抓取網(wǎng)絡(luò)信息的程序或者腳本,給數(shù)據(jù)源打tag標(biāo)簽是爬蟲(chóng)爬取數(shù)據(jù)源時(shí)的重要步驟之一。tag標(biāo)簽是一種自定義的,比分類更準(zhǔn)確更具體,可以概括文章主要內(nèi)容的關(guān)鍵詞。例如,在網(wǎng)頁(yè)的html編碼中有標(biāo)題標(biāo)簽(titletag)、描述標(biāo)簽(descriptiontag)、關(guān)鍵詞標(biāo)簽(keywordstag)等,爬蟲(chóng)運(yùn)用tag標(biāo)簽,可以更容易的搜索到需要獲取的內(nèi)容。在實(shí)際應(yīng)用中,爬蟲(chóng)在面對(duì)大量的需要爬取的數(shù)據(jù)時(shí),如何準(zhǔn)確的對(duì)數(shù)據(jù)源標(biāo)注tag標(biāo)簽會(huì)存在一定的難度。針對(duì)給爬蟲(chóng)數(shù)據(jù)源標(biāo)注tag標(biāo)簽的問(wèn)題,現(xiàn)有技術(shù)中提出了在數(shù)據(jù)源種子上人工的標(biāo)注tag標(biāo)簽的方法,這種方法就是在爬蟲(chóng)數(shù)據(jù)源的入口種子表中,添加一個(gè)帶有標(biāo)記的字段,來(lái)存儲(chǔ)想要給每個(gè)網(wǎng)站標(biāo)注的具體的tag標(biāo)簽,雖然這種方法在一定程度上解決了給爬蟲(chóng)數(shù)據(jù)源標(biāo)注tag標(biāo)簽的問(wèn)題,但是在真實(shí)的爬蟲(chóng)環(huán)境中會(huì)使爬蟲(chóng)數(shù)據(jù)源的類型變得比較局限。此外,現(xiàn)有技術(shù)中還提出了在爬蟲(chóng)內(nèi)部通過(guò)機(jī)器自動(dòng)標(biāo)注tag標(biāo)簽的方法,雖然這種方法比人工標(biāo)注tag標(biāo)簽更加方便,但是與人工標(biāo)注tag標(biāo)簽的方法一樣都沒(méi)能準(zhǔn)確的按照數(shù)據(jù)源的真實(shí)內(nèi)容來(lái)標(biāo)注tag標(biāo)簽。技術(shù)實(shí)現(xiàn)要素:有鑒于此,本發(fā)明提出了一種爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置,主要目的在于解決現(xiàn)有技術(shù)中無(wú)法對(duì)爬蟲(chóng)數(shù)據(jù)源準(zhǔn)確標(biāo)注標(biāo)簽的問(wèn)題。依據(jù)本發(fā)明的第一個(gè)方面,本發(fā)明提出了一種爬蟲(chóng)數(shù)據(jù)源的處理方法,包括:從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處 理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到;利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源;統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息;根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。依據(jù)本發(fā)明的第二個(gè)方面,本發(fā)明提出了一種爬蟲(chóng)數(shù)據(jù)源的處理裝置,包括:獲取單元,用于從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到;處理單元,用于利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息;確定單元,用于根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。借由上述技術(shù)方案,本發(fā)明實(shí)施例提供的爬蟲(chóng)數(shù)據(jù)源的處理方法及裝置,能夠從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到,利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源,統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息,根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。由于特征信息集合中的特征信息是通過(guò)自然語(yǔ)言處理技術(shù)選出的具有行業(yè)代表性和特征性的行業(yè)類別,而不是由人工選擇或機(jī)器自動(dòng)選擇的,因此在用由自然語(yǔ)言處理技術(shù)得到的特征信息表示爬蟲(chóng)數(shù)據(jù)源的基礎(chǔ)上,可以根據(jù)每個(gè)數(shù)據(jù)源的特征信息從中選出用于準(zhǔn)確分類數(shù)據(jù)源的標(biāo)簽。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。附圖說(shuō)明通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:圖1示出了本發(fā)明實(shí)施例提供的一種爬蟲(chóng)數(shù)據(jù)源的處理方法的流程圖;圖2示出了本發(fā)明實(shí)施例提供的一種爬蟲(chóng)數(shù)據(jù)源的處理裝置的組成框圖;圖3示出了本發(fā)明實(shí)施例提供的另一種爬蟲(chóng)數(shù)據(jù)源的處理裝置的組成框圖。具體實(shí)施方式下面將參照附圖更加詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。給數(shù)據(jù)源標(biāo)注標(biāo)簽是爬蟲(chóng)爬取數(shù)據(jù)源時(shí)的重要步驟之一,針對(duì)給數(shù)據(jù)源標(biāo)注標(biāo)簽的問(wèn)題,現(xiàn)有技術(shù)中提出了采用在數(shù)據(jù)源種子上人工的標(biāo)注標(biāo)簽的方法來(lái)解決這個(gè)問(wèn)題,但是人工標(biāo)注標(biāo)簽的方法在真實(shí)的爬蟲(chóng)環(huán)境中使得數(shù)據(jù)源類型變得比較局限;此外,現(xiàn)有技術(shù)中還提出了使用爬蟲(chóng)內(nèi)部自動(dòng)標(biāo)注標(biāo)簽的方法,這種機(jī)器自動(dòng)標(biāo)注標(biāo)簽的方法雖然比人工標(biāo)注標(biāo)簽更加方便,但是無(wú)法使數(shù)據(jù)源內(nèi)容與所標(biāo)注的標(biāo)簽準(zhǔn)確符合。因此為了解決給爬蟲(chóng)數(shù)據(jù)源標(biāo)注標(biāo)簽時(shí)具有的上述問(wèn)題,本發(fā)明實(shí)施例提供了一種爬蟲(chóng)數(shù)據(jù)源的處理方法,如圖1所示,該方法包括:101、從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到。由于標(biāo)簽是一種自定義的,比分類更準(zhǔn)確更具體,可以概括數(shù)據(jù)源的關(guān)鍵詞,而目前為止整個(gè)行業(yè)信息都可以作為標(biāo)簽選擇的基礎(chǔ),因此在給爬蟲(chóng)數(shù)據(jù)源標(biāo)注標(biāo)簽時(shí),為了使標(biāo)注的標(biāo)簽更加準(zhǔn)確,本發(fā)明實(shí)施例需要從大量的行業(yè)信息中獲取具有代表性和特征性的行業(yè)信息,并且各個(gè)行業(yè)信息下還附屬有其他更加細(xì)化的行業(yè)信息,例如化工行業(yè),其附屬的更加細(xì)化的行業(yè)信息為塑料、涂料、農(nóng)藥等;金融行業(yè),其附屬的更加細(xì)化的行業(yè)信息為銀行、保險(xiǎn)、證券等。這些細(xì)化的行業(yè)信息就組成了本發(fā)明實(shí)施例中具有代表性和特征性的特征信息集合,這些特征信息集合可以作為 本發(fā)明實(shí)施例中標(biāo)簽選擇的基礎(chǔ)。由于通過(guò)人工選擇和機(jī)器選擇通常都無(wú)法準(zhǔn)確的獲取這些具有代表性和特征性的行業(yè)信息,因此本發(fā)明實(shí)施例從行業(yè)信息中獲取特征信息集合是通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到。102、利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源。當(dāng)在步驟101中獲取到作為標(biāo)簽選擇基礎(chǔ)的特征信息集合之后,就可以執(zhí)行步驟102利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源,具體的就是分別用該特征信息集合中的每一個(gè)特征去表示每個(gè)爬蟲(chóng)數(shù)據(jù)源。例如,當(dāng)特征a出現(xiàn)在某個(gè)爬蟲(chóng)數(shù)據(jù)源時(shí),就在該爬蟲(chóng)數(shù)據(jù)源的特征a的位置上進(jìn)行標(biāo)記,記錄特征a的出現(xiàn)情況。通過(guò)記錄所述特征信息集合中每一個(gè)特征在爬蟲(chóng)數(shù)據(jù)源中的出現(xiàn)情況,就可以實(shí)現(xiàn)本發(fā)明實(shí)施例中步驟102利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源的目的。103、統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息。當(dāng)在步驟102中利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源之后,本發(fā)明實(shí)施例就可以執(zhí)行步驟103統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息。具體的,就是根據(jù)步驟102中記錄的特征信息集合中每一個(gè)特征在爬蟲(chóng)數(shù)據(jù)源中的出現(xiàn)情況,統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源中各個(gè)特征信息的出現(xiàn)情況。由于實(shí)際情況下,一個(gè)爬蟲(chóng)數(shù)據(jù)源中各個(gè)特征信息的出現(xiàn)情況不同,某個(gè)特征信息出現(xiàn)頻率較高,而其他特征信息出現(xiàn)頻率較低,因此爬蟲(chóng)數(shù)據(jù)源中各個(gè)特征信息的出現(xiàn)情況可以反映各個(gè)特征信息與爬蟲(chóng)數(shù)據(jù)源的相關(guān)程度。104、根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。當(dāng)在步驟103中統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息之后,就可以執(zhí)行步驟104根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。具體的,就是根據(jù)統(tǒng)計(jì)的每個(gè)爬蟲(chóng)數(shù)據(jù)源中各個(gè)特征信息的出現(xiàn)情況,確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。例如,對(duì)于在爬蟲(chóng)數(shù)據(jù)源中出現(xiàn)的各個(gè)特征信息而言,高頻率出現(xiàn)的特征信息的類型與爬蟲(chóng)數(shù)據(jù)源的相關(guān)性較高,可以作為標(biāo)注該爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。本發(fā)明實(shí)施例提供的爬蟲(chóng)數(shù)據(jù)源的處理方法,能夠從行業(yè)信息中獲取 特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到,利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源,統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息,根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。由于特征信息集合中的特征信息是通過(guò)自然語(yǔ)言處理技術(shù)選出的具有行業(yè)代表性和特征性的行業(yè)類別,而不是由人工選擇或機(jī)器自動(dòng)選擇的,因此在用由自然語(yǔ)言處理技術(shù)得到的特征信息表示爬蟲(chóng)數(shù)據(jù)源的基礎(chǔ)上,可以根據(jù)每個(gè)數(shù)據(jù)源的特征信息從中選出用于準(zhǔn)確分類數(shù)據(jù)源的標(biāo)簽。為了更好的對(duì)上述圖1所示的方法進(jìn)行理解,作為對(duì)上述實(shí)施方式的細(xì)化和擴(kuò)展,本發(fā)明實(shí)施例將針對(duì)圖1中的各步驟進(jìn)行詳細(xì)說(shuō)明。在實(shí)際情況下,根據(jù)數(shù)據(jù)源的真實(shí)內(nèi)容可以將數(shù)據(jù)源進(jìn)行分類,參考分類結(jié)果可以對(duì)數(shù)據(jù)源標(biāo)注標(biāo)簽,以便根據(jù)數(shù)據(jù)源的標(biāo)簽準(zhǔn)確快速的獲取需要的數(shù)據(jù)源。由于數(shù)據(jù)源的分類結(jié)果可以覆蓋各個(gè)行業(yè),因此目前為止整個(gè)行業(yè)信息都可以作為標(biāo)簽選擇的基礎(chǔ)。由于整個(gè)行業(yè)信息非常龐雜,而現(xiàn)有技術(shù)中人工標(biāo)注標(biāo)簽以及機(jī)器標(biāo)注標(biāo)簽都無(wú)法準(zhǔn)確從大量的行業(yè)信息中選擇數(shù)據(jù)源的特定標(biāo)簽,因此本發(fā)明實(shí)施例在給爬蟲(chóng)數(shù)據(jù)源標(biāo)注標(biāo)簽時(shí),為了使標(biāo)注的標(biāo)簽更加準(zhǔn)確,本發(fā)明實(shí)施例將自然語(yǔ)言處理技術(shù)應(yīng)用到對(duì)爬蟲(chóng)數(shù)據(jù)源標(biāo)注標(biāo)簽上,也就是通過(guò)自然語(yǔ)言處理技術(shù)從大量的行業(yè)信息中獲取具有代表性和特征性的行業(yè)信息,這些具有代表性和特征性的行業(yè)信息還包括各個(gè)行業(yè)信息下附屬的更加細(xì)化的子行業(yè)信息。例如:x行業(yè)為化工行業(yè),其子行業(yè)x-1為塑料,x-2為涂料,x-3為農(nóng)藥等;y行業(yè)為金融行業(yè),其子行業(yè)y-1為銀行業(yè),y-2為保險(xiǎn)業(yè),y-3為證券業(yè)等,這些細(xì)化的子行業(yè)信息在本發(fā)明實(shí)施例中稱為行業(yè)信息的特征信息集合,并且所述特征信息集合中包含對(duì)數(shù)據(jù)源進(jìn)行標(biāo)注的標(biāo)簽。具體的,本發(fā)明實(shí)施例在獲取特征信息集合時(shí),首先可以獲取行業(yè)信息的結(jié)構(gòu)范圍,包括:行業(yè)以及每個(gè)行業(yè)下的子行業(yè)信息。行業(yè)信息結(jié)構(gòu)主要是通過(guò)收集目前為止存在的行業(yè)以及每個(gè)行業(yè)下的子行業(yè),作為標(biāo)簽的基準(zhǔn)集合。由于每個(gè)行業(yè)下存在大量的子行業(yè),因此需要從所述基準(zhǔn)集合中選擇具有代表性和特征性的子行業(yè)組成特征信息集合。這些特征信息 的選擇一部分可以通過(guò)人工獲得,但是為了使特征信息的選擇更加準(zhǔn)確,本發(fā)明實(shí)施例可以通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理,主要是基于卡方檢驗(yàn)獲得特征信息??ǚ綑z驗(yàn)是數(shù)理統(tǒng)計(jì)中一種常用的檢驗(yàn)兩個(gè)變量獨(dú)立性的方法,可以利用獨(dú)立性檢驗(yàn)來(lái)考察一個(gè)詞t(一個(gè)隨機(jī)變量)與一個(gè)類別c(另一個(gè)隨機(jī)變量)之間是否有關(guān)系,并且能夠精確的給出這種判斷的可靠程度。例如,若詞t與類別c獨(dú)立,就可以說(shuō)明詞t對(duì)類別c完全沒(méi)有表征作用,也就是無(wú)法根據(jù)某一數(shù)據(jù)源中詞t的出現(xiàn)判斷該數(shù)據(jù)源是否屬于類別c。正是因?yàn)闊o(wú)法界定詞t是否屬于類別c的理論值是多少,因此本發(fā)明實(shí)施例可以采用“詞t與類別c不相關(guān)”作為假設(shè),選擇過(guò)程也變成了為每個(gè)詞(子行業(yè))計(jì)算它與類別c(行業(yè))的卡方值,并從大到小進(jìn)行排序,此時(shí)卡方值越大兩者越相關(guān),因此可以取排序前k個(gè)最相關(guān)的詞(子行業(yè))作為特征信息集合中的特征信息。本發(fā)明實(shí)施例通過(guò)卡方檢驗(yàn)的主要目的在于選出與某個(gè)類別(行業(yè))最相關(guān)的特征信息(代表性和特征性的子行業(yè))。為了更好的對(duì)上述方法進(jìn)行理解,本發(fā)明實(shí)施例以考察一個(gè)詞“銀行”與類別“金融”之間的相關(guān)性為例,對(duì)上述方法進(jìn)行詳細(xì)說(shuō)明。例如,現(xiàn)在有n篇文檔,其中有m篇是關(guān)于金融的,則此時(shí)需要考察四個(gè)觀察值:1)包含“銀行”且屬于“金融”類別的文檔數(shù),命名為a;2)包含“銀行”但不屬于“金融”類別的文檔數(shù),命名為b;3)不包含“銀行”但屬于“金融”類別的文檔數(shù),命名為c;4)既不包含“銀行”也不屬于“金融”類別的文檔數(shù),命名為d。具體的,可以用下述表格進(jìn)行表示:特征選擇屬于“金融”不屬于“金融”總計(jì)包含“銀行”aba+b不包含“銀行”cdc+d總計(jì)a+cb+dn在上述表格中a、b、c、d是表格中最基本的數(shù)據(jù),因此上述表格資料又被稱為四格表資料。而卡方檢驗(yàn)的統(tǒng)計(jì)量是卡方值,它是每個(gè)格子實(shí)際頻數(shù)與理論頻數(shù)差值平方與理論頻數(shù)之比的累計(jì)和。以其中一個(gè)格子中的a為例,其實(shí)際頻數(shù)為a,理論頻數(shù)e=(a+c)[(a+b)/n],則該格子實(shí)際頻數(shù) 為與理論頻數(shù)差值平方與理論頻數(shù)之比為(a-e)2/e,通過(guò)此公式將其余格子中的b、c、d分別帶入公式中并簡(jiǎn)化,可以得到卡方值k2(銀行,金融)=n(ad-bc)2/(a+c)(a+b)(b+d)(c+d);進(jìn)一步的,詞t(子行業(yè))與類別c(行業(yè))的卡方值形式可寫成:k2(t,c)=n(ad-bc)2/(a+c)(a+b)(b+d)(c+d)。而如果給定了一個(gè)文檔集合和一個(gè)類別(例如文檔集合n中已經(jīng)訓(xùn)練好的m個(gè)文檔),對(duì)同一類別文檔中的所有詞來(lái)說(shuō)n、m以及n-m都是一樣的,即上述公式中的(a+c)與(b+d)對(duì)同一類別文檔中的所有詞來(lái)說(shuō)都一樣,而本發(fā)明實(shí)施例只關(guān)注一堆詞與某個(gè)類別的卡方值的大小,并不關(guān)心具體的卡方值是多少,因此上述公式中的(a+c)與(b+d)可以簡(jiǎn)化掉,實(shí)際計(jì)算卡方值時(shí)只需要使用公式k2(t,c)=(ad-bc)2/(a+b)(c+d)。本發(fā)明實(shí)施例通過(guò)簡(jiǎn)化的公式可以對(duì)行業(yè)信息的結(jié)構(gòu)范圍中的子行業(yè)進(jìn)行卡方檢測(cè)的計(jì)算,并根據(jù)計(jì)算結(jié)果的大小選擇符合條件的子行業(yè)信息組成特征信息集合,例如可以按照計(jì)算結(jié)果由大到小的順序選擇排序前k個(gè)子行業(yè)組成特征信息集合,用所述特征信息集合表示數(shù)據(jù)源。通過(guò)上述方法選取的特征信息集合包括了具有代表性和特征性的行業(yè)信息,這些行業(yè)信息通常為更加準(zhǔn)確具體的子行業(yè)信息,可以用于對(duì)爬蟲(chóng)數(shù)據(jù)源標(biāo)注標(biāo)簽。因此當(dāng)特征信息集合選取完成之后,就需要針對(duì)不同的爬蟲(chóng)數(shù)據(jù)源從所述特征信息集合中選擇不同的特征作為標(biāo)簽對(duì)不同的爬蟲(chóng)數(shù)據(jù)源進(jìn)行標(biāo)注。具體的,就是使用所述特征信息集合中的每一個(gè)特征去表示需要標(biāo)注標(biāo)簽的爬蟲(chóng)數(shù)據(jù)源,即表示每一個(gè)特征在每個(gè)爬蟲(chóng)數(shù)據(jù)源中出現(xiàn)的頻數(shù)并記錄下來(lái)。例如,以一篇文檔doc作為一個(gè)數(shù)據(jù)源、以塑料、銀行、證券作為特征信息集合中的特征為例,如果某一個(gè)特征在該文檔中出現(xiàn)n次,那么就在該文檔對(duì)應(yīng)的該特征的位置處記錄n;如果某一個(gè)特征不在該文檔中出現(xiàn),那么就在該文檔對(duì)應(yīng)的該特征的位置處記錄o;具體的用特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源的形式可以如下表所示:數(shù)據(jù)源\特征塑料銀行證券doc11011doc2099doc3235當(dāng)通過(guò)上述方式用特征信息集合表示了每個(gè)爬蟲(chóng)數(shù)據(jù)源之后,就可以清楚的得到各個(gè)特征信息在爬蟲(chóng)數(shù)據(jù)源中的出現(xiàn)情況。隨后,在從特征信息集合中為每個(gè)爬蟲(chóng)數(shù)據(jù)源選取相應(yīng)的標(biāo)簽時(shí),就可以根據(jù)每個(gè)爬蟲(chóng)數(shù)據(jù)源中特征信息的具體情況從中選擇與數(shù)據(jù)源類型最相關(guān)的特征作為標(biāo)注的標(biāo)簽。因此,本發(fā)明實(shí)施例在利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源之后,還需要統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息的出現(xiàn)情況,按照出現(xiàn)次數(shù)的高低對(duì)每個(gè)爬蟲(chóng)數(shù)據(jù)源包含的各個(gè)特征信息進(jìn)行排序,數(shù)據(jù)源中出現(xiàn)次數(shù)越多的特征信息與該數(shù)據(jù)源類型的相關(guān)性越高。這里需要說(shuō)明的是,所述特征信息也就是從大量的行業(yè)信息中選擇的具有代表性和特征性的細(xì)化的子行業(yè)信息。進(jìn)一步的,為了更直觀的根據(jù)爬蟲(chóng)數(shù)據(jù)源中特征信息的出現(xiàn)情況確定用于標(biāo)注數(shù)據(jù)源的標(biāo)簽,本發(fā)明實(shí)施例還可以對(duì)每個(gè)特征信息做基于爬蟲(chóng)數(shù)據(jù)源中特征信息出現(xiàn)情況的布爾類型分類,這種分類也稱為二元分類。本發(fā)明實(shí)施例對(duì)每個(gè)特征信息進(jìn)行布爾類型的分類在本質(zhì)上來(lái)說(shuō),是對(duì)于一個(gè)特征有可能屬于多個(gè)爬蟲(chóng)數(shù)據(jù)源的情況,那么就根據(jù)其他出現(xiàn)頻數(shù)較多的特征去權(quán)衡數(shù)據(jù)源到底屬于什么類型。由于布爾類型對(duì)象可以被賦予文字值true或者false,其中true和false所對(duì)應(yīng)的關(guān)系就是真與假的概念,因此在上述特征信息集合表示的每個(gè)爬蟲(chóng)數(shù)據(jù)源的表格中所展示的數(shù)據(jù)的基礎(chǔ)上,在同一數(shù)據(jù)源中將出現(xiàn)頻次高的特征信息對(duì)應(yīng)的關(guān)系判斷為真,相應(yīng)的布爾值為true;將出現(xiàn)頻次低的特征信息對(duì)應(yīng)的關(guān)系判斷為假,相應(yīng)的布爾值為false,則根據(jù)上述用特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源的表格可以得到下述布爾分類的表格:數(shù)據(jù)源\特征塑料銀行證券金融行業(yè)doc1truefalsefalsefalsedoc2falsetruetruetruedoc3falsetruetruetrue當(dāng)通過(guò)上述方式對(duì)爬蟲(chóng)數(shù)據(jù)源中的特征信息統(tǒng)計(jì)完成之后,就可以根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽,主要做的就是匯總上述布爾分類信息,將布爾分類為真的特征信息作為數(shù)據(jù)源的標(biāo)簽,將確定的數(shù)據(jù)源的標(biāo)簽進(jìn)行整理后可以如下表所示:數(shù)據(jù)源標(biāo)簽doc1{塑料}doc2{金融行業(yè);銀行;證券}doc3{金融行業(yè);銀行;證券}隨后根據(jù)整理的數(shù)據(jù)源標(biāo)簽的表格對(duì)每個(gè)數(shù)據(jù)源進(jìn)行標(biāo)簽標(biāo)注。本發(fā)明實(shí)施例在基于自然語(yǔ)言處理技術(shù)選擇出用于標(biāo)注標(biāo)簽的特征信息集合之后,用特征信息集合中的特征信息表示每個(gè)數(shù)據(jù)源,并將數(shù)據(jù)源中特征信息的出現(xiàn)情況進(jìn)行布爾類型的分類,從而能夠方便的展示每個(gè)數(shù)據(jù)源是否屬于某個(gè)行業(yè)。進(jìn)一步的,作為對(duì)上述圖1所示方法的應(yīng)用,本發(fā)明實(shí)施例還提供了一種爬蟲(chóng)數(shù)據(jù)源的處理裝置,如圖2所示,該裝置包括:獲取單元21、處理單元22、統(tǒng)計(jì)單元23以及確定單元24,其中,獲取單元21,用于從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到;處理單元22,用于利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源;統(tǒng)計(jì)單元23,用于統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息;確定單元24,用于根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。進(jìn)一步的,如圖3所示,獲取單元21包括:獲取模塊211,用于獲取行業(yè)信息的結(jié)構(gòu)范圍,所述行業(yè)信息的結(jié)構(gòu)范圍包括:行業(yè)以及每個(gè)行業(yè)下的子行業(yè)信息;選擇模塊212,用于從所述行業(yè)信息的結(jié)構(gòu)范圍中選擇子行業(yè)信息組成特征信息集合。進(jìn)一步的,獲取單元21用于對(duì)所述行業(yè)信息的結(jié)構(gòu)范圍中的子行業(yè)進(jìn)行卡方檢測(cè);還用于根據(jù)檢測(cè)結(jié)果選擇符合條件的子行業(yè)信息組成特征信息集合。進(jìn)一步的,如圖3所示,處理單元22包括:記錄模塊221,用于記錄所述特征信息集合中的子行業(yè)在每個(gè)爬蟲(chóng)數(shù)據(jù)源中的出現(xiàn)次數(shù);表示模塊222,用于利用所述子行業(yè)在每個(gè)爬蟲(chóng)數(shù)據(jù)源中的出現(xiàn)次數(shù)對(duì)每個(gè)爬蟲(chóng)數(shù)據(jù)源進(jìn)行表示。進(jìn)一步的,如圖3所示,統(tǒng)計(jì)單元23包括:統(tǒng)計(jì)模塊231,用于對(duì)每個(gè)爬蟲(chóng)數(shù)據(jù)源包含的各個(gè)子行業(yè)的出現(xiàn)次數(shù)的情況進(jìn)行統(tǒng)計(jì);排序模塊232,用于按照出現(xiàn)次數(shù)的高低對(duì)每個(gè)爬蟲(chóng)數(shù)據(jù)源包含的各個(gè)子行業(yè)進(jìn)行排序;分類模塊233,用于根據(jù)排序結(jié)果對(duì)每個(gè)爬蟲(chóng)數(shù)據(jù)源包含的各個(gè)子行業(yè)進(jìn)行布爾類型的分類。進(jìn)一步的,確定單元24用于根據(jù)每個(gè)爬蟲(chóng)數(shù)據(jù)源包含的各個(gè)子行業(yè)的布爾類型的分類結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽,并用所述標(biāo)簽給爬蟲(chóng)數(shù)據(jù)源進(jìn)行標(biāo)注。本發(fā)明實(shí)施例提供的爬蟲(chóng)數(shù)據(jù)源的處理裝置,能夠從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到,利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源,統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息,根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。由于特征信息集合中的特征信息是通過(guò)自然語(yǔ)言處理技術(shù)選出的具有行業(yè)代表性和特征性的行業(yè)類別,而不是由人工選擇或機(jī)器自動(dòng)選擇的,因此在用由自然語(yǔ)言處理技術(shù)得到的特征信息表示爬蟲(chóng)數(shù)據(jù)源的基礎(chǔ)上,可以根據(jù)每個(gè)數(shù)據(jù)源的特征信息從中選出用于準(zhǔn)確分類數(shù)據(jù)源的標(biāo)簽。此外,本發(fā)明實(shí)施例中爬蟲(chóng)數(shù)據(jù)源的處理裝置在基于自然語(yǔ)言處理技術(shù)選擇出用于標(biāo)注標(biāo)簽的特征信息集合之后,用特征信息集合中的特征信息表示每個(gè)數(shù)據(jù)源,并將數(shù)據(jù)源中特征信息的出現(xiàn)情況進(jìn)行布爾類型的分類,從而能夠方便的展示每個(gè)數(shù)據(jù)源是否屬于某個(gè)行業(yè)。所述爬蟲(chóng)數(shù)據(jù)源的處理裝置包括處理器和存儲(chǔ)器,上述獲取單元21、處理單元22、統(tǒng)計(jì)單元23以及確定單元24,均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來(lái)實(shí)現(xiàn)相應(yīng)的功能。處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可 以設(shè)置一個(gè)或以上,通過(guò)調(diào)整內(nèi)核參數(shù)來(lái)解決現(xiàn)有技術(shù)中無(wú)法對(duì)爬蟲(chóng)數(shù)據(jù)源準(zhǔn)確標(biāo)注標(biāo)簽的問(wèn)題。存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:從行業(yè)信息中獲取特征信息集合,所述特征信息集合通過(guò)自然語(yǔ)言處理技術(shù)對(duì)行業(yè)信息進(jìn)行統(tǒng)計(jì)處理后得到;利用所述特征信息集合表示每個(gè)爬蟲(chóng)數(shù)據(jù)源;統(tǒng)計(jì)每個(gè)爬蟲(chóng)數(shù)據(jù)源的特征信息集合中的各個(gè)特征信息;根據(jù)統(tǒng)計(jì)結(jié)果確定每個(gè)爬蟲(chóng)數(shù)據(jù)源的標(biāo)簽。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請(qǐng)的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請(qǐng)可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本申請(qǐng)可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、cd-rom、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。本申請(qǐng)是參照根據(jù)本申請(qǐng)實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。在一個(gè)典型的配置中,計(jì)算設(shè)備包括一個(gè)或多個(gè)處理器(cpu)、輸入/輸出接口、網(wǎng)絡(luò)接口和內(nèi)存。存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram)。存儲(chǔ)器是計(jì)算機(jī)可讀介質(zhì)的示例。計(jì)算機(jī)可讀介質(zhì)包括永久性和非永久性、可移動(dòng)和非可移動(dòng)媒體可以由任何方法或技術(shù)來(lái)實(shí)現(xiàn)信息存儲(chǔ)。信息可以是計(jì)算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計(jì)算機(jī)的存儲(chǔ)介質(zhì)的例子包括,但不限于相變內(nèi)存(pram)、靜態(tài)隨機(jī)存取存儲(chǔ)器(sram)、動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(dram)、其他類型的隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、電可擦除可編程只讀存儲(chǔ)器(eeprom)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光盤只讀存儲(chǔ)器(cd-rom)、數(shù)字多功能光盤(dvd)或其他光學(xué)存儲(chǔ)、磁盒式磁帶,磁帶磁磁盤存儲(chǔ)或其他磁性存儲(chǔ)設(shè)備或任何其他非傳輸介質(zhì),可用于存儲(chǔ)可以被計(jì)算設(shè)備訪問(wèn)的信息。按照本文中的界定,計(jì)算機(jī)可讀介質(zhì)不包括暫存電腦可讀媒體(transitorymedia),如調(diào)制的數(shù)據(jù)信號(hào)和載波。以上僅為本申請(qǐng)的實(shí)施例而已,并不用于限制本申請(qǐng)。對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō),本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原理之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的權(quán)利要求范圍之內(nèi)。當(dāng)前第1頁(yè)12
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1