本發(fā)明涉及互聯(lián)網(wǎng)
技術領域:
,特別涉及一種網(wǎng)站分類字典的構建方法及裝置。
背景技術:
:互聯(lián)網(wǎng)中的網(wǎng)站數(shù)目異常龐大,這其中包括各種各樣的網(wǎng)站,如:新聞類的網(wǎng)站,體育類的網(wǎng)站,購物類的網(wǎng)站等等。面對各種各樣的網(wǎng)站,企業(yè)或組織常常需要對網(wǎng)站進行過濾,禁止內部人員訪問指定類別的網(wǎng)站。這里,確定一個網(wǎng)站是否需要過濾掉,首先需要對網(wǎng)站進行分類。目前,網(wǎng)站分類一般依賴于網(wǎng)站分類字典,也就是,針對每一類網(wǎng)站設置一個網(wǎng)站分類字典,網(wǎng)站分類字典中包括:詞語和權重值的對應關系。這樣,就可以根據(jù)網(wǎng)站分類字典,確定待分類網(wǎng)站中的網(wǎng)頁內容對應的權重值,進而根據(jù)權重值,確定待分類網(wǎng)站的網(wǎng)站類別。但現(xiàn)有技術中,網(wǎng)站分類字典中詞語的權重值都是統(tǒng)一設置的,并未考慮詞語在各個網(wǎng)站分類字典中的分布情況,這導致權重值的設置并不是很合理,進而使得網(wǎng)站分類的準確度不高。技術實現(xiàn)要素:本發(fā)明實施例公開了一種網(wǎng)站分類字典的構建方法及裝置,以使權重值設置更加合理,進而提高網(wǎng)站分類的準確度。為達到上述目的,本發(fā)明實施例公開了一種網(wǎng)站分類字典的構建方法,所述方法包括:獲取預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的網(wǎng)頁內容;其中,N為正整數(shù);根據(jù)所獲取的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,并為每個有效詞語配置初始權重值;統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù);將統(tǒng)計得到的個數(shù)大于1的有效詞語的初始權重值調小,確定每個有效詞語的最終權重值;對于每個初始網(wǎng)站類別,將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中。為達到上述目的,本發(fā)明實施例還公開了一種網(wǎng)站分類字典的構建裝置,所述裝置包括:第一獲取單元,用于獲取預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的網(wǎng)頁內容;其中,N為正整數(shù);第一確定單元,用于根據(jù)所獲取的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,并為每個有效詞語配置初始權重值;統(tǒng)計單元,用于統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù);調整單元,用于將統(tǒng)計得到的個數(shù)大于1的有效詞語的初始權重值調小,確定每個有效詞語的最終權重值;存儲單元,用于對于每個初始網(wǎng)站類別,將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中。本發(fā)明實施例提供了一種網(wǎng)站分類字典的構建方法及裝置,根據(jù)預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的樣本網(wǎng)站的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,進而為每個有效詞語配置初始權重值;另外,統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù),也就是確定每個有效詞語所屬的初始網(wǎng)站類別的個數(shù),對于每個有效詞語,若統(tǒng)計得到的個數(shù)大于1,則調小該有效詞語的初始權重值,進而確定該有效詞語的最終權重值,將每個有效詞語和最終權重值對應存儲至初始網(wǎng)站類別的網(wǎng)站分類字典中??梢姳景l(fā)明實施例中,考慮了詞語在各個網(wǎng)站分類字典中的分布情況,權重值的設置更加合理,因此,用本發(fā)明實施例的方法構建的網(wǎng)站分類字典進行分類,能夠提高網(wǎng)站分類的準確度。附圖說明為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明實施例提供的一種網(wǎng)站分類字典的構建方法的流程示意圖;圖2為基于圖1所示實施例構建的網(wǎng)站分類字典的網(wǎng)站分類方法的流程示意圖;圖3為本發(fā)明實施例提供的一種網(wǎng)站分類字典的構建裝置的結構示意圖;圖4為基于圖3所示實施例構建的網(wǎng)站分類字典的網(wǎng)站分類裝置的結構示意圖。具體實施方式下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。下面通過具體實施例,對本發(fā)明進行詳細說明。參考圖1,圖1為本發(fā)明實施例提供的一種網(wǎng)站分類字典的構建方法的流程示意圖,該方法包括:S101:獲取預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的網(wǎng)頁內容;其中,N為正整數(shù);這里,初始網(wǎng)站類別可以包括:“新聞”、“體育”、“金融”等等。另外,可以將所有的網(wǎng)站分類設置為一級分類,也可以再細分為二級和三級分類,如:可以設置“新聞”為一級分類,在“新聞”分類下設置二級分類:“時事”、“體育”、“購物”等;可以設置“金融”為一級分類,在“金融”分類下設置二級分類:“銀行”、“證券”等。在確定N個初始網(wǎng)站類別后,對于每一初始網(wǎng)站類別,獲取該初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的URL(UniformResourceLocator,統(tǒng)一資源定位符),訪問獲取到的URL,獲取每個樣本網(wǎng)站的網(wǎng)頁內容,進而確定每個初始網(wǎng)站類別對應的網(wǎng)頁內容。具體地,可以獲取初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的URL,通過網(wǎng)絡爬蟲工具按照網(wǎng)站類別訪問相應的樣本網(wǎng)站的URL,并從樣本網(wǎng)站反饋的內容中提取出該樣本網(wǎng)站的網(wǎng)頁內容。例如:確定的初始網(wǎng)站類別為:“體育”和“購物”,則獲取的“體育”初始網(wǎng)站類別對應的樣本網(wǎng)站的URL可以為:新浪體育、搜狐體育、騰訊體育等體育網(wǎng)站的URL,并訪問這些體育網(wǎng)站的URL,獲取對應“體育”初始網(wǎng)站類別的網(wǎng)頁內容;獲取“購物”初始網(wǎng)站類別對應的樣本網(wǎng)站的URL可以為:淘寶、唯品會、聚美優(yōu)品等購物網(wǎng)站的URL,并訪問這些購物網(wǎng)站的URL,獲取對應“購物”初始網(wǎng)站類別的網(wǎng)頁內容。S102:根據(jù)所獲取的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,并為每個有效詞語配置初始權重值;對于每個初始網(wǎng)站類別,獲取到對應的每個樣本網(wǎng)站的網(wǎng)頁內容后,可以先移除對應的每個樣本網(wǎng)站的網(wǎng)頁內容中的無用字符集,例如:非網(wǎng)頁有效內容的網(wǎng)頁代碼、腳本字符集、注釋掉的字符集等;之后,對對應的每個樣本網(wǎng)站的網(wǎng)頁內容進行分詞,移除無效詞語,獲得至少一個有效詞語;根據(jù)預設的加權算法,為每個有效詞語配置初始權重值。這里,無效詞語可以理解為在每一初始網(wǎng)站類別中都常見的詞語,有效詞語可以理解為在該初始網(wǎng)站類別中常見、在其他初始網(wǎng)站類別中不常見的詞語。例如:對“金融”初始網(wǎng)站類別對應的網(wǎng)頁內容進行分詞后,獲得“利率”、“貸款”、“一批”、“中國人”等詞語,則“一批”、“中國人”等詞語,在每一初始網(wǎng)站類別中都常見,可以將“一批”、“中國人”等詞語作為無效詞語,并移除無效詞語;“利率”、“貸款”等詞語,在“金融”初始網(wǎng)站類別中常見、在其他初始網(wǎng)站類別中不常見,可以將“利率”、“貸款”等詞語作為有效詞語,保留有效詞語。另外,上述預設的加權算法可以為:TF-IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆向文件頻率)算法、TF-ITF(TermFrequency-InverseTermFrequency,詞頻-逆向詞語頻率)算法、或TF-IDF和TF-ITF這兩種算法的變種算法。根據(jù)上述加權算法對每個有效詞語配置初始權重值為現(xiàn)有技術,此處不再贅述。S103:統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù);例如,統(tǒng)計得到:7個初始網(wǎng)站類別中包括有效詞語“資訊”,初始權重值為3.98;5個初始網(wǎng)站類別中包括有效詞語“汽車”,初始權重值為4.02;3個初始網(wǎng)站類別中包括有效詞語“官方”,初始權重值為4.58;1個初始網(wǎng)站類別中包括有效詞語“就醫(yī)”,初始權重值為5.74,則統(tǒng)計得到每個有效詞語對應的初始網(wǎng)站類別的個數(shù)如表1所示。表1詞語統(tǒng)計得到的個數(shù)初始權重值資訊73.98汽車54.02官方34.58就醫(yī)15.74S104:將統(tǒng)計得到的個數(shù)大于1的有效詞語的初始權重值調小,確定每個有效詞語的最終權重值;具體地,對于每一有效詞語,若統(tǒng)計得到該有效詞語對應的初始網(wǎng)站類別的個數(shù)大于1,說明該有效詞語分布較均勻,對網(wǎng)站分類結果影響較小,需要調小該有效詞語的初始權重值,將調小獲得初始權重值確定為該有效詞語的最終權重值。在本發(fā)明的一個實施例中,可以根據(jù)以下公式,確定每個有效詞語的最終權重值:其中,對于第i個有效詞語,統(tǒng)計得到第i個有效詞語對應的初始網(wǎng)站的個數(shù)大于1,Ki為第i個有效詞語的最終權重值,Qi為第i個有效詞語的初始權重值,Mi為第i個有效詞語對應的初始網(wǎng)站類別的個數(shù),x為預設參數(shù),x>1。這里,x的取值范圍可以為:1.3~6。仍以S103中例子進行說明,若x為2,統(tǒng)計得到“資訊”對應的初始網(wǎng)站類別的個數(shù)為7,7>1,則“資訊”的最終權重值為:同理,計算得到:“汽車”的最終權重值為:K汽車=1.8;“官方”的最終權重值為:K官方=2.64;另外,統(tǒng)計得到“就醫(yī)”對應的初始網(wǎng)站類別的個數(shù)為1,1不大于1,因此不對“就醫(yī)”的初始權重值進行調整,直接將其初始權重值作為其最終權重值,也就是,K就醫(yī)=5.74,如表2所示。表2詞語統(tǒng)計得到的個數(shù)初始權重值資訊73.98汽車54.02官方34.58就醫(yī)15.74S105:對于每個初始網(wǎng)站類別,將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中。值得一提的是,網(wǎng)站分類字典可以為表格形式,也可以為文本形式。所有的網(wǎng)站分類字典可以置于一個分類字典集中,也就是,所有的網(wǎng)站分類字典可以置于一個表格或文本中,如表3所示;當然,每一網(wǎng)站分類字典也可以單獨存儲,也就是,每一網(wǎng)站分類字典置于一個表格或文本中。表3詞語所屬初始網(wǎng)站類別初始權重值最終權重值資訊下載3.981.5汽車購物4.021.8官方游戲4.582.64就醫(yī)醫(yī)療5.745.74在將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中之后,網(wǎng)站分類字典構建完成,此時,就可以對網(wǎng)站進行分類了。一般的,參考圖2,圖2為基于網(wǎng)站分類字典的網(wǎng)站分類方法的流程示意圖,該方法可以包括:S201:獲取待分類網(wǎng)站的第一網(wǎng)頁內容,并對所述第一網(wǎng)頁內容的文本信息進行分詞,獲得至少一個第一有效詞語;這里,待分類網(wǎng)站可以為用戶需要去訪問的網(wǎng)站,也可以為用戶預先設定的一個網(wǎng)站。一般的,首先獲取待分類網(wǎng)站的URL,采用網(wǎng)絡爬蟲工具訪問該URL,獲取該待分類網(wǎng)站的網(wǎng)頁內容;提取網(wǎng)頁內容中的文本信息,并對提取到的文本信息進行分詞,獲得至少一個第一有效詞語。S202:根據(jù)各個網(wǎng)站分類字典,確定針對每一初始網(wǎng)站類別的每個第一有效詞語的第一最終權重值;S203:確定第一最終權重值之和最大的初始網(wǎng)站類別為所述待分類網(wǎng)站的網(wǎng)站類別。例如,從第一網(wǎng)頁內容中獲得的第一有效詞語有:X1、X2、X3、X4和X5,每一第一有效詞語與各個初始網(wǎng)站分類的網(wǎng)站分類字典中的有效詞語進行匹配,確定:“體育”初始網(wǎng)站分類的網(wǎng)站分類字典:X1的第一最終權重值為100;X2的第一最終權重值為200;X3的第一最終權重值為240;X4的第一最終權重值為70;X5的第一最終權重值為300;“購物”初始網(wǎng)站分類的網(wǎng)站分類字典:X1的第一最終權重值為400;X2的第一最終權重值為300;X3的第一最終權重值為500;X4的第一最終權重值為1460;X5的第一最終權重值為1330;“商業(yè)”初始網(wǎng)站分類的網(wǎng)站分類字典:X1的第一最終權重值為50;X2的第一最終權重值為100;X3的第一最終權重值為300;X4的第一最終權重值為20;X5的第一最終權重值為150;根據(jù)上述獲得的第一最終權重值,計算得到每一初始網(wǎng)站類別對應的第一最終權重值之和分別為:“體育”初始網(wǎng)站分類的第一最終權重值之和為:910;“購物”初始網(wǎng)站分類的第一最終權重值之和為:2990;“商業(yè)”初始網(wǎng)站分類的第一最終權重值之和為:620;此時,“購物”初始網(wǎng)站分類的第一最終權重值之和最大,可以確定該待分類網(wǎng)站的網(wǎng)站類別為“購物”。本發(fā)明實施例提供了一種網(wǎng)站分類字典的構建方法,根據(jù)預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的樣本網(wǎng)站的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,進而為每個有效詞語配置初始權重值;另外,統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù),也就是確定每個有效詞語所屬的初始網(wǎng)站類別的個數(shù),對于每個有效詞語,若統(tǒng)計得到的個數(shù)大于1,則調小該有效詞語的初始權重值,進而確定該有效詞語的最終權重值,將每個有效詞語和最終權重值對應存儲至初始網(wǎng)站類別的網(wǎng)站分類字典中??梢姳景l(fā)明實施例中,考慮了詞語在各個網(wǎng)站分類字典中的分布情況,權重值的設置更加合理,因此,用本發(fā)明實施例的方法構建的網(wǎng)站分類字典進行分類,能夠提高網(wǎng)站分類的準確度。參考圖3,圖3為本發(fā)明實施例提供的一種網(wǎng)站分類字典的構建裝置的結構示意圖,該裝置包括:第一獲取單元301,用于獲取預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的網(wǎng)頁內容;其中,N為正整數(shù);第一確定單元302,用于根據(jù)所獲取的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,并為每個有效詞語配置初始權重值;統(tǒng)計單元303,用于統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù);調整單元304,用于將統(tǒng)計得到的個數(shù)大于1的有效詞語的初始權重值調小,確定每個有效詞語的最終權重值;存儲單元305,用于對于每個初始網(wǎng)站類別,將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中。在本發(fā)明的一個實施例,所述第一獲取單元301,具體可以用于:獲取預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的至少一個樣本網(wǎng)站的統(tǒng)一資源定位符URL;訪問所獲取的URL,獲取每個樣本網(wǎng)站的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的網(wǎng)頁內容。在本發(fā)明的一個實施例,所述第一確定單元302,具體可以用于:對于每個初始網(wǎng)站類別,移除對應的每個樣本網(wǎng)站的網(wǎng)頁內容中的無用字符集,對對應的每個樣本網(wǎng)站的網(wǎng)頁內容進行分詞,移除無效詞語,獲得至少一個有效詞語;根據(jù)預設的加權算法,為每個有效詞語配置初始權重值。在本發(fā)明的一個實施例,所述調整單元304,具體可以用于:根據(jù)以下公式,確定每個有效詞語的最終權重值:其中,對于第i個有效詞語,統(tǒng)計得到第i個有效詞語對應的初始網(wǎng)站的個數(shù)大于1,Ki為第i個有效詞語的最終權重值,Qi為第i個有效詞語的初始權重值,Mi為第i個有效詞語對應的初始網(wǎng)站類別的個數(shù),x為預設參數(shù),x>1。這里,x的取值范圍可以為:1.3~6。在本發(fā)明的一個實施例,參考圖4,在圖3的基礎上,該裝置還可以包括:第二獲取單元401,用于在將對應的每個有效詞語和最終權重值對應存儲至該初始網(wǎng)站類別的網(wǎng)站分類字典中之后,獲取待分類網(wǎng)站的第一網(wǎng)頁內容,并對所述第一網(wǎng)頁內容的文本信息進行分詞,獲得至少一個第一有效詞語;第二確定單元402,用于根據(jù)各個網(wǎng)站分類字典,確定針對每一初始網(wǎng)站類別的每個第一有效詞語的第一最終權重值;分類單元403,用于確定第一最終權重值之和最大的初始網(wǎng)站類別為所述待分類網(wǎng)站的網(wǎng)站類別。本發(fā)明實施例提供了一種網(wǎng)站分類字典的構建裝置,根據(jù)預設的N個初始網(wǎng)站類別中的每個初始網(wǎng)站類別對應的樣本網(wǎng)站的網(wǎng)頁內容,確定每個初始網(wǎng)站類別對應的有效詞語,進而為每個有效詞語配置初始權重值;另外,統(tǒng)計每個有效詞語對應的初始網(wǎng)站類別的個數(shù),也就是確定每個有效詞語所屬的初始網(wǎng)站類別的個數(shù),對于每個有效詞語,若統(tǒng)計得到的個數(shù)大于1,則調小該有效詞語的初始權重值,進而確定該有效詞語的最終權重值,將每個有效詞語和最終權重值對應存儲至初始網(wǎng)站類別的網(wǎng)站分類字典中??梢姳景l(fā)明實施例中,考慮了詞語在各個網(wǎng)站分類字典中的分布情況,權重值的設置更加合理,因此,用本發(fā)明實施例的方法構建的網(wǎng)站分類字典進行分類,能夠提高網(wǎng)站分類的準確度。對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例的部分說明即可。需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。本領域普通技術人員可以理解實現(xiàn)上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質中,這里所稱得的存儲介質,如:ROM/RAM、磁碟、光盤等。以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內。當前第1頁1 2 3