亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于專家系統(tǒng)url清洗知識庫的“垃圾”內(nèi)容過濾方法

文檔序號:6542487閱讀:243來源:國知局
基于專家系統(tǒng)url清洗知識庫的“垃圾”內(nèi)容過濾方法
【專利摘要】基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法,屬于海量大數(shù)據(jù)清洗、數(shù)據(jù)顧慮領(lǐng)域。本發(fā)明采用人工智能專家系統(tǒng)的方法,通過“完全URL”、“含一級域名”、“不含一級域名”、“完整域名”和“不完整域名”等分類規(guī)則的推理,以及與其List下的“左側(cè)”、“左右”、“包含”和“右側(cè)”等分類知識的匹配;若數(shù)據(jù)清洗推理匹配成功,則對“URL清洗知識庫”實時進(jìn)行更新,將該訪問記錄頁面從原始的“移動互聯(lián)網(wǎng)訪問記錄”中清洗掉,即刪除,數(shù)據(jù)清洗結(jié)束。若推理匹配失敗,則數(shù)據(jù)清洗失敗。對URL清洗知識庫的更新,使系統(tǒng)變得越來聰明,不僅提高了清洗過濾的效率,更重要是提高了內(nèi)容分類的覆蓋面和準(zhǔn)確程度。
【專利說明】基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)清洗、數(shù)據(jù)過濾領(lǐng)域,特別是涉及到一個基于專家系統(tǒng)URL清洗知識庫的移動互聯(lián)網(wǎng)訪問內(nèi)容的“垃圾”過濾方法。
【背景技術(shù)】
[0002]隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,特備是3G、4G互聯(lián)網(wǎng)普及,原本只有專業(yè)和時尚人士上網(wǎng)變成草根屌絲們都能上網(wǎng),帶來了全民上網(wǎng)的信息化時代,造成信息爆炸。有效的組織管理好互聯(lián)網(wǎng)信息,并從這些海量的大數(shù)據(jù)中快速、準(zhǔn)確、全面的獲取客戶的興趣特征,是對當(dāng)今信息科學(xué)【技術(shù)領(lǐng)域】的一大挑戰(zhàn)。數(shù)據(jù)清洗技術(shù),作為處理海量互聯(lián)網(wǎng)文本數(shù)據(jù)的關(guān)鍵技術(shù),可以解決電信運營商智能營銷的問題,達(dá)到提高效率、降低成本、減少投訴、增加收益精細(xì)化運營的目的。
[0003]中國移動、中國電/[目和中國聯(lián)通二大運營商每天從固網(wǎng)(IP網(wǎng))、移動互聯(lián)網(wǎng)(2G、3G、4G)從DPI分光數(shù)據(jù)中獲取的移動互聯(lián)網(wǎng)訪問數(shù)據(jù)規(guī)模,小者幾億條訪問記錄,多者上百億,因此數(shù)據(jù)清洗過濾工作是用戶移動互聯(lián)網(wǎng)訪問行為分析的基礎(chǔ)。傳統(tǒng)數(shù)據(jù)清洗主要目的是保持?jǐn)?shù)據(jù)一致性,處理無效值和缺失值,即處理不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)。但是,移動互聯(lián)網(wǎng)訪問數(shù)據(jù)清洗不僅要清洗傳統(tǒng)意義上的噪聲或臟數(shù)據(jù),還要清洗掉導(dǎo)航、統(tǒng)計、功能、接口、腳本、天氣、流量、登錄、下載、版權(quán)等不是用戶最終訪問內(nèi)容(頁面URL)。因此,這部分內(nèi)容對于用戶訪問興趣偏好就是“垃圾”,這也正是本發(fā)明要解決的問題。

【發(fā)明內(nèi)容】

[0004]鑒于以上存在的問題,本發(fā)明的目的在于:提供一種通過人工智能專家系統(tǒng)構(gòu)建的基于“URL清洗知識庫”的“垃圾”內(nèi)容過濾方法,旨在解決電信運營商百億級海量“垃圾”內(nèi)容(頁面URL)清洗的問題。
[0005]本發(fā)明的目的是通過如下技術(shù)方案實現(xiàn):
[0006]一種基于專家系統(tǒng)的URL清洗知識庫的“垃圾”內(nèi)容過濾方法,其特征在于,包括如下步驟:
[0007](I)格式驗證:完整性驗證,即訪問記錄的核心字段是否包括用戶ID,URL格式,訪問時間(包括日期YYYY-MM-DD和時間HH:MM:SS),只要不包括其中一個字段,即為數(shù)據(jù)不完整,則清洗掉該條記錄;一致性驗證是驗證用戶ID、URL和訪問時間格式是否規(guī)范,若不規(guī)范,則清洗掉該條記錄;
[0008](2) “完全URL”垃圾清洗推理:從“URL清洗知識庫”讀取清洗知識,在完全URL特征的Hash散列表中,推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征?若存在,執(zhí)行步驟(7)推理。若不存在,則進(jìn)行步驟(3)推理;
[0009](3) “含一級域名”垃圾清洗推理;從原始URL中截取“一級域名”,構(gòu)造為特征容器包裝類TSDL,在“一級域名”特征的Hash散列表中,推理是否存在TSDL為“垃圾”頁面的特征。若存在“一級域名”,則進(jìn)行步驟(5)推理。若不存在,則執(zhí)行步驟(4)推理;
[0010](4) “不含一級域名”垃圾清洗推理:若不存在“一級域名”,則獲取不含一級域名“垃圾”頁面特征知識的List,在List中包括后綴、左側(cè)、左右和包含四類匹配知識,按照知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功,則執(zhí)行步驟(7)推理。若匹配失敗,則數(shù)據(jù)清洗結(jié)束。
[0011](5) “完整域名”垃圾清洗推理:從原始URL中截取“完整域名”,構(gòu)造為特征容器包裝類DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN為“垃圾”頁面的特征;若存在“完整域名”,則獲取完整域名“垃圾”頁面特征知識的List,在List中有右側(cè)匹配知識和包含匹配知識,如果匹配成功,執(zhí)行步驟(7)推理,如果匹配失敗,執(zhí)行步驟(6)推理;
[0012](6) “不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,則獲取不完整域名“垃圾”特征的知識List,在List中包括左側(cè)、左右和包含三類匹配知識,按照“不完整域名”知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功,則執(zhí)行步驟(7)推理。若匹配失敗,則執(zhí)行步驟(4)推理;
[0013](7)若清洗推理匹配成功,則對“URL清洗知識庫”進(jìn)行更新,同時在原始“移動互聯(lián)網(wǎng)訪問記錄”中刪除“垃圾”數(shù)據(jù),數(shù)據(jù)清洗結(jié)束。
[0014]其中步驟(2)中的“URL清洗知識庫”的初始集建立,其特征在于:是通過一天的“基于客戶移動互聯(lián)網(wǎng)訪問行為分析” Top排名的“垃圾”頁面作為訓(xùn)練集,通過下一天Top排名的“垃圾”頁面作為測試集,反復(fù)測試,直至達(dá)到要求的覆蓋率后而建立完成,其是一個機器分析人工驗證的過程。
[0015]所述步驟(7)中的“URL清洗知識庫”知識更新,其步驟包括:
[0016](I)根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析,計算出“垃圾”頁面URL的PV值(PageView值)和置信度,并給出“垃圾”頁面和對應(yīng)的URL特征的Top排名;
[0017](2)新增URL清洗知識的添加:根據(jù)“垃圾”頁面的置信度,經(jīng)人工確認(rèn),將新URL清洗知識添加到規(guī)則中,即將完全匹配、一級域名和完整域名Hash特征包裝類中的知識添加到“URL清洗知識庫”中,和將特征包裝類構(gòu)造下的List中的后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)貝U、包含規(guī)則和左右規(guī)則中的知識添加到“URL清洗知識庫”中;
[0018](3)URL清洗推理規(guī)則的更新:實時更新基于URL清洗的推理規(guī)則,即在完全匹配、一級域名和完整域名Hash特征包裝類中更新檢索序列,在特征包裝類構(gòu)造下的List中更新后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中更新URL清洗知識的推理優(yōu)先級別;
[0019](4) URL清洗陳舊知識的刪除:根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析,若URL清洗知識N天沒有被使用過,則認(rèn)定為陳舊知識,從“URL清洗知識庫”中刪除。N為預(yù)先設(shè)置的閾值。
[0020]本發(fā)明方案的工作原理及技術(shù)效果:
[0021]本發(fā)明涉及到一個專家系統(tǒng)(ExpertSystem),起源于20世紀(jì)60年代,屬于人工智能的一個發(fā)展分支,是一個或一組能在某些特定領(lǐng)域內(nèi),應(yīng)用大量的專家知識和推理方法求解復(fù)雜問題的一種人工智能計算機程序。通常由人機交互界面、知識庫、推理機、解釋器、綜合數(shù)據(jù)庫、知識獲取等6個部分構(gòu)成。本發(fā)明只涉及基于“URL清洗知識庫”的頁面URL的內(nèi)容分類推理方法,不涉及專家系統(tǒng)的人機交互界面、解釋器、綜合數(shù)據(jù)庫和知識獲取。
[0022]本發(fā)明是涉及到一個完整URL構(gòu)成:協(xié)議://用戶名:密碼@子域名.域名.頂級域名:端口號/目錄/文件名.文件后綴?參數(shù)=值#標(biāo)志。頂級域名分為國際和國內(nèi),如,.com為國際頂級域名,.cn為國家頂級域名。一級域名是在頂級域名前再加一級,如baidu.com、sina.com.cn ; 二級域名是在一級域名前再加一級,如music, baidu.com、sports, sina.com.cn,以此類推N級域名。本發(fā)明中的完整域名=子域名+域名+頂級域名。
[0023]本發(fā)明對如此復(fù)雜的、海量的訪問數(shù)據(jù),首先要根據(jù)“URL清洗知識庫”,然后調(diào)用“URL清洗推理機”對數(shù)據(jù)進(jìn)行清洗,清洗掉圖片、導(dǎo)航、功能、統(tǒng)計、天氣、錯誤、流量、登錄、下載、版權(quán)、接口、腳本等不是“有效”訪問內(nèi)容的“垃圾”頁面信息。
[0024]本發(fā)明涉及到的“URL清洗知識庫”中的知識由兩種形式組成:
[0025]I) “完整URL”、“一級域名”和“完整域名”構(gòu)成的Hash Table知識
[0026]2)由通配符組成URL集合的左側(cè)匹配、右側(cè)匹配、左右匹配和包含匹配等List知識
[0027]“URL清洗知識庫”初始集的建立是通過移動互聯(lián)網(wǎng)客戶行為分析,獲取一天“垃圾”頁面URL瀏覽數(shù)(PV值)的Top N排名作為訓(xùn)練集,再用下一天“垃圾”頁面URL瀏覽數(shù)的Top N排名作為測試集,來檢查分析“垃圾”頁面抽取的準(zhǔn)確性和覆蓋程度是否達(dá)到預(yù)想的M%。當(dāng)覆蓋程度達(dá)到1%以上時,則“URL清洗知識庫”初始集建立完成。當(dāng)覆蓋程度達(dá)不到11%時,則再取下一天的Top N “垃圾”頁面數(shù)據(jù)作為訓(xùn)練集繼續(xù)訓(xùn)練,直至達(dá)到為止。其中:N和M%為預(yù)先設(shè)置的經(jīng)驗閾值。
[0028]本發(fā)明中的“URL清洗推理機”是基于Hash散列表數(shù)據(jù)結(jié)構(gòu)架構(gòu)下,其清洗推理過程如下:
[0029]格式驗證:驗證訪問數(shù)據(jù)的完整性和一致性,完整性是驗證訪問記錄的核心字段是否包括用戶ID,URL格式,訪問時間(包括日期YYYY-MM-DD和時間HH:麗:SS)等,只要不包括其中一個字段,即為數(shù)據(jù)不完整,則清洗掉該條記錄。一致性是驗證用戶ID和訪問時間格式是否規(guī)范,若不規(guī)范,則清洗掉該條記錄。
[0030]在格式驗證的基礎(chǔ)上,從“URL清洗知識庫”中讀取清洗知識,在“完全URL”特征的Hash散列表中,進(jìn)行“完全URL”推理,即推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征?例如:在某一時間段內(nèi),在Hash散列表中存儲的“完全URL”為“垃圾”頁面特征的知識如下:
[0031]
【權(quán)利要求】
1.基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法,其特征在于,包括: (1)格式驗證:完整性驗證,即訪問記錄的核心字段是否包括用戶ID,URL格式,訪問時間,只要不包括其中一個字段,即為數(shù)據(jù)不完整,則清洗掉該條記錄;一致性驗證是驗證用戶ID、URL和訪問時間格式是否規(guī)范,若不規(guī)范,則清洗掉該條記錄; (2)“完全URL”垃圾清洗推理:從“URL清洗知識庫”讀取清洗知識,在完全URL特征的Hash散列表中,推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征?若存在,執(zhí)行步驟(7)推理;若不存在,則進(jìn)行步驟(3)推理; (3)“含一級域名”垃圾清洗推理;從原始URL中截取“一級域名”,構(gòu)造為特征容器包裝類TSDL,在“一級域名”特征的Hash散列表中,推理是否存在TSDL為“垃圾”頁面的特征。若存在“一級域名”,則進(jìn)行步驟(5)推理;若不存在,則執(zhí)行步驟(4)推理; (4)“不含一級域名”垃圾清洗推理:若不存在“一級域名”,則獲取不含一級域名“垃圾”頁面特征知識的List,在List中包括后綴、左側(cè)、左右和包含四類匹配知識,按照知識特征的置信度降冪順序進(jìn)行匹配推理;若匹配成功,則執(zhí)行步驟(7)推理;若匹配失敗,則數(shù)據(jù)清洗結(jié)束; (5)“完整域名”垃圾清洗推理:從原始URL中截取“完整域名”,構(gòu)造為特征容器包裝類DOMAIN,在完整域名特征的Hash散列表中,推理是否存在DOMAIN為“垃圾”頁面的特征;若存在“完整域名”,則獲取完整域名“垃圾”頁面特征知識的List,在List中有右側(cè)匹配知識和包含匹配知識,如果匹配成功,執(zhí)行步驟(7)推理,如果匹配失敗,執(zhí)行步驟(6)推理; (6)“不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”,則獲取不完整域名“垃圾”特征的知識List,在List中包括左側(cè)、左右和包含三類匹配知識,按照“不完整域名”知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功,則執(zhí)行步驟(7)推理。若匹配失敗,則執(zhí)行步驟(4)推理; (7)若清洗推理匹配成功,則對“URL清洗知識庫”進(jìn)行更新,同時在原始“移動互聯(lián)網(wǎng)訪問記錄”中刪除“垃圾”數(shù)據(jù),數(shù)據(jù)清洗結(jié)束。
2.如權(quán)利要求1所述的基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法,其特征在于,所述的步驟(7)中的“URL清洗知識庫”需要定期進(jìn)行知識更新,其步驟如下: (1)根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析,計算出“垃圾”頁面URL的PV值(PageView值)和置信度,并給出“垃圾”頁面和對應(yīng)的URL特征的Top排名; (2)新增URL清洗知識的添加:根據(jù)“垃圾”頁面的置信度,經(jīng)人工確認(rèn),將新URL清洗知識添加到規(guī)則中,即將完全匹配、一級域名和完整域名Hash特征包裝類中的知識添加到“URL清洗知識庫”中,和將特征包裝類構(gòu)造下的List中的后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中的知識添加到“URL清洗知識庫”中; (3)URL清洗推理規(guī)則的更新:實時更新基于URL清洗的推理規(guī)則,即在完全匹配、一級域名和完整域名Hash特征包裝類中更新檢索序列,在特征包裝類構(gòu)造下的List中更新后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中更新URL清洗知識的推理優(yōu)先級別; (4)URL清洗陳舊知識的刪除:根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析,若URL清洗知識N天沒有被使用過,則認(rèn)定為陳舊知識,從“URL清洗知識庫”中刪除;N即為預(yù)先設(shè)置的閾值。
【文檔編號】G06F17/30GK103902707SQ201410127394
【公開日】2014年7月2日 申請日期:2014年3月31日 優(yōu)先權(quán)日:2014年3月31日
【發(fā)明者】孫宏, 趙曉波, 季海東, 董童霖, 趙宇龍 申請人:遼寧四維科技發(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1