基于專家系統(tǒng)url清洗知識庫的“垃圾”內(nèi)容過濾方法

文檔序號：6542487閱讀：243來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于專家系統(tǒng)url清洗知識庫的“垃圾”內(nèi)容過濾方法
【專利摘要】基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法，屬于海量大數(shù)據(jù)清洗、數(shù)據(jù)顧慮領(lǐng)域。本發(fā)明采用人工智能專家系統(tǒng)的方法，通過“完全URL”、“含一級域名”、“不含一級域名”、“完整域名”和“不完整域名”等分類規(guī)則的推理，以及與其List下的“左側(cè)”、“左右”、“包含”和“右側(cè)”等分類知識的匹配；若數(shù)據(jù)清洗推理匹配成功，則對“URL清洗知識庫”實時進(jìn)行更新，將該訪問記錄頁面從原始的“移動互聯(lián)網(wǎng)訪問記錄”中清洗掉，即刪除，數(shù)據(jù)清洗結(jié)束。若推理匹配失敗，則數(shù)據(jù)清洗失敗。對URL清洗知識庫的更新，使系統(tǒng)變得越來聰明，不僅提高了清洗過濾的效率，更重要是提高了內(nèi)容分類的覆蓋面和準(zhǔn)確程度。
【專利說明】基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于數(shù)據(jù)清洗、數(shù)據(jù)過濾領(lǐng)域，特別是涉及到一個基于專家系統(tǒng)URL清洗知識庫的移動互聯(lián)網(wǎng)訪問內(nèi)容的“垃圾”過濾方法。
【背景技術(shù)】
[0002]隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展，特備是3G、4G互聯(lián)網(wǎng)普及，原本只有專業(yè)和時尚人士上網(wǎng)變成草根屌絲們都能上網(wǎng)，帶來了全民上網(wǎng)的信息化時代，造成信息爆炸。有效的組織管理好互聯(lián)網(wǎng)信息，并從這些海量的大數(shù)據(jù)中快速、準(zhǔn)確、全面的獲取客戶的興趣特征，是對當(dāng)今信息科學(xué)【技術(shù)領(lǐng)域】的一大挑戰(zhàn)。數(shù)據(jù)清洗技術(shù)，作為處理海量互聯(lián)網(wǎng)文本數(shù)據(jù)的關(guān)鍵技術(shù)，可以解決電信運營商智能營銷的問題，達(dá)到提高效率、降低成本、減少投訴、增加收益精細(xì)化運營的目的。
[0003]中國移動、中國電/[目和中國聯(lián)通二大運營商每天從固網(wǎng)(IP網(wǎng))、移動互聯(lián)網(wǎng)(2G、3G、4G)從DPI分光數(shù)據(jù)中獲取的移動互聯(lián)網(wǎng)訪問數(shù)據(jù)規(guī)模，小者幾億條訪問記錄，多者上百億，因此數(shù)據(jù)清洗過濾工作是用戶移動互聯(lián)網(wǎng)訪問行為分析的基礎(chǔ)。傳統(tǒng)數(shù)據(jù)清洗主要目的是保持?jǐn)?shù)據(jù)一致性，處理無效值和缺失值，即處理不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)。但是，移動互聯(lián)網(wǎng)訪問數(shù)據(jù)清洗不僅要清洗傳統(tǒng)意義上的噪聲或臟數(shù)據(jù)，還要清洗掉導(dǎo)航、統(tǒng)計、功能、接口、腳本、天氣、流量、登錄、下載、版權(quán)等不是用戶最終訪問內(nèi)容(頁面URL)。因此，這部分內(nèi)容對于用戶訪問興趣偏好就是“垃圾”，這也正是本發(fā)明要解決的問題。

【發(fā)明內(nèi)容】

[0004]鑒于以上存在的問題，本發(fā)明的目的在于:提供一種通過人工智能專家系統(tǒng)構(gòu)建的基于“URL清洗知識庫”的“垃圾”內(nèi)容過濾方法，旨在解決電信運營商百億級海量“垃圾”內(nèi)容(頁面URL)清洗的問題。
[0005]本發(fā)明的目的是通過如下技術(shù)方案實現(xiàn):
[0006]一種基于專家系統(tǒng)的URL清洗知識庫的“垃圾”內(nèi)容過濾方法，其特征在于，包括如下步驟:
[0007](I)格式驗證:完整性驗證，即訪問記錄的核心字段是否包括用戶ID，URL格式，訪問時間(包括日期YYYY-MM-DD和時間HH:MM:SS)，只要不包括其中一個字段，即為數(shù)據(jù)不完整，則清洗掉該條記錄；一致性驗證是驗證用戶ID、URL和訪問時間格式是否規(guī)范，若不規(guī)范，則清洗掉該條記錄；
[0008](2) “完全URL”垃圾清洗推理:從“URL清洗知識庫”讀取清洗知識，在完全URL特征的Hash散列表中，推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征？若存在，執(zhí)行步驟(7)推理。若不存在，則進(jìn)行步驟(3)推理；
[0009](3) “含一級域名”垃圾清洗推理；從原始URL中截取“一級域名”，構(gòu)造為特征容器包裝類TSDL，在“一級域名”特征的Hash散列表中，推理是否存在TSDL為“垃圾”頁面的特征。若存在“一級域名”，則進(jìn)行步驟(5)推理。若不存在，則執(zhí)行步驟(4)推理；
[0010](4) “不含一級域名”垃圾清洗推理:若不存在“一級域名”，則獲取不含一級域名“垃圾”頁面特征知識的List，在List中包括后綴、左側(cè)、左右和包含四類匹配知識，按照知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功，則執(zhí)行步驟(7)推理。若匹配失敗，則數(shù)據(jù)清洗結(jié)束。
[0011](5) “完整域名”垃圾清洗推理:從原始URL中截取“完整域名”，構(gòu)造為特征容器包裝類DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN為“垃圾”頁面的特征；若存在“完整域名”，則獲取完整域名“垃圾”頁面特征知識的List，在List中有右側(cè)匹配知識和包含匹配知識，如果匹配成功，執(zhí)行步驟(7)推理，如果匹配失敗，執(zhí)行步驟(6)推理；
[0012](6) “不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”，則獲取不完整域名“垃圾”特征的知識List，在List中包括左側(cè)、左右和包含三類匹配知識，按照“不完整域名”知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功，則執(zhí)行步驟(7)推理。若匹配失敗，則執(zhí)行步驟(4)推理；
[0013](7)若清洗推理匹配成功，則對“URL清洗知識庫”進(jìn)行更新，同時在原始“移動互聯(lián)網(wǎng)訪問記錄”中刪除“垃圾”數(shù)據(jù)，數(shù)據(jù)清洗結(jié)束。
[0014]其中步驟(2)中的“URL清洗知識庫”的初始集建立，其特征在于:是通過一天的“基于客戶移動互聯(lián)網(wǎng)訪問行為分析” Top排名的“垃圾”頁面作為訓(xùn)練集，通過下一天Top排名的“垃圾”頁面作為測試集，反復(fù)測試，直至達(dá)到要求的覆蓋率后而建立完成，其是一個機器分析人工驗證的過程。
[0015]所述步驟(7)中的“URL清洗知識庫”知識更新，其步驟包括:
[0016](I)根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析，計算出“垃圾”頁面URL的PV值(PageView值)和置信度，并給出“垃圾”頁面和對應(yīng)的URL特征的Top排名；
[0017](2)新增URL清洗知識的添加:根據(jù)“垃圾”頁面的置信度，經(jīng)人工確認(rèn)，將新URL清洗知識添加到規(guī)則中，即將完全匹配、一級域名和完整域名Hash特征包裝類中的知識添加到“URL清洗知識庫”中，和將特征包裝類構(gòu)造下的List中的后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)貝U、包含規(guī)則和左右規(guī)則中的知識添加到“URL清洗知識庫”中；
[0018](3)URL清洗推理規(guī)則的更新:實時更新基于URL清洗的推理規(guī)則，即在完全匹配、一級域名和完整域名Hash特征包裝類中更新檢索序列,在特征包裝類構(gòu)造下的List中更新后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中更新URL清洗知識的推理優(yōu)先級別；
[0019](4) URL清洗陳舊知識的刪除:根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析，若URL清洗知識N天沒有被使用過，則認(rèn)定為陳舊知識，從“URL清洗知識庫”中刪除。N為預(yù)先設(shè)置的閾值。
[0020]本發(fā)明方案的工作原理及技術(shù)效果:
[0021]本發(fā)明涉及到一個專家系統(tǒng)(ExpertSystem)，起源于20世紀(jì)60年代，屬于人工智能的一個發(fā)展分支，是一個或一組能在某些特定領(lǐng)域內(nèi)，應(yīng)用大量的專家知識和推理方法求解復(fù)雜問題的一種人工智能計算機程序。通常由人機交互界面、知識庫、推理機、解釋器、綜合數(shù)據(jù)庫、知識獲取等6個部分構(gòu)成。本發(fā)明只涉及基于“URL清洗知識庫”的頁面URL的內(nèi)容分類推理方法，不涉及專家系統(tǒng)的人機交互界面、解釋器、綜合數(shù)據(jù)庫和知識獲取。
[0022]本發(fā)明是涉及到一個完整URL構(gòu)成:協(xié)議://用戶名:密碼@子域名.域名.頂級域名:端口號/目錄/文件名.文件后綴？參數(shù)=值#標(biāo)志。頂級域名分為國際和國內(nèi)，如，.com為國際頂級域名，.cn為國家頂級域名。一級域名是在頂級域名前再加一級，如baidu.com、sina.com.cn ; 二級域名是在一級域名前再加一級，如music, baidu.com、sports, sina.com.cn,以此類推N級域名。本發(fā)明中的完整域名=子域名+域名+頂級域名。
[0023]本發(fā)明對如此復(fù)雜的、海量的訪問數(shù)據(jù)，首先要根據(jù)“URL清洗知識庫”，然后調(diào)用“URL清洗推理機”對數(shù)據(jù)進(jìn)行清洗，清洗掉圖片、導(dǎo)航、功能、統(tǒng)計、天氣、錯誤、流量、登錄、下載、版權(quán)、接口、腳本等不是“有效”訪問內(nèi)容的“垃圾”頁面信息。
[0024]本發(fā)明涉及到的“URL清洗知識庫”中的知識由兩種形式組成:
[0025]I) “完整URL”、“一級域名”和“完整域名”構(gòu)成的Hash Table知識
[0026]2)由通配符組成URL集合的左側(cè)匹配、右側(cè)匹配、左右匹配和包含匹配等List知識
[0027]“URL清洗知識庫”初始集的建立是通過移動互聯(lián)網(wǎng)客戶行為分析，獲取一天“垃圾”頁面URL瀏覽數(shù)(PV值)的Top N排名作為訓(xùn)練集，再用下一天“垃圾”頁面URL瀏覽數(shù)的Top N排名作為測試集，來檢查分析“垃圾”頁面抽取的準(zhǔn)確性和覆蓋程度是否達(dá)到預(yù)想的M%。當(dāng)覆蓋程度達(dá)到1%以上時，則“URL清洗知識庫”初始集建立完成。當(dāng)覆蓋程度達(dá)不到11%時，則再取下一天的Top N “垃圾”頁面數(shù)據(jù)作為訓(xùn)練集繼續(xù)訓(xùn)練，直至達(dá)到為止。其中:N和M%為預(yù)先設(shè)置的經(jīng)驗閾值。
[0028]本發(fā)明中的“URL清洗推理機”是基于Hash散列表數(shù)據(jù)結(jié)構(gòu)架構(gòu)下，其清洗推理過程如下:
[0029]格式驗證:驗證訪問數(shù)據(jù)的完整性和一致性，完整性是驗證訪問記錄的核心字段是否包括用戶ID，URL格式，訪問時間(包括日期YYYY-MM-DD和時間HH:麗:SS)等，只要不包括其中一個字段，即為數(shù)據(jù)不完整，則清洗掉該條記錄。一致性是驗證用戶ID和訪問時間格式是否規(guī)范，若不規(guī)范，則清洗掉該條記錄。
[0030]在格式驗證的基礎(chǔ)上，從“URL清洗知識庫”中讀取清洗知識，在“完全URL”特征的Hash散列表中，進(jìn)行“完全URL”推理，即推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征？例如:在某一時間段內(nèi)，在Hash散列表中存儲的“完全URL”為“垃圾”頁面特征的知識如下:
[0031]
【權(quán)利要求】
1.基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法，其特征在于，包括: (1)格式驗證:完整性驗證，即訪問記錄的核心字段是否包括用戶ID，URL格式，訪問時間，只要不包括其中一個字段，即為數(shù)據(jù)不完整，則清洗掉該條記錄；一致性驗證是驗證用戶ID、URL和訪問時間格式是否規(guī)范，若不規(guī)范，則清洗掉該條記錄； (2)“完全URL”垃圾清洗推理:從“URL清洗知識庫”讀取清洗知識，在完全URL特征的Hash散列表中，推理在原始的訪問記錄頁面URL中是否存在“完全URL”為“垃圾”頁面特征？若存在，執(zhí)行步驟(7)推理；若不存在，則進(jìn)行步驟(3)推理； (3)“含一級域名”垃圾清洗推理；從原始URL中截取“一級域名”，構(gòu)造為特征容器包裝類TSDL，在“一級域名”特征的Hash散列表中，推理是否存在TSDL為“垃圾”頁面的特征。若存在“一級域名”，則進(jìn)行步驟(5)推理；若不存在，則執(zhí)行步驟(4)推理； (4)“不含一級域名”垃圾清洗推理:若不存在“一級域名”，則獲取不含一級域名“垃圾”頁面特征知識的List，在List中包括后綴、左側(cè)、左右和包含四類匹配知識，按照知識特征的置信度降冪順序進(jìn)行匹配推理；若匹配成功，則執(zhí)行步驟(7)推理；若匹配失敗，則數(shù)據(jù)清洗結(jié)束； (5)“完整域名”垃圾清洗推理:從原始URL中截取“完整域名”，構(gòu)造為特征容器包裝類DOMAIN，在完整域名特征的Hash散列表中，推理是否存在DOMAIN為“垃圾”頁面的特征；若存在“完整域名”，則獲取完整域名“垃圾”頁面特征知識的List，在List中有右側(cè)匹配知識和包含匹配知識，如果匹配成功，執(zhí)行步驟(7)推理，如果匹配失敗，執(zhí)行步驟(6)推理； (6)“不完整域名”垃圾清洗推理:若在Hash散列表中不存在“完整域名”，則獲取不完整域名“垃圾”特征的知識List，在List中包括左側(cè)、左右和包含三類匹配知識，按照“不完整域名”知識特征的置信度降冪順序進(jìn)行匹配推理。若匹配成功，則執(zhí)行步驟(7)推理。若匹配失敗，則執(zhí)行步驟(4)推理； (7)若清洗推理匹配成功，則對“URL清洗知識庫”進(jìn)行更新，同時在原始“移動互聯(lián)網(wǎng)訪問記錄”中刪除“垃圾”數(shù)據(jù)，數(shù)據(jù)清洗結(jié)束。
2.如權(quán)利要求1所述的基于專家系統(tǒng)URL清洗知識庫的“垃圾”內(nèi)容過濾方法，其特征在于，所述的步驟(7)中的“URL清洗知識庫”需要定期進(jìn)行知識更新，其步驟如下: (1)根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析，計算出“垃圾”頁面URL的PV值(PageView值)和置信度，并給出“垃圾”頁面和對應(yīng)的URL特征的Top排名； (2)新增URL清洗知識的添加:根據(jù)“垃圾”頁面的置信度，經(jīng)人工確認(rèn)，將新URL清洗知識添加到規(guī)則中，即將完全匹配、一級域名和完整域名Hash特征包裝類中的知識添加到“URL清洗知識庫”中，和將特征包裝類構(gòu)造下的List中的后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中的知識添加到“URL清洗知識庫”中； (3)URL清洗推理規(guī)則的更新:實時更新基于URL清洗的推理規(guī)則，即在完全匹配、一級域名和完整域名Hash特征包裝類中更新檢索序列,在特征包裝類構(gòu)造下的List中更新后綴規(guī)則、右側(cè)規(guī)則、左側(cè)規(guī)則、包含規(guī)則和左右規(guī)則中更新URL清洗知識的推理優(yōu)先級別； (4)URL清洗陳舊知識的刪除:根據(jù)客戶移動互聯(lián)網(wǎng)訪問行為分析，若URL清洗知識N天沒有被使用過，則認(rèn)定為陳舊知識，從“URL清洗知識庫”中刪除；N即為預(yù)先設(shè)置的閾值。
【文檔編號】G06F17/30GK103902707SQ201410127394
【公開日】2014年7月2日申請日期:2014年3月31日優(yōu)先權(quán)日:2014年3月31日
【發(fā)明者】孫宏, 趙曉波, 季海東, 董童霖, 趙宇龍申請人:遼寧四維科技發(fā)展有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫宏;趙曉波;季海東;董童霖;趙宇龍
技術(shù)所有人：遼寧四維科技發(fā)展有限公司
我是此專利的發(fā)明人

上一篇：分體式復(fù)合功能輸入裝置制造方法
上一篇：十按鍵集合鍵盤的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

專家系統(tǒng)知識庫的建立相關(guān)技術(shù)

專家系統(tǒng)知識庫相關(guān)技術(shù)

垃圾桶清洗車相關(guān)技術(shù)

清洗垃圾桶相關(guān)技術(shù)

社區(qū)清洗垃圾桶相關(guān)技術(shù)

垃圾桶清洗設(shè)備相關(guān)技術(shù)

垃圾桶清洗機相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于專家系統(tǒng)url清洗知識庫的“垃圾”內(nèi)容過濾方法