亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法

文檔序號(hào):9810613閱讀:791來源:國(guó)知局
對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息采集的技術(shù)領(lǐng)域,具體說是一種對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法。
【背景技術(shù)】
[0002]隨著電子商務(wù)日益普及,消費(fèi)者在商品交易前的貨比三家、交易后的商品評(píng)價(jià)以及與商鋪的交互等網(wǎng)購(gòu)行為,對(duì)商品交易相關(guān)的產(chǎn)品信息、客戶評(píng)價(jià)、電子商鋪等關(guān)聯(lián)訊息的獲取需求日益旺盛。電子商務(wù)網(wǎng)站功能日趨完善,新的電商網(wǎng)站也不斷涌現(xiàn),電商類似的旅游網(wǎng)站以及其他提供各種各樣的信息的網(wǎng)站,擁有海量的數(shù)據(jù),這些數(shù)據(jù)的準(zhǔn)確獲取,需將網(wǎng)頁(yè)中非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)為結(jié)構(gòu)化數(shù)據(jù),以便于程序自動(dòng)處理,完整準(zhǔn)確地獲取數(shù)據(jù)并轉(zhuǎn)化為可利用的信息。
[0003]但是現(xiàn)有的智能算法無(wú)法快速響應(yīng)以下情況:電商網(wǎng)站的頁(yè)面頻繁改版,且種類多樣;政府、企業(yè)類網(wǎng)站,其網(wǎng)站設(shè)計(jì)各不相同,頁(yè)面也不一致;包含Ajax的頁(yè)面;需要靈活增刪字段的情況。

【發(fā)明內(nèi)容】

[0004]本發(fā)明要解決的技術(shù)問題是提供一種對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法。
[0005]本發(fā)明為解決公知技術(shù)中存在的技術(shù)問題所采取的技術(shù)方案是:
本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,包括以下步驟:
A、創(chuàng)建知識(shí)庫(kù);
B、接收并解析萃取請(qǐng)求;
C、與知識(shí)庫(kù)中的知識(shí)進(jìn)行匹配并提取對(duì)應(yīng)的知識(shí)內(nèi)容;
D、從頁(yè)面源碼中萃取出簡(jiǎn)單字段數(shù)據(jù);
E、根據(jù)知識(shí)定義的分組規(guī)則,對(duì)頁(yè)面源碼中數(shù)據(jù)進(jìn)行分組,即拆分出多組數(shù)據(jù);然后對(duì)每組數(shù)據(jù)分別萃取出字段數(shù)據(jù);
F、萃取字段數(shù)據(jù),即對(duì)網(wǎng)頁(yè)數(shù)據(jù)拆分獲取有用數(shù)據(jù);根據(jù)定義字段萃取流程,調(diào)用相應(yīng)的萃取方式,取得字段結(jié)果;
G、對(duì)字段結(jié)果的相應(yīng)數(shù)據(jù)進(jìn)行歸一化和組合;
H、按照字段映射關(guān)系生成存儲(chǔ)數(shù)據(jù)并存儲(chǔ)。
[0006]本發(fā)明還可以采用以下技術(shù)措施:
步驟E中,分組規(guī)則為正則分組、DOM分組和JSON分組中的任一種規(guī)則。
[0007]步驟F中,根據(jù)需求選擇單頁(yè)面數(shù)據(jù)或多頁(yè)面數(shù)據(jù)進(jìn)行萃取。
[0008]進(jìn)行數(shù)據(jù)萃取時(shí)選擇正則解析、DOM解析和JSON解析中的任一種萃取方式。
[0009]進(jìn)行數(shù)據(jù)萃取時(shí)選擇正則解析、DOM解析和JSON解析中多種萃取方式的組合。
[0010]步驟H中,存儲(chǔ)數(shù)據(jù)存儲(chǔ)至Mysql服務(wù)器和Hbase服務(wù)器。[0011 ]本發(fā)明具有的優(yōu)點(diǎn)和積極效果是:
本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法中,通過創(chuàng)建知識(shí)庫(kù),合理地引入了人工智能;可組合多種的數(shù)據(jù)萃取方式獲取字段數(shù)據(jù)、對(duì)頁(yè)面數(shù)據(jù)進(jìn)行分組;并且能夠?qū)μ崛?shù)據(jù)的進(jìn)行后加工,從而能靈活的滿足字段的定制需求。本發(fā)明能夠提升對(duì)頁(yè)面數(shù)據(jù)提取的精準(zhǔn)度,并且可以靈活應(yīng)對(duì)多種復(fù)雜的數(shù)據(jù),包括電商網(wǎng)站、微博、旅游、政府部門、企業(yè)等的網(wǎng)站的數(shù)據(jù),可支持Ajax嵌入頁(yè),可支持網(wǎng)頁(yè)特征改版監(jiān)控。
【附圖說明】
[0012]圖1是本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法所依據(jù)的系統(tǒng)信息架構(gòu);
圖2是本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法的流程圖。
【具體實(shí)施方式】
[0013]以下通過具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)說明。
[0014]如圖1和圖2所示,本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,包括以下步驟:
A、創(chuàng)建知識(shí)庫(kù);
B、接收并解析萃取請(qǐng)求;
C、與知識(shí)庫(kù)中的知識(shí)進(jìn)行匹配并提取對(duì)應(yīng)的知識(shí)內(nèi)容;找到相應(yīng)的知識(shí)時(shí)則進(jìn)行后續(xù)步驟,如未找到相應(yīng)的知識(shí)則返回FALSE
D、從頁(yè)面源碼中萃取出簡(jiǎn)單字段數(shù)據(jù),此步驟中一個(gè)頁(yè)面對(duì)應(yīng)只生成一組數(shù)據(jù);
E、根據(jù)知識(shí)定義的分組規(guī)則,對(duì)頁(yè)面源碼中數(shù)據(jù)進(jìn)行分組(分組規(guī)則包括正則分組、DOM分組和JSON分組),即拆分出多組數(shù)據(jù);然后對(duì)每組數(shù)據(jù)分別萃取出字段數(shù)據(jù),此步驟中一個(gè)頁(yè)面可生成多組數(shù)據(jù);
F、萃取字段數(shù)據(jù),即對(duì)網(wǎng)頁(yè)數(shù)據(jù)拆分獲取有用數(shù)據(jù);根據(jù)定義字段萃取流程,調(diào)用相應(yīng)的萃取方式,取得字段結(jié)果;
G、對(duì)字段結(jié)果的相應(yīng)數(shù)據(jù)進(jìn)行歸一化和組合;
H、按照字段映射關(guān)系生成存儲(chǔ)數(shù)據(jù)并通過存儲(chǔ)插件進(jìn)行存儲(chǔ)。
[0015]本系統(tǒng)底層平臺(tái)采用了 ICE網(wǎng)絡(luò)通信引擎(Internet Communicat1ns Engine ,Ice)和Gearman是分發(fā)任務(wù)的程序框架,對(duì)任務(wù)請(qǐng)求進(jìn)行處理;應(yīng)用正則/D0M/XML/JS0N技術(shù)等開發(fā)相應(yīng)的數(shù)據(jù)萃取插件,添加了分組策略解析多組近似數(shù)據(jù)(如商品評(píng)論),內(nèi)嵌了JS引擎,方便系統(tǒng)的擴(kuò)展。從系統(tǒng)架構(gòu)上看,本發(fā)明的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法中需要涵蓋萃取引擎、存儲(chǔ)引擎、知識(shí)庫(kù)和運(yùn)營(yíng)平臺(tái)幾大部分,其中知識(shí)庫(kù)通過運(yùn)營(yíng)平臺(tái)構(gòu)建,而運(yùn)營(yíng)平臺(tái)向萃取引擎請(qǐng)求萃取結(jié)果,同時(shí)萃取引擎將萃取處理后的數(shù)據(jù)通過存儲(chǔ)引擎存儲(chǔ)至Mysql和Hbase服務(wù)器。
[0016]步驟F中,根據(jù)需求選擇單頁(yè)面數(shù)據(jù)或多頁(yè)面數(shù)據(jù)進(jìn)行萃取。
[0017]根據(jù)輸入數(shù)據(jù)的類別:冊(cè)1^、^(^、乂1^^」&1以及字段提取的需求,定義字段萃取流程,即選取不同的萃取方式或幾種萃取方式組合:正則解析、JSON解析、DOM解析。
[0018]作為萃取結(jié)果的存儲(chǔ)數(shù)據(jù)存儲(chǔ)至Mysql服務(wù)器和Hbase服務(wù)器。
[0019]以上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖然本發(fā)明已以較佳實(shí)施例公開如上,然而,并非用以限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)然會(huì)利用揭示的技術(shù)內(nèi)容作出些許更動(dòng)或修飾,成為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案的內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1.一種對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,包括以下步驟: A、創(chuàng)建知識(shí)庫(kù); B、接收并解析萃取請(qǐng)求; C、與知識(shí)庫(kù)中的知識(shí)進(jìn)行比對(duì),用匹配的知識(shí)提取對(duì)應(yīng)的內(nèi)容; D、從頁(yè)面源碼中萃取出簡(jiǎn)單字段數(shù)據(jù); E、根據(jù)知識(shí)定義的分組規(guī)則,對(duì)頁(yè)面源碼中數(shù)據(jù)進(jìn)行分組,即拆分出多組數(shù)據(jù);然后對(duì)每組數(shù)據(jù)分別萃取出字段數(shù)據(jù); F、萃取字段數(shù)據(jù),即對(duì)網(wǎng)頁(yè)數(shù)據(jù)拆分獲取有用數(shù)據(jù);根據(jù)定義字段萃取流程,調(diào)用相應(yīng)的萃取方式,取得字段結(jié)果; G、對(duì)字段結(jié)果的相應(yīng)數(shù)據(jù)進(jìn)行歸一化和組合; H、按照字段映射關(guān)系生成存儲(chǔ)數(shù)據(jù)并存儲(chǔ)。2.根據(jù)權(quán)利要求1所述的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,其特征在于:步驟E中,分組規(guī)則為正則分組、DOM分組和JSON分組中的任一種規(guī)則。3.根據(jù)權(quán)利要求1或2所述的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,其特征在于:步驟F中,根據(jù)需求選擇單頁(yè)面數(shù)據(jù)或多頁(yè)面數(shù)據(jù)進(jìn)行萃取。4.根據(jù)權(quán)利要求3所述的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,其特征在于:進(jìn)行數(shù)據(jù)萃取時(shí)選擇正則解析、DOM解析和JSON解析中的任一種萃取方式。5.根據(jù)權(quán)利要求3所述的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,其特征在于:進(jìn)行數(shù)據(jù)萃取時(shí)選擇正則解析、DOM解析和JSON解析中多種萃取方式的組合。6.根據(jù)權(quán)利要求1所述的對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,其特征在于:步驟H中,存儲(chǔ)數(shù)據(jù)存儲(chǔ)至Mysql服務(wù)器和Hbase服務(wù)器。
【專利摘要】一種對(duì)互聯(lián)網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)字段的人工智能萃取方法,通過創(chuàng)建知識(shí)庫(kù),合理地引入了人工智能;可組合正則、DOM、JSON等多種數(shù)據(jù)萃取方式獲取字段數(shù)據(jù)、對(duì)頁(yè)面數(shù)據(jù)進(jìn)行分組;并且能夠?qū)μ崛?shù)據(jù)的進(jìn)行后加工,從而能靈活的滿足字段的定制需求。本發(fā)明能夠提升對(duì)頁(yè)面數(shù)據(jù)提取的精準(zhǔn)度,并且可以靈活應(yīng)對(duì)多種復(fù)雜的數(shù)據(jù),包括電商網(wǎng)站、微博、旅游、政府部門、企業(yè)等的網(wǎng)站的數(shù)據(jù),可支持Ajax嵌入頁(yè),可支持網(wǎng)頁(yè)特征改版監(jiān)控。
【IPC分類】G06F17/30
【公開號(hào)】CN105574086
【申請(qǐng)?zhí)枴緾N201510910408
【發(fā)明人】張寶洪, 張作職
【申請(qǐng)人】天津海量信息技術(shù)有限公司
【公開日】2016年5月11日
【申請(qǐng)日】2015年12月10日
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1