亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于機器學習的招聘信息解析系統(tǒng)及其方法

文檔序號:10512384閱讀:287來源:國知局
基于機器學習的招聘信息解析系統(tǒng)及其方法
【專利摘要】本發(fā)明涉及基于機器學習的招聘信息解析系統(tǒng)及其方法,解析系統(tǒng)包括數(shù)據(jù)采集模型和機器學習模型;所述數(shù)據(jù)采集模型爬取互聯(lián)網(wǎng)招聘網(wǎng)站的不規(guī)則的招聘網(wǎng)頁信息進行解析并生成訓練數(shù)據(jù);機器學習模型包括單信息源模型以及處理各類信息源的綜合模型,單信息源模型是由訓練數(shù)據(jù)中的單信息源模塊分類數(shù)據(jù)訓練所得,綜合模型是由訓練數(shù)據(jù)中的綜合信息詳細分類數(shù)據(jù)訓練所得,互聯(lián)網(wǎng)招聘網(wǎng)站、數(shù)據(jù)采集模型與機器學習模型連接,所采用的機器學習模型為條件隨機場模型。招聘網(wǎng)頁信息經(jīng)過分析后得到訓練數(shù)據(jù)后詳細分類,采用機器學習模型中的條件隨機場模型來對招聘信息中的具體語句塊與短語進行分類標注,處理正則表達式不能匹配的數(shù)據(jù),有效處理復雜或者新型職位的招聘信息解析與分析問題。
【專利說明】
基于機器學習的招聘信息解析系統(tǒng)及其方法
技術領域
[0001]本發(fā)明涉及招聘信息解析系統(tǒng),更具體地說是指基于機器學習的招聘信息解析系統(tǒng)及其方法。
【背景技術】
[0002]現(xiàn)有招聘信息解析與分析系統(tǒng)只能利用人為制定的規(guī)則來提取企業(yè)招聘崗位的各項需求與職責,并且不能對所解析的信息進行有效分析。
[0003]但隨著社會發(fā)展與行業(yè)職能的細分,招聘簡歷信息復雜度大大提升,而且書寫格式區(qū)別較大,給原始解析系統(tǒng)造成了解析困難。人為通過正則表達式制定的規(guī)則已經(jīng)不能滿足目前招聘信息解析的準確性需求,與進一步分析其招聘目標的需求。

【發(fā)明內(nèi)容】

[0004]本發(fā)明的目的在于克服現(xiàn)有技術的缺陷,提供基于機器學習的招聘信息解析系統(tǒng)及其方法。
[0005]為實現(xiàn)上述目的,本發(fā)明采用以下技術方案:基于機器學習的招聘信息解析系統(tǒng),包括數(shù)據(jù)采集模型和機器學習模型;所述數(shù)據(jù)采集模型爬取互聯(lián)網(wǎng)招聘網(wǎng)站的不規(guī)則的招聘網(wǎng)頁信息進行解析并生成訓練數(shù)據(jù);所述機器學習模型包括單信息源模型以及處理各類信息源的綜合模型,所述單信息源模型是由所述訓練數(shù)據(jù)中的單信息源模塊分類數(shù)據(jù)訓練所得,所述綜合模型是由所述訓練數(shù)據(jù)中的綜合信息詳細分類數(shù)據(jù)訓練所得,所述互聯(lián)網(wǎng)招聘網(wǎng)站、數(shù)據(jù)采集模型分別與所述機器學習模型連接,所采用的所述機器學習模型為輸入不規(guī)則的文本信息后輸出所要提取的有信息的程序,該程序是根據(jù)實際情況采用條件隨機場模型。
[0006]其進一步技術方案為:所述訓練數(shù)據(jù)包括模塊分類數(shù)據(jù)以及詳細分類數(shù)據(jù),所述單信息源模型由所述模塊分類數(shù)據(jù)訓練所得,所述綜合模型由所述詳細分類數(shù)據(jù)訓練得到。
[0007]其進一步技術方案為:所述模塊分類數(shù)據(jù)包括崗位職責,任職要求,薪酬福利,公司介紹以及聯(lián)系方式。
[0008]其進一步技術方案為:所述詳細分類數(shù)據(jù)是所述模塊分類數(shù)據(jù)的子分類。
[0009]其進一步技術方案為:所述綜合模型包含一個模塊分類模型與一個詳細分類模型;所述模塊分類模型由所述模塊分類數(shù)據(jù)訓練得到,且所述模塊分類模型與所述詳細分類機器學習模型連接。
[0010]本發(fā)明還提供了基于機器學習的招聘信息解析系統(tǒng)的搭建方法,其具體步驟如下:
[0011]步驟1.通過互聯(lián)網(wǎng)招聘網(wǎng)站,網(wǎng)絡爬蟲對預先指定的網(wǎng)站進行搜索,抓取其中的招聘網(wǎng)頁信息,對網(wǎng)頁的文本信息進行正則表達式搜索,通過正則表達式搜索相關的信息,并按已有標簽分類存儲;
[0012]步驟2.如果網(wǎng)頁中無法通過正則表達式搜索到相關信息,或者通過正則表達式搜索出來的信息不夠全面,將同一來源高質(zhì)量規(guī)則化數(shù)據(jù)利用正則表達式解析,生成用于機器學習模型的訓練數(shù)據(jù),利用已有的數(shù)據(jù)標簽,在大量數(shù)據(jù)中進行直接的匹配標注,生成大量的包含不規(guī)則表達模式的訓練數(shù)據(jù);
[0013]步驟3.模型訓練分為兩步,第一步訓練模塊分類標注模型,第二步訓練詳細分類標注模型;第一步的模型輸出要作為第二步的模型輸入;
[0014]步驟4.首先將所有數(shù)據(jù)統(tǒng)一,進行綜合訓練,得到一個可以處理各類信息源的綜合模型;
[0015]步驟5.針對不同信息源,只利用同信息源數(shù)據(jù)訓練子模型(每個信息源有一個模塊分類模型與一個訓練分類模型),用來處理信息源明確的數(shù)據(jù),加速解析準確度;
[0016]步驟6.利用已有正則表達式處理分類好的數(shù)據(jù),將不能匹配的數(shù)據(jù)提取出來進一步增強正則表達式與分類模型,行程閉環(huán)系統(tǒng),增強系統(tǒng)覆蓋性與準確性。
[0017]本發(fā)明還提供了一種基于機器學習的招聘信息解析系統(tǒng)的運行方法,其步驟如下:
[0018]步驟1.輸入招聘網(wǎng)頁地址或直接輸入招聘信息;
[0019]步驟2.自動獲取解析網(wǎng)頁內(nèi)容,按照網(wǎng)頁標簽與內(nèi)容,利用機器學習模型與專家系統(tǒng)將招聘信息粗分塊;
[0020]步驟3.將粗分塊信息進行詳細分類。
[0021]其進一步技術方案為:所述的步驟1,網(wǎng)頁內(nèi)容包括是否包含網(wǎng)頁信息以及純文本信息,按照網(wǎng)頁是否包含網(wǎng)頁信息或純文本信息進行標簽后在進行粗分塊。
[0022]其進一步技術方案為:所述的步驟2,在執(zhí)行整個系統(tǒng)的運行流程中,首先判斷網(wǎng)頁內(nèi)容是否包含網(wǎng)頁信息,如果是,則進行單信息源正則表達匹配,以便得到模塊分類數(shù)據(jù);若網(wǎng)頁內(nèi)容是純文本信息,則通過機器學習綜合模型以及正則表達匹配進行處理后得到模塊與詳細分類初步數(shù)據(jù)。
[0023]其進一步技術方案為:所述的步驟3,所述模塊分類數(shù)據(jù)經(jīng)過機器學習單信息源模型以及正則表達匹配處理后,得到詳細分類數(shù)據(jù);模塊與詳細分類初步數(shù)據(jù)經(jīng)過所述綜合模型處理后得到所述詳細分類數(shù)據(jù)。
[0024]本發(fā)明與現(xiàn)有技術相比的有益效果是:本發(fā)明的基于機器學習的招聘信息解析系統(tǒng),通過互聯(lián)網(wǎng)招聘網(wǎng)站與機器學習模型連接,將招聘網(wǎng)頁信息經(jīng)過分析后得到訓練數(shù)據(jù),在由訓練數(shù)據(jù)詳細分類,采用機器學習模型中的條件隨機場模型來對招聘信息中的具體語句塊與短語進行分類標注,處理正則表達式處理不能匹配的數(shù)據(jù),有效處理復雜或者新型職位的招聘信息解析與分析問題。
[0025]下面結(jié)合附圖和具體實施例對本發(fā)明作進一步描述。
【附圖說明】
[0026]圖1為本發(fā)明具體實施例提供基于機器學習的招聘信息解析系統(tǒng)的搭建流程圖;
[0027]圖2為本發(fā)明具體實施例提供基于機器學習的招聘信息解析系統(tǒng)的運行流程圖。
[0028]附圖標記
[0029]10互聯(lián)網(wǎng)招聘網(wǎng)站101網(wǎng)絡爬蟲
[0030]102招聘網(wǎng)頁信息11正則表達式
[0031]12訓練數(shù)據(jù)121單信息源模塊分類數(shù)據(jù)
[0032]122單信息源模塊123綜合信息詳細分類數(shù)據(jù)
[0033]124綜合模型13機器學習綜合模型
[0034]131模塊分類數(shù)據(jù)132詳細分類數(shù)據(jù)
【具體實施方式】
[0035]為了更充分理解本發(fā)明的技術內(nèi)容,下面結(jié)合具體實施例對本發(fā)明的技術方案進一步介紹和說明,但不局限于此。
[0036]參考圖1-圖2所示的流程示意圖,來理解本發(fā)明一種基于機器學習的招聘信息解析系統(tǒng),可以運用在招聘信息解析過程中,可以有效處理復雜或者新型職位的招聘信息解析與分析問題。
[0037]基于機器學習的招聘信息解析系統(tǒng),包括數(shù)據(jù)采集模型和機器學習模型;所述的數(shù)據(jù)采集模型爬取互聯(lián)網(wǎng)招聘網(wǎng)站10的不規(guī)則的招聘網(wǎng)頁信息102進行解析并生成訓練數(shù)據(jù)12;機器學習模型包括單信息源模型以及綜合模型124,其中,單信息源模型是由訓練數(shù)據(jù)12中的單信息源模塊分類數(shù)據(jù)121訓練得到,綜合模型124是由訓練數(shù)據(jù)12中的綜合信息詳細分類數(shù)據(jù)123構(gòu)成,并且,綜合模型124可以處理各類信息源;互聯(lián)網(wǎng)招聘網(wǎng)站10與機器學習模型連接,單信息源模型與綜合模型都是機器學習模型,互聯(lián)網(wǎng)招聘網(wǎng)站是一個數(shù)據(jù)源。
[0038]上述的機器學習模塊為一個程序,給定輸入后給出輸出的程序,其中輸入為那些不規(guī)則的文本信息,輸出為提取出來的有用信息;該程序主要是根據(jù)數(shù)據(jù)實際情況自動總結(jié)的過程,具體采用了隨機條件場模型,這就是一種具體的機器學習模型。首先,利用網(wǎng)絡爬蟲101在互聯(lián)網(wǎng)招聘網(wǎng)站10中爬取對預先指定的網(wǎng)站進行搜索,抓取其中的招聘網(wǎng)頁信息102,對網(wǎng)頁的文本信息進行正則表達式11搜索,通過正則表達式11搜索相關的信息,并對齊進行分類,一個為模塊分類,另一個是詳細分類(即內(nèi)容分類)。抓取到的數(shù)據(jù)(即招聘信息)還分為單信息源模型和綜合模型,如果網(wǎng)頁中無法通過正則表達式搜索到相關信息,或者通過正則表達式11搜索出來的信息不夠全面,此時會將由機器學習模型,將網(wǎng)頁信息102(包含html標簽等信息)進行歸類分析,再提取并生成新的正則表達式11;其中,如果網(wǎng)頁中無法通過正則表達式搜索到相關信息,或者通過正則表達式11搜索出來的信息不夠全面,網(wǎng)頁中的信息經(jīng)過解析生成機器學習模型的訓練數(shù)據(jù)12,該訓練數(shù)據(jù)12再由單信息源模型以及綜合模型124對應分類,訓練數(shù)據(jù)12由單信息源模型分類形成單信息源模塊分類數(shù)據(jù)121,訓練數(shù)據(jù)12由綜合模型124分類形成綜合信息詳細分類數(shù)據(jù)123。其中,訓練機器學習模塊為一個程序,給定輸入后給出輸出,其中,輸入為不規(guī)則的文本信息,輸出為提取出來的有用的信息,正則表達11為一系列規(guī)則,也可以為一個程序,主要是認為制定的,而機器學習模型是根據(jù)數(shù)據(jù)實際情況自動總結(jié)而成,這個自動總結(jié)過程主要是利用條件隨機產(chǎn)生一個模型,用該模型篩選出有用的文本信息。實際使用中可以采用條件隨機場這樣的通用程序構(gòu)件,也可以進一步針對招聘領域的術語,對條件隨機場的參數(shù)進行設置,比如,從時事新聞數(shù)據(jù)庫中尋找到與招聘領域相關的熱門關鍵詞,以實現(xiàn)對新興職業(yè)的信息搜索,并對其正則表達式進行動態(tài)更新。
[0039]另外,上述的正則表達式是一系列規(guī)則(也可以理解為一個程序),是人為制定的一系列規(guī)則。
[0040]上述的基于機器學習的招聘信息解析系統(tǒng),通過互聯(lián)網(wǎng)招聘網(wǎng)站10與機器學習模型連接,將招聘網(wǎng)頁信息102經(jīng)過分析后得到訓練數(shù)據(jù)12,在由訓練數(shù)據(jù)12詳細分類,采用機器學習模型中的條件隨機場模型來對招聘信息中的具體語句塊與短語進行分類標注,處理正則表達式11處理不能匹配的數(shù)據(jù),有效處理復雜或者新型職位的招聘信息解析與分析問題。更近一步,上述的訓練數(shù)據(jù)12包括模塊分類數(shù)據(jù)以及詳細分類數(shù)據(jù)132,上述的單信息源模型由模塊分類數(shù)據(jù)構(gòu)成,綜合模型124由詳細分類數(shù)據(jù)132構(gòu)成,這樣,即可將訓練數(shù)據(jù)12的信息詳細分類,以備解析與分析所用。
[0041 ]另外,模塊分類數(shù)據(jù)包括崗位職責,任職要求,薪酬福利,公司介紹,聯(lián)系方式等模塊。
[0042]詳細分類數(shù)據(jù)132是模塊分類數(shù)據(jù)的子分類,具體類別可以根據(jù)信息來源制定,包括但不限于年齡要求,學歷要求,工作年限,工作經(jīng)驗,所需技能等。
[0043]上述的綜合模型124包含一個模塊分類模型與一個訓練分類模型,模塊分類模型由所述詳細分類數(shù)據(jù)132訓練得到,且訓練分類模型與詳細分類機器學習模型連接,這樣,既可以將詳細分類數(shù)據(jù)132進行分類,還可以進一步將該詳細分類數(shù)據(jù)132中不能匹配的數(shù)據(jù)進一步提取出來進行訓練分類,提高系統(tǒng)覆蓋性與準確性。
[0044]在本實施例中還提供了基于機器學習的招聘信息解析系統(tǒng)的搭建具體步驟:
[0045]步驟1.通過互聯(lián)網(wǎng)招聘網(wǎng)站10,利用網(wǎng)絡爬蟲101爬取招聘網(wǎng)頁信息102,對預先指定的網(wǎng)站進行搜索,抓取其中的招聘網(wǎng)頁信息102,對網(wǎng)頁的文本信息進行正則表達式11搜索,通過正則表達式11搜索相關的信息,并按已有標簽分類存儲;
[0046]步驟2.如果網(wǎng)頁中無法通過正則表達式搜索到相關信息,或者通過正則表達式11搜索出來的信息不夠全面,將同一來源高質(zhì)量規(guī)則化數(shù)據(jù)利用正則表達式11解析,生成用于機器學習模型的訓練數(shù)據(jù)12。利用已有的數(shù)據(jù)標簽,在大量數(shù)據(jù)中進行直接的匹配標注,生成大量的包含不規(guī)則表達模式的訓練數(shù)據(jù)12。
[0047]步驟3.模型訓練分為兩步,第一步訓練模塊分類標注模型,第二步訓練詳細分類標注模型。第一步的模型輸出要作為第二步的模型輸入。
[0048]步驟4.首先將所有數(shù)據(jù)統(tǒng)一,進行綜合訓練,得到一個可以處理各類信息源的綜合模型124。
[0049]步驟5.針對不同信息源,只利用同信息源數(shù)據(jù)訓練子模型(每個信息源有一個模塊分類模型與一個訓練分類模型),用來處理信息源明確的數(shù)據(jù),加速解析準確度。
[0050]步驟6.利用已有正則表達式11處理分類好的數(shù)據(jù),將不能匹配的數(shù)據(jù)提取出來進一步增強正則表達式11與分類模型,行程閉環(huán)系統(tǒng),增強系統(tǒng)覆蓋性與準確性。
[0051]由于目前招聘網(wǎng)站數(shù)量巨大,所提供信息粒度不統(tǒng)一,并且招聘信息發(fā)布者對職位職能定位不統(tǒng)一,這些問題造成了招聘信息復雜度的大幅度提升。而已有的基于正則表達式11的規(guī)則化系統(tǒng)不能處理不規(guī)則的信息輸入,而且復雜度很高時很難進一步改進,這導致系統(tǒng)不能有效匹配沒有考慮到的信息輸入。本發(fā)明在基于原有的正則表達式11規(guī)則系統(tǒng),為其添加了機器學習智能模塊,可以有效處理復雜或者新型職位的招聘信息解析與分析問題。
[0052]由于原有正則表達式11系統(tǒng)只能準確匹配規(guī)則制定者所設計好的語言表達模式,不能模糊處理語義問題。而機器學習系統(tǒng)可以泛化匹配要求,綜合的判斷一段信息是否為所需匹配字段。
[0053]基于單獨正則表達式11的系統(tǒng)不能有效發(fā)現(xiàn)所設計的正則表達式11的缺陷。而所添加的機器學習系統(tǒng)可以幫助設計者發(fā)現(xiàn)改進正則表達式11有哪些潛在問題不能處理,可以幫助設計更好的正則表達式11。
[0054]另外,本實施例還提供了基于機器學習的招聘信息解析系統(tǒng)的運行流程:
[0055]步驟1.輸入招聘網(wǎng)頁地址或直接輸入招聘信息。
[0056]步驟2.自動獲取解析網(wǎng)頁內(nèi)容,按照網(wǎng)頁標簽與內(nèi)容,利用機器學習模型與專家系統(tǒng)將招聘信息粗分塊。
[0057]步驟3.將粗分塊信息進行詳細分類。
[0058]更近一步的,在步驟I中,上述的網(wǎng)頁內(nèi)容包括是否包含網(wǎng)頁信息以及純文本信息,按照網(wǎng)頁是否包含網(wǎng)頁信息或純文本信息進行標簽后在進行粗分塊。
[0059]另外,在步驟2中,在執(zhí)行整個系統(tǒng)的運行流程中,首先判斷網(wǎng)頁內(nèi)容是否包含網(wǎng)頁信息(包含html標簽等信息),如果是,則進行單信息源正則表達匹配,以便得到模塊分類數(shù)據(jù);若網(wǎng)頁內(nèi)容是純文本信息,則通過機器學習綜合模型13以及正則表達匹配進行處理后得到模塊與詳細分類初步數(shù)據(jù)。
[0060]更近一步,在步驟3中,上述的模塊分類數(shù)據(jù)經(jīng)過機器學習單信息源模型以及正則表達匹配處理后,得到詳細分類數(shù)據(jù)132。
[0061]另外,在步驟3中,上述的模塊與詳細分類初步數(shù)據(jù)經(jīng)過綜合模型124處理后得到詳細分類數(shù)據(jù)132。這樣,即可實現(xiàn)有效處理復雜或者新型職位的招聘信息解析與分析問題。
[0062]上述僅以實施例來進一步說明本發(fā)明的技術內(nèi)容,以便于讀者更容易理解,但不代表本發(fā)明的實施方式僅限于此,任何依本發(fā)明所做的技術延伸或再創(chuàng)造,均受本發(fā)明的保護。本發(fā)明的保護范圍以權利要求書為準。
【主權項】
1.基于機器學習的招聘信息解析系統(tǒng),其特征在于,包括數(shù)據(jù)采集模型和機器學習模型;所述數(shù)據(jù)采集模型爬取互聯(lián)網(wǎng)招聘網(wǎng)站的不規(guī)則的招聘網(wǎng)頁信息進行解析并生成訓練數(shù)據(jù);所述機器學習模型包括單信息源模型以及處理各類信息源的綜合模型,所述單信息源模型是由所述訓練數(shù)據(jù)中的單信息源模塊分類數(shù)據(jù)訓練所得,所述綜合模型是由所述訓練數(shù)據(jù)中的綜合信息詳細分類數(shù)據(jù)訓練所得,所述互聯(lián)網(wǎng)招聘網(wǎng)站、數(shù)據(jù)采集模型分別與所述機器學習模型連接,所采用的所述機器學習模型為輸入不規(guī)則的文本信息后輸出所要提取的有信息的程序,該程序是根據(jù)實際情況采用條件隨機場模型。2.根據(jù)權利要求1所述的基于機器學習的招聘信息解析系統(tǒng),其特征在于,所述訓練數(shù)據(jù)包括模塊分類數(shù)據(jù)以及詳細分類數(shù)據(jù),所述單信息源模型由所述模塊分類數(shù)據(jù)訓練所得,所述綜合模型由所述詳細分類數(shù)據(jù)訓練得到。3.根據(jù)權利要求2所述的基于機器學習的招聘信息解析系統(tǒng),其特征在于,所述模塊分類數(shù)據(jù)包括崗位職責,任職要求,薪酬福利,公司介紹以及聯(lián)系方式。4.根據(jù)權利要求3所述的基于機器學習的招聘信息解析系統(tǒng),其特征在于,所述詳細分類數(shù)據(jù)是所述模塊分類數(shù)據(jù)的子分類。5.根據(jù)權利要求4所述的基于機器學習的招聘信息解析系統(tǒng),其特征在于,所述綜合模型包含一個模塊分類模型與一個詳細分類模型;所述模塊分類模型由所述模塊分類數(shù)據(jù)訓練得到,且所述模塊分類模型與所述詳細分類機器學習模型連接。6.基于機器學習的招聘信息解析系統(tǒng)的搭建方法,其特征在于,搭建具體步驟如下: 步驟1.通過互聯(lián)網(wǎng)招聘網(wǎng)站,網(wǎng)絡爬蟲對預先指定的網(wǎng)站進行搜索,抓取其中的招聘網(wǎng)頁信息,對網(wǎng)頁的文本信息進行正則表達式搜索,通過正則表達式搜索相關的信息,并按已有標簽分類存儲; 步驟2.如果網(wǎng)頁中無法通過正則表達式搜索到相關信息,或者通過正則表達式搜索出來的信息不夠全面,將同一來源高質(zhì)量規(guī)則化數(shù)據(jù)利用正則表達式解析,生成用于機器學習模型的訓練數(shù)據(jù),利用已有的數(shù)據(jù)標簽,在大量數(shù)據(jù)中進行直接的匹配標注,生成大量的包含不規(guī)則表達模式的訓練數(shù)據(jù); 步驟3.模型訓練分為兩步,第一步訓練模塊分類標注模型,第二步訓練詳細分類標注模型;第一步的模型輸出要作為第二步的模型輸入; 步驟4.首先將所有數(shù)據(jù)統(tǒng)一,進行綜合訓練,得到一個可以處理各類信息源的綜合模型; 步驟5.針對不同信息源,只利用同信息源數(shù)據(jù)訓練子模型(每個信息源有一個模塊分類模型與一個訓練分類模型),用來處理信息源明確的數(shù)據(jù),加速解析準確度; 步驟6.利用已有正則表達式處理分類好的數(shù)據(jù),將不能匹配的數(shù)據(jù)提取出來進一步增強正則表達式與分類模型,行程閉環(huán)系統(tǒng),增強系統(tǒng)覆蓋性與準確性。7.一種基于機器學習的招聘信息解析系統(tǒng)的運行方法,其特征在于,運行步驟如下: 步驟1.輸入招聘網(wǎng)頁地址或直接輸入招聘信息; 步驟2.自動獲取解析網(wǎng)頁內(nèi)容,按照網(wǎng)頁標簽與內(nèi)容,利用機器學習模型與專家系統(tǒng)將招聘信息粗分塊; 步驟3.將粗分塊信息進行詳細分類。8.根據(jù)權利要求7所述的運行方法,其特征在于,所述的步驟I,網(wǎng)頁內(nèi)容包括是否包含網(wǎng)頁信息以及純文本信息,按照網(wǎng)頁是否包含網(wǎng)頁信息或純文本信息進行標簽后在進行粗分塊。9.根據(jù)權利要求8所述的運行方法,其特征在于,所述的步驟2,在執(zhí)行整個系統(tǒng)的運行流程中,首先判斷網(wǎng)頁內(nèi)容是否包含網(wǎng)頁信息,如果是,則進行單信息源正則表達匹配,以便得到模塊分類數(shù)據(jù);若網(wǎng)頁內(nèi)容是純文本信息,則通過機器學習綜合模型以及正則表達匹配進行處理后得到模塊與詳細分類初步數(shù)據(jù)。10.根據(jù)權利要求9所述的運行方法,其特征在于,所述的步驟3,模塊分類數(shù)據(jù)經(jīng)過機器學習單信息源模型以及正則表達匹配處理后,得到詳細分類數(shù)據(jù);模塊與詳細分類初步數(shù)據(jù)經(jīng)過所述綜合模型處理后得到所述詳細分類數(shù)據(jù)。
【文檔編號】G06F17/30GK105868408SQ201610251966
【公開日】2016年8月17日
【申請日】2016年4月21日
【發(fā)明人】楊洋, 楊雪峰, 趙泛舟, 李訓耕
【申請人】深圳愛拼信息科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1