1.基于機(jī)器學(xué)習(xí)建模抽取網(wǎng)頁結(jié)構(gòu)的方法,其特征在于,
包括機(jī)器學(xué)習(xí)的網(wǎng)頁抽取設(shè)計模式和存儲錄制規(guī)則;
其中,網(wǎng)頁抽取設(shè)計模式是推薦網(wǎng)頁字段抽取方案,主動學(xué)習(xí)網(wǎng)頁字段抽取方法;
存儲錄制規(guī)則是將錄制規(guī)則通過rest服務(wù)接收,并設(shè)置一組識別標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于識別標(biāo)簽包括頁面url、規(guī)則名稱、時間戳做為數(shù)據(jù)的RowKey。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,主要包括如下幾個方面,
1)網(wǎng)頁結(jié)構(gòu)模糊抽取,主要是根據(jù)機(jī)器建模中的概率算法提取出結(jié)構(gòu)內(nèi)容,若內(nèi)容結(jié)構(gòu)不符合,進(jìn)行修改,并再次保存到建模中;
2)通過貝葉斯學(xué)習(xí),機(jī)器建模衍生出深層次的網(wǎng)頁抽?。?/p>
3)網(wǎng)頁中列表及翻頁的規(guī)則錄制,包括采集一頁簡單網(wǎng)頁的列表或表格信息,包括一列以上的可以循環(huán)翻頁;
4)列表及詳情錄制,采集一頁簡單網(wǎng)頁的列表信息及每一項的詳情信息,循環(huán)翻頁;
5)URL列表錄制,采集數(shù)頁同類型簡單網(wǎng)頁信息,每一頁適用相同規(guī)則,提取到的數(shù)據(jù)匯總到同一張表;
6)單網(wǎng)頁錄制,采集一頁簡單的網(wǎng)頁信息;
7)高級錄制,采集一個網(wǎng)站信息,可以配置采集深度,間隔,過濾url,代理。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,機(jī)器建模衍生出深層次的網(wǎng)頁抽取,通過機(jī)器建模,可以有抽取標(biāo)題的選擇。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,還可以抽取該標(biāo)題的子類及父類的元素。