一種半自動化學(xué)習(xí)式的表單特征提取方法
【專利摘要】本發(fā)明公開了一種半自動化學(xué)習(xí)式的表單特征提取方法,包括以下步驟:(1)啟動學(xué)習(xí)裝置;(2)輸入標(biāo)記語言文件的位置;(3)學(xué)習(xí)裝置加載標(biāo)記語言文件;(4)生成標(biāo)記語言集合體;(5)學(xué)習(xí)模塊插入標(biāo)記語言文件中;(6)操作表單,完整記錄,生成特征信息;(7)將表單結(jié)構(gòu)信息存入數(shù)據(jù)庫;(8)表單特征學(xué)習(xí)完成。本發(fā)明所述方法能夠通過人工參與的方式,以半自動化機(jī)器學(xué)習(xí)標(biāo)記語言表單結(jié)構(gòu),能夠提取具有完整性、真實(shí)性、精確性的網(wǎng)頁表單結(jié)構(gòu)特征;提交表單由學(xué)習(xí)裝置完成,表單特征提取不易失??;使<input>輸入框被<form>標(biāo)簽所包裹,從而瀏覽器發(fā)出網(wǎng)頁加載完畢通知后能夠符合靜態(tài)掃描的規(guī)則,可以進(jìn)行順利查詢。
【專利說明】一種半自動化學(xué)習(xí)式的表單特征提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、上網(wǎng)體驗(yàn)領(lǐng)域,具體是指一種半自動化學(xué)習(xí)式的 表單特征提取方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)信息技術(shù)的普及和平民化,通過瀏覽器訪問網(wǎng)站檢索信息和交流已經(jīng) 成為提高現(xiàn)代社會生產(chǎn)力的必備技能之一。
[0003] 在訪問網(wǎng)站檢索信息時,可能需要頻繁的向網(wǎng)站輸入信息,如:用戶登錄、發(fā)表評 論、參加投票等,有些信息是需要重復(fù)且頻繁輸入的,如:用戶登錄,在不同的網(wǎng)站,就要輸 入不同的用戶名或密碼等信息;而網(wǎng)上購物,購買不同的商品,就要多次輸入自己的地址、 郵編、收貨人姓名等信息。
[0004] 因?yàn)檫@些信息可能需要頻繁、大量的輸入,且信息具有單一性,例如網(wǎng)上購物,自 己的地址通常不會經(jīng)常改變,而姓名更是如此,所以幾乎所有的現(xiàn)代標(biāo)記語言處理裝置外 殼,即標(biāo)記語言處理裝置的人機(jī)交互接口,如瀏覽器界面,提供了自動登錄和表單自動代填 功能,減輕人類的重復(fù)勞動負(fù)擔(dān),提高生產(chǎn)效率。
[0005] 如果標(biāo)記語言處理裝置外殼需要將數(shù)據(jù)自動填寫到標(biāo)記語言處理裝置中的表單 中,必須知道相關(guān)條目所對應(yīng)的表單項(xiàng)目,如:收件人姓名對應(yīng)第1個輸入框,收件人地址 對應(yīng)第2個輸入框,收件人郵編對應(yīng)第3個輸入框。在如此規(guī)則下,就必須要知道表單的結(jié) 構(gòu)特征,才能正確的將數(shù)據(jù)填寫入對應(yīng)的項(xiàng)目中。
[0006] 萬維網(wǎng)聯(lián)盟提出的HTML,即超文本標(biāo)記語言,簡稱"標(biāo)記語言",語言標(biāo)準(zhǔn)使互聯(lián)網(wǎng) 可以通過統(tǒng)一、標(biāo)準(zhǔn)化的語言生成由標(biāo)記構(gòu)成的網(wǎng)頁文件,簡稱"標(biāo)記文件"。HTML語言以 樹形結(jié)構(gòu)的標(biāo)簽為基準(zhǔn),提供了一系列的標(biāo)準(zhǔn)基礎(chǔ)部件,標(biāo)記語言處理裝置只要實(shí)現(xiàn)HTML 標(biāo)準(zhǔn),就可以保持通用性。
[0007] 在使用標(biāo)記語言處理裝置加載網(wǎng)站的標(biāo)記語言文件時,如果需要向網(wǎng)站提交數(shù) 據(jù),如聊天、發(fā)表評論、買賣商品、保存?zhèn)€性化信息等,網(wǎng)站就必須提供采集瀏覽器數(shù)據(jù)采 集數(shù)據(jù)的途徑,為此HTML語言標(biāo)準(zhǔn)提供了 "表單(form)"部件,一個表單通常包含以下元 素:〈form〉:聲明這是一個表單,這之中的數(shù)據(jù)會被提交到服務(wù)器;〈input〉:〈form>標(biāo)簽的 子節(jié)點(diǎn),聲明這是一個單行文本輸入框,根據(jù)type屬性,會呈現(xiàn)出不同的樣式,如:〈input type=text>,一個普通的輸入框;〈input type=password>, -個隱藏了輸入內(nèi)容的密碼輸 入框;提交表單按鈕:提交表單實(shí)為〈input〉標(biāo)簽的一個type屬性,當(dāng)〈input〉標(biāo)簽的type 屬性被設(shè)置為submit時,會在標(biāo)記語言處理裝置中呈現(xiàn)出一個按鈕,當(dāng)按鈕被激活時,會 將〈form〉標(biāo)簽中所有合法〈input〉用戶輸入的數(shù)據(jù)全部提交到服務(wù)器。
[0008] 現(xiàn)有特征分析方法,如圖1所示,每當(dāng)標(biāo)記語言處理裝置發(fā)出標(biāo)記文件加載完畢 通知時,就假設(shè)頁面會出現(xiàn)包含以上元素的內(nèi)容,再通過標(biāo)記語言處理裝置提供的接口對 標(biāo)記文件進(jìn)行分析,取出表單的<from>〈input>特征,但此種方法在高速發(fā)展的動態(tài)標(biāo)記 加載技術(shù)面前已經(jīng)顯得力不從心,因?yàn)閯討B(tài)標(biāo)記加載技術(shù)會導(dǎo)致以下問題: 標(biāo)記語言處理裝置發(fā)出網(wǎng)頁加載完畢通知后,標(biāo)記文件中并沒有登錄框的內(nèi)容,而 呈現(xiàn)表單所需要的標(biāo)記語言實(shí)際上正在由標(biāo)記文件中的JavaScript腳本繼續(xù)加載,也就 是說,此時呈現(xiàn)表單所需要的標(biāo)記語言集合并沒有真正加載完成,所以表單特征提取會失 ?。?提交按鈕并不是〈input type=submit>,可能是任意一個加入了調(diào)用JavaScript腳本 代碼的HTML標(biāo)簽,而提交表單是由JavaScript腳本來完成的,所以表單特征提取會失?。?甚至〈input〉輸入框也并沒有被〈form〉標(biāo)簽所包裹。這就導(dǎo)致瀏覽器發(fā)出網(wǎng)頁加載 完畢通知后不能滿足靜態(tài)掃描的規(guī)則,導(dǎo)致查詢失敗。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的在于通過人工參與的方式,提供一種能夠進(jìn)一步提取具有完整性、 真實(shí)性、精確性的網(wǎng)頁表單結(jié)構(gòu)特征的半自動化學(xué)習(xí)式的表單特征提取方法。
[0010] 本發(fā)明通過下述技術(shù)方案實(shí)現(xiàn)一種半自動化學(xué)習(xí)式的表單特征提取方法,包括以 下步驟: (1) 啟動學(xué)習(xí)裝置,學(xué)習(xí)裝置內(nèi)置標(biāo)記語言處理裝置; (2) 在地址欄輸入標(biāo)記語言文件的位置; (3) 學(xué)習(xí)裝置通過內(nèi)置瀏覽器加載標(biāo)記語言文件; (4) 加載完成后,內(nèi)置瀏覽器通知學(xué)習(xí)裝置標(biāo)記語言文件加載完成,并生成標(biāo)記語言集 合體; (5) 學(xué)習(xí)裝置將學(xué)習(xí)模塊插入已加載的標(biāo)記語言文件中; (6) 操作表單,通過學(xué)習(xí)裝置完整記錄,并生成相關(guān)的特征信息; (7) 收到提交按鈕點(diǎn)擊事件后,學(xué)習(xí)模塊認(rèn)為學(xué)習(xí)完成,將表單結(jié)構(gòu)信息存入數(shù)據(jù)庫; (8) 整個表單特征學(xué)習(xí)過程完成。
[0011] 上述方法通過制造一個內(nèi)置處理標(biāo)記語言裝置的學(xué)習(xí)裝置,確定標(biāo)簽語言,標(biāo)記 語言處理裝置選擇呈現(xiàn)輸入框的標(biāo)簽?zāi)J(rèn)為〈input〉標(biāo)簽。
[0012] 在半自動化學(xué)習(xí)過程中,機(jī)器并不需要識別網(wǎng)頁何時加載完成,而是人為進(jìn)行判 斷。
[0013] 當(dāng)看到標(biāo)記語言處理裝置顯示出需要填寫內(nèi)容的表單時,呈現(xiàn)表單結(jié)構(gòu)的標(biāo)簽語 言集合一定已經(jīng)完整存在于標(biāo)記語言處理裝置中了。
[0014] 告知標(biāo)記語言處理裝置,當(dāng)任意〈input〉標(biāo)簽被激活時,通知學(xué)習(xí)裝置被激活的 〈input〉標(biāo)簽的對象。
[0015] 學(xué)習(xí)裝置通過已激活的〈input〉標(biāo)簽對象,讀取此標(biāo)簽的屬性。
[0016] 學(xué)習(xí)裝置通過遍歷標(biāo)記語言處理裝置中的標(biāo)簽語言集合,計算當(dāng)前已激活 〈input〉標(biāo)簽在標(biāo)簽語言集合中的絕對位置。
[0017] 告知標(biāo)記語言處理裝置,在產(chǎn)生表單提交事件時,不要提交至服務(wù)器,而是通知學(xué) 習(xí)裝置表單提交事件是由哪個對象產(chǎn)生的。
[0018] 在學(xué)習(xí)裝置中,依次激活需要填寫內(nèi)容的輸入框,此過程中,被激活過的輸入框?qū)?被記錄,未被激活過、重復(fù)激活的將被忽略。點(diǎn)擊提交按鈕,產(chǎn)生表單提交事件,學(xué)習(xí)裝置收 到事件后,將上步中記錄的輸入框信息和當(dāng)前標(biāo)記文件對應(yīng)的URL存入表單特征數(shù)據(jù)庫。
[0019] 至此,學(xué)習(xí)完成。
[0020] 學(xué)習(xí)裝置可以通過此部件,與標(biāo)記語言處理裝置進(jìn)行交互,學(xué)習(xí)網(wǎng)頁表單特征,并 存入表單特征數(shù)據(jù)庫。
[0021] 無論何種引擎,若要其發(fā)揮價值,最終都要集成到業(yè)務(wù)環(huán)境中,因此,引擎會對外 提供使第三方裝置能夠操作自己的操作接口。
[0022] 依據(jù)JavaScript語言標(biāo)準(zhǔn),當(dāng)使用控制器在標(biāo)記語言處理裝置中點(diǎn)擊時,可以產(chǎn) 生一個onClick事件。
[0023] 依據(jù)JavaScript語言標(biāo)準(zhǔn),當(dāng)產(chǎn)生onClick事件時,可以調(diào)用一個函數(shù),并將觸發(fā) onClick的對象通過參數(shù)傳遞給函數(shù),使JavaScript語言可以根據(jù)此事件操作對象。
[0024] 編寫一個JavaScript函數(shù),此函數(shù)會一直遍歷當(dāng)前標(biāo)記語言處理裝置中的標(biāo)簽 對象,并以自己的onClick處理函數(shù)注冊input標(biāo)簽、button標(biāo)簽、a標(biāo)簽、img標(biāo)簽的 onClick事件,以便處理之后動態(tài)加載的HTML控件。
[0025] 編寫一個JavaScript函數(shù),此函數(shù)負(fù)責(zé)收集onClick處理函數(shù)送出的信息。
[0026] 當(dāng)標(biāo)記語言處理裝置確認(rèn)標(biāo)記語言文件被加載完畢時,學(xué)習(xí)裝置通過處理標(biāo)記語 言裝置自身提供的接口將學(xué)習(xí)裝置提供的私有JavaScript接口注冊到標(biāo)記語言處理裝 置,此私有接口可以使標(biāo)記語言處理裝置中的JavaScript引擎與學(xué)習(xí)裝置通信,通過此私 有接口當(dāng)前標(biāo)記文件中的JavaScript引擎可以將收集到的標(biāo)簽信息送交給學(xué)習(xí)裝置。 [0027] 進(jìn)一步地,所述學(xué)習(xí)裝置內(nèi)置實(shí)體的標(biāo)記語言處理裝置。
[0028] 進(jìn)一步地,所述學(xué)習(xí)裝置內(nèi)置非實(shí)體的標(biāo)記語言處理裝置。
[0029] 進(jìn)一步地,所述標(biāo)記語言處理裝置設(shè)有操作接口。
[0030] 進(jìn)一步地,所述標(biāo)記語言處理裝置默認(rèn)標(biāo)簽語言為HTML。
[0031] 進(jìn)一步地,所述標(biāo)記語言處理裝置為Trident引擎,所述操作接口為WebControl 接口。目前已經(jīng)有很多成熟的標(biāo)記語言處理裝置,這些裝置包括微軟公司的Trident引擎、 Google公司的Blink引擎、Mozilla基金會的Gecko引擎、蘋果公司的WebKit引擎以及其 他相關(guān)行業(yè)公司的私有實(shí)體或虛擬引擎,且不同的標(biāo)記語言處理裝置設(shè)有相應(yīng)的接口,種 類名稱繁多,這里優(yōu)選標(biāo)記語言處理裝置為Trident引擎,其接口為相應(yīng)的WebControl接 □。
[0032] 進(jìn)一步地,所述內(nèi)置瀏覽器為IE瀏覽器。
[0033] 進(jìn)一步地,所述標(biāo)記語言集合體為JavaScript腳本內(nèi)容。
[0034] 本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)及有益效果: (1) 本發(fā)明所述方法能夠通過人工參與的方式,以半自動化機(jī)器學(xué)習(xí)標(biāo)記語言表單結(jié) 構(gòu),能夠提取具有完整性、真實(shí)性、精確性的網(wǎng)頁表單結(jié)構(gòu)特征; (2) 本發(fā)明所述方法所用的提交按鈕為〈input type=submit>,提交表單由學(xué)習(xí)裝置完 成,表單特征提取不易失??; (3) 本發(fā)明所述方法使〈input〉輸入框也〈form〉標(biāo)簽所包裹,從而瀏覽器發(fā)出網(wǎng)頁加 載完畢通知后能夠符合靜態(tài)掃描的規(guī)則,可以進(jìn)行順利查詢。
【專利附圖】
【附圖說明】
[0035] 圖1為標(biāo)記語言處理裝置工作流程; 圖2為帶有標(biāo)記語言學(xué)習(xí)裝置的學(xué)習(xí)裝置工作流程; 圖3為標(biāo)記語言集合遍歷函數(shù)流程; 圖4為"點(diǎn)擊"事件處理函數(shù)流程。
【具體實(shí)施方式】
[0036] 下面結(jié)合實(shí)施例對本發(fā)明作進(jìn)一步地詳細(xì)說明,但本發(fā)明的實(shí)施方式不限于此。
[0037] 實(shí)施例: 現(xiàn)有特征分析方法,如圖1所示,每當(dāng)標(biāo)記語言處理裝置發(fā)出標(biāo)記文件加載完畢通知 時,就假設(shè)頁面會出現(xiàn)包含以上元素的內(nèi)容,再通過標(biāo)記語言處理裝置提供的接口對標(biāo)記 文件進(jìn)行分析,取出表單的<from>〈input>特征,但此種方法在高速發(fā)展的動態(tài)標(biāo)記加載 技術(shù)面前已經(jīng)顯得力不從心。
[0038] 本實(shí)施例公開了一種半自動化學(xué)習(xí)式的表單特征提取方法,本方法能通過能夠通 過人工參與的方式,以半自動化機(jī)器學(xué)習(xí)標(biāo)記語言表單結(jié)構(gòu),能夠提取具有完整性、真實(shí) 性、精確性的網(wǎng)頁表單結(jié)構(gòu)特征。具體實(shí)施步驟為: (1) 啟動學(xué)習(xí)裝置,會看到一個類似IE瀏覽器的人機(jī)交互界面; (2) 在地址欄輸入標(biāo)記語言文件,定位標(biāo)記語言文件位置; (3) 裝置通過內(nèi)置的IE瀏覽器加載標(biāo)記語言文件; (4) 完成后,內(nèi)置的IE瀏覽器通知學(xué)習(xí)裝置標(biāo)記語言文件加載完成,并已經(jīng)生成標(biāo)記 語目集合體; (5) 學(xué)習(xí)裝置將學(xué)習(xí)模塊插入已加載的標(biāo)記語言文件中; (6) 操作表單,如填寫內(nèi)容、選中一個選項(xiàng)、點(diǎn)擊提交按鈕等,這些過程將被學(xué)習(xí)裝置完 整記錄,或者并生成標(biāo)簽名、屬性、絕對位置等相關(guān)的特征信息; (7) 收到提交按鈕點(diǎn)擊事件后,學(xué)習(xí)模塊認(rèn)為學(xué)習(xí)完成,將表單結(jié)構(gòu)的特征信息存入數(shù) 據(jù)庫。整個表單特征學(xué)習(xí)過程完成。
[0039] 其中帶有標(biāo)記語言學(xué)習(xí)裝置的學(xué)習(xí)裝置工作流程,如圖2所示,默認(rèn)標(biāo)簽語言為 HTML,標(biāo)記語言處理裝置選擇呈現(xiàn)輸入框的標(biāo)簽?zāi)J(rèn)為〈input〉標(biāo)簽。
[0040] 在半自動化學(xué)習(xí)過程中,機(jī)器并不需要識別網(wǎng)頁何時加載完成,而是由人為進(jìn)行 判斷。
[0041] 看到標(biāo)記語言處理裝置顯示出需要填寫內(nèi)容的表單時,呈現(xiàn)表單結(jié)構(gòu)的標(biāo)簽語言 集合已經(jīng)完整存在于標(biāo)記語言處理裝置中了。
[0042] 告知標(biāo)記語言處理裝置,當(dāng)任意〈input〉標(biāo)簽被激活時,通知學(xué)習(xí)裝置被激活的 〈input〉標(biāo)簽的對象,標(biāo)記語言處理裝置在解析標(biāo)記語言時,為每一個標(biāo)簽生成唯一的對應(yīng) 關(guān)系入口,學(xué)習(xí)裝置通過已激活的〈input〉標(biāo)簽對象,讀取此標(biāo)簽的屬性,學(xué)習(xí)裝置通過遍 歷標(biāo)記語言處理裝置中的標(biāo)簽語言集合,計算當(dāng)前已激活〈input〉標(biāo)簽在標(biāo)簽語言集合中 的絕對位置,告知標(biāo)記語言處理裝置,在產(chǎn)生表單提交事件時,不要提交至服務(wù)器,而是通 知學(xué)習(xí)裝置表單提交事件是由哪個對象產(chǎn)生的,在學(xué)習(xí)裝置中,依次激活需要填寫內(nèi)容的 輸入框,此過程中,被激活過的輸入框?qū)⒈挥涗洠幢患せ钸^、重復(fù)激活的將被忽略,在學(xué)習(xí) 裝置中,點(diǎn)擊提交按鈕,產(chǎn)生表單提交事件,學(xué)習(xí)裝置收到事件后,將上步中記錄的輸入框 信息和當(dāng)前標(biāo)記文件對應(yīng)的URL存入表單特征數(shù)據(jù)庫。
[0043] 標(biāo)記語言處理裝置選擇使用微軟公司的Trident引擎,其相應(yīng)接口為WebControl 接口。
[0044] 依據(jù)JavaScript語言標(biāo)準(zhǔn),當(dāng)使用控制器在標(biāo)記語言處理裝置中點(diǎn)擊時,可以產(chǎn) 生一個onClick事件,當(dāng)產(chǎn)生onClick事件時,可以調(diào)用一個函數(shù),并將觸發(fā)onClick的對 象通過參數(shù)傳遞給函數(shù),使JavaScript語言可以根據(jù)此事件操作對象。
[0045] 其中編寫一個JavaScript函數(shù),此函數(shù)會一直遍歷當(dāng)前標(biāo)記語言處理裝置中的 標(biāo)簽對象,如圖3所示,并以自己的onClick處理函數(shù)注冊input標(biāo)簽、button標(biāo)簽、a標(biāo)簽、 img標(biāo)簽的onClick事件,以便處理之后動態(tài)加載的HTML控件,此函數(shù)負(fù)責(zé)收集onClick處 理函數(shù)送出的信息如圖4所示。
[0046] 當(dāng)標(biāo)記語言處理裝置確認(rèn)標(biāo)記語言文件被加載完畢時,Trident引擎提供的 WebControl接口,會在標(biāo)記語言文件加載完畢時,放出DocumentCompleted事件,學(xué)習(xí)裝置 通過處理標(biāo)記語言裝置自身提供的接口將讀取控件信息的函數(shù),放入當(dāng)前標(biāo)記文件的標(biāo)記 集合中。
[0047] 當(dāng)標(biāo)記語言處理裝置確認(rèn)標(biāo)記語言文件被加載完畢時,學(xué)習(xí)裝置通過處理標(biāo)記語 言裝置自身提供的接口將學(xué)習(xí)裝置提供的私有JavaScript接口注冊到標(biāo)記語言處理裝 置,此私有接口可以使標(biāo)記語言處理裝置中的JavaScript引擎與學(xué)習(xí)裝置通信,通過此私 有接口當(dāng)前標(biāo)記文件中的JavaScript引擎可以將收集到的標(biāo)簽信息送交給學(xué)習(xí)裝置。 [0048] 學(xué)習(xí)裝置收到最終的標(biāo)簽信息后,寫入數(shù)據(jù)庫。
[〇〇49] 以上所述,僅是本發(fā)明的較佳實(shí)施例,并非對本發(fā)明做任何形式上的限制,凡是依 據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對以上實(shí)施例所作的任何簡單修改、等同變化,均落入本發(fā)明的保護(hù) 范圍之內(nèi)。
【權(quán)利要求】
1. 一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于:包括以下步驟: (1) 啟動學(xué)習(xí)裝置,學(xué)習(xí)裝置內(nèi)置標(biāo)記語言處理裝置; (2) 在地址欄輸入標(biāo)記語言文件的位置; (3) 學(xué)習(xí)裝置通過內(nèi)置瀏覽器加載標(biāo)記語言文件; (4) 加載完成后,內(nèi)置瀏覽器通知學(xué)習(xí)裝置標(biāo)記語言文件加載完成,并生成標(biāo)記語言集 合體; (5) 學(xué)習(xí)裝置將學(xué)習(xí)模塊插入已加載的標(biāo)記語言文件中; (6) 操作表單,通過學(xué)習(xí)裝置完整記錄,并生成相關(guān)的特征信息; (7) 收到提交按鈕點(diǎn)擊事件后,學(xué)習(xí)模塊認(rèn)為學(xué)習(xí)完成,將表單結(jié)構(gòu)信息存入數(shù)據(jù)庫; (8) 整個表單特征學(xué)習(xí)過程完成。
2. 根據(jù)權(quán)利要求1所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于:所 述學(xué)習(xí)裝置內(nèi)置實(shí)體的標(biāo)記語言處理裝置。
3. 根據(jù)權(quán)利要求1所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于:所 述學(xué)習(xí)裝置內(nèi)置非實(shí)體的標(biāo)記語言處理裝置。
4. 根據(jù)權(quán)利要求2或3所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于: 所述標(biāo)記語言處理裝置設(shè)有操作接口。
5. 根據(jù)權(quán)利要求2或3所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于: 所述標(biāo)記語言處理裝置默認(rèn)標(biāo)簽語言為HTML。
6. 根據(jù)權(quán)利要求2或3所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于: 所述標(biāo)記語言處理裝置為Trident引擎,所述操作接口為WebControl接口。
7. 根據(jù)權(quán)利要求1所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于:所 述內(nèi)置瀏覽器為IE瀏覽器。
8. 根據(jù)權(quán)利要求1所述的一種半自動化學(xué)習(xí)式的表單特征提取方法,其特征在于:所 述標(biāo)記語言集合體為JavaScript腳本內(nèi)容。
【文檔編號】G06F17/30GK104063488SQ201410317562
【公開日】2014年9月24日 申請日期:2014年7月7日 優(yōu)先權(quán)日:2014年7月7日
【發(fā)明者】陳超一, 范淵, 吳永越, 鄭學(xué)新, 姜毅 申請人:成都安恒信息技術(shù)有限公司