亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

數(shù)據(jù)要素抽取分析系統(tǒng)及數(shù)據(jù)要素抽取分析方法與流程

文檔序號(hào):12733683閱讀:480來(lái)源:國(guó)知局
數(shù)據(jù)要素抽取分析系統(tǒng)及數(shù)據(jù)要素抽取分析方法與流程
本發(fā)明主要涉及數(shù)據(jù)抽取、數(shù)據(jù)統(tǒng)計(jì)、以及數(shù)據(jù)挖掘的關(guān)聯(lián)分析,尤其涉及一種數(shù)據(jù)要素抽取分析系統(tǒng)及數(shù)據(jù)要素抽取分析方法。
背景技術(shù)
:隨著人類(lèi)社會(huì)科學(xué)技術(shù)的不斷進(jìn)步,互聯(lián)網(wǎng)技術(shù)、計(jì)算機(jī)技術(shù)的快速發(fā)展,在各個(gè)行業(yè)、政府部門(mén)都積累了大量、多種類(lèi)數(shù)據(jù)。如何能夠依據(jù)不同的需求很好的利用這些數(shù)據(jù),發(fā)現(xiàn)數(shù)據(jù)之間的隱藏的關(guān)系以及數(shù)據(jù)內(nèi)部深層次的價(jià)值,是當(dāng)前急需解決的問(wèn)題。為了解決這些問(wèn)題,當(dāng)前市面上出現(xiàn)了多種數(shù)據(jù)分析系統(tǒng),比如數(shù)據(jù)檢索及關(guān)聯(lián)分析、數(shù)據(jù)統(tǒng)計(jì)分析等,但其主要原理都基于數(shù)據(jù)表字段的精確或模糊查詢(xún),表字段之間的關(guān)聯(lián)查詢(xún);表字段的統(tǒng)計(jì)查詢(xún);對(duì)于這類(lèi)數(shù)據(jù)分析工具,由于檢索的數(shù)據(jù)只能基于單張表字段(檢索效率低)或多張表字段同時(shí)檢索(檢索性能低),對(duì)于檢索結(jié)果進(jìn)行數(shù)據(jù)表關(guān)鍵字段之間的關(guān)聯(lián)展現(xiàn)(展現(xiàn)不豐富);因此這類(lèi)數(shù)據(jù)分析系統(tǒng)的檢索效率低、檢索性能差、數(shù)據(jù)關(guān)聯(lián)展現(xiàn)不豐富、數(shù)據(jù)分析層次不深入;如中國(guó)的第2013107178299號(hào)專(zhuān)利,其公開(kāi)了一種數(shù)據(jù)的比對(duì)方法,其中包括數(shù)據(jù)的提取,但是并沒(méi)有涉及數(shù)據(jù)要素的抽取及深入分析;如中國(guó)的第2014106459444號(hào)專(zhuān)利,其公開(kāi)了一種數(shù)據(jù)抽取方法,但同樣沒(méi)有涉及數(shù)據(jù)要素的深入分析,難以帶來(lái)實(shí)際的應(yīng)用效果,提高數(shù)據(jù)分析效率。由于上述問(wèn)題的存在,本發(fā)明人對(duì)現(xiàn)有的分析軟件和要素抽取技術(shù)等相關(guān)技術(shù)進(jìn)行研究和分析,以期待研制出可以靈活地接入數(shù)據(jù)源、可以靈活地設(shè)置要素抽取模型同時(shí)又可以對(duì)的抽取結(jié)果數(shù)據(jù)進(jìn)行深層次循環(huán)分析的數(shù)據(jù)要素抽取分析系統(tǒng)及方法。技術(shù)實(shí)現(xiàn)要素:為了解決上述問(wèn)題,本發(fā)明人進(jìn)行了銳意研究,結(jié)果發(fā)現(xiàn):通過(guò)設(shè)置數(shù)據(jù)源配置模塊對(duì)多個(gè)不同的業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)源信息的定義,以使得該系統(tǒng)可以對(duì)多個(gè)數(shù)據(jù)源進(jìn)行靈活使用;通過(guò)設(shè)置要素抽取模型配置模塊用于設(shè)置抽取模型,使得使用者可以根據(jù)自己的需求靈活的設(shè)置抽取模型;通過(guò)設(shè)置要素統(tǒng)計(jì)分析和要素關(guān)聯(lián)查詢(xún)模塊使得使用者可以對(duì)要素抽取結(jié)果數(shù)據(jù)信息進(jìn)行深層次的分析、統(tǒng)計(jì)挖掘;從而完成本發(fā)明。本發(fā)明的目的在于提供以下方面:(1)一種數(shù)據(jù)要素抽取分析系統(tǒng),其特征在于,該分析系統(tǒng)包括展現(xiàn)體系001、應(yīng)用體系002和數(shù)據(jù)體系003;其中,應(yīng)用體系002包括:數(shù)據(jù)源配置模塊0021,其作為數(shù)據(jù)連接模塊用于通過(guò)配置業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)源信息從而使得數(shù)據(jù)表接入模塊0022接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息;數(shù)據(jù)表接入模塊0022,其用于接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息,并將接收到的數(shù)據(jù)表信息作為要素抽取數(shù)據(jù)表信息傳送到要素抽取模型配置模塊0023;要素抽取模型配置模塊0023,其用于接收要素抽取數(shù)據(jù)表信息,根據(jù)其設(shè)置要素抽取模型,并將所設(shè)置的要素抽取模型傳送到要素抽取任務(wù)管理模塊0024;和要素抽取任務(wù)管理模塊0024,其用于對(duì)要素抽取模型進(jìn)行任務(wù)管理并執(zhí)行,在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生抽取結(jié)果數(shù)據(jù)信息,并將其存儲(chǔ)到要素結(jié)果庫(kù)0033,或者將其傳送到要素統(tǒng)計(jì)分析模塊0011和/或要素關(guān)聯(lián)查詢(xún)模塊0012;所述展現(xiàn)體系001包括:要素統(tǒng)計(jì)分析模塊0011,其用于接收要素抽取結(jié)果數(shù)據(jù)信息,并將其按類(lèi)別進(jìn)行分類(lèi)統(tǒng)計(jì),并以表格或圖形的方式進(jìn)行顯示;和/或要素關(guān)聯(lián)查詢(xún)模塊0012,其用于接收要素抽取結(jié)果數(shù)據(jù)信息,并將其按檢索條件進(jìn)行精確檢索或模糊檢索后,產(chǎn)生檢索結(jié)果,并對(duì)所述檢索結(jié)果以列表的形式進(jìn)行顯示;所述數(shù)據(jù)體系003包括:業(yè)務(wù)數(shù)據(jù)庫(kù)0031和要素結(jié)果庫(kù)0033。(2)根據(jù)上述(1)所述的數(shù)據(jù)要素抽取分析系統(tǒng),其特征在于,所述要素關(guān)聯(lián)查詢(xún)模塊0012,還用以對(duì)所述檢索結(jié)果進(jìn)行溯源操作并顯示檢索結(jié)果的來(lái)源信息列表,點(diǎn)擊來(lái)源信息列表即可查看信息詳情,任選地,所述要素關(guān)聯(lián)查詢(xún)模塊0012還可以對(duì)詳情信息中的要素字段信息做下一步要素關(guān)聯(lián)查詢(xún)。(3)根據(jù)上述(1)所述的數(shù)據(jù)要素抽取分析系統(tǒng),其特征在于,要素抽取模型包括:抽取模型名稱(chēng)子模塊,用以存儲(chǔ)抽取模型的名稱(chēng);抽取表數(shù)據(jù)源子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的數(shù)據(jù)源信息;抽取數(shù)據(jù)表子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的表名;抽取表增量字段子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的增量字段;抽取表增量方式子模塊,用以設(shè)定抽取數(shù)據(jù)表信息的增量方式;抽取表過(guò)濾條件子模塊,用以設(shè)定對(duì)抽取數(shù)據(jù)表信息的過(guò)濾條件;抽取模型類(lèi)別子模塊,用以設(shè)定抽取模型的類(lèi)別;和抽取字段定義子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的抽取字段信息。(4)根據(jù)上述(1)所述的數(shù)據(jù)要素抽取分析系統(tǒng),其特征在于,所述數(shù)據(jù)體系003包括:業(yè)務(wù)數(shù)據(jù)庫(kù)0031,其包括戶(hù)籍信息數(shù)據(jù)庫(kù)、住宿信息數(shù)據(jù)庫(kù)和航班信息數(shù)據(jù)庫(kù);系統(tǒng)配置庫(kù)0032,其用以存儲(chǔ)系統(tǒng)內(nèi)部產(chǎn)生的數(shù)據(jù)信息,其中,所述系統(tǒng)配置庫(kù)0032中包括有數(shù)據(jù)源表、接入數(shù)據(jù)表、接入表字段、抽取模型配置表和抽取任務(wù)配置表;和要素結(jié)果庫(kù)0033,其用以存儲(chǔ)要素抽取任務(wù)管理模塊在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生的抽取結(jié)果數(shù)據(jù)信息;其中,優(yōu)選地,業(yè)務(wù)數(shù)據(jù)庫(kù)有多個(gè),數(shù)據(jù)源配置模塊作為數(shù)據(jù)連接模塊使得數(shù)據(jù)表接入模塊接收來(lái)自多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表信息。(5)根據(jù)上述(1)-(4)所述的數(shù)據(jù)要素抽取分析系統(tǒng), 其特征在于,要素抽取模型配置模塊通過(guò)對(duì)抽取模型配置表的數(shù)據(jù)信息的添加、修改和查詢(xún)來(lái)配置要素抽取模型;數(shù)據(jù)源配置模塊通過(guò)對(duì)數(shù)據(jù)源表的數(shù)據(jù)信息的添加、修改和刪除來(lái)管理數(shù)據(jù)源信息;數(shù)據(jù)表接入模塊通過(guò)對(duì)接入數(shù)據(jù)表的數(shù)據(jù)信息的添加、刪除和修改來(lái)管理接入源數(shù)據(jù)表信息;要素抽取任務(wù)管理模塊通過(guò)對(duì)抽取任務(wù)配置表的數(shù)據(jù)信息的進(jìn)行添加、修改和刪除來(lái)管理抽取任務(wù),所述管理抽取任務(wù)即為對(duì)所述要素抽取模型進(jìn)行任務(wù)管理。(6)一種數(shù)據(jù)要素抽取分析方法,其特征在于,該分析方法包括以下步驟:步驟(1):通過(guò)數(shù)據(jù)源配置模塊0021配置業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)源信息,從而使得數(shù)據(jù)表接入模塊0022接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息;步驟(2):數(shù)據(jù)表接入模塊0022根據(jù)數(shù)據(jù)源配置模塊配置的數(shù)據(jù)源信息接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息,并將接收到的數(shù)據(jù)表信息作為要素抽取數(shù)據(jù)表信息傳送到要素抽取模型配置模塊0023;步驟(3):通過(guò)要素抽取模型配置模塊0023接收要素抽取數(shù)據(jù)表信息,根據(jù)接收到的要素抽取數(shù)據(jù)表信息設(shè)置要素抽取模型,并將所設(shè)置的要素抽取模型傳送到要素抽取任務(wù)管理模塊0024;步驟(4):要素抽取任務(wù)管理模塊0024對(duì)要素抽取模型進(jìn)行任務(wù)管理并執(zhí)行,在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生抽取結(jié)果數(shù)據(jù)信息,將其存儲(chǔ)到要素結(jié)果庫(kù)0033,或者將其傳送到要素統(tǒng)計(jì)分析模塊0011和/或要素關(guān)聯(lián)查詢(xún)模塊0012;步驟(5):通過(guò)要素統(tǒng)計(jì)分析模塊0011對(duì)接收的要素抽取結(jié)果數(shù)據(jù)信息按類(lèi)別進(jìn)行分類(lèi)統(tǒng)計(jì),并以表格或圖形的方式進(jìn)行顯示;和步驟(6):通過(guò)要素關(guān)聯(lián)查詢(xún)模塊0012對(duì)接收到的要素抽取結(jié)果數(shù)據(jù)信息按檢索條件進(jìn)行精確檢索或模糊檢索后,產(chǎn)生檢索結(jié)果,并對(duì)所述檢索結(jié)果以列表的形式進(jìn)行顯示。(7)根據(jù)上述(6)所述的數(shù)據(jù)要素抽取分析方法,其特 征在于,步驟(6)中所述要素關(guān)聯(lián)查詢(xún)模塊0012還用以對(duì)所述檢索結(jié)果進(jìn)行溯源操作并顯示檢索結(jié)果的來(lái)源信息列表,點(diǎn)擊來(lái)源信息列表即可查看信息詳情,任選地,所述要素關(guān)聯(lián)查詢(xún)模塊0012還可以對(duì)詳情信息中的要素字段信息做下一步要素關(guān)聯(lián)查詢(xún)。(8)根據(jù)上述(6)所述的數(shù)據(jù)要素抽取分析方法,其特征在于,步驟(3)中的要素抽取模型包括:抽取模型名稱(chēng)子模塊,用以存儲(chǔ)抽取模型的名稱(chēng);抽取表數(shù)據(jù)源子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的數(shù)據(jù)源信息;抽取數(shù)據(jù)表子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的表名;抽取表增量字段子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的增量字段;抽取表增量方式子模塊,用以設(shè)定抽取數(shù)據(jù)表信息的增量方式;抽取表過(guò)濾條件子模塊,用以設(shè)定對(duì)抽取數(shù)據(jù)表信息的過(guò)濾條件;抽取模型類(lèi)別子模塊,用以設(shè)定抽取模型的類(lèi)別;和抽取字段定義子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的抽取字段信息。(9)根據(jù)上述(6)所述的數(shù)據(jù)要素抽取分析方法,其特征在于,步驟(1)中的業(yè)務(wù)數(shù)據(jù)庫(kù)0031和步驟(4)中的要素結(jié)果庫(kù)0033都設(shè)置在數(shù)據(jù)體系003中,數(shù)據(jù)體系003包括:業(yè)務(wù)數(shù)據(jù)庫(kù)0031,其包括戶(hù)籍信息數(shù)據(jù)庫(kù)、住宿信息數(shù)據(jù)庫(kù)和航班信息數(shù)據(jù)庫(kù);系統(tǒng)配置庫(kù)0032,其用以存儲(chǔ)系統(tǒng)內(nèi)部產(chǎn)生的數(shù)據(jù)信息,其中,所述系統(tǒng)配置庫(kù)0032中包括有數(shù)據(jù)源表、接入數(shù)據(jù)表、接入表字段、抽取模型配置表和抽取任務(wù)配置表;和要素結(jié)果庫(kù)0033,其用以存儲(chǔ)要素抽取任務(wù)管理模塊在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生的抽取結(jié)果數(shù)據(jù)信息;其中,優(yōu)選地,業(yè)務(wù)數(shù)據(jù)庫(kù)有多個(gè),數(shù)據(jù)源配置模塊作為數(shù)據(jù)連接模塊使得數(shù)據(jù)表接入模塊接收來(lái)自多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表信息。(10)根據(jù)上述(6)-(9)所述的數(shù)據(jù)要素抽取分析方法,其特征在于,要素抽取模型配置模塊通過(guò)對(duì)抽取模型配置表的數(shù)據(jù)信息的添加、修改和查詢(xún)來(lái)配置要素抽取模型;數(shù)據(jù)源配置模塊通過(guò)對(duì)數(shù)據(jù)源表的數(shù)據(jù)信息的添加、修改和刪除來(lái)管理對(duì)數(shù)據(jù)源信息;數(shù)據(jù)表接入模塊通過(guò)對(duì)接入數(shù)據(jù)表的數(shù)據(jù)信息的添加、刪除和修改來(lái)管理接入源數(shù)據(jù)表信息要素抽取任務(wù)管理模塊通過(guò)對(duì)抽取任務(wù)配置表的數(shù)據(jù)信息的進(jìn)行添加、修改和刪除來(lái)管理抽取任務(wù),所述管理抽取任務(wù)即為對(duì)所述要素抽取模型進(jìn)行任務(wù)管理。根據(jù)本發(fā)明提供的數(shù)據(jù)要素抽取分析系統(tǒng)及方法,改變對(duì)數(shù)據(jù)的利用方式,提高現(xiàn)有數(shù)據(jù)的信息價(jià)值,提高使用者的工作效率,提高現(xiàn)有數(shù)據(jù)的信息價(jià)值,提高數(shù)據(jù)處理效率,使得數(shù)據(jù)之間的關(guān)聯(lián)能夠快速、準(zhǔn)確的被發(fā)現(xiàn),從中挖掘出有價(jià)值的信息。本發(fā)明具體具有以下有益效果:第一、本發(fā)明通過(guò)數(shù)據(jù)源配置模塊對(duì)多個(gè)不同的業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)源信息的定義,使得本發(fā)明不拘泥于單一的數(shù)據(jù)庫(kù)系統(tǒng),可以訪問(wèn)不同的數(shù)據(jù)庫(kù),可以對(duì)任意數(shù)據(jù)庫(kù)的數(shù)據(jù)信息進(jìn)行要素抽??;第二、本發(fā)明通過(guò)要素抽取模型配置模塊可以靈活的設(shè)置抽取模型,使得要素抽取過(guò)程中,抽取方式多樣、靈活,提高了該系統(tǒng)的實(shí)用性;第三、本發(fā)明對(duì)要素抽取結(jié)果數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)和深層分析,便于使用者進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。第四、本發(fā)明通過(guò)要素抽取任務(wù)管理模塊能夠靈活定義抽取任務(wù)的執(zhí)行方式,并且能夠?qū)崟r(shí)監(jiān)控抽取任務(wù)的執(zhí)行狀態(tài)、執(zhí)行進(jìn)度。附圖說(shuō)明圖1示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的結(jié)構(gòu)示意圖;圖2a示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的系統(tǒng)配置庫(kù)的數(shù)據(jù)表示意圖;圖2b示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的要素結(jié)果庫(kù)的數(shù)據(jù)表示意圖;圖3a示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的業(yè)務(wù)功能示意圖;圖3b示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的業(yè)務(wù)操作流程圖;圖4示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的要素抽取模型配置模塊的流程圖;圖5示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的要素抽取任務(wù)管理模塊的流程圖。圖6示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的要素統(tǒng)計(jì)分析的流程圖。圖7示出根據(jù)本發(fā)明一種優(yōu)選實(shí)施方式的數(shù)據(jù)要素抽取分析系統(tǒng)的要素關(guān)聯(lián)查詢(xún)的流程圖。附圖標(biāo)號(hào)說(shuō)明001-展現(xiàn)體系002-應(yīng)用體系003-數(shù)據(jù)體系0011-要素統(tǒng)計(jì)分析模塊0012-要素關(guān)聯(lián)查詢(xún)模塊0021-數(shù)據(jù)源配置模塊0022-數(shù)據(jù)表接入模塊0023-要素抽取模型配置模塊0024-要素抽取任務(wù)管理模塊0031-業(yè)務(wù)數(shù)據(jù)庫(kù)0032-系統(tǒng)配置庫(kù)0033-要素結(jié)果庫(kù)具體實(shí)施方式下面通過(guò)對(duì)本發(fā)明進(jìn)行詳細(xì)說(shuō)明,本發(fā)明的特點(diǎn)和優(yōu)點(diǎn)將隨著這些說(shuō)明而變得更為清楚、明確。在這里專(zhuān)用的詞“示例性”意為“用作例子、實(shí)施例或說(shuō)明性”。這里作為“示例性”所說(shuō)明的任何實(shí)施例不必解釋為優(yōu) 于或好于其它實(shí)施例。盡管在附圖中示出了實(shí)施例的各種方面,但是除非特別指出,不必按比例繪制附圖。在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施方式中,如圖1和圖3a中所示,提供一種數(shù)據(jù)要素抽取分析系統(tǒng),該分析系統(tǒng)包括展現(xiàn)體系001、應(yīng)用體系002和數(shù)據(jù)體系003;其中,應(yīng)用體系包括:數(shù)據(jù)源配置模塊0021,其作為數(shù)據(jù)連接模塊,通過(guò)配置業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)源信息從而使得數(shù)據(jù)表接入模塊0022接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)表信息;其中數(shù)據(jù)源信息是連接數(shù)據(jù)庫(kù)的配置信息,包括數(shù)據(jù)庫(kù)訪問(wèn)地址、端口、賬號(hào)、密碼,該信息以連接字符串的形式存儲(chǔ)在數(shù)據(jù)源表中。數(shù)據(jù)源配置模塊作為數(shù)據(jù)連接模塊使得數(shù)據(jù)表接入模塊接收來(lái)自多個(gè)業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表信息,其中數(shù)據(jù)表信息包括數(shù)據(jù)表基本信息和表字段信息,數(shù)據(jù)表基本信息包括表名稱(chēng)、表注釋、表分類(lèi)等,該信息存儲(chǔ)在接入數(shù)據(jù)表中;表字段信息包括字段名稱(chēng)、字段類(lèi)型、字段描述,該信息存儲(chǔ)在接入表字段的數(shù)據(jù)表中。本發(fā)明中,數(shù)據(jù)源配置模塊是對(duì)連接數(shù)據(jù)庫(kù)的配置信息進(jìn)行管理,數(shù)據(jù)表信息定義是通過(guò)數(shù)據(jù)源配置信息連接數(shù)據(jù)庫(kù)表獲取表基本信息與表字段信息的操作。數(shù)據(jù)表接入模塊0022,其用于接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031中的數(shù)據(jù)表信息,并將接收到的數(shù)據(jù)表信息作為要素抽取數(shù)據(jù)表信息傳送到要素抽取模型配置模塊0023中;要素抽取模型配置模塊0023,其用于接收要素抽取數(shù)據(jù)表信息,根據(jù)接收到的要素抽取數(shù)據(jù)表信息設(shè)置要素抽取模型,并將設(shè)置的要素抽取模型傳送到要素抽取任務(wù)管理模塊0024,要素抽取任務(wù)管理模塊0024,其對(duì)由要素抽取模型配置模塊設(shè)置的要素抽取模型進(jìn)行任務(wù)管理并執(zhí)行所述要素抽取模型,在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生抽取結(jié)果數(shù)據(jù)信息,將抽取結(jié)果數(shù)據(jù)信息存儲(chǔ)到要素結(jié)果庫(kù)0033中,或者將抽取結(jié)果數(shù)據(jù)信息傳送到要素統(tǒng)計(jì)分析模塊0011和/或要素關(guān)聯(lián)查詢(xún)模塊0012,即所述抽取結(jié)果數(shù)據(jù)信息的輸送目的地為要素結(jié)果庫(kù)0033或者要素統(tǒng)計(jì)分析模塊和要素關(guān)聯(lián)查詢(xún)模塊中的任意一個(gè)或兩個(gè);其中,抽取結(jié)果數(shù)據(jù)信息的含義是按照定義的要 素抽取模型輸出列形成的抽取數(shù)據(jù)結(jié)果表,主要內(nèi)容包括輸出列字段,結(jié)果數(shù)據(jù)來(lái)源,抽取結(jié)果時(shí)間。例如對(duì)戶(hù)籍信息表進(jìn)行要素抽取,形成的人物要素抽取結(jié)果為姓名、證件號(hào)碼、性別、出生日期、戶(hù)籍?dāng)?shù)據(jù)表名稱(chēng)、抽取結(jié)果時(shí)間(張三、1101120356、男、1985-8-6、戶(hù)籍表、2015-10-112:30:26)。其中,展現(xiàn)體系001包括:要素統(tǒng)計(jì)分析模塊0011,其用于接收要素抽取結(jié)果數(shù)據(jù)信息,對(duì)接收到的要素抽取結(jié)果數(shù)據(jù)信息按不同的類(lèi)別進(jìn)行分類(lèi)統(tǒng)計(jì),并以表格或圖形的方式進(jìn)行顯示;要素關(guān)聯(lián)查詢(xún)模塊0012,其用于接收要素抽取結(jié)果數(shù)據(jù)信息,對(duì)接收到的要素抽取結(jié)果數(shù)據(jù)信息按輸入的檢索條件進(jìn)行精確檢索或模糊檢索后,產(chǎn)生檢索結(jié)果,并對(duì)所述檢索結(jié)果以列表的形式進(jìn)行顯示;還用以對(duì)所述檢索結(jié)果進(jìn)行溯源操作并顯示檢索結(jié)果的來(lái)源信息列表,點(diǎn)擊來(lái)源信息列表查看信息詳情以及對(duì)詳情信息中的要素字段信息做下一步要素關(guān)聯(lián)查詢(xún)。其中,所述輸入的檢索條件包括抽取任務(wù)名稱(chēng)、抽取模型輸出字段、抽取數(shù)據(jù)來(lái)源、抽取結(jié)果時(shí)間,其中抽取任務(wù)名稱(chēng)進(jìn)行列表選擇,抽取輸出模型字段與抽取數(shù)據(jù)來(lái)源進(jìn)行文本框輸入,抽取結(jié)果時(shí)間通過(guò)日期框選擇。所述要素關(guān)聯(lián)查詢(xún)具體是通過(guò)已查詢(xún)要素關(guān)聯(lián)其他類(lèi)別要素,具體步驟為通過(guò)當(dāng)前查詢(xún)要素找到該要素對(duì)應(yīng)的數(shù)據(jù)來(lái)源,通過(guò)該要素對(duì)應(yīng)的數(shù)據(jù)來(lái)源查找與該來(lái)源一致的其他要素。在一個(gè)優(yōu)選的實(shí)施方式中,如圖1中所示,該系統(tǒng)數(shù)據(jù)體系003至少包括三個(gè)數(shù)據(jù)庫(kù),分別是業(yè)務(wù)數(shù)據(jù)庫(kù)0031、系統(tǒng)配置庫(kù)0032、要素結(jié)果庫(kù)0033;其中,業(yè)務(wù)數(shù)據(jù)庫(kù)0031為企業(yè)的數(shù)據(jù)庫(kù),該業(yè)務(wù)數(shù)據(jù)庫(kù)直接調(diào)用即可,業(yè)務(wù)數(shù)據(jù)庫(kù)中存儲(chǔ)企業(yè)的業(yè)務(wù)信息的數(shù)據(jù),包括企業(yè)的員工信息、產(chǎn)品信息、銷(xiāo)售信息、主要活動(dòng)信息等,業(yè)務(wù)數(shù)據(jù)庫(kù)的類(lèi)型并無(wú)特殊限制,可以為Oracle、SQLServer或DB2數(shù)據(jù)庫(kù);同時(shí)業(yè)務(wù)數(shù)據(jù)庫(kù)所述的領(lǐng)域也并無(wú)特殊限制,業(yè)務(wù)數(shù)據(jù)庫(kù)可以為戶(hù)籍信息數(shù)據(jù)庫(kù)、航班信息數(shù)據(jù)庫(kù)、住宿信息數(shù)據(jù)庫(kù)或其他常規(guī)數(shù)據(jù)庫(kù),即業(yè)務(wù)數(shù)據(jù)庫(kù)可以是多個(gè),選自上述任一數(shù)據(jù)庫(kù),由于應(yīng)用業(yè)務(wù)數(shù)據(jù)庫(kù),使得該系統(tǒng)的應(yīng)用范圍 廣泛,提高了該系統(tǒng)的實(shí)用性。本發(fā)明中所述的戶(hù)籍信息數(shù)據(jù)庫(kù)主要存儲(chǔ)的信息為人口戶(hù)籍基本信息,主要內(nèi)容包括:姓名、證件號(hào)碼、性別、出生日期、住址、聯(lián)系方式等,如下表:戶(hù)籍信息表身份證號(hào)姓名性別出生日期住址聯(lián)系方式110182197701020001張三男19770102三里屯13488886666110182197701020002李四女19790202七里河13544445555110182197701020003王五女19850302五棵松13288776699航班信息數(shù)據(jù)庫(kù)主要存儲(chǔ)的信息為人員航班記錄信息,主要內(nèi)容包括:證件號(hào)碼、姓名、航班、航班日期等,如下表:航班信息表證件號(hào)碼姓名航班出發(fā)時(shí)間(增量字段)110182197701020001張三北京-上海2012年11月7日110182197701020002李四北京-上海2013年11月7日110182197701020001張三北京-上海2013年11月7日住宿信息數(shù)據(jù)庫(kù)主要存儲(chǔ)的信息為人員住宿記錄信息,主要內(nèi)容包括:證件號(hào)碼、姓名、房間號(hào)、住宿賓館、入住時(shí)間等,如下表:住宿信息表證件號(hào)碼姓名房間號(hào)住宿賓館入住時(shí)間(增量字段)110182197701020001張三001漢庭2013年11月7日110182197701020002李四002如家2013年11月8日110182197701020002李四003錦江2013年12月9日要素結(jié)果庫(kù)0033用以存儲(chǔ)該系統(tǒng)內(nèi)部產(chǎn)生的要素抽取結(jié)果數(shù)據(jù)信息,所述系統(tǒng)內(nèi)部產(chǎn)生的要素抽取結(jié)果數(shù)據(jù)信息包括要素抽取任務(wù)管理模塊在執(zhí)行所述要素抽取模型的過(guò)程中產(chǎn)生的抽取結(jié)果數(shù)據(jù)信息,如圖2b所示:包括人物要素表、組織要素表、通訊要素表、地址要素表、要素關(guān)系表;其中每個(gè)要素庫(kù)中的來(lái)源信息指該要素從哪個(gè)數(shù)據(jù)表中抽取及在該數(shù)據(jù)表中出現(xiàn)多少次,溯源信息指該要素字段對(duì)應(yīng)的抽取數(shù)據(jù)表及抽取字 段信息;另外,所述系統(tǒng)內(nèi)部產(chǎn)生的數(shù)據(jù)信息還可以包括本發(fā)明中公開(kāi)的數(shù)據(jù)要素抽取分析系統(tǒng)在數(shù)據(jù)運(yùn)算過(guò)程中產(chǎn)生的數(shù)據(jù)信息,其中,系統(tǒng)指代的是數(shù)據(jù)要素抽取分析系統(tǒng)。系統(tǒng)配置庫(kù)0032是系統(tǒng)的核心數(shù)據(jù)庫(kù),其用以存儲(chǔ)該系統(tǒng)產(chǎn)生的數(shù)據(jù)信息,如圖2a所示:包括數(shù)據(jù)源表、接入數(shù)據(jù)表、接入表字段、要素抽取任務(wù)配置表、要素抽取模型配置表這五張數(shù)據(jù)表;這五張數(shù)據(jù)表在該系統(tǒng)運(yùn)行時(shí)為系統(tǒng)提供數(shù)據(jù)支持;具體來(lái)說(shuō),如圖2a所示:所述數(shù)據(jù)源表中包含數(shù)據(jù)源標(biāo)識(shí)字段、數(shù)據(jù)源描述字段和數(shù)據(jù)庫(kù)連接信息字段;所述接入數(shù)據(jù)表中包含表名字段、表注釋字段、表分類(lèi)字段和數(shù)據(jù)源標(biāo)識(shí)字段;所述接入表字段中記載字段名、字段描述、字段類(lèi)型和數(shù)據(jù)表名;所述抽取模型配置表中記載模型名稱(chēng)、模型類(lèi)別、抽取表數(shù)據(jù)源、抽取數(shù)據(jù)表、增量字段、增量方式、抽取過(guò)濾條件和抽取字段定義等信息;所述抽取任務(wù)配置表中記載任務(wù)名稱(chēng)、任務(wù)狀態(tài)、執(zhí)行方式、執(zhí)行狀態(tài)、執(zhí)行進(jìn)度、抽取模型名稱(chēng)、已處理數(shù)據(jù)最大時(shí)間戳和已處理數(shù)據(jù)最大數(shù)據(jù)ID等信息。所述數(shù)據(jù)體系還任選地包括核心數(shù)據(jù)庫(kù),所述核心數(shù)據(jù)庫(kù)用于存儲(chǔ)所述數(shù)據(jù)體系中的系統(tǒng)數(shù)據(jù),其中系統(tǒng)數(shù)據(jù)指系統(tǒng)運(yùn)行必須的數(shù)據(jù)配置信息,包括數(shù)據(jù)源表、接入數(shù)據(jù)表、接入字段表、抽取模型配置表、抽取任務(wù)配置表、人物要素表、通訊要素表、地址要素表、組織要素表中的數(shù)據(jù)信息。在一個(gè)優(yōu)選的實(shí)施方式中,如圖4中所示,該系統(tǒng)通過(guò)要素抽取模型配置模塊對(duì)抽取模型進(jìn)行配置,使得該系統(tǒng)可以靈活地進(jìn)行要素抽取工作,可以根據(jù)使用者的需求靈活的定義抽取方式,增加了該系統(tǒng)的實(shí)用性和靈活性;同時(shí)也提高了該系統(tǒng)的使用范圍,使得該系統(tǒng)適用于更多的數(shù)據(jù)抽取分析領(lǐng)域。其中,要素抽取模型包括:抽取模型名稱(chēng)子模塊,抽取表數(shù)據(jù)源子模塊,抽取數(shù)據(jù)表子模塊,抽取表增量字段子模塊,抽取表增量方式子模塊,抽取表過(guò)濾條件子模塊,抽取模型類(lèi)別子模塊,抽取字段定義子模塊,共八個(gè)子模塊;具體來(lái)說(shuō),抽取模型名稱(chēng)子模塊,用以存儲(chǔ)抽取模型的名稱(chēng);抽取表數(shù)據(jù)源子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的數(shù)據(jù)源信息;抽取數(shù)據(jù)表子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的表名;抽取表增量字段子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表信息的增量字段;抽取表增量方式子模塊,用以設(shè)定抽取數(shù)據(jù)表信息的增量方式;抽取表過(guò)濾條件子模塊,用以設(shè)定對(duì)抽取數(shù)據(jù)表信息的過(guò)濾條件;抽取模型類(lèi)別子模塊,用以設(shè)定抽取模型的類(lèi)別;和抽取字段定義子模塊,用以存儲(chǔ)抽取數(shù)據(jù)表的抽取字段信息;任選地,所述要素抽取模型還可以包括第九個(gè)子模塊:模型步驟子模塊,其用以分別設(shè)定抽取字段定義子模塊和抽取表過(guò)濾條件子模塊的執(zhí)行順序。在一個(gè)優(yōu)選的實(shí)施方式中,設(shè)置要素抽取模型包括以下步驟:輸入抽取數(shù)據(jù)表信息,輸入抽取數(shù)據(jù)表信息的過(guò)濾數(shù)據(jù)列信息,輸入查詢(xún)條件,使得抽取數(shù)據(jù)表信息在查詢(xún)條件范圍內(nèi)進(jìn)行數(shù)據(jù)抽取,輸入抽取數(shù)據(jù)表信息增量數(shù)據(jù)列信息,選擇增量方式,使得抽取數(shù)據(jù)表信息按照增量方式進(jìn)行數(shù)據(jù)抽取,輸入抽取數(shù)據(jù)表信息的抽取字段定義,選擇抽取類(lèi)型,使得抽取數(shù)據(jù)表信息按照定義的抽取字段進(jìn)行數(shù)據(jù)抽取。要素抽取模型配置模塊通過(guò)對(duì)抽取模型配置表的數(shù)據(jù)信息的添加、修改和查詢(xún)來(lái)配置要素抽取模型;所述抽取模型配置表存儲(chǔ)在系統(tǒng)配置庫(kù)0032中,要素抽取模型的八個(gè)子模塊中每個(gè)子模塊在抽取模型配置表中對(duì)應(yīng)唯一的一個(gè)字段;其中,抽取模型配置表中“抽取表數(shù)據(jù)源”字段與數(shù)據(jù)源表中“數(shù)據(jù)源標(biāo)識(shí)”字段相對(duì)應(yīng),抽取模型配置表中的“抽取數(shù)據(jù)表”字段與接入數(shù)據(jù)表中的“表名”字段相對(duì)應(yīng)”;要素抽取模型配置模塊通過(guò)抽取模型配置表中的“抽取表數(shù)據(jù)源”和“抽取數(shù)據(jù)表”得到業(yè)務(wù)數(shù)據(jù)庫(kù)中的數(shù)據(jù)表信息;抽取模型配置表中的“模型類(lèi)別”字段存儲(chǔ)模型的類(lèi)別信息,模型類(lèi)別指人物要素類(lèi)別、組織要素類(lèi)別、通訊要素類(lèi)別、地址要素類(lèi)別。抽取模型配置表中的“抽取字段定義”用于存儲(chǔ)抽取模型的抽取表抽取的字段信息,不同的抽取模型類(lèi)別定義的抽取字段是不同的,人物要素類(lèi)別抽取的字段包括:證件號(hào)碼、證件類(lèi)型、姓名、性別、出生日期;組織要素類(lèi)別抽取的字段包括:組織編碼、組織名稱(chēng);通訊要素類(lèi)別抽取的字段包括:通訊號(hào)碼、號(hào)碼類(lèi)別;地址要素類(lèi)別抽取的字段包括:地址編碼、地址名稱(chēng)。在一個(gè)優(yōu)選的實(shí)施方式中,如圖2a中所示,數(shù)據(jù)源配置模塊通過(guò)對(duì)數(shù)據(jù)源表的數(shù)據(jù)信息的添加、修改和刪除來(lái)管理對(duì)數(shù)據(jù)源信息,數(shù)據(jù)源配置表的主鍵為“數(shù)據(jù)源標(biāo)識(shí)”,每建立一個(gè)數(shù)據(jù)源會(huì)生成唯一的數(shù)據(jù)源標(biāo)識(shí);具體而言,本發(fā)明中,數(shù)據(jù)源配置模塊通過(guò)JDBC方式使得數(shù)據(jù)表接入模塊與業(yè)務(wù)數(shù)據(jù)庫(kù)之間建立連接;在一個(gè)優(yōu)選的實(shí)施方式中,如圖2a中所示,數(shù)據(jù)表接入模塊通過(guò)對(duì)接入數(shù)據(jù)表的數(shù)據(jù)信息的的添加、刪除和修改來(lái)管理接入源數(shù)據(jù)表信息;在一個(gè)優(yōu)選的實(shí)施方式中,如圖2a和5中所示,要素抽取任務(wù)管理模塊通過(guò)對(duì)抽取任務(wù)配置表的數(shù)據(jù)信息的添加、修改和刪除來(lái)管理抽取任務(wù)的,所述管理抽取任務(wù)即為對(duì)所述要素抽取模型進(jìn)行任務(wù)管理,抽取任務(wù)配置表主鍵為“任務(wù)名稱(chēng)”;抽取任務(wù)配置表中的“執(zhí)行方式”為定時(shí)執(zhí)行、實(shí)時(shí)執(zhí)行、即時(shí)執(zhí)行或單次執(zhí)行中的一種;“任務(wù)狀態(tài)”是指任務(wù)是否處于啟動(dòng)或停止?fàn)顟B(tài)?!皥?zhí)行狀態(tài)”是指任務(wù)是否處于抽取過(guò)程中,“執(zhí)行進(jìn)度”指當(dāng)前數(shù)據(jù)抽取完成的進(jìn)度。該模塊能夠靈活定義抽取任務(wù)的執(zhí)行方式、能夠?qū)崟r(shí)監(jiān)控抽取任務(wù)的執(zhí)行狀態(tài)與執(zhí)行進(jìn)度。在一個(gè)優(yōu)選的實(shí)施方式中,如圖2a中所示,接入表字段主要用途為在配置要素抽取模型時(shí)作為抽取要素表的接入字段,用于配置抽取模型增量字段、抽取結(jié)果輸出字段、抽取數(shù)據(jù)范圍篩選字段。在一個(gè)優(yōu)選的實(shí)施方式中,如圖6中所示,要素統(tǒng)計(jì)分析模塊0012用于接收要素抽取結(jié)果數(shù)據(jù)信息,并將要素結(jié)果數(shù)據(jù)信息按照不同的類(lèi)別分類(lèi),例如人物要素、組織要素、通訊要素、 地址要素等來(lái)分類(lèi)統(tǒng)計(jì)并分析,然后將分析結(jié)果以表格或圖形的方式進(jìn)行顯示。表格顯示后可以進(jìn)行按統(tǒng)計(jì)列排序、篩選統(tǒng)計(jì)范圍、統(tǒng)計(jì)結(jié)果進(jìn)一步鉆取等操作,對(duì)于圖表展現(xiàn)可以按照柱狀圖、餅狀圖、折線圖等圖表展示。通過(guò)該模塊可以對(duì)要素抽取結(jié)果數(shù)據(jù)信息進(jìn)行深層次挖掘,使得使用者可以做出歸納性的推理,從中挖掘出潛在的模式,幫助使用者調(diào)整分析策略,減少風(fēng)險(xiǎn),做出正確的決策。在一個(gè)優(yōu)選的實(shí)施方式中,如圖7中所示,要素關(guān)聯(lián)查詢(xún)模塊0011主要將要素結(jié)果數(shù)據(jù)信息按人物要素、組織要素、通訊要素、地點(diǎn)要素進(jìn)行查詢(xún),同時(shí)對(duì)查詢(xún)的結(jié)果數(shù)據(jù)進(jìn)行溯源操作并產(chǎn)生源信息,在源信息中依據(jù)抽取模型中配置的要素抽取字段及抽取數(shù)據(jù)表進(jìn)一步進(jìn)行要素關(guān)聯(lián),發(fā)現(xiàn)數(shù)據(jù)之間潛在的價(jià)值關(guān)系。本發(fā)明中溯源就是查找要素結(jié)果數(shù)據(jù)信息的來(lái)源,例如,戶(hù)籍信息表有一個(gè)人物叫張三,航班信息表有張三的乘機(jī)記錄,對(duì)兩個(gè)數(shù)據(jù)表進(jìn)行人物要素信息抽取,就得到人物要素結(jié)果數(shù)據(jù)張三的人物要素信息及其來(lái)源信息,但如果想通過(guò)要素結(jié)果數(shù)據(jù)信息知道張三的具體戶(hù)籍信息、航班信息,就可以通過(guò)要素的來(lái)源信息查找其戶(hù)籍、航班的具體信息,這個(gè)查找的過(guò)程就是溯源的過(guò)程。在根據(jù)本發(fā)明的一個(gè)優(yōu)選實(shí)施方式中,如圖3a、3b中所示,提供數(shù)據(jù)要素抽取分析方法,該方法包括以下步驟:(1)配置數(shù)據(jù)源步驟S1:通過(guò)數(shù)據(jù)源配置模塊0021對(duì)需要接入該系統(tǒng)的業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)源信息進(jìn)行定義,即通過(guò)數(shù)據(jù)源配置模塊0021配置業(yè)務(wù)數(shù)據(jù)庫(kù)的數(shù)據(jù)源信息,從而使得數(shù)據(jù)表接入模塊0022接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息。(2)根據(jù)步驟(1)中定義的數(shù)據(jù)源信息接入抽取數(shù)據(jù)表信息S2:數(shù)據(jù)表接入模塊根據(jù)數(shù)據(jù)源配置模塊配置的數(shù)據(jù)源信息將業(yè)務(wù)數(shù)據(jù)庫(kù)中數(shù)據(jù)表信息接入該系統(tǒng);具體為接收來(lái)自業(yè)務(wù)數(shù)據(jù)庫(kù)0031的數(shù)據(jù)表信息,并將接收的數(shù)據(jù)表信息作為要素抽取數(shù)據(jù)表信息傳送到要素抽取模型配置模塊0023;(3)通過(guò)抽取數(shù)據(jù)表信息進(jìn)行要素抽取模型的配置S3;具體來(lái)說(shuō),通過(guò)要素抽取模型配置模塊0023接收要素抽取數(shù)據(jù) 表信息,根據(jù)接收到的要素抽取數(shù)據(jù)表信息設(shè)置要素抽取模型,并將所設(shè)置的要素抽取模型傳送到要素抽取任務(wù)管理模塊0024;(4)對(duì)步驟(3)中已設(shè)置的要素抽取模型進(jìn)行任務(wù)抽取,即,通過(guò)抽取任務(wù)管理模塊對(duì)要素抽取模型進(jìn)行管理S4,抽取任務(wù)管理模塊在執(zhí)行抽取模型的過(guò)程中產(chǎn)生抽取結(jié)果數(shù)據(jù)信息,并將抽取結(jié)果數(shù)據(jù)信息以要素結(jié)果表的形式存入到要素結(jié)果庫(kù),或者將抽取結(jié)果數(shù)據(jù)信息傳送到要素統(tǒng)計(jì)分析模塊0011和/或要素關(guān)聯(lián)查詢(xún)模塊0012;(5)對(duì)步驟(4)中產(chǎn)生的抽取結(jié)果數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)分析操作S5和數(shù)據(jù)查詢(xún)操作S6;具體來(lái)說(shuō),通過(guò)要素統(tǒng)計(jì)分析模塊0011對(duì)接收的要素抽取結(jié)果數(shù)據(jù)信息按不同的類(lèi)別進(jìn)行分類(lèi)統(tǒng)計(jì),即按照不同的維度進(jìn)行分類(lèi)統(tǒng)計(jì),并以表格或圖形的方式進(jìn)行顯示;(6)通過(guò)要素關(guān)聯(lián)查詢(xún)模塊對(duì)接收到的要素抽取結(jié)果數(shù)據(jù)信息按輸入的檢索條件進(jìn)行精確檢索或模糊檢索后,產(chǎn)生檢索結(jié)果,并對(duì)所述檢索結(jié)果以列表的形式進(jìn)行顯示;其中精確檢索指檢索結(jié)果與輸入的檢索條件完全一致,例如對(duì)姓名列按張三進(jìn)行精確檢索,其檢索結(jié)果都是姓名與張三完全一致的信息;模糊檢索指檢索結(jié)果包含檢索條件,例如對(duì)姓名列按張三進(jìn)行模糊檢索,其檢索結(jié)果包括姓名為張三與張三豐的所有信息。其中,在要素結(jié)果數(shù)據(jù)查詢(xún)工作完成后,對(duì)查詢(xún)的結(jié)果進(jìn)行溯源操作,然后對(duì)溯源結(jié)果利用已配置的抽取模型再次對(duì)要素抽取字段進(jìn)行要素關(guān)聯(lián)進(jìn)行深層次關(guān)聯(lián)分析。實(shí)施例:1、業(yè)務(wù)數(shù)據(jù)庫(kù):戶(hù)籍信息數(shù)據(jù)庫(kù)、航班信息數(shù)據(jù)庫(kù)、住宿信息數(shù)據(jù)庫(kù)、通話記錄數(shù)據(jù)庫(kù),其中,戶(hù)籍信息數(shù)據(jù)庫(kù)中包括戶(hù)籍信息表(表1);航班信息數(shù)據(jù)庫(kù)中包括航班信息表(表2);住宿信息數(shù)據(jù)庫(kù)包括住宿信息表(表3);通訊記錄數(shù)據(jù)庫(kù)包括通話記錄信息(表4);2、數(shù)據(jù)源配置模塊通過(guò)JDBC方式將業(yè)務(wù)數(shù)據(jù)庫(kù)與數(shù)據(jù)表接入模塊相連;3、數(shù)據(jù)表接入模塊分別接入戶(hù)籍信息表、航班信息表、住 宿信息表、通話記錄表并將四個(gè)表傳送到要素抽取模型配置模塊;4、通過(guò)要素抽取模型配置模塊設(shè)置抽取模型:戶(hù)籍信息表要素抽取模型:a)抽取數(shù)據(jù)表信息的定義:抽取數(shù)據(jù)表信息為戶(hù)籍信息表(表1),b)定義抽取數(shù)據(jù)的范圍:定義抽取數(shù)據(jù)的范圍:身份證號(hào)開(kāi)始于“110”c)定義抽取數(shù)據(jù)的增量數(shù)據(jù)列:定義要素抽取數(shù)據(jù)列:人物要素抽取列:身份證號(hào)、d)姓名、性別、出生日期,通訊要素抽取列:聯(lián)系方式;航班信息表要素抽取模型:a)抽取數(shù)據(jù)表信息的定義:抽取數(shù)據(jù)表信息為航班信息表(表2),b)定義抽取數(shù)據(jù)的范圍:定義抽取數(shù)據(jù)的范圍:出發(fā)時(shí)間大于“2012年11月1日”c)定義抽取數(shù)據(jù)的增量數(shù)據(jù)列:出發(fā)時(shí)間,增量方式:日期增量。d)定義要素抽取數(shù)據(jù)列:人物要素抽取列:證件號(hào)碼、姓名。住宿信息表要素抽取模型:a)抽取數(shù)據(jù)表信息的定義:抽取數(shù)據(jù)表信息為住宿信息表(表3),b)定義抽取數(shù)據(jù)的范圍:定義抽取數(shù)據(jù)的范圍:入住時(shí)間大于“2011年11月1日”c)定義抽取數(shù)據(jù)的增量數(shù)據(jù)列:入住時(shí)間,增量方式:日期增量。d)定義要素抽取數(shù)據(jù)列:人物要素抽取列:證件號(hào)碼、姓名。通話記錄表要素抽取模型:a)抽取數(shù)據(jù)表信息的定義:抽取數(shù)據(jù)表信息為通話記錄表(表4),b)定義抽取數(shù)據(jù)的范圍:定義抽取數(shù)據(jù)的范圍:通話時(shí)間 大于“2012年10月1日”c)定義抽取數(shù)據(jù)的增量數(shù)據(jù)列:通話時(shí)間,增量方式:日期增量。d)定義要素抽取數(shù)據(jù)列:人物要素抽取列:證件號(hào)碼、姓名;通訊要素抽取列:手機(jī)號(hào)。5、要素抽取任務(wù)管理模塊執(zhí)行要素抽取模型:產(chǎn)生的抽取結(jié)果數(shù)據(jù)信息為人物要素表(表5)、通訊要素表(表6);6-1、要素關(guān)聯(lián)查詢(xún)模3進(jìn)行要素查詢(xún):其中,當(dāng)具有多條抽取結(jié)果數(shù)據(jù)信息時(shí)可以通過(guò)精確或模糊檢索找到其中的一條,選擇人物要素查詢(xún),輸入姓名李四,可以查看到李四的人物要素信息,如下:6-2、如圖7中所示,要素關(guān)聯(lián)查詢(xún)模塊溯源操作:將7-1中李四的人物要素結(jié)果通過(guò)溯源信息(戶(hù)籍信息-溯源字段:身份證號(hào))進(jìn)行戶(hù)籍信息關(guān)聯(lián),可以查看到李四的戶(hù)籍信息詳情(110182197701020002,李四,女,19790202,七里河,13544445555);6-3、素關(guān)聯(lián)查詢(xún)模塊將溯源后的信息詳情通過(guò)要素抽取模型配置中抽取要素字段定義進(jìn)行要素關(guān)聯(lián),步驟如下:首先、溯源后的戶(hù)籍信息詳情為(110182197701020002,李四,女,19790202,七里河,13544445555)其次、需要關(guān)聯(lián)的詳情信息內(nèi)容為聯(lián)系方式:13544445555;再次、要素抽取模型配置模塊的抽取字段配置聯(lián)系方式為通訊要素抽取字段;最后、通過(guò)聯(lián)系方式13544445555關(guān)聯(lián)通訊要素表,得出關(guān)聯(lián)檢索結(jié)果為:表1戶(hù)籍信息表身份證號(hào)姓名性別出生日期住址聯(lián)系方式110182197701020001張三男19770102三里屯13488886666110182197701020002李四女19790202七里河13544445555110182197701020003王五女19850302五棵松13288776699表2航班信息表證件號(hào)碼姓名航班出發(fā)時(shí)間(增量字段)110182197701020001張三北京-上海2012年11月7日110182197701020002李四北京-上海2013年11月7日110182197701020001張三北京-上海2013年11月7日表3住宿信息表證件號(hào)碼姓名房間住宿賓館入住時(shí)間(增量字段)110182197701020001張三001漢庭2013年11月7日110182197701020002李四002如家2013年11月8日110182197701020002李四003錦江2013年12月9日表4通話記錄表證件號(hào)碼(主鍵)姓名手機(jī)號(hào)呼叫方式通話時(shí)間110182197701020003王五13288776699主叫2013年11月7日10:30:22110182197701020002李四13544445555被叫2013年11月8日11:28:35110182197701020002李四13544445555主叫2013年12月9日14:26:59表5人物要素表表6通訊要素表根據(jù)本發(fā)明提供的數(shù)據(jù)要素抽取分析系統(tǒng)及方法,改變對(duì)數(shù)據(jù)的利用方式,提高現(xiàn)有數(shù)據(jù)的信息價(jià)值,提高數(shù)據(jù)處理效率,使得數(shù)據(jù)之間的關(guān)聯(lián)能夠快速、準(zhǔn)確的被發(fā)現(xiàn),從中挖掘出有價(jià)值的信息。本發(fā)明具體具有以下有益效果:第一、本發(fā)明通過(guò)數(shù)據(jù)源配置模塊對(duì)多個(gè)不同的業(yè)務(wù)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)源信息的定義,使得本發(fā)明不拘泥于單一的數(shù)據(jù)庫(kù)系統(tǒng),可以訪問(wèn)不同的數(shù)據(jù)庫(kù),可以對(duì)任意數(shù)據(jù)庫(kù)的數(shù)據(jù)信息進(jìn)行要素抽??;第二、本發(fā)明通過(guò)要素抽取模型配置模塊可以靈活的設(shè)置抽取模型,使得要素抽取過(guò)程中,抽取方式多樣、靈活,提高了該系統(tǒng)的實(shí)用性;第三、本發(fā)明對(duì)要素抽取結(jié)果數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)和深層分析,便于進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘工作。第四、本發(fā)明通過(guò)要素抽取任務(wù)管理模塊能夠靈活定義抽取任務(wù)的執(zhí)行方式,并且能夠?qū)崟r(shí)監(jiān)控抽取任務(wù)的執(zhí)行狀態(tài)、 執(zhí)行進(jìn)度。以上接合具體實(shí)施方式和范例性實(shí)例對(duì)本發(fā)明進(jìn)行了詳細(xì)說(shuō)明,不過(guò)這些說(shuō)明并不能理解為對(duì)本發(fā)明的限制。本領(lǐng)域技術(shù)人員理解,在不偏離本發(fā)明精神和范圍的情況下,可以對(duì)本發(fā)明技術(shù)方案及其實(shí)施方式進(jìn)行多種等價(jià)替換、修飾或改進(jìn),這些均落入本發(fā)明的范圍內(nèi)。本發(fā)明的保護(hù)范圍以所附權(quán)利要求為準(zhǔn)。當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1