亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

異構(gòu)信息知識挖掘與可視化分析系統(tǒng)及方法

文檔序號:6364281閱讀:162來源:國知局
專利名稱:異構(gòu)信息知識挖掘與可視化分析系統(tǒng)及方法
技術(shù)領(lǐng)域
本發(fā)明涉及異構(gòu)信息檢索領(lǐng)域,特別涉及一種基于領(lǐng)域本體(Domain ontology) 和知識挖掘的智能檢索與分析方法,以及包含該方法的可視化分析系統(tǒng)。
背景技術(shù)
信息檢索技術(shù)作為獲取信息的方法和手段,其出現(xiàn)是網(wǎng)絡(luò)發(fā)展史上的里程碑,它為網(wǎng)絡(luò)用戶帶來了極大的便利,提高了各類信息的利用率。Google、百度是這個領(lǐng)域的典型代表。用戶只要輸入檢索詞或檢索語句,信息檢索系統(tǒng)就會按照一定的排序規(guī)則、為用戶快速地返回包含該檢索詞或檢索語句的所有網(wǎng)頁。然而,現(xiàn)有的通用搜索引擎無法準(zhǔn)確地理解和處理各類專業(yè)領(lǐng)域知識,經(jīng)常檢索不到、甚至返回大量無關(guān)信息。主要原因在于一方面,采取關(guān)鍵字匹配方式理解用戶檢索語句。信息檢索系統(tǒng)并不關(guān)注用戶輸入的專業(yè)領(lǐng)域詞匯的概念和語義,只是將分詞后的關(guān)鍵詞與索引庫中的索引詞按照字面形式進(jìn)行直接匹配。另一方面,按照檢索相關(guān)度對結(jié)果進(jìn)行排序處理,即按照檢索詞和索引詞之間相同的字或詞的多少進(jìn)行排序。為了提高信息檢索效率,一些信息檢索系統(tǒng)提出了 “相關(guān)搜索”等改進(jìn)技術(shù),然而, 這些技術(shù)仍沒有脫離字面匹配的本質(zhì)。在人工智能(Al)等領(lǐng)域,領(lǐng)域本體、知識挖掘的引入為相關(guān)問題的解決帶來了契機(jī)?!氨倔w”(Ontology)最初是哲學(xué)領(lǐng)域的術(shù)語,是關(guān)于事物存在及其本質(zhì)規(guī)律的學(xué)說。20世紀(jì)末,隨著信息技術(shù)的發(fā)展,本體被引入人工智能、知識工程、圖書情報等領(lǐng)域,用于構(gòu)建大型集成的知識庫系統(tǒng),解決知識概念表示和知識組織體系方面的問題。在新的技術(shù)領(lǐng)域,本體被賦予更為具體的定義一共享概念模型的、明確的、形式化的規(guī)范說明。本體一般由概念(Concepts)、概念間關(guān)系(Relations)和規(guī)則(Rules)構(gòu)成。(I)本體的目標(biāo)是捕獲相關(guān)領(lǐng)域的知識,確定該領(lǐng)域共同認(rèn)可的詞匯,并明確定義這些詞匯及詞匯間的相互關(guān)系,提供對該領(lǐng)域知識的共同理解,并以規(guī)范化的形式在計算機(jī)中加以存儲。(2)規(guī)定了論域。領(lǐng)域本體以一個特定的領(lǐng)域為描述對象,提供該特定領(lǐng)域的概念定義和概念之間的關(guān)系、主要理論、基本原理,以及領(lǐng)域中發(fā)生的活動等。(3)知識表示、共享和重用。共享知識體系的表示是“機(jī)器可處理”的語義,它以 RDF為基礎(chǔ),以URI作為命名機(jī)制、以XML為語法,將不同的應(yīng)用集成在一起,對Web上的數(shù)據(jù)進(jìn)行抽象表示。本體通過這種通用框架的表示方式,允許跨越不同應(yīng)用程序、企業(yè)和團(tuán)體的邊界進(jìn)行數(shù)據(jù)的共享和重用。(4)信息交流的語義基礎(chǔ)。由本體所提供的領(lǐng)域內(nèi)共同認(rèn)可的知識體系包括術(shù)語集、關(guān)系集和規(guī)則集,會為不同主體提供一種共識,為不同背景和領(lǐng)域下的人、機(jī)器、軟件系統(tǒng)等進(jìn)行信息交流提供了可能。正是由于以上的特點和優(yōu)勢,所以本體為語義理解、智能檢索等提供了可能。本體在人工智能、知識工程、圖書情報、搜索引擎、信息系統(tǒng)以及計算機(jī)輔助設(shè)計等眾多領(lǐng)域都有廣泛的應(yīng)用空間,并取得了一定的成果。但是,目前真正投入使用的本體及相關(guān)科研成果還很少。數(shù)據(jù)庫技術(shù)的發(fā)展以及數(shù)據(jù)應(yīng)用的普及使得數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增加,在這些數(shù)據(jù)中蘊(yùn)含著許多重要的信息和知識,可供人們利用。目前數(shù)據(jù)庫系統(tǒng)所能做到的只是對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行存取、查詢和簡單統(tǒng)計等操作,而不能獲得數(shù)據(jù)屬性的內(nèi)在關(guān)系和隱含的信息。若采用傳統(tǒng)的數(shù)據(jù)分析手段,如統(tǒng)計等也不能對這些數(shù)據(jù)進(jìn)行有效的分析、 處理,因此,我們希望能夠?qū)@些數(shù)據(jù)進(jìn)行較高層次的處理和分析以得到關(guān)于數(shù)據(jù)總體特征和發(fā)展趨勢的預(yù)測。知識挖掘技術(shù)的出現(xiàn),在許多領(lǐng)域得到應(yīng)用,顯示出強(qiáng)大的生命力。知識挖掘是信息處理新技術(shù),又是涉及數(shù)據(jù)庫技術(shù)、人工智能、統(tǒng)計學(xué)等多學(xué)科領(lǐng)域的邊緣學(xué)科。所謂知識挖掘,就是按照某種既定目標(biāo),從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中抽取隱含在其中的、事先未知的但又具有潛在應(yīng)用價值的信息和知識的過程。知識挖掘與傳統(tǒng)分析工具不同的是知識挖掘使用的是基于發(fā)現(xiàn)的方法,運(yùn)用模式匹配和其它算法,發(fā)現(xiàn)數(shù)據(jù)之間的重要聯(lián)系,甚至利用已有的數(shù)據(jù)對未來的活動進(jìn)行預(yù)測。 知識挖掘的目標(biāo)是將大量非結(jié)構(gòu)化的多媒體信息融合成有序的、分層次的、易于理解的信息,并進(jìn)一步轉(zhuǎn)換成可用于預(yù)測與決策的知識。在信息檢索中應(yīng)用知識挖掘技術(shù),可大大提高檢全率和檢準(zhǔn)率,提高信息檢索的效率和性能。信息可視化是“利用計算機(jī)支撐的、交互的、對抽象數(shù)據(jù)的可視表示,來增強(qiáng)人們對這些抽象信息的認(rèn)知”的方法與技術(shù)。在這個信息數(shù)量呈幾何級增長的信息時代里,信息可視化對于信息資源的開發(fā)利用具有重要的意義。信息可視化技術(shù)是將數(shù)據(jù)信息和資源轉(zhuǎn)化為一種視覺形式,結(jié)合了科學(xué)可視化、人機(jī)交互、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)、圖像技術(shù)、圖形學(xué)和認(rèn)知科學(xué)等諸多學(xué)科的理論和方法,將人腦和現(xiàn)代計算機(jī)這兩個強(qiáng)大的信息處理系統(tǒng)聯(lián)系在一起。有效的可視化界面使得人們能夠觀察、操縱、研究、瀏覽、探索、過濾、發(fā)現(xiàn)和理解大規(guī)模信息,并與之進(jìn)行方便的交互,從而可以極其有效地發(fā)現(xiàn)隱藏在信息內(nèi)部的特征和規(guī)律。信息可視化作為人機(jī)交互的界面技術(shù),是將抽象數(shù)據(jù)通過可視化的方式表示出來,可促進(jìn)用戶對信息的感知、認(rèn)知,有利于分析數(shù)據(jù)、發(fā)現(xiàn)規(guī)律和決策制定。信息可視化應(yīng)用于信息檢索中,不僅可實現(xiàn)用圖形、圖像來顯示多維的非空間數(shù)據(jù),加深用戶對數(shù)據(jù)含義及數(shù)據(jù)間關(guān)系的理解,而且可用形象直觀的圖形、圖像來指引檢索過程,加快檢索速度??梢暬夹g(shù)的研究和應(yīng)用開發(fā)已經(jīng)開始改變?nèi)藗儽硎竞屠斫獯笮蛷?fù)雜數(shù)據(jù)的方式,在層次信息、多維信息的分析和顯示等方面已具有較為廣泛的應(yīng)用,并取得了很好的應(yīng)用效果。目前,相關(guān)智能檢索技術(shù)中尚不存在采用領(lǐng)域本體與知識挖掘技術(shù)來實現(xiàn)用戶輸入的句型模式匹配、語義距離測量的結(jié)果優(yōu)化排序以及基于智能分詞的領(lǐng)域概念識別等方法,且尚不存在包含該方法的異構(gòu)信息智能檢索系統(tǒng),無法實現(xiàn)檢索結(jié)果的可視化分析和動態(tài)顯示。導(dǎo)致智能檢索系統(tǒng)面臨一系列技術(shù)問題,并未如預(yù)期一樣在檢索性能上比傳統(tǒng)檢索系統(tǒng)有明顯的提聞和改善。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種基于領(lǐng)域本體和知識挖掘的異構(gòu)信息智能檢索與可視化分析的系統(tǒng)。旨在正確理解用戶需求,通過對專業(yè)領(lǐng)域進(jìn)行知識挖掘,獲取領(lǐng)域概念、關(guān)系和實例等重要知識,構(gòu)建語義索引庫,提供高效的專業(yè)領(lǐng)域信息服務(wù),改進(jìn)現(xiàn)有信息檢索系統(tǒng)的不足,提聞 目息檢索的效率,實現(xiàn)知識的動態(tài)顯不。本發(fā)明的另一目的還在于通過將知識挖掘技術(shù)與可視化分析技術(shù)相結(jié)合,在降低特征維度、提高運(yùn)算速度的同時提高分類挖掘精度,優(yōu)化重組現(xiàn)有的知識挖掘算法,并探索新的獲取數(shù)據(jù)中隱含知識的各類算法,以提高知識挖掘技術(shù)對相關(guān)知識的準(zhǔn)確獲取,為知識挖掘在其他領(lǐng)域的應(yīng)用提供技術(shù)支撐。通過利用句型模式匹配方法和結(jié)果優(yōu)化排序等方法,正確理解用戶輸入的自然查詢語句,對查詢結(jié)果進(jìn)行語義相關(guān)度的計算,為用戶返回最相關(guān)的專業(yè)領(lǐng)域信息。為達(dá)到上述發(fā)明目的,本發(fā)明是通過下述技術(shù)方案實現(xiàn)的本發(fā)明實施例公開了一種異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,該系統(tǒng)包括用于提供豐富的人機(jī)交互接口的用戶層,用于分析預(yù)料、挖掘知識和可視化分析的系統(tǒng)工具層,用于存儲和提供最初語料、中間產(chǎn)物和分析結(jié)果的數(shù)據(jù)資源層,其中系統(tǒng)工具層包括用于接收和處理用戶提供相關(guān)資料的語料預(yù)處理子系統(tǒng)、用于分析和挖掘語料中相關(guān)知識的知識挖掘子系統(tǒng)和用于動態(tài)顯示和統(tǒng)計分析檢索結(jié)果的可視化分析子系統(tǒng);其中,用戶層包括信息檢索和動態(tài)知識展示。其中信息檢索包括目錄導(dǎo)航、語義查詢、相關(guān)資源、相關(guān)概念和擴(kuò)展概念;動態(tài)知識展示包括本體知識圖、資源分布圖、Web知識圖、文檔知識圖和統(tǒng)計分析圖;目錄導(dǎo)航,用于顯示系統(tǒng)自動聚類的某一領(lǐng)域的層次結(jié)構(gòu)信息,每個節(jié)點后顯示節(jié)點下的網(wǎng)頁資源個數(shù);語義查詢,用于支持用戶對關(guān)鍵詞、詞組和簡單語句的查詢,并通過本體推理查詢,形成語義查詢檢索式,返回語義索引庫中的相關(guān)信息,支持對查詢結(jié)果中各條信息的語義關(guān)系圖形化預(yù)覽;相關(guān)資源,用于顯示每一個查詢結(jié)果的相關(guān)資源,根據(jù)用戶最終選擇查看的網(wǎng)頁特點,進(jìn)行聚類,并向用戶推薦相同類別的網(wǎng)頁資源;相關(guān)概念,用于提供語義查詢中形成的查詢語義向量中各維概念的同義詞和相關(guān)詞匯列表,有利于用戶發(fā)散思維,提供更全的視角和更相關(guān)的檢索結(jié)果;擴(kuò)展概念,用于顯示用戶輸入關(guān)鍵詞在本體中的上下位概念;本體知識圖,用于圖形化顯示領(lǐng)域本體的概念、概念間關(guān)系、屬性、實例等知識體資源分布圖,用于圖形化顯示系統(tǒng)自動聚類的某領(lǐng)域?qū)哟谓Y(jié)構(gòu)信息每個節(jié)點的網(wǎng)頁資源個數(shù),以及與用戶輸入檢索內(nèi)容相關(guān)資源的分布情況;Web知識圖,用于圖形化預(yù)覽檢索結(jié)果中各網(wǎng)頁的知識結(jié)構(gòu)圖,并可以查看相關(guān)網(wǎng)頁所在網(wǎng)站的整體知識網(wǎng)絡(luò)圖;文檔知識圖,用于圖形化顯示用戶上傳文檔的知識結(jié)構(gòu)圖,顯示文檔中核心概念以及概念之間關(guān)系;統(tǒng)計分析圖,用于采用餅狀圖、柱狀圖和折線圖顯示系統(tǒng)聚類體系中各節(jié)點資源比例、系統(tǒng)新增資源比例、查詢結(jié)果中各節(jié)點資源比例等等。語料預(yù)處理子系統(tǒng)包括語料管理模塊、網(wǎng)絡(luò)爬蟲模塊、信息抽取模塊、信息去噪模塊;
語料管理模塊,用于管理網(wǎng)絡(luò)抓取資料和用戶上傳的各類語料資源,包括對上傳語料的添加、刪除、分類,并實現(xiàn)對單篇、多篇、單文件夾、多文件夾以及全部資源的選擇,以便進(jìn)行下一步的分析處理;網(wǎng)絡(luò)爬蟲模塊,用于對網(wǎng)頁抓取引擎的設(shè)置和對網(wǎng)頁抓取資源的監(jiān)控,并實現(xiàn)對與用戶設(shè)置的初始網(wǎng)址、前綴、關(guān)鍵詞等相關(guān)的網(wǎng)頁的鏡像抓取和定期更新;信息抽取模塊,用于對選中的多種格式(包括pdf、word、ppt、txt、xls和網(wǎng)頁等)的文檔文件中的信息進(jìn)行抽取,解決Pdf文件內(nèi)容為掃描格式或軟件識別格式時出錯問題,提高文檔內(nèi)容為分欄或有插圖、插表時提取結(jié)果的準(zhǔn)確性;信息去噪模塊,用于去除各類文件中的無用信息(包括亂碼、標(biāo)簽、頁眉、頁腳等),并確保有用 目息完整保留。知識挖掘子系統(tǒng)包括核心概念識別、概念關(guān)系抽取、摘要關(guān)鍵詞和信息分類聚類;核心概念識別,用于基于智能分詞中擴(kuò)展詞性標(biāo)識,識別領(lǐng)域概念,記錄包含領(lǐng)域概念的句子,用于統(tǒng)計語料中的單詞概念和組合概念的權(quán)重和領(lǐng)域相關(guān)性,最終識別和確定領(lǐng)域的核心概念,形成領(lǐng)域相關(guān)概念集;概念關(guān)系抽取,用于抽取核心語句中有用的、領(lǐng)域相關(guān)的概念間關(guān)系,具體包括上下位繼承關(guān)系、同義關(guān)系、屬性關(guān)系和實例關(guān)系等;摘要關(guān)鍵詞,用于基于領(lǐng)域概念識別結(jié)果,參考統(tǒng)計等關(guān)鍵詞抽取算法,提取2至 4個最能體現(xiàn)文檔主題的詞語;基于分詞結(jié)果和領(lǐng)域概念識別結(jié)果,以句為單位計算每句中領(lǐng)域概念出現(xiàn)次數(shù),選擇2至4句出現(xiàn)領(lǐng)域概念最多的句子作為文檔摘要;信息分類聚類,用于基于文檔中識別出的領(lǐng)域詞匯并重點考慮文檔的關(guān)鍵詞,根據(jù)詞匯出現(xiàn)頻率,設(shè)置一定的權(quán)重,映射到導(dǎo)航目錄體系中,每篇文檔可以映射體系中多個節(jié)點??梢暬治鲎酉到y(tǒng)包括層次信息模塊、網(wǎng)狀信息模塊、多維信息模塊和統(tǒng)計信息模塊;層次信息模塊,用于將目錄導(dǎo)航的層次結(jié)構(gòu)信息轉(zhuǎn)化為層次結(jié)構(gòu)圖,通過概念圖、 起泡圖、受力圖等可視化模型,顯示資源所涉及的領(lǐng)域內(nèi)概念以及概念的上下位概念、同義概念等,并以線條的粗細(xì)以及顏色的深淺表示概念在資源中出現(xiàn)的次數(shù)(即重要程度);網(wǎng)狀信息模塊,用于本體繼承關(guān)系和網(wǎng)頁概念關(guān)系等網(wǎng)狀信息圖形化顯示,是層次信息模塊的擴(kuò)充,當(dāng)用戶指向系統(tǒng)的“圖形預(yù)覽”時,讀取記錄該條文檔信息中描述概念及關(guān)系的xml文檔,調(diào)用信息可視化工具,顯示該條記錄的概念關(guān)系圖;多維信息模塊,用于同界面內(nèi)顯示3維及以上信息的圖示化顯示;統(tǒng)計信息模塊,用于使用餅狀圖、柱狀圖、折線圖展示系統(tǒng)中相關(guān)統(tǒng)計信息,如目錄導(dǎo)航體系中各節(jié)點資源數(shù)量、用戶查詢命中數(shù)量,以及其他與系統(tǒng)實際應(yīng)用中相關(guān)的統(tǒng)計信息。數(shù)據(jù)資源層包括領(lǐng)域詞典、領(lǐng)域本體、互聯(lián)網(wǎng)資源、知識提取庫和語義索引庫;領(lǐng)域詞典,用于記錄通過調(diào)研收集的相關(guān)詞匯,并通過系統(tǒng)分析挖掘不斷更新的領(lǐng)域相關(guān)概念集,作為系統(tǒng)分詞、詞匯統(tǒng)計分析的領(lǐng)域詞典,以提高系統(tǒng)分析的準(zhǔn)確率;領(lǐng)域本體,用于記錄某一領(lǐng)域(如儀器儀表、汽車)普遍認(rèn)可的概念、概念間關(guān)
8系、屬性、規(guī)則和實例等知識;互聯(lián)網(wǎng)資源,用于存儲通過調(diào)研收集的互聯(lián)網(wǎng)上領(lǐng)域相關(guān)的門戶網(wǎng)站信息,用于網(wǎng)絡(luò)爬蟲信息抓取來源;知識提取庫,用于記錄網(wǎng)絡(luò)爬蟲、信息提取、信息去噪、智能分詞、領(lǐng)域概念識別、 概念間關(guān)系抽取、文檔關(guān)鍵詞抽取、文檔自動摘要、文檔自動分類等模塊處理的結(jié)果信息;語義索引庫,用于利用知識提取庫提取的網(wǎng)頁蘊(yùn)含的知識建立語義索引,提高信息檢索速度。本發(fā)明實施例還公開了一種基于領(lǐng)域本體(Domain ontology)和知識挖掘的智能檢索與可視化分析方法,其特征在于,該方法包括下述步驟A.接收用戶輸入、提交和上傳的符合一定格式要求的本體名稱、核心概念、主題詞表等信息,構(gòu)建初步的領(lǐng)域本體和領(lǐng)域詞典。B.接收用戶上傳的語料庫資源。如果提交了領(lǐng)域門戶網(wǎng)站的網(wǎng)址,則調(diào)用網(wǎng)絡(luò)爬蟲工具,根據(jù)用戶設(shè)置,獲取相關(guān)頁面資源,加入用戶上傳的語料庫。C.對語料庫資源信息進(jìn)行預(yù)處理,具體包括語料信息抽取和信息去重去噪等工作。D.對預(yù)處理后的語料信息進(jìn)行知識挖掘。具體包括對領(lǐng)域資源進(jìn)行智能分詞、領(lǐng)域概念的識別、領(lǐng)域概念間關(guān)系抽取、文檔摘要關(guān)鍵詞抽取以及文檔自動分類聚類等的知識挖掘。E.對知識挖掘結(jié)果進(jìn)行處理,形成知識提取庫,并建立語義索引庫。通過本體推理查詢,形成語義查詢檢索式,完成基于領(lǐng)域本體和知識挖掘的智能檢索,并通過可視化工具,實現(xiàn)查詢檢索結(jié)果中各條信息語義圖形化顯示預(yù)覽和統(tǒng)計分析。本發(fā)明實施例提供的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)和基于領(lǐng)域本體 (Domain ontology)和知識挖掘的智能檢索與分析方法,具有以下的優(yōu)點本發(fā)明所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)充分利用了領(lǐng)域本體中的概念及其相互關(guān)系,能夠正確理解用戶需求,自動聚類某一領(lǐng)域的層次結(jié)構(gòu)信息,支持用戶對關(guān)鍵詞、詞組和簡單語句的查詢,優(yōu)化檢索結(jié)果,并通過本體推理,找出相關(guān)概念和擴(kuò)展概念,支持對查詢結(jié)果中各條信息語義的圖形化顯示預(yù)覽,顯著提高專業(yè)領(lǐng)域信息檢索的性能,實現(xiàn)知識的動態(tài)顯示。


根據(jù)下述附圖及實施例的描述,可以充分說明本發(fā)明的特征及優(yōu)點。在附圖中圖I是本發(fā)明實施例的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)的結(jié)構(gòu)圖;圖2是本發(fā)明實施例的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)主要模塊間關(guān)系圖;圖3是本發(fā)明實施例的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)結(jié)構(gòu)簡圖;圖4是本發(fā)明實施例的語義索引庫構(gòu)建流程圖;圖5是本發(fā)明實施例的信息檢索數(shù)據(jù)流程圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,以下參照附圖以及實施例,對本發(fā)明作進(jìn)一步詳細(xì)描述。應(yīng)當(dāng)理解,下述所舉的實施例僅被用作解釋本發(fā)明,并不用于限制本發(fā)明,即本發(fā)明的保護(hù)范圍不限于下述的實施例,相反,根據(jù)本發(fā)明的發(fā)明構(gòu)思,本領(lǐng)域普通技術(shù)人員可以進(jìn)行適當(dāng)改變,這些改變可以落入權(quán)利要求書所限定的發(fā)明范圍之內(nèi)。本發(fā)明的基本思想是本發(fā)明的一個實施例基于領(lǐng)域本體和知識挖掘提供了一種智能檢索和可視化分析的技術(shù)方案。如圖3所示,包括領(lǐng)域資料收集302、語料資源處理 303、知識挖掘304和可視化分析305。首先通過用戶上傳和互聯(lián)網(wǎng)信息抓取等多種途徑獲取領(lǐng)域資料;第二,對所獲得的領(lǐng)域資料進(jìn)行預(yù)處理,去除標(biāo)簽、亂碼、頁眉和頁腳等無用信息,同時確保有用信息被完整保留;第三,對經(jīng)過預(yù)處理的語料信息進(jìn)行知識挖掘,包括領(lǐng)域概念的識別、領(lǐng)域關(guān)系抽取、摘要關(guān)鍵詞抽取和信息分類聚類等;最后,對知識挖掘獲得的概念、屬性、關(guān)系和實例等進(jìn)行處理,形成知識提取庫,并建立語義索引庫,通過本體推理,找出相關(guān)概念和擴(kuò)展概念,將查詢結(jié)果中各條信息語義以圖形化的形式返回最終用戶。圖I示出了本發(fā)明提供的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)包括用戶層103、 系統(tǒng)工具層118和數(shù)據(jù)資源層137。圖I中的用戶層103中的信息檢索模塊101,包括目錄導(dǎo)航104、語義查詢105、相關(guān)資源106、相關(guān)概念107和擴(kuò)展概念108。該模塊接收用戶提交的信息資料,通過統(tǒng)一用戶接口 114傳入系統(tǒng)工具層118,由預(yù)料預(yù)處理子系統(tǒng)115中的語料管理模塊119對用戶所上傳的領(lǐng)域資料進(jìn)行修改、個別文件刪除或重新上傳等,最終選擇和該領(lǐng)域相關(guān)性較強(qiáng)的資料進(jìn)行下一步信息抽取處理。信息抽取模塊121能夠?qū)崿F(xiàn)對用戶上傳和網(wǎng)絡(luò)抓取的語料庫中的Web頁面、pdf、 doc、ppt、html、excel、txt等常見的文檔文件中信息進(jìn)行抽取。信息去噪模塊122能夠?qū)⒊槿〉男畔⑦M(jìn)行去噪處理,并保存為經(jīng)統(tǒng)一命名的文本文件。例如信息抽取模塊121抽取出如下信息(在“〈抽取信息〉”與“〈/抽取信息〉”之間部分)〈抽取信息>〈p>該工藝對COD的去除率均達(dá)到70Y 以上,色度去除率為99%, 鹽度達(dá)1000mg/L以下,硬度達(dá)220mg/L以下,出水水質(zhì)達(dá)到印染廢水的回用水質(zhì)標(biāo)準(zhǔn)?!? P〉</div><h4> 關(guān)鍵詞〈/h4〈p>〈a href = " javascript: SearchByValue (3,'微電解反應(yīng)器');" > 微電解反應(yīng)器〈/aXa href = " javascript: SearchByValue (3,'印染廢水');" >印染廢水〈/aXa href = " javascript: SearchByValue (3,'深度處
理');" >深度處理〈/^>〈/^>〈/抽取信息>。經(jīng)去噪處理后的結(jié)果如下(在“〈去噪結(jié)果〉”與“〈/去噪結(jié)果〉”之間部分)<去噪結(jié)果 > 該工藝對COD的去除率均達(dá)到70以上,色度去除率為99%,鹽度達(dá) 1000mg/L以下,硬度達(dá)220mg/L以下,出水水質(zhì)達(dá)到印染廢水的回用水質(zhì)標(biāo)準(zhǔn)。關(guān)鍵詞微電解反應(yīng)器印染廢水深度處理〈/去噪結(jié)果>。知識挖掘子系統(tǒng)116中的核心概念識別123實現(xiàn)對經(jīng)預(yù)處理后的語料中的詞匯進(jìn)行分詞、詞匯統(tǒng)計分析,將分析計算結(jié)果存入領(lǐng)域詞典132,最終找出領(lǐng)域的簡單詞概念和組合概念,同時記錄語料中包含領(lǐng)域概念的語句并更新領(lǐng)域本體133,具體實現(xiàn)方法下文中詳述。概念關(guān)系抽取124基于規(guī)則抽取核心語句中領(lǐng)域概念間的關(guān)系,包括主謂、動賓、 本體層次關(guān)系等,形成概念知識關(guān)系網(wǎng),并保存為Aiax支持的xml語法格式,通過統(tǒng)一數(shù)據(jù)訪問接口 131保存到知識提取庫135。摘要關(guān)鍵詞125對識別的領(lǐng)域概念和核心語句進(jìn)行精煉,提取出文檔的關(guān)鍵詞 (1-3個)和摘要信息(3句左右);信息分類聚類126基于關(guān)鍵詞和摘要信息對文檔進(jìn)行自動分類,并在今后信息更新時,保持聚類結(jié)果的相對穩(wěn)定。分析完整個網(wǎng)站的資料后,生成整個網(wǎng)站的概念知識網(wǎng),并將挖掘出的知識建立語義索引庫136??梢暬治鲎酉到y(tǒng)117中的層次信息模塊、網(wǎng)狀信息模塊、多維信息模塊和統(tǒng)計信息模塊,通過調(diào)用信息可視化工具,讀取索引庫中描述文檔概念間關(guān)系的字段內(nèi)容,并通過統(tǒng)一用戶接口 114返回到用戶層103。用戶通過用戶層103中的動態(tài)知識展示模塊102 中的本體知識圖109、資源分布圖110、Web知識圖111、文檔知識圖112和統(tǒng)計分析圖113 實現(xiàn)文檔信息的動態(tài)查看。圖4示出了本發(fā)明實施例的語義索引庫構(gòu)建流程圖。具體步驟如下(I)互聯(lián)網(wǎng)401,用于獲取專業(yè)領(lǐng)域內(nèi)的系統(tǒng)數(shù)據(jù)資源,此處文檔可以包括pdf、 doc、txt、excel、ppt、ps、圖片、網(wǎng)頁等多種格式,Web頁面信息的獲取是通過網(wǎng)絡(luò)爬蟲402 進(jìn)行抓取的。本發(fā)明的實施例采用heritrix爬蟲框架,根據(jù)用戶設(shè)定的種子去請求一個頁面, 并將有效的URL添加到隊列中等候處理,然后提取隊列中等候的第一個鏈接對其進(jìn)行頁面解析,并根據(jù)user-defined-extractor自定義的抽取器提取出有效的文本信息,以鏡像存儲結(jié)構(gòu)存儲到本地。同時將頁面中有效的URL再次加入隊列等候處理,如此不斷地分析下去,直到最后一個鏈接無任何有效鏈接為止,完成一次任務(wù)的抓取,如此不斷循環(huán)往復(fù),直至抓取完所需的預(yù)定網(wǎng)上資源。(2)信息提取403,基于已有的分詞、句法分析工具,記錄對語料庫進(jìn)行分析時得到的所有一個和連續(xù)兩個ATT修飾結(jié)構(gòu)的詞語組合,排除含有“的”等常用虛詞的詞語組合,進(jìn)行統(tǒng)計歸納,將連續(xù)出現(xiàn)兩次以上的兩個或多個詞組認(rèn)定為組合詞術(shù)語。句法分析即調(diào)用句法分析工具,獲取每個句子中詞與詞之間的句法修飾關(guān)系, 對滿足獨立句子結(jié)構(gòu)塊且符合 “ / noun+/noun ”、“ / ad j +/noun ”、“ / ad j +/noun+/noun ”、“ / V+/noun ”、“ / noun+/ v,,、“ / noun+/noun+/noun ”、“ / v+/noun+/noun ”、“ /adi +/ v+/noun ”、“ / noun+/v+/noun"等組合詞結(jié)構(gòu)的詞組,標(biāo)記為備選組合概念。作為備選組合概念字?jǐn)?shù)也有一定限制,一般在3個與8個漢字之間。如“金融危機(jī)”、“次級貸款”、“貸款人”、“中國移動”、 “個人信用公司”、“抵押貸款公司”、“專業(yè)融資公司”、“貸款擔(dān)保公司”等。獨立句子結(jié)構(gòu)塊即在一個句子中,該結(jié)構(gòu)塊內(nèi)的多個詞中有且僅有一個詞(被看作該句子結(jié)構(gòu)塊的中心詞)依存于該結(jié)構(gòu)塊外句子的其它詞,該結(jié)構(gòu)塊內(nèi)的其他詞直接或間接依存于該句子結(jié)構(gòu)塊的中心詞。如“抵押貸款公司是一家獨立法人機(jī)構(gòu)?!本浞ǚ治鼋Y(jié)果為“抵押/O/v/1/ATT 貸款/l/n/2/ATT 公司/2/n/3/SBV 是/3/v/R00T/HED — /4/m/5/QUN 家/5/q/8/ATT 獨立/6/a/8/ATT 法人/7/n/8/ATT 機(jī)構(gòu)/8/n/3/V0B。/9/ wp/_l,,。由斜杠“/”分開的各部分所代表的含義為“詞/詞序/詞性/依存詞/依存關(guān)系”。其中v、n、m、q、a和wp分別代表動詞、名詞、數(shù)詞、量詞、形容詞和標(biāo)點符合,ATT、SBV、HED、QUN、VOB分別代表定語修飾語關(guān)系、主謂關(guān)系、句子中心詞、數(shù)量關(guān)系和動賓關(guān)系。在該例句中抵押貸款公司和獨立法人機(jī)構(gòu)符合獨立句子結(jié)構(gòu)塊要求,且有相應(yīng)的組合詞結(jié)構(gòu)模版,因此標(biāo)記為備選組合概念。(3)信息去噪404,通過編寫一個涵蓋pdf、doc等文件,解決標(biāo)題與下一行粘接、一個句子被分為多個部分、亂碼、數(shù)字等問題的識別規(guī)則函數(shù)集,用以識別處理,梳理出完整規(guī)范的句子結(jié)構(gòu)。具體編寫時可以總結(jié)各種類型的特點,并將特點進(jìn)行量化。(4)智能分詞405,調(diào)用分詞工具,對經(jīng)過信息去噪后的文檔進(jìn)行分詞和詞性標(biāo)注。分詞和詞性標(biāo)注在下文中詳述。(5)概念識別406,該步驟主要完成包括領(lǐng)域單詞概念和領(lǐng)域組合概念在內(nèi)的領(lǐng)域?qū)S懈拍畹淖R別。具體識別方法如下a)領(lǐng)域單詞概念,如果一個詞C的頻率f i大于一定值Fmin,出現(xiàn)的標(biāo)準(zhǔn)文檔篇數(shù)大于一定值T,且在語料庫詞匯統(tǒng)計中屬于領(lǐng)域?qū)S性~的可以認(rèn)定為詞C為該領(lǐng)域的領(lǐng)域單詞概念。一般用戶上傳的核心概念和主題詞表則可直接認(rèn)定為領(lǐng)域概念。b)領(lǐng)域組合概念,如果一個備選組合概念C的頻率fi大于一定值Fmin',出現(xiàn)的標(biāo)準(zhǔn)文檔篇數(shù)大于一定值T,且在語料庫詞匯統(tǒng)計中不屬于一般組合概念的可以認(rèn)定備選組合概念C為該領(lǐng)域的組合概念。(6)關(guān)鍵詞抽取407和摘要抽取408,基于步驟4和步驟5的結(jié)果,采用統(tǒng)計關(guān)鍵詞抽取算法,提取2至4個最能體現(xiàn)文檔主題的詞語;以句為單位計算每句中領(lǐng)域概念出現(xiàn)次數(shù),選擇2至4句出現(xiàn)領(lǐng)域概念最多的句子作為文檔摘要。(7)關(guān)系抽取409,通過設(shè)定繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實例關(guān)系等各類概念間關(guān)系和相關(guān)的模式匹配規(guī)則,對網(wǎng)絡(luò)抓取資料進(jìn)行處理,提取各網(wǎng)頁中蘊(yùn)含的概念關(guān)系。抽取的知識和關(guān)系具體包括層次繼承關(guān)系、同義詞關(guān)系、屬性關(guān)系和實例關(guān)系等。相關(guān)例句如下繼承關(guān)系〈核心語句〉某些項目成果,如專利、論文、專著、標(biāo)準(zhǔn)、新產(chǎn)品、新技術(shù)
等〈/核心語句>。提取結(jié)果〈關(guān)系 > 專利is-a項目成果;論文is_a項目成果;專著is_a項目成果;標(biāo)準(zhǔn)is-a項目成果;新廣品is-a項目成果;新技術(shù)is-a項目成果〈/關(guān)系〉。同義詞關(guān)系〈核心語句 > 項目進(jìn)度管理也稱為項目時間管理,工作分解結(jié)構(gòu)即 WBS</核心語句>。提取結(jié)果〈關(guān)系 > 項目進(jìn)度管理same-as項目時間管理;工作分解結(jié)構(gòu)same-as WBS</ 關(guān)系 >。表達(dá)同義關(guān)系的模版還有“簡稱I又稱I又稱為I亦稱I又叫I也稱I也稱為參見I見I亦作I全名I古之I今之I習(xí)稱I俗稱I稱之為I即為I故稱I原名I又名即I謂之”等。(8)自動分類410,基于領(lǐng)域詞匯識別結(jié)果和關(guān)鍵詞提取結(jié)果,采用高效遍歷和映射算法,為詞匯出現(xiàn)的頻率設(shè)置一定的權(quán)重,并映射到目錄導(dǎo)航體系中。(9)知識提取庫411,將網(wǎng)絡(luò)爬蟲、信息提取、信息去噪、智能分詞、概念識別、關(guān)鍵詞抽取、摘要抽取、關(guān)系抽取、自動分類等模塊處理的結(jié)果信息進(jìn)行記錄,形成知識提取庫。(10)語義索引庫412,對提取的知識建立語義索引,基于領(lǐng)域本體知識庫,建立語義索引。圖5示出了本發(fā)明實施例的信息檢索數(shù)據(jù)流程圖。具體處理流程如下(I)用戶輸入檢索語句501,接收用戶提交的檢索語句。(2)分詞、詞性標(biāo)注502,通過系統(tǒng)的分詞工具對文檔中詞匯進(jìn)行分割,并標(biāo)注出各個詞匯的詞性,特別是針對專業(yè)領(lǐng)域詞匯的分詞做了特定的處理。其中名詞、動詞、數(shù)詞、 形容詞、前置詞、助詞、連詞、標(biāo)點等詞性標(biāo)記分別為n、v、m、a、p、u、c、wp等符號。例如,針對以下文檔內(nèi)容“雙金屬溫度計是利用兩種不同金屬在溫度改變時膨脹程度不同的原理工作的。工業(yè)用雙金屬溫度計主要的元件是一個用兩種或多種金屬片疊壓在一起組成的多層金屬片?!边M(jìn)行分詞和詞性的標(biāo)注,最后的處理結(jié)果是“雙金屬溫度計/ n/是/V利用/V兩種/m不同/a金屬/n在/p溫度/n改變/v時/n膨脹程度/n不同/a的/u原理/n工作/V的/u 。/wp工業(yè)/n用/p雙金屬溫度計 /n主要/b的/u元件/n是/V—個/m用/p兩種/m或/c多種/m金屬片 /n疊壓/V在/p —起/nl組成/V的/u多/a層/q金屬片/n。/wp”。對語料庫中各技術(shù)領(lǐng)域的語料進(jìn)行分析,統(tǒng)計出所有單詞詞匯和備選組合概念在各技術(shù)領(lǐng)域出現(xiàn)的頻率和總頻率,并轉(zhuǎn)化為每百萬字節(jié)的標(biāo)準(zhǔn)頻率fi和總標(biāo)準(zhǔn)頻率Σ fi。(3)領(lǐng)域詞匯識別503,通過對用戶所上傳的語料中單詞概念和組合概念的有用性和領(lǐng)域相關(guān)性的統(tǒng)計計算,最終識別和確定領(lǐng)域的相關(guān)概念,形成領(lǐng)域相關(guān)概念集。(4)本體概念關(guān)系標(biāo)注504,對詞匯在本體中概念關(guān)系進(jìn)行分析并標(biāo)注,如本體類概念(Class)標(biāo)記為C、對象屬性(Object Property)標(biāo)記為0P、數(shù)據(jù)屬性(Datatype Property)標(biāo)記為DP、本體實例(Individuals)標(biāo)記為I等的標(biāo)注。另外,根據(jù)需要也可以進(jìn)行更詳細(xì)標(biāo)注,如儀表實例(yb_Individuals)標(biāo)記為yb_I、標(biāo)準(zhǔn)實例(bz_Individuals) 標(biāo)記為bz_I等。例如,將上述步驟(2)的結(jié)果進(jìn)一步進(jìn)行本體概念關(guān)系的判斷,最后標(biāo)注為“雙金屬溫度計/n/yb_C是/v/null利用/v/OP兩種/m/null不同/a/null金屬/n/ C 在/p/null 溫度/n/DP 改變/v/null 時/n/null 膨脹程度/n/DP 不同/a/null 的/u/null 原理/n/DP 工作/v/null 的/u/null。/wp/null 工業(yè)/n/null 用/p/ null 雙金屬溫度計/n/yb_C 主要/b/null 的/u/null 元件/n/C 是/v/null — 個/m/null 用/p/null 兩種/m/null 或/c/null 多種/m/null 金屬片/n/C 疊壓 / v/null 在/p/null —起/nl/null 組成/ν/0Ρ 的/u/null 多/a/null 層/q/null 金屬片 /n/C 。/wp/null”。通過用戶輸入檢索語句501->本體概念關(guān)系標(biāo)注504的流程處理后,得到標(biāo)有詞性和概念關(guān)系的分詞詞匯集合。例如,用戶輸入自然查詢語句“能夠測量人體溫的儀表及生產(chǎn)廠家”,經(jīng)過分詞、 詞性及本體概念關(guān)系標(biāo)注等過程處理后的結(jié)果是{能夠,V, null}、{測量,V, Object Property}、{人,η, X} {體溫,η, X}、{的,u, X}、{儀表,n, yb_Class}、{及,c, null}、{生產(chǎn)廠商,n, Object Property} (5) 3本體角色非空項505對標(biāo)注后的強(qiáng)語義詞匯集進(jìn)行分析,判斷其詞匯集合中是否含有本體概念。如果用戶輸入的詞匯中不包含本體概念,則進(jìn)行全文檢索;否則結(jié)合領(lǐng)域本體對用戶輸入的自然查詢語句進(jìn)行句型模式匹配處理。
a)如果本體角色均為空,則利用分詞的詞匯集合訪問提取核心詞匯506,將其中的本體角色為空的詞匯去除,保留本體角色為非空詞匯,然后利用核心詞匯訪問語義索引庫507進(jìn)行全文檢索匹配處理。例如,“兒童的營養(yǎng)健康問題”,分詞的詞匯集合為“兒童/的/營養(yǎng)/健康/問題 /”,提取核心詞匯為“兒童/營養(yǎng)/健康/”,利用此核心詞匯集訪問語義索引庫進(jìn)行全文檢索處理。b)如果查詢語句中含有一個或一個以上的本體概念,則進(jìn)行提取強(qiáng)語義詞匯處理,并訪問句型模式匹配508。例如,對“溫度計的種類有哪些”分詞后“溫度計/n的/u種類/n有/V哪些/r”,對其進(jìn)一步進(jìn)行本體角色標(biāo)注并提取強(qiáng)語義詞匯,最后得到“溫度計/n/C”。其中, 需要注意的是,句型模式是根據(jù)領(lǐng)域本體知識庫中的概念和各概念之間的相互關(guān)系以及推理規(guī)則等事先建立的一種自定義的句型模式,該句型模式的建立在一定程度上,還必須根據(jù)用戶需求分析以及在領(lǐng)域?qū)<业闹笇?dǎo)下制定和定義。句型模式建立的越豐富,智能查詢的效果越好。bl)如果含有本體概念的強(qiáng)語義詞匯集與句型模式M匹配成功,則執(zhí)行此步驟,最后形成查詢檢索式513 ;下述是一個匹配成功的實施例例如,用戶輸入“能夠測量人體溫的儀表及生產(chǎn)廠家”,經(jīng)過分詞和提取核心詞匯最后得到的詞匯集是“測量/人/體溫/儀表/生產(chǎn)廠家”。該檢索語句與句型模式M1相匹配。句型模式M1被定義為“本體屬性PJX+本體類概念C+本體屬性P2”,且存在如下關(guān)系C擁有屬性Pp P2,其中“X”為任意成分,強(qiáng)語義詞匯集與句型模式匹配的具體對應(yīng)關(guān)系為“測量/ (本體屬性P1)人/ (X)體溫/ (X)儀表/ (本體類概念C)生產(chǎn)廠家/ (本體屬性 P2) ”。結(jié)合上述的實施例,符合模式M1的處理規(guī)則是將儀表(本體類C)下測量(屬性 P1)的值包含“人體溫”(X)的所有儀表(本體類C)實例及該儀表(本體類C)實例的生產(chǎn)廠家(屬性P2)的對應(yīng)值按照一定格式返回,簡單地說就是將滿足測量人體溫的儀表實例及其生產(chǎn)廠家按照規(guī)定格式輸出。當(dāng)句型模式匹配成功后,根據(jù)既定模式下的處理規(guī)則,訪問領(lǐng)域本體庫,經(jīng)過本體推理,形成符合系統(tǒng)索引格式要求的智能語義檢索式。檢索式應(yīng)為·· ·,F(xiàn)m)]U[R2U(F1, · · ·,F(xiàn)n) ]U,· · ·,U[RiU(F1, F2, · · ·,F(xiàn)k)]。 其中,m ^ I, η彡l,k^ I, R表不滿足條件的儀表,F表不儀表R對應(yīng)的一個或多個生產(chǎn)廠家。例如,當(dāng) i = 1,k = 3 時的檢索式應(yīng)為=R1U (F1, F2, F3),即,R1F1UR1F2UR1F30b2)如果含有本體概念的強(qiáng)語義詞匯集與句型模式匹配失敗,則執(zhí)行此步驟,最后形成擴(kuò)展檢索式。例如,“溫度計的種類有哪些”,經(jīng)分詞后的詞匯中含有本體概念“溫度計”,但是在句型模式中沒有定義;同理,當(dāng)用戶輸入“光譜儀”,經(jīng)分詞后的詞匯“光譜儀”屬于本體概念,但是在句型模式中也沒有定義。當(dāng)模式匹配失敗后,訪問領(lǐng)域本體庫509,進(jìn)行語義擴(kuò)展,形成擴(kuò)展查詢檢索式。并通過相關(guān)概念511和擴(kuò)展概念512,顯示與用戶查詢輸入關(guān)鍵詞相關(guān)的概念和在本體中的
14上下位概念。具體處理過程是將查詢語句中的強(qiáng)語義詞匯X,I與領(lǐng)域本體庫509中的相關(guān)概念X,Y進(jìn)行映射,并根據(jù)本體概念間的上下級關(guān)系、同義關(guān)系,以及其它關(guān)系進(jìn)行適當(dāng)?shù)牟樵償U(kuò)展處理。(X,X1,. . .,Xa)U(Y,Y1,. . .,Yb),其中a,b為正整數(shù),例如,X1為X的同義詞,Y”Y2為概念Y的下位概念,即,a = 1,b = 2時,那么查詢的檢索式為(X, X1) U (Y, Y1, Y2),即 XYUXY1UXY2UX1Y1UX1Y2tjb3)通過上述步驟bl)和b2)之后,形成查詢檢索式513,具體為形成對應(yīng)的語義查詢檢索式和擴(kuò)展查詢檢索式。利用查詢檢索式513訪問語義索引庫514,進(jìn)行相應(yīng)的語義查詢或擴(kuò)展查詢處理。(6)結(jié)果優(yōu)化排序515a)語義距離測量al)句型模式匹配成功時的語義距離測量算法實施例參照步驟(5)中的bl)所述,對檢索式中的每一項RF的相關(guān)“語義距離”進(jìn)行計算,Drf為本體中R和F兩概念間的最短語義距離,其中Drt為正整數(shù),其取值是將R和F聯(lián)系起來經(jīng)過最少本體概念節(jié)點時,概念連接線的條數(shù)。如圖5所示,有多條語義關(guān)系線可以將A、B連接起來,最短只經(jīng)過兩條連接線、一個本體節(jié)點即可將二者連接起來,即Drt = 2。drf為索引庫中每條記錄的語義向量中的維差,如文檔語義向量K = (a1; a2, a3, a4, a5, a6, a7),其中a3 = R, a6 = F,貝丨J drf = 3。當(dāng) R或F沒有在文檔語義向量中出現(xiàn)時,則語義距離無限遠(yuǎn),實際計算時計為103,當(dāng)均沒出現(xiàn)時,此項drf不做任何計算。a2)句型模式匹配失敗時的語義距離測量算法當(dāng)用戶輸入的檢索式中含有本體概念,但是,其強(qiáng)語義詞匯集與本體句型模式匹配失敗時,語義距離測量采用下述的方式。 實施例參照步驟(5)中的b2)所述,強(qiáng)語義詞匯集可能包含I個或多個本體概念詞匯,當(dāng)本體概念數(shù)量為I時,查詢檢索式應(yīng)為=XUX1U. . . UXm,其中,X1. . . Xm為X的擴(kuò)展概念。此時不涉及語義距離問題,這種情況下,設(shè)定Drf = drt= I。當(dāng)本體核心概念數(shù)量為多個時,返回的查詢檢索式的形式如前面所述為(X,X1, ...,Xa) U (Y, Y1,... ,Yb)U, ... ,U(Z, Z1,... , Zb), 此時,Drf, drf的值為任意組合檢索式的概念之間距離的平均值。b)根據(jù)語義距離進(jìn)行排序計算排序計算的公式為Z= Σ KqiAi, B)+q2*f2 Cg1 (Drf),g2 (drf))。其中A為一個檢索式形成的多個檢索向量組成的矩陣,A1為A中一個檢索向量,Σ 是在i為不同值時所有的和,B為文檔語義向量,^qiAi, B)表示Ap B兩向量的相關(guān)函數(shù),Qi為查詢擴(kuò)展系數(shù),Qi e (0,I],如果為原概念,則qi = I,如果為同義詞或下位概念等, 則根據(jù)查詢擴(kuò)展策略中不同的相似度設(shè)定查詢擴(kuò)展系數(shù)Qi,如B) = qi*(ai+a2+. . . + Bj) * (bi+b;,+. . . +bk),其中aj; bk分別為Ai, B兩向量維數(shù)為i時的概念,當(dāng)且僅當(dāng)a」與bk為同一概念時,f(A, B)自增f2(g1; g2)為 g1; g2 的相似函數(shù),如,f2(g17 g2) = Σ Qi/ (I gi (Drf) -g2 (drf) |+1)。其中1為與距離Drf對應(yīng)的語義向量的查詢擴(kuò)展系數(shù),gl (Drf)為同一檢索式中不同向量的本體語義距離標(biāo)準(zhǔn)化函數(shù),如gl (Drt) = 1/Drf0 g2(drf)與gl (Drt)含義雷同,Σ是對不同的qi; Drf, drf下式子求和。q1; q2分別為f1; f2兩函數(shù)的權(quán)值??梢酝ㄟ^對qi,Q2大小的設(shè)定以及f1; f2,gl, g2等函數(shù)的修改實現(xiàn)排序方法的調(diào)整。另外可以以此排序算法為內(nèi)核,結(jié)合其它常用的排序方法,能夠達(dá)到更好的效果。
注全文檢索結(jié)果排序根據(jù)事先對標(biāo)題、摘要、全文等不同匹配區(qū)域設(shè)定的權(quán)值,以及關(guān)鍵詞命中個數(shù)等信息計算相似度并排序。具體排序算法不再詳細(xì)敘述。(7)將上述處理后的排序結(jié)果返回給用戶,當(dāng)用戶查看一條檢索結(jié)果516時,可選擇是否查看“知識圖”預(yù)覽517。a)如果不選擇“知識圖”預(yù)覽517,則顯示文檔的內(nèi)容521,并顯示基于該條結(jié)果的關(guān)鍵詞組查詢索引庫522和相關(guān)資源523。b)如果選擇“知識圖”預(yù)覽517,則調(diào)用可視化分析工具518和索引庫中描述文檔概念間關(guān)系的字段內(nèi)容519,以網(wǎng)狀知識結(jié)構(gòu)圖520的形式動態(tài)顯示該文檔。盡管上述已經(jīng)詳細(xì)地描述了本發(fā)明,應(yīng)當(dāng)理解本發(fā)明的實施例僅僅是示范性地圖解了本發(fā)明的原理,在不脫離本發(fā)明構(gòu)思和范圍的情況下,本發(fā)明的實施例還有各種變化, 替代和修改。這些改變都應(yīng)該包含在本發(fā)明的范圍內(nèi),不應(yīng)被看作與本發(fā)明的精神和范圍的脫離。
權(quán)利要求
1.一種異構(gòu)信息知識挖掘與可視化分析系統(tǒng),包括用于提供豐富的人機(jī)交互接口的用戶層,用于分析語料、挖掘知識和可視化分析的系統(tǒng)工具層,用于存儲和提供最初語料、中間產(chǎn)物和分析結(jié)果的數(shù)據(jù)資源層;其中系統(tǒng)工具層包括用于接收和處理用戶提供相關(guān)資料的語料預(yù)處理子系統(tǒng)、用于分析和挖掘語料中相關(guān)知識的知識挖掘子系統(tǒng)和用于動態(tài)顯示和統(tǒng)計分析檢索結(jié)果的可視化分析子系統(tǒng)。
2.根據(jù)權(quán)利要求I所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,所述的用戶層包括信息檢索和動態(tài)知識展示。其中信息檢索包括目錄導(dǎo)航、語義查詢、相關(guān)資源、 相關(guān)概念和擴(kuò)展概念;動態(tài)知識展示包括本體知識圖、資源分布圖、Web知識圖、文檔知識圖和統(tǒng)計分析圖。所述的目錄導(dǎo)航,用于顯示系統(tǒng)自動聚類的某一領(lǐng)域的層次結(jié)構(gòu)信息,每個節(jié)點后顯示節(jié)點下的網(wǎng)頁資源個數(shù)。所述的語義查詢,用于支持用戶對關(guān)鍵詞、詞組和簡單語句的查詢,并通過本體推理查詢,形成語義查詢檢索式,返回語義索引庫中的相關(guān)信息,支持對查詢結(jié)果中各條信息的語義關(guān)系圖形化預(yù)覽。所述的相關(guān)資源,用于顯示每一個查詢結(jié)果的相關(guān)資源,根據(jù)用戶最終選擇查看的網(wǎng)頁特點,進(jìn)行聚類,并向用戶推薦相同類別的網(wǎng)頁資源。所述的相關(guān)概念,用于提供語義查詢中形成的查詢語義向量中各維概念的同義詞和相關(guān)詞匯列表,有利于用戶發(fā)散思維,提供更全的視角和更相關(guān)的檢索結(jié)果。所述的擴(kuò)展概念,用于顯示用戶輸入關(guān)鍵詞在本體中的上下位概念。所述的本體知識圖,用于圖形化顯示領(lǐng)域本體的概念、概念間關(guān)系、屬性、實例等知識體系。所述的資源分布圖,用于圖形化顯示系統(tǒng)自動聚類的某領(lǐng)域?qū)哟谓Y(jié)構(gòu)信息每個節(jié)點的網(wǎng)頁資源個數(shù),以及與用戶輸入檢索內(nèi)容相關(guān)資源的分布情況。所述的Web知識圖,用于圖形化預(yù)覽檢索結(jié)果中各網(wǎng)頁的知識結(jié)構(gòu)圖,并可以查看相關(guān)網(wǎng)頁所在網(wǎng)站的整體知識網(wǎng)絡(luò)圖。所述的文檔知識圖,用于圖形化顯示用戶上傳文檔的知識結(jié)構(gòu)圖,顯示文檔中核心概念以及概念之間關(guān)系。所述的統(tǒng)計分析圖,用于采用餅狀圖、柱狀圖和折線圖顯示系統(tǒng)聚類體系中各節(jié)點資源比例、系統(tǒng)新增資源比例、查詢結(jié)果中各節(jié)點資源比例等等。
3.根據(jù)權(quán)利要求I所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,所述的語料預(yù)處理子系統(tǒng)包括語料管理模塊、網(wǎng)絡(luò)爬蟲模塊、信息抽取模塊、信息去噪模塊。所述的語料管理模塊,用于管理網(wǎng)絡(luò)抓取資料和用戶上傳的各類語料資源,包括對上傳語料的添加、刪除、分類,并實現(xiàn)對單篇、多篇、單文件夾、多文件夾以及全部資源的選擇, 以便進(jìn)行下一步的分析處理。所述的網(wǎng)絡(luò)爬蟲模塊,用于對網(wǎng)頁抓取引擎的設(shè)置和對網(wǎng)頁抓取資源的監(jiān)控,并實現(xiàn)對與用戶設(shè)置的初始網(wǎng)址、前綴、關(guān)鍵詞等相關(guān)的網(wǎng)頁的鏡像抓取和定期更新。所述的信息抽取模塊,用于對選中的多種格式(包括pdf、word、ppt、txt、xls和網(wǎng)頁等)的文檔文件中的信息進(jìn)行抽取,解決Pdf文件內(nèi)容為掃描格式或軟件識別格式時出錯問題,提高文檔內(nèi)容為分欄或有插圖、插表時提取結(jié)果的準(zhǔn)確性。所述的信息去噪模塊,用于去除各類文件中的無用信息(包括亂碼、標(biāo)簽、頁眉、頁腳等),并確保有用 目息完整保留。
4.根據(jù)權(quán)利要求I所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,所述的知識挖掘子系統(tǒng)包括核心概念識別、概念關(guān)系抽取、摘要關(guān)鍵詞和信息分類聚類。所述的核心概念識別,用于基于智能分詞中擴(kuò)展詞性標(biāo)識,識別領(lǐng)域概念,記錄包含領(lǐng)域概念的句子,用于統(tǒng)計語料中的單詞概念和組合概念的權(quán)重和領(lǐng)域相關(guān)性,最終識別和確定領(lǐng)域的核心概念,形成領(lǐng)域相關(guān)概念集。所述的概念關(guān)系抽取,用于抽取核心語句中有用的、領(lǐng)域相關(guān)的概念間關(guān)系,具體包括上下位繼承關(guān)系、同義關(guān)系、屬性關(guān)系和實例關(guān)系等。所述的摘要關(guān)鍵詞,用于基于領(lǐng)域概念識別結(jié)果,參考統(tǒng)計等關(guān)鍵詞抽取算法,提取2 至4個最能體現(xiàn)文檔主題的詞語;基于分詞結(jié)果和領(lǐng)域概念識別結(jié)果,以句為單位計算每句中領(lǐng)域概念出現(xiàn)次數(shù),選擇2至4句出現(xiàn)領(lǐng)域概念最多的句子作為文檔摘要。所述的信息分類聚類,用于基于文檔中識別出的領(lǐng)域詞匯并重點考慮文檔的關(guān)鍵詞, 根據(jù)詞匯出現(xiàn)頻率,設(shè)置一定的權(quán)重,映射到導(dǎo)航目錄體系中,每篇文檔可以映射體系中多個節(jié)點。
5.根據(jù)權(quán)利要求I所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,所述的可視化分析子系統(tǒng)包括層次信息模塊、網(wǎng)狀信息模塊、多維信息模塊和統(tǒng)計信息模塊。所述的層次信息模塊,用于將目錄導(dǎo)航的層次結(jié)構(gòu)信息轉(zhuǎn)化為層次結(jié)構(gòu)圖,通過概念圖、起泡圖、受力圖等可視化模型,顯示資源所涉及的領(lǐng)域內(nèi)概念以及概念的上下位概念、 同義概念等,并以線條的粗細(xì)以及顏色的深淺表示概念在資源中出現(xiàn)的次數(shù)(即重要程度)。所述的網(wǎng)狀信息模塊,用于本體繼承關(guān)系和網(wǎng)頁概念關(guān)系等網(wǎng)狀信息圖形化顯示,是層次信息模塊的擴(kuò)充,當(dāng)用戶指向系統(tǒng)的“圖形預(yù)覽”時,讀取記錄該條文檔信息中描述概念及關(guān)系的xml文檔,調(diào)用信息可視化工具,顯示該條記錄的概念關(guān)系圖。所述的多維信息模塊,用于同界面內(nèi)顯示3維及以上信息的圖示化顯示。所述的統(tǒng)計信息模塊,用于使用餅狀圖、柱狀圖、折線圖展示系統(tǒng)中相關(guān)統(tǒng)計信息,如目錄導(dǎo)航體系中各節(jié)點資源數(shù)量、用戶查詢命中數(shù)量,以及其他與系統(tǒng)實際應(yīng)用中相關(guān)的統(tǒng)計信息。
6.根據(jù)權(quán)利要求I所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng),其特征在于,所述的數(shù)據(jù)資源層包括領(lǐng)域詞典、領(lǐng)域本體、互聯(lián)網(wǎng)資源、知識提取庫和語義索引庫。所述的領(lǐng)域詞典,用于記錄通過調(diào)研收集的相關(guān)詞匯,并通過系統(tǒng)分析挖掘不斷更新的領(lǐng)域相關(guān)概念集,作為系統(tǒng)分詞、詞匯統(tǒng)計分析的領(lǐng)域詞典,以提高系統(tǒng)分析的準(zhǔn)確率。所述的領(lǐng)域本體,用于記錄某一領(lǐng)域(如儀器儀表、汽車)普遍認(rèn)可的概念、概念間關(guān)系、屬性、規(guī)則和實例等知識。所述的互聯(lián)網(wǎng)資源,用于存儲通過調(diào)研收集的互聯(lián)網(wǎng)上領(lǐng)域相關(guān)的門戶網(wǎng)站信息,用于網(wǎng)絡(luò)爬蟲信息抓取來源。所述的知識提取庫,用于記錄網(wǎng)絡(luò)爬蟲、信息提取、信息去噪、智能分詞、領(lǐng)域概念識別、概念間關(guān)系抽取、文檔關(guān)鍵詞抽取、文檔自動摘要、文檔自動分類等模塊處理的結(jié)果信所述的語義索引庫,用于利用知識提取庫提取的網(wǎng)頁蘊(yùn)含的知識建立語義索引,提高信息檢索速度。
7.—種如權(quán)利要求I所述基于領(lǐng)域本體(Domain ontology)和知識挖掘的智能檢索與分析方法,其特征在于,所述的方法包括以下步驟A.接收用戶輸入、提交和上傳的符合一定格式要求的本體名稱、核心概念、主題詞表等信息,構(gòu)建初步的領(lǐng)域本體和領(lǐng)域詞典。B.接收用戶上傳的語料庫資源。如果提交了領(lǐng)域門戶網(wǎng)站的網(wǎng)址,則調(diào)用網(wǎng)絡(luò)爬蟲工具,根據(jù)用戶設(shè)置,獲取相關(guān)頁面資源,加入用戶上傳的語料庫。C.對語料庫資源信息進(jìn)行預(yù)處理,具體包括語料信息抽取和信息去重去噪等工作。D.對預(yù)處理后的語料信息進(jìn)行知識挖掘。具體包括對領(lǐng)域資源進(jìn)行智能分詞、領(lǐng)域概念的識別、領(lǐng)域概念間關(guān)系抽取、文檔摘要關(guān)鍵詞抽取以及文檔自動分類聚類等的知識挖掘。E.對知識挖掘結(jié)果進(jìn)行處理,形成知識提取庫,并建立語義索引庫。通過本體推理查詢,形成語義查詢檢索式,完成基于領(lǐng)域本體和知識挖掘的智能檢索,并通過可視化工具, 實現(xiàn)查詢檢索結(jié)果中各條信息語義圖形化顯示預(yù)覽和統(tǒng)計分析。
全文摘要
本發(fā)明涉及異構(gòu)信息檢索領(lǐng)域,特別涉及一種基于領(lǐng)域本體(Domain ontology)和知識挖掘的智能檢索與分析方法,以及包含該方法的可視化分析系統(tǒng)。其中該系統(tǒng)主要包括用于網(wǎng)絡(luò)抓取和本地上傳獲取資料的領(lǐng)域資料收集子系統(tǒng)、用于預(yù)處理領(lǐng)域相關(guān)資料的語料資源處理子系統(tǒng)、用于分析和挖掘語料中相關(guān)知識的知識挖掘子系統(tǒng)和用于動態(tài)顯示和統(tǒng)計分析檢索結(jié)果的可視化分析子系統(tǒng)。本發(fā)明所述的異構(gòu)信息知識挖掘與可視化分析系統(tǒng)充分利用了領(lǐng)域本體庫中的概念及其相互關(guān)系,能夠正確理解用戶需求,自動聚類某一領(lǐng)域的層次結(jié)構(gòu)信息,支持用戶對關(guān)鍵詞、詞組和簡單語句的查詢,優(yōu)化檢索結(jié)果,并通過本體推理,找出相關(guān)概念和擴(kuò)展概念,支持對查詢結(jié)果中各條信息語義的圖形化顯示預(yù)覽,顯著提高專業(yè)領(lǐng)域信息檢索的性能,實現(xiàn)知識的動態(tài)顯示。
文檔編號G06F17/30GK102609512SQ201210025598
公開日2012年7月25日 申請日期2012年2月7日 優(yōu)先權(quán)日2012年2月7日
發(fā)明者張志朋, 李春梅, 李艾丹, 楊思維, 桑道靜, 薛中玉, 郭秋梅 申請人:北京中機(jī)科??萍及l(fā)展有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1