一種公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的構(gòu)建方 法。
【背景技術(shù)】
[0002] 隨著社會(huì)的流動(dòng)性和復(fù)雜性的迅速增加,從醫(yī)學(xué)領(lǐng)域到公共衛(wèi)生領(lǐng)域,很多突發(fā) 性事件不僅會(huì)造成各種損失還會(huì)造成社會(huì)動(dòng)蕩,公共衛(wèi)生突發(fā)事件是一類特殊的事件,它 涉及基礎(chǔ)醫(yī)學(xué),公共衛(wèi)生,應(yīng)急處理,社會(huì)心理學(xué)等諸多領(lǐng)域,而且由于疫情變化快,所以它 的信息更新十分迅速,這就表示它的信息歸納是非常復(fù)雜的。例如H7N9疫情爆發(fā),這一流 感事件不僅危害人類健康,還造成了全球恐慌,而后又引起了一系列的經(jīng)濟(jì)損失,每天都有 新的感染死亡病例,每天都有治療藥物與疫苗研究都有新的進(jìn)展,每天都有新的經(jīng)濟(jì)損失 被計(jì)算。因此,必須要進(jìn)行大量相關(guān)文章的通篇閱讀和語(yǔ)義理解,根據(jù)各類時(shí)新報(bào)道及時(shí)更 新公共衛(wèi)生突發(fā)事件信息。公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)一方面包括已經(jīng)存在的認(rèn)知了的 多領(lǐng)域知識(shí),還包含了經(jīng)驗(yàn)性知識(shí)。它可以將公共衛(wèi)生突發(fā)事件中產(chǎn)生的信息以整合了的 系統(tǒng)準(zhǔn)確有組織的知識(shí)的形式反饋給疾控工作者。轉(zhuǎn)化為統(tǒng)一的表達(dá)形式的知識(shí)便于疾控 工作者在之后可能發(fā)生的突發(fā)事件時(shí)進(jìn)行高效率的知識(shí)共享、交流和協(xié)同工作,有助于生 成和執(zhí)行新的應(yīng)急預(yù)案。這不僅為突發(fā)事件的應(yīng)急處理提供了標(biāo)準(zhǔn)參考,還能夠提高應(yīng)急 處理的效率,為之后的科研工作提供了參考。而經(jīng)驗(yàn)參考的規(guī)范化系統(tǒng)化表示就是領(lǐng)域知 識(shí)增強(qiáng)了面向公共衛(wèi)生突發(fā)事件演化應(yīng)用的表達(dá)能力。在疫情事件發(fā)生后,通過參考完善 的公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí),可以使政府在應(yīng)對(duì)未來可能發(fā)生的各類突發(fā)疫情的應(yīng)對(duì)和 控制更加有序、更加成熟、更加有效,將損失減小到最小。
[0003] 建立有關(guān)的公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù),從基礎(chǔ)概念間的關(guān)系,到疾病爆發(fā)、流 行、逐步消退的過程中蘊(yùn)含的規(guī)律,再到采取的公共衛(wèi)生疾控措施,這一系列數(shù)據(jù)信息中蘊(yùn) 含著大量領(lǐng)域知識(shí),經(jīng)過分析與抽取,建立完備的公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí),消除公共衛(wèi) 生及醫(yī)學(xué)領(lǐng)域的專業(yè)術(shù)語(yǔ)及相關(guān)概念的歧義性,清楚的表現(xiàn)出領(lǐng)域知識(shí)的組織結(jié)構(gòu),有益 于之后的突發(fā)事件處理、預(yù)防以及學(xué)術(shù)研究公共衛(wèi)生突發(fā)事件近年來頻發(fā)發(fā)生,造成的社 會(huì)影響深遠(yuǎn)而寬泛。因此公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的構(gòu)建顯得尤為重要。
[0004] 領(lǐng)域知識(shí)庫(kù)是指在此領(lǐng)域內(nèi)的概念信息、概念信息之間的相互關(guān)系以及有關(guān)約束 的集合。領(lǐng)域知識(shí)庫(kù)為領(lǐng)域信息的采集、結(jié)構(gòu)化存儲(chǔ)和信息挖掘分析提供了模型支持和標(biāo) 準(zhǔn),有利于對(duì)信息的快速分析和處理。由于公共衛(wèi)生突發(fā)事件涉及領(lǐng)域廣泛,每個(gè)領(lǐng)域的內(nèi) 容是相關(guān)聯(lián)的,同時(shí)又是獨(dú)立的,必須定義相關(guān)的屬性來解釋內(nèi)容,同時(shí)也可以闡明各領(lǐng)域 之間的關(guān)系。
[0005] "本體"(Ontology)最初是哲學(xué)領(lǐng)域的術(shù)語(yǔ),是關(guān)于事物存在及其本質(zhì)規(guī)律的學(xué) 說。20世紀(jì)末,隨著信息技術(shù)的發(fā)展,本體被引入人工智能、知識(shí)工程、圖書情報(bào)等領(lǐng)域,用 于構(gòu)建大型集成的知識(shí)庫(kù)系統(tǒng),解決知識(shí)概念表示和知識(shí)組織體系方面的問題。領(lǐng)域本體 是指以一個(gè)特定的領(lǐng)域(如項(xiàng)目管理、汽車等)為描述對(duì)象的本體,提供該特定領(lǐng)域的概念 定義和概念之間的關(guān)系、主要理論、基本原理以及領(lǐng)域中發(fā)生的活動(dòng)等。
[0006] 網(wǎng)絡(luò)文本中公共衛(wèi)生突發(fā)事件信息的描述語(yǔ)句一般較長(zhǎng),而且由于公共衛(wèi)生突發(fā) 事件涉及諸多領(lǐng)域,所以事件組成要素的類型和信息量繁多復(fù)雜,而且醫(yī)學(xué)領(lǐng)域的特殊約 束性,有相當(dāng)多的專有學(xué)術(shù)名詞和概念,這使事件要素的抽取工作非常復(fù)雜,手工抽取的工 作量非常大且信息涵蓋范圍不夠全面。目前關(guān)于對(duì)公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)建立的研究 還處于初步階段,應(yīng)用目前已有的領(lǐng)域知識(shí)庫(kù)構(gòu)建方法構(gòu)建的公共衛(wèi)生領(lǐng)域知識(shí)庫(kù),因?yàn)?專有名詞較多,關(guān)聯(lián)性不緊密等自身領(lǐng)域特點(diǎn),往往不夠深入全面,導(dǎo)致準(zhǔn)確性和全面性都 還有待完善。
【發(fā)明內(nèi)容】
[0007] 為了解決上述問題,本發(fā)明提供了一種公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的構(gòu)建方 法,包括如下步驟:
[0008] 步驟S101 :分析公共衛(wèi)生突發(fā)事件生命周期所涉及的領(lǐng)域,搜集公共衛(wèi)生突發(fā)事 件相關(guān)文檔,整理形成語(yǔ)料庫(kù);
[0009] 步驟S102 :通過提取句子中的名詞和名詞短語(yǔ),構(gòu)建事件框架;
[0010] 步驟S103 :對(duì)語(yǔ)料庫(kù)的文本信息進(jìn)行處理,形成標(biāo)準(zhǔn)的信息標(biāo)注體系;
[0011] 步驟S104:將已經(jīng)得到的屬性信息作為種子屬性,并設(shè)計(jì)種子模式,依靠這些種 子信息去選擇新的與之匹配的相關(guān)信息,得到更多屬性信息;
[0012] 步驟S105 :利用屬性信息,構(gòu)建公共衛(wèi)生突發(fā)事件領(lǐng)域本體。
[0013] 所述步驟S101中分析公共衛(wèi)生突發(fā)事件生命周期所涉及的領(lǐng)域,搜集公共衛(wèi)生 突發(fā)事件相關(guān)文檔進(jìn)一步包括:
[0014] 分析公共衛(wèi)生突發(fā)事件生命周期所涉及的各個(gè)領(lǐng)域確定應(yīng)用領(lǐng)域和信息覆蓋范 圍;
[0015] 通過人工上傳和/或互聯(lián)網(wǎng)信息獲取構(gòu)建本體所需的語(yǔ)料基礎(chǔ)資料;所述基礎(chǔ)資 料的內(nèi)容包括以下至少一個(gè):與領(lǐng)域有關(guān)的法律、法規(guī)、管理辦法、與各領(lǐng)域相關(guān)項(xiàng)目實(shí)施 過程中產(chǎn)生的項(xiàng)目申請(qǐng)書、合同書、驗(yàn)收?qǐng)?bào)告、著作、論文、標(biāo)準(zhǔn)、研究報(bào)告和專利。
[0016]所述步驟S101中整理形成語(yǔ)料庫(kù)的步驟為:
[0017] 對(duì)選擇的語(yǔ)料庫(kù)的文本文件中信息進(jìn)行抽取獲得文本信息;
[0018] 對(duì)所獲得的領(lǐng)域文本信息進(jìn)行預(yù)處理,和/或去除標(biāo)簽、亂碼、頁(yè)眉和頁(yè)腳,將處 理后獲得的文本信息作為語(yǔ)料庫(kù)。
[0019] 所述對(duì)選擇的語(yǔ)料庫(kù)的文本文件中信息進(jìn)行抽取獲得文本信息的步驟包括:
[0020] 在語(yǔ)料庫(kù)中尋找含有觸發(fā)詞匯的語(yǔ)句,提取觸發(fā)詞語(yǔ)句模式作為待選模式將已經(jīng) 通過種子評(píng)價(jià)步驟,并且符合要求的候選模式加入之前的種子模式,用選到的模式作為種 子模式再到語(yǔ)料庫(kù)中獲取屬性模式,得到新的屬性信息。
[0021] 本發(fā)明的有益效果:
[0022] 1.本發(fā)明是一種公共衛(wèi)生突發(fā)事件要素信息的半自動(dòng)抽取方法,所謂半自動(dòng)抽 取,即是在建立的框架基礎(chǔ)上運(yùn)用分詞軟件和擴(kuò)展概念算法的信息抽取方法。
[0023] 2.通過提取句子中的名詞和名詞短語(yǔ),構(gòu)建事件框架;其中采用ICTCLAS軟件進(jìn) 行處理,特別適合公共衛(wèi)生突發(fā)事件領(lǐng)域,可以方便快捷的進(jìn)行后續(xù)處理,構(gòu)建的框架對(duì)公 共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的建立起到很好的促進(jìn)以及保障全面性和準(zhǔn)確性的作用。本發(fā) 明框架的建立更加科學(xué),規(guī)范,以及同義詞擴(kuò)展更加準(zhǔn)確,領(lǐng)域建立準(zhǔn)確性更高。
[0024] 3.本發(fā)明形成的標(biāo)準(zhǔn)的信息標(biāo)注體系是根據(jù)公共衛(wèi)生突發(fā)事件生命周期及發(fā)展 規(guī)律建立,使得公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的更加全面,準(zhǔn)確。
[0025] 4.將已經(jīng)得到的屬性信息作為種子屬性,并設(shè)計(jì)種子模式,依靠這些種子信息去 選擇新的與之匹配的相關(guān)信息,得到更多屬性信息,通過該步驟可以將語(yǔ)料庫(kù)中的相關(guān)屬 性信息全部篩選出來使得公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)更加準(zhǔn)確、全面,簡(jiǎn)單,高效。
[0026] 5.采用《同義詞林》擴(kuò)展觸發(fā)詞,結(jié)合人工挑選的的屬性標(biāo)注體系中的屬性信息, 使得種子的質(zhì)量非常高,同時(shí)方法也很簡(jiǎn)便,操作簡(jiǎn)單,保障了公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí) 庫(kù)更加準(zhǔn)確、全面。
[0027] 6.采用本發(fā)明建立的公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)簡(jiǎn)單高效,能夠及時(shí)根據(jù)新 的突發(fā)事件更新領(lǐng)域知識(shí)庫(kù),從而節(jié)省了時(shí)間,提高應(yīng)急處理效率,為防治救災(zāi)贏得寶貴時(shí) 間。
【附圖說明】
[0028]根據(jù)下述附圖及實(shí)施例的描述,可以充分說明本發(fā)明的特征及優(yōu)點(diǎn),在附圖中:
[0029] 圖1是一種公共衛(wèi)生突發(fā)事件領(lǐng)域知識(shí)庫(kù)的構(gòu)建方法的流程圖;
[0030] 圖2是對(duì)文本信息進(jìn)行處理,形成一個(gè)標(biāo)準(zhǔn)的信息標(biāo)注體系步驟的流程圖;
[0031] 圖3是屬性擴(kuò)展一種實(shí)施方式的流程圖;
[0032]圖4是屬性擴(kuò)展的