亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法

文檔序號(hào):6612414閱讀:263來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法
技術(shù)領(lǐng)域
本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,更具體而言,涉及用于從大量中醫(yī)方劑學(xué) 記錄中分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法。
背景技術(shù)
中醫(yī)方劑藥物組配規(guī)律是指中醫(yī)復(fù)方的組成成分和作用機(jī)制之間的因果聯(lián)系,它是中醫(yī)方劑學(xué)領(lǐng)域的一個(gè)核心課題。研究這類(lèi)規(guī)律需要來(lái)自于3個(gè)渠道 的證據(jù)支持(1)病人入院并接受中醫(yī)方劑治療后的各種臨床表現(xiàn);(2)針對(duì)中 醫(yī)方劑學(xué)的,符合規(guī)范的臨床研究所獲得的結(jié)果;和(3)通過(guò)符合規(guī)范的科學(xué)實(shí) 驗(yàn)所獲得的關(guān)于藥物化學(xué)組成的數(shù)據(jù)。它們又分別對(duì)應(yīng)3類(lèi)計(jì)算機(jī)化的數(shù)據(jù)源:(1) 計(jì)算機(jī)化的病人記錄,它捕捉病人入院全過(guò)程中的與臨床研究相關(guān)的信息;(2) 計(jì)算機(jī)化的臨床研究文獻(xiàn),它捕捉臨床研究的過(guò)程和結(jié)果的信息;和(3) 結(jié)構(gòu)化的藥物化學(xué)組成,它捕捉藥物和化學(xué)物質(zhì)之間的組成關(guān)系。隨著中醫(yī)方劑學(xué)研究的深入,相關(guān)的計(jì)算機(jī)化數(shù)據(jù)資源的規(guī)模正在以指數(shù) 級(jí)增長(zhǎng)。僅僅通過(guò)人工處理的方法,己經(jīng)不能有效地處理中醫(yī)方劑學(xué)研究所需 要的數(shù)據(jù)。數(shù)據(jù)挖掘可以通過(guò)計(jì)算大規(guī)模數(shù)據(jù)集,來(lái)發(fā)現(xiàn)模式,規(guī)律和趨勢(shì), 并推理它們?cè)谔囟☉?yīng)用領(lǐng)域內(nèi)的意義。數(shù)據(jù)挖掘是輔助中醫(yī)方劑學(xué)研究的重要 手段。關(guān)聯(lián)規(guī)則挖掘是數(shù)據(jù)挖掘的一個(gè)重要分支。關(guān)聯(lián)規(guī)則挖掘是一種用于發(fā)現(xiàn) 大型數(shù)據(jù)集中的各種研究對(duì)象之間的相關(guān)性的方法。關(guān)聯(lián)規(guī)則挖掘始于Agrawal R。等于90年代初的一項(xiàng)針對(duì)商業(yè)數(shù)據(jù)集的數(shù)據(jù)挖掘研究,并迅速推廣到其它 應(yīng)用領(lǐng)域,包括醫(yī)藥學(xué)領(lǐng)域。經(jīng)過(guò)近年來(lái)的發(fā)展,關(guān)聯(lián)規(guī)則挖掘算法的效率問(wèn) 題已經(jīng)得到了有效的解決,而研究重點(diǎn)轉(zhuǎn)向分析關(guān)聯(lián)規(guī)則在具體應(yīng)用問(wèn)題中的 有用性,包括其新穎性和可操作性等。關(guān)聯(lián)規(guī)則挖掘系統(tǒng)用于關(guān)聯(lián)規(guī)則的發(fā)現(xiàn), 處理和展示,從而輔助用戶(hù)來(lái)解釋規(guī)則并發(fā)現(xiàn)其有用性。中醫(yī)方劑學(xué)是關(guān)聯(lián)規(guī)則挖掘的一個(gè)潛在的應(yīng)用領(lǐng)域。然而,當(dāng)前可以援引 的研究并沒(méi)有取得理想中的成功,而其中的核心問(wèn)題是:關(guān)聯(lián)規(guī)則挖掘結(jié)果無(wú)法獲得合理的中醫(yī)方劑學(xué)解釋。造成這一困境的原因如下(1)大部分?jǐn)?shù)據(jù)源是非 結(jié)構(gòu)化的,從而無(wú)法被關(guān)聯(lián)規(guī)則挖掘算法所直接處理;(2)大部分?jǐn)?shù)據(jù)源缺乏語(yǔ) 義一致性,例如存在術(shù)語(yǔ)的歧義,多義和別名等情況;(3)缺乏有效的方法,使 機(jī)器可以對(duì)發(fā)現(xiàn)的頻繁模式作解釋和語(yǔ)義標(biāo)注;以及(4)缺乏有效的方法,使機(jī) 器可以對(duì)發(fā)現(xiàn)的關(guān)聯(lián)規(guī)則作推理,變換,裁剪和語(yǔ)義標(biāo)注。其中的癥結(jié)在于機(jī)器無(wú)法理解中醫(yī)方劑學(xué)的領(lǐng)域知識(shí)。如何使機(jī)器理解領(lǐng) 域知識(shí)是知識(shí)表示的基本問(wèn)題。近年來(lái)在這一領(lǐng)域中的主要進(jìn)展是提出了描述 邏輯,它的基本思想是把本體論作為正式的,明確的規(guī)范用于某個(gè)領(lǐng)域的概念 化。語(yǔ)義萬(wàn)維網(wǎng)是將描述邏輯的研究成果與萬(wàn)維網(wǎng)的結(jié)合。機(jī)器可以通過(guò)語(yǔ)義 萬(wàn)維網(wǎng)獲取科學(xué)數(shù)據(jù),并理解和利用數(shù)據(jù)的語(yǔ)義。將語(yǔ)義萬(wàn)維網(wǎng)用于醫(yī)藥學(xué)知 識(shí)表示成為一種技術(shù)趨勢(shì)。鑒于當(dāng)前關(guān)聯(lián)規(guī)則挖掘在中醫(yī)方劑學(xué)中的應(yīng)用瓶頸是領(lǐng)域知識(shí)的表示,而 語(yǔ)義萬(wàn)維網(wǎng)成為解決醫(yī)藥學(xué)領(lǐng)域知識(shí)表示的有效手段,提出將基于語(yǔ)義萬(wàn)維網(wǎng) 的領(lǐng)域知識(shí)表示,與關(guān)聯(lián)規(guī)則挖掘相結(jié)合的泛化關(guān)聯(lián)規(guī)則挖掘方法,并將這種 方法用于中醫(yī)方劑藥物組配規(guī)律的發(fā)現(xiàn)。發(fā)明內(nèi)容本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提供了一種用于分析中醫(yī)方劑藥物組配規(guī)律 的泛化關(guān)聯(lián)規(guī)則挖掘方法本發(fā)明提供了一種結(jié)合關(guān)聯(lián)規(guī)則挖掘和領(lǐng)域知識(shí)表示的泛化關(guān)聯(lián)規(guī)則方 法,其中使用語(yǔ)義網(wǎng)技術(shù)作為領(lǐng)域知識(shí)表示的主要手段。如附圖1所示,用于實(shí)現(xiàn)泛化關(guān)聯(lián)規(guī)則方法的部件,包括(1) 多個(gè)中醫(yī)方劑學(xué)數(shù)據(jù)源,用于提供中醫(yī)方劑藥物組配規(guī)律需要的數(shù)據(jù)。 這些數(shù)據(jù)源包括計(jì)算機(jī)化的病人記錄,計(jì)算機(jī)化的臨床研究文獻(xiàn),和 結(jié)構(gòu)化的藥物化學(xué)組成。中醫(yī)方劑學(xué)數(shù)據(jù)源為多個(gè)分治的,物理上分步式的,結(jié)構(gòu)互異的資源庫(kù),這些資源庫(kù)可以是:數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),或者數(shù)據(jù)服務(wù)。(2) —個(gè)領(lǐng)域知識(shí)庫(kù),是由基于描述邏輯的知識(shí)表示系統(tǒng)所構(gòu)建,推理與 維護(hù)的,它包括術(shù)語(yǔ)系統(tǒng)(稱(chēng)為T(mén)Box)和領(lǐng)域規(guī)則系統(tǒng)(稱(chēng)為ABox)。 術(shù)語(yǔ)系統(tǒng)描述了中醫(yī)方劑學(xué)領(lǐng)域中的術(shù)語(yǔ),包括表示領(lǐng)域中研究對(duì)象 的概念,和表示2個(gè)概念之間的關(guān)系的角色。術(shù)語(yǔ)系統(tǒng)以基于萬(wàn)維網(wǎng) 本體語(yǔ)言的文件的形式向外界提供術(shù)語(yǔ)服務(wù)。領(lǐng)域規(guī)則系統(tǒng)是由描述 中醫(yī)方劑學(xué)領(lǐng)域規(guī)則的斷言所組成的,而每一條斷言都是由術(shù)語(yǔ)系統(tǒng) 中的個(gè)體所構(gòu)成的。 (3) —個(gè)知識(shí)發(fā)現(xiàn)器,它利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完 成數(shù)據(jù)挖掘過(guò)程,并將挖掘結(jié)果以知識(shí)提案的形式提交領(lǐng)域知識(shí)庫(kù)。 它包括一個(gè)信息提取器, 一個(gè)模式發(fā)現(xiàn)器和一個(gè)規(guī)則發(fā)現(xiàn)器。信息提 取器負(fù)責(zé)提供結(jié)構(gòu)化的中醫(yī)方劑學(xué)記錄集合,實(shí)現(xiàn)的手段包括針對(duì)非結(jié)構(gòu)性信息的提取和針對(duì)結(jié)構(gòu)性信息的提取,而這2種形式的信息都來(lái)源于中醫(yī)方劑學(xué)數(shù)據(jù)源。模式發(fā)現(xiàn)器利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ) 系統(tǒng)和領(lǐng)域規(guī)則完成頻繁模式發(fā)現(xiàn),解釋和語(yǔ)義標(biāo)注。規(guī)則發(fā)現(xiàn)器利 用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成泛化關(guān)聯(lián)規(guī)則的發(fā) 現(xiàn)和處理,根據(jù)處理后的泛化關(guān)聯(lián)規(guī)則產(chǎn)生知識(shí)提案并將產(chǎn)生的知識(shí) 提案提交給領(lǐng)域知識(shí)庫(kù)。 各個(gè)部件之間通過(guò)對(duì)應(yīng)的連接部件實(shí)現(xiàn)相互作用。其中,信息抽取器數(shù)據(jù) 源連接部件負(fù)責(zé)建立與各種數(shù)據(jù)源之間的連接,并通過(guò)這些連接獲得信息。信 息抽取器和模式發(fā)現(xiàn)器之間通過(guò)一個(gè)連接部件實(shí)現(xiàn)中醫(yī)方劑學(xué)記錄集合的傳 遞,模式發(fā)現(xiàn)器和規(guī)則發(fā)現(xiàn)器之間通過(guò)一個(gè)連接部件實(shí)現(xiàn)被標(biāo)注模式的傳遞。 知識(shí)發(fā)現(xiàn)器通過(guò)領(lǐng)域知識(shí)連接部件獲得領(lǐng)域知識(shí)庫(kù)中的術(shù)語(yǔ)和規(guī)則。規(guī)則發(fā)現(xiàn) 器通過(guò)知識(shí)提案提交部件將知識(shí)提案提交給領(lǐng)域知識(shí)庫(kù)。領(lǐng)域知識(shí)庫(kù)的知識(shí)提 案受理部件對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案進(jìn)行受理。語(yǔ)義萬(wàn)維網(wǎng)是一組規(guī)定萬(wàn)維網(wǎng)信息和知識(shí)表示的工業(yè)標(biāo)準(zhǔn)。本發(fā)明所提供的方法使用了語(yǔ)義萬(wàn)維網(wǎng),其中(1)語(yǔ)義萬(wàn)維網(wǎng)査詢(xún)推薦標(biāo)準(zhǔn)(即SPARQL)用于醫(yī)學(xué)記錄傳遞過(guò)程中的查詢(xún)處理;(2)萬(wàn)維網(wǎng)本體語(yǔ)言(即OWL)用于描述和交換術(shù)語(yǔ)系統(tǒng)中的概念與角色,并用于描述和交換中醫(yī)方劑學(xué)領(lǐng)域規(guī)則的語(yǔ)義標(biāo)注;(3)語(yǔ)義萬(wàn)維網(wǎng)規(guī)則語(yǔ)言(即Semantic Web Rule Language或SWRL)用于描 述和交換中醫(yī)方劑學(xué)領(lǐng)域規(guī)則。木發(fā)明所提供的方法包括如下歩驟(1) 構(gòu)建多個(gè)中醫(yī)方劑學(xué)數(shù)據(jù)源。通過(guò)行業(yè)公識(shí)的數(shù)據(jù)加工技術(shù),構(gòu)建計(jì) 算機(jī)化的病人記錄,計(jì)算機(jī)化的臨床研究文獻(xiàn),和結(jié)構(gòu)化的藥物化學(xué)組成等數(shù)據(jù)源。(2) 構(gòu)建領(lǐng)域知識(shí)庫(kù)。通過(guò)基于描述邏輯的知識(shí)表示系統(tǒng)構(gòu)建領(lǐng)域知識(shí)庫(kù),
并向知識(shí)庫(kù)中添入中醫(yī)方劑學(xué)領(lǐng)域中的術(shù)語(yǔ)和中醫(yī)方劑學(xué)領(lǐng)域規(guī)則。(3) 通過(guò)知識(shí)發(fā)現(xiàn)器完成數(shù)據(jù)挖掘過(guò)程,并將挖掘結(jié)果以知識(shí)提案的形式 提交領(lǐng)域知識(shí)庫(kù)。包括如下步驟(3. 1)通過(guò)信息提取器來(lái)提取結(jié)構(gòu)化的中醫(yī)方劑學(xué)記錄集合。(3.2) 通過(guò)模式發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成頻繁模式發(fā)現(xiàn),解釋和語(yǔ)義標(biāo)注。(3.3) 通過(guò)規(guī)則發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī) 則完成泛化關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)和處理,根據(jù)處理后的泛化關(guān)聯(lián)規(guī) 則產(chǎn)生知識(shí)提案并將產(chǎn)牛的知識(shí)提案提交給領(lǐng)域知識(shí)庫(kù)。(4) 通過(guò)領(lǐng)域知識(shí)庫(kù)的知識(shí)提案受理部件,對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案 進(jìn)行受理。知識(shí)提案的受理過(guò)程包括(4. 1)接受和緩存知識(shí)提案;(4.2)幫助領(lǐng)域?qū)<也榭矗斫?,?yàn)證和評(píng)價(jià)知識(shí)提案,從而產(chǎn)生可操作的領(lǐng)域知識(shí); (4. 3)將新產(chǎn)生的可操作的領(lǐng)域知識(shí)永久存儲(chǔ)于領(lǐng)域知識(shí)庫(kù)。 本發(fā)明的有益效果是本發(fā)明所提供的方法的結(jié)果是可驗(yàn)證的知識(shí)提案, 知識(shí)提案包括描述泛化關(guān)聯(lián)規(guī)則的斷言和用于幫助領(lǐng)域?qū)<依斫夥夯P(guān)聯(lián)規(guī)則 的語(yǔ)義標(biāo)注,經(jīng)過(guò)專(zhuān)家受理的知識(shí)提案,描述了中醫(yī)方劑藥物組配規(guī)律,從而 可以嵌入中醫(yī)方劑與藥物發(fā)現(xiàn)系統(tǒng),并在發(fā)現(xiàn)新的中醫(yī)方劑與藥物中發(fā)揮重要 作用。


圖l示出了本發(fā)明的原理圖。
具體實(shí)施方式
本發(fā)明提供了一種數(shù)據(jù)挖掘方法,用于通過(guò)挖掘大量中醫(yī)方劑學(xué)記錄來(lái)分 析中醫(yī)方劑藥物組配規(guī)律。這一方法利用方劑數(shù)據(jù)庫(kù)從大量方劑中抽取隱含的, 未知的,有意義的藥物組配模式;它為中醫(yī)方劑理論研究和中醫(yī)臨床用藥研究 提供了一個(gè)重要的知識(shí)來(lái)源。在具體闡述該方法之前,有必要明確中醫(yī)方劑藥物組配規(guī)律挖掘的應(yīng)用背案例l (古代方劑大柴胡湯)。 方名大柴胡湯 藥物組成柴胡J兩,黃芩3兩,芍藥^兩,甘草(炙)3兩,半夏2兩半(湯洗7次),大 黃2兩,枳實(shí)l兩(麩炒,去瓤) 功效梳利風(fēng)熱 主治頭痛,痰嗽,腹脹,及里證未解。方劑配伍規(guī)律研究的核心問(wèn)題是研究藥物的組配規(guī)律,其中,藥對(duì)是藥物 間最基本的組配方式。通過(guò)頻繁模式和關(guān)聯(lián)規(guī)則挖掘,可以發(fā)現(xiàn)藥物的組配規(guī) 律。如下由數(shù)據(jù)挖掘所獲得的頻繁模式所導(dǎo)出的藥物組配規(guī)律案例2 (藥物組配規(guī)律)。 藥物組成人參,白術(shù),茯苓方劑學(xué)證據(jù)在1474首方劑中出現(xiàn)上述的藥物組成 測(cè)量指標(biāo)反映藥物組配規(guī)律可靠性的量化指標(biāo)為"A在從0到1的閉區(qū)間內(nèi)取值)。 通過(guò)上面的挖掘出的藥物組配規(guī)律,領(lǐng)域?qū)<铱梢愿鶕?jù)方劑學(xué)證據(jù)分析這一模式是否合理,并決定是否進(jìn)行進(jìn)一步的驗(yàn)證工作。領(lǐng)域?qū)<业闹R(shí)發(fā)現(xiàn)活動(dòng)往往是案例驅(qū)動(dòng)的。案例本身對(duì)數(shù)據(jù)挖掘提供了一系列的約束條件。如下是由約束數(shù)據(jù)發(fā)掘所獲得的頻繁模式導(dǎo)出的藥物組配規(guī)律案例3 (藥物組配規(guī)律(續(xù)))。 約束條件具有清熱解毒功效的所有方劑 藥物組成
板藍(lán)根,金銀花 方劑學(xué)證據(jù)440首方劑具有清熱解毒功效測(cè)量指標(biāo)反映藥物組配規(guī)律可靠性的量化指標(biāo)為0。 24(在從0到1的閉區(qū)間內(nèi)取值)通過(guò)使用功效,藥物等約束條件對(duì)方劑集合進(jìn)行限制,領(lǐng)域?qū)<铱梢愿?有針對(duì)性地進(jìn)行研究,并提高知識(shí)發(fā)現(xiàn)的效率。在上文中分析了中醫(yī)方劑藥物組配規(guī)律挖掘的背景和內(nèi)涵。通過(guò)上述分析 口J知,中醫(yī)方劑藥物組配規(guī)律挖掘是和中醫(yī)方劑學(xué)領(lǐng)域知識(shí)高度相關(guān)的。本發(fā) 明將領(lǐng)域知識(shí)的表示,無(wú)縫集成在中醫(yī)方劑挖掘中,從而很好地處理了這一相 關(guān)性。本發(fā)明提供/一種結(jié)合關(guān)聯(lián)規(guī)則挖掘和領(lǐng)域知識(shí)表示的泛化關(guān)聯(lián)規(guī)則方 法,其中主要設(shè)計(jì)策略包括(1)使用基于語(yǔ)義萬(wàn)維網(wǎng)的知識(shí)表示方法構(gòu)建領(lǐng) 域知識(shí)庫(kù)。(2)使用本體學(xué)習(xí)方法來(lái)抽取中醫(yī)方劑學(xué)信息。(3)使用泛化關(guān)聯(lián) 規(guī)則挖掘方法,利用領(lǐng)域術(shù)語(yǔ)的層次結(jié)構(gòu),來(lái)提高規(guī)則提取的有效性。(4)使 用知識(shí)推理方法生成頻繁模式的語(yǔ)義標(biāo)注。如附圖1所示,本發(fā)明所提出的方 法涉及如下的功能性部件多個(gè)中醫(yī)力劑學(xué)數(shù)據(jù)源用于提供中醫(yī)方劑藥物組配規(guī)律需要的數(shù)據(jù)。這些數(shù)據(jù)源包括計(jì)算機(jī)化的 病人記錄,計(jì)算機(jī)化的臨床研究文獻(xiàn),和結(jié)構(gòu)化的藥物化學(xué)組成。中醫(yī)方劑學(xué) 數(shù)據(jù)源為多個(gè)分治的,物理上分步式的,結(jié)構(gòu)互異的資源庫(kù),這些資源庫(kù)可以 是:數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),或者數(shù)據(jù)服務(wù)。一個(gè)領(lǐng)域知識(shí)庫(kù)它是由基于描述邏輯的知識(shí)表示系統(tǒng)所構(gòu)建,推理與維護(hù)的,它包括術(shù)語(yǔ) 系統(tǒng)(稱(chēng)為T(mén)Box)和領(lǐng)域規(guī)則系統(tǒng)(稱(chēng)為ABox)。術(shù)語(yǔ)系統(tǒng)描述了中醫(yī)方劑學(xué)領(lǐng)域 中的術(shù)語(yǔ),包括表示領(lǐng)域中研究對(duì)象的概念,和表示2個(gè)概念之間的關(guān)系的角 色。術(shù)語(yǔ)系統(tǒng)以基于萬(wàn)維網(wǎng)本體語(yǔ)言的文件的形式向外界提供術(shù)語(yǔ)服務(wù)。領(lǐng)域 規(guī)則系統(tǒng)是由描述中醫(yī)方劑學(xué)領(lǐng)域規(guī)則的斷言所組成的,而每一條斷言都是由 術(shù)語(yǔ)系統(tǒng)中的個(gè)體所構(gòu)成的。 -個(gè)知識(shí)發(fā)現(xiàn)器它利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成數(shù)據(jù)挖掘過(guò)程,并將 挖掘結(jié)果以知識(shí)提案的形式提交領(lǐng)域知識(shí)庫(kù)。它包括一個(gè)信息提取器, 一個(gè)模 式發(fā)現(xiàn)器和一個(gè)規(guī)則發(fā)現(xiàn)器。信息提取器負(fù)責(zé)提供結(jié)構(gòu)化的中醫(yī)方劑學(xué)記錄集
合,實(shí)現(xiàn)的手段包括針對(duì)非結(jié)構(gòu)性信息的提取和針對(duì)結(jié)構(gòu)性信息的提取,而這2 種形式的信息都來(lái)源于中醫(yī)方劑學(xué)數(shù)據(jù)源。模式發(fā)現(xiàn)器利用領(lǐng)域知識(shí)庫(kù)所提供 的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成頻繁模式發(fā)現(xiàn),解釋和語(yǔ)義標(biāo)注。規(guī)則發(fā)現(xiàn)器利用 領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成泛化關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)和處理,根 據(jù)處理后的泛化關(guān)聯(lián)規(guī)則產(chǎn)生知識(shí)提案,并將產(chǎn)生的知識(shí)提案提交給領(lǐng)域知識(shí) 庫(kù)。連接部件上述部件之間通過(guò)對(duì)應(yīng)的連接部件實(shí)現(xiàn)相互作用。其中,信息抽取器數(shù)據(jù) 源連接部件負(fù)責(zé)建立與各種數(shù)據(jù)源之間的連接,并通過(guò)這些連接獲得信息。信 息抽取器和模式發(fā)現(xiàn)器之間通過(guò)一個(gè)連接部件實(shí)現(xiàn)中醫(yī)方劑學(xué)記錄集合的傳 遞,模式發(fā)現(xiàn)器和規(guī)則發(fā)現(xiàn)器之間通過(guò)一個(gè)連接部件實(shí)現(xiàn)被標(biāo)注模式的傳遞。 知識(shí)發(fā)現(xiàn)器通過(guò)領(lǐng)域知識(shí)連接部件獲得領(lǐng)域知識(shí)庫(kù)中的術(shù)語(yǔ)和規(guī)則。規(guī)則發(fā)現(xiàn) 器通過(guò)知識(shí)提案提交部件將知識(shí)提案提交給領(lǐng)域知識(shí)庫(kù)。領(lǐng)域知識(shí)庫(kù)的知識(shí)提 案受理部件對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案進(jìn)行受理。圖1顯示本發(fā)明所提供的方法所涉及的部件,以及部件之間的相互作用, 從而直觀地揭示了該方法的實(shí)質(zhì)內(nèi)容。本發(fā)明所提供的方法包括如下步驟 、構(gòu)建多個(gè)中醫(yī)方劑學(xué)數(shù)據(jù)源通過(guò)行業(yè)公識(shí)的數(shù)據(jù)加工技術(shù),構(gòu)建計(jì)算機(jī)化的病人記錄,計(jì)算機(jī)化的臨 床研究文獻(xiàn),和結(jié)構(gòu)化的藥物化學(xué)組成等數(shù)據(jù)源。經(jīng)過(guò)接近二十年的發(fā)展,巾醫(yī)方劑學(xué)數(shù)據(jù)源的構(gòu)建技術(shù)已經(jīng)成熟并在行業(yè) 內(nèi)成功推廣。行業(yè)內(nèi)已經(jīng)產(chǎn)生多個(gè)分治的,物理上分步式的,結(jié)構(gòu)互異的資源 庫(kù),這些資源庫(kù)的形式為數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù),或者數(shù)據(jù)服務(wù)等。利用行業(yè)公 識(shí)的技術(shù),以已有的中醫(yī)方劑學(xué)資源庫(kù)為基礎(chǔ),可以按需新建中醫(yī)方劑學(xué)資源 庫(kù)。中醫(yī)方劑學(xué)數(shù)據(jù)源構(gòu)建的具體實(shí)施方法和結(jié)果形式,不影響本發(fā)明所提供 方法的實(shí)質(zhì)。 二、構(gòu)建領(lǐng)域知識(shí)庫(kù)通過(guò)基于描述邏輯的知識(shí)表示系統(tǒng)構(gòu)建領(lǐng)域知識(shí)庫(kù),并向知識(shí)庫(kù)中添入中 醫(yī)方劑學(xué)領(lǐng)域中的術(shù)語(yǔ)和中醫(yī)方劑學(xué)領(lǐng)域規(guī)則。知識(shí)表示是知識(shí)獲取和使用的前提和基礎(chǔ)。最近,知識(shí)表示領(lǐng)域中出現(xiàn)了 -個(gè)新的發(fā)展趨勢(shì),這就是本體論理論的提出,以及這一理論在知識(shí)發(fā)現(xiàn),知 識(shí)管理,和決策支持等系統(tǒng)中的應(yīng)用。本體論是用于領(lǐng)域概念化的正式規(guī)范。
通過(guò)本體論,可以使有關(guān)各方(人或機(jī)器)對(duì)領(lǐng)域內(nèi)共用的詞匯,術(shù)語(yǔ)和術(shù)語(yǔ)分 類(lèi)達(dá)成共識(shí),從而實(shí)現(xiàn)知識(shí)在各方之間的交流,共享和重用。本體論在多方參 與,劇烈變化的萬(wàn)維網(wǎng)環(huán)境中,仍然具有很好的靈活性,可擴(kuò)展性和可維護(hù)性。 將本體論應(yīng)用于萬(wàn)維網(wǎng)就導(dǎo)致了萬(wàn)維網(wǎng)本體論語(yǔ)言(即OWL)的提出。語(yǔ)義萬(wàn)維網(wǎng)是一組規(guī)定萬(wàn)維網(wǎng)信息和知識(shí)表示的工業(yè)標(biāo)準(zhǔn)。本發(fā)明使用語(yǔ) 義萬(wàn)維網(wǎng)技術(shù)作為領(lǐng)域知識(shí)表示的主要手段(1)語(yǔ)義萬(wàn)維網(wǎng)査詢(xún)推薦標(biāo)準(zhǔn)(即SPARQL)用于醫(yī)學(xué)記錄傳遞過(guò)程中的查詢(xún)處理。(2)萬(wàn)維網(wǎng)本體語(yǔ)言(即OWL)用 于描述和交換術(shù)語(yǔ)系統(tǒng)中的概念與角色,并用于描述和交換中醫(yī)方劑學(xué)領(lǐng)域規(guī) 則的語(yǔ)義標(biāo)注。(3)語(yǔ)義萬(wàn)維網(wǎng)規(guī)則語(yǔ)言(g卩Semantic Web Rule Language或 S WRL)用于描述和交換中醫(yī)方劑學(xué)領(lǐng)域規(guī)則。 三、挖掘并提交方劑學(xué)知識(shí)提案通過(guò)知識(shí)發(fā)現(xiàn)器完成數(shù)據(jù)挖掘過(guò)程,并將挖掘結(jié)果以知識(shí)提案的形式提交 領(lǐng)域知識(shí)庫(kù)。包括如下步驟(1) 通過(guò)信息提取器來(lái)提取結(jié)構(gòu)化的中醫(yī)方劑學(xué)記錄集合。 在這個(gè)步驟屮,從多個(gè)數(shù)據(jù)源中產(chǎn)生RDF單句。RDF單句的形式為〈主語(yǔ),謂語(yǔ),賓語(yǔ)〉,其中賓語(yǔ)本身可以是一個(gè)沒(méi)有全局標(biāo)識(shí)的RDF子圖。系統(tǒng)支持如 下2類(lèi)數(shù)據(jù)源(a)結(jié)構(gòu)化數(shù)據(jù)源執(zhí)行SPARQL查詢(xún)獲得的結(jié)果可以表示為RDF 單句集合;(b)非結(jié)構(gòu)化數(shù)據(jù)源首先對(duì)文檔分段,然后將非結(jié)構(gòu)化的文本段 翻譯為詞序列,再將詞組合成句于?;诿枋鲞壿嫷男畔⑻崛》椒ㄓ卸喾N,在 實(shí)現(xiàn)發(fā)明時(shí)可以選擇其中一種。 一種方法是短語(yǔ)定位規(guī)則,用于從詞序列中提 取信息。短語(yǔ)定位規(guī)則適用于每一個(gè)單獨(dú)的句子,它規(guī)定當(dāng)句子中包含某個(gè)模 式時(shí),就產(chǎn)生一條新的觀察。(2) 通過(guò)模式發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成 頻繁模式發(fā)現(xiàn),解釋和語(yǔ)義標(biāo)注。在這個(gè)步驟的一個(gè)具體實(shí)施例中,首先使用行業(yè)公識(shí)的Apriori算法發(fā)現(xiàn) 頻繁模式,然后使ffl行業(yè)中廣泛使用Prolog解釋器產(chǎn)生頻繁模式的語(yǔ)義標(biāo)注, 即通過(guò)基于領(lǐng)域知識(shí)庫(kù)的機(jī)器推理所得出的對(duì)頻繁模式的解釋。PROLOG解釋器 可以通過(guò)一個(gè)知識(shí)庫(kù)來(lái)論證一個(gè)目標(biāo),論證后所生成的AND/OR樹(shù)是基于該知識(shí) 庫(kù)對(duì)目標(biāo)的解釋。使用PROLOG解釋器同樣可以對(duì)頻繁模式進(jìn)行解釋?zhuān)忉尩?結(jié)果是頻繁模式的語(yǔ)義標(biāo)注,這一語(yǔ)義標(biāo)注可以保存為OWL格式的文件,并通 過(guò)樹(shù)或圖的視圖展示給領(lǐng)域?qū)<?。通過(guò)生成頻繁模式的語(yǔ)義標(biāo)注,可以輔助領(lǐng) 域?qū)<依斫忸l繁模式的語(yǔ)義內(nèi)涵。
當(dāng)然,知識(shí)推理方法并非僅僅包括PROLOG解釋器,而使用其它方法同樣可以獲得頻繁模式的解釋?zhuān)瑥亩烧Z(yǔ)義標(biāo)注。基于領(lǐng)域知識(shí)庫(kù)的機(jī)器推理的方 法有多種,在發(fā)明的實(shí)現(xiàn)中可以使用任何可行的方法,而不影響發(fā)明中所提供的方法的實(shí)質(zhì)。(3)通過(guò)規(guī)則發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成 泛化關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)和處理,根據(jù)處理后的泛化關(guān)聯(lián)規(guī)則產(chǎn)生知識(shí)提案并將產(chǎn) 生的知識(shí)提案提交給領(lǐng)域知識(shí)庫(kù)。泛化關(guān)聯(lián)規(guī)則挖掘的算法本身已經(jīng)比較成熟,并在商業(yè)以及醫(yī)學(xué)領(lǐng)域得到 使用。為了證明算法的可行性,介紹一種直接的解法:首先,對(duì)于一條記錄的每 個(gè)項(xiàng)目,將該項(xiàng)目的所有祖先加入記錄中,然后在"擴(kuò)展記錄"的集合上運(yùn)行 行業(yè)共識(shí)的Apriori算法。后續(xù)的改進(jìn)算法與這一基本算法相比,可以提高問(wèn) 題求解的效率,但并不影響發(fā)明所提供的方法的實(shí)質(zhì)。下面舉例說(shuō)明泛化關(guān)聯(lián)規(guī)則的醫(yī)學(xué)應(yīng)用。在這一例子中,任意一個(gè)醫(yī)學(xué)文 獻(xiàn)庫(kù)被視為醫(yī)學(xué)記錄集D,它包含大量醫(yī)學(xué)文檔,文檔中所包括的作者,疾病, 癥狀和證候等概念視為具有全局唯一標(biāo)識(shí)的資源。例如(1) 挖掘出"SARS病毒導(dǎo)致非典型性肺炎"規(guī)則,因?yàn)?00篇中有50篇 談到了 SARS病毒,這50篇中又有25篇談到了非典型性肺炎,所以規(guī)則的可信 度25/50,而規(guī)則的支持度25/100。(2) 挖掘出"非典型性肺炎有發(fā)熱和咳嗽"規(guī)則,因?yàn)?00篇中有50篇 談到了非典型性肺炎,這50篇中又冇40篇即談到了 "發(fā)熱"又談到了 "咳 嗽",所以規(guī)則的可信度40/50,而規(guī)則的支持度40/100。傳統(tǒng)定義中以資源(詞)為單位挖掘,而非以陳述為單元挖掘。例如,現(xiàn)有 的數(shù)據(jù)庫(kù)中含有一篇文獻(xiàn)中包括類(lèi)似"非典型性肺炎的癥狀是發(fā)熱"的結(jié)構(gòu)信 息(有一張疾病表, 一張癥狀表和一張疾病證候關(guān)聯(lián)表)。我們將它表示為〈非典 型性肺炎,疾病的癥狀,發(fā)熱〉。然后以陳述為單位挖掘。例如有50篇〈非典 型性肺炎,疾病的癥狀,發(fā)熱〉〈非典型性肺炎,疾病的癥狀,咳嗽〉其中25篇 〈blank,治療醫(yī)院,北京某某醫(yī)院Xblank,治療方法,針灸〉〈blank,證候, 某某>。我們發(fā)現(xiàn)傳統(tǒng)資源或詞的集合是不具有語(yǔ)義的,它丟失了語(yǔ)義信息。而 陳述的集合本身是具有連貫的語(yǔ)義的,而且越多陳述表示越豐富的語(yǔ)義內(nèi)涵。 所以基于語(yǔ)義萬(wàn)維網(wǎng)的關(guān)聯(lián)規(guī)則具有更強(qiáng)的參考意義。在多數(shù)情形下,針對(duì)項(xiàng) 目的分類(lèi)系統(tǒng)("屬于"層次結(jié)構(gòu))可以從本體論中得到。例如我們挖出〈非典 型性肺炎,疾病的癥狀,發(fā)熱〉,〈典型性肺炎,疾病的癥狀,發(fā)熱〉。然后本體 中發(fā)現(xiàn)非典型性肺炎和典型性肺炎都屬于肺炎。所以推出〈肺炎,疾病的癥狀,發(fā)熱>。我們挖出〈m,研究,非典型性肺炎〉,〈n,學(xué)習(xí),典型性肺炎〉,然后 本體中發(fā)現(xiàn)m, n屬于中醫(yī)院,就推出〈中醫(yī)院,感興趣,肺炎〉。用戶(hù)對(duì)分類(lèi)系統(tǒng)各個(gè)層次的項(xiàng)目所組成的規(guī)則都感興趣。然而,"肺炎推出發(fā)熱"的支持 度不等于"非典型性肺炎推出發(fā)熱"和"典型性肺炎推出發(fā)熱"的支持度之 和,因?yàn)橛腥丝赡芡瑫r(shí)患有兩種疾病。發(fā)現(xiàn)泛化關(guān)聯(lián)規(guī)則有如下價(jià)值(1) 低層次的規(guī)則可能沒(méi)有足夠的支持度,所以如果我們只發(fā)現(xiàn)分類(lèi)系統(tǒng) 葉子節(jié)點(diǎn)所組成的規(guī)則,那么可能漏掉一些重要的關(guān)聯(lián)規(guī)則。(2) 分類(lèi)系統(tǒng)可以用來(lái)過(guò)濾無(wú)意義和冗余規(guī)則。四、受理方劑學(xué)知識(shí)提案通過(guò)領(lǐng)域知識(shí)庫(kù)的知識(shí)提案受理部件,對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案進(jìn)行受理。知識(shí)提案的受理過(guò)程包括(1) 接受和緩存知識(shí)提案;(2) 幫助領(lǐng)域?qū)<也榭矗斫?,?yàn)證和評(píng)價(jià)知識(shí)提案,從而產(chǎn)生可操作的 領(lǐng)域知識(shí);(3) 將新產(chǎn)生的可操作的領(lǐng)域知識(shí)永久存儲(chǔ)于領(lǐng)域知識(shí)庫(kù)。 在具體實(shí)施中,可以在不違背知識(shí)提案受理步驟實(shí)質(zhì)的前提下,根據(jù)具體的業(yè)務(wù)需求確定實(shí)施要素的內(nèi)容,例如專(zhuān)家成員,知識(shí)管理和專(zhuān)家評(píng)議等軟 件系統(tǒng)的采購(gòu)和部署,以及制定知識(shí)提案受理的流程與政策等。本發(fā)明所提供的方法的結(jié)果是可驗(yàn)證的知識(shí)提案。知識(shí)提案包括描述泛關(guān) 聯(lián)規(guī)則的斷言和用于幫助領(lǐng)域?qū)<依斫夥夯P(guān)聯(lián)規(guī)則的語(yǔ)義標(biāo)注。經(jīng)過(guò)專(zhuān)家受 理的知識(shí)提案,描述了中醫(yī)方劑藥物組配規(guī)律,從而可以嵌入中醫(yī)方劑與藥物 發(fā)現(xiàn)系統(tǒng),并在發(fā)現(xiàn)新的中醫(yī)方劑與藥物中發(fā)揮重要作用。
權(quán)利要求
1、一種用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法,其特征在于,包括以下步驟(1)構(gòu)建多個(gè)中醫(yī)方劑學(xué)數(shù)據(jù)源。(2)構(gòu)建領(lǐng)域知識(shí)庫(kù)通過(guò)基于描述邏輯的知識(shí)表示系統(tǒng)構(gòu)建領(lǐng)域知識(shí)庫(kù),并向知識(shí)庫(kù)中添入中醫(yī)方劑學(xué)領(lǐng)域中的術(shù)語(yǔ)和中醫(yī)方劑學(xué)領(lǐng)域規(guī)則。(3)通過(guò)知識(shí)發(fā)現(xiàn)器完成數(shù)據(jù)挖掘過(guò)程,并將挖掘結(jié)果以知識(shí)提案的形式提交領(lǐng)域知識(shí)庫(kù)。(4)通過(guò)領(lǐng)域知識(shí)庫(kù)的知識(shí)提案受理部件,對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案進(jìn)行受理。
2、 根據(jù)權(quán)利要求1所述的用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法,其特征在于,所述步驟(3)包括如下步驟 (丄)通過(guò)信息提取器來(lái)提取結(jié)構(gòu)化的中醫(yī)方劑學(xué)記錄集合。(2) 通過(guò)模式發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成頻繁模式發(fā)現(xiàn),解釋和語(yǔ)義標(biāo)注。(3) 通過(guò)規(guī)則發(fā)現(xiàn)器,利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成泛化 關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)和處理,根據(jù)處理后的泛化關(guān)聯(lián)規(guī)則產(chǎn)生知識(shí)提案并將產(chǎn) 生的知識(shí)提案提交給領(lǐng)域知識(shí)庫(kù)。
3、 根據(jù)權(quán)利要求1所述的用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘 方法,其特征在于,所述步驟(4)中,所述對(duì)規(guī)則發(fā)現(xiàn)器提交的知識(shí)提案進(jìn)行 受理過(guò)程包括以下步驟(1) 接受和緩存知識(shí)提案。(2) 幫助領(lǐng)域?qū)<诣每?,理解,?yàn)證和評(píng)價(jià)知識(shí)提案,從而產(chǎn)生可操作的領(lǐng)域知識(shí)。(3) 將新產(chǎn)生的nf操作的領(lǐng)域知識(shí)永久存儲(chǔ)于領(lǐng)域知識(shí)庫(kù)。
全文摘要
本發(fā)明公開(kāi)了一種用于分析中醫(yī)方劑藥物組配規(guī)律的泛化關(guān)聯(lián)規(guī)則挖掘方法,該方法實(shí)質(zhì)上是一種結(jié)合關(guān)聯(lián)規(guī)則挖掘和領(lǐng)域知識(shí)表示的泛化關(guān)聯(lián)規(guī)則挖掘方法,它使用語(yǔ)義萬(wàn)維網(wǎng)技術(shù)作為領(lǐng)域知識(shí)表示的主要手段。該方法涉及一個(gè)知識(shí)發(fā)現(xiàn)器,該裝置利用領(lǐng)域知識(shí)庫(kù)所提供的術(shù)語(yǔ)系統(tǒng)和領(lǐng)域規(guī)則完成數(shù)據(jù)挖掘過(guò)程,并將挖掘結(jié)果以知識(shí)提案的形式提交領(lǐng)域知識(shí)庫(kù),由領(lǐng)域?qū)<疫M(jìn)行驗(yàn)證和評(píng)價(jià)。其中的數(shù)據(jù)挖掘過(guò)程包括首先,從中醫(yī)方劑學(xué)數(shù)據(jù)源中提取所需數(shù)據(jù),其次,在數(shù)據(jù)中挖掘有意義的頻繁模式并進(jìn)行語(yǔ)義標(biāo)注,最后,根據(jù)被標(biāo)注模式進(jìn)行泛化規(guī)則的提取和推理。其中,使用語(yǔ)義萬(wàn)維網(wǎng)技術(shù)構(gòu)建領(lǐng)域知識(shí)庫(kù),以及實(shí)現(xiàn)信息和知識(shí)在該方法所涉及的部件之間的傳遞。
文檔編號(hào)G06F17/30GK101149751SQ20071015636
公開(kāi)日2008年3月26日 申請(qǐng)日期2007年10月29日 優(yōu)先權(quán)日2007年10月29日
發(fā)明者彤 于, 吳朝暉, 姜曉紅, 毅 封 申請(qǐng)人:浙江大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1