專利名稱:傳染病信息知識服務系統(tǒng)的制作方法
技術(shù)領域:
本實用新型涉及一種信息知識服務系統(tǒng),特別涉及一種在傳染病領域向用戶提供信息檢索與分析的信息知識服務系統(tǒng)。
背景技術(shù):
當前,信息科技的發(fā)展已經(jīng)在各個行業(yè)取得了前所未有的進步和應用,使得信息的傳遞與獲取日益方便與快捷,使人們生活、學習、生產(chǎn)效率得到大幅度的提高。但是,信息的海量性、繁雜性和多結(jié)構(gòu)性,也為人們精確查找到所需的信息帶來了很多困擾。大幅度提高信息的查詢效率,成為當前需要迫切解決的一個問題。搜索引擎提供了一種技術(shù),使用戶可以大量、準確、快速的獲取到所需的信息,能夠滿足人們對一般信息的查詢需求,節(jié)省大量的時間和精力。由于搜索引擎在信息查詢的廣泛性、快速性和有效性方面的優(yōu)勢,使得依賴于搜索引擎進行信息的即時獲取、分析與利用日漸成為人們學習、生活和生產(chǎn)的一個重要環(huán)節(jié)。然而,當前的搜索引擎技術(shù)與方法仍然是不完美的。在不復雜的信息檢索系統(tǒng)中, 通常是通過檢索數(shù)據(jù)庫文本中包含的關(guān)鍵詞完成檢索。這種檢索的特征是精確度低、查全率低,而且很難對搜索的文獻進行進一步的挖掘和分析,難以滿足特定領域內(nèi)用戶對數(shù)據(jù)的精準度和深層次應用的要求。例如,在傳染病領域,用戶所關(guān)心的概念是有限的,但是需要對這些概念進行深度分析,以滿足用戶對關(guān)聯(lián)、擴檢、自定義分類、智能檢索的要求。用戶希望針對傳染病領域的特定概念進行深度檢索,也希望通過這些概念之間的關(guān)系,快速獲得所需的信息資源。但是傳統(tǒng)的搜索引擎很難滿足在傳染病領域用戶的特殊需求,無法理解、分析用戶的檢索需求,更無法做到智能化的引導用戶進行探索性的知識檢索。
實用新型內(nèi)容本實用新型的目的在于針對現(xiàn)有技術(shù)的缺點,提供一種針對傳染病領域的信息知識服務系統(tǒng),該系統(tǒng)在對傳染病領域的相關(guān)概念進行深度分析的基礎上,能夠有效地組織該領域的信息資源,并為用戶提供智能化的檢索與分析服務。本實用新型提供了一種傳染病信息知識服務系統(tǒng),該系統(tǒng)包括傳染病相關(guān)信息知識存儲器;傳染病資源獲取處理器;傳染病知識標引處理器;傳染病應用處理器;其連接關(guān)系為傳染病資源獲取處理器的輸出端與傳染病相關(guān)信息知識存儲器的輸入端相連,傳染病相關(guān)信息知識存儲器的輸出端與傳染病知識標引處理器的輸入端相連,傳染病知識標引處理器的輸出端與傳染病應用處理器的輸入端相連。優(yōu)選的,所述傳染病知識標引處理器包括本體處理器。優(yōu)選的,所述傳染病知識標引處理器還包括本體共享服務處理器,其輸入端與本體處理器的輸出端相連,輸出端與傳染病應用處理器的輸入端相連。有益效果本實用新型基于傳染病領域的數(shù)據(jù)特點和用戶需求,提供了一種使用該領域的概念和關(guān)系對信息資源進行知識標引的知識服務系統(tǒng),該系統(tǒng)集信息收集、分析、加工、整理、 共享等多功能于一體,能夠有效地組織該領域的信息資源,并為用戶提供智能化的檢索與分析服務。
圖1為實施例中實現(xiàn)的傳染病信息知識服務系統(tǒng)模塊結(jié)構(gòu)圖。圖2為實施例中定義的艾滋病本體概念和關(guān)系示意圖。
具體實施方式
以下結(jié)合附圖,具體說明本實用新型的優(yōu)選實施方式。圖1所示為根據(jù)本實用新型實現(xiàn)的一種傳染病信息知識服務系統(tǒng),其目的是為了給傳染病領域科研人員、管理人員提供傳染病相關(guān)知識信息的智能化檢索與分析。該系統(tǒng)包括1)資源管理模塊該模塊主要提供存放信息資源的資源庫。傳染病信息知識服務系統(tǒng)根據(jù)整合資源的種類以及為公眾提供服務的目的,將該領域知識信息按照數(shù)據(jù)的特點,劃分為新聞庫、機構(gòu)庫、專家?guī)?、法?guī)庫、用戶庫以及針對每一類傳染病具體特征的特定傳染病信息庫。2)資源獲取模塊該模塊用于對傳染病領域的信息資源進行采集,加工成資源庫所需結(jié)構(gòu),并存儲到資源庫中。所述信息資源包括中英文傳染病相關(guān)新聞、政策法規(guī)、文獻資源等相關(guān)信息。信息資源的來源包括傳染病相關(guān)權(quán)威機構(gòu)網(wǎng)站、門戶網(wǎng)站、網(wǎng)絡數(shù)據(jù)庫、相關(guān)文檔。可以針對選定的網(wǎng)站,從文獻資源、傳染病相關(guān)新聞、政策法規(guī)等欄目進行定向的數(shù)據(jù)采集;定向數(shù)據(jù)采集的優(yōu)點是可以保證采集到優(yōu)質(zhì)的信息資源。對傳染病領域的特定用戶而言,定向數(shù)據(jù)采集已經(jīng)可以基本滿足用戶的需求。也可以使用傳統(tǒng)的關(guān)鍵字檢索的方式,對網(wǎng)絡信息進行粗篩,從而滿足用戶信息查全的要求。資源獲取模塊按照資源庫定義的分類和每一類數(shù)據(jù)庫的結(jié)構(gòu),將信息資源存儲到對應的資源庫中。例如,將針對艾滋病的信息按照資源庫結(jié)構(gòu),分解為作者、主題、摘要、全文、發(fā)表時間、數(shù)據(jù)來源等信息,并存儲到艾滋病庫中。3)使用傳染病領域相關(guān)概念對資源庫中的信息進行知識標引的信息自動處理模塊。知識標引可以針對文獻的主題、摘要、全文或者其他部分進行。進行知識標引所使用的概念根據(jù)系統(tǒng)的服務對象和服務目的而異。例如,針對醫(yī)生提供的檢索系統(tǒng)和針對管理人員提供的檢索系統(tǒng)應該使用不同的概念。本系統(tǒng)的主要目的是為醫(yī)護人員和管理人員提供智能檢索與分析服務,根據(jù)系統(tǒng)的服務對象和服務目的, 本系統(tǒng)對用戶的檢索行為及可能使用的其它應用進行分析,從而提煉出適用于該系統(tǒng)的概念,用來對資源庫中的信息進行知識標引。使用自定義概念進行知識標引可以提供更適用于該領域和特定用戶的文獻分類方法。[0026]傳染病領域的特定概念可以與傳統(tǒng)的分類方法結(jié)合進行文獻信息的標引。例如, 一篇艾滋病相關(guān)的文獻按照自定義的概念,包含“治療”、“易感人群”等標記,同時也可以按照傳統(tǒng)的文獻分類方法包含“期刊文獻”、“網(wǎng)絡”等標記,按照傳統(tǒng)的對醫(yī)學文獻的分類包含“病理學”、“病原學”標記。本實施例實現(xiàn)的信息自動處理模塊包括 本體構(gòu)建模塊,該本體構(gòu)建模塊針對每一類傳染病信息以及服務系統(tǒng)涉及的其他每一類信息構(gòu)建一個本體,所述本體包括涉及的概念和概念之間的關(guān)系。本實施例中構(gòu)建的本體包括艾滋病本體、結(jié)核病本題、肝炎病本體、 新發(fā)傳染病本體、機構(gòu)本體、專家本體。本實施例中,根據(jù)對艾滋病領域信息資源的特點以及對使用該系統(tǒng)的用戶檢索行為的分析,構(gòu)建了艾滋病的本體。該艾滋病的本體用樹狀結(jié)構(gòu)表示,其中每個節(jié)點表示定義的一個概念,每條邊表示概念之間的關(guān)系,如圖2所示。樹的根節(jié)點即第一層節(jié)點為“艾滋病”;在“艾滋病”下與“艾滋病”關(guān)聯(lián)的第二層節(jié)點包括“癥狀”、“治療”、“傳播途徑”、“易感人群”、“世界艾滋病日”、“全球首個艾滋病病例”、“專家”;在“癥狀”下與“癥狀”關(guān)聯(lián)的第三層節(jié)點包括“腫瘤”、“一般性癥狀”、“呼吸道癥狀”、“消化道癥狀”、“神經(jīng)系統(tǒng)癥狀”、“皮膚和粘膜損害”;在“治療”下與“治療”關(guān)聯(lián)的第三層節(jié)點包括“營養(yǎng)治療”、“肝細胞骨髓移植”、“水果治療”、“抗HIV病毒藥物”;在“傳播途徑”下與“傳播途徑”關(guān)聯(lián)的第三層節(jié)點包括“母嬰傳播”、“血液傳播”、“性傳播”、“公用針具傳播”;在“易感人群”下與其關(guān)聯(lián)的第三層節(jié)點包括“血友病患者”、“靜脈吸毒成癮者”、“男性同性戀者”、“接受輸血及其它血制品者”、“與易感人群有性關(guān)系”;在“世界艾滋病日”下與其關(guān)聯(lián)的第三層節(jié)點包括“12月1 日”;在“全球首個艾滋病病例”下的第三層節(jié)點包括“1981、6美國”;在“專家”下與其關(guān)聯(lián)的第三層節(jié)點包括專家的姓名,每個專家的姓名對應該層的一個節(jié)點;在“腫瘤”下與其關(guān)聯(lián)的第四層節(jié)點包括“卡波希式腫瘤”;在“一般性癥狀”下與其關(guān)聯(lián)的第四層節(jié)點包括“持續(xù)發(fā)燒”、“盜汗”、“淋巴腫大”、“消瘦”;在“呼吸道癥狀”下與其關(guān)聯(lián)的第四層節(jié)點包括“長期咳嗽”、“胸痛”、“呼吸困難”;在“消化道癥狀”下與其關(guān)聯(lián)的第四層節(jié)點包括“厭食”、“惡心”、“嘔吐”、“腹瀉”;在“神經(jīng)系統(tǒng)癥狀”下與其關(guān)聯(lián)的第四層節(jié)點包括“頭暈”、“頭痛”、“反應遲鈍”;在“皮膚和粘膜損害”下與其關(guān)聯(lián)的第四層節(jié)點包括“彌漫性丘疹”、“帶狀皰疹”、 “口腔和咽部粘膜炎癥”;在“抗HIV病毒藥物”下與其關(guān)聯(lián)的第四層節(jié)點包括“疊氮胸苷、雙脫氧胞苷、雙脫氧肌苷”;在專家姓名下與其關(guān)聯(lián)的第四層節(jié)點包括該醫(yī)生擅長的項目和所在醫(yī)院名稱。艾滋病本體的定義在實際應用中有著非常重要的意義。首先,按照該本體的定義可以為用戶展示一條形象的檢索路徑。用戶選擇一個概念之后,馬上可以展示與該概念相關(guān)的其他概念,引導用戶進行檢索,這種方式對于擴檢、智能檢索都非常有意義。其次,艾滋病本體的定義為該領域文獻的知識標引提供了標引的依據(jù)。同一個文獻可以包括多個標弓丨,例如同時涉及“易感人群”和“治療方法”的文獻,會包含多個對應所涉及內(nèi)容的標引。 優(yōu)選的,系統(tǒng)還可以為每個概念設置同義詞表,包括每個概念的同義詞及英文譯名,以使文獻的標引更加準確。對文獻的標引可以使用通用方法如“詞頻統(tǒng)計”來具體實現(xiàn)。本實施例中,概念之間的關(guān)系帶有權(quán)值,該權(quán)值可以根據(jù)概念之間的關(guān)聯(lián)程度定義,關(guān)聯(lián)越緊密權(quán)值越小。例如,通過對文獻的分析統(tǒng)計,包含“艾滋病高危人群”的文獻 60%也會包含“同性戀者”,則將1與該比例之間的差值0. 4定義為這兩個概念之間的權(quán)值。如果將本體定義的概念作為圖中的節(jié)點,概念之間的關(guān)系作為圖中的邊,那么任意兩個節(jié)點之間可以算出最短路徑。用戶進行檢索的概念與檢索出的文獻所包含的概念之間可以求得最短路徑值,該最短路徑值可以作為檢索出的文獻的相關(guān)度。通過該相關(guān)度對文獻進行排序,可以使用戶獲得比較精準的信息。為了方便系統(tǒng)的使用和擴展,本實施例中的信息自動處理模塊還包括本體共享服務模塊,該模塊將針對本體的通用應用預先進行處理并封裝成接口的形式,對象自動標注模塊、知識關(guān)系計算模塊以及應用模塊均可以通過接口使用本體共享服務模塊預先處理的結(jié)果。例如,針對使用某個標簽的精準檢索、對關(guān)聯(lián)概念的擴檢、動態(tài)展示本體中的概念和關(guān)系以引導用戶檢索等常用功能在本實施例中均已經(jīng)預先實現(xiàn),并封裝成API接口的形式。通過模塊化的封裝,有利于系統(tǒng)的功能擴展。4)針對傳染病領域具體應用的應用模塊。在文獻自動處理模塊的基礎上,系統(tǒng)可以為用戶提供多種應用。例如可以提供智能問答服務,接收用戶以自然語言形式的提問,并對問題進行理解、分析,給出答案;智能檢索服務提供檢索功能,并向用戶提供知識探索性的檢索;熱點與趨勢分析服務對資源庫中的信息進行統(tǒng)計分析,發(fā)現(xiàn)傳染病研究熱點;傳染病學術(shù)關(guān)系分析服務對資源庫中的數(shù)據(jù)進行挖掘,發(fā)現(xiàn)資源庫中不同對象之間的關(guān)系。由于在文獻自動處理模塊中已經(jīng)將常用功能進行模塊化封裝,并提供了 API接口,所以非常有利于進行用戶應用的定制與開發(fā)。應該理解的是,以上所述僅為本實用新型的具體實施方式
,并不用于限定本實用新型的保護范圍,凡是在本實用新型的精神和原則之內(nèi),對上述內(nèi)容所作的任何修改、等同替換、改進等,均應包含在本實用新型的保護范圍之內(nèi)。
權(quán)利要求1.一種傳染病信息知識服務系統(tǒng),其特征在于,包括 傳染病相關(guān)信息知識存儲器;傳染病資源獲取處理器; 傳染病知識標引處理器; 傳染病應用處理器;其連接關(guān)系為傳染病資源獲取處理器的輸出端與傳染病相關(guān)信息知識存儲器的輸入端相連,傳染病相關(guān)信息知識存儲器的輸出端與傳染病知識標引處理器的輸入端相連,傳染病知識標引處理器的輸出端與傳染病應用處理器的輸入端相連。
2.根據(jù)權(quán)利要求1所述的一種傳染病信息知識服務系統(tǒng),其特征在于,所述傳染病知識標弓I處理器包括本體處理器。
3.根據(jù)權(quán)利要求2所述的一種傳染病信息知識服務系統(tǒng),其特征在于,所述傳染病知識標引處理器還包括本體共享服務處理器,其輸入端與本體處理器的輸出端相連,輸出端與傳染病應用處理器的輸入端相連。
專利摘要本實用新型涉及一種傳染病信息知識服務系統(tǒng),包括傳染病相關(guān)信息知識存儲器;傳染病資源獲取處理器;傳染病知識標引處理器;傳染病應用處理器;其連接關(guān)系為傳染病資源獲取處理器的輸出端與傳染病相關(guān)信息知識存儲器的輸入端相連,傳染病相關(guān)信息知識存儲器的輸出端與傳染病知識標引處理器的輸入端相連,傳染病知識標引處理器的輸出端與傳染病應用處理器的輸入端相連。本實用新型基于傳染病領域的數(shù)據(jù)特點和用戶需求,提供了一種使用該領域的概念和關(guān)系對信息資源進行知識標引的知識服務系統(tǒng),該系統(tǒng)集信息收集、分析、加工、整理、共享等多功能于一體,能夠有效地組織該領域的信息資源,并為用戶提供智能化的檢索與分析服務。
文檔編號G06F17/30GK202025318SQ201120117110
公開日2011年11月2日 申請日期2011年4月20日 優(yōu)先權(quán)日2011年4月20日
發(fā)明者代濤, 孫曉北, 安新穎, 方安, 李楊, 歐陽昭連, 池慧, 王敏, 胡世平, 許培揚, 鐘華, 錢慶, 高東平 申請人:中國醫(yī)學科學院醫(yī)學信息研究所