一種醫(yī)學(xué)領(lǐng)域圖像語義相似度矩陣的生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于醫(yī)學(xué)語義網(wǎng)絡(luò)與知識網(wǎng)格計算與檢索技術(shù)領(lǐng)域,具體涉及一種醫(yī)學(xué)領(lǐng) 域圖像語義相似度矩陣的生成方法。
【背景技術(shù)】
[0002] 醫(yī)學(xué)領(lǐng)域知識因其應(yīng)用的廣泛性,越來越受到相關(guān)學(xué)者的重視。醫(yī)學(xué)信息資源因 龐雜、分散、異構(gòu)而呈現(xiàn)出相對孤立和難于滿足用戶對信息需求的狀況,造成在同一領(lǐng)域內(nèi) 的圖像數(shù)據(jù)庫呈現(xiàn)出多樣性與沖突性,使得領(lǐng)域內(nèi)知識庫間無法進行互操作。
[0003] 伴隨著網(wǎng)絡(luò)通訊以及云存儲等技術(shù)的迅速發(fā)展,包含各種醫(yī)學(xué)圖像的信息源規(guī)模 逐漸擴大。如何從海量數(shù)據(jù)中獲取隱含的、極具價值的信息成為數(shù)據(jù)挖掘領(lǐng)域的新方向。圖 像分類技術(shù)能夠?qū)⒁韵嗤蛳嗨浦黝}聚類的圖像歸類,以集合的形式確定主題,該方法使 得用戶不用花費大量的時間與精力去尋找目標圖像,從而更好地將注意力投入到所感興趣 的圖像組。然而圖像分類需要以度量圖像間的語義相似度為前提,同時機器能夠識別的圖 像基本視覺信息有限,無法完全與人類對圖像的內(nèi)在含義理解相匹配,導(dǎo)致目前對于圖像 語義的分類存在諸多的問題,圖像歸類的效果十分有限,整體效率普遍不高。
[0004] 隨著對領(lǐng)域知識研究與應(yīng)用的增多,大多數(shù)基于圖像檢索技術(shù)的領(lǐng)域知識庫研究 組織面向不同的應(yīng)用開發(fā)出不同的領(lǐng)域知識庫系統(tǒng),系統(tǒng)間存在著較大的差異。盡管這些 不盡相同的領(lǐng)域知識庫系統(tǒng)是對同一領(lǐng)域知識的集中描述,仍不可避免地包含著許多具有 重復(fù)語義的圖片信息,造成有限存儲空間的浪費,嚴重降低了醫(yī)學(xué)圖像語義檢索的效率與 準確性,最終使得領(lǐng)域內(nèi)各知識實體之間無法進行互操作,大大制約了知識的使用效率。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明利用貝葉斯概率理論,對所獲取的領(lǐng)域圖像屬性提取離散化的特征,將領(lǐng) 域圖像知識信息源轉(zhuǎn)變?yōu)榛谡Z義標注的關(guān)鍵詞集合,提出基于可辨識差別矩陣理論的概 念特征屬性集約簡方法,降低屬性約簡的計算規(guī)模,構(gòu)建基于多角度語義距離的領(lǐng)域圖像 知識庫,獲取基于圖像語義關(guān)系的相似度計算模型。
[0006] 為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案提出了一種領(lǐng)域圖像間語義相似度矩陣的生 成方法,本發(fā)明具體如下:
[0007] -種醫(yī)學(xué)領(lǐng)域圖像語義相似度矩陣的生成方法,通過計算機調(diào)取醫(yī)學(xué)領(lǐng)域圖像知 識庫內(nèi)數(shù)據(jù),并按如下步驟進行處理:
[0008] 步驟1.用貝葉斯概率模型對醫(yī)學(xué)領(lǐng)域圖像知識庫中的領(lǐng)域圖像進行語義信息的 標注,并對標注詞賦以權(quán)值,獲得賦有權(quán)值的標注詞。將賦有權(quán)值的標注詞的集合記為"語 義向量空間"。
[0009] 步驟2.對由步驟1獲得的賦有權(quán)值的標注詞提取離散化的特征,獲得包含離散化 特性的賦權(quán)標注詞。即該包含離散化特性的賦權(quán)標注詞與對應(yīng)的領(lǐng)域圖像一一對應(yīng)。所述 包含離散化特性的賦權(quán)標注詞的集合稱為"圖像屬性的語義空間"。步驟3.對步驟2所獲 得的"圖像屬性的語義空間"進行約簡處理,獲得特征屬性,由特征屬性構(gòu)建維度最簡的約 簡集。所述約簡包括四個步驟:構(gòu)造可辨識差別矩陣,求解可辨識差別矩陣的核,刪除可辨 識矩陣的差別屬性項,獲得維度最簡的約簡集。
[0010] 步驟4.由步驟3獲得的維度最簡的約簡集構(gòu)建領(lǐng)域圖像語義相似度的計算模型, 通過領(lǐng)域圖像語義相似度的計算模型獲得醫(yī)學(xué)領(lǐng)域圖像語義相似度矩陣。
[0011] 進一步說,領(lǐng)域圖像是指影像報告中的圖片。醫(yī)學(xué)領(lǐng)域圖像知識庫是由領(lǐng)域圖像 構(gòu)成的集合。
[0012] 在步驟1中,將領(lǐng)域圖像進行區(qū)域分割,形成圖像集合{P1,P2……}。采用人機交 互的方式對領(lǐng)域圖像進行語義標注,形成標注詞集合{C1,C2……}。計算標注詞集合{C1, C2……}中的每個標注詞的后驗概率,獲取帶權(quán)值信息的語義向量空間,該帶權(quán)值信息的語 義向量空間的集合即為語義向量空間集合。領(lǐng)域圖像是指影像報告中的圖片,醫(yī)學(xué)領(lǐng)域圖 像知識庫是由領(lǐng)域圖像構(gòu)成的集合。
[0013] 在步驟2中,將由步驟1獲得的帶有權(quán)重的語義向量空間集合作為輸入量,構(gòu)建條 件決策表。計算圖像屬性的決策閾值參數(shù)j,通過動態(tài)閾值迭代,遍歷連續(xù)圖像屬性的區(qū)間 劃分端點,獲取離散圖像屬性,將離散區(qū)間按遞減序排列,得到圖像屬性的語義空間,記為 離散編碼集合{A1,A2……}。
[0014] 在步驟3中,利用帶有雙向指針的二叉樹對步驟2獲得的離散編碼集合{A1, A2……}的差別屬性進行存儲,并通過調(diào)整初次抽樣系數(shù)p以及抽取函數(shù)f(0)的抽樣閾 值,構(gòu)建可變識差別矩陣,獲取圖像屬性集合簇元素的多階方陣,求解圖像屬性維度的約簡 集 red()。
[0015] 在步驟4中,由圖像屬性維度的約簡集red(),計算標注詞節(jié)點屬性相似度、標注 詞節(jié)點深度屬性、標注詞節(jié)點非對稱屬性,度量節(jié)點間橫向語義距離、節(jié)點間縱向語義距 離、度量節(jié)點間非對稱語義距離,利用標注詞線性加權(quán)模型求解獲得圖像間語義相似度。
[0016] 有益的技術(shù)效果
[0017] 本發(fā)明的技術(shù)方案旨在解決圖像間語義鴻溝的消解問題,信息集成設(shè)計中的準確 度計算問題以及醫(yī)學(xué)臨床決策判別的圖像間語義距離度量問題,通過系統(tǒng)層面的優(yōu)化,實 現(xiàn)醫(yī)學(xué)圖像之間基于語義的自動或半自動融合。本發(fā)明使用語義標注詞作為圖像語義信息 的領(lǐng)域知識表示,利用帶有不同層次權(quán)值的屬性作為區(qū)別重要標注概念的特征向量,提高 領(lǐng)域知識表示的準確率,降低了無關(guān)語義對的發(fā)生率,從而使得大規(guī)模融合領(lǐng)域知識成為 可能。
【附圖說明】
[0018] 圖1是本發(fā)明的方法流程圖。
[0019] 圖2是圖1中步驟1的具體流程圖。
[0020] 圖3是圖1中步驟2的具體流程圖。
[0021 ] 圖4是圖1中步驟3的具體流程圖。
[0022] 圖5是圖1中步驟4的具體流程圖。
【具體實施方式】
[0023] 本發(fā)明的設(shè)計思想是:使用貝葉斯概率模型將圖像所隱藏的語義信息以標注詞集 合的形式顯性表示。利用屬性調(diào)整圖像概念的語義權(quán)重,通過構(gòu)造二元條件屬性決策表,獲 取離散屬性值。采用可辨識差別矩陣的方法,縮減標注詞的計算規(guī)模。引入多角度語義距 離的矩陣計算,生成語義相似度矩陣。
[0024] 本實施例系統(tǒng)包括領(lǐng)域圖像語義信息標注模塊、條件決策熵生成模塊、標注詞約 簡模塊以及矩陣計算模塊,下面結(jié)合附圖對本發(fā)明做進一步說明。
[0025] 參見圖1,一種醫(yī)學(xué)領(lǐng)域圖像語義相似度矩陣生成方法,通過計算機調(diào)取醫(yī)學(xué)領(lǐng)域 圖像知識庫內(nèi)數(shù)據(jù),并按如下步驟進行處理:
[0026] 步驟1.用貝葉斯概率模型對醫(yī)學(xué)領(lǐng)域圖像知識庫中的領(lǐng)域圖像進行語義信息的 標注,并對標注詞賦以權(quán)值,獲得賦有權(quán)值的標注詞。
[0027] 將賦有權(quán)值的標注詞的集合記為"語義向量空間"。
[0028] 步驟2.對由步驟1獲得的賦有權(quán)值的標注詞提取離散化的特征,獲得包含離散化 特性的賦權(quán)標注詞。即該包含離散化特性的賦權(quán)標注詞與對應(yīng)的領(lǐng)域圖像一一對應(yīng)。
[0029] 所述包含離散化特性的賦權(quán)標注詞的集合稱為"圖像屬性的語義空間"。
[0030] 步驟3.對步驟2所獲得的"圖像屬性的語義空間"進行約簡處理,獲得特征屬性, 由特征屬性構(gòu)建維度最簡的約簡集。
[0031] 所述約簡包括四個步驟:構(gòu)造可辨識差別矩陣,求解可辨識差別矩陣的核,刪除可 辨識矩陣的差別屬性項,獲得維度最簡的約簡集。
[0032] 步驟4.由步驟3獲得的維度最簡的約簡集構(gòu)建領(lǐng)域圖像語義相似度的計算模型, 通過領(lǐng)域圖像語義相似度的計算模型獲得醫(yī)學(xué)領(lǐng)域圖像語義相似度矩陣。
[0033] 參見圖1,進一步說,領(lǐng)域圖像是指影像報告中的圖片。醫(yī)學(xué)領(lǐng)域圖像知識庫是由 領(lǐng)域圖像構(gòu)成的集合。
[0034] 在步驟1中,將領(lǐng)域圖像進行區(qū)域分割,形成圖像集合{Pl,P2……}。
[0035] 采用人機交互的方式對領(lǐng)域圖像進行語義標注,形成標注詞集合{C1,C2……}。計 算標注詞集合{C1,C2……}中的每個標注詞的后驗概率,獲取帶權(quán)值信息的語義向量空間, 該帶權(quán)值信息的語義向量空間的集合即為語義向量空間集合。領(lǐng)域圖像是指影像報告中的 圖片,醫(yī)學(xué)領(lǐng)域圖像知識庫是由領(lǐng)域圖像構(gòu)成的集合。
[0036] 在步驟2中,將由步驟1獲得的帶有權(quán)重的語義向量空間集合作為輸入量,構(gòu)建條 件決策表。計算圖像屬性的決策閾值參數(shù)j,通過動態(tài)閾值迭代,遍歷連續(xù)圖像屬性的區(qū)間 劃分端點,獲取離散圖像屬性,將離散區(qū)間按遞減序排列,得到圖像屬性的語義空間,記為 離散編碼集合{A1,A2……}。
[0037] 在步驟3中,利用帶有雙向指針的二叉樹對步驟2獲得的離散編碼集合{A1,
[0038] A2……}的差別屬性進行存儲,并通過調(diào)整初次抽樣系數(shù)p以及抽取函數(shù)f( Θ )的 抽樣閾值,構(gòu)建可變識差別矩陣,獲取圖像屬性集合簇元素的多階方陣,求解圖像屬性維度 的約簡集red ()。
[0039] 在步驟4中,由圖像屬性維度的約簡集red(),計算標注詞節(jié)點屬性相似度、標注 詞節(jié)點深度屬性、標注詞節(jié)點非對稱屬性,度量節(jié)點間橫向語義距離、節(jié)點間縱向語義距 離、度量節(jié)點間非對稱語義距離,利用標注詞線性加權(quán)模型求解獲得圖像間語義相似度。
[0040] 參見圖1,步驟1具體按如下步驟進行:
[0041] Sll :初始化語義:通過人機交互的方式,抽取醫(yī)生對于影像報告中圖像的標注信 息。將抽取出的標注信息的初始權(quán)值清空,初始化關(guān)鍵詞標注--即標注信息的賦值為0。 默認所有語義權(quán)重對圖像影響效果一樣。形成語義標注詞集合。
[0042] S12 :將用戶待比較語義輸入計算機。計算機依據(jù)待比較語義對醫(yī)學(xué)領(lǐng)域圖像知識 庫中的分類信息概念進行檢索,獲得檢索出的圖像。
[0043] 由用戶向計算機錄入主關(guān)鍵詞和非關(guān)鍵詞。所