本發(fā)明屬于醫(yī)學(xué)超聲成像領(lǐng)域,基于集成圖形處理單元的高性能嵌入式計(jì)算平臺(tái),完成便攜式高清醫(yī)學(xué)超聲成像設(shè)備的核心處理模塊。
背景技術(shù):
在醫(yī)學(xué)超聲成像系統(tǒng)中,物理陣元發(fā)射超聲波并接收回波信號,然后在運(yùn)算單元中通過成像算法將回波信號數(shù)據(jù)轉(zhuǎn)換為圖像數(shù)據(jù)并顯示出來。傳統(tǒng)的延時(shí)疊加成像算法通常在中央處理器CPU上實(shí)現(xiàn),但高清成像算法的龐大成像數(shù)據(jù)及復(fù)雜運(yùn)算過程,使得傳統(tǒng)CPU已經(jīng)無法滿足其對高性能計(jì)算的需求。
近年來CPU的頻率在不斷提高、單芯片上的CPU核數(shù)也在增加,出現(xiàn)了雙核、四核甚至更多核的CPU,但多核CPU的發(fā)展存在瓶頸,其運(yùn)算吞吐率到一定程度后便很難再有突破性提高。有學(xué)者提出集成更多的運(yùn)算單元來提高單位時(shí)間的計(jì)算能力,但這會(huì)造成設(shè)備體積和功耗的增加,也會(huì)使成本提高。另一方面,目前的圖形處理單元發(fā)展迅猛,一個(gè)圖形處理單元中可集成上百多個(gè)運(yùn)算核心,使其計(jì)算能力大幅提高,這為實(shí)現(xiàn)實(shí)時(shí)高清醫(yī)學(xué)超聲成像提供了很好的硬件條件。本發(fā)明充分利用了嵌入式平臺(tái)上圖形處理單元的高速并行計(jì)算能力,將復(fù)雜的高清醫(yī)學(xué)超聲成像算法在集成圖形處理單元的高性能嵌入式計(jì)算平臺(tái)上實(shí)現(xiàn),完成便攜式高清醫(yī)學(xué)超聲成像設(shè)備的核心處理模塊。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的主要目的為了解決目前便攜式醫(yī)學(xué)超聲檢測儀圖像質(zhì)量低的問題。目前便攜式醫(yī)學(xué)超聲檢測儀中使用的成像算法大多是傳統(tǒng)的延時(shí)疊加成像算法,該算法運(yùn)算簡單,能滿足醫(yī)學(xué)超聲的實(shí)時(shí)成像要求,但圖像質(zhì)量相對較低。本發(fā)明為了實(shí)現(xiàn)高清成像算法在醫(yī)學(xué)超聲檢測儀中的應(yīng)用,運(yùn)用圖形處理單元的高速并行計(jì)算能力完成高清成像算法的實(shí)現(xiàn)成像,達(dá)到在便攜式醫(yī)學(xué)超聲檢測儀中實(shí)現(xiàn)實(shí)時(shí)高清成像的要求。
本發(fā)明的目的通過如下技術(shù)方案實(shí)現(xiàn)。
集成圖形處理單元的嵌入式實(shí)時(shí)高清醫(yī)學(xué)超聲成像系統(tǒng),其采用集成圖形處理單元的嵌入式設(shè)備來實(shí)現(xiàn)醫(yī)學(xué)超聲成像,采用改進(jìn)的高清成像算法,使其計(jì)算流程適用于圖形處理單元的計(jì)算環(huán)境,從而提高醫(yī)學(xué)超聲成像的圖像質(zhì)量與成像幀率。
進(jìn)一步地實(shí)施地,集成圖形處理單元的嵌入式實(shí)時(shí)高清醫(yī)學(xué)超聲成像系統(tǒng)包括模擬仿真模塊、合成像素模塊和顯示圖像模塊;
所述模擬仿真模塊使用Field II仿真器模擬超聲成像過程并取得仿真數(shù)據(jù);在模擬仿真模塊中首先依據(jù)現(xiàn)實(shí)超聲成像設(shè)備相應(yīng)配置來模擬對應(yīng)的仿真物理數(shù)據(jù),創(chuàng)建發(fā)射和接收陣元,創(chuàng)建模擬檢測對象,然后按掃描線逐條模擬發(fā)射并接收回波數(shù)據(jù)。
進(jìn)一步地,所述合成像素模塊根據(jù)醫(yī)學(xué)超聲成像中最小方差小波束形成算法,最小方差波束形成算法基于延遲疊加波束形成算法,與延遲疊加波束形成算法有相同的輸入輸出數(shù)據(jù)流和相同的延遲疊加處理;
最小方差波束形成算法使用變跡權(quán)重自適應(yīng)輸入的超聲數(shù)據(jù),具體包括:
最小方差波束形成算法中使用了子孔徑平均法,一個(gè)接收孔徑由M個(gè)連續(xù)的輸入數(shù)據(jù)通道構(gòu)成并被分成一組由L個(gè)連續(xù)輸入通道組成的子孔徑;一個(gè)接收孔徑由(M-L+1)個(gè)子孔徑組成;通過子孔徑平均法,用以下的公式計(jì)算出一個(gè)像素p0的協(xié)方差矩陣:
其中,xk(p0)是輸入數(shù)據(jù)中第k個(gè)子孔徑組成的(L×1)維的向量,即xk(p0)是x(p0)中第k個(gè)元素到第(k-L+1)個(gè)元素的集合,而x(p0)是輸入數(shù)據(jù)的一個(gè)(M×1)維的向量;算出協(xié)方差矩陣R(p0)后,再用以下公式算出變跡權(quán)重:
因?yàn)檩斎胪ǖ乐械臄?shù)據(jù)已經(jīng)過延遲,所以此處a是一個(gè)均為1的簡單方向向量;最后,成像中像素p0的幅值通過以下公式估算:
所述顯示圖像模塊在合成像素模塊得到像素?cái)?shù)據(jù)后,調(diào)用Maltab相應(yīng)函數(shù)對數(shù)據(jù)進(jìn)行希爾伯特變換、對數(shù)壓縮、灰階范圍較正操作,計(jì)算顯示圖像的深度和寬度,最后將圖像相關(guān)數(shù)據(jù)輸出到對應(yīng)的橫縱坐標(biāo)軸內(nèi),以在屏幕上顯示成像。
本發(fā)明依據(jù)現(xiàn)有科學(xué)技術(shù)現(xiàn)狀,在集成圖形處理單元的嵌入式系統(tǒng)中實(shí)現(xiàn)一個(gè)實(shí)時(shí)高清醫(yī)學(xué)超聲成像系統(tǒng)。用集成圖形處理單元的嵌入式設(shè)備來實(shí)現(xiàn)醫(yī)學(xué)超聲成像,重點(diǎn)對最小方差自適應(yīng)波束形成高清成像算法進(jìn)行完善和改進(jìn),使其運(yùn)算流程適用于圖形處理單元的運(yùn)算環(huán)境,充分發(fā)揮圖形處理單元的計(jì)算能力,提高醫(yī)學(xué)超聲成像的圖像質(zhì)量與成像幀率。
與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點(diǎn)主要體現(xiàn)在兩個(gè)方面:一方面,本發(fā)明重點(diǎn)實(shí)現(xiàn)的最小方差自適應(yīng)波束形成算法可有效提高醫(yī)學(xué)超聲成像的圖像質(zhì)量,其成像效果比傳統(tǒng)的延遲疊加算法好很多;另一方面,通過圖形處理單元強(qiáng)大的計(jì)算能力妥善解決最小方差自適應(yīng)波束形成算法龐大的計(jì)算需求,從而使該嵌入式系統(tǒng)的輸出成像幀率大幅提高,實(shí)現(xiàn)了高清醫(yī)學(xué)超聲圖像的實(shí)時(shí)輸出。
附圖說明
圖1是實(shí)例中的系統(tǒng)模塊工作流程示意圖。
圖2是實(shí)例中異構(gòu)嵌入式計(jì)算平臺(tái)體系結(jié)構(gòu)示意圖。
圖3a是實(shí)例中模擬的實(shí)驗(yàn)方案示意圖。
圖3b是實(shí)例中最小方差波束形成算法的輸出圖像。
具體實(shí)施方式
以下結(jié)合附圖和實(shí)例對本發(fā)明的具體實(shí)施作進(jìn)一步說明,但本發(fā)明的實(shí)施和保護(hù)不限于此。需指出的是,以下若有未特別詳細(xì)說明之處,均是本領(lǐng)域技術(shù)人員可參照現(xiàn)有技術(shù)實(shí)現(xiàn)的。
圖1為本實(shí)例的系統(tǒng)模塊流程圖。由圖1可以看出,系統(tǒng)設(shè)計(jì)有如下三大模塊。
1.模擬仿真模塊
使用Field II仿真器模擬超聲成像過程并取得仿真數(shù)據(jù)。在這模塊中首先依據(jù)現(xiàn)實(shí)超聲成像設(shè)備相應(yīng)配置來模擬對應(yīng)的仿真物理數(shù)據(jù),創(chuàng)建發(fā)射和接收陣元,根據(jù)實(shí)驗(yàn)需要?jiǎng)?chuàng)建模擬檢測對象,然后按掃描線逐條模擬發(fā)射并接收回波數(shù)據(jù)。
2.合成像素模塊
根據(jù)醫(yī)學(xué)超聲成像中最小方差小波束形成算法的發(fā)展,我們實(shí)現(xiàn)了下面描述中的最小方差波束形成算法。
最小方差波束形成算法是基于延遲疊加波束形成算法發(fā)展而來的,它們有相同的輸入輸出數(shù)據(jù)流和相同的延遲疊加處理。最主要的不同是最小方差波束形成算法使用變跡權(quán)重自適應(yīng)輸入的超聲數(shù)據(jù),而延遲疊加波束形成算法不能自適應(yīng)輸入數(shù)據(jù)的固定的變跡權(quán)重。正是這個(gè)最主要的區(qū)別使最小方差波束形成算法輸出圖像的質(zhì)量比延遲疊加算法的高。
最小方差波束形成算法中使用了子孔徑平均法。一個(gè)接收孔徑由M個(gè)連續(xù)的輸入數(shù)據(jù)通道構(gòu)成并被分成一組由L個(gè)連續(xù)輸入通道組成的子孔徑。因此,一個(gè)接收孔徑由(M-L+1)個(gè)子孔徑組成。通過子孔徑平均法,我們可以用以下的公式計(jì)算出一個(gè)像素p0的協(xié)方差矩陣:
此處,xk(p0)是輸入數(shù)據(jù)中第k個(gè)子孔徑組成的(L×1)維的向量,即xk(p0)是x(p0)中第k個(gè)元素到第(k-L+1)個(gè)元素的集合,而x(p0)是輸入數(shù)據(jù)的一個(gè)(M×1)維的向量。算出協(xié)方差矩陣R(p0)后,再用以下公式算出變跡權(quán)重:
因?yàn)檩斎胪ǖ乐械臄?shù)據(jù)已經(jīng)過延遲,所以此處a是一個(gè)均為1的簡單方向向量。最后,成像中像素p0的幅值可通過以下公式估算:
3.顯示圖像模塊
在合成像素模塊得到像素?cái)?shù)據(jù)后,調(diào)用Maltab相應(yīng)函數(shù)對數(shù)據(jù)進(jìn)行希爾伯特變換、對數(shù)壓縮、灰階范圍較正等操作,計(jì)算顯示圖像的深度和寬度,最后將圖像相關(guān)數(shù)據(jù)輸出到對應(yīng)的橫縱坐標(biāo)軸內(nèi),以在屏幕上顯示成像。
本實(shí)例的系統(tǒng)主要在Nvidia Jetson TX1嵌入式平臺(tái)上實(shí)現(xiàn),采用Field II得到的仿真模擬數(shù)據(jù),對最小方差波束形成高清成像算法進(jìn)行改進(jìn)和完善,將其用CUDA C編程實(shí)現(xiàn)并編譯成PTX文件,最后使用混編的形式將系統(tǒng)各個(gè)模塊整合起來,使其適合于運(yùn)行在集成圖形處理單元的高性能嵌入式計(jì)算平臺(tái)上,從而完成便攜式高清醫(yī)學(xué)超聲成像設(shè)備的核心處理模塊設(shè)計(jì)。以下從計(jì)算平臺(tái)和實(shí)施策略兩個(gè)方面對實(shí)施方案進(jìn)行介紹。
最小方差波束形成算法以計(jì)算復(fù)雜度為代價(jià)而輸出高質(zhì)量的圖像,因此它的計(jì)算是相當(dāng)費(fèi)時(shí)的。較高的計(jì)算復(fù)雜度阻礙了其在傳統(tǒng)嵌入式計(jì)算平臺(tái)如ARM處理器上的實(shí)現(xiàn),如在傳統(tǒng)的ARM處理器上實(shí)現(xiàn)實(shí)時(shí)的最小方差波束形成算法。因此,最小方差波束形成算法在含有嵌入式GPU的異構(gòu)嵌入式計(jì)算平臺(tái)上實(shí)現(xiàn)實(shí)時(shí)成像能力具有很重要的意義。
異構(gòu)嵌入式計(jì)算平臺(tái)的體系結(jié)構(gòu)如圖2所示,其中ARM處理器和嵌入式GPU,以及內(nèi)部存儲(chǔ)器和外部存儲(chǔ)器的處理器模塊都在一個(gè)嵌入式處理芯片內(nèi)。在異構(gòu)嵌入式計(jì)算平臺(tái)上還有大量的外圍設(shè)備,如相機(jī)模塊、顯示模塊、USB等常用外設(shè)連接器模塊。此系統(tǒng)使用的異構(gòu)嵌入式計(jì)算平臺(tái)GPU加速器是英偉達(dá)公司的產(chǎn)品Nvidia Jetson TX1。
本發(fā)明中,最小方差波束形成算法在嵌入式GPU上的高清實(shí)時(shí)實(shí)現(xiàn)主要有如下兩個(gè)方面。
1)GPU計(jì)算資源分配:基于GPU的CUDA編程架構(gòu)模型包括三個(gè)規(guī)劃層次,即GPU的計(jì)算網(wǎng)格、線程塊及線程。當(dāng)程序啟動(dòng)一個(gè)CUDA內(nèi)核函數(shù)在GPU上執(zhí)行時(shí),其所有的計(jì)算都是在一個(gè)計(jì)算網(wǎng)格中執(zhí)行的。不同線程塊或線程上的計(jì)算任務(wù)可以并行執(zhí)行,而一個(gè)線程中的程序指令被順序執(zhí)行。這種編程模型的層次結(jié)構(gòu)可以應(yīng)用到超聲成像的最小方差波束形成算法的實(shí)現(xiàn)過程中。在圖像形成過程中,利用最小方差波束形成算法計(jì)算整個(gè)圖像的像素值。圖像中行和列的像素剛好可以映射到GPU二維計(jì)算網(wǎng)格中的線程塊,其中,每個(gè)線程塊負(fù)責(zé)一個(gè)像素的幅度值計(jì)算。像素幅度值的計(jì)算過程如圖1的合成像素模塊所述,此過程通過同個(gè)線程塊內(nèi)的線程之間進(jìn)行并行協(xié)作完成。最適合的線程塊數(shù)和線程數(shù)取決于計(jì)算問題的規(guī)模和嵌入式計(jì)算平臺(tái)中計(jì)算資源的配置。
2)GPU內(nèi)存訪問策略:GPU的內(nèi)存訪問策略對GPU的整體計(jì)算速度有非常重要的影響。GPU中有全局內(nèi)存,共享內(nèi)存和寄存器等三種基本的內(nèi)存類型。這三種類型的存儲(chǔ)模塊位于不同的架構(gòu)層次上,寄存器位于GPU處理器芯片上,共享內(nèi)存與GPU計(jì)算核心有一定距離,全局內(nèi)存則與GPU計(jì)算核心最遠(yuǎn)。與GPU核心的距離決定了三種類型的存儲(chǔ)器的訪問速度,寄存器的訪問速度是最快的,共享內(nèi)存的訪問速度比寄存器文件慢,而全局存儲(chǔ)器的速度是三個(gè)存儲(chǔ)器中最慢的一個(gè)。然而,內(nèi)存類型的內(nèi)存大小與它的內(nèi)存訪問速度成反比。因此,全局內(nèi)存的容量大小是最大的,寄存器是最小的,而共享內(nèi)存的大小在全局內(nèi)存和寄存器之間。因此,在實(shí)現(xiàn)的GPU程序中,小型變量可以存儲(chǔ)在寄存器中,但大部分的數(shù)據(jù)會(huì)被存儲(chǔ)在全局內(nèi)存中。
方案和性能評估:
該系統(tǒng)通過使用Field II仿真器來模擬超聲通道數(shù)據(jù)樣本,從而進(jìn)行一系列相關(guān)實(shí)驗(yàn),得到此系統(tǒng)的成像性能評估。以下仿真模擬了一個(gè)由128陣元組成的超聲波換能器,每個(gè)陣元的寬度為0.3048mm,使用5kHz的脈沖重復(fù)率和40MHz的采樣率。模擬的實(shí)驗(yàn)方案如圖3a所示。實(shí)驗(yàn)中使用NVIDIA Jetson TX1作為評估平臺(tái)。通過對我們在上一節(jié)中描述的實(shí)施方案進(jìn)行實(shí)現(xiàn)。圖3b展示了此實(shí)驗(yàn)方案中最小方差波束形成算法的輸出圖像,可以看出,通過最小方差波束形成算法可以得到高質(zhì)量圖像,并且其成像時(shí)間在實(shí)時(shí)成像要求內(nèi),說明了此系統(tǒng)的現(xiàn)實(shí)意義。