隨機(jī)存取存儲(chǔ)器ram的故障檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,更具體地說,涉及一種隨機(jī)存取存儲(chǔ)器(Random-AccessMemory,簡(jiǎn)稱為RAM)的故障檢測(cè)方法及裝置。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,越來越多的大型路由器在目前的市場(chǎng)上使用,某些特殊的情況下,由多個(gè)單級(jí)框通過光纖連接成的集群環(huán)境也被大規(guī)模使用。在這些路由器上,必不可少一定數(shù)量的交換板卡,交換板卡里面的關(guān)鍵交換芯片又使用了大量的RAM,這些RAM分布在芯片的各個(gè)部分,對(duì)芯片的正常工作起著至關(guān)重要的作用。如果某塊RAM出現(xiàn)故障,那么它帶來的影響也是巨大的,比如存儲(chǔ)路由表的RAM出現(xiàn)了故障,就不好判斷,一般會(huì)從軟件入手解決,在花費(fèi)了大量時(shí)間和精力進(jìn)行排查之后,最后發(fā)現(xiàn)有可能是硬件故障,大大浪費(fèi)了不必要的時(shí)間和精力?;诖朔N情況,如果能在板子使用最初就檢測(cè)出來某些單板的RAM故障,就能減少一些不必要的故障發(fā)生和相關(guān)人員在上面耗費(fèi)的時(shí)間和精力。
[0003]RAM檢測(cè)方法目前有很多種,最基本的方法是通過簡(jiǎn)單的奇偶校驗(yàn)、ECC校驗(yàn)。相關(guān)技術(shù)中提出的RAM檢測(cè)方法,它提出一種應(yīng)用于CPU/DSP的RAM失效的檢測(cè)處理方法,主要包括讀取所述RAM中的程序內(nèi)容;將讀取的程序內(nèi)容與正確的程序內(nèi)容進(jìn)行比對(duì),當(dāng)兩者不一致時(shí),判斷RAM失效并進(jìn)行數(shù)據(jù)修復(fù);或者將讀取的程序內(nèi)容采用設(shè)定的校驗(yàn)方法進(jìn)行數(shù)據(jù)校驗(yàn),并與正確的校驗(yàn)結(jié)果進(jìn)行比對(duì),當(dāng)兩者不一致時(shí),判斷RAM失效并報(bào)警。采用上述技術(shù)方案,及時(shí)的檢測(cè)CPU/DSP RAM失效的情況,及時(shí)采取相應(yīng)的處理措施,將RAM失效引起的影響降到最低。但是同樣的在大型的路由器、尤其在由單級(jí)框組成集群的路由器上,這樣的RAM太多了,若是采用這種方法,首先是一個(gè)個(gè)單板一個(gè)個(gè)芯片上面的RAM重復(fù)測(cè)試?yán)速M(fèi)大量時(shí)間和精力不說,還有就是要保存這每個(gè)RAM空間的正確內(nèi)容,這對(duì)集群系統(tǒng)來講也是一比不小的開銷。
[0004]相關(guān)技術(shù)中還提到一種技術(shù)方案,預(yù)先對(duì)RAM空間進(jìn)行分段處理,將RAM空間劃分為一個(gè)存儲(chǔ)重要數(shù)據(jù)的區(qū)域段及其它區(qū)域段,在操作系統(tǒng)啟動(dòng)時(shí),對(duì)所述存儲(chǔ)重要數(shù)據(jù)的區(qū)域段進(jìn)行RAM檢測(cè);在當(dāng)前操作系統(tǒng)的周期任務(wù)為預(yù)先設(shè)定的低優(yōu)先級(jí)周期任務(wù)時(shí),對(duì)所述其它區(qū)域段進(jìn)行RAM檢測(cè)。具體的檢測(cè)方法是先將其它區(qū)域段中不存儲(chǔ)數(shù)據(jù)的空白段進(jìn)行檢測(cè),再對(duì)所述其它區(qū)域段中存儲(chǔ)的數(shù)據(jù)的非空白段進(jìn)行檢測(cè)。然后向所述空白段的起始地址寫入第一數(shù)據(jù),讀出所述起始地址里面的數(shù)據(jù),若所讀出的數(shù)據(jù)與所述第一數(shù)據(jù)不同,則確定所述空白段的地址空間異常,反之,則再次向該地址段寫入第二數(shù)據(jù),再讀出來看是否相同,若相同,就表明此空白段RAM空間正常,否則就上報(bào)異常。上述技術(shù)方案通過劃分RAM空間,再讀寫數(shù)據(jù)的過程,來判斷RAM空間是否正常,但是它需要對(duì)RAM進(jìn)行細(xì)致的劃分,然后分片檢測(cè),這對(duì)于小器件或者說使用RAM空間不太多的產(chǎn)品來講,還算可以,但是若對(duì)于大型的路由器,尤其是對(duì)于集群環(huán)境的路由器上,上面有很多交換板卡,交換板卡上面又有好幾個(gè)關(guān)鍵交換芯片,每個(gè)芯片上面都有很多RAM使用的產(chǎn)品來說,再用這種測(cè)試方法未免就不合適了。
[0005]針對(duì)相關(guān)技術(shù)中在集群環(huán)境的路由器上,尚未提出一種簡(jiǎn)單有效的技術(shù)方案來檢測(cè)RAM是否發(fā)生故障的問題,目前尚未提出有效的解決方案。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提供了一種RAM的故障檢測(cè)方法及裝置,以至少解決上述問題。
[0007]根據(jù)本發(fā)明的一個(gè)方面,提供了一種隨機(jī)存取存儲(chǔ)器RAM的故障檢測(cè)方法,包括:測(cè)試端設(shè)備在待檢測(cè)RAM所在的鏈路上發(fā)送第一測(cè)試信元;所述測(cè)試端設(shè)備接收在所述第一測(cè)試信元流經(jīng)所述鏈路后得到的第二測(cè)試信元;所述測(cè)試端設(shè)備比較所述第一測(cè)試信元內(nèi)的第一測(cè)試數(shù)據(jù)和所述第二測(cè)試信元內(nèi)的第二測(cè)試數(shù)據(jù)是否一致;所述測(cè)試端設(shè)備根據(jù)比較結(jié)果判斷所述鏈路上的所有所述待檢測(cè)RAM是否發(fā)生故障。
[0008]優(yōu)選地,所述測(cè)試端設(shè)備根據(jù)比較結(jié)果判斷所述鏈路上的所有所述待檢測(cè)RAM是否發(fā)生故障,包括以下至少之一:在所述比較結(jié)果指示一致時(shí),判定所述鏈路上所有所述待檢測(cè)RAM正常;在所述比較結(jié)果指示不一致時(shí),判斷所述鏈路是否存在故障;在所述鏈路無故障時(shí),判定所述鏈路上至少一個(gè)待檢測(cè)RAM發(fā)生故障。
[0009]優(yōu)選地,所述測(cè)試端設(shè)備根據(jù)比較結(jié)果判斷所述鏈路上的所有所述待檢測(cè)RAM是否發(fā)生故障,包括:在所述鏈路存在故障時(shí),對(duì)所述鏈路進(jìn)行分級(jí),其中,分級(jí)后得到的各個(gè)子鏈路組成所述鏈路;對(duì)各個(gè)所述子鏈路按照預(yù)設(shè)優(yōu)先級(jí)進(jìn)行排查,確定發(fā)生故障的所述子鏈路;在確定發(fā)生故障的所述子鏈路的當(dāng)前鏈路狀態(tài)正常時(shí),則判定所述子鏈路上的所述待檢測(cè)RAM發(fā)生故障。
[0010]優(yōu)選地,所述測(cè)試端設(shè)備包括:線卡;測(cè)試端設(shè)備在待檢測(cè)RAM所在的鏈路上發(fā)送第一測(cè)試信元之前包括:配置指定線卡作為所述測(cè)試信元信號(hào)的起點(diǎn),以及根據(jù)所述待檢測(cè)RAM所在設(shè)備的鏈路連接關(guān)系配置所述指定線卡為所述測(cè)試信元的終點(diǎn)。
[0011]優(yōu)選地,所述測(cè)試端設(shè)備比較所述第一測(cè)試信元內(nèi)的第一測(cè)試數(shù)據(jù)和所述第二測(cè)試信元內(nèi)的第二測(cè)試數(shù)據(jù)是否一致之前還包括:判斷所述測(cè)試端設(shè)備是否在預(yù)定時(shí)間內(nèi)接收到所述測(cè)試信元,其中,在判斷結(jié)果為是的情況下,觸發(fā)比較所述第一測(cè)試數(shù)據(jù)和所述第二測(cè)試數(shù)據(jù)是否一致。
[0012]優(yōu)選地,所述第一測(cè)試信元和/或所述第二測(cè)試信元攜帶有以下信息:發(fā)出所述第一測(cè)試信元的鏈路端口號(hào)和下一跳鏈路端口號(hào)。
[0013]根據(jù)本發(fā)明的另一個(gè)方面,還提供了一種隨機(jī)存取存儲(chǔ)器RAM的故障檢測(cè)裝置,應(yīng)用于測(cè)試端設(shè)備,包括:發(fā)送模塊,用于在待檢測(cè)RAM所在的鏈路上發(fā)送第一測(cè)試信元;接收模塊,用于接收在所述第一測(cè)試信元流經(jīng)所述鏈路后得到的第二測(cè)試信元;比較模塊,用于比較所述第一測(cè)試信元內(nèi)的第一測(cè)試數(shù)據(jù)和所述第二測(cè)試信元內(nèi)的第二測(cè)試數(shù)據(jù)是否一致;判斷模塊,用于根據(jù)比較結(jié)果判斷所述鏈路上的所有所述待檢測(cè)RAM是否發(fā)生故障。
[0014]優(yōu)選地,所述判斷模塊,包括以下至少之一:第一判定單元,用于在所述比較結(jié)果指示一致時(shí),判定所述鏈路上所有所述待檢測(cè)RAM正常;判斷單元,用于在所述比較結(jié)果指示不一致時(shí),判斷所述鏈路是否存在故障;第二判定單元,用于在所述鏈路無故障時(shí),判定所述鏈路上至少一個(gè)待檢測(cè)RAM發(fā)生故障。
[0015]優(yōu)選地,所述判斷模塊,包括:分級(jí)單元,用于在所述鏈路存在故障時(shí),對(duì)所述鏈路進(jìn)行分級(jí),其中,分級(jí)后得到的各個(gè)子鏈路組成所述鏈路;排查單元,用于對(duì)各個(gè)所述子鏈路按照預(yù)設(shè)優(yōu)先級(jí)進(jìn)行排查;確定單元,用于確定發(fā)生故障的所述子鏈路;第三判定單元,用于在確定發(fā)生故障的所述子鏈路的當(dāng)前鏈路狀態(tài)正常時(shí),則判定所述子鏈路上的所述待檢測(cè)RAM發(fā)生故障。
[0016]優(yōu)選地,所述裝置還包括:配置模塊,用于在所述測(cè)試端設(shè)備包括線卡時(shí),配置指定線卡作為所述測(cè)試信元信號(hào)的起點(diǎn),以及根據(jù)所述待檢測(cè)RAM所在設(shè)備的鏈路連接關(guān)系配置所述指定線卡為所述測(cè)試信元的終點(diǎn)。
[0017]通過本發(fā)明,采用在待檢測(cè)RAM所在的鏈路上發(fā)送第一測(cè)試信元,并比較在第一測(cè)試信元流經(jīng)上述鏈路循環(huán)過來后的第二測(cè)試信元和上述第一測(cè)試信元內(nèi)的測(cè)試數(shù)據(jù)是否發(fā)生變化來判斷待檢測(cè)RAM是否發(fā)生故障的技術(shù)方案,解決了相關(guān)技術(shù)中在集群環(huán)境的路由器上,尚未提出一種簡(jiǎn)單有效的技術(shù)方案來檢測(cè)RAM是否發(fā)生故障的問題,可以用發(fā)送測(cè)試信元的方式對(duì)大型路由器上的交換芯片的RAM故障進(jìn)行批量檢測(cè),能很快排查一個(gè)單框路由器上交換芯片的RAM故障,還能對(duì)集群環(huán)境多個(gè)框上的交換芯片同時(shí)進(jìn)行測(cè)試,大大提高了 RAM故障排查效率。
【附圖說明】
[0018]此處所說明的附圖用來提供對(duì)本發(fā)明的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:
[0019]圖1為根據(jù)本發(fā)明實(shí)施例的RAM的故障檢測(cè)方法的流程圖;
[0020]圖2為根據(jù)本發(fā)明實(shí)施例的RAM基本測(cè)試流程圖;
[0021]圖3為根據(jù)本發(fā)明實(shí)施例的RAM的故障檢測(cè)裝置的結(jié)構(gòu)框圖;
[0022]圖4為根據(jù)本發(fā)明實(shí)施例的RAM的故障檢測(cè)裝置的又一結(jié)構(gòu)框圖;
[0023]圖5為根據(jù)本發(fā)明實(shí)施例的單級(jí)路由器拓?fù)湔归_示意圖;
[0024]圖6為根據(jù)本發(fā)明實(shí)施例的選擇交換接入I做為測(cè)試發(fā)起模塊第一輪發(fā)N個(gè)測(cè)試信元示意圖;
[0025]圖7為根據(jù)本發(fā)明實(shí)施例的單級(jí)框第一輪測(cè)試路徑示意圖;
[0026]圖8為根據(jù)本發(fā)明實(shí)施例的單級(jí)框第一輪測(cè)試結(jié)果示意圖;
[0027]圖9為根據(jù)本發(fā)明實(shí)施例的單級(jí)框第二輪測(cè)試結(jié)果示意圖;
[0028]圖10為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境鏈路拓?fù)湔归_示意圖;
[0029]圖11為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境選擇交換接入I作為測(cè)試發(fā)起模塊測(cè)試示意圖;
[0030]圖12為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境第一輪測(cè)試結(jié)果示意圖;
[0031]圖13為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境第一輪又一測(cè)試結(jié)果示意圖;
[0032]圖14為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境第二輪測(cè)試結(jié)果示意圖;
[0033]圖15為根據(jù)本發(fā)明實(shí)施例的集群環(huán)境第二輪又一測(cè)試結(jié)果示意圖。
【具體實(shí)施方式】
[0034]下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。
[0035]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書