專利名稱:故障檢測(cè)方法及模塊化設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤指一種用于檢測(cè)模塊化設(shè)備板卡故障的故障檢測(cè) 方法及模塊化設(shè)備。
背景技術(shù):
模塊化設(shè)備是指由各個(gè)功能模塊按一定的組合方式組成的系統(tǒng)。例如一個(gè)模塊 化的路由設(shè)備或交換機(jī),可以包括電源模塊、管理板和若干業(yè)務(wù)板。這些不同的功能模塊 通過(guò)機(jī)箱中的背板相互連接,組成模塊化的路由設(shè)備或交換機(jī)。各功能模塊之間相對(duì)獨(dú)立 又緊密相連電源模塊主要負(fù)責(zé)給整機(jī)供電;管理板主要負(fù)責(zé)整機(jī)的管理工作,比如判斷 整機(jī)中有哪些功能模塊存在,并監(jiān)控這些功能模塊的工作狀態(tài),看是否有異常等;業(yè)務(wù)板 主要提供各種接口,如千兆以太網(wǎng)(Gigabit Ethernet, GE)接口、Sonet/SDH上的數(shù)據(jù)包 (Packet OverSonet/SDH, P0S)接口、通道化 POS (Channelized POS, CP0S)接口、異步傳輸 模式(Asynchronous Transfer Mode, ATM)接口等,來(lái)承載各種具體的業(yè)務(wù)。目前模塊化設(shè)備故障檢測(cè)常用的方法包括以下幾種一是由管理板向業(yè)務(wù)板發(fā)送測(cè)試報(bào)文,如果業(yè)務(wù)板在指定時(shí)間內(nèi)沒(méi)有響應(yīng),則認(rèn) 為業(yè)務(wù)板發(fā)生了故障。這種方法需要管理板定期的構(gòu)造特定報(bào)文向業(yè)務(wù)板發(fā)送,占用管理 板的系統(tǒng)資源;此外,這種測(cè)試報(bào)文一般采用以太網(wǎng)等通信通道傳送,報(bào)文在傳遞過(guò)程中 本身就很可能出現(xiàn)發(fā)送錯(cuò)誤、報(bào)文丟失等現(xiàn)象,導(dǎo)致不能及時(shí)發(fā)現(xiàn)故障,故障檢測(cè)的可靠性 低、及時(shí)性差。二是由業(yè)務(wù)板上的中央處理單元(Central Processing Unit, CPU)執(zhí)行特定的測(cè)試 程序,并把測(cè)試結(jié)果反饋給管理板。這種方法需要在業(yè)務(wù)板上存儲(chǔ)特定的測(cè)試程序,且測(cè)試程 序的運(yùn)行需要占用業(yè)務(wù)板CPU的資源,測(cè)試程序的運(yùn)行還會(huì)導(dǎo)致業(yè)務(wù)板上業(yè)務(wù)的中斷。三是業(yè)務(wù)板周期性的向管理板傳遞特定檢測(cè)信息,如心跳信息等,如果管理板在 指定時(shí)間內(nèi)沒(méi)有收到,則認(rèn)為業(yè)務(wù)板出現(xiàn)了故障。這種方式需要占用業(yè)務(wù)板CPU的系統(tǒng)資 源,此外,心跳信息的頻率一般都不會(huì)太快,使得從發(fā)生故障到檢測(cè)故障會(huì)有一定的延遲, 導(dǎo)致管理板不能及時(shí)發(fā)現(xiàn)故障,故障檢測(cè)的可靠性低、及時(shí)性差??梢?jiàn),目前模塊化設(shè)備常用的故障檢測(cè)方法存在占用資源多,故障檢測(cè)的及時(shí)性 差、可靠性低的問(wèn)題。且一般設(shè)備在負(fù)荷大的時(shí)候更容易發(fā)生故障,當(dāng)發(fā)生故障時(shí),業(yè)務(wù)板 上的看門(mén)狗電路將會(huì)使系統(tǒng)重新啟動(dòng)。而現(xiàn)有的設(shè)備一般把重啟之前的信息保存的到非易 失性存儲(chǔ)器件(如flash)上,由于非易失性器件為低速器件,訪問(wèn)速度很慢,經(jīng)常很多的故 障信息都來(lái)不及保存系統(tǒng)就復(fù)位了,當(dāng)重啟后需要去讀取分析時(shí),往往找不到重啟前的一 些信息了,這對(duì)收集重啟前的故障信息,對(duì)故障進(jìn)行定位和診斷是非常不利的。因此,現(xiàn)有 技術(shù)的故障檢測(cè)方式也不能很準(zhǔn)確有效地對(duì)故障進(jìn)行診斷和定位。
發(fā)明內(nèi)容
本發(fā)明實(shí)施例提供一種故障檢測(cè)方法及模塊化設(shè)備,用以解決現(xiàn)有技術(shù)中存在模塊化設(shè)備故障檢測(cè)的及時(shí)性差、可靠性低的問(wèn)題。一種故障檢測(cè)方法,包括管理板檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板 寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所述寄存器分區(qū) 與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板第三代外圍組件互聯(lián)PCIE空間的映射關(guān)系;管理板根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入所述寄存 器分區(qū),以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入所述狀態(tài) 分區(qū);管理板從所述寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定 業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板的故障進(jìn)行分析定位。一種模塊化設(shè)備,包括管理板和若干業(yè)務(wù)板;管理板,用于檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ) 業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所述寄存 器分區(qū)與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系;管理板根據(jù)所 述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入所述寄存器分區(qū);以及從所述寄 存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì) 業(yè)務(wù)板的故障進(jìn)行分析定位;業(yè)務(wù)板,用于根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入管理板的所 述狀態(tài)分區(qū)。一種管理板,包括檢測(cè)模塊,用于檢測(cè)業(yè)務(wù)板是否存在;分配模塊,用于當(dāng)所述檢測(cè)模塊檢測(cè)到業(yè)務(wù)板存在時(shí),在所述管理板的內(nèi)存空間 中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的 狀態(tài)分區(qū);并建立所述寄存器分區(qū)與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間 的映射關(guān)系;寫(xiě)入模塊,用于根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器的內(nèi)容寫(xiě)入所 述寄存器分區(qū),以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入所 述狀態(tài)分區(qū);分析模塊,用于從所述寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信 息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板的故障進(jìn)行分析定位。本發(fā)明有益效果如下本發(fā)明實(shí)施例提供的故障檢測(cè)方法及模塊化設(shè)備方法及裝置,通過(guò)管理板檢測(cè)到 業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分 區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所述寄存器分區(qū)與業(yè)務(wù)板上的寄存器、 所述狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系;管理板根據(jù)所述映射關(guān)系通過(guò)PCIE總線將 業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入所述寄存器分區(qū),以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身 PCIE空間將故障狀態(tài)信息寫(xiě)入所述狀態(tài)分區(qū);管理板從所述寄存器分區(qū)和狀態(tài)分區(qū)讀取 業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板的故障進(jìn)行分析定 位。該方式實(shí)現(xiàn)簡(jiǎn)單,通過(guò)內(nèi)存空間的映射共享實(shí)現(xiàn)管理板和業(yè)務(wù)板信息的直接讀寫(xiě),從而
5實(shí)現(xiàn)快速的信息交互;由于直接讀寫(xiě)的操作避免了報(bào)文的構(gòu)造和信令的交互,從而不需要 去輪詢內(nèi)存中的內(nèi)容,節(jié)約了 CPU的資源;該方式能夠快速、可靠的定位業(yè)務(wù)板的故障,具 有很強(qiáng)的通用性和廣泛適用性。
圖1為本發(fā)明實(shí)施例中模塊化設(shè)備的結(jié)構(gòu)示意圖;圖2為本發(fā)明實(shí)施例一中故障檢測(cè)方法的流程圖;圖3為本發(fā)明實(shí)施例二中模塊化設(shè)備的具體結(jié)構(gòu)示例圖;圖4為本發(fā)明實(shí)施例二中故障檢測(cè)方法的流程圖;圖5為本發(fā)明實(shí)施例二中狀態(tài)分區(qū)的存儲(chǔ)格式示例圖;圖6為本發(fā)明實(shí)施例二中控制分區(qū)的格式示例圖;圖7為本發(fā)明實(shí)施例中管理板的結(jié)構(gòu)示意圖。
具體實(shí)施例方式PCIE (PCI Express)是第三代標(biāo)準(zhǔn)輸入/輸出總線,本發(fā)明實(shí)施例提供的故障檢 測(cè)方法,基于第三代外圍組件互聯(lián)(Peripheral Component InterconnectExpress, PCIE) 的地址映射功能,針對(duì)包含至少一個(gè)管理板和若干業(yè)務(wù)板的模塊化設(shè)備,在管理板的內(nèi)存 空間中分配寄存器分區(qū)和異常分區(qū),分別映射到業(yè)務(wù)板的寄存器和本地PCI空間,實(shí)現(xiàn)對(duì) 業(yè)務(wù)板的故障檢測(cè)。其中,PCIE通過(guò)inbound和outbound寄存器可以在不同的PCIE板卡 或設(shè)備間實(shí)現(xiàn)地址空間的映射,實(shí)現(xiàn)內(nèi)存共享。Inbound寄存器主要用來(lái)把外部的PCIE地 址空間(也稱PCIE空間)映射到CPU內(nèi)部,outbound寄存器組主要用來(lái)把內(nèi)部地址映射 到外部PCIE地址空間。該模塊化設(shè)備的結(jié)構(gòu)如圖1所示,包括管理板10和若干業(yè)務(wù)板20 ;其中管理板10,用于檢測(cè)到業(yè)務(wù)板20存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于 存儲(chǔ)業(yè)務(wù)板20寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板20狀態(tài)信息的狀態(tài)分區(qū);并建 立所分配的寄存器分區(qū)與業(yè)務(wù)板20上的寄存器、所分配的狀態(tài)分區(qū)與業(yè)務(wù)板20上PCIE空 間的映射關(guān)系;管理板10根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板20寄存器中的內(nèi)容寫(xiě) 入所分配的寄存器分區(qū)并允許業(yè)務(wù)板通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入所分配的狀態(tài)分 區(qū);以及從所分配的寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板20的寄存器內(nèi)容和狀態(tài)信息,確定 業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板20的故障進(jìn)行分析定位。業(yè)務(wù)板20,用于根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入管理板10 上所分配的狀態(tài)分區(qū)。上述業(yè)務(wù)板20,還用于在內(nèi)存空間中設(shè)置控制分區(qū),并將所分配的控制分區(qū)映射 到管理板的PCIE空間。相應(yīng)的,管理板10還用于通過(guò)自身PCIE空間操作業(yè)務(wù)板上所分 配的控制分區(qū),指示業(yè)務(wù)板20進(jìn)行狀態(tài)檢測(cè);并允許業(yè)務(wù)板20將根據(jù)指示(具體可以是狀 態(tài)檢測(cè)指示)進(jìn)行狀態(tài)檢測(cè)后,得到的狀態(tài)信息寫(xiě)入自身所分配的狀態(tài)分區(qū)中。上述業(yè)務(wù)板20,具體用于根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢;確定自身包含的某個(gè)功 能模塊正常啟動(dòng)或尚未啟動(dòng)完成時(shí),將未初始化狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng) 的狀態(tài)指示域;確定自身某個(gè)功能模塊正常運(yùn)行時(shí),將正常運(yùn)行狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域;以及確定自身某個(gè)功能模塊在運(yùn)行過(guò)程中發(fā)生故障時(shí),將 故障狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域。上述管理板10,還用于通過(guò)設(shè)定的存在信號(hào)檢測(cè)業(yè)務(wù)板20是否存在;具體包括 管理板10檢測(cè)到存在信號(hào)的電平由高電平變?yōu)榈碗娖綍r(shí),確定存在信號(hào)對(duì)應(yīng)的業(yè)務(wù)板20 存在。下面通過(guò)具體的實(shí)施例詳細(xì)說(shuō)明該方法的實(shí)現(xiàn)過(guò)程。實(shí)施例一本發(fā)明實(shí)施例一提供的故障檢測(cè)方法,其流程如圖2所示,執(zhí)行步驟如下步驟SlOl 管理板檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配一段 內(nèi)存空間。所分配的內(nèi)存空間用于監(jiān)控該業(yè)務(wù)板的狀態(tài)。該步驟具體包括管理板檢測(cè)到業(yè) 務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū) 和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所分配的寄存器分區(qū)與業(yè)務(wù)板上的寄存 器、所分配的狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系。步驟S102 管理板監(jiān)控業(yè)務(wù)板的狀態(tài)。管理板監(jiān)控到業(yè)務(wù)板異常時(shí),執(zhí)行步驟S103。步驟S103 管理板根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器的內(nèi)容寫(xiě)入 所分配的寄存器分區(qū),以及允許業(yè)務(wù)板根據(jù)建立的映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信 息寫(xiě)入所分配的狀態(tài)分區(qū)。上述狀態(tài)信息包括未初始化狀態(tài)信息、正常運(yùn)行狀態(tài)信息和故障狀態(tài)信息。例如業(yè)務(wù)板發(fā)生故障的時(shí)候,管理板會(huì)復(fù)制業(yè)務(wù)板寄存器的內(nèi)容到自身的內(nèi)存 空間中,同時(shí)業(yè)務(wù)板也會(huì)將自身的故障狀態(tài)信息寫(xiě)入管理板的內(nèi)存空間中,由于預(yù)先建立 了業(yè)務(wù)板與管理板內(nèi)存空間之間的映射關(guān)系,包括所分配的寄存器分區(qū)與業(yè)務(wù)板上的寄存 器、所分配的狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系,因此,不需要信令交互就可以直接 實(shí)現(xiàn)兩個(gè)板卡之間的內(nèi)存共享。步驟S104 管理板從寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信 肩、ο管理卡可以直接從自己的內(nèi)存空間中直接讀取到發(fā)生故障的業(yè)務(wù)板的信息,避免 了信令交互和不能及時(shí)獲取業(yè)務(wù)板故障信息的問(wèn)題。步驟S105 根據(jù)讀取的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè) 務(wù)板的故障進(jìn)行分析定位。由于管理板已經(jīng)將業(yè)務(wù)板寄存器的內(nèi)容復(fù)制到自身內(nèi)存空間,且記錄了故障現(xiàn)場(chǎng) 狀態(tài)信息,因此,可以很準(zhǔn)確的定位出業(yè)務(wù)板的故障。實(shí)施例二本發(fā)明實(shí)施例二提供的故障檢測(cè)方法,以如圖3所示的模塊化設(shè)備為例進(jìn)行說(shuō) 明,其中,該模塊化設(shè)備包括一張管理板和若干張業(yè)務(wù)板。其中,管理板上包括CPU、PCIE交換芯片(PCIE Switch)、內(nèi)存(Memory)和復(fù)雜可 編程邏輯器件(Complex Programmable Logic Device, CPLD)。業(yè)務(wù)板包括 CPU (包括 CPU 外圍如時(shí)鐘、電源、內(nèi)存等)和業(yè)務(wù)處理模塊(包括具體的接口模塊)。管理板上的CPU通過(guò)PCIE總線和一個(gè)PCIE Switch相連,CPU與內(nèi)存、CPLD之間通過(guò)內(nèi)存接口總線連接,PCIE Switch有多個(gè)端口,分別與各個(gè)業(yè)務(wù)板連接,具體和業(yè)務(wù)板上的CPU連接。業(yè)務(wù)板上的CPU 和業(yè)務(wù)處理模塊通過(guò)CPU與業(yè)務(wù)處理模塊之間的互連總線連接。管理板、業(yè)務(wù)板均與背板 連接,并通過(guò)背板傳輸信號(hào)。管理板和業(yè)務(wù)板之間還有一些其他總線,用于管理板和業(yè)務(wù)板 之間的信號(hào)傳輸。本發(fā)明實(shí)施例二提供的故障檢測(cè)方法,其流程如圖4所示,執(zhí)行步驟如下步驟S201 管理板檢測(cè)業(yè)務(wù)板是否存在。管理板用于檢測(cè)業(yè)務(wù)板是否存在的方法有很多種,其中,管理板通過(guò)設(shè)定的存在 信號(hào)檢測(cè)業(yè)務(wù)板是否存在,具體包括管理板檢測(cè)到存在信號(hào)的電平由高電平變?yōu)榈碗娖?時(shí),確定存在信號(hào)對(duì)應(yīng)的業(yè)務(wù)板存在。例如通過(guò)特定信號(hào)(如Presents信號(hào))的電平高低來(lái)檢測(cè),在業(yè)務(wù)板上 Presents信號(hào)接地,在管理板上Presents信號(hào)上拉到高電平;則當(dāng)業(yè)務(wù)板不存在時(shí),管理 板上的Presents信號(hào)為高電平,當(dāng)業(yè)務(wù)板連接到管理板上后,該業(yè)務(wù)板對(duì)應(yīng)的Presents信 號(hào)變?yōu)榈碗娖?;因此,?dāng)管理板檢測(cè)到Presents信號(hào)為低電平時(shí),可以確認(rèn)業(yè)務(wù)板存在。當(dāng)業(yè)務(wù)板的存在狀態(tài)發(fā)生變化時(shí),管理板上的CPLD會(huì)產(chǎn)生中斷通知管理板的CPU 處理業(yè)務(wù)板狀態(tài)變化相關(guān)的配置。檢測(cè)到業(yè)務(wù)板存在后,管理板執(zhí)行步驟S202,業(yè)務(wù)板執(zhí)行步驟S203。步驟S202 在自身的內(nèi)存空間中為業(yè)務(wù)板塊分配一段內(nèi)存空間。管理板CPU在自身的內(nèi)存空間中為每張業(yè)務(wù)板分配一段內(nèi)存空間,分配的內(nèi)存空 間用于監(jiān)控該業(yè)務(wù)板狀態(tài)的。分配的這段內(nèi)存空間可以包括兩個(gè)部分寄存器分區(qū)和狀態(tài) 分區(qū)。上述分配的寄存器分區(qū)主要用于保存業(yè)務(wù)板故障時(shí)其CPU寄存器的內(nèi)容。較佳 的,管理板先確定業(yè)務(wù)板的寄存器空間的大小,根據(jù)業(yè)務(wù)板的寄存器空間的大小確定為業(yè) 務(wù)板分配的寄存器分區(qū)的大小。管理板向業(yè)務(wù)板PCIE空間的基址寄存器中寫(xiě)入全F,然后 讀回該基址寄存器的值,根據(jù)讀回的值確定該寄存器空間的大小。即管理板向業(yè)務(wù)板PCIE 空間的基址寄存器中寫(xiě)入全F后,若讀回的值不是全0,則這個(gè)值就代表CPU內(nèi)部實(shí)現(xiàn)的寄 存器空間的大小,寄存器分區(qū)內(nèi)各個(gè)區(qū)域的定義與CPU內(nèi)部寄存器空間定義一致當(dāng)然,管理板也可以不確定業(yè)務(wù)板寄存器空間的大小,而是根據(jù)預(yù)先設(shè)定的分配 規(guī)則為業(yè)務(wù)板分配寄存器分區(qū)。例如根據(jù)對(duì)業(yè)務(wù)板寄存器空間大小的經(jīng)驗(yàn)值,設(shè)定一個(gè)大 于所獲知的寄存器空間最大值的值,為所有業(yè)務(wù)板的寄存器空間分配該設(shè)定大小的寄存器 分區(qū)。一般在業(yè)務(wù)板的CPU內(nèi)部都會(huì)有很多的狀態(tài)寄存器來(lái)指示CPU的運(yùn)行狀態(tài),通過(guò) PCIE的地址空間映射可以把業(yè)務(wù)板CPU的所有寄存器映射到管理板的PCIE空間,這樣管理 板CPU訪問(wèn)業(yè)務(wù)板CPU的寄存器就和訪問(wèn)本地的地址一樣了,并且通過(guò)這些寄存器可以很 全面的了解業(yè)務(wù)板的狀態(tài)。在業(yè)務(wù)板出現(xiàn)異常時(shí),管理板CPU可以把業(yè)務(wù)板CPU寄存器的 值保存到寄存器分區(qū)中,方便后續(xù)故障分析。上述分配的狀態(tài)分區(qū)主要用于保存與業(yè)務(wù)板運(yùn)行相關(guān)的各種狀態(tài)信息。較佳的, 狀態(tài)分區(qū)中包括針對(duì)業(yè)務(wù)板各功能模塊的狀態(tài)指示域;例如功能模塊包括下列模塊中的至 少一種中央處理單元(Central Processing Unit, CPU)模塊、閃存(Flash)模塊、內(nèi)存
8(Memory)模塊、媒體接入控制(Media AccessControl, MAC)模塊和物理層接口(Physis, Phy)模塊。也就是說(shuō),通過(guò)各個(gè)功能模塊的狀態(tài)指示域存儲(chǔ)各個(gè)功能模塊的各種狀態(tài)信息, 這些狀態(tài)信息包括未初始化狀態(tài)信息、正常運(yùn)行狀態(tài)信息和故障狀態(tài)信息。狀態(tài)分區(qū)包含業(yè)務(wù)板具體功能模塊的狀態(tài)指示域劃分,可以根據(jù)具體的模塊確 定。比如,對(duì)于一張廣域以太網(wǎng)接口卡(業(yè)務(wù)板)來(lái)說(shuō),其功能模塊可以劃分為CPU、Flash、 Memory.MAC.Phy等功能模塊。每個(gè)功能模塊的狀態(tài)可以根據(jù)實(shí)際應(yīng)用定義,比如可以定義 為未初始化、正常運(yùn)行、故障三個(gè)狀態(tài)。由于不同的業(yè)務(wù)板所具有功能模塊定義可能不一樣,為了區(qū)分后續(xù)功能模塊的定 義,較佳的,在業(yè)務(wù)板狀態(tài)信息前面增加了一個(gè)板卡類(lèi)型域,用來(lái)指示業(yè)務(wù)板的板卡類(lèi)型, 比如某個(gè)模塊化路由器支持8種業(yè)務(wù)板,那么業(yè)務(wù)板類(lèi)型域就需要3個(gè)bit位或更多,以便 能夠區(qū)分8中業(yè)務(wù)板。在業(yè)務(wù)板類(lèi)型域后面的是各個(gè)功能模塊的狀態(tài)指示域,狀態(tài)指示域 根據(jù)具體模塊多少可以增減。以上面的廣域網(wǎng)以太口業(yè)務(wù)板為例,每個(gè)功能模塊定義了三種狀態(tài),這樣,每個(gè)功 能模塊的狀態(tài)指示域可以用2個(gè)bit來(lái)指示(bit的定義比如OOb代表未初始化,Olb代表 正常運(yùn)行狀態(tài),IOb代表故障狀態(tài))。對(duì)于每個(gè)功能模塊,根據(jù)具體檢測(cè)程序?qū)崿F(xiàn)的功能,還 可以對(duì)模塊狀態(tài)進(jìn)行更細(xì)的劃分。比如內(nèi)存故障還可以分為Walking 1’8測(cè)試(全1測(cè) 試)異常、Bus Noise測(cè)試(總線噪聲測(cè)試)異常、Address測(cè)試(地址線測(cè)試)異常若干 小的類(lèi)別,針對(duì)這些小的類(lèi)別分別設(shè)置狀態(tài)指示域;其中,Walking 1' s Test, Bus Noise Test.AddressTest是三個(gè)比較常見(jiàn)的內(nèi)存測(cè)試方法。則上述的廣域以太網(wǎng)接口卡,業(yè)務(wù)板 狀態(tài)信息的格式可以入圖5所示,包括業(yè)務(wù)板類(lèi)型、CPU模塊狀態(tài)、Flash模塊狀態(tài)、Memory 模塊狀態(tài)、MAC模塊狀態(tài)和Phy模塊狀態(tài)等若干狀態(tài)指示域。步驟S203 業(yè)務(wù)板在自身內(nèi)存空間中設(shè)置控制分區(qū),并將設(shè)置的控制分區(qū)映射到 管理板的PCIE空間??刂品謪^(qū)包括針對(duì)業(yè)務(wù)板各功能模塊進(jìn)行控制的區(qū)域。也就是在業(yè)務(wù)板上的內(nèi)存空間中也定義一個(gè)區(qū)域用來(lái)與管理板通信,這個(gè)區(qū)域?yàn)?控制分區(qū),管理板通過(guò)操作這個(gè)區(qū)域,可以指示業(yè)務(wù)板進(jìn)行相應(yīng)的功能模塊自檢,通過(guò)PCIE 的地址映射,可以把管理板的內(nèi)存空間映射到業(yè)務(wù)板本地PCIE空間,因而業(yè)務(wù)板CPU操作 管理板異常分區(qū)中各個(gè)功能模塊的狀態(tài)信息只需要寫(xiě)PCIE地址空間就可以了。仍以上面的廣域以太網(wǎng)接口業(yè)務(wù)板為例,控制分區(qū)可以定義為如圖6所示的格 式,包括對(duì)CPU模塊、Flash模塊、Memory模塊、MAC模塊和Phy模塊等各個(gè)功能模塊進(jìn)行 控制的區(qū)域。同時(shí),業(yè)務(wù)板初始化各個(gè)功能模塊,初始化完成后開(kāi)始正常運(yùn)行。管理版在初始化 過(guò)程中也可以將各個(gè)功能模塊的狀態(tài)通過(guò)PCIE總線寫(xiě)入到管理板內(nèi)存空間中為其分配的 相應(yīng)狀態(tài)分區(qū)中。步驟S204 管理板通過(guò)自身PCIE空間操作控制分區(qū),指示業(yè)務(wù)板進(jìn)行狀態(tài)檢測(cè)。在業(yè)務(wù)板初初始化和運(yùn)行過(guò)程中,管理板隨時(shí)或者按照設(shè)定的時(shí)間間隔指示業(yè)務(wù) 版進(jìn)行自檢,并允許將業(yè)務(wù)板根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢后得到的狀態(tài)信息寫(xiě)入管理板為 其分配的狀態(tài)分區(qū)中。也就是說(shuō),管理板可以通過(guò)控制分區(qū)要求業(yè)務(wù)板進(jìn)行相應(yīng)功能模塊 的狀態(tài)確認(rèn)。
其中,異常檢測(cè)方法根據(jù)不同的模塊會(huì)有不同,比如內(nèi)存可以進(jìn)行讀寫(xiě),以太口可 以進(jìn)行回環(huán)測(cè)試之類(lèi)的。步驟S205 業(yè)務(wù)板根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢。步驟S206 將自檢得到的狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中。業(yè)務(wù)板按照管理板要求進(jìn)行各個(gè)功能模塊的狀態(tài)確認(rèn),將結(jié)果寫(xiě)到管理板內(nèi)存中 為其分配的狀態(tài)分區(qū)中。具體包括當(dāng)業(yè)務(wù)板根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢,確定自身某個(gè)功能模塊未正常啟動(dòng)或尚未 啟動(dòng)完成時(shí),將未初始化狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域。例如如 果業(yè)務(wù)板不能正常啟動(dòng),管理板可以通過(guò)檢測(cè)業(yè)務(wù)板的狀態(tài)區(qū)發(fā)現(xiàn),因?yàn)榫€卡不能正常啟 動(dòng)時(shí),有一些功能模塊長(zhǎng)期得不到初始化。這時(shí),管理板可以通過(guò)PCIE空間直接對(duì)相應(yīng)的 功能模塊進(jìn)行測(cè)試,進(jìn)一步定位業(yè)務(wù)板的故障原因。當(dāng)業(yè)務(wù)板根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢,確定自身某個(gè)功能模塊正常運(yùn)行時(shí),將正 常運(yùn)行狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域。當(dāng)業(yè)務(wù)板根據(jù)狀態(tài)檢測(cè)指示進(jìn)行自檢,確定自身某個(gè)功能模塊在運(yùn)行過(guò)程中發(fā)生 故障時(shí),將故障狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域。例如在業(yè)務(wù)板出 現(xiàn)異常時(shí),業(yè)務(wù)板通過(guò)PCIE總線將異?,F(xiàn)場(chǎng)信息保存到管理板內(nèi)存中的異常分區(qū),具體可 以保存異常時(shí)的各種堆棧信息等故障現(xiàn)場(chǎng)信息。步驟S207 管理板通過(guò)PCIE總線將業(yè)務(wù)板寄存器的內(nèi)容寫(xiě)入所分配的寄存器分 區(qū),以及允許業(yè)務(wù)板通過(guò)自身PCIE空間將故障狀態(tài)信息寫(xiě)入所分配的狀態(tài)分區(qū)。管理板接收到線業(yè)務(wù)板異常,將業(yè)務(wù)板的寄存器空間復(fù)制到內(nèi)存中寄存器分區(qū)。 業(yè)務(wù)板同時(shí)會(huì)將自身的異常狀態(tài)信息寫(xiě)入到狀態(tài)分區(qū)中。步驟S208 管理板從寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信 肩、ο步驟S209 根據(jù)讀取的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè) 務(wù)板的故障進(jìn)行分析定位。管理板分析業(yè)務(wù)板的故障狀態(tài)信息,根據(jù)故障的位置和具體原因采取相應(yīng)的處理 措施。上述故障檢測(cè)方法及模塊化設(shè)備中管理板10,其結(jié)構(gòu)如圖7所示,包括檢測(cè)模塊 101、分配模塊102、寫(xiě)入模塊103和分析模塊104。檢測(cè)模塊101,用于檢測(cè)業(yè)務(wù)板是否存在。分配模塊102,用于當(dāng)檢測(cè)模塊101檢測(cè)到業(yè)務(wù)板存在時(shí),在管理板的內(nèi)存空間 中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的 狀態(tài)分區(qū);并建立所分配的寄存器分區(qū)與業(yè)務(wù)板上的寄存器、所分配的狀態(tài)分區(qū)與業(yè)務(wù)板 PCIE空間的映射關(guān)系。寫(xiě)入模塊103,用于當(dāng)業(yè)務(wù)板發(fā)生故障時(shí),根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè) 務(wù)板寄存器的內(nèi)容寫(xiě)入所分配的寄存器分區(qū)以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身 PCIE空間將故障信息寫(xiě)入所分配的狀態(tài)分區(qū)。分析模塊104,用于從所分配的寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容 和狀態(tài)信息,對(duì)業(yè)務(wù)板的故障進(jìn)行分析定位。
10
上述管理板10,還包括控制模塊105,用于通過(guò)管理板的PCIE空間操作控制分 區(qū),指示業(yè)務(wù)板進(jìn)行狀態(tài)檢測(cè),所述控制分區(qū)為在所述業(yè)務(wù)板內(nèi)存空間中設(shè)置的、并映射到 管理板的PCIE空間的控制分區(qū)。相應(yīng)的,上述寫(xiě)入模塊103,還用于允許業(yè)務(wù)板根據(jù)上述指 示進(jìn)行狀態(tài)檢測(cè)后,將得到的狀態(tài)信息寫(xiě)入所分配狀態(tài)分區(qū)中。本發(fā)明實(shí)施例提供的上述故障檢測(cè)方法及模塊化設(shè)備,利用PCIE總線高速、可靠 的特點(diǎn),在管理板和業(yè)務(wù)板之間通過(guò)共享內(nèi)存交互故障檢測(cè)信息。具體通過(guò)在管理板上為 業(yè)務(wù)板劃分寄存器分區(qū)和狀態(tài)分區(qū),并映射到業(yè)務(wù)板的PCIE空間,實(shí)現(xiàn)管理板和業(yè)務(wù)板信 息的直接讀寫(xiě)。可以快速可靠的進(jìn)行故障檢測(cè),同時(shí),并節(jié)約了系統(tǒng)資源。由于操作都是簡(jiǎn)單的內(nèi)存讀寫(xiě)操作,省掉了很多軟件構(gòu)造報(bào)文、解析報(bào)文的時(shí)間, 而且PCIE總線是高速總線,1.0的PCIE單向速率為2. 5Gbps,2. 0的PCIE單向速率可以達(dá) 到5Gbps,通過(guò)Lane數(shù)的增加可以達(dá)到更高的速率,因此該方法可以很快的檢測(cè)到業(yè)務(wù)板 故障,其檢測(cè)具有快速性的優(yōu)點(diǎn)。由于PCIE是一種可靠的總線協(xié)議,支持端到端數(shù)據(jù)完整 性,因此使檢測(cè)可靠新進(jìn)一步提高。由于PCIE操作可以產(chǎn)生中斷,因而管理板和業(yè)務(wù)板的 CPU都不需要去輪詢內(nèi)存中的內(nèi)容,可以節(jié)省大量的CPU資源,且通過(guò)中斷優(yōu)先級(jí)設(shè)置,可 以讓CPU優(yōu)先響應(yīng)故障中斷。由于不需要信令交互,直接通過(guò)內(nèi)存讀寫(xiě)實(shí)現(xiàn),可以節(jié)約大量 的信令傳輸資源。且該方式實(shí)現(xiàn)簡(jiǎn)單,所有的交互都是簡(jiǎn)單的地址空間寫(xiě)操作,不需要復(fù)雜的協(xié)議 封裝,不需要軟件干預(yù)數(shù)據(jù)包的封裝和解封裝。不僅在管理板正常和業(yè)務(wù)板可以正常交互 時(shí)能定位出業(yè)務(wù)板故障,在業(yè)務(wù)板不能正常啟動(dòng)時(shí)也能通過(guò)管理板直接測(cè)試業(yè)務(wù)板的功能 模塊的方式定位出業(yè)務(wù)板故障點(diǎn)。在業(yè)務(wù)板運(yùn)行中出故障時(shí),還可以在業(yè)務(wù)板重啟之前保 存現(xiàn)場(chǎng)信息,方便后續(xù)故障定位,具有很強(qiáng)的廣泛適用性。顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精 神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍 之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
1權(quán)利要求
一種故障檢測(cè)方法,其特征在于,包括管理板檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所述寄存器分區(qū)與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板第三代外圍組件互聯(lián)PCIE空間的映射關(guān)系;管理板根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入所述寄存器分區(qū),以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入所述狀態(tài)分區(qū);管理板從所述寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板的故障進(jìn)行分析定位。
2.如權(quán)利要求1所述的方法,其特征在于,還包括所述業(yè)務(wù)板內(nèi)存空間中設(shè)置控制分區(qū),并將所述控制分區(qū)映射到管理板的PCIE空間;管理板通過(guò)自身PCIE空間操作所述控制分區(qū),指示業(yè)務(wù)板進(jìn)行狀態(tài)檢測(cè);并允許所述 業(yè)務(wù)板將根據(jù)指示進(jìn)行狀態(tài)檢測(cè)后得到的狀態(tài)信息寫(xiě)入所述狀態(tài)分區(qū)中。
3.如權(quán)利要求2所述的方法,其特征在于,所述狀態(tài)分區(qū)中包括針對(duì)業(yè)務(wù)板各功能模 塊的狀態(tài)指示域;所述控制分區(qū)中包括針對(duì)業(yè)務(wù)板各功能模塊進(jìn)行控制的區(qū)域。
4.如權(quán)利要求3所述的方法,其特征在于,所述狀態(tài)信息包括未初始化狀態(tài)信息、正 常運(yùn)行狀態(tài)信息和故障狀態(tài)信息;當(dāng)所述業(yè)務(wù)板根據(jù)指示進(jìn)行狀態(tài)檢測(cè),確定自身包含的功能模塊未正常啟動(dòng)或尚未啟 動(dòng)完成時(shí),將未初始化狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域;當(dāng)所述業(yè)務(wù)板根據(jù)指示進(jìn)行狀態(tài)檢測(cè),確定自身包含的功能模塊正常運(yùn)行時(shí),將正常 運(yùn)行狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域;當(dāng)所述業(yè)務(wù)板根據(jù)指示進(jìn)行狀態(tài)檢測(cè),確定自身包含的功能模塊在運(yùn)行過(guò)程中發(fā)生故 障時(shí),將故障狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域。
5.如權(quán)利要求1所述的方法,其特征在于,還包括管理板確定業(yè)務(wù)板的寄存器空間的 大小,根據(jù)業(yè)務(wù)板的寄存器空間的大小確定為業(yè)務(wù)板分配的寄存器分區(qū)的大小。
6.如權(quán)利要求5所述的方法,其特征在于,所述管理板確定業(yè)務(wù)板的寄存器空間的大 小,具體包括所述管理板向業(yè)務(wù)板PCIE空間的基址寄存器中寫(xiě)入全F,并讀回該基址寄存器的值, 根據(jù)讀回的值確定該寄存器空間的大小。
7.如權(quán)利要求1-6任一所述的方法,其特征在于,所述管理板檢測(cè)到業(yè)務(wù)板存在,具體 包括所述管理板檢測(cè)到設(shè)定的存在信號(hào)的電平由高電平變?yōu)榈碗娖綍r(shí),確定所述存在信號(hào) 對(duì)應(yīng)的業(yè)務(wù)板存在。
8.一種模塊化設(shè)備,其特征在于,包括管理板和若干業(yè)務(wù)板;管理板,用于檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù) 板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立所述寄存器分 區(qū)與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系;管理板根據(jù)所述映 射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入所述寄存器分區(qū);以及從所述寄存器 分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù) 板的故障進(jìn)行分析定位;業(yè)務(wù)板,用于根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入管理板的所述狀 態(tài)分區(qū)。
9.如權(quán)利要求8所述的模塊化設(shè)備,其特征在于,所述業(yè)務(wù)板,還用于在內(nèi)存空間中設(shè) 置控制分區(qū),并將所述狀態(tài)分區(qū)映射到管理板的PCIE空間;所述管理板還用于通過(guò)自身PCIE空間操作所述控制分區(qū),指示業(yè)務(wù)板進(jìn)行狀態(tài)檢 測(cè);并允許所述業(yè)務(wù)板將根據(jù)指示進(jìn)行狀態(tài)檢測(cè)后得到的狀態(tài)信息寫(xiě)入所述狀態(tài)分區(qū)中。
10.如權(quán)利要求9所述的模塊化設(shè)備,其特征在于,所述業(yè)務(wù)板,具體根據(jù)指示進(jìn)行狀 態(tài)檢測(cè),確定自身包含的功能模塊未正常啟動(dòng)或尚未啟動(dòng)完成時(shí),將未初始化狀態(tài)信息寫(xiě) 入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域;確定自身包含的功能模塊正常運(yùn)行時(shí),將正 常運(yùn)行狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指示域;以及確定自身包含的功能 模塊在運(yùn)行過(guò)程中發(fā)生故障時(shí),將故障狀態(tài)信息寫(xiě)入狀態(tài)分區(qū)中該功能模塊對(duì)應(yīng)的狀態(tài)指 示域。
11.如權(quán)利要求8-10任一所述的模塊化設(shè)備,其特征在于,所述管理板具體通過(guò)檢測(cè) 到設(shè)定的存在信號(hào)的電平由高電平變?yōu)榈碗娖綍r(shí),確定所述存在信號(hào)對(duì)應(yīng) 的業(yè)務(wù)板存在。
12.—種管理板,其特征在于,包括檢測(cè)模塊,用于檢測(cè)業(yè)務(wù)板是否存在;分配模塊,用于當(dāng)所述檢測(cè)模塊檢測(cè)到業(yè)務(wù)板存在時(shí),在所述管理板的內(nèi)存空間中為 業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài) 分區(qū);并建立所述寄存器分區(qū)與業(yè)務(wù)板上的寄存器、所述狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映 射關(guān)系;寫(xiě)入模塊,用于根據(jù)所述映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器的內(nèi)容寫(xiě)入所述寄 存器分區(qū),以及允許業(yè)務(wù)板根據(jù)所述映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入所述狀 態(tài)分區(qū);分析模塊,用于從所述寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息, 確定業(yè)務(wù)板是否發(fā)生故障并對(duì)業(yè)務(wù)板的故障進(jìn)行分析定位。
13.如權(quán)利要求12所述的管理板,其特征在于,還包括控制模塊,用于通過(guò)管理板的PCIE空間操作控制分區(qū),指示業(yè)務(wù)板進(jìn)行狀態(tài)檢測(cè),所 述控制分區(qū)為在所述業(yè)務(wù)板內(nèi)存空間中設(shè)置的、并映射到管理板的PCIE空間的控制分區(qū);所述寫(xiě)入模塊,還用于允許所述業(yè)務(wù)板將進(jìn)行狀態(tài)檢測(cè)后將得到的狀態(tài)信息寫(xiě)入所述 狀態(tài)分區(qū)中。
全文摘要
本發(fā)明公開(kāi)了一種故障檢測(cè)方法、模塊化設(shè)備及管理板,該方法包括管理板檢測(cè)到業(yè)務(wù)板存在時(shí),在自身的內(nèi)存空間中為業(yè)務(wù)板分配用于存儲(chǔ)業(yè)務(wù)板寄存器內(nèi)容的寄存器分區(qū)和用于存儲(chǔ)業(yè)務(wù)板狀態(tài)信息的狀態(tài)分區(qū);并建立寄存器分區(qū)與業(yè)務(wù)板上的寄存器、狀態(tài)分區(qū)與業(yè)務(wù)板PCIE空間的映射關(guān)系;管理板根據(jù)映射關(guān)系通過(guò)PCIE總線將業(yè)務(wù)板寄存器中的內(nèi)容寫(xiě)入寄存器分區(qū),以及允許業(yè)務(wù)板根據(jù)映射關(guān)系通過(guò)自身PCIE空間將狀態(tài)信息寫(xiě)入狀態(tài)分區(qū);管理板從寄存器分區(qū)和狀態(tài)分區(qū)讀取業(yè)務(wù)板的寄存器內(nèi)容和狀態(tài)信息,確定業(yè)務(wù)板是否發(fā)生故障并對(duì)故障進(jìn)行分析定位。該方式實(shí)現(xiàn)簡(jiǎn)單,能夠快速、可靠的定位業(yè)務(wù)板的故障,且不需要信令交互,節(jié)約了系統(tǒng)資源。
文檔編號(hào)G06F11/22GK101894060SQ20101021335
公開(kāi)日2010年11月24日 申請(qǐng)日期2010年6月25日 優(yōu)先權(quán)日2010年6月25日
發(fā)明者黃金思 申請(qǐng)人:福建星網(wǎng)銳捷網(wǎng)絡(luò)有限公司