本發(fā)明涉及系統(tǒng)設(shè)計(jì)領(lǐng)域,具體地說(shuō)是基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)及方法。
背景技術(shù):
::目前,服務(wù)器的安全性能要求非常高,主要體現(xiàn)在ras性能上,ras代表reliability(可信)、availablity(可用)以及service-ability(服務(wù)能力),相對(duì)于一個(gè)服務(wù)器測(cè)試平臺(tái),平臺(tái)的ras特性是一個(gè)可以設(shè)置的特性,這個(gè)特性可以增加平臺(tái)的可信度、可用性和服務(wù)能力;ras測(cè)試是為了測(cè)試平臺(tái)的故障處理和容錯(cuò)能力;ras特性設(shè)置的核心是硬件機(jī)制檢查體系(mcamachinecheckarchitecture)目的是通過偵測(cè),校正,恢復(fù)錯(cuò)誤,這些需要處理器內(nèi)核處理機(jī)制支持,并且ras特性可通過平臺(tái)軟件正確配置,ras性能是個(gè)綜合性指標(biāo),對(duì)于不同行業(yè)用戶而言,其對(duì)ras性能的要求是不盡相同的。pcie是服務(wù)器的重要組成部分,針對(duì)pcie方面的ras特性,如何能夠?qū)崿F(xiàn)基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試是目前存在的技術(shù)問題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的技術(shù)任務(wù)是提供基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)及方法,來(lái)解決pcie是服務(wù)器的重要組成部分,針對(duì)pcie方面的ras特性,如何能夠?qū)崿F(xiàn)基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試的問題。本發(fā)明的技術(shù)任務(wù)是按以下方式實(shí)現(xiàn)的,基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng),該系統(tǒng)包括待測(cè)服務(wù)器、pcie注錯(cuò)硬件工具和pcie注錯(cuò)軟件工具,所述pcie注錯(cuò)硬件工具安裝到待測(cè)服務(wù)器的pcie槽位,pcie注錯(cuò)軟件工具安裝到待測(cè)服務(wù)器上,待測(cè)服務(wù)器配置支持pcieras的cpu和至少一個(gè)硬盤,cpu至少有4g內(nèi)存,待測(cè)服務(wù)器上使用最新bios和bmc,bios支持最新ras特性。pcieras錯(cuò)誤注入測(cè)試ras錯(cuò)誤架構(gòu)源于intel處理器iioia和pcieio的aer錯(cuò)誤,一般來(lái)說(shuō),pcieio總線毀壞和故障測(cè)試都可以通過pcieras注錯(cuò)測(cè)試覆蓋;pcie結(jié)構(gòu)概述術(shù)語(yǔ)解釋:pci-express的系統(tǒng)中分為rootcomplex,switch,pciebrige,endpoint四大類設(shè)備。rootcomplex是根復(fù)合體:就是pcie根控制器,多由cpu集成,rc的主要功能與pci總線中的host主橋類似,但是在host主橋的基礎(chǔ)上增加了許多功能,rc可以理解為一個(gè)pcie總線控制器,在x86處理器的體系結(jié)構(gòu)中,rc并不僅僅管理pcie設(shè)備的數(shù)據(jù)訪問,而且還包含訪問控制、錯(cuò)誤處理和虛擬化技術(shù)等一系列內(nèi)容。switch:是指交換器,可以擴(kuò)展pcie總線。pciebrige:是橋接,負(fù)責(zé)pcie和其他總線轉(zhuǎn)換。endpoint:是終結(jié)點(diǎn),端點(diǎn)設(shè)備。如一般的pcie接口網(wǎng)卡設(shè)備,串口卡設(shè)備,存儲(chǔ)卡設(shè)備。整個(gè)pcieras注錯(cuò)測(cè)試方法是基于pcie協(xié)議中相關(guān)內(nèi)容,pcie協(xié)議是分層協(xié)議,分為物理層,數(shù)據(jù)鏈路層,傳輸層,命令層和應(yīng)用層,所有cmd/data由應(yīng)用層和命令層打下來(lái),每向下走一層,多一層封裝和變換,最后通過差分總線傳輸出去,應(yīng)用層和命令層打下來(lái)的cmd/data以tlp的格式封裝起來(lái),送給數(shù)據(jù)鏈路層,鏈路層給其加上sequence前綴和crc后綴,成為一個(gè)完整的數(shù)據(jù)報(bào)文結(jié)構(gòu),送到物理層,經(jīng)過8b/10b或者128b/130b編碼后發(fā)送出去。當(dāng)處理器或者其他pcie設(shè)備訪問pcie設(shè)備時(shí),所傳送的數(shù)據(jù)報(bào)文首先通過事務(wù)層被封裝為一個(gè)或者多個(gè)tlp,之后才能通過pcie總線的各個(gè)層次發(fā)送出去。一個(gè)完整的tlp由1個(gè)或者多個(gè)tlpprefix、tlp頭、datapayload(數(shù)據(jù)有效負(fù)載)和tlpdigest組成。tlp頭是tlp最重要的標(biāo)志,不同的tlp其頭的定義并不相同。tlp頭包含了當(dāng)前tlp的總線事務(wù)類型、路由信息等一系列信息。在一個(gè)tlp中,datapayload的長(zhǎng)度可變,最小為0,最大為1024dw;tlp頭由3個(gè)或者4個(gè)雙字(dw)組成。其中第一個(gè)雙字中保存通用tlp頭,其他字段與通用tlp頭的type字段相關(guān)。一個(gè)通用tlp頭由fmt、type、tc、length等字段組成,pcie總線規(guī)范使用fmt字段區(qū)分讀寫請(qǐng)求,當(dāng)fmt字段是“帶數(shù)據(jù)”的報(bào)文,一定是“寫報(bào)文”;當(dāng)fmt字段是“不帶數(shù)據(jù)”的報(bào)文,一定是“讀報(bào)文”。fmt和type字段確認(rèn)當(dāng)前tlp使用的總線事務(wù),tlp頭的大小是由3個(gè)雙字還是4個(gè)雙字組成,當(dāng)前tlp是否包含有效負(fù)載。pcieras錯(cuò)誤類型包括三種,后面測(cè)試方法會(huì)覆蓋這三種錯(cuò)誤:(1)、可修正錯(cuò)誤(correctible);(2)、不可修正錯(cuò)誤:非致命錯(cuò)誤(uncorrectable:non-fatal);(3)、不可修正錯(cuò)誤:致命錯(cuò)誤(uncorrectable:fatal)。作為優(yōu)選,所述pcie注錯(cuò)硬件工具采用agilenthwcardmodel:agilentu4305apcie協(xié)議分析儀。作為優(yōu)選,所述pcie注錯(cuò)軟件工具采用agilentex3softwareforagilentu4305a和pcie_ras_gui_2。基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試方法,該方法包括如下步驟:(1)、將安捷倫測(cè)試治具安裝到待測(cè)服務(wù)器的pcie槽位,待測(cè)服務(wù)器上電開機(jī);(2)、建立測(cè)試連接,步驟如下:(a)、待測(cè)服務(wù)器系統(tǒng)下運(yùn)行pcie_ras_gui_2_8,并單擊opensession;(b)、安捷倫測(cè)試治具和pcie控制器間建立連接,連接建立成功會(huì)有如下提示:(?。?、控制臺(tái)會(huì)自動(dòng)打開命令窗口;(ⅱ)、命令窗口文本的狀態(tài):addingporttosession–pleasewait;(ⅲ)、如果測(cè)試通過命令窗口將提示connectedtosession,否則測(cè)試不通過;(3)、運(yùn)行readlink狀態(tài)測(cè)試,readlinkstate測(cè)試用于驗(yàn)證安捷倫測(cè)試治具連接狀態(tài)和對(duì)待測(cè)服務(wù)器的pcie槽位進(jìn)行健康度檢查,步驟如下:(a)、在pcie_ras_gui_2_8界面下單擊readlinkstate圖標(biāo);(b)、安捷倫測(cè)試治具(治具本身為pciex1卡)將讀取當(dāng)前pcie槽位的鏈接速度和鏈接帶寬:(ⅰ)、控制臺(tái)自動(dòng)打開,打開對(duì)話框上會(huì)輸出狀態(tài)信息;(ⅱ)、測(cè)試通過標(biāo)準(zhǔn):命令窗口提示x1linkwidth和linkisactive;例如待測(cè)pcie槽位為pciegen3槽位,測(cè)試通過結(jié)果為:x1linkwidthand8gt/s;(4)、lcrc后綴錯(cuò)誤容忍度測(cè)試,lcrc循環(huán)冗余校驗(yàn)碼,pcielcrc測(cè)試是通過lcrc校驗(yàn)和連續(xù)性校驗(yàn)驗(yàn)證pcie數(shù)據(jù)連接層數(shù)據(jù)連接層交換信息在傳輸過程中對(duì)電子噪音干擾的承受度;測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectlcrcerror,進(jìn)行l(wèi)crc錯(cuò)誤注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(ⅰ)、可修正錯(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼lcrc錯(cuò)誤并將lcrc錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:lcrcerrorhasoccurredonthepciedev1/funtion3;(5)、sequence前綴錯(cuò)誤容忍度測(cè)試,pcie信號(hào)序列錯(cuò)位是通過軟件注入錯(cuò)誤序列碼實(shí)現(xiàn);測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectbadsequence,進(jìn)行badsequence錯(cuò)誤注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、可修正錯(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼badsequence錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacorrectible:pciexpressbadtllperror;(6)、payloadsize容忍度測(cè)試,payloadsize參數(shù)決定了一個(gè)數(shù)據(jù)鏈接層采用按序的交換層信息包報(bào)文可能使用的最大有效負(fù)載,pcie總線規(guī)定payloadsize的最大值為4096b,但是許多pcie設(shè)備不一定能夠支持這么大的負(fù)載。在實(shí)際應(yīng)用中,pcie設(shè)備的支持的payloadsize參數(shù)通常是鏈路兩端的pcie設(shè)備進(jìn)行協(xié)商,確定的實(shí)際使用值,通過injectincorrectpayloadsize注錯(cuò)有效的驗(yàn)證pcie鏈路對(duì)超負(fù)載的承受度;測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectincorrectpayloadsize,進(jìn)行payload超負(fù)載注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、可修正錯(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciexpressbadtllperror;(7)、tlp包錯(cuò)誤測(cè)試,fmt和type字段確認(rèn)當(dāng)前tlp使用的總線事務(wù),tlp包錯(cuò)誤測(cè)試通過設(shè)置fmt超出spec范圍來(lái)模擬tlp報(bào)錯(cuò)誤用于驗(yàn)證tlp錯(cuò)誤容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectmalformedtlp,進(jìn)行tlpfmt溢出數(shù)值注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、系統(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:malformedtlp;(8)、poisonedtlp硬件錯(cuò)誤注入測(cè)試;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectpoisonedtlp,進(jìn)行poisonedtlp注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(ⅰ)、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportspoisonedtlp;(9)、數(shù)據(jù)鏈路層surprisedown錯(cuò)誤注入測(cè)試,通過發(fā)送linkdownerr_fatal到pcie根控制器停止響應(yīng)服務(wù)器,幾秒后恢復(fù)pcielink重新online用于驗(yàn)證pcilinkdown對(duì)系統(tǒng)的影響度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectsurpriselinkdown,進(jìn)行pcielinkdown指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、系統(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:criticalevent:pciefatsensorreportsafatalpciexpresssurpriselinkdownerror;(10)、終端硬件錯(cuò)誤注入測(cè)試,硬件錯(cuò)誤注入測(cè)試是基于tlp發(fā)出去后,如果接收正確,接收端回復(fù)一個(gè)ack命令正確應(yīng)答(tlps能通過lcrc校驗(yàn)和連續(xù)性校驗(yàn)的稱為ack),如果接收端接收到錯(cuò)誤的tlp,則回復(fù)nack沒有應(yīng)答,沒有應(yīng)答的tlps或者等待超時(shí)的tlps會(huì)被重新傳輸,本測(cè)試通過模擬pcie根控制器無(wú)響應(yīng)用于驗(yàn)證無(wú)應(yīng)答用于驗(yàn)證終端錯(cuò)誤指令注入系統(tǒng)容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectsurpriselinkdown,進(jìn)行pcielinkdown指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、系統(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportscompletionabort;(11)、pcie數(shù)據(jù)夭折驗(yàn)證,status字段保存當(dāng)前完成報(bào)文的完成狀態(tài),表示當(dāng)前tlp是正確地將數(shù)據(jù)傳遞給數(shù)據(jù)請(qǐng)求端或者在數(shù)據(jù)傳遞過程中出現(xiàn)錯(cuò)誤或者要求數(shù)據(jù)請(qǐng)求方進(jìn)行重試;pcie總線規(guī)定了幾類完成狀態(tài),ca(completionabort),數(shù)據(jù)夭折是其中一種狀態(tài)。表示目標(biāo)設(shè)備無(wú)法完成本次數(shù)據(jù)請(qǐng)求,pcie數(shù)據(jù)夭折測(cè)試通過安捷倫測(cè)試治具傳送一個(gè)數(shù)據(jù)夭折信息,用于驗(yàn)證pcie數(shù)據(jù)夭折后服務(wù)器的容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:非致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行sendaca(completerabort)completioncode,進(jìn)行ca指令注入(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacompletionabort;(12)、pcie不支持的數(shù)據(jù)請(qǐng)求,status字段保存當(dāng)前完成報(bào)文的完成狀態(tài),表示當(dāng)前tlp是正確地將數(shù)據(jù)傳遞給數(shù)據(jù)請(qǐng)求端或者在數(shù)據(jù)傳遞過程中出現(xiàn)錯(cuò)誤或者要求數(shù)據(jù)請(qǐng)求方進(jìn)行重試;pcie總線規(guī)定了幾類完成狀態(tài),ur(unsupportedrequest),不支持的數(shù)據(jù)請(qǐng)求是其中一種狀態(tài)。不支持的數(shù)據(jù)請(qǐng)求表示目標(biāo)設(shè)備不支持該數(shù)據(jù)請(qǐng)求,通過安捷倫測(cè)試治具傳送一個(gè)不支持的數(shù)據(jù)請(qǐng)求,用于驗(yàn)證pcie不支持的數(shù)據(jù)請(qǐng)求服務(wù)器的容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:非致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行sendaca(completerabort)completioncode,進(jìn)行ca指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacorrectible:pciexpressbadtllperror;作為優(yōu)選,所述步驟(2)建立測(cè)試連接前的準(zhǔn)備包括如下內(nèi)容:(1)、確認(rèn)當(dāng)前使用的bios是最新版發(fā)布bios;(2)、清除cmos;(3)、進(jìn)入biossetup界面,按f9使用最優(yōu)默認(rèn)設(shè)置,確認(rèn)numa選項(xiàng)設(shè)置為enbaled;(4)、設(shè)置日期和時(shí)間;(5)、關(guān)閉quietboot功能,并啟用posterrorpause選項(xiàng);(6)、清空bmc下sel日志信息;(7)、配置安捷倫pcie協(xié)議分析儀測(cè)試工具:(a)、待測(cè)pcie槽位安裝安捷倫測(cè)試治具;(b)、獲取最新的agilent_pcieexerciser_build.exe,在待測(cè)機(jī)器安裝安捷倫測(cè)試治具軟件,所有設(shè)置使用默認(rèn)即可;(c)、工具安裝完成重啟待測(cè)服務(wù)器;(d)、重啟后,雙擊系統(tǒng)桌面上sptlanuchpad圖標(biāo)用于檢查安捷倫測(cè)試治具軟件是否安裝完全;整個(gè)過程全部使用默認(rèn)設(shè)置,全部單擊next直至結(jié)束;(e)、sptlanuchpad應(yīng)用正常執(zhí)行并提示系統(tǒng)下有可用的pcieerrorinjectorcards存在,此時(shí)可以確認(rèn)安捷倫測(cè)試治具及軟件安裝成功;(9)、配置測(cè)試軟件pcie_ras_gui_2_8,需要系統(tǒng)下安裝,按照默認(rèn)安裝即可。本發(fā)明的基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)及方法具有以下優(yōu)點(diǎn):通過pcieras注錯(cuò)測(cè)試,有效的評(píng)測(cè)服務(wù)器pcie設(shè)計(jì)的故障處理和容錯(cuò)能力,為客戶提供高安全服務(wù)器提供了有力的后端保障,提高產(chǎn)品ras性能,客戶滿意度和產(chǎn)品競(jìng)爭(zhēng)力。附圖說(shuō)明下面結(jié)合附圖對(duì)本發(fā)明進(jìn)一步說(shuō)明。附圖1為基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)的結(jié)構(gòu)框圖。具體實(shí)施方式參照說(shuō)明書附圖和具體實(shí)施例對(duì)本發(fā)明的基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)及方法作以下詳細(xì)地說(shuō)明。實(shí)施例1:如附圖1所示,本發(fā)明的基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試系統(tǒng)及方法,其結(jié)構(gòu)包括包括待測(cè)服務(wù)器、pcie注錯(cuò)硬件工具和pcie注錯(cuò)軟件工具,pcie注錯(cuò)硬件工具安裝到待測(cè)服務(wù)器的pcie槽位,pcie注錯(cuò)軟件工具安裝到待測(cè)服務(wù)器上,待測(cè)服務(wù)器配置支持pcieras的cpu和至少一個(gè)硬盤,cpu至少有4g內(nèi)存,待測(cè)服務(wù)器上使用最新bios和bmc,bios支持最新ras特性。pcie注錯(cuò)硬件工具采用agilenthwcardmodel:agilentu4305apcie協(xié)議分析儀。pcie注錯(cuò)軟件工具采用agilentex3softwareforagilentu4305a和pcie_ras_gui_2。實(shí)施例2:本發(fā)明的基于pcie協(xié)議分析儀的pcieras注錯(cuò)測(cè)試方法,該方法包括如下步驟:(1)、將安捷倫測(cè)試治具安裝到待測(cè)服務(wù)器的pcie槽位,待測(cè)服務(wù)器上電開機(jī);(2)、建立測(cè)試連接,步驟如下:(a)、待測(cè)服務(wù)器系統(tǒng)下運(yùn)行pcie_ras_gui_2_8,并單擊opensession;(b)、安捷倫測(cè)試治具和pcie控制器間建立連接,連接建立成功會(huì)有如下提示:(ⅰ)、控制臺(tái)會(huì)自動(dòng)打開命令窗口;(ⅱ)、命令窗口文本的狀態(tài):addingporttosession–pleasewait;(ⅲ)、如果測(cè)試通過命令窗口將提示connectedtosession,否則測(cè)試不通過;(3)、運(yùn)行readlink狀態(tài)測(cè)試,readlinkstate測(cè)試用于驗(yàn)證安捷倫測(cè)試治具連接狀態(tài)和對(duì)待測(cè)服務(wù)器的pcie槽位進(jìn)行健康度檢查,步驟如下:(a)、在pcie_ras_gui_2_8界面下單擊readlinkstate圖標(biāo);(b)、安捷倫測(cè)試治具(治具本身為pciex1卡)將讀取當(dāng)前pcie槽位的鏈接速度和鏈接帶寬:(?。⒖刂婆_(tái)自動(dòng)打開,打開對(duì)話框上會(huì)輸出狀態(tài)信息;(ⅱ)、測(cè)試通過標(biāo)準(zhǔn):命令窗口提示x1linkwidth和linkisactive;例如待測(cè)pcie槽位為pciegen3槽位,測(cè)試通過結(jié)果為:x1linkwidthand8gt/s;(4)、lcrc后綴錯(cuò)誤容忍度測(cè)試,lcrc循環(huán)冗余校驗(yàn)碼,pcielcrc測(cè)試是通過lcrc校驗(yàn)和連續(xù)性校驗(yàn)驗(yàn)證pcie數(shù)據(jù)連接層數(shù)據(jù)連接層交換信息在傳輸過程中對(duì)電子噪音干擾的承受度;測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectlcrcerror,進(jìn)行l(wèi)crc錯(cuò)誤注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、可修正錯(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼lcrc錯(cuò)誤并將lcrc錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:lcrcerrorhasoccurredonthepciedev1/funtion3;(5)、sequence前綴錯(cuò)誤容忍度測(cè)試,pcie信號(hào)序列錯(cuò)位是通過軟件注入錯(cuò)誤序列碼實(shí)現(xiàn);測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectbadsequence,進(jìn)行badsequence錯(cuò)誤注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(ⅰ)、可修正錯(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼badsequence錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacorrectible:pciexpressbadtllperror;(6)、payloadsize容忍度測(cè)試,payloadsize參數(shù)決定了一個(gè)數(shù)據(jù)鏈接層采用按序的交換層信息包報(bào)文可能使用的最大有效負(fù)載,pcie總線規(guī)定payloadsize的最大值為4096b,但是許多pcie設(shè)備不一定能夠支持這么大的負(fù)載。在實(shí)際應(yīng)用中,pcie設(shè)備的支持的payloadsize參數(shù)通常是鏈路兩端的pcie設(shè)備進(jìn)行協(xié)商,確定的實(shí)際使用值,通過injectincorrectpayloadsize注錯(cuò)有效的驗(yàn)證pcie鏈路對(duì)超負(fù)載的承受度;測(cè)試類型:可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectincorrectpayloadsize,進(jìn)行payload超負(fù)載注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。⒖尚拚e(cuò)誤注入后將不影響系統(tǒng)正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciexpressbadtllperror;(7)、tlp包錯(cuò)誤測(cè)試,fmt和type字段確認(rèn)當(dāng)前tlp使用的總線事務(wù),tlp包錯(cuò)誤測(cè)試通過設(shè)置fmt超出spec范圍來(lái)模擬tlp報(bào)錯(cuò)誤用于驗(yàn)證tlp錯(cuò)誤容忍度,fmt范圍如下表所示:fmt[2:0]tlp的格式0b000tlp大小為3個(gè)雙字,不帶數(shù)據(jù)。0b001tlp大小為4個(gè)雙字,不帶數(shù)據(jù)。0b010tlp大小為3個(gè)雙字,帶數(shù)據(jù)。0b011tlp大小為4個(gè)雙字,帶數(shù)據(jù)。0b100tlpprefix測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectmalformedtlp,進(jìn)行tlpfmt溢出數(shù)值注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、系統(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:malformedtlp;(8)poisonedtlp硬件錯(cuò)誤注入測(cè)試;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:不致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectpoisonedtlp,進(jìn)行poisonedtlp注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportspoisonedtlp;(9)、數(shù)據(jù)鏈路層surprisedown錯(cuò)誤注入測(cè)試,通過發(fā)送linkdownerr_fatal到pcie根控制器停止響應(yīng)服務(wù)器,幾秒后恢復(fù)pcielink重新online用于驗(yàn)證pcilinkdown對(duì)系統(tǒng)的影響度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectsurpriselinkdown,進(jìn)行pcielinkdown指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。⑾到y(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:criticalevent:pciefatsensorreportsafatalpciexpresssurpriselinkdownerror;(10)、終端硬件錯(cuò)誤注入測(cè)試,硬件錯(cuò)誤注入測(cè)試是基于tlp發(fā)出去后,如果接收正確,接收端回復(fù)一個(gè)ack命令正確應(yīng)答(tlps能通過lcrc校驗(yàn)和連續(xù)性校驗(yàn)的稱為ack),如果接收端接收到錯(cuò)誤的tlp,則回復(fù)nack沒有應(yīng)答,沒有應(yīng)答的tlps或者等待超時(shí)的tlps會(huì)被重新傳輸,本測(cè)試通過模擬pcie根控制器無(wú)響應(yīng)用于驗(yàn)證無(wú)應(yīng)答用于驗(yàn)證終端錯(cuò)誤指令注入系統(tǒng)容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行injectsurpriselinkdown,進(jìn)行pcielinkdown指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、系統(tǒng)將停止運(yùn)行,并產(chǎn)生不可屏蔽中斷導(dǎo)致系統(tǒng)出現(xiàn)死機(jī)宕機(jī)藍(lán)屏的現(xiàn)象;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportscompletionabort;(11)、pcie數(shù)據(jù)夭折驗(yàn)證,status字段保存當(dāng)前完成報(bào)文的完成狀態(tài),表示當(dāng)前tlp是正確地將數(shù)據(jù)傳遞給數(shù)據(jù)請(qǐng)求端或者在數(shù)據(jù)傳遞過程中出現(xiàn)錯(cuò)誤或者要求數(shù)據(jù)請(qǐng)求方進(jìn)行重試;pcie總線規(guī)定了幾類完成狀態(tài),ca(completionabort),數(shù)據(jù)夭折是其中一種狀態(tài)。表示目標(biāo)設(shè)備無(wú)法完成本次數(shù)據(jù)請(qǐng)求,pcie數(shù)據(jù)夭折測(cè)試通過安捷倫測(cè)試治具傳送一個(gè)數(shù)據(jù)夭折信息,用于驗(yàn)證pcie數(shù)據(jù)夭折后服務(wù)器的容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:非致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行sendaca(completerabort)completioncode,進(jìn)行ca指令注入(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacompletionabort;(12)、pcie不支持的數(shù)據(jù)請(qǐng)求,status字段保存當(dāng)前完成報(bào)文的完成狀態(tài),表示當(dāng)前tlp是正確地將數(shù)據(jù)傳遞給數(shù)據(jù)請(qǐng)求端或者在數(shù)據(jù)傳遞過程中出現(xiàn)錯(cuò)誤或者要求數(shù)據(jù)請(qǐng)求方進(jìn)行重試;pcie總線規(guī)定了幾類完成狀態(tài),ur(unsupportedrequest),不支持的數(shù)據(jù)請(qǐng)求是其中一種狀態(tài)。不支持的數(shù)據(jù)請(qǐng)求表示目標(biāo)設(shè)備不支持該數(shù)據(jù)請(qǐng)求,通過安捷倫測(cè)試治具傳送一個(gè)不支持的數(shù)據(jù)請(qǐng)求,用于驗(yàn)證pcie不支持的數(shù)據(jù)請(qǐng)求服務(wù)器的容忍度;測(cè)試類型:不可修正錯(cuò)誤,嚴(yán)重程度:非致命;測(cè)試步驟如下:(a)、單擊并運(yùn)行sendaca(completerabort)completioncode,進(jìn)行ca指令注入;(b)、測(cè)試通過標(biāo)準(zhǔn):(?。?、錯(cuò)誤注入后系統(tǒng)將正常運(yùn)行;(ⅱ)、bios解碼錯(cuò)誤并將錯(cuò)誤告知bmc,在bmc的sellog下將會(huì)出現(xiàn)如下日志,例如:pciecorsensorreportsacorrectible:pciexpressbadtllperror;其中,步驟(2)建立測(cè)試連接前的準(zhǔn)備包括如下內(nèi)容:(1)、確認(rèn)當(dāng)前使用的bios是最新版發(fā)布bios;(2)、清除cmos;(3)、進(jìn)入biossetup界面,按f9使用最優(yōu)默認(rèn)設(shè)置,確認(rèn)numa選項(xiàng)設(shè)置為enbaled;(4)、設(shè)置日期和時(shí)間;(5)、關(guān)閉quietboot功能,并啟用posterrorpause選項(xiàng);(6)、清空bmc下sel日志信息;(7)、配置安捷倫pcie協(xié)議分析儀測(cè)試工具:(a)、待測(cè)pcie槽位安裝安捷倫測(cè)試治具;(b)、獲取最新的agilent_pcieexerciser_build.exe,在待測(cè)機(jī)器安裝安捷倫測(cè)試治具軟件,所有設(shè)置使用默認(rèn)即可;(c)、工具安裝完成重啟待測(cè)服務(wù)器;(d)、重啟后,雙擊系統(tǒng)桌面上sptlanuchpad圖標(biāo)用于檢查安捷倫測(cè)試治具軟件是否安裝完全;整個(gè)過程全部使用默認(rèn)設(shè)置,全部單擊next直至結(jié)束;(e)、sptlanuchpad應(yīng)用正常執(zhí)行并提示系統(tǒng)下有可用的pcieerrorinjectorcards存在,此時(shí)可以確認(rèn)安捷倫測(cè)試治具及軟件安裝成功;(9)、配置測(cè)試軟件pcie_ras_gui_2_8,需要系統(tǒng)下安裝,按照默認(rèn)安裝即可。通過上面具體實(shí)施方式,所述
技術(shù)領(lǐng)域:
:的技術(shù)人員可容易的實(shí)現(xiàn)本發(fā)明。但是應(yīng)當(dāng)理解,本發(fā)明并不限于上述的2種具體實(shí)施方式。在公開的實(shí)施方式的基礎(chǔ)上,所述
技術(shù)領(lǐng)域:
:的技術(shù)人員可任意組合不同的技術(shù)特征,從而實(shí)現(xiàn)不同的技術(shù)方案。除說(shuō)明書所述的技術(shù)特征外,均為本專業(yè)技術(shù)人員的已知技術(shù)。當(dāng)前第1頁(yè)12當(dāng)前第1頁(yè)12