一種基于knn算法的斷路器缺陷等級(jí)劃分方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于電力系統(tǒng)技術(shù)領(lǐng)域,具體是設(shè)及一種基于腳W算法的斷路器缺陷等級(jí) 劃分方法。
【背景技術(shù)】
[0002] 斷路器的歷史缺陷文本是斷路器歷史缺陷情況的載體,可被用于斷路器的狀態(tài)評(píng) 價(jià)中W完善斷路器的狀態(tài)評(píng)價(jià)模型,是斷路器可靠性的一大表征。斷路器的歷史缺陷文本 中包含設(shè)備型式、電壓等級(jí)、廠家、出廠時(shí)間、名稱、所在變電所等基本設(shè)備信息,還包含缺 陷發(fā)現(xiàn)時(shí)間、缺陷描述文本、缺陷等級(jí)等缺陷內(nèi)容。其中缺陷等級(jí)是斷路器歷史缺陷文本評(píng) 判的核屯、。缺陷等級(jí)通常采用運(yùn)維人員現(xiàn)場(chǎng)運(yùn)行經(jīng)驗(yàn)判斷,不僅費(fèi)時(shí)費(fèi)力,而且存在相同缺 陷被不同運(yùn)維人員判斷為不同等級(jí)的情況。因此需要對(duì)其進(jìn)行科學(xué)分類。由于缺陷文本通 常采用中文自然語(yǔ)言記錄,采用機(jī)器分析具有難度,目前鮮見(jiàn)缺陷文本被處理的相關(guān)研究。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于針對(duì)現(xiàn)有技術(shù)的不足,提供一種基于腳W算法的斷路器缺陷等 級(jí)劃分方法。
[0004] 本發(fā)明方法包括W下步驟:
[0005] 步驟1 ;建立"斷路器缺陷文本詞庫(kù)",該是根據(jù)電力專業(yè)知識(shí)由發(fā)明人人工建立。
[0006] 步驟2 ;分詞,依據(jù)步驟1建立的詞庫(kù),將缺陷文本中的中文字符串合理地切分成 詞語(yǔ)序列,該是中文文本信息處理必備且最為基礎(chǔ)的環(huán)節(jié)。
[0007] 步驟3 ;詞頻統(tǒng)計(jì),是對(duì)文本中所有詞進(jìn)行出現(xiàn)頻次的統(tǒng)計(jì)并據(jù)此排序。完整的詞 頻統(tǒng)計(jì)結(jié)果包括了文本中出現(xiàn)的所有詞,可用該些詞構(gòu)成文本向量的向量空間。每個(gè)詞對(duì) 應(yīng)向量空間中一維。
[000引步驟4;去除停用詞,去除無(wú)法表征文本的詞,執(zhí)行中考慮先建立停用詞表,再將 詞頻統(tǒng)計(jì)結(jié)果和停用詞表中的詞進(jìn)行對(duì)照,刪去詞頻統(tǒng)計(jì)結(jié)果中的停用詞。
[0009] 步驟5 ;文本向量化,是把經(jīng)過(guò)上述處理的文本轉(zhuǎn)化為數(shù)字向量的表示結(jié)果。每一 條文本對(duì)應(yīng)一個(gè)特征向量,特征向量的每一維對(duì)應(yīng)詞頻統(tǒng)計(jì)結(jié)果中的每一個(gè)詞。具體方法 為根據(jù)文本向量的向量空間,再根據(jù)分詞結(jié)果,將每條文本中的詞與向量空間每一維對(duì)應(yīng) 的詞作對(duì)照,如果相同,則在該文本對(duì)應(yīng)的特征向量中,將該詞對(duì)應(yīng)的維記為1,否則為0。
[0010] 步驟6 ;量化缺陷文本的缺陷程度,緊急為3,重要為2, 一般為1。本步驟由專家組 根據(jù)專業(yè)知識(shí)完成。
[0011] 步驟7 ;針對(duì)每一個(gè)缺陷文本,重復(fù)步驟2~6,建立缺陷文本庫(kù)。
[0012] 步驟8 ;計(jì)算待歸類文本與缺陷文本庫(kù)中每個(gè)文本的文本相近程度。對(duì)待歸類缺 陷文本執(zhí)行步驟2~5,完成文本向量化,然后采用式(1)計(jì)算待測(cè)文本與缺陷文本庫(kù)中每 一個(gè)文本的相似度: (1)[001 引
【主權(quán)項(xiàng)】
1. 一種基于KNN算法的斷路器缺陷檢測(cè)方法,其特征在于該方法包括以下步驟: 步驟1 :建立斷路器缺陷文本詞庫(kù); 步驟2 :分詞; 依據(jù)步驟1建立的詞庫(kù),將缺陷文本中的中文字符串切分成詞語(yǔ)序列; 步驟3 :詞頻統(tǒng)計(jì); 對(duì)文本中所有詞進(jìn)行出現(xiàn)頻次的統(tǒng)計(jì)并據(jù)此排序;完整的詞頻統(tǒng)計(jì)結(jié)果包括了文本中 出現(xiàn)的所有詞,可用這些詞構(gòu)成文本向量的向量空間;每個(gè)詞對(duì)應(yīng)向量空間中一維; 步驟4 :去除停用詞,即去除無(wú)法表征文本的詞, 建立停用詞表,再將詞頻統(tǒng)計(jì)結(jié)果和停用詞表中的詞進(jìn)行對(duì)照,刪去詞頻統(tǒng)計(jì)結(jié)果中 的停用詞; 步驟5 :文本向量化,即把經(jīng)過(guò)上述處理的文本轉(zhuǎn)化為數(shù)字向量的表示結(jié)果;每一條文 本對(duì)應(yīng)一個(gè)特征向量,特征向量的每一維對(duì)應(yīng)詞頻統(tǒng)計(jì)結(jié)果中的每一個(gè)詞; 具體是根據(jù)文本向量的向量空間,再根據(jù)分詞結(jié)果,將每條文本中的詞與向量空間每 一維對(duì)應(yīng)的詞作對(duì)照,如果相同,則在該文本對(duì)應(yīng)的特征向量中,將該詞對(duì)應(yīng)的維記為1,否 則為〇 ; 步驟6 :量化缺陷文本的缺陷程度,緊急為3,重要為2, 一般為1 ; 步驟7 :針對(duì)每一個(gè)缺陷文本,重復(fù)步驟2~6,建立缺陷文本庫(kù); 步驟8 :計(jì)算待歸類文本與缺陷文本庫(kù)中每個(gè)文本的文本相近程度;對(duì)待歸類缺陷文 本執(zhí)行步驟2~5,完成文本向量化,然后采用式(1)計(jì)算待測(cè)文本與缺陷文本庫(kù)中每一個(gè) 文本的相似度Sij:
式中,Su為待歸類文本i與文本庫(kù)中文本j之間的相似度,M為向量的維數(shù),W η為文 本i的特征向量的第1維的值,W#為文本j的特征向量的第1維的值; 步驟9 :按照文本相似度,在文本庫(kù)中選出與待歸類文本最相似的k條文本; 步驟10 :利用式(2)計(jì)算待歸類缺陷文本i描述的缺陷嚴(yán)重程度yi:
其中,Y1為第1條缺陷文本描述的缺陷嚴(yán)重程度。
2. 根據(jù)權(quán)利要求1所述的一種基于KNN算法的斷路器缺陷檢測(cè)方法,其特征在于:根 據(jù)步驟10計(jì)算結(jié)果將該缺陷的嚴(yán)重程度歸類,計(jì)算結(jié)果為 yi e (1,1. 5],則歸為一般類,計(jì) 算結(jié)果為Yie (1.5, 2. 5),則歸為嚴(yán)重類,計(jì)算結(jié)果為yie [2. 5, 3),則歸為緊急類。
【專利摘要】本發(fā)明涉及一種基于KNN算法的斷路器缺陷等級(jí)劃分方法?,F(xiàn)有的等級(jí)劃分方法為通過(guò)運(yùn)維人員經(jīng)驗(yàn)判斷,費(fèi)時(shí)費(fèi)力且正確率受人為影響較大。本發(fā)明首先建立“斷路器缺陷文本詞庫(kù)”,然后針對(duì)斷路器缺陷文本屬于短文本的特點(diǎn),提出了文本預(yù)處理方法,將其轉(zhuǎn)化為可直接計(jì)算的向量。接著采用KNN算法,尋找與待分類缺陷文本最相近的幾條文本,并加權(quán)計(jì)算出待分類缺陷文本所屬的缺陷等級(jí)。本發(fā)明對(duì)斷路器缺陷文本的分類計(jì)算效率高,方便應(yīng)用。
【IPC分類】G06F17-30
【公開(kāi)號(hào)】CN104866574
【申請(qǐng)?zhí)枴緾N201510267932
【發(fā)明人】王慧芳, 馬潤(rùn)澤, 邱劍, 余佳文
【申請(qǐng)人】浙江大學(xué)
【公開(kāi)日】2015年8月26日
【申請(qǐng)日】2015年5月23日