亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

故障碼識(shí)別和分類平臺(tái)的制作方法

文檔序號(hào):10697779閱讀:261來源:國(guó)知局
故障碼識(shí)別和分類平臺(tái)的制作方法
【專利摘要】故障碼識(shí)別和分類平臺(tái),包括:構(gòu)建分類器單元利用訓(xùn)練數(shù)據(jù)集構(gòu)建樸素貝葉斯分類器:分類單元對(duì)訓(xùn)練集中的故障碼進(jìn)行人工分類;將每個(gè)類別中的故障碼進(jìn)行分詞并計(jì)算每個(gè)詞的TF?IDF權(quán)重值;根據(jù)TF?IDF權(quán)重值篩選出特征詞并建立特征詞庫(kù);分別計(jì)算每個(gè)類別中特征詞在該類別條件下的條件概率;構(gòu)建樸素貝葉斯分類器。本發(fā)明準(zhǔn)確地自動(dòng)分類不同車型的故障碼,將數(shù)以億級(jí)的故障碼進(jìn)行收斂,實(shí)現(xiàn)不同車廠車型間故障問題、解決方案的探索。
【專利說明】
故障碼識(shí)別和分類平臺(tái)
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于車輛故障碼領(lǐng)域,具體說是一種基于樸素貝葉斯和余弦相似度的故障 碼識(shí)別和分類平臺(tái)。
【背景技術(shù)】
[0002] 關(guān)于故障碼的編碼方式主要有兩類:(1)共有協(xié)議故障碼,其中0抓碼的顯著特征 是由一個(gè)大寫字母和4位數(shù)字組成;(2)私有協(xié)議故障碼,一般由生產(chǎn)廠商定義的故障碼和 故障描述組成;對(duì)于om)故障碼,即使不同車廠車型的故障描述的表達(dá)方式不同,但也可W 通過0BD碼來判斷某個(gè)故障碼分屬哪一類。
[0003] 然而,當(dāng)遇到私有協(xié)議故障碼時(shí),最大的困難是:不同車型間的故障碼描述出現(xiàn)差 異時(shí),該如何判斷它們的一致性,即故障描述的是相同內(nèi)容,W及判斷私有協(xié)議與共有協(xié)議 故障碼之間的一致性問題。目前,解決此類問題的主要手段是人工地逐條判斷。它的優(yōu)點(diǎn)是 判斷準(zhǔn)確。缺點(diǎn)是造成大量的人力和財(cái)力的浪費(fèi),并且耗時(shí)長(zhǎng)。因此,亟需一種基于文本挖 掘和語義理解的故障識(shí)別與分類模型,用于故障的一致性判斷。

【發(fā)明內(nèi)容】

[0004] 針對(duì)現(xiàn)有技術(shù)存在的上述問題,本發(fā)明提出了一種故障碼識(shí)別和分類平臺(tái),采用 樸素貝葉斯分類器和文本余弦相似度等技術(shù),能自動(dòng)地判斷某故障碼是否可識(shí)別并進(jìn)行準(zhǔn) 確的分類。
[0005] -方面,本發(fā)明提供了故障碼識(shí)別和分類平臺(tái),包括:
[0006] 構(gòu)建分類器單元,利用訓(xùn)練數(shù)據(jù)集構(gòu)建樸素貝葉斯分類器;
[0007] 分類單元,對(duì)新故障碼進(jìn)行具體分類。
[000引具體的,構(gòu)建分類器單元中的樸素貝葉斯分類器的步驟為:
[0009] S1:對(duì)訓(xùn)練集中的故障碼進(jìn)行人工分類;
[0010] S2:將每個(gè)類別中的故障碼進(jìn)行分詞并計(jì)算每個(gè)詞的TF-IDF權(quán)重值;
[0011] S3:根據(jù)TF-IDF權(quán)重值篩選出特征詞并建立特征詞庫(kù);
[0012] S4:分別計(jì)算每個(gè)類別中特征詞在該類別條件下的條件概率;
[0013] S5:構(gòu)建樸素貝葉斯分類器。
[0014] 具體的,步驟S2中的
TFi為特征詞i的詞頻;wi為特征詞i在所有故障 碼中出現(xiàn)的次數(shù),Ejwj表示故障碼中所有特征詞的出現(xiàn)次數(shù)總和。
[001引具體的,步驟S2中於
IDFi為特征詞i的逆向文件 頻率;E為語料庫(kù)中故障碼的總數(shù),化:wieek}表示包含特征詞i的故障碼數(shù)。
[0016] 具體的,步驟S2中的TF-IDF權(quán)重值為:
[0017] TF-IDF = TFXIDF
[0018] TF-IDF權(quán)重值是詞頻與逆向文件頻率的乘積。
[0019] 具體的,步驟S1故障碼進(jìn)行人工分類后的類別集為C:
[0020] c={ci,C2,...,Ci,...,Cn}。
[0021] 具體的,將故障碼e定義成若干個(gè)特征詞的集合:
[0022] e = {wi,W2,...,Wn}。
[0023] 具體的,依據(jù)貝葉斯定理計(jì)算出某個(gè)故障碼e屬于Cl類故障的概率,具體公式如 下:
[0024] P(ci|e)Kp(e|ci)Pki)
[0025] 其中,Pki)為一個(gè)故障碼類別Cl在故障碼空間所占比率;P(e| Cl)為對(duì)于給定的故 障碼類別Cl中故障碼e的出現(xiàn)概率;計(jì)算某個(gè)故障碼在每個(gè)分類中概率,取擁有最大概率值 的類別為該故障碼的分類結(jié)果,具體為:
[0026] G(e)三argmax{P(e I Ci)P(;Ci)}。
[0027] 更具體的,分類單元中的對(duì)新故障碼進(jìn)行具體分類,設(shè)在類別i中的故障碼為ei, 同時(shí)還有個(gè)待匹配的故障碼enew:
[00%]步驟1:由運(yùn)兩組的特征詞集合構(gòu)成一個(gè)向量空間:
[0029] 步驟2:結(jié)合向量空間,分別得到兩個(gè)故障碼的詞向量值:
[0030] 步驟3:利用余弦相似度計(jì)算兩個(gè)故障碼近似情況;
[0031] 步驟4:如果所計(jì)算的相似度值大于闊值,則可W判斷運(yùn)兩個(gè)故障碼是相同的;如 果所計(jì)算的相似度值小于闊值,則繼續(xù)與已知故障碼庫(kù)中的其他類別故障碼進(jìn)行余弦相似 度計(jì)算。
[0032] 更具體的,步驟S3中判斷兩個(gè)故障碼近似情況,具體公式如下:
[0033]
[0034] 本發(fā)明由于采用W上技術(shù)方法,能夠取得如下的技術(shù)效果:準(zhǔn)確地自動(dòng)分類不同 車型的故障碼,將數(shù)W億級(jí)的故障碼進(jìn)行收斂,實(shí)現(xiàn)不同車廠車型間故障問題、解決方案的 探索。能節(jié)省大量的勞動(dòng)力,縮短工作周期,降低成本。
【附圖說明】
[0035] 為了更清楚的說明本發(fā)明的實(shí)施例或現(xiàn)有技術(shù)的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn) 有技術(shù)描述中所需要使用的附圖做一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是 本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可 W根據(jù)運(yùn)些附圖獲得其他的附圖。
[0036] 圖1為構(gòu)建分類器中的構(gòu)建樸素貝葉斯分類器方法流程圖;
[0037] 圖2為分類單元對(duì)新故障碼進(jìn)行具體分類流程圖。
【具體實(shí)施方式】
[0038] 為使本發(fā)明的實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚完整的描述:
[0039] 實(shí)施例1
[0040] 故障碼識(shí)別和分類的方法,包括:
[0041 ]構(gòu)建分類器單元,訓(xùn)練數(shù)據(jù)集構(gòu)建樸素貝葉斯分類器,具體步驟為:
[0042] S1:對(duì)訓(xùn)練集中的故障碼進(jìn)行人工分類,人工分類后的類別集為C:
[0043] c={ci,C2,...,Ci,...,Cn};
[0044] S2:將每個(gè)類別中的故障碼進(jìn)行分詞并計(jì)算每個(gè)詞的TF-IDF權(quán)重值;
[0045]
[0046] TFi為特征詞i的詞頻;wi為特征詞i在所有故障碼中出現(xiàn)的次數(shù),Ejwj表示故障碼 中所有特征詞的出現(xiàn)次數(shù)總和;
[0047]
[004引IDF功特征詞i的逆向文件頻率;E為語料庫(kù)中故障碼的總數(shù),化:Wieek}表示包含 特征詞i的故障碼數(shù);
[0049] TF-IDF權(quán)重值為:TF-IDF = TF X IDF,也就是是詞頻與逆向文件頻率的乘積;
[0050] S3:根據(jù)TF-IDF權(quán)重值篩選出特征詞并建立特征詞庫(kù),將故障碼e定義成若干個(gè)特 征詞的集合:
[0051] e = {wi,W2,...,Wn}
[0052] S4:分別計(jì)算每個(gè)類別中特征詞在該類別條件下的條件概率,依據(jù)貝葉斯定理計(jì) 算出某個(gè)故障碼e屬于Cl類故障的概率,具體公式如下:
[0053] P(ci|e) = [P(e|ci| )Pki)]/P(e)
[0054] 其中,P(e)為從故障碼空間中隨機(jī)抽取一個(gè)故障碼e的概率;P(ci)為一個(gè)故障碼 類別Cl在故障碼空間所占比率;P(e|ci)為對(duì)于給定的故障碼類別Cl中故障碼e的出現(xiàn)概率;
[0055] 對(duì)于每個(gè)故障碼類別而言,從故障碼空間中隨機(jī)抽取一個(gè)故障碼的概率都是一樣 的,因此P(e)可W忽略不予計(jì)算,運(yùn)樣公式(1)就可W寫成如下形式:
[0056] P(ci|e)Kp(e|ci)Pki)
[0057] 計(jì)算某個(gè)故障碼在每個(gè)分類中概率,取擁有最大概率值的類別為該故障碼的分類 結(jié)果,具體為:
[0化引 G(e)三argmax{P(e I cOPki)}。
[0化9] S5:構(gòu)建樸素貝葉斯分類器。
[0060] 分類單元對(duì)新故障碼進(jìn)行具體分類,具體為:
[0061] 設(shè)在類別i中的故障碼為ei,同時(shí)還有個(gè)待匹配的故障碼enew,它們的分詞情況如 下:
[0064]步驟1:由運(yùn)兩組的特征詞集合構(gòu)成一個(gè)向量空間:
[00 化]
[0066]步驟2:結(jié)合向量空間,分別得到兩個(gè)故障碼的詞向量值:
[0069] 步驟3:利用余弦相似度計(jì)算兩個(gè)故障碼近似情況,具體公式如下:
[0070]
[0071] 步驟4:如果所計(jì)算的相似度值大于80%,則可W判斷運(yùn)兩個(gè)故障碼是相同的;如 果所計(jì)算的相似度值小于闊值,則繼續(xù)與已知故障碼庫(kù)中的其他類別故障碼進(jìn)行余弦相似 度計(jì)算。
[0072] 本發(fā)明能準(zhǔn)確地自動(dòng)分類不同車型的故障碼,給出恰當(dāng)?shù)南鄳?yīng)解決方案。因此,可 W節(jié)省大量的勞動(dòng)力,縮短工作周期,降低成本。
[0073] W上所述,僅為本發(fā)明較佳的【具體實(shí)施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),根據(jù)本發(fā)明的技術(shù)方案及其 發(fā)明構(gòu)思加 W等同替換或改變,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 故障碼識(shí)別和分類平臺(tái),其特征在于,包括: 構(gòu)建分類器單元,利用訓(xùn)練數(shù)據(jù)集構(gòu)建樸素貝葉斯分類器; 分類單元,對(duì)新故障碼進(jìn)行具體分類。2. 根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,構(gòu)建分類器單元中的樸 素貝葉斯分類器的步驟為: S1:對(duì)訓(xùn)練集中的故障碼進(jìn)行人工分類; S2:將每個(gè)類別中的故障碼進(jìn)行分詞并計(jì)算每個(gè)詞的TF-IDF權(quán)重值; S3:根據(jù)TF-IDF權(quán)重值篩選出特征詞并建立特征詞庫(kù); S4:分別計(jì)算每個(gè)類別中特征詞在該類別條件下的條件概率; S5:構(gòu)建樸素貝葉斯分類器。3. 根據(jù)權(quán)利要求2所述的故障碼識(shí)別和分類平臺(tái),其特征在于,步驟S2中的'TFA特征詞i的詞頻;^為特征詞i在所有故障碼中出現(xiàn)的次數(shù),Σ W表示故 障碼中所有特征詞的出現(xiàn)次數(shù)總和。4. 根據(jù)權(quán)利要求2所述的故障碼識(shí)別和分類平臺(tái),其特征在于,步驟S2中的IDFi為特征詞i的逆向文件頻率;E為語料庫(kù)中故障碼的總 數(shù),{k:Wleek}表示包含特征詞i的故障碼數(shù)。5. 根據(jù)權(quán)利要求3或4所述的故障碼識(shí)別和分類平臺(tái),其特征在于,步驟S2中的TF-IDF 權(quán)重值為: TF-IDF = TFXIDF TF-IDF權(quán)重值是詞頻與逆向文件頻率的乘積。6. 根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,步驟S1故障碼進(jìn)行人工 分類后的類別集為c: C= {ci,C2,…,Ci,…,Cn} 〇7. 根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,將故障碼e定義成若干 個(gè)特征詞的集合: e= {wi,W2,…,Wn} 〇8. 根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,依據(jù)貝葉斯定理計(jì)算出 某個(gè)故障碼e屬于Cl類故障的概率,具體公式如下: P(ci | e) 〇〇P(e I Ci)P(ci) 其中,P(Cl)為一個(gè)故障碼類別Cl在故障碼空間所占比率;P(eUi)為對(duì)于給定的故障碼 類別ci中故障碼e的出現(xiàn)概率;計(jì)算某個(gè)故障碼在每個(gè)分類中概率,取擁有最大概率值的類 別為該故障碼的分類結(jié)果,具體為: G(e) = argmax{P(e | Ci)P(ci)} 〇9. 根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,分類單元對(duì)新故障碼進(jìn) 行具體分類,設(shè)在類別i中的故障碼為ei,同時(shí)還有個(gè)待匹配的故障碼e new: 步驟1:由這兩組的特征詞集合構(gòu)成一個(gè)向量空間: 步驟2:結(jié)合向量空間,分別得到兩個(gè)故障碼的詞向量值: 步驟3:利用余弦相似度計(jì)算兩個(gè)故障碼近似情況; 步驟4:如果所計(jì)算的相似度值大于閾值,則可以判斷這兩個(gè)故障碼是相同的;如果所 計(jì)算的相似度值小于閾值,則繼續(xù)與已知故障碼庫(kù)中的其他類別故障碼進(jìn)行余弦相似度計(jì) 算。10.根據(jù)權(quán)利要求1所述的故障碼識(shí)別和分類平臺(tái),其特征在于,步驟S3中判斷兩個(gè)故 障碼近似情況,具體公式如下:
【文檔編號(hào)】G06K9/62GK106067037SQ201610365705
【公開日】2016年11月2日
【申請(qǐng)日】2016年5月27日 公開號(hào)201610365705.2, CN 106067037 A, CN 106067037A, CN 201610365705, CN-A-106067037, CN106067037 A, CN106067037A, CN201610365705, CN201610365705.2
【發(fā)明人】田雨農(nóng), 張輝
【申請(qǐng)人】大連樓蘭科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1