到高進(jìn)行排序,并向用戶推薦相似度較低的名 稱;
[0033] 步驟四,選取名稱,如果用戶選擇了某名稱,則該名稱自動錄入數(shù)據(jù)庫,以便于下 次查詢。
[0034] 文本相似度查詢多用于學(xué)術(shù)不端查詢系統(tǒng),目前主流的相似度查詢方法有余弦相 似度算法和編輯距離相似度算法(EditDistance算法)。
[0035] 余弦相似度算法是通過將兩篇文章的文字(或詞匯)轉(zhuǎn)換成兩個空間向量,通過 計算兩個空間向量夾角的余弦值來度量它們之間的相似性。余弦相似度算法主要用于實現(xiàn) 大篇幅文本相似度查詢,效率較高,正確率低,實現(xiàn)較為復(fù)雜。編輯距離相似度算法指的是 兩個字符串之間,由一個轉(zhuǎn)換成另一個所需的最少編輯操作次數(shù)。許可的編輯操作包括將 一個字符替換成另一個字符,插入一個字符,刪除一個字符。編輯距離算法是首先由俄國科 學(xué)家Levenshtein提出的,故又叫Levenshtein Distance算法。編輯距離相似度算法效率 較低,正確率高,實現(xiàn)簡單,多用于模糊查詢。本項目中主要計算線路名稱的相似度,線路名 稱漢字較少,不存在效率低的問題,所以采用編輯距離相似度算法。
[0036] 將需要比對的兩個名稱分別轉(zhuǎn)換成漢語拼音字符串,再計算兩個漢語拼音字符串 的相似度,以此作為兩個名稱的發(fā)音相似度。
[0037] 舉例說明kitten和sitting之間的相似度。
[0038] 定義:相似度=1_1八編輯距離+1)。
[0039] 給出字符串si=kitten,字符串s2 =sitting,長度分別是m= 6和η= 7。構(gòu) 造一個初始矩陣D= (m+l)X(n+l),在表中矩陣D為陰影部分。其中第一行賦值0-m,第一 列賦值0-n。給每個矩陣元素賦值,賦值規(guī)則如下:如果當(dāng)前元素current對應(yīng)的上面si 和左側(cè)s2中的字符相同,那么設(shè)cost為0,否則為1。比較當(dāng)前賦值元素current的左邊 的值(left),上面的值(top),左上角的值(left-top),取最小值min。如果min是left或top,那么current=min+1,否則current=min+cost〇
[0040]
[0041]
[0042] 以元素D[l,1]為例,D[l,1]左側(cè)、上面、左上角的三個值中最小為0,是左上角的 值,min= 0,而D[l,1]對應(yīng)的si和s2的字符分別為s和k,兩字符不同,所以cost= 1, D[l, 1] =min+cost= 0+1 = 1。根據(jù)此方法依次計算剩余的元素,結(jié)果如下:
[0043]
[0044] D[m,n]就是兩個字符串的編輯距離。在此例中,D[m,n] = 3,則kitten和sitting 之間的相似度計算為1-1Λ3+1)X100%= 75%。
[0045] 根據(jù)以上編輯距離相似度算法,可將通過局部全排序算法生成的備用名稱逐個轉(zhuǎn) 換成漢語拼音字符串,再將當(dāng)前數(shù)據(jù)庫中的所有的名稱轉(zhuǎn)換層漢語拼音字符串,將兩個字 符串進(jìn)行相似度比對,自動剔除相似度高的名稱,比如重音、重名等,將相似發(fā)音、相近發(fā)音 按照相似度排序,向軟件使用者推薦相似度最低名稱。如果該名稱被采用,則自動錄入數(shù)據(jù) 庫,已備下次查詢。
[0046] 上述實施例僅例示性說明本發(fā)明的原理及其功效,而非用于限制本發(fā)明。任何熟 悉此技術(shù)的人士皆可在不違背本發(fā)明的精神及范疇下,對上述實施例進(jìn)行修飾或改變。因 此,舉凡所屬技術(shù)領(lǐng)域中具有通常知識者在未脫離本發(fā)明所揭示的精神與技術(shù)思想下所完 成的一切等效修飾或改變,仍應(yīng)由本發(fā)明的權(quán)利要求所涵蓋。
【主權(quán)項】
1. 一種電力線路智能命名系統(tǒng),其特征在于,包括: 數(shù)據(jù)庫的建立,搜集不同地域的輸電線路條數(shù)、線路名稱,錄入數(shù)據(jù)庫。 線路名稱命名,根據(jù)獲取的關(guān)鍵字,按照設(shè)定的算法自動生成一系列線路名稱,并將每 一個新生成的名稱與數(shù)據(jù)庫中已存在的線路名稱進(jìn)行對比查詢,向用戶推薦該名稱;如果 用戶選擇了該名稱,則該名稱自動錄入數(shù)據(jù)庫,以便于下次查詢。2. 根據(jù)權(quán)利要求1所述的電力線路智能命名系統(tǒng),其特征在于,線路名稱命名的具體 步驟為: 步驟一,開始:用戶填寫關(guān)鍵字; 步驟二,生成初始名稱:根據(jù)使用者填寫的送端關(guān)鍵字、受端關(guān)鍵字和備選關(guān)鍵字,軟 件按照排序算法自動生成一系列線路名稱; 步驟三,名稱比對:將每一個初始名稱與選定數(shù)據(jù)庫中已存在的線路名稱轉(zhuǎn)換成漢語 拼音字符串,將以上兩個漢語拼音字符串進(jìn)行相似度查詢并排序,如果發(fā)生重型、重音、近 似音則自動剔除,否則根據(jù)相似度由低到高進(jìn)行排序,并向用戶推薦相似度較低的名稱; 步驟四,選取名稱,如果用戶選擇了某名稱,則該名稱自動錄入數(shù)據(jù)庫,以便于下次查 詢。3. 根據(jù)權(quán)利要求2所述的電力線路智能命名系統(tǒng),其特征在于,名稱相似度算法采用 編輯距離相似度算法。4. 根據(jù)權(quán)利要求2所述的電力線路智能命名系統(tǒng),其特征在于,生成初始名稱的算法 為局部切空間排列算法。5. 根據(jù)權(quán)利要求2所述的電力線路智能命名系統(tǒng),其特征在于,生成初始名稱的算法 為全排列算法。
【專利摘要】本發(fā)明提供一種電力線路智能命名系統(tǒng),包括:數(shù)據(jù)庫的建立,搜集不同地域的輸電線路條數(shù)、線路名稱,錄入數(shù)據(jù)庫。線路名稱命名,根據(jù)獲取的關(guān)鍵字,按照設(shè)定的算法自動生成一系列線路名稱,并將每一個新生成的名稱與數(shù)據(jù)庫中已存在的線路名稱進(jìn)行對比查詢,向用戶推薦該名稱;如果用戶選擇了該名稱,則該名稱自動錄入數(shù)據(jù)庫,以便于下次查詢。
【IPC分類】G06Q50/06, G06F17/30
【公開號】CN105335899
【申請?zhí)枴緾N201510767312
【發(fā)明人】陳闊, 李振凱, 葛楊, 段立春, 于月平, 吳玉光, 耿洪斌, 魏燕飛, 沈棟, 章一丹, 高學(xué)民, 張英杰, 殷紅旭, 劉仰韶, 張瑞芳
【申請人】國網(wǎng)山東省電力公司德州供電公司, 國家電網(wǎng)公司
【公開日】2016年2月17日
【申請日】2015年11月11日