本發(fā)明涉及一種通過分詞形式規(guī)范企業(yè)名稱的方法。
背景技術(shù):
:隨著信息技術(shù)的飛速發(fā)展,企業(yè)決策分析中對(duì)數(shù)據(jù)的準(zhǔn)確性依賴越來越強(qiáng),企業(yè)名稱的完整性直接影響到后期的統(tǒng)計(jì)分析及企業(yè)決策,因此企業(yè)名稱的標(biāo)準(zhǔn)化處理非常重要。通常情況下,注冊(cè)公司名稱的組成是由行政區(qū)劃、字號(hào)、行業(yè)特點(diǎn)、組織形式依次組成,具體說明:行政區(qū)劃:是國家為了進(jìn)行分級(jí)管理而實(shí)行的區(qū)域劃分。字號(hào):應(yīng)當(dāng)由2個(gè)以上漢字組成,行政區(qū)劃不得用作字號(hào),但縣以上行政區(qū)劃地名具有其他含義的除外。企業(yè)名稱也可以使用自然人或者投資人的姓名作為公司字號(hào)。行業(yè)特點(diǎn):應(yīng)當(dāng)是反映企業(yè)經(jīng)濟(jì)活動(dòng)性質(zhì)所屬國民經(jīng)濟(jì)行業(yè)或者企業(yè)經(jīng)營特點(diǎn)的用語。企業(yè)名稱中行業(yè)用語表述的內(nèi)容應(yīng)當(dāng)與企業(yè)經(jīng)營范圍一致。企業(yè)經(jīng)濟(jì)活動(dòng)性質(zhì)分別屬于國民經(jīng)濟(jì)行業(yè)不同大類的應(yīng)當(dāng)選擇主要經(jīng)濟(jì)活動(dòng)性質(zhì)所屬國民經(jīng)濟(jì)行業(yè)類別用語表述企業(yè)名稱中的行業(yè)。組織形式:根據(jù)企業(yè)經(jīng)濟(jì)活動(dòng)性質(zhì)與國家有關(guān)法律法規(guī)確定的,有限公司、有限責(zé)任公司或者股份有限公司;工商注冊(cè)時(shí),企業(yè)注冊(cè)的名稱格式大約分為3種:行政區(qū)劃名+字號(hào)+行業(yè)特點(diǎn)+組織形式,如:濟(jì)南托普沃信息科技有限公司字號(hào)+(行政區(qū)劃名)+行業(yè)特點(diǎn)+組織形式,如:途牛(南京)信息技術(shù)有限公司字號(hào)+行業(yè)特點(diǎn)+組織形式,如:小米科技有限責(zé)任公司而在實(shí)際的企業(yè)錄入過程中,記錄人員往往會(huì)往企業(yè)名稱上添加很多場(chǎng)景信息,例如:人名信息、手機(jī)號(hào)、特殊符號(hào)、日期等。這些不規(guī)范的企業(yè)名稱在做統(tǒng)計(jì)分析之前,必須進(jìn)行企業(yè)名稱規(guī)范化處理?,F(xiàn)階段的企業(yè)名稱規(guī)范化處理,即便去掉了名稱中的亂碼,規(guī)范了名稱的格式,但是效果仍然不明顯,后續(xù)人工數(shù)據(jù)清洗工作量還是非常巨大,企業(yè)必須為此花費(fèi)很多資源。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是為克服上述現(xiàn)有技術(shù)的不足,提供了一種通過分詞形式規(guī)范企業(yè)名稱的方法。為實(shí)現(xiàn)上述目的,本發(fā)明采用下述技術(shù)方案:一種通過分詞形式規(guī)范企業(yè)名稱的方法,根據(jù)銷售記錄中的企業(yè)名稱的中文詞庫,將其中文詞庫中客戶的名稱信息歸納定義為12類詞性,通過這12類的詞性,對(duì)記錄中的客戶名稱進(jìn)行分詞處理。具體實(shí)現(xiàn)步驟如下:一、接收企業(yè)名稱:接收需要處理的企業(yè)名稱;二、企業(yè)名稱標(biāo)準(zhǔn)化:對(duì)企業(yè)名稱格式進(jìn)行規(guī)范化處理,依次包括名稱亂碼處理、附加信息清除處理、符號(hào)處理、數(shù)字轉(zhuǎn)義處理、語義轉(zhuǎn)化處理和輸出規(guī)范名稱處理步驟;三、企業(yè)名稱分詞:對(duì)名稱進(jìn)行分詞處理,包括傳入第二步輸出的企業(yè)規(guī)范名稱、標(biāo)準(zhǔn)省市識(shí)別、標(biāo)準(zhǔn)單詞處理、清理冗余詞語、數(shù)字信息識(shí)別、終端嵌套處理和生成分詞步驟;四、輸出分詞后的企業(yè)名稱:輸出結(jié)果進(jìn)行匯總、比對(duì)。本發(fā)明的有益效果是:本發(fā)明可以通過對(duì)企業(yè)客戶信息中雜亂不規(guī)范的客戶信息進(jìn)行篩分處理,能將錄入的客戶信息根據(jù)地區(qū)、公司性質(zhì)、行業(yè)特點(diǎn)等進(jìn)行自動(dòng)分類標(biāo)示,方便統(tǒng)計(jì)和調(diào)用,減少了大量的人工清洗名稱的工作,對(duì)企業(yè)后期統(tǒng)計(jì)分析及企業(yè)決策提供很好的便利性。附圖說明為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為12類詞性說明;圖2為企業(yè)名稱進(jìn)行規(guī)范化處理流程圖;圖3為對(duì)企業(yè)名稱進(jìn)行分詞處理流程圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。一種通過分詞形式規(guī)范企業(yè)名稱的方法,根據(jù)銷售記錄中的企業(yè)名稱的中文詞庫,將其中文詞庫中客戶的名稱信息歸納定義為圖1中的12類詞性,通過這12類的詞性,對(duì)記錄中的客戶名稱進(jìn)行分詞處理。具體實(shí)現(xiàn)步驟如下:一、接收需要處理的企業(yè)名稱,例如:#南京秦淮中國人民解放軍空軍航空醫(yī)學(xué)研究所附屬醫(yī)院(原:解放軍454院陳大夫tel:02584543211%s。二、名稱標(biāo)準(zhǔn)化分詞之前,首先對(duì)企業(yè)名稱進(jìn)行規(guī)范化處理,具體流程如下圖2所示。流程說明:接受企業(yè)名稱:#南京秦淮中國人民解放軍空軍航空醫(yī)學(xué)研究所附屬醫(yī)院(原:解放軍454院陳大夫tel:02584543211%s。對(duì)名稱進(jìn)行亂碼處理,例如:對(duì)企業(yè)名稱中附加信息進(jìn)行清理,例如:對(duì)企業(yè)名稱中出現(xiàn)的符號(hào)進(jìn)行規(guī)范,例如:對(duì)企業(yè)名稱中出現(xiàn)的數(shù)字進(jìn)行轉(zhuǎn)義化處理,例如:對(duì)專有名詞進(jìn)行語義化處理,例如:輸出整理后的規(guī)范企業(yè)名稱:南京秦淮空軍航空醫(yī)學(xué)研究所附屬醫(yī)院(原:解放軍第四五四醫(yī)院)。三、對(duì)企業(yè)名稱進(jìn)行分詞對(duì)整理規(guī)范的企業(yè)名稱進(jìn)行分詞處理,步驟如附圖3所示。流程說明:接受企業(yè)名稱:南京秦淮空軍航空醫(yī)學(xué)研究所附屬醫(yī)院(原:解放軍四五四院)。標(biāo)準(zhǔn)省市識(shí)別處理,例如:名稱轉(zhuǎn)化后南京p320101|p秦淮p320104|p對(duì)標(biāo)準(zhǔn)單次進(jìn)行處理,例如:名稱轉(zhuǎn)化后航空醫(yī)學(xué)研究所航空|k醫(yī)研所|c清洗冗余詞語,例如:名稱轉(zhuǎn)化后南京秦淮p320104|p數(shù)字識(shí)別處理,例如:清洗名稱清洗后名稱四五四p四五四|m對(duì)終端嵌套處理,例如:輸出整理后的分詞企業(yè)名稱:p320104|p空軍|b航空|k醫(yī)研所|c附|n醫(yī)院|z(解放軍|b四五四|m醫(yī)院|z)。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12