一種企業(yè)關聯(lián)關系識別方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及關聯(lián)企業(yè)識別技術領域,具體涉及一種企業(yè)關聯(lián)關系識別方法及系統(tǒng)。
【背景技術】
[0002]隨著近幾年市場經(jīng)濟的飛速發(fā)展及國家對創(chuàng)業(yè)者的鼓勵及扶持,越來越多得大中型小型企業(yè)被注冊;同時隨著互聯(lián)網(wǎng)的高速發(fā)展,企業(yè)的登記信息、股東信息、變更信息等都變得越來越透明,甚至可以直接在互聯(lián)網(wǎng)上查到?,F(xiàn)有的企業(yè)信息查詢技術主要存在以下問題:
[0003]1.互聯(lián)網(wǎng)上找到的信息都是松散的、針對單個企業(yè)的個體,并沒有針對企業(yè)與企業(yè)、企業(yè)與個人之間的關聯(lián)關系。
[0004]2.互聯(lián)網(wǎng)上找到的信息錯蹤亂雜,標準不統(tǒng)一,如若想知道兩個企業(yè)間的關系,只能人工查找整理,或是去各地工商局走各種流程申請查詢,然后人工整理關聯(lián)。
[0005]3.直接獲取的數(shù)據(jù)字段通常包含大量的特殊字符、中間字符等,對于數(shù)據(jù)字段的準確識別產(chǎn)生極大的影響,降低數(shù)據(jù)提取的準確率。
[0006]4.不能從直接獲取的大量數(shù)據(jù)字段中準確提取出有用的數(shù)據(jù)信息,更不能根據(jù)提取的數(shù)據(jù)字段準確判斷出該數(shù)據(jù)字段是代表企業(yè)還是代表個人,這為以后的數(shù)據(jù)關聯(lián)關系識別造成了極大的困難。
【發(fā)明內(nèi)容】
[0007]本發(fā)明的目的就是為了解決上述問題,提出了一種企業(yè)關聯(lián)關系識別方法及系統(tǒng),該方法及系統(tǒng)能夠實現(xiàn)自動將有關系的企業(yè)關聯(lián)起來,使之可以快速的查找企業(yè)與企業(yè)之前的關系,無需人工查找與整理,極大地提高了工作效率。
[0008]為了實現(xiàn)上述目的,本發(fā)明采用如下技術方案:
[0009]一種企業(yè)關聯(lián)關系識別方法,包括:
[0010]在一個服務器執(zhí)行該方法,所述服務器包括一個或多個處理器以及用于存儲由所述一個或多個處理器執(zhí)行的程序的存儲器;
[0011](I)建立統(tǒng)一數(shù)據(jù)格式的企業(yè)相關數(shù)據(jù)庫,所述數(shù)據(jù)庫包括基本數(shù)據(jù)庫和關聯(lián)數(shù)據(jù)庫;
[0012](2)通過網(wǎng)絡技術采集設定區(qū)域的企業(yè)相關數(shù)據(jù),并將所述數(shù)據(jù)進行格式轉換后存儲至基本數(shù)據(jù)庫;
[0013](3)調(diào)取企業(yè)相關數(shù)據(jù)庫中每個企業(yè)的相關數(shù)據(jù)字段,對所述數(shù)據(jù)字段進行預處理,提取出代表企業(yè)相關信息的數(shù)據(jù)字段并存入基本數(shù)據(jù)庫;
[0014](4)提取企業(yè)股東數(shù)據(jù)字段,判斷所述數(shù)據(jù)字段是個人還是企業(yè),并將判斷結果存入基本數(shù)據(jù)庫中相應企業(yè)的存儲路徑下;
[0015](5)對同一企業(yè)進行數(shù)據(jù)對接:將企業(yè)名稱字段相同或者企業(yè)注冊號字段相同的企業(yè),合并至相同的存儲路徑下;
[0016](6)建立不同企業(yè)之間的數(shù)據(jù)關聯(lián):如果企業(yè)股東為另一企業(yè)名稱,則將兩企業(yè)進行關聯(lián);如果兩個企業(yè)擁有相同名稱字段的人員,則將兩企業(yè)的存儲路徑進行關聯(lián);將所述關聯(lián)信息存入關聯(lián)數(shù)據(jù)庫;
[0017](7)用戶客戶端進行關聯(lián)企業(yè)信息查詢時,從關聯(lián)數(shù)據(jù)庫中調(diào)取關聯(lián)企業(yè),并從基本數(shù)據(jù)庫中查詢關聯(lián)企業(yè)的基本信息。
[0018]所述步驟(2)中通過網(wǎng)絡爬蟲手段采集設定區(qū)域的企業(yè)信息,所述企業(yè)信息包括但不限于:企業(yè)登記信息、股東信息、變更信息、經(jīng)營地址和聯(lián)系電話。
[0019]所述步驟(3)中調(diào)取企業(yè)相關數(shù)據(jù)庫中每個企業(yè)的相關數(shù)據(jù)字段,對所述數(shù)據(jù)字段進行預處理的方法包括:
[0020]去除所述數(shù)據(jù)字段的首尾特殊字符;
[0021]判斷所述數(shù)據(jù)字段是否包含英文,如果是,則不處理;如果否,根據(jù)中間字符將所述數(shù)據(jù)字段分成多個字段;
[0022]判斷分割后的字段長度是否大于設定的長度,如果是,將分割后的字段按多個字段進行處理;否則,去除特殊字符后,合并所有分割字段。
[0023]所述步驟(3)中代表企業(yè)相關信息的數(shù)據(jù)字段包括但不限于:企業(yè)名稱、股東信息、主要負責人和經(jīng)營人。
[0024]所述步驟(4)的具體方法為:
[0025]I)調(diào)取所有企業(yè)名稱的前兩位及后兩位字符,并統(tǒng)計其出現(xiàn)頻率;
[0026]2)將出現(xiàn)頻率大于設定頻率閾值t的字符,保存至集合M中;
[0027]3)提取企業(yè)A的股東數(shù)據(jù)字段,判斷字符長度是否大于設定長度,如果是,進入步驟4);否則,判斷為個人;
[0028]4)提取所述企業(yè)A的股東數(shù)據(jù)字段的前兩位字符,判斷所述字符是否出現(xiàn)在集合M中,如果是,判斷為企業(yè);否則,進入步驟5);
[0029]5)提取所述企業(yè)A的股東數(shù)據(jù)字段的后兩位字符,判斷所述字符是否出現(xiàn)在集合M中,如果是,判斷為企業(yè);否則,判斷為個人。
[0030]一種企業(yè)關聯(lián)關系識別的裝置,包括:
[0031]—個服務器,所述服務器包括一個或多個處理器以及用于存儲由所述一個或多個處理器執(zhí)行的程序的存儲器;
[0032]基本數(shù)據(jù)庫和關聯(lián)數(shù)據(jù)庫;
[0033]通過網(wǎng)絡技術采集設定區(qū)域的企業(yè)相關數(shù)據(jù)的單元,將所述數(shù)據(jù)進行格式轉換的單元,以及將轉換后數(shù)據(jù)存儲至基本數(shù)據(jù)庫的單元;
[0034]調(diào)取企業(yè)相關數(shù)據(jù)庫中每個企業(yè)的相關數(shù)據(jù)字段的單元,對所述數(shù)據(jù)字段進行預處理的單元,提取出代表企業(yè)相關信息的數(shù)據(jù)字段并存入基本數(shù)據(jù)庫的單元;
[0035]提取企業(yè)股東數(shù)據(jù)字段的單元,判斷所述數(shù)據(jù)字段是個人還是企業(yè)的單元,將判斷結果存入基本數(shù)據(jù)庫中相應企業(yè)的存儲路徑下的單元;
[0036]對同一企業(yè)進行數(shù)據(jù)對接的單元:將企業(yè)名稱字段相同或者企業(yè)注冊號字段相同的企業(yè),合并至相同的存儲路徑下;
[0037](6)建立不同企業(yè)之間的數(shù)據(jù)關聯(lián)的單元:如果企業(yè)股東為另一企業(yè)名稱,則將兩企業(yè)進行關聯(lián);如果兩個企業(yè)擁有相同名稱字段的人員,則將兩企業(yè)進行關聯(lián);將所述關聯(lián)信息存入關聯(lián)數(shù)據(jù)庫;
[0038]進行關聯(lián)企業(yè)信息查詢的單元:從關聯(lián)數(shù)據(jù)庫中調(diào)取關聯(lián)企業(yè),并從基本數(shù)據(jù)庫中查詢關聯(lián)企業(yè)的基本信息。
[0039]通過網(wǎng)絡爬蟲手段采集設定區(qū)域的企業(yè)信息,所述企業(yè)信息包括但不限于:企業(yè)登記信息、股東信息、變更信息、經(jīng)營地址和聯(lián)系電話。
[0040]對所述數(shù)據(jù)字段進行預處理的單元包括:
[0041]去除所述數(shù)據(jù)字段的首尾特殊字符的單元;
[0042]判斷所述數(shù)據(jù)字段是否包含英文的單元,根據(jù)中間字符將所述數(shù)據(jù)字段分成多個字段的單元;
[0043]判斷分割后的字段長度是否大于設定的長度的單元以及對分割后數(shù)據(jù)字段進行處理的單元。
[0044]代表企業(yè)相關信息的數(shù)據(jù)字段包括但不限于:企業(yè)名稱、股東信息、主要負責人和經(jīng)營人。
[0045]判斷所述數(shù)據(jù)字段是個人還是企業(yè)的單元包括:
[0046]調(diào)取所有企業(yè)名稱的前兩位及后兩位字符,并統(tǒng)計其出現(xiàn)頻率的單元;
[0047]將出現(xiàn)頻率大于設定頻率閾值t的字符,保存至集合M中的單元;
[0048]提取企業(yè)A的股東數(shù)據(jù)字段,判斷字符長度是否大于設定長度的單元;
[0049]提取所述企業(yè)A的股東數(shù)據(jù)字段的前兩位字符,判斷所述字符是否出現(xiàn)在集合M中的單元;
[0050]提取所述企業(yè)A的股東數(shù)據(jù)字段的后兩位字符,判斷所述字符是否出現(xiàn)在集合M中的單元。
[0051]本發(fā)明的有益效果是:
[0052]對數(shù)據(jù)字段進行預處理,可以從大量的雜亂無章的、無規(guī)則的數(shù)據(jù)中提取出對本系統(tǒng)有用的正確的企業(yè)名稱及