本發(fā)明涉及計算機網(wǎng)絡技術領域,特別涉及一種對企業(yè)信息中自然語義的專家學習擬合方法及系統(tǒng)。
背景技術:
現(xiàn)有的企業(yè)信息綜合網(wǎng)站,大都是對企業(yè)信息的簡單羅列,并且是主要針對單一企業(yè)的信息匯總和分析?,F(xiàn)有技術的缺點是存在缺少一種對企業(yè)之間的相互關系進行分析的方式。其中,如何分析各個企業(yè)的基本信息,然后通過自然語義的方式對企業(yè)信息的含義進行識別,以實現(xiàn)計算機自動化對該企業(yè)關系分析,是當前需要解決的技術問題。
技術實現(xiàn)要素:
本發(fā)明的目的旨在至少解決所述技術缺陷之一。
為此,本發(fā)明的目的在于提出一種對企業(yè)信息中自然語義的專家學習擬合方法及系統(tǒng)。
為了實現(xiàn)上述目的,本發(fā)明的實施例提供一種對企業(yè)信息中自然語義的專家學習擬合方法,包括:
步驟s1,爬取互聯(lián)網(wǎng)上的企業(yè)名稱和企業(yè)信息;
步驟s2,對獲取的企業(yè)信息進行分詞操作;
步驟s3,建立企業(yè)搜索網(wǎng)站,允許用戶輸入企業(yè)名稱或關鍵詞進行搜索,在向用戶顯示企業(yè)時,將分詞信息嵌入到企業(yè)介紹中,以在接收到用戶的點擊操作時,檢測用戶點擊的詞匯,并自動啟動對該詞匯的搜索;
步驟s4,統(tǒng)計用戶對各個詞語的點擊頻率,過濾出點擊頻率高的多個詞匯作為該企業(yè)的特征詞匯,并利用上述詞匯創(chuàng)立一個新型的字典,所述字典記錄有該企業(yè)的產(chǎn)業(yè)鏈特征詞匯;
步驟s5,將企業(yè)之間共同的特征作為連接點,連接不同的企業(yè),以形成企業(yè)之間的關聯(lián)關系圖;
步驟s6,根據(jù)所述企業(yè)之間的關聯(lián)關系圖,搜索出與該企業(yè)相關的業(yè)務關聯(lián)企業(yè)。
進一步,在所述步驟s1中,爬取的數(shù)據(jù)源包括:企業(yè)官網(wǎng)、廣告黃頁、行業(yè)門戶。
進一步,在所述步驟s2中,采用字典匹配法、詞頻統(tǒng)計法進行分詞操作。
進一步,在所述步驟s4中,將點擊頻率高的詞匯以特殊標記進行突出顯示。
進一步,在所述步驟s5中,所述企業(yè)之間共同的特征包括:多個企業(yè)的特征詞匯中的相同詞匯或近義詞。
本發(fā)明實施例還提供一種對企業(yè)信息中自然語義的專家學習擬合系統(tǒng),包括:爬取模塊,用于爬取互聯(lián)網(wǎng)上的企業(yè)名稱和企業(yè)信息;分詞模塊,用于爬取的企業(yè)信息進行分詞操作;詞匯搜索模塊,用于建立企業(yè)搜索網(wǎng)站,并運行用戶輸入企業(yè)名稱或關鍵詞進行搜索,在向用戶顯示企業(yè)時,將分詞信息嵌入到企業(yè)介紹中,并在接收到用戶的點擊操作時,檢測用戶點擊的詞匯,自動啟動對該詞匯的搜索;過濾及字典建立模塊,用于統(tǒng)計用戶對各個詞語的點擊頻率,過濾出點擊頻率高的多個詞匯作為該企業(yè)的特征詞匯,并利用上述詞匯創(chuàng)立一個新型的字典,其中,所述字典記錄有該企業(yè)的產(chǎn)業(yè)鏈特征詞匯;關聯(lián)關系圖建立模塊,用于將企業(yè)之間共同的特征作為連接點,連接不同的企業(yè),以形成企業(yè)之間的關聯(lián)關系圖;關聯(lián)企業(yè)搜索模塊,用于根據(jù)所述企業(yè)之間的關聯(lián)關系圖,搜索出與該企業(yè)相關的業(yè)務關聯(lián)企業(yè)。
進一步,所述爬取模塊爬取的數(shù)據(jù)源包括:企業(yè)官網(wǎng)、廣告黃頁、行業(yè)門戶。
進一步,所述過濾及字典建立模塊用于采用字典匹配法、詞頻統(tǒng)計法進行分詞操作。
進一步,所述過濾及字典建立模塊用于將點擊頻率高的詞匯以特殊標記進行突出顯示。
進一步,在所述步驟s5中,所述企業(yè)之間共同的特征包括:多個企業(yè)的特征詞匯中的相同詞匯或近義詞。
根據(jù)本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合方法及系統(tǒng),通過建立計算機和專家交互學習系統(tǒng),使得計算機能夠以較高的準確率從企業(yè)介紹文本中識別出描述該企業(yè)特征的詞匯,進而根據(jù)這些特征詞匯構(gòu)造企業(yè)與企業(yè)之間的關聯(lián)關系,然后再次引入專家交互學習系統(tǒng),使得計算機能夠?qū)W習到有關產(chǎn)業(yè)鏈結(jié)構(gòu)的知識,進而自動擬合出相關企業(yè)之間的產(chǎn)業(yè)鏈結(jié)構(gòu),即上下游關系和競爭關系。
本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合方法的流程圖;
圖2為根據(jù)本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合系統(tǒng)的結(jié)構(gòu)圖;
圖3為根據(jù)本發(fā)明實施例的新的搜索的示意圖;
圖4為根據(jù)本發(fā)明實施例的業(yè)務關聯(lián)企業(yè)的示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
如圖1所示,本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合方法,包括如下步驟:
步驟s1,爬取互聯(lián)網(wǎng)上的企業(yè)名稱和企業(yè)信息。
在本發(fā)明的一個實施例中,爬取的數(shù)據(jù)源包括:企業(yè)官網(wǎng)、廣告黃頁、行業(yè)門戶等。需要說明的是,爬取的數(shù)據(jù)源不限于上述舉例,還可以為其他數(shù)據(jù)源,在此不再贅述。
步驟s2,對獲取的企業(yè)信息進行分詞操作。在本步驟中,采用字典匹配法、詞頻統(tǒng)計法進行分詞操作。
下面分別對兩種分詞方法進行說明。
(1)字典匹配法:字典法是根據(jù)字典中的詞匯逐個到文本中查找,查找命中就記錄為一個詞。
(2)詞頻統(tǒng)計法:詞頻法不依賴字典,而是計算文本中任意兩個字同時出現(xiàn)的頻率進行統(tǒng)計,頻率計算以大量自然文本為語料庫,同時出現(xiàn)頻率高的字成為詞的可能性較大。分詞完成后需要去除助詞、副詞、連接詞等等無意義詞,依賴現(xiàn)有通用字典完成。另外還需要建立自己的自定義詞典,將在企業(yè)搜索環(huán)境中意義不大的詞也去除掉,例如“有限”、“公司”、“創(chuàng)新”等詞。
步驟s3,建立企業(yè)搜索網(wǎng)站,允許用戶輸入企業(yè)名稱或關鍵詞進行搜索。網(wǎng)站能夠無廣告干擾地、清晰明確地輸出相關企業(yè)的介紹以及官方網(wǎng)站。這個應用對關注企業(yè)創(chuàng)新和產(chǎn)業(yè)鏈形勢的專家來說是非常有意義的,可以節(jié)約大量時間。
在向用戶顯示企業(yè)時,將分詞信息嵌入到企業(yè)介紹中,以在接收到用戶的點擊操作時,檢測用戶點擊的詞匯,并自動啟動對該詞匯的搜索。即,用戶可以點擊介紹文本中的詞匯發(fā)起一個新的搜索。
如圖3所示,顯示分詞界面,包括多個分詞信息。如果用戶(專家)點擊“移動通訊”則系統(tǒng)會自動發(fā)起一個新的搜索,這個操作方便了專家發(fā)起新的查詢,查詢與當前企業(yè)相關的其它企業(yè)。
步驟s4,統(tǒng)計用戶對各個詞語的點擊頻率,過濾出點擊頻率高的多個詞匯作為該企業(yè)的特征詞匯,并利用上述詞匯創(chuàng)立一個新型的字典,字典記錄有該企業(yè)的產(chǎn)業(yè)鏈特征詞匯。
在本步驟中,將點擊頻率高的詞匯以特殊標記進行突出顯示。
如圖3所示,對于分詞中有些顯然不屬于企業(yè)特征,例如“統(tǒng)一”、“開放”、“創(chuàng)新獎”等等,專家們點擊這些詞發(fā)起新的查詢的概率顯然比較低。而“移動通訊”、“數(shù)碼電子”、“照明”、“手機制造商”等等詞匯被點擊的概率會比較高。因此通過統(tǒng)計專家點擊詞的頻率就可以過濾出該企業(yè)的特征詞匯,當點擊次數(shù)足夠多時就可以建立出一個新的字典,這個字典列舉出了產(chǎn)業(yè)鏈特征詞匯,并且會被不斷豐富完善。計算機在分詞之后可以把這個字典中出現(xiàn)的詞以較高的亮度顯示出來,甚至只顯示字典中出現(xiàn)的詞。
步驟s5,將企業(yè)之間共同的特征作為連接點,連接不同的企業(yè),以形成企業(yè)之間的關聯(lián)關系圖。
需要說明的是,企業(yè)之間共同的特征包括:多個企業(yè)的特征詞匯中的相同詞匯或近義詞。即,共同特征不限于完全相同的企業(yè)特征詞匯,還可以為意義較為相近的特征詞匯,具體如何判斷是否為近義詞可以通過現(xiàn)有的查找近義詞的算法獲取,在此不再贅述。
步驟s6,根據(jù)企業(yè)之間的關聯(lián)關系圖,搜索出與該企業(yè)相關的業(yè)務關聯(lián)企業(yè)。
在本步驟中,將企業(yè)之間共同的特征詞作為連接點連接不同的企業(yè),形成企業(yè)之間的關聯(lián)關系。如圖4所示,通過查詢該圖可以幫助專家快速搜索到業(yè)務關聯(lián)企業(yè)。
參考圖4,公司1包括特征詞1、2、3、6、9;公司2包括特征詞2、3、4、5、6、7;公司3包括特征詞6、7、8、9。從圖中,可以清楚的看出,公司1與公司2的特征詞交集為特征詞2和3,公司1和公司3的特征詞交集為特征詞6和9,公司2和3的特征詞交集為特征詞7。從上述公司之間的特征詞關系,可以快速判斷出企業(yè)之間的相互關系,并進而通過結(jié)構(gòu)化加工就可以更加清晰地顯示競爭關系和上下游關系。
如圖2所示,本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合系統(tǒng),包括:爬取模塊1、分詞模塊2、詞匯搜索模塊3、過濾及字典建立模塊4、關聯(lián)關系圖建立模塊5和關聯(lián)企業(yè)搜索模塊6。
具體的,爬取模塊1用于爬取互聯(lián)網(wǎng)上的企業(yè)名稱和企業(yè)信息。
在本發(fā)明的一個實施例中,爬取模塊1爬取的數(shù)據(jù)源包括:企業(yè)官網(wǎng)、廣告黃頁、行業(yè)門戶。需要說明的是,爬取的數(shù)據(jù)源不限于上述舉例,還可以為其他數(shù)據(jù)源,在此不再贅述。
分詞模塊2用于爬取的企業(yè)信息進行分詞操作。下面分別對兩種分詞方法進行說明。
(1)字典匹配法:字典法是根據(jù)字典中的詞匯逐個到文本中查找,查找命中就記錄為一個詞。
(2)詞頻統(tǒng)計法:詞頻法不依賴字典,而是計算文本中任意兩個字同時出現(xiàn)的頻率進行統(tǒng)計,頻率計算以大量自然文本為語料庫,同時出現(xiàn)頻率高的字成為詞的可能性較大。分詞完成后需要去除助詞、副詞、連接詞等等無意義詞,依賴現(xiàn)有通用字典完成。另外還需要建立自己的自定義詞典,將在企業(yè)搜索環(huán)境中意義不大的詞也去除掉,例如“有限”、“公司”、“創(chuàng)新”等詞。
詞匯搜索模塊3用于建立企業(yè)搜索網(wǎng)站,允許用戶輸入企業(yè)名稱或關鍵詞進行搜索。網(wǎng)站能夠無廣告干擾地、清晰明確地輸出相關企業(yè)的介紹以及官方網(wǎng)站。這個應用對關注企業(yè)創(chuàng)新和產(chǎn)業(yè)鏈形勢的專家來說是非常有意義的,可以節(jié)約大量時間。
詞匯搜索模塊3在向用戶顯示企業(yè)時,將分詞信息嵌入到企業(yè)介紹中,以在接收到用戶的點擊操作時,檢測用戶點擊的詞匯,并自動啟動對該詞匯的搜索。即,用戶可以點擊介紹文本中的詞匯發(fā)起一個新的搜索。
詞匯搜索模塊3用于統(tǒng)計用戶對各個詞語的點擊頻率,過濾出點擊頻率高的多個詞匯作為該企業(yè)的特征詞匯,并利用上述詞匯創(chuàng)立一個新型的字典,其中,字典記錄有該企業(yè)的產(chǎn)業(yè)鏈特征詞匯。
如圖3所示,顯示分詞界面,包括多個分詞信息。如果用戶(專家)點擊“移動通訊”則系統(tǒng)會自動發(fā)起一個新的搜索,這個操作方便了專家發(fā)起新的查詢,查詢與當前企業(yè)相關的其它企業(yè)。
具體地,過濾及字典建立模塊4用于統(tǒng)計用戶對各個詞語的點擊頻率,過濾出點擊頻率高的多個詞匯作為該企業(yè)的特征詞匯,并利用上述詞匯創(chuàng)立一個新型的字典,字典記錄有該企業(yè)的產(chǎn)業(yè)鏈特征詞匯。
在本發(fā)明的一個實施例中,過濾及字典建立模塊4用于將點擊頻率高的詞匯以特殊標記進行突出顯示。
如圖3所示,對于分詞中有些顯然不屬于企業(yè)特征,例如“統(tǒng)一”、“開放”、“創(chuàng)新獎”等等,專家們點擊這些詞發(fā)起新的查詢的概率顯然比較低。而“移動通訊”、“數(shù)碼電子”、“照明”、“手機制造商”等等詞匯被點擊的概率會比較高。因此通過統(tǒng)計專家點擊詞的頻率就可以過濾出該企業(yè)的特征詞匯,當點擊次數(shù)足夠多時就可以建立出一個新的字典,這個字典列舉出了產(chǎn)業(yè)鏈特征詞匯,并且會被不斷豐富完善。計算機在分詞之后可以把這個字典中出現(xiàn)的詞以較高的亮度顯示出來,甚至只顯示字典中出現(xiàn)的詞。
關聯(lián)關系圖建立模塊5用于將企業(yè)之間共同的特征作為連接點,連接不同的企業(yè),以形成企業(yè)之間的關聯(lián)關系圖。
需要說明的是,企業(yè)之間共同的特征包括:多個企業(yè)的特征詞匯中的相同詞匯或近義詞。即,共同特征不限于完全相同的企業(yè)特征詞匯,還可以為意義較為相近的特征詞匯,具體如何判斷是否為近義詞可以通過現(xiàn)有的查找近義詞的算法獲取,在此不再贅述。
關聯(lián)企業(yè)搜索模塊6用于根據(jù)企業(yè)之間的關聯(lián)關系圖,搜索出與該企業(yè)相關的業(yè)務關聯(lián)企業(yè)。
關聯(lián)企業(yè)搜索模塊6將企業(yè)之間共同的特征詞作為連接點連接不同的企業(yè),形成企業(yè)之間的關聯(lián)關系。如圖4所示,通過查詢該圖可以幫助專家快速搜索到業(yè)務關聯(lián)企業(yè)。
參考圖4,公司1包括特征詞1、2、3、6、9;公司2包括特征詞2、3、4、5、6、7;公司3包括特征詞6、7、8、9。從圖中,可以清楚的看出,公司1與公司2的特征詞交集為特征詞2和3,公司1和公司3的特征詞交集為特征詞6和9,公司2和3的特征詞交集為特征詞7。從上述公司之間的特征詞關系,可以快速判斷出企業(yè)之間的相互關系,并進而通過結(jié)構(gòu)化加工就可以更加清晰地顯示競爭關系和上下游關系。
根據(jù)本發(fā)明實施例的對企業(yè)信息中自然語義的專家學習擬合方法及系統(tǒng),通過建立計算機和專家交互學習系統(tǒng),使得計算機能夠以較高的準確率從企業(yè)介紹文本中識別出描述該企業(yè)特征的詞匯,進而根據(jù)這些特征詞匯構(gòu)造企業(yè)與企業(yè)之間的關聯(lián)關系,然后再次引入專家交互學習系統(tǒng),使得計算機能夠?qū)W習到有關產(chǎn)業(yè)鏈結(jié)構(gòu)的知識,進而自動擬合出相關企業(yè)之間的產(chǎn)業(yè)鏈結(jié)構(gòu),即上下游關系和競爭關系。
在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領域的普通技術人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。本發(fā)明的范圍由所附權(quán)利要求及其等同限定。