本發(fā)明涉及數(shù)據(jù)分析技術領域,尤其涉及一種企業(yè)信息分類方法及裝置。
背景技術:
互聯(lián)網技術的蓬勃發(fā)展,帶動了科技、媒體、通信(technologymediatelecom,tmt)企業(yè)的井噴式增長,為了便于用戶能從海量的企業(yè)信息中,迅速查詢到所關注企業(yè)的相關信息,現(xiàn)有技術下,預先通過人工方式逐一錄入海量的企業(yè)信息,然后,人工對錄入的所有企業(yè)信息進行分類,獲得分類結果,這樣,用戶就能基于分類結果,快速定位到所關注企業(yè),進一步地獲取到企業(yè)的相關信息。
顯然,目前,仍采用人工方式,對大數(shù)據(jù)量的企業(yè)信息進行信息錄入和信息分類,不僅無法及時更新企業(yè)信息,導致處理耗時加長,還容易造成企業(yè)信息分類不準確,進一步影響用戶體驗。
有鑒于此,需要設計一種新的企業(yè)信息分類方法以克服上述缺陷。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種企業(yè)信息分類方法及裝置,用以能及時錄入海量的企業(yè)信息,并快速對其進行正確分類。
本發(fā)明實施例提供的具體技術方案如下:
一種企業(yè)信息分類方法,包括:
獲取待分類企業(yè)信息,以及從所述待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對;
基于預設的耦合網絡模型,分別確定每一個詞語對在預設的每一種企業(yè)類型中對應的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,所述每一種企業(yè)類型的企業(yè)級別相同;
分別基于所述每一個詞語對在所述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型。
可選的,獲取待分類企業(yè)信息之前,進一步包括:
獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型;
按照所述訓練樣本集中各條企業(yè)信息各自對應的企業(yè)類型,將歸屬同一企業(yè)類型的各條企業(yè)信息確定為一個訓練樣本子集,其中,一個訓練樣本子集對應一種企業(yè)類型,各個訓練樣本子集各自對應的企業(yè)類型的企業(yè)級別相同;
分別針對每一個訓練樣本子集的每一條企業(yè)信息執(zhí)行以下操作:
提取符合設定數(shù)目或設定數(shù)目范圍的關鍵詞,組成關鍵詞集合;
將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型,包括:
采用預設的網絡爬蟲裝置爬取若干條企業(yè)信息,以及分別從爬取到每一條企業(yè)信息中,提取各自包含的企業(yè)名稱和企業(yè)簡介信息,組成各自的信息對,并分別針對每一個信息對,執(zhí)行以下操作:
采用句式分割,提取信息對的企業(yè)簡介信息中包含的若干單句;
分別對每一個單句執(zhí)行語義挖掘,提取各個單句各自包含的主謂賓成分,并基于所述各個單句各自包含的主謂賓成分,構造所述各個單句各自符合行業(yè)分類規(guī)則的正則句式;
篩選出確定存在至少一個正則句式的各個信息對,組成訓練樣本集,并分別針對所述訓練樣本集中的每一個信息對,執(zhí)行以下操作:基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型。
可選的,基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型,包括:
按照所述至少一個正則句式在企業(yè)簡介信息中的排序,將靠前的正則句式確定為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處;或者,
從所述至少一個正則句式中,隨機選取一個正則句式作為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處。
可選的,將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性,包括:
基于方差分布,分別計算所述關鍵詞集合中每一個關鍵詞在相應企業(yè)簡介信息中所占的權重值,以及將所述關鍵詞集合中的每兩個關鍵詞確定為一個關鍵詞對,并分別基于每一個關鍵詞對中的兩個關鍵詞各自對應的權重值,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,其中,同現(xiàn)相關性表征兩個關鍵詞同時出現(xiàn)的關聯(lián)性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率,其中,同現(xiàn)相關概率表征兩個關鍵詞之間的同現(xiàn)相關性,占所屬關鍵詞集合中所有關鍵詞對的同現(xiàn)相關性的比例;
分別針對每一個關鍵詞對,執(zhí)行以下操作:判定存在至少一個中間關鍵詞,使得關鍵詞對中的兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零時,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率和耦合相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性,包括:
基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,其中,兩個關鍵詞與一個中間關鍵詞之間存在條件相關性,表示以上述一個中間關鍵詞為條件,上述兩個關鍵詞之間具有關聯(lián)性;
基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,包括:
針對每一個中間關鍵詞,執(zhí)行以下操作:
取所述兩個關鍵詞各自與所述中間關鍵詞之間的同現(xiàn)相關概率中取值小的一方,作為所述兩個關鍵詞與所述中間關鍵詞之間的條件相關性。
可選的,基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性,包括:
對所述至少一個中間關鍵詞中各個中間關鍵詞,分別與所述兩個關鍵詞之間的條件相關性進行加權平均,將平均后的結果確定為所述兩個關鍵詞之間的耦合相關性。
可選的,分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率,包括:
分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對在所述每一種企業(yè)類型中的類條件概率;
分別基于確定的所述各個詞語對在所述每一種企業(yè)類型中的類條件概率,以及所述每一種企業(yè)類型的先驗概率,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率。
可選的,將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型之后,進一步包括:
確定所述待分類企業(yè)信息在預設的各個不同企業(yè)級別下的企業(yè)類型;
基于預設的多級篩選規(guī)則,從所述各個不同企業(yè)級別下的企業(yè)類型中篩選出一個企業(yè)類型,作為所述待分類企業(yè)信息的目標企業(yè)類型。
一種企業(yè)信息分類裝置,包括:
數(shù)據(jù)獲取單元,用于獲取待分類企業(yè)信息,以及從所述待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對;
處理單元,用于基于預設的耦合網絡模型,分別確定每一個詞語對在預設的每一種企業(yè)類型中對應的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,所述每一種企業(yè)類型的企業(yè)級別相同;
分類單元,用于分別基于所述每一個詞語對在所述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型。
可選的,還包括訓練單元,所述訓練單元用于:
獲取待分類企業(yè)信息之前,執(zhí)行以下操作:
獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型;
按照所述訓練樣本集中各條企業(yè)信息各自對應的企業(yè)類型,將歸屬同一企業(yè)類型的各條企業(yè)信息確定為一個訓練樣本子集,其中,一個訓練樣本子集對應一種企業(yè)類型,各個訓練樣本子集各自對應的企業(yè)類型的企業(yè)級別相同;
分別針對每一個訓練樣本子集的每一條企業(yè)信息執(zhí)行以下操作:
提取符合設定數(shù)目或設定數(shù)目范圍的關鍵詞,組成關鍵詞集合;
將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型時,所述訓練單元用于:
采用預設的網絡爬蟲裝置爬取若干條企業(yè)信息,以及分別從爬取到每一條企業(yè)信息中,提取各自包含的企業(yè)名稱和企業(yè)簡介信息,組成各自的信息對,并分別針對每一個信息對,執(zhí)行以下操作:
采用句式分割,提取信息對的企業(yè)簡介信息中包含的若干單句;
分別對每一個單句執(zhí)行語義挖掘,提取各個單句各自包含的主謂賓成分,并基于所述各個單句各自包含的主謂賓成分,構造所述各個單句各自符合行業(yè)分類規(guī)則的正則句式;
篩選出確定存在至少一個正則句式的各個信息對,組成訓練樣本集,并分別針對所述訓練樣本集中的每一個信息對,執(zhí)行以下操作:基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型。
可選的,基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型時,所述訓練單元用于:
按照所述至少一個正則句式在企業(yè)簡介信息中的排序,將靠前的正則句式確定為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處;或者,
從所述至少一個正則句式中,隨機選取一個正則句式作為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處。
可選的,將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性時,所述訓練單元用于:
基于方差分布,分別計算所述關鍵詞集合中每一個關鍵詞在相應企業(yè)簡介信息中所占的權重值,以及將所述關鍵詞集合中的每兩個關鍵詞確定為一個關鍵詞對,并分別基于每一個關鍵詞對中的兩個關鍵詞各自對應的權重值,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,其中,同現(xiàn)相關性表征兩個關鍵詞同時出現(xiàn)的關聯(lián)性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率,其中,同現(xiàn)相關概率表征兩個關鍵詞之間的同現(xiàn)相關性,占所屬關鍵詞集合中所有關鍵詞對的同現(xiàn)相關性的比例;
分別針對每一個關鍵詞對,執(zhí)行以下操作:判定存在至少一個中間關鍵詞,使得關鍵詞對中的兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零時,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率和耦合相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性時,所述訓練單元用于:
基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,其中,兩個關鍵詞與一個中間關鍵詞之間存在條件相關性,表示以上述一個中間關鍵詞為條件,上述兩個關鍵詞之間具有關聯(lián)性;
基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性時,所述訓練單元用于:
針對每一個中間關鍵詞,執(zhí)行以下操作:
取所述兩個關鍵詞各自與所述中間關鍵詞之間的同現(xiàn)相關概率中取值小的一方,作為所述兩個關鍵詞與所述中間關鍵詞之間的條件相關性。
可選的,基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性時,所述訓練單元用于:
對所述至少一個中間關鍵詞中各個中間關鍵詞,分別與所述兩個關鍵詞之間的條件相關性進行加權平均,將平均后的結果確定為所述兩個關鍵詞之間的耦合相關性。
可選的,分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率時,所述分類單元用于:
分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對在所述每一種企業(yè)類型中的類條件概率;
分別基于確定的所述各個詞語對在所述每一種企業(yè)類型中的類條件概率,以及所述每一種企業(yè)類型的先驗概率,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率。
可選的,還包括多級分類單元,所述多級分類單元用于:
將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型之后,執(zhí)行以下操作:
確定所述待分類企業(yè)信息在預設的各個不同企業(yè)級別下的企業(yè)類型;
基于預設的多級篩選規(guī)則,從所述各個不同企業(yè)級別下的企業(yè)類型中篩選出一個企業(yè)類型,作為所述待分類企業(yè)信息的目標企業(yè)類型。
本發(fā)明實施例中,先通過獲取待分類企業(yè)信息,然后,從獲取的待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對,接著,基于預設的耦合網絡模型,確定每一個詞語對在預設的每一種企業(yè)類型中的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,最后,基于每一個詞語對在上述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型確定為待分類企業(yè)信息的企業(yè)類型,這樣,對于直接獲取的待分類企業(yè)信息,就能基于待分類企業(yè)信息中提取的各個詞語間的語義關聯(lián)度,確定待分類企業(yè)信息對應的企業(yè)類型,提高了分類的準確性,而且,由于無需任何人工操作,還提高了處理效率,進而提升了客戶體驗。
附圖說明
圖1為本發(fā)明實施例中,房產家裝的三級企業(yè)架構分類圖;
圖2為本發(fā)明實施例中,網絡爬蟲裝置結構示意圖;
圖3為本發(fā)明實施例中,篩選訓練樣本集的方法流程圖;
圖4為本發(fā)明實施例中,確定耦合網絡模型的方法流程圖;
圖5為本發(fā)明實施例中,基于確定的耦合網絡模型對待分類企業(yè)信息進行分類的方法流程圖;
圖6為本發(fā)明實施例中,企業(yè)信息分類裝置結構示意圖。
具體實施方式
為了能及時錄入海量的企業(yè)信息,并快速對其進行正確分類,本發(fā)明實施例中,重新設計了一種企業(yè)信息分類方法,該方法為,通過獲取待分類企業(yè)信息,然后,從獲取的待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對,接著,基于預設的耦合網絡模型,確定每一個詞語對在預設的每一種企業(yè)類型中的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,最后,基于每一個詞語對在上述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型確定為待分類企業(yè)信息的企業(yè)類型。
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,并不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
下面將通過具體實施例對本發(fā)明的方案進行詳細描述,當然,本發(fā)明并不限于以下實施例。
本發(fā)明實施例中,基于行業(yè)分類規(guī)則,預先設定了多個一級企業(yè)類型,例如,傳媒行業(yè)、房產家裝行業(yè)、游戲行業(yè)等等,其中,每一個一級企業(yè)類型又能細分為多個二級企業(yè)類型,而每一個二級企業(yè)類型又能細分為若干個三級企業(yè)類型,可依次類推,最終可細分為若干n級企業(yè)類型。
本發(fā)明實施例中,采用的是三級企業(yè)架構,即,最終可細分到三級企業(yè)類型,以房產家裝行業(yè)為例,具體參閱圖1所示,一級企業(yè)類型為:“房產家裝”;二級企業(yè)類型為:“房屋中介、家具家電、裝修設計、房產資訊及社區(qū)、物業(yè)服務和房產家裝其他”,以“房屋中介”為例,“房屋中介”的三級企業(yè)類型為:“房地產咨詢中介、房地產價格評估中介、房地產經紀中介、租房平臺及軟件和房屋買賣平臺及軟件”。
進一步地,本發(fā)明實施例中,在對獲取的企業(yè)信息進行分類之前,可先獲取若干條企業(yè)信息,作為訓練樣本集,然后,基于訓練樣本集構建用于企業(yè)信息分類的耦合網絡模型。
較佳的,本發(fā)明實施中,企業(yè)信息可來源于網絡爬蟲,例如,可增加網絡爬蟲裝置,網絡爬蟲裝置的架構具體可參閱圖2所示,網絡爬蟲裝置包含下載模塊、解析模塊和存儲模塊,具體處理過程如下:
首先,配置網頁爬蟲規(guī)則,上述網頁爬蟲規(guī)則用于把采集的網頁批量保存到本地。
其次,配置網頁采集規(guī)則,例如,以一個網頁為模板,設置需要采集的數(shù)據(jù)塊,其它符合此模板的網頁將被按照上述規(guī)則進行規(guī)則解析。
接著,配置采集任務,具體的,對網頁爬蟲和網頁采集進行組合,組合結果為一個采集任務,其中,一個網頁爬蟲可對應多個網頁采集。
最后,對采集任務進行發(fā)布,具體的,可以將配置好的采集任務發(fā)布至指定服務器的某個采集隊列中。
經過上述步驟,即可完成企業(yè)信息的網絡爬蟲操作。
進一步地,由于爬取到的若干條企業(yè)信息是未知的,即,并不知道企業(yè)信息歸屬哪個企業(yè)類型,因此,直接獲取到的若干條企業(yè)信息是不能作為訓練樣本集的,需對獲取的若干條企業(yè)信息進行篩選,以便能從若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,參閱圖3所示,具體篩選過程如下:
步驟300:分別針對每一條企業(yè)信息,執(zhí)行以下操作:提取企業(yè)名稱和企業(yè)簡介信息,組成一個信息對。
具體的,每一條企業(yè)信息至少包含了企業(yè)名稱和企業(yè)簡介信息,因此,分別從每一條企業(yè)信息中,提取各自包含的企業(yè)名稱和企業(yè)簡介信息,組成各自對應的信息對。
進一步地,為使后續(xù)能方便使用信息對,本發(fā)明實施例中,將提取到的信息對,以鍵值對的形式存儲在相應數(shù)據(jù)庫中,例如,數(shù)據(jù)庫為內存redis數(shù)據(jù)庫,鍵值對的組成形式為“key”與“value”,具體參見表1所示。
表1
本發(fā)明實施例中,之所以將確定的若干信息對存儲在內存redis數(shù)據(jù)庫中,是因為,后續(xù)在使用信息對時,能迅速地提取到需要的信息對,提取速度不受影響。
步驟310:分別針對每一個信息對,執(zhí)行以下操作:對信息對包含的企業(yè)簡介信息執(zhí)行句式分割,獲得若干單句。
具體的,由于信息對包含的企業(yè)簡介信息,通常是由一大段文字組成,為了提取到更能體現(xiàn)企業(yè)類型的關鍵詞,先按照句式,對企業(yè)簡介信息進行分割,獲得若干單句,如,可按照標點符號對企業(yè)簡介信息進行句式分割。
以“?!睘槔?,對于表1中“aa”的企業(yè)簡介信息,可以分割為“aa公司成立2010年4月,是一家專注于智能硬件和電子產品研發(fā)的移動互聯(lián)網公司”、“‘為發(fā)燒而生’是aa公司的產品概念”、“aa公司首創(chuàng)了用互聯(lián)網模式開發(fā)手機操作系統(tǒng)、發(fā)燒友參與開發(fā)改進的模式”。
步驟320:分別針對每一個單句執(zhí)行語義挖掘,提取各自包含的主謂賓成分,并分別以各自包含的主謂賓成分,構造各個單句各自符合行業(yè)分類規(guī)則的正則句式。
具體的,之所以挖掘單句的主謂賓成分,是因為,在中文中,一個完整的句子的主謂賓,通常是可以作為句子的主干的,具有較高的內聚性,而且,大部分句子都有主謂賓,很少有缺主語或賓語,甚至,主謂賓同時缺少的。
基于此,分別對每一個單句執(zhí)行語義挖掘,執(zhí)行語義挖掘,以提取各個單句各自包含的主謂賓成分,然后,對于能挖掘到的主謂賓成分的每一個單句來說,分別以各自挖掘到的主謂賓成分,構造各自相應的符合行業(yè)分類規(guī)則的正則句式。
更進一步地,是否符合行業(yè)分類規(guī)則可以采用關鍵詞判斷法,比如,預先設置與行業(yè)分類相關的關鍵詞,若提取到的主謂賓成分中,包含了預設的關鍵詞,則可認為挖掘到的主謂賓成分符合行業(yè)規(guī)則,并以上述主謂賓成分構建正則句式。
例如,以上述示例中的“aa公司成立2010年4月,是一家專注于智能硬件和電子產品研發(fā)的移動互聯(lián)網公司”進行說明,經過語義挖掘,可得到“aa公司是移動互聯(lián)網公司”,這樣,就可以基于挖掘到的“aa公司是移動互聯(lián)網公司”主謂賓成分,構造符合行業(yè)分類規(guī)則的正則句式,可構造如下正則句式:“是(.*?)移動互聯(lián)網,cultural_media”。
當然,并不是所有的單句,都能挖掘到主謂賓成分,對于不能挖掘到主謂賓成分的單句,并不能構成正則句式。
例如,假設分割的單句為連接詞“然后”,那么,這個單句就不存在主謂賓成分,也就不存在能基于主謂賓成分,構造符合行業(yè)分類規(guī)則的正則句式。
而且,并不是所有的單句,挖掘到的主謂賓成分,都能構成符合行業(yè)分類規(guī)則的正則句式。
例如,以上述示例中的“‘為發(fā)燒而生’是aa公司的產品概念”進行說明,挖掘到的主謂賓成分為“‘為發(fā)燒而生’是產品概念”,顯然,挖掘到的主謂賓不符合行業(yè)分類規(guī)則。
步驟330:確定存在至少一個正則句式的各個信息對,并分別針對存在至少一個正則句式的每一個信息對,執(zhí)行以下操作:基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于上述目標正則句式,確定對應的企業(yè)類型。
具體的,并不是每一個信息對均存在正則句式,且,也不是存在正則句式的信息對均具有唯一的正則句式,因此,完成對符合行業(yè)分類規(guī)則的正則句式的構建后,需確定存在至少一個正則句式的各個信息對。
進一步地,確定存在至少一個正則句式的各個信息對后,對上述每一個信息對執(zhí)行以下操作:基于預設規(guī)則,從對應的至少一個正則句式中篩選出唯一的目標正則句式,并采用目標正則句式,將信息對召回至相應的企業(yè)類型處,其中,所謂召回,即是指確定信息對對應的企業(yè)類型。
以一個信息對為例,若信息對存在多個正則句式,則可以按照上述多個正則句式在相應簡介信息中的先后順序,將在前的正則句式作為目標正則句式,并采用目標正則句式將上述一個信息對召回至相應的企業(yè)類型處。
例如,假設信息對a存在如下三個正則句式,分別為“是(.*?)視頻應用,cultural_media”、“是(.*?)美膚,consume_life”、“是(.*?)裝修(.*?)$,house”,若采用在前的正則句式作為目標正則句式,則可將“是(.*?)視頻應用,cultural_media”作為目標正則句式,并采用“是(.*?)視頻應用,cultural_media”對信息對a執(zhí)行召回操作,確定信息對a對應“視頻傳媒”類。
當然,也可以從出現(xiàn)相同關鍵詞最多的多個正則句式中隨機選擇一個,作為目標正則句式,并采用目標正則句式將上述一個信息對召回至相應的企業(yè)類型處。
例如,假設信息對m確定存在5個正則句式,其中,4個正則句式與“房產裝修”相關,只有1個正則句式與“文化傳媒”相關,則可從上述4個與“房產裝修”相關的正則句式中隨機挑選一個,作為目標正則句式,然后,采用目標正則句式確定信息對對應的企業(yè)類型,當然,上述企業(yè)類型必然與“房產裝修”相關。
本發(fā)明實施例中,只要正則句式能確定企業(yè)類型,就可以將上述正則句式確定為目標正則句式,具體篩選過程并不限定。
至此,符合上述設定篩選規(guī)則的若干信息對,可作為訓練樣本集,由于訓練樣本集中的每一個信息對都已確定企業(yè)類型,因此,遵循同級分類規(guī)則,基于訓練樣本集中各個信息對各自對應的企業(yè)類型,將歸屬同一企業(yè)類型的各個信息對確定為一個訓練樣本子集,其中,一個訓練樣本子集對應一種企業(yè)類型,同一批訓練樣本子集各自對應的企業(yè)類型的企業(yè)級別相同。
具體的,所謂同級分類規(guī)則,即是指,若確定各個信息對相應企業(yè)類型屬于一級企業(yè)類型,則按照一級企業(yè)類型的分類劃分訓練樣本集,若確定各個信息對相應的企業(yè)類型屬于n級企業(yè)類型,則按照n級企業(yè)類型的分類劃分訓練樣本集。
例如,假設預設的一級企業(yè)類型有3類,每一個一級企業(yè)類型下存在2種二級企業(yè)類型,具體參閱表2所示。
表2
繼續(xù)假設,若存在包含了5個信息對的訓練樣本集m{信息對1、信息對2、信息對3、信息對4、信息對5、信息對6},且,信息對1與信息對2均對應一級企業(yè)類型“文化傳媒”,其中,信息對1對應二級企業(yè)類型“新媒體”,信息對2對應二級企業(yè)類型“傳統(tǒng)媒體”;信息對3和信息對4均對應一級企業(yè)類型“房產家裝”,其中,信息對3對應二級企業(yè)類型“房地產”,信息對4對應二級企業(yè)類型“裝修設計”;信息對5和信息對6均對應一級企業(yè)類型“本地生活”,其中,信息對5對應二級企業(yè)類型“美食”,信息對6對應二級企業(yè)類型“美容”。
若按照一級企業(yè)類型的分類劃分,則可將訓練樣本集m劃分為:訓練樣本子集m1{信息對1、信息對2}、訓練樣本子集m2{信息對3、信息對4}、訓練樣本子集m3{信息對5、信息對6},共3個訓練樣本子集;
若按照二級企業(yè)類型的分類劃分,則可將訓練樣本集m劃分為:訓練樣本子集m1{信息對1}、訓練樣本子集m2{信息對2}、訓練樣本子集m3{信息對3}、訓練樣本子集m4{信息對4}、訓練樣本子集m5{信息對5}、訓練樣本子集m6{信息對6},共6個訓練樣本子集。
確定訓練樣本集包含的各個訓練樣本子集,以及上述各個訓練樣本子集各自對應的企業(yè)類型后,進一步地,基于上述訓練樣本集包含的各個訓練樣本子集,確定耦合網絡模型,本發(fā)明實施例中,耦合網絡模型可以為貝葉斯耦合網絡模型,具體參閱圖4所示,確定耦合網絡模型的方法流程如下:
步驟400:分別針對每一個訓練樣本子集的每一個信息對的企業(yè)簡介信息,執(zhí)行以下操作:提取符合設定數(shù)目或設定數(shù)目范圍的關鍵詞,組成關鍵詞集合。
具體的,每一個信息對包含的企業(yè)簡介信息都是由若干關鍵詞組成的,但并不是每一個關鍵詞都具備參考價值,為后續(xù)方便計算關鍵詞之間的關聯(lián)程度,可按照設定數(shù)目或設定數(shù)目范圍,從各個信息對的企業(yè)簡介信息的若干關鍵詞中,提取相應的關鍵詞,組成各自的關鍵詞集合。
例如,假設設定數(shù)目為200,若訓練樣本集中存在兩個信息對,則分別從兩個信息對的企業(yè)簡介信息中,提取200個符合設定條件的關鍵詞,組成各自的關鍵詞集合,其中,設定條件可以為與企業(yè)類型相關。
又例如,假設設定數(shù)目范圍為100-150,若訓練樣本集中存在兩個信息對,則分別從兩個信息對的企業(yè)簡介信息中,提取100-150個符合設定條件的關鍵詞,組成各自的關鍵詞集合。
步驟410:基于方差分布,分別計算每一個關鍵詞集合中的每一個關鍵詞,在當前所處的企業(yè)簡介信息中所占的權重值。
具體的,獲得各個信息對各自對應的關鍵詞集合后,確定每一個關鍵詞集合中的每一個關鍵詞,在當前所處的企業(yè)簡介信息中所占的權重值。
較佳的,本發(fā)明實施例中,采用以下公式計算關鍵詞h在當前所處企業(yè)簡介信息d中所占的權重值:
其中,thd為詞頻,計算公式為:
步驟420:分別針對每一個關鍵詞集合,執(zhí)行以下操作:將每兩個關鍵詞確定為一個關鍵詞對,并分別基于每一個關鍵詞對中的兩個關鍵詞各自對應的權重值,確定上述兩個關鍵詞之間的同現(xiàn)相關性,其中,同現(xiàn)相關性表征兩個關鍵詞同時出現(xiàn)的關聯(lián)性。
具體的,不同詞語之間是可能存在關聯(lián)關系的,在一段文字信息中,詞語a的出現(xiàn),能引導詞語b的出現(xiàn),通常稱詞語a與詞語b之間具有同現(xiàn)相關性。
進一步地,將每一個關鍵詞集合中的每兩個關鍵詞確定為一個關鍵詞對,以一個關鍵詞對為例,基于上述關鍵詞對中的兩個關鍵詞各自對應的權重值,確定上述兩個關鍵詞之間的同現(xiàn)相關性,其中,同現(xiàn)相關性表征兩個關鍵詞同時出現(xiàn)的關聯(lián)性。
較佳的,本發(fā)明實施例中,采用以下公式確定關鍵詞keyi和關鍵詞keyk之間的同現(xiàn)相關性:
其中,wxi和wxk分別表示關鍵詞keyi和關鍵詞keyk在企業(yè)簡介信息dx中的權重值;s={x|(wxi≠0)∧(wxk≠0)},表示在訓練樣本集中關鍵詞keyi和關鍵詞keyk權重值均不為零的各個企業(yè)簡介信息。
步驟430:分別針對每一個關鍵詞對,執(zhí)行以下操作:基于關鍵詞對中的兩個關鍵詞之間的同現(xiàn)相關性,確定上述兩個關鍵詞之間的同現(xiàn)相關概率,其中,同現(xiàn)相關概率表征兩個關鍵詞之間的同現(xiàn)相關性,占所屬關鍵詞集合中所有關鍵詞對的同現(xiàn)相關性的比例。
具體的,確定每一個關鍵詞集合中每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性后,需確定每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率。
進一步地,以一個關鍵詞對為例,基于上述關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,以及所屬關鍵詞集合中其它關鍵詞對對應的同現(xiàn)相關性,確定上述關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率。
較佳的,本發(fā)明實施例中,可采用以下公式計算關鍵詞keyk和關鍵詞keyi之間的同現(xiàn)相關概率,其中,關鍵詞keyk和關鍵詞keyi之間的同現(xiàn)相關概率可表征,關鍵詞keyk在訓練樣本集包含的企業(yè)簡介信息dx中出現(xiàn)時,關鍵詞keyi同時出現(xiàn)的概率:
其中,rco-occur(keyi,keyk)關鍵詞keyi和關鍵詞keyk之間的同現(xiàn)相關性。
步驟440:分別針對每一個關鍵詞對,執(zhí)行以下操作:判定存在至少一個中間關鍵詞,使得兩個關鍵詞各自與上述至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零時,基于上述兩個關鍵詞各自與上述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定上述兩個關鍵詞與上述至少一個中間關鍵詞之間的條件相關性。
具體的,由于兩個關鍵詞之間除了具有的直接關聯(lián)關系,即,兩個關鍵詞之間具有同現(xiàn)相關性,還可能存在間接關聯(lián)關系,針對上述情況,判定存在至少一個中間關鍵詞,使得兩個關鍵詞分別與上述至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零時,則可基于上述兩個關鍵詞分別與上述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定上述兩個關鍵詞與上述至少一個中間關鍵詞之間的條件相關性。
所謂條件相關性,例如,關鍵詞a與關鍵詞c之間的同現(xiàn)相關概率大于零,關鍵詞b與關鍵詞c之間的同現(xiàn)相關概率大于零,則,關鍵詞a與關鍵詞b之間具有條件相關性。
進一步地,以一個關鍵詞對為例,若上述一個關鍵詞對中的兩個關鍵詞各自與至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零,那么,針對每一個中間關鍵詞,執(zhí)行以下操作:取兩個關鍵詞各自與中間關鍵詞之間的同現(xiàn)相關概率中取值小的一方,作為上述兩個關鍵詞與上述中間關鍵詞之間的條件相關性。
較佳的,本發(fā)明實施例中,若訓練樣本集中至少存在一個關鍵詞keyk,使得rcondit(keym,keyk)>0,且,rcondit(keyn,keyk)>0,則說明關鍵詞keym和關鍵詞keyn之間存在條件相關性,并采用下列公式計算關鍵詞keym和關鍵詞keyn之間的條件相關性:
r(keym,keyn|keyk)=min(rcondit(keym,keyk),rcondit(keyn,keyk))
其中,rcondit(keym,keyk)表示關鍵詞keyk與關鍵詞keym之間的同現(xiàn)相關概率,rcondit(keyn,keyk)表示關鍵詞keyk與關鍵詞keyn之間的同現(xiàn)相關概率。
例如,假設關鍵詞a與關鍵詞c之間的同現(xiàn)相關概率為“0.6”,假設關鍵詞b與關鍵詞c之間的同現(xiàn)相關概率為“0.4”,則關鍵詞a和關鍵詞b,與關鍵詞c之間的條件相關性為“0.4”。
更進一步地,兩個關鍵詞之間,能被越多的中間關鍵詞進行關聯(lián),則上述兩個關鍵詞之間的條件相關性越高。
例如,關鍵詞a與關鍵詞c之間,能經關鍵詞b進行關聯(lián),關鍵詞a與關鍵詞c之間,還能經關鍵詞d進行關聯(lián),顯然,上述情形中,關鍵詞a與關鍵詞c之間的條件相關性要高于,僅經關鍵詞b進行關聯(lián)的關鍵詞a與關鍵詞c之間的條件相關性。
步驟450:分別針對每一個關鍵詞對,執(zhí)行以下操作:基于關鍵詞對中兩個關鍵詞與至少一個中間關鍵詞之間的條件相關性,確定上述兩個關鍵詞之間的耦合相關性。
具體的,以一個關鍵詞對為例,基于關鍵詞對中兩個關鍵詞與至少一個中間關鍵詞之間的條件相關性,確定上述兩個關鍵詞之間的耦合相關性。
進一步地,仍以一個關鍵詞對為例,對上述至少一個中間關鍵詞中各個中間關鍵詞,分別與上述兩個關鍵詞之間的條件相關性進行加權平均,將平均后的結果確定為所述兩個關鍵詞之間的耦合相關性。
較佳的,本發(fā)明實施例中,采用以下公式計算一個關鍵詞對(關鍵詞keyn與關鍵詞keym)在訓練樣本集中的耦合相關性:
其中,l={keyk|(rcondit(keym,keyk))∧(rcondit(keyn,keyk))}。
例如,假設關鍵詞a和關鍵詞b與關鍵詞c之間的條件相關性為“0.4”,關鍵詞a和關鍵詞b與關鍵詞d之間的條件相關性為“0.6”,則關鍵詞a與關鍵詞b之間的耦合相關性為“0.5”。
當然,若兩個關鍵詞之間不存在中間關鍵詞進行關聯(lián),則上述兩個關鍵詞之間的耦合相關性為零。
步驟460:分別基于每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率和耦合相關性,確定上述每一個關鍵詞對中兩個關鍵詞之間的完整相關性,其中,一個關鍵詞對中兩個關鍵詞之間的完整相關性,用于表征兩個關鍵詞之間的語義關聯(lián)度。
具體的,為更加準確的捕獲兩個關鍵詞之間的關聯(lián)程度,需結合兩個關鍵詞之間的同現(xiàn)相關概率和耦合相關性,確定上述兩個關鍵詞之間的完整相關性,其中,兩個關鍵詞之間的完整相關性越高,則表示上述兩個關鍵詞之間的語義關聯(lián)度越高。
較佳的,本發(fā)明實施例中,可采用以下公式計算一個關鍵詞對(關鍵詞keyn與關鍵詞keym)之間的完整相關性:
其中,α是介于0和1之間的一個參數(shù),用于調節(jié)條件相關性和耦合相關性各自的占比。
例如,假設α為“0.7”,若關鍵詞對1中的關鍵詞a與關鍵詞b之間的同現(xiàn)相關概率為“0.3”,耦合相關性為“0.6”,則關鍵詞對1中的關鍵詞a與關鍵詞b之間的完整相關性為:“0.7×0.3+(1-0.3)×0.6=0.63”,即,在相應訓練樣本子集中,關鍵詞對1中的關鍵詞a與關鍵詞b之間的完整相關性為“0.63”。
這樣,訓練樣本集的每一個訓練樣本子集中,各個信息對包含的各個關鍵詞對中的兩個關鍵詞之間的完整相關性就已確定。
本發(fā)明實施例中,為方便后續(xù)提取各個關鍵詞對在不同訓練樣本子集(不同企業(yè)類型)中的完整相關性,可以每一個關鍵詞對中兩個關鍵詞之間的完整相關性為一個元素,確定耦合網絡模型的泛語義矩陣。
較佳的,本發(fā)明實施例中,可通過以下公式表示訓練樣本集對應的泛語義矩陣m'中關鍵詞對(關鍵詞keyn與關鍵詞keym)確定的一個元素:
m'(m,n)=r(keym,keyn)
本發(fā)明實施例中,之所以選定基于關鍵詞對的完整相關性,確定耦合網絡模型中泛語義矩陣的方法,是因為,能較周全的考慮到各個關鍵詞之間的關聯(lián)關系,減少泛語義矩陣中元素的稀疏性。
進一步地,本發(fā)明實施例中,預先已按照不同的企業(yè)類型,將訓練樣本集劃分為若干訓練樣本子集,且,后續(xù)在計算關鍵詞對中兩個關鍵詞之間的完整相關性時,也是在關鍵詞對所屬的訓練樣本子集中計算的,因此,訓練樣本集的泛語義矩陣中的各個元素也存在各自對應的企業(yè)類型。
本發(fā)明實施例中,為驗證耦合網絡模型的正確率,可采用訓練樣本集中的部分訓練樣本對上述耦合網絡模型進行測試,或者,采用未知企業(yè)信息,人工對上述耦合網絡模型進行測試,若測試正確率大于設定閾值(如,99%),則可以將上述耦合網絡模型投入使用,若測試正確率不滿足設定閾值,則選取更多的訓練樣本集,對耦合網絡模型進行訓練,直到測試正確率滿足設定閾值。
至此,即可確定可以用于企業(yè)信息分類的耦合網絡模型。
具體參閱圖5所示,本發(fā)明實施例中,對于獲取的未知企業(yè)類型的企業(yè)信息(簡稱待分類企業(yè)信息),可基于以下流程確定待分類企業(yè)信息對應的企業(yè)類型:
步驟500:從獲取的待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對。
具體的,可基于句式分割和語義挖掘,從待分類企業(yè)信息的企業(yè)簡介信息中,提取若干詞語,并基于方差分布,計算每一個詞語相應的權重值,以及從提取到的所有若干詞語中,篩選出滿足設定規(guī)則(如,權重值大于設定閾值)的各個詞語,并將每兩個詞語確定為一個詞語對。
步驟510:基于預設的耦合網絡模型,分別確定每一個詞語對在預設的每一種企業(yè)類型中對應的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度。
具體的,基于預設的耦合網絡模型,從泛語義矩陣對應的各個企業(yè)類型中,查找每一個詞語對在每一種企業(yè)類型中對應的關鍵詞對的完整相關性。
步驟520:分別基于上述每一個詞語對在每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型,確定為待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型。
較佳的,本發(fā)明實施例中,采用以下公式計算待分類企業(yè)信息歸屬企業(yè)類型c的概率:
其中,詞語keyi與詞語keyh為待分類企業(yè)信息包含的各個詞語對,i和h為變量;
具體的,在計算
然而,一般來說,若在企業(yè)類型c下,不存在第一組詞語對,或者,不存在第二組詞語對,則相應的完整相關性為零,本發(fā)明實施例中,在具體計算時,為防止因因子為零而使得乘積為零,提取到的每一組關鍵詞對的完整相關性,均加上一個常數(shù)因子,如,“1”。
例如,假設企業(yè)類型c為“投資理財”,且在已確定的泛語義矩陣中,確定“投資理財”企業(yè)類型下包含的關鍵詞對“金融”和“投資”、“基金”和“證券”、“股票”和“保險”、“國債”和“期貨”,各自對應的完整相關性分別為“0.6”、“0.8”、“0.3”和“0.4”;
若待分類企業(yè)信息提取到三組詞語對,其中,第一組詞語對為“金融”和“投資”,第二組詞語對為“基金”和“證券”,第三組詞語對為“動漫”和“動畫”,那么,在企業(yè)類型c中,第一組詞語對對應的完整相關性為“0.6”,第二組詞語對對應的完整相關性為“0.8”,由于在企業(yè)類型c中,不存在第三組詞語對,因此,待分類企業(yè)信息對應的第三組詞語對的完整相關性為“0”;
進一步假設,若常數(shù)因子設定為“1”,那么,待分類企業(yè)信息對應的三組詞語對各自對應的完整相關性分別為:“0.6+1”、“0.8+1”和“0+1”。
顯然,針對每一種企業(yè)類型,待分類企業(yè)信息都會得到相應的耦合概率,從上述各個耦合概率中,篩選出最大耦合概率對應的企業(yè)類型,作為待分類企業(yè)信息對應的企業(yè)類型。
例如,若共有3種企業(yè)類型,待分類企業(yè)信息a屬于企業(yè)類型1的耦合概率為“0.35”;屬于企業(yè)類型2的耦合概率為“0.73”;屬于企業(yè)類型3的耦合概率為“0.96”,則,將企業(yè)類型3確定為待分類企業(yè)信息a的企業(yè)類型。
然而,由于本發(fā)明實施例基于多級企業(yè)架構進行的,因此,針對不同企業(yè)級別的企業(yè)類型,會分別確定待分類企業(yè)信息,在每個企業(yè)級別中對應的企業(yè)類型,然后,基于預設的多級篩選規(guī)則,從各個不同企業(yè)級別的企業(yè)類型中,篩選出一個企業(yè)類型,作為待分類企業(yè)信息的目標企業(yè)類型。
其中,上述多級篩選規(guī)則,可以為分級逆推法,也可以為分級順推法。
關于分級逆推法,以圖1為例,若待分類企業(yè)信息1,先確定的第一企業(yè)級別對應的企業(yè)類型“房產家裝”,以及第二企業(yè)級別對應的企業(yè)類型“房屋中介”,顯然,“房屋中介”為“房產家裝”的子節(jié)點,繼續(xù)推導,確定的第三企業(yè)級別對應的企業(yè)類型“家具”,顯然,“家具”并不為“房屋中介”的子節(jié)點,即,第三企業(yè)級別對應的企業(yè)類型并不屬于第二企業(yè)級別對應的企業(yè)類型,那么,會將第二企業(yè)級別對應的企業(yè)類型“房屋中介”確定為待分類企業(yè)信息1的目標企業(yè)類型。
關于分級順推法,仍以圖1為例,若待分類企業(yè)信息1,先確定的第三企業(yè)級別對應的企業(yè)類型“家具”,以及確定第二企業(yè)級別對應的企業(yè)類型“房屋中介”,顯然,“家具”并不為“房屋中介”的子節(jié)點,由此可確定待分類企業(yè)信息1的目標企業(yè)類型肯定不為“家具”,繼續(xù)推導,確定的第二企業(yè)級別對應的企業(yè)類型的上一企業(yè)級別對應的企業(yè)類型(第一企業(yè)級別對應的企業(yè)類型)“房產家裝”,顯然,“房屋中介”為“房產家裝”的子節(jié)點,因此,將第二企業(yè)級別對應的企業(yè)類型“房屋中介”確定為待分類企業(yè)信息1的目標企業(yè)類型。
顯然,無論是分級順推法還是分級逆推法,都能降低分類的錯誤率。
基于上述實施例,參閱圖6所示,本發(fā)明實施例中,企業(yè)信息分類裝置,至少包括數(shù)據(jù)獲取單元61、處理單元62和分類單元63,其中,
數(shù)據(jù)獲取單元61,用于獲取待分類企業(yè)信息,以及從所述待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對;
處理單元62,用于基于預設的耦合網絡模型,分別確定每一個詞語對在預設的每一種企業(yè)類型中對應的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,所述每一種企業(yè)類型的企業(yè)級別相同;
分類單元63,用于分別基于所述每一個詞語對在所述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型。
可選的,還包括訓練單元64,所述訓練單元64用于:
獲取待分類企業(yè)信息之前,執(zhí)行以下操作:
獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型;
按照所述訓練樣本集中各條企業(yè)信息各自對應的企業(yè)類型,將歸屬同一企業(yè)類型的各條企業(yè)信息確定為一個訓練樣本子集,其中,一個訓練樣本子集對應一種企業(yè)類型,各個訓練樣本子集各自對應的企業(yè)類型的企業(yè)級別相同;
分別針對每一個訓練樣本子集的每一條企業(yè)信息執(zhí)行以下操作:
提取符合設定數(shù)目或設定數(shù)目范圍的關鍵詞,組成關鍵詞集合;
將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,獲取若干條企業(yè)信息,并從所述若干條企業(yè)信息中篩選出符合設定篩選規(guī)則的若干條企業(yè)信息,組成訓練樣本集,其中,所述訓練樣本集中的每一條企業(yè)信息都已確定各自對應的企業(yè)類型時,所述訓練單元64用于:
采用預設的網絡爬蟲裝置爬取若干條企業(yè)信息,以及分別從爬取到每一條企業(yè)信息中,提取各自包含的企業(yè)名稱和企業(yè)簡介信息,組成各自的信息對,并分別針對每一個信息對,執(zhí)行以下操作:
采用句式分割,提取信息對的企業(yè)簡介信息中包含的若干單句;
分別對每一個單句執(zhí)行語義挖掘,提取各個單句各自包含的主謂賓成分,并基于所述各個單句各自包含的主謂賓成分,構造所述各個單句各自符合行業(yè)分類規(guī)則的正則句式;
篩選出確定存在至少一個正則句式的各個信息對,組成訓練樣本集,并分別針對所述訓練樣本集中的每一個信息對,執(zhí)行以下操作:基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型。
可選的,基于預設規(guī)則,從對應的至少一個正則句式中篩選出目標正則句式,并基于所述目標正則句式,確定對應的企業(yè)類型時,所述訓練單元64用于:
按照所述至少一個正則句式在企業(yè)簡介信息中的排序,將靠前的正則句式確定為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處;或者,
從所述至少一個正則句式中,隨機選取一個正則句式作為目標正則句式,并基于所述目標正則句式,將相應信息對召回至相應的企業(yè)類型處。
可選的,將所述關鍵詞集合中每兩個關鍵詞確定為一個關鍵詞對,并分別計算每一個關鍵詞對中兩個關鍵詞之間的完整相關性時,所述訓練單元64用于:
基于方差分布,分別計算所述關鍵詞集合中每一個關鍵詞在相應企業(yè)簡介信息中所占的權重值,以及將所述關鍵詞集合中的每兩個關鍵詞確定為一個關鍵詞對,并分別基于每一個關鍵詞對中的兩個關鍵詞各自對應的權重值,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,其中,同現(xiàn)相關性表征兩個關鍵詞同時出現(xiàn)的關聯(lián)性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率,其中,同現(xiàn)相關概率表征兩個關鍵詞之間的同現(xiàn)相關性,占所屬關鍵詞集合中所有關鍵詞對的同現(xiàn)相關性的比例;
分別針對每一個關鍵詞對,執(zhí)行以下操作:判定存在至少一個中間關鍵詞,使得關鍵詞對中的兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率均大于零時,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性;
分別基于所述每一個關鍵詞對中兩個關鍵詞之間的同現(xiàn)相關概率和耦合相關性,確定所述每一個關鍵詞對中兩個關鍵詞之間的完整相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞之間的耦合相關性時,所述訓練單元64用于:
基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,其中,兩個關鍵詞與一個中間關鍵詞之間存在條件相關性,表示以上述一個中間關鍵詞為條件,上述兩個關鍵詞之間具有關聯(lián)性;
基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性。
可選的,基于所述兩個關鍵詞各自與所述至少一個中間關鍵詞之間的同現(xiàn)相關概率,確定所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性時,所述訓練單元64用于:
針對每一個中間關鍵詞,執(zhí)行以下操作:
取所述兩個關鍵詞各自與所述中間關鍵詞之間的同現(xiàn)相關概率中取值小的一方,作為所述兩個關鍵詞與所述中間關鍵詞之間的條件相關性。
可選的,基于所述兩個關鍵詞與所述至少一個中間關鍵詞之間的條件相關性,確定所述兩個關鍵詞之間的耦合相關性時,所述訓練單元64用于:
對所述至少一個中間關鍵詞中各個中間關鍵詞,分別與所述兩個關鍵詞之間的條件相關性進行加權平均,將平均后的結果確定為所述兩個關鍵詞之間的耦合相關性。
可選的,分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率時,所述分類單元63用于:
分別基于所述各個詞語對在所述每一種企業(yè)類型中各自對應的完整相關性,確定所述各個詞語對在所述每一種企業(yè)類型中的類條件概率;
分別基于確定的所述各個詞語對在所述每一種企業(yè)類型中的類條件概率,以及所述每一種企業(yè)類型的先驗概率,確定所述各個詞語對屬于每一種企業(yè)類型的耦合概率。
可選的,還包括多級分類單元65,所述多級分類單元65用于:
將最大耦合概率對應的企業(yè)類型,確定為所述待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型之后,執(zhí)行以下操作:
確定所述待分類企業(yè)信息在預設的各個不同企業(yè)級別下的企業(yè)類型;
基于預設的多級篩選規(guī)則,從所述各個不同企業(yè)級別下的企業(yè)類型中篩選出一個企業(yè)類型,作為所述待分類企業(yè)信息的目標企業(yè)類型。
綜上所述,本發(fā)明實施例中,先通過獲取待分類企業(yè)信息,然后,從獲取的待分類企業(yè)信息中提取符合設定規(guī)則的若干詞語,并將每兩個詞語確定為一個詞語對,接著,基于預設的耦合網絡模型,確定每一個詞語對在預設的每一種企業(yè)類型中的完整相關性,其中,完整相關性用于表征兩個詞語之間的語義關聯(lián)度,每一種企業(yè)類型的企業(yè)級別相同,最后,基于每一個詞語對在上述每一種企業(yè)類型中對應的完整相關性,確定各個詞語對屬于每一種企業(yè)類型的耦合概率,并將最大耦合概率對應的企業(yè)類型確定為待分類企業(yè)信息在當前企業(yè)級別下的企業(yè)類型,這樣,對于直接獲取的待分類企業(yè)信息,就能基于待分類企業(yè)信息中提取的各個詞語間的語義關聯(lián)度,確定待分類企業(yè)信息對應的企業(yè)類型,提高了分類的準確性,而且,由于無需任何人工操作,還提高了處理效率,進而提升了客戶體驗。
進一步地,基于預設的多級篩選規(guī)則,從上述各個企業(yè)級別對應的各個企業(yè)類型中,篩選出一個企業(yè)類型,作為待分類企業(yè)信息的目標企業(yè)類型,這樣,就能從待分類企業(yè)信息對應的不同企業(yè)級別的企業(yè)類型中,篩選出更加符合待分類企業(yè)信息的實際需求的企業(yè)類型,進一步提高了分類的準確性。
本領域內的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、cd-rom、光學存儲器等)上實施的計算機程序產品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實施例,但本領域內的技術人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領域的技術人員可以對本發(fā)明實施例進行各種改動和變型而不脫離本發(fā)明實施例的精神和范圍。這樣,倘若本發(fā)明實施例的這些修改和變型屬于本發(fā)明權利要求及其等同技術的范圍之內,則本發(fā)明也意圖包含這些改動和變型在內。