本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種信息匹配度的確定方法及系統(tǒng),尤其涉及一種基于大數(shù)據(jù)分析的企業(yè)文化匹配度評(píng)定方法及系統(tǒng)。
背景技術(shù):
企業(yè)文化是企業(yè)在長(zhǎng)期的經(jīng)營(yíng)活動(dòng)中所形成的共同價(jià)值觀念、行為準(zhǔn)則、道德規(guī)范,以及體現(xiàn)這些企業(yè)精神的人際關(guān)系、規(guī)章制度、辦公場(chǎng)所、產(chǎn)品與服務(wù)等事項(xiàng)和物質(zhì)因素的集合。二十一世紀(jì)是文化管理時(shí)代,是文化致富時(shí)代。企業(yè)文化的重要性將是企業(yè)的核心競(jìng)爭(zhēng)力所在,是企業(yè)管理最重要的內(nèi)容。擁有了自己的文化,才能使企業(yè)具有生命的活力,具有真正意義上人格的象征。
企業(yè)文化的凝聚力能通過建立共同的價(jià)值觀念、企業(yè)目標(biāo),把員工凝聚在企業(yè)周圍,企業(yè)文化的重要性使員工具有使命感和責(zé)任感,自覺地把自己的智慧和力量匯聚到企業(yè)的整體目標(biāo)上,把個(gè)人的行為統(tǒng)一于企業(yè)行為的共同方向上,從而凝結(jié)成推動(dòng)企業(yè)發(fā)展的巨大動(dòng)力。
隨著現(xiàn)代企業(yè)管理方法的發(fā)展,越來越多的企業(yè)開始注重企業(yè)文化建設(shè),并漸漸將企業(yè)文化認(rèn)同加入到招聘環(huán)節(jié)中,甚至將企業(yè)文化作為能否入職的一項(xiàng)必要因素。同時(shí),隨著越來越個(gè)性的90后等新生代職場(chǎng)力量的涌入,更多的求職者也不再單單只是考察企業(yè)的薪資一項(xiàng)指標(biāo),而更多的開始關(guān)注企業(yè)氛圍、地理位置、辦公環(huán)境等其他一系列軟性條件。無論是企業(yè)還是求職者,都開始越來越重視企業(yè)的文化和氛圍。
在互聯(lián)網(wǎng)高速發(fā)展的今天,大量的企業(yè)也處于高速發(fā)展期,企業(yè)的規(guī)模不斷膨脹,而如何將原始小團(tuán)隊(duì)的核心價(jià)值觀融入到企業(yè)文化中,使企業(yè)不會(huì)由于外部不同文化新個(gè)體的加入而稀釋企業(yè)的原有文化,成為人力資源中亟待解決的問題。
招聘作為企業(yè)人才甄選的第一道關(guān)卡,如何識(shí)別候選人符合公司的文化,尋找能在公司中能夠持續(xù)穩(wěn)定地貢獻(xiàn)力量的潛在候選人,成為招聘專員的一項(xiàng)重要工作職責(zé)。對(duì)于候選人與企業(yè)文化的匹配度,目前很大程度還是依賴面試環(huán)節(jié)中招聘專員的主觀判斷,而面試環(huán)節(jié)往往耗時(shí)耗力,且主觀因素較重,需要招聘專員對(duì)企業(yè)文化有深度的把握,并具有甄別人選的經(jīng)驗(yàn)和技能,不可控因素較大,且無法批量復(fù)制。
很多企業(yè)都存在各項(xiàng)評(píng)定很優(yōu)秀的候選人,也通過了層層面試,但由于與企業(yè)價(jià)值觀不符,而被迫淘汰的情況。根據(jù)歷史經(jīng)驗(yàn),這類人員即使勉強(qiáng)進(jìn)入公司,由于與公司的目標(biāo)和價(jià)值理念有較大偏差,其離職率一般也較高,平均在崗時(shí)間不到一年就會(huì)離開,給企業(yè)帶來更大的損失(如:培訓(xùn)成本、未選用正確的人而喪失的機(jī)會(huì)成本等)。
在幾年前大數(shù)據(jù)技術(shù)尚未成熟時(shí),通過計(jì)算機(jī)分析簡(jiǎn)歷數(shù)據(jù)還極其復(fù)雜和繁瑣。首先,簡(jiǎn)歷中僅有部分純結(jié)構(gòu)化的字段,大量的是文字性的自然語言描述,計(jì)算機(jī)無法有效提取其中有價(jià)值的信息;其次,簡(jiǎn)歷中可提取的特征項(xiàng)多達(dá)上百項(xiàng),進(jìn)行向量運(yùn)算時(shí)則達(dá)到上千緯度,再加上動(dòng)輒幾百萬的數(shù)據(jù)樣本,要分析的矩陣是極其龐大的,以原有的機(jī)器速度和軟件結(jié)構(gòu)難于支持如何龐大的數(shù)據(jù)分析,即使能夠分析,其時(shí)效性也難于保障。
隨著大數(shù)據(jù)技術(shù)、機(jī)器學(xué)習(xí)算法和自然語言處理技術(shù)的發(fā)展,分析海量數(shù)據(jù)成為可能,而簡(jiǎn)歷中的數(shù)據(jù)價(jià)值也在不斷被挖掘,使我們可以通過大數(shù)據(jù)分析的技術(shù)手段來識(shí)別候選人是否符合企業(yè)文化。
可見,現(xiàn)有技術(shù)中,存在人工勞動(dòng)量大、可靠性低和精準(zhǔn)性差等缺陷。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于,針對(duì)上述缺陷,提供一種信息匹配度的確定方法及系統(tǒng),以解決現(xiàn)有技術(shù)中大量數(shù)據(jù)需要人工處理導(dǎo)致處理結(jié)果可靠性低的問題,達(dá)到提升可靠性的效果。
本發(fā)明提供一種信息匹配度的確定方法,包括:基于所述信息所屬單元,提取所屬單元下的單元樣本,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,得到與預(yù)設(shè)條件適配的所述單元樣本的篩選結(jié)果;對(duì)所述篩選結(jié)果進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)降噪,得到所述單元樣本的數(shù)據(jù)矩陣;對(duì)所述數(shù)據(jù)矩陣運(yùn)用相應(yīng)建模算法,得到與所屬單元適配的單元模型;基于所述單元模型,對(duì)所述單元樣本進(jìn)行計(jì)算,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配結(jié)果。
可選地,基于所述信息所屬單元,提取所屬單元下的單元樣本,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,得到與預(yù)設(shè)條件適配的所述單元樣本的篩選結(jié)果,包括:加載所述單元中與所述信息適配的所有子信息;基于所屬單元模型的預(yù)設(shè)條件進(jìn)行篩選,得到與預(yù)設(shè)條件適配的篩選結(jié)果;按預(yù)設(shè)類別,對(duì)所述所有子信息進(jìn)行分類,得到包含多類信息的分類結(jié)果;提取所屬單元下,符合預(yù)設(shè)標(biāo)準(zhǔn)的關(guān)鍵單元樣本特征,得到關(guān)鍵單元樣本特征集合;將所屬單元下的每個(gè)所述單元樣本與預(yù)設(shè)標(biāo)準(zhǔn)對(duì)比,得到每個(gè)所述單元樣本的所述標(biāo)準(zhǔn)權(quán)重;基于評(píng)測(cè)方法,得到所述單元樣本的附加特征屬性的評(píng)測(cè)模型。
可選地,對(duì)所述篩選結(jié)果進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)降噪,得到所述單元樣本的數(shù)據(jù)矩陣,包括:根據(jù)所述預(yù)設(shè)條件,對(duì)所述單元模型中的所有子信息進(jìn)行樣本分組;計(jì)算并得到所述單元中提取的單元樣本數(shù)據(jù)類中心特征;對(duì)于每類信息,通過聚類處理和密度估計(jì)處理,得到所述每類信息在所述單元中的分類情況;在將所述分類情況、以及與所述分類情況適配的所述分析結(jié)果進(jìn)行建模之前,通過聚類等處理剝離所述每類情況中的噪聲;其中,所述聚類處理,包括:通過k-means、cure的至少一種聚類算法進(jìn)行處理。
可選地,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,包括:基于降維算法處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述關(guān)鍵單元樣本的關(guān)鍵特征信息;其中,所述降維算法處理,包括:通過主成分分析法pca、奇異值分解法svd等的至少一種降維算法進(jìn)行處理;基于概率模型處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述單元樣本的單元數(shù)據(jù)模型;其中,所述概率模型處理,包括:通過樸素貝葉斯、adaboost等的至少一種概率模型進(jìn)行處理;將所述分組情況、以及與所述分組情況適配的所述單元模型進(jìn)行映射,構(gòu)建與所述預(yù)設(shè)特征適配的所述單元模型。。
可選地,基于所述單元模型,對(duì)所述單元樣本進(jìn)行計(jì)算,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配結(jié)果,包括:基于相似度算法,得到所述單元樣本與所述關(guān)鍵單元樣本的所述關(guān)鍵特征信息的相似度評(píng)分;基于所述單元模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配概率值;基于所述相似度評(píng)分及所述評(píng)測(cè)模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配評(píng)定結(jié)果。
與上述方法相匹配,本發(fā)明另一方面提供一種信息匹配度的確定系統(tǒng),包括:基于所述信息所屬單元,提取所屬單元下的單元樣本,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,得到與預(yù)設(shè)條件適配的所述單元樣本的篩選結(jié)果;對(duì)所述篩選結(jié)果進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)降噪,得到所述單元樣本的數(shù)據(jù)矩陣;對(duì)所述數(shù)據(jù)矩陣運(yùn)用相應(yīng)建模算法,得到與所屬單元適配的單元模型;基于所述單元模型,對(duì)所述單元樣本進(jìn)行計(jì)算,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配結(jié)果。
可選地,所述樣本加工單元,包括:加載模塊,用于加載所述單元中與所述信息適配的所有子信息;篩選模塊,用于基于所屬單元模型的預(yù)設(shè)條件進(jìn)行篩選,得到與預(yù)設(shè)條件適配的篩選結(jié)果;信息分類模塊,用于按預(yù)設(shè)類別,對(duì)所述所有子信息進(jìn)行分類,得到包含多類信息的分類結(jié)果;特征提取模塊,用于提取所屬單元下,符合預(yù)設(shè)標(biāo)準(zhǔn)的關(guān)鍵單元樣本特征,得到關(guān)鍵單元樣本特征集合;權(quán)重處理模塊,用于將所屬單元下的每個(gè)所述單元樣本與預(yù)設(shè)標(biāo)準(zhǔn)對(duì)比,得到每個(gè)所述單元樣本的所述標(biāo)準(zhǔn)權(quán)重;評(píng)測(cè)模塊,用于基于評(píng)測(cè)方法,得到所述單元樣本的附加特征屬性的評(píng)測(cè)模型。
可選地,所述數(shù)據(jù)處理單元,包括:樣本分組模塊,用于根據(jù)所述預(yù)設(shè)條件,對(duì)所述單元模型中的所有子信息進(jìn)行樣本分組;數(shù)據(jù)計(jì)算模塊,用于計(jì)算并得到所述單元中提取的單元樣本數(shù)據(jù)類中心特征;數(shù)據(jù)分組模塊,用于對(duì)于每類信息,通過聚類處理和密度估計(jì)處理,得到所述每類信息在所述單元中的分類情況;數(shù)據(jù)降噪模塊,用于在將所述分類情況、以及與所述分類情況適配的所述分析結(jié)果進(jìn)行建模之前,通過聚類等處理剝離所述每類情況中的噪聲;其中,所述聚類處理,包括:通過k-means、cure的至少一種聚類算法進(jìn)行處理。
可選地,所述建模單元,包括:關(guān)鍵特征提取模塊,用于基于降維算法處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述關(guān)鍵單元樣本的關(guān)鍵特征信息;其中,所述降維算法處理,包括:通過主成分分析法pca、奇異值分解法svd等的至少一種降維算法進(jìn)行處理;概率模型建模模塊,用于基于概率模型處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述單元樣本的單元數(shù)據(jù)模型;其中,所述概率模型處理,包括:通過樸素貝葉斯、adaboost等的至少一種概率模型進(jìn)行處理;映射模塊,用于將所述分組情況、以及與所述分組情況適配的所述單元模型進(jìn)行映射,構(gòu)建與所述預(yù)設(shè)特征適配的所述單元模型。
可選地,所述結(jié)果分析單元,還包括:相似度計(jì)算模塊,用于基于相似度算法,得到所述單元樣本與所述關(guān)鍵單元樣本的所述關(guān)鍵特征信息的相似度評(píng)分;概率計(jì)算模塊,用于基于所述單元模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配概率值;結(jié)果評(píng)定模塊,用于基于所述相似度評(píng)分及所述評(píng)測(cè)模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配評(píng)定結(jié)果。
由此,本發(fā)明的方案,通過對(duì)大數(shù)據(jù)進(jìn)行分析,并對(duì)分析所得信息的匹配度進(jìn)行確定,解決現(xiàn)有技術(shù)中大量數(shù)據(jù)需要人工處理導(dǎo)致處理結(jié)果可靠性低的問題,從而,克服現(xiàn)有技術(shù)中人工勞動(dòng)量大、可靠性低和精準(zhǔn)性差的缺陷,實(shí)現(xiàn)人工勞動(dòng)量小、可靠性高和精準(zhǔn)性好的有益效果。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。
下面通過附圖和實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的詳細(xì)描述。
附圖說明
圖1為本發(fā)明的信息匹配度的確定方法的一實(shí)施例的流程示意圖;
圖2為本發(fā)明的信息匹配度的確定方法的一實(shí)施例的企業(yè)文化匹配度數(shù)據(jù)建模流程示意圖;
圖3為本發(fā)明的信息匹配度的確定系統(tǒng)的一實(shí)施例的結(jié)構(gòu)示意圖。
結(jié)合附圖,本發(fā)明實(shí)施例中附圖標(biāo)記如下:
102-樣本加工單元;1022-加載模塊;1024-篩選模塊;1026-信息分類模塊;1028-特征提取模塊;1030-權(quán)重處理模塊;1032-評(píng)測(cè)模塊。
104-數(shù)據(jù)處理單元;1042-樣本分組模塊;1044-數(shù)據(jù)計(jì)算模塊;1046-數(shù)據(jù)分組模塊;1048-數(shù)據(jù)降噪模塊。
106-建模單元;1062-關(guān)鍵特征提取模塊;1064-概率模型建模模塊;1066-映射模塊。
108-結(jié)果分析單元;1082-相似度計(jì)算模塊;1084-概率計(jì)算模塊;1086-結(jié)果評(píng)定模塊。
具體實(shí)施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明具體實(shí)施例及相應(yīng)的附圖對(duì)本發(fā)明技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
根據(jù)本發(fā)明的實(shí)施例,提供了一種信息匹配度的確定方法。參見圖1所示本發(fā)明的方法的一實(shí)施例的流程示意圖。該信息匹配度的確定方法可以包括:
在步驟s110處,基于所述信息所屬單元,提取所屬單元下的單元樣本,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,得到與預(yù)設(shè)條件適配的所述單元樣本的篩選結(jié)果。
在一個(gè)可選例子中,步驟s110中進(jìn)行樣本加工,可以包括:
(1)加載所述單元中與所述信息適配的所有子信息。
(2)基于所屬單元模型的預(yù)設(shè)條件進(jìn)行篩選,得到與預(yù)設(shè)條件適配的篩選結(jié)果。
(3)按預(yù)設(shè)類別,對(duì)所述所有子信息進(jìn)行分類,得到包含多類信息的分類結(jié)果。
(4)提取所屬單元下,符合預(yù)設(shè)標(biāo)準(zhǔn)的關(guān)鍵單元樣本特征,得到關(guān)鍵單元樣本特征集合。
(5)將所屬單元下的每個(gè)所述單元樣本與預(yù)設(shè)標(biāo)準(zhǔn)對(duì)比,得到每個(gè)所述單元樣本的所述標(biāo)準(zhǔn)權(quán)重。
(6)基于評(píng)測(cè)方法,得到所述單元樣本的附加特征屬性的評(píng)測(cè)模型。
在步驟s120處,對(duì)所述篩選結(jié)果進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)降噪,得到所述單元樣本的數(shù)據(jù)矩陣。
在一個(gè)可選例子中,步驟s120中進(jìn)行數(shù)據(jù)處理,可以包括:
(1)根據(jù)所述預(yù)設(shè)條件,對(duì)所述單元模型中的所有子信息進(jìn)行樣本分組。
(2)計(jì)算并得到所述單元中提取的單元樣本數(shù)據(jù)類中心特征。
(3)對(duì)于每類信息,通過聚類處理和密度估計(jì)處理,得到所述每類信息在所述單元中的分類情況。
(4)在將所述分類情況、以及與所述分類情況適配的所述分析結(jié)果進(jìn)行建模之前,通過聚類等處理剝離所述每類情況中的噪聲。
可選地,所述聚類處理,可以包括:通過k-means、cure的至少一種聚類算法進(jìn)行處理。
在步驟s130處,對(duì)所述數(shù)據(jù)矩陣運(yùn)用相應(yīng)建模算法,得到與所屬單元適配的單元模型。
在一個(gè)可選例子中,步驟s130中進(jìn)行數(shù)據(jù)建模,可以包括:
(1)基于降維算法處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述關(guān)鍵單元樣本的關(guān)鍵特征信息。
可選地,所述降維算法處理,可以包括:通過主成分分析法pca、奇異值分解法svd等的至少一種降維算法進(jìn)行處理。
(2)基于概率模型處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述單元樣本的單元數(shù)據(jù)模型。
可選地,所述概率模型處理,可以包括:通過樸素貝葉斯、adaboost等的至少一種概率模型進(jìn)行處理。
(3)將所述分組情況、以及與所述分組情況適配的所述單元模型進(jìn)行映射,構(gòu)建與所述預(yù)設(shè)特征適配的所述單元模型。
在步驟s140處,基于所述單元模型,對(duì)所述單元樣本進(jìn)行計(jì)算,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配結(jié)果。
在一個(gè)可選例子中,步驟s140中進(jìn)行結(jié)果分析,可以包括:
(1)基于相似度算法,得到所述單元樣本與所述關(guān)鍵單元樣本的所述關(guān)鍵特征信息的相似度評(píng)分。
(2)基于所述單元模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配概率值。
(3)基于所述相似度評(píng)分及所述評(píng)測(cè)模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配評(píng)定結(jié)果。
在一個(gè)可選具體例子中,本實(shí)施例的技術(shù)方案,可以應(yīng)用于大數(shù)據(jù)技術(shù)和hr招聘領(lǐng)域范疇。
例如:可以作為一種企業(yè)文化匹配度評(píng)定的方法和系統(tǒng),主要應(yīng)用于企業(yè)招聘環(huán)節(jié)的人才篩選、基于海量數(shù)據(jù)的人才推薦等,為企業(yè)文化的匹配提供一種量化的評(píng)定方法。
例如:可以利用個(gè)人特征,推演群體特征,進(jìn)而構(gòu)建企業(yè)文化的數(shù)據(jù)模型;從而實(shí)現(xiàn)企業(yè)文化匹配度的量化評(píng)定,為招聘環(huán)節(jié)的企業(yè)文化匹配提供數(shù)據(jù)支撐,輔助決策,提高招聘效率。
例如:通過大數(shù)據(jù)分析方法為企業(yè)篩選出符合本企業(yè)文化的求職者,為人員篩選提供數(shù)據(jù)支撐,提高招聘效率。主要可應(yīng)用于:企業(yè)招聘環(huán)節(jié)的人才篩選、基于海量數(shù)據(jù)的人才推薦、企業(yè)人員流失預(yù)測(cè)等。
在一個(gè)可選具體例子中,本實(shí)施例的技術(shù)方案,應(yīng)用于企業(yè)文化匹配度的評(píng)價(jià)時(shí),具體可以包括以下幾個(gè)方面:
㈠基本假設(shè)
俗話說物以類聚、人以群分,企業(yè)是由人組成的,是具有共同目的的人的聚合體,而企業(yè)文化的特征,很大程度是反映了企業(yè)中職工的共同特征,尤其是其中的資深員工,對(duì)企業(yè)的認(rèn)同度和契合度很高,那么與這一類人具有相似特征的求職者則更容易符合企業(yè)的文化和氛圍,也更容易進(jìn)入這家公司(排除崗位需求因素)。
我們通常所說的門當(dāng)戶對(duì)其實(shí)也是這個(gè)道理通常所說的門當(dāng)戶對(duì)其實(shí)也是這個(gè)道理,有相似成長(zhǎng)經(jīng)歷及環(huán)境的人,人生觀價(jià)值觀更容易契合,否則即使一時(shí)因某種機(jī)緣能在一起,長(zhǎng)期來看,由于價(jià)值觀的差距,對(duì)事物不同的認(rèn)同態(tài)度會(huì)使這種摩擦和矛盾加劇,很難長(zhǎng)久地走下去。對(duì)于企業(yè)也是一樣的道理。
這里我們所說的企業(yè)文化是包括企業(yè)價(jià)值觀、氛圍、愿景、理念、對(duì)待員工的態(tài)度等等一系列軟性東西的統(tǒng)稱。而精神層面的東西,一般難于量化分析,甚至可能其中的員工自己也說不清楚。
而我們要度量的企業(yè)文化,是企業(yè)真正所具有的特性,可能是隱含的企業(yè)文化,而非宣揚(yáng)的企業(yè)文化(如:口號(hào)、愿景等)。如:有的企業(yè)號(hào)稱是互聯(lián)網(wǎng)企業(yè),一切以快速高效為目標(biāo),但實(shí)際內(nèi)部管理官僚,辦公室政治嚴(yán)重。而想找互聯(lián)網(wǎng)企業(yè)的求職者進(jìn)入這家公司,1~2個(gè)月內(nèi)就會(huì)流失掉,因?yàn)閷?shí)際的企業(yè)氛圍與號(hào)稱的企業(yè)氛圍差異太大,對(duì)企業(yè)和員工都造成不必要的損失。例如:企業(yè)外部吸引的都是不契合的人,企業(yè)處于長(zhǎng)期新入員工的大量流動(dòng),根本無法實(shí)現(xiàn)招收新員工帶來的效率提升,同時(shí)需要老員工花費(fèi)額外的時(shí)間對(duì)新員工培訓(xùn)、交接等,降低了企業(yè)的整體工作產(chǎn)出。而求職者則花費(fèi)了幾個(gè)月的時(shí)間才發(fā)現(xiàn)崗位并不合適,浪費(fèi)了職業(yè)生涯的寶貴時(shí)間,甚至?xí)o求職者打上不穩(wěn)定人員的標(biāo)簽)
那么如何去描述一個(gè)企業(yè)中所有職工的共同特征呢?對(duì)于人來說,每個(gè)個(gè)體價(jià)值觀的形成有很多因素,但主要集中在出生地、所受教育、成長(zhǎng)經(jīng)歷、社會(huì)階層、周圍環(huán)境、工作地點(diǎn)等等,而這些信息大部分是可以從個(gè)人的簡(jiǎn)歷中進(jìn)行提取和挖掘的,簡(jiǎn)歷是個(gè)人成長(zhǎng)的一個(gè)縮影,我們可以通過簡(jiǎn)歷的特征工程來細(xì)化職場(chǎng)人的畫像,并將人的畫像向量化,便于后續(xù)進(jìn)行算法計(jì)算。
㈡員工權(quán)重分配
首先,選擇一家企業(yè),對(duì)所述數(shù)據(jù)矩陣運(yùn)用相應(yīng)建模算法,得到與所屬單元適配的單元模型,即根據(jù)樣本庫中各個(gè)簡(jiǎn)歷中描述的過往工作經(jīng)歷,將曾在該企業(yè)中任職過或還在留任人員的簡(jiǎn)歷篩選出來,并進(jìn)行權(quán)重分配,分配規(guī)則如下:
企業(yè)中,任職時(shí)間低于1年的,說明企業(yè)認(rèn)同度較低,可以從正樣本中去除或加入負(fù)樣本。對(duì)于負(fù)樣本,由于其產(chǎn)生的原因復(fù)雜,可以是某幾個(gè)方面不匹配的組合,直接分析的價(jià)值并不是太大,所以后續(xù)分析以正樣本分析為主。
在企業(yè)中任職超過1年,低于5年的,可以認(rèn)為是企業(yè)的主要力量,并有足夠的企業(yè)價(jià)值認(rèn)同,可按照在職工齡標(biāo)定權(quán)重。
在企業(yè)中任職超過5年的,企業(yè)的價(jià)值觀認(rèn)同度較高,可適當(dāng)增大權(quán)重。如果超過5年,且職位屬于中高級(jí)以上職位的(如總監(jiān)等),這類人群往往是企業(yè)文化的傳播者,有著更高的權(quán)重,計(jì)算權(quán)重可翻倍。而任職超過5年,且職位還處于初中級(jí)別的,往往屬于老黃牛型員工,可根據(jù)企業(yè)倡導(dǎo)的價(jià)值觀,適當(dāng)調(diào)整權(quán)重比例(如:創(chuàng)新型企業(yè)需要降低這類人的權(quán)重,經(jīng)營(yíng)類企業(yè)可能需要增加權(quán)重)。
㈢企業(yè)結(jié)構(gòu)分析
中型企業(yè)一般規(guī)模在100~500人左右,是較好的分析樣本,通過歷史簡(jiǎn)歷的分析,可較好的識(shí)別出曾在該企業(yè)中任職的人員,一般有足夠的分析樣本。
由于企業(yè)中可能會(huì)有部分因特殊原因而一直留任的人員,這些人員在個(gè)體上可能不符合整體的企業(yè)文化,可以通過k-means、cure等聚類算法盡量剝離這類噪聲人員,減少特殊樣本所產(chǎn)生的噪聲,降低這類人員對(duì)企業(yè)整體建模的影響。
大型企業(yè)(500人以上)平均規(guī)模大致都在上千人左右,人員構(gòu)成相對(duì)復(fù)雜,各個(gè)部門內(nèi)部氛圍可能差異較大,僅根據(jù)整體分類,模型會(huì)產(chǎn)生較大偏差,一般需要根據(jù)部門不同進(jìn)行分類。如,大型制造企業(yè),其中有藍(lán)領(lǐng)工人,也有白領(lǐng)管理人員,各人群的匯聚因素原因和所具有的特質(zhì)也不同,因此可以先按部門進(jìn)行人員劃分,然后應(yīng)用聚類、密度估計(jì)等算法,查看在公司中群體的分類情況,然后再在不同分類中對(duì)簡(jiǎn)歷進(jìn)行分析建模,最后將分類與部門進(jìn)行映射,構(gòu)建不同部門的內(nèi)部文化氛圍模型,供求職者應(yīng)聘不同部門崗位時(shí)進(jìn)行匹配度預(yù)測(cè)。
跨國企業(yè)情況更為復(fù)雜,除部門、地域因素外,還與所在國家的文化差異有很大的影響。與大型企業(yè)處理類似,只是除從部門分類外,還應(yīng)引入國家、地域等分類要素,應(yīng)用聚類、密度估計(jì)等算法進(jìn)行分組分類后,將分類與部門、國家、地域等進(jìn)行映射。
需要注意,對(duì)于具有多重屬性的企業(yè)(如:一家企業(yè)涉及制造業(yè)、泛娛樂業(yè)、地產(chǎn)、零售業(yè)等多行業(yè)領(lǐng)域),需要分塊進(jìn)行分析處理。
小微企業(yè)、創(chuàng)業(yè)企業(yè)人數(shù)一般都較少,一般少于50人,這類企業(yè)由于樣本數(shù)量有限,很難直接量化分析其中職員的情況(偏差較大)。但這類企業(yè)的企業(yè)文化其實(shí)是由公司的創(chuàng)始人或ceo決定的,其組建團(tuán)隊(duì)(尤其是高管團(tuán)隊(duì))時(shí),一般選擇有相同價(jià)值觀而能力互補(bǔ)的人,所以小微企業(yè)的文化是由創(chuàng)始人的特質(zhì)決定的,也是企業(yè)的基因。但單獨(dú)個(gè)體特征的提取其實(shí)無法斷定主要的決定因素是什么,需要配合評(píng)測(cè)方法(如性格評(píng)測(cè):mbti、disc)等輔助手段,進(jìn)行評(píng)估。
成長(zhǎng)型企業(yè),規(guī)模在50~100人左右,相對(duì)小微或創(chuàng)業(yè)企業(yè)有一定的人員數(shù)據(jù)積累,但數(shù)據(jù)量相對(duì)中型企業(yè)還是不足??梢圆捎门c小微或創(chuàng)業(yè)企業(yè)類似的方法,配合評(píng)測(cè)方法等輔助手段進(jìn)行評(píng)估。區(qū)別在于不是僅僅評(píng)估創(chuàng)始人或ceo,而是評(píng)估所有高管團(tuán)隊(duì)的特性,然后取均值(類中心)構(gòu)建模型。
㈣技術(shù)處理流程
本發(fā)明的技術(shù)處理流程可參見圖2所示的例子,具體處理流程可以包括:
s01:首先對(duì)簡(jiǎn)歷庫進(jìn)行特征工程,構(gòu)建、選擇、提取簡(jiǎn)歷特征。
s02:選擇一家企業(yè),提取與該企業(yè)相關(guān)的所有簡(jiǎn)歷(在職及歷史上曾任職的人)。
s03:根據(jù)企業(yè)性質(zhì)、規(guī)模判斷企業(yè)所屬的類別,主要分5種情況進(jìn)行處理:小于50人的小微和創(chuàng)業(yè)企業(yè)(p1)、50~100人的成長(zhǎng)型企業(yè)(p2)、100~500人的中型企業(yè)(p3)、500人以上的大型企業(yè)(p4)、跨國企業(yè)(p5)。
在一個(gè)可選例子中,對(duì)于p1小微和創(chuàng)業(yè)企業(yè),執(zhí)行s04→s07→s13→s16→s18步驟:
s04:提取企業(yè)的創(chuàng)始人或ceo簡(jiǎn)歷。
s07:由于樣本有限,需要配合評(píng)測(cè)方法(如性格評(píng)測(cè):mbti、disc)等輔助手段,增加樣本的特征。
s13:應(yīng)用降維算法(如:主成分分析法pca、奇異值分解法svd)降低特征數(shù)量,提取有效的關(guān)鍵特征。
s16:計(jì)算目標(biāo)簡(jiǎn)歷與樣本相似度(如:閔氏距離等),作為一項(xiàng)企業(yè)文化匹配度依據(jù)。
s18:結(jié)合評(píng)測(cè)的相關(guān)算法(如:性格互補(bǔ)、個(gè)性配合等)綜合評(píng)定人員的企業(yè)文化匹配度。
在一個(gè)可選例子中,對(duì)于p2成長(zhǎng)型企業(yè),執(zhí)行s05→s07→s10→s13→s16→s18步驟:
s05:提取企業(yè)的高管團(tuán)隊(duì)簡(jiǎn)歷。
s07:同p1的s07步驟,對(duì)于小樣本,需要配合評(píng)測(cè)方法等輔助手段,增加樣本的特征。
s10:利用算法計(jì)算高管團(tuán)隊(duì)簡(jiǎn)歷矩陣的類中心,降低個(gè)體差異對(duì)整體的影響。也可根據(jù)情況,在s13降維之后進(jìn)行計(jì)算。
s13:應(yīng)用降維算法提取有效的關(guān)鍵特征。
s16:計(jì)算目標(biāo)簡(jiǎn)歷與樣本相似度,作為一項(xiàng)企業(yè)文化匹配度依據(jù)。
s18:結(jié)合評(píng)測(cè)的相關(guān)算法綜合評(píng)定人員的企業(yè)文化匹配度。
在一個(gè)可選例子中,對(duì)于p3中型企業(yè),執(zhí)行s06→s07(可選)→s12→s14→s17步驟:
s06:根據(jù)在職工齡計(jì)算該企業(yè)中人員簡(jiǎn)歷的權(quán)重,權(quán)重參考樣表如下,可根據(jù)不同企業(yè)情況進(jìn)行權(quán)重或權(quán)重乘積系數(shù)調(diào)整:
s07(可選):如果企業(yè)條件許可,可以在企業(yè)內(nèi)分發(fā)評(píng)測(cè)試卷,配合評(píng)測(cè)方法等輔助手段,增加樣本的特征,提高結(jié)果準(zhǔn)確度。
s12:通過聚類算法(如:k-means、cure等)盡量剝離樣本中的噪聲簡(jiǎn)歷,降低特殊噪聲對(duì)企業(yè)整體建模的影響。
s14:對(duì)簡(jiǎn)歷集應(yīng)用樸素貝葉斯、adaboost等算法建模。
s17:相應(yīng)模型,計(jì)算目標(biāo)簡(jiǎn)歷企業(yè)文化的匹配度(符合正樣本的概率)。
在一個(gè)可選例子中,對(duì)于p4大型企業(yè),執(zhí)行s06→s07(可選)→s08→s11→s12→s14→s15→s17步驟:
s06:根據(jù)在職工齡計(jì)算該企業(yè)中人員簡(jiǎn)歷的權(quán)重,具體參考p3中型企業(yè)中s06步驟的處理。
s07(可選):可以在企業(yè)內(nèi)配合評(píng)測(cè)方法等輔助手段,增加樣本的特征,提高結(jié)果準(zhǔn)確度。
s08:將簡(jiǎn)歷按照最后在職的所在部門進(jìn)行分組。
s11:應(yīng)用聚類、密度估計(jì)等算法,對(duì)簡(jiǎn)歷進(jìn)行分類分組,合并相似部門。
s12:在每個(gè)分組內(nèi),通過聚類算法剝離噪聲簡(jiǎn)歷。
s14:對(duì)每個(gè)分組簡(jiǎn)歷集應(yīng)用樸素貝葉斯、adaboost等算法建模。
s15:將每個(gè)分組模型與部門分組進(jìn)行映射。
s17:根據(jù)目標(biāo)簡(jiǎn)歷應(yīng)聘的部門,應(yīng)用相應(yīng)的模型,計(jì)算目標(biāo)簡(jiǎn)歷與企業(yè)文化的匹配度(概率)。
在一個(gè)可選例子中,對(duì)于p5跨國企業(yè),執(zhí)行s06→s07(可選)→s09→s11→s12→s14→s15→s17步驟:
s06:根據(jù)在職工齡計(jì)算該企業(yè)中人員簡(jiǎn)歷的權(quán)重,具體參考p3中型企業(yè)中s06步驟的處理。
s07(可選):可以在企業(yè)內(nèi)配合評(píng)測(cè)方法等輔助手段,增加樣本的特征,提高結(jié)果準(zhǔn)確度。
s09:將簡(jiǎn)歷按照最后在職的國家、地域、部門等特性進(jìn)行分組。
s11:應(yīng)用聚類、密度估計(jì)等算法,對(duì)簡(jiǎn)歷進(jìn)行分類分組,合并相似分組。
s12:在每個(gè)分組內(nèi),通過聚類算法剝離噪聲簡(jiǎn)歷。
s14:對(duì)每個(gè)分組簡(jiǎn)歷集應(yīng)用樸素貝葉斯、adaboost等算法建模。
s15:將每個(gè)分組模型與國家、地域、部門等分組特性進(jìn)行映射。
s17:根據(jù)目標(biāo)簡(jiǎn)歷應(yīng)聘的國家、地域、部門等,應(yīng)用相應(yīng)的模型,計(jì)算目標(biāo)簡(jiǎn)歷與企業(yè)文化的匹配度(概率)。
㈤應(yīng)用方式
建模之后,可以計(jì)算投遞簡(jiǎn)歷的求職者符合企業(yè)文化的概率,判斷求職者與企業(yè)文化的潛在匹配度。若屬于正常范圍,如:60%以上,則可以按正常流程安排面試等,若求職者與企業(yè)文化不符的概率較大,如:30%以下,可將hr環(huán)節(jié)前置,先由hr通過面試判斷求職者是否符合企業(yè)文化,若不符則可以直接拒絕掉,避免后續(xù)面試環(huán)節(jié)不必要的耗費(fèi),從而整體上節(jié)省企業(yè)面試開銷。(具體情況可根據(jù)企業(yè)情況進(jìn)行建模測(cè)算,本處不在贅述。)
除面試環(huán)節(jié)的應(yīng)用外,還可在簡(jiǎn)歷庫中批量測(cè)算符合企業(yè)文化的潛在候選人,再結(jié)合jd篩選的其他技術(shù),從而快速找到符合企業(yè)要求的人選,進(jìn)行人才的推薦。
對(duì)于企業(yè)中的員工,也可以應(yīng)用模型,計(jì)算在職人員的企業(yè)文化認(rèn)可度,從而發(fā)現(xiàn)潛在問題,改進(jìn)企業(yè)管理方式或預(yù)測(cè)人員流失。
同時(shí),推演的企業(yè)模型還可反作用于個(gè)人簡(jiǎn)歷之上,根據(jù)個(gè)人經(jīng)歷情況,對(duì)供職過的企業(yè)賦予不同權(quán)重,進(jìn)而將企業(yè)特性標(biāo)簽附加于個(gè)人簡(jiǎn)歷之上,增加簡(jiǎn)歷特征,完善人物畫像。
綜述,本發(fā)明是利用個(gè)人特征,推演群體特征,進(jìn)而構(gòu)建企業(yè)文化數(shù)據(jù)模型的一種方法。對(duì)小微企業(yè)、創(chuàng)業(yè)企業(yè)、成長(zhǎng)型企業(yè),通過抓取核心成員的特性,計(jì)算目標(biāo)簡(jiǎn)歷與樣本簡(jiǎn)歷的相似度,來預(yù)測(cè)與企業(yè)文化匹配的概率,同時(shí)還需要結(jié)合評(píng)測(cè)方法提高準(zhǔn)確率。對(duì)于中型以上企業(yè),則是通過先分組,然后在相似分組內(nèi)應(yīng)用概率模型計(jì)算目標(biāo)簡(jiǎn)歷與該分組的匹配概率,預(yù)測(cè)與企業(yè)文化匹配的程度(概率)。
但對(duì)于小樣本的數(shù)據(jù)處理方式還有待繼續(xù)改進(jìn),由于可參考數(shù)據(jù)有限,其必須借助評(píng)測(cè)等手段才能達(dá)到基本可用的準(zhǔn)確率,而采取評(píng)測(cè)手段的成本相對(duì)較高,量化效益并不太好。后續(xù)可以考慮將相似小微企業(yè)進(jìn)行分組處理,從而增加樣本數(shù)量,提供準(zhǔn)確率。
㈥實(shí)施例子
以某a企業(yè)為例,具體實(shí)施步驟如下:
首先對(duì)簡(jiǎn)歷庫進(jìn)行特征工程,提取簡(jiǎn)歷特征23項(xiàng),向量化之后約5000+維提取a企業(yè)還在職的簡(jiǎn)歷及曾在a企業(yè)任職的簡(jiǎn)歷提取的簡(jiǎn)歷數(shù)量為458份,目前在職簡(jiǎn)歷207份,a企業(yè)規(guī)模屬于100~500人的中型企業(yè)a企業(yè)目前成立6年,分配權(quán)重如下:
通過聚類算法k-means進(jìn)行降噪,剝離離群數(shù)據(jù)約14個(gè),剩余有效樣本133個(gè)應(yīng)用樸素貝葉斯算法建模,存儲(chǔ)企業(yè)的匹配度模型將新的簡(jiǎn)歷應(yīng)用匹配度模型,計(jì)算目標(biāo)簡(jiǎn)歷與企業(yè)的匹配概率,如:xxx,男,1991年11月,2年工作經(jīng)驗(yàn),北京,本科……匹配概率67%。
結(jié)果分析:根據(jù)新入簡(jiǎn)歷的匹配度概率分析,匹配度70%以上都是年紀(jì)稍大且穩(wěn)定的人員,所以這是一家相對(duì)保守的傳統(tǒng)型公司,90后新入員工離職率較高,更偏重于80后且過往經(jīng)歷相對(duì)穩(wěn)定的人員。以目前在職的207人,其中40多人的匹配概率都低于50%,且入職時(shí)間不長(zhǎng),新入員工的穩(wěn)定性較差,長(zhǎng)期如此必將面臨人員大面積流動(dòng)而無法為企業(yè)創(chuàng)收的困擾。
㈦比現(xiàn)有技術(shù)的改進(jìn)
針對(duì)企業(yè)文化匹配的篩選,稍大一些的公司已經(jīng)開始重視,而大部分中小企業(yè)還沒有能力去做這個(gè)事情。重視企業(yè)文化的公司,目前一般處理方式都是在面試中增加一個(gè)環(huán)節(jié),由hr或hrd對(duì)候選人進(jìn)行價(jià)值觀的人為判斷,主觀因素較重,hr的工作量也較大,無法批量復(fù)制,所以目前采用這種方式時(shí)一般也把這個(gè)步驟放在最后,以減少hr的工作量。
本發(fā)明利用個(gè)人特征,推演群體特征,構(gòu)建企業(yè)文化的數(shù)據(jù)模型,實(shí)現(xiàn)企業(yè)文化匹配度的量化評(píng)定,為招聘環(huán)節(jié)的企業(yè)文化匹配提供數(shù)據(jù)依據(jù)。通過這種方式,可以計(jì)算候選人與企業(yè)文化的匹配度,若候選人與企業(yè)文化符合的概率較低,可將hr環(huán)節(jié)前置,先由hr通過面試判斷候選人是否符合企業(yè)文化,若不符則可以直接拒絕掉,避免后續(xù)面試環(huán)節(jié)不必要的耗費(fèi),從而在整體上節(jié)省企業(yè)面試開銷。
目前初步的算法準(zhǔn)確度大致在76%左右,但已可以至少提供hr28%的效率,后續(xù)在算法的準(zhǔn)確度上還可以進(jìn)行提高,以便更好地提高招聘環(huán)節(jié)效率。
經(jīng)大量的試驗(yàn)驗(yàn)證,采用本發(fā)明的技術(shù)方案,通過對(duì)大數(shù)據(jù)進(jìn)行分析,并對(duì)分析所得信息的匹配度進(jìn)行確定,有利于提升大數(shù)據(jù)分析的可靠性和精準(zhǔn)性,進(jìn)而提升用戶體驗(yàn)。
根據(jù)本發(fā)明的實(shí)施例,還提供了對(duì)應(yīng)于信息匹配度的確定方法的一種信息匹配度的確定系統(tǒng)。參見圖3所示本發(fā)明的系統(tǒng)的一實(shí)施例的結(jié)構(gòu)示意圖。該信息匹配度的確定系統(tǒng)可以包括:樣本加工單元102、數(shù)據(jù)處理單元104、建模單元106、結(jié)果分析單元108。
在一個(gè)可選實(shí)施方式中,樣本加工單元102,可以用于基于所述信息所屬單元,提取所屬單元下的單元樣本,根據(jù)預(yù)設(shè)條件進(jìn)行篩選、權(quán)重分配,得到與預(yù)設(shè)條件適配的所述單元樣本的篩選結(jié)果。
可選地,所述樣本加工單元102,可以包括:加載模塊1022、篩選模塊1024、信息分類模塊1026、特征提取模塊1028、權(quán)重處理模塊1030和評(píng)測(cè)模塊1032。
在一個(gè)可選例子中,加載模塊1022,可以用于加載所述單元中與所述信息適配的所有子信息。
在一個(gè)可選例子中,篩選模塊1024,可以用于基于所屬單元模型的預(yù)設(shè)條件進(jìn)行篩選,得到與預(yù)設(shè)條件適配的篩選結(jié)果。
在一個(gè)可選例子中,信息分類模塊1026,可以用于按預(yù)設(shè)類別,對(duì)所述所有子信息進(jìn)行分類,得到包含多類信息的分類結(jié)果。
在一個(gè)可選例子中,特征提取模塊1028,可以用于提取所屬單元下,符合預(yù)設(shè)標(biāo)準(zhǔn)的關(guān)鍵單元樣本特征,得到關(guān)鍵單元樣本特征集合。
在一個(gè)可選例子中,權(quán)重處理模塊1030,可以用于將所屬單元下的每個(gè)所述單元樣本與預(yù)設(shè)標(biāo)準(zhǔn)對(duì)比,得到每個(gè)所述單元樣本的所述標(biāo)準(zhǔn)權(quán)重。
在一個(gè)可選例子中,評(píng)測(cè)模塊1032,可以用于基于評(píng)測(cè)方法,得到所述單元樣本的附加特征屬性的評(píng)測(cè)模型。
在一個(gè)可選實(shí)施方式中,數(shù)據(jù)處理單元104,可以用于對(duì)所述篩選結(jié)果進(jìn)行數(shù)據(jù)加工、數(shù)據(jù)降噪,得到所述單元樣本的數(shù)據(jù)矩陣。
可選地,所述數(shù)據(jù)處理單元104,可以包括:樣本分組模塊1042、數(shù)據(jù)計(jì)算模塊1044、數(shù)據(jù)分組模塊1046和數(shù)據(jù)降噪模塊1048。
在一個(gè)可選例子中,樣本分組模塊1042,可以用于根據(jù)所述預(yù)設(shè)條件,對(duì)所述單元模型中的所有子信息進(jìn)行樣本分組。
在一個(gè)可選例子中,數(shù)據(jù)計(jì)算模塊1044,可以用于計(jì)算并得到所述單元中提取的單元樣本數(shù)據(jù)類中心特征。
在一個(gè)可選例子中,數(shù)據(jù)分組模塊1046,可以用于對(duì)于每類信息,通過聚類處理和密度估計(jì)處理,得到所述每類信息在所述單元中的分類情況。
在一個(gè)可選例子中,數(shù)據(jù)降噪模塊1048,可以用于在將所述分類情況、以及與所述分類情況適配的所述分析結(jié)果進(jìn)行建模之前,通過聚類等處理剝離所述每類情況中的噪聲。
更可選地,所述數(shù)據(jù)降噪模塊1048的所述聚類處理,可以包括:通過k-means、cure的至少一種聚類算法進(jìn)行處理。
在一個(gè)可選實(shí)施方式中,建模單元106,可以用于對(duì)所述數(shù)據(jù)矩陣運(yùn)用相應(yīng)建模算法,得到與所屬單元適配的單元模型。
建模單元106,可以包括:關(guān)鍵特征提取模塊1062、概率模型建模模塊1064和映射模塊1066。
在一個(gè)可選例子中,關(guān)鍵特征提取模塊1062,可以用于基于降維算法處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述關(guān)鍵單元樣本的關(guān)鍵特征信息。
更可選地,所述關(guān)鍵特征提取模塊1062的所述降維算法處理,可以包括:通過主成分分析法pca、奇異值分解法svd等的至少一種降維算法進(jìn)行處理。
在一個(gè)可選例子中,概率模型建模模塊1064,可以用于基于概率模型處理所述單元樣本數(shù)據(jù)矩陣,得到所屬單元中所述單元樣本的單元數(shù)據(jù)模型。
更可選地,所述概率模型建模模塊1064的所述概率模型處理,可以包括:通過樸素貝葉斯、adaboost等的至少一種概率模型進(jìn)行處理。
在一個(gè)可選例子中,映射模塊1066,可以用于將所述分組情況、以及與所述分組情況適配的所述單元模型進(jìn)行映射,構(gòu)建與所述預(yù)設(shè)特征適配的所述單元模型。
在一個(gè)可選實(shí)施方式中,結(jié)果分析單元108,可以用于基于所述單元模型,對(duì)所述單元樣本進(jìn)行計(jì)算,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配結(jié)果。
可選地,所述結(jié)果分析單元108,可以包括:相似度計(jì)算模塊1082、概率計(jì)算模塊1084和結(jié)果評(píng)定模塊1086。
在一個(gè)可選例子中,相似度計(jì)算模塊1082,可以用于基于相似度算法,得到所述單元樣本與所述關(guān)鍵單元樣本的所述關(guān)鍵特征信息的相似度評(píng)分。
在一個(gè)可選例子中,概率計(jì)算模塊1084,可以用于基于所述單元模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配概率值。
在一個(gè)可選例子中,結(jié)果評(píng)定模塊1086,可以用于基于所述相似度評(píng)分及所述評(píng)測(cè)模型,得到單元樣本與所屬單元的所述信息對(duì)應(yīng)的匹配評(píng)定結(jié)果。
由于本實(shí)施例的系統(tǒng)所實(shí)現(xiàn)的處理及功能基本相應(yīng)于前述圖1至圖2所示的方法的實(shí)施例、原理和實(shí)例,故本實(shí)施例的描述中未詳盡之處,可以參見前述實(shí)施例中的相關(guān)說明,在此不做贅述。
經(jīng)大量的試驗(yàn)驗(yàn)證,采用本發(fā)明的技術(shù)方案,通過對(duì)大數(shù)據(jù)進(jìn)行分析,并對(duì)分析所得信息的匹配度進(jìn)行確定,有利于提升大數(shù)據(jù)分析的可靠性和精準(zhǔn)性,進(jìn)而提升用戶體驗(yàn)。
綜上,本領(lǐng)域技術(shù)人員容易理解的是,在不沖突的前提下,上述各有利方式可以自由地組合、疊加。
以上所述僅為本發(fā)明的實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。