模塊,首先通過網(wǎng)絡爬蟲從人力資源相關網(wǎng)站以及知識庫網(wǎng)站上獲取聯(lián)網(wǎng)上與人力資源相關的數(shù)據(jù),得到數(shù)據(jù)后,通過使用hadoop將多條URL抓取的任務分配給多臺計算機,使得每臺計算機基于負載均衡的調(diào)度處理方法交給多部服務器所組成的分布式系統(tǒng),通過HTML parser對網(wǎng)頁進行分析、文本分析、鏈接分析和網(wǎng)頁質(zhì)量控制、去重,得到相應的網(wǎng)頁內(nèi)容,將網(wǎng)頁內(nèi)容結果分成結構化信息(鏈接信息)和非結構化信息(文本信息),分別存儲到結構化信息數(shù)據(jù)庫和非結構化信息數(shù)據(jù)庫中。通過分布式系統(tǒng),可以處理非常高吞吐量的信息。
[0017]結構化和非結構化的分類可以通過判斷該內(nèi)容是否可以存儲到結構化數(shù)據(jù)庫中(如SQL)來判斷。通常文本和圖像是非結構化數(shù)據(jù),無法把其中的內(nèi)容進行切分和分類。如一段新聞,雖然知道里面有人名、地名、公司名、時間等信息,但是如果不進行處理,無法自動的把這些信息導入到SQL中,同時,結構化信息和非結構化信息也可以重復進行網(wǎng)頁進行分析、文本分析、鏈接分析和網(wǎng)頁質(zhì)量控制、去重,得到精簡的結構化信息和非結構化信息。
[0018]在將結構化與非結構化數(shù)據(jù)存入數(shù)據(jù)庫之后,下一步就是知識抽取,采取的是基于實體的知識抽取技術(實體分析技術),通過實體分析技術提取結構化與非結構化信息之間的聯(lián)系關系,并將所述聯(lián)系關系存儲至人力資源專有知識庫中。對非結構化文本數(shù)據(jù)進行機器閱讀,首先通過自然語言處理技術進行詞性標注等;然后通過自增強(Bootstrapping)技術找到盡量多的關系,如〈實體,關系,實體 > 三元組:通過實體得到更多實體之間的關系,再通過關系找到更多的實體,從而實現(xiàn)自增強的信息抽取。通過信息抽取過程,就可以構建人力資源專有知識庫。
[0019]人力資源專有知識庫構建之后,還可以進一步構建其相關圖譜并進行關聯(lián)學習。具體而言,根據(jù)提取的知識詞條以及詞條與詞條之間的不同種類的異構關系建立知識圖譜。圖譜上面的節(jié)點即知識詞條,邊即詞條與詞條之間的聯(lián)系。這里需要量化詞條與詞條之間的關系做為圖譜上邊的權重,該權重一般為非負值。若詞條間聯(lián)系越緊,則權重越大;聯(lián)系越松,則權重越小。對權重進行歸一化后設計恰當?shù)膱D上的隨機游走的方式來學習詞條與詞條之間的本質(zhì)聯(lián)系。
[0020]人才信息爬取模塊在相關網(wǎng)站上爬取人才簡歷,獲取用戶所參與的社交媒體以及用戶行為,求職意向的相關信息。人才簡歷的爬取與人力資源專有知識庫構建模塊中結構化與非結構化數(shù)據(jù)的爬取相似。
[0021]信息抽取、融合、比較模塊將人才信息爬取模塊爬取到的個人信息(用戶所參與的社交媒體以及用戶行為,求職意向信息)進行整合分析,建立人才專有的個人檔案;所述個人檔案進一步解析成為若干關鍵詞以及其中的內(nèi)在聯(lián)系,從而完成用戶建模,同時,解析招聘方招聘職位信息,進行職位建模分析,將職位信息和用戶需求建立映射對應,進行職位和用戶需求映射建模。
[0022]用戶建模包括包括以下步驟:
1-1)標簽傳播:通過用戶檔案中的關鍵詞實體在構建的人力資源專有知識庫中進行隨機游走得到標簽傳播的概率,從而擴展用戶的描述;
1-2)內(nèi)容判別:對用戶檔案的內(nèi)容進行分析,使用話題模型、實體抽取得到可能的標簽;同時,通過訓練機器學習分類器對已有標簽的用戶進行學習,從而對沒有標簽的用戶進行標簽判斷;
1-3)用戶其他信息判別:對于用戶發(fā)表的內(nèi)容進行理解以及對其朋友圈進行分析,進而預估用戶的年齡、工作性質(zhì)、工作地點、收入信息,從而理解用戶的需求;對用戶的年齡、工作性質(zhì)、工作地點和收入信息進行預估時,對用戶提取關鍵詞和好友屬性特征,使用機器學習方法,對已有標注信息進行學習得到分類器,對未知樣本進行分類。
[0023]較優(yōu)地,信息抽取、融合、比較模塊的職位建模分析包括以下步驟:
2-1)職位信息增強,僅僅靠解析招聘方張貼的廣告往往得到的信息不夠完備,需要基于互聯(lián)網(wǎng)搜索引擎進行搜索,從搜索到的網(wǎng)站上相關的摘要和廣告內(nèi)容中得到其他與該職位相關的描述與刻畫,從而對職位的信息進行增強。
[0024]2-2)職位路徑分類,在抓取職位增強信息的同時獲取職位路徑分類樹的信息,另外對沒有路徑分類樹信息的職位進行分類,并分類到職位路徑樹的某一個節(jié)點上;
2-3)職位其他信息采集,對職位相關的其他信息進行收集,并存儲到數(shù)據(jù)庫(存儲信息的數(shù)據(jù)庫)中,通過對人力資源類型網(wǎng)站的結構進行分析,得到相應的評論和打分(人力資源網(wǎng)站對特定的公司和職位有評論和打分,在網(wǎng)站上爬取相應的信息)。
[0025]職位和用戶需求映射建模將職位和用戶需求建立映射對應,對用戶在網(wǎng)站上提到求職意向時發(fā)表的內(nèi)容以及人力資源網(wǎng)站上的職位描述、用戶對職位以及應聘單位的評論去噪,建立映射模型,映射模型是對數(shù)據(jù)的直接特征抽取或者是通過機器學習的手段得到的特征表達,得到了映射模型后,比較職位和用戶的相關性。
[0026]職位推薦模塊連接有用戶端推薦模塊和職位端推薦模塊。
[0027]用戶端推薦模塊運行過程包括以下步驟:
3-1)通過用戶和職位的相關性得到可能推薦的職位列表;
3-2)對用戶的好友以及已有用戶的評論進行用戶和商品的相關性的分析;
3-3)通過分析用戶刻畫對職位推薦進行處理,細分推薦目標,所述用戶刻畫包括年齡,收入,興趣,地域,學歷以及用戶已有的工作歷史;
3-4)通過社交媒體的交互方式為該用戶進行職位推薦,所述社交媒體的交互方式包括添加好友、引用好友、私信、評論。
[0028]職位端推薦模塊運行過程包括以下步驟:
4-1)通過用戶和職位的相關性得到可能對該職位感興趣的用戶;
4-2)對用戶的好友進行職位和用戶的相關性分析,并通過好友的職位選擇對該用戶進行投票;
4-3)通過分析用戶刻畫對商品推薦進行處理,細分推薦目標,所述用戶刻畫包括年齡,收入,興趣,地域,學歷以及用戶已有的工作歷史;
4-4)通過社交媒體的交互方式為該用戶進行職位推薦,所述社交媒體的交互方式包括添加好友、引用好友、私信、評論。
[0029]本發(fā)明有益效果包括,本發(fā)明針對人力資源這一特定領域建立專有知識庫,并有效的利用該知識庫實現(xiàn)在線的對用戶的精準職位推薦;
進一步地,本申請針對招聘方和人才用戶爬取數(shù)據(jù),對招聘方數(shù)據(jù)和人才用戶數(shù)據(jù)同時進行需求和匹配挖掘,不僅僅針對人才用戶的求職簡歷進行分析,同時分析社交媒體等人才用戶數(shù)據(jù),充分深度數(shù)據(jù)挖掘,職位推薦全面評估,推薦準確,能夠滿足當前職位以及用戶需求多樣化的需求;
進一步地,本發(fā)明是針對現(xiàn)代的人力資源與職位匹配設計的系統(tǒng),通過人力資源專有知識庫的構建,深度挖掘用戶的求職意向,最大化完成求職者與應聘者意向的匹配;
進一步地,職位推薦模塊連接有用戶端推薦模塊和職位端推薦模塊,滿足人才用戶和招聘方雙方的需求,職位推薦方便