準(zhǔn)確。
【附圖說(shuō)明】
[0030]圖1為本發(fā)明基于知識(shí)庫(kù)的職位推薦系統(tǒng)的結(jié)構(gòu)示意圖;
圖2為人力資源專(zhuān)有知識(shí)庫(kù)構(gòu)建模及人才信息爬取模塊塊過(guò)程處理示意圖;
圖3為信息抽取、融合、比較模塊處理過(guò)程示意圖;
圖4為職位推薦模塊結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0031]下面結(jié)合附圖和具體的實(shí)施例對(duì)本發(fā)明技術(shù)方案作進(jìn)一步的詳細(xì)描述,以使本領(lǐng)域的技術(shù)人員可以更好的理解本發(fā)明并能予以實(shí)施,但所舉實(shí)施例不作為對(duì)本發(fā)明的限定。
[0032]如圖1所示,一種基于知識(shí)庫(kù)的職位推薦系統(tǒng),包括人力資源專(zhuān)有知識(shí)庫(kù)構(gòu)建模塊,人才信息爬取模塊,信息抽取、融合、比較模塊和職位推薦模塊;
人力資源專(zhuān)有知識(shí)庫(kù)構(gòu)建模塊通過(guò)對(duì)人力資源相關(guān)知識(shí)進(jìn)行爬取和實(shí)體分析,構(gòu)建與人力資源專(zhuān)有知識(shí)庫(kù);
人才信息爬取模塊在人力資源相關(guān)網(wǎng)站(或者知識(shí)庫(kù)網(wǎng)站)上爬取人才簡(jiǎn)歷,所參與的社交媒體以及用戶(hù)行為,求職意向的相關(guān)信息;
信息抽取、融合、比較模塊用于對(duì)抓取得到的數(shù)據(jù)進(jìn)行分析、處理,對(duì)用戶(hù)進(jìn)行建模分析,并將用戶(hù)簡(jiǎn)歷與知識(shí)庫(kù)進(jìn)行比對(duì)。
[0033]職位推薦模塊,將應(yīng)聘放所需職位描述與知識(shí)庫(kù)進(jìn)行比對(duì),并計(jì)算用戶(hù)與當(dāng)前職位的相關(guān)性,完成職位推薦;
人力資源專(zhuān)有知識(shí)庫(kù)構(gòu)建模塊,人才信息爬取模塊,信息抽取、融合、比較模塊,職位推薦模塊相連接。
[0034]如圖2所示,人才信息爬取取模塊通過(guò)網(wǎng)絡(luò)爬蟲(chóng)(包括N個(gè)爬蟲(chóng),爬蟲(chóng)1、爬蟲(chóng)2、爬蟲(chóng)3……爬蟲(chóng)N)獲取社交媒體上的數(shù)據(jù),得到數(shù)據(jù)后,通過(guò)使用hadoop將多條URL抓取的任務(wù)分配調(diào)度處理給多臺(tái)計(jì)算機(jī),使得每臺(tái)計(jì)算機(jī)的負(fù)載均衡的調(diào)度處理方法交給多部服務(wù)器所組成的分布式系統(tǒng),通過(guò)HTML parser對(duì)網(wǎng)頁(yè)進(jìn)行分析、文本分析、鏈接分析和網(wǎng)頁(yè)質(zhì)量控制、去重,得到相應(yīng)的網(wǎng)頁(yè)內(nèi)容,將所述網(wǎng)頁(yè)內(nèi)容結(jié)果分成結(jié)構(gòu)化信息(朋友、群等鏈接信息)和非結(jié)構(gòu)化信息(文本、圖像等),分別存儲(chǔ)到結(jié)構(gòu)化信息數(shù)據(jù)庫(kù)和非結(jié)構(gòu)化信息數(shù)據(jù)庫(kù)中。
[0035]結(jié)構(gòu)化和非結(jié)構(gòu)化的分類(lèi)可以通過(guò)判斷該內(nèi)容是否可以存儲(chǔ)到結(jié)構(gòu)化數(shù)據(jù)庫(kù)中(如SQL)來(lái)判斷。通常文本和圖像是非結(jié)構(gòu)化數(shù)據(jù),無(wú)法把其中的內(nèi)容進(jìn)行切分和分類(lèi)。如一段新聞,雖然知道里面有人名、地名、公司名、時(shí)間等信息,但是如果不進(jìn)行處理,無(wú)法自動(dòng)的把這些信息導(dǎo)入到SQL中。同時(shí),結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息也可以重復(fù)進(jìn)行網(wǎng)頁(yè)進(jìn)行分析、文本分析、鏈接分析和網(wǎng)頁(yè)質(zhì)量控制、去重,得到精簡(jiǎn)的結(jié)構(gòu)化信息和非結(jié)構(gòu)化信息。
[0036]在將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存入數(shù)據(jù)庫(kù)之后,下一步就是知識(shí)抽取。這里采取的是基于實(shí)體的只是抽取技術(shù)。例如,可以從“百度的本部在西二旗”抽取三元組〈百度,本部是在,西二旗〉,其中“百度”是公司名稱(chēng),“西二旗”是地點(diǎn)或地址,“本部是在”是關(guān)系。更多的關(guān)系例如“CEO是”,“主演是”,“主打產(chǎn)品是”等等。得到這些關(guān)系后,需要對(duì)他們進(jìn)行聚類(lèi)處理。例如“CEO是”,“首席執(zhí)行官是”以及“創(chuàng)建者是”等等關(guān)系會(huì)以一定概率聚在一起。得到這些三元組后,進(jìn)一步將其組織成數(shù)據(jù)庫(kù),進(jìn)而可使用例如RDF語(yǔ)言等進(jìn)行處理和查詢(xún),重點(diǎn)將主要研宄文本自動(dòng)獲取三元組關(guān)系的方法,盡可能的提高抽取精度并不損失抽取的覆蓋率。對(duì)非結(jié)構(gòu)化文本數(shù)據(jù)進(jìn)行機(jī)器閱讀,首先通過(guò)自然語(yǔ)言處理技術(shù)進(jìn)行詞性標(biāo)注等;然后通過(guò)自增強(qiáng)(Bootstrapping)技術(shù)找到盡量多的關(guān)系,如<實(shí)體,關(guān)系,實(shí)體 > 三元組:通過(guò)實(shí)體得到更多他們之間的關(guān)系,再通過(guò)關(guān)系找到更多的實(shí)體,從而實(shí)現(xiàn)自增強(qiáng)的信息抽取。通過(guò)這樣的信息抽取過(guò)程,就可以構(gòu)建與人力資源相關(guān)的專(zhuān)有知識(shí)庫(kù)。
[0037]如圖3所示,所述信息抽取、融合、比較模塊將人才信息爬取模塊爬取到的個(gè)人信息(用戶(hù)所參與的社交媒體以及用戶(hù)行為,求職意向信息)進(jìn)行整合分析,建立人才專(zhuān)有的個(gè)人檔案;個(gè)人檔案進(jìn)一步解析成為若干關(guān)鍵詞以及其中的內(nèi)在聯(lián)系,從而完成用戶(hù)建模,同時(shí),解析招聘方招聘職位信息,進(jìn)行職位建模分析,將職位信息和用戶(hù)需求建立映射對(duì)應(yīng),進(jìn)行職位和用戶(hù)需求映射建模。
[0038]信息抽取、融合、比較模塊包括用戶(hù)建模模塊、職位需求建模模塊、職位和用戶(hù)映射建模模塊,用戶(hù)建模模塊、職位需求建模模塊與職位和用戶(hù)映射建模模塊相連接。
[0039]用戶(hù)建模模塊工作過(guò)程包括:
1-1)標(biāo)簽傳播:通過(guò)用戶(hù)檔案中的關(guān)鍵詞實(shí)體在構(gòu)建的人力資源專(zhuān)有知識(shí)庫(kù)中進(jìn)行隨機(jī)游走得到標(biāo)簽傳播的概率,從而擴(kuò)展用戶(hù)的描述;
1-2)內(nèi)容判別:對(duì)用戶(hù)檔案的內(nèi)容進(jìn)行分析,使用話(huà)題模型、實(shí)體抽取得到可能的標(biāo)簽;同時(shí),通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)分類(lèi)器對(duì)已有標(biāo)簽的用戶(hù)進(jìn)行學(xué)習(xí),從而對(duì)沒(méi)有標(biāo)簽的用戶(hù)進(jìn)行標(biāo)簽判斷;
1-3)用戶(hù)其他信息判別:對(duì)于用戶(hù)發(fā)表的內(nèi)容進(jìn)行理解以及對(duì)其朋友圈進(jìn)行分析,進(jìn)而預(yù)估用戶(hù)的年齡、工作性質(zhì)、工作地點(diǎn)、收入信息,從而可以更好的理解用戶(hù)的需求;對(duì)用戶(hù)的年齡、工作性質(zhì)、工作地點(diǎn)和收入信息進(jìn)行預(yù)估時(shí),對(duì)用戶(hù)提取關(guān)鍵詞和好友屬性特征,使用機(jī)器學(xué)習(xí)方法,對(duì)已有標(biāo)注信息進(jìn)行學(xué)習(xí)得到分類(lèi)器,對(duì)未知樣本進(jìn)行分類(lèi)。
[0040]職位需求建模模塊運(yùn)行過(guò)程包括,
2-1)職位信息增強(qiáng),僅僅靠解析招聘方張貼的廣告往往得到的信息不夠完備,需要基于互聯(lián)網(wǎng)搜索引擎進(jìn)行搜索,從相關(guān)的摘要和廣告內(nèi)容中得到其他與該職位相關(guān)的描述與刻畫(huà),從而對(duì)職位的信息進(jìn)行增強(qiáng)。
[0041]2-2)職位路徑分類(lèi),在抓取職位增強(qiáng)信息的同時(shí)得到職位路徑分類(lèi)樹(shù)的信息。另外對(duì)沒(méi)有路徑分類(lèi)樹(shù)信息的職位進(jìn)行分類(lèi),并分類(lèi)到職位路徑樹(shù)的某一個(gè)節(jié)點(diǎn)上;
2-3)職位其他信息采集,對(duì)職位相關(guān)的其他信息進(jìn)行收集,并存儲(chǔ)到數(shù)據(jù)庫(kù)(數(shù)據(jù)庫(kù)存儲(chǔ)信息,指存儲(chǔ)信息的數(shù)據(jù)庫(kù))中,通過(guò)對(duì)人力資源類(lèi)型網(wǎng)站的結(jié)構(gòu)進(jìn)行分析,得到相應(yīng)的評(píng)論和打分。
[0042]用戶(hù)建模模塊獲取得到用戶(hù)刻畫(huà)(用戶(hù)刻畫(huà)指用戶(hù)描述分析包括年齡,收入,興趣,地域,學(xué)歷以及用戶(hù)已有的工作歷史;),職位需求建模模塊獲取到職位刻畫(huà)(職位描述),職位和用戶(hù)需求映射建模模塊將職位和用戶(hù)需求建立映射對(duì)應(yīng)(將人才刻畫(huà)與職位刻畫(huà)建立映射對(duì)應(yīng)),對(duì)用戶(hù)在網(wǎng)站上提到求職意向時(shí)發(fā)表的內(nèi)容以及人力資源網(wǎng)站上的職位描述、用戶(hù)對(duì)職位以及應(yīng)聘單位的評(píng)論去噪,建立映射模型,職位和用戶(hù)需求映射模型是對(duì)數(shù)據(jù)的直接特征抽取或者是通過(guò)機(jī)器學(xué)習(xí)的手段得到的特征表達(dá),得到了映射模型后,比較職位和用戶(hù)的相關(guān)性。
[0043]如圖4所示,職位推薦模塊連接有用戶(hù)端推薦模塊和職位端推薦模塊。
[0044]用戶(hù)端推薦模塊運(yùn)行過(guò)程包括以下步驟:
3-1)通過(guò)用戶(hù)和職位的相關(guān)性得到可能推薦的職位列表;
3-2)對(duì)用戶(hù)的好友以及已有用戶(hù)的評(píng)論進(jìn)行用戶(hù)和商品的相關(guān)性的分析;
3-3)通過(guò)分析用戶(hù)刻畫(huà)對(duì)職位推薦進(jìn)行處理,細(xì)分推薦目標(biāo),所述用戶(hù)刻畫(huà)包括年齡,收入,興