本發(fā)明涉及一種人才搜索推薦技術(shù),尤其涉及一種基于語義匹配的人才搜索推薦方法及系統(tǒng)。
背景技術(shù):
市場上各種招聘網(wǎng)站的人才搜索推薦系統(tǒng)都是使用關(guān)鍵詞檢索技術(shù),系統(tǒng)通過用戶輸入的關(guān)鍵詞,在一堆簡歷中,搜出有對應(yīng)的關(guān)鍵詞的簡歷,目前的搜索方式存在下列問題:用戶需要對招聘職位足夠了解,才能提煉出精準(zhǔn)的關(guān)鍵詞搜到合適的簡歷,對用戶有一定的專業(yè)要求;通過關(guān)鍵詞搜索出來的簡歷大部分不是用戶所需要的,由于關(guān)鍵詞在不同的語句中是具有不同意思,系統(tǒng)無法識別關(guān)鍵詞的含義,只要簡歷中有這個(gè)詞就會被搜出來,從而導(dǎo)致匹配的質(zhì)量下降;關(guān)鍵詞是比較片面,一個(gè)崗位可以有很多關(guān)鍵詞組成,但是每次的關(guān)鍵詞搜索只能搜出部分簡歷,漏掉了有相似關(guān)鍵詞的合適簡歷;目前的人才搜索推薦系統(tǒng),輸入的關(guān)鍵詞較多時(shí),由于需要全都匹配到,搜到的簡歷會很少。輸入關(guān)鍵詞較少時(shí),會出現(xiàn)大量不是用戶需要的簡歷;用戶找一個(gè)職位的簡歷,需要頻繁輸入不同的關(guān)鍵詞搜簡歷,搜索的效率低下,重復(fù)工作多;對于搜索結(jié)果的排序通常是基于輸入的關(guān)鍵詞的出現(xiàn)的概率,而不是識別簡歷文本意思是否符合需求,導(dǎo)致用戶需要查看上百個(gè)簡歷,才能找到幾個(gè)合適的簡歷。
由于語言表述的模糊性與多樣性,在職位要求中可能會出現(xiàn)同一個(gè)詞在不同的上下文中的意思不一樣的情形,也可能出現(xiàn)不同的詞表達(dá)是同一個(gè)意思的情形。在關(guān)鍵詞檢索系統(tǒng)中,由于詞語是嚴(yán)格的按照字面來匹配的,用戶需要嚴(yán)格按照關(guān)鍵詞來搜索,才能檢索到合適的簡歷,這一特性導(dǎo)致用戶在使用現(xiàn)有的人才檢索系統(tǒng)的花費(fèi)的時(shí)間較長。造成這個(gè)問題的深層次原因是現(xiàn)在的檢索系統(tǒng)是基于語言文字的計(jì)算機(jī)存儲內(nèi)容來做的,文字存儲的是編碼(通用的是UTF-8)后的二進(jìn)制內(nèi)容,一個(gè)文字一般是1~4個(gè)字節(jié),檢索系統(tǒng)在庫里精確查找出現(xiàn)這些字節(jié)內(nèi)容的文本。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問題之一。
為此,本發(fā)明的目的在于,為了克服語言表述的多樣性導(dǎo)致的檢索門檻高,耗時(shí)長的問題,通過語義分析系統(tǒng)對招聘職位要求中的各種表達(dá)進(jìn)行了高維向量化表示,不再通過語言表達(dá)的字面匹配來檢索,而是轉(zhuǎn)化為數(shù)學(xué)向量來檢索。經(jīng)過向量化后的表達(dá)之間的相似度可以通過高維空間中的距離來表示,這樣用戶只需要輸入多樣表達(dá)中的一種,系統(tǒng)即可識別相近的表達(dá)并建立聯(lián)系,解決了模糊和多樣的語義的識別問題,縮短了人才搜索的時(shí)間,提高了使用者的搜索效率。
為實(shí)現(xiàn)上述目的,本發(fā)明提供一種基于語義匹配的人才搜索推薦方法,包括:
步驟1,接收用戶端輸入的招聘信息;
步驟2,根據(jù)獲取的所述招聘信息,進(jìn)行解析;
步驟3,對解析后的招聘信息進(jìn)行向量化計(jì)算,生成向量化數(shù)據(jù);
步驟4,比較所述生成的向量化數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存儲的向量化數(shù)據(jù)的相似度;
步驟5,將比較結(jié)果輸出至用戶端。
更具體的,在步驟1之前還包括:
收集各個(gè)渠道的簡歷信息,將收集到的簡歷信息進(jìn)行統(tǒng)一結(jié)構(gòu)化,提取有效字段,將各個(gè)字段進(jìn)行向量化處理,生成向量化數(shù)據(jù),存儲在數(shù)據(jù)庫中。
優(yōu)選的,收集的簡歷格式包括文本、HTML、Word、PDF格式。
優(yōu)選的,所述收集各個(gè)渠道的簡歷信息,將收集到的簡歷信息進(jìn)行統(tǒng)一結(jié)構(gòu)化,提取有效字段,將各個(gè)字段進(jìn)行向量化處理,生成向量化數(shù)據(jù),存儲在數(shù)據(jù)庫中,還包括:
對收集的簡歷信息進(jìn)行數(shù)據(jù)清洗,從簡歷信息抽取各個(gè)不同的字段,打上標(biāo)簽;將字段內(nèi)容統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)形式。
優(yōu)選的,所述根據(jù)獲取的所述招聘信息,進(jìn)行解析,具體包括:
獲取用戶輸入的招聘信息,分析出用戶的需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)的需求;對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,轉(zhuǎn)換為標(biāo)準(zhǔn)化的查詢條件。
優(yōu)選的,結(jié)合用戶使用行為,定期地將合適的簡歷推薦給用戶。
本發(fā)明還提供一種基于語義匹配的人才搜索推薦系統(tǒng),包括:
接收模塊,用于接收用戶端輸入的招聘信息;
解析模塊,用于根據(jù)獲取的所述招聘信息,進(jìn)行解析;
量化模塊,用于對解析后的招聘信息進(jìn)行向量化計(jì)算,生成向量化數(shù)據(jù);
比較模塊,用于比較所述生成的向量化數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存儲的向量化數(shù)據(jù)的相似度;
輸出模塊,用于將比較結(jié)果輸出至用戶端。
優(yōu)選的,還包括:
數(shù)據(jù)庫,用于收集各個(gè)渠道的簡歷信息,將收集到的簡歷信息進(jìn)行統(tǒng)一結(jié)構(gòu)化,提取有效字段,將各個(gè)字段進(jìn)行向量化處理,生成向量化數(shù)據(jù),存儲在數(shù)據(jù)庫中。
優(yōu)選的,還包括:
數(shù)據(jù)清洗模塊,對收集的簡歷信息進(jìn)行數(shù)據(jù)清洗,從簡歷信息抽取各個(gè)不同的字段,打上標(biāo)簽;將字段內(nèi)容統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)形式。
優(yōu)選的,所述解析模塊具體功能為:獲取用戶輸入的招聘信息,分析出用戶的需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)的需求;對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,轉(zhuǎn)換為標(biāo)準(zhǔn)化的查詢條件。
本發(fā)明為了克服語言表述的多樣性導(dǎo)致的檢索門檻高,耗時(shí)長的問題,通過語義分析系統(tǒng)對招聘職位要求中的各種表達(dá)進(jìn)行了高維向量化表示,不再通過語言表達(dá)的字面匹配來檢索,而是轉(zhuǎn)化為數(shù)學(xué)向量來檢索。經(jīng)過向量化后的表達(dá)之間的相似度可以通過高維空間中的距離來表示,這樣用戶只需要輸入多樣表達(dá)中的一種,系統(tǒng)即可識別相近的表達(dá)并建立聯(lián)系,解決了模糊和多樣的語義的識別問題,縮短了人才搜索的時(shí)間,提高了使用者的搜索效率。
本發(fā)明所采用的技術(shù)方案使用語義匹配技術(shù)來檢索簡歷,用戶只需要輸入整個(gè)職位要求就可以通過多維度的語言搜索,告別一對一的關(guān)鍵詞匹配,不單找出文本描述一樣的簡歷,還能挖掘更多匹配的簡歷。匹配的精準(zhǔn)度也超過關(guān)鍵詞搜索,并且可以對搜索出來的簡歷按匹配度進(jìn)行智能排序,大大的縮短了職位檢索的時(shí)間,提高了使用者的搜索效率。在語義匹配的基礎(chǔ)上輔以關(guān)鍵詞、條件篩選、智能排序,讓用戶的搜索大大提升。同時(shí)系統(tǒng)化主動搜索為主動推薦,讓用戶在沒有去搜索的情況下,第一時(shí)間收到市場新增的合適簡歷,從而縮短招聘周期提高效率。
附圖說明
圖1示出了本發(fā)明一種基于語義匹配的人才搜索推薦方法流程圖;
圖2示出了本發(fā)明一種基于語義匹配的人才搜索推薦系統(tǒng)結(jié)構(gòu)框圖;
圖3示出了本發(fā)明一實(shí)施例的人才搜索推薦方法流程圖。
具體實(shí)施方式
為了能夠更清楚地理解本發(fā)明的上述目的、特征和優(yōu)點(diǎn),下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明進(jìn)行進(jìn)一步的詳細(xì)描述。需要說明的是,在不沖突的情況下,本申請的實(shí)施例及實(shí)施例中的特征可以相互組合。
在下面的描述中闡述了很多具體細(xì)節(jié)以便于充分理解本發(fā)明,但是,本發(fā)明還可以采用其他不同于在此描述的方式來實(shí)施,因此,本發(fā)明的保護(hù)范圍并不受下面公開的具體實(shí)施例的限制。
本發(fā)明的核心點(diǎn)是突破了文字本身的計(jì)算機(jī)編碼存儲模式,理解了語言文字在招聘領(lǐng)域的深層次含義,然后用高維數(shù)學(xué)向量表達(dá)這些含義,并用空間距離表達(dá)文字的相似度。
基于獨(dú)有的語義匹配方法,本發(fā)明同時(shí)融合了復(fù)雜條件篩選、關(guān)鍵詞過濾,從而可以檢索出與用人單位需求最相匹配的候選人,并給出了一個(gè)高效的可視化輸出模板。
本發(fā)明所采用的技術(shù)方案使用語義匹配技術(shù)來檢索簡歷,用戶只需要輸入整個(gè)職位要求就可以通過多維度的語言搜索,告別一對一的關(guān)鍵詞匹配,不單找出文本描述一樣的簡歷,還能挖掘更多匹配的簡歷。匹配的精準(zhǔn)度也超過關(guān)鍵詞搜索,并且可以對搜索出來的簡歷按匹配度進(jìn)行智能排序,大大的縮短了職位檢索的時(shí)間,提高了使用者的搜索效率。在語義匹配的基礎(chǔ)上輔以關(guān)鍵詞、條件篩選、智能排序,讓用戶的搜索大大提升。同時(shí)系統(tǒng)化主動搜索為主動推薦,讓用戶在沒有去搜索的情況下,第一時(shí)間收到市場新增的合適簡歷,從而縮短招聘周期提高效率。
圖1示出了本發(fā)明一種基于語義匹配的人才搜索推薦方法流程圖。
如圖1所示,根據(jù)本發(fā)明一種基于語義匹配的人才搜索推薦方法,包括:
步驟1,接收用戶端輸入的招聘信息;
步驟2,根據(jù)獲取的所述招聘信息,進(jìn)行解析;
步驟3,對解析后的招聘信息進(jìn)行向量化計(jì)算,生成向量化數(shù)據(jù);
步驟4,比較所述生成的向量化數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存儲的向量化數(shù)據(jù)的相似度;
步驟5,將比較結(jié)果輸出至用戶端。
其中,步驟2具體為,獲取用戶輸入的招聘信息,分析出用戶的需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)的需求;對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,轉(zhuǎn)換為標(biāo)準(zhǔn)化的查詢條件。
更具體的,在步驟1之前還包括:
收集各個(gè)渠道的簡歷信息,將收集到的簡歷信息進(jìn)行統(tǒng)一結(jié)構(gòu)化,提取有效字段,將各個(gè)字段進(jìn)行向量化處理,生成向量化數(shù)據(jù),存儲在數(shù)據(jù)庫中。向量化處理是本領(lǐng)域中的常用技術(shù),本發(fā)明不再一一贅述。
更具體的,收集的簡歷格式包括文本、HTML、Word、PDF格式。收集的簡歷可以是求職者通過在線網(wǎng)頁編輯的,也可以是求職者上傳的word、PDF等附件格式。
其中,需要對收集的簡歷信息進(jìn)行數(shù)據(jù)清洗,從簡歷信息抽取各個(gè)不同的字段,打上標(biāo)簽;將字段內(nèi)容統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)形式。
還可以結(jié)合用戶使用行為,定期地將合適的簡歷推薦給用戶。例如,每天或者每周向招聘用戶提供符合要求的簡歷信息。
圖2示出了本發(fā)明一種基于語義匹配的人才搜索推薦系統(tǒng)結(jié)構(gòu)框圖。
如圖2所示,本發(fā)明還提供一種基于語義匹配的人才搜索推薦系統(tǒng),包括:
接收模塊,用于接收用戶端輸入的招聘信息;
解析模塊,用于根據(jù)獲取的所述招聘信息,進(jìn)行解析;
量化模塊,用于對解析后的招聘信息進(jìn)行向量化計(jì)算,生成向量化數(shù)據(jù);
比較模塊,用于比較所述生成的向量化數(shù)據(jù)與數(shù)據(jù)庫中預(yù)存儲的向量化數(shù)據(jù)的相似度;
輸出模塊,用于將比較結(jié)果輸出至用戶端。
還包括數(shù)據(jù)庫,用于收集各個(gè)渠道的簡歷信息,將收集到的簡歷信息進(jìn)行統(tǒng)一結(jié)構(gòu)化,提取有效字段,將各個(gè)字段進(jìn)行向量化處理,生成向量化數(shù)據(jù),存儲在數(shù)據(jù)庫中。
數(shù)據(jù)清洗模塊,對收集的簡歷信息進(jìn)行數(shù)據(jù)清洗,從簡歷信息抽取各個(gè)不同的字段,打上標(biāo)簽;將字段內(nèi)容統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)形式。
更具體的,解析模塊具體功能為:
獲取用戶輸入的招聘信息,分析出用戶的需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)的需求;對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,轉(zhuǎn)換為標(biāo)準(zhǔn)化的查詢條件。
其中,系統(tǒng)的每個(gè)模塊根據(jù)各自的功能與對應(yīng)的模塊進(jìn)行數(shù)據(jù)交互和連接,這是本領(lǐng)域技術(shù)人員能毫無疑義的得出的,本發(fā)明不再一一贅述。
其中針對后臺服務(wù)器進(jìn)行簡歷收集的過程還包括以下模塊:
簡歷收集模塊:收集各種格式、各種排版的簡歷
數(shù)據(jù)清洗模塊:自動解析收集到的簡歷內(nèi)容,提取各個(gè)字段
入庫模塊:與數(shù)據(jù)清洗模塊耦接,將各個(gè)字段進(jìn)行結(jié)構(gòu)化,存入數(shù)據(jù)庫
向量化模塊:與入庫模塊耦接,將結(jié)構(gòu)化的字段由文字轉(zhuǎn)化成高維向量并存儲在相應(yīng)的數(shù)據(jù)庫中
輸入模塊:獲取用戶招聘職位要求,從一段文本需求中提煉出各種需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)等的需求。
匹配模塊:與輸入模塊、向量化模塊耦接,將輸入向量化后與向量化模塊存儲的高維向量計(jì)算相似度,并按相似度排序
推薦模塊:每天自動在海量的簡歷中,計(jì)算匹配度,按照推薦規(guī)則自動定期推薦簡歷給用戶。
圖3示出了本發(fā)明一實(shí)施例的人才搜索推薦方法流程圖。
本基于語義匹配的人才搜索推薦系統(tǒng)包括以下步驟:
(一)數(shù)據(jù)準(zhǔn)備階段
收集海量簡歷,格式包括文本、HTML、Word、PDF等常見格式。
格式轉(zhuǎn)換并提取簡歷里的文本內(nèi)容;
對收集的簡歷進(jìn)行數(shù)據(jù)清洗,從簡歷文本抽取各個(gè)不同的字段,打上標(biāo)簽;
將字段內(nèi)容統(tǒng)一轉(zhuǎn)換為標(biāo)準(zhǔn)形式,例如地點(diǎn)統(tǒng)一用國家標(biāo)準(zhǔn)代碼表示;
將各個(gè)字段的內(nèi)容存入數(shù)據(jù)庫;
將文本內(nèi)容轉(zhuǎn)換為高維向量,存入數(shù)據(jù)庫。
(二)用戶交互-輸入階段
獲取用戶的輸入,包括文本輸入和條件選擇兩部分;
智能分析出用戶的需求,包括學(xué)歷、學(xué)校、專業(yè)、工作年限、薪酬、城市、行業(yè)、性別、年齡、能力、經(jīng)驗(yàn)等的需求。對這些數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化操作,轉(zhuǎn)換為標(biāo)準(zhǔn)化的查詢條件;并將用戶輸入的文本內(nèi)容進(jìn)行高維向量化;
將查詢條件發(fā)送給計(jì)算模塊;
(三)計(jì)算階段
根據(jù)用戶輸入的查詢條件,在庫里快速找到最匹配的目標(biāo)簡歷,并按指定規(guī)則排序輸出;查找分為三種類型的數(shù)據(jù):
條件篩選:例如年齡氛圍、工作年限范圍、地點(diǎn)范圍等;
關(guān)鍵詞要求:必須包含指定的關(guān)鍵詞
語義向量距離計(jì)算:用戶輸入內(nèi)容與數(shù)據(jù)庫中向量的距離。
將查詢條件、用戶查看記錄、用戶操作記錄都存入數(shù)據(jù)庫。
(四)用戶交互-可視化輸出階段
將最匹配的簡歷按照容易理解的格式展示出來,并將語義最匹配的內(nèi)容高亮輸出,提高用戶查看的效率。
(五)推薦階段
簡歷數(shù)據(jù)在不斷的更新進(jìn)入系統(tǒng),系統(tǒng)會將新簡歷與系統(tǒng)里的用戶對人才的需求進(jìn)行匹配度計(jì)算,并結(jié)合用戶使用行為,定期的將合適的簡歷推薦給用戶。
本發(fā)明的核心點(diǎn)是突破了文字本身的計(jì)算機(jī)編碼存儲模式,理解了語言文字在招聘領(lǐng)域的深層次含義,然后用高維數(shù)學(xué)向量表達(dá)這些含義,并用空間距離表達(dá)文字的相似度。
基于獨(dú)有的語義匹配方法,本發(fā)明同時(shí)融合了復(fù)雜條件篩選、關(guān)鍵詞過濾,從而可以檢索出與用人單位需求最相匹配的候選人,并給出了一個(gè)高效的可視化輸出模板。
在本說明書的描述中,術(shù)語“安裝”、“相連”、“連接”等術(shù)語均應(yīng)做廣義理解,例如,“連接”可以是固定連接,也可以是可拆卸連接,或一體地連接;“相連”可以是直接相連,也可以通過中間媒介間接相連。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
在本說明書的描述中,術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“具體實(shí)施例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或?qū)嵗6?,描述的具體特征、結(jié)構(gòu)、材料或特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。