亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種預測員工離職的方法及裝置的制造方法

文檔序號:10512167閱讀:200來源:國知局
一種預測員工離職的方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種預測員工離職的方法及裝置,通過獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文本格式的通訊文本記錄,對通訊文本記錄進行分詞,獲得分詞文本,將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職關鍵詞匹配的匹配文本,提取匹配文本的特征向量,獲得通訊文本記錄的文本特征向量,根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工是否有離職意向,解決了如何預測員工離職的技術問題,實現(xiàn)了根據(jù)待預測員工的歷史通訊記錄就能對其是否有離職意向進行預測,有利于企業(yè)及早知曉員工是否有離職意向,并采取相應措施減少企業(yè)離職率。
【專利說明】
一種預測員工離職的方法及裝置
技術領域
[0001] 本發(fā)明涉及通信技術領域,具體涉及一種預測員工離職的方法及裝置。
【背景技術】
[0002] 盡管員工離職現(xiàn)象在企業(yè)中可謂是司空見慣,但或多或少企業(yè)會因為出現(xiàn)員工離 職現(xiàn)象而措手不及。例如,當重要崗位的員工突然離職,且企業(yè)沒有針對該重要崗位設置相 應的人才儲備或剛好碰上人才招聘低迷期時,便很難即時招聘到任職該重要崗位的新員 工,從而影響企業(yè)的正常運作或工作進展。
[0003] 此外,較大的離職率對企業(yè)本身的發(fā)展也不利,因為企業(yè)往往需要花費較多的時 間成本或甚至更大的工資成本去招聘新的員工。但倘若在員工離職之前就能預測員工是否 有離職意向,這樣就能針對一些優(yōu)秀的管理或技術人員采取相應的安撫或挽留手段,從而 保證企業(yè)的正常運作或工作進展,以及減少重新招聘新員工的時間和人力成本。所以,亟需 提供一種能預測員工離職的方法及裝置。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明提供了一種預測員工離職的方法,以解決如何預測員工離職的技術問題。
[0005] 根據(jù)本發(fā)明的一方面,提供了一種預測員工離職的方法,包括:
[0006] 獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文本格式的通訊文本 記錄;
[0007] 對通訊文本記錄進行分詞,獲得分詞文本;
[0008] 將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職關鍵詞匹配的匹 配文本;
[0009] 提取匹配文本的特征向量,獲得通訊文本記錄的文本特征向量;
[0010] 根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工是否有離職意向。
[0011] 進一步地,提取匹配文本的特征向量,獲得通訊文本記錄的文本特征向量包括:
[0012] 采用詞頻-逆文本算法獲得匹配文本的特征值;
[0013] 根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征向量。
[0014] 進一步地,根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征向量包括:
[0015] 計算通訊文本記錄的通訊主題與待預測員工的工作崗位之間的匹配度;
[0016] 根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄的文本特征向量。
[0017] 進一步地,計算通訊文本記錄的通訊主題以及待預測員工的工作崗位之間的匹配 度包括:
[0018] 利用K均值聚類算法對通訊文本記錄進行文本聚類,獲得文本聚類中心;
[0019] 提取文本聚類中心的關鍵詞作為通訊文本記錄的通訊主題;
[0020] 根據(jù)與待預測員工進行通訊的聯(lián)系人的通訊錄備注信息獲得待預測員工的工作 山/丄 閃位;
[0021] 計算通訊主題與工作崗位之間的相似度,并將相似度作為通訊文本記錄的通訊主 題以及待預測員工的工作崗位之間的匹配度。
[0022] 進一步地,預先訓練的分類模型包括:
[0023] SVM分類模型、貝葉斯分類模型、最大熵分類模型中的任意一種。
[0024] 進一步地,歷史通訊記錄包括:
[0025] 歷史通話記錄和歷史短信記錄,其中歷史短信記錄包括歷史手機短信記錄和歷史 即時通訊消息記錄。
[0026] 根據(jù)本發(fā)明的另一方面,提供了一種預測員工離職的裝置,包括:
[0027] 獲取裝置,用于獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文本 格式的通訊文本記錄;
[0028] 分詞裝置,用于對通訊文本記錄進行分詞,獲得分詞文本;
[0029] 匹配裝置,用于將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職 關鍵詞匹配的匹配文本;
[0030] 特征向量提取裝置,用于提取匹配文本的特征向量,獲得通訊文本記錄的文本特 征向量;
[0031] 確定裝置,用于根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工是 否有離職意向。
[0032]進一步地,特征向量提取裝置包括:
[0033] 特征值獲取裝置,用于采用詞頻-逆文本算法獲得匹配文本的特征值;
[0034] 特征向量獲取裝置,用于根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征 向量。
[0035]進一步地,特征向量獲取裝置包括:
[0036] 匹配度計算裝置,用于計算通訊文本記錄的通訊主題與待預測員工的工作崗位之 間的匹配度;
[0037] 文本特征向量獲取裝置,根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄 的文本特征向量。
[0038]本發(fā)明具有以下有益效果:
[0039] 本發(fā)明提供了一種預測員工離職的方法及裝置,該方法通過獲取待預測員工的歷 史通訊記錄,以及提取該歷史通訊記錄的文本特征向量,并根據(jù)提取的文本特征向量以及 預先訓練的分類模型確定待預測員工是否有離職意向,解決了如何預測員工離職的技術問 題,實現(xiàn)了根據(jù)待預測員工的歷史通訊記錄就能對其是否有離職意向進行預測,有利于企 業(yè)及早知曉員工是否有離職意向,并采取相應措施減少企業(yè)離職率,從而大大節(jié)約了企業(yè) 重新招聘所花費的人力或金錢成本以及保障了企業(yè)的正常運作或工作進展。
[0040] 除了上面所描述的目的、特征和優(yōu)點之外,本發(fā)明還有其它的目的、特征和優(yōu)點。 下面將參照圖,對本發(fā)明作進一步詳細的說明。
【附圖說明】
[0041] 構成本申請的一部分的附圖用來提供對本發(fā)明的進一步理解,本發(fā)明的示意性實 施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0042] 圖1是本發(fā)明優(yōu)選實施例的預測員工離職的方法流程圖;
[0043] 圖2是本發(fā)明優(yōu)選實施例針對一個精簡實施例預測員工離職的的方法流程圖;
[0044] 圖3是本發(fā)明優(yōu)選實施例預先建立分類模型的方法流程圖;
[0045] 圖4是本發(fā)明優(yōu)選實施例的預測員工離職的裝置的結構框圖。
【附圖說明】 [0046] :
[0047] 10、獲取裝置;20、分詞裝置;30、匹配裝置;40、特征向量提取裝置;50、確定裝置。
【具體實施方式】
[0048] 以下結合附圖對本發(fā)明的實施例進行詳細說明,但是本發(fā)明可以由權利要求限定 和覆蓋的多種不同方式實施。
[0049] 參照圖1,本發(fā)明的優(yōu)選實施例提供了一種預測員工離職的方法,包括:
[0050] 步驟S101,獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文本格式 的通訊文本記錄;
[0051] 步驟S102,對通訊文本記錄進行分詞,獲得分詞文本;
[0052]步驟S103,將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職關鍵 詞匹配的匹配文本;
[0053]步驟S104,提取匹配文本的特征向量,獲得通訊文本記錄的文本特征向量;
[0054]步驟S105,根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工是否有 離職意向。
[0055] 本發(fā)明提供的預測員工離職的方法,通過獲取待預測員工的歷史通訊記錄,以及 提取該歷史通訊記錄的文本特征向量,并根據(jù)提取的文本特征向量以及預先訓練的分類模 型確定待預測員工是否有離職意向,解決了如何預測員工離職的技術問題,實現(xiàn)了根據(jù)待 預測員工的歷史通訊記錄就能對其是否有離職意向進行預測,有利于企業(yè)及早知曉員工是 否有離職意向,并采取相應措施減少企業(yè)離職率,從而大大節(jié)約了企業(yè)重新招聘所花費的 人力或金錢成本以及保障了企業(yè)的正常運作或工作進展。
[0056] 現(xiàn)有人力資源預測員工是否有離職意向,通常是通過與員工進行面談的結果并結 合員工平常的工作表現(xiàn),進行主觀預測。采用這種主觀預測員工是否有離職意向的準確度 不高,并且主觀預測的方法沒有很好的推廣適用性,也即預測員工是否有離職意向沒有統(tǒng) 一及客觀的方法,從而導致針對每一個員工都需要由人力資源單獨進行主觀預測,工作量 較大,效率較低。
[0057] 針對該問題,本實施例將預測員工是否有離職意向的問題轉換為模式識別中的分 類問題。具體地,本實施例預先訓練的分類模型的輸出結果分為兩種,分別是有離職意向和 沒有離職意向,并且對分類模型進行訓練選取的訓練樣本也包括兩種,分別是有離職意向 的員工的歷史通訊記錄以及沒有離職意向的員工的歷史通訊記錄。在具體的實施過程中, 本實施例可以選取已經(jīng)離職的員工的歷史通訊記錄樣本作為有離職意向的員工的歷史通 訊記錄樣本,而選取在職的員工的歷史通訊記錄樣本作為沒有離職意向的員工的歷史通訊 記錄樣本。
[0058] 本實施例較新穎地提出根據(jù)員工的歷史通訊記錄建立用于預測員工是否有離職 意向的分類模型,并采用該分類模型預測待預測員工是否有離職意向,相對現(xiàn)有采用主觀 預測員工是否有離職意向的方法的準確度更高,而且通過分類模型預測員工是否有離職意 向的預測效率高,具有較大的推廣適用性。
[0059] 此外,本實施例在對通訊文本記錄分詞后,通過將分詞文本與預先建立的離職關 鍵詞列表進行匹配,獲得與離職關鍵詞匹配的匹配文本,不僅大大降低了通訊文本記錄的 特征向量的維度,而且根據(jù)匹配文本獲取的特征向量更具代表性,為后續(xù)提高預測員工離 職的準確率奠定了良好基礎。
[0060] 可選地,提取匹配文本的特征向量,獲得通訊文本記錄的文本特征向量包括:
[0061 ]采用詞頻-逆文本算法獲得匹配文本的特征值;
[0062]根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征向量。
[0063] 具體地,本實施例獲取到與離職關鍵詞匹配的匹配文本后,通過詞頻-逆文本算法 獲得匹配文本的特征值,并根據(jù)計算出的特征值生成通訊文本記錄的文本特征向量。其中, 詞頻-逆文本算法采用TF-IDF函數(shù)計算各個匹配文本的特征值的計算公式為:
[0064] w(tk,Tj) = tf(tk,Tj) Xidf(tk),
[0065] 其中w(tk,Tj)為通訊文本記錄Tj中匹配文本tk的特征值,tf(tk,Tj)為匹配文本t k 在通訊文本記錄h中的詞頻數(shù);
1表示匹配文本tk在訓練集中的逆文 本頻率,N為訓練集中通訊文本記錄總數(shù),Νκ為訓練集中包含匹配文本tk的通訊文本記錄數(shù) 目。
[0066] 為了保證根據(jù)不同的通訊文本記錄獲取的文本特征向量的維度相同,本實施例在 根據(jù)匹配文本的特征值構造通訊文本記錄的文本特征向量時,將文本特征向量的維度數(shù)構 造成與預先建立的離職關鍵詞列表中的離職關鍵詞的總數(shù)目相同。例如離職關鍵詞列表表 示為L(ll,12,…In),其中In代表第η個離職關鍵詞,η為離職關鍵詞的總數(shù)目。假設本實施 例將分詞文本與預先建立的離職關鍵詞列表進行匹配后,獲得分詞文本與離職關鍵詞列表 中的第i個和第j個離職關鍵詞匹配,且通過TF-IDF函數(shù)分別計算出與第i個和第j個離職關 鍵詞匹配的匹配文本的特征值分別為^和^,則構造通訊文本記錄的文本特征向量為T = (0,0,,. .Wl,. .0),也即先設置一個與離職關鍵詞列表中離職關鍵詞總數(shù)目相同維度的 零向量,當在離職關鍵詞列表中匹配出與分詞文本對應的匹配文本時,則將上述零向量中 與離職關鍵詞列表中與匹配關鍵詞匹配的離職關鍵詞序號對應位置的向量值設置為根據(jù) TF-IDF函數(shù)計算出的特征值,而其他位置均保持為零。這樣與每個通訊文本記錄對應的文 本特征向量的維度數(shù)目都相同,且都為離職關鍵詞列表中離職關鍵詞的總數(shù)目。
[0067] 可選地,根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征向量包括:
[0068] 計算通訊文本記錄的通訊主題與待預測員工的工作崗位之間的匹配度;
[0069] 根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄的文本特征向量。
[0070] 由于針對有離職意向的員工,其通訊記錄的通訊主題可能與其工作崗位的相關度 有較大偏差,例如針對有離職意向的員工,由于花費較大的精力在求職新的工作機會,故其 在產(chǎn)生離職想法后進行通訊的通訊主題可能主要與面試、入職、離職、人力等話題相關。本 實施例在獲得通訊文本記錄的文本特征向量時,通過先計算通訊文本記錄的通訊主題與待 預測員工的工作崗位之間的匹配度,然后根據(jù)匹配文本的特征值以及匹配度,獲得通訊文 本記錄的文本特征向量,從而使得獲取的文本特征向量具有更好的代表性,也為后續(xù)獲得 較準確的預測效果奠定了基礎。
[0071] 可選地,計算通訊文本記錄的通訊主題以及待預測員工的工作崗位之間的匹配度 包括:
[0072] 利用K均值聚類算法對通訊文本記錄進行文本聚類,獲得文本聚類中心;
[0073] 提取文本聚類中心的關鍵詞作為通訊文本記錄的通訊主題;
[0074] 根據(jù)與待預測員工進行通訊的聯(lián)系人的通訊錄備注信息獲得待預測員工的工作 山/丄 閃位;
[0075] 計算通訊主題與工作崗位之間的相似度,并將相似度作為通訊文本記錄的通訊主 題以及待預測員工的工作崗位之間的匹配度。
[0076] 為了更準確的獲取通訊文本記錄的通訊主題,本實施例先利用K均值聚類算法對 通訊文本記錄進行文本聚類,獲得文本聚類中心,然后提取文本聚類中心的關鍵詞作為通 訊文本記錄的通訊主題,并通過計算通訊主題與待預測員工的工作崗位之間的相似度,獲 得通訊文本記錄的通訊主題以及待預測員工的工作崗位之間的匹配度。在實際的實施過程 中,通過K均值聚類算法獲得的文本聚類中心可能不止一個,也即通訊主題也可能不止一 個,針對這種情況,本實施例分別計算每一個通訊主題與工作崗位之間的相似度,然后再將 各個通訊主題與工作崗位之間的相似度的平均值作為通訊文本記錄的通訊主題以及待預 測員工的工作崗位之間的匹配度。
[0077] 具體地,本實施例基于K-means聚類算法對通訊文本記錄進行文本聚類,獲得文本 聚類中心,具體包括以下步驟:
[0078] a、隨機選取K個數(shù)據(jù)作為中心點,本實施例中的中心點既可以是一個詞也可以是 一句話。
[0079] b、然后計算每一個樣本與中心點的距離,選取最小的距離對應的中心點即為所屬 的類。具體地,本實施例通過計算每一個樣本對應的詞向量與中心點對應的詞向量之間的 距離獲取每一個樣本與中心點的距離。
[0080] c、對應每一個類,重新計算中心點(該類別中所有樣本的均值)。
[0081 ] d、重復迭代b、c步驟直至收斂,即聚類中心不再變化。
[0082] 此外,本實施例在獲取待預測員工的工作崗位時,可以通過與待預測員工進行通 訊的聯(lián)系人的通訊錄備注信息獲得待預測員工的工作崗位。需要說明的是,在實際的實施 過程中,可能出現(xiàn)不同的與待預測員工進行通訊的聯(lián)系人的通訊錄備注信息中對待預測員 工的工作崗位的備注可能不一樣。針對這種情況,本實施例選取備注數(shù)量最多的工作崗位 作為與待預測員工對應的工作崗位,此外,本實施例也可能出現(xiàn)與待預測員工進行通訊的 聯(lián)系人可能都沒有對待預測員工的工作崗位進行備注,針對這種情況,本實施例可以設置 提示用于用戶手動輸入待預測員工的工作崗位的輸入接口。本實施例計算通訊主題與工作 崗位之間的相似度的具體過程包括:首先自定義與工作崗位關聯(lián)的關聯(lián)詞,然后計算通訊 主題的詞向量與關聯(lián)詞的詞向量之間的相似度,當通訊主題有多個時,則分別計算每一個 通訊主題與關聯(lián)詞之間的相似度,然后再取平均值作為最終的通訊主題與工作崗位之間的 相似度。
[0083] 本實施例通過K均值聚類算法提取待預測員工的歷史通訊記錄的通訊主題,以及 將通過聚類算法獲得的所有通訊主題分別與待預測員工的工作崗位之間的相似度的平均 值作為通訊文本記錄的通訊主題以及待預測員工的工作崗位之間的匹配度,使得獲取的通 訊主題以及待預測員工的工作崗位之間的匹配度更準確、更智能化。
[0084]可選地,預先訓練的分類模型包括:
[0085] SVM分類模型、貝葉斯分類模型、最大熵分類模型中的任意一種。
[0086]需要說明的是,本實施例預先訓練的分類模型不限于包括SVM分類模型、貝葉斯分 類模型、最大熵分類模型,也即本實施例也可以采用其他預先訓練好的分類模型作為預測 員工是否有離職意向的預測模型。
[0087] 可選地,歷史通訊記錄包括:
[0088] 歷史通話記錄和歷史短信記錄,其中歷史短信記錄包括歷史手機短信記錄和歷史 即時通訊消息記錄。
[0089] 在實際的實施過程中,本實施例所指的歷史通訊記錄不僅僅包括歷史聊天記錄, 還包括歷史通話記錄,且歷史通話記錄包括手機歷史通話記錄以及即時通訊歷史通話記 錄,歷史聊天記錄包括手機歷史聊天記錄以及即時通訊歷史聊天記錄。具體地,當本實施例 獲取的歷史通訊記錄為歷史通話記錄時,則首先將語音格式的歷史通話記錄轉換為文本格 式的歷史通訊記錄,然后再對其進行分析,此外本實施例中的手機歷史聊天記錄和即時通 訊歷史聊天記錄的格式可以是文本格式的,也可以是語音、圖片、視頻等格式。
[0090] 參照圖2,本實施例以一個精簡的實施例對預測員工離職的方法進行更進一步具 體的說明,該方法包括以下步驟:
[0091] 步驟S201,獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文本格式 的通訊文本記錄。
[0092] 具體地,本實施例可以獲取待預測員工某一時間段內(nèi)的歷史通訊記錄,例如最近 一個月時間內(nèi)的歷史通訊記錄,或最近半年內(nèi)的歷史通訊記錄等等,具有由用戶自定義。 [0093] 步驟S202,對通訊文本記錄進行分詞,獲得分詞文本。
[0094] 具體地,本實施例對通訊文本記錄進行分詞,語義消歧,去除停用詞等操作后,獲 得分詞文本。假設本實施例獲得的分詞文本數(shù)目為m個,且分詞文本列表表示為F(f!,f2 r·· fm),其中fm代表第m個分詞文本。
[0095] 步驟S203,將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職關鍵 詞匹配的匹配文本。
[0096]具體地,本實施例假設預先建立的離職關鍵詞列表為L(11,12,…In),其中In代表 第η個離職關鍵詞,η為離職關鍵詞的總數(shù)目。通過將分詞文本與預先建立的離職關鍵詞列 表進行匹配,假設獲得匹配文本為兩個,且該兩個匹配文本分別與離職關鍵詞列表中第i個 和第j個離職關鍵詞對應。
[0097]步驟S204,采用詞頻-逆文本算法獲得匹配文本的特征值。
[0098]具體地,本實施例假設根據(jù)TF-IDF函數(shù)分別計算出與第i個和第j個離職關鍵詞匹 配的匹配文本的特征值分別為^和^。
[0099] 步驟S205,計算通訊文本記錄的通訊主題與待預測員工的工作崗位之間的匹配 度。
[0100] 具體地,假設本實施例獲取的通訊主題為一個,且計算出該通訊主題與待測試員 工的工作崗位之間的匹配度為P。
[0101] 步驟S206,根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄的文本特征向 量。
[0102] 根據(jù)步驟S203可知,離職關鍵詞的總數(shù)目為n,故本實施例構造通訊文本記錄的文 本特征向量的維數(shù)為n+1,具體為T= (0,0,,· .wi, .wj, · ·0,ρ),
[0103] 步驟S207,根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工是否有 離職意向。
[0104] 具體地,本實施例預先訓練的分類模型包括兩個輸出結果,分別是有離職意向和 無離職意向,假設有離職意向輸出為"1",無離職意向輸出為"0"。故本實施例將文本特征向 量輸入預先訓練好的分類模型后,根據(jù)分類模型的輸出結果獲得待預測員工是否有離職意 向,當輸出結果為"Γ時,則說明待預測員工有離職意向,否則沒有離職意向。具體地,本實 施例采用SVM算法建立SVM分類模型。
[0105] 本實施例通過獲取待預測員工的歷史通訊記錄,以及提取該歷史通訊記錄的文本 特征向量,并根據(jù)提取的文本特征向量以及預先訓練的分類模型確定待預測員工是否有離 職意向,解決了如何預測員工離職的技術問題,實現(xiàn)了根據(jù)待預測員工的歷史通訊記錄就 能對其是否有離職意向進行預測,有利于企業(yè)及早知曉員工是否有離職意向,并采取相應 措施減少企業(yè)離職率,從而大大節(jié)約了企業(yè)重新招聘所花費的人力或金錢成本以及保障了 企業(yè)的正常運作或工作進展。
[0106] 此外,本實施例通過根據(jù)計算通訊文本記錄的通訊主題與待預測員工的工作崗位 之間的匹配度,然后根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄的文本特征向 量,從而使得獲取的文本特征向量具有更好的代表性,也為后續(xù)獲得較準確的預測效果奠 定了基礎。
[0107] 參照圖3,本實施例預先建立分類模型的步驟具體包括:
[0108] 步驟S2071,獲取離職員工的歷史通訊記錄作為有離職意向的訓練樣本,獲取在職 員工的歷史通訊記錄作為無離職意向的訓練樣本,并將訓練樣本轉換為文本格式的訓練樣 本。
[0109] 為了保證預先訓練的分類模型具有較準確的分類結果,本實施例獲取的訓練樣本 的數(shù)量應當盡可能大,且針對有離職意向和無離職意向的訓練樣本的數(shù)量應當相當。具體 地,本實施例假設訓練樣本集(包括有離職意向的訓練樣本和無離職意向的訓練樣本)的總 數(shù)為Ν,且訓練樣本集列表表示為{Ti,Tj,. .ΤΝ},其中Tj表示訓練樣本集中的第j個文本格式 的歷史通訊記錄。
[011 0]步驟S2072,對訓練樣本進行分詞,獲得分詞文本。
[0111] 具體地,本實施例對訓練樣本集中每一個文本格式的歷史通訊記錄進行分詞,去 除停用詞,語義消歧等操作,獲得與每一個訓練樣本對應的分詞文本。
[0112] 步驟S2073,將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離職關鍵 詞匹配的匹配文本。
[0113] 具體地,本實施例預先建立的離職關鍵詞列表為L(11,12,…In),其中In代表第η 個離職關鍵詞,η為離職關鍵詞的總數(shù)目。通過將與每一個訓練樣本對應的分詞文本與預先 建立的離職關鍵詞列表進行匹配,可以分別獲得與離職關鍵詞匹配的匹配文本以及與匹配 文本匹配的離職關鍵詞在離職關鍵詞列表中所在的位置。例如,針對訓練集中第j個訓練樣 本L,假設可以獲得與離職關鍵詞列表中的第i個和第j個離職關鍵詞匹配,則獲得的匹配 文本就是與第i個和第j個離職關鍵詞匹配的分詞文本。在具體的實施例中,本實施例可以 假設當分詞文本與離職關鍵詞相同或相近時,認為分詞文本與離職關鍵詞匹配。
[0114] 步驟S2074,采用詞頻-逆文本算法獲得匹配文本的特征值。
[0115] 具體地,本實施例針對每一個訓練樣本獲得與其對應的匹配文本后,可以采用TF-IDF函數(shù)獲得匹配文本的特征值。根據(jù)步驟S2073可知,本實施例假設針對訓練樣本Tj,獲得 其與離職關鍵詞列表中的第i個和第j個離職關鍵詞匹配,則分別計算與離職關鍵詞列表中 的第i個和第j個離職關鍵詞匹配的分詞文本(即匹配文本)的特征值。其中,本實施例采用 TF-IDF函數(shù)計算匹配文本的特征值的計算公式為:
[0116] w(tk,Tj) = tf(tk,Tj) Xidf(tk),
[0117] 其中W(tk,L)為訓練樣本T沖匹配文本tk的特征值,tf(t k,L)為匹配文本tk在訓 練樣本Tj中的詞頻數(shù)
表示匹配文本tk在訓練集中的逆文本頻率,N 為訓練集中訓練樣本總數(shù),Νκ為訓練集中包含匹配文本tk的訓練樣本數(shù)目。
[0118] 步驟S2075,計算訓練樣本的通訊主題與待預測員工的工作崗位之間的匹配度。
[0119] 具體地,本實施例首先利用K均值聚類算法對訓練樣本進行文本聚類,獲得文本聚 類中心,然后提取文本聚類中心的關鍵詞作為訓練樣本的通訊主題,并通過計算通訊主題 與待預測員工的工作崗位之間的相似度,獲得訓練樣本的通訊主題以及待預測員工的工作 崗位之間的匹配度。本實施例在獲取待預測員工的工作崗位時,可以通過與待預測員工進 行通訊的聯(lián)系人的通訊錄備注信息獲得待預測員工的工作崗位。且本實施例計算訓練樣本 的通訊主題與待預測員工的工作崗位之間的匹配度的具體過程包括:首先自定義與工作崗 位關聯(lián)的關聯(lián)詞,然后計算通訊主題的詞向量與關聯(lián)詞的詞向量之間的相似度,當通訊主 題有多個時,則分別計算每一個通訊主題與關聯(lián)詞之間的相似度,然后再取平均值作為最 終的通訊主題與工作崗位之間的相似度。
[0120] 步驟S2076,根據(jù)匹配文本的特征值以及匹配度,獲得訓練樣本的文本特征向量。
[0121] 具體地,本實施例針對每一個訓練樣本,均可以根據(jù)與其對應的匹配文本的特征 值以及根據(jù)其計算出的匹配度,構造與之對應的文本特征向量。
[0122] 步驟S2077,根據(jù)訓練集中各訓練樣本的文本特征向量訓練出分類模型。
[0123] 具體地,本實施例針對每一個訓練樣本,將步驟S2076獲得的文本特征向量作為分 類模型的輸入量,將已知的該訓練樣本的類型(有離職意向為"Γ和無離職意向為"〇")作為 輸出,對分類模型進行訓練,從而最終獲得用于預測員工是否有離職意向的分類模型。
[0124] 參照圖4,本發(fā)明的優(yōu)選實施例提供的預測員工離職的裝置,包括:
[0125] 獲取裝置10,用于獲取待預測員工的歷史通訊記錄,并將歷史通訊記錄轉換為文 本格式的通訊文本記錄;
[0126] 分詞裝置20,用于對通訊文本記錄進行分詞,獲得分詞文本;
[0127] 匹配裝置30,用于將分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與離 職關鍵詞匹配的匹配文本;
[0128] 特征向量提取裝置40,用于提取匹配文本的特征向量,獲得通訊文本記錄的文本 特征向量;
[0129] 確定裝置50,用于根據(jù)文本特征向量,以及預先訓練的分類模型,確定待預測員工 是否有離職意向。
[0130] 可選地,特征向量提取裝置40包括:
[0131] 特征值獲取裝置,用于采用詞頻-逆文本算法獲得匹配文本的特征值;
[0132] 特征向量獲取裝置,用于根據(jù)匹配文本的特征值,獲得通訊文本記錄的文本特征 向量。
[0133] 可選地,特征向量獲取裝置包括:
[0134] 匹配度計算裝置,用于計算通訊文本記錄的通訊主題與待預測員工的工作崗位之 間的匹配度;
[0135] 文本特征向量獲取裝置,根據(jù)匹配文本的特征值以及匹配度,獲得通訊文本記錄 的文本特征向量。
[0136] 本實施例預測員工離職的裝置的具體工作過程和工作原理可參照本實施例的預 測員工離職的方法的工作過程和工作原理。
[0137] 以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技 術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修 改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
【主權項】
1. 一種預測員工離職的方法,其特征在于,包括: 獲取待預測員工的歷史通訊記錄,并將所述歷史通訊記錄轉換為文本格式的通訊文本 記錄; 對所述通訊文本記錄進行分詞,獲得分詞文本; 將所述分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與所述離職關鍵詞匹配 的匹配文本; 提取所述匹配文本的特征向量,獲得所述通訊文本記錄的文本特征向量; 根據(jù)所述文本特征向量,以及預先訓練的分類模型,確定所述待預測員工是否有離職 意向。2. 根據(jù)權利要求1所述的預測員工離職的方法,其特征在于,提取所述匹配文本的特征 向量,獲得所述通訊文本記錄的文本特征向量包括: 采用詞頻-逆文本算法獲得所述匹配文本的特征值; 根據(jù)所述匹配文本的特征值,獲得所述通訊文本記錄的文本特征向量。3. 根據(jù)權利要求2所述的預測員工離職的方法,其特征在于,根據(jù)所述匹配文本的特征 值,獲得所述通訊文本記錄的文本特征向量包括: 計算所述通訊文本記錄的通訊主題與所述待預測員工的工作崗位之間的匹配度; 根據(jù)所述匹配文本的特征值以及所述匹配度,獲得所述通訊文本記錄的文本特征向 量。4. 根據(jù)權利要求3所述的預測員工離職的方法,其特征在于,計算所述通訊文本記錄的 通訊主題以及所述待預測員工的工作崗位之間的匹配度包括: 利用K均值聚類算法對所述通訊文本記錄進行文本聚類,獲得文本聚類中心; 提取所述文本聚類中心的關鍵詞作為所述通訊文本記錄的通訊主題; 根據(jù)與所述待預測員工進行通訊的聯(lián)系人的通訊錄備注信息獲得所述待預測員工的 工作崗位; 計算所述通訊主題與所述工作崗位之間的相似度,并將所述相似度作為所述通訊文本 記錄的通訊主題以及所述待預測員工的工作崗位之間的匹配度。5. 根據(jù)權利要求4所述的預測員工離職的方法,其特征在于,所述預先訓練的分類模型 包括: SVM分類模型、貝葉斯分類模型、最大熵分類模型中的任意一種。6. 根據(jù)權利要求5所述的預測員工離職的方法,其特征在于,所述歷史通訊記錄包括: 歷史通話記錄和歷史短信記錄,其中所述歷史短信記錄包括歷史手機短信記錄和歷史 即時通訊消息記錄。7. -種預測員工離職的裝置,其特征在于,包括: 獲取裝置,用于獲取待預測員工的歷史通訊記錄,并將所述歷史通訊記錄轉換為文本 格式的通訊文本記錄; 分詞裝置,用于對所述通訊文本記錄進行分詞,獲得分詞文本; 匹配裝置,用于將所述分詞文本與預先建立的離職關鍵詞列表進行匹配,獲得與所述 離職關鍵詞匹配的匹配文本; 特征向量提取裝置,用于提取所述匹配文本的特征向量,獲得所述通訊文本記錄的文 本特征向量; 確定裝置,用于根據(jù)所述文本特征向量,以及預先訓練的分類模型,確定所述待預測員 工是否有離職意向。8. 根據(jù)權利要求7所述的預測員工離職的裝置,其特征在于,所述特征向量提取裝置包 括: 特征值獲取裝置,用于采用詞頻-逆文本算法獲得所述匹配文本的特征值; 特征向量獲取裝置,用于根據(jù)所述匹配文本的特征值,獲得所述通訊文本記錄的文本 特征向量。9. 根據(jù)權利要求8所述的預測員工離職的裝置,其特征在于,所述特征向量獲取裝置包 括: 匹配度計算裝置,用于計算所述通訊文本記錄的通訊主題與所述待預測員工的工作崗 位之間的匹配度; 文本特征向量獲取裝置,根據(jù)所述匹配文本的特征值以及所述匹配度,獲得所述通訊 文本記錄的文本特征向量。
【文檔編號】G06F17/27GK105868183SQ201610300968
【公開日】2016年8月17日
【申請日】2016年5月9日
【發(fā)明人】陳包容
【申請人】陳包容
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1