亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法與流程

文檔序號:11276996閱讀:1304來源:國知局
本發(fā)明涉及一種人才供給量化分析方法,更具體的說,尤其涉及一種基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法。
背景技術
::古往今來,人才都是富國之本、興邦大計。綜合國力競爭說到底是人才競爭?!比瞬攀羌涌鞂嵤﹦?chuàng)新驅動發(fā)展戰(zhàn)略的主導力量,更是加快推動經濟發(fā)展方式轉變的根本動力。人才是區(qū)域經濟發(fā)展的第一資源和基礎性資源,在很大程度上影響或決定著區(qū)域經濟的發(fā)展方向、發(fā)展速度、發(fā)展?jié)摿?、市場競爭力和經濟效益。因此,大到國家,中到省、自治區(qū),小到地市,微到區(qū)縣,各層各級行政區(qū)都希望對本區(qū)域的人才情況有著直觀量化的掌控,從而根據(jù)區(qū)域經濟優(yōu)勢及人才供需缺口,制定相匹配的人才發(fā)展計劃和人才引進政策,宏觀調控區(qū)域資源和人才的優(yōu)化配置,進一步推進本地區(qū)經濟又好又快的發(fā)展。當前各層各級區(qū)域對人才供需現(xiàn)狀的分析,一般是通過抽樣式的調查問卷或購買咨詢公司分析報告等人工服務介入的形式獲取第一手數(shù)據(jù),雖然加工后可直接獲得定性結論,但存在如下三類問題:一、范圍窄人才供需的分析都需要預先定義報告的主題也即分析的目標,一次只能分析一個目標,針對一個主題形成報告。而且受分析人員人力、報告時限及材料收集的限制,分析的目標不能過于寬泛,分析的維度不能過多,時間跨度也不能過大。因此,很難一次同時生成多個主題的報告。目前的分析報告大多是五年內一個行業(yè)或領域內有限維度的相關分析。二、耗時長確定分析目標后無論是調查問卷還是咨詢公司,都需要花較長的時間去收集整理相關數(shù)據(jù),而收集的數(shù)據(jù)大多來自年鑒庫、省志庫等統(tǒng)計資料庫,這些資料庫通常是在年末匯總具有一定滯后性的,很難實時地反映當前人才供需情況。隨著分析指標的增多和時間跨度的增大,數(shù)據(jù)收集的難度會隨之增大,信息的可靠性也會隨之降低。此外,數(shù)據(jù)收集后的整理去噪規(guī)則的編寫和多維度分析模型的構建也需要投入大量的人力和時間去處理。且在報告最終呈現(xiàn)前無法提前檢驗分析模型的有效性,當模型出現(xiàn)偏差時需多次迭代模型構建、數(shù)據(jù)分析、報告撰寫等過程,無形地增加分析耗時。三、成本高一次人才供需分析,各個階段都需大量人工介入,致使單次分析耗費的人力和財務成本較高。即使擁有一系列歷史分析報告,由于每次分析的人員組成、目標數(shù)據(jù)和模型功能等因素不同,導致了數(shù)據(jù)割裂、目標模型單一等問題,使得之前報告的各項成果、數(shù)據(jù)、參數(shù)、指標、模型等很難被重用,每次分析的成本很難被降低。大數(shù)據(jù)時代的來臨,網絡上承載的信息愈加豐富。其涵蓋各行業(yè)個領域人才供需的詳細信息,通過分布式網絡爬蟲在網絡上采集人才的供給和供給相關數(shù)據(jù),再利用大數(shù)據(jù)處理方法及數(shù)據(jù)挖掘算法量化分析方法,構建區(qū)域視角下人才供需分析系統(tǒng),可有效解決人工分析所面臨的上述三類問題,為區(qū)域人才的量化分析提供解決方案。技術實現(xiàn)要素:本發(fā)明為了克服上述技術問題的缺點,提供了一種基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,其特征在于,通過以下步驟來實現(xiàn):a).確定目標數(shù)據(jù)源和采集范圍,人才供給分析的基礎是數(shù)據(jù),優(yōu)質可量化,且能夠實時反映區(qū)域人才供給的數(shù)據(jù)是做好分析的前提,因此選取的目標數(shù)據(jù)源為:各類學校的招生信息,并通過比例計算獲取不同學歷、不同專業(yè)人才的供給情況;由于單獨一個區(qū)域的分析并不能體現(xiàn)本區(qū)域的優(yōu)勢及不足,只有在多個同級區(qū)域對比分析中才能找到問題;根據(jù)人才流動情況,人們更傾向于就近相鄰區(qū)域的流動;因此,本系統(tǒng)將同一行政區(qū)下所有與指定區(qū)域同級的區(qū)域也都納入到采集的范圍;b).采集目標源數(shù)據(jù),采用分布式爬蟲采集指定范圍內的目標數(shù)據(jù)源;c).信息提取,由于所采集的數(shù)據(jù)是原始的非結構化網頁,其中雜陳廣告、友情鏈接、同類推薦無關信息,首先采用dom樹的方法和基于行塊分布函數(shù)方法抽取目標網頁中的數(shù)據(jù);然后從非結構化的網頁數(shù)據(jù)中提取包括學校名稱、專業(yè)及招生人數(shù)在內的信息,每個信息定義為一個指標維度,同時也將學校所屬區(qū)域、學校招生批次、學校招生學歷列為指標維度,與提取的指標維度共同構建指標維度列表;d).數(shù)據(jù)清洗,采用教育部制定的普通高等學校本科專業(yè)目錄中的專業(yè)名稱統(tǒng)一不同學校專業(yè)名目,實現(xiàn)專業(yè)指標維度的標準化處理;學校每年均會發(fā)布招生信息,且每年各學校發(fā)布招生信息的時間略有不同,需多次重復掃描含有招生信息的網頁;為防止多次采集相同招生信息后重復存儲,在采集到招生信息后需要進行清洗,過濾重復發(fā)布的信息;e).數(shù)據(jù)存儲,所提取的每一個指標維度使用結構化數(shù)據(jù)庫中一列存儲,為方便招聘信息的歸類統(tǒng)計將網頁url、招生信息媒體來源也作為一個指標維度存儲于數(shù)據(jù)庫一列;區(qū)分相同學校不同時間的招生信息以及確定學校供給人才的時間,將招生時間和學制也分別作為指標維度存儲于數(shù)據(jù)庫一列;f).指標維度分類,從招聘信息中提取的諸多指標維度根據(jù)其功用分為四類:區(qū)域維度、動態(tài)維度、目標維度和限定維度;區(qū)域維度用于指定分析的目標區(qū)域,區(qū)域維度的分析以分成兩類:本區(qū)域人才供給分析和多區(qū)域人才供給對比分析;動態(tài)維度用于指定分析的時間范圍,動態(tài)維度的分析以分成兩類:一定時間段的整體宏觀分析和時間演化分析;人才供給分析的主要目標在于向用戶展示本區(qū)域人才的供給量,因此將目標維度定為供給量;限定維度用于指定分析的限定條件,限定維度為學歷和專業(yè)兩個指標維度;g).分析分類,各種指標維度按照不同方式組合可產生諸多不同結果,為使結果條理清晰更易于被用戶所理解,采用區(qū)域維度和動態(tài)維度相組合的方式對分析進行大類劃分;分析分為四型分析:ⅰ型分析、ii型分析、ⅲ型分析和ⅳ型分析;其中,ⅰ型分析為本區(qū)域一定時間段內整體宏觀人才供給分析;ii型分析為本區(qū)域隨時間演化人才供給趨勢分析;ⅲ型分析為多區(qū)域一定時間段整體宏觀人才供給對比分析;ⅳ型分析為多區(qū)域隨時間演化人才供給變化趨勢對比分析;上述四型分析按其分析所獲的結果是以量的形式體現(xiàn)還是以序的形式體現(xiàn),又將每一類分為供給量化分析和供給熱點分析兩個小類,共計八個小類的分析;h).分析方法,目標維度供給量的分析結果屬于數(shù)值型數(shù)據(jù),按照分析分類對其進行量化分析和熱點分析;i).分析結果可視化,采用種類豐富的圖表對分析結果進行展示,對于分析結果采用儀表盤、餅圖、折線圖、柱圖、雷達圖、矩形樹圖或表格圖表展示。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟b)中所述目標源數(shù)據(jù)的采集通過以下步驟來實現(xiàn):b-1).收集指定區(qū)域所處行政區(qū)下所有區(qū)域的學校列表及其網站url;b-2).找出學校網站中與招生信息相關版塊的采集入口;b-3).采集招生版塊下的所有網頁,通過關鍵詞匹配的方式定位招生信息所處網頁;b-4).采集所定位網頁的招生信息。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟c)中所述的信息提取中,大多數(shù)學校的招生信息一般會采用表格展示招生信息,然而學校在發(fā)布招生信息時并無固定格式較為隨意,表格中所出現(xiàn)的指標維度也會較為隨意,此種情形很難采用固定的正則表達式來提取數(shù)據(jù);本發(fā)明直接處理表格從中提取指標維度的值,具體方法如下:c-1).獲取表格,在招生信息頁面中由于頁面布局的原因可能會存在多個表格的情形,所以首先通過能夠標識表格的屬性在多個表格中抽取記錄招聘信息的表格;c-2).表格去噪,去除網頁中表格中控制頁面顯示格式的div、css及與表格無關的html標簽,只保留與表格顯示和控制相關的諸如table、tr、td、colspan標簽;c-3).表格標準化,將表格轉化成簡單表格,使得表格中的每個單元格只占一行一列且只有一個值;c-4).判斷表格橫豎,發(fā)布招生信息時既可采用橫表,也可采用縱表;因此需要判斷記錄招生信息的表格是橫表還是縱表;取表格的第一行表格的單元格值和第一列表格的單元格值,分別與各個指標維度進行匹配,比較第一行和第一列單元格值的命中率,若第一行單元格值的命中率高則為橫表,否則為縱表;c-5).提取鍵值序列,若表格為橫表,則將第一行單元格的值映射到相應的指標維度,相應列單元格的值即為指標維度的值,形成鍵值對將無結構的html表格轉化成結構化的鍵值對,進而存儲到結構化數(shù)據(jù)庫;若表格為橫表縱表,將第一列單元格的值映射到指標維度,相應行單元格的值即為指標維度的值,提取鍵值對存儲到結構化數(shù)據(jù)庫;如果招生信息附件為word、excel或pdf文件,則采用poi解析word和excel文檔,采用pdfbox解析pdf文檔,將其轉化為表格,然后再執(zhí)行步驟c-3)至c-5)。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟d)中,專業(yè)指標維度的標準化處理方法為:采用文本的語義相似性度算法最長公共子序列、最小編輯距離或余弦相似度為學校專業(yè)名目找出相似度最大的目錄專業(yè)名稱,進而將指標維度專業(yè)的值統(tǒng)一到目錄中的專業(yè)名稱中;多次采集相同招生信息的去重方法為:d-1).對比招生信息網頁的url是否相同,url是互聯(lián)網資源的唯一標識,如同一url地址的信息只需采集存儲一次即可,如相同,則認為是重復招生信息,對其不進行存儲;如不同轉入d-2);d-2).對比相同學校招生信息的招生時間是否相同,若相同轉入d-3);如不同,認為是非重復招生信息,提取信息后直接存儲于結構化數(shù)據(jù)庫中;d-3).對比相同學校相同時間招生信息的招生專業(yè)是否相同,是否有新增加的專業(yè),若相同且無新增專業(yè)轉入d-4);若不同或有新增專業(yè),則不同專業(yè)和新增專業(yè)的數(shù)據(jù)為非重復招生信息,提取信息后直接存儲于結構化數(shù)據(jù)庫中;d-4).對比相同學校相同時間招生信息的招生數(shù)量是否相同,若相同則判定為重復信息不再存儲,若不同則采用較新時間的招生數(shù)量更新數(shù)據(jù)庫中的原有數(shù)量。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟g)中八個小類的分析為:ⅰ型供給量化分析、ⅰ型供給熱點分析、ii型供給量化分析、ii型供給熱點分析、ⅲ型供給量化分析、ⅲ型供給熱點分析、ⅳ型供給量化分析、ⅳ型供給熱點分析;ⅰ型供給量化分析,從多角度多層面對指定區(qū)域的人才供給量做出有效分析,分析流程如下:g-1-1).首先,在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;g-1-2).其次,在動態(tài)維度中選擇一個時段作為分析時段;g-1-3).再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,每個限定維度選擇一個值或多個值;g-1-4).最后,選擇目標維度供給量作為分析對象;若未指定限定維度,可宏觀地說明劃定時間段內指定區(qū)域總的人才供給量有多少;若指定單一限定維度,可分析劃定時間段內指定區(qū)域在不同專業(yè)或不同學歷人才的供給量;若指定中全部限定維度,可分析劃定時間段內指定區(qū)域不同專業(yè)和不同學歷各種組合的人才供給量;ⅰ型供給熱點分析,可從多角度對指定區(qū)域的熱點專業(yè)做出有效分析,分析流程如下:g-2-1).首先,在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;g-2-2).其次,在動態(tài)維度中選擇一個時段作為分析時段;g-2-3).再次,在限定維度中選擇0或1個指標維度作為分析的限定條件,每個限定維度選擇一個值或多個值;g-2-4).最后,選擇目標維度供給量作為分析對象;限定維度中的指標維度專業(yè)類別值默認為不限,限定維度學歷未指定時,可獲得劃定時間段指定區(qū)域的熱點專業(yè);限定維度學歷指定時,可分析劃定時間段指定區(qū)域不同學歷的熱點專業(yè);ii型供給量化分析,從多角度對指定區(qū)域不同階段的人才供給量變化做出有效對比分析,分析流程如下:g-3-1).首先,在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;g-3-2).其次,在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;g-3-3).再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,每個限定維度選擇一個值或多個值;g-3-4).最后,選擇目標維度供給量作為分析對象;若未指定限定維度,可宏觀地說明指定區(qū)域不同時段人才供給量的變化情況,從側面反映區(qū)域內人才的飽和程度;通過指定單一限定維度,可分析指定區(qū)域在相同專業(yè)或相同學歷的人才在不同時間段供給量的變動趨勢;通過限定維度的組合,可分析指定區(qū)域不同時段專業(yè)和學歷各種組合的人才供給變動情況;ii型供給熱點分析,從多角度對指定區(qū)域不同階段熱點專業(yè)變化做出有效分析,分析流程如下:g-4-1).首先,在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;g-4-2).其次,在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;g-4-3).再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,可以不選擇限定維度學習,也可以選擇限定維度學歷的一個值或多個值;g-4-4).最后,選擇目標維度供給量作為分析對象;限定維度中的指標維度專業(yè)類別值默認為不限,若限定維度學歷未指定,可獲得指定區(qū)域不同時段的熱點專業(yè),從側面反映了區(qū)域人才供給的變化情況;指定限定維度學歷,可分析不同時段在相同學歷熱點專業(yè)的變化;ⅲ型供給量化分析,從多角度對不同區(qū)域的人才供給量做出有效對比分析,分析流程如下:g-5-1).首先,在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;g-5-2).其次,在動態(tài)維度中選擇一個時段作為分析時段;g-5-3).再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,每個限定維度選擇一個值或多個值;g-5-4).最后,選擇目標維度供給量作為分析對象;未指定限定維度,可宏觀地對比劃定時間段內不同區(qū)域的人才供給量;通過指定單一限定維度,可分析劃定時間段內不同區(qū)域在相同專業(yè)或相同學歷人才供給量的對比;通過限定維度的組合,可分析不同區(qū)域相同專業(yè)和相同學歷人才供給情況;ⅲ型供給熱點分析,從多角度對多個區(qū)域的熱點專業(yè)做出有效分析,分析流程如下:g-6-1).首先,在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;g-6-2).其次,在動態(tài)維度中選擇一個時段作為分析時段;g-6-3).再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇限定維度學歷,也可以選擇限定維度學歷的一個值或多個值;g-6-4).最后,選擇目標維度供給量作為分析對象;限定維度中的指標維度專業(yè)類別值默認為不限,限定維度學歷未指定,可獲得劃定時間段不同區(qū)域的熱點專業(yè);指定限定維度學歷,可對比分析不同區(qū)域相同專業(yè)的熱點專業(yè)差別;ⅳ型供給量化分析,從多角度對不同區(qū)域不同階段的人才供給量變化做出有效對比分析,采用縱向發(fā)展的眼光和橫向對比的眼光量化剖析區(qū)域人才供給,以區(qū)域不同階段的人才訴求為點串成區(qū)域人才供給走向的線,分析流程如下:g-7-1).首先,在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;g-7-2).其次,在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;g-7-3).再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值,還可以選擇多個限定維度,每個限定維度選擇一個值或每個限定維度選擇多個值;g-7-4).最后,選擇目標維度供給量作為分析對象;未指定限定維度,可宏觀地分析多個區(qū)域不同時段人才供給量的變化情況,對比不同區(qū)域人才供給的增速情況;通過指定單一限定維度,可分析不同區(qū)域在相同專業(yè)或相同學歷不同時間段人才供給量的變動趨勢;通過限定維度的組合,可分析不同區(qū)域不同時段相同專業(yè)和相同學歷的人才供給變動情況;ⅳ型供給熱點分析,從多角度對不同區(qū)域不同階段熱點專業(yè)的變化趨勢做出有效對比分析,縱覽隨時間的演進不同區(qū)域緊缺和高端人才供給的變遷路徑,分析流程如下:g-8-1).首先,在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;g-8-2).其次,在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;g-8-3).再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇限定維度學歷,也可以選擇限定維度學歷的一個值或多個值;g-8-4).最后,選擇目標維度供給量作為分析對象;限定維度中的指標維度專業(yè)類別值默認為不限,限定維度學歷未指定,可獲得不同區(qū)域不同時段的熱點專業(yè),從側面反映了不同區(qū)域人才供給的演變情況;指定限定維度學歷,可分析不同區(qū)域相同學歷的熱點專業(yè)隨時間演進的變化。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟h)中所述的目標維度供給量的量化分析方法為:h-1-1).記錄學歷和專業(yè)兩個限定維度的選擇順序;h-1-2).按照有序的限定維度、區(qū)域維度和動態(tài)維度的順序,記錄選中的指標維度及每個選定指標維度選中的值,將其轉化成不等長矩陣,其中矩陣每一行代表一個選中的指標維度,一行中的一個元素代表對應指標維度選中的值;假定包含區(qū)域維度和動態(tài)維度共選中了idxn個指標維度,選中的指標維度分別為chose_index1,chose_index2,…,chose_indexidxn,每個限定維度選中值的個數(shù)為chose_an1,chose_an2,…,chose_anidxn,選中的值分別是chose_index1_atb1,chose_index1_atb2,…,chose_index1_atban1,chose_index2_atb1,chose_index2_atb2,…,chose_index2_atban2,…,chose_indexidxn_atb1,chose_indexidxn_atb2,…,chose_indexidxn_atbanidxn;則轉化的數(shù)組共idxn維,第i維為指標維度chose_indexi,第i維的長度為chose_ani,第i維數(shù)組的值分別為chose_indexi_atb1,chose_indexi_atb2,…,chose_indexi_atbani;h-1-3).取出矩陣第一維數(shù)組第一個元素作為根節(jié)點,按照深度優(yōu)先遍歷不等長矩陣,將其轉化為一棵樹;h-1-4).取出矩陣第一維數(shù)組的后續(xù)元素作為根節(jié)點,按照深度優(yōu)先遍歷不等長矩陣,將其轉化成一棵樹;h-1-5).迭代操作h-1-4),直至第一維數(shù)組元素為空;h-1-6).按照第一維數(shù)組的元素順序,自左至右排列矩陣轉化而成多棵樹的根節(jié)點順序構建森林,森林中共有chose_an1棵樹;h-1-7).首先按照自左至右遍歷森林中的樹,然后按照深度優(yōu)先遍歷每棵樹,記錄每一個遍歷從樹根至葉子所經歷的完整路徑,如[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb2]、…、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atbanidxn],共有chose_an1×chose_an2×…×chose_anidxn條路徑;h-1-8).結合屬性值所屬指標維度,將一條遍歷路徑轉化為一條數(shù)據(jù)查詢限定規(guī)則;如路徑[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]轉化為一條規(guī)則:chose_index1matcheschose_index1_atb1andchose_index2matcheschose_index2_atb1andchose_index3matcheschose_index3_atb1and…andchose_indexidxnmatcheschose_indexidxn_atb1,共有chose_an1×chose_an2×…×chose_anidxn條數(shù)據(jù)查詢規(guī)則;h-1-9).按照順序抽取一條數(shù)據(jù)查詢規(guī)則,在抓取的數(shù)據(jù)中進行查詢,找出滿足規(guī)則的數(shù)據(jù)集合dataseti,最終對dataseti進行統(tǒng)計求和獲取結果resulti;h-1-10).迭代操作h-1-9),直至抽取完所有的數(shù)據(jù)查詢規(guī)則,匯總每條數(shù)據(jù)查詢規(guī)則所獲得的結果resulti,返回量化分析結果集resultset;步驟h)中所述的目標維度供給量的熱點分析方法為:在熱點分析中,限定維度專業(yè)默認為不限,因此在統(tǒng)計指標維度的選擇情況時,不統(tǒng)計該指標維度;其前9步操作與量化分析的操作h-1-1)到操作h-1-9)相同;h-2-10).迭代操作h-1-9),直至抽取完所有的數(shù)據(jù)查詢規(guī)則,對比每條數(shù)據(jù)查詢規(guī)則所獲得的結果resulti,按照用戶設定抽取前若干項結果作為熱點結果集topresultset,并抽取其對應的供給量集合topmajor。本發(fā)明的基于大數(shù)據(jù)的區(qū)域人才供給量化分析方法,步驟i)中量化分析結果的呈現(xiàn)方法為:i-1-1).初始時令選擇多值的維度數(shù)dimension_count=0;i-1-2).查看區(qū)域維度、動態(tài)維度和限定維度,計算選擇多值的維度數(shù),若區(qū)域維度選擇了多個區(qū)域,則dimension_count加1;若動態(tài)維度選擇了多個對比時段,則dimension_count加1;從限定維度中取出一個指標維度,若該指標維度選擇了多個值,則dimension_count加1,迭代此操作,直至限定維度中的指標維度為空;i-1-3).若dimension_count的值等于0,表明除目標維度供給量外,其余指標維度至多選取了一個值,則最終得到的數(shù)值型結果為單一值,應采用儀表盤展現(xiàn),儀表盤的刻度即為最終結果;i-1-4).若dimension_count的值等于1,表明除目標維度外,有一個指標維度選擇了多個值,將此選擇了多值的指標維度稱為chart_index,其余指標維度至多選取了一個值,則最終得到的結果為一維數(shù)組,應采用餅圖、單系列折線圖或單系列柱圖展現(xiàn);單系列折線圖和單系列柱形圖的縱坐標表示供給量,橫坐標表示chart_index,折線圖中的一個折點和柱形圖中的一列對應著chart_index的一個值;餅圖中的一個區(qū)域對應著chart_index的一個值,使用區(qū)域的大小說明供給量;i-1-5).若dimension_count的值等于2,表明除目標維度供給量,有兩個指標維度選擇了多個值,其余指標維度至多選取了一個值;i-1-5-1).若選擇了多值的兩個指標維度中包含區(qū)域維度或動態(tài)維度,則將含有多值的區(qū)域維度或動態(tài)維度標識為chart_index1,將最后選中的限定維度標識為chart_index2;i-1-5-2).若選擇了多值的兩個指標維度中包含區(qū)域維度和動態(tài)維度,則將動態(tài)維度標識為chart_index1,將區(qū)域維度標識為chart_index2;i-1-5-3).若選擇了多值的兩個指標維度中不包含區(qū)域維度或動態(tài)維度,將指標維度按照選擇順序分別標識為chart_index2和chart_index1;分析所得到的最終結果為二維數(shù)組,應采用多系列折線圖或多系列柱圖展現(xiàn);多系列折線圖和多系列柱形圖的縱坐標表示人才供給量,橫坐標表示chart_index1,圖表中的一個系列表示chart_index2的一個選擇值;i-1-6).若dimension_count的值大于2,表明除目標維度外,至少有三個指標維度選擇了多個值,假定選中了多值的指標維度個數(shù)為idxn:i-1-6-1).若選擇了多值的指標維度中包含區(qū)域維度或動態(tài)維度,則將含有多值的區(qū)域維度或動態(tài)維度標識為chart_index1,將最后選中的限定維度標識為chart_index2;i-1-6-2).若選擇了多值的指標維度中包含區(qū)域維度和動態(tài)維度,則將動態(tài)維度標識為chart_index1,將區(qū)域維度標識為chart_index2;i-1-6-3).若選擇了多值的指標維度中不包含區(qū)域維度或動態(tài)維度,將指標維度按照選擇順序分別標識為chart_index2和chart_index1;i-1-6-4).將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-2,chose_indexidxn-3,…,chose_index1,假定限定維度chose_index1,chose_index2,…,chose_indexidxn-2選定值的個數(shù)分別是chidxn1,chidxn2,…,chidxnidxn-2;首先,使用限定維度chose_index1,chose_index2,…,chose_indexidxn-2構建一個chidxn1×chidxn2×...×chidxnidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分別對應限定維度chose_index1,…,chose_indexidxn-2;表格第i行j列單元格的值則為限定維度chose_indexj第個值,其中j<idxn-1;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn-2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第idxn-1列有chidxn1×chidxn2×...×chidxnidxn-2個單元格,每個單元格中包含一個多系列折線圖或多系列柱圖;多系列折線圖和多系列柱形圖的縱坐標表示供給量,橫坐標表示chart_index1,圖表中的一個系列表示chart_index2的一個選擇值;步驟i)中熱點分析結果的呈現(xiàn)方法為:i-2-1).初始時令選擇多值的維度數(shù)dimension_count=0;i-2-2).查看區(qū)域維度、動態(tài)維度和限定維度,計算選擇多值的維度數(shù),若區(qū)域維度選擇了多個區(qū)域,則dimension_count加1;若動態(tài)維度選擇了多個對比時段,則dimension_count加1;若限定維度中學歷也選擇了多個值,則dimension_count加1;i-2-3).若dimension_count的值等于1,表明除限定維度專業(yè)外,其余指標維度至多選取了一個值,則最終得到的結果為一維數(shù)組,直接采用一個柱形圖展現(xiàn)既可;柱形圖的縱坐標表示熱點專業(yè)的供給量,橫坐標表示限定維度專業(yè),圖中的每一列對應一個根據(jù)條件選出的具體專業(yè)名稱,其自左至右降序排列;i-2-4).若dimension_count的值等于2,表明除限定維度專業(yè)外,還有一個指標維度選取了多個值,將此指標維度標識為chose_index;i-2-4-1).若該chose_index是動態(tài)維度,參與對比分析的時間段個數(shù)為itvn,則構建一個1行itvn列的表格,表格的一列表示一個參與對比分析的時間段,每一個單元格為相應時間段內熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn);i-2-4-2).若該chose_index是區(qū)域維度或限定維度專業(yè),選中值的個數(shù)為vlun,則構建一個vlun行1列的表格,表格的一行表示一個區(qū)域或一個限定維度的值,每一個單元格表示相應區(qū)域或限定學歷的熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn);i-2-5).若dimension_count的值大于2,表明除限定維度專業(yè)外,還有至少兩個指標維度選取了多個值,假定選中了多值的指標維度個數(shù)為idxn;i-2-5-1).若選擇了多值的指標維度中包含動態(tài)維度,假定參與對比分析的時間段個數(shù)為itvn;若選擇了多值的指標維度中包含區(qū)域維度,將區(qū)域維度標識為chose_indexidxn-2,將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-3,chose_indexidxn-4,…,chose_index1;若選擇了多值的指標維度中不包含區(qū)域維度,將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-2,chose_indexidxn-3,…,chose_index1,假定限定維度chose_index1,chose_index2,…,chose_indexidxn-2選定值的個數(shù)分別是chidxn1,chidxn2,…,chidxnidxn-2,首先,使用指標維度chose_index1,chose_index2,…,chose_indexidxn-2構建一個chidxn1×chidxn2×...×chidxnidxn-2行idxn-1+itvn列的表格,表格的第1列到第idxn-2列分別對應指標維度chose_index1,…,chose_indexidxn-2;表格第i行j列單元格的值則為限定維度chose_indexj第個值,其中j<idxn-1;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn-2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第idxn-1列到第idxn-1+itvn列分別對應一個對比時段的情況,每一列有chidxn1×chidxn2×...×chidxnidxn-2個單元格,每一個單元格表示一個對比時段相應區(qū)域或限定條件的熱門專業(yè)情況,采用一個柱形圖展現(xiàn);i-2-5-2).若選擇了多值的指標維度中不包含動態(tài)維度,則選中多值的指標維度必然是區(qū)域和專業(yè),將區(qū)域維度標識為chose_index2,將專業(yè)標識為chose_index1,假定指標維度chose_index1,chose_index2選定值的個數(shù)分別是chidxn1,chidxn2,首先,使用指標維度chose_index1,chose_index2構建一個chidxn1×chidxn2行3列的表格,表格的第1列和第2列分別對應指標維度chose_index1,chose_index2;表格第i行j列單元格的值則為指標維度chose_indexj第個值,其中j<3;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×...×chidxn2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第3列有chidxn1×chidxn2個單元格,每一個單元格表示相應區(qū)域或限定專業(yè)的熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn)。本發(fā)明的有益效果是:本發(fā)明的區(qū)域人才供給量化分析方法,以指定區(qū)域各類學校的招生信息為目標源數(shù)據(jù),采用分布式爬蟲采集目標源數(shù)據(jù),然后從招生信息中提取包含學校名稱、專業(yè)和招生人數(shù)在內的指標維度信息,并對數(shù)據(jù)進行清洗和去重處理,然后根據(jù)用戶的要求將數(shù)據(jù)通過圖表的形式展示出來,可從不同的角度分析指定區(qū)域的人才供給情況,以及對多個不同區(qū)域的人才供給進行對比,有利于決策者根據(jù)發(fā)展需要宏觀調控人才供給。附圖說明圖1給出了第一維數(shù)組第一個元素作為根節(jié)點的樹。具體實施方式下面結合附圖與實施例對本發(fā)明作進一步說明?;诖髷?shù)據(jù)的區(qū)域人才供給量化分析方法的步驟如下:步驟一:區(qū)域內人才供給相關數(shù)據(jù)采集在本步驟中首先需要明確采集目標,在紛繁多樣的網絡數(shù)據(jù)中準確定位能夠反映人才供給的數(shù)據(jù),然后根據(jù)目標數(shù)據(jù)源的特點確定采集方法。因此,本步驟包含以下兩個階段:階段一:確定采集目標1、確定目標數(shù)據(jù)源類型人才供給分析的基礎是數(shù)據(jù),優(yōu)質可量化且能夠實時反映區(qū)域人才供給的數(shù)據(jù)是做好分析的前提。因此,本系統(tǒng)所面臨的首要問題即是目標數(shù)據(jù)源的確定。實時獲取人才供給最直接的方式是收集應聘者的簡歷,通過簡歷分析可獲取人才各類信息最真實的第一手資料。然而,首先個人信息過于分散,采集和過濾所耗費的資源較大;其次個人簡歷信息的載體并無統(tǒng)一要求,即可使用word/excel文檔,也可使用pdf文檔,還可以使用網頁等各類不同形式的文檔,不同類型文檔信息的抽取較為復雜;此外,個人簡歷的書寫格式也極為隨意,根據(jù)個人不同的書寫風格,難以在各類不同文檔中準確定位所需信息。因此,通過個人簡歷采集分析方式獲取人才供給數(shù)據(jù)的性價比較低。人才最大的培養(yǎng)和輸出地是各類學校,其每年向社會供給大量人才,因此可通過采集各類學校發(fā)布信息獲取人才供給情況。雖然各類學校每年均會統(tǒng)計畢業(yè)生專業(yè)、數(shù)量等信息,但此類報告一般作為內部資料很難在internet找到。然而,各類學校每年都會發(fā)布招生信息,此類招生信息也會明確標注招生的專業(yè)數(shù)量等。學校的招生情況可直接反映若干年后此批學生的畢業(yè)情況,如普通本科院校的招生情況可直接反映出4年后畢業(yè)的本科生數(shù)量、專業(yè)及學歷情況。當然招生的數(shù)量并不直接等于畢業(yè)生的數(shù)量,其中可能會存在部分學生因不同原因不能畢業(yè)的情形出現(xiàn),還有部分學生會升入更高一級的學府深造或出國留學。各個學校的就業(yè)比例可以從internet獲取,進而獲取學校的人才供給情況。綜上,本系統(tǒng)將各類學校的招生信息作為目標數(shù)據(jù)源,通過比例計算獲取不同學歷、專業(yè)人才的供給情況。2、確定目標數(shù)據(jù)源采集范圍確定好目標數(shù)據(jù)源類型后下一步則要決定在多大范圍內采集這些目標數(shù)據(jù)源。首先,本系統(tǒng)目標是為區(qū)域提供人才供給分析,因此,處在本區(qū)域內各類學校的招生信息是采集的首要目標。其次,單獨一個區(qū)域的分析并不能體現(xiàn)本區(qū)域的優(yōu)勢及不足,只有在多個同級區(qū)域對比分析中才能找到問題。此外,根據(jù)人才流動情況,人們更傾向于就近相鄰區(qū)域的流動。因此,本系統(tǒng)將同一行政區(qū)下所有與指定區(qū)域同級的區(qū)域也都納入到采集的范圍。例如,指定某一地市為分析區(qū)域,則該地市所屬省或自治區(qū)內的所有地市均需被納入采集范圍,也即需要采集該省或自治區(qū)內所有學校招生信息。階段二:設計采集方案隨著網絡信息的爆炸,分布式爬蟲已成為搜索、輿情、自動問答等依賴網絡數(shù)據(jù)系統(tǒng)的基本網絡數(shù)據(jù)采集工具。本系統(tǒng)也采用分布式爬蟲采集指定范圍內的目標數(shù)據(jù)源。數(shù)據(jù)采集方案如下。1、收集指定區(qū)域所處行政區(qū)下所有區(qū)域的學校列表及其網站url;2、找出學校網站中與招生信息相關版塊的采集入口;3、采集指定版塊下的所有網頁,通過關鍵詞匹配的方式定位招生信息所處網頁;4、采集所定位網頁的招生信息。步驟二:信息提取、清洗和存儲階段一:信息提取1、有效信息提取從定位網頁中所采集的招生信息是原始的非結構化網頁,其中會雜陳諸多廣告、友情鏈接、同類推薦等無關信息。因此在預處理中過濾此類無關信息抽取有效信息是后續(xù)處理的關鍵。本發(fā)明采用dom樹的方法和基于行塊分布函數(shù)方法抽取目標網頁中的數(shù)據(jù)。2、結構化信息提取在剔除無關信息后所獲得網頁仍是非結構化的html代碼塊,而各類數(shù)據(jù)分析算法所處理的數(shù)據(jù)對象均是結構化數(shù)據(jù),因此從非結構化的數(shù)據(jù)中準確提取結構化的數(shù)據(jù)是后續(xù)處理的前提。相較于對個人信息詳細介紹的簡歷,各類學校的招生信息只能給出概括性的通用信息,因此所能提取的信息相對有限。通過對各類招生信息的整理匯總,一般可提取的指標維度包括:學校名稱、專業(yè)及招生人數(shù)。此外在確定采集目標的同時還可確定學校所屬區(qū)域、學校招生批次、學校招生學歷,本發(fā)明將這些外部信息也列入分析指標維度,與提取的指標維度共同構建指標維度列表。大多數(shù)學校的招生信息一般會采用表格(table)展示招生信息。然而學校在發(fā)布招生信息時并無固定格式較為隨意,表格中所出現(xiàn)的指標維度也會較為隨意,此種情形很難采用固定的正則表達式來提取數(shù)據(jù)。因此本發(fā)明直接處理表格從中提取指標維度的值,方案如下:(1)獲取表格在招生信息頁面中由于頁面布局的原因可能會存在多個表格的情形,所以首先通過能夠標識表格的屬性在多個表格中抽取記錄招聘信息的表格。(2)表格去噪網頁中的表格使用html語言書寫,其中會存在諸多控制頁面顯示格式的div、css及與表格無關的html標簽,在處理表格時首先去除無效標簽,只保留與表格顯示和控制相關的標簽,如table、tr、td、colspan等。(3)表格標準化因為并無規(guī)定格式所以表格的樣式會很隨意,在處理過程中需分割多行多列的單元格,將表格轉化成簡單表格,使得表格中的每個單元格只占一行一列且只有一個值。(4)判斷表格橫豎發(fā)布招生信息時既可采用橫表(將指標維度放到第一行,下面每行存儲一個招生的信息),也可采用縱表(將指標維度放到第一列,右面其余每列存儲一個招生的信息),因此需要判斷記錄招生信息的表格是橫表還是縱表。取表格的第一行表格的單元格值和第一列表格的單元格值,分別與各個指標維度進行匹配,比較第一行和第一列單元格值的命中率,若第一行單元格值的命中率高則為橫表,否則為縱表。(5)提取鍵值序列若表格為橫表,則將第一行單元格的值映射到相應的指標維度,相應列單元格的值即為指標維度的值,形成鍵值對將無結構的html表格轉化成結構化的鍵值對,進而存儲到結構化數(shù)據(jù)庫??v表與橫表類似,將第一列單元格的值映射到指標維度,相應行單元格的值即為指標維度的值,提取鍵值對存儲到結構化數(shù)據(jù)庫。此外,除直接在招生信息頁面中直接采用表格的方式外,學校還可能會采用附件的形式發(fā)布招生信息,附件所使用的載體一般會是word、excel、pdf等。而附件通常仍使用表格羅列招生信息,因此除解析附件方法不同外,表格內信息提取方式與網頁表格提取方式類似,其方案如下。(1)解析附件根據(jù)附件載體類型采用合適的方法解析附件,獲取羅列招生信息的表格。如采用poi解析word和excel文檔,采用pdfbox解析pdf文檔等,從中獲取表格。(2)表格解析附件表格解析方法與網頁表格解析相似,需對表格進行標準化,并判斷表格的橫豎方向,最后提取表格中的鍵值對,將附件中無結構表格轉化成結構化的鍵值對,進而存儲到結構化數(shù)據(jù)庫。其操作可參照網頁表格解析方案中的操作(3)到操作(5)。階段二:數(shù)據(jù)清洗1、指標維度標準化不同學校在發(fā)布招生計劃時一般是以專業(yè)為最小信息匯總單位公布招生數(shù)量,然而各學校專業(yè)名目設置具有一定隨意性。在人才供給量化分析中為實現(xiàn)同區(qū)域不同學校專業(yè)的匯總統(tǒng)計,需對指標維度專業(yè)的值做標準化處理。此處采用教育部制定的普通高等學校本科專業(yè)目錄中的專業(yè)名稱統(tǒng)一不同學校專業(yè)名目。雖然各學校專業(yè)名目的設置可能會與目錄中的專業(yè)名稱有所差別,但專業(yè)設置不可能偏離目錄中的專業(yè),因此在用詞方面會有較大的相似性。因此,采用文本的語義相似性度算法,如最長公共子序列、最小編輯距離或余弦相似度等即可為學校專業(yè)名目找出相似度最大的目錄專業(yè)名稱,進而將指標維度專業(yè)的值統(tǒng)一到目錄中的專業(yè)名稱。2、數(shù)據(jù)去重學校每年均會發(fā)布招生信息,且每年各學校發(fā)布招生信息的時間略有不同,因此系統(tǒng)需多次重復掃描含有招生信息的網頁。為防止多次采集相同招生信息后重復存儲,在采集到招生信息后需要進行清洗,過濾重復發(fā)布的信息。其方案如下。(1)對比招生信息網頁的url是否相同,url是互聯(lián)網資源的唯一標識,同一url地址的信息只需采集存儲一次即可,如不同轉入(2);(2)對比相同學校招生信息的招生時間是否相同,若相同轉入(3),認為是非重復招生信息,提取信息后直接存儲于結構化數(shù)據(jù)庫中;(3)對比相同學校相同時間招生信息的招生專業(yè)是否相同,是否有新增加的專業(yè),若相同且無新增專業(yè)轉入(4),若不同或有新增專業(yè),則不同專業(yè)和新增專業(yè)的數(shù)據(jù)為非重復招生信息,提取信息后直接存儲于結構化數(shù)據(jù)庫中;(4)對比相同學校相同時間招生信息的招生數(shù)量是否相同,若相同則判定為重復信息不再存儲,若不同則采用較新時間的招生數(shù)量更新數(shù)據(jù)庫中的原有數(shù)量。階段三:數(shù)據(jù)存儲為便于各指標維度的分析宜采用結構化的數(shù)據(jù)庫存儲從網頁中提取的數(shù)據(jù)。鑒于區(qū)域人才供給量化分析所涉及的數(shù)據(jù)并不僅局限于本區(qū)域,而是綜合同一行政區(qū)下所有與指定區(qū)域同級的區(qū)域數(shù)據(jù)一同分析,因此隨著區(qū)域的范圍的擴大,數(shù)據(jù)也是成倍增長。結合各類數(shù)據(jù)庫的特征,在區(qū)域范圍較小時,可采用關系數(shù)據(jù)進行存儲。隨著區(qū)域范圍的增大,建議采用基于分布式文件存儲的數(shù)據(jù)庫,如mongodb、hbase等。網頁中所提取的每一個指標維度使用結構化數(shù)據(jù)庫中一列存儲。為方便招生信息的歸類統(tǒng)計將網頁url、招生信息媒體來源也作為一個指標維度存儲于數(shù)據(jù)庫一列。此外區(qū)分相同學校不同時間的招生信息以及確定學校供給人才的時間,將招生時間和學制也分別作為指標維度存儲于數(shù)據(jù)庫一列。步驟三:區(qū)域人才供給量化分析階段一:指標維度分類從招生信息中提取的諸多指標維度根據(jù)其功用分為四類:區(qū)域維度、動態(tài)維度、目標維度和限定維度。1、區(qū)域維度區(qū)域維度用于指定分析的目標區(qū)域。區(qū)域維度的分析可以分成兩類:本區(qū)域人才供給分析和多區(qū)域人才供給對比分析。2、動態(tài)維度動態(tài)維度用于指定分析的時間范圍。動態(tài)維度的分析可以分成兩類:一定時間段的整體宏觀分析和時間演化分析。3、目標維度人才供給分析的主要目標在于向用戶展示本區(qū)域人才的供給量,因此將目標維度定為供給量。4、限定維度限定維度用于指定分析的限定條件。主要是學歷和專業(yè)兩個指標維度。階段二:分析分類各種指標維度按照不同方式組合可產生諸多不同結果,為使結果條理清晰更易于被用戶所理解,采用區(qū)域維度和動態(tài)維度相組合的方式對分析進行大類劃分。分析可分為四型分析:ⅰ型分析、ii型分析、ⅲ型分析和ⅳ型分析。其中,ⅰ型分析為本區(qū)域一定時間段內整體宏觀人才供給分析;ii型分析為本區(qū)域隨時間演化人才供給趨勢分析;ⅲ型分析為多區(qū)域一定時間段整體宏觀人才供給對比分析;ⅳ型分析為多區(qū)域隨時間演化人才供給變化趨勢對比分析。而四型分析按其分析所獲的結果是以量的形式體現(xiàn)還是以序的形式體現(xiàn),又可將每一類分為供給量化分析和供給熱點分析兩個小類,共計八個小類的分析。下面分別介紹每類分析解決的問題及分析流程。1、ⅰ型供給量化分析ⅰ型供給量化分析可從多角度多層面對指定區(qū)域的人才供給量做出有效分析,全面量化剖析指定區(qū)域人才的情況,明確區(qū)域人才構成,實現(xiàn)量化“知己”。分析流程如下。首先,需要在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;其次,需要在動態(tài)維度中選擇一個時段作為分析時段;再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值,還可以選擇多個限定維度,每個限定維度選擇一個值或每個限定維度選擇多個值;最后,選擇目標維度供給量作為分析對象。若未指定限定維度,可宏觀地說明劃定時間段內指定區(qū)域總的人才供給量有多少。若指定單一限定維度,可分析劃定時間段內指定區(qū)域在不同專業(yè)或不同學歷人才的供給量。若指定中全部限定維度,可分析劃定時間段內指定區(qū)域不同專業(yè)和不同學歷各種組合的人才供給量。2、ⅰ型供給熱點分析ⅰ型供給熱點分析可從多角度對指定區(qū)域的熱點專業(yè)做出有效分析,明確區(qū)域發(fā)展專業(yè)特長及優(yōu)勢,發(fā)現(xiàn)人才專業(yè)缺口,從人才供給角度為區(qū)域持續(xù)發(fā)展提供方向指導。分析流程如下。首先,需要在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;其次,需要在動態(tài)維度中選擇一個時段作為分析時段;再次,在限定維度中選擇0或1個指標維度作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值;最后,選擇目標維度供給量作為分析對象。限定維度中的指標維度專業(yè)類別值默認為不限(若在此處設定專業(yè)類別值為某一特定專業(yè),則其分析為量化分析,其結果可由ⅰ型供給量化分析得到),限定維度學歷未指定時,可獲得劃定時間段指定區(qū)域的熱點專業(yè)。限定維度學歷指定時,可分析劃定時間段指定區(qū)域不同學歷的熱點專業(yè)。3、ii型供給量化分析ii型供給量化分析可從多角度對指定區(qū)域不同階段的人才供給量變化做出有效對比分析,采用發(fā)展的眼光縱向量化剖析指定區(qū)域,以里程碑式的區(qū)域人才發(fā)展路徑,折射經濟發(fā)展趨勢,實現(xiàn)不同階段的量化“知己”。分析流程如下。首先,需要在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;其次,需要在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值,還可以選擇多個限定維度,每個限定維度選擇一個值或每個限定維度選擇多個值;最后,選擇目標維度供給量作為分析對象。若未指定限定維度,可宏觀地說明指定區(qū)域不同時段人才供給量的變化情況,從側面反映區(qū)域內人才的飽和程度。通過指定單一限定維度,可分析指定區(qū)域在相同專業(yè)或相同學歷的人才在不同時間段供給量的變動趨勢。通過限定維度的組合,可分析指定區(qū)域不同時段專業(yè)和學歷各種組合的人才供給變動情況。4、ii型供給熱點分析ii型供給熱點分析可從多角度對指定區(qū)域不同階段熱點專業(yè)變化做出有效分析,縱覽隨時間的演進人才供給的變化走勢,指導引才方向。分析流程如下。首先,需要在區(qū)域維度中選擇一個區(qū)域作為分析區(qū)域;其次,需要在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,可以不選擇限定維度學習,也可以選擇限定維度學歷的一個值或多個值;最后,選擇目標維度供給量作為分析對象。限定維度中的指標維度專業(yè)類別值默認為不限(若在此處設定專業(yè)類別值為某一特定專業(yè),則其分析為量化分析,其結果可由ii型供給量化分析得到),若限定維度學歷未指定,可獲得指定區(qū)域不同時段的熱點專業(yè),從側面反映了區(qū)域人才供給的變化情況。指定限定維度學歷,可分析不同時段在相同學歷熱點專業(yè)的變化。5、ⅲ型供給量化分析ⅲ型供給量化分析可從多角度對不同區(qū)域的人才供給量做出有效對比分析,全面量化剖析不同區(qū)域的人才情況,分析不同區(qū)域人才構成情況,通過多區(qū)域對比,實現(xiàn)量化“知己”“知彼”。分析流程如下。首先,需要在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;其次,需要在動態(tài)維度中選擇一個時段作為分析時段;再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值,還可以選擇多個限定維度,每個限定維度選擇一個值或每個限定維度選擇多個值;最后,選擇目標維度供給量作為分析對象。未指定限定維度,可宏觀地對比劃定時間段內不同區(qū)域的人才供給量。通過指定單一限定維度,可分析劃定時間段內不同區(qū)域在相同專業(yè)或相同學歷人才供給量的對比。通過限定維度的組合,可分析不同區(qū)域相同專業(yè)和相同學歷人才供給情況。6、ⅲ型供給熱點分析ⅲ型供給熱點分析可從多角度對多個區(qū)域的熱點專業(yè)做出有效分析。對比發(fā)現(xiàn)不同區(qū)域優(yōu)勢人才,借助區(qū)域間的合作,彌補自身人才短板。分析流程如下。首先,需要在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;其次,需要在動態(tài)維度中選擇一個時段作為分析時段;再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇限定維度學歷,也可以選擇限定維度學歷的一個值或多個值;最后,選擇目標維度供給量作為分析對象。限定維度中的指標維度專業(yè)類別值默認為不限(若在此處設定專業(yè)類別值為某一特定專業(yè),則其分析為量化分析,其結果可由ⅲ型供給量化分析得到),限定維度學歷未指定,可獲得劃定時間段不同區(qū)域的熱點專業(yè)。指定限定維度學歷,可對比分析不同區(qū)域相同專業(yè)的熱點專業(yè)差別。7、ⅳ型供給量化分析ⅳ型供給量化分析可從多角度對不同區(qū)域不同階段的人才供給量變化做出有效對比分析,采用縱向發(fā)展的眼光和橫向對比的眼光量化剖析區(qū)域人才供給,以區(qū)域不同階段的人才訴求為點串成區(qū)域人才供給走向的線,通過對比多個區(qū)域人才供給的增量和增幅,折射區(qū)域經濟的增速,總結不同區(qū)域不同人才發(fā)展路徑的得失,為更好的制定人才政策提供數(shù)據(jù)支持。分析流程如下。首先,需要在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;其次,需要在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;再次,在限定維度中選擇0到2個指標維度作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇任一限定維度,也可以選擇一個限定維度的一個值或多個值,還可以選擇多個限定維度,每個限定維度選擇一個值或每個限定維度選擇多個值;最后,選擇目標維度供給量作為分析對象。未指定限定維度,可宏觀地分析多個區(qū)域不同時段人才供給量的變化情況,對比不同區(qū)域人才供給的增速情況。通過指定單一限定維度,可分析不同區(qū)域在相同專業(yè)或相同學歷不同時間段人才供給量的變動趨勢。通過限定維度的組合,可分析不同區(qū)域不同時段相同專業(yè)和相同學歷的人才供給變動情況。8、ⅳ型供給熱點分析ⅳ型供給熱點分析可從多角度對不同區(qū)域不同階段熱點專業(yè)的變化趨勢做出有效對比分析,縱覽隨時間的演進不同區(qū)域緊缺和高端人才供給的變遷路徑。分析流程如下。首先,需要在區(qū)域維度中選擇多個區(qū)域作為對比分析區(qū)域;其次,需要在動態(tài)維度中選擇對比時段作為分析時段,所選定的對比時段通常是月度、季度或年度等自然時間分割節(jié)點;再次,在限定維度中選擇或不選擇指標維度學歷作為分析的限定條件,此分析中限定維度的選擇并無任何要求,可以不選擇限定維度學歷,也可以選擇限定維度學歷的一個值或多個值;最后,選擇目標維度供給量作為分析對象。限定維度中的指標維度專業(yè)類別值默認為不限(若在此處設定專業(yè)類別值為某一特定專業(yè),則其分析為量化分析,其結果可由ⅳ型供給量化分析得到),限定維度學歷未指定,可獲得不同區(qū)域不同時段的熱點專業(yè),從側面反映了不同區(qū)域人才供給的演變情況。指定限定維度學歷,可分析不同區(qū)域相同學歷的熱點專業(yè)隨時間演進的變化。階段三:分析方案目標維度供給量的分析結果屬于數(shù)值型數(shù)據(jù)。按照分析分類需對其進行量化分析和熱點分析兩類分析。下面分別針對這兩類分析闡述分析方案。1、量化分析(1)記錄學歷和專業(yè)兩個限定維度的選擇順序。(2)按照有序的限定維度、區(qū)域維度和動態(tài)維度的順序,記錄選中的指標維度及每個選定指標維度選中的值,將其轉化成不等長矩陣,其中矩陣每一行代表一個選中的指標維度,一行中的一個元素代表對應指標維度選中的值。假定包含區(qū)域維度和動態(tài)維度共選中了idxn個指標維度,選中的指標維度分別為chose_index1,chose_index2,…,chose_indexidxn,每個限定維度選中值的個數(shù)為chose_an1,chose_an2,…,chose_anidxn,選中的值分別是chose_index1_atb1,chose_index1_atb2,…,chose_index1_atban1,chose_index2_atb1,chose_index2_atb2,…,chose_index2_atban2,…,chose_indexidxn_atb1,chose_indexidxn_atb2,…,chose_indexidxn_atbanidxn。則轉化的數(shù)組共idxn維,第i維為指標維度chose_indexi,第i維的長度為chose_ani,第i維數(shù)組的值分別為chose_indexi_atb1,chose_indexi_atb2,…,chose_indexi_atbani。(3)取出矩陣第一維數(shù)組第一個元素作為根節(jié)點,按照深度優(yōu)先遍歷不等長矩陣,將其轉化為一棵樹;如圖1所示,給出了第一維數(shù)組第一個元素作為根節(jié)點的樹;(4)取出矩陣第一維數(shù)組的后續(xù)元素作為根節(jié)點,按照深度優(yōu)先遍歷不等長矩陣,將其轉化成一棵樹。(5)迭代操作(4),直至第一維數(shù)組元素為空。(6)按照第一維數(shù)組的元素順序,自左至右排列矩陣轉化而成多棵樹的根節(jié)點順序構建森林,森林中共有chose_an1棵樹。(7)首先按照自左至右遍歷森林中的樹,然后按照深度優(yōu)先遍歷每棵樹,記錄每一個遍歷從樹根至葉子所經歷的完整路徑,如[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb2]、…、[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atbanidxn]等,共有chose_an1×chose_an2×…×chose_anidxn條路徑。(8)結合屬性值所屬指標維度,將一條遍歷路徑轉化為一條數(shù)據(jù)查詢限定規(guī)則。如路徑[chose_index1_atb1->chose_index2_atb1->chose_index3_atb1->…->chose_indexidxn_atb1]轉化為一條規(guī)則:chose_index1matcheschose_index1_atb1andchose_index2matcheschose_index2_atb1andchose_index3matcheschose_index3_atb1and…andchose_indexidxnmatcheschose_indexidxn_atb1,共有chose_an1×chose_an2×…×chose_anidxn條數(shù)據(jù)查詢規(guī)則。(9)按照順序抽取一條數(shù)據(jù)查詢規(guī)則,在抓取的數(shù)據(jù)中進行查詢,找出滿足規(guī)則的數(shù)據(jù)集合dataseti,最終對dataseti進行統(tǒng)計求和獲取結果resulti。(10)迭代操作(9),直至抽取完所有的數(shù)據(jù)查詢規(guī)則,匯總每條數(shù)據(jù)查詢規(guī)則所獲得的結果resulti,返回量化分析結果集resultset。2、熱點分析在熱點分析中,限定維度專業(yè)默認為不限,因此在統(tǒng)計指標維度的選擇情況時,并不統(tǒng)計該指標維度。其前9步操作與量化分析的操作(1)到操作(9)相同,不再贅述。(10)迭代操作(9),直至抽取完所有的數(shù)據(jù)查詢規(guī)則,對比每條數(shù)據(jù)查詢規(guī)則所獲得的結果resulti,按照用戶設定抽取前若干項結果作為熱點結果集topresultset,并抽取其對應的專業(yè)集合topmajor。步驟四:分析結果可視化基于大數(shù)據(jù)的區(qū)域人才供給量化分析系統(tǒng)可服務于政府人才策略制定者、學校招生人員、在校學生等不同類型的用戶,也即其所提供分析結果面向的信息接受者類型不同。分析結果的解讀直接影響接受者獲取信息量的大小,面對的接受者類型不同需要解讀的角度也應有所不同。雖然多角度解讀有助于全面闡述結果的意義,然后面對不同類型的信息接受者,并非解讀的越全面用戶體驗也越好,與信息接收者類型不匹配角度的解讀反而會使信息混亂或分散,增加信息的不確定性(熵值)。因此全面平鋪直敘的文本解讀方式并不適合于面向多類型信息接收者系統(tǒng)的結果呈現(xiàn)。種類豐富的圖表其直觀的表現(xiàn)能力,為不同類型信息接收者提供了從不同角度解讀分析結果的想象空間,各類信息接收者可從自身角度出發(fā)對各種量化或對比分析圖表進行有效解讀,而不失信息完整性。javascript腳本具有平臺無關、相對安全、事件驅動等特性,適合于客戶端的運行和展現(xiàn),目前已有眾多基于javascript腳本的圖表生成控件,如echarts、highcharts、d3、rgraph等??刹捎闷渲幸环N控件輔助生成圖表。階段一:目標維度與圖表類型(圖表類型選擇)分析結果為數(shù)值型數(shù)據(jù),對于數(shù)值型分析結果可采用儀表盤、餅圖、折線圖、柱圖、雷達圖、矩形樹圖、表格等圖表展示,各類圖表容納坐標數(shù)量不同其表達能力不同。如儀表盤一般適合于一維單值分析結果的展示;餅圖、單系列折線圖和單系列柱圖適合于一維多值分析結果的展示;多系列折線圖、多系列柱圖、雷達圖一般適合于二維多值分析結果的展示;矩形樹圖和表格適合于高維多值分析結果的展示等等。階段二:圖表類型生成方案如前所述,按照分析結果側重量、序的不同可分為量化分析和熱點分析。下面分別針對這兩類分析闡述分析結果的呈現(xiàn)方案。1、量化分析重視量的量化分析依據(jù)選擇多個值的指標維度數(shù),自動選擇合適圖表進行顯示,圖表生成方案如下。(1)初始時令選擇多值的維度數(shù)dimension_count=0;(2)查看區(qū)域維度、動態(tài)維度和限定維度,計算選擇多值的維度數(shù),若區(qū)域維度選擇了多個區(qū)域,則dimension_count加1;若動態(tài)維度選擇了多個對比時段,則dimension_count加1;從限定維度中取出一個指標維度,若該指標維度選擇了多個值,則dimension_count加1,迭代此操作,直至限定維度中的指標維度為空。(3)若dimension_count的值等于0,表明除目標維度供給量外,其余指標維度至多選取了一個值,則最終得到的數(shù)值型結果為單一值,應采用儀表盤展現(xiàn),儀表盤的刻度即為最終結果。(4)若dimension_count的值等于1,表明除目標維度外,有一個指標維度選擇了多個值,將此選擇了多值的指標維度稱為chart_index,其余指標維度至多選取了一個值,則最終得到的結果為一維數(shù)組,應采用餅圖、單系列折線圖或單系列柱圖展現(xiàn)。使用的圖表可由用戶根據(jù)需要自行指定。單系列折線圖和單系列柱形圖的縱坐標表示供給量,橫坐標表示chart_index,折線圖中的一個折點和柱形圖中的一列對應著chart_index的一個值。餅圖中的一個區(qū)域對應著chart_index的一個值,使用區(qū)域的大小說明供給量。(5)若dimension_count的值等于2,表明除目標維度供給量,有兩個指標維度選擇了多個值,其余指標維度至多選取了一個值,①若選擇了多值的兩個指標維度中包含區(qū)域維度或動態(tài)維度,則將含有多值的區(qū)域維度或動態(tài)維度標識為chart_index1,將最后選中的限定維度標識為chart_index2,②若選擇了多值的兩個指標維度中包含區(qū)域維度和動態(tài)維度,則將動態(tài)維度標識為chart_index1,將區(qū)域維度標識為chart_index2,③若選擇了多值的兩個指標維度中不包含區(qū)域維度或動態(tài)維度,將指標維度按照選擇順序分別標識為chart_index2和chart_index1,分析所得到的最終結果為二維數(shù)組,應采用多系列折線圖或多系列柱圖展現(xiàn)。使用的圖表可由用戶根據(jù)需要自行指定。多系列折線圖和多系列柱形圖的縱坐標表示人才供給量,橫坐標表示chart_index1,圖表中的一個系列表示chart_index2的一個選擇值。(6)若dimension_count的值大于2,表明除目標維度外,至少有三個指標維度選擇了多個值,假定選中了多值的指標維度個數(shù)為idxn,①若選擇了多值的指標維度中包含區(qū)域維度或動態(tài)維度,則將含有多值的區(qū)域維度或動態(tài)維度標識為chart_index1,將最后選中的限定維度標識為chart_index2,②若選擇了多值的指標維度中包含區(qū)域維度和動態(tài)維度,則將動態(tài)維度標識為chart_index1,將區(qū)域維度標識為chart_index2,③若選擇了多值的指標維度中不包含區(qū)域維度或動態(tài)維度,將指標維度按照選擇順序分別標識為chart_index2和chart_index1,④將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-2,chose_indexidxn-3,…,chose_index1,假定限定維度chose_index1,chose_index2,…,chose_indexidxn-2選定值的個數(shù)分別是chidxn1,chidxn2,…,chidxnidxn-2,首先,使用限定維度chose_index1,chose_index2,…,chose_indexidxn-2構建一個chidxn1×chidxn2×...×chidxnidxn-2行idxn-1列的表格,表格的第1列到第idxn-2列分別對應限定維度chose_index1,…,chose_indexidxn-2。表格第i行j列單元格的值則為限定維度chose_indexj第個值,其中j<idxn-1;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn-2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第idxn-1列有chidxn1×chidxn2×...×chidxnidxn-2個單元格,每個單元格中包含一個多系列折線圖或多系列柱圖。使用的圖表類型可由用戶根據(jù)需要自行指定。多系列折線圖和多系列柱形圖的縱坐標表示供給量,橫坐標表示chart_index1,圖表中的一個系列表示chart_index2的一個選擇值。2、熱點分析由前述分析說明可知,熱點分析中限定維度專業(yè)的默認值為不限,也即默認選定了指標維度專業(yè)的所有值,因此至少有一個指標維度選擇了多個值。重視序的熱點分析采用單系列柱形圖加表格的形式展示,圖表生成方案如下。(1)初始時令選擇多值的維度數(shù)dimension_count=0;(2)查看區(qū)域維度、動態(tài)維度和限定維度,計算選擇多值的維度數(shù),若區(qū)域維度選擇了多個區(qū)域,則dimension_count加1;若動態(tài)維度選擇了多個對比時段,則dimension_count加1;若限定維度中學歷也選擇了多個值,則dimension_count加1。(3)若dimension_count的值等于1,表明除限定維度專業(yè)外,其余指標維度至多選取了一個值,則最終得到的結果為一維數(shù)組,直接采用一個柱形圖展現(xiàn)既可。柱形圖的縱坐標表示熱點專業(yè)的供給量,橫坐標表示限定維度專業(yè),圖中的每一列對應一個根據(jù)條件選出的具體專業(yè)名稱,其自左至右降序排列。(4)若dimension_count的值等于2,表明除限定維度專業(yè)外,還有一個指標維度選取了多個值,將此指標維度標識為chose_index,①若該chose_index是動態(tài)維度,參與對比分析的時間段個數(shù)為itvn,則構建一個1行itvn列的表格,表格的一列表示一個參與對比分析的時間段,每一個單元格為相應時間段內熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn)。②若該chose_index是區(qū)域維度或限定維度專業(yè),選中值的個數(shù)為vlun,則構建一個vlun行1列的表格,表格的一行表示一個區(qū)域或一個限定維度的值,每一個單元格表示相應區(qū)域或限定學歷的熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn)。(5)若dimension_count的值大于2,表明除限定維度專業(yè)外,還有至少兩個指標維度選取了多個值,假定選中了多值的指標維度個數(shù)為idxn,①若選擇了多值的指標維度中包含動態(tài)維度,假定參與對比分析的時間段個數(shù)為itvn,若選擇了多值的指標維度中包含區(qū)域維度,將區(qū)域維度標識為chose_indexidxn-2,將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-3,chose_indexidxn-4,…,chose_index1,若選擇了多值的指標維度中不包含區(qū)域維度,將其他選擇了多值的限定維度按照選擇順序依次標識為chose_indexidxn-2,chose_indexidxn-3,…,chose_index1,假定限定維度chose_index1,chose_index2,…,chose_indexidxn-2選定值的個數(shù)分別是chidxn1,chidxn2,…,chidxnidxn-2,首先,使用指標維度chose_index1,chose_index2,…,chose_indexidxn-2構建一個chidxn1×chidxn2×...×chidxnidxn-2行idxn-1+itvn列的表格,表格的第1列到第idxn-2列分別對應指標維度chose_index1,…,chose_indexidxn-2。表格第i行j列單元格的值則為限定維度chose_indexj第個值,其中j<idxn-1;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×chidxnj+2×...×chidxnidxn-2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第idxn-1列到第idxn-1+itvn列分別對應一個對比時段的情況,每一列有chidxn1×chidxn2×...×chidxnidxn-2個單元格,每一個單元格表示一個對比時段相應區(qū)域或限定條件的熱門專業(yè)情況,采用一個柱形圖展現(xiàn)。②若選擇了多值的指標維度中不包含動態(tài)維度,則選中多值的指標維度必然是區(qū)域和專業(yè),將區(qū)域維度標識為chose_index2,將專業(yè)標識為chose_index1,假定指標維度chose_index1,chose_index2選定值的個數(shù)分別是chidxn1,chidxn2,首先,使用指標維度chose_index1,chose_index2構建一個chidxn1×chidxn2行3列的表格,表格的第1列和第2列分別對應指標維度chose_index1,chose_index2。表格第i行j列單元格的值則為指標維度chose_indexj第個值,其中j<3;然后,為使圖表單元格的顯示更為整潔,將相同值的單元格進行合并,也即后第j列的每個單元格需合并chidxnj+1×...×chidxn2個小單元格,合并后的單元格i將取chose_indexj的第i個值;最后,第3列有chidxn1×chidxn2個單元格,每一個單元格表示相應區(qū)域或限定專業(yè)的熱點專業(yè)供給量情況,采用一個柱形圖展現(xiàn)。當前第1頁12當前第1頁12
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1