一種心理健康狀態(tài)評(píng)估方法
【專利摘要】本申請(qǐng)?zhí)峁┝艘环N心理健康狀態(tài)評(píng)估方法,包括:1)利用機(jī)器學(xué)習(xí)的方法,基于已知樣本中個(gè)體網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型;2)獲取新個(gè)體的網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,根據(jù)所述的基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型,得到該新個(gè)體的心理健康狀況。本發(fā)明消除了個(gè)體主觀因素對(duì)數(shù)據(jù)收集的影響,有助于更加準(zhǔn)確地進(jìn)行心理健康狀態(tài)評(píng)估。另外,本發(fā)明能夠更方便地收集心理健康狀態(tài)評(píng)估所需的個(gè)體數(shù)據(jù),有助于在更廣的范圍上進(jìn)行大規(guī)模的個(gè)體數(shù)據(jù)采集,實(shí)現(xiàn)大規(guī)模的心理健康評(píng)估。
【專利說明】一種心理健康狀態(tài)評(píng)估方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及心理健康狀態(tài)評(píng)估和互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體地說,本發(fā)明涉及一種心理健康狀態(tài)評(píng)估方法。
【背景技術(shù)】
[0002]當(dāng)前,在世界范圍內(nèi),心理健康問題已經(jīng)成為了導(dǎo)致個(gè)體“失能”(disability)的首要原因,其消極性后果占所有疾病性危害的37%,結(jié)合其“全球性”(global)、“長(zhǎng)期性”(chronic)和“流行性”(prevalent)的發(fā)展趨勢(shì)來看,心理健康問題的存在不僅會(huì)造成社會(huì)資源的巨大消耗與浪費(fèi),加劇了整個(gè)社會(huì)的負(fù)擔(dān),而且也直接威脅到個(gè)體的日常生活質(zhì)量和主觀幸福感。具體到我國(guó)的實(shí)際情況,根據(jù)調(diào)查研究結(jié)果顯示,民眾心理健康的整體水平同樣不容樂觀,心理健康問題的整體發(fā)生率達(dá)到17.5%。由于我國(guó)擁有龐大的人口基數(shù),所以采用高效的應(yīng)對(duì)措施來解決心理健康問題的需求更為迫切。
[0003]通常,提供心理健康服務(wù)的第一步就是對(duì)個(gè)體進(jìn)行“心理健康狀態(tài)評(píng)估”。心理健康狀態(tài)評(píng)估涉及到針對(duì)個(gè)體的特異性行為癥狀進(jìn)行收集、分析、綜合、判斷,具體可采用“訪談”、“問卷測(cè)驗(yàn)”、“投射測(cè)驗(yàn)”等多種技術(shù)手段實(shí)現(xiàn)(可參考文獻(xiàn)=Anatasi A, U.S..Psychological testing.New Jersey:Prentice Hall, 1997.)? 其中,近些年來“問卷測(cè)驗(yàn)”因其在工具編制、施測(cè)操作、結(jié)果解釋等方面所具有的結(jié)構(gòu)性和客觀性獲得了相對(duì)更廣泛的臨床應(yīng)用?!皢柧頊y(cè)驗(yàn)”技術(shù)通常會(huì)借助于一些綜合性的心理健康測(cè)評(píng)工具(比如MMP1-2.SCL-90問卷)從多個(gè)角度來綜合考量個(gè)體的心理健康狀態(tài)。
[0004]心理測(cè)量學(xué)(Psychometrics)上問卷測(cè)驗(yàn)”所用到的評(píng)定量表(rating scales)是用來量化觀察中所得印象的一種測(cè)量工具,它是心理狀態(tài)評(píng)估中收集資料的重要手段之一(可參考文獻(xiàn):汪向東,王希林,馬弘.心理衛(wèi)生量表評(píng)定手冊(cè).中國(guó)心理衛(wèi)生雜志出版社,1999.)。評(píng)定量表由若干項(xiàng)目組成,每一個(gè)項(xiàng)目都可以看作是對(duì)一系列行為特征的抽象化描述,而這些行為特征與心理特征存在著一定的關(guān)系。用量表評(píng)估心理健康狀態(tài)時(shí),首先,需要個(gè)體根據(jù)自身情況與項(xiàng)目?jī)?nèi)容的契合度填寫量表;其次,評(píng)定員根據(jù)量表手冊(cè)提供的評(píng)分方法計(jì)算得出評(píng)分;最后,評(píng)定員根據(jù)測(cè)評(píng)結(jié)果,提出結(jié)論,并對(duì)其意義進(jìn)行解釋,以文字或口頭形式報(bào)告給個(gè)體。
[0005]“問卷測(cè)驗(yàn)”技術(shù)已被廣泛應(yīng)用于心理健康狀態(tài)評(píng)估,然而,其自身仍然存在一些不足之處,有待改進(jìn)。這些不足之處包括:
[0006](I)收集到的數(shù)據(jù)準(zhǔn)確度會(huì)受到被試主觀因素的影響。因?yàn)椤皢柧頊y(cè)驗(yàn)”技術(shù)使個(gè)體在研究中同時(shí)擔(dān)任著“被觀察客體”和“觀察主體”兩種角色,當(dāng)個(gè)體在填寫量表時(shí),其答案不可避免地會(huì)受到社會(huì)贊許心理、個(gè)體認(rèn)知能力的影響。雖然通過一些控制手段(比如,效度量表、實(shí)驗(yàn)設(shè)計(jì))可以排查其中某些主觀偏差因素,但是在同類研究中反復(fù)實(shí)施類似的控制卻十分繁瑣低效,且無法排除部分無效數(shù)據(jù)(比如,錯(cuò)答、漏答、盲答)。
[0007](2)收集到的數(shù)據(jù)細(xì)節(jié)和規(guī)模有限。首先,由于受時(shí)空和一些社會(huì)條件的限制,每次實(shí)驗(yàn)很難召集到數(shù)量充足的個(gè)體填寫量表,而且對(duì)同一批個(gè)體進(jìn)行跟蹤測(cè)量也比較困難。其次,為了方便個(gè)體完成調(diào)查,量表的題目不可能設(shè)計(jì)的非常多,從而收集不到個(gè)體行為樣本的更多細(xì)節(jié)。此外,量表的發(fā)放、收集與錄入也給大規(guī)模采集數(shù)據(jù)帶來了不利的影響。
【發(fā)明內(nèi)容】
[0008]為克服現(xiàn)有的缺陷,本發(fā)明提出一種能夠消除個(gè)體主觀因素影響,且便于大規(guī)模采集數(shù)據(jù)的心理健康狀態(tài)評(píng)估方法。
[0009]根據(jù)本發(fā)明的一個(gè)方面,提出了一種心理健康狀態(tài)評(píng)估方法,包括下列步驟:
[0010]I)利用機(jī)器學(xué)習(xí)的方法,基于已知樣本中個(gè)體網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型;
[0011]2)獲取新個(gè)體的網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,根據(jù)所述的基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型,得到該新個(gè)體的心理健康狀況。
[0012]其中,所述網(wǎng)絡(luò)行為特征是反映個(gè)體所使用的網(wǎng)絡(luò)媒介/服務(wù)工具的功能結(jié)果和使用路徑的特征集合。
[0013]其中,所述步驟1)、2)中,所述網(wǎng)絡(luò)行為特征從記錄個(gè)體的網(wǎng)絡(luò)日志中提取。
[0014]其中,提取所述網(wǎng)絡(luò)行為特征的過程包括下列步驟:
[0015]11)利用網(wǎng)絡(luò)流監(jiān)控設(shè)備,獲取個(gè)體的網(wǎng)絡(luò)日志;
[0016]12)對(duì)網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)預(yù)處理;
[0017]13)從網(wǎng)絡(luò)日志中提取出個(gè)體的網(wǎng)絡(luò)訪問記錄,所述個(gè)體的網(wǎng)絡(luò)訪問記錄是以個(gè)體為單位存儲(chǔ)的結(jié)構(gòu)化文檔。
[0018]其中,所述步驟11)中,網(wǎng)絡(luò)流監(jiān)控設(shè)備以鏡像、橋接或者網(wǎng)關(guān)方式駁接個(gè)體接入互聯(lián)網(wǎng)的關(guān)口控制設(shè)備。
[0019]其中,網(wǎng)絡(luò)流監(jiān)控設(shè)備根據(jù)網(wǎng)絡(luò)請(qǐng)求的協(xié)議類型將獲取到的數(shù)據(jù)包分發(fā)到不同的數(shù)據(jù)表中。
[0020]其中,所述數(shù)據(jù)表包括:個(gè)體身份標(biāo)識(shí)、網(wǎng)絡(luò)請(qǐng)求的訪問時(shí)間、客戶端IP和端口、服務(wù)器IP和端口、傳輸協(xié)議和傳輸內(nèi)容。
[0021]其中,所述步驟12)包括下列子步驟:
[0022]121)進(jìn)行數(shù)據(jù)集成,將來源于針對(duì)同一個(gè)體的所有網(wǎng)絡(luò)流監(jiān)控設(shè)備的數(shù)據(jù)集合起來并統(tǒng)一存儲(chǔ);
[0023]122)進(jìn)行數(shù)據(jù)清洗,清除日志中的異常數(shù)據(jù),糾正錯(cuò)誤,去除冗余數(shù)據(jù),標(biāo)準(zhǔn)化日志格式;
[0024]123)進(jìn)行數(shù)據(jù)變換,將日志轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。
[0025]其中,所述步驟122)中,對(duì)無標(biāo)題頁(yè)面做清洗。
[0026]其中,所述步驟123)中,清洗后的數(shù)據(jù)以個(gè)體為單位進(jìn)行聚集,并按時(shí)間排序,最后以個(gè)體為單位各自單獨(dú)保存為網(wǎng)絡(luò)訪問記錄。
[0027]其中,所述步驟123)中,所述網(wǎng)絡(luò)訪問記錄采用XML標(biāo)準(zhǔn)作為文檔的存儲(chǔ)格式。
[0028]其中,所述步驟I )、2)中,所述基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型采用的數(shù)學(xué)模型是回歸模型或者基于分類器的模型。
[0029]其中,所述步驟I )、2)中,所述基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型采用的數(shù)學(xué)模型是M5P回歸模型。
[0030]其中,所述網(wǎng)絡(luò)行為特征包括個(gè)體的網(wǎng)絡(luò)信息和時(shí)間序列數(shù)據(jù),所述個(gè)體的網(wǎng)絡(luò)信息包括:時(shí)間信息、各類即時(shí)通訊工具信息、郵件信息、所訪問網(wǎng)頁(yè)類別的信息和搜索信息;所述時(shí)間序列數(shù)據(jù)包括:每天的上網(wǎng)時(shí)間信息、每天的網(wǎng)絡(luò)請(qǐng)求個(gè)數(shù)信息和每天的網(wǎng)
頁(yè)信息。
[0031]其中,所述時(shí)間信息包括:工作日平均每日上網(wǎng)時(shí)長(zhǎng)和周末平均每日上網(wǎng)時(shí)長(zhǎng)。
[0032]其中,所述各類即時(shí)通訊工具信息包括:分別擁有的賬號(hào)個(gè)數(shù)、各類即時(shí)通訊工具的好友個(gè)數(shù)和各類即時(shí)通訊工具經(jīng)常聯(lián)系的好友個(gè)數(shù)。
[0033]其中,所述郵件信息包括是否用客戶端收發(fā)郵件。
[0034]其中,所述所訪問網(wǎng)頁(yè)類別的信息包括--訪問數(shù)量排名前列的網(wǎng)頁(yè)類別、經(jīng)常訪問的網(wǎng)頁(yè)類別個(gè)數(shù)、用過的BBS站點(diǎn)個(gè)數(shù)、用過的社交網(wǎng)絡(luò)個(gè)數(shù)和用過的微博個(gè)數(shù)。
[0035]其中,所述搜索信息包括:搜索過的類別個(gè)數(shù)、經(jīng)常搜索的類別個(gè)數(shù)、用過的搜索引擎?zhèn)€數(shù)和常用的搜索引擎的個(gè)數(shù)。
[0036]其中,所述每天的上網(wǎng)時(shí)間信息包括:總時(shí)長(zhǎng)、白天的上網(wǎng)時(shí)長(zhǎng)、晚上的上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)時(shí)間段個(gè)數(shù)、上線時(shí)亥IJ、下線時(shí)亥IJ、活躍時(shí)亥IJ、是否半夜上網(wǎng)和是否深夜上網(wǎng)。
[0037]其中,所述每天的網(wǎng)絡(luò)請(qǐng)求個(gè)數(shù)信息包括:總請(qǐng)求數(shù)、每個(gè)類型的請(qǐng)求數(shù)、即時(shí)通訊的聊天對(duì)象個(gè)數(shù)和處理的信息數(shù)、對(duì)網(wǎng)頁(yè)分類后的各類網(wǎng)頁(yè)請(qǐng)求個(gè)數(shù)、各類網(wǎng)頁(yè)中的第一個(gè)網(wǎng)頁(yè)。
[0038]其中,所述每天的網(wǎng)頁(yè)信息包括:所訪問的網(wǎng)站個(gè)數(shù)、網(wǎng)頁(yè)類別數(shù)、直接或由收藏夾訪問的網(wǎng)頁(yè)數(shù)、搜索內(nèi)容的類別數(shù)、使用的搜索引擎數(shù)和搜索關(guān)鍵字平均長(zhǎng)度。
[0039]其中,所述網(wǎng)絡(luò)行為特征還包括上網(wǎng)天數(shù)的統(tǒng)計(jì)數(shù)據(jù),所述上網(wǎng)天數(shù)的統(tǒng)計(jì)數(shù)據(jù)包括:總天數(shù)、上網(wǎng)天數(shù)、不上網(wǎng)天數(shù)和深夜上網(wǎng)天數(shù)。
[0040]與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0041]1、本發(fā)明消除了個(gè)體主觀因素對(duì)數(shù)據(jù)收集的影響,有助于更加準(zhǔn)確地進(jìn)行心理健康狀態(tài)評(píng)估。
[0042]2、本發(fā)明能夠更方便地收集心理健康狀態(tài)評(píng)估所需的個(gè)體數(shù)據(jù),有助于在更廣的范圍上進(jìn)行大規(guī)模的個(gè)體數(shù)據(jù)采集,實(shí)現(xiàn)大規(guī)模的心理健康評(píng)估。
【專利附圖】
【附圖說明】
[0043]圖1是本發(fā)明一個(gè)實(shí)施例的心理健康狀態(tài)評(píng)估方法的流程示意圖;
[0044]圖2是本發(fā)明一個(gè)實(shí)施例中描述用戶網(wǎng)絡(luò)行為過程的SMEE模型示意圖;
[0045]圖3是本發(fā)明一個(gè)實(shí)施例中各類網(wǎng)絡(luò)行為特征、人口統(tǒng)計(jì)學(xué)特征、心里特征的關(guān)系不意圖。
【具體實(shí)施方式】
[0046]為了使發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,下面舉具體實(shí)施例,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0047]為便于理解,首先簡(jiǎn)要介紹本發(fā)明所依據(jù)的科學(xué)原理。
[0048]在心理測(cè)量學(xué)中,評(píng)估心理健康狀態(tài)都通過個(gè)體的外顯的“行為樣本”(behaviorsample)指標(biāo)進(jìn)行間接測(cè)量。因?yàn)閭€(gè)體的行為是受其心理狀態(tài)支配和影響的,心理健康狀況的差異可以從行為的差異上體現(xiàn)出來,所以可以借助能從部觀測(cè)到的“行為樣本”來獲知個(gè)體的心理健康狀況。
[0049]而另一方面,網(wǎng)絡(luò)社會(huì)已經(jīng)發(fā)展成熟。據(jù)CNNIC《第28次中國(guó)互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2011年6月底,我國(guó)互聯(lián)網(wǎng)普及率為36.2%,網(wǎng)民總數(shù)達(dá)到4.85億,其中學(xué)生群體所占比例高達(dá)29.9%。網(wǎng)絡(luò)行為已經(jīng)成為人們行為主體一個(gè)不可或缺的重要組成部分。隨著互聯(lián)網(wǎng)的不斷普及,網(wǎng)絡(luò)社會(huì)的日趨完善,人們的學(xué)習(xí)、工作、生活已緊密的和互聯(lián)網(wǎng)結(jié)合起來,人們使用互聯(lián)網(wǎng)的時(shí)間越來越多,網(wǎng)絡(luò)生活已經(jīng)成為人們?nèi)粘I畹囊徊糠帧M瑫r(shí),網(wǎng)絡(luò)行為也成為人們行為主體的一個(gè)重要組成部分。因此,在網(wǎng)絡(luò)社會(huì)高度發(fā)展的今天,使用網(wǎng)絡(luò)行為評(píng)估心理健康狀態(tài)已有其實(shí)現(xiàn)基礎(chǔ)。
[0050]基于上述原理,根據(jù)本發(fā)明的一個(gè)實(shí)施例,提供了一種基于網(wǎng)絡(luò)行為的心理健康狀態(tài)評(píng)估方法,它首先利用現(xiàn)有的機(jī)器學(xué)習(xí)的方法,基于已知的樣本來尋找網(wǎng)絡(luò)行為特征與心理健康狀況之間的聯(lián)系,從而建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型,然后再獲取新個(gè)體的網(wǎng)絡(luò)行為特征,根據(jù)訓(xùn)練得到的模型和新個(gè)體的網(wǎng)絡(luò)行為特征,可以得到新個(gè)體的心理健康狀況。
[0051]圖1為一個(gè)實(shí)施例中基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估的流程示意圖,具體步驟如下:
[0052]步驟101,部署網(wǎng)絡(luò)流監(jiān)控設(shè)備,開啟記錄網(wǎng)絡(luò)日志記錄功能,獲取記錄個(gè)體網(wǎng)絡(luò)行為的網(wǎng)絡(luò)日志。
[0053]在一個(gè)實(shí)施例中,將網(wǎng)絡(luò)流監(jiān)控設(shè)備以鏡像的方式和網(wǎng)關(guān)駁接,所有流經(jīng)網(wǎng)關(guān)的數(shù)據(jù)都會(huì)被復(fù)制一份副本發(fā)送至網(wǎng)絡(luò)流監(jiān)控設(shè)備,然后網(wǎng)絡(luò)流監(jiān)控設(shè)備分析獲得的數(shù)據(jù)包,將其轉(zhuǎn)換為網(wǎng)絡(luò)請(qǐng)求后存儲(chǔ)為結(jié)構(gòu)化的日志文檔,并存儲(chǔ)到數(shù)據(jù)庫(kù)中。除了鏡像的方式夕卜,在另一些實(shí)施例中,網(wǎng)絡(luò)流監(jiān)控設(shè)備的部署方式還可以是橋接、網(wǎng)關(guān)等多種常規(guī)駁接方法,這是本領(lǐng)域普通技術(shù)人員易于理解的。
[0054]網(wǎng)絡(luò)流監(jiān)控設(shè)備能獲取流經(jīng)網(wǎng)關(guān)的數(shù)據(jù)包。而網(wǎng)關(guān)為個(gè)體接入互聯(lián)網(wǎng)的關(guān)口控制設(shè)備,個(gè)體產(chǎn)生的所有網(wǎng)絡(luò)請(qǐng)求必須經(jīng)過網(wǎng)關(guān)設(shè)備才能接入互聯(lián)網(wǎng)。在一個(gè)實(shí)施例中,網(wǎng)絡(luò)流監(jiān)控設(shè)備能分析獲取到的數(shù)據(jù)包,并將其轉(zhuǎn)換為網(wǎng)絡(luò)請(qǐng)求后以日志形式記錄下來,所述的日志為記錄有每一條網(wǎng)絡(luò)請(qǐng)求的結(jié)構(gòu)化文檔。該實(shí)施例中,網(wǎng)絡(luò)流監(jiān)控設(shè)備根據(jù)網(wǎng)絡(luò)請(qǐng)求的協(xié)議類型分發(fā)到不同的數(shù)據(jù)表中,不同協(xié)議的數(shù)據(jù)表結(jié)構(gòu)并不完全相同,但都包含有網(wǎng)絡(luò)請(qǐng)求的一些主要內(nèi)容,如:個(gè)體身份標(biāo)識(shí)、網(wǎng)絡(luò)請(qǐng)求的訪問時(shí)間、客戶端IP和端口、服務(wù)器IP和端口、傳輸協(xié)議、傳輸內(nèi)容。所有的數(shù)據(jù)表按天對(duì)表進(jìn)行切分,表名為“協(xié)議名_日期”。例如,2012年I月I日中所有協(xié)議類型為http的網(wǎng)絡(luò)請(qǐng)求將保存至表名為http_20120101的數(shù)據(jù)表中,其字段結(jié)構(gòu)如表I所示。
[0055]表I
[0056]
【權(quán)利要求】
1.一種心理健康狀態(tài)評(píng)估方法,包括下列步驟: 1)、利用機(jī)器學(xué)習(xí)的方法,基于已知樣本中個(gè)體網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型; 2)、獲取新個(gè)體的網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,根據(jù)所述的基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型,得到該新個(gè)體的心理健康狀況。
2.根據(jù)權(quán)利要求1所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述網(wǎng)絡(luò)行為特征是反映個(gè)體所使用的網(wǎng)絡(luò)媒介/服務(wù)工具的功能結(jié)果和使用路徑的特征集合;所述網(wǎng)絡(luò)行為特征從記錄個(gè)體的網(wǎng)絡(luò)日志中提取。
3.根據(jù)權(quán)利要求2所述的心理健康狀態(tài)評(píng)估方法,其特征在于,提取所述網(wǎng)絡(luò)行為特征的過程包括: 11)利用網(wǎng)絡(luò)流監(jiān)控設(shè)備,獲取個(gè)體的網(wǎng)絡(luò)日志; 12)對(duì)網(wǎng)絡(luò)日志進(jìn)行數(shù)據(jù)預(yù)處理; 13)從網(wǎng)絡(luò)日志中提取出個(gè)體的網(wǎng)絡(luò)訪問記錄,所述個(gè)體的網(wǎng)絡(luò)訪問記錄是以個(gè)體為單位存儲(chǔ)的結(jié)構(gòu)化文檔。
4.根據(jù)權(quán)利要求3所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述步驟11)中,網(wǎng)絡(luò)流監(jiān)控設(shè)備以鏡像、橋接或者網(wǎng)關(guān)方式駁接個(gè)體接入互聯(lián)網(wǎng)的關(guān)口控制設(shè)備;網(wǎng)絡(luò)流監(jiān)控設(shè)備根據(jù)網(wǎng)絡(luò)請(qǐng)求的協(xié)議類型將獲取到的數(shù)據(jù)包分發(fā)到不同的數(shù)據(jù)表中。
5.根據(jù)權(quán)利要求4所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述數(shù)據(jù)表包括:個(gè)體身份標(biāo)識(shí)、網(wǎng)絡(luò)請(qǐng)求的訪問時(shí)間、客戶端IP和端口、服務(wù)器IP和端口、傳輸協(xié)議和傳輸內(nèi)容。
6.根據(jù)權(quán)利要求4所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述步驟12)包括: 121)、進(jìn)行數(shù)據(jù)集成,將來源于針對(duì)同一個(gè)體的所有網(wǎng)絡(luò)流監(jiān)控設(shè)備的數(shù)據(jù)集合起來并統(tǒng)一存儲(chǔ); 122)、進(jìn)行數(shù)據(jù)清洗,清除日志中的異常數(shù)據(jù),糾正錯(cuò)誤,去除冗余數(shù)據(jù),標(biāo)準(zhǔn)化日志格式; 123)、進(jìn)行數(shù)據(jù)變換,將日志轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式; 所述步驟122)中,對(duì)無標(biāo)題頁(yè)面做清洗; 所述步驟123)中,清洗后的數(shù)據(jù)以個(gè)體為單位進(jìn)行聚集,并按時(shí)間排序,最后以個(gè)體為單位各自單獨(dú)保存為網(wǎng)絡(luò)訪問記錄;所述網(wǎng)絡(luò)訪問記錄采用XML標(biāo)準(zhǔn)作為文檔的存儲(chǔ)格式。
7.根據(jù)權(quán)利要求1所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述步驟1)、2)中,所述基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型采用的數(shù)學(xué)模型是回歸模型、基于分類器的模型或者M(jìn)5P回歸模型。
8.根據(jù)權(quán)利要求2所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述網(wǎng)絡(luò)行為特征包括個(gè)體的網(wǎng)絡(luò)信息和時(shí)間序列數(shù)據(jù),所述個(gè)體的網(wǎng)絡(luò)信息包括:時(shí)間信息、各類即時(shí)通訊工具信息、郵件信息、所訪問網(wǎng)頁(yè)類別的信息和搜索信息;所述時(shí)間序列數(shù)據(jù)包括:每天的上網(wǎng)時(shí)間信息、每天的網(wǎng)絡(luò)請(qǐng)求個(gè)數(shù)信息和每天的網(wǎng)頁(yè)信息;所述時(shí)間信息包括:工作日平均每日上網(wǎng)時(shí)長(zhǎng)和周末平均每日上網(wǎng)時(shí)長(zhǎng);所述郵件信息包括是否用客戶端收發(fā)郵件。
9.根據(jù)權(quán)利要求8所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述所訪問網(wǎng)頁(yè)類別的信息包括:訪問數(shù)量排名前列的網(wǎng)頁(yè)類別、經(jīng)常訪問的網(wǎng)頁(yè)類別個(gè)數(shù)、用過的BBS站點(diǎn)個(gè)數(shù)、用過的社交網(wǎng)絡(luò)個(gè)數(shù)和用過的微博個(gè)數(shù)。
10.根據(jù)權(quán)利要求8所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述搜索信息包括:搜索過的類別個(gè)數(shù)、經(jīng)常搜索的類別個(gè)數(shù)、用過的搜索引擎?zhèn)€數(shù)和常用的搜索引擎的個(gè)數(shù); 所述每天的上網(wǎng)時(shí)間信息包括:總時(shí)長(zhǎng)、白天的上網(wǎng)時(shí)長(zhǎng)、晚上的上網(wǎng)時(shí)長(zhǎng)、上網(wǎng)時(shí)間段個(gè)數(shù)、上線時(shí)刻、下線時(shí)刻、活躍時(shí)刻、是否半夜上網(wǎng)和是否深夜上網(wǎng)。
11.根據(jù)權(quán)利要求8所述的心理健康狀態(tài)評(píng)估方法,其特征在于,所述每天的網(wǎng)絡(luò)請(qǐng)求個(gè)數(shù)信息包括:總請(qǐng)求數(shù)、每個(gè)類型的請(qǐng)求數(shù)、即時(shí)通訊的聊天對(duì)象個(gè)數(shù)和處理的信息數(shù)、對(duì)網(wǎng)頁(yè)分類后的各類網(wǎng)頁(yè)請(qǐng)求個(gè)數(shù)、各類網(wǎng)頁(yè)中的第一個(gè)網(wǎng)頁(yè); 所述每天的網(wǎng)頁(yè)信息包括:所訪問的網(wǎng)站個(gè)數(shù)、網(wǎng)頁(yè)類別數(shù)、直接或由收藏夾訪問的網(wǎng)頁(yè)數(shù)、搜索內(nèi)容的類別數(shù)、使用的搜索引擎數(shù)和搜索關(guān)鍵字平均長(zhǎng)度; 所述網(wǎng)絡(luò)行為特征還包括上網(wǎng)天數(shù)的統(tǒng)計(jì)數(shù)據(jù),所述上網(wǎng)天數(shù)的統(tǒng)計(jì)數(shù)據(jù)包括:總天數(shù)、上網(wǎng)天數(shù)、不上網(wǎng)天數(shù)和深夜上網(wǎng)天數(shù)。
12.一種建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型的方法,利用機(jī)器學(xué)習(xí)的方法,基于已知樣本中個(gè)體網(wǎng)絡(luò)行為特征和人口統(tǒng)計(jì)學(xué)特征,建立和訓(xùn)練基于網(wǎng)絡(luò)行為特征的心理健康狀態(tài)評(píng)估模型;所述網(wǎng)絡(luò)行為特征是反映個(gè)體所使用的網(wǎng)絡(luò)媒介/服務(wù)工具的功能結(jié)果和使用 路徑的特征集合。
【文檔編號(hào)】H04L29/08GK103905486SQ201210576344
【公開日】2014年7月2日 申請(qǐng)日期:2012年12月26日 優(yōu)先權(quán)日:2012年12月26日
【發(fā)明者】朱廷劭, 張帆, 李昂, 李一琳 申請(qǐng)人:中國(guó)科學(xué)院心理研究所