一種校園個(gè)性化掌上服務(wù)及用戶行為習(xí)慣分析的實(shí)現(xiàn)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于Web數(shù)據(jù)采集和大數(shù)據(jù)分析領(lǐng)域,特別涉及一種校園個(gè)性化服務(wù)及 用戶行為習(xí)慣分析的實(shí)現(xiàn)方法,可應(yīng)用于指定校園課表、成績(jī)信息的采集,考勤及用戶行為 習(xí)慣的分析。
【背景技術(shù)】
[0002] 校園個(gè)性化掌上服務(wù)及用戶行為習(xí)慣分析,是一種多平臺(tái)系統(tǒng)構(gòu)架。隨著網(wǎng)絡(luò)信 息和校園數(shù)字化管理需求的高速增長(zhǎng),校園數(shù)字化服務(wù)面臨著網(wǎng)絡(luò)信息更新速度快、管理 個(gè)性化需求增多等多方面問(wèn)題。為了解決這些問(wèn)題,一種校園個(gè)性化掌上服務(wù)及用戶行為 習(xí)慣分析應(yīng)運(yùn)而生。傳統(tǒng)的教務(wù)網(wǎng)信息數(shù)據(jù)的分析與采集主要采用代理形式,需要用戶授 權(quán)并提供用戶賬號(hào)密碼,存在用戶賬號(hào)信息泄露的安全隱患,本方法的爬蟲只需一個(gè)擁有 查詢權(quán)限賬戶便能完成全局信息的爬取。傳統(tǒng)考勤方式主要使用固定的考勤設(shè)備,存在考 勤方式單一、身份識(shí)別方式單一、機(jī)動(dòng)性差、數(shù)據(jù)同步性差、成本高等缺點(diǎn),而本方法中的考 勤實(shí)現(xiàn)了多終端、多設(shè)備支持的考勤方法,彌補(bǔ)了上述缺陷。本方法采用多平臺(tái)系統(tǒng)構(gòu)架, 支持Web端、微信公眾平臺(tái)、App端的信息查詢,結(jié)合用戶行為分析模型,整體提高考勤系統(tǒng) 的便捷性和實(shí)用性,滿足了校園數(shù)字化管理的需求。
[0003] 本方法中的爬蟲程序使用Java進(jìn)行爬蟲的編寫,使用多線程技術(shù)提高爬蟲的性 能,并結(jié)合正則表達(dá)式的文本分析功能和CSS選擇器的選取器功能實(shí)現(xiàn)爬蟲中文本信息的 分析與抓取。
[0004] 正則表達(dá)式: 正則表達(dá)式(Regular Expression),通過(guò)使用單個(gè)字符串來(lái)描述、匹配一系列符合某 個(gè)句法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些符合某 個(gè)模式的文本。特定字符的組合,組成一個(gè)"規(guī)則字符串",這個(gè)"規(guī)則字符串"用來(lái)表達(dá)對(duì) 字符串的一種過(guò)濾邏輯。給定一個(gè)正則表達(dá)式和另一個(gè)字符串,可以判斷給定的字符串是 否符合正則表達(dá)式的過(guò)濾邏輯(稱作"匹配"),并通過(guò)正則表達(dá)式,從字符串中獲取我們想 要的特定部分。正則表達(dá)式靈活性、邏輯性和功能性強(qiáng),可以迅速地用極簡(jiǎn)單的方式達(dá)到字 符串的復(fù)雜控制。
[0005] CSS 選擇器: 層疊樣式表(Cascading Style Sheets,簡(jiǎn)寫CSS),又稱串樣式列表、層次結(jié)構(gòu)式樣式 表文件,一種用來(lái)為結(jié)構(gòu)化文檔(如HTML文檔或XML應(yīng)用)添加樣式(字體、間距和顏色等) 的計(jì)算機(jī)語(yǔ)言,能夠?qū)W(wǎng)頁(yè)中的對(duì)象的位置排版進(jìn)行像素級(jí)的精確控制,支持幾乎所有的 字體字號(hào)樣式,擁有對(duì)網(wǎng)頁(yè)對(duì)象和模型樣式編輯的能力,并能夠進(jìn)行初步交互設(shè)計(jì),是目前 基于文本展示最優(yōu)秀的表現(xiàn)設(shè)計(jì)語(yǔ)言。通過(guò)類別,標(biāo)簽,ID等選擇器,可以對(duì)頁(yè)面元素進(jìn)行 編輯。2010年至2012年,朱全銀等給出了商品銷售數(shù)據(jù)抽取與數(shù)據(jù)挖掘的方法(Quanyin Zhu j Yunyang Yanj Jin Ding and Jin Qian. The Case Study for Price Extracting of Mobile Phone Sell Online. IEEE 2nd International Conference on Software Engineering and Service Science, Beijing, Chian, July. 2011, pp. 281-295;Quanyin Zhu, Yunyang Yan, Jin Ding and Yu Zhang. The Commodities Price Extracting for Shop Online, 2010 International Conference on Future Information Technology and Management Engineering,Changzhou, Jiangsu, Chian, Dec.2010, Vol. 2, pp. 317-320)該 方法能同樣運(yùn)用于本方法中的教務(wù)網(wǎng)信息數(shù)據(jù)挖掘。
[0006] 多線程: 多線程是一種機(jī)制,它允許在程序中并發(fā)執(zhí)行多個(gè)指令流,每個(gè)指令流都稱為一個(gè)線 程,彼此間互相獨(dú)立。線程又稱為輕量級(jí)進(jìn)程,它和進(jìn)程一樣擁有獨(dú)立的執(zhí)行控制,由操作 系統(tǒng)負(fù)責(zé)調(diào)度,區(qū)別在于線程沒(méi)有獨(dú)立的存儲(chǔ)空間,而是和所屬進(jìn)程中的其他線程共享存 儲(chǔ)空間,這使得線程間的通信較簡(jiǎn)單。多個(gè)線程的執(zhí)行是并發(fā)的,即在邏輯上是"同時(shí)"的。 如果系統(tǒng)只有一個(gè)CPU,那么真正的"同時(shí)"是不可能的,但是由于CPU切換的速度非??欤?用戶感覺(jué)不到其中的區(qū)別,因此用戶感覺(jué)到線程是同時(shí)執(zhí)行的。
[0007] 為了提升程序性能,本系統(tǒng)中的爬蟲程序與數(shù)據(jù)分析程序采用多線程技術(shù),這樣 能極大地提尚程序運(yùn)彳丁的效率。
[0008] NFC : 近距離無(wú)線通訊技術(shù)(Near Field Communication,簡(jiǎn)稱NFC),該技術(shù)由免接觸式射 頻識(shí)別演變而來(lái),由飛利浦半導(dǎo)體、諾基亞和索尼共同研制開(kāi)發(fā),其基礎(chǔ)是RFID及互連技 術(shù)。近場(chǎng)通信是一種短距高頻的無(wú)線電技術(shù),在13. 56MHz頻率運(yùn)行于20厘米距離內(nèi)。目 前該技術(shù)廣泛應(yīng)用于移動(dòng)智能設(shè)備領(lǐng)域。
[0009] OTG : 一鍵拷貝(USB On-The-Go標(biāo)準(zhǔn),簡(jiǎn)稱0TG),采用USB2. 0的傳輸接口,是在沒(méi)有Host 的情況下,實(shí)現(xiàn)設(shè)備間的數(shù)據(jù)傳送。OTG標(biāo)準(zhǔn)支持電源管理(節(jié)省功耗)功能,允許設(shè)備既可 作為主機(jī),也可作為外設(shè)操作,并支持主機(jī)通令協(xié)議(HNP)和對(duì)話請(qǐng)求協(xié)議(SRP)。OTG設(shè)備 主要應(yīng)用于各種不同的設(shè)備或移動(dòng)設(shè)備間的聯(lián)接,進(jìn)行數(shù)據(jù)交換。目前OTG外設(shè)廣泛應(yīng)用 于移動(dòng)智能設(shè)備的功能拓展。
[0010] 本方法中的移動(dòng)設(shè)備采用NFC手機(jī)和OTG外設(shè)進(jìn)行手機(jī)App的RFID卡的物理卡 號(hào)識(shí)別,大大提高移動(dòng)智能設(shè)備考勤操作的便攜性。
[0011] 用戶行為分析(Consumer Behavior): 用戶行為分析主要是研宄對(duì)象用戶的行為。數(shù)據(jù)來(lái)源包括用戶的日志信息、用戶主體 信息和外界環(huán)境信息。通過(guò)特定的工具對(duì)用戶在互聯(lián)網(wǎng)/移動(dòng)互聯(lián)網(wǎng)上的行為進(jìn)行記錄, 記錄的信息通常稱為用戶日志。數(shù)據(jù)內(nèi)容: (1) 網(wǎng)站日志:用戶在訪問(wèn)某個(gè)目標(biāo)網(wǎng)站時(shí),網(wǎng)站記錄的用戶相關(guān)行為信息; (2) 搜索引擎日志:搜索引擎日志系統(tǒng)所記錄的用戶在搜索引擎上的相關(guān)行為信息; (3) 用戶瀏覽日志:通過(guò)特定的工具和途徑記錄用戶所記錄的用戶在該搜索引擎上的 相關(guān)行為信息; (4) 用戶主體數(shù)據(jù):如用戶群的年齡、受教育程度、興趣愛(ài)好等; (5) 外界環(huán)境數(shù)據(jù):如移動(dòng)互聯(lián)網(wǎng)流量、手機(jī)上網(wǎng)用戶增長(zhǎng)、自費(fèi)套餐等; 本方法中的用戶行為主要指用戶信息、考勤狀況、瀏覽日志及學(xué)生成績(jī)等信息。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明的目的是將數(shù)據(jù)挖掘方法、移動(dòng)智能考勤方法與用戶行為分析方法結(jié)合, 運(yùn)用聚焦爬蟲對(duì)某指定教務(wù)網(wǎng)網(wǎng)站進(jìn)行信息數(shù)據(jù)的分析與采集,運(yùn)用支持多種設(shè)備(NFC 移動(dòng)設(shè)備、OTG設(shè)備、基于藍(lán)牙的RFID/指紋識(shí)別裝置)的移動(dòng)設(shè)備App或PC端應(yīng)用進(jìn)行終 端考勤,運(yùn)用預(yù)警預(yù)測(cè)、聚類方法對(duì)行為習(xí)慣日志進(jìn)行數(shù)據(jù)分析、建模、預(yù)測(cè),實(shí)現(xiàn)用戶行為 分析,運(yùn)用Web、微信、App實(shí)現(xiàn)系統(tǒng)的管理與查詢。進(jìn)而提高數(shù)據(jù)挖掘的安全性,改善校園 考勤和校園管理的便捷程度。
[0013] 本發(fā)明的技術(shù)方案: 數(shù)據(jù)挖掘方案:通過(guò)隊(duì)列管理任務(wù)的先后順序,在任務(wù)添加到隊(duì)列后由線程池管理機(jī) 制來(lái)分配隊(duì)列中的任務(wù)給子線程,當(dāng)任務(wù)處理課程信息的頁(yè)面,獲取課程的參數(shù)信息以及 學(xué)生選課信息保存到數(shù)據(jù)庫(kù)中,當(dāng)任務(wù)處理成績(jī)信息的頁(yè)面,獲取學(xué)生信息及成績(jī)的參數(shù) 信息保存到數(shù)據(jù)庫(kù)中,進(jìn)而實(shí)現(xiàn)指定教務(wù)網(wǎng)網(wǎng)站的特定爬蟲。
[0014] 移動(dòng)設(shè)備App考勤方案:App同時(shí)支持NFC、OTG設(shè)備和藍(lán)牙RFID/指紋設(shè)備。 使用NFC模塊識(shí)別時(shí),調(diào)用NFC模塊NFCAdapter,使用讀操作完成對(duì)RFID卡的識(shí)別。使 用OTG設(shè)備時(shí),調(diào)用按鍵事件監(jiān)聽(tīng),實(shí)現(xiàn)對(duì)OTG設(shè)備傳入物理卡號(hào)