本發(fā)明涉及信息處理技術領域,尤其涉及一種基于位置服務的個人健康狀態(tài)評估方法及裝置。
背景技術:
健康保險(Health insurance)是當前保險機構所提供的保險業(yè)務中的一項重要險種,是以被保險人的身體為保險標的,使被保險人在疾病或意外事故所致傷害時發(fā)生的費用或損失獲得補償?shù)谋kU。保險機構在給用戶提供健康保險業(yè)務時,需先評估用戶的個人健康狀態(tài),再根據(jù)用戶的個人健康狀態(tài)決定是否給該用戶辦理健康保險。
當前健康保險辦理過程中,用戶個人健康狀況的評估主要采用如下方式:其一是,機構人員通過調查問卷或者當面詢問方式了解用戶的健康習慣和病歷等信息,進而評估用戶個人健康狀態(tài)。該評估方式中,用戶在回答調查問卷或者機構人員所提出的問題時具有較強的主觀性、隨意性和不確定性,即用戶可能隱瞞個人健康狀態(tài),使得評估結果無法真實反映用戶的個人健康狀態(tài)。其二是,機構人員通過查看用戶的得病記錄來了解用戶的個人健康狀態(tài)。該評估方式中,用戶可能提供虛假的得病記錄以隱瞞個人健康狀態(tài),保險機構無法進行準確性核實;而且,在保險業(yè)務實際辦理過程中,只有少數(shù)用戶持有得病記錄,得病記錄的數(shù)據(jù)飽和度很低,無法更好地應用在保險機構辦理健康保險業(yè)務過程中?,F(xiàn)有個人健康狀態(tài)評估方式獲取的個人健康狀態(tài)存在客觀性低的缺陷,無法真實客觀地反映用戶的個人健康狀態(tài)的問題。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題在于,針對現(xiàn)有個人健康狀態(tài)評估方式獲得的個人健康狀態(tài)存在客觀性低的缺陷,提供一種基于位置服務的個人健康狀態(tài)評估方法及裝置。
本發(fā)明解決其技術問題所采用的技術方案是:一種基于位置服務的個人健康狀態(tài)評估方法,包括:
基于位置服務獲取用戶的地理位置信息,所述地理位置信息包括與時間相關聯(lián)的POI信息;
對任一用戶在預設期間內所有的POI信息進行聚類分析,獲取地理位置動態(tài)特征;
基于所述地理位置動態(tài)特征,獲取與所述地理位置動態(tài)特征相對應的用戶健康評分;
基于所述用戶健康評分和訓練好的有監(jiān)督學習模型,獲取個人健康狀態(tài)評估結果。
優(yōu)選地,還包括:獲取用戶的用戶健康評分和醫(yī)療健康信息;將所述用戶健康評分和所述醫(yī)療健康信息輸入機器學習模型中進行邏輯回歸處理,以獲取所述訓練好的有監(jiān)督學習模型。
優(yōu)選地,所述對任一用戶在預設期間內所有的POI信息進行聚類分析,獲取地理位置動態(tài)特征,包括:
采用DBSCAN聚類算法對任一用戶在預設期間內所有的POI信息進行聚類,以獲取若干子集群;
采用K-MEANS聚類算法對每一所述子集群進行迭代聚合,以獲取每一所述子集群的質心POI信息,將所述質心POI信息作為所述地理位置動態(tài)特征輸出。
優(yōu)選地,所述基于所述地理位置動態(tài)特征,獲取與所述地理位置動態(tài)特征相對應的用戶健康評分,包括:
確定每一所述地理位置動態(tài)特征所屬的健康特征,所述健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征;
基于每一所述健康特征對應的所有地理位置動態(tài)特征的頻率和時間確定所述健康特征分值;
采用預設健康評分模型對所述健康特征分值進行處理,獲取所述用戶健康評分。
優(yōu)選地,所述預設健康評分模型包括X=∑Si*Wi;X為用戶健康評分,i是健康特征,Si是健康特征i對應的分值,Wi是健康特征i對應的權重;所述健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征,還包括年齡特征、醫(yī)保使用特征和商保使用特征。
本發(fā)明還提供一種基于位置服務的個人健康狀態(tài)評估裝置,包括:
信息獲取單元,用于基于位置服務獲取用戶的地理位置信息,所述地理位置信息包括與時間相關聯(lián)的POI信息;
聚類分析單元,用于對任一用戶在預設期間內所有的POI信息進行聚類分析,獲取地理位置動態(tài)特征;
健康評分獲取單元,用于基于所述地理位置動態(tài)特征,獲取與所述地理位置動態(tài)特征相對應的用戶健康評分;
評估結果獲取單元,用于基于所述用戶健康評分和訓練好的有監(jiān)督學習模型,獲取個人健康狀態(tài)評估結果。
優(yōu)選地,還包括學習模型訓練單元,用于獲取用戶的用戶健康評分和醫(yī)療健康信息;將所述用戶健康評分和所述醫(yī)療健康信息輸入機器學習模型中進行邏輯回歸處理,以獲取所述訓練好的有監(jiān)督學習模型。
優(yōu)選地,所述聚類分析單元包括:
第一聚類子單元,用于采用DBSCAN聚類算法對任一用戶在預設期間內所有的POI信息進行聚類,以獲取若干子集群;
第二聚類子單元,用于采用K-MEANS聚類算法對每一所述子集群進行迭代聚合,以獲取每一所述子集群的質心POI信息,將所述質心POI信息作為所述地理位置動態(tài)特征輸出。
優(yōu)選地,所述健康評分獲取單元包括:
健康特征獲取子單元,用于確定每一所述地理位置動態(tài)特征所屬的健康特征,所述健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征;
健康分值獲取子單元,用于基于每一所述健康特征對應的所有地理位置動態(tài)特征的頻率和時間確定所述健康特征分值;
健康評分獲取子單元,用于采用預設健康評分模型對所述健康特征分值進行處理,獲取所述用戶健康評分。
優(yōu)選地,所述預設健康評分模型包括X=∑Si*Wi;X為用戶健康評分,i是健康特征,Si是健康特征i對應的分值,Wi是健康特征i對應的權重;所述健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征,還包括年齡特征、醫(yī)保使用特征和商保使用特征。
本發(fā)明與現(xiàn)有技術相比具有如下優(yōu)點:本發(fā)明所提供的基于位置服務的個人健康狀態(tài)評估方法及裝置中,通過對獲取到的用戶在預設期間內的地理位置信息進行聚類分析以獲取地理位置動態(tài)特征;并基于地理位置動態(tài)特征獲取對應的用戶健康評分;再將用戶健康評分輸入訓練好的有監(jiān)督學習模型進行處理,以獲取最終的個人健康狀態(tài)評估結果,此過程不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的客觀性和準確性。而且,該基于位置服務的個人健康狀態(tài)評估方法及裝置中,可基于任一用戶的用戶健康評分獲取對應的個人健康狀態(tài)評估結果,數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),以解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
附圖說明
下面將結合附圖及實施例對本發(fā)明作進一步說明,附圖中:
圖1是本發(fā)明實施例1中基于位置服務的個人健康狀態(tài)評估方法的一流程圖。
圖2是本發(fā)明實施例2中基于位置服務的個人健康狀態(tài)評估裝置的一原理框圖。
具體實施方式
為了對本發(fā)明的技術特征、目的和效果有更加清楚的理解,現(xiàn)對照附圖詳細說明本發(fā)明的具體實施方式。
實施例1
圖1示出本實施例中的基于位置服務的個人健康狀態(tài)評估方法的一流程圖。該基于位置服務的個人健康狀態(tài)評估方法的工作原理是通過采集用戶在一段時間內的活動軌跡,基于客觀存在的活動軌跡與個人健康狀態(tài)的關聯(lián)關系,推定用戶的個人健康狀態(tài),以提高評估出的個人健康狀態(tài)的客觀性。如圖1所示,基于位置服務的個人健康狀態(tài)評估方法包括:
S1:基于位置服務獲取用戶的地理位置信息,地理位置信息包括與時間相關聯(lián)的POI信息。
以任一用戶一天的地理位置信息為例,該地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示電子地圖中的一點,包括POI點名稱、經(jīng)度和緯度等信息。基于用戶的地理位置信息,可了解用戶每天經(jīng)過的家庭住址、辦公場所、上下班時間、常去的娛樂、購物、健身等信息??梢岳斫獾?,基于位置服務獲取用戶的地理位置信息,具有較強的客觀性和可靠性。
基于位置服務(Location Based Service,簡稱LBS)是通過電信移動運營商的無線電通訊網(wǎng)絡(如GSM網(wǎng)、CDMA網(wǎng))或外部定位方式(如GPS)獲取移動終端用戶的位置信息(地理坐標,或大地坐標),在地理信息系統(tǒng)(Geographic Information System,簡稱GIS)平臺的支持下,為用戶提供相應服務的一種增值業(yè)務??傮w來看,LBS由移動通信網(wǎng)絡和計算機網(wǎng)絡結合而成,兩個網(wǎng)絡之間通過網(wǎng)關實現(xiàn)交互。移動終端通過移動通信網(wǎng)絡發(fā)出請求,經(jīng)過網(wǎng)關傳遞給LBS服務平臺;LBS服務平臺根據(jù)用戶請求和用戶當前位置進行處理,并將結果通過網(wǎng)關返回給用戶。POI(Point Of Interest,即興趣點或信息點),包括名稱、類型、經(jīng)度、緯度等資料,以使POI可在電子地圖上呈現(xiàn),以標示電子地圖上的某個地標、景點等地點信息。
本實施例中,基于位置服務的移動終端為智能手機,通過開啟智能手機上的定位功能,以使LBS服務平臺實時獲取智能手機的地理位置信息,從而了解攜帶該智能手機的用戶的地理位置信息。地理位置信息包括與時間相關聯(lián)的POI信息中的時間包括日期和時刻,通過該地理位置信息可了解用戶在任一時刻所處的POI信息??梢岳斫獾?,地理位置信息與用戶ID相關聯(lián),用戶ID用于識別唯一識別用戶,可以是身份證號或手機號。
可以理解地,為了減少數(shù)據(jù)處理量,提高處理效率,可預先設置時間閾值,以使基于位置服務獲取用戶的地理位置信息時,只獲取用戶在任一地點停留時間達到該時間閾值的POI信息,以避免采集到的與時間相關聯(lián)的POI信息的數(shù)據(jù)量較多,導致處理效率低的問題。
S2:對任一用戶在預設期間內所有的POI信息進行聚類分析,獲取地理位置動態(tài)特征。
其中,地理位置動態(tài)特征是對用戶在預設期間內所有POI信息進行聚類分析的結果,可體現(xiàn)用戶的日?;顒榆壽E。其中,預設期間可以是當前系統(tǒng)時間之前的任意一段時間,可以為一周、一個月、三個月或半年,可根據(jù)需求自主設置。可以理解地,預設期間越長,其采集到的地理位置信息的數(shù)據(jù)量越多,處理結果的準確性越高;預設期間越短,其處理效率越高。
進一步地,步驟S2具體包括如下步驟:
S21:采用DBSCAN聚類算法對任一用戶在預設期間內所有的POI信息進行聚類,以獲取若干子集群。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)是一種基于密度的空間聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點的最大集合。DBSCAN算法具有聚類速度快且能夠有效處理噪聲和發(fā)現(xiàn)任意形成的空間聚類的優(yōu)點。
具體地,預設掃描半徑(以下簡稱為eps)和最小包含點數(shù)(minPts),任選一個未被訪問(unvisited)的POI信息開始,找出與其距離在eps之內(包括eps)的所有POI信息,將POI信息與距離在eps之內的所有POI信息作為一個子集群輸出,以將用戶所有POI信息在電子地圖上劃分出若干常去場所,即每一子集群對應一常去場所。
S22:采用K-MEANS聚類算法對每一子集群進行迭代聚合,以獲取每一子集群的質心POI信息,將質心POI信息作為地理位置動態(tài)特征輸出。
K-MEANS算法是很典型的基于距離的算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。其計算公式為其中,k個初始類聚類中心點的選取對聚類結果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。若一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法可快速簡單地對數(shù)據(jù)進行聚類,對大數(shù)據(jù)集具有較高的效率且可伸縮性,時間復雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。
本實施例中,采用K-MEANS算法對每一子集群中的POI信息進行迭代聚合,直到最后一次迭代時,迭代前后數(shù)值沒有發(fā)生變化,則獲取該子集群的質心POI信息,將每一質心POI信息作為一地理位置動態(tài)特征輸出。
若用戶某天的地理位置信息包括與時間相關聯(lián)的如下POI信息:A、B、C、D、E、F、G、H、F、I、J、K……E、D、A,若A為家庭住址,B和C分別為家庭住址附近eps內的地點,D和E為工作路上獲取的地點,F(xiàn)為辦公地址,G為辦公地址附近eps內的地點,H、I、J、K為消費場所等。步驟S21中采用DBSCAN聚類算法進行聚類時,通過設置掃描半徑(eps)和最小包含點數(shù)(minPts),例如可將家庭住址和家庭住址附近eps內所有的POI信息聚類為一子集群輸出,將辦公場所和辦公場所附近eps內所有的POI信息聚類為另一子集群輸出。步驟S22對每一子集群采用K-MEANS聚類算法進行迭代聚合,以獲取每一子集群的質心POI信息,將每一質心POI信息作為一地理位置動態(tài)特征輸出。
S3:基于地理位置動態(tài)特征,獲取與地理位置動態(tài)特征相對應的用戶健康評分。
由于地理位置動態(tài)特征是通過對基于位置服務獲取到的地理位置信息進行聚類分析獲取到的,其過程不受人為因素影響,使得基于地理位置動態(tài)特征獲取到的用戶健康評分同樣不受人為因素影響,客觀性強。
進一步地,步驟S3具體包括如下步驟:
S31:確定每一地理位置動態(tài)特征所屬的健康特征,健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征。
其中,生活習慣特征包括上班時間在辦公場所的上班特征、下班時間在辦公場所的加班特征、上班時間離開辦公場所的出差特征和夜間在娛樂場所的夜間娛樂特征等。鍛煉習慣特征包括在公園、健身房等鍛煉場所特征。就醫(yī)活動特征包括在醫(yī)院、藥店等醫(yī)療場所特征??梢岳斫獾?,在對用戶在預設期間內所有的POI信息進行聚類分析時,可基本確定該用戶的上下班時間、辦公場所、家庭住址等基本信息。
S32:基于每一健康特征對應的所有地理位置動態(tài)特征的頻率和時間確定健康特征分值。
由于健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征,相應地,健康特征分值包括生活習慣特征的分值、鍛煉習慣特征的分值和就醫(yī)習慣特征的分值。以鍛煉習慣特征的分值為例,鍛煉習慣特征的分值根據(jù)用戶在公園、健身房等鍛煉場所的頻率和時間確定。以30歲的成年人每周鍛煉10小時最佳,對應的分值為100;若用戶在一周內在公園、健身房等鍛煉場所的時間達到10小時,則其對應的鍛煉習慣特征的分值為100分;每小于1小時,則其對應的鍛煉習慣特征的分值減小10。同理,可確定生活習慣特征的分值和就醫(yī)習慣特征的分值。
S33:采用預設健康評分模型對健康特征分值進行處理,獲取用戶健康評分。
其中,預設健康評分模型包括X=∑Si*Wi;X為用戶健康評分,i是健康特征,Si是健康特征i對應的分值,Wi是健康特征i對應的權重;健康特征不僅包括生活習慣特征、鍛煉習慣特征、就醫(yī)習慣特征等可通過地理位置信息確定的特征,還包括年齡特征、醫(yī)保使用特征和商保使用特征等客觀特征??梢岳斫獾?,每一健康特征對應的權重依據(jù)該健康特征對個人健康狀態(tài)的影響程度確定。
S4:基于用戶健康評分和訓練好的有監(jiān)督學習模型,獲取個人健康狀態(tài)評估結果。
可以理解地,在訓練好的有監(jiān)督學習模型中,輸入用戶健康評分,即可輸出個人健康狀態(tài)評估結果,以使保險機構可基于個人健康狀態(tài)評估結果,客觀了解辦理健康保險的用戶的個人健康狀態(tài)。由于個人健康狀態(tài)評估結果不是通過用戶反饋的問卷內容或者自主提供的得病記錄獲取,不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的準確性和客觀性。而且,該基于位置服務的個人健康狀態(tài)評估方法,可基于任一用戶健康評分和訓練好的有監(jiān)督學習模型,獲取相應的個人健康狀態(tài)評估結果,其數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),可解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
進一步地,該基于位置服務的個人健康狀態(tài)評估方法還包括:獲取任一用戶的用戶健康評分和醫(yī)療健康信息;將用戶健康評分和醫(yī)療健康信息輸入機器學習模型中進行邏輯回歸處理,以獲取訓練好的有監(jiān)督學習模型。
其中,醫(yī)療健康信息可以是保險機構從各大醫(yī)療機構中獲取得到的,將用戶的醫(yī)療健康信息和用戶健康評分作為有監(jiān)督學習模型的訓練集,用于訓練有監(jiān)督學習模型,從而實現(xiàn)基于用戶健康評分和訓練好的有監(jiān)督學習模型對未知醫(yī)療健康信息的個人健康狀態(tài)評估。
其中,邏輯回歸(Logistic Regression)是當前業(yè)界比較常用的機器學習方法,用于估計某種事物的可能性。邏輯回歸(Logistic Regression)是一個被logistic方程歸一化后的線性回歸。在邏輯回歸(Logistic Regression)中,若設樣本是{x,y},y是0或者1,表示正類或者負類,x是我們的m維的樣本特征向量。那么這個樣本x屬于正類,也就是y=1的“概率”可以通過下面的邏輯函數(shù)來表示:
其中,θ是模型參數(shù),也就是回歸系數(shù),σ是sigmoid函數(shù)。實際上這個函數(shù)是由下面的對數(shù)幾率(也就是x屬于正類的可能性和負類的可能性的比值的對數(shù))變換得到的:
本實施例所提供的基于位置服務的個人健康狀態(tài)評估方法中,通過對獲取到的用戶在預設期間內的地理位置信息進行聚類分析以獲取地理位置動態(tài)特征;并基于地理位置動態(tài)特征獲取對應的用戶健康評分;再將用戶健康評分輸入訓練好的有監(jiān)督學習模型進行處理,以獲取最終的個人健康狀態(tài)評估結果,此過程不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的客觀性和準確性。而且,該基于位置服務的個人健康狀態(tài)評估方法中,可基于任一用戶的用戶健康評分獲取對應的個人健康狀態(tài)評估結果,數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),可解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
在一具體實施例中,設有10000個用戶在保險機構中辦理健康保險,其中30%的用戶的醫(yī)療健康信息可從各大醫(yī)療機構的數(shù)據(jù)庫中獲取,該醫(yī)療健康信息包括但不限于體檢信息;其余70%的用戶未在各大醫(yī)療機構辦理過相應的體檢信息,無法獲取其對應的醫(yī)療健康信息。保險機構通過獲取10000個用戶的地理位置信息;并對預設期間內任一用戶的POI信息進行聚類分析后獲取地理位置動態(tài)特征;再采用預設健康評分模型對地理位置動態(tài)特征進行處理,以獲取10000個用戶對應的用戶健康評分;再將10000*30%個用戶的用戶健康信息和醫(yī)療健康信息輸入機器學習模型,進行邏輯回歸處理,以輸出訓練好的有監(jiān)督學習模型;然后將10000*70%個用戶的用戶健康信息輸入訓練好的有監(jiān)督學習模型,以獲取未知醫(yī)療健康信息的用戶的個人健康狀態(tài)評估結果。
本實施例所提供的基于位置服務的個人健康狀態(tài)評估方法,基于用戶在預設期間內的地理位置信息進行處理,以獲取最終的個人健康狀態(tài)評估結果,此過程不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的客觀性和準確性。而且,該基于位置服務的個人健康狀態(tài)評估方法中,將同時存在用戶健康評分和對應的醫(yī)療健康信息的所有數(shù)據(jù)集作為機器學習模型的訓練集,通過對所有醫(yī)療健康信息和用戶健康評進行邏輯回歸處理,以獲取訓練好的有監(jiān)督學習模型;再基于訓練好的有監(jiān)督學習模型對不存在醫(yī)療健康信息的任一用戶的用戶健康評分進行處理,輸出對應的個人健康狀態(tài)評估結果。該基于位置服務的個人健康狀態(tài)評估方法的數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),以解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
實施例2
圖2示出本實施例中的基于位置服務的個人健康狀態(tài)評估裝置的一原理框圖。該基于位置服務的個人健康狀態(tài)評估裝置的工作原理是通過采集用戶在一段時間內的活動軌跡,基于客觀存在的活動軌跡與個人健康狀態(tài)的關聯(lián)關系,推定用戶的個人健康狀態(tài),以提高評估出的個人健康狀態(tài)的客觀性。如圖2所示,基于位置服務的個人健康狀態(tài)評估裝置包括信息獲取單元10、聚類分析單元20、健康評分獲取單元30、評估結果獲取單元40和學習模型訓練單元50。
信息獲取單元10,用于基于位置服務獲取用戶的地理位置信息,地理位置信息包括與時間相關聯(lián)的POI信息。
以任一用戶一天的地理位置信息為例,該地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示電子地圖中的一點,包括POI點名稱、經(jīng)度和緯度等信息?;谟脩舻牡乩砦恢眯畔?,可了解用戶每天經(jīng)過的家庭住址、辦公場所、上下班時間、常去的娛樂、購物、健身等信息。可以理解地,基于位置服務獲取用戶的地理位置信息,具有較強的客觀性和可靠性?;谖恢梅?Location Based Service,簡稱LBS)是通過電信移動運營商的無線電通訊網(wǎng)絡(如GSM網(wǎng)、CDMA網(wǎng))或外部定位方式(如GPS)獲取移動終端用戶的位置信息(地理坐標,或大地坐標),在地理信息系統(tǒng)(Geographic Information System,簡稱GIS)平臺的支持下,為用戶提供相應服務的一種增值業(yè)務??傮w來看,LBS由移動通信網(wǎng)絡和計算機網(wǎng)絡結合而成,兩個網(wǎng)絡之間通過網(wǎng)關實現(xiàn)交互。移動終端通過移動通信網(wǎng)絡發(fā)出請求,經(jīng)過網(wǎng)關傳遞給LBS服務平臺;LBS服務平臺根據(jù)用戶請求和用戶當前位置進行處理,并將結果通過網(wǎng)關返回給用戶。POI(Point Of Interest,即興趣點或信息點),包括名稱、類型、經(jīng)度、緯度等資料,以使POI可在電子地圖上呈現(xiàn),以標示電子地圖上的某個地標、景點等地點信息。
本實施例中,基于位置服務的移動終端為智能手機,通過開啟智能手機上的定位功能,以使LBS服務平臺實時獲取智能手機的地理位置信息,從而了解攜帶該智能手機的用戶的地理位置信息。地理位置信息包括與時間相關聯(lián)的POI信息中的時間包括日期和時刻,通過該地理位置信息可了解用戶在任一時刻所處的POI信息??梢岳斫獾兀乩砦恢眯畔⑴c用戶ID相關聯(lián),用戶ID用于識別唯一識別用戶,可以是身份證號或手機號。
可以理解地,為了減少數(shù)據(jù)處理量,提高處理效率,可預先設置時間閾值,以使基于位置服務獲取用戶的地理位置信息時,只獲取用戶在任一地點停留時間達到該時間閾值的POI信息,以避免采集到的與時間相關聯(lián)的POI信息的數(shù)據(jù)量較多,導致處理效率低的問題。
聚類分析單元20,用于對任一用戶在預設期間內所有的POI信息進行聚類分析,獲取地理位置動態(tài)特征。
其中,地理位置動態(tài)特征是對用戶在預設期間內所有POI信息進行聚類分析的結果,可體現(xiàn)用戶的日?;顒榆壽E。其中,預設期間可以是當前系統(tǒng)時間之前的任意一段時間,可以為一周、一個月、三個月或半年,可根據(jù)需求自主設置??梢岳斫獾?,預設期間越長,其采集到的地理位置信息的數(shù)據(jù)量越多,處理結果的準確性越高;預設期間越短,其處理效率越高。
聚類分析單元20具體包括第一聚類子單元21和第二聚類子單元22。
第一聚類子單元21,用于采用DBSCAN聚類算法對任一用戶在預設期間內所有的POI信息進行聚類,以獲取若干子集群。
DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類裝置)是一種基于密度的空間聚類算法。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點的最大集合。
具體地,預設掃描半徑(以下簡稱為eps)和最小包含點數(shù)(minPts),任選一個未被訪問(unvisited)的POI信息開始,找出與其距離在eps之內(包括eps)的所有POI信息,將POI信息與距離在eps之內的所有POI信息作為一個子集群輸出,以將用戶所有POI信息在電子地圖上劃分出若干常去場所,即每一子集群對應一常去場所。
第二聚類子單元22,用于采用K-MEANS聚類算法對每一子集群進行迭代聚合,以獲取每一子集群的質心POI信息,將質心POI信息作為地理位置動態(tài)特征輸出。
K-MEANS算法是很典型的基于距離的算法,采用距離作為相似性的評價指標,即認為兩個對象的距離越近,其相似度就越大。其計算公式為其中,k個初始類聚類中心點的選取對聚類結果具有較大的影響,因為在該算法第一步中是隨機的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。若一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法可快速簡單地對數(shù)據(jù)進行聚類,對大數(shù)據(jù)集具有較高的效率且可伸縮性,時間復雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。
本實施例中,采用K-MEANS算法對每一子集群中的POI信息進行迭代聚合,直到最后一次迭代時,迭代前后數(shù)值沒有發(fā)生變化,則獲取該子集群的質心POI信息,將每一質心POI信息作為一地理位置動態(tài)特征輸出。
若用戶某天的地理位置信息包括與時間相關聯(lián)的如下POI信息:A、B、C、D、E、F、G、H、F、I、J、K……E、D、A,若A為家庭住址,B和C分別為家庭住址附近eps內的地點,D和E為工作路上獲取的地點,F(xiàn)為辦公地址,G為辦公地址附近eps內的地點,H、I、J、K為消費場所等。第一聚類子單元21采用DBSCAN聚類算法進行聚類時,通過設置掃描半徑(eps)和最小包含點數(shù)(minPts),例如可將家庭住址和家庭住址附近eps內所有的POI信息聚類為一子集群輸出,將辦公場所和辦公場所附近eps內所有的POI信息聚類為另一子集群輸出等。第二聚類子單元22對每一子集群采用K-MEANS聚類算法進行迭代聚合,以獲取每一子集群的質心POI信息,將每一質心POI信息作為一地理位置動態(tài)特征輸出。
健康評分獲取單元30,用于基于地理位置動態(tài)特征,獲取與地理位置動態(tài)特征相對應的用戶健康評分。
由于地理位置動態(tài)特征是通過對基于位置服務獲取到的地理位置信息進行聚類分析獲取到的,其過程不受人為因素影響,使得基于地理位置動態(tài)特征獲取到的用戶健康評分同樣不受人為因素影響,客觀性強。
進一步地,健康評分獲取單元30具體包括健康特征獲取子單元31、健康分值獲取子單元32和健康評分獲取子單元33。
健康特征獲取子單元31,用于確定每一地理位置動態(tài)特征所屬的健康特征,健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征。
其中,生活習慣特征包括上班時間在辦公場所的上班特征、下班時間在辦公場所的加班特征、上班時間離開辦公場所的出差特征和夜間在娛樂場所的夜間娛樂特征等。鍛煉習慣特征包括在公園、健身房等鍛煉場所特征。就醫(yī)活動特征包括在醫(yī)院、藥店等醫(yī)療場所特征。可以理解地,在對用戶在預設期間內所有的POI信息進行聚類分析時,可基本確定該用戶的上下班時間、辦公場所、家庭住址等基本信息。
健康分值獲取子單元32,用于基于每一健康特征對應的所有地理位置動態(tài)特征的頻率和時間確定健康特征分值。
由于健康特征包括生活習慣特征、鍛煉習慣特征和就醫(yī)習慣特征,相應地,健康特征分值包括生活習慣特征的分值、鍛煉習慣特征的分值和就醫(yī)習慣特征的分值。以鍛煉習慣特征的分值為例,鍛煉習慣特征的分值根據(jù)用戶在公園、健身房等鍛煉場所的頻率和時間確定。以30歲的成年人每周鍛煉10小時最佳,對應的分值為100;若用戶在一周內在公園、健身房等鍛煉場所的時間達到10小時,則其對應的鍛煉習慣特征的分值為100分;每小于1小時,則其對應的鍛煉習慣特征的分值減小10。同理,可確定生活習慣特征的分值和就醫(yī)習慣特征的分值。
健康評分獲取子單元33,用于采用預設健康評分模型對健康特征分值進行處理,獲取用戶健康評分。
其中,預設健康評分模型包括X=∑Si*Wi;X為用戶健康評分,i是健康特征,Si是健康特征i對應的分值,Wi是健康特征i對應的權重;健康特征不僅包括生活習慣特征、鍛煉習慣特征、就醫(yī)習慣特征等可通過地理位置信息確定的特征,還包括年齡特征、醫(yī)保使用特征和商保使用特征等客觀特征??梢岳斫獾?,每一健康特征對應的權重依據(jù)該健康特征對個人健康狀態(tài)的影響程度確定。
評估結果獲取單元40,用于基于用戶健康評分和訓練好的有監(jiān)督學習模型,獲取個人健康狀態(tài)評估結果。
可以理解地,在訓練好的有監(jiān)督學習模型中,輸入用戶健康評分,即可輸出個人健康狀態(tài)評估結果,以使保險機構可基于個人健康狀態(tài)評估結果客觀了解辦理健康保險的用戶的個人健康狀態(tài)。由于個人健康狀態(tài)評估結果不是通過用戶反饋的問卷內容或者自主提供的得病記錄獲取,不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的準確性和客觀性。而且,該基于位置服務的個人健康狀態(tài)評估裝置可基于任一用戶健康評分和訓練好的有監(jiān)督學習模型,獲取相應的個人健康狀態(tài)評估結果,其數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),可解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
進一步地,該基于位置服務的個人健康狀態(tài)評估裝置還包括學習模型訓練單元50,用于獲取任一用戶的用戶健康評分和醫(yī)療健康信息;將用戶健康評分和醫(yī)療健康信息輸入機器學習模型中進行邏輯回歸處理,以獲取訓練好的有監(jiān)督學習模型。
其中,醫(yī)療健康信息可以是保險機構從各大醫(yī)療機構中獲取得到的,將用戶的醫(yī)療健康信息和用戶健康評分作為有監(jiān)督學習模型的訓練集,用于訓練有監(jiān)督學習模型,從而實現(xiàn)基于用戶健康評分和訓練好的有監(jiān)督學習模型對未知醫(yī)療健康信息的個人健康狀態(tài)評估。
其中,邏輯回歸(Logistic Regression)是當前業(yè)界比較常用的機器學習方法,用于估計某種事物的可能性。邏輯回歸(Logistic Regression)是一個被logistic方程歸一化后的線性回歸。在邏輯回歸(Logistic Regression)中,若設樣本是{x,y},y是0或者1,表示正類或者負類,x是我們的m維的樣本特征向量。那么這個樣本x屬于正類,也就是y=1的“概率”可以通過下面的邏輯函數(shù)來表示:
其中,θ是模型參數(shù),也就是回歸系數(shù),σ是sigmoid函數(shù)。實際上這個函數(shù)是由下面的對數(shù)幾率(也就是x屬于正類的可能性和負類的可能性的比值的對數(shù))變換得到的:
本實施例所提供的基于位置服務的個人健康狀態(tài)評估裝置中,通過對獲取到的用戶在預設期間內的地理位置信息進行聚類分析以獲取地理位置動態(tài)特征;并基于地理位置動態(tài)特征獲取對應的用戶健康評分;再將用戶健康評分輸入訓練好的有監(jiān)督學習模型進行處理,以獲取最終的個人健康狀態(tài)評估結果,此過程不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的客觀性和準確性。而且,該基于位置服務的個人健康狀態(tài)評估裝置中,可基于任一用戶的用戶健康評分獲取對應的個人健康狀態(tài)評估結果,數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),可解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
在一具體實施例中,設有10000個用戶在保險機構中辦理健康保險,其中30%的用戶的醫(yī)療健康信息可從各大醫(yī)療機構的數(shù)據(jù)庫中獲取,該醫(yī)療健康信息包括但不限于體檢信息;其余70%的用戶未在各大醫(yī)療機構辦理過相應的體檢信息,無法獲取其對應的醫(yī)療健康信息。保險機構通過獲取10000個用戶的地理位置信息;并對預設期間內任一用戶的POI信息進行聚類分析后獲取地理位置動態(tài)特征;再采用預設健康評分模型對地理位置動態(tài)特征進行處理,以獲取10000個用戶對應的用戶健康評分;再將10000*30%個用戶的用戶健康信息和醫(yī)療健康信息輸入機器學習模型,進行邏輯回歸處理,以輸出訓練好的有監(jiān)督學習模型;然后將10000*70%個用戶的用戶健康信息輸入訓練好的有監(jiān)督學習模型,以獲取未知醫(yī)療健康信息的用戶的個人健康狀態(tài)評估結果。
本實施例所提供的基于位置服務的個人健康狀態(tài)評估裝置,基于用戶在預設期間內的地理位置信息進行處理,以獲取最終的個人健康狀態(tài)評估結果,此過程不受用戶主觀因素影響,可顯著提高用戶個人健康狀態(tài)評估結果的客觀性和準確性。而且,該基于位置服務的個人健康狀態(tài)評估裝置中,將同時存在用戶健康評分和對應的醫(yī)療健康信息的所有數(shù)據(jù)集作為機器學習模型的訓練集,通過對所有醫(yī)療健康信息和用戶健康評進行邏輯回歸處理,以獲取訓練好的有監(jiān)督學習模型;再基于訓練好的有監(jiān)督學習模型對不存在醫(yī)療健康信息的任一用戶的用戶健康評分進行處理,輸出對應的個人健康狀態(tài)評估結果。該基于位置服務的個人健康狀態(tài)評估裝置的數(shù)據(jù)飽和度高、覆蓋率廣,能夠更精準地評估用戶個人健康狀態(tài),以解決現(xiàn)有技術中因用戶得病記錄缺失無法評估用戶的個人健康狀態(tài)的問題。
本發(fā)明是通過幾個具體實施例進行說明的,本領域技術人員應當明白,在不脫離本發(fā)明范圍的情況下,還可以對本發(fā)明進行各種變換和等同替代。另外,針對特定情形或具體情況,可以對本發(fā)明做各種修改,而不脫離本發(fā)明的范圍。因此,本發(fā)明不局限于所公開的具體實施例,而應當包括落入本發(fā)明權利要求范圍內的全部實施方式。