亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于文本分析的p2p網絡借貸風險預測系統(tǒng)的制作方法

文檔序號:8299618閱讀:568來源:國知局
一種基于文本分析的p2p網絡借貸風險預測系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及一種P2P網絡借貸的風險預測系統(tǒng)。
【背景技術】
[0002]隨著互聯(lián)網技術在金融領域的深入應用,出現(xiàn)了一種通過網絡實現(xiàn)個體和個體之間直接借貸的金融模式,稱為P2P網絡借貸(peer-to-peer lending)。P2P網絡借貸運營商提供網絡平臺(如拍拍貸、人人貸等)撮合借方和貸方達成交易。借款人可在平臺上填寫個人信息,說明借款理由,生成借款列表并等待投資人進行投標選擇。投資人則可根據借款人提供的借款相關信息決定是否進行投標。作為傳統(tǒng)金融模式的補充,P2P網絡借貸可以進一步滿足長尾用戶的投融資需求。
[0003]然而,由于國內征信系統(tǒng)不完善,現(xiàn)有的P2P網絡借貸模式仍然面臨著信息不對稱問題。違約風險控制成為P2P網絡借貸模式的重要議題。通常,借款人會在借款列表中提供一段借款理由描述文本來說明借款用途和還款能力。而現(xiàn)有的風險預測系統(tǒng)主要結合借款人還款記錄,個人負債,信用歷史,個人信息等多維度的數據來預測借款列表的逾期率,并未分析借款列表中的借款理由描述文本。所以現(xiàn)有的風險預測系統(tǒng)預測準確率不高,網絡借貸平臺還需要投入大量人工力量對借款列表進行審核。同時,投資人也需要投入大量的搜索成本去尋找符合自身風險偏好的借款列表。

【發(fā)明內容】

[0004]本發(fā)明為了解決現(xiàn)有的風險預測系統(tǒng)預測準確率不高的問題。
[0005]一種基于文本分析的P2P網絡借貸風險預測系統(tǒng),包括:
[0006]平臺數據采集模塊,用于自動采集P2P網絡借貸平臺中的用戶數據和交易數據,包括用戶基本數據,用戶信用數據,借款列表數據,借款描述文本,借款償還情況;
[0007]文本特征提取模塊,用于獲取的平臺數據采集模塊中“借款描述文本”并進行詞語切分并根據停用詞列表去除沒有實際含義的詞語,同時負責提取借款描述文本包含的語義特征,包括情感特征S,主題特征T和可讀性特征R ;
[0008]風險預測模型搭建、訓練模塊,用于搭建和訓練風險預測模型;
[0009]風險預測模塊,用于預測、輸出新借款列表的風險情況。
[0010]本發(fā)明風險預測系統(tǒng)的文本特征提取模塊將獲取的平臺數據采集模塊中“借款描述文本”并進行詞語切分并根據停用詞列表去除沒有實際含義的詞語,同時負責提取借款描述文本包含的情感特征S,主題特征T和可讀性特征R ;然后將這些語義特征也作為輸入變量輸入風險預測模型,這樣把借款描述文本的信息融入了系統(tǒng),增加了系統(tǒng)的預測的準確性,相比現(xiàn)有的風險預測系統(tǒng),預測的準確率提高了 15%以上。
[0011]本發(fā)明的人工情感標注子模塊進行人工標注的時候需要人工參與,剩下均有計算機完成,而且只要風險預測模型搭建訓練完畢,新借款列表的風險預測均由風險預測模型完成,能夠有效降低網絡借貸平臺對借款列表的審核時間,能夠有效提高P2P網絡借貸平臺的整體運營效率。
【附圖說明】
[0012]圖1為本發(fā)明的預測系統(tǒng)各個模塊的結構關系圖;
[0013]圖2為情感特征S提取、存儲子模塊的各個子模塊與詞語切分子模塊及風險預測模型搭建子模塊的結構關系圖。
【具體實施方式】
[0014]【具體實施方式】一:結合圖1說明本實施方式,
[0015]平臺數據采集模塊,用于自動采集P2P網絡借貸平臺中的用戶數據和交易數據,包括用戶基本數據,用戶信用數據,借款列表數據,借款描述文本,借款償還情況;
[0016]文本特征提取模塊,用于獲取的平臺數據采集模塊中“借款描述文本”并進行詞語切分并根據停用詞列表去除沒有實際含義的詞語,同時負責提取借款描述文本包含的語義特征,包括情感特征S,主題特征T和可讀性特征R ;
[0017]風險預測模型搭建、訓練模塊,用于搭建和訓練風險預測模型;
[0018]風險預測模塊,用于預測、輸出新借款列表的風險情況。
[0019]【具體實施方式】二:本實施方式
[0020]所述的文本特征提取模塊,包括:
[0021]詞語切分子模塊,用于獲取的平臺數據采集模塊中“借款描述文本”并進行詞語切分并根據停用詞列表去除沒有實際含義的詞語;
[0022]情感特征S提取、存儲子模塊,用于提取、存儲借款描述文本情感特征S ;
[0023]主題特征T提取、存儲子模塊,通過LDA主題生成模型計算出每個借款描述文本中的主題概率分布P (主題I文本),存儲為借款描述文本的主題特征τ ;
[0024]可讀性特征R提取、存儲子模塊,首先統(tǒng)計所有借款描述文本中每個詞語出現(xiàn)的次數,然后統(tǒng)計出當前借款描述文本中所出現(xiàn)的詞語,計算當前借款描述文本中每個詞語在所有借款描述文本中出現(xiàn)的次數的總和,并以C =(出現(xiàn)的次數的總和/當前借款描述文本中所出現(xiàn)的詞語個數)作為當前借款描述文本中所出現(xiàn)的詞語的平均出現(xiàn)次數,存儲為前借款描述文本的可讀性特征R。
[0025]其它步驟與【具體實施方式】一相同。
[0026]【具體實施方式】三:本實施方式,結合圖2說明本實施方式,
[0027]所述情感特征S提取子模塊,包括
[0028]人工情感標注子模塊,隨機提取借款描述文本并輸出顯示,供用戶進行人工情感標注:褒義、中性和貶義,分別以1,0和-1標記;并將已進行人工情感標注的借款描述文本分為情感標注訓練集和情感標注測試集;
[0029]計算機情感分類子模塊,提取人工情感標注子模塊中的情感標注訓練集數據,根據情感標注訓練集的人工情感標注分別計算出1,0和-1 (褒義、中性和貶義)三種情感類別中各詞語集合出現(xiàn)的次數;以此為基礎,計算出情感標注測試集中的每個借款描述文本在I,O和-1 (褒義、中性和貶義)三種情感類別中的概率;將概率最大時所對應的類別作為情感標注測試集中借款描述文本對應的情感類別進行存儲;
[0030]情感比對子模塊,提取計算機情感分類子模塊中存儲的借款描述文本對應的情感類別,將其與人工情感標注進行比對,計算出兩種標注方法的匹配度;若匹配度不能滿足情感分類需求,則返回人工情感標注子模塊進行調整優(yōu)化,直到篩選出能夠準確進行情感分類的提取借款描述文本情感特征的分類器;
[0031]計算機情感標注子模塊,提取情感比對子模塊中的提取借款描述文本情感特征的分類器對所有的借款描述文本進行標注1、0或-1,存
當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1