亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于多元線性回歸模型的餐館評分預測方法與流程

文檔序號:12465217閱讀:2098來源:國知局
一種基于多元線性回歸模型的餐館評分預測方法與流程

本發(fā)明涉及數(shù)據(jù)挖掘與數(shù)據(jù)分析技術,特別是涉及一種基于多元線性回歸模型的餐館評分預測方法。



背景技術:

星級是對餐館的綜合評價,餐館的星級很大程度依賴于評價人對餐館的主觀評價。因此通過對評價文本的分析來預測評價人將要給出的星級,通過對評價人的評價文本內(nèi)容、評價的長度、評價的情感值、餐館當前的平均星級、評價人的特點等因素的分析,從而得到各個因素與最后評價人給出的星級之間的關系。

線性回歸算法是數(shù)據(jù)挖掘領域中比較重要的算法,它通過給定數(shù)據(jù)集D={(x1,y1),(x2,y2),...,(xm,ym)},其中xi=(xi1;xi2;...;xid),試圖得到一個線性模型以盡可能準確地預測實值輸出標記。

隨著數(shù)據(jù)量的急劇增加,在UGC(User Generated Content用戶原創(chuàng)內(nèi)容)網(wǎng)站上用戶留下的評論和其他客觀條件,這些數(shù)據(jù)作為構成了UGC的評分基礎,借助這些數(shù)據(jù),我們可以對餐館星級做出預測,一般我們可以采取線性回歸的方法。簡單線性回歸法是用來度量一個自變量對因變量的影響程度的。



技術實現(xiàn)要素:

為了克服現(xiàn)有的餐館評分預測方式的可靠性較差的不足,本發(fā)明提出了一種基于多元線性回歸模型的餐館評分預測方法。UGC類網(wǎng)站上,用戶會通過自身的體驗對商戶進行評分與評價。而每個用戶在評分后會給出評論。每個用戶的評論文字的長短,所附加的情感,餐館當前的星級以及用戶自身的特點都影響了用戶會給出的評分情況。用戶最終給出的評分與其寫的評論有直接的關系,所以通過分析其評論的各個特點可以一定程度上預測評分(或者說星級)。該方法通過餐館網(wǎng)站中選取若干指標(來自網(wǎng)站中直接提供的特征加上我們語義分析獲得主觀性和極性),進行線性回歸方程建模,從而為餐館的星級提供了可供預測的公式。

本發(fā)明解決其技術問題所采用的技術方案如下:

一種基于線性回歸的餐館星級評價方法,包括以下步驟:

S1:從餐飲網(wǎng)站上抓取數(shù)據(jù),并對數(shù)據(jù)進行分析,最后獲得三個相關的數(shù)據(jù)表,分別是user、business、review這三張表;

S2:在review表中提取相關的用戶評論數(shù)據(jù),分析評論文本的語義極性和主觀性,所述語義極性包括褒義、中性或者貶義;

S3:在網(wǎng)站提供的特征和語義分析獲得的主觀性和極性中,同時考慮用戶和餐館對評分預測的影響,選擇需要的特征變量;

S4:把相關的數(shù)據(jù)表導入數(shù)據(jù)庫中,用SQL語句獲得我們選擇的特征變量的數(shù)據(jù)集,并將數(shù)據(jù)集分成若干個更小的數(shù)據(jù)集;

S5:對于獲得的數(shù)據(jù),進行克倫巴赫系數(shù)均衡數(shù)據(jù)的置信度分析,得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,選取alpha系數(shù)大于預設閾值的數(shù)據(jù)集,若不存在這樣的數(shù)據(jù)集轉移到S3;

S6:構造理論模型,設定各個自變量與因變量之間的關系是線性的,從而建立多元線性回歸模型,借助工具進行多元線性回歸處理得到數(shù)據(jù);

S7:對模型進行檢驗,一個指標是擬合度,設定擬合閾值為擬合程度很高,第二個指標為DW檢驗,通過T顯著性指標大于指標閾值,對設置的指標進行篩選,獲得回歸方程,否則如果無法獲得我們想要的模型,就轉移到S3;

S8:運行模型,進行共線性診斷,查看VIF方差擴大因子,若VIF小于門限值則判斷自變量之間不存在共線性,否則我們需要進行主成分分析處理共線性問題,之后分析殘差,若殘差不滿足要求就轉移到S3;

S9:若滿足上述步驟的要求,則說明該線性回歸方程模型滿足該數(shù)據(jù)集,利用得到的線性回歸方程,同時結合用戶和餐館信息,得出尚未有星級的餐館的評價星級。

本發(fā)明的技術構思為:多元線性回歸有多個自變量或者回歸元。對于影響餐館評分的特征變量,通過線性回歸,就能夠預測出相應的評分。

在多元回歸模型中,我們還需要對模型進行統(tǒng)計診斷,一般有殘差值(residuals)、杠桿值(leverage)、學生化殘差(residuals of studentized)和強影響值(cook),對相應的統(tǒng)計量對模型進行優(yōu)化。在用回歸法時,需要數(shù)值型數(shù)據(jù),標稱型數(shù)據(jù)將轉成二值型數(shù)據(jù),因此我們把用戶評價做了一個語義分析。

在評價網(wǎng)站上,用戶會對光顧過的餐館進行評價并給出評分,他們給出的評論很大程度上影響最后的評分,而用戶在尋找餐館時往往會看重餐館的評分。評價文本與用戶給出的星級密切相關,用戶的評論屬于一種自然語言,在對用戶的評價文本進行分析時,我們借助python的自然語言包,獲得評價文本的長度和評價的情感值。用戶在評論中必然會使用一些描述情感的形容詞,表現(xiàn)情感強度的副詞、標點符號,通過抓取這一系列的關鍵詞匯可以數(shù)值化評論中所包含的情感值,這樣用戶的情感就能量化成定性的數(shù)據(jù)。自然語言工具包(Natural Language Toolkit),它是一個將學術語言技術應用于文本數(shù)據(jù)集的Python庫。我們可以獲得用戶評價的極性(褒義、中性或者貶義)和主觀性這兩個屬性。

本發(fā)明的有益效果如下:通過對評價人的評價文本內(nèi)容、評價的長度、評價的情感值、餐館當前的平均星級、評價人的特點等因素的分析,得到各個因素與最后評價人給出的星級之間的關系,從而可以推測出尚未有星級的餐館可能獲得的星級。

附圖說明

圖1為基于線性回歸模型的餐館星級評價方法的回歸建模步驟流程圖;

圖2為標準化殘差直方圖;

圖3為標準化預測值—標準化殘差散點圖;

圖4為回歸標準化殘差的正態(tài)Q-Q圖。

具體實施方式

下面結合附圖對本發(fā)明做進一步說明。

參照圖1~圖4,一種基于線性回歸模型的餐館星級評價方法,本專利以研究yelp中的用戶和餐館為例,原始數(shù)據(jù)記錄了各個餐館的信息、用戶的特點以及用戶評價文本的信息,相應特征進行餐館星級的建模分析。

以下實施方式結合附圖對本發(fā)明進行詳細的描述,如圖1所示,本發(fā)明包括以下步驟:

S1:我們從餐飲網(wǎng)站上抓取數(shù)據(jù),并對數(shù)據(jù)進行分析,最后獲得三個相關的數(shù)據(jù)表,分別是user、business、review這三張表;

S2:在review表中提取相關的用戶評論數(shù)據(jù),分析評論文本的語義極性和主觀性,語義極性包括褒義、中性或者貶義;

S3:在網(wǎng)站提供的特征和語義分析獲得的主觀性和極性中,同時考慮用戶和餐館對評分預測的影響,選擇我們需要的特征變量;

S4:把相關的數(shù)據(jù)表導入數(shù)據(jù)庫中,用SQL語句獲得我們選擇的特征變量的數(shù)據(jù)集,并將數(shù)據(jù)集分成若干個更小的數(shù)據(jù)集;

S5:對于獲得的數(shù)據(jù),進行克倫巴赫系數(shù)均衡數(shù)據(jù)的置信度分析,去除干擾數(shù)據(jù),得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,選取alpha系數(shù)大于0.5(預設閾值為0.5)的數(shù)據(jù)集,若不存在這樣的數(shù)據(jù)集轉移到S3;

S6:構造理論模型,設定各個自變量與因變量之間的關系是線性的,從而建立多元線性回歸模型,這里借助工具進行多元線性回歸處理得到數(shù)據(jù);

S7:對模型進行檢驗,一個指標是擬合度,擬合度60%(擬合閾值取60%)為擬合程度很高,第二個指標為DW檢驗,通過T顯著性指標大于0.05(指標閾值為0.05),對我們設置的指標進行篩選,獲得回歸方程,否則如果無法獲得我們想要的模型,就轉移到S3;

S8:運行模型,進行共線性診斷,主要看VIF方差擴大因子,若VIF小于5(門限值取5)則判斷自變量之間不存在共線性,否則我們需要進行主成分分析處理共線性問題,之后分析殘差,若殘差不滿足要求就轉移到S3;

S9:若滿足上述步驟的要求,則說明該線性回歸方程模型滿足該數(shù)據(jù)集,利用得到的線性回歸方程,同時結合用戶和餐館信息,可以得出尚未有星級的餐館的評價星級。

所述步驟S1中,UGC類網(wǎng)站上,用戶會通過自身的體驗對商戶進行評分與評價。而每個用戶在評分后會給出評論。每個用戶的評論文字的長短,所附加的情感,餐館當前的星級以及用戶自身的特點都影響了用戶會給出的評分情況。用戶最終給出的評分與其寫的評論有直接的關系,所以通過分析其評論的各個特點可以一定程度上預測評分(或者說星級)。我們從餐飲網(wǎng)站上抓取三張數(shù)據(jù)表格user、business、review。User表為用戶信息,包括用戶粉絲數(shù)、用戶平均星評及用戶評價數(shù)等信息。Business表為餐館信息,包括餐館評價數(shù)、餐館星級等信息。Review表為評論信息,包括評論cool、評論funny、評論useful、評論星評及評價文本等信息;

所述步驟S2中,用戶在評論中會使用一些描述情感的形容詞,表現(xiàn)情感強度的副詞、標點符號,通過抓取這一系列的關鍵詞匯可以數(shù)值化評論中所包含的情感值。因為用回歸法時,需要數(shù)值型數(shù)據(jù),需要將標稱型數(shù)據(jù)轉成二值型數(shù)據(jù),因此我們把用戶評價做了一個分析。在review表中提取相關的用戶評論數(shù)據(jù),使用語義分析,獲得評論文本的語義極性(褒義、中性或者貶義)和主觀性;

所述步驟S3中,同時考慮用戶自身體驗的指標和商戶已經(jīng)存在的客觀指標,以及我們語義分析得到特征,選定影響餐館評分的13個重要特征:評論cool、評論funny、評論useful、極性、主觀性、評論字母數(shù)、評論不重單詞數(shù)、餐館評價數(shù)、餐館星級、評論星評、用戶粉絲、用戶平均星級、用戶評價數(shù);

所述步驟S4中,把user、business、review中的數(shù)據(jù)導入數(shù)據(jù)庫中,之后用SQL語句獲得我們想要的13個指標的一張匯總表。然后把匯總表導出,并隨機分成20份;

所述步驟S5中,對20張表格中已提取的評價長度和評價情感值進行可靠性分析,這里我們借助克倫巴赫信度系數(shù)來衡量數(shù)據(jù)的置信度??藗惏秃招哦认禂?shù)公式為:

同時結合F檢驗,對數(shù)據(jù)進行篩選,去除干擾數(shù)據(jù),避免大量數(shù)據(jù)處理對模型造成的困難,得到可信度較高的數(shù)據(jù)作為分析的數(shù)據(jù)樣本,當alpha系數(shù)大于0.5,該數(shù)據(jù)集可靠,進入下一步。否則,轉到S3;

所述步驟S6中,模型建立,我們這個評分模型把星級作為因變量,評論cool、評論funny、評論useful、極性、主觀性、評論字母數(shù)、評論不重單詞數(shù)、餐館評價數(shù)、餐館星級、用戶粉絲、用戶平均星級、用戶評價數(shù)作為自變量。我們借助一般的多元線性回歸模型:

y=β01x12x2+...+βpxp+ε,

其中y為因變量,β0是P個可以精確測量并可控制的自變量。因變量y由兩部分決定:一部分是誤差項隨機變量ε,另一部分是P個自變量的線性函數(shù)β01x12x2+...+βpxp,其中β012...,βp是P+1個未知參數(shù),β0稱為回歸常數(shù),β12,...,βp稱為偏回歸系數(shù),他們決定了因變量y與自變量x1,x2,…,xp的線性關系的具體形式。ε是隨機變量;

所述步驟S7中,對模型進行多元線性回歸處理,調(diào)整后的R平方相比較于R平方,更能反映數(shù)據(jù)的擬合程度,一般60%為擬合程度很高。利用DW來判斷正負相關,DW公式為:

DW小于2代表正相關,大于2代表負相關,DW統(tǒng)計量約等于2時表明數(shù)據(jù)不存在序列相關,即不存在偽回歸。利用T的顯著性,大于0.05的自變量認為對模型沒有顯著性影響,其他自變量對模型有顯著性影響。對于系數(shù)過小的自變量也不進行考慮,得到回歸方程。之后可以對數(shù)據(jù)進行可視化,能夠更直觀地看出模型的合適程度。例如圖2所示的標準化殘差直方圖,殘差具有正態(tài)分布的趨勢,說明該回歸模型是合理恰當?shù)?。如圖3所示的標準化預測值—標準化殘差散點圖,殘差的分布不是散亂的分布,說明存在一定的可優(yōu)化性。如圖4所示的正態(tài)Q-Q圖,擬合曲線與實際曲線較為相近,說明擬合度較高;

所述步驟S8中,運行模型,進行共線性診斷,主要看VIF方差擴大因子,若VIF小于5則判斷自變量之間不存在共線性,如果兩個變量之間存在很強的共線性,則可以將兩個變量整合成一個,因為兩個自變量反映的是同一內(nèi)容,共線性強將會影響矩陣的運算。若VIF大于5則模型存在共線性,需要共線性優(yōu)化。檢測多重共線性的最簡單方法是計算模型各自變量之間的相關系數(shù),并對各相關系數(shù)進行顯著性檢驗。這里我們利用主成分分析處理共線性問題。主成分分析是將共線性強的指標聚合成一個指標,降維并進行因子分析。一般選取特征值大于1的作為一個主成分,按照60%以上就可以成為一個主成分的要求,只選擇一個主成分即可。再次進行多元線性回歸并分析相應指標。之后分析殘差,若殘差不滿足要求就轉移到步驟S3,重新整理數(shù)據(jù);

所述步驟S9中,若滿足上述步驟的要求,則說明該線性回歸方程模型滿足該數(shù)據(jù)集。利用得到的線性回歸方程,同時結合用戶和餐館信息,可以得出尚未有星級的餐館的評價星級。

如上所述為本發(fā)明在yelp餐飲平臺的基于多元線性回歸模型的餐館評分預測方法的實施例介紹,本發(fā)明選擇餐飲網(wǎng)站提供的特征和語義分析獲得的主觀性和極性,采用多元線性回歸模型,最終的預測結果較高,達到了實際使用的要求。對發(fā)明而言僅僅是說明性的,而非限制性的。本專業(yè)技術人員理解,在發(fā)明權利要求所限定的精神和范圍內(nèi)可對其進行許多改變,修改,甚至等效,但都將落入本發(fā)明的保護范圍內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1