本發(fā)明所涉及房地產(chǎn)估價(jià)領(lǐng)域,具體涉及一種基于隨機(jī)森林的房地產(chǎn)估價(jià)方法、系統(tǒng)及存儲(chǔ)介質(zhì)。
背景技術(shù):
在房地產(chǎn)實(shí)際評(píng)估工作中經(jīng)常用到的三大傳統(tǒng)評(píng)估法市場(chǎng)比較法、成本法和收益法。
成本法:成本法利用了經(jīng)濟(jì)學(xué)中的生產(chǎn)費(fèi)用價(jià)值理論。買(mǎi)賣(mài)雙方重置成本上有了共同的認(rèn)知,由于雙方都出于達(dá)成交易的愿望,他們可以在重置成本的基礎(chǔ)上協(xié)商價(jià)格,達(dá)成一致以完成交易。
市場(chǎng)比較法:市場(chǎng)比較法利用了經(jīng)濟(jì)學(xué)中的替代原理,該原理認(rèn)為商品帶給消費(fèi)者的效用是可以被替代的,當(dāng)某一商品價(jià)格上升時(shí),消費(fèi)者會(huì)傾向于尋找可以替代該商品效用的其他商品,以更便宜的價(jià)格獲得效用上的滿足。該原理表現(xiàn)為不同房產(chǎn)彼此之間效用的可替代性,通過(guò)與效用相似的交易房產(chǎn)進(jìn)行比較,可以估算出該房產(chǎn)的價(jià)格,市場(chǎng)比較法主要用于市場(chǎng)交易活躍、有大量相似的房產(chǎn)交易的情況。
收益法:收益法則利用了房地產(chǎn)價(jià)格形成的預(yù)期原理,因?yàn)榉康禺a(chǎn)可以被長(zhǎng)久、連續(xù)地使用,房地產(chǎn)的價(jià)格可以由其未來(lái)可以給房主帶來(lái)的所有現(xiàn)金流的現(xiàn)值決定,通過(guò)預(yù)測(cè)房地產(chǎn)以后每年的純收益,估計(jì)選取適合適的資本化率,將未來(lái)現(xiàn)金流折現(xiàn)求和,以求取該房產(chǎn)的合理價(jià)格。收益法主要用來(lái)估算用于投資或經(jīng)營(yíng)的房地產(chǎn),如投資性住宅、飯店、商鋪等。
這三種方法在很大程度上依賴(lài)于評(píng)估人員的經(jīng)驗(yàn),每套房的評(píng)估需要花費(fèi)專(zhuān)業(yè)評(píng)估人員大量的時(shí)間和精力。由于對(duì)房?jī)r(jià)的理解的原理不同、分析的角度不同,三種方法在實(shí)際中操作中的評(píng)估角度、適用范圍、計(jì)算方法、評(píng)估步驟和難點(diǎn)、評(píng)估結(jié)果各有不同。在傳統(tǒng)方法下,房地產(chǎn)評(píng)估只能依靠評(píng)估人員自身的知識(shí)和經(jīng)驗(yàn),因此特別強(qiáng)調(diào)房地產(chǎn)評(píng)估是經(jīng)驗(yàn)、科學(xué)和藝術(shù)三者的結(jié)合體。以上三大房?jī)r(jià)評(píng)估方法在現(xiàn)實(shí)中運(yùn)用都有其天生的缺陷。成本法在現(xiàn)實(shí)中實(shí)用性很強(qiáng),但該方法需要大量的統(tǒng)計(jì)工作,而且房產(chǎn)的折舊往往與實(shí)際有出入,也會(huì)對(duì)房產(chǎn)估價(jià)造成偏差。市場(chǎng)比較法的使用需要具備一些茍刻的條件,如足夠數(shù)量的相似房地產(chǎn)的交易信息是采用該方法的必要前提。然而在房地產(chǎn)市場(chǎng)發(fā)展滯后的區(qū)域,房產(chǎn)交易的總量有限,相似房產(chǎn)交易的數(shù)量更少。另外,即使得到了足夠的交易信息,在對(duì)估價(jià)進(jìn)行修正方面,仍存在很多難以量化的因素,比如交易時(shí)期的不同、參與者個(gè)人偏好等。收益法在對(duì)房地產(chǎn)未來(lái)收益的估計(jì)上存在很多不確定性,實(shí)際操作起來(lái)帶有很大的隨意性,尤其是還原利率的選擇上沒(méi)有固定的原則或公式為依據(jù),因此估價(jià)的結(jié)果并不理想。因此,傳統(tǒng)評(píng)估方法人力耗費(fèi)較大,且評(píng)估程序復(fù)雜,準(zhǔn)確性也很難度量。
在利用特征價(jià)格理論時(shí),關(guān)于如何建立價(jià)格評(píng)估模型,盡管有眾多用于房地產(chǎn)評(píng)估的技術(shù)和方法,但目前房產(chǎn)估價(jià)模型大部分是應(yīng)用傳統(tǒng)的多元線性回歸,應(yīng)用這種線性參數(shù)回歸的方法,是在假設(shè)樣本來(lái)自的總體分布是已知正態(tài)分布的基礎(chǔ)上,估計(jì)并檢驗(yàn)總體的相關(guān)情況。顯然,這種建立在確定函數(shù)關(guān)系假設(shè)上的回歸容易造成較大的誤差。在房地產(chǎn)評(píng)估行業(yè)中,不會(huì)存在某種具體而又通用的函數(shù)形式來(lái)表達(dá)特征與市場(chǎng)價(jià)格之間的數(shù)值規(guī)律,這使得現(xiàn)有基于特征價(jià)格理論的估值方法和系統(tǒng)都很難獲得準(zhǔn)確的估價(jià)。
使用傳統(tǒng)的多元線性回歸方法或其他的參數(shù)回歸方法時(shí),需要預(yù)先設(shè)定函數(shù)形式,且難以精確擬合復(fù)雜的非線性關(guān)系的樣本。
技術(shù)實(shí)現(xiàn)要素:
為了解決上述問(wèn)題,本發(fā)明提出一種基于隨機(jī)森林的房地產(chǎn)估價(jià)方法,包括,
步驟1:建立基礎(chǔ)數(shù)據(jù)庫(kù)步驟:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行特征變量量化處理;
步驟2:建立隨機(jī)森林模型的步驟:包括,
步驟21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%的案列作為訓(xùn)練集,25%的案列作為測(cè)試集;
步驟22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
步驟23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
步驟24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
步驟3:對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)的步驟:包括,
步驟31:總體回歸效果平均平方根誤檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟32:總體回歸效果平均相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟33:?jiǎn)蝹€(gè)樣本偏差匹配度檢驗(yàn)的步驟,計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì).;若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn);
步驟34:?jiǎn)蝹€(gè)樣本偏差相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
步驟4:房地產(chǎn)估價(jià)步驟:包括,
步驟41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;
步驟42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
步驟43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;若未超過(guò),則按步驟41繼續(xù)尋找相似樓盤(pán);
步驟44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中按照步驟2尋找相似樓盤(pán),得到相似樓盤(pán)b;
步驟45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則轉(zhuǎn)步驟44。
進(jìn)一步的,所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)量化處理。
進(jìn)一步的,還包括特征變量重要性評(píng)價(jià)步驟,
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值;
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值。
進(jìn)一步的,在步驟2中依據(jù)特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
本發(fā)明還提供一種基于隨機(jī)森林的房地產(chǎn)估價(jià)系統(tǒng),包括:
建立基礎(chǔ)數(shù)據(jù)庫(kù)模塊:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行特征變量量化處理;
建立隨機(jī)森林模型模塊:包括
子模塊21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%案列作為訓(xùn)練集,25%數(shù)據(jù)作為測(cè)試集;
子模塊22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
子模塊23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
子模塊24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)?zāi)K:包括
子模塊31:總體回歸效果平均平方根誤檢驗(yàn),計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
子模塊32:總體回歸效果平均相對(duì)誤差檢驗(yàn),計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
子模塊33:?jiǎn)蝹€(gè)樣本偏差匹配度檢驗(yàn),計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì).;若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn);
子模塊34:?jiǎn)蝹€(gè)樣本偏差相對(duì)誤差檢驗(yàn),計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
房地產(chǎn)估價(jià)模塊:包括
子模塊41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)模塊;
子模塊42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
子模塊43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)模塊;若未超過(guò),則按子模塊41繼續(xù)尋找相似樓盤(pán);
子模塊44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中調(diào)用子模塊42尋找相似樓盤(pán),得到相似樓盤(pán)b;
子模塊45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則調(diào)用子模塊44;
進(jìn)一步的,所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)的量化處理。
進(jìn)一步的,還包括特征變量重要性評(píng)價(jià)模塊:
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值;
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值。
進(jìn)一步的,在建立隨機(jī)森林模型模塊中依據(jù)所述特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
本發(fā)明還提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如下操作:
步驟1:建立基礎(chǔ)數(shù)據(jù)庫(kù)步驟:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行特征變量量化處理;
步驟2:建立隨機(jī)森林模型的步驟:包括:
步驟21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%的案列作為訓(xùn)練集,25%的案列作為測(cè)試集;
步驟22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
步驟23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
步驟24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
步驟3:對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)的步驟:包括:
步驟31:總體回歸效果平均平方根誤檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟32:總體回歸效果平均相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟33:?jiǎn)蝹€(gè)樣本偏差匹配度檢驗(yàn)的步驟,計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì).;若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn);
步驟34:?jiǎn)蝹€(gè)樣本偏差相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
步驟4:房地產(chǎn)估價(jià)步驟:包括:
步驟41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;
步驟42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
步驟43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;若未超過(guò),則按步驟41繼續(xù)尋找相似樓盤(pán);
步驟44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中按照步驟2尋找相似樓盤(pán),得到相似樓盤(pán)b;
步驟45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則轉(zhuǎn)步驟44;
進(jìn)一步的,所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)量化處理;
所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行特征變量重要性評(píng)價(jià)步驟:
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值,
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值;
依據(jù)特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
本發(fā)明的有益效果是:
1、本發(fā)明隨機(jī)森林算法是市場(chǎng)比較法的延伸,它將市場(chǎng)中的案例進(jìn)行充分學(xué)習(xí),能夠發(fā)現(xiàn)隱藏在房地產(chǎn)價(jià)格與各特征因素間的復(fù)雜關(guān)系,實(shí)際上是基于其樣本內(nèi)高精度擬合學(xué)習(xí)規(guī)律,樣本外高置信度水平下推廣知識(shí)的能力。使用隨機(jī)森林進(jìn)行估價(jià)能夠充分體現(xiàn)其數(shù)據(jù)挖掘的優(yōu)勢(shì),即不用對(duì)函數(shù)形式預(yù)先進(jìn)行假定,避免了傳統(tǒng)評(píng)估方法中人為設(shè)定權(quán)重時(shí)產(chǎn)生的偏差,這大大改善了傳統(tǒng)評(píng)估中的主觀性和隨意性。隨機(jī)森林模型可以快速處理大量的數(shù)據(jù),提高了信息獲取的時(shí)間和質(zhì)量。在評(píng)估普通住宅房地產(chǎn)價(jià)值時(shí),單筆評(píng)估平均耗時(shí)小于2秒,提高了房地產(chǎn)評(píng)估的效率。
2、本發(fā)明隨機(jī)森林算法不需要預(yù)先設(shè)定函數(shù)形式,可以精確擬合復(fù)雜的非線性關(guān)系的樣本。
3、本發(fā)明隨機(jī)森林算法相比眾多的機(jī)器學(xué)習(xí)方法,在同支持向量機(jī),和神經(jīng)網(wǎng)絡(luò)的對(duì)比研究中,隨機(jī)森林得出的結(jié)果通常比較好。能夠成功地處理具有多個(gè)種類(lèi)的分類(lèi)變量。例如,在參數(shù)回歸或是神經(jīng)網(wǎng)絡(luò)中,許多定性變量會(huì)導(dǎo)致估計(jì)參數(shù)的數(shù)量大量增加,這通常會(huì)導(dǎo)致回歸結(jié)果的過(guò)度擬合。在隨機(jī)森林中,一個(gè)類(lèi)的名義變量可以用一個(gè)叉樹(shù)來(lái)記錄,并且只用其中的一部分來(lái)建樹(shù)。這能避免由大量分類(lèi)變量造成的問(wèn)題,因此,在處理具有大量分類(lèi)變量的問(wèn)題時(shí),隨機(jī)森林有較大優(yōu)勢(shì)。由于隨機(jī)森林采用方法建樹(shù),因此異常值對(duì)結(jié)果的影響將會(huì)減弱。這種方法通過(guò)比較每個(gè)解釋變量的殘差平方和的平均邊際減少,可以衡量每個(gè)變量的重要性。
4、本發(fā)明隨機(jī)森林算法在數(shù)據(jù)集上表現(xiàn)較好,并且在訓(xùn)練完后,它能夠給出哪些特征比較重要,訓(xùn)練速度快,在訓(xùn)練過(guò)程中,能夠檢測(cè)到特征間的互相影響,容易做成并行化方法,實(shí)現(xiàn)比較簡(jiǎn)單等優(yōu)點(diǎn)。能處理海量數(shù)據(jù),對(duì)高維數(shù)據(jù)無(wú)需進(jìn)行變量刪減或篩選。
附圖說(shuō)明
圖1為本發(fā)明基于隨機(jī)森林的房地產(chǎn)估價(jià)方法流程圖。
圖2為本發(fā)明隨即森林模型決策樹(shù)形成流程圖。
圖3為本發(fā)明房地產(chǎn)估值過(guò)程流程圖。
具體實(shí)施方式
本發(fā)明提出一種基于隨機(jī)森林的房地產(chǎn)估價(jià)方法,包括,
步驟1:建立基礎(chǔ)數(shù)據(jù)庫(kù)步驟:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行特征變量量化處理;
特征變量為:商業(yè)中心距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修等13個(gè)。
具體的量化標(biāo)準(zhǔn)如下表所示:
步驟2:建立隨機(jī)森林模型的步驟:包括,
步驟21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%案列作為訓(xùn)練集,25%數(shù)據(jù)作為測(cè)試集;
步驟22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
采用自助法(boot-strap)抽樣,從原始訓(xùn)練樣本集s抽取k個(gè)訓(xùn)練樣本集,且每個(gè)訓(xùn)練樣本的樣本容量都與原始數(shù)據(jù)集s相同;
步驟23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
步驟24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
步驟3:對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)的步驟:包括,
步驟31:總體回歸效果平均平方根誤檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟32:總體回歸效果平均相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟33單個(gè)樣本偏差匹配度檢驗(yàn)的步驟,計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì).;若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn);
步驟34單個(gè)樣本偏差相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
通過(guò)對(duì)隨即森林模型進(jìn)行驗(yàn)證,并使用驗(yàn)證通過(guò)的隨即森林模型進(jìn)行估價(jià),確保了估價(jià)結(jié)果的準(zhǔn)確度。
步驟4:房地產(chǎn)估價(jià)步驟:包括,
步驟41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;
步驟42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
步驟43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟。若否則按步驟4繼續(xù)尋找相似樓盤(pán);
步驟44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中按照步驟2尋找相似樓盤(pán),得到相似樓盤(pán)b;
步驟45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則轉(zhuǎn)步驟44。
相似樓盤(pán)之間價(jià)格與特征的關(guān)聯(lián)度很大,通過(guò)尋找相似樓盤(pán),并依據(jù)相似樓盤(pán)進(jìn)行估價(jià),可以提高估價(jià)的準(zhǔn)確度。
所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)量化處理。
還包括特征變量重要性評(píng)價(jià)步驟,
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值;
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值。
在步驟2中依據(jù)特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
通過(guò)找出變量特征的重要性程度值,并依據(jù)所述重要性程度值來(lái)對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化,提高了隨即森林模型的估值準(zhǔn)確性。
本發(fā)明還提供一種基于隨機(jī)森林的房地產(chǎn)估價(jià)系統(tǒng),包括:
建立基礎(chǔ)數(shù)據(jù)庫(kù)模塊:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行特征變量量化處理;
特征變量為:商業(yè)中心距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修等13個(gè)。
具體的量化標(biāo)準(zhǔn)如下表所示:
建立隨機(jī)森林模型模塊:包括:
子模塊21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%案列作為訓(xùn)練集,25%數(shù)據(jù)作為測(cè)試集;
子模塊22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
采用自助法(boot-strap)抽樣,從原始訓(xùn)練樣本集s抽取k個(gè)訓(xùn)練樣本集,且每個(gè)訓(xùn)練樣本的樣本容量都與原始數(shù)據(jù)集s相同;
子模塊23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
子模塊24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)?zāi)K:包括:
子模塊31:總體回歸效果平均平方根誤檢驗(yàn),計(jì)算下式;
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
子模塊32:總體回歸效果平均相對(duì)誤差檢驗(yàn),計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
子模塊33:?jiǎn)蝹€(gè)樣本偏差匹配度檢驗(yàn),計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì).;若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn);
子模塊34:?jiǎn)蝹€(gè)樣本偏差相對(duì)誤差檢驗(yàn),計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
通過(guò)對(duì)隨即森林模型進(jìn)行驗(yàn)證,并使用驗(yàn)證通過(guò)的隨即森林模型進(jìn)行估價(jià),確保了估價(jià)結(jié)果的準(zhǔn)確度。
房地產(chǎn)估價(jià)模塊:包括
子模塊41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)模塊;
子模塊42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
子模塊43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)模塊。若否則按子模塊4繼續(xù)尋找相似樓盤(pán);
子模塊44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中調(diào)用子模塊42尋找相似樓盤(pán),得到相似樓盤(pán)b;
子模塊45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則調(diào)用子模塊44;
相似樓盤(pán)之間價(jià)格與特征的關(guān)聯(lián)度很大,通過(guò)尋找相似樓盤(pán),并依據(jù)相似樓盤(pán)進(jìn)行估價(jià),可以提高估價(jià)的準(zhǔn)確度。
所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)量化處理。
還包括特征變量重要性評(píng)價(jià)模塊:
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值;
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值。
在建立隨機(jī)森林模型模塊中依據(jù)所述特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
通過(guò)找出變量特征的重要性程度值,并依據(jù)所述重要性程度值來(lái)對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化,提高了隨即森林模型的估值準(zhǔn)確性。
本發(fā)明還提供一種存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行如下操作:
步驟1建立基礎(chǔ)數(shù)據(jù)庫(kù)步驟:采集房地產(chǎn)數(shù)據(jù)組成基礎(chǔ)數(shù)據(jù)庫(kù),采用聚類(lèi)算法或/和去重算法或/和篩選算法對(duì)基礎(chǔ)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)處理,對(duì)房地產(chǎn)數(shù)據(jù)進(jìn)行
特征變量量化處理;
具體的量化標(biāo)準(zhǔn)如下表所示:
步驟2:建立隨機(jī)森林模型的步驟:包括:
步驟21:在基礎(chǔ)數(shù)據(jù)庫(kù)中取75%案列作為訓(xùn)練集,25%數(shù)據(jù)作為測(cè)試集;
步驟22:采用自助法進(jìn)行抽樣,從測(cè)試集抽取k個(gè)訓(xùn)練樣本集;
采用自助法(boot-strap)抽樣,從原始訓(xùn)練樣本集s抽取k個(gè)訓(xùn)練樣本集,且每個(gè)訓(xùn)練樣本的樣本容量都與原始數(shù)據(jù)集s相同;
步驟23:對(duì)k個(gè)訓(xùn)練集進(jìn)行學(xué)習(xí),以此生成k個(gè)決策樹(shù)模型,在決策樹(shù)生成過(guò)程中,從變量中隨機(jī)抽取f個(gè)變量,各個(gè)內(nèi)部節(jié)點(diǎn)利用所述f個(gè)特征變量上最優(yōu)的分裂方式來(lái)分裂,且f值在隨機(jī)森林模型的形成過(guò)程中為恒定常數(shù);
步驟24:對(duì)這k個(gè)決策樹(shù)的結(jié)果取簡(jiǎn)單平均值來(lái)得到最終的預(yù)測(cè)結(jié)果;
步驟3:對(duì)隨機(jī)森林模型進(jìn)行檢驗(yàn)的步驟:包括,
步驟31:總體回歸效果平均平方根誤檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若平方根小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟32:總體回歸效果平均相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
其中:xi預(yù)測(cè)值,yi掛牌價(jià),n為測(cè)試樣本數(shù)目;若相對(duì)誤差小于預(yù)設(shè)值則隨即森林模型通過(guò)檢驗(yàn);
步驟33單個(gè)樣本偏差匹配度檢驗(yàn)的步驟,計(jì)算下式:
p=xi/yi
其中:xi預(yù)測(cè)值,yi掛牌價(jià),p為偏差匹配對(duì);若偏差匹配度與1的絕對(duì)差小于預(yù)設(shè)值,則隨即森林模型通過(guò)檢驗(yàn)。
步驟34單個(gè)樣本偏差相對(duì)誤差檢驗(yàn)的步驟,計(jì)算下式:
δi=δi/yi
其中:δi實(shí)際相對(duì)誤差,δi絕對(duì)誤差,yi掛牌價(jià);若同一樓盤(pán)90%的數(shù)據(jù)其相對(duì)偏差在5%以?xún)?nèi),則隨即森林模型通過(guò)檢驗(yàn);
通過(guò)對(duì)隨即森林模型進(jìn)行驗(yàn)證,并使用驗(yàn)證通過(guò)的隨即森林模型進(jìn)行估價(jià),確保了估價(jià)結(jié)果的準(zhǔn)確度。
步驟4:房地產(chǎn)估價(jià)步驟:包括
步驟41:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),采用待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟;
步驟42:在基礎(chǔ)數(shù)據(jù)庫(kù)中,查找待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù),若案例數(shù)量大于或等于3個(gè),尋找周邊相似樓盤(pán)a;
步驟43:將待估樓盤(pán)與相似樓盤(pán)a混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán),案例數(shù)量是否超過(guò)3個(gè),若超過(guò),采用待估樓盤(pán)與相似樓盤(pán)a為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案列數(shù)據(jù)對(duì)待估樓進(jìn)行隨機(jī)森林預(yù)測(cè)并結(jié)束房地產(chǎn)估價(jià)步驟。若否則按步驟4繼續(xù)尋找相似樓盤(pán);
步驟44:在不含相似樓盤(pán)a的基礎(chǔ)數(shù)據(jù)庫(kù)中按照步驟2尋找相似樓盤(pán),得到相似樓盤(pán)b;
步驟45:將帶估樓盤(pán)與相似樓盤(pán)a和相似樓盤(pán)b混合,判斷以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)案例數(shù)量是否超過(guò)3個(gè),若超過(guò),以待估樓盤(pán)為中心1公里范圍內(nèi)同一行政區(qū)的樓盤(pán)對(duì)待估房地產(chǎn)進(jìn)行隨機(jī)森林預(yù)測(cè),否則轉(zhuǎn)步驟44;
相似樓盤(pán)之間價(jià)格與特征的關(guān)聯(lián)度很大,通過(guò)尋找相似樓盤(pán),并依據(jù)相似樓盤(pán)進(jìn)行估價(jià),可以提高估價(jià)的準(zhǔn)確度。
所述對(duì)房地產(chǎn)案列進(jìn)行特征變量量化處理具體為:對(duì)房地產(chǎn)商業(yè)中心按距離、交通、物管費(fèi)、容積率、綠化率、建成年代、行政區(qū)、樓盤(pán)品牌、建筑面積、樓層、朝向、景觀、裝飾裝修進(jìn)行5個(gè)等級(jí)量化處理;
所述存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行特征變量重要性評(píng)價(jià)步驟:
隨機(jī)地給各特征變量加入噪聲干擾,依據(jù)準(zhǔn)確率降低的程度來(lái)確定特征變量的重要性程度值,
在變量處加入噪聲干擾,依據(jù)模型準(zhǔn)確率所增加的均方差數(shù)值確定特征變量重要性程度值;
依據(jù)特征變量重要性程度值對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化。
通過(guò)找出變量特征的重要性程度值,并依據(jù)所述重要性程度值來(lái)對(duì)決策樹(shù)生成過(guò)程進(jìn)行優(yōu)化,提高了隨即森林模型的估值準(zhǔn)確性。
本發(fā)明的有益效果是:
1、本發(fā)明隨機(jī)森林算法是市場(chǎng)比較法的延伸,它將市場(chǎng)中的案例進(jìn)行充分學(xué)習(xí),能夠發(fā)現(xiàn)隱藏在房地產(chǎn)價(jià)格與各特征因素間的復(fù)雜關(guān)系,實(shí)際上是基于其樣本內(nèi)高精度擬合學(xué)習(xí)規(guī)律,樣本外高置信度水平下推廣知識(shí)的能力。使用隨機(jī)森林進(jìn)行估價(jià)能夠充分體現(xiàn)其數(shù)據(jù)挖掘的優(yōu)勢(shì),即不用對(duì)函數(shù)形式預(yù)先進(jìn)行假定,避免了傳統(tǒng)評(píng)估方法中人為設(shè)定權(quán)重時(shí)產(chǎn)生的偏差,這大大改善了傳統(tǒng)評(píng)估中的主觀性和隨意性。隨機(jī)森林模型可以快速處理大量的數(shù)據(jù),提高了信息獲取的時(shí)間和質(zhì)量。在評(píng)估普通住宅房地產(chǎn)價(jià)值時(shí),單筆評(píng)估平均耗時(shí)小于2秒,提高了房地產(chǎn)評(píng)估的效率。
2、本發(fā)明隨機(jī)森林算法不需要預(yù)先設(shè)定函數(shù)形式,可以精確擬合復(fù)雜的非線性關(guān)系的樣本。
3、本發(fā)明隨機(jī)森林算法相比眾多的機(jī)器學(xué)習(xí)方法,在同支持向量機(jī),和神經(jīng)網(wǎng)絡(luò)的對(duì)比研究中,隨機(jī)森林得出的結(jié)果通常比較好。能夠成功地處理具有多個(gè)種類(lèi)的分類(lèi)變量。例如,在參數(shù)回歸或是神經(jīng)網(wǎng)絡(luò)中,許多定性變量會(huì)導(dǎo)致估計(jì)參數(shù)的數(shù)量大量增加,這通常會(huì)導(dǎo)致回歸結(jié)果的過(guò)度擬合。在隨機(jī)森林中,一個(gè)類(lèi)的名義變量可以用一個(gè)叉樹(shù)來(lái)記錄,并且只用其中的一部分來(lái)建樹(shù)。這能避免由大量分類(lèi)變量造成的問(wèn)題,因此,在處理具有大量分類(lèi)變量的問(wèn)題時(shí),隨機(jī)森林有較大優(yōu)勢(shì)。由于隨機(jī)森林采用方法建樹(shù),因此異常值對(duì)結(jié)果的影響將會(huì)減弱。這種方法通過(guò)比較每個(gè)解釋變量的殘差平方和的平均邊際減少,可以衡量每個(gè)變量的重要性。
4、本發(fā)明隨機(jī)森林算法在數(shù)據(jù)集上表現(xiàn)較好,并且在訓(xùn)練完后,它能夠給出哪些特征比較重要,訓(xùn)練速度快,在訓(xùn)練過(guò)程中,能夠檢測(cè)到特征間的互相影響,容易做成并行化方法,實(shí)現(xiàn)比較簡(jiǎn)單等優(yōu)點(diǎn)。能處理海量數(shù)據(jù),對(duì)高維數(shù)據(jù)無(wú)需進(jìn)行變量刪減或篩選。