本發(fā)明實施例涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及一種影院票房預(yù)測方法及裝置。
背景技術(shù):
隨著近幾年電影行業(yè)的蓬勃發(fā)展,通過數(shù)據(jù)看電影行業(yè)是很多從業(yè)人員每日工作的基本內(nèi)容。隨著用戶需求日益增加和數(shù)據(jù)的收集方式也更加多樣化和全面化等原因,導(dǎo)致市場競爭越發(fā)激烈,票房預(yù)測方法的優(yōu)劣直接影響影片的放映場次、放映數(shù)量等。
現(xiàn)有的票房預(yù)測方法主要通過收集每個影院每場次的影片票房、觀影人次,統(tǒng)計影片放映場次,觀影人次等數(shù)據(jù),通過固有模型進行計算并預(yù)測;或者通過電影制作和發(fā)行階段與當(dāng)前電影相關(guān)的票房影響因素數(shù)據(jù)進行建模,對票房進行預(yù)測;或者通過將影片創(chuàng)作影響因子量化、及影片類型影響因子量化,對電影進行投資風(fēng)險評估,并計算出沒有歷史作品的子創(chuàng)作影響因子的票房影響指數(shù)。
在實現(xiàn)本發(fā)明實施例的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有的方法單從影片相關(guān)信息進行預(yù)測,預(yù)測結(jié)果不夠準(zhǔn)確。
技術(shù)實現(xiàn)要素:
由于現(xiàn)有的方法單從影片相關(guān)信息進行預(yù)測,預(yù)測結(jié)果不夠準(zhǔn)確的問題,本發(fā)明實施例提出一種影院票房預(yù)測方法及裝置。
第一方面,本發(fā)明實施例提出一種影院票房預(yù)測方法,包括:
根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù);
根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
根據(jù)待預(yù)測影院所在城市的類型和所述票房預(yù)測模型,確定所述待預(yù)測影院對應(yīng)的目標(biāo)票房預(yù)測模型;
獲取待預(yù)測周邊環(huán)境數(shù)據(jù),并根據(jù)所述待預(yù)測周邊環(huán)境數(shù)據(jù)和所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
可選地,所述根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù),具體包括:
根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,得到各類城市的標(biāo)準(zhǔn)化數(shù)據(jù);
對所述標(biāo)準(zhǔn)化數(shù)據(jù)進行降維處理,得到處理后數(shù)據(jù)。
可選地,所述對所述標(biāo)準(zhǔn)化數(shù)據(jù)進行降維處理,得到處理后數(shù)據(jù),具體包括:
將所述標(biāo)準(zhǔn)化數(shù)據(jù)輸入若干個降維函數(shù),得到若干個處理后數(shù)據(jù);
相應(yīng)地,所述根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型,具體包括:
將m個處理后數(shù)據(jù)分別輸入n個預(yù)設(shè)模型,得到m×n個評測指標(biāo);
選擇最大的評測指標(biāo)對應(yīng)的目標(biāo)處理后數(shù)據(jù)和目標(biāo)預(yù)設(shè)模型,根據(jù)所述目標(biāo)處理后數(shù)據(jù)和所述目標(biāo)預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
其中,m和n均為正整數(shù)。
可選地,對各類城市的影院歷史票房數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,具體包括:
根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,并獲取所述影片版本放映首周觀影人數(shù)大于10人的場次以及所述場次播放影廳的總座位數(shù);
根據(jù)所述場次、所述總座位數(shù)和所述影院歷史票房數(shù)據(jù),計算得到各影院平均單座票房。
可選地,對各類城市的影院歷史票房數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,具體包括:
根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,獲取所述影片版本放映首周觀影人數(shù)大于10人的場次,并根據(jù)所述場次計算各影院平均單場票房。
可選地,所述評測指標(biāo)根據(jù)預(yù)設(shè)模型的預(yù)測值和真實值確定。
可選地,所述根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型,具體包括:
根據(jù)預(yù)設(shè)比例,將所述處理后數(shù)據(jù)劃分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù);
根據(jù)所述訓(xùn)練集數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
可選地,所述方法還包括:
選擇所述目標(biāo)票房預(yù)測模型中系數(shù)最大的第一自變量,選擇所述第一自變量對應(yīng)的目標(biāo)降維函數(shù)中系數(shù)最大的第二自變量,并根據(jù)所述第二自變量對應(yīng)的目標(biāo)周邊環(huán)境數(shù)據(jù),確定新影院的地址。
可選地,所述影院周邊環(huán)境數(shù)據(jù)包括ktv數(shù)據(jù)、網(wǎng)吧數(shù)據(jù)、餐館數(shù)據(jù)、美容美發(fā)店數(shù)據(jù)、酒店數(shù)據(jù)、購物中心數(shù)據(jù)和健身場館數(shù)據(jù)。
第二方面,本發(fā)明實施例還提出一種影院票房預(yù)測裝置,包括:
數(shù)據(jù)處理模塊,用于根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù);
預(yù)測模型計算模塊,用于根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
預(yù)測模型確定模塊,用于根據(jù)待預(yù)測影院所在城市的類型和所述票房預(yù)測模型,確定所述待預(yù)測影院對應(yīng)的目標(biāo)票房預(yù)測模型;
票房預(yù)測模型,用于獲取待預(yù)測周邊環(huán)境數(shù)據(jù),并根據(jù)所述待預(yù)測周邊環(huán)境數(shù)據(jù)和所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
可選地,所述數(shù)據(jù)處理模塊具體包括:
標(biāo)準(zhǔn)化處理單元,用于根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,得到各類城市的標(biāo)準(zhǔn)化數(shù)據(jù);
降維處理單元,用于對所述標(biāo)準(zhǔn)化數(shù)據(jù)進行降維處理,得到處理后數(shù)據(jù)。
可選地,所述降維處理單元具體用于將所述標(biāo)準(zhǔn)化數(shù)據(jù)輸入若干個降維函數(shù),得到若干個處理后數(shù)據(jù);
相應(yīng)地,所述預(yù)測模型計算模塊具體用于將m個處理后數(shù)據(jù)分別輸入n個預(yù)設(shè)模型,得到m×n個評測指標(biāo);并選擇最大的評測指標(biāo)對應(yīng)的目標(biāo)處理后數(shù)據(jù)和目標(biāo)預(yù)設(shè)模型,根據(jù)所述目標(biāo)處理后數(shù)據(jù)和所述目標(biāo)預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
其中,m和n均為正整數(shù)。
可選地,所述數(shù)據(jù)處理模塊具體用于根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,并獲取所述影片版本放映首周觀影人數(shù)大于10人的場次以及所述場次播放影廳的總座位數(shù);根據(jù)所述場次、所述總座位數(shù)和所述影院歷史票房數(shù)據(jù),計算得到各影院平均單座票房。
可選地,所述數(shù)據(jù)處理模塊具體用于根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,獲取所述影片版本放映首周觀影人數(shù)大于10人的場次,并根據(jù)所述場次計算各影院平均單場票房。
可選地,所述預(yù)測模型計算模塊中所述評測指標(biāo)根據(jù)預(yù)設(shè)模型的預(yù)測值和真實值確定。
可選地,所述預(yù)測模型計算模塊具體包括:
數(shù)據(jù)劃分單元,用于根據(jù)預(yù)設(shè)比例,將所述處理后數(shù)據(jù)劃分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù);
模型計算單元,用于根據(jù)所述訓(xùn)練集數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
可選地,所述裝置還包括:
影院地址確定模塊,用于選擇所述目標(biāo)票房預(yù)測模型中系數(shù)最大的第一自變量,選擇所述第一自變量對應(yīng)的目標(biāo)降維函數(shù)中系數(shù)最大的第二自變量,并根據(jù)所述第二自變量對應(yīng)的目標(biāo)周邊環(huán)境數(shù)據(jù),確定新影院的地址。
可選地,所述數(shù)據(jù)處理模塊中所述影院周邊環(huán)境數(shù)據(jù)包括ktv數(shù)據(jù)、網(wǎng)吧數(shù)據(jù)、餐館數(shù)據(jù)、美容美發(fā)店數(shù)據(jù)、酒店數(shù)據(jù)、購物中心數(shù)據(jù)和健身場館數(shù)據(jù)。
由上述技術(shù)方案可知,本發(fā)明實施例通過對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,建立各類城市的票房預(yù)測模型,使得票房預(yù)測模型能夠結(jié)合不同類型的城市特征以及影院周邊環(huán)境數(shù)據(jù),模型更有針對性,預(yù)測結(jié)果能夠準(zhǔn)確。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些圖獲得其他的附圖。
圖1為本發(fā)明一實施例提供的一種影院票房預(yù)測方法的流程示意圖;
圖2為本發(fā)明一實施例提供的一種影院票房預(yù)測裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖,對本發(fā)明的具體實施方式作進一步描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保護范圍。
圖1示出了本實施例提供的一種影院票房預(yù)測方法的流程示意圖,包括:
s101、根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù)。
其中,所述預(yù)設(shè)規(guī)則為數(shù)據(jù)處理規(guī)則,例如降維處理,歸一化處理。
城市分類按照最新城市分級,將影院所在的城市劃分為一線、新一線、二線、三線、四線、五線、六線。由于五、六線城市多為經(jīng)濟欠發(fā)達地區(qū),影院數(shù)量與影院周邊環(huán)境數(shù)據(jù)都較少,因此將五、六線城市合并分析。
所述影院周邊環(huán)境數(shù)據(jù)包括ktv數(shù)據(jù)、網(wǎng)吧數(shù)據(jù)、餐館數(shù)據(jù)、美容美發(fā)店數(shù)據(jù)、酒店數(shù)據(jù)、購物中心數(shù)據(jù)和健身場館數(shù)據(jù)等。
所述影院歷史票房數(shù)據(jù)為影院過去放映的影片的票房數(shù)據(jù)。
所述影院內(nèi)部設(shè)施數(shù)據(jù)如:放映設(shè)備、影廳數(shù)量、各廳座位數(shù)、3d影廳數(shù)量、音頻類型等。
具體地,所述影院周邊環(huán)境數(shù)據(jù)為影院周邊半徑3千米范圍內(nèi)的各類數(shù)據(jù),數(shù)據(jù)類別包括中餐館、小吃快餐店、酒吧、星級酒店、購物中心、超市、商圈、美容、美發(fā)、住宅區(qū)、ktv、公交站、地鐵站、停車場、寫字樓、高等院校、健身中心等,共90類。各類別數(shù)據(jù)特征包括:名稱、地址、與影院距離、人均價格、總體評分、評論得分等。
所述影院歷史票房數(shù)據(jù)包括:放映影片編碼、影片名稱、影片版本、放映影廳、放映日期、放映時間、單場觀影人次、單場票房。時間跨度應(yīng)大于等于1年。
目前對全國影院來說,經(jīng)過近幾年的快速發(fā)展,影院全面實現(xiàn)了數(shù)字設(shè)備的安裝,且絕大部分影院已配備3d設(shè)備,支持播放立體電影,總的來說,影院內(nèi)部設(shè)施差距相對較小。而影院周邊環(huán)境數(shù)據(jù)由于涉及范圍較廣,且與城市發(fā)展相關(guān),差距較大。因此,本實施例作了兩次不同的數(shù)據(jù)分析:單獨分析影院周邊數(shù)據(jù)對票房的影響和影院內(nèi)外部情況結(jié)合分析對票房的影響。
進一步地,s101中對各類城市的影院歷史票房數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,具體包括:
根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,并獲取所述影片版本放映首周觀影人數(shù)大于10人的場次以及所述場次播放影廳的總座位數(shù);
根據(jù)所述場次、所述總座位數(shù)和所述影院歷史票房數(shù)據(jù),計算得到各影院平均單座票房。
進一步地,s101中對各類城市的影院歷史票房數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,具體包括:
根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,獲取所述影片版本放映首周觀影人數(shù)大于10人的場次,并根據(jù)所述場次計算各影院平均單場票房。
這兩類分析僅在票房數(shù)據(jù)的處理上略有不同,下面詳細說明。
一、單獨分析影院周邊環(huán)境對票房影響
按影片放映版本(即:2d、3d、中國巨幕、imax或imax立體)篩選出80%影院播放的影片與對應(yīng)版本,獲取各影院播放篩選影片對應(yīng)版本的放映首周且觀影人數(shù)大于10人的場次以及該場次播放影廳的總座位數(shù),統(tǒng)計各場平均每個座位的票房,即單座票房,最后計算平均各影院平均單座票房作為該影院的票房得分。
二、影院內(nèi)外部情況結(jié)合分析對票房的影響
首先篩選出80%影院播放的影片,獲取各影院播放篩選影片所有版本(如2d、3d、中國巨幕、imax或imax立體)的放映首周且觀影人數(shù)大于10人的場次。計算每家影院上述場次中平均每場的票房作為該影院的票房得分。
在上述處理后,去除各線城市中票房得分后5%的影院,并將票房得分位于前5%的影院票房得分統(tǒng)一設(shè)置為一個最高分,即票房得分位于第5%那家影院的票房得分。
s102、根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
其中,所述預(yù)設(shè)模型為現(xiàn)有的數(shù)學(xué)模型,包括指數(shù)、對數(shù)、線性等基本模型的結(jié)合。
具體地,將所述處理后數(shù)據(jù)輸入各預(yù)測模型,根據(jù)計算結(jié)果確定各類城市的票房預(yù)測模型。
s103、根據(jù)待預(yù)測影院所在城市的類型和所述票房預(yù)測模型,確定所述待預(yù)測影院對應(yīng)的目標(biāo)票房預(yù)測模型。
其中,所述待預(yù)測影院為將進行票房預(yù)測的影院。
所述目標(biāo)票房預(yù)測模型為待預(yù)測影院進行票房預(yù)測所采用的票房預(yù)測模型。
具體地,根據(jù)s102中得到的各類城市不同的票房預(yù)測模型,獲取待預(yù)測影院所在城市對應(yīng)類型的目標(biāo)票房預(yù)測模型。
s104、獲取待預(yù)測周邊環(huán)境數(shù)據(jù),并根據(jù)所述待預(yù)測周邊環(huán)境數(shù)據(jù)和所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
其中,所述待預(yù)測周邊環(huán)境數(shù)據(jù)為待預(yù)測影院周邊的環(huán)境數(shù)據(jù)。
具體地,對待預(yù)測周邊環(huán)境數(shù)據(jù)進行處理后,輸入所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
本實施例通過對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,建立各類城市的票房預(yù)測模型,使得票房預(yù)測模型能夠結(jié)合不同類型的城市特征以及影院周邊環(huán)境數(shù)據(jù),模型更有針對性,預(yù)測結(jié)果能夠準(zhǔn)確。
進一步地,在上述方法實施例的基礎(chǔ)上,s101具體包括:
s1011、根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,得到各類城市的標(biāo)準(zhǔn)化數(shù)據(jù)。
具體地,由于數(shù)據(jù)類別較多,可對部分相關(guān)類別進行合并。如:將歌舞廳、游戲場所、洗浴按摩、休閑廣場等合并為休閑娛樂場所;將星級酒店、快捷酒店、公寓式酒店合并為酒店等,原90類數(shù)據(jù)類別合并為30類數(shù)據(jù)類別,包括中餐館、小吃快餐店、酒吧、ktv、休閑娛樂場所、酒店、培訓(xùn)教育、小型生活服務(wù)場所、大型生活服務(wù)場所、麗人機構(gòu)、小區(qū)、公司、政府機構(gòu)等。為了評判影院周邊各類實體對影院票房影響和與影院距離的關(guān)系,計算所有周邊數(shù)據(jù)的密度分布。對于在每一家影院周邊類別,分別計算影院周邊200米、500米、1千米、2千米、3千米的密度分布。此外,考慮到公交站、地鐵站對影院的實際影響,僅計算其在影院周邊200米、500米、1千米的密度分布。其中,公交站、地鐵站和停車場增加最近公交站/地鐵站/停車場到影院距離變量,由于到影院距離對于票房來說是一個負相關(guān)的變量,即:到影院距離越小對票房影響越大,而其它變量均為正相關(guān)變量,因此采用所有數(shù)據(jù)里到影院的最大距離即5公里減去“到影院距離”得到一個與票房正相關(guān)的變量。經(jīng)過以上處理后,所有的特征變量共212維。
影院內(nèi)部設(shè)施數(shù)據(jù)共包含五個維度:影廳數(shù)、各影廳座位數(shù)、放映設(shè)備類型、音頻設(shè)備類型與3d影廳占比。其中影廳數(shù)、各影廳座位數(shù)與3d影廳占比為數(shù)值數(shù)據(jù),無需處理。而放映設(shè)備類型則包括2k、4k、imax、巨幕四種類型,音頻設(shè)備類型包括5.1聲道、13.1聲道、dts和atmos四種類型,這兩個變量需要進行量化。根據(jù)經(jīng)驗設(shè)置各類型的評分,如表1所示。
表1放映設(shè)備與音頻設(shè)備類型評分
為實現(xiàn)數(shù)據(jù)之間的可比性和數(shù)據(jù)的可解釋性,首先對數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,之后再運用最值標(biāo)準(zhǔn)化方法minmaxscaler,通過各個變量類別數(shù)據(jù)的最大值和最小值對數(shù)據(jù)進行區(qū)間縮放,將數(shù)據(jù)縮放至0-1區(qū)間,即:
而標(biāo)準(zhǔn)化處理一般有兩種方法:
標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化standardscaler,通過數(shù)據(jù)的平均值和標(biāo)準(zhǔn)差對數(shù)據(jù)進行處理讓數(shù)據(jù)標(biāo)準(zhǔn)化,即:
綜合標(biāo)準(zhǔn)化normalizer,分別求出各個變量類別所對應(yīng)數(shù)據(jù)的總和,之后以各變量的數(shù)據(jù)除以該類別的數(shù)據(jù)的總和,即:
經(jīng)過綜合標(biāo)準(zhǔn)化處理之后的新數(shù)據(jù)x′ij滿足
為了確定采用哪種標(biāo)準(zhǔn)化方法,應(yīng)用線性回歸模型linearregression,即:
對標(biāo)準(zhǔn)化后的數(shù)據(jù)直接進行回歸,得到皮爾遜相關(guān)系數(shù)得分,選擇得分高的無量綱化方法作為最終的無量綱化方法。在無量綱化處理后再采用最值標(biāo)準(zhǔn)化方法minmaxscaler將數(shù)據(jù)縮放至0-1區(qū)間。最值標(biāo)準(zhǔn)化即:
s1012、對所述標(biāo)準(zhǔn)化數(shù)據(jù)進行降維處理,得到處理后數(shù)據(jù)。
具體地,由于影院周邊數(shù)據(jù)分析和采集的特征變量過細,數(shù)量較多,且有許多指標(biāo)都是圍繞一個變量的評測指標(biāo),因此212維特征向量之間存在著多重共線性,其相關(guān)性較高。為提高模型預(yù)測精準(zhǔn)性,分別通過特征選擇和特征提取法對212維數(shù)據(jù)進行降維處理,并將降維后的數(shù)據(jù)經(jīng)過線性回歸模型,后續(xù)進一步通過score1、score2、score3三個評測指標(biāo),來確定降維后的維度和降維方法。
具體地,所述評測指標(biāo)根據(jù)預(yù)設(shè)模型的預(yù)測值和真實值確定:
評測指標(biāo)1(score1):票房預(yù)測值與真實值之間的差值與真實值之間的比值,該比值越小說明預(yù)測值越接近真實值,預(yù)測越準(zhǔn)確。
評測指標(biāo)2(score2):均方根誤差,即標(biāo)準(zhǔn)方差,由于所有數(shù)據(jù)在歸一化處理之后均在0-1之間,故可以應(yīng)用均方根誤差對結(jié)果進行評估。均方根誤差反映了測量數(shù)據(jù)偏離真實值的程度,均方根誤差越小,表示測量精度越高,
評測指標(biāo)3(score3):皮爾遜相關(guān)系數(shù),皮爾遜相關(guān)系數(shù)可以評估預(yù)測值與真實值之間的相關(guān)性,其值介于-1和1之間,負值表示負相關(guān),正值表示正相關(guān),皮爾遜相關(guān)系數(shù)絕對值越大,代表兩者的相關(guān)性越強,如果皮爾遜相關(guān)系數(shù)絕對值大于0.8,表明兩者之間具有極強的相關(guān)性。
進一步地,在上述方法實施例的基礎(chǔ)上,s1012具體包括:
將所述標(biāo)準(zhǔn)化數(shù)據(jù)輸入若干個降維函數(shù),得到若干個處理后數(shù)據(jù)。
相應(yīng)地,s102具體包括:
s1021、將m個處理后數(shù)據(jù)分別輸入n個預(yù)設(shè)模型,得到m×n個評測指標(biāo)。
其中,m和n均為正整數(shù)。
s1022、選擇最大的評測指標(biāo)對應(yīng)的目標(biāo)處理后數(shù)據(jù)和目標(biāo)預(yù)設(shè)模型,根據(jù)所述目標(biāo)處理后數(shù)據(jù)和所述目標(biāo)預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
具體地,選擇各預(yù)設(shè)模型中評測指標(biāo)中score3值最高的預(yù)設(shè)模型作為目標(biāo)預(yù)設(shè)模型,將目標(biāo)處理后數(shù)據(jù)輸入目標(biāo)預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
進一步地,在上述方法實施例的基礎(chǔ)上,s102具體包括:
s1021、根據(jù)預(yù)設(shè)比例,將所述處理后數(shù)據(jù)劃分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù)。
s1022、根據(jù)所述訓(xùn)練集數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
具體地,在將數(shù)據(jù)經(jīng)過模型訓(xùn)練前,需要將數(shù)據(jù)劃分為訓(xùn)練集和測試集,并確定模型預(yù)測精準(zhǔn)度的評測指標(biāo)。
通過比較訓(xùn)練模型在測試集上的預(yù)測結(jié)果與真實值之間的差異大小,確定最終模型的優(yōu)劣,在評價模型預(yù)測精準(zhǔn)度時,使用score1、score2、score3三個評測指標(biāo)進行對比。
隨機抽取總數(shù)據(jù)的10%作為測試集進行測試,剩下90%的數(shù)據(jù)作為訓(xùn)練集進行訓(xùn)練,將通過訓(xùn)練集訓(xùn)練的模型應(yīng)用于測試集,對比預(yù)測結(jié)果和測試集的真實結(jié)果,以評估模型擬合的優(yōu)劣。
為避免模型對數(shù)據(jù)的依賴,剔除數(shù)據(jù)對模型造成的影響,通過多次訓(xùn)練模擬取幾次測驗的均值作為最終的結(jié)果,最大程度上避免數(shù)據(jù)對模型的影響。連續(xù)迭代十次,且每一次都隨機從總數(shù)據(jù)中抽樣10%的數(shù)據(jù)作為測試集,得到10組模型與評測指標(biāo),最終取這十次模型結(jié)果與評測指標(biāo)的均值作為最終結(jié)果。
進一步地,在上述方法實施例的基礎(chǔ)上,所述方法還包括:
s105、選擇所述目標(biāo)票房預(yù)測模型中系數(shù)最大的第一自變量,選擇所述第一自變量對應(yīng)的目標(biāo)降維函數(shù)中系數(shù)最大的第二自變量,并根據(jù)所述第二自變量對應(yīng)的目標(biāo)周邊環(huán)境數(shù)據(jù),確定新影院的地址。
具體地,選擇所述目標(biāo)票房預(yù)測模型中系數(shù)最大的第一自變量,即為對票房影響最大的因素;由于在降維處理時,該因素是由多個子因素決定,因此選擇所述第一自變量對應(yīng)的目標(biāo)降維函數(shù)中系數(shù)最大的第二自變量,即為對票房影響較大的周邊環(huán)境數(shù)據(jù),后續(xù)考察新影院的地址時,可根據(jù)該周邊環(huán)境數(shù)據(jù)(例如購物中心)來確定。
回歸分析預(yù)測通常用于分析自變量和因變量之間的相關(guān)關(guān)系,通過建立變量之間的回歸方程來表達其間的關(guān)系。應(yīng)用回歸模型來做預(yù)測分析,將處理過的影院周邊數(shù)據(jù)與影院內(nèi)備數(shù)據(jù)作為自變量,影院票房得分作為因變量,將自變量數(shù)據(jù)代入回歸方程模型中,用來預(yù)測其因變量的取值。
或者,在確定新影院的地址之前,可以通過選取不同地址獲取該地址周邊情況,同時結(jié)合待建影院將配備的內(nèi)部設(shè)施情況來預(yù)測該地址建影院將產(chǎn)生的票房,在哪個地址建影院產(chǎn)生的票房大則選擇在哪個地址建影院。通過系數(shù)最大的自變量是可以反應(yīng)周邊哪類數(shù)據(jù)對票房影響較大,哪類影響較小。
圖2示出了本實施例提供的一種影院票房預(yù)測裝置的結(jié)構(gòu)示意圖,所述裝置包括:數(shù)據(jù)處理模塊201、預(yù)測模型計算模塊202、預(yù)測模型確定模塊203和票房預(yù)測模型204,其中:
所述數(shù)據(jù)處理模塊201用于根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù);
所述預(yù)測模型計算模塊202用于根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
所述預(yù)測模型確定模塊203用于根據(jù)待預(yù)測影院所在城市的類型和所述票房預(yù)測模型,確定所述待預(yù)測影院對應(yīng)的目標(biāo)票房預(yù)測模型;
所述票房預(yù)測模型204用于獲取待預(yù)測周邊環(huán)境數(shù)據(jù),并根據(jù)所述待預(yù)測周邊環(huán)境數(shù)據(jù)和所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
具體地,所述數(shù)據(jù)處理模塊201根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,得到處理后數(shù)據(jù);所述預(yù)測模型計算模塊202根據(jù)所述處理后數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;所述預(yù)測模型確定模塊203根據(jù)待預(yù)測影院所在城市的類型,確定所述待預(yù)測影院對應(yīng)的目標(biāo)票房預(yù)測模型;所述票房預(yù)測模型204根據(jù)待預(yù)測周邊環(huán)境數(shù)據(jù)和所述目標(biāo)票房預(yù)測模型,得到所述待預(yù)測影院的票房預(yù)測結(jié)果。
本實施例通過對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行處理,建立各類城市的票房預(yù)測模型,使得票房預(yù)測模型能夠結(jié)合不同類型的城市特征以及影院周邊環(huán)境數(shù)據(jù),模型更有針對性,預(yù)測結(jié)果能夠準(zhǔn)確。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述數(shù)據(jù)處理模塊201具體包括:
標(biāo)準(zhǔn)化處理單元,用于根據(jù)預(yù)設(shè)規(guī)則,分別對各類城市的影院周邊環(huán)境數(shù)據(jù)、影院歷史票房數(shù)據(jù)和影院內(nèi)部設(shè)施數(shù)據(jù)進行標(biāo)準(zhǔn)化處理,得到各類城市的標(biāo)準(zhǔn)化數(shù)據(jù);
降維處理單元,用于對所述標(biāo)準(zhǔn)化數(shù)據(jù)進行降維處理,得到處理后數(shù)據(jù)。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述降維處理單元具體用于將所述標(biāo)準(zhǔn)化數(shù)據(jù)輸入若干個降維函數(shù),得到若干個處理后數(shù)據(jù);
相應(yīng)地,所述預(yù)測模型計算模塊202具體用于將m個處理后數(shù)據(jù)分別輸入n個預(yù)設(shè)模型,得到m×n個評測指標(biāo);并選擇最大的評測指標(biāo)對應(yīng)的目標(biāo)處理后數(shù)據(jù)和目標(biāo)預(yù)設(shè)模型,根據(jù)所述目標(biāo)處理后數(shù)據(jù)和所述目標(biāo)預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型;
其中,m和n均為正整數(shù)。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述數(shù)據(jù)處理模塊201具體用于根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,并獲取所述影片版本放映首周觀影人數(shù)大于10人的場次以及所述場次播放影廳的總座位數(shù);根據(jù)所述場次、所述總座位數(shù)和所述影院歷史票房數(shù)據(jù),計算得到各影院平均單座票房。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述數(shù)據(jù)處理模塊201具體用于根據(jù)預(yù)設(shè)比例篩選影院播放的影片版本,獲取所述影片版本放映首周觀影人數(shù)大于10人的場次,并根據(jù)所述場次計算各影院平均單場票房。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述預(yù)測模型計算模塊202中所述評測指標(biāo)根據(jù)預(yù)設(shè)模型的預(yù)測值和真實值確定。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述預(yù)測模型計算模塊202具體包括:
數(shù)據(jù)劃分單元,用于根據(jù)預(yù)設(shè)比例,將所述處理后數(shù)據(jù)劃分為訓(xùn)練集數(shù)據(jù)和測試集數(shù)據(jù);
模型計算單元,用于根據(jù)所述訓(xùn)練集數(shù)據(jù)和預(yù)設(shè)模型,得到各類城市的票房預(yù)測模型。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述裝置還包括:
影院地址確定模塊,用于選擇所述目標(biāo)票房預(yù)測模型中系數(shù)最大的第一自變量,選擇所述第一自變量對應(yīng)的目標(biāo)降維函數(shù)中系數(shù)最大的第二自變量,并根據(jù)所述第二自變量對應(yīng)的目標(biāo)周邊環(huán)境數(shù)據(jù),確定新影院的地址。
進一步地,在上述裝置實施例的基礎(chǔ)上,所述數(shù)據(jù)處理模塊201中所述影院周邊環(huán)境數(shù)據(jù)包括ktv數(shù)據(jù)、網(wǎng)吧數(shù)據(jù)、餐館數(shù)據(jù)、美容美發(fā)店數(shù)據(jù)、酒店數(shù)據(jù)、購物中心數(shù)據(jù)和健身場館數(shù)據(jù)。
本實施例所述的影院票房預(yù)測裝置可以用于執(zhí)行上述方法實施例,其原理和技術(shù)效果類似,此處不再贅述。
以上所描述的裝置實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性的勞動的情況下,即可以理解并實施。
通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到各實施方式可借助軟件加必需的通用硬件平臺的方式來實現(xiàn),當(dāng)然也可以通過硬件?;谶@樣的理解,上述技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機軟件產(chǎn)品可以存儲在計算機可讀存儲介質(zhì)中,如rom/ram、磁碟、光盤等,包括若干指令用以使得一臺計算機設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行各個實施例或者實施例的某些部分所述的方法。
應(yīng)說明的是:以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍。