農(nóng)產(chǎn)品價格趨勢預(yù)測方法
【專利摘要】本發(fā)明公開了一種農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,包括如下步驟:步驟一:通過計算機采集與農(nóng)產(chǎn)品價格相關(guān)的且?guī)в袑<翌A(yù)測性觀點的文章;步驟二:對采集的文章進行去重;步驟三:提取并保存文章要素;步驟四:對文章中描述的農(nóng)產(chǎn)品所屬區(qū)域進行識別;步驟五:利用文本挖掘技術(shù)分析出專家對農(nóng)產(chǎn)品的預(yù)測性觀點,并將所述預(yù)測性觀點進行量化和保存;步驟六:根據(jù)文章發(fā)表時間、農(nóng)產(chǎn)品所屬區(qū)域、農(nóng)產(chǎn)品種類以及量化的趨勢預(yù)測觀點進行計算機建模,利用建立的模型對農(nóng)產(chǎn)品價格進行趨勢預(yù)測。本發(fā)明相較于現(xiàn)有技術(shù)來說,數(shù)據(jù)搜集周期更短,收集成本幾乎為零,能夠?qū)ξ磥硪欢螘r間的農(nóng)產(chǎn)品價格的整體趨勢進行預(yù)測,預(yù)測的準確性和可靠性更高。
【專利說明】農(nóng)產(chǎn)品價格趨勢預(yù)測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種農(nóng)產(chǎn)品價格趨勢預(yù)測方法,具體涉及一種利用計算機技術(shù)對農(nóng)產(chǎn)品價格的長期趨勢進行預(yù)測的方法,本發(fā)明屬于計算機【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]我國是一個農(nóng)業(yè)大國,農(nóng)業(yè)人口眾多,農(nóng)作物種類繁雜。在過去的十幾年里,國家投入了大量的人力和物力來支持農(nóng)業(yè)和農(nóng)村的經(jīng)濟發(fā)展,取得了顯著的效果。作為農(nóng)業(yè)和農(nóng)村經(jīng)濟發(fā)展的一個組成部分,農(nóng)業(yè)信息化在發(fā)展中起著舉足輕重的作用。農(nóng)業(yè)信息化領(lǐng)域中,監(jiān)測農(nóng)產(chǎn)品的價格走勢并進行有效預(yù)測對政府進行宏觀調(diào)控以及農(nóng)業(yè)生產(chǎn)者制定生產(chǎn)策略都具有十分重要的意義。
[0003]趨勢,表示事物的發(fā)展動向。趨勢預(yù)測,通常意義下指的是對于某種物體的發(fā)展動向進行有規(guī)律地預(yù)測。對農(nóng)產(chǎn)品價格的預(yù)測包括對農(nóng)產(chǎn)品的價格進行短期的離散數(shù)據(jù)預(yù)測和長期的走勢預(yù)測。例如,對未來5天的西紅柿價格的具體數(shù)字的預(yù)測屬于短期預(yù)測,而對未來I個月的西紅柿價格的整體走勢預(yù)測屬于長期預(yù)測。對農(nóng)產(chǎn)品價格進行長期的走勢預(yù)測,也稱為農(nóng)產(chǎn)品價格趨勢預(yù)測。農(nóng)產(chǎn)品價格的預(yù)測趨勢分為三種:看漲(預(yù)測的未來趨勢為上升)、看跌(預(yù)測的未來趨勢為下降)、看平(預(yù)測的未來趨勢為平穩(wěn))。通過搜集和分析互聯(lián)網(wǎng)上發(fā)布的權(quán)威的專家預(yù)測觀點進而對農(nóng)產(chǎn)品的未來價格趨勢進行有效預(yù)測,是本發(fā)明的主要目標和創(chuàng)新之處。
[0004]影響農(nóng)產(chǎn)品價格波動的因素有很多,例如季節(jié)性因素、氣候性因素、農(nóng)產(chǎn)品的供需變化和流通成本因素等等,這導致了對農(nóng)產(chǎn)品的價格進行預(yù)測是一項具有挑戰(zhàn)性的任務(wù)。目前,國內(nèi)外對農(nóng)產(chǎn)品的價格預(yù)測主要集中于定性和定量兩種預(yù)測方法。定性預(yù)測方法主要借助于專家的經(jīng)驗知識對農(nóng)產(chǎn)品的未來走勢給出個人主觀預(yù)測,該類方法的主觀隨意性大,預(yù)測的精確性往往受限于專家經(jīng)驗的豐富程度。定量預(yù)測方法主要通過對農(nóng)產(chǎn)品的市場價格建立數(shù)學模型,利用建立的模型對未來的價格進行預(yù)測。該類方法都是以農(nóng)產(chǎn)品價格數(shù)據(jù)為中心建模,精確度往往受限于所搜集的農(nóng)產(chǎn)品價格數(shù)據(jù)的準確性,而在現(xiàn)實情形中,搜集準確的農(nóng)產(chǎn)品價格數(shù)據(jù)需要耗費大量的人力、物力以及較長的時間周期,這往往制約了該類方法的普遍適用性。此外,該類方法的另外一個缺點是,只能對未來的離散的價格數(shù)據(jù)進行預(yù)測,不能對未來的整體的價格趨勢進行預(yù)測,而在實際應(yīng)用中,人們往往更關(guān)心農(nóng)產(chǎn)品價格的整體波動趨勢。
[0005]綜上所述,對于農(nóng)產(chǎn)品的價格預(yù)測問題,雖然已經(jīng)出現(xiàn)了不少的解決方法,也取得了一定的成果,然而上述問題的存在大大限制了這些方法的普遍適用性。
【發(fā)明內(nèi)容】
[0006]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種農(nóng)產(chǎn)品價格趨勢預(yù)測方法。
[0007]為了實現(xiàn)上述目標,本發(fā)明采用如下的技術(shù)方案:
[0008]農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,包括如下步驟:[0009]步驟一:通過計算機自動采集程序從互聯(lián)網(wǎng)網(wǎng)站定時采集與農(nóng)產(chǎn)品價格相關(guān)的且?guī)в袑<翌A(yù)測性觀點的文章;
[0010]步驟二:對采集的文章進行去重;
[0011]步驟三:從去重后的文章中提取并保存文章要素,所述文章要素包括文章標題、文章正文內(nèi)容、文章來源、文章發(fā)表時間、文章中帶有專家預(yù)測性觀點的語句;
[0012]步驟四:根據(jù)文章標題和文章正文內(nèi)容對文章中描述的農(nóng)產(chǎn)品所屬區(qū)域進行識別;
[0013]步驟五:根據(jù)文章中帶有專家預(yù)測性觀點的語句,利用文本挖掘技術(shù)分析出專家對農(nóng)產(chǎn)品的預(yù)測性觀點,并將所述預(yù)測性觀點進行量化和保存;
[0014]步驟六:根據(jù)文章發(fā)表時間、農(nóng)產(chǎn)品所屬區(qū)域、農(nóng)產(chǎn)品種類以及量化的趨勢預(yù)測觀點進行計算機建模,利用建立的模型對農(nóng)產(chǎn)品價格進行趨勢預(yù)測。
[0015]前述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟一包括:
[0016]步驟Ia:設(shè)置采集定時器;
[0017]步驟Ib:設(shè)定要采集的互聯(lián)網(wǎng)網(wǎng)站所對應(yīng)的入口 URL,并將入口 URL進行保存,根據(jù)采集定時器為所述入口 URL分配定時采集任務(wù);
[0018]步驟Ic:對設(shè)定要采集的互聯(lián)網(wǎng)網(wǎng)站所對應(yīng)的入口 URL進行網(wǎng)頁內(nèi)容下載;
[0019]步驟Id:根據(jù)網(wǎng)頁內(nèi)容中的HTML標簽,定位需要采集的文章對應(yīng)的URL ;
[0020]步驟Ie:根據(jù)需要采集的文章對應(yīng)的URL,對文章對應(yīng)的網(wǎng)頁內(nèi)容進行下載并保存。
[0021]前述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟2b包括:將入口 URL保存到本地的XML文件或本地數(shù)據(jù)庫。
[0022]前述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟二包括:
[0023]步驟2a:對每一篇文章對應(yīng)的URL字符串利用MD5算法進行加密,計算得到所述文章對應(yīng)的URL的信息指紋;
[0024]步驟2b:進行指紋比對,對于信息指紋相同的文章,只保留其中的一篇;
[0025]步驟2c:對步驟2b處理后保留的文章按照發(fā)表時間的先后進行排序,選擇時間最靠前的文章作為基點文章,將基點文章和剩余的文章分別進行兩兩比對,依次計算基點文章與剩余的文章之間的標題相似度;如果標題相似度大于閾值,則認為二者標題相似,賦予該篇文章與基點文章相同的相似度標識,否則,取其余剩余文章繼續(xù)與基點文章進行比較,直到剩余全部文章與基點文章比較結(jié)束;
[0026]步驟2d:比較結(jié)束后,若還有未賦予相似度標識的文章,則選擇時間最靠前的文章為新的基點文章,并為該篇文章賦予新的相似度標識,剩余的未賦予相似度標識的文章依次與其進行比較;
[0027]步驟2e:重復步驟2d,直至不存在未賦予相似度標識的文章;
[0028]步驟2f:對于相似度標識相同的文章,只保留其中的一篇。
[0029]前述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟2c包括:通過相似度計
算公式:
【權(quán)利要求】
1.農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,包括如下步驟: 步驟一:通過計算機自動采集程序從互聯(lián)網(wǎng)網(wǎng)站定時采集與農(nóng)產(chǎn)品價格相關(guān)的且?guī)в袑<翌A(yù)測性觀點的文章; 步驟二:對采集的文章進行去重; 步驟三:從去重后的文章中提取并保存文章要素,所述文章要素包括文章標題、文章正文內(nèi)容、文章來源、文章發(fā)表時間、文章中帶有專家預(yù)測性觀點的語句; 步驟四:根據(jù)文章標題和文章正文內(nèi)容對文章中描述的農(nóng)產(chǎn)品所屬區(qū)域進行識別;步驟五:根據(jù)文章中帶有專家預(yù)測性觀點的語句,利用文本挖掘技術(shù)分析出專家對農(nóng)產(chǎn)品的預(yù)測性觀點,并將所述預(yù)測性觀點進行量化和保存; 步驟六:根據(jù)文章發(fā)表時間、農(nóng)產(chǎn)品所屬區(qū)域、農(nóng)產(chǎn)品種類以及量化的趨勢預(yù)測觀點進行計算機建模,利用建立的模型對農(nóng)產(chǎn)品價格進行趨勢預(yù)測。
2.根據(jù)權(quán)利要求1所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟一包括: 步驟Ia:設(shè)置采集定時器; 步驟Ib:設(shè)定要采集的互聯(lián)網(wǎng)網(wǎng)站所對應(yīng)的入口 URL,并將入口 URL進行保存,根據(jù)采集定時器為所述入口 URL分配定時采集任務(wù); 步驟Ic:對設(shè)定要采集的互聯(lián)網(wǎng)網(wǎng)站所對應(yīng)的入口 URL進行網(wǎng)頁內(nèi)容下載; 步驟Id:根據(jù)網(wǎng)頁內(nèi)容中的HTML標簽,定位需要采集的文章對應(yīng)的URL ; 步驟Ie:根據(jù)需要采集的文章對應(yīng)的URL,對文章對應(yīng)的網(wǎng)頁內(nèi)容進行下載并保存。
3.根據(jù)權(quán)利要求2所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟2b包括:將入口 URL保存到本地的XML文件或本地數(shù)據(jù)庫。
4.根據(jù)權(quán)利要求3所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟二包括: 步驟2a:對每一篇文章對應(yīng)的URL字符串利用MD5算法進行加密,計算得到所述文章對應(yīng)的URL的信息指紋; 步驟2b:進行指紋比對,對于信息指紋相同的文章,只保留其中的一篇; 步驟2c:對步驟2b處理后保留的文章按照發(fā)表時間的先后進行排序,選擇時間最靠前的文章作為基點文章,將基點文章和剩余的文章分別進行兩兩比對,依次計算基點文章與剩余的文章之間的標題相似度;如果標題相似度大于閾值,則認為二者標題相似,賦予該篇文章與基點文章相同的相似度標識,否則,取其余剩余文章繼續(xù)與基點文章進行比較,直到剩余全部文章與基點文章比較結(jié)束; 步驟2d:比較結(jié)束后,若還有未賦予相似度標識的文章,則選擇時間最靠前的文章為新的基點文章,并為該篇文章賦予新的相似度標識,剩余的未賦予相似度標識的文章依次與其進行比較; 步驟2e:重復步驟2d,直至不存在未賦予相似度標識的文章; 步驟2f:對于相似度標識相同的文章,只保留其中的一篇。
5.根據(jù)權(quán)利要求4所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟2c包括:通過相似度計算公式:次工,力=¥計算所述標題相似度,其中Sxy表示基點文章與剩余的 M,y文章之間的標題相似度,Nx’y表示基點文章與剩余的文章兩者標題中含有的相同的字符數(shù)目,Nx表示基點文章標題中含有的字符的總數(shù)目;所述閥值為0.9。
6.根據(jù)權(quán)利要求5所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟三包括: 步驟3a:讀取保存的網(wǎng)頁內(nèi)容; 步驟3b:根據(jù)網(wǎng)頁字符編碼對網(wǎng)頁內(nèi)容中的HTML標簽進行解析; 步驟3c:根據(jù)文章標題、文章正文內(nèi)容、文章來源、文章發(fā)表時間在網(wǎng)頁HTML標簽中的位置進行相應(yīng)的提??; 步驟3d:根據(jù)文章正文內(nèi)容和專家觀點關(guān)鍵詞對文章中帶有專家預(yù)測性觀點的語句進行提取;步驟3e:保存提取的相關(guān)文章要素。
7.根據(jù)權(quán)利要求6所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟四包括: 步驟4a:讀取區(qū)域數(shù)據(jù)庫; 步驟4b:根據(jù)區(qū)域數(shù)據(jù)庫建立區(qū)域映射規(guī)則; 步驟4c:讀取保存的文章標題和文章正文內(nèi)容; 步驟4d:從文章標題中搜索縣區(qū)、市區(qū)或省份所對應(yīng)的關(guān)鍵詞;若搜索到,則通過映射規(guī)則定位并保存所述縣區(qū)、市區(qū)或省份所對應(yīng)的省份;若沒有搜索到,進一步讀取保存的文章正文內(nèi)容,從文章正文內(nèi)容中搜索縣區(qū)、市區(qū)或省份對應(yīng)的關(guān)鍵詞;若搜索到,則通過映射規(guī)則定位并保存所述縣區(qū)、市區(qū)或省份所對應(yīng)的省份,否則,將該篇文章所屬區(qū)域設(shè)定為全國。
8.根據(jù)權(quán)利要求7所述的農(nóng)產(chǎn)品價格趨勢預(yù)測方法,其特征在于,所述步驟五包括: 步驟5a:讀取文章中帶有專家預(yù)測性觀點的語句; 步驟5b:利用文本挖掘技術(shù)中的成分句法分析方法對文章中帶有專家預(yù)測性觀點的語句進行分析; 步驟5c:讀取農(nóng)產(chǎn)品種類關(guān)鍵詞和趨勢關(guān)鍵詞; 步驟5d:根據(jù)文章中帶有專家預(yù)測性觀點的語句中句子的成分、農(nóng)產(chǎn)品種類關(guān)鍵詞、趨勢關(guān)鍵詞分析出文章中帶有專家預(yù)測性觀點的語句所描述的農(nóng)產(chǎn)品種類及專家對農(nóng)產(chǎn)品的預(yù)測性觀點; 步驟5e:根據(jù)趨勢映射規(guī)則將專家對農(nóng)產(chǎn)品的預(yù)測性觀點進行量化; 步驟5f:保存農(nóng)產(chǎn)品種類及專家對農(nóng)產(chǎn)品的預(yù)測性觀點。
【文檔編號】G06F17/30GK103577581SQ201310551702
【公開日】2014年2月12日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】張偉, 歐吉順, 周楚新 申請人:南京綠色科技研究院有限公司