亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法和系統(tǒng)的制作方法

文檔序號(hào):6577231閱讀:699來源:國知局
專利名稱:基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及股票信息的匹配分類方法和系統(tǒng),尤其涉及一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法和系統(tǒng)。
背景技術(shù)
傳統(tǒng)的互聯(lián)網(wǎng)搜索引擎技術(shù),使用特定關(guān)鍵詞對(duì)網(wǎng)站頁面進(jìn)行標(biāo)注,通過將用戶搜索關(guān)鍵詞與網(wǎng)頁關(guān)鍵詞進(jìn)行匹配給出搜索結(jié)果。隨著Web技術(shù)的發(fā)展,每天都有大量的圖片、博客、視頻發(fā)布到網(wǎng)上,信息的極度爆炸使得很難通過簡單的關(guān)鍵詞來幫助人們找到他們需要的信息。而推薦引擎的出現(xiàn),使用戶獲取信息的方式從簡單的關(guān)鍵詞搜索轉(zhuǎn)換到更高級(jí)更符合人們使用習(xí)慣的上下文信息更豐富的信息發(fā)現(xiàn)。通過挖掘網(wǎng)頁和用戶數(shù)據(jù)的相關(guān)性,構(gòu)造網(wǎng)頁和用戶的關(guān)鍵詞序列,在此基礎(chǔ)上計(jì)算網(wǎng)頁、用戶之間以及網(wǎng)頁和用戶之間的相關(guān)性,從而獲得更加準(zhǔn)確的搜索結(jié)果,并根據(jù)用戶行為不斷優(yōu)化搜索結(jié)果。傳統(tǒng)的股票分類往往是靜態(tài)的,通常是基于某一特征對(duì)股票進(jìn)行劃分,例如基于行業(yè)、地域、概念、風(fēng)格指數(shù)等。然而,上市公司的業(yè)務(wù)一直在發(fā)展,主營方向也會(huì)有所變化,另外,不同板塊的股票對(duì)同一新聞事件的反饋并非都不相同,因此,靜態(tài)的股票分類方法有時(shí)不能很好地反映股票的屬性。而傳統(tǒng)的選股通常是根據(jù)個(gè)人的經(jīng)驗(yàn)來判斷,一般的股民可以通過閱讀相關(guān)的新聞研報(bào)做出自己的判斷;然而,面對(duì)不斷增加的股票數(shù)量以及海量的新聞數(shù)據(jù),個(gè)人的精力和經(jīng)驗(yàn)有限,很難對(duì)股票市場進(jìn)行全面準(zhǔn)確地觀察和分析。

發(fā)明內(nèi)容
本發(fā)明提供一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法和系統(tǒng),從海量新聞數(shù)據(jù)出發(fā),挖掘能夠較全面體現(xiàn)股票屬性的關(guān)鍵詞序列,通過分析股票關(guān)鍵詞序列之間的相關(guān)性對(duì)股票進(jìn)行分類,同時(shí)通過分析新聞數(shù)據(jù)的關(guān)鍵詞序列和股票關(guān)鍵詞序列之間的相關(guān)性,給出與新聞數(shù)據(jù)最佳 匹配的股票。為了達(dá)到上述目的,本發(fā)明采用如下技術(shù)方案:一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,,其特征在于包括如下步驟:(A)建立一本地?cái)?shù)據(jù)庫;(B)從外界抓取至少一則相關(guān)個(gè)股的歷史新聞數(shù)據(jù),儲(chǔ)存到本地?cái)?shù)據(jù)庫中,建立相應(yīng)的個(gè)股序號(hào),并對(duì)每一則歷史新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取其中與個(gè)股相關(guān)的關(guān)鍵詞序列;(C)統(tǒng)計(jì)與上述個(gè)股相關(guān)的關(guān)鍵詞序列中各關(guān)鍵詞出現(xiàn)的頻次,在此基礎(chǔ)上計(jì)算相應(yīng)的關(guān)鍵詞相關(guān)性系數(shù),構(gòu)造個(gè)股關(guān)鍵詞序列相關(guān)性序列模型,并進(jìn)行參數(shù)優(yōu)化;然后根據(jù)個(gè)股關(guān)鍵詞序列相關(guān)性序列模型計(jì)算個(gè)股之間的相關(guān)性,并根據(jù)個(gè)股之間的相關(guān)性,結(jié)合聚類分析算法,對(duì)股票進(jìn)行分類;以及(D)從外界抓取實(shí)時(shí)新聞數(shù)據(jù),儲(chǔ)存到本地?cái)?shù)據(jù)庫中,對(duì)該新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取實(shí)時(shí)關(guān)鍵詞序列,計(jì)算實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列,通過將實(shí)時(shí)新聞數(shù)據(jù)的實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列和上述步驟C中的個(gè)股關(guān)鍵詞序列相關(guān)性序列模型進(jìn)行自動(dòng)匹配,選取相關(guān)性最高的個(gè)股作為最終的最佳匹配結(jié)果。在所述步驟B中,個(gè)股序號(hào)為股票A,股票B,……,股票N ;關(guān)鍵詞序列為關(guān)鍵詞1,關(guān)鍵詞2,……關(guān)鍵詞M ;在所述步驟C中,個(gè)股關(guān)鍵詞序列相關(guān)性序列模型寫成矩陣形
式為:
權(quán)利要求
1.一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于包括如下步驟: (A)建立一本地?cái)?shù)據(jù)庫; (B)從外界抓取至少一則相關(guān)個(gè)股的歷史新聞數(shù)據(jù),儲(chǔ)存到本地?cái)?shù)據(jù)庫中,建立相應(yīng)的個(gè)股序號(hào),并對(duì)每一則歷史新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取其中與個(gè)股相關(guān)的關(guān)鍵詞序列; (C)統(tǒng)計(jì)與上述個(gè)股相關(guān)的關(guān)鍵詞序列中各關(guān)鍵詞出現(xiàn)的頻次,在此基礎(chǔ)上計(jì)算相應(yīng)的關(guān)鍵詞相關(guān)性系數(shù),構(gòu)造個(gè)股關(guān)鍵詞序列相關(guān)性序列模型,并進(jìn)行參數(shù)優(yōu)化;然后根據(jù)個(gè)股關(guān)鍵詞序列相關(guān)性序列模型計(jì)算個(gè)股之間的相關(guān)性,并根據(jù)個(gè)股之間的相關(guān)性,結(jié)合聚類分析算法,對(duì)股票進(jìn)行分類;以及 (D)從外界抓取實(shí)時(shí)新聞數(shù)據(jù),儲(chǔ)存到本地?cái)?shù)據(jù)庫中,對(duì)該新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取實(shí)時(shí)關(guān)鍵詞序列,計(jì)算實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列,通過將實(shí)時(shí)新聞數(shù)據(jù)的實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列和上述步驟C中的個(gè)股關(guān)鍵詞序列相關(guān)性序列模型進(jìn)行自動(dòng)匹配,選取相關(guān)性最高的個(gè)股作為最終的最佳匹配結(jié)果。
2.根據(jù)權(quán)利要求1所述的基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于: 在所述步驟B中,個(gè)股序號(hào)為股票A,股票B,……,股票N ;關(guān)鍵詞序列為關(guān)鍵詞I,關(guān)鍵詞2,……關(guān)鍵詞M ;在所述步驟C中,個(gè)股關(guān)鍵詞序列相關(guān)性序列模型寫成矩陣形式為:
3.根據(jù)權(quán)利要求2所述的基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于:所述個(gè)股之間的相關(guān)性,即歐氏距離的計(jì)算公式為:
4.根據(jù)權(quán)利要求1所述的基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于: 在所述步驟D中,實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列的計(jì)算方法如下: Vectorevent = Le1 ef eM],其中,eM表示實(shí)時(shí)新聞數(shù)據(jù)與關(guān)鍵詞M之間的相關(guān)性系數(shù)。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于:在所述步驟D中,實(shí)時(shí)新聞數(shù)據(jù)的實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列和個(gè)股關(guān)鍵詞序列相關(guān)性序列模型進(jìn)行自動(dòng)匹配的計(jì)算方法如下:
6.根據(jù)權(quán)利要求1所述的基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法,其特征在于: 在所述步驟C中,所述參數(shù)優(yōu)化是通過比對(duì)分類結(jié)果與現(xiàn)有成熟的股票分類結(jié)果對(duì)關(guān)鍵詞序列進(jìn)行優(yōu)化。
7.一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類系統(tǒng),其特征在于,其包括: 一本地?cái)?shù)據(jù)庫,用于儲(chǔ)存歷史新聞數(shù)據(jù)和實(shí)時(shí)新聞數(shù)據(jù),并在其內(nèi)建立相應(yīng)的個(gè)股序號(hào)和關(guān)鍵詞序列; 一分詞篩選模塊,對(duì)每一則歷史新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取其中與個(gè)股相關(guān)的關(guān)鍵詞序列,以及對(duì)實(shí)時(shí)新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取實(shí)時(shí)關(guān)鍵詞序列; 一統(tǒng)計(jì)分類模塊,用于統(tǒng)計(jì)關(guān)鍵詞序列中各關(guān)鍵詞出現(xiàn)的頻次,并計(jì)算相應(yīng)的關(guān)鍵詞相關(guān)性系數(shù),構(gòu)造個(gè)股關(guān)鍵詞序列相關(guān)性序列模型,并進(jìn)行參數(shù)優(yōu)化,以及計(jì)算個(gè)股之間的相關(guān)性,并結(jié)合聚類分析算法對(duì)股票進(jìn)行分類; 一自動(dòng)匹配模塊,用于計(jì)算實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列,通過將實(shí)時(shí)新聞數(shù)據(jù)的實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列和個(gè)股關(guān)鍵詞序列相關(guān)性序列模型進(jìn)行自動(dòng)匹配,選取相關(guān)性最高的個(gè)股作為最終的最佳 匹配結(jié)果。
全文摘要
本發(fā)明涉及股票信息的匹配分類方法和系統(tǒng),尤其涉及一種基于新聞數(shù)據(jù)的股票自動(dòng)匹配分類方法和系統(tǒng),其特征在于包括如下步驟建立一本地?cái)?shù)據(jù)庫;對(duì)歷史新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取關(guān)鍵詞序列,構(gòu)造個(gè)股關(guān)鍵詞序列相關(guān)性序列模型,計(jì)算個(gè)股之間的相關(guān)性,結(jié)合聚類分析算法,對(duì)股票進(jìn)行分類;對(duì)實(shí)時(shí)新聞數(shù)據(jù)進(jìn)行分詞、篩選,提取實(shí)時(shí)關(guān)鍵詞序列,計(jì)算實(shí)時(shí)關(guān)鍵詞序列相關(guān)性序列,再和個(gè)股關(guān)鍵詞序列相關(guān)性序列模型進(jìn)行自動(dòng)匹配。本發(fā)明采用基于新聞數(shù)據(jù)的股票關(guān)鍵詞序列挖掘技術(shù),實(shí)現(xiàn)對(duì)股票的自動(dòng)分類,該方法全面、準(zhǔn)確,并針對(duì)突發(fā)新聞事件自動(dòng)給出匹配度較高的股票,方法簡便易行,為股民提供了更好的投資依據(jù)。
文檔編號(hào)G06F17/27GK103226554SQ20121054392
公開日2013年7月31日 申請日期2012年12月14日 優(yōu)先權(quán)日2012年12月14日
發(fā)明者何波, 蔣永磊, 丁志敏 申請人:西藏同信證券有限責(zé)任公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1