一種面向股票領(lǐng)域的文本情感分類方法

文檔序號(hào)：6508336閱讀：834來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：一種面向股票領(lǐng)域的文本情感分類方法
技術(shù)領(lǐng)域：
本發(fā)明屬于自然語(yǔ)言處理的文本情感分類領(lǐng)域，具體涉及一種面向股票領(lǐng)域的文本情感分類方法。
背景技術(shù)：
隨著經(jīng)濟(jì)的發(fā)展和人民生活水平的提高，通過(guò)購(gòu)買股票進(jìn)行投資理財(cái)已逐漸成為當(dāng)今社會(huì)的大勢(shì)所趨，如何準(zhǔn)確地購(gòu)買股票成為投資者非常關(guān)心的問(wèn)題。與此同時(shí)，隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展，網(wǎng)絡(luò)憑借實(shí)時(shí)性、豐富性以及覆蓋性等特點(diǎn)逐漸取代傳統(tǒng)的新聞媒體成為人們獲取信息的主要途徑，越來(lái)越多的股票新聞出現(xiàn)在網(wǎng)絡(luò)上，這些新聞包括宏觀經(jīng)濟(jì)新聞、個(gè)股相關(guān)新聞、行業(yè)新聞、上市公司新聞等等。有效市場(chǎng)理論(EMH Efficient Markets Hypothesis)，又被稱為有效市場(chǎng)假說(shuō)或有效市場(chǎng)假設(shè)，始于美國(guó)芝加哥大學(xué)著名教授Eugene Fama在1965年發(fā)表在《商業(yè)學(xué) 刊》的一篇名為《股票市場(chǎng)價(jià)格走勢(shì)》的論文，而后Eugene Fama在1970年發(fā)表于《金融》的論文《有效資本市場(chǎng)理論與實(shí)踐研究回顧》中深化并提出的。有效市場(chǎng)理論假定所有公開(kāi)的信息都會(huì)反映到市場(chǎng)價(jià)格之中，相關(guān)的信息如果不受扭曲且在證券價(jià)格中得到充分反映，市場(chǎng)就是有效的。既然證券價(jià)格能充分反映一切可獲得的信息，那么，可獲得的相關(guān)信息就成為價(jià)格能否有效的決定因素了。按照可獲得的信息分類的不同，有效市場(chǎng)理論在有效率的資本市場(chǎng)分為以下三種表現(xiàn)形態(tài)弱式有效市場(chǎng)，半強(qiáng)式有效市場(chǎng)，強(qiáng)式有效市場(chǎng)。從中國(guó)的現(xiàn)實(shí)情況來(lái) 看，國(guó)內(nèi)多數(shù)學(xué)者支持中國(guó)股市是弱式有效的。在弱有效市場(chǎng)中，信息發(fā)布后需要一段時(shí)間才能反應(yīng)到股價(jià)中，也就是說(shuō)信息發(fā)布后，股票會(huì)經(jīng)過(guò)一段時(shí)間才能調(diào)整到合適的價(jià)位。因此不能忽視股票新聞對(duì)于股市的影響，新聞的數(shù)量以及內(nèi)容的傾向性在很大程度上也會(huì)左右投資者的購(gòu)買行為。例如國(guó)務(wù)院將于2010年4月24號(hào)把印花稅稅率由3%。下調(diào)為1%。的消息一出，滬指暴漲304 點(diǎn)，千余個(gè)股漲停；又如在2010年年初的“兩會(huì)”上，政府工作報(bào)告提出要發(fā)展“低碳經(jīng)濟(jì)”，之后“新能源板塊”引來(lái)利好，逐漸走強(qiáng)。因此研究股市新聞的傾向性，對(duì)輔助投資者做出投資決策具有一定的實(shí)用意義。所謂傾向性分析，就是識(shí)別文本是正面還是負(fù)面的，這一類型的研究，被稱為情感分類。文本情感分類是一種特殊的文本分類問(wèn)題，需要通過(guò)挖掘和分析文本中的立場(chǎng)、觀點(diǎn)、看法、情緒等主觀信息，對(duì)文本的情感傾向做出類別判斷。文本情感分類是判斷傾向性很好的方法，在個(gè)性化推薦、個(gè)性化觀點(diǎn)檢索、用戶興趣挖掘、信息過(guò)濾、郵件過(guò)濾、社會(huì)輿論分析等方面得到很好的應(yīng)用。目前國(guó)內(nèi)外有一些提供金融資訊服務(wù)的企業(yè)，例如國(guó)內(nèi)的大智慧資訊、維賽特資訊以及國(guó)外的路透社等。然而這些公司提供的服務(wù)一般都價(jià)格高昂，普通投資者是無(wú) 法承受的。因此可以考慮利用財(cái)經(jīng)網(wǎng)站上容易獲得的新聞等信息，通過(guò)文本情感分類的處理后，給出每條新聞的正負(fù)性提示，可以幫助投資者更快速地做出投資決定。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種面向股票領(lǐng)域的文本情感分類方法，用來(lái)提供股票新聞情感傾向分類的建議。本發(fā)明的特征在于，所述文本情感分類是一種傾向性分析，用于識(shí)別股票領(lǐng)域的中文文本是正面還是負(fù)面的，所述分類方法是在計(jì)算機(jī)中依次按以下步驟實(shí)現(xiàn)的步驟(1)所述計(jì)算機(jī)初始化，設(shè)定以下軟件工具
Add-delta數(shù)據(jù)平滑算法模塊；對(duì)股票新聞進(jìn)行中文分詞用的漢語(yǔ)詞法分析模塊ICTCLAS ；用于文本特征選擇的評(píng)價(jià)模塊；分類實(shí)驗(yàn)所用的Weka模塊，其中包括了 Naifve Bayes和K-NN等分類算法，定義在股票領(lǐng)域中文文本分詞用的新詞縮略詞，包括但不限于中石油、國(guó)投和中金；專有名詞，包括但不限于股份有限公司和證券投資基金；派生詞，包括但不限于黑馬股、領(lǐng)漲和利空；復(fù)合詞，包括但不限于沖高回落和分紅派息；步驟(2)把設(shè)定的證券新聞中的新聞標(biāo)題以及包括證券常用詞和供情感分類用的股票名稱在內(nèi)的相關(guān)股票信息作為原始語(yǔ)料，即中文文本，輸入到所述計(jì)算機(jī)；步驟(3)中文文本分詞，把步驟⑵中所述的中文文本中的漢字序列切分成一個(gè) 一個(gè)具有獨(dú)立意義的詞，步驟如下步驟(3.1)采用新詞發(fā)現(xiàn)用的n-gram統(tǒng)計(jì)語(yǔ)言模型構(gòu)建股票領(lǐng)域分詞詞典，步驟如下步驟(3丄1)建立n-gram模型，設(shè)定一個(gè)字符串序列n-gram用W = W1W2...Wn表示，W1表示一個(gè)字符，η取2 6的整數(shù)，表示該字符串中的字符個(gè)數(shù)，則按下式計(jì)算一個(gè)所述字符串序列W在所述中文文本中出現(xiàn)的概率 PMLE(WnIW1W2-Wrl), MLE表示這是一種采用最大似然估計(jì)的參數(shù)估計(jì)方法，稱為 n-gram語(yǔ)言模型，如果一個(gè)字符串(n-gram)的長(zhǎng)度為L(zhǎng)，那么由此得到按η切分后的字符串?dāng)?shù)量為L(zhǎng)-η+Ι個(gè)，并統(tǒng)計(jì)其中相同字符串的出現(xiàn)頻率，其中
權(quán)利要求
1. 一種面向股票領(lǐng)域的文本情感分類方法，其特征在于，所述文本情感分類是一種傾向性分析，用于識(shí)別股票領(lǐng)域的中文文本是正面還是負(fù)面的，所述分類方法是在計(jì)算機(jī)中依次按以下步驟實(shí)現(xiàn)的步驟(1)所述計(jì)算機(jī)初始化，設(shè)定以下軟件工具 Add-delta數(shù)據(jù)平滑算法模塊；對(duì)股票新聞進(jìn)行中文分詞用的漢語(yǔ)詞法分析模塊ICTCLAS ；用于文本特征選擇的評(píng)價(jià)模塊；分類實(shí)驗(yàn)所用的Weka模塊，其中包括了 Nai_ve Bayes和K-NN等分類算法，定義在股票領(lǐng)域中文文本分詞用的新詞縮略詞，包括但不限于中石油、國(guó)投和中金；專有名詞，包括但不限于股份有限公司和證券投資基金；派生詞，包括但不限于黑馬股、領(lǐng)漲和利空；復(fù)合詞，包括但不限于沖高回落和分紅派息；步驟(2)把設(shè)定的證券新聞中的新聞標(biāo)題以及包括證券常用詞和供情感分類用的股票名稱在內(nèi)的相關(guān)股票信息作為原始語(yǔ)料，即中文文本，輸入到所述計(jì)算機(jī)；步驟(3)中文文本分詞，把步驟(2)中所述的中文文本中的漢字序列切分成一個(gè)一個(gè) 具有獨(dú)立意義的詞，步驟如下步驟(3.1)采用新詞發(fā)現(xiàn)用的n-gram統(tǒng)計(jì)語(yǔ)言模型構(gòu)建股票領(lǐng)域分詞詞典，步驟如下步驟(3.1.1)建立n-gram模型，設(shè)定一個(gè)字符串序列n-gram用W = W1 w2...Wn表示，W1表示一個(gè)字符，η取2 6 的整數(shù)，表示該字符串中的字符個(gè)數(shù)，則按下式計(jì)算一個(gè)所述字符串序列W在所述中文文本中出現(xiàn)的概率P‘E(Wn|WlW^·· Wrl), MLE表示這是一種采用最大似然估計(jì)的參數(shù)估計(jì)方法，稱為n-gram語(yǔ)言模型，如果一個(gè)字符串(n-gram)的長(zhǎng)度為L(zhǎng)，那么由此得到按η切分后的字符串?dāng)?shù)量為 L-η+Ι個(gè)，并統(tǒng)計(jì)其中相同字符串的出現(xiàn)頻率，其中
全文摘要
一種面向股票領(lǐng)域用的文本情感分類方法，屬于股票傾向性分析技術(shù)領(lǐng)域，其特征在于通過(guò)包括股票新聞在內(nèi)的公開(kāi)新聞信息，利用改進(jìn)了的評(píng)價(jià)組，對(duì)擴(kuò)大了的股票情感詞來(lái)進(jìn)行特征選擇，并用歸一化后的絕對(duì)詞頻權(quán)重對(duì)股票中文文本中的情感詞進(jìn)行特征加權(quán)選擇，最終利用Bayes、K-NN或SVM文本情感分類算法對(duì)股票新聞進(jìn)行傾向性分析。本發(fā)明具有簡(jiǎn)易可行且計(jì)算方便的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/27GK102023967SQ20101054326
公開(kāi)日2011年4月20日申請(qǐng)日期2010年11月11日優(yōu)先權(quán)日2010年11月11日
發(fā)明者周莉, 張勇, 邢春曉, 高旸申請(qǐng)人:清華大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張勇;高旸;周莉;邢春曉
技術(shù)所有人：清華大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本情感分析相關(guān)技術(shù)

情感電臺(tái)文本相關(guān)技術(shù)

文本情感分析算法相關(guān)技術(shù)

文本情感分類相關(guān)技術(shù)

文本情感分析軟件相關(guān)技術(shù)

文本情感分析工具相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種面向股票領(lǐng)域的文本情感分類方法