專利名稱:一種面向股票領(lǐng)域的文本情感分類方法
技術(shù)領(lǐng)域:
本發(fā)明屬于自然語(yǔ)言處理的文本情感分類領(lǐng)域,具體涉及一種面向股票領(lǐng)域的 文本情感分類方法。
背景技術(shù):
隨著經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,通過(guò)購(gòu)買股票進(jìn)行投資理財(cái)已逐漸成 為當(dāng)今社會(huì)的大勢(shì)所趨,如何準(zhǔn)確地購(gòu)買股票成為投資者非常關(guān)心的問(wèn)題。與此同時(shí), 隨著網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)憑借實(shí)時(shí)性、豐富性以及覆蓋性等特點(diǎn)逐漸取代傳統(tǒng)的 新聞媒體成為人們獲取信息的主要途徑,越來(lái)越多的股票新聞出現(xiàn)在網(wǎng)絡(luò)上,這些新聞 包括宏觀經(jīng)濟(jì)新聞、個(gè)股相關(guān)新聞、行業(yè)新聞、上市公司新聞等等。有效市場(chǎng)理論(EMH Efficient Markets Hypothesis),又被稱為有效市場(chǎng)假說(shuō)或 有效市場(chǎng)假設(shè),始于美國(guó)芝加哥大學(xué)著名教授Eugene Fama在1965年發(fā)表在《商業(yè)學(xué) 刊》的一篇名為《股票市場(chǎng)價(jià)格走勢(shì)》的論文,而后Eugene Fama在1970年發(fā)表于《金 融》的論文《有效資本市場(chǎng)理論與實(shí)踐研究回顧》中深化并提出的。有效市場(chǎng)理論假 定所有公開(kāi)的信息都會(huì)反映到市場(chǎng)價(jià)格之中,相關(guān)的信息如果不受扭曲且在證券價(jià)格中 得到充分反映,市場(chǎng)就是有效的。既然證券價(jià)格能充分反映一切可獲得的信息,那么, 可獲得的相關(guān)信息就成為價(jià)格能否有效的決定因素了。按照可獲得的信息分類的不同,有效市場(chǎng)理論在有效率的資本市場(chǎng)分為以下三 種表現(xiàn)形態(tài)弱式有效市場(chǎng),半強(qiáng)式有效市場(chǎng),強(qiáng)式有效市場(chǎng)。從中國(guó)的現(xiàn)實(shí)情況來(lái) 看,國(guó)內(nèi)多數(shù)學(xué)者支持中國(guó)股市是弱式有效的。在弱有效市場(chǎng)中,信息發(fā)布后需要一段時(shí)間才能反應(yīng)到股價(jià)中,也就是說(shuō)信息 發(fā)布后,股票會(huì)經(jīng)過(guò)一段時(shí)間才能調(diào)整到合適的價(jià)位。因此不能忽視股票新聞對(duì)于股市 的影響,新聞的數(shù)量以及內(nèi)容的傾向性在很大程度上也會(huì)左右投資者的購(gòu)買行為。例如 國(guó)務(wù)院將于2010年4月24號(hào)把印花稅稅率由3%。下調(diào)為1%。的消息一出,滬指暴漲304 點(diǎn),千余個(gè)股漲停;又如在2010年年初的“兩會(huì)”上,政府工作報(bào)告提出要發(fā)展“低碳 經(jīng)濟(jì)”,之后“新能源板塊”引來(lái)利好,逐漸走強(qiáng)。因此研究股市新聞的傾向性,對(duì)輔 助投資者做出投資決策具有一定的實(shí)用意義。所謂傾向性分析,就是識(shí)別文本是正面還是負(fù)面的,這一類型的研究,被稱為 情感分類。文本情感分類是一種特殊的文本分類問(wèn)題,需要通過(guò)挖掘和分析文本中的立 場(chǎng)、觀點(diǎn)、看法、情緒等主觀信息,對(duì)文本的情感傾向做出類別判斷。文本情感分類是 判斷傾向性很好的方法,在個(gè)性化推薦、個(gè)性化觀點(diǎn)檢索、用戶興趣挖掘、信息過(guò)濾、 郵件過(guò)濾、社會(huì)輿論分析等方面得到很好的應(yīng)用。目前國(guó)內(nèi)外有一些提供金融資訊服務(wù)的企業(yè),例如國(guó)內(nèi)的大智慧資訊、維賽特 資訊以及國(guó)外的路透社等。然而這些公司提供的服務(wù)一般都價(jià)格高昂,普通投資者是無(wú) 法承受的。因此可以考慮利用財(cái)經(jīng)網(wǎng)站上容易獲得的新聞等信息,通過(guò)文本情感分類的 處理后,給出每條新聞的正負(fù)性提示,可以幫助投資者更快速地做出投資決定。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種面向股票領(lǐng)域的文本情感分類方法,用來(lái)提供股票 新聞情感傾向分類的建議。本發(fā)明的特征在于,所述文本情感分類是一種傾向性分析,用于識(shí)別股票領(lǐng)域 的中文文本是正面還是負(fù)面的,所述分類方法是在計(jì)算機(jī)中依次按以下步驟實(shí)現(xiàn)的步驟(1)所述計(jì)算機(jī)初始化,設(shè)定以下軟件工具
Add-delta數(shù)據(jù)平滑算法模塊;對(duì)股票新聞進(jìn)行中文分詞用的漢語(yǔ)詞法分析模塊ICTCLAS ;用于文本特征選擇的評(píng)價(jià)模塊;分類實(shí)驗(yàn)所用的Weka模塊,其中包括了 Naifve Bayes和K-NN等分類算法,定義在股票領(lǐng)域中文文本分詞用的新詞縮略詞,包括但不限于中石油、國(guó)投和中金;專有名詞,包括但不限于股份有限公司和證券投資基金;派生詞,包括但不限于黑馬股、領(lǐng)漲和利空;復(fù)合詞,包括但不限于沖高回落和分紅派息;步驟(2)把設(shè)定的證券新聞中的新聞標(biāo)題以及包括證券常用詞和供情感分類用 的股票名稱在內(nèi)的相關(guān)股票信息作為原始語(yǔ)料,即中文文本,輸入到所述計(jì)算機(jī);步驟(3)中文文本分詞,把步驟⑵中所述的中文文本中的漢字序列切分成一個(gè) 一個(gè)具有獨(dú)立意義的詞,步驟如下步驟(3.1)采用新詞發(fā)現(xiàn)用的n-gram統(tǒng)計(jì)語(yǔ)言模型構(gòu)建股票領(lǐng)域分詞詞典,步 驟如下步驟(3丄1)建立n-gram模型,設(shè)定一個(gè)字符串序列n-gram用W = W1W2...Wn表示,W1表示一個(gè)字符,η取2 6的整數(shù),表示該字符串中的字符個(gè)數(shù),則按下式計(jì)算一個(gè)所述字符串序列W在所述中文文本中出現(xiàn)的概率 PMLE(WnIW1W2-Wrl), MLE表示這是一種采用最大似然估計(jì)的參數(shù)估計(jì)方法,稱為 n-gram語(yǔ)言模型,如果一個(gè)字符串(n-gram)的長(zhǎng)度為L(zhǎng),那么由此得到按η切分后的字符串?dāng)?shù)量 為L(zhǎng)-η+Ι個(gè),并統(tǒng)計(jì)其中相同字符串的出現(xiàn)頻率,其中
權(quán)利要求
1. 一種面向股票領(lǐng)域的文本情感分類方法,其特征在于,所述文本情感分類是一種 傾向性分析,用于識(shí)別股票領(lǐng)域的中文文本是正面還是負(fù)面的,所述分類方法是在計(jì)算 機(jī)中依次按以下步驟實(shí)現(xiàn)的步驟(1)所述計(jì)算機(jī)初始化,設(shè)定以下軟件工具 Add-delta數(shù)據(jù)平滑算法模塊;對(duì)股票新聞進(jìn)行中文分詞用的漢語(yǔ)詞法分析模塊ICTCLAS ; 用于文本特征選擇的評(píng)價(jià)模塊;分類實(shí)驗(yàn)所用的Weka模塊,其中包括了 Nai_ve Bayes和K-NN等分類算法, 定義在股票領(lǐng)域中文文本分詞用的新詞 縮略詞,包括但不限于中石油、國(guó)投和中金; 專有名詞,包括但不限于股份有限公司和證券投資基金; 派生詞,包括但不限于黑馬股、領(lǐng)漲和利空; 復(fù)合詞,包括但不限于沖高回落和分紅派息;步驟(2)把設(shè)定的證券新聞中的新聞標(biāo)題以及包括證券常用詞和供情感分類用的股 票名稱在內(nèi)的相關(guān)股票信息作為原始語(yǔ)料,即中文文本,輸入到所述計(jì)算機(jī);步驟(3)中文文本分詞,把步驟(2)中所述的中文文本中的漢字序列切分成一個(gè)一個(gè) 具有獨(dú)立意義的詞,步驟如下步驟(3.1)采用新詞發(fā)現(xiàn)用的n-gram統(tǒng)計(jì)語(yǔ)言模型構(gòu)建股票領(lǐng)域分詞詞典,步驟如下步驟(3.1.1)建立n-gram模型,設(shè)定一個(gè)字符串序列n-gram用W = W1 w2...Wn表示,W1表示一個(gè)字符,η取2 6 的整數(shù),表示該字符串中的字符個(gè)數(shù),則按下式計(jì)算一個(gè)所述字符串序列W在所述中文文本中出現(xiàn)的概率P‘E(Wn|WlW^·· Wrl), MLE表示這是一種采用最大似然估計(jì)的參數(shù)估計(jì)方法,稱為n-gram語(yǔ)言模型,如果一個(gè)字符串(n-gram)的長(zhǎng)度為L(zhǎng),那么由此得到按η切分后的字符串?dāng)?shù)量為 L-η+Ι個(gè),并統(tǒng)計(jì)其中相同字符串的出現(xiàn)頻率,其中
全文摘要
一種面向股票領(lǐng)域用的文本情感分類方法,屬于股票傾向性分析技術(shù)領(lǐng)域,其特征在于通過(guò)包括股票新聞在內(nèi)的公開(kāi)新聞信息,利用改進(jìn)了的評(píng)價(jià)組,對(duì)擴(kuò)大了的股票情感詞來(lái)進(jìn)行特征選擇,并用歸一化后的絕對(duì)詞頻權(quán)重對(duì)股票中文文本中的情感詞進(jìn)行特征加權(quán)選擇,最終利用Bayes、K-NN或SVM文本情感分類算法對(duì)股票新聞進(jìn)行傾向性分析。本發(fā)明具有簡(jiǎn)易可行且計(jì)算方便的優(yōu)點(diǎn)。
文檔編號(hào)G06F17/27GK102023967SQ20101054326
公開(kāi)日2011年4月20日 申請(qǐng)日期2010年11月11日 優(yōu)先權(quán)日2010年11月11日
發(fā)明者周莉, 張勇, 邢春曉, 高旸 申請(qǐng)人:清華大學(xué)