亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于情感極性感知算法的跨媒體微博輿情分析方法與流程

文檔序號(hào):12465538閱讀:720來(lái)源:國(guó)知局
一種基于情感極性感知算法的跨媒體微博輿情分析方法與流程

本發(fā)明涉及文本情感分析,尤其是涉及一種基于情感極性感知算法的跨媒體微博輿情分析方法。



背景技術(shù):

現(xiàn)有的輿情情感分析算法,主要是利用文本特征進(jìn)行情感分類(lèi),在社交媒體這種多媒體環(huán)境中,有時(shí)候文本信息是缺失的,這時(shí)候這些傳統(tǒng)的算法就會(huì)失效,同理,僅僅利用圖像的信息的話,圖像信息缺失的情況下,算法也會(huì)失效;

文本情感分析有兩大主流方法,一種是基于字典的方法,另一種是基于機(jī)器學(xué)習(xí)的方法。其中基于字典的方法,由Turney(Turney P.Thumbs up or thumbs down:Semantic orientation applied to unsupervised classification of reviews.Proc.of the ACL.Morristown:ACL,2002,417-424)提出,主要手段是文本中首先提取情感相關(guān)的詞組,然后據(jù)此計(jì)算整段文本的特征,從而得出情感分析結(jié)果。另一種是基于機(jī)器學(xué)習(xí)的方法,利用文本中提取到的特征,輸入到樸素貝葉斯分類(lèi)器、支持向量機(jī)等算法中進(jìn)行訓(xùn)練和分類(lèi)。(B.Pang,L.Lee el al.Thumbs up:sentiment classification using machine learning techniques.In Proc.of the ACL-02conference on Empirical methods in natural language processing-Volume 10,2002,79-86.)

關(guān)于圖像情感分析,現(xiàn)有的算法數(shù)量要比文本情感分析算法少的多。D Borth et al.提出了一種運(yùn)用ANP(形容詞名詞對(duì))中層特征的情感分析方法。具體手段為對(duì)于輸入圖像,用若干個(gè)ANP檢測(cè)子對(duì)其進(jìn)行分析,輸出對(duì)應(yīng)ANP維數(shù)的中層特征,利用這些中層特征進(jìn)行情感分類(lèi)。

現(xiàn)有的情感分析技術(shù)都是針對(duì)文本或圖像單一通道的,在實(shí)際運(yùn)用場(chǎng)景中,若圖像/文本信息有缺失,這些算法都會(huì)失效;同時(shí),現(xiàn)有技術(shù)僅僅停留在算法研究階段,沒(méi)有對(duì)分析結(jié)果進(jìn)行面向應(yīng)用的組織。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種基于情感極性感知算法的跨媒體微博輿情分析方法。

本發(fā)明包括以下步驟:

1)利用機(jī)器人爬蟲(chóng)自動(dòng)抓取微博上的熱門(mén)話題下的信息;

2)對(duì)抓取到的信息進(jìn)行預(yù)處理,過(guò)濾掉不相關(guān)的內(nèi)容,并以規(guī)定的格式存儲(chǔ)到數(shù)據(jù)庫(kù)待分析;

3)對(duì)于文本信息,利用已有情感傾向性標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)bag-of-words深度網(wǎng)絡(luò)模型,并以該模型對(duì)輸入的文本信息進(jìn)行傾向性預(yù)測(cè);

4)對(duì)于圖像信息,利用已有情感傾向性標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)bag-of-image-words深度網(wǎng)絡(luò)模型,并以該模型對(duì)輸入的圖像信息進(jìn)行傾向性預(yù)測(cè);

5)綜合步驟3)與4)中傾向性分析結(jié)果,給出最終結(jié)果,并以地理、話題、用戶、時(shí)間等多維度的方式可視化展示,對(duì)傾向性信息進(jìn)行統(tǒng)計(jì)學(xué)分析,進(jìn)而獲得關(guān)于輿情的宏觀分析結(jié)果,對(duì)輿情的歷史走勢(shì),將來(lái)發(fā)展做出描繪與評(píng)估。

在步驟1)中,所述信息包括但不限于文本、圖像、鏈接、表情、用戶地理位置、發(fā)布時(shí)間、用戶名等有價(jià)值的數(shù)據(jù)。

本發(fā)明具有以下優(yōu)點(diǎn):

本發(fā)明全面綜合了圖像與文本的信息,互相補(bǔ)充,互相印證,同時(shí)在應(yīng)用層面,以地理、時(shí)間、微博、話題等組織形式對(duì)算法分析結(jié)果做出了統(tǒng)計(jì)學(xué)分析,相較于單純的算法,更有現(xiàn)實(shí)意義;同時(shí)引入深度網(wǎng)絡(luò)算法,相較于傳統(tǒng)方法,大大提升了算法的準(zhǔn)確率。

傳統(tǒng)的方法一般只關(guān)注文本信息,則情感分析問(wèn)題可描述為:

yt=ft(T)

其中

T={w1,...,wj,...,wm},代表文本信息,wm代表第m個(gè)詞,yt代表情感極性的分析結(jié)果,ft代表分析函數(shù)。

而本發(fā)明中,結(jié)合了文本與圖像的跨媒體信息,則問(wèn)題可描述為:

y=λft(T)+(1-λ)fp(I)

T和I分別代表文本和圖像信息。用文本和圖像分析結(jié)果的加權(quán)和代表最終情感傾向性分析結(jié)果,λ代表一個(gè)權(quán)重系數(shù),用來(lái)平衡文本和圖像信息的權(quán)重。

用bag-of-words的方法來(lái)表示一條文本信息為x:

as x={w1,...,wi,...,wm,p1,...,pj,...,pd}

其中w代表文本特征,p代表圖像特征。因?yàn)閳D像和文本的底層特征通常非常不同,所以將其轉(zhuǎn)化為代表詞表示:Bag of Text Words以及Bag of Image Words

其中Bag of Text Words:

Ti={wi,1,...,wi,j,...,wi,m}

Wi,1代表積極情感的詞在文本中的數(shù)量,其他的含義如表1所示。

表1

與此同時(shí),在訓(xùn)練語(yǔ)料數(shù)目足夠多的情況下,本發(fā)明可以用時(shí)間遞歸網(wǎng)絡(luò)(LSTM,如圖1所示)來(lái)端到端(end-to-end)的配合處理語(yǔ)料。利用足夠多的有標(biāo)數(shù)據(jù),可以訓(xùn)練一個(gè)LSTM模型用于將語(yǔ)料直接映射到情感傾向分布,提高預(yù)測(cè)的精確度。

Bag of Image Words(詞袋模型)則用top-N ANP來(lái)表示:

ANP即形容詞名詞對(duì),對(duì)每種統(tǒng)計(jì)中經(jīng)常出現(xiàn)的每個(gè)形容詞名詞對(duì)訓(xùn)練一個(gè)檢測(cè)子,對(duì)應(yīng)-2到2的情感極性評(píng)分。其中響應(yīng)最高的top-N個(gè)ANP構(gòu)成Bag of Image Words。

對(duì)于輸入的特征:

xi={Ti,Ii}={wi,1,...,wi,j,...,wi,m,pi,1,...,pi,k,...,pi,d}

運(yùn)用邏輯回歸算法ytp=ftp(x)來(lái)做訓(xùn)練與預(yù)測(cè):

其中Pr(C=k|X=x)代表對(duì)于輸入x,其情感傾向?yàn)镃=k的概率,βk0代表偏置項(xiàng),代表K類(lèi)的權(quán)重向量,且:

即對(duì)特定輸入x,所有情感傾向的概率之和為1

訓(xùn)練過(guò)程可以表示為如下優(yōu)化問(wèn)題:

c*=argmaccPr(C=c|x)

即求出對(duì)于給定x輸入的最大似然類(lèi)別。

當(dāng)模型訓(xùn)練收斂后,利用該模型就可以對(duì)情感傾向性進(jìn)行預(yù)測(cè)和分類(lèi)。

同時(shí),在訓(xùn)練數(shù)據(jù)規(guī)模增大后,本發(fā)明中可以利用使用如圖2所示的深度卷積網(wǎng)絡(luò)(CNN)來(lái)替換上述模塊,利用深度卷積網(wǎng)絡(luò)端到端(end-to-end)訓(xùn)練的特性,將每一個(gè)ANP視為標(biāo)簽信息,利用輸入圖像和對(duì)應(yīng)的標(biāo)簽信息在經(jīng)典模型alexnet(結(jié)構(gòu)如圖2所示)上訓(xùn)練,訓(xùn)練收斂后,利用深度網(wǎng)絡(luò)模型就可以對(duì)未知的輸入圖片進(jìn)行檢測(cè),探測(cè)這張圖片在n個(gè)ANP上的響應(yīng)值,并將這些響應(yīng)值視為中層特征,用于后續(xù)的情感傾向性檢測(cè)工作。

在社交媒體中,如微博,利用爬蟲(chóng)技術(shù)抓取微博的圖像及文本信息,處理成特定格式后,利用上述算法抽取特征并進(jìn)行情感傾向性分析。特別的、當(dāng)圖像缺失或文本較短信息不足時(shí)候,上述方法能通過(guò)跨媒體獲得信息進(jìn)行補(bǔ)充,進(jìn)而正常工作。在獲得單條微博的傾向性后,在時(shí)間、地理、話題上對(duì)傾向性信息進(jìn)行統(tǒng)計(jì)學(xué)分析,進(jìn)而獲得關(guān)于輿情的宏觀分析結(jié)果,對(duì)輿情的歷史走勢(shì),將來(lái)發(fā)展做出描繪與評(píng)估。

本發(fā)明不僅利用了社交媒體中的文本信息,還引入了對(duì)圖像情感的分析,并將兩者結(jié)合起來(lái)給出遠(yuǎn)較利用單個(gè)媒體信息的算法置信度更高的結(jié)果;本發(fā)明還實(shí)現(xiàn)了從數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)分析到前臺(tái)展示一體化架構(gòu),可以實(shí)時(shí)在線運(yùn)行分析。

1,本發(fā)明整合了文本到圖像的跨媒體情感分析模式,能夠有效解決利用單個(gè)媒體做情感分析時(shí)準(zhǔn)確率不高的現(xiàn)實(shí)問(wèn)題;

2,本發(fā)明在情感分析的算法基礎(chǔ)上,利用分析結(jié)果實(shí)現(xiàn)了對(duì)社交媒體信息在地理尺度、時(shí)間尺度、話題尺度、單條微博尺度上的實(shí)時(shí)輿情監(jiān)控算法,搭建了從抓取信息到分析到展示一站式平臺(tái);

3,本發(fā)明在實(shí)際輿情環(huán)境中運(yùn)行測(cè)試,驗(yàn)證了系統(tǒng)的可行性與實(shí)用性。

附圖說(shuō)明

圖1為RNN(遞歸神經(jīng)網(wǎng)絡(luò))LSTM(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò))的基本單元示意圖。

圖2為CNN(卷積神經(jīng)網(wǎng)絡(luò))Alexnet的基本結(jié)構(gòu)示意圖。

具體實(shí)施方式

本發(fā)明包括以下步驟:

1)利用機(jī)器人爬蟲(chóng)自動(dòng)抓取微博上的熱門(mén)話題下的信息,所述信息包括但不限于文本、圖像、鏈接、表情、用戶地理位置、發(fā)布時(shí)間、用戶名等有價(jià)值的數(shù)據(jù);

2)對(duì)抓取到的信息進(jìn)行預(yù)處理,過(guò)濾掉不相關(guān)的內(nèi)容,并以規(guī)定的格式存儲(chǔ)到數(shù)據(jù)庫(kù)待分析;

3)對(duì)于文本信息,利用已有情感傾向性標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)bag-of-words深度網(wǎng)絡(luò)模型,并以該模型對(duì)輸入的文本信息進(jìn)行傾向性預(yù)測(cè);

4)對(duì)于圖像信息,利用已有情感傾向性標(biāo)注的訓(xùn)練數(shù)據(jù)訓(xùn)練一個(gè)bag-of-image-words深度網(wǎng)絡(luò)模型,并以該模型對(duì)輸入的圖像信息進(jìn)行傾向性預(yù)測(cè);

5)綜合步驟3)與4)中傾向性分析結(jié)果,給出最終結(jié)果,并以地理、話題、用戶、時(shí)間等多維度的方式可視化展示,對(duì)傾向性信息進(jìn)行統(tǒng)計(jì)學(xué)分析,進(jìn)而獲得關(guān)于輿情的宏觀分析結(jié)果,對(duì)輿情的歷史走勢(shì),將來(lái)發(fā)展做出描繪與評(píng)估。

本發(fā)明具有以下優(yōu)點(diǎn):

本發(fā)明全面綜合了圖像與文本的信息,互相補(bǔ)充,互相印證,同時(shí)在應(yīng)用層面,以地理、時(shí)間、微博、話題等組織形式對(duì)算法分析結(jié)果做出了統(tǒng)計(jì)學(xué)分析,相較于單純的算法,更有現(xiàn)實(shí)意義。

傳統(tǒng)的方法一般只關(guān)注文本信息,則情感分析問(wèn)題可描述為:

yt=ft(T)

其中

T={w1,...,wj,...,wm},代表文本信息,wm代表第m個(gè)詞,yt代表情感極性的分析結(jié)果,ft代表分析函數(shù)。

而本發(fā)明中,結(jié)合了文本與圖像的跨媒體信息,則問(wèn)題可描述為:

y=λft(T)+(1-λ)fp(I)

T和I分別代表文本和圖像信息。用文本和圖像分析結(jié)果的加權(quán)和代表最終情感傾向性分析結(jié)果,λ代表一個(gè)權(quán)重系數(shù),用來(lái)平衡文本和圖像信息的權(quán)重。

用bag-of-words的方法來(lái)表示一條文本信息為x:

as X={w1,...,wi,...,wm,p1,...,pj,...,Pd}

其中w代表文本特征,p代表圖像特征。因?yàn)閳D像和文本的底層特征通常非常不同,所以將其轉(zhuǎn)化為代表詞表示:Bag of Text Words以及Bag of Image Words

其中Bag of Text Words:

Ti={wi,1,...,wi,j,...,wi,m}

Wi,1代表積極情感的詞在文本中的數(shù)量,其他的含義如表1所示:

表1

Bag of Image Words(詞袋模型)則用top-N ANP來(lái)表示:

ANP即形容詞名詞對(duì),對(duì)每種統(tǒng)計(jì)中經(jīng)常出現(xiàn)的每個(gè)形容詞名詞對(duì)訓(xùn)練一個(gè)檢測(cè)子,對(duì)應(yīng)-2到2的情感極性評(píng)分。其中響應(yīng)最高的top-N個(gè)ANP構(gòu)成Bag of Image Words。

對(duì)于輸入的特征:

xi={Ti,Ii}={wi,1,...,wi,j,...,wi,m,pi,1,...,pi,k,...,pi,d}

運(yùn)用邏輯回歸算法ytp=ftp(x)來(lái)做訓(xùn)練與預(yù)測(cè):

其中Pr(C=k|X=x)代表對(duì)于輸入x,其情感傾向?yàn)镃=k的概率,βk0代表偏置項(xiàng),代表K類(lèi)的權(quán)重向量,且:

即對(duì)特定輸入x,所有情感傾向的概率之和為1。

訓(xùn)練過(guò)程可以表示為如下優(yōu)化問(wèn)題:

c*=argmaccPr(C=c|x)

即求出對(duì)于給定x輸入的最大似然類(lèi)別。

當(dāng)模型訓(xùn)練收斂后,利用該模型就可以對(duì)情感傾向性進(jìn)行預(yù)測(cè)和分類(lèi)。

在社交媒體中,如微博,利用爬蟲(chóng)技術(shù)抓取微博的圖像及文本信息,處理成特定格式后,利用上述算法抽取特征并進(jìn)行情感傾向性分析。特別的、當(dāng)圖像缺失或文本較短信息不足時(shí)候,上述方法能通過(guò)跨媒體獲得信息進(jìn)行補(bǔ)充,進(jìn)而正常工作。在獲得單條微博的傾向性后,在時(shí)間、地理、話題上對(duì)傾向性信息進(jìn)行統(tǒng)計(jì)學(xué)分析,進(jìn)而獲得關(guān)于輿情的宏觀分析結(jié)果,對(duì)輿情的歷史走勢(shì),將來(lái)發(fā)展做出描繪與評(píng)估。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1