亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種輿情事件檢測(cè)方法及裝置與流程

文檔序號(hào):11286259閱讀:275來(lái)源:國(guó)知局
一種輿情事件檢測(cè)方法及裝置與流程

本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及一種輿情事件檢測(cè)方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的迅猛發(fā)展,網(wǎng)絡(luò)輿情正在成為普通百姓表達(dá)利益訴求,倡導(dǎo)社會(huì)公平公正,不間斷地向我國(guó)各級(jí)政府傳達(dá)民眾共同心聲的一塊思想陣地。越來(lái)越多的人愿意把所想表達(dá)的觀點(diǎn)和所看到的現(xiàn)象發(fā)布到網(wǎng)絡(luò)上,通過(guò)網(wǎng)絡(luò)的傳播讓更多的人參與進(jìn)來(lái),從而對(duì)網(wǎng)民情緒和社會(huì)穩(wěn)定產(chǎn)生了重大影響。因此,利用現(xiàn)代科學(xué)技術(shù),準(zhǔn)確檢測(cè)輿情事件具有十分重要的意義。

目前關(guān)于輿情事件的檢測(cè)發(fā)現(xiàn),還停留在利用一些輿情敏感詞匯來(lái)進(jìn)行語(yǔ)義匹配,又由于與輿情事件關(guān)聯(lián)的命名實(shí)體詞,如人名、外文人名譯名和機(jī)構(gòu)名簡(jiǎn)稱,只有出現(xiàn)在相關(guān)聯(lián)事件的語(yǔ)境中才體現(xiàn)輿情。而對(duì)于存在重名的命名實(shí)體,需要結(jié)合當(dāng)前輿情事件背景分析其含義,對(duì)于該類具有歧義的特征詞,傳統(tǒng)靜態(tài)語(yǔ)料庫(kù)中可能未含有對(duì)其最新的解釋性義項(xiàng)。這種傳統(tǒng)的基于輿情特征詞(敏感詞、命名實(shí)體等)的過(guò)濾方法,因其實(shí)現(xiàn)機(jī)制簡(jiǎn)單、執(zhí)行效率高,仍是一種重要的預(yù)處理手段;然而,面對(duì)互聯(lián)網(wǎng)海量文本,尤其是碎片化、不規(guī)范的社會(huì)化媒體內(nèi)容,該預(yù)處理過(guò)濾機(jī)制由于缺乏有效的語(yǔ)義約束,存在一定的假陽(yáng)性,容易造成錯(cuò)判、漏判,無(wú)法準(zhǔn)確識(shí)別需要進(jìn)行關(guān)注的輿情事件。在大數(shù)據(jù)的網(wǎng)絡(luò)輿情預(yù)警應(yīng)用環(huán)境中給后續(xù)處理帶來(lái)相當(dāng)可觀的噪音數(shù)據(jù)輸入,因此亟需要具備語(yǔ)義理解能力的數(shù)據(jù)預(yù)處理機(jī)制。



技術(shù)實(shí)現(xiàn)要素:

由于傳統(tǒng)的特征詞過(guò)濾方法面對(duì)互聯(lián)網(wǎng)海量文本,缺乏有效的語(yǔ)義約束,容易造成錯(cuò)判、漏判,無(wú)法準(zhǔn)確檢測(cè)出需要進(jìn)行關(guān)注的輿情事件的問(wèn)題,本發(fā)明提出一種輿情事件檢測(cè)方法及裝置。

第一方面,本發(fā)明提出一種輿情事件檢測(cè)方法,包括:

獲取待檢測(cè)文本的特征詞向量,所述特征詞向量的元素表示待檢測(cè)文本中對(duì)應(yīng)的特征詞是否出現(xiàn);

從語(yǔ)義知識(shí)庫(kù)中獲取所有特征詞對(duì)應(yīng)的向量,并從敏感詞庫(kù)獲取敏感義項(xiàng)向量,所述特征詞對(duì)應(yīng)的向量的元素包括當(dāng)前特征詞、當(dāng)前特征詞是否包含敏感義項(xiàng)、當(dāng)前特征詞的當(dāng)前義項(xiàng)和當(dāng)前特征詞對(duì)應(yīng)的特征詞向量,所述敏感義項(xiàng)向量表示當(dāng)前特征詞對(duì)應(yīng)的向量中的義項(xiàng)為當(dāng)前敏感義項(xiàng);

計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,其中,所述所有特征詞對(duì)應(yīng)的特征詞向量包括所有敏感義項(xiàng)向量;

獲取相似度最大時(shí)對(duì)應(yīng)的第一敏感義項(xiàng),并獲取待檢測(cè)文本中所述第一敏感義項(xiàng)的數(shù)量和待檢測(cè)文本中特征詞的數(shù)量,根據(jù)第一預(yù)設(shè)權(quán)值和第二預(yù)設(shè)權(quán)值,計(jì)算所述第一敏感義項(xiàng)的數(shù)量和所述特征詞的數(shù)量的加權(quán)和,當(dāng)所述加權(quán)和大于閾值時(shí)確定待檢測(cè)文本中描述的事件為輿情事件。

優(yōu)選地,所述獲取待檢測(cè)文本的特征詞向量之前包括:

根據(jù)網(wǎng)頁(yè)內(nèi)容構(gòu)建所述語(yǔ)義知識(shí)庫(kù)。

優(yōu)選地,所述網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在xml格式文件中。

優(yōu)選地,所述網(wǎng)頁(yè)內(nèi)容為維基百科。

優(yōu)選地,所述根據(jù)網(wǎng)頁(yè)內(nèi)容構(gòu)建所述語(yǔ)義知識(shí)庫(kù)之后包括:

根據(jù)所述語(yǔ)義知識(shí)庫(kù)和預(yù)設(shè)特征詞的敏感義項(xiàng)建立敏感詞庫(kù)。

第二方面,本發(fā)明還提出一種輿情事件檢測(cè)裝置,包括:

特征詞向量獲取模塊,用于獲取待檢測(cè)文本的特征詞向量,所述特征詞向量的元素表示待檢測(cè)文本中對(duì)應(yīng)的特征詞是否出現(xiàn);

對(duì)應(yīng)向量獲取模塊,用于從語(yǔ)義知識(shí)庫(kù)中獲取所有特征詞對(duì)應(yīng)的向量,并從敏感詞庫(kù)獲取敏感義項(xiàng)向量,所述特征詞對(duì)應(yīng)的向量的元素包括當(dāng)前特征詞、當(dāng)前特征詞是否包含敏感義項(xiàng)、當(dāng)前特征詞的當(dāng)前義項(xiàng)和當(dāng)前特征詞對(duì)應(yīng)的特征詞向量,所述敏感義項(xiàng)向量表示當(dāng)前特征詞對(duì)應(yīng)的向量中的義項(xiàng)為當(dāng)前敏感義項(xiàng);

相似度計(jì)算模塊,用于計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,其中,所述所有特征詞對(duì)應(yīng)的特征詞向量包括所有敏感義項(xiàng)向量;

事件檢測(cè)模塊,用于獲取相似度最大時(shí)對(duì)應(yīng)的第一敏感義項(xiàng),并獲取待檢測(cè)文本中所述第一敏感義項(xiàng)的數(shù)量和待檢測(cè)文本中特征詞的數(shù)量;根據(jù)第一預(yù)設(shè)權(quán)值和第二預(yù)設(shè)權(quán)值,計(jì)算所述第一敏感義項(xiàng)的數(shù)量和所述特征詞的數(shù)量的加權(quán)和,當(dāng)所述加權(quán)和大于閾值時(shí)確定待檢測(cè)文本中描述的事件為輿情事件。

優(yōu)選地,還包括:

語(yǔ)義知識(shí)庫(kù)構(gòu)建模塊,用于根據(jù)網(wǎng)頁(yè)內(nèi)容構(gòu)建所述語(yǔ)義知識(shí)庫(kù)。

優(yōu)選地,所述網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在xml格式文件中。

優(yōu)選地,所述網(wǎng)頁(yè)內(nèi)容為維基百科。

優(yōu)選地,還包括:

敏感詞庫(kù)建立模塊,用于根據(jù)所述語(yǔ)義知識(shí)庫(kù)和預(yù)設(shè)特征詞的敏感義項(xiàng)建立敏感詞庫(kù)。

由上述技術(shù)方案可知,本發(fā)明通過(guò)對(duì)待檢測(cè)文本向量化,能夠達(dá)到有效的語(yǔ)義約束;同時(shí)通過(guò)計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,能夠準(zhǔn)確檢測(cè)出需要進(jìn)行關(guān)注的輿情事件的問(wèn)題,大大降低錯(cuò)判和漏判的概率。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些圖獲得其他的附圖。

圖1為本發(fā)明一實(shí)施例提供的一種輿情事件檢測(cè)方法的流程示意圖;

圖2為本發(fā)明一實(shí)施例提供的一種輿情事件檢測(cè)方法的流程圖;

圖3為本發(fā)明一實(shí)施例提供的一種輿情事件檢測(cè)裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖,對(duì)發(fā)明的具體實(shí)施方式作進(jìn)一步描述。以下實(shí)施例僅用于更加清楚地說(shuō)明本發(fā)明的技術(shù)方案,而不能以此來(lái)限制本發(fā)明的保護(hù)范圍。

圖1示出了本發(fā)明一實(shí)施例提供的一種輿情事件檢測(cè)方法的流程示意圖,包括:

s101、獲取待檢測(cè)文本的特征詞向量,所述特征詞向量的元素表示待檢測(cè)文本中對(duì)應(yīng)的特征詞是否出現(xiàn);

s102、從語(yǔ)義知識(shí)庫(kù)中獲取所有特征詞對(duì)應(yīng)的向量,并從敏感詞庫(kù)獲取敏感義項(xiàng)向量,所述特征詞對(duì)應(yīng)的向量的元素包括當(dāng)前特征詞、當(dāng)前特征詞是否包含敏感義項(xiàng)、當(dāng)前特征詞的當(dāng)前義項(xiàng)和當(dāng)前特征詞對(duì)應(yīng)的特征詞向量,所述敏感義項(xiàng)向量表示當(dāng)前特征詞對(duì)應(yīng)的向量中的義項(xiàng)為當(dāng)前敏感義項(xiàng);

s103、計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,其中,所述所有特征詞對(duì)應(yīng)的特征詞向量包括所有敏感義項(xiàng)向量;

s104、獲取相似度最大時(shí)對(duì)應(yīng)的第一敏感義項(xiàng),并獲取待檢測(cè)文本中所述第一敏感義項(xiàng)的數(shù)量和待檢測(cè)文本中特征詞的數(shù)量,根據(jù)第一預(yù)設(shè)權(quán)值和第二預(yù)設(shè)權(quán)值,計(jì)算所述第一敏感義項(xiàng)的數(shù)量和所述特征詞的數(shù)量的加權(quán)和,當(dāng)所述加權(quán)和大于閾值時(shí)確定待檢測(cè)文本中描述的事件為輿情事件。

其中,當(dāng)所述特征詞向量的元素對(duì)應(yīng)的特征詞為敏感詞時(shí),可將對(duì)應(yīng)元素設(shè)為0。

本實(shí)施例通過(guò)對(duì)待檢測(cè)文本向量化,能夠達(dá)到有效的語(yǔ)義約束;同時(shí)通過(guò)計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,能夠準(zhǔn)確檢測(cè)出需要進(jìn)行關(guān)注的輿情事件的問(wèn)題,大大降低錯(cuò)判和漏判的概率。

作為本實(shí)施例的可選方案,步驟s101之前包括:

s100、根據(jù)網(wǎng)頁(yè)內(nèi)容構(gòu)建所述語(yǔ)義知識(shí)庫(kù)。

通過(guò)構(gòu)建語(yǔ)義知識(shí)庫(kù),對(duì)輿情敏感詞進(jìn)行歧義標(biāo)注,為分析檢測(cè)輿情事件提供語(yǔ)義支撐,為待檢測(cè)文本中的敏感詞找到正確的含義提供依據(jù)。由于輿情特征詞往往是對(duì)輿情的直接體現(xiàn),但是輿情特征詞在不同的語(yǔ)境卻可以表示不同的含義,因此,該類具有歧義的輿情特征詞往往給文本過(guò)濾預(yù)處理帶來(lái)假陽(yáng)性問(wèn)題。因此,通過(guò)借助該語(yǔ)義知識(shí)庫(kù)準(zhǔn)確給出其描述可識(shí)別出其在具體語(yǔ)境中所表達(dá)的意思。

其中,對(duì)于語(yǔ)義知識(shí)庫(kù)中存儲(chǔ)的特征詞對(duì)應(yīng)的向量,是通過(guò)對(duì)分詞預(yù)處理后的文本利用深度學(xué)習(xí)工具word2vec進(jìn)行訓(xùn)練得到的。對(duì)每個(gè)分詞(即為待檢測(cè)文本中的特征詞),都可以用一定維數(shù)的向量將其有效表示。如下表所示

具體地,所述網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在xml格式文件中。

舉例來(lái)說(shuō),所述網(wǎng)頁(yè)內(nèi)容為維基百科。

維基百科(wikipedia)是規(guī)模最大的在線網(wǎng)絡(luò)百科全書之一,采用群體在線合作編輯的wiki機(jī)制,具有質(zhì)量高、覆蓋廣、實(shí)時(shí)演化和半結(jié)構(gòu)化等特點(diǎn),是用來(lái)構(gòu)建語(yǔ)義知識(shí)庫(kù)的優(yōu)質(zhì)語(yǔ)料來(lái)源。特別針對(duì)維基百科中的歧義詞,人工標(biāo)注反映輿情特征的義項(xiàng),為后續(xù)預(yù)警分析提供支持。以xml格式的維基百科語(yǔ)料作為輸入,從中提取詞的描述內(nèi)容,分析是否為歧義詞和重定向詞、是否需要繁簡(jiǎn)轉(zhuǎn)換,保留摘要介紹部分,同時(shí)對(duì)敏感特征詞進(jìn)行標(biāo)注。

借助維基百科強(qiáng)大的語(yǔ)義知識(shí),可自動(dòng)增加輿情敏感詞,擴(kuò)大輿情事件的表征范圍,從而輔助用戶更好地把握輿情動(dòng)向,制定相關(guān)對(duì)策予以應(yīng)對(duì)。

進(jìn)一步地,步驟s100之后包括:

s1001、根據(jù)所述語(yǔ)義知識(shí)庫(kù)和預(yù)設(shè)特征詞的敏感義項(xiàng)建立敏感詞庫(kù)。

其中,對(duì)待檢測(cè)文本進(jìn)行處理時(shí),可以以分句為處理單位,對(duì)敏感詞進(jìn)行處理。具體處理時(shí),將待檢測(cè)文本分句的特征詞向量中的特征詞與語(yǔ)義知識(shí)庫(kù)中特征詞對(duì)應(yīng)的向量相匹配,通過(guò)計(jì)算不同特征詞的義項(xiàng)之間的相似度以及與待檢測(cè)文本的相似度,相似度越高說(shuō)明該義項(xiàng)越貼近其在文本中的真實(shí)含義,則選取該義項(xiàng)與敏感詞相配,利用最優(yōu)化方法獲取目標(biāo)函數(shù)最大值時(shí)各歧義詞在文本中的準(zhǔn)確含義。計(jì)算公式如下:

maxf(wi)

f(wi)=f(wi+1)+sim(wi,wi+1)+sim(wi,doci)

s.t.

wi∈{v1,v2…,vm}

doci=(w1,w2,…,wn),wi=0

其中:wi表示待檢測(cè)文本中的特征詞,f(wi)表示詞wi到句子結(jié)尾詞的語(yǔ)義相似度值,doci是文本去除敏感詞后的向量表示,即相應(yīng)位置的元素置為0;v1,v2……是特征詞對(duì)應(yīng)的向量,若該詞為非歧義詞,則有一個(gè)向量表示,反之,有多個(gè)向量表示;sim(wi,wi+1)是計(jì)算相鄰敏感詞相似度的函數(shù),sim(wi,doci)是計(jì)算敏感詞與文本的相似度的函數(shù)。由于詞與文本均用詞向量來(lái)表示,相似度計(jì)算函數(shù)可采用余弦相似度計(jì)算方法。

舉例來(lái)說(shuō),根據(jù)待檢測(cè)文本檢測(cè)輿情事件時(shí),如圖2所示,可先對(duì)待檢測(cè)文本進(jìn)行分詞和去停用詞操作,其中,分詞是指將待檢測(cè)文本中的句子分成多個(gè)特征詞,去停用詞是指刪去待檢測(cè)文本中的停用詞,如“同時(shí)”、“另外”等。

然后,利用word2vec從語(yǔ)義知識(shí)庫(kù)和敏感詞庫(kù)中獲取待檢測(cè)文本中敏感義項(xiàng)的向量,便于后續(xù)針對(duì)待檢測(cè)文本的句子中的相鄰詞進(jìn)行相似度計(jì)算;

接著,利用每個(gè)特征詞的敏感義項(xiàng)向量與其他特征詞對(duì)應(yīng)的向量及待檢測(cè)文本的特征詞向量進(jìn)行相似度計(jì)算,取相似度最大值時(shí)各敏感義項(xiàng)的含義,從而獲取與其他詞及待檢測(cè)文本都能合理搭配的敏感義項(xiàng),確定該特征詞在待檢測(cè)文本中的具體含義;

最后,對(duì)文本中的命名實(shí)體及敏感義項(xiàng)進(jìn)行權(quán)重求和,大于一定閾值則判定為需要預(yù)警的輿情事件。其中,命名實(shí)體是指待檢測(cè)文本中特征詞的數(shù)量。

本實(shí)施例利用特征詞的不同義項(xiàng)和待檢測(cè)文本中所有特征詞的信息標(biāo)注進(jìn)行有監(jiān)督學(xué)習(xí)的語(yǔ)義識(shí)別。能夠避免僅僅依靠關(guān)鍵詞匹配對(duì)輿情事件進(jìn)行錯(cuò)誤檢測(cè)的弊端,從而準(zhǔn)確識(shí)別輿情事件,對(duì)需要預(yù)警的輿情事件進(jìn)行預(yù)警提示。

圖3示出了本發(fā)明一實(shí)施例提供的一種輿情事件檢測(cè)裝置的結(jié)構(gòu)示意圖,包括:

特征詞向量獲取模塊31,用于獲取待檢測(cè)文本的特征詞向量,所述特征詞向量的元素表示待檢測(cè)文本中對(duì)應(yīng)的特征詞是否出現(xiàn);

對(duì)應(yīng)向量獲取模塊32,用于從語(yǔ)義知識(shí)庫(kù)中獲取所有特征詞對(duì)應(yīng)的向量,并從敏感詞庫(kù)獲取敏感義項(xiàng)向量,所述特征詞對(duì)應(yīng)的向量的元素包括當(dāng)前特征詞、當(dāng)前特征詞是否包含敏感義項(xiàng)、當(dāng)前特征詞的當(dāng)前義項(xiàng)和當(dāng)前特征詞對(duì)應(yīng)的特征詞向量,所述敏感義項(xiàng)向量表示當(dāng)前特征詞對(duì)應(yīng)的向量中的義項(xiàng)為當(dāng)前敏感義項(xiàng);

相似度計(jì)算模塊33,用于計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,其中,所述所有特征詞對(duì)應(yīng)的特征詞向量包括所有敏感義項(xiàng)向量;

事件檢測(cè)模塊34,用于獲取相似度最大時(shí)對(duì)應(yīng)的第一敏感義項(xiàng),并獲取待檢測(cè)文本中所述第一敏感義項(xiàng)的數(shù)量和待檢測(cè)文本中特征詞的數(shù)量;根據(jù)第一預(yù)設(shè)權(quán)值和第二預(yù)設(shè)權(quán)值,計(jì)算所述第一敏感義項(xiàng)的數(shù)量和所述特征詞的數(shù)量的加權(quán)和,當(dāng)所述加權(quán)和大于閾值時(shí)確定待檢測(cè)文本中描述的事件為輿情事件。

本實(shí)施例通過(guò)對(duì)待檢測(cè)文本向量化,能夠達(dá)到有效的語(yǔ)義約束;同時(shí)通過(guò)計(jì)算待檢測(cè)文本的特征詞向量和所有特征詞對(duì)應(yīng)的特征詞向量的相似度,能夠準(zhǔn)確檢測(cè)出需要進(jìn)行關(guān)注的輿情事件的問(wèn)題,大大降低錯(cuò)判和漏判的概率。

作為本實(shí)施例的可選方案,還包括:

語(yǔ)義知識(shí)庫(kù)構(gòu)建模塊,用于根據(jù)網(wǎng)頁(yè)內(nèi)容構(gòu)建所述語(yǔ)義知識(shí)庫(kù)。

具體地,所述網(wǎng)頁(yè)內(nèi)容存儲(chǔ)在xml格式文件中。

舉例來(lái)說(shuō),所述網(wǎng)頁(yè)內(nèi)容為維基百科。

進(jìn)一步地,還包括:

敏感詞庫(kù)建立模塊,用于根據(jù)所述語(yǔ)義知識(shí)庫(kù)和預(yù)設(shè)特征詞的敏感義項(xiàng)建立敏感詞庫(kù)。

本發(fā)明的說(shuō)明書中,說(shuō)明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實(shí)施例可以在沒(méi)有這些具體細(xì)節(jié)的情況下實(shí)踐。在一些實(shí)例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對(duì)本說(shuō)明書的理解。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1