一種網(wǎng)絡(luò)輿情監(jiān)控方法及系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)一種網(wǎng)絡(luò)輿情監(jiān)控方法及系統(tǒng),該方法包括:采集待分析文本;檢測(cè)所述待分析文本的語(yǔ)種,提取所述待分析文本的特征詞;根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文;計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度,從而得到與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)的其他語(yǔ)種的網(wǎng)絡(luò)輿情信息,使得網(wǎng)絡(luò)輿情監(jiān)控的范圍不再局限于基準(zhǔn)語(yǔ)言的范圍,提高網(wǎng)絡(luò)輿情監(jiān)控的有效性和廣泛性。
【專(zhuān)利說(shuō)明】一種網(wǎng)絡(luò)輿情監(jiān)控方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信網(wǎng)絡(luò)【技術(shù)領(lǐng)域】,尤其涉及一種網(wǎng)絡(luò)輿情監(jiān)控方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)在全球范圍內(nèi)的飛速發(fā)展,網(wǎng)絡(luò)媒體已被公認(rèn)為是繼報(bào)紙、廣播、電視之后的第四媒體,互聯(lián)網(wǎng)成為反映社會(huì)輿情的主要載體之一。網(wǎng)絡(luò)輿情是指,因各種事件的刺激而產(chǎn)生的,通過(guò)互聯(lián)網(wǎng)傳播的,人們對(duì)于該事件的所有認(rèn)知、態(tài)度、情感和行為傾向的集合。網(wǎng)絡(luò)輿情表達(dá)快捷、信息多元、形成迅速,方式互動(dòng),具備傳統(tǒng)媒體無(wú)法比擬的優(yōu)勢(shì),且對(duì)社會(huì)影響巨大。互聯(lián)網(wǎng)環(huán)境下的輿情信息的主要來(lái)源有:新聞評(píng)論、BBS (BulletinBoard System,電子公告牌系統(tǒng))、博客、聚合新聞(RSS)。
[0003]由于互聯(lián)網(wǎng)具有“下情上達(dá)”的特點(diǎn),一方面為人們獲取信息提供了快捷的途徑,但隨之帶來(lái)的是對(duì)政治安全和文化安全的嚴(yán)重威脅。傳統(tǒng)的網(wǎng)絡(luò)輿情監(jiān)控方案通常是對(duì)本國(guó)家語(yǔ)言的輿情監(jiān)控,具有局限性,無(wú)法獲知其他國(guó)家對(duì)熱點(diǎn)輿情的相關(guān)信息,使得網(wǎng)絡(luò)輿情監(jiān)控的效果大打折扣。也無(wú)法獲知涉及國(guó)際事件的熱點(diǎn)輿情在相關(guān)國(guó)家的輿情信息,不能為管理決策提供更有效的參考依據(jù)。
[0004]因此,亟需一種網(wǎng)絡(luò)輿情監(jiān)控方案出現(xiàn),用以解決上述技術(shù)問(wèn)題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)輿情監(jiān)控方法及系統(tǒng),用以獲取與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)的其他語(yǔ)種語(yǔ)言的輿情信息,提高網(wǎng)絡(luò)輿情監(jiān)控的有效性和廣泛性。
[0006]為了實(shí)現(xiàn)上述目的,本發(fā)明實(shí)施例采用以下技術(shù)手段:
[0007]本發(fā)明實(shí)施例提供一種網(wǎng)絡(luò)輿情監(jiān)控方法,所述方法包括:
[0008]采集待分析文本;
[0009]檢測(cè)所述待分析文本的語(yǔ)種,提取所述待分析文本的特征詞;
[0010]根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文;
[0011]計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
[0012]本發(fā)明實(shí)施例還提供一種網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),包括:
[0013]采集模塊,用于采集待分析文本;
[0014]語(yǔ)種檢測(cè)模塊,用于檢測(cè)所述待分析文本的語(yǔ)種;
[0015]特征詞提取模塊,用于提取所述待分析文本的特征詞;
[0016]翻譯模塊,用于根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言的語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文;
[0017]輿情分析模塊,用于計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
[0018]與現(xiàn)有技術(shù)相比,本發(fā)明的上述實(shí)施例具有以下有益技術(shù)效果:
[0019]本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控方案,在采集待分析文本后,檢測(cè)待分析文本的語(yǔ)種,提取待分析文本的特征詞,查詢(xún)相應(yīng)的翻譯詞典獲得待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文,并計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,確定待分析文本與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度,從而得到與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)的其他語(yǔ)種的網(wǎng)絡(luò)輿情信息,使得網(wǎng)絡(luò)輿情監(jiān)控的范圍不再局限于基準(zhǔn)語(yǔ)言的范圍,提高網(wǎng)絡(luò)輿情監(jiān)控的有效性和廣泛性。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0020]圖1為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控流程示意圖;
[0021]圖2為本發(fā)明實(shí)施例提供的提取特征詞的流程示意圖;
[0022]圖3為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0023]針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)輿情監(jiān)控方案,用以獲取與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)的其他語(yǔ)種語(yǔ)言的輿情信息,提高網(wǎng)絡(luò)輿情監(jiān)控的有效性和廣泛性。下面結(jié)合附圖對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。
[0024]在本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中存儲(chǔ)有翻譯詞典,翻譯詞典用于存儲(chǔ)詞條與該詞條在不同語(yǔ)種中的譯文之間的對(duì)應(yīng)關(guān)系。翻譯詞典可以為提取的待分析文本特征詞提供對(duì)應(yīng)的基準(zhǔn)語(yǔ)種的譯文,作為與基準(zhǔn)熱點(diǎn)輿情相似度計(jì)算和判斷的依據(jù)。
[0025]以下結(jié)合圖1,詳細(xì)說(shuō)明網(wǎng)絡(luò)輿情監(jiān)控流程,如圖所示,該流程包括以下步驟:
[0026]步驟101,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)采集待分析文本。
[0027]具體的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以通過(guò)普通網(wǎng)頁(yè)、動(dòng)態(tài)網(wǎng)頁(yè)、論壇評(píng)論、搜索引擎等渠道,采集網(wǎng)絡(luò)文本,網(wǎng)絡(luò)文本的采集獲取方式屬于現(xiàn)有技術(shù),在此不再贅述。
[0028]進(jìn)一步的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)還可以確定網(wǎng)絡(luò)文本的類(lèi)別,并判斷所采集到的網(wǎng)絡(luò)文本的類(lèi)別與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的類(lèi)別是否相同,若相同,則將該網(wǎng)絡(luò)文本確定為待分析文本。
[0029]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以根據(jù)文本內(nèi)容對(duì)網(wǎng)絡(luò)文本進(jìn)行分類(lèi),確定出網(wǎng)絡(luò)文本的類(lèi)另IJ。例如,網(wǎng)絡(luò)文本的類(lèi)別可以包括:軍事、健康、政治、文化等。網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以采用SVM (Support Vector Machine,支持向量機(jī))算法,對(duì)網(wǎng)絡(luò)文本進(jìn)行分類(lèi),確定出網(wǎng)絡(luò)文本的類(lèi)別。網(wǎng)絡(luò)文本類(lèi)別的確定也可以采用其他能夠?qū)崿F(xiàn)文本分類(lèi)目的其他方式實(shí)現(xiàn),上述確定網(wǎng)絡(luò)文本類(lèi)別的具體實(shí)現(xiàn)方式屬于現(xiàn)有技術(shù),在此不再贅述。
[0030]基準(zhǔn)語(yǔ)言熱點(diǎn)輿情是網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)利用現(xiàn)有技術(shù)獲取的,在此不再贅述。
[0031]通過(guò)上述處理,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以獲取與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情分類(lèi)相同的網(wǎng)絡(luò)文本,作為待分析文本,將不相關(guān)類(lèi)別的網(wǎng)絡(luò)文本排除,避免對(duì)不相關(guān)網(wǎng)絡(luò)文本進(jìn)行相關(guān)度的判斷,避免網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)資源浪費(fèi),提高網(wǎng)絡(luò)輿情監(jiān)控的處理速度。
[0032]步驟102,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)檢測(cè)待分析文本的語(yǔ)種。
[0033]具體的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可通過(guò)識(shí)別待分析文本的字符編碼,檢測(cè)出文本的語(yǔ)種。文本語(yǔ)種檢測(cè)的實(shí)現(xiàn)方式屬于現(xiàn)有技術(shù),在此不再贅述。
[0034]步驟103,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提取待分析文本的特征詞。
[0035]特征詞用以表征文本的主要信息,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以在檢測(cè)出待分析文本的語(yǔ)種之后,按照相應(yīng)語(yǔ)種語(yǔ)言的語(yǔ)法,對(duì)待分析文本進(jìn)本特征詞的提取。提取特征詞的流程會(huì)在后續(xù)做進(jìn)一步詳細(xì)說(shuō)明。
[0036]步驟104,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)根據(jù)待分析文本的特征詞,查詢(xún)待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言的語(yǔ)種的翻譯詞典,得到待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文。
[0037]具體的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可以根據(jù)待分析文本的語(yǔ)種,確定出待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言的語(yǔ)種的翻譯詞典,并根據(jù)待分析文本的特征詞,查詢(xún)確定出的翻譯詞典,得到待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文。通過(guò)雙語(yǔ)的翻譯詞典,對(duì)待分析文本特征詞進(jìn)行直譯,以獲得同一語(yǔ)言序列,其直譯過(guò)程為一一對(duì)應(yīng)的直接映射。
[0038]步驟105,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度。
[0039]具體的,同一語(yǔ)言序列的基礎(chǔ)上,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對(duì)待分析文本的特征詞的相應(yīng)譯文和基準(zhǔn)語(yǔ)言熱點(diǎn)輿情進(jìn)行相似度計(jì)算,相似度計(jì)算可以采用現(xiàn)有算法實(shí)現(xiàn),在此不再贅述。
[0040]相似度可以依據(jù)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中的同義詞表、上下位詞表、領(lǐng)域詞表等進(jìn)行判斷。
[0041]步驟106,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)根據(jù)計(jì)算出的相似度,確定待分析文本與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
[0042]具體的,待分析文本與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度可以通過(guò)(0,I)內(nèi)的浮點(diǎn)數(shù)表示,并將該浮點(diǎn)數(shù)大于等于預(yù)設(shè)閾值的待分析文本確定為與熱點(diǎn)輿情相關(guān)的文本。
[0043]需要指出的是,在上述絡(luò)輿情監(jiān)控流程中,步驟102與步驟103的順序不限。
[0044]在上述流程的步驟103中,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)提取網(wǎng)絡(luò)文本特征詞的流程如圖2所示,可以包括以下步驟:
[0045]步驟201,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對(duì)待分析文本斷句,并對(duì)斷句生成的句子分詞,得到詞串。
[0046]步驟202,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)根據(jù)詞串的詞頻、詞長(zhǎng)、詞性權(quán)重、在文本中的段落分布,計(jì)算詞串權(quán)重。
[0047]具體的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)可根據(jù)以下公式計(jì)算詞串權(quán)重:
[0048]詞串權(quán)重=詞串的詞頻*詞串的詞長(zhǎng)*詞串分布的段落數(shù)量*詞串的詞性權(quán)重;
[0049]其中,詞串的詞頻為該詞串在文本中出現(xiàn)的次數(shù),由至少2個(gè)詞所組成的詞串的詞頻,根據(jù)各個(gè)詞的詞頻和詞串的詞頻加權(quán)計(jì)算獲得。例如,詞串“中國(guó)南海”由“中國(guó)”和“南?!?個(gè)詞組成,“中國(guó)”的詞頻為8次,“南?!钡脑~頻為6次,加權(quán)計(jì)算得到“中國(guó)南海”的詞頻為4次,作為詞串“中國(guó)南海”的詞頻。雖然詞串“中國(guó)南?!钡脑~頻為比“中國(guó)”和“南?!背霈F(xiàn)的頻次要少很多,但比單獨(dú)的詞更能體現(xiàn)待分析文本的主要信息和主題。
[0050]詞串的詞長(zhǎng)為去除禁用詞后的詞串包含的字?jǐn)?shù),禁用詞為禁用詞表中包含的詞,禁用詞表可預(yù)先配置于網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)中。
[0051 ] 詞串的詞性權(quán)重根據(jù)該詞串所包含詞的詞性權(quán)重相關(guān),可以對(duì)詞串所包含詞的詞性權(quán)重加權(quán)獲得,或者,將詞串所包含詞的詞性權(quán)重的最大值作為該詞串的詞性權(quán)重。
[0052]步驟203,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)將詞串權(quán)重高于預(yù)設(shè)閾值的詞串確定為待分析文本的特征詞。
[0053]由于待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文,是確定待分析文本與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)度的基礎(chǔ),為了保證確定出的網(wǎng)絡(luò)輿情信息的準(zhǔn)確性,需要完善和更新翻譯詞典。本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控方法還包括翻譯詞典的更新流程,該流程可按照設(shè)定周期執(zhí)行,也可根據(jù)指令執(zhí)行。該流程包括以下步驟:
[0054]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對(duì)第一語(yǔ)種的網(wǎng)絡(luò)文本進(jìn)行N元文法分詞,得到詞串,并統(tǒng)計(jì)各詞串的詞頻。
[0055]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)將詞頻低于預(yù)設(shè)閾值的詞串過(guò)濾掉,并將剩余詞串中存在于過(guò)濾詞表中的詞串過(guò)濾掉,得到新詞候選詞。具體的,網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)將得到的詞串詞頻與預(yù)設(shè)閾值相比較,過(guò)濾掉低于該閾值的詞串,將詞頻大于或等于閾值的詞串保留之后,利用過(guò)濾詞表進(jìn)行過(guò)濾,并將經(jīng)過(guò)過(guò)濾詞表過(guò)濾的詞串作為新詞候選詞串。
[0056]優(yōu)選的,在得到新詞候選詞串之后,還可以由人工篩查新詞候選詞,將不符合規(guī)則的詞串放入過(guò)濾詞表中,以便后續(xù)根據(jù)該過(guò)濾此表過(guò)濾文本詞串。所述規(guī)則可以包括:詞串構(gòu)成規(guī)則、禁用詞規(guī)則、詞串詞性規(guī)則等,其中,詞串構(gòu)成規(guī)則用于規(guī)定組成詞串開(kāi)頭、結(jié)尾的詞的類(lèi)型;禁用詞規(guī)則通過(guò)設(shè)置禁用詞表實(shí)現(xiàn),禁用詞表用于規(guī)定詞串的開(kāi)頭和結(jié)尾的禁用詞。
[0057]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)在各翻譯詞典中查找新詞候選詞串的譯文,如果在第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中未查找到譯文,但在第一語(yǔ)種到第三語(yǔ)種的翻譯詞典中查找到譯文,則根據(jù)第三語(yǔ)種到第二語(yǔ)種的翻譯詞典查找該譯文的在第二語(yǔ)種中的譯文,將所述在第二語(yǔ)種中的譯文與第一語(yǔ)種的所述詞串,作為新的詞條添加到第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中。
[0058]例如,第一語(yǔ)種為中文,第二語(yǔ)種為英文,第三語(yǔ)種為日文,當(dāng)網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)對(duì)中文網(wǎng)頁(yè)進(jìn)行分詞得到中文詞串,經(jīng)過(guò)詞頻過(guò)濾以及過(guò)濾詞表的過(guò)濾之后,得到中文詞串a(chǎn),作為新詞候選詞串。若在中-英翻譯詞典中未查找到對(duì)應(yīng)的英文譯文,但在中-日翻譯詞典中查找到對(duì)應(yīng)的日文譯文a’,則根據(jù)日文譯文a’在日-英翻譯詞典中查找,若查找到對(duì)應(yīng)的英文譯文a”,則將英文譯文a”作為詞串a(chǎn)的譯文(新的詞條),添加到中-英翻譯詞典中。
[0059]網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)通過(guò)翻譯詞典的更新流程可以發(fā)現(xiàn)并獲取新詞和實(shí)效性詞,并將某一語(yǔ)種的新詞,擴(kuò)展到其他語(yǔ)種當(dāng)中,為跨語(yǔ)言的網(wǎng)絡(luò)輿情監(jiān)控提供完善的后臺(tái)數(shù)據(jù),提高跨語(yǔ)言網(wǎng)絡(luò)輿情監(jiān)控的正確性和廣泛性。
[0060]通過(guò)上述網(wǎng)絡(luò)輿情監(jiān)控流程可以看出,本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)輿情監(jiān)控方案,在采集待分析文本后,檢測(cè)待分析文本的語(yǔ)種,提取待分析文本的特征詞,查詢(xún)相應(yīng)的翻譯詞典獲得待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文,并計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,確定待分析文本與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度,從而得到與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情相關(guān)的其他語(yǔ)種的網(wǎng)絡(luò)輿情信息,使得網(wǎng)絡(luò)輿情監(jiān)控的范圍不再局限于基準(zhǔn)語(yǔ)言的范圍,提高網(wǎng)絡(luò)輿情監(jiān)控的有效性和廣泛性。
[0061]基于相同的技術(shù)構(gòu)思,本發(fā)明實(shí)施例還提供了一種網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),如圖3所示,該系統(tǒng)包括:
[0062]采集模塊31,用于采集待分析文本。
[0063]語(yǔ)種檢測(cè)模塊32,用于檢測(cè)所述待分析文本的語(yǔ)種。
[0064]特征詞提取模塊33,用于提取所述待分析文本的特征詞。
[0065]翻譯模塊34,用于根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言的語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文。
[0066]輿情分析模塊35,用于計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
[0067]采集模塊31具體用于,采集網(wǎng)絡(luò)文本,確定所述網(wǎng)絡(luò)文本的類(lèi)別,并判斷所述網(wǎng)絡(luò)文本的類(lèi)別與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的類(lèi)別是否相同,若相同,則將所述網(wǎng)絡(luò)文本確定為待分析文本。
[0068]特征詞提取模塊33具體用于,對(duì)所述待分析文本進(jìn)行分詞,得到詞串,根據(jù)所述詞串的詞頻、詞長(zhǎng)、詞性權(quán)重、在文本中的段落分布,計(jì)算詞串權(quán)重,并將詞串權(quán)重高于預(yù)設(shè)閾值的詞串確定為所述待分析文本的特征詞。
[0069]特征詞提取模塊33具體用于,根據(jù)以下公式計(jì)算詞串權(quán)重:
[0070]詞串權(quán)重=詞串的詞頻*詞串的詞長(zhǎng)*詞串分布的段落數(shù)量*詞串的詞性權(quán)重。
[0071]該網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)還包括詞典更新模塊36,詞典更新模塊36用于,對(duì)第一語(yǔ)種的文本進(jìn)行分詞,得到詞串,統(tǒng)計(jì)各詞串的詞頻;將詞頻低于預(yù)設(shè)閾值的詞串過(guò)濾掉,并將剩余詞串中存在于過(guò)濾詞表中的詞串過(guò)濾掉,得到新詞候選詞串;對(duì)于每個(gè)新詞候選詞串執(zhí)行以下操作:在各翻譯詞典中查找該詞串的譯文,如果在第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中未查找到譯文,但在第一語(yǔ)種到第三語(yǔ)種的翻譯詞典中查找到譯文,則根據(jù)第三語(yǔ)種到第二語(yǔ)種的翻譯詞典查找該譯文的在第二語(yǔ)種中的譯文,將所述在第二語(yǔ)種中的譯文與第一語(yǔ)種的所述詞串,作為新的詞條添加到第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中。
[0072]通過(guò)以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來(lái)實(shí)現(xiàn),當(dāng)然也可以通過(guò)硬件,但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說(shuō)對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來(lái),該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)終端設(shè)備(可以是手機(jī),個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
[0073]以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來(lái)說(shuō),在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種網(wǎng)絡(luò)輿情監(jiān)控方法,其特征在于,包括: 采集待分析文本; 檢測(cè)所述待分析文本的語(yǔ)種,提取所述待分析文本的特征詞; 根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文; 計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲取待分析文本,具體包括: 采集網(wǎng)絡(luò)文本,確定所述網(wǎng)絡(luò)文本的類(lèi)別; 判斷所述網(wǎng)絡(luò)文本的類(lèi)別與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的類(lèi)別是否相同,若相同,則將所述網(wǎng)絡(luò)文本確定為待分析文本。
3.如權(quán)利要求1所述的方法,其特征在于,提取所述待分析文本的特征詞,具體包括: 對(duì)所述待分析文本進(jìn)行分詞,得到詞串; 根據(jù)所述詞串的詞頻、詞長(zhǎng)、詞性權(quán)重、在文本中的段落分布,計(jì)算詞串權(quán)重; 將詞串權(quán)重高于預(yù)設(shè)閾值的詞串確定為所述待分析文本的特征詞。
4.如權(quán)利要求3所述的方法,其特征在于,根據(jù)以下公式計(jì)算詞串權(quán)重: 詞串權(quán)重=詞串的詞頻*詞串的詞長(zhǎng)*詞串分布的段落數(shù)量*詞串的詞性權(quán)重。
5.如權(quán)利要求1-4任一項(xiàng)所述的方法,其特征在于,該方法還包括更新翻譯詞典的步驟,更新翻譯詞典的步驟包括: 對(duì)第一語(yǔ)種的文本進(jìn)行分詞,得到詞串,統(tǒng)計(jì)各詞串的詞頻; 將詞頻低于預(yù)設(shè)閾值的詞串過(guò)濾掉,并將剩余詞串中存在于過(guò)濾詞表中的詞串過(guò)濾掉,得到新詞候選詞串; 對(duì)于每個(gè)新詞候選詞串執(zhí)行以下操作:在各翻譯詞典中查找該詞串的譯文;如果在第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中未查找到譯文,但在第一語(yǔ)種到第三語(yǔ)種的翻譯詞典中查找到譯文,則根據(jù)第三語(yǔ)種到第二語(yǔ)種的翻譯詞典查找該譯文的在第二語(yǔ)種中的譯文,將所述在第二語(yǔ)種中的譯文與第一語(yǔ)種的所述詞串,作為新的詞條添加到第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中。
6.一種網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng),其特征在于,包括: 采集模塊,用于采集待分析文本; 語(yǔ)種檢測(cè)模塊,用于檢測(cè)所述待分析文本的語(yǔ)種; 特征詞提取模塊,用于提取所述待分析文本的特征詞; 翻譯模塊,用于根據(jù)所述待分析文本的特征詞,查詢(xún)所述待分析文本的語(yǔ)種到基準(zhǔn)語(yǔ)言的語(yǔ)種的翻譯詞典,得到所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文; 輿情分析模塊,用于計(jì)算基準(zhǔn)語(yǔ)言熱點(diǎn)輿情與所述待分析文本的特征詞在基準(zhǔn)語(yǔ)言中的譯文的相似度,并根據(jù)計(jì)算結(jié)果,確定所述待分析文本與所述基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的相關(guān)度。
7.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述采集模塊具體用于,采集網(wǎng)絡(luò)文本,確定所述網(wǎng)絡(luò)文本的類(lèi)別,并判斷所述網(wǎng)絡(luò)文本的類(lèi)別與基準(zhǔn)語(yǔ)言熱點(diǎn)輿情的類(lèi)別是否相同,若相同,則將所述網(wǎng)絡(luò)文本確定為待分析文本。
8.如權(quán)利要求6所述的系統(tǒng),其特征在于,所述特征詞提取模塊具體用于,對(duì)所述待分析文本進(jìn)行分詞,得到詞串,根據(jù)所述詞串的詞頻、詞長(zhǎng)、詞性權(quán)重、在文本中的段落分布,計(jì)算詞串權(quán)重,并將詞串權(quán)重高于預(yù)設(shè)閾值的詞串確定為所述待分析文本的特征詞。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,所述特征詞提取模塊具體用于,根據(jù)以下公式計(jì)算詞串權(quán)重: 詞串權(quán)重=詞串的詞頻*詞串的詞長(zhǎng)*詞串分布的段落數(shù)量*詞串的詞性權(quán)重。
10.如權(quán)利要求6-9任一項(xiàng)所述的系統(tǒng),其特征在于,還包括:詞典更新模塊; 所述詞典更新模塊用于,對(duì)第一語(yǔ)種的文本進(jìn)行分詞,得到詞串,統(tǒng)計(jì)各詞串的詞頻;將詞頻低于預(yù)設(shè)閾值的詞串過(guò)濾掉,并將剩余詞串中存在于過(guò)濾詞表中的詞串過(guò)濾掉,得到新詞候選詞串;對(duì)于每個(gè)新詞候選詞串執(zhí)行以下操作:在各翻譯詞典中查找該詞串的譯文,如果在第一語(yǔ)種到第二語(yǔ)種的翻譯詞典中未查找到譯文,但在第一語(yǔ)種到第三語(yǔ)種的翻譯詞典中查找到譯文,則根據(jù)第三語(yǔ)種到第二語(yǔ)種的翻譯詞典查找該譯文的在第二語(yǔ)種中的譯文,將所述在第二語(yǔ)種中的譯文與第一語(yǔ)種的所述詞串,作為新的詞條添加到第一語(yǔ)種到第二語(yǔ)種 的翻譯詞典中。
【文檔編號(hào)】G06F17/30GK103902619SQ201210586811
【公開(kāi)日】2014年7月2日 申請(qǐng)日期:2012年12月28日 優(yōu)先權(quán)日:2012年12月28日
【發(fā)明者】韓金宇, 孫少陵 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司