專利名稱:信息有效性分析的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息檢測(cè)技術(shù)領(lǐng)域,尤其涉及一種信息有效性分析的方法和裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)信息發(fā)布的成本和代價(jià)不斷降低,大量網(wǎng)絡(luò)信息,尤其是用戶評(píng)論的發(fā) 布,使得無關(guān)、無用等垃圾信息充斥著網(wǎng)絡(luò)。這既影響了網(wǎng)絡(luò)用戶對(duì)有用信息的獲取,也在 計(jì)算機(jī)進(jìn)行自動(dòng)化處理過程中產(chǎn)生了很多噪音信息,因此,對(duì)于網(wǎng)絡(luò)信息有效性的分析逐 漸成為人們關(guān)注的焦點(diǎn)。通過對(duì)網(wǎng)絡(luò)信息的有效性進(jìn)行分析,能夠?qū)崿F(xiàn)有效信息抽取、垃圾 信息過濾等后續(xù)工作。而在現(xiàn)階段,對(duì)于信息有效性的判斷僅局限于基于分類器進(jìn)行劃分等簡(jiǎn)單技術(shù), 還沒有專門對(duì)信息的有效性進(jìn)行分析的相關(guān)工作,使得有些后續(xù)工作處理效果較差。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種信息有效性分析的方法和裝置,能夠?qū)π畔⒌挠行赃M(jìn) 行較準(zhǔn)確地分析。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案一種信息有效性分析的方法,包括由獲取裝置獲取所要分析的信息的特征向量;根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲取質(zhì)量分 數(shù);根據(jù)所述質(zhì)量分?jǐn)?shù)分析信息的有效性。一種信息有效性分析的裝置,包括第一獲取單元,用于獲取所要分析的信息的特征向量;第一分析單元,用于根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)由所述第一獲取單元獲 取的信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù);第二分析單元,用于根據(jù)由所述第一分析單元獲取的質(zhì)量分?jǐn)?shù)分析信息的有效信 肩、ο本發(fā)明實(shí)施例提供的信息有效性分析的方法和裝置,通過獲取所要分析的信息的 特征向量,提取了信息多方面的特征,將復(fù)雜、隨機(jī)的信息轉(zhuǎn)化成為數(shù)學(xué)模型;并根據(jù)預(yù)先 建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù),根據(jù)所述質(zhì)量 分?jǐn)?shù)來分析信息的有效性,解決了由于現(xiàn)有階段還沒有專門的對(duì)信息有效性進(jìn)行分析的技 術(shù),使得有些后續(xù)工作處理效果較差的問題。本發(fā)明的實(shí)施例提供的信息有效性分析的方 法和裝置,能夠?qū)π畔⒌挠行赃M(jìn)行較準(zhǔn)確地分析。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明 的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù) 這些附圖獲得其他的附圖。圖1為本發(fā)明實(shí)施例提供的信息有效性分析的方法流程圖;圖2為本發(fā)明另一個(gè)實(shí)施例提供的信息有效性分析的方法流程圖;圖3為本發(fā)明實(shí)施例提供的提取所要分析的信息與預(yù)先設(shè)定的信息的相關(guān)性特 征的方法流程圖;圖4為本發(fā)明實(shí)施例提供的信息有效性分析的裝置的結(jié)構(gòu)示意圖一;圖5為本發(fā)明實(shí)施例提供的信息有效性分析的裝置中第一獲取單元401的結(jié)構(gòu)示 意圖;圖6為圖5中所示的第一獲取單元401中的提取單元4011的結(jié)構(gòu)示意圖;圖7為圖6中所示的提取單元4011中第二提取子單元502的結(jié)構(gòu)示意圖;圖8為本發(fā)明實(shí)施例提供的信息有效性分析的裝置的結(jié)構(gòu)示意圖二。
具體實(shí)施例方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例 中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是 本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員 在沒有付出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。為了解決現(xiàn)有階段還沒有專門的對(duì)信息進(jìn)行有效性分析的技術(shù),使得有些后續(xù)工 作處理效果較差的問題,本發(fā)明實(shí)施例提供一種信息有效性分析的方法和裝置。如圖1所示,本發(fā)明實(shí)施例提供的信息有效性分析的方法,包括步驟101,由獲取裝置獲取所要分析的信息的特征向量;在本實(shí)施例中,所述信息的特征向量是由信息的特征經(jīng)過數(shù)學(xué)建模后獲得的。信 息的特征包括信息自身的特征和該信息與其它信息的相關(guān)性特征,信息自身的特征可以包 括信息的長度特征、句式特征、情感特征和上下文特征等。將這些特征用一個(gè)數(shù)學(xué)向量來 表示,將復(fù)雜的信息數(shù)字化。步驟102,根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲 取質(zhì)量分?jǐn)?shù);在本實(shí)施例中,所述信息質(zhì)量評(píng)估模型是對(duì)現(xiàn)有的規(guī)約模型進(jìn)行訓(xùn)練獲得的。通 過獲取已經(jīng)進(jìn)行過質(zhì)量標(biāo)注的訓(xùn)練語料的特征向量,使用已有的規(guī)約模型對(duì)所述訓(xùn)練語料 的特征向量進(jìn)行計(jì)算,將獲得的質(zhì)量分?jǐn)?shù)與標(biāo)注的質(zhì)量分?jǐn)?shù)進(jìn)行比較,從而調(diào)整訓(xùn)練語料 特征向量中各個(gè)元素的權(quán)值,直到所獲得的質(zhì)量分?jǐn)?shù)與標(biāo)注的質(zhì)量分?jǐn)?shù)基本一致,這樣可 以建立一個(gè)比較準(zhǔn)確的信息質(zhì)量評(píng)估模型。步驟103,根據(jù)所述質(zhì)量分?jǐn)?shù)分析信息的有效性。在本實(shí)施例中,將所獲得的質(zhì)量分?jǐn)?shù)作為分析信息有效性的標(biāo)準(zhǔn),并且分布在 0 1之間;得分越高,表明所分析的信息越有效。 本發(fā)明實(shí)施例提供的信息有效性分析的方法,通過獲取所要分析的信息的特征向 量,提取了信息多方面的特征,將復(fù)雜、隨機(jī)的信息轉(zhuǎn)化成為數(shù)學(xué)模型;并根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù),根據(jù)所述質(zhì)量分?jǐn)?shù)來 分析信息的有效性,解決了由于現(xiàn)有階段還沒有專門的對(duì)信息有效性進(jìn)行分析的技術(shù),使 得有些后續(xù)工作處理效果較差的問題。為了使本領(lǐng)域技術(shù)人員能夠更清楚地理解本發(fā)明實(shí)施例提供的技術(shù)方案,下面通 過具體的實(shí)施例,對(duì)本發(fā)明另一個(gè)實(shí)施例提供的信息有效性分析的方法進(jìn)行詳細(xì)說明。以下實(shí) 施例中,所要分析的信息為對(duì)網(wǎng)絡(luò)新聞發(fā)表的評(píng)論信息。如圖2所示,本發(fā)明另一個(gè)實(shí)施例提供的信息有效性分析的方法,包括步驟201,提取所要分析的信息的自身特征;本實(shí)施例中,所要分析的信息為對(duì)網(wǎng)絡(luò)新聞發(fā)表的評(píng)論信息。提取評(píng)論信息的自 身特征包括評(píng)論的長度、句式、語義、所表達(dá)的情感以及該評(píng)論與其它評(píng)論的相關(guān)性等特 征。具體的提取評(píng)論自身特征的方法為首先對(duì)一條評(píng)論進(jìn)行預(yù)處理,即將該條評(píng)論按照標(biāo) 點(diǎn)符號(hào)劃分為句子,得到句子集合;利用分詞工具將句子集合中的每一條句子劃分成詞語, 得到詞語集合;再利用詞性標(biāo)注工具將詞語集合中的每一個(gè)詞語都標(biāo)注詞性,并進(jìn)行詞性 分類,可得到名詞集合、動(dòng)詞集合、形容詞集合等。附加地,為了使分析的結(jié)果更準(zhǔn)確,可利 用命名實(shí)體識(shí)別工具將句子集合中的命名實(shí)體都識(shí)別出來,例如,北京市公安局、最高人民 法院、國家圖書館等專有名詞,并與普通名詞一樣進(jìn)行分類,得到命名實(shí)體集合。將評(píng)論進(jìn) 行上述的預(yù)處理后,就可以提取該評(píng)論自身的特征了,下面對(duì)于評(píng)論自身各方面的特征進(jìn) 行詳細(xì)說明長度特征在評(píng)論中,長度特征占據(jù)較大的作用。長度比較長的評(píng)論往往信息含量 較多,反之,比較短的評(píng)論往往所包含的有效信息量較少。本實(shí)施例中,所獲取的評(píng)論的長 度特征包括,評(píng)論的字?jǐn)?shù)、評(píng)論的句子數(shù)和該評(píng)論平均句子的長度。句式特征在評(píng)論中,句式也能傳達(dá)很多的信息。例如,感嘆句表示強(qiáng)烈的感情,而 疑問句表示困惑;再例如,如果一條評(píng)論的標(biāo)點(diǎn)符號(hào)所占比例較大,表示該評(píng)論本身的文本 內(nèi)容不多,即所包含的信息量不多;同時(shí),標(biāo)點(diǎn)符號(hào)的含量也能體現(xiàn)一條評(píng)論的規(guī)范性。在 本實(shí)施例中,所獲取的評(píng)論的句式特征包括,該評(píng)論中問號(hào)的個(gè)數(shù)、感嘆號(hào)的個(gè)數(shù)、省略號(hào) 的個(gè)數(shù)、引號(hào)的個(gè)數(shù)、引號(hào)內(nèi)的文本內(nèi)容占該評(píng)論內(nèi)容的比例、以及所有標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)占 該評(píng)論總字符的比例等。語義特征在評(píng)論中,有些詞能表明評(píng)論人的心態(tài),是認(rèn)真參與了評(píng)論還是敷衍了 事;有些詞能夠區(qū)分評(píng)論人的態(tài)度,是疑問、不確定,還是肯定等。在本實(shí)施例中,所獲取的 評(píng)論的語義特征包括,該評(píng)論中假設(shè)類詞語(例如,若、如果、比如等)的個(gè)數(shù)占該評(píng)論總文 本的比例、該評(píng)論中不確定類詞語(例如,可能、大概、也許等)的個(gè)數(shù)占該評(píng)論總文本的比 例、該評(píng)論中擬聲詞(例如,嘿嘿、哈哈、呵呵等)的個(gè)數(shù)占該評(píng)論總文本的比例。情感特征在評(píng)論中,情感類詞匯的使用,往往能夠表達(dá)出一條評(píng)論的觀點(diǎn)傾向, 而包含有明顯觀點(diǎn)的評(píng)論往往會(huì)是較有效的評(píng)論。在本實(shí)施例中,所獲取的評(píng)論的情感特 征包括,該評(píng)論中正面情感傾向類詞語(例如,好、聰明、高端等)的個(gè)數(shù)占該評(píng)論總文本的 比例、該評(píng)論中負(fù)面情感傾向類詞語(例如,差、糟粕、乏味等)的個(gè)數(shù)占該評(píng)論總文本的比 例、該評(píng)論中觀點(diǎn)聲明類詞語(例如,感覺、聽說、認(rèn)為等)的個(gè)數(shù)占該評(píng)論總文本的比例。 其中,觀點(diǎn)聲明類詞語由知網(wǎng)的情感詞典來辨別,正面和負(fù)面情感傾向類詞語由知網(wǎng)詞典、 同義詞詞林來辨別。
上下文特征在評(píng)論中,一條較有效的評(píng)論,往往會(huì)有很多類似的評(píng)論進(jìn)行支持, 即具有較高相似性的評(píng)論往往談?wù)摰膬?nèi)容是與主題相關(guān)的。而與其它評(píng)論都無關(guān)的評(píng)論, 往往談?wù)摰膬?nèi)容與主題不相關(guān)。在本實(shí)施例中,所獲取的評(píng)論的上下文特征包括,與該評(píng)論 相似的評(píng)論的個(gè)數(shù)、該評(píng)論是否是第一條評(píng)論、該評(píng)論是否是唯一的評(píng)論、該評(píng)論是否是重 復(fù)評(píng)論等。其中,與該評(píng)論相似的評(píng)論的個(gè)數(shù)的獲取,首先要設(shè)置一個(gè)相似度數(shù)值,達(dá)到這 個(gè)數(shù)值說明兩個(gè)評(píng)論是相似的,反之,兩個(gè)評(píng)論不相似。求取兩條評(píng)論之間的相似度的具體 方法,可以參見步驟202所述的一條評(píng)論與該評(píng)論對(duì)應(yīng)的新聞主題之間的相似度的求解方 法,此處不再贅述。步驟202,提取所要分析的信息與預(yù)先設(shè)定的信息的相關(guān)性特征;在本實(shí)施例中,所述預(yù)先設(shè)定的信息為新聞本身,即要提取一條評(píng)論與所評(píng)論的 新聞主題的相關(guān)性。具體的提取方法如圖3所示,包括以下步驟
步驟301,獲取所述所要分析的信息的關(guān)鍵詞列表;在本實(shí)施例中,對(duì)于一條評(píng)論的主題起關(guān)鍵作用的是該評(píng)論中的實(shí)詞,即名詞和 動(dòng)詞。按照步驟201中所述的方法對(duì)該評(píng)論進(jìn)行預(yù)處理后,可以獲得該評(píng)論中名詞集合和 動(dòng)詞集合,對(duì)于每一個(gè)詞,按照以下公式計(jì)算該詞的重要性I = tfXidf 公式(1)其中,I表示該詞的重要性分?jǐn)?shù),tf表示該詞在所述評(píng)論中出現(xiàn)的次數(shù),idf表示 該詞的區(qū)分度,在本實(shí)施例中,所述區(qū)分度是一個(gè)已知的常數(shù)。此區(qū)分度的獲取可以采用以 下公式idf = Iog2(NdMf)其中,Nd表示文本的個(gè)數(shù),df表示出現(xiàn)過某一詞語的文本的個(gè)數(shù)。例如,以1000個(gè) 文本為例來計(jì)算詞語“專利”的區(qū)分度,其中“專利”這個(gè)詞在500個(gè)文本中出現(xiàn)過,則“專 利”這個(gè)詞語的區(qū)分度為idf = Iog2 (1000/500) = 1。按照公式(1)計(jì)算所要分析的評(píng)論中所有動(dòng)詞和名詞的重要性分?jǐn)?shù),并將所述重 要性分?jǐn)?shù)按照從高到低排序。在實(shí)際排序過程中,可以將動(dòng)詞與名詞分別排序,也可以將動(dòng) 詞與名詞混合排序,并取排在前面的幾個(gè)詞,例如,可以取前5個(gè)詞,也可以取其它數(shù)量的 詞,視具體情況而定,此處不再一一列舉。通過上述方法取出的動(dòng)詞和名詞即為所述評(píng)論的 關(guān)鍵詞。步驟302,獲取所述預(yù)先設(shè)定的信息的關(guān)鍵詞列表;在本實(shí)施例中,所述預(yù)先設(shè)定的信息為評(píng)論所對(duì)應(yīng)的新聞主題,即要獲取一個(gè)新 聞主題的關(guān)鍵詞列表。本實(shí)施例中,采用新聞與其對(duì)應(yīng)的若干條評(píng)論相結(jié)合的方法來獲取 該新聞主題的關(guān)鍵詞列表,以避免新聞中未出現(xiàn)或出現(xiàn)較少的關(guān)鍵詞被忽略的情況。具體 地,首先按照步驟301所述的方法獲取所述新聞的關(guān)鍵詞列表;再按照步驟301所述的方法 獲取所述新聞對(duì)應(yīng)的每一條評(píng)論的關(guān)鍵詞列表;將所有評(píng)論的關(guān)鍵詞列表組合在一起,再 次按照每個(gè)詞所對(duì)應(yīng)的重要性分?jǐn)?shù)排序,在實(shí)際排序的過程中,可以將動(dòng)詞與名詞分別排 序,也可以將動(dòng)詞與名詞混合排序,并取排在前面的幾個(gè)詞,從而可以獲得所述新聞對(duì)應(yīng)的 所有評(píng)論的關(guān)鍵詞列表。將所述新聞的關(guān)鍵詞列表與所述新聞對(duì)應(yīng)的所有評(píng)論的關(guān)鍵詞列 表按照一定的權(quán)重相組合,再取重要性較高的部分,即可得到該新聞主題的關(guān)鍵詞列表。例 如,所述新聞的關(guān)鍵詞列表為a,b,c,它們的重要性分?jǐn)?shù)分別為8.8,7.1,6.0;所述新聞對(duì)應(yīng)的所有評(píng)論的關(guān)鍵詞列表為X,y, Z, S,它們的重要性分?jǐn)?shù)分別為10,7. 8,5. 9,5. 3,則將 新聞的關(guān)鍵詞的權(quán)重設(shè)為1,而將所有評(píng)論的關(guān)鍵詞的權(quán)重設(shè)為0. 8,那么,a,b,c,x,y,z,s 這些詞的重要性分?jǐn)?shù)乘以權(quán)重后,對(duì)應(yīng)的分?jǐn)?shù)分別為8. 8,7. 1,6. 0,8. 0,6. 24,4. 72,4. 24, 將上述分?jǐn)?shù)對(duì)應(yīng)的詞語按照從高到低排列為a,χ, b,y,c,z, s,并取前5個(gè)詞a,χ, b,y,c, 這樣即得到該新聞主題的關(guān)鍵詞列表。步驟303,計(jì)算所述所要分析的信息的關(guān)鍵詞列表與所述預(yù)先設(shè)定的信息的關(guān)鍵 詞列表之間的相似度;在本實(shí)施例中,關(guān)鍵詞列表之間的相似度是通過將關(guān)鍵詞列表轉(zhuǎn)化成一個(gè)數(shù)學(xué)向 量、求解兩個(gè)向量之間的相似度來獲得的。例如,將所有的動(dòng)詞和名詞組成一個(gè)集合,可獲 得該集合的維數(shù)。將上述兩個(gè)關(guān)鍵詞列表中的詞所對(duì)應(yīng)的向量元素置1,其它位置0,這樣 可以得到元素均為0和1的兩個(gè)向量,再求這兩個(gè)向量的相似度。為了便于理解,假設(shè)所有 的動(dòng)詞和名詞組成的集合為{a,b,c, d,χ, y,ζ, s, ρ, q},則其維數(shù)是10 (實(shí)際上遠(yuǎn)遠(yuǎn)大于 10)。假設(shè)在步驟301中獲得的所要分析的評(píng)論的關(guān)鍵詞列表為b,c,s,則按照上述方法求 得其對(duì)應(yīng)的向量應(yīng)為Ii1= (0,1,1,0,0,0,0,1,0,0);假設(shè)在步驟302中獲得的新聞主題的 關(guān)鍵詞列表為a,χ, b,y,c,則按照上述方法求得其對(duì)應(yīng)的向量應(yīng)為h2 = (1,1,1,0,1,1,0,
h . Ji
0,0,0),再按照公式
權(quán)利要求
1.一種信息有效性分析的方法,其特征在于,包括 由獲取裝置獲取所要分析的信息的特征向量;根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù); 根據(jù)所述質(zhì)量分?jǐn)?shù)分析信息的有效性。
2.根據(jù)權(quán)利要求1所述的信息有效性分析的方法,其特征在于,所述由獲取裝置獲取 所要分析的信息的特征向量包括提取所要分析的信息的特征;將所述信息的特征數(shù)字化成所述所要分析的信息的特征向量。
3.根據(jù)權(quán)利要求2所述的信息有效性分析的方法,其特征在于,所述提取所要分析的 信息的特征包括提取所要分析的信息的自身特征;提取所要分析的信息與預(yù)先設(shè)定的信息的相關(guān)性特征。
4.根據(jù)權(quán)利要求3所述的信息有效性分析的方法,其特征在于,所述信息的自身特征 包括信息的長度特征、信息的句式特征、信息的語義特征、信息的情感特征和信息的上下文 特征中的至少一種特征。
5.根據(jù)權(quán)利要求3所述的信息有效性分析的方法,其特征在于,所述提取所要分析的 信息與預(yù)先設(shè)定的信息的相關(guān)性特征包括獲取所述所要分析的信息的關(guān)鍵詞列表; 獲取所述預(yù)先設(shè)定的信息的關(guān)鍵詞列表;計(jì)算所述所要分析的信息的關(guān)鍵詞列表與所述預(yù)先設(shè)定的信息的關(guān)鍵詞列表之間的 相似度;根據(jù)所述相似度獲取所述所要分析的信息與預(yù)先設(shè)定的信息的相關(guān)性特征。
6.根據(jù)權(quán)利要求1所述的信息有效性分析的方法,其特征在于,所述建立信息質(zhì)量評(píng) 估模型的步驟包括獲取預(yù)先設(shè)置的訓(xùn)練語料的特征向量,所述訓(xùn)練語料進(jìn)行過質(zhì)量標(biāo)注; 根據(jù)所述訓(xùn)練語料的特征向量對(duì)預(yù)先設(shè)置的規(guī)約模型進(jìn)行訓(xùn)練,獲取所述信息質(zhì)量評(píng) 估模型。
7.一種信息有效性分析的裝置,其特征在于,包括 第一獲取單元,用于獲取所要分析的信息的特征向量;第一分析單元,用于根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)由所述第一獲取單元獲取的 信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù);第二分析單元,用于根據(jù)由所述第一分析單元獲取的質(zhì)量分?jǐn)?shù)分析信息的有效性。
8.根據(jù)權(quán)利要求7所述的信息有效性分析的裝置,其特征在于,所述第一獲取單元包括提取單元,用于提取所要分析的信息的特征;生成單元,用于將由所述提取單元提取的信息的特征數(shù)字化成所述所要分析的信息的 特征向量。
9.根據(jù)權(quán)利要求8所述的信息有效性分析的裝置,其特征在于,所述提取單元包括第一提取子單元,用于提取所要分析的信息的自身特征; 第二提取子單元,用于提取所要分析的信息與預(yù)先設(shè)定的信息的相關(guān)性特征。
10.根據(jù)權(quán)利要求9所述的信息有效性分析的裝置,其特征在于,所述第二提取子單元 包括第二獲取單元,用于獲取所述所要分析的信息的關(guān)鍵詞列表; 第三獲取單元,用于獲取所述預(yù)先設(shè)定的信息的關(guān)鍵詞列表; 計(jì)算單元,用于計(jì)算由所述第二獲取單元獲取的所要分析的信息的關(guān)鍵詞列表與由所 述第三獲取單元獲取的預(yù)先設(shè)定的信息的關(guān)鍵詞列表之間的相似度;第四獲取單元,用于根據(jù)由所述計(jì)算單元計(jì)算的相似度獲取所述所要分析的信息與預(yù) 先設(shè)定的信息的相關(guān)性特征。
11.根據(jù)權(quán)利要求7所述的信息有效性分析的裝置,其特征在于,所述裝置還包括第五獲取單元,用于獲取預(yù)先設(shè)置的訓(xùn)練語料的特征向量,所述訓(xùn)練語料進(jìn)行過質(zhì)量 標(biāo)注;訓(xùn)練單元,用于根據(jù)由所述第五獲取單元獲取的訓(xùn)練語料的特征向量對(duì)預(yù)先設(shè)置的規(guī) 約模型進(jìn)行訓(xùn)練,獲取所述信息質(zhì)量評(píng)估模型。
全文摘要
本發(fā)明實(shí)施例公開一種信息有效性分析的方法和裝置,涉及信息檢測(cè)技術(shù)領(lǐng)域。為解決現(xiàn)有階段還沒有專門的對(duì)信息進(jìn)行有效性分析的技術(shù)而發(fā)明。本發(fā)明提供的技術(shù)方案包括由獲取裝置獲取所要分析的信息的特征向量;根據(jù)預(yù)先建立的信息質(zhì)量評(píng)估模型對(duì)所述信息的特征向量進(jìn)行分析,獲取質(zhì)量分?jǐn)?shù);根據(jù)所述質(zhì)量分?jǐn)?shù)分析信息的有效性。本發(fā)明適用于博客、論壇、新聞?wù)军c(diǎn)等網(wǎng)站的評(píng)估系統(tǒng)中,也適用于對(duì)于評(píng)論進(jìn)行進(jìn)一步處理的系統(tǒng)中,如情感分析、話題統(tǒng)計(jì)與分析、評(píng)論話題演化、有效評(píng)論抽取、垃圾評(píng)論過濾等技術(shù)領(lǐng)域中。
文檔編號(hào)G06F17/27GK102096680SQ200910242508
公開日2011年6月15日 申請(qǐng)日期2009年12月15日 優(yōu)先權(quán)日2009年12月15日
發(fā)明者萬小軍, 楊建武, 王晨峰 申請(qǐng)人:北京北大方正電子有限公司, 北京大學(xué), 北京方正電子政務(wù)信息科技有限公司, 北大方正集團(tuán)有限公司