亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法與流程

文檔序號(hào):12667015閱讀:219來(lái)源:國(guó)知局
動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法與流程

本發(fā)明涉及一種動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法。



背景技術(shù):

隨著計(jì)算機(jī)技術(shù)的快速發(fā)展和網(wǎng)絡(luò)的日益普及,用戶可獲取的信息量呈現(xiàn)指數(shù)級(jí)增長(zhǎng)[1],極大地豐富了用戶所處的信息環(huán)境,但是,同時(shí)造成了信息過(guò)載等問(wèn)題,增加了用戶獲取所需動(dòng)機(jī)詞匯的難度[2]。自動(dòng)分類過(guò)濾作為最簡(jiǎn)單有效的解決方法,被認(rèn)為是處理和組織大量數(shù)據(jù)的關(guān)鍵技術(shù)[3],而對(duì)其創(chuàng)意點(diǎn)進(jìn)行計(jì)算,是對(duì)自動(dòng)分類過(guò)濾方法優(yōu)劣評(píng)判最有效的方法,成為了該領(lǐng)域亟待解決的問(wèn)題,受到了廣大學(xué)者的關(guān)注,也出現(xiàn)了很多好的好方法[4-5]。

文獻(xiàn)[6]提出基于貝葉斯分類的動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾方法,該方法通過(guò)貝葉斯分類進(jìn)行分類,并給出核心過(guò)濾算法在動(dòng)機(jī)詞匯分類中的具體實(shí)現(xiàn)方法及過(guò)程,進(jìn)而完成對(duì)動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾。但是存在分類時(shí)間長(zhǎng)的問(wèn)題;文獻(xiàn)[7]提出基于信息反饋的自動(dòng)分類過(guò)濾方法,該方法在現(xiàn)有分類算法的基礎(chǔ)上選取了SNoW作為具體主體分類算法,并提出信息反饋和閾值過(guò)濾的策略以達(dá)到準(zhǔn)確過(guò)濾無(wú)關(guān)詞匯的目的,實(shí)現(xiàn)動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾。該方法雖然能實(shí)現(xiàn)動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾,但是存在分類過(guò)濾效果不佳的問(wèn)題;文獻(xiàn)[8]提出基于啟發(fā)式規(guī)則的自動(dòng)分類過(guò)濾方法,該方法通過(guò)對(duì)動(dòng)機(jī)詞匯進(jìn)行分詞、特征提取的基礎(chǔ)上,采用NB分類器進(jìn)行分類、過(guò)濾,實(shí)現(xiàn)對(duì)動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾,但是存在分類過(guò)濾精度低的問(wèn)題;文獻(xiàn)[9]提出基于潛在語(yǔ)義索引和支持向量機(jī)的分類過(guò)濾方法,在建立動(dòng)機(jī)詞匯信息過(guò)濾模型的基礎(chǔ)上,分別聽(tīng)過(guò)預(yù)處理、特征降維、訓(xùn)練、過(guò)濾等步驟,達(dá)到動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾,但是存在過(guò)濾信息不完整的問(wèn)題。

針對(duì)上述問(wèn)題的產(chǎn)生,提出基于貝葉斯網(wǎng)絡(luò)計(jì)算的動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾方法。基于爬蟲(chóng)對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行獲取,通過(guò)建立向量空間模型對(duì)采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語(yǔ)或者句子結(jié)構(gòu),對(duì)動(dòng)機(jī)詞匯進(jìn)行分類過(guò)濾。實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動(dòng)機(jī)詞匯分類過(guò)濾,相比傳統(tǒng)的分類過(guò)濾方法,其分類過(guò)濾精度高、效率好,具有一定的優(yōu)勢(shì)。

參考文獻(xiàn):

[1]侯風(fēng)巍,郭東軍,李世磊,等.基于信息反饋的文本主題分類過(guò)濾方法[J].通信學(xué)報(bào),2009(s1):139-144.

[2]原媛,孫敏.基于CLARA的KNN文本分類過(guò)濾防火墻的設(shè)計(jì)實(shí)現(xiàn)[J].電腦開(kāi)發(fā)與應(yīng)用,2007,20(10):19-21.

[3]李健.面向智能電網(wǎng)的多領(lǐng)域海量文本過(guò)濾框架研究[J].電力信息與通信技術(shù),2015(11):31-35.

[4]馬慧媛.如何在大學(xué)英語(yǔ)詞匯教學(xué)中激發(fā)學(xué)生的學(xué)習(xí)動(dòng)機(jī)[J].時(shí)代教育,2014(3):234-234.

[5]李志義,沈之銳,義梅練.貝葉斯分類算法在社交網(wǎng)站信息過(guò)濾中的應(yīng)用分析[J].圖書(shū)情報(bào)工作,2014(13):100-106.

[6]賈宇波.大數(shù)據(jù)挖掘分類算法在垃圾郵件過(guò)濾中的應(yīng)用[J].工業(yè)控制計(jì)算機(jī),2016,29(5).23-26.

[7]高俊波,梅波.基于文本內(nèi)容分析的微博廣告過(guò)濾模型研究[J].計(jì)算機(jī)工程,2014,40(5):17-20.

[8]康建.用詞法分析工具實(shí)現(xiàn)英語(yǔ)單詞提取及分類[J].電腦編程技巧與維護(hù),2015(19):17-17.

[9]吳瑋.基于空間向量模型的垃圾文本過(guò)濾方法[J].湖南科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(1):78-83.

[10]王文霞.基于貝葉斯文本分類算法的垃圾短信過(guò)濾系統(tǒng)[J].山西大同大學(xué)學(xué)報(bào)(自然科學(xué)版),2016(3):13-18.。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于提供一種動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法,該方法采用改進(jìn)的方法進(jìn)行動(dòng)機(jī)詞匯分類過(guò)濾,相比傳統(tǒng)的分類過(guò)濾方法,其分類過(guò)濾精度高、效率好,具有一定的優(yōu)勢(shì)。

為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法,包括如下步驟,

S1、采用爬蟲(chóng)法對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行采集,為動(dòng)機(jī)詞匯語(yǔ)料信息聚類處理提供基礎(chǔ)依據(jù);

S2、根據(jù)步驟S1獲取的動(dòng)機(jī)詞匯語(yǔ)料信息,采用SVD進(jìn)行動(dòng)機(jī)詞匯信息聚類處理;

S3、在對(duì)動(dòng)機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語(yǔ)或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),對(duì)動(dòng)機(jī)詞匯進(jìn)行分類過(guò)濾生成。

在本發(fā)明一實(shí)施例中,所述步驟S1具體實(shí)現(xiàn)如下,

S11、可獲取信息權(quán)值的計(jì)算:

假設(shè)關(guān)鍵詞匯集合W=(W1,W2,...,Wn),第i個(gè)關(guān)鍵詞匯Wi有x(x≥1)個(gè)概念意義,記作從關(guān)鍵詞匯集合轉(zhuǎn)化到概念集合TW,每個(gè)關(guān)鍵詞匯的概念可表示為:tjwi=(wi,tji),j=1,2,...,xi;則第i個(gè)動(dòng)機(jī)詞匯的第j個(gè)意義可表示為:

則關(guān)鍵動(dòng)機(jī)詞匯tk在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di里的動(dòng)機(jī)詞匯權(quán)值為:

wik=tfik×log(N/nk) (2)

其中,N為語(yǔ)料庫(kù)di中動(dòng)機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動(dòng)機(jī)詞匯tk的動(dòng)機(jī)詞匯的總數(shù),tfik為tk在語(yǔ)料庫(kù)di中出現(xiàn)的頻數(shù);則語(yǔ)料庫(kù)di的向量可表示為:di=(wi1,wi2,...,win);

S12、基于權(quán)值的動(dòng)機(jī)詞匯相關(guān)語(yǔ)料相關(guān)度計(jì)算:

先通過(guò)權(quán)值計(jì)算動(dòng)機(jī)詞匯屬于每個(gè)類別的概率,用向量(w1,w2,...,wn)表示;計(jì)算獲取的動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中動(dòng)機(jī)詞匯屬于每一類別的概率,可用下式進(jìn)行表示:

其中:|D|為動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中類Bj的訓(xùn)練樣本數(shù),N(wm,di)為動(dòng)機(jī)詞匯wm在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中的詞頻,|V|為總動(dòng)機(jī)詞匯數(shù),為類Bj中所有動(dòng)機(jī)詞匯的詞頻和;則其動(dòng)機(jī)詞匯相關(guān)語(yǔ)料相關(guān)度可用下式進(jìn)行計(jì)算:

式中:訓(xùn)練樣本數(shù)/總訓(xùn)練樣本數(shù),為相似含義,|C|為類的總數(shù),N(wm,di)為wm在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中的詞頻,n為關(guān)鍵動(dòng)機(jī)詞匯的總數(shù),通過(guò)相關(guān)度計(jì)算,確定所要獲取的動(dòng)機(jī)詞匯信息;

S13、基于相關(guān)度的動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息獲取:

結(jié)合相關(guān)度的計(jì)算結(jié)果,通過(guò)爬蟲(chóng)去采集動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息,為動(dòng)機(jī)詞匯語(yǔ)料信息聚類處理提供基礎(chǔ)依據(jù)。

在本發(fā)明一實(shí)施例中,所述步驟S2具體實(shí)現(xiàn)如下,

S21、根據(jù)信息論,計(jì)算動(dòng)機(jī)詞匯出現(xiàn)的概率;定義基于帶單個(gè)詞匯在語(yǔ)料庫(kù)中出現(xiàn)的平均信息量為:

式中:Pi(w)為單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的概率,n為常數(shù);W(w)的值越大,說(shuō)明單個(gè)動(dòng)機(jī)詞匯w所表示的平均信息量越大,單個(gè)動(dòng)機(jī)詞匯就越普通,可以當(dāng)作是噪聲詞省略掉;

考慮到當(dāng)一個(gè)動(dòng)機(jī)詞匯在句子中出現(xiàn)的平均信息量和包含該動(dòng)機(jī)詞匯的句子在語(yǔ)料庫(kù)中的平均信息量都較大時(shí),表示該詞較為普通;定義兩者之和為聯(lián)合嫡W'(w):

W'(w)=H(w)+H(s|w) (9)

單個(gè)動(dòng)機(jī)詞匯在句子中出現(xiàn)的平均信息量H(w):

包含此單個(gè)動(dòng)機(jī)詞匯w的句子在語(yǔ)料庫(kù)中的平均信息量H(s|w):

單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的概率Pj(w):

包含單個(gè)動(dòng)機(jī)詞匯w的句子在語(yǔ)料庫(kù)中出現(xiàn)的概率Pl(s|w):

式中:fj(w)為單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的頻率,n為語(yǔ)料庫(kù)中的動(dòng)機(jī)詞匯數(shù),fl(s|w)為包含單個(gè)動(dòng)機(jī)詞匯的句子s在語(yǔ)料庫(kù)l中出現(xiàn)的頻率;

S22、通過(guò)計(jì)算閾值,對(duì)動(dòng)機(jī)詞匯特征進(jìn)行選擇;假設(shè),TF是詞頻,表示特征tk在此語(yǔ)料庫(kù)中出現(xiàn)的頻率,IDF是反語(yǔ)料庫(kù)頻率,IDF=log(N/n),N表示語(yǔ)料庫(kù)中所有的動(dòng)機(jī)詞匯數(shù),n為包含特征tk的動(dòng)機(jī)詞匯數(shù);IDF的的基本思想是如果包含某個(gè)特征tk的語(yǔ)料信息越少,IDF就越大,說(shuō)明特征tk有很好的類別區(qū)分能力,則TF-IDF方法的計(jì)算公式如下所示:

為了使TF值對(duì)權(quán)重的影響進(jìn)一步降低,對(duì)上式進(jìn)行改進(jìn),表達(dá)式如下所示:

通過(guò)計(jì)算每個(gè)特征tk的期望交又嫡,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集;計(jì)算公式如下:

式中:P(tk)為特征tk出現(xiàn)的概率,P(Ci|tk)為類別Ci在特征tk出現(xiàn)情況下的概率,P(Ci)為Ci的出現(xiàn)概率;

S23、在根據(jù)信息增益法計(jì)算動(dòng)機(jī)詞匯的信息增益,當(dāng)動(dòng)機(jī)詞匯特征tk信息增益大于給定值時(shí)作為特征項(xiàng),計(jì)算公式如下:

其中,n為特征集中的維數(shù),pi為當(dāng)前詞匯特征出現(xiàn)的概率;當(dāng)tk互信息量大于給定值時(shí)作為特征項(xiàng);特征tk和類別Ci的互信息體現(xiàn)了特征與類別的相關(guān)程度;特征tk的互信息量為:

S24、應(yīng)用SVD進(jìn)行動(dòng)機(jī)詞匯聚類處理,k為動(dòng)機(jī)詞匯向量中最關(guān)鍵的詞匯元素,動(dòng)機(jī)詞匯向量是由n個(gè)特征組成的n維向量,由于每個(gè)動(dòng)機(jī)詞匯的特征數(shù)不同,可以認(rèn)為每個(gè)動(dòng)機(jī)詞匯向量都處于一個(gè)空間中,若想要對(duì)不同的動(dòng)機(jī)詞匯進(jìn)行聚類處理,就需要將不同維數(shù)的動(dòng)機(jī)詞匯向量映射到同一個(gè)空間中進(jìn)行比較,降維節(jié)后的新矩陣也將大大減少文本處理中不良信息的干擾,則矩陣A進(jìn)行奇異分解降維寫(xiě)成矩陣Ak

式中:ui和vi表示動(dòng)機(jī)詞匯特征向量和動(dòng)機(jī)詞匯向量的語(yǔ)義空間,同樣的,在進(jìn)行文本相似度計(jì)算的時(shí)候,需要將代表文本特征的向量映射到與Ak行向量具有相同的維數(shù);則得到k維映射后的向量t'為:

通過(guò)k維映射后,就可以得到初始向量的相似向量,接下來(lái)就可以采用SVD進(jìn)行動(dòng)機(jī)詞匯聚類處理,假設(shè)有一組動(dòng)機(jī)詞匯序列(X,s)或者(X,d),其中X表示一組樣本,s和d分別表示度量樣本間相似度或相異度的標(biāo)準(zhǔn);若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:

X=C1∪C2...∪Ck (21)

對(duì)任意的i≠j,有Ci∩Cj=φ,C中的動(dòng)機(jī)詞匯C1,C2,...,Ck叫作簇;對(duì)于動(dòng)機(jī)詞匯特征相似度作為動(dòng)機(jī)詞匯相似度的聚類來(lái)說(shuō),讓同一個(gè)聚類簇中的單個(gè)動(dòng)機(jī)詞匯間相似度更高,則得到聚類結(jié)果表達(dá)式如下所示:

綜上所述,在獲取動(dòng)機(jī)詞匯語(yǔ)料信息的基礎(chǔ)上,可采用SVD進(jìn)行動(dòng)機(jī)詞匯信息聚類處理,為動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)的計(jì)算提供基礎(chǔ)依據(jù)。

相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明針對(duì)傳統(tǒng)的自動(dòng)分類過(guò)濾法一直存在分類過(guò)濾不準(zhǔn)確,效率低的問(wèn)題,提出基于貝葉斯網(wǎng)絡(luò)計(jì)算的動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾方法;該方法基于爬蟲(chóng)對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行獲取,通過(guò)建立向量空間模型對(duì)采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語(yǔ)或者句子結(jié)構(gòu),對(duì)動(dòng)機(jī)詞匯進(jìn)行分類過(guò)濾;實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動(dòng)機(jī)詞匯分類過(guò)濾,相比傳統(tǒng)的分類過(guò)濾方法,其分類過(guò)濾精度高、效率好,具有一定的優(yōu)勢(shì)。

附圖說(shuō)明

圖1為本發(fā)明采用的基于爬蟲(chóng)的動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息獲取流程圖。

圖2為本發(fā)明采用的貝葉斯網(wǎng)絡(luò)模型。

圖3為不同方法下召回率對(duì)比分析。

圖4為不同方法下正確率對(duì)比分析。

圖5為不同方法下錯(cuò)誤率對(duì)比分析。

具體實(shí)施方式

下面結(jié)合附圖1-5,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說(shuō)明。

本發(fā)明的一種動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法,包括如下步驟,

S1、采用爬蟲(chóng)法對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行采集,為動(dòng)機(jī)詞匯語(yǔ)料信息聚類處理提供基礎(chǔ)依據(jù);

S2、根據(jù)步驟S1獲取的動(dòng)機(jī)詞匯語(yǔ)料信息,采用SVD進(jìn)行動(dòng)機(jī)詞匯信息聚類處理;

S3、在對(duì)動(dòng)機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語(yǔ)或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),對(duì)動(dòng)機(jī)詞匯進(jìn)行分類過(guò)濾生成。

以下對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體描述。

本發(fā)明動(dòng)機(jī)詞匯的自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)計(jì)算方法,具體實(shí)現(xiàn)步驟如下:

1基于爬蟲(chóng)算法的動(dòng)機(jī)詞匯語(yǔ)料信息獲取

由于動(dòng)機(jī)詞匯的特殊性,采用爬蟲(chóng)法對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行采集,為動(dòng)機(jī)詞匯語(yǔ)料信息聚類處理提供基礎(chǔ)依據(jù)。

1.1可獲取信息權(quán)值的計(jì)算

采用改進(jìn)的TF/IDF算法對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息權(quán)值進(jìn)行計(jì)算,通過(guò)統(tǒng)計(jì)一個(gè)詞匯在語(yǔ)料庫(kù)中出現(xiàn)的頻度來(lái)評(píng)估該詞匯的重要性,若一個(gè)關(guān)鍵詞匯A比一個(gè)關(guān)鍵詞匯B在語(yǔ)料庫(kù)中出現(xiàn)的頻度大,則說(shuō)明關(guān)鍵詞匯A比關(guān)鍵詞匯B重要,以此方法來(lái)決定權(quán)重[10],而這一量度只反應(yīng)了某特定文檔的局部特征,不夠完善。從整個(gè)語(yǔ)料庫(kù)來(lái)看,一個(gè)詞匯的頻度高,針對(duì)特定查詢需求區(qū)分相關(guān)語(yǔ)料和不相關(guān)語(yǔ)料重要性就不會(huì)很大,一個(gè)關(guān)鍵詞匯的權(quán)重還應(yīng)該和該詞所在語(yǔ)料庫(kù)的總數(shù)成反比關(guān)系。

假設(shè)關(guān)鍵詞匯集合W=(W1,W2,...,Wn),第i個(gè)關(guān)鍵詞匯Wi有x(x≥1)個(gè)概念意義,記作從關(guān)鍵詞匯集合轉(zhuǎn)化到概念集合TW,每個(gè)關(guān)鍵詞匯的概念可表示為:tjwi=(wi,tji),j=1,2,...,xi;則第i個(gè)動(dòng)機(jī)詞匯的第j個(gè)意義可表示為:

則關(guān)鍵動(dòng)機(jī)詞匯tk在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di里的動(dòng)機(jī)詞匯權(quán)值為:

wik=tfik×log(N/nk) (2)

其中,N為語(yǔ)料庫(kù)di中動(dòng)機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動(dòng)機(jī)詞匯tk的動(dòng)機(jī)詞匯的總數(shù),tfik為tk在語(yǔ)料庫(kù)di中出現(xiàn)的頻數(shù);則語(yǔ)料庫(kù)di的向量可表示為:di=(wi1,wi2,...,win);

其中,N為動(dòng)機(jī)詞匯語(yǔ)料庫(kù)中動(dòng)機(jī)詞匯的總數(shù),nk為包含關(guān)鍵動(dòng)機(jī)詞匯tk的動(dòng)機(jī)詞匯的總數(shù),tfik為tk在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中出現(xiàn)的頻數(shù)。則動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di的向量可表示為:di=(wi1,wi2,...,win)。需要注意的是:如果動(dòng)機(jī)詞匯訓(xùn)練樣本集的語(yǔ)料信息都屬于同一類,其中重要?jiǎng)訖C(jī)詞匯幾乎在每個(gè)語(yǔ)料庫(kù)中都會(huì)出現(xiàn),就會(huì)導(dǎo)致IDF的值極小,影響權(quán)值。當(dāng)語(yǔ)料信息全部屬于同一個(gè)類別時(shí),動(dòng)機(jī)詞匯的重要性應(yīng)該與語(yǔ)料信息在語(yǔ)料庫(kù)中出現(xiàn)的頻率成正比。或者說(shuō)某一個(gè)關(guān)鍵詞匯在一個(gè)類中出現(xiàn)的次數(shù)很大,在別的類中出現(xiàn)的次數(shù)都很小,顯然此關(guān)鍵詞匯具有很好的表征此類文檔的能力,所以傳統(tǒng)的權(quán)值計(jì)算方法具有缺陷,并不是對(duì)所有的情況都表現(xiàn)優(yōu)秀需要對(duì)其進(jìn)行改進(jìn)。

假設(shè)總的動(dòng)機(jī)詞匯語(yǔ)料庫(kù)中的動(dòng)機(jī)詞匯數(shù)為N,tfik為tk在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中出現(xiàn)的頻數(shù),某一類Bi中出現(xiàn)此關(guān)鍵詞匯的個(gè)數(shù)為nbi,nki表示除類Bi以外的類中包含關(guān)鍵詞匯tki的動(dòng)機(jī)詞匯語(yǔ)料信息數(shù),則權(quán)值計(jì)算公式可以表示為:

其中:

設(shè)函數(shù):令x1>x2>0,則有:

很顯然當(dāng)x增大,IDF的值隨著增大。所以說(shuō)如果關(guān)鍵詞匯tk在類別Bi里出現(xiàn)的次數(shù)多,在其他類別中的出現(xiàn)次數(shù)少,則關(guān)鍵詞匯tk就能很好的代表Bi類的特征,具有很好的區(qū)別能力。假如在其他類中出現(xiàn)的次數(shù)多,則在此類中的IDF值就會(huì)變小,所以此方法獲取的權(quán)值為最優(yōu)值。

1.2基于權(quán)值的動(dòng)機(jī)詞匯相關(guān)語(yǔ)料相關(guān)度計(jì)算

動(dòng)機(jī)詞匯語(yǔ)料相關(guān)度評(píng)價(jià)是采用爬蟲(chóng)獲取動(dòng)機(jī)詞匯相關(guān)語(yǔ)料非常重要的一個(gè)環(huán)節(jié)。通過(guò)相關(guān)度計(jì)算可以預(yù)測(cè)目標(biāo)動(dòng)機(jī)詞匯語(yǔ)料的相關(guān)度,引導(dǎo)搜索方向另外對(duì)采集的動(dòng)機(jī)詞匯語(yǔ)料進(jìn)行相關(guān)度計(jì)算,與預(yù)先設(shè)定的語(yǔ)料權(quán)值相比較,大于權(quán)值的動(dòng)機(jī)詞匯語(yǔ)料保留,小于權(quán)值的動(dòng)機(jī)詞匯語(yǔ)料直接拋棄。這樣既提高所采集語(yǔ)料與動(dòng)機(jī)詞匯語(yǔ)料的相關(guān)度,又減少了本地的存儲(chǔ)空間。所以引入上文權(quán)值方法來(lái)計(jì)算動(dòng)機(jī)詞匯語(yǔ)料的相關(guān)度。相關(guān)度計(jì)算常用的方法主要有內(nèi)容分析法、鏈接結(jié)構(gòu)分析法。貝葉斯方法其實(shí)是一種概率統(tǒng)計(jì)的方法,通過(guò)計(jì)算動(dòng)機(jī)詞匯屬于某個(gè)類別的概率的大小進(jìn)行匹配。先通過(guò)權(quán)值計(jì)算動(dòng)機(jī)詞匯屬于每個(gè)類別的概率,用向量(w1,w2,...,wn)表示;計(jì)算獲取的動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di屬于每一類別的概率,可用下式進(jìn)行表示:

其中:|D|為動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中類Bj的訓(xùn)練樣本數(shù),N(wm,di)為動(dòng)機(jī)詞匯wm在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中的詞頻,|V|為總動(dòng)機(jī)詞匯數(shù),為類Bj中所有動(dòng)機(jī)詞匯的詞頻和;則其動(dòng)機(jī)詞匯相關(guān)語(yǔ)料相關(guān)度可用下式進(jìn)行計(jì)算:

式中:訓(xùn)練樣本數(shù)/總訓(xùn)練樣本數(shù),為相似含義,|C|為類的總數(shù),N(wm,di)為wm在動(dòng)機(jī)詞匯語(yǔ)料庫(kù)di中的詞頻,n為關(guān)鍵動(dòng)機(jī)詞匯的總數(shù),通過(guò)相關(guān)度計(jì)算,確定所要獲取的動(dòng)機(jī)詞匯信息;

1.3基于相關(guān)度的動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息獲取

結(jié)合相關(guān)度的計(jì)算結(jié)果,可通過(guò)爬蟲(chóng)去采集動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息,詳細(xì)的獲取步驟如下所示:

Input:等待其他節(jié)點(diǎn)傳來(lái)的一個(gè)動(dòng)機(jī)詞匯,或者它所管轄的抓取進(jìn)程返回的一個(gè)URL及相應(yīng)的動(dòng)機(jī)詞匯;

Oitput:把動(dòng)機(jī)詞匯下載或傳往其它節(jié)點(diǎn)。

(1)若得到其他節(jié)點(diǎn)傳來(lái)的一個(gè)動(dòng)機(jī)詞匯,看動(dòng)機(jī)詞匯是都出現(xiàn)在語(yǔ)料庫(kù)中;

(2)若得到抓取進(jìn)程返回的動(dòng)機(jī)詞匯,則從動(dòng)機(jī)詞匯對(duì)應(yīng)的語(yǔ)料庫(kù)中解析出超鏈接LINK。從語(yǔ)料庫(kù)中分給該抓取進(jìn)程一個(gè)新的動(dòng)機(jī)詞匯,并將返回動(dòng)機(jī)詞匯放到詞匯存儲(chǔ)器中;如果爬蟲(chóng)用于普通的爬行則轉(zhuǎn)到A,如果用于詞匯爬行轉(zhuǎn)到B;

A:對(duì)每一個(gè)新得到的動(dòng)機(jī)詞匯語(yǔ)料信息計(jì)算其權(quán)值,公式如下式(8),在節(jié)點(diǎn)由每個(gè)節(jié)點(diǎn)上面維護(hù)的一個(gè)映射表中得到具體的節(jié)點(diǎn)號(hào);

node_num=hash(new_url.host)%node_sum_num (8)

B:對(duì)每一個(gè)新得到的動(dòng)機(jī)詞匯語(yǔ)料信息計(jì)算其權(quán)值,公式如下式(9),在節(jié)點(diǎn)由每個(gè)上面維護(hù)的一個(gè)映射表中得到具體的節(jié)點(diǎn)號(hào);

(3)對(duì)每一個(gè)超鏈接LINK及其對(duì)數(shù)的整數(shù),如果本節(jié)點(diǎn)標(biāo)號(hào)為整數(shù)重新進(jìn)行分配;反之,將LINK發(fā)給節(jié)點(diǎn);

(4)計(jì)算相關(guān)度,結(jié)合相關(guān)度判斷動(dòng)機(jī)詞匯類型是否為所需的動(dòng)機(jī)詞匯,如果不是則跳過(guò),如果是則繼續(xù)進(jìn)行分析;

(5)讀取所需動(dòng)機(jī)詞匯采用正則表達(dá)式匹配方法,尋找動(dòng)機(jī)詞匯語(yǔ)料信息,并進(jìn)行記錄下來(lái);

(6)將記錄下來(lái)的動(dòng)機(jī)詞匯按照預(yù)定的形式進(jìn)行存儲(chǔ),實(shí)現(xiàn)動(dòng)機(jī)詞匯相關(guān)語(yǔ)料信息的獲取,表達(dá)式如下式(10)所示,流程如下圖1所示:

式中:Simcos為動(dòng)機(jī)詞匯語(yǔ)料特征,Simmed為動(dòng)機(jī)詞匯語(yǔ)料信息量。

2采集動(dòng)機(jī)詞匯語(yǔ)料信息的聚類處理

在獲取動(dòng)機(jī)詞匯語(yǔ)料信息的基礎(chǔ)上,采用SVD進(jìn)行動(dòng)機(jī)詞匯信息聚類處理。

第一、根據(jù)信息論,計(jì)算動(dòng)機(jī)詞匯出現(xiàn)的概率;定義基于帶單個(gè)詞匯在語(yǔ)料庫(kù)中出現(xiàn)的平均信息量為:

式中:Pi(w)為單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的概率,n為常數(shù);W(w)的值越大,說(shuō)明單個(gè)動(dòng)機(jī)詞匯w所表示的平均信息量越大,單個(gè)動(dòng)機(jī)詞匯就越普通,可以當(dāng)作是噪聲詞省略掉;

考慮到當(dāng)一個(gè)動(dòng)機(jī)詞匯在句子中出現(xiàn)的平均信息量和包含該動(dòng)機(jī)詞匯的句子在語(yǔ)料庫(kù)中的平均信息量都較大時(shí),表示該詞較為普通;定義兩者之和為聯(lián)合嫡W'(w):

W'(w)=H(w)+H(s|w) (12)

單個(gè)動(dòng)機(jī)詞匯在句子中出現(xiàn)的平均信息量H(w):

包含此單個(gè)動(dòng)機(jī)詞匯w的句子在語(yǔ)料庫(kù)中的平均信息量H(s|w):

單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的概率Pj(w):

包含單個(gè)動(dòng)機(jī)詞匯w的句子在語(yǔ)料庫(kù)中出現(xiàn)的概率Pl(s|w):

式中:fj(w)為單個(gè)動(dòng)機(jī)詞匯w在語(yǔ)料庫(kù)中出現(xiàn)的頻率,n為語(yǔ)料庫(kù)中的動(dòng)機(jī)詞匯數(shù),fl(s|w)為包含單個(gè)動(dòng)機(jī)詞匯的句子s在語(yǔ)料庫(kù)l中出現(xiàn)的頻率;

第二、通過(guò)計(jì)算閾值,對(duì)動(dòng)機(jī)詞匯特征進(jìn)行選擇;假設(shè),TF是詞頻,表示特征tk在此語(yǔ)料庫(kù)中出現(xiàn)的頻率,IDF是反語(yǔ)料庫(kù)頻率,IDF=log(N/n),N表示語(yǔ)料庫(kù)中所有的動(dòng)機(jī)詞匯數(shù),n為包含特征tk的動(dòng)機(jī)詞匯數(shù);IDF的的基本思想是如果包含某個(gè)特征tk的語(yǔ)料信息越少,IDF就越大,說(shuō)明特征tk有很好的類別區(qū)分能力,則TF-IDF方法的計(jì)算公式如下所示:

為了使TF值對(duì)權(quán)重的影響進(jìn)一步降低,對(duì)上式進(jìn)行改進(jìn),表達(dá)式如下所示:

通過(guò)計(jì)算每個(gè)特征tk的期望交又嫡,選取預(yù)定數(shù)目的最佳特征作為結(jié)果的特征子集;計(jì)算公式如下:

式中:P(tk)為特征tk出現(xiàn)的概率,P(Ci|tk)為類別Ci在特征tk出現(xiàn)情況下的概率,P(Ci)為Ci的出現(xiàn)概率;

第三、在根據(jù)信息增益法計(jì)算動(dòng)機(jī)詞匯的信息增益,當(dāng)動(dòng)機(jī)詞匯特征tk信息增益大于給定值時(shí)作為特征項(xiàng),計(jì)算公式如下:

其中,n為特征集中的維數(shù),pi為當(dāng)前詞匯特征出現(xiàn)的概率。當(dāng)tk互信息量大于給定值時(shí)作為特征項(xiàng);特征tk和類別Ci的互信息體現(xiàn)了特征與類別的相關(guān)程度。特征tk的互信息量為:

第四、應(yīng)用SVD進(jìn)行動(dòng)機(jī)詞匯聚類處理,k為動(dòng)機(jī)詞匯向量中最關(guān)鍵的詞匯元素,動(dòng)機(jī)詞匯向量是由n個(gè)特征組成的n維向量,由于每個(gè)動(dòng)機(jī)詞匯的特征數(shù)不同,可以認(rèn)為每個(gè)動(dòng)機(jī)詞匯向量都處于一個(gè)空間中,若想要對(duì)不同的動(dòng)機(jī)詞匯進(jìn)行聚類處理,就需要將不同維數(shù)的動(dòng)機(jī)詞匯向量映射到同一個(gè)空間中進(jìn)行比較,降維節(jié)后的新矩陣也將大大減少文本處理中不良信息的干擾,則矩陣A進(jìn)行奇異分解降維寫(xiě)成矩陣Ak

式中:ui和vi表示動(dòng)機(jī)詞匯特征向量和動(dòng)機(jī)詞匯向量的語(yǔ)義空間,同樣的,在進(jìn)行文本相似度計(jì)算的時(shí)候,需要將代表文本特征的向量映射到與Ak行向量具有相同的維數(shù);則得到k維映射后的向量t'為:

通過(guò)k維映射后,就可以得到初始向量的相似向量,接下來(lái)就可以采用SVD進(jìn)行動(dòng)機(jī)詞匯聚類處理,假設(shè)有一組動(dòng)機(jī)詞匯序列(X,s)或者(X,d),其中X表示一組樣本,s和d分別表示度量樣本間相似度或相異度的標(biāo)準(zhǔn);若C={C1,C2,...,Ck}其中Ci=(i=1,2,...,k)是X的子集,如下所示:

X=C1∪C2...∪Ck (24)

對(duì)任意的i≠j,有Ci∩Cj=φ,C中的動(dòng)機(jī)詞匯C1,C2,...,Ck叫作簇;對(duì)于動(dòng)機(jī)詞匯特征相似度作為動(dòng)機(jī)詞匯相似度的聚類來(lái)說(shuō),讓同一個(gè)聚類簇中的單個(gè)動(dòng)機(jī)詞匯間相似度更高,則得到聚類結(jié)果表達(dá)式如下所示:

綜上所述,在獲取動(dòng)機(jī)詞匯語(yǔ)料信息的基礎(chǔ)上,可采用SVD進(jìn)行動(dòng)機(jī)詞匯信息聚類處理,為動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)的計(jì)算提供基礎(chǔ)依據(jù)。

3動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾生成創(chuàng)意點(diǎn)的計(jì)算

在對(duì)動(dòng)機(jī)詞匯進(jìn)行聚類處理的基礎(chǔ)上,利用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并以本體理論為基礎(chǔ),按短語(yǔ)或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn)。

采用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯間的相關(guān)性,主要是由于其通過(guò)總體動(dòng)機(jī)詞匯信息和先驗(yàn)信息來(lái)估計(jì)其后驗(yàn)信息。在對(duì)動(dòng)機(jī)詞匯間的相關(guān)性進(jìn)行計(jì)算時(shí),除了考慮動(dòng)機(jī)詞匯A產(chǎn)生的概率,還需要考慮在已知的動(dòng)機(jī)詞匯B獲取的情況下,動(dòng)機(jī)詞匯A獲取的概率,這就需要計(jì)算其條件概率,記為P(A|B),計(jì)算公式如下所示:

式中:P(A|B)表示動(dòng)機(jī)詞匯A和B同時(shí)被采集的概率,P(B)為動(dòng)機(jī)詞匯B被采集的概率。

假設(shè)(Ω,F,P)為一概率空間。Ai∩Aj=φ(i≠j)且則對(duì)任意動(dòng)機(jī)詞匯B∈F且P(B)>0,有:

式中:P(Ai)為先驗(yàn)概率,P(B|Ai)為條件概率,為全概率公式,且P(Ai)>0。如果用C表示動(dòng)機(jī)詞匯類別結(jié)點(diǎn),用X1,X2,...,Xn表示n個(gè)屬性結(jié)點(diǎn),則貝葉斯網(wǎng)絡(luò)模型可用下圖2進(jìn)行表示。

將貝葉斯網(wǎng)絡(luò)運(yùn)用到動(dòng)機(jī)詞匯自動(dòng)分類的動(dòng)機(jī)詞匯間相關(guān)性的計(jì)算,其具體計(jì)算流程如下所示:

1)把將要計(jì)算的動(dòng)機(jī)詞匯X用一個(gè)n維特征向量X=(t1,t2,...,tn)表示,其中t1,t2,...,tn分別動(dòng)機(jī)詞匯向量空間的n個(gè)特征項(xiàng);

2)設(shè)有m個(gè)動(dòng)機(jī)詞匯類別C1,C2,...,Cm,給定一個(gè)待計(jì)算詞匯X,采用貝葉斯網(wǎng)絡(luò)法將待計(jì)算的詞匯X分別具有最高后驗(yàn)概率的類別,即在給定詞匯X下,貝葉斯網(wǎng)絡(luò)法將待計(jì)算詞匯分配給類別Ci,當(dāng)且僅當(dāng)

P(Ci|X)>P(Cj|X),i≠j (28)

3)根據(jù)貝葉斯定理有

由于P(X)對(duì)于所有類別都為常數(shù),所以只需要P(X|Ci)P(Ci)最大即可,P(X|Ci)P(Ci)中類的先驗(yàn)概率P(Ci)可以由訓(xùn)練文本集估計(jì)得到,既可以用進(jìn)行估計(jì),其中si是類別Ci中的訓(xùn)練動(dòng)機(jī)詞匯的總數(shù),s是全部訓(xùn)練動(dòng)機(jī)詞匯的總數(shù),此時(shí)只需要對(duì)條件概率P(X|Ci)進(jìn)行最大化處理;

4)根據(jù)樸素貝葉斯網(wǎng)絡(luò)的類條件獨(dú)立性假設(shè),即動(dòng)機(jī)詞匯集中一個(gè)特征項(xiàng)對(duì)給定類的影響?yīng)毩⒂谄渌卣黜?xiàng),則

式中:概率p(t1|Ci),p(t2|Ci),...,p(tn|Ci)的值同樣可以由訓(xùn)練樣本估計(jì)出來(lái),主要表示類別Ci中出現(xiàn)tk的概率,具體為:

式中:count(tk|Ci)表示詞匯特征tk在訓(xùn)練樣本的類Ci中出現(xiàn)的次數(shù),表示類Ci中出現(xiàn)的所有動(dòng)機(jī)詞匯特征的總次數(shù)。由于動(dòng)機(jī)詞匯向量空間的稀疏性,導(dǎo)致一些特征項(xiàng)在某些語(yǔ)料庫(kù)中沒(méi)有出現(xiàn),這樣不管別的特征項(xiàng)的條件概率有多高,都會(huì)導(dǎo)致為零,為了避免這種情況的出現(xiàn),需要用Laplace平滑修正,表達(dá)式改為:

式中:n為動(dòng)機(jī)詞匯特征項(xiàng)的總個(gè)數(shù),即特征向量空間的維數(shù),δ為任意的非零實(shí)數(shù)通常設(shè)置為1;

5)根據(jù)貝葉斯網(wǎng)絡(luò)分類器的判別規(guī)則,把待計(jì)算動(dòng)機(jī)詞匯X判給類C,當(dāng)且僅當(dāng)

通過(guò)以上幾個(gè)步驟,采用貝葉斯網(wǎng)絡(luò)法計(jì)算動(dòng)機(jī)詞匯間關(guān)聯(lián)度,表達(dá)式為:

式中:pi和pj分別為動(dòng)機(jī)詞匯S1、S2的顯著特征,D為橫向關(guān)聯(lián)影響深度,d(pi,pj)為動(dòng)機(jī)詞匯特征pi在語(yǔ)料庫(kù)pj中出現(xiàn)的次數(shù)。則動(dòng)機(jī)詞匯間的相關(guān)性,可用其相關(guān)度表示,表達(dá)式為:

在此基礎(chǔ)上,基于本體理論基上,按短語(yǔ)或者句子結(jié)構(gòu)生成創(chuàng)意點(diǎn),計(jì)算公式為:

式中:X≠φ,|X|表示動(dòng)機(jī)詞匯集合X的基數(shù)。當(dāng)αR(X)=1時(shí),其創(chuàng)意點(diǎn)為最優(yōu);當(dāng)αR(X)=0時(shí),其創(chuàng)意點(diǎn)為最差。

4實(shí)驗(yàn)結(jié)果分析

4.1實(shí)驗(yàn)參數(shù)設(shè)置

實(shí)驗(yàn)采用Reuters-21578語(yǔ)料庫(kù),該語(yǔ)料庫(kù)一共包含22個(gè)文件,21578個(gè)動(dòng)機(jī)詞匯。為了把該語(yǔ)料庫(kù)分為訓(xùn)練集和測(cè)試集,分為訓(xùn)練集9603個(gè)動(dòng)機(jī)詞匯,測(cè)試集3299個(gè)動(dòng)機(jī)詞匯,另有8676為未使用的動(dòng)機(jī)詞匯。將Reuters-21578的動(dòng)機(jī)詞匯分為135個(gè)類別,每個(gè)動(dòng)機(jī)詞匯最多可以屬于14個(gè)類別,最少屬于1個(gè)類別,在訓(xùn)練集中動(dòng)機(jī)詞匯數(shù)目最多的10個(gè)類別如表1所示:

表1在訓(xùn)練集中動(dòng)機(jī)詞匯數(shù)目最多的10個(gè)類別

對(duì)于一個(gè)類別和一個(gè)動(dòng)機(jī)詞匯來(lái)說(shuō),就是判斷該動(dòng)機(jī)詞匯是否屬于此類別。分別以召回率、準(zhǔn)確率、錯(cuò)誤率為指標(biāo)進(jìn)行分析,公式分別如下所示:

召回率:

準(zhǔn)確率:

錯(cuò)誤率:

式中:a為正確計(jì)算的動(dòng)機(jī)詞匯分類過(guò)濾創(chuàng)意點(diǎn)數(shù)目,b為錯(cuò)誤計(jì)算的動(dòng)機(jī)詞匯分類過(guò)濾創(chuàng)意點(diǎn)數(shù)目,d正確計(jì)算該原本正確的動(dòng)機(jī)詞匯創(chuàng)意點(diǎn)數(shù)目,c錯(cuò)誤計(jì)算該原本正確的動(dòng)機(jī)詞匯創(chuàng)意點(diǎn)數(shù)目。

4.2實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證改進(jìn)方法的有效性及可行性,先采用改進(jìn)方法與信息反饋法、啟發(fā)式規(guī)則法為對(duì)比進(jìn)行分析。則Reuters-21578訓(xùn)練集中10個(gè)動(dòng)機(jī)詞匯數(shù)目最大的類別,采用改進(jìn)方法進(jìn)行召回率和準(zhǔn)確率的計(jì)算,結(jié)果如下表2所示:

表2 Reuters-21578訓(xùn)練集中10個(gè)動(dòng)機(jī)詞匯的召回率與準(zhǔn)確率對(duì)比

由表1可知,Reuters-21578訓(xùn)練集中10個(gè)動(dòng)機(jī)詞匯,采用改進(jìn)方法時(shí)平均召回率約為87.6%,平均準(zhǔn)確率約為83.1%;其中acquisitions的召回率最高為97%,corn的召回率最低為63%;earnings的準(zhǔn)確率最高為93%,corn的準(zhǔn)確率最低70%;由此發(fā)現(xiàn),在動(dòng)機(jī)詞匯訓(xùn)練數(shù)目和測(cè)試數(shù)目不同的情況下,會(huì)隨著動(dòng)機(jī)詞匯的增加,召回率和準(zhǔn)確率均會(huì)提高。

為了驗(yàn)證改進(jìn)方法的有效性及可行性,先采用改進(jìn)方法與信息反饋法、啟發(fā)式規(guī)則法為對(duì)比進(jìn)行分析。在數(shù)量一定的情況下,其召回率、準(zhǔn)確率、錯(cuò)誤率對(duì)比結(jié)果分別如下圖3、圖4、圖5所示:

由圖3可知,采用信息反饋法時(shí),其召回率約為0.12,且隨著動(dòng)機(jī)詞匯量的增加而降低;采用啟發(fā)式規(guī)則法時(shí),其召回率約為0.10,且對(duì)著動(dòng)機(jī)詞匯的增加在多處出現(xiàn)波動(dòng),不適合大面積范圍使用;采用改進(jìn)方法時(shí),其召回率約為0.08,且隨著動(dòng)機(jī)詞匯量的增加而降低,相比信息反饋法和啟發(fā)式規(guī)則法,其召回率分別降低了0.04和0.02,具有一定的優(yōu)勢(shì)。

由圖4可以看出,采用信息反饋法時(shí),其準(zhǔn)確率約為76.2%,且隨著動(dòng)機(jī)詞匯量的增加,其準(zhǔn)確度在200-400及600-800處出現(xiàn)了波動(dòng),穩(wěn)定性較差;采用啟發(fā)式規(guī)則法時(shí),其準(zhǔn)確率約為58.4%,且隨著動(dòng)機(jī)詞匯量的增加,準(zhǔn)確率為無(wú)大變化,相比信息反饋法,其準(zhǔn)確率下降了17.8%;采用改進(jìn)方法時(shí),其準(zhǔn)確率約為94.3%,雖然隨著動(dòng)機(jī)詞匯量的增加,其準(zhǔn)確率出現(xiàn)了多處波動(dòng),但其整體相比信息反饋法和啟發(fā)式規(guī)則法提高了分別提高了約18.1%、35.9%,具有一定的優(yōu)勢(shì)。

由圖5可以看出,采用信息反饋法時(shí),其錯(cuò)誤率約為32.2%,且隨著動(dòng)機(jī)詞匯量的極速下降,其錯(cuò)誤率在200-1000處出現(xiàn)了波動(dòng),穩(wěn)定性較差;采用啟發(fā)式規(guī)則法時(shí),其錯(cuò)誤率約為48.4%,且隨著動(dòng)機(jī)詞匯量的增加,錯(cuò)誤率無(wú)太大變化,相比信息反饋法,其錯(cuò)誤率提高了16.2%;采用改進(jìn)方法時(shí),其錯(cuò)誤率約為18.3%,雖然隨著動(dòng)機(jī)詞匯量的增加,其錯(cuò)誤率處于穩(wěn)定狀態(tài),相比信息反饋法和啟發(fā)式規(guī)則法分別降低了降低了約30.1%、13.9%,具有一定的優(yōu)勢(shì)。

5結(jié)論

針對(duì)傳統(tǒng)的自動(dòng)分類過(guò)濾法一直存在分類過(guò)濾不準(zhǔn)確,效率低的問(wèn)題,提出基于貝葉斯網(wǎng)絡(luò)計(jì)算的動(dòng)機(jī)詞匯自動(dòng)分類過(guò)濾方法?;谂老x(chóng)對(duì)動(dòng)機(jī)詞匯語(yǔ)料信息進(jìn)行獲取,通過(guò)建立向量空間模型對(duì)采集的信息進(jìn)行聚類,并以此為依據(jù),采用貝葉斯網(wǎng)絡(luò)計(jì)算動(dòng)機(jī)詞匯之間的相關(guān)性,并在本體理論基礎(chǔ)上按短語(yǔ)或者句子結(jié)構(gòu),對(duì)動(dòng)機(jī)詞匯進(jìn)行分類過(guò)濾。實(shí)驗(yàn)結(jié)果證明,采用改進(jìn)的方法進(jìn)行動(dòng)機(jī)詞匯分類過(guò)濾,相比傳統(tǒng)的分類過(guò)濾方法,其分類過(guò)濾精度高、效率好,具有一定的優(yōu)勢(shì)。

以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí),均屬于本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1