專利名稱:一種基于數(shù)據(jù)挖掘的在線文章篩選方法
技術(shù)領(lǐng)域:
本發(fā)明公開了一種基于數(shù)據(jù)挖掘的在線文章篩選方法,它屬于網(wǎng)絡(luò)技術(shù)領(lǐng)域領(lǐng)域。
背景技術(shù):
文章篩選是指為獲得對(duì)某一方面的文章的需要而進(jìn)行的文章客觀評(píng)價(jià),從而確定滿足篩選準(zhǔn)則的程度所進(jìn)行的系統(tǒng)的獨(dú)立的并形成結(jié)果的過程。文章篩選主要是面對(duì)文章內(nèi)容體系(比如文章包含的內(nèi)容是否豐富,是否有實(shí)際作用)的符合性、有效性和適宜性進(jìn)行的檢査活動(dòng)和過程,就篩選的方式來說篩選具有系統(tǒng)性和獨(dú)立性的特點(diǎn)。
系統(tǒng)性是指被篩選的所有要素都應(yīng)覆蓋;獨(dú)立性是為了使篩選活動(dòng)獨(dú)立于被篩選人或單位,以確保篩選的公正和客觀。
但是現(xiàn)行的在線篩選方法不是使用人為參與因素過多就是所使用的方法太過簡(jiǎn)單,比如只使用點(diǎn)擊率。
人為進(jìn)行的文章篩選機(jī)制即浪費(fèi)人力和物力,而且有主觀性因素等缺陷,比如人為喜好或者受知識(shí)所限所作出的決策上的失誤。而當(dāng)多個(gè)篩選人員存在的時(shí)候又存在人員能力上的不同照成篩選上的差異。
而光靠點(diǎn)擊率的方法又存在很多現(xiàn)行的問題,比如文章受時(shí)間因素影響很大,越早的文章因?yàn)闀r(shí)間關(guān)系一般都是名列前茅,而新的比較好的文章因?yàn)槌霈F(xiàn)的時(shí)間比較晚一直不能置頂,反而失去了很多關(guān)注的機(jī)會(huì)。這樣就會(huì)導(dǎo)致好的文章的消失。數(shù)據(jù)挖掘(Data Mining),又稱為數(shù)據(jù)庫中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),就是從大量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的非平凡過程,簡(jiǎn)單的說,數(shù)據(jù)挖掘就是從大量數(shù)據(jù)中提取或"挖掘"知識(shí)。數(shù)據(jù)挖掘能很好應(yīng)用在文章的篩選上。有效的使用數(shù)據(jù)挖掘的方法可以減少很多人為負(fù)擔(dān),本專利就使用部分?jǐn)?shù)據(jù)挖掘方法解決了現(xiàn)行文章篩選的問題。
發(fā)明內(nèi)容
本發(fā)明克服了現(xiàn)有技術(shù)的不足,提出了一種基于數(shù)據(jù)挖掘的在線文章篩選方法。通過多種方法的結(jié)合,可以盡量避免人為因素參與從而自動(dòng)實(shí)現(xiàn)文章篩選的效果。本發(fā)明可以應(yīng)用于政府和比較權(quán)威的網(wǎng)站的文章建設(shè),可以達(dá)到較好的效果。
本發(fā)明在內(nèi)容覆蓋和相似度比較方面使用到數(shù)據(jù)挖掘,對(duì)于內(nèi)容覆蓋可以使用幾個(gè)關(guān)鍵字眼識(shí)別就認(rèn)為覆蓋一個(gè)內(nèi)容點(diǎn),或者一段程序有相應(yīng)的輸入和輸出就認(rèn)為覆蓋該功能點(diǎn)。而對(duì)于相似度比較則使用部分字眼或者段落匹配,這里對(duì)各類字眼或者段落設(shè)立一定權(quán)值,當(dāng)總的累加和超過一定的閾值后就認(rèn)為該兩篇文章是雷同的。在不同各類文章的排序方面使用前向反饋神經(jīng)網(wǎng)絡(luò)的方法,根據(jù)錄入文章的數(shù)目不斷修改各個(gè)相關(guān)的屬性,比如時(shí)間、文章級(jí)別、點(diǎn)擊率,根據(jù)他們所占用的權(quán)值,進(jìn)行動(dòng)態(tài)排名。
該方法主要步驟包括
對(duì)于所有的文章的篩選原則如下-(1)關(guān)鍵字匹配;(2) 是否發(fā)表;
(3) 査看內(nèi)容覆蓋程度;
(4) 相似度篩選,多余刪除;
(5) 文章適用的語言分類;
(6) 有效提取相關(guān)的優(yōu)秀文章;
(7) 精品文章再篩選;
(8) 垃圾文章刪除;
(9) 精品文章作者推薦。
整個(gè)步驟是按整個(gè)篩選原則,按順序一步步進(jìn)行篩選。先按原則(1 ) (4)進(jìn)行篩選刪除,然后使用原則(5)進(jìn)行分類,再使用(6) (7)進(jìn)行細(xì)化取經(jīng),并通過(8)取出一些庫中已經(jīng)不適合的文章,再所有步驟完成后,就是用(9)進(jìn)行推薦工作。本發(fā)明所包括的模塊有-
(1) 檢査模塊
(2) 核心期刊存儲(chǔ)列表
(3) 精品文章存儲(chǔ)區(qū)
(4) 垃圾文章存儲(chǔ)區(qū)
(5) 人為因素介入模塊
(6) 庫中文章搜索模塊檢查模塊是本方法的核心部件是實(shí)現(xiàn)一些文章的字眼的提取和
部分內(nèi)容的匹配和內(nèi)容評(píng)分,在文章提取,匹配,評(píng)分中使用的所有數(shù)據(jù)挖掘方法也在該模塊進(jìn)行實(shí)現(xiàn)。核心期刊列表是進(jìn)行檢査所必要存在的一個(gè)列表,為了更好尋找一個(gè)文章是否發(fā)表在核心期刊。精品文章和垃圾文章區(qū)存儲(chǔ)就是進(jìn)行篩選后的文章所在的分類區(qū),為了便于讀者更好進(jìn)行相應(yīng)文章的選擇。人為因素介入?yún)^(qū)是對(duì)某個(gè)主題約稿和處理某些不能用該方法處理的文章,從而提高篩選的準(zhǔn)確率。這個(gè)模塊可能包含用戶界面和對(duì)本方法所對(duì)應(yīng)系統(tǒng)相應(yīng)的操作接口等。庫中文章搜索模塊是為了給用戶提供方便來搜索相應(yīng)的文章或者相應(yīng)精品文章,從而達(dá)到比較高的參考價(jià)值。本發(fā)明的有益效果是
(1) 不管是舊的還是新的只要是好的文章都會(huì)出現(xiàn)在前幾名,從而達(dá)到精華文章常置頂?shù)哪康摹?br>
(2) 可以更好的排除無關(guān)于相應(yīng)網(wǎng)站的文章,特別對(duì)現(xiàn)行網(wǎng)絡(luò)上流行的垃圾文章和廣告盛行的現(xiàn)象可以得到更好的制止。
(3) 在很多方面可以比人為更加有利,即可以避免個(gè)人知識(shí)的缺陷還有重復(fù)工作的疲勞造成的失誤。
(4) 可以有效的節(jié)省人力資源,節(jié)省人力開支,節(jié)約成本。
以下結(jié)合附圖
,對(duì)本發(fā)明做出進(jìn)一步的詳細(xì)說明圖l為本發(fā)明的實(shí)施流程圖;圖2為本發(fā)明模塊結(jié)構(gòu)圖;圖3為排名前向反饋神經(jīng)網(wǎng)絡(luò)方法示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步的說明。 本發(fā)明的實(shí)施流程圖如圖l所示,其基本步驟如下-
(1) 對(duì)于一篇新的文章,首先看該文章是否是關(guān)于特定網(wǎng)站所需的 文章,這個(gè)可以從關(guān)鍵字,摘要提取相應(yīng)的字眼來檢查這里可
以使用一個(gè)關(guān)鍵屬性,如果該屬性值為false (與本網(wǎng)站收錄的 內(nèi)容無關(guān)),則直接淘汰。如果為yes則進(jìn)入下一步篩選;
(2) 其次看該文章是否在國內(nèi)或者國外核心雜志上發(fā)表,如果文章 有發(fā)表過,則査找一個(gè)核心期刊表,如果文章發(fā)表在該核心期 刊表中的期刊上則可以基本上錄用該文章。若文章不在核心期 刊列表中,則因?yàn)樵撐恼乱呀?jīng)發(fā)表過可以給一個(gè)相應(yīng)的得分。 這里這個(gè)核心期刊表是需要?jiǎng)討B(tài)維護(hù), 一般維護(hù)周期一周一次 就可以。本核心期刊表可以從相關(guān)網(wǎng)站下載,也可以自己設(shè)定 一些相關(guān)屬性(引用次數(shù),點(diǎn)擊數(shù),文章級(jí)別)進(jìn)行動(dòng)態(tài)計(jì)算, 根據(jù)每個(gè)期刊的得分來確定哪些是核心期刊,各個(gè)相似的網(wǎng)站 的篩選機(jī)制還可以進(jìn)行相互共享相應(yīng)的核心期刊列表來達(dá)到更 新的目的;
(3) 然后根據(jù)該文章所覆蓋的內(nèi)容點(diǎn),根據(jù)覆蓋的內(nèi)容點(diǎn)得到相應(yīng) 的得分,并且這個(gè)得分可以根據(jù)本文件庫所有的文章覆蓋的內(nèi) 容點(diǎn)的多少進(jìn)行動(dòng)態(tài)調(diào)整。最后通過累計(jì)所覆蓋的內(nèi)容點(diǎn)得到 該文章這部分的分?jǐn)?shù)。具體內(nèi)容點(diǎn)的計(jì)算可以使用數(shù)據(jù)挖掘關(guān) 聯(lián)規(guī)則方法。因?yàn)榫W(wǎng)站涉及文章很多,從中提取相應(yīng)的字眼組 成某部分內(nèi)容的描述,或者從相應(yīng)的輸入輸出中得到某部分代碼的功能點(diǎn)是比較容易的事情。而當(dāng)每審批一個(gè)文章可以對(duì)現(xiàn) 有的關(guān)聯(lián)規(guī)則進(jìn)行動(dòng)態(tài)調(diào)整和篩選,去掉一些舊的關(guān)聯(lián)規(guī)則,
而保留一些新的有用的關(guān)聯(lián)規(guī)則;
(4) 然后可以對(duì)本文章進(jìn)行相似度度量,可以從關(guān)鍵字,摘要甚至 可以是采用全文匹配原則。這里先考慮關(guān)鍵字匹配,如果關(guān)鍵 字匹配后采用全文匹配,當(dāng)出現(xiàn)一定相似度,就根據(jù)原來的文 章的得分情況判斷,若是原有文章得分較低則刪除時(shí)間較久的 文章,否則刪除新錄入的文章。這里使用的相似度度量不是對(duì) 全文進(jìn)行逐字逐句的匹配,而是先對(duì)關(guān)鍵字進(jìn)行比較,得到一 定的相似度得分,然后對(duì)摘要進(jìn)行匹配。這里對(duì)摘要進(jìn)行匹配 是使用部分字眼,而這部分字眼是在以前大量文章中提取的使 用關(guān)聯(lián)規(guī)則分類的方法,越多的相關(guān)字眼的匹配說明這兩篇文 章的相似度就越高,可以保證較好的相似度度量;
(5) 然后根據(jù)文章的語言進(jìn)行分類。文章的語言部分可以分為摘要 和正文兩部分,比如摘要有無英文描述等。文章語言的分類是 為了適應(yīng)各個(gè)語種的文章的需求;
(6) 接著檢査近期是否有對(duì)某方面的文章特別的需要,如果有就檢 測(cè)是否該文章是特別需要的類型,如果是則歸檔,進(jìn)行優(yōu)秀文 章記錄,否則進(jìn)行下一步篩選。這里需要一個(gè)相關(guān)的原則,可 能一些文章得分較低,但是有較大的需求,這部分文章可能降 級(jí)錄取,這部分的調(diào)整可以由人為調(diào)整,也可以有一些設(shè)計(jì)的 系統(tǒng)進(jìn)行調(diào)整;(7) 最后一步進(jìn)行綜合評(píng)審,這個(gè)綜合篩選主要是人為因素的介入 小部分文章的篩選,包括對(duì)一些精品文章的提取精華部分,對(duì) 一些垃圾文章直接人為刪除,對(duì)一些不確定文章進(jìn)行歸檔。這 部分存在價(jià)值是保證本發(fā)明的正確性,在本方法不能進(jìn)行篩選 的時(shí)候就必須人為參與了。實(shí)際實(shí)驗(yàn)中,本部分可以提高篩選
準(zhǔn)確率5%~10%;
(8) 最后進(jìn)行文章作者積分錄入模塊,根據(jù)文章的作者累計(jì)相應(yīng)作 者的文章,這部分作用也是為了適當(dāng)?shù)臅r(shí)候向作者約稿,或者 省去部分的篩選過程;
(9) 以上所述的各個(gè)部分文章的得分要最后累加起來,進(jìn)行本文章 的整體評(píng)價(jià),并且對(duì)該文章進(jìn)行分?jǐn)?shù)評(píng)級(jí),從最差,到最好, 并且根據(jù)文章的等級(jí)進(jìn)行分類存儲(chǔ),以便于要尋找某一個(gè)特定 的文章時(shí)會(huì)出現(xiàn)的手忙腳亂的現(xiàn)象。而如前面所說,各個(gè)部分 的分?jǐn)?shù)是會(huì)動(dòng)態(tài)調(diào)整的,但是這個(gè)調(diào)整需要比較麻煩的過程, 基本是靠數(shù)據(jù)挖掘方法和時(shí)間的積累??傊摵Y選機(jī)制對(duì)文章 的選擇,在時(shí)間的不斷積累后將越來越準(zhǔn)確。
本發(fā)明擬定的方法所對(duì)應(yīng)的幾個(gè)模塊,如圖2所示,檢查模塊是 本方法的核心部件,是實(shí)現(xiàn)一些文章的字眼的提取和部分內(nèi)容的匹配 和內(nèi)容評(píng)分,在文章提取、匹配、評(píng)分中使用的所有數(shù)據(jù)挖掘方法也 在該模塊進(jìn)行實(shí)現(xiàn)。核心期刊列表就是為了步驟2所進(jìn)行檢查所必要 存在的一個(gè)列表,為了更好尋找一個(gè)文章是否發(fā)表在核心期刊。精品 文章區(qū)和垃圾文章區(qū)存儲(chǔ)就是進(jìn)行篩選后的文章所在的分類區(qū),為了便于讀者更好進(jìn)行相應(yīng)文章的選擇。人為因素介入模塊就如步驟7、 8所述的某個(gè)主題約稿和處理某些不能用該方法處理的文章,從而提 高篩選的準(zhǔn)確率。這個(gè)模塊可能包含用戶界面和對(duì)本方法所對(duì)應(yīng)系統(tǒng) 相應(yīng)的操作接口等。庫中文章搜索模塊是為了給用戶提供方便來搜索 相應(yīng)的文章或者相應(yīng)精品文章,從而達(dá)到比較高的參考價(jià)值。
步驟9所述的數(shù)據(jù)挖掘調(diào)整排名的方法可以是前向反饋神經(jīng)網(wǎng) 絡(luò)的方法,如圖3所示,例如,根據(jù)點(diǎn)擊數(shù)、文章級(jí)別,入庫年P(guān)艮, 引用次數(shù),給與各個(gè)屬性相應(yīng)的權(quán)值進(jìn)行多點(diǎn)修正,即各個(gè)節(jié)點(diǎn)都有 一個(gè)權(quán)值(每個(gè)節(jié)點(diǎn)上的數(shù)字),而每一列的節(jié)點(diǎn)權(quán)值之和為1,每 經(jīng)過一層節(jié)點(diǎn)數(shù)據(jù)就少一個(gè),直到最后一個(gè)節(jié)點(diǎn),最后一個(gè)節(jié)點(diǎn)的得 分也就是該文章的綜合得分,而根據(jù)這個(gè)綜合得分就可以確定文章的 最后排名。而這個(gè)計(jì)算和排名在每一定的周期,如1小時(shí)就要更新一 次,以保證排名的準(zhǔn)確性。
權(quán)利要求
1、一種基于數(shù)據(jù)挖掘的在線文章篩選方法,其特征在于,該方法主要步驟包括1)、首先看該文章是否是關(guān)于特定網(wǎng)站所需的文章,從關(guān)鍵字、摘要提取相應(yīng)的字眼作為一個(gè)關(guān)鍵屬性,如果該屬性與本網(wǎng)站收錄的內(nèi)容無關(guān),屬性值為false,則直接淘汰;如果屬性值為yes則進(jìn)入下一步篩選;2)、其次看該文章是否在國內(nèi)或者國外核心雜志上發(fā)表,如果文章有發(fā)表,則查找一個(gè)核心期刊表,如果文章發(fā)表在該核心期刊表中的期刊上則錄用該文章;若文章不在核心期刊列表中,則因?yàn)樵撐恼乱呀?jīng)發(fā)表過就給一個(gè)相應(yīng)的得分;3)、然后根據(jù)該文章所覆蓋的內(nèi)容點(diǎn),根據(jù)覆蓋的內(nèi)容點(diǎn)得到相應(yīng)的得分,并且這個(gè)得分是根據(jù)本文件庫所有的文章覆蓋的內(nèi)容點(diǎn)的多少進(jìn)行動(dòng)態(tài)調(diào)整,最后通過累計(jì)所覆蓋的內(nèi)容點(diǎn)得到該文章這部分的分?jǐn)?shù),具體內(nèi)容點(diǎn)的計(jì)算使用數(shù)據(jù)挖掘關(guān)聯(lián)規(guī)則方法;4)、然后對(duì)本文章進(jìn)行相似度審核,從關(guān)鍵字,摘要甚至是采用全文匹配原則;先考慮關(guān)鍵字匹配,如果關(guān)鍵字匹配后采用全文匹配,當(dāng)出現(xiàn)一定相似度,就根據(jù)原來的文章的得分情況判斷,若是原有文章得分較低則刪除時(shí)間較久的文章,否則刪除新錄入的文章,這里使用的相似度審核不是對(duì)全文進(jìn)行逐字逐句的匹配,而是先對(duì)關(guān)鍵字進(jìn)行比較,得到一定的相似度得分,然后對(duì)摘要進(jìn)行匹配;5)、然后根據(jù)文章的語言進(jìn)行分類,文章的語言部分可以分為摘要和正文兩部分,文章語言的分類是為了適應(yīng)各個(gè)語種的文章的需求;6)、接著檢查近期是否有對(duì)某方面的文章特別的需要,如果有就檢測(cè)是否該文章是特別需要的類型,如果是則歸檔,進(jìn)行優(yōu)秀文章記錄,否則進(jìn)行下一步篩選;這里需要一個(gè)相關(guān)的原則,一些文章得分較低,但是有較大的需求,這部分文章就降級(jí)錄取,這部分的調(diào)整既能夠由人為調(diào)整,也能夠有一些設(shè)計(jì)的系統(tǒng)進(jìn)行調(diào)整;7)、最后一步進(jìn)行綜合評(píng)審,這個(gè)綜合篩選主要是人為因素的介入小部分文章的篩選,包括對(duì)一些精品文章的提取精華部分,對(duì)一些垃圾文章直接人為刪除,對(duì)一些不確定文章進(jìn)行歸檔;8)、最后進(jìn)行文章作者積分錄入模塊,根據(jù)文章的作者累計(jì)相應(yīng)作者的文章;9)、以上所述的各個(gè)部分文章的得分要累加起來,進(jìn)行本文章的整體評(píng)價(jià),并且對(duì)該文章進(jìn)行分?jǐn)?shù)評(píng)級(jí),并且根據(jù)文章的等級(jí)進(jìn)行分類存儲(chǔ)。
2、根據(jù)權(quán)利要求1所述一種基于數(shù)據(jù)挖掘的在線文章篩選方法, 其特征在于,步驟2)中核心期刊表是需要?jiǎng)討B(tài)維護(hù), 一般維護(hù)周期 一周一次,本核心期刊表從相關(guān)網(wǎng)站下載,自己設(shè)定一些相關(guān)屬性, 包括引用次數(shù)、點(diǎn)擊率、影響因子,然后進(jìn)行動(dòng)態(tài)計(jì)算,根據(jù)每個(gè)期 刊的得分來確定哪些是核心期刊,各個(gè)相似的網(wǎng)站的篩選機(jī)制進(jìn)行相 互共享相應(yīng)的核心期刊列表來達(dá)到更新的目的。
全文摘要
本發(fā)明公開了一種基于數(shù)據(jù)挖掘的在線文章篩選方法,具體來說,公開了一種利用各種方法來識(shí)別網(wǎng)絡(luò)文章的方法,它屬于網(wǎng)絡(luò)技術(shù)領(lǐng)域。該方法主要步驟包括(1)關(guān)鍵字匹配;(2)是否發(fā)表;(3)內(nèi)容覆蓋程度;(4)相似度篩選,多余刪除;(5)文章適用的語言分類;(6)有效提取相關(guān)的優(yōu)秀文章;(7)精品文章再篩選;(8)垃圾文章刪除;(9)精品文章作者推薦。利用此方法可以提高篩選效率,并且可以節(jié)約人力成本。
文檔編號(hào)G06F17/30GK101630321SQ200910042170
公開日2010年1月20日 申請(qǐng)日期2009年8月26日 優(yōu)先權(quán)日2009年8月26日
發(fā)明者寧 劉, 葉均杰, 允 文, 王建民, 羅笑南 申請(qǐng)人:中山大學(xué)