專利名稱:高質(zhì)量版本的篩選方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種高質(zhì)量版本的篩選方法及系統(tǒng)。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,每天都有大量的新聞、事件等消息通過網(wǎng)絡(luò)被迅速傳播,人們對于各種信息的傳播熱情與共享程度達到了空前的高度,為方便人類不斷積累知識,沉淀并傳承文明,一種通過電子大百科全書記錄信息的方式應(yīng)運而生。人們可以對已有知識或剛剛形成的智力成果進行梳理和積累,或者在自己感興趣的領(lǐng)域,憑借自身的知識能力對相關(guān)知識主題進行創(chuàng)建、編輯和完善。不斷完善的電子大百科全書不僅對知識體系進行了有效的梳理和保存,還有利于人們進行知識檢索與查閱。由于大量的用戶參與到百科數(shù)據(jù)的加工中來,用戶創(chuàng)建的百科版本和后續(xù)用戶編輯的百科版本形成海量版本數(shù)據(jù),傳統(tǒng)的人工篩選審核方式遠不能滿足快速篩選百科版本數(shù)據(jù)的需要,而且在篩選版本中的判斷過程還可能由于篩選者的主觀隨意性而造成誤判; 此外,單一的機器篩選方式(如僅僅通過百科版本的字節(jié)數(shù)、有無圖片或敏感詞匯等因素進行判斷)沒有對專業(yè)性的百科數(shù)據(jù)的具體分析,使得自動篩選操作缺乏針對性,不能根據(jù)百科數(shù)據(jù)的特點對百科版本進行分級篩選,從而造成大量誤判,不利于篩選出高質(zhì)量版本數(shù)據(jù)作為優(yōu)質(zhì)版本評選的基礎(chǔ);同時也不利于根據(jù)版本質(zhì)量挖掘和管理不同級別的用戶,而且也不利于篩選出非高質(zhì)量版本以推動用戶進一步完善該詞條,引導(dǎo)用戶持續(xù)優(yōu)化詞條信息。如何在海量的百科數(shù)據(jù)中,通過技術(shù)手段有效的對百科版本數(shù)據(jù)進行多維度的分級篩選審核,從而快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,加快百科數(shù)據(jù)庫的建設(shè)成為本領(lǐng)域亟待解決的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明要解決的一個技術(shù)問題是提供一種高質(zhì)量版本的篩選方法及系統(tǒng),其能夠在降低人工投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率,有利于為高質(zhì)量版本數(shù)據(jù)的審核提供評選基礎(chǔ)。本發(fā)明的一個方面提供了一種高質(zhì)量版本的篩選方法,該方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析;對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對符合預(yù)定標準的百科版本執(zhí)行復(fù)雜編輯版本進程的步驟進一步包括判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對解析后得到的信息進行統(tǒng)計分析的步驟進一步包括統(tǒng)計信息的段落數(shù)、總字節(jié)數(shù);分析信息是否含有圖片、參考資料和目錄信息;以及根據(jù)預(yù)定規(guī)則評估百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,該方法還包括對于用戶編輯的百科版本數(shù)據(jù)進入簡單編輯版本進程,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本,如果不存在,則直接過濾百科版本數(shù)據(jù);如果之前存在連續(xù)的、與版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本,則執(zhí)行連續(xù)版本過濾進程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,該方法還包括對于用戶編輯的百科版本數(shù)據(jù)進入復(fù)雜編輯版本進程,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標識,如果是,則判斷過濾后的百科版本是否含有參考資料;如果過濾后的百科版本不含有參考資料,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則,則執(zhí)行連續(xù)版本過濾進程。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,連續(xù)版本過濾進程針對由同一用戶編輯的連續(xù)同名詞條版本構(gòu)成的一組版本,判斷之前是否存在獲得高質(zhì)量版本/ 優(yōu)質(zhì)版本標識的百科版本數(shù)據(jù),如果不存在,則選取一組版本中最后提交的版本數(shù)據(jù)與之前不同用戶編輯的版本進行對比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);如果之前存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本,則選取一組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本進行對比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,該方法還包括對同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動過濾出評選區(qū),并選取最新進入評選區(qū)的版本待審核。本發(fā)明的另一個方面提供了一種高質(zhì)量版本的篩選系統(tǒng),該系統(tǒng)包括數(shù)據(jù)解析模塊,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析;統(tǒng)計分析模塊,用于對解析后得到的信息進行統(tǒng)計分析和判斷;版本過濾模塊,用于根據(jù)統(tǒng)計分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個實施例中,該系統(tǒng)還包括去重模塊, 用于對同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動過濾出評選區(qū),并選取最新進入評選區(qū)的版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個實施例中,統(tǒng)計分析模塊進一步包括統(tǒng)計子模塊,用于統(tǒng)計信息的段落數(shù)、總字節(jié)數(shù);分析子模塊,用于分析信息是否含有圖片、參考資料和目錄信息;以及測算子模塊,用于根據(jù)預(yù)定規(guī)則計算并評估百科版本數(shù)據(jù)是否屬于高質(zhì)量版本。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進行解析,對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程;其能夠在降低人工篩選投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進一步地, 對進入簡單編輯版本進程或復(fù)雜編輯版本進程的百科版本執(zhí)行連續(xù)版本過濾進程,從而更加準確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評選基礎(chǔ)。此外,通過快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫的建設(shè);同時還有利于挖掘具有較高編輯能力的用戶,完善對百科用戶的分級管理。
圖1示出本發(fā)明實施例提供的一種高質(zhì)量版本的篩選方法的流程圖;圖2示出本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中統(tǒng)計分析所采用的具體策略流程圖;圖3示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖;圖4示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖;圖5示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖;圖6示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖;圖7示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖;圖8示出本發(fā)明實施例提供的一種高質(zhì)量版本的篩選系統(tǒng)的結(jié)構(gòu)示意圖;圖9示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖;圖10示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述,其中說明本發(fā)明的示例性實施例。圖1示出本發(fā)明實施例提供的一種高質(zhì)量版本的篩選方法的流程圖。如圖1所示,高質(zhì)量版本的篩選方法流程100包括步驟102,讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析。例如,用戶通過百科頻道創(chuàng)建詞條信息,詞條信息創(chuàng)建完畢后提交以供系統(tǒng)后續(xù)篩選審核。接收到用戶完成的創(chuàng)建詞條信息后,需要對該詞條信息中的百科版本數(shù)據(jù)進行解析,以分解提取相關(guān)條目信息。步驟104,對解析后得到的信息進行統(tǒng)計分析。例如,對前述分解提取的相關(guān)條目信息進行統(tǒng)計分析,具體來說,涉及統(tǒng)計百科版本段落數(shù),統(tǒng)計該版本中的總字節(jié)數(shù),并分析其中是否含有圖片、參考資料等相關(guān)信息。稍后的其它實施例還將對統(tǒng)計分析所采用的具體策略作進一步的簡要介紹。步驟106,根據(jù)統(tǒng)計分析的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。例如,根據(jù)統(tǒng)計的段落數(shù)、字節(jié)數(shù)等相關(guān)信息對百科版本數(shù)據(jù)進行過濾,對符合相應(yīng)預(yù)設(shè)條件的百科版本分別歸入簡單編輯版本進程或復(fù)雜版本進程,以便對復(fù)雜版本百科數(shù)據(jù)進行高質(zhì)量版本的審核,并引導(dǎo)用戶進一步完善該詞條信息等后續(xù)操作。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對符合預(yù)定標準的百科版本執(zhí)行復(fù)雜編輯版本進程的步驟進一步包括判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對百科版本數(shù)據(jù)進行解析、統(tǒng)計分析, 篩選出復(fù)雜編輯版本和簡單編輯版本,以減少人工篩選及審核的投入,在提高篩選效率的同時,有利于后續(xù)評審高質(zhì)量版本更有針對性。圖2示出本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中統(tǒng)計分析所采用的具體策略流程圖。如圖2所示,本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中統(tǒng)計分析所采用的具體策略流程200包括步驟202,對解析后的百科版本數(shù)據(jù)進行條目統(tǒng)計,判斷該百科版本數(shù)據(jù)是否只有一條段落;如果不是只有一個段落,則執(zhí)行步驟204 ;否則執(zhí)行步驟212。步驟204,統(tǒng)計百科版本數(shù)據(jù)的總字節(jié)數(shù);如果其總字節(jié)數(shù)大于某一閾值,如600 字節(jié),則執(zhí)行步驟214 ;否則執(zhí)行步驟206。步驟206,判斷百科版本數(shù)據(jù)統(tǒng)計的總字節(jié)數(shù)是否小于某一閾值,如300字節(jié),則執(zhí)行步驟212 ;否則執(zhí)行步驟208。步驟208,判斷百科版本數(shù)據(jù)中是否沒有圖片、參考資料和目錄;如果都沒有,則執(zhí)行步驟212 ;否則執(zhí)行步驟210。步驟210,對前述統(tǒng)計的信息,依據(jù)具體的計算公式來測算版本變化量是否大于預(yù)先設(shè)置的閾值。如果是則執(zhí)行步驟214;否則執(zhí)行步驟212。舉例來說,如果統(tǒng)計分析的百科版本數(shù)據(jù)中含有內(nèi)鏈計1分,有圖片計2分(對于統(tǒng)計圖片變化量來說,對圖注文字的修改、添加,居左/居右屬性的變化不計入),有參考資料計1分,有N個目錄計N分;可以根據(jù)這4項得分相加求和,總分在2分以上的百科版本可視為復(fù)雜編輯版本。步驟212,對所過濾的百科版本數(shù)據(jù)執(zhí)行簡單編輯版本進程。例如,最簡單的做法就是直接過濾該簡單編輯版本,而不在展示區(qū)顯示;但是這樣作可能挫傷用戶創(chuàng)建、編輯百科詞條的積極性,也不利于培養(yǎng)和發(fā)掘有創(chuàng)造力的用戶;進一步地,可以將歸入簡單編輯版本進程的簡單百科版本直接返回用戶,由用戶進行重新創(chuàng)建或進一步編輯完善;又或者對簡單編輯版本作進一步的判斷,以判斷是否存在通過連續(xù)編輯版本以達到復(fù)雜版本的變化量。步驟214,對所過濾的百科版本數(shù)據(jù)執(zhí)行復(fù)雜編輯版本進程。例如,判斷進入復(fù)雜編輯版本進程的復(fù)雜百科版本是否含有參考資料,如果沒有,則進行二次過濾;過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進入高質(zhì)量待審區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中統(tǒng)計分析所采用的具體策略能夠用于統(tǒng)計用戶編輯版本的版本變化量,并篩選出可能的復(fù)雜編輯版本,因而,該流程也可被稱之為復(fù)雜編輯版本策略。圖3示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖。如圖3所示,高質(zhì)量版本的篩選方法流程300包括步驟302-312,其中步驟 302-306可以執(zhí)行與圖1所示的步驟102-106相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖3所示,在步驟306后,依次執(zhí)行步驟308,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本。具體來說,對于用戶編輯的百科版本數(shù)據(jù),當所述百科版本數(shù)據(jù)進入簡單編輯版本進程后,判斷之前是否存在連續(xù)的同ID的用戶編輯同名詞條的版本。如果不存在,則執(zhí)行步驟310,否則執(zhí)行步驟312。步驟310,如果之前的版本不存在連續(xù)的相同用戶編輯同名詞條版本,則直接過濾百科版本數(shù)據(jù)。對于簡單編輯的版本,且不存在連續(xù)的同ID用戶編輯的同名詞條版本的情形,系統(tǒng)可以直接過濾該簡單編輯的百科版本詞條信息,提高了篩選判斷的效率,降低了人工審核的成本,也有利于避免單一線性判斷模式的誤判率。步驟312,如果之前存在連續(xù)的、與版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本, 則執(zhí)行連續(xù)版本過濾進程。也就是說,存在連續(xù)的,由同一用戶ID編輯的、且連續(xù)被審核通過的同名詞條版本所形成的一組版本,系統(tǒng)需要判斷該同一用戶編輯的連續(xù)版本組的累積變化量是否達到復(fù)雜版本變化量閾值,如果達到了預(yù)先設(shè)定的變化量閾值,則有可能被篩選出來成為待審核的高質(zhì)量版本。稍后的其它實施例還將對連續(xù)版本過濾進程作進一步的詳細介紹。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進行解析,對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程;其能夠在降低人工篩選投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。對進入簡單編輯版本進程的百科版本執(zhí)行連續(xù)版本過濾進程,從而更加準確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評選基礎(chǔ)。圖4示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖。如圖4所示,高質(zhì)量版本的篩選方法流程400包括步驟402-416,其中步驟 402-410可以執(zhí)行與圖3所示的步驟302-310相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖4所示,連續(xù)版本過濾進程進一步包括步驟412-416,具體來說,步驟412,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標識的百科版本數(shù)據(jù)。如果不存在,則執(zhí)行步驟414;否則執(zhí)行步驟416。步驟414,選取該組版本中最后提交的版本與之前不同用戶編輯的版本進行對比, 按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前不存在獲得高質(zhì)量版本標識或優(yōu)質(zhì)版本標識的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前不同用戶編輯的版本進行對比,可以按照圖2所示的復(fù)雜編輯版本策略來統(tǒng)計分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。步驟416,選取該組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本進行對比,按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前存在獲得高質(zhì)量版本標識或優(yōu)質(zhì)版本標識的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前的標記為高質(zhì)量版本或優(yōu)質(zhì)版本的版本進行對比,可以按照圖2所示的復(fù)雜編輯版本策略來統(tǒng)計分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對于通過連續(xù)版本過濾進程中步驟414和416篩選出的版本變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量的備選復(fù)雜編輯版本,還可以進一步判斷過濾后的百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進入高質(zhì)量待審區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進入高質(zhì)量審核區(qū)待審,并按照版本提交時間進行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對于進入后臺“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對比區(qū)”進行對比,以展示前后版本之間的變化,可以在后臺審核Diff策略中新增特殊詞的前后版本高亮顯示,當前版本新增內(nèi)鏈高亮顯示, 敏感詞不高亮飄紅(同時,修改后臺所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺展示icon相同)。在“版本變化量區(qū)”提示當前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級目錄、二級目錄、圖片數(shù)、參考資料、擴展閱讀等)。變化量采用累加方式統(tǒng)計,例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標記區(qū)”,由管理員標記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個大項建議,每個大項設(shè)置若干可多選的小項,包括(1)關(guān)于“詞條名”的建議涉及詞條名不規(guī)范或已存在同義詞條等;(2)關(guān)于“目錄章節(jié)”的建議涉及一二級目錄混編,章節(jié)劃分不當或標題歸納不正確等;⑶關(guān)于“概念定義”的建議涉及概念、定義缺失或不準確,概念、定義信息矛盾等;⑷ 關(guān)于“正文”的建議涉及添加無效信息或刪除了有效信息,敘述重心偏離主題或詞條要素信息不完整,非第三方客觀表述,含有立場或時效性措辭,正文信息含不規(guī)范標點、文字或亂碼等,正文內(nèi)容表述不當?shù)龋? 關(guān)于“內(nèi)鏈”的建議涉及與主題關(guān)聯(lián)性差、添加位置不當或內(nèi)鏈對象無相關(guān)闡述,內(nèi)鏈無效、斷鏈或者自鏈接等;(6)關(guān)于“圖片”的建議涉及圖片質(zhì)量低或與主題關(guān)聯(lián)性較差,圖片無注釋或注釋不準確等;(7)關(guān)于“參考資料”的建議 涉及參考資料與主題無關(guān),參考資料為無效鏈接,角標位置不正確等;(8)關(guān)于“擴展閱讀” 的建議涉及擴展閱讀與主題無關(guān),擴展閱讀為無效鏈接等;(9)關(guān)于“排版”的建議涉及版面信息分布瑣碎或圖文排版不佳,無排版或錯誤使用編輯功能等;(10)關(guān)于“其他”的建議涉及其他建議或建議申請優(yōu)質(zhì)版本等。已經(jīng)評為高質(zhì)量版本的百科版本進入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時間倒序排列,支持按照版本、編輯者id、添加者等標引信息進行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本;( 版本編輯者鏈接新窗口指向前臺passport profile頁;(3)編輯時間詞條版本提交時間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時間編審標記為該版本為高質(zhì)量版本的時間;( 評審建議編審給高質(zhì)量版本的評審建議;評審建議與后臺高質(zhì)量版本的反饋建議基本對應(yīng)。 評審建議為評選時勾選的選項+編審文本輸入內(nèi)容。評審建議對應(yīng)當初標記反饋模板體組成為一級模板名+序號+ 二級模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號按照排列選中的排列順序,不選則不分配序號。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為“2008年北京奧運會”。建議建立標準詞詞條。正文內(nèi)容表述不當,如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點擊“查看”本窗口打開標記高質(zhì)量版本時的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點擊“復(fù)審”中的“查看”,進入高質(zhì)量版本復(fù)審的新頁面,該頁面和當初該版本進入高質(zhì)量審核區(qū)的Diff對比版本一致。不同之處為評審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點擊“非高質(zhì)量版本”,彈出浮動層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標記為非高質(zhì)量版本后進入非高質(zhì)量版本管理區(qū),支持添加其他版本進該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回撈高質(zhì)量版本。非高質(zhì)量版本按照添加時間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本。(2)版本編輯者鏈接新窗口指向前臺passport profile頁。(3)編輯時間詞條版本成功提交時間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時間管理員標記為該版本為高質(zhì)量版本的時間。(6) 復(fù)審點擊“查看”新窗口打開復(fù)審對比版本頁面。進入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進行審核(1)非相同編輯者ID的連續(xù)版本,則當前版本和上一個編輯者的版本進行對比。(2)相同編輯者ID的連續(xù)版本,則當前版本與該連續(xù)版本中最早版本的上一個用戶版本進行比較。若連續(xù)版本有被標記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當前版本與連續(xù)版本中最近的一個標記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進行對比。非高質(zhì)量版本復(fù)審DifT頁面,默認“高質(zhì)量版本”灰化不可以點,無“非高質(zhì)量版本”按鈕。只有勾選評審建議后,“高質(zhì)量版本”按鈕才可用,勾選評審建議和高質(zhì)量審核區(qū)策略一致。有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫的建設(shè);同時還有利于挖掘具有較高編輯能力的用戶,完善對百科用戶的分級管理。具體體現(xiàn)在“個人中心區(qū)”對用戶的管理,在個人中心的查看積分中增加“高質(zhì)量版本”的詞條統(tǒng)計,在我的貢獻中增加高質(zhì)量版本標簽,用于展示“詞條名稱、提交時間、通過原因、評審建議”等。其中評審建議與后臺高質(zhì)量版本的反饋建議基本對應(yīng)。評審建議為評選時勾選的建議,具體反映在用戶的個人中心評審建議組成為一級模板+序號+ 二級模板+如+后臺標記輸入內(nèi)容+ 建議后臺標記輸入內(nèi)容(反饋模板十除外)。序號按照排列選中的排列順序,不選則不分配序號。關(guān)于評審建議,舉例說明如下您的版本已符合高質(zhì)量版本評選規(guī)則,如果您愿意在以下方面進行后續(xù)完善,還有機會申請優(yōu)質(zhì)版本。關(guān)于“正文”U XX, :YYo 建議ΖΖ。2、XX,如YY。建議ΖΖ。關(guān)于“參考資料”U XX, :ΥΥο 建議ΖΖ。其中ΧΧ為后臺評審建議最細的一級模板內(nèi)容,YY為編審建議的示例子(如)的輸入內(nèi)容,ZZ為編審建議的建議輸入部分(建議)。若后臺評審建議的建議部分未填寫, 則個人中心反饋建議不顯示“建議ζζ”。若“其他”項中勾選了 “建議申請優(yōu)質(zhì)版本”,個人中心反饋內(nèi)容為如下您的版本已符合高質(zhì)量版本評選規(guī)則,甚至已經(jīng)達到優(yōu)質(zhì)版本標準,因此建議您在百科優(yōu)質(zhì)版本吧, 根據(jù)規(guī)則申請優(yōu)質(zhì)版本。上述各頁面的icon展示中,優(yōu)質(zhì)版本的優(yōu)先級高于高質(zhì)量版本, 當同一個版本同時具有高質(zhì)量版本和優(yōu)質(zhì)版本兩種屬性的時候,只顯示優(yōu)質(zhì)版本,不需要顯示高質(zhì)量版本。若“其他”項中該用戶無高質(zhì)量版本,文字內(nèi)容為“您目前還沒有高質(zhì)量版本記錄,建議您查看高質(zhì)量版本評選規(guī)則,之后在待完善詞條中查找感興趣的內(nèi)容并編輯)”。 待完善詞條新窗口鏈接至百科待完善詞條list頁。通過前述對百科版本的審核以及復(fù)審操作,有利于引導(dǎo)編輯用戶完善對相應(yīng)百科詞條信息的不斷完善,同時也有利于回撈百科版本,真實反映用戶編輯狀況,鼓勵并激勵用戶完善百科詞條信息,從而挖掘并培養(yǎng)編輯用戶,以達到有針對性地對編輯用戶的分級管理。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對簡單編輯的百科版本進行連續(xù)版本變化量的統(tǒng)計分析,從而以多維度的方式來篩選可能的復(fù)雜編輯版本,通過分級審核的方式避免了單一評估手段造成的誤判斷,通過快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本, 有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫的建設(shè);同時還有利于挖掘具有較高編輯能力的用戶,完善對百科用戶的分級管理。圖5示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖。如圖5所示,高質(zhì)量版本的篩選方法流程500包括步驟502-514,其中步驟 502-506可以執(zhí)行與圖1所示的步驟102-106相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖5所示,在步驟506后,依次執(zhí)行步驟508,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標識。具體來說,對于用戶編輯的百科版本數(shù)據(jù),當所述百科版本數(shù)據(jù)進入復(fù)雜編輯版本進程后,判斷之前的相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標識。如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標識或者優(yōu)質(zhì)標識,則執(zhí)行步驟510,否則執(zhí)行步驟512。步驟510,判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標識或者優(yōu)質(zhì)標識,則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則執(zhí)行步驟514。步驟512,如果之前相鄰版本是相同用戶編輯的同名詞條版本,或者之前相鄰版本不含有高質(zhì)量版本標識或者優(yōu)質(zhì)標識,則執(zhí)行連續(xù)版本過濾進程。也就是說,存在連續(xù)的, 由同一用戶ID編輯的、且連續(xù)被審核通過的同名詞條版本所形成的一組版本,系統(tǒng)需要判斷該同一用戶編輯的連續(xù)版本組的累積變化量是否達到復(fù)雜版本變化量閾值,如果達到了預(yù)先設(shè)定的變化量閾值,則有可能被篩選出來成為待審核的高質(zhì)量版本。稍后的其它實施例還將對連續(xù)版本過濾進程作進一步的詳細介紹。步驟514,執(zhí)行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng),通過對用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進行解析,對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程;其能夠在降低人工篩選投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。對進入復(fù)雜編輯版本進程的百科版本執(zhí)行連續(xù)版本過濾進程,從而更加準確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評選基礎(chǔ)。圖6示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖。如圖6所示,高質(zhì)量版本的篩選方法流程600包括步驟602-618,其中步驟 602-610、614可以執(zhí)行與圖5所示的步驟502-510、514相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖6所示,連續(xù)版本過濾進程進一步包括步驟612、616和618,具體來說,步驟 612,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標識的百科版本數(shù)據(jù)。如果不存在,則執(zhí)行步驟616 ;否則執(zhí)行步驟618。步驟616,選取該組版本中最后提交的版本與之前不同用戶編輯的版本進行對比, 按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前不存在獲得高質(zhì)量版本標識或優(yōu)質(zhì)版本標識的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前不同用戶編輯的版本進行對比,可以按照圖2所示的復(fù)雜編輯版本策略來統(tǒng)計分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。步驟618,選取該組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本進行對比,按復(fù)雜編輯版本策略找出符合復(fù)雜版本變化量的版本。例如,如果在該組版本中,之前存在獲得高質(zhì)量版本標識或優(yōu)質(zhì)版本標識的百科版本,則選取該組版本中該用戶最后提交的版本,并將其與之前的標記為高質(zhì)量版本或優(yōu)質(zhì)版本的版本進行對比,可以按照圖2所示的復(fù)雜編輯版本策略來統(tǒng)計分析用戶編輯的最后版本的版本變化量,如果其變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量,則篩選出可能的復(fù)雜編輯版本待審核。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對于通過連續(xù)版本過濾進程中步驟616和618篩選出的版本變化量超過預(yù)先設(shè)定的復(fù)雜版本變化量的備選復(fù)雜編輯版本,還可以進一步判斷過濾后的百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。需要說明的是,如果該復(fù)雜編輯版本已經(jīng)被標記為高質(zhì)量或優(yōu)質(zhì)版本的版本,直接過濾,不進入高質(zhì)量待審區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進入高質(zhì)量審核區(qū)待審,并按照版本提交時間進行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選方法的一個實施例中,對于進入后臺“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對比區(qū)”進行對比,以展示前后版本之間的變化,可以在原有后臺審核Diff策略中新增特殊詞的前后版本高亮顯示,當前版本新增內(nèi)鏈高亮顯示,敏感詞不高亮飄紅(同時,修改后臺所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺展示icon相同)。在 “版本變化量區(qū)”提示當前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級目錄、二級目錄、圖片數(shù)、參考資料、擴展閱讀等)。變化量采用累加方式統(tǒng)計,例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標記區(qū)”,由管理員標記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個大項建議,每個大項設(shè)置若干可多選的小項。已經(jīng)評為高質(zhì)量版本的百科版本進入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時間倒序排列,支持按照版本、編輯者id、添加者等標引信息進行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本;(2)版本編輯者鏈接新窗口指向前臺passport profile頁;(3)編輯時間詞條版本提交時間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時間編審標記為該版本為高質(zhì)量版本的時間;(5)評審建議編審給高質(zhì)量版本的評審建議;評審建議與后臺高質(zhì)量版本的反饋建議基本對應(yīng)。 評審建議為評選時勾選的選項+編審文本輸入內(nèi)容。評審建議對應(yīng)當初標記反饋模板體組成為一級模板名+序號+ 二級模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號按照排列選中的排列順序,不選則不分配序號。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為 “2008年北京奧運會”。建議建立標準詞詞條。正文內(nèi)容表述不當,如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點擊“查看”本窗口打開標記高質(zhì)量版本時的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點擊“復(fù)審”中的“查看”,進入高質(zhì)量版本復(fù)審的新頁面,該頁面和當初該版本進入高質(zhì)量審核區(qū)的Diff對比版本一致。不同之處為評審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點擊“非高質(zhì)量版本”,彈出浮動層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標記為非高質(zhì)量版本后進入非高質(zhì)量版本管理區(qū),支持添加其他版本進該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回撈高質(zhì)量版本。非高質(zhì)量版本按照添加時間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本。(2)版本編輯者鏈接新窗口指向前臺passport profile頁。(3)編輯時間詞條版本成功提交時間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時間管理員標記為該版本為高質(zhì)量版本的時間。(6) 復(fù)審點擊“查看”新窗口打開復(fù)審對比版本頁面。進入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進行審核(1)非相同編輯者ID的連續(xù)版本,則當前版本和上一個編輯者的版本進行對比。(2)相同編輯者ID的連續(xù)版本,則當前版本與該連續(xù)版本中最早版本的上一個用戶版本進行比較。若連續(xù)版本有被標記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當前版本與連續(xù)版本中最近的一個標記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進行對比。非高質(zhì)量版本復(fù)審DifT頁面,默認“高質(zhì)量版本”灰化不可以點,無“非高質(zhì)量版本”按鈕。只有勾選評審建議后,“高質(zhì)量版本”按鈕才可用,勾選評審建議和高質(zhì)量審核區(qū)策略一致。本發(fā)明提供的高質(zhì)量版本的篩選方法,通過對復(fù)雜編輯的百科版本進行連續(xù)版本變化量的統(tǒng)計分析,從而以多維度的方式進一步來篩選符合條件的復(fù)雜編輯版本以有利于提高后續(xù)高質(zhì)量版本的審核效率,同時通過分級審核的方式避免了單一評估手段造成的誤判斷,通過快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫的建設(shè);同時還有利于挖掘具有較高編輯能力的用戶,完善對百科用戶的分級管理。圖7示出本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例的流程圖。如圖7所示,高質(zhì)量版本的篩選方法流程700包括步驟702-720,其中步驟702-716可以執(zhí)行與圖4所示的步驟402-416相同或相似的技術(shù)內(nèi)容,為簡潔起見,這里不再贅述其技術(shù)內(nèi)容。如圖7所示,在步驟716之后,依次執(zhí)行步驟718,判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標識或者優(yōu)質(zhì)標識,則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則執(zhí)行步驟720,進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。與圖7中的步驟718和720類似的,本發(fā)明提供的高質(zhì)量版本的篩選方法的另一個實施例中,在圖6所示的流程圖中,在步驟616和618之后,還可以包括判斷過濾后的百科版本是否含有參考資料。例如,如果相鄰版本是不同用戶編輯的同名詞條版本,或者之前相鄰版本含有高質(zhì)量版本標識或者優(yōu)質(zhì)標識,則判斷過濾后的百科版本是否含有參考資料。如果有參考資料,則將該百科版本數(shù)據(jù)轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。圖8示出本發(fā)明實施例提供的一種高質(zhì)量版本的篩選系統(tǒng)的結(jié)構(gòu)示意圖。如圖8所示,一種高質(zhì)量版本的篩選系統(tǒng)800包括數(shù)據(jù)解析模塊802、統(tǒng)計分析模塊804和版本過濾模塊806。其中,數(shù)據(jù)解析模塊802,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析。例如,用戶通過百科頻道創(chuàng)建詞條信息,詞條信息創(chuàng)建完畢后提交以供系統(tǒng)后續(xù)篩選審核。接收到用戶完成的創(chuàng)建詞條信息后,需要對該詞條信息中的百科版本數(shù)據(jù)進行解析,以分解提取相關(guān)條目信息。統(tǒng)計分析模塊804,用于對解析后得到的信息進行統(tǒng)計分析和判斷。例如,對前述分解提取的相關(guān)條目信息進行統(tǒng)計分析,具體來說,涉及統(tǒng)計百科版本段落數(shù),統(tǒng)計該版本中的總字節(jié)數(shù),并分析其中是否含有圖片、參考資料等相關(guān)信息。版本過濾模塊806,用于根據(jù)統(tǒng)計分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。例如,根據(jù)統(tǒng)計的段落數(shù)、字節(jié)數(shù)等相關(guān)信息對百科版本數(shù)據(jù)進行過濾,對符合相應(yīng)預(yù)設(shè)條件的百科版本分別歸入簡單編輯版本進程或復(fù)雜版本進程,以便對復(fù)雜版本百科數(shù)據(jù)進行高質(zhì)量版本的審核,并引導(dǎo)用戶進一步完善該詞條信息等后續(xù)操作。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個實施例中,版本過濾模塊806還用于對過濾后的進入簡單編輯版本進程或復(fù)雜版本進程的百科版本判斷其是否含有參考資料, 如果沒有,則進行二次過濾;否則,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。通過以上過濾途徑獲得的編輯和創(chuàng)建版本,進入高質(zhì)量審核區(qū)待審,并按照版本提交時間進行順序排列。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的一個實施例中,對于進入后臺“高質(zhì)量版本審核區(qū)”的待審百科版本,在“Diff對比區(qū)”進行對比,以展示前后版本之間的變化,可以在原有后臺審核Diff策略中新增特殊詞的前后版本高亮顯示,當前版本新增內(nèi)鏈高亮顯示,敏感詞不高亮飄紅(同時,修改后臺所有Diff區(qū)策略,不再顯示歷史版本中包含優(yōu)質(zhì)版本的灰色icon,只顯示當前版本的優(yōu)質(zhì)/高質(zhì)量狀態(tài),icon與前臺展示icon相同)。在 “版本變化量區(qū)”提示當前版本的變化量,以幫助編審判斷版本(可以記錄的變化量包括但不限于字節(jié)數(shù)、內(nèi)鏈、開放分類、一級目錄、二級目錄、圖片數(shù)、參考資料、擴展閱讀等)。變化量采用累加方式統(tǒng)計,例如添加一張圖片,再刪除一張已有的圖片,變化量是2。在“版本標記區(qū)”,由管理員標記該審核的版本屬于“高質(zhì)量版本”或“非高質(zhì)量版本”,并在“評審建議區(qū)”由編審給出該高質(zhì)量版本后續(xù)可完善的建議,例如設(shè)置10個大項建議,每個大項設(shè)置若干可多選的小項,包括(1)關(guān)于“詞條名”的建議涉及詞條名不規(guī)范或已存在同義詞條等;(2)關(guān)于“目錄章節(jié)”的建議涉及一二級目錄混編,章節(jié)劃分不當或標題歸納不正確等;(3)關(guān)于“概念定義”的建議涉及概念、定義缺失或不準確,概念、定義信息矛盾等;(4) 關(guān)于“正文”的建議涉及添加無效信息或刪除了有效信息,敘述重心偏離主題或詞條要素信息不完整,非第三方客觀表述,含有立場或時效性措辭,正文信息含不規(guī)范標點、文字或亂碼等,正文內(nèi)容表述不當?shù)龋?5)關(guān)于“內(nèi)鏈”的建議涉及與主題關(guān)聯(lián)性差、添加位置不當或內(nèi)鏈對象無相關(guān)闡述,內(nèi)鏈無效、斷鏈或者自鏈接等;(6)關(guān)于“圖片”的建議涉及圖片質(zhì)量低或與主題關(guān)聯(lián)性較差,圖片無注釋或注釋不準確等;(7)關(guān)于“參考資料”的建議 涉及參考資料與主題無關(guān),參考資料為無效鏈接,角標位置不正確等;(8)關(guān)于“擴展閱讀” 的建議涉及擴展閱讀與主題無關(guān),擴展閱讀為無效鏈接等;(9)關(guān)于“排版”的建議涉及版面信息分布瑣碎或圖文排版不佳,無排版或錯誤使用編輯功能等;(10)關(guān)于“其他”的建議涉及其他建議或建議申請優(yōu)質(zhì)版本等。已經(jīng)評為高質(zhì)量版本的百科版本進入系統(tǒng)的高質(zhì)量版本管理區(qū),該管理區(qū)用于方便后續(xù)的版本復(fù)審和撤銷。其中高質(zhì)量版本審核區(qū)中按照高質(zhì)量版本的添加時間倒序排列,支持按照版本、編輯者id、添加者等標引信息進行搜索。高質(zhì)量版本管理區(qū)的數(shù)據(jù)項包括(1)高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本;(2)版本編輯者鏈接新窗口指向前臺passport profile頁;(3)編輯時間詞條版本提交時間;(3)添加者添加該版本為高質(zhì)量版本的編審;(4)添加時間編審標記為該版本為高質(zhì)量版本的時間;(5)評審建議編審給高質(zhì)量版本的評審建議;評審建議與后臺高質(zhì)量版本的反饋建議基本對應(yīng)。 評審建議為評選時勾選的選項+編審文本輸入內(nèi)容。評審建議對應(yīng)當初標記反饋模板體組成為一級模板名+序號+ 二級模板名+如+輸入內(nèi)容+建議+輸入內(nèi)容。序號按照排列選中的排列順序,不選則不分配序號。比如詞條名稱不規(guī)范的類型,其規(guī)范的詞條名為 “2008年北京奧運會”。建議建立標準詞詞條。正文內(nèi)容表述不當,如第一段主觀語氣,建議客觀闡述。(6)復(fù)審點擊“查看”本窗口打開標記高質(zhì)量版本時的高質(zhì)量版本審核Diff 頁面,復(fù)審?fù)瓿珊笞员敬翱诨氐礁哔|(zhì)量版本管理區(qū)。點擊“復(fù)審”中的“查看”,進入高質(zhì)量版本復(fù)審的新頁面,該頁面和當初該版本進入高質(zhì)量審核區(qū)的Diff對比版本一致。不同之處為評審建議以文本方式顯示在版本變化量之下,無“高質(zhì)量版本”按鈕。編審復(fù)審若發(fā)現(xiàn)改版本為誤審核,點擊“非高質(zhì)量版本”,彈出浮動層,填寫取消原因。復(fù)雜編輯版本在高質(zhì)量版本審核區(qū)被標記為非高質(zhì)量版本后進入非高質(zhì)量版本管理區(qū),支持添加其他版本進該區(qū)的功能(如支持按照任意的、與本區(qū)不重復(fù)的人工方式將已通過版本ID添加到該區(qū)),目的是回撈高質(zhì)量版本。非高質(zhì)量版本按照添加時間倒序排列,可按照版本(即詞條名)、編輯者ID、添加者搜索版本。該區(qū)涉及的數(shù)據(jù)項包括(1) 非高質(zhì)量詞條版本鏈接新窗口指向后臺該詞條版本。(2)版本編輯者鏈接新窗口指向前臺passport profile頁。(3)編輯時間詞條版本成功提交時間。(4)添加者添加該版本為高質(zhì)量版本的管理員。(5)添加時間管理員標記為該版本為高質(zhì)量版本的時間。(6)復(fù)審點擊“查看”新窗口打開復(fù)審對比版本頁面。進入復(fù)審DifT頁面(非高質(zhì)量版本復(fù)審)可采用如下策略進行審核(1)非相同編輯者ID的連續(xù)版本,則當前版本和上一個編輯者的版本進行對比。(2)相同編輯者ID的連續(xù)版本,則當前版本與該連續(xù)版本中最早版本的上一個用戶版本進行比較。若連續(xù)版本有被標記為優(yōu)質(zhì)版本或者高質(zhì)量版本,則當前版本與連續(xù)版本中最近的一個標記為優(yōu)質(zhì)版本或高質(zhì)量版本的版本進行對比。非高質(zhì)量版本復(fù)審DifT頁面,默認“高質(zhì)量版本”灰化不可以點,無“非高質(zhì)量版本”按鈕。只有勾選評審建議后,“高質(zhì)量版本”按鈕才可用,勾選評審建議和高質(zhì)量審核區(qū)策略一致。本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng),通過數(shù)據(jù)解析模塊對百科版本數(shù)據(jù)進行解析,通過統(tǒng)計分析模塊統(tǒng)計分析,從而由版本過濾模塊篩選出復(fù)雜編輯版本和簡單編輯版本,以減少人工篩選及審核的投入,在提高篩選效率的同時,有利于后續(xù)評審高質(zhì)量版本更有針對性。圖9示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖。如圖9所示,一種高質(zhì)量版本的篩選系統(tǒng)900包括數(shù)據(jù)解析模塊902、統(tǒng)計分析模塊904、版本過濾模塊906和去重模塊908。其中數(shù)據(jù)解析模塊902、統(tǒng)計分析模塊904、 版本過濾模塊906可以是與圖8所示數(shù)據(jù)解析模塊802、統(tǒng)計分析模塊804、版本過濾模塊 806具有相同或相似的功能模塊。為簡潔起見,這里不再贅述。如圖9所示,篩選系統(tǒng)900還包括去重模塊908,用于對同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動過濾出評選區(qū),并選取最新進入評選區(qū)的版本待審核。圖10示出本發(fā)明提供的高質(zhì)量版本的篩選系統(tǒng)的另一個實施例的結(jié)構(gòu)示意圖。如圖10所示,一種高質(zhì)量版本的篩選系統(tǒng)1000包括數(shù)據(jù)解析模塊1002、統(tǒng)計分析模塊1004、版本過濾模塊1006和去重模塊1008。其中數(shù)據(jù)解析模塊1002、版本過濾模塊1006、去重模塊1008可以是與圖9所示數(shù)據(jù)解析模塊902、版本過濾模塊906、去重模塊 908具有相同或相似的功能模塊。為簡潔起見,這里不再贅述。統(tǒng)計分析模塊1004進一步包括統(tǒng)計子模塊10042、分析子模塊10044和測算子模塊10046。其中,統(tǒng)計子模塊10042,用于統(tǒng)計信息的段落數(shù)、總字節(jié)數(shù)。例如,對解析后的百科版本數(shù)據(jù)進行條目統(tǒng)計,判斷該百科版本數(shù)據(jù)是否只有一條段落;統(tǒng)計百科版本數(shù)據(jù)的總字節(jié)數(shù)(其總字節(jié)數(shù)是否大于某一閾值,如600字節(jié),總字節(jié)數(shù)是否小于某一閾值,如300 字節(jié))。分析子模塊10044,用于分析信息是否含有圖片、參考資料和目錄信息。例如,對解析后的百科版本數(shù)據(jù)進行條目統(tǒng)計,判斷百科版本數(shù)據(jù)中是否沒有圖片、參考資料和目錄等條目信息。測算子模塊10046,用于根據(jù)預(yù)定規(guī)則計算并評估百科版本數(shù)據(jù)是否屬于復(fù)雜編輯版本。對前述統(tǒng)計的信息,依據(jù)具體的計算公式來測算版本變化量是否大于預(yù)先設(shè)置的閾值。舉例來說,如果統(tǒng)計分析的百科版本數(shù)據(jù)中含有內(nèi)鏈計1分,有圖片計2分(對于統(tǒng)計圖片變化量來說,對圖注文字的修改、添加,居左/居右屬性的變化不計入),有參考資料計1分,有N個目錄計N分;可以根據(jù)這4項得分相加求和,總分在2分以上的百科版本可視為復(fù)雜編輯版本。參考前述本發(fā)明示例性的描述,本領(lǐng)域技術(shù)人員可以清楚的知曉本發(fā)明提供的高質(zhì)量版本的篩選方法及系統(tǒng)所具有的前述優(yōu)點,本發(fā)明通過對用戶創(chuàng)建和編輯的百科版本數(shù)據(jù)進行解析,對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程;其能夠在降低人工篩選投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進一步地, 對進入簡單編輯版本進程或復(fù)雜編輯版本進程的百科版本執(zhí)行連續(xù)版本過濾進程,從而更加準確、有效地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本,從而為高質(zhì)量版本數(shù)據(jù)的審核提供評選基礎(chǔ)。此外,通過快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,有利于加快百科數(shù)據(jù)庫的建設(shè);同時還有利于挖掘具有較高編輯能力的用戶,完善對百科用戶的分級管理。本發(fā)明的描述是為了示例和描述起見而給出的,而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領(lǐng)域的普通技術(shù)人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應(yīng)用,并且使本領(lǐng)域的普通技術(shù)人員能夠理解本發(fā)明從而設(shè)計適于特定用途的帶有各種修改的各種實施例。
權(quán)利要求
1.一種高質(zhì)量版本的篩選方法,其特征在于,所述方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對所述百科版本數(shù)據(jù)進行解析;對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果,過濾所述百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對符合預(yù)定標準的百科版本執(zhí)行復(fù)雜編輯版本進程的步驟進一步包括判斷過濾后的所述百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對解析后得到的信息進行統(tǒng)計分析的步驟進一步包括統(tǒng)計所述信息的段落數(shù)、總字節(jié)數(shù);分析所述信息是否含有圖片、參考資料和目錄信息;以及根據(jù)預(yù)定規(guī)則評估所述百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括對于用戶編輯的百科版本數(shù)據(jù)進入簡單編輯版本進程,判斷之前的版本是否存在連續(xù)的相同用戶編輯同名詞條版本,如果不存在,則直接過濾所述百科版本數(shù)據(jù);如果之前存在連續(xù)的、與所述版本數(shù)據(jù)具有相同編輯用戶的同名詞條版本,則執(zhí)行連續(xù)版本過濾進程。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括對于用戶編輯的百科版本數(shù)據(jù)進入復(fù)雜編輯版本進程,判斷之前相鄰版本是否是不同用戶編輯的同名詞條版本或者含有高質(zhì)量版本/優(yōu)質(zhì)版本標識,如果是,則判斷過濾后的百科版本是否含有參考資料;如果過濾后的所述百科版本不含有參考資料,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);否則,則執(zhí)行連續(xù)版本過濾進程。
6.根據(jù)權(quán)利要求4或5所述的方法,其特征在于,所述連續(xù)版本過濾進程針對由同一用戶編輯的連續(xù)同名詞條版本構(gòu)成的一組版本,判斷之前是否存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標識的百科版本數(shù)據(jù),如果不存在,則選取所述組版本中最后提交的版本數(shù)據(jù)與之前不同用戶編輯的版本進行對比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料,如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū);如果之前存在獲得高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本,則選取所述組版本中最后提交的版本數(shù)據(jù)與之前含有高質(zhì)量版本/優(yōu)質(zhì)版本標識的版本進行對比,先按復(fù)雜編輯版本策略過濾,找出符合復(fù)雜版本變化量的版本;隨后判斷過濾后的百科版本是否含有參考資料, 如果沒有,則進行二次過濾,過濾后的百科版本數(shù)據(jù)被轉(zhuǎn)入高質(zhì)量版本審核區(qū)。
7.根據(jù)權(quán)利要求1-5中任意一項所述的方法,其特征在于,所述方法還包括對同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在所述版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動過濾出評選區(qū),并選取最新進入評選區(qū)的版本待審核。
8.一種高質(zhì)量版本的篩選系統(tǒng),其特征在于,系統(tǒng)包括數(shù)據(jù)解析模塊,用于讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析;統(tǒng)計分析模塊,用于對解析后得到的信息進行統(tǒng)計分析和判斷;版本過濾模塊,用于根據(jù)統(tǒng)計分析和判斷的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。
9.根據(jù)權(quán)利要求8的系統(tǒng),其特征在于,系統(tǒng)還包括去重模塊,用于對同一詞條下,同一用戶編輯的連續(xù)版本的入選版本進行去重處理,以保證只有最終版本處于高質(zhì)量版本待審狀態(tài);如果在版本處于高質(zhì)量版本待審狀態(tài)期間,同名詞條存在后續(xù)同一用戶編輯的版本被過濾策略選入,則原在待審序列中同一用戶編輯的同名詞條版本將被自動過濾出評選區(qū), 并選取最新進入評選區(qū)的版本待審核。
10.根據(jù)權(quán)利要求8的系統(tǒng),其特征在于,統(tǒng)計分析模塊進一步包括統(tǒng)計子模塊,用于統(tǒng)計信息的段落數(shù)、總字節(jié)數(shù);分析子模塊,用于分析信息是否含有圖片、參考資料和目錄信息;以及測算子模塊,用于根據(jù)預(yù)定規(guī)則評估所述百科版本數(shù)據(jù)的變化量是否高于復(fù)雜版本變化量閾值。
全文摘要
本發(fā)明公開一種高質(zhì)量版本的篩選方法及系統(tǒng),該方法包括讀取用戶創(chuàng)建的百科版本數(shù)據(jù),并對百科版本數(shù)據(jù)進行解析;對解析后得到的信息進行統(tǒng)計分析;根據(jù)統(tǒng)計分析的結(jié)果,過濾百科版本數(shù)據(jù),并對符合預(yù)定標準的百科版本執(zhí)行簡單編輯版本進程或復(fù)雜編輯版本進程。發(fā)明能夠在降低人工篩選投入的前提下,有效提高對復(fù)雜編輯的百科版本數(shù)據(jù)的篩選效率。進一步地,對進入簡單編輯版本進程或復(fù)雜編輯版本進程的百科版本執(zhí)行連續(xù)版本過濾進程,從而更加準確地從海量百科數(shù)據(jù)中篩選出待審核的高質(zhì)量百科版本。通過快速準確篩選出高質(zhì)量版本和非高質(zhì)量版本,有針對性地引導(dǎo)用戶持續(xù)完善詞條信息,同時還有利于完善對百科用戶的分級管理。
文檔編號G06F17/30GK102314453SQ201010222129
公開日2012年1月11日 申請日期2010年6月30日 優(yōu)先權(quán)日2010年6月30日
發(fā)明者支靜, 王龍, 陳興華 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司