一種新聞主題分類方法
【專利摘要】本發(fā)明公開了一種新聞主題分類方法,其特征在于,包括如下步驟:步驟一:根據(jù)新聞的主題類別建立種子詞典;步驟二:對新聞的標(biāo)題進(jìn)行分詞處理,提取標(biāo)題關(guān)鍵詞;步驟三:通過多個(gè)基于互聯(lián)網(wǎng)的搜索引擎服務(wù)器對所述標(biāo)題關(guān)鍵詞進(jìn)行元搜索;步驟四:在元搜索的結(jié)果中對所述種子關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì);步驟五:根據(jù)元搜索的結(jié)果中種子關(guān)鍵詞出現(xiàn)的頻次判定新聞最終的主題類別。本發(fā)明的一種新聞主題分類方法可以大大縮短分類時(shí)間,有效降低人工成本,且對歷史數(shù)據(jù)不產(chǎn)生依賴性,整個(gè)分類過程所用的時(shí)間更短,分類結(jié)果也更加可靠,可以對新聞進(jìn)行多類分類,在實(shí)際情形中更具通用性。
【專利說明】一種新聞主題分類方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種新聞主題分類方法,具體涉及一種利用計(jì)算機(jī)技術(shù)對互聯(lián)網(wǎng)上的新聞進(jìn)行主題分類的方法,本發(fā)明屬于計(jì)算機(jī)【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著現(xiàn)代科學(xué)技術(shù)的進(jìn)步以及互聯(lián)網(wǎng)技術(shù)的高速發(fā)展,互聯(lián)網(wǎng)上的信息資源在不斷地呈爆炸性增長。如何從這些海量的資源中快速精準(zhǔn)地獲取所需要的信息已成為互聯(lián)網(wǎng)用戶所關(guān)心的一個(gè)亟待解決的問題。同時(shí),該問題也成為信息處理領(lǐng)域的一大挑戰(zhàn)性課題。為了能夠有效地組織和管理海量電子信息,使用戶能夠快速方便地獲取所需要的資源,研究者提出了文本檢索、文本分類、主題概念識別等多種信息組織和處理技術(shù)。在上述技術(shù)中,人工智能領(lǐng)域中的文本自動(dòng)分類技術(shù)已經(jīng)在多個(gè)領(lǐng)域得到了廣泛應(yīng)用,并取得了顯著的成果。
[0003]文本自動(dòng)分類是人工智能和自然語言處理領(lǐng)域中的一個(gè)重要研究方向,其主要思想是在指定的分類體系下,計(jì)算機(jī)根據(jù)文本的內(nèi)容來自動(dòng)判定所屬類別。該技術(shù)可以彌補(bǔ)傳統(tǒng)搜索引擎技術(shù)的不足,過濾用戶不需要的信息,方便用戶快速精確地查找所需要的內(nèi)容。本發(fā)明涉及一種新的文本自動(dòng)分類方法,主要目標(biāo)是對互聯(lián)網(wǎng)上發(fā)表的新聞進(jìn)行快速精確地主題分類。
[0004]新聞主題分類是根據(jù)所設(shè)定的主題類別對新聞進(jìn)行文本自動(dòng)分類的過程。新聞的主題即是最終分類的類別。新聞主題分類在互聯(lián)網(wǎng)諸多的門戶網(wǎng)站上得到了廣泛地應(yīng)用,例如,大型新聞門戶網(wǎng)站新浪網(wǎng)上的新聞被劃分為社會、軍事、體育、娛樂等主題類別。
[0005]目前,已有的主題分類技術(shù)主要集中于人工標(biāo)注和機(jī)器學(xué)習(xí)兩種方法。人工標(biāo)注方法主要是借助于人工的分類經(jīng)驗(yàn)對新聞進(jìn)行手動(dòng)主題類別標(biāo)注。該類方法的優(yōu)點(diǎn)是可以獲得較高的分類準(zhǔn)確率,缺點(diǎn)是時(shí)間代價(jià)和人工成本太高。機(jī)器學(xué)習(xí)方法是利用人工智能領(lǐng)域中的機(jī)器學(xué)習(xí)算法對已標(biāo)注主題類別的新聞內(nèi)容進(jìn)行學(xué)習(xí)和訓(xùn)練,建立相應(yīng)的分類模型,進(jìn)而利用模型實(shí)現(xiàn)計(jì)算機(jī)自動(dòng)主題分類。該類方法可以有效地降低時(shí)間代價(jià)和人工成本,但精確性往往受限于所選擇的機(jī)器學(xué)習(xí)算法的適用性和所使用的歷史數(shù)據(jù)的質(zhì)量。此夕卜,該類方法需要計(jì)算機(jī)從歷史數(shù)據(jù)中進(jìn)行知識學(xué)習(xí)和訓(xùn)練,如果所使用的歷史數(shù)據(jù)規(guī)模較大,則需要花費(fèi)很高的時(shí)間代價(jià)進(jìn)行學(xué)習(xí)和訓(xùn)練,而如果所使用的歷史數(shù)據(jù)規(guī)模較小,則所建立的分類模型的精確性會大打折扣。如何在分類時(shí)間和分類準(zhǔn)確率之間進(jìn)行有效權(quán)衡,是現(xiàn)有技術(shù)亟需解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0006]為解決現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種新聞主題分類方法。
[0007]為了實(shí)現(xiàn)上述目標(biāo),本發(fā)明采用如下的技術(shù)方案:
[0008]一種新聞主題分類方法,其特征在于,包括如下步驟:
[0009]步驟一:根據(jù)新聞的主題類別建立種子詞典,所述種子詞典中包括主題類別和種子關(guān)鍵詞,一個(gè)種子關(guān)鍵詞對應(yīng)一個(gè)主題類別,每個(gè)主題類別對應(yīng)有多個(gè)種子關(guān)鍵詞;
[0010]步驟二:對新聞的標(biāo)題進(jìn)行分詞處理,提取標(biāo)題關(guān)鍵詞;
[0011]步驟三:通過多個(gè)基于互聯(lián)網(wǎng)的搜索引擎服務(wù)器對所述標(biāo)題關(guān)鍵詞進(jìn)行元搜索;
[0012]步驟四:在元搜索的結(jié)果中對所述種子關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì);
[0013]步驟五:根據(jù)元搜索的結(jié)果中種子關(guān)鍵詞出現(xiàn)的頻次判定新聞最終的主題類別。
[0014]前述的一種新聞主題分類方法,其特征在于,所述步驟二包括:提取新聞標(biāo)題中字符個(gè)數(shù)大于I的詞元作為標(biāo)題關(guān)鍵詞。
[0015]前述的一種新聞主題分類方法,其特征在于,所述步驟三包括:
[0016]步驟3a:根據(jù)搜索引擎的字符編碼對查詢關(guān)鍵詞進(jìn)行編碼處理;
[0017]步驟3b:拼接向搜索引擎服務(wù)器提交的請求URL ;
[0018]步驟3c:向搜索引擎服務(wù)器提交URL請求并返回搜索結(jié)果;
[0019]步驟3d:合并多個(gè)搜索引擎返回的搜索結(jié)果,以作為元搜索的結(jié)果。
[0020]前述的一種新聞主題分類方法,其特征在于,所述步驟3c包括:利用編程語言提供的網(wǎng)絡(luò)通訊工具包向搜索引擎服務(wù)器提交URL請求并返回搜索結(jié)果。
[0021]前述的一種新聞主題分類方法,其特征在于,所述步驟五包括:
[0022]步驟5a:對于任意一個(gè)主題類別,先計(jì)算所述主題類別對應(yīng)的每個(gè)種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的頻次,然后統(tǒng)計(jì)所述主題類別對應(yīng)的所有種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的總頻次,將所述主題類別對應(yīng)的所有種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的總頻次作為所述主題類別在元搜索的結(jié)果中出現(xiàn)的頻次;
[0023]步驟5b:重復(fù)步驟5a,直到得到每一個(gè)主題類別在元搜索的結(jié)果中出現(xiàn)的頻次;
[0024]步驟5c:如果所述元搜索的結(jié)果中存在一個(gè)出現(xiàn)頻次最多的主題類別,則判定所述出現(xiàn)頻次最多的主題類別作為新聞最終的主題類別;如果所述元搜索的結(jié)果中存在多個(gè)頻次并列最多的主題類別,則將所述頻次并列最多的主題類別均作為新聞最終的主題類別。
[0025]本發(fā)明的有益之處在于:本發(fā)明的一種新聞主題分類方法可以大大縮短分類時(shí)間,有效降低人工成本,且對歷史數(shù)據(jù)不產(chǎn)生依賴性,整個(gè)分類過程所用的時(shí)間更短,分類結(jié)果也更加可靠,可以對新聞進(jìn)行多類分類,在實(shí)際情形中更具通用性。
【專利附圖】
【附圖說明】
[0026]圖1是本發(fā)明一種新聞主題分類方法的優(yōu)選流程示意圖;
[0027]圖2是本發(fā)明一種新聞主題分類方法中對新聞標(biāo)題進(jìn)行元搜索的流程圖。
【具體實(shí)施方式】
[0028]以下結(jié)合附圖和具體實(shí)施例對本發(fā)明作具體的介紹。
[0029]參照圖1所示,本發(fā)明一種新聞主題分類方法,包括如下步驟:
[0030]步驟一:根據(jù)新聞的主題類別建立種子詞典,種子詞典中包括主題類別和種子關(guān)鍵詞,一個(gè)種子關(guān)鍵詞對應(yīng)一個(gè)主題類別,每個(gè)主題類別對應(yīng)有多個(gè)種子關(guān)鍵詞;
[0031]步驟二:對新聞的標(biāo)題進(jìn)行分詞處理,提取標(biāo)題關(guān)鍵詞;
[0032]步驟三:通過多個(gè)基于互聯(lián)網(wǎng)的搜索引擎服務(wù)器對標(biāo)題關(guān)鍵詞進(jìn)行元搜索;[0033]步驟四:在元搜索的結(jié)果中對種子關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì);
[0034]步驟五:根據(jù)元搜索的結(jié)果中種子關(guān)鍵詞出現(xiàn)的頻次判定新聞最終的主題類別。
[0035]如圖1所示,本發(fā)明首先根據(jù)新聞的主題類別篩選一些能代表主題類別的種子關(guān)鍵詞,并根據(jù)種子關(guān)鍵詞與主題類別之間的對應(yīng)關(guān)系建立種子詞典。接著,讀取新聞標(biāo)題,并對其進(jìn)行中文分詞,優(yōu)選提取新聞標(biāo)題中字符個(gè)數(shù)大于I的詞元作為標(biāo)題關(guān)鍵詞。將標(biāo)題關(guān)鍵詞作為查詢關(guān)鍵詞并利用計(jì)算機(jī)自動(dòng)采集技術(shù)從多個(gè)搜索引擎進(jìn)行信息搜索,返回合并各搜索引擎的搜索結(jié)果。對于每個(gè)主題類別分別統(tǒng)計(jì)其對應(yīng)種子關(guān)鍵詞在搜索結(jié)果中出現(xiàn)的頻次,選擇種子關(guān)鍵詞出現(xiàn)總頻次最高的主題類別為新聞最終的主題類別。
[0036]本發(fā)明中,篩選種子關(guān)鍵詞遵循的主要原則是篩選的種子關(guān)鍵詞既需要有代表性又需要有很好的區(qū)分能力,例如,“社會”主題的種子關(guān)鍵詞可以是:民生、民情、案件、城管、拖欠、農(nóng)民工、干旱、貪污、拆遷、上訪、罷工...;“財(cái)經(jīng)”主題的種子關(guān)鍵詞可以是:投資、理財(cái)、銀行、基金、股市、財(cái)富、商業(yè)、貿(mào)易...;“體育”主題的種子關(guān)鍵詞可以是:英超、意甲、運(yùn)動(dòng)員、國家隊(duì)、中鋒、后衛(wèi)、世界杯...,其它主題類別的種子關(guān)鍵詞的篩選與此類似,可以根據(jù)人工分類經(jīng)驗(yàn)進(jìn)行有效設(shè)定。在篩選出種子關(guān)鍵詞之后,可以建立起關(guān)鍵詞與主題類別之間的對應(yīng)關(guān)系(種子詞典),一個(gè)種子關(guān)鍵詞對應(yīng)一個(gè)主題類別,每個(gè)主題類別對應(yīng)有多個(gè)種子關(guān)鍵詞。
[0037]本發(fā)明中,對新聞的標(biāo)題進(jìn)行中文分詞處理是將新聞的標(biāo)題中連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程,例如,對“南京城管沉默執(zhí)法逼退小攤販引網(wǎng)友熱議”這個(gè)標(biāo)題進(jìn)行中文分詞處理,可以得到如下詞元列表:南京、城管、沉默、執(zhí)法、逼退、小攤販、引、網(wǎng)友、熱議。取所含字符個(gè)數(shù)大于I的詞元作為標(biāo)題關(guān)鍵詞以用于后續(xù)的元搜索。形式如下表一的一種種子詞典所不:
[0038]表一:一種種子詞典
·[0039]
【權(quán)利要求】
1.一種新聞主題分類方法,其特征在于,包括如下步驟: 步驟一:根據(jù)新聞的主題類別建立種子詞典,所述種子詞典中包括主題類別和種子關(guān)鍵詞,一個(gè)種子關(guān)鍵詞對應(yīng)一個(gè)主題類別,每個(gè)主題類別對應(yīng)有多個(gè)種子關(guān)鍵詞; 步驟二:對新聞的標(biāo)題進(jìn)行分詞處理,提取標(biāo)題關(guān)鍵詞; 步驟三:通過多個(gè)基于互聯(lián)網(wǎng)的搜索引擎服務(wù)器對所述標(biāo)題關(guān)鍵詞進(jìn)行元搜索; 步驟四:在元搜索的結(jié)果中對所述種子關(guān)鍵詞進(jìn)行頻次統(tǒng)計(jì); 步驟五:根據(jù)元搜索的結(jié)果中種子關(guān)鍵詞出現(xiàn)的頻次判定新聞最終的主題類別。
2.根據(jù)權(quán)利要求1所述的一種新聞主題分類方法,其特征在于,所述步驟二包括:提取新聞標(biāo)題中字符個(gè)數(shù)大于I的詞元作為標(biāo)題關(guān)鍵詞。
3.根據(jù)權(quán)利要求2所述的一種新聞主題分類方法,其特征在于,所述步驟三包括: 步驟3a:根據(jù)搜索引擎的字符編碼對查詢關(guān)鍵詞進(jìn)行編碼處理; 步驟3b:拼接向搜索引擎服務(wù)器提交的請求URL ; 步驟3c:向搜索引擎服務(wù)器提交URL請求并返回搜索結(jié)果; 步驟3d:合并多個(gè)搜索引擎返回的搜索結(jié)果,以作為元搜索的結(jié)果。
4.根據(jù)權(quán)利要求3所述的一種新聞主題分類方法,其特征在于,所述步驟3c包括:利用編程語言提供的網(wǎng)絡(luò)通訊工具包向搜索引擎服務(wù)器提交URL請求并返回搜索結(jié)果。
5.根據(jù)權(quán)利要求4所述的一種新聞主題分類方法,其特征在于,所述步驟五包括: 步驟5a:對于任意一個(gè)主題類別,先計(jì)算所述主題類別對應(yīng)的每個(gè)種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的頻次,然后統(tǒng)計(jì)所述主題類別對應(yīng)的所有種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的總頻次,將所述主題類別對應(yīng)的所有種子關(guān)鍵詞在元搜索的結(jié)果中出現(xiàn)的總頻次作為所述主題類別在元搜索的結(jié)果中出現(xiàn)的頻次; 步驟5b:重復(fù)步驟5a,直到得到每一個(gè)主題類別在元搜索的結(jié)果中出現(xiàn)的頻次; 步驟5c:如果所述元搜索的結(jié)果中存在一個(gè)出現(xiàn)頻次最多的主題類別,則判定所述出現(xiàn)頻次最多的主題類別作為新聞最終的主題類別;如果所述元搜索的結(jié)果中存在多個(gè)頻次并列最多的主題類別,則將所述頻次并列最多的主題類別均作為新聞最終的主題類別。
【文檔編號】G06F17/30GK103577587SQ201310554729
【公開日】2014年2月12日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】歐吉順, 周楚新, 張偉 申請人:南京綠色科技研究院有限公司