處理文章的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種處理文章的方法和裝置。
【背景技術(shù)】
[0002]行業(yè)相關(guān)度是指事物之間存在相互聯(lián)系的百分比。行業(yè)相關(guān)度是帶有主觀色彩的概念,不同的人對(duì)同一詞所給出的行業(yè)相關(guān)度都會(huì)不同,因此在行業(yè)詞典中所存儲(chǔ)的詞或詞的行業(yè)相關(guān)度都是由領(lǐng)域?qū)<医o出,或者抽取具有代表性的查詢(xún)?cè)~匯來(lái)組成行業(yè)詞典。文檔或由幾個(gè)或一些詞、詞組就可以完全表示其中的內(nèi)容,那么這些詞與該領(lǐng)域的行業(yè)相關(guān)度就成為決定文檔或與領(lǐng)域相關(guān)的關(guān)鍵因素。
[0003]行業(yè)相關(guān)度在金融、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域都是十分常用的分析參數(shù)。比如,在企業(yè)并購(gòu)的過(guò)程中,會(huì)依據(jù)參與并購(gòu)的企業(yè)的行業(yè)相關(guān)度給出是否采取并購(gòu)措施的建議。然而,現(xiàn)有的行業(yè)相關(guān)度計(jì)算主要是依靠人工計(jì)算,計(jì)算過(guò)程冗長(zhǎng)復(fù)雜,費(fèi)時(shí)費(fèi)力。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明實(shí)施例提出一種處理文章的方法和裝置,以高效的確定文章的行業(yè)相關(guān)度。
[0005]第一方面,本發(fā)明實(shí)施例提供了一種處理文章的方法,所述方法包括:
[0006]接收待處理的文章;
[0007]根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞;
[0008]基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度。
[0009]第二方面,本發(fā)明實(shí)施例提供了一種處理文章的裝置,所述裝置包括:
[0010]文章接收模塊,用于接收待處理的文章;
[0011]關(guān)鍵詞提取模塊,用于根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞;
[0012]行業(yè)相關(guān)度計(jì)算模塊,用于基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度。
[0013]本發(fā)明實(shí)施例提供的處理文章的方法和裝置,通過(guò)接收待處理的文章,根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞,基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度,從而提高了確定文章的行業(yè)相關(guān)度的效率。
【附圖說(shuō)明】
[0014]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0015]圖1是本發(fā)明第一實(shí)施例提供的處理文章的方法的流程圖;
[0016]圖2是本發(fā)明第二實(shí)施例提供的處理文章的方法的流程圖;
[0017]圖3是本發(fā)明第三實(shí)施例提供的處理文章的方法中關(guān)鍵詞庫(kù)生成的流程圖;
[0018]圖4是本發(fā)明第四實(shí)施例提供的處理文章的方法中模型訓(xùn)練的流程圖;
[0019]圖5是本發(fā)明第五實(shí)施例提供的處理文章的方法的流程示意圖。
[0020]圖6是本發(fā)明第六實(shí)施例提供的處理文章的裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0021]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部?jī)?nèi)容。
[0022]第一實(shí)施例
[0023]本實(shí)施例提供了一種處理文章的方法。參見(jiàn)圖1,所述處理文章的方法包括:操作11至操作13。
[0024]操作11,接收待處理的文章。
[0025]所述待處理的文章是需要確定行業(yè)相關(guān)度的文章。所述待處理的文章可以是用戶(hù)從互聯(lián)網(wǎng)上獲取到的文章,也可以是用戶(hù)從其他數(shù)據(jù)源獲取到的文章。
[0026]操作12,根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞。
[0027]在本實(shí)施例中,在接收到待處理的文章之后,參考關(guān)鍵詞庫(kù)從所述待處理的文章中提取行業(yè)關(guān)鍵詞。所述關(guān)鍵詞庫(kù)是由預(yù)先從行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)文章中提取的關(guān)鍵詞組成的詞庫(kù)。需要說(shuō)明的是,所述關(guān)鍵詞庫(kù)中不僅包含行業(yè)關(guān)鍵詞,還包括所述行業(yè)關(guān)鍵詞的行業(yè)相關(guān)度。例如,所述關(guān)鍵詞庫(kù)中包含行業(yè)關(guān)鍵詞“萃取”,所述關(guān)鍵詞庫(kù)還應(yīng)該進(jìn)一步的包括該行業(yè)關(guān)鍵詞的相關(guān)的行業(yè)類(lèi)別是化工行業(yè),并且該行業(yè)關(guān)鍵詞與化工行業(yè)的行業(yè)相關(guān)度是90%。
[0028]優(yōu)選的,所述行業(yè)關(guān)鍵詞的行業(yè)相關(guān)度是一個(gè)行業(yè)相關(guān)度向量。例如,行業(yè)關(guān)鍵詞“鑄造”與鋼鐵行業(yè)的行業(yè)相關(guān)度是90 %,與汽車(chē)行業(yè)的行業(yè)相關(guān)度是5 %,則所述行業(yè)關(guān)鍵詞“鑄造”的行業(yè)相關(guān)度是一個(gè)向量,該向量至少應(yīng)該包含該行業(yè)關(guān)鍵詞與鋼鐵行業(yè)的行業(yè)相關(guān)度90%,以及其與汽車(chē)行業(yè)的行業(yè)相關(guān)度5%。
[0029]進(jìn)一步優(yōu)選的,所述與所述行業(yè)關(guān)鍵詞相關(guān)的行業(yè)類(lèi)別是一個(gè)具有至少一個(gè)層級(jí)的行業(yè)類(lèi)別分類(lèi)表。這樣一來(lái),與所述行業(yè)關(guān)鍵詞相關(guān)的行業(yè)類(lèi)別可以是“科技-業(yè)界-國(guó)際消費(fèi)電子展專(zhuān)題”這樣的多層級(jí)行業(yè)類(lèi)別。
[0030]操作13,基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度。
[0031]在本實(shí)施例,利用預(yù)置的行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章訓(xùn)練了行業(yè)相關(guān)度判別模型。所述行業(yè)相關(guān)度判別模型包括一個(gè)分類(lèi)器。該分類(lèi)器接收到所述待處理的文章以后,能夠給出所述待處理的文章所屬的行業(yè)類(lèi)別。給出所述待處理的文章所屬的行業(yè)類(lèi)別以后,所述行業(yè)相關(guān)度判別模型能夠依據(jù)所述待處理的文章的行業(yè)類(lèi)別,給出所述待處理的文章的行業(yè)相關(guān)度。
[0032]優(yōu)選的,所述行業(yè)相關(guān)度判別模型中包含的分類(lèi)器是一個(gè)支持向量機(jī)(Supportvector machine, SVM)分類(lèi)器。所述分類(lèi)器給出所述待處理的文章的行業(yè)類(lèi)別以后,給所述待處理的文章所屬的行業(yè)類(lèi)別賦予較大的加權(quán)值,然后對(duì)所述待處理的文章中包含的行業(yè)關(guān)鍵詞的行業(yè)相關(guān)度進(jìn)行加權(quán)平均,得到所述待處理的文章的行業(yè)相關(guān)度。
[0033]本實(shí)施例通過(guò)接收待處理的文章,根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞,以及基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度,從而高效的確定待處理的文章的行業(yè)相關(guān)度。
[0034]第二實(shí)施例
[0035]本實(shí)施例提供了一種處理文章的方法的一種技術(shù)方案。所述處理文章的方法以本發(fā)明上述實(shí)施例為基礎(chǔ),進(jìn)一步的,在在接收待處理的文章之前,還包括:從行業(yè)相關(guān)樣本文章中提取行業(yè)關(guān)鍵詞,以生成關(guān)鍵詞庫(kù);在接收待處理的文章之前,從行業(yè)相關(guān)樣本文章中提取行業(yè)關(guān)鍵詞之后,還包括:利用行業(yè)相關(guān)樣本文章訓(xùn)練所述行業(yè)相關(guān)度判別模型。
[0036]參見(jiàn)圖2,所述處理文章的方法包括:操作21至操作25。
[0037]操作21,從所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章中提取行業(yè)關(guān)鍵詞,以生成關(guān)鍵詞庫(kù)。
[0038]在對(duì)所述待處理的文章進(jìn)行處理時(shí),需要使用預(yù)先生成的關(guān)鍵詞庫(kù)。在本實(shí)施例中,在接收所述待處理的文章之前,從所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章中提取關(guān)鍵詞。優(yōu)選的,可以依據(jù)不同的關(guān)鍵詞在所述行業(yè)相關(guān)樣本文章出現(xiàn)的詞頻來(lái)確定將哪些關(guān)鍵詞確定為行業(yè)關(guān)鍵詞。
[0039]在提取行業(yè)關(guān)鍵詞,以生成所述關(guān)鍵詞庫(kù)之時(shí),還需要確定所述關(guān)鍵詞庫(kù)中行業(yè)關(guān)鍵詞的行業(yè)相關(guān)度。優(yōu)選的,所述行業(yè)關(guān)鍵詞的行業(yè)相關(guān)度是一個(gè)行業(yè)相關(guān)度向量。
[0040]操作22,利用所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章訓(xùn)練所述行業(yè)相關(guān)度判別模型。
[0041]在利用所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章生成所述關(guān)鍵詞庫(kù)之時(shí),所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章就被賦予了行業(yè)相關(guān)度。因此,可以將所述行業(yè)相關(guān)文章樣本庫(kù)中的行業(yè)相關(guān)樣本文章作為訓(xùn)練數(shù)據(jù),來(lái)訓(xùn)練所述行業(yè)相關(guān)度判別模型。
[0042]操作23,接收待處理的文章。
[0043]操作24,根據(jù)關(guān)鍵詞庫(kù)提取所述待處理的文章中的行業(yè)關(guān)鍵詞。
[0044]操作25,基于所述行業(yè)關(guān)鍵詞,利用被行業(yè)相關(guān)文章樣本庫(kù)訓(xùn)練后的行業(yè)相關(guān)度判別模型對(duì)所述待處理的文章進(jìn)行分類(lèi),得到所述待處理的文章的行業(yè)相關(guān)度。
[0045]本實(shí)施例通過(guò)在接收待處理的文章之前,從行業(yè)相關(guān)樣本文章中提取行業(yè)關(guān)鍵詞,以生成關(guān)鍵詞庫(kù),以及利用行業(yè)相關(guān)樣本文章訓(xùn)練所述行業(yè)相關(guān)度判別模型,實(shí)現(xiàn)了對(duì)待處理文章的行業(yè)相關(guān)度的高效確定。
當(dāng)前第1頁(yè)
1 
2 
3