本發(fā)明涉及信息處理技術(shù)領(lǐng)域,具體而言涉及一種給文章標(biāo)注標(biāo)簽的方法和裝置。
背景技術(shù):
隨著通信網(wǎng)絡(luò)的推廣和智能終端的普及,人們?cè)絹碓搅?xí)慣使用電子產(chǎn)品進(jìn)行閱讀。例如,在電子計(jì)算機(jī)上登錄新聞網(wǎng)站或者小說網(wǎng)站閱讀各種新聞或小說,也可以登錄網(wǎng)上圖書館來閱讀各種圖書。再例如,使用智能手機(jī)或平板電腦等智能移動(dòng)終端上安裝的第三方應(yīng)用來實(shí)現(xiàn)閱讀,如新聞?lì)惖摹敖袢疹^條”、小說類的“書旗小說”、還有其它期刊類的app等等。
無論是在電子計(jì)算機(jī)上登錄新聞網(wǎng)站或者小說或期刊網(wǎng)站等閱讀各種新聞或小說或論文等,還是使用提供閱讀功能的第三方應(yīng)用來進(jìn)行閱讀,都需要對(duì)大量的新聞內(nèi)容進(jìn)行歸類整合,對(duì)大量的小說或論文進(jìn)行歸類整合,把整合好的數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù),這樣方便根據(jù)內(nèi)容類別進(jìn)行展示,或基于用戶興趣進(jìn)行推薦。
在對(duì)新聞、小說或論文等文章歸類整合的過程中,很多文章都來自于外部數(shù)據(jù)源,這些文章沒有任何分類信息或標(biāo)簽信息,如何對(duì)這些文章進(jìn)行歸類是一件棘手的事情。傳統(tǒng)的方法是通過運(yùn)營人員根據(jù)經(jīng)驗(yàn)判斷文章屬于那一類別。這種方法的缺陷有兩個(gè):
1、需要耗費(fèi)巨大的人力成本。對(duì)于加入的每一個(gè)新文章,尤其是即時(shí)性很強(qiáng)的新聞?lì)愇恼?,運(yùn)營人員需要快速閱讀該文章,然后將其歸類到已有類別。
2、效率低、成本高,對(duì)于專業(yè)性很強(qiáng)的文章需要專業(yè)人員來判斷。依靠人工來一篇一篇?dú)w類,效率低;并且對(duì)于專業(yè)性很強(qiáng)的文章,例如經(jīng)濟(jì)、理財(cái)、投資等新聞,內(nèi)容很相似,需要專業(yè)人員來判斷才能保證正確分類,這會(huì)帶來高成本。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種給文章標(biāo)注標(biāo)簽的方法和裝置,以改善上述問題。
本發(fā)明實(shí)施例提供了一種給文章標(biāo)注標(biāo)簽的方法,其包括:
從已有文章資源庫里的所有文章里提取出多個(gè)關(guān)鍵詞,建立關(guān)鍵詞庫,該關(guān)鍵詞庫包括但不限于:多個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞在已有文章資源庫里的每篇文章里出現(xiàn)的詞頻;
確定所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)預(yù)先已建立的標(biāo)簽庫里的每個(gè)標(biāo)簽的第一權(quán)重;
基于獲得的所述第一權(quán)重和所述每個(gè)關(guān)鍵詞的詞頻確定所述標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的第二權(quán)重;
基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
本發(fā)明實(shí)施例還提供一種給文章標(biāo)注標(biāo)簽的裝置,其包括:
關(guān)鍵詞庫建立單元,用于從已有文章資源庫里的所有文章里提取出多個(gè)關(guān)鍵詞,建立關(guān)鍵詞庫,該關(guān)鍵詞庫包括但不限于:多個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞在已有文章資源庫里的每篇文章里出現(xiàn)的詞頻;
第一權(quán)重確定單元,用于確定所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)預(yù)先已建立的標(biāo)簽庫里的每個(gè)標(biāo)簽的第一權(quán)重;
第二權(quán)重確定單元,用于基于獲得的所述第一權(quán)重和所述每個(gè)關(guān)鍵詞的詞頻確定所述標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的第二權(quán)重;
標(biāo)簽標(biāo)注單元,用于基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
其中,建立關(guān)鍵詞庫的過程包括:
首先,使用分詞技術(shù)從已有文章資源庫里的所有文章里提取出多個(gè)分詞詞語,建立分詞詞語庫;
接著,確定分詞詞語庫里的每個(gè)分詞詞語的分辨率:
其中:
si表示分詞詞語i的分辨率;
θ為自定義的一個(gè)小數(shù);
pl,i表示分詞詞語庫里的分詞詞語i在已有文章資源庫里的文章l中的詞頻,如果分詞詞語i沒有出現(xiàn)在文章l中則pl,i=0;
|l|表示已有文章資源庫里的所有文章的總數(shù)量;
pct([pl,i]l∈l,θ,1)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在θ分位到最后1位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
pct([pl,i]l∈l,0,θ)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在第1位到第θ分位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
l表示已有文章資源庫里的所有文章的集合;
最后,根據(jù)所述分辨率按預(yù)設(shè)方式選取一定數(shù)量的詞語作為多個(gè)關(guān)鍵詞。
其中,確定所述第一權(quán)重的方法如下:
其中:
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w時(shí)twt,w為0;
pltl,t表示標(biāo)簽庫里的標(biāo)簽t在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
|l|表示已有文章資源庫里的所有文章的總數(shù)量;
l表示已有文章資源庫里的所有文章的集合。
其中,確定所述標(biāo)簽對(duì)文章的第二權(quán)重的方法如下:
其中:
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w則twt,w為0;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
n為關(guān)鍵詞庫里的關(guān)鍵詞的總數(shù)量。
優(yōu)選的,對(duì)所述標(biāo)簽對(duì)文章的第二權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理以獲得所述標(biāo)簽對(duì)文章的相對(duì)第二權(quán)重,方法如下:
其中:
lpcl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的相對(duì)第二權(quán)重;
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
優(yōu)選的,基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上的過程包括:根據(jù)第二權(quán)重的大小順序選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上,或者選擇大于預(yù)設(shè)閾值的1個(gè)或多個(gè)第二權(quán)重所對(duì)應(yīng)的1個(gè)或多個(gè)標(biāo)簽給相應(yīng)的文章標(biāo)注上。
根據(jù)本發(fā)明的一種給文章標(biāo)注標(biāo)簽的方法和裝置,通過建立標(biāo)簽庫里的標(biāo)簽與文章之間的關(guān)聯(lián)性,能夠?qū)崿F(xiàn)對(duì)來自外部數(shù)據(jù)源的新文章或者沒有標(biāo)簽的文章自動(dòng)標(biāo)注上合適的標(biāo)簽,每個(gè)標(biāo)簽代表一個(gè)分類,或者多個(gè)標(biāo)簽指向一個(gè)分類,由此可以節(jié)省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低運(yùn)營成本。
附圖說明
圖1是本發(fā)明實(shí)施例提供的給文章標(biāo)注標(biāo)簽的方法的流程圖;
圖2是本發(fā)明實(shí)施例提供的給文章標(biāo)注標(biāo)簽的裝置的示意性框圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例和附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計(jì)。因此,以下對(duì)在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
圖1是本發(fā)明實(shí)施例提供的給文章標(biāo)注標(biāo)簽的方法的流程圖。如圖1所示,本發(fā)明的給文章標(biāo)注標(biāo)簽的方法包括以下步驟:
s1:從已有文章資源庫里的所有文章里提取出多個(gè)關(guān)鍵詞,建立關(guān)鍵詞庫,該關(guān)鍵詞庫包括但不限于:多個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞在已有文章資源庫里的每篇文章里出現(xiàn)的詞頻。
提供用于在電子產(chǎn)品上進(jìn)行文章閱讀的網(wǎng)絡(luò)服務(wù)商都會(huì)在服務(wù)器上建立文章資源庫,以供用戶使用計(jì)算機(jī)或智能終端等電子產(chǎn)品在線閱讀或者下載到終端上閱讀。這里所述的文章泛指各種可以進(jìn)行文字閱讀的書籍,包括但不限于:各種類型的小說、論文、期刊、各類學(xué)科的教科書、用于考試的各類輔導(dǎo)書、習(xí)題集等等。另外,為了管理方便,服務(wù)商也可以為建立多個(gè)文章資源庫,例如針對(duì)小說類建立小說書籍資源庫,針對(duì)論文和期刊等建立期刊資源庫,針對(duì)教科書、輔導(dǎo)書和習(xí)題集等書籍建立專門的資源庫,針對(duì)新聞資訊等文章建立資源庫,這些可以根據(jù)資源管理策略由服務(wù)商自行制定,而不在本發(fā)明的討論范圍之內(nèi),這里統(tǒng)一稱為文章資源庫。
為了能夠給文章自動(dòng)標(biāo)上標(biāo)簽,首先需要從已有文章資源庫里的所有文章里提取出多個(gè)關(guān)鍵詞,建立關(guān)鍵詞庫。實(shí)現(xiàn)這一步驟的具體方法如下:
首先,使用分詞技術(shù)從已有文章資源庫里的所有文章里提取出多個(gè)分詞詞語,建立分詞詞語庫。
如上所述,在提供電子閱讀的多個(gè)第三方應(yīng)用的服務(wù)商都會(huì)在服務(wù)器上預(yù)先建立文章資源庫,在資源庫里保存所有文章,這是本領(lǐng)域技術(shù)人員常用方法,這里不多贅述。采用公知的任何分詞技術(shù)來對(duì)已有文章資源庫里的每一篇文章提取出多個(gè)分詞詞語,對(duì)這些分詞詞語建立分詞詞語庫。該分詞詞語庫可以包括但不限于:1、每個(gè)分詞詞語與每篇文章的關(guān)聯(lián)性,即每個(gè)分詞詞語都來自于哪些文章;2、每個(gè)分詞詞語在每篇文章里的詞頻。
接著,確定分詞詞語庫里的每個(gè)分詞詞語的分辨率:
其中:
si表示分詞詞語i的分辨率;
θ為自定義的一個(gè)小數(shù),在實(shí)踐中根據(jù)標(biāo)簽的數(shù)量取值為
|t|表示已有標(biāo)簽庫里的所有標(biāo)簽的總數(shù)量;
pl,i表示分詞詞語庫里的分詞詞語i在已有文章資源庫里的文章l中的詞頻,如果分詞詞語i沒有出現(xiàn)在文章l中則pl,i=0;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
設(shè)p為一實(shí)數(shù)數(shù)組,α和β為[0,1]的實(shí)數(shù),其中α<β,定義函數(shù)pct(p,α,β)表示對(duì)數(shù)組p的元素按數(shù)值大小做降序排序,對(duì)排名在α分位到β分位之間的多個(gè)元素的數(shù)值進(jìn)行累加求和。注意:因?yàn)?≤α<β≤1,所以α和β的取值位數(shù)要小于數(shù)組元素的數(shù)量,例如數(shù)組元素的數(shù)量為1000,α和β的取值位數(shù)小于4位,即小數(shù)點(diǎn)后面只能取1-3位的位數(shù)。在執(zhí)行分位時(shí)需要先將α和β擴(kuò)大10n倍以整數(shù)化,n根據(jù)α和β的位數(shù)取值,然后從按元素?cái)?shù)值大小降序排序的數(shù)組元素中選取α*10n的位置到β*10n的位置之間的多個(gè)元素?cái)?shù)值,然后累加求和。例如,函數(shù)pct(p,α,β),數(shù)值p的元素有1萬個(gè),α=0.324,β=0.8792,則α*103=324,β*104=8792,這樣從按元素?cái)?shù)值大小降序排列的1到1萬個(gè)數(shù)組元素里選取第324位置上的元素-第8792位置上的8469個(gè)元素,對(duì)這8469個(gè)元素的數(shù)值進(jìn)行累加求和。
由上述可知:
pct([pl,i]l∈l,θ,1)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在θ分位到最后1位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
pct([pl,i]l∈l,0,θ)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在第1位到第θ分位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
l表示已有文章資源庫里的所有文章的集合,所以l∈l表示所計(jì)算的文章l是屬于已有文章資源庫里的文章。
下面以一個(gè)具體實(shí)例來解釋函數(shù)pct(p,α,β)的定義。
假設(shè)pct([0,1,3,2,5],0.2,1),首先對(duì)數(shù)組[0,1,3,2,5]的元素按數(shù)值大小做降序排序,降序排列后為[5,3,2,1,0],則排名在0.2分位的元素位置是0.2*10=2,即第2位的元素3,整數(shù)1分位的元素位置則為最后1位,即第5位的元素0,那么pct([0,1,3,2,5],0.2,1)=3+2+1+0=6。
最后,根據(jù)所述分辨率按預(yù)設(shè)方式選取一定數(shù)量的詞語作為多個(gè)關(guān)鍵詞。這樣,針對(duì)這些選取出的多個(gè)關(guān)鍵詞就可以建立關(guān)鍵詞庫了。當(dāng)然,選取的多個(gè)關(guān)鍵詞是來自于所述分詞詞語庫,所以建立的關(guān)鍵詞庫里包含的內(nèi)容與所述分詞詞語庫包含的內(nèi)容一樣,包括但不限于:1、每個(gè)關(guān)鍵詞與每篇文章的關(guān)聯(lián)性,即每個(gè)關(guān)鍵詞都來自于哪些文章;2、每個(gè)關(guān)鍵詞在每篇文章里的詞頻。另外,根據(jù)所述分辨率按預(yù)設(shè)方式選取一定數(shù)量的詞語作為多個(gè)關(guān)鍵詞的優(yōu)選方式包括:根據(jù)所述分辨率的大小順序選取一定數(shù)量的分詞詞語作為多個(gè)關(guān)鍵詞,或者從大于或等于預(yù)設(shè)閾值的分辨率所對(duì)應(yīng)的分詞詞語里隨機(jī)選取或者按順序一定數(shù)量的分詞詞語作為多個(gè)關(guān)鍵詞。
這里所述的分詞詞語i的分辨率si是用于表述分詞詞語i對(duì)于劃分文章主題的能力,分辨率的值越高,其劃分能力越強(qiáng)。例如:“考研”這個(gè)詞直接關(guān)聯(lián)“研究生考試”主題,而“學(xué)習(xí)”不能明確指向一個(gè)主題,那么“考研”的分辨率高于“學(xué)習(xí)”。
所述詞頻(tf)為本領(lǐng)域的通用術(shù)語,即在一篇給定的文章里,詞頻(tf)指的是某一個(gè)給定的詞語在該文章中出現(xiàn)的次數(shù)。
該第一步驟的目的選取熱門詞語作為關(guān)鍵詞,而標(biāo)簽內(nèi)容也都屬于熱門的關(guān)鍵詞,這樣為執(zhí)行下一步驟做好了鋪墊。選取的關(guān)鍵詞數(shù)量可以根據(jù)實(shí)踐需要而定。這里采用的方式是根據(jù)文章資源庫里的文章數(shù)量而定,按文章數(shù)量的一定百分比來選取關(guān)鍵詞。例如,當(dāng)文章數(shù)量達(dá)到千萬數(shù)量級(jí)時(shí),可以選取10萬左右個(gè)關(guān)鍵詞??梢詫⑦x取的多個(gè)關(guān)鍵詞建立關(guān)鍵詞庫或是關(guān)鍵詞列表等。這里以關(guān)鍵詞庫為例來進(jìn)行說明。
上面還提到了已有標(biāo)簽庫,要想實(shí)現(xiàn)給文章標(biāo)注標(biāo)簽,無論是自動(dòng)標(biāo)注還是人工標(biāo)注,都需要預(yù)先建立標(biāo)簽庫,這樣才能實(shí)現(xiàn)標(biāo)注的標(biāo)簽標(biāo)準(zhǔn)化。所述標(biāo)簽庫里的每個(gè)標(biāo)簽為指向某一主題的關(guān)鍵詞語,例如“考研”、“炒股”等。而建立文章的標(biāo)簽庫,可以采用任何公知的方法,例如采用運(yùn)營人員根據(jù)經(jīng)驗(yàn)提煉出的多個(gè)標(biāo)簽的方式來建立標(biāo)簽庫;或者采用市面上已經(jīng)有的文章標(biāo)簽的方式來建立標(biāo)簽庫;還可以采用同行業(yè)者共同商討建立統(tǒng)一的文章標(biāo)簽庫的方式來來建立標(biāo)簽庫,當(dāng)然也可以是這幾種方式的恰當(dāng)組合來建立標(biāo)簽庫,優(yōu)選是由同行業(yè)者共同商討建立統(tǒng)一的文章標(biāo)簽庫。
s2:確定所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)預(yù)先已建立的標(biāo)簽庫里的每個(gè)標(biāo)簽的第一權(quán)重。
在建立了關(guān)鍵詞庫后,接著需要確定所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)預(yù)先已建立的標(biāo)簽庫里的每個(gè)標(biāo)簽的權(quán)重,這里命名為第一權(quán)重,確定所述第一權(quán)重的方法如下:
其中:
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w時(shí)twt,w為0;
pltl,t表示標(biāo)簽庫里的標(biāo)簽t在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
l表示已有文章資源庫里的所有文章的集合,所以l∈l表示所述文章l是屬于已有文章資源庫里的文章,∑l∈l(pltl,t·plwl,w)表示計(jì)算已有文章資源庫里的所有文章的(pltl,t·plwl,w)值并且對(duì)這些值累加求和,也可以寫成
這樣,以關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重以紐帶,為下一步建立標(biāo)簽與文章的關(guān)聯(lián)性做好鋪墊。
s3:基于獲得的所述第一權(quán)重和所述每個(gè)關(guān)鍵詞的詞頻,確定所述標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的第二權(quán)重。
統(tǒng)計(jì)每個(gè)關(guān)鍵詞在所述已有文章資源庫里的每篇文章里出現(xiàn)的詞頻,這在建立關(guān)鍵詞庫時(shí)就已經(jīng)統(tǒng)計(jì)完成并且保存在關(guān)鍵詞庫里。例如,在一篇介紹股票買賣的文章a里,詞語“炒股”在該文章里出現(xiàn)20次,則詞語“炒股”在文章a里出現(xiàn)的詞頻為20。
這樣,利用獲得的所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)每個(gè)標(biāo)簽的第一權(quán)重以及所述記錄的每個(gè)關(guān)鍵詞在文章資源庫里的每篇文章里出現(xiàn)的詞頻,確定所述標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的權(quán)重,命名為第二權(quán)重,確定所述標(biāo)簽對(duì)文章的第二權(quán)重的方法如下:
其中:
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w則twt,w為0;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
n為關(guān)鍵詞庫里的關(guān)鍵詞的總數(shù)量。
s4:基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
在得到預(yù)先已建立的標(biāo)簽庫中的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的第二權(quán)重后,基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。優(yōu)選的,根據(jù)第二權(quán)重的大小順序選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。例如,在得到標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)一篇文章a的第二權(quán)重后,按照第二權(quán)重從大到小順序選取一定數(shù)量的標(biāo)簽,例如選取排名在前1-3個(gè)或1-5個(gè)標(biāo)簽給這篇文章a標(biāo)注上?;蛘撸€可以預(yù)先設(shè)定一個(gè)閾值,選擇大于該預(yù)設(shè)閾值的1個(gè)或多個(gè)第二權(quán)重所對(duì)應(yīng)的1個(gè)或多個(gè)標(biāo)簽給相應(yīng)的文章標(biāo)注上。
在一個(gè)優(yōu)選實(shí)施例中,為了使獲得的標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)每篇文章的第二權(quán)重放在同一量綱上進(jìn)行比較大小,以使比較結(jié)果更準(zhǔn)確,可以對(duì)所述標(biāo)簽對(duì)文章的第二權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理以獲得所述標(biāo)簽對(duì)文章的相對(duì)第二權(quán)重,方法如下:
其中:
lpcl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的相對(duì)第二權(quán)重;
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
所以,
在得到所述相對(duì)第二權(quán)重后,基于所獲得的相對(duì)第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
在一個(gè)優(yōu)選實(shí)施例中,所述文章資源庫的文章優(yōu)選為主題性強(qiáng)的文章,例如:新聞?lì)愇恼?、論文類文章、描述類文?例如應(yīng)用商店應(yīng)用描述文章)。
根據(jù)本發(fā)明的一種給文章標(biāo)注標(biāo)簽的方法,通過建立標(biāo)簽庫里的標(biāo)簽與文章之間的關(guān)聯(lián)性,能夠?qū)崿F(xiàn)對(duì)來自外部數(shù)據(jù)源的新文章或者沒有標(biāo)簽的文章自動(dòng)標(biāo)注上合適的標(biāo)簽,每個(gè)標(biāo)簽代表一個(gè)分類,或者多個(gè)標(biāo)簽指向一個(gè)分類,由此可以節(jié)省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低運(yùn)營成本。
圖2是本發(fā)明實(shí)施例提供的給文章標(biāo)注標(biāo)簽的裝置的示意性框圖。如圖2所示,本發(fā)明的給文章標(biāo)注標(biāo)簽的裝置包括:
關(guān)鍵詞庫建立單元,用于從已有文章資源庫里的所有文章里提取出多個(gè)關(guān)鍵詞,建立關(guān)鍵詞庫,該關(guān)鍵詞庫包括但不限于:多個(gè)關(guān)鍵詞,每個(gè)關(guān)鍵詞在已有文章資源庫里的每篇文章里出現(xiàn)的詞頻;
第一權(quán)重確定單元,用于確定所述關(guān)鍵詞庫里的每個(gè)關(guān)鍵詞對(duì)預(yù)先已建立的標(biāo)簽庫里的每個(gè)標(biāo)簽的第一權(quán)重;
第二權(quán)重確定單元,用于基于獲得的所述第一權(quán)重和所述每個(gè)關(guān)鍵詞的詞頻確定所述標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)已有文章資源庫里的每篇文章的第二權(quán)重;
標(biāo)簽標(biāo)注單元,用于基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
其中,所述關(guān)鍵詞庫建立單元建立關(guān)鍵詞庫的具體方法如下:
首先,使用分詞技術(shù)從已有文章資源庫里的所有文章里提取出多個(gè)分詞詞語,建立分詞詞語庫;
接著,確定分詞詞語庫里的每個(gè)分詞詞語的分辨率:
其中:
si表示分詞詞語i的分辨率;
θ為自定義的一個(gè)小數(shù),在實(shí)踐中根據(jù)標(biāo)簽的數(shù)量取值為
|t|表示已有標(biāo)簽庫里的所有標(biāo)簽的總數(shù)量;
pl,i表示分詞詞語庫里的分詞詞語i在已有文章資源庫里的文章l中的詞頻,如果分詞詞語i沒有出現(xiàn)在文章l中則pl,i=0;
|l|表示已有文章資源庫里的所有文章的總數(shù)量;
pct([pl,i]l∈l,θ,1)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在θ分位到最后1位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
pct([pl,i]l∈l,0,θ)表示將數(shù)組pl里的元素按數(shù)值大小做降序排列并且對(duì)排名在第1位到第θ分位的多個(gè)元素?cái)?shù)值進(jìn)行累加求和;
l表示已有文章資源庫里的所有文章的集合;
最后,根據(jù)所述分辨率按預(yù)設(shè)方式選取一定數(shù)量的詞語作為多個(gè)關(guān)鍵詞。
其中,所述第一權(quán)重確定單元用于確定所述第一權(quán)重的方法如下:
其中:
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w時(shí)twt,w為0;
pltl,t表示標(biāo)簽庫里的標(biāo)簽t在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
l表示已有文章資源庫里的所有文章的集合,所以l∈l表示所述文章l是屬于已有文章資源庫里的文章,∑l∈l(pltl,t·plwl,w)表示計(jì)算已有文章資源庫里的所有文章的(pltl,t·plwl,w)值并且對(duì)這些值累加求和,也可以寫成
其中,所述第二權(quán)重確定單元用于確定標(biāo)簽對(duì)文章的第二權(quán)重的方法如下:
其中:
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
twt,w表示關(guān)鍵詞庫里的關(guān)鍵詞w對(duì)預(yù)先已建立的標(biāo)簽庫里的標(biāo)簽t的第一權(quán)重,如果標(biāo)簽t的文字內(nèi)容里沒有關(guān)鍵詞w則twt,w為0;
plwl,w表示關(guān)鍵詞庫里的關(guān)鍵詞w在已有文章資源庫里的文章l里出現(xiàn)的詞頻;
n為關(guān)鍵詞庫里的關(guān)鍵詞的總數(shù)量。
其中,標(biāo)簽標(biāo)注單元基于所獲得的第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上的優(yōu)選方式包括:根據(jù)第二權(quán)重的大小順序選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上;或者,還可以預(yù)先設(shè)定一個(gè)閾值,選擇大于該預(yù)設(shè)閾值的1個(gè)或多個(gè)第二權(quán)重所對(duì)應(yīng)的1個(gè)或多個(gè)標(biāo)簽給相應(yīng)的文章標(biāo)注上。例如,在得到標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)一篇文章a的第二權(quán)重后,按照第二權(quán)重從大到小順序選取一定數(shù)量的標(biāo)簽,例如選取排名在前1-3個(gè)或1-5個(gè)標(biāo)簽給這篇文章a標(biāo)注上。或者,還可以預(yù)先設(shè)定一個(gè)閾值,選擇大于該預(yù)設(shè)閾值的1個(gè)或多個(gè)第二權(quán)重所對(duì)應(yīng)的1個(gè)或多個(gè)標(biāo)簽給相應(yīng)的文章標(biāo)注上。
在一個(gè)優(yōu)選實(shí)施例中,為了使獲得的標(biāo)簽庫里的每個(gè)標(biāo)簽對(duì)每篇文章的第二權(quán)重放在同一量綱上進(jìn)行比較大小,以使比較結(jié)果更準(zhǔn)確,本發(fā)明的給文章標(biāo)注標(biāo)簽的裝置還可以包括:相對(duì)第二權(quán)重確定單元(圖中未示出),用于對(duì)所述標(biāo)簽對(duì)文章的第二權(quán)重進(jìn)行標(biāo)準(zhǔn)化處理以獲得所述標(biāo)簽對(duì)文章的相對(duì)第二權(quán)重,過程如下:
其中:
lpcl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的相對(duì)第二權(quán)重;
lpl,t表示預(yù)先已建立的標(biāo)簽庫中的標(biāo)簽t對(duì)已有文章資源庫里的文章l的第二權(quán)重;
|l|表示已有文章資源庫里的所有文章的總數(shù)量。
所以,
在得到所述相對(duì)第二權(quán)重后,所述標(biāo)簽標(biāo)注單元基于所獲得的相對(duì)第二權(quán)重按預(yù)定方式選取一定數(shù)量的標(biāo)簽給相應(yīng)的文章標(biāo)注上。
在一個(gè)優(yōu)選實(shí)施例中,所述文章資源庫的文章優(yōu)選為主題性強(qiáng)的文章,例如:新聞?lì)愇恼隆⒄撐念愇恼?、描述類文?例如應(yīng)用商店應(yīng)用描述文章)。
當(dāng)然,本領(lǐng)域技術(shù)人員都知道,所述標(biāo)簽對(duì)文章的相對(duì)第二權(quán)重也可以由第二權(quán)重確定單元執(zhí)行,不是必須由單獨(dú)的相對(duì)第二權(quán)重確定單元來執(zhí)行。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,前述方法實(shí)施例中列舉的例子和相關(guān)描述,同樣適用于解釋裝置的工作過程,在此不再重復(fù)描述。
根據(jù)本發(fā)明的一種給文章標(biāo)注標(biāo)簽的裝置,通過建立標(biāo)簽庫里的標(biāo)簽與文章之間的關(guān)聯(lián)性,能夠?qū)崿F(xiàn)對(duì)來自外部數(shù)據(jù)源的新文章或者沒有標(biāo)簽的文章自動(dòng)標(biāo)注上合適的標(biāo)簽,每個(gè)標(biāo)簽代表一個(gè)分類,或者多個(gè)標(biāo)簽指向一個(gè)分類,由此可以節(jié)省巨大的人力成本、使人工操作的低效率得到大幅度提升、大大降低運(yùn)營成本。
本發(fā)明實(shí)施例所提供的給文章標(biāo)注標(biāo)簽的方法的計(jì)算機(jī)程序產(chǎn)品,包括存儲(chǔ)了程序代碼的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。基于這樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),智能平板電腦,智能手機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、移動(dòng)硬盤、只讀存儲(chǔ)器(rom)、隨機(jī)存取存儲(chǔ)器(ram)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以所述權(quán)利要求的保護(hù)范圍為準(zhǔn)。