本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種信息推薦方法及裝置。
背景技術(shù):
現(xiàn)在,化妝是一種潮流時尚,很多的職場女性或者出去約會的女生都需要化妝,化妝可以美化容貌、增加女性氣質(zhì),可以說,化妝是現(xiàn)在女性生活中必不可少的一件事情。
如何畫一個精致又適合自己的妝容是很多美妝女性需要學(xué)習(xí)的內(nèi)容,為此,很多女性用戶會在互聯(lián)網(wǎng)上搜索和閱讀美妝教程類的相關(guān)文章,以提高自己的化妝水平。但是,對于大數(shù)據(jù)時代,若要用戶自己從魚龍混雜的互聯(lián)網(wǎng)檢索出想要的文章,需要花費大量的時間和精力,檢索效率低、獲取成本較高。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種信息推薦方法及裝置,以解決現(xiàn)有美妝類教學(xué)文章獲取途徑繁雜、獲取效率低的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明實施例提供以下技術(shù)方案:
一種信息推薦方法,包括:
獲取候選文章集、以及所述候選文章集中每一候選文章的標(biāo)題信息;
根據(jù)所述候選文章集和標(biāo)題信息確定候選詞集;
根據(jù)所述候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,所述候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章;
根據(jù)所述候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫;
基于所述推薦數(shù)據(jù)庫向用戶推薦信息。
為解決上述技術(shù)問題,本發(fā)明實施例還提供以下技術(shù)方案:
一種信息推薦裝置,包括:
獲取模塊,用于獲取候選文章集、以及所述候選文章集中每一候選文章的標(biāo)題信息;
確定模塊,用于根據(jù)所述候選文章集和標(biāo)題信息確定候選詞集;
生成模塊,用于根據(jù)所述候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,所述候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章;
建立模塊,用于根據(jù)所述候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫;
推薦模塊,用于基于所述推薦數(shù)據(jù)庫向用戶推薦信息。
本發(fā)明所述的信息推薦方法及裝置,通過獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息,并根據(jù)該候選文章集和標(biāo)題信息確定候選詞集,之后,根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章,之后,根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫,并基于該推薦數(shù)據(jù)庫向用戶推薦信息,從而無需用戶進行海量檢索即可得到感興趣的文章,方法簡單、獲取效率高。
附圖說明
下面結(jié)合附圖,通過對本發(fā)明的具體實施方式詳細描述,將使本發(fā)明的技術(shù)方案及其它有益效果顯而易見。
圖1為本發(fā)明實施例提供的信息推薦方法的流程示意圖;
圖2a為本發(fā)明實施例提供的信息推薦方法的流程示意圖;
圖2b為本發(fā)明實施例提供的步驟s204的流程示意圖;
圖2c為本發(fā)明實施例提供的候選標(biāo)簽的推薦流程示意圖;
圖2d為本發(fā)明實施例提供的候選文章的推薦流程示意圖;
圖3a為本發(fā)明實施例提供的信息推薦裝置的結(jié)構(gòu)示意圖;
圖3b為本發(fā)明實施例提供的生成模塊的結(jié)構(gòu)示意圖;
圖3c為本發(fā)明實施例提供的建立模塊的結(jié)構(gòu)示意圖;
圖4本發(fā)明實施例提供的服務(wù)器的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
本發(fā)明實施例提供一種信息推薦方法和裝置。以下分別進行詳細說明。需說明的是,以下實施例的編號并不作為對實施例優(yōu)選順序的限定。
第一實施例
本實施例將從信息推薦裝置的角度進行描述,該信息推薦裝置具體可以作為獨立的實體來實現(xiàn),也可以集成在其他的設(shè)備,比如服務(wù)器中來實現(xiàn),該服務(wù)器可以是應(yīng)用服務(wù)器。
一種信息推薦方法,包括:獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息,并根據(jù)該候選文章集和標(biāo)題信息確定候選詞集,之后,根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組集,每一候選詞對應(yīng)一個候選標(biāo)簽組,每一候選標(biāo)簽對應(yīng)至少一篇候選文章,之后,根據(jù)該候選詞集、候選標(biāo)簽組集和候選文章集建立推薦數(shù)據(jù)庫,并基于該推薦數(shù)據(jù)庫向用戶推薦信息。
如圖1所示,該信息推薦方法的具體流程可以如下:
s101、獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息。
本實施例中,該候選文章集包括至少一篇候選文章,該候選文章主要包括指定領(lǐng)域(比如美妝領(lǐng)域)的講述類文章,這些講述類文章可以是直接從網(wǎng)絡(luò)下載的,也可以是本地存儲的。該講述類文章是指具有連續(xù)講述步驟的文章,其包括字符和圖像,每一字符包括漢字、字母或數(shù)字。每個講述步驟是一個字符段落,一個圖像也是一個段落,且每個講述步驟都配有相應(yīng)的圖像。每一候選文章可以包括標(biāo)題信息和正文內(nèi)容,通常,該標(biāo)題信息用于概括正文內(nèi)容所描述的主題,其主要包括字符,該正文內(nèi)容可以包括字符和圖像。
s102、根據(jù)該候選文章集和標(biāo)題信息確定候選詞集。
例如,上述步驟s102具體可以包括:
1-1、對該候選文章集中每一候選文章進行分詞處理,得到詞集。
本實施例中,該詞集包括至少一個詞,每一個詞包括至少兩個字符。具體可以通過分詞技術(shù),比如基于字典、詞庫匹配的分詞法(字符串匹配法),或者基于知識理解的分詞法(語義分詞法),或者基于詞頻度統(tǒng)計的分詞法(統(tǒng)計分詞法)等,對整個候選文章進行處理,得到每一侯選文章所包含的所有詞。
1-2、利用預(yù)設(shè)算法對該詞集進行篩選操作,得到篩選后詞集。
本實施例中,該篩選后詞集包括至少一個詞,該預(yù)設(shè)算法可以根據(jù)需求而定,比如可以是tf-idf(termfrequency–inversedocumentfrequency)算法,主要用于評估單個詞對候選文章集的重要程度,具體可以結(jié)合單個詞的出現(xiàn)頻次和權(quán)重系數(shù)來計算重要程度,重要程度滿足指定值的詞可以存儲在篩選后詞集中。該出現(xiàn)頻次主要指單個詞的出現(xiàn)次數(shù),該權(quán)重系數(shù)主要針對常見詞和非常見詞而設(shè)定的,通常,越常見的詞設(shè)置的權(quán)重系數(shù)越小,比如對于“的”、“是”或者“在”等這種常見詞,權(quán)重系數(shù)可以很小,對于“眼霜”這種非常見詞,權(quán)重系數(shù)可以很大。
1-3、根據(jù)該篩選后詞集和標(biāo)題信息確定候選詞集。
例如,上述步驟1-3具體可以包括:
計算該篩選后詞集中每一詞在該標(biāo)題信息中出現(xiàn)的總次數(shù);
將總次數(shù)大于第一預(yù)設(shè)閥值的詞確定為候選詞,并添入候選詞集。
本實施例中,該候選詞集包括至少一個候選詞,每一候選詞主要是名詞,也即表示名稱的字符組合,比如眼霜、眼影或者bb霜等。該第一預(yù)設(shè)閾值可以根據(jù)候選文章集中候選文章的總量而定,比如可以是候選文章總數(shù)量的萬分之一,主要用于過濾一些不常用的詞,得到符合大多數(shù)用戶用語習(xí)慣的詞。
s103、根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章。
本實施例中,該侯選標(biāo)簽組包括至少一個候選標(biāo)簽,每一侯選標(biāo)簽都是從標(biāo)題信息中提煉出來的內(nèi)容,通常都簡明扼要的指示出候選文章的撰寫意圖,比如指示該候選文章是用來介紹某個產(chǎn)品性能的,還是用來介紹該產(chǎn)品是怎樣使用的,或者是用來介紹該產(chǎn)品的制作工藝,等等,每一侯選標(biāo)簽一般都是一個短句,其字數(shù)少于標(biāo)題信息所包含的字數(shù)。
例如,上述步驟s103具體可以包括:
2-1、根據(jù)該候選詞集和標(biāo)題信息對該候選文章集進行分組,得到待處理文章組,每一候選詞對應(yīng)一個待處理文章組。
本實施例中,每一待處理文章組包括至少一篇候選文章。
例如,上述步驟2-1具體可以包括:
將每一候選文章的標(biāo)題信息與該候選詞集中的候選詞進行匹配;
將與同一候選詞匹配成功的所有候選文章歸為同一組,得到待處理文章組。
本實施例中,由于標(biāo)題信息可以反映文章主題,而候選詞又是從標(biāo)題信息中提取出來的詞,故可以根據(jù)候選詞對候選文章進行分組,將標(biāo)題信息中具有同一候選詞的候選文章劃分為同一待處理文章組,從而可使劃分到同一待處理文章組的候選文章都具有相同的主題。需要說明的是,由于有些標(biāo)題信息可能存在兩個候選詞,故待處理文章組和待處理文章組之間可能存在相同的候選文章。
2-2、根據(jù)該待處理文章組中待處理文章的標(biāo)題信息和對應(yīng)的候選詞生成候選標(biāo)簽,并添入候選標(biāo)簽組。
本實施例中,由于每篇候選文章所要介紹的內(nèi)容一般都體現(xiàn)在標(biāo)題信息中,而每個候選詞又是從標(biāo)題信息中提取出來的關(guān)鍵詞,故可以根據(jù)標(biāo)題信息中圍繞該候選詞展開的短語來準(zhǔn)確推測出該候選文章的撰寫意圖,也即生成候選標(biāo)簽。
例如,以任一待處理文章組為例,上述步驟2-2具體可以包括:
2-2-1、對該待處理文章組中每一候選文章的標(biāo)題信息進行語法分析,得到詞性信息。
本實施例中,可以通過語法分析器來對標(biāo)題信息進行語法分析,具體可以通過自上而下語法分析方法或者自下而上語法分析方法來實現(xiàn)。該詞性信息是指以詞的特點,比如以語法特征(包括句法功能和形態(tài)變化)為主要依據(jù),兼顧詞匯意義對詞進行劃分得到的,該詞性信息可以包括動詞、形容詞、名詞和介詞等等。
2-2-2、獲取該候選詞在標(biāo)題信息中出現(xiàn)的位置信息。
本實施例中,經(jīng)由語法分析后的標(biāo)題信息可以表現(xiàn)為多個按序排列的詞,該候選詞在該標(biāo)題信息中的排列位置即為該位置信息。
2-2-3、根據(jù)該候選詞、位置信息、詞性信息和標(biāo)題信息生成候選標(biāo)簽,并添入候選標(biāo)簽組。
例如,上述步驟2-2-3具體可以包括:
根據(jù)該位置信息和詞性信息,按照預(yù)設(shè)規(guī)則從該待處理文章組的每一標(biāo)題信息中確定目標(biāo)詞組,每一標(biāo)題信息對應(yīng)一個目標(biāo)詞組,每一目標(biāo)詞組包括至少一個目標(biāo)詞;
根據(jù)每一目標(biāo)詞組和對應(yīng)的候選詞生成候選標(biāo)簽,并添入候選標(biāo)簽組。
本實施例中,該目標(biāo)詞可以是動詞、形容詞以及名詞中的一種或者幾種。該預(yù)設(shè)規(guī)則可以根據(jù)需求而定,比如可以提取標(biāo)題信息中距離候選詞前后最近的動詞和/或形容詞,作為該標(biāo)題信息的目標(biāo)詞,得到目標(biāo)詞組,其大致可以包括以下五種提取方式:
a.動詞+形容詞+名詞{候選詞};
b.動詞+名詞{候選詞};
c.形容詞+名詞{候選詞}+動詞[可選非必須];
d.名詞{候選詞}+動詞+名詞[可選非必須];
f.名詞{候選詞}+形容詞;
當(dāng)通過合適的提取方式從標(biāo)題信息中提取出多個目標(biāo)詞時,應(yīng)按照原先的排列位置將目標(biāo)詞與對應(yīng)的候選詞組合,形成的短句就是候選標(biāo)簽。
需要說明的是,由于通過單個候選詞對文章進行分組時,每一待處理文章組中候選文章的數(shù)量會比較多,比如幾百至幾千篇,若直接對每個待處理文章組的標(biāo)題信息進行目標(biāo)詞組提取,有些標(biāo)題信息可能需要將以上幾種提取方式都進行一遍,才能找到對應(yīng)的提取方式,耗時長,同時,由于每種提取方式都傾向于某種話題類型的文章,比如提取方式a、b傾向于產(chǎn)品的制作方法,提取方式c傾向于產(chǎn)品的使用方法或產(chǎn)品性能介紹等,故可以先通過一些用于隱含話題挖掘的分類模型,比如文檔主題生成模型(latentdirichletallocation,lda),或概率隱語義分析模型(probabilisticlatentsemanticanalysis,plsa)等,對每一待處理文章組進行話題細分,比如將每一待處理文章組分成10個話題類別,然后針對每個話題類別選擇幾種最佳的提取方式優(yōu)先提取,從而能較快的提取出目標(biāo)詞組,大大提高了提取效率,加快了候選標(biāo)簽的生成速度。
s104、根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫。
例如,上述步驟s104具體可以包括:
3-1、將該候選文章集中具有相同候選標(biāo)簽的候選文章歸為一組,得到候選文章組,每一候選標(biāo)簽對應(yīng)一個候選文章組。
本實施例中,每一候選文章組包括至少一篇候選文章。當(dāng)根據(jù)候選標(biāo)簽對候選文章集進行分組得到候選文章組后,每一候選文章組中的候選文章具有一個相同的話題內(nèi)容,從而方便后續(xù)查找和推送對應(yīng)話題的候選文章。
3-2、建立該候選詞集中每一候選詞與候選標(biāo)簽組之間的關(guān)聯(lián),得到第一關(guān)聯(lián)關(guān)系。
本實施例中,該第一關(guān)聯(lián)關(guān)系可以包括候選詞、候選標(biāo)簽組、以及候選詞與候選標(biāo)簽組的對應(yīng)關(guān)系。
3-3、根據(jù)該候選標(biāo)簽組和候選文章組確定第二關(guān)聯(lián)關(guān)系。
本實施例中,可以直接將候選標(biāo)簽組、候選文章組、以及每一候選標(biāo)簽和候選文章組的對應(yīng)關(guān)系確定為第二關(guān)聯(lián)關(guān)系,這樣,后續(xù)根據(jù)候選標(biāo)簽向用戶推送的就是候選文章組。為確保每次只向用戶推送一篇候選文章,可以根據(jù)點擊量、轉(zhuǎn)發(fā)量或者發(fā)布時間等信息對每個候選文章組中的候選文章進行排序,按序每次獲取一篇候選文章進行推送。當(dāng)然,為節(jié)省每次推送所耗的流量,可以采取分段推送的方式,也即每次只推送文章的一小段而非全部,當(dāng)用戶需要往下閱讀的時候,才繼續(xù)推送下一段,當(dāng)用戶想換一篇文章時,可以按序切換到下一篇候選文章的第一段,從而能最大程度節(jié)省單次推送的流量,提高用戶體驗性。
例如,當(dāng)后續(xù)需要采取分段推送方式時,上述步驟3-3具體可以包括:
從該候選文章組中提取出每一候選文章所包含的段落,得到段落組,每一候選文章對應(yīng)一個段落組;
根據(jù)該段落組生成候選片段組,每一段落組對應(yīng)一個候選片段組;
建立每一候選標(biāo)簽和候選文章組之間、以及每一候選文章和候選片段組之間的關(guān)聯(lián),得到第二關(guān)聯(lián)關(guān)系。
本實施例中,每一段落組包括至少一個段落,該段落是從正文內(nèi)容中提取出來的,其可以是文字內(nèi)容或圖像內(nèi)容。該第二關(guān)聯(lián)關(guān)系可以包括候選標(biāo)簽、候選文章組、候選片段組、每一候選標(biāo)簽和候選文章組的對應(yīng)關(guān)系、以及每一候選文章與候選片段組的對應(yīng)關(guān)系。該候選片段可以根據(jù)候選文章所包含的段落生成,比如可以直接將每個段落作為一個候選片段,也可以將多個段落合并為一個候選片段,具體可以根據(jù)實際需求而定。
例如,上述步驟“根據(jù)每一段落組生成候選片段組”具體可以包括:
從每一段落組中獲取內(nèi)容是圖像的段落,作為目標(biāo)段落;
根據(jù)該目標(biāo)段落對該段落組進行調(diào)整;
將調(diào)整后段落組中的每一段落作為一個候選片段,得到候選片段組。
本實施例中,由于候選文章中的每個圖像都是一個段落,而有些圖像下面會附注有一兩句文字說明,這些附注說明通常也會以段落的形式呈現(xiàn),若將圖像與附注說明分開推送,難免會使推送內(nèi)容不緊湊,導(dǎo)致用戶閱讀體驗感差,因此,最好將該附注說明與圖像一起推送,也即,上述步驟“根據(jù)該目標(biāo)段落對該段落組進行調(diào)整”具體可以包括:
從該段落組中獲取與該目標(biāo)段落相鄰的下一個段落;
計算獲取的下一個段落的字數(shù);
將字數(shù)小于第二預(yù)設(shè)閥值的下一個段落合并到對應(yīng)的目標(biāo)段落中,以對該段落組進行調(diào)整。
本實施例中,該第二預(yù)設(shè)閥值可以根據(jù)實際需求而定,其主要用于區(qū)分該下一個段落是正常段落,還是與圖像有關(guān)的附注說明,比如該第二預(yù)設(shè)閥值可以是30。當(dāng)某個圖像的下一個段落的字數(shù)少于第二預(yù)設(shè)閥值時,可以推測該段落內(nèi)容是與圖像緊密相連的,也即是與圖像有關(guān)的附注說明,此時,可以將這兩個段落進行合并。
3-4、將該第一關(guān)聯(lián)關(guān)系和第二關(guān)聯(lián)關(guān)系存儲在推薦數(shù)據(jù)庫中。
本實施例中,該推薦數(shù)據(jù)庫可以根據(jù)實際需求而定,比如可以是用戶指定的某個存儲區(qū)域。
s105、基于該推薦數(shù)據(jù)庫向用戶推薦信息。
本實施例中,當(dāng)推薦數(shù)據(jù)庫建立好后,后續(xù)可以從該推薦數(shù)據(jù)庫中獲取對應(yīng)的數(shù)據(jù)向用戶推薦。
例如,上述步驟s105具體可以包括:
4-1、獲取信息推薦請求,該信息推薦請求攜帶檢索詞。
本實施例中,該檢索詞通常為單個詞或者詞組,其可以從指定接口獲取,比如可從應(yīng)用界面上的輸入框獲取,該輸入框主要用于為用戶提供文字輸入口。當(dāng)用戶在輸入框中輸入所需搜索的內(nèi)容時,點擊“完成”按鈕即可生成信息推薦請求。
4-2、根據(jù)該檢索詞和第一關(guān)聯(lián)關(guān)系從該推薦數(shù)據(jù)庫中確定可選標(biāo)簽組。
例如,上述步驟4-2具體可以包括:
將該檢索詞與候選詞集中的候選詞進行匹配;
若匹配成功,則根據(jù)該第一關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與匹配成功的候選詞對應(yīng)的候選標(biāo)簽組,作為可選標(biāo)簽組。
本實施例中,當(dāng)候選詞集中存儲有用戶輸入的檢索詞時,可以從推薦數(shù)據(jù)庫中查找到與該檢索詞對應(yīng)的候選標(biāo)簽組,作為向用戶推送的可選標(biāo)簽組,從而無需輸入過多的文字即推測出用戶推薦感興趣的話題(也即候選標(biāo)簽),簡化了用戶輸入,簡單方便。
4-3、根據(jù)該第二關(guān)聯(lián)關(guān)系和可選標(biāo)簽組從該推薦數(shù)據(jù)庫中確定目標(biāo)片段。
例如,上述步驟4-3具體可以包括:
4-3-1、向用戶發(fā)送該可選標(biāo)簽組,以使用戶根據(jù)該可選標(biāo)簽組確定目標(biāo)標(biāo)簽。
本實施例中,該可選標(biāo)簽組可以顯示在應(yīng)用界面的指定位置,比如應(yīng)用界面的左下方或正下方等,以供用戶選擇。需要說明的是,由于每一可選標(biāo)簽組中候選標(biāo)簽的數(shù)量可能比較多,而應(yīng)用界面的顯示空間又有限,故可以將該可選標(biāo)簽組分批發(fā)送,比如每次向用戶發(fā)送3個或4個,此時,每個候選標(biāo)簽的發(fā)送批次可以根據(jù)相關(guān)度高低或者發(fā)布時間遠近來決定,相關(guān)度越高或發(fā)布時間越近,該候選標(biāo)簽的發(fā)送批次越早,與此同時,應(yīng)用界面每次只顯示一批候選標(biāo)簽,當(dāng)用戶點擊“換一批”按鈕時,才開始發(fā)送下一批候選標(biāo)簽,以此類推,直到用戶選擇了某個候選標(biāo)簽作為目標(biāo)標(biāo)簽為止。
4-3-2、接收用戶根據(jù)該可選標(biāo)簽組返回的目標(biāo)標(biāo)簽。
本實施例中,當(dāng)用戶點擊了應(yīng)用界面上顯示的某個候選標(biāo)簽時,該候選標(biāo)簽即作為目標(biāo)標(biāo)簽返回至服務(wù)器。
4-3-3、根據(jù)該第二關(guān)聯(lián)關(guān)系和目標(biāo)標(biāo)簽從該推薦數(shù)據(jù)庫中確定目標(biāo)片段。
例如,上述步驟4-3-3具體可以包括:
根據(jù)該第二關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與該目標(biāo)標(biāo)簽對應(yīng)的候選文章組、以及該候選文章組中每一候選文章對應(yīng)的候選片段組;
根據(jù)查找到的候選文章組確定目標(biāo)文章;
根據(jù)該目標(biāo)文章對應(yīng)的候選片段組確定目標(biāo)片段。
本實施例中,該候選文章組中的候選文章可以按照熱度高低或發(fā)布時間遠近進行排序,該候選片段組中的候選片段是按序排列的,其排列順序通常和對應(yīng)段落在候選文章中的排列順序一致。該目標(biāo)文章和目標(biāo)片段是通過用戶與服務(wù)器的互動來確定的,通常,會默認將候選文章組中排在第一位的候選文章確定為首次的目標(biāo)文章,將選片段組中排在第一位的候選片段確定為首次的目標(biāo)片段。當(dāng)用戶點擊“換一個”按鈕時,該目標(biāo)文章更換為排在下一位的候選文章,當(dāng)用戶點擊“繼續(xù)”或者向上拉動屏幕時,該目標(biāo)片段更換為排在下一位的候選片段,以此類推。
4-4、向用戶推薦該目標(biāo)片段。
本實施例中,可以通過對話的形式將每次推薦的目標(biāo)片段顯示在應(yīng)用界面中,趣味性強,用戶體驗感好。
由上述可知,本實施例提供的信息推薦方法,通過獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息,并根據(jù)該候選文章集和標(biāo)題信息確定候選詞集,之后,根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章,之后,根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫,并基于該推薦數(shù)據(jù)庫向用戶推薦信息,從而無需用戶進行海量檢索即可得到感興趣的文章,方法簡單、獲取效率高。
第二實施例
根據(jù)實施例一所描述的方法,以下將舉例作進一步詳細說明。
在本實施例中,將以信息推薦裝置集成在服務(wù)器中為例進行詳細說明。
如圖2a所示,一種信息推薦方法,具體流程可以如下:
s201、服務(wù)器獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息。
譬如,該候選文章集可以是定期從指定網(wǎng)絡(luò)平臺上獲取的講述類文章,比如美妝類講述文章,每一講述類文章都包括標(biāo)題信息和正文內(nèi)容,該正文內(nèi)容中每個段落通常是一個講述步驟或者某個講述步驟的配圖,該標(biāo)題信息用于概括正文內(nèi)容所描述的主題。
s202、服務(wù)器對該候選文章集中每一候選文章進行分詞處理,得到詞集,并利用預(yù)設(shè)算法對該詞集進行篩選操作,得到篩選后詞集。
譬如,可以利用字符串匹配方法對候選文章進行分詞處理,比如可以將候選文章中的字符串與字典、詞庫中的字符串進行匹配,將匹配成功的字符串作為一個詞。該預(yù)設(shè)算法可以是tf-idf算法,比如可以結(jié)合單個詞在候選文章集中出現(xiàn)的次數(shù)和權(quán)重系數(shù)來計算該詞的重要程度,過濾掉不重要的詞,剩下的就是篩選后詞集,
s203、服務(wù)器計算該篩選后詞集中每一詞在該標(biāo)題信息中出現(xiàn)的總次數(shù),將總次數(shù)大于第一預(yù)設(shè)閥值的詞確定為候選詞,并添入候選詞集。
譬如,該候選文章集的數(shù)量大致可以在100萬左右,該第一預(yù)設(shè)閥值可以是100,該篩選后詞集可以包括{眼霜、裸妝、bb霜…眼瞼},若詞“眼瞼”只在75篇候選文章的標(biāo)題信息中出現(xiàn),說明不是常用詞,不能作為候選詞。
s204、服務(wù)器根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章。
例如,請參見圖2b,上述步驟s204具體可以包括:
s2041、服務(wù)器根據(jù)該候選詞集和標(biāo)題信息對該候選文章集進行分組,得到待處理文章組,每一候選詞對應(yīng)一個待處理文章組。
例如,上述步驟s2041具體可以包括:
將每一候選文章的標(biāo)題信息與該候選詞集中的候選詞進行匹配;
將與同一候選詞匹配成功的所有候選文章歸為同一組,得到待處理文章組。
譬如,若該候選詞集包括300個美妝領(lǐng)域的專屬詞匯(也即候選詞),比如“眼影”、“雙眼皮”、“眼霜”、“裸妝”、“彩妝”和“bb霜”等,此時,對應(yīng)得到的待處理文章組也為300個,且每一專屬詞匯對應(yīng)一個待處理文章組,每一待處理文章組中待處理文章的數(shù)量可以在100至1000之間。
s2042、服務(wù)器對該待處理文章組中每一候選文章的標(biāo)題信息進行語法分析,得到詞性信息,并獲取該候選詞在標(biāo)題信息中出現(xiàn)的位置信息。
譬如,對標(biāo)題信息“教你自制氣墊bb霜”進行語法分析,得到的詞可以包括“教”、“你”、“自制”、“氣墊”以及“bb霜”,對應(yīng)的詞性信息依次為動詞、代詞、動詞、形容詞和名詞,候選詞“bb霜”位于該標(biāo)題信息的末尾。
s2043、服務(wù)器根據(jù)該候選詞、位置信息、詞性信息和標(biāo)題信息生成候選標(biāo)簽,并添入候選標(biāo)簽組。
例如,上述步驟s2043具體可以包括:
根據(jù)該位置信息和詞性信息,按照預(yù)設(shè)規(guī)則從該待處理文章組的每一標(biāo)題信息中確定目標(biāo)詞組,每一標(biāo)題信息對應(yīng)一個目標(biāo)詞組,每一目標(biāo)詞組包括至少一個目標(biāo)詞;
根據(jù)每一目標(biāo)詞組和對應(yīng)的候選詞生成候選標(biāo)簽,并添入候選標(biāo)簽組。
譬如,為提高候選標(biāo)簽的生成速度,可以先通過lda分類模型將每一待處理文章組分成10類,每一類都代表一種話題,之后采用預(yù)設(shè)規(guī)則對每一類候選文章進行目標(biāo)詞組的提取,并將提取出的目標(biāo)詞組與對應(yīng)的候選詞組合,形成的短句就是候選標(biāo)簽,其中,該預(yù)設(shè)規(guī)則可以包括以下五種:
a.動詞+形容詞+名詞{候選詞};
b.動詞+名詞{候選詞};
c.形容詞+名詞{候選詞}+動詞[可選非必須];
d.名詞{候選詞}+動詞+名詞[可選非必須];
f.名詞{候選詞}+形容詞;
由于每一種話題都對應(yīng)有幾種最佳的提取方式,比如某一個類x1對應(yīng)的最佳提取方式是a和c,則在對目標(biāo)詞組進行提取時,可以優(yōu)先通過a和c提取,只有當(dāng)提取失敗時,才繼續(xù)通過b、d和f提取,從而可以快速準(zhǔn)確的找到目標(biāo)詞組。比如,類別x1中候選文章對應(yīng)的標(biāo)題可以包括:
“教你自制氣墊bb霜,女人們開始驚叫吧!”,
“極密bb霜自然色使用教程:跟著老師打造韓式清透底妝”,
“強大的自制氣墊bb霜教程!”,
“這是一篇氣墊bb霜正確使用指南”。
當(dāng)直接利用提取方式a和c進行提取,并將提取出的目標(biāo)詞組與候選詞“bb霜”或“bb霜”組合后,得到的候選標(biāo)簽可以包括:“自制氣墊bb霜”、“極密bb霜”、“自制氣墊bb霜”和“氣墊bb霜使用”。
s205、服務(wù)器將該候選文章集中具有相同候選標(biāo)簽的候選文章歸為一組,得到候選文章組,每一候選標(biāo)簽對應(yīng)一個候選文章組。
譬如,可以將候選標(biāo)簽為“自制氣墊bb霜”的50篇候選文章歸為同一候選文章組。
s206、服務(wù)器從該候選文章組中提取出每一候選文章所包含的段落,得到段落組,并根據(jù)每一段落組生成候選片段組,每一候選文章對應(yīng)一個段落組,每一段落組對應(yīng)一個候選片段組。
例如,上述步驟“根據(jù)每一段落組生成候選片段組”具體可以包括:
從每一段落組中獲取內(nèi)容是圖像的段落,作為目標(biāo)段落;
根據(jù)該目標(biāo)段落對該段落組進行調(diào)整;
將調(diào)整后段落組中的每一段落作為一個候選片段,得到候選片段組。
譬如,若某篇候選文章包括5個連續(xù)講述步驟,且每個講述步驟下都配有圖像,有些圖像下甚至附注有一兩句文字說明,此時,該段落組中包括至少10個段落,這些段落包括圖像、講述步驟和附注說明。為避免在推送的時候,將圖像和附注說明分開推送,從而造成推送內(nèi)容不緊湊的現(xiàn)象,影響閱讀體驗,這里需要將附注說明與圖像所在的兩個段落合并為一個候選片段,與此同時,每個講述步驟作為一個候選片段,從而得到只有10個片段的候選片段組,后續(xù)推送的時候,每次以片段為單位進行推送。
例如,上述步驟“根據(jù)該目標(biāo)段落對該段落組進行調(diào)整”具體可以包括:
從該段落組中獲取與該目標(biāo)段落相鄰的下一個段落;
計算獲取的下一個段落的字數(shù);
將字數(shù)小于第二預(yù)設(shè)閥值的下一個段落合并到對應(yīng)的目標(biāo)段落中,以對該段落組進行調(diào)整。
譬如,該第二預(yù)設(shè)閥值可以是30。當(dāng)圖像的下一個段落的字數(shù)少于30時,可以推測該段落并非講述步驟,而是附注說明,此時,可以將該段落與圖像進行合并。
s207、服務(wù)器建立每一候選詞與候選標(biāo)簽組之間的關(guān)聯(lián)關(guān)系,并建立每一候選標(biāo)簽和候選文章組之間、以及每一候選文章和候選片段組之間的關(guān)聯(lián)關(guān)系,并存儲在推薦數(shù)據(jù)庫中。
譬如,可以將候選詞“眼影”與候選標(biāo)簽組{眼影畫法、眼影排行榜、眼影點評、藍色眼影…眼影搭配}進行關(guān)聯(lián),將候選標(biāo)簽“眼影畫法”與講述眼影畫法的候選文章組a1進行關(guān)聯(lián),將a1中的每篇候選文章與對應(yīng)的候選片段組進行關(guān)聯(lián),之后,將“眼影”、候選標(biāo)簽組{眼影畫法、眼影排行榜、眼影點評、藍色眼影…眼影搭配}、候選文章組a1、與a1中每篇候選文章對應(yīng)的候選片段組、以及對應(yīng)的一些關(guān)聯(lián)關(guān)系存儲在推薦數(shù)據(jù)庫中。
s208、服務(wù)器獲取信息推薦請求,該信息推薦請求攜帶檢索詞。
譬如,當(dāng)用戶通過應(yīng)用界面下方的輸入框輸入檢索詞“眼影”時,可以生成該信息推薦請求。
s209、服務(wù)器將該檢索詞與候選詞集中的候選詞進行匹配,若匹配成功,則執(zhí)行下述步驟s210,若匹配失敗,則可以不執(zhí)行任何操作。
譬如,若候選詞集中存在候選詞“眼影”時,則匹配成功,若不存在,則匹配失敗。
s210、服務(wù)器根據(jù)該第一關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與匹配成功的候選詞對應(yīng)的候選標(biāo)簽組,作為可選標(biāo)簽組。
譬如,該可選標(biāo)簽組可以包括{眼影畫法、眼影排行榜、眼影點評、眼影搭配…藍色眼影},且該可選標(biāo)簽組中的候選標(biāo)簽均按照文章發(fā)布時間遠近進行排序,發(fā)布時間越近越靠前。
s211、服務(wù)器向用戶發(fā)送該可選標(biāo)簽組,以使用戶根據(jù)該可選標(biāo)簽組確定目標(biāo)標(biāo)簽。
譬如,該可選標(biāo)簽組的發(fā)送過程主要依靠用戶和服務(wù)器的互動來實現(xiàn),具體請參見圖2c,比如,可以默認將“眼影畫法”和“眼影排行榜”作為首批標(biāo)簽發(fā)送給用戶,當(dāng)用戶點擊“換一批”按鈕時,會將“眼影點評”和“眼影搭配”作為第二批標(biāo)簽發(fā)送給用戶,以此類推,直到用戶選擇了某個候選標(biāo)簽作為目標(biāo)標(biāo)簽為止。
s212、服務(wù)器接收用戶根據(jù)該可選標(biāo)簽組返回的目標(biāo)標(biāo)簽,并根據(jù)該第二關(guān)聯(lián)關(guān)系和目標(biāo)標(biāo)簽從該推薦數(shù)據(jù)庫中確定目標(biāo)片段。
例如,上述步驟“根據(jù)該第二關(guān)聯(lián)關(guān)系和目標(biāo)標(biāo)簽從該推薦數(shù)據(jù)庫中確定目標(biāo)片段”具體可以包括:
根據(jù)該第二關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與該目標(biāo)標(biāo)簽對應(yīng)的候選文章組、以及該候選文章組中每一候選文章對應(yīng)的候選片段組;
根據(jù)查找到的候選文章組確定目標(biāo)文章;
根據(jù)該目標(biāo)文章對應(yīng)的候選片段組確定目標(biāo)片段。
譬如,當(dāng)用戶選擇了候選標(biāo)簽“眼影畫法”作為目標(biāo)標(biāo)簽時,會先根據(jù)“眼影畫法”查找到講述眼影畫法的候選文章組a1,該候選文章組a1中的候選文章可以按照熱度高低或者發(fā)布時間進行排序,默認將候選文章組中排在第一位的候選文章確定為首次的目標(biāo)文章,將選片段組中排在第一位的候選片段確定為首次的目標(biāo)片段,當(dāng)用戶點擊“換一個吧”按鈕時,該目標(biāo)文章更換為排在下一位的候選文章,當(dāng)用戶點擊“小看,繼續(xù)”或者向上拉動屏幕時,該目標(biāo)片段更換為排在下一位的候選片段,以此類推,具體請參見圖2d。
s213、服務(wù)器向用戶推薦該目標(biāo)片段。
譬如,可以通過對話的形式將每次推薦的目標(biāo)片段顯示在應(yīng)用界面中,從而增強用戶與機器之間的互動感,提升用戶體驗。
由上述可知,本實施例提供的信息推薦方法,其中服務(wù)器可以獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息,并對該候選文章集中每一候選文章進行分詞處理,得到詞集,并利用預(yù)設(shè)算法對該詞集進行篩選操作,得到篩選后詞集,接著,計算該篩選后詞集中每一詞在該標(biāo)題信息中出現(xiàn)的總次數(shù),將總次數(shù)大于第一預(yù)設(shè)閥值的詞確定為候選詞,并添入候選詞集,接著,服務(wù)器根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章,之后服務(wù)器將該候選文章集中具有相同候選標(biāo)簽的候選文章歸為一組,得到候選文章組,每一候選標(biāo)簽對應(yīng)一個候選文章組,接著,從該候選文章組中提取出每一候選文章所包含的段落,得到段落組,并根據(jù)每一段落組生成候選片段組,每一候選文章對應(yīng)一個段落組,每一段落組對應(yīng)一個候選片段組,接著,建立每一候選詞與候選標(biāo)簽組之間的關(guān)聯(lián)關(guān)系,并建立每一候選標(biāo)簽和候選文章組之間、以及每一候選文章和候選片段組之間的關(guān)聯(lián)關(guān)系,并存儲在推薦數(shù)據(jù)庫中,從而完成整個推薦數(shù)據(jù)庫的建立,之后,獲取信息推薦請求,該信息推薦請求攜帶檢索詞,并將該檢索詞與候選詞集中的候選詞進行匹配,若匹配成功,則根據(jù)該第一關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與匹配成功的候選詞對應(yīng)的候選標(biāo)簽組,作為可選標(biāo)簽組,并向用戶發(fā)送該可選標(biāo)簽組,以使用戶根據(jù)該可選標(biāo)簽組確定目標(biāo)標(biāo)簽,接著,接收用戶根據(jù)該可選標(biāo)簽組返回的目標(biāo)標(biāo)簽,并根據(jù)該第二關(guān)聯(lián)關(guān)系和目標(biāo)標(biāo)簽從該推薦數(shù)據(jù)庫中確定目標(biāo)片段,最后,向用戶推薦該目標(biāo)片段,從而無需用戶進行海量檢索即可得到感興趣的文章,方法簡單、獲取效率高,并且通過與機器互動的方式來實現(xiàn)文章的推薦,趣味性強,用戶體驗性好。
第三實施例
根據(jù)實施例一和實施例二所描述的方法,本實施例將從信息推薦裝置的角度進一步進行描述,該信息推薦裝置可以集成在服務(wù)器中。
請參閱圖3a,圖3a具體描述了本發(fā)明第三實施例提供的信息推薦裝置,其可以包括:獲取模塊10、確定模塊20、生成模塊30、建立模塊40和推薦模塊50,其中:
(1)獲取模塊10
獲取模塊10,用于獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息。
本實施例中,該候選文章集包括至少一篇候選文章,該候選文章主要包括指定領(lǐng)域(比如美妝領(lǐng)域)的講述類文章,這些講述類文章可以是直接從網(wǎng)絡(luò)下載的,也可以是本地存儲的。該講述類文章是指具有連續(xù)講述步驟的文章,其包括字符和圖像,每一字符包括漢字、字母或數(shù)字。每個講述步驟是一個字符段落,一個圖像也是一個段落,且每個講述步驟都配有相應(yīng)的圖像。每一候選文章可以包括標(biāo)題信息和正文內(nèi)容,通常,該標(biāo)題信息用于概括正文內(nèi)容所描述的主題,其主要包括字符,該正文內(nèi)容可以包括字符和圖像。
(2)確定模塊20
確定模塊20,用于根據(jù)該候選文章集和標(biāo)題信息確定候選詞集。
例如,上述確定模塊20具體可以用于:
1-2、對該候選文章集中每一候選文章進行分詞處理,得到詞集。
本實施例中,該詞集包括至少一個詞,每一個詞包括至少兩個字符。確定模塊20具體可以通過分詞技術(shù),比如基于字典、詞庫匹配的分詞法(字符串匹配法),基于知識理解的分詞法(語義分詞法),或者基于詞頻度統(tǒng)計的分詞法(統(tǒng)計分詞法)等,對整個候選文章進行處理,得到每一侯選文章所包含的所有詞。
1-2、利用預(yù)設(shè)算法對該詞集進行篩選操作,得到篩選后詞集。
本實施例中,該篩選后詞集包括至少一個詞,該預(yù)設(shè)算法可以根據(jù)需求而定,比如可以是tf-idf(termfrequency–inversedocumentfrequency)算法,主要用于評估單個詞對候選文章集的重要程度,具體可以結(jié)合單個詞的出現(xiàn)頻次和權(quán)重系數(shù)來計算重要程度,重要程度滿足指定值的詞可以存儲在篩選后詞集中。該出現(xiàn)頻次主要指單個詞的出現(xiàn)次數(shù),該權(quán)重系數(shù)主要針對常見詞和非常見詞而設(shè)定的,通常,越常見的詞設(shè)置的權(quán)重系數(shù)越小,比如對于“的”、“是”或者“在”等這種常見詞,權(quán)重系數(shù)可以很小,對于“眼霜”這種非常見詞,權(quán)重系數(shù)可以很大。
1-3、根據(jù)該篩選后詞集和標(biāo)題信息確定候選詞集。
例如,上述確定模塊20進一步可以用于:
計算該篩選后詞集中每一詞在該標(biāo)題信息中出現(xiàn)的總次數(shù);
將總次數(shù)大于第一預(yù)設(shè)閥值的詞確定為候選詞,并添入候選詞集。
本實施例中,該候選詞集包括至少一個候選詞,每一候選詞主要是名詞,也即表示名稱的字符組合,比如眼霜、眼影或者bb霜等。該第一預(yù)設(shè)閾值可以根據(jù)候選文章集中候選文章的總量而定,比如可以是候選文章總數(shù)量的萬分之一,主要用于過濾一些不常用的詞,得到符合大多數(shù)用戶用語習(xí)慣的詞。
(3)生成模塊30
生成模塊30,用于根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章。
本實施例中,該侯選標(biāo)簽組包括至少一個候選標(biāo)簽,每一侯選標(biāo)簽都是從標(biāo)題信息中提煉出來的內(nèi)容,通常都簡明扼要的指示出候選文章的撰寫意圖,比如指示該候選文章是用來介紹某個產(chǎn)品性能的,還是用來介紹該產(chǎn)品是怎樣使用的,或者是用來介紹該產(chǎn)品的制作工藝,等等,每一侯選標(biāo)簽一般都是一個短句,其字數(shù)少于標(biāo)題信息所包含的字數(shù)。
例如,請參閱圖3b,該生成模塊30具體可以包括:第一分組子模塊31和生成子模塊32,其中:
第一分組子模塊31,用于根據(jù)該候選詞集和標(biāo)題信息對該候選文章集進行分組,得到待處理文章組,每一候選詞對應(yīng)一個待處理文章組。
本實施例中,每一待處理文章組包括至少一篇候選文章。
例如,該第一分組子模塊31具體可以用于:
將每一候選文章的標(biāo)題信息與該候選詞集中的候選詞進行匹配;
將與同一候選詞匹配成功的所有候選文章歸為同一組,得到待處理文章組。
本實施例中,由于標(biāo)題信息可以反映文章主題,而候選詞又是從標(biāo)題信息中提取出來的詞,故第一分組子模塊31可以根據(jù)候選詞對候選文章進行分組,將標(biāo)題信息中具有同一候選詞的候選文章劃分為同一待處理文章組,從而可使劃分到同一待處理文章組的候選文章都具有相同的主題。需要說明的是,由于有些標(biāo)題信息可能存在兩個候選詞,故待處理文章組和待處理文章組之間可能存在相同的候選文章。
生成子模32,用于根據(jù)該待處理文章組中待處理文章的標(biāo)題信息和對應(yīng)的候選詞生成候選標(biāo)簽,并添入候選標(biāo)簽組。
本實施例中,由于每篇候選文章所要介紹的內(nèi)容一般都體現(xiàn)在標(biāo)題信息中,而每個候選詞又是從標(biāo)題信息中提取出來的關(guān)鍵詞,故生成子模32可以根據(jù)標(biāo)題信息中圍繞該候選詞展開的短語來準(zhǔn)確推測出該候選文章的撰寫意圖,也即生成候選標(biāo)簽。
例如,該生成子模塊32具體可以用于:
2-2-1、對該待處理文章組中每一候選文章的標(biāo)題信息進行語法分析,得到詞性信息。
本實施例中,生成子模塊32可以通過語法分析器來對標(biāo)題信息進行語法分析,具體可以通過自上而下語法分析方法或者自下而上語法分析方法來實現(xiàn)。該詞性信息是指以詞的特點,比如以語法特征(包括句法功能和形態(tài)變化)為主要依據(jù),兼顧詞匯意義對詞進行劃分得到的,該詞性信息可以包括動詞、形容詞、名詞和介詞等等。
2-2-2、獲取該候選詞在標(biāo)題信息中出現(xiàn)的位置信息。
本實施例中,經(jīng)由語法分析后的標(biāo)題信息可以表現(xiàn)為多個按序排列的詞,該候選詞在該標(biāo)題信息中的排列位置即為該位置信息。
2-2-3、根據(jù)該候選詞、位置信息、詞性信息和標(biāo)題信息生成候選標(biāo)簽,并添入候選標(biāo)簽組。
例如,上述生成子模塊32進一步可以用于:
根據(jù)該位置信息和詞性信息,按照預(yù)設(shè)規(guī)則從該待處理文章組的每一標(biāo)題信息中確定目標(biāo)詞組,每一標(biāo)題信息對應(yīng)一個目標(biāo)詞組,每一目標(biāo)詞組包括至少一個目標(biāo)詞;
根據(jù)每一目標(biāo)詞組和對應(yīng)的候選詞生成候選標(biāo)簽,并添入候選標(biāo)簽組。
本實施例中,該目標(biāo)詞可以是動詞、形容詞以及名詞中的一種或者幾種。該預(yù)設(shè)規(guī)則可以根據(jù)需求而定,比如可以提取標(biāo)題信息中距離候選詞前后最近的動詞和/或形容詞,作為該標(biāo)題信息的目標(biāo)詞,得到目標(biāo)詞組,其大致可以包括以下五種提取方式:
a.動詞+形容詞+名詞{候選詞};
b.動詞+名詞{候選詞};
c.形容詞+名詞{候選詞}+動詞[可選非必須];
d.名詞{候選詞}+動詞+名詞[可選非必須];
f.名詞{候選詞}+形容詞;
當(dāng)生成子模塊32通過合適的提取方式從標(biāo)題信息中提取出多個目標(biāo)詞時,應(yīng)按照原先的排列位置將目標(biāo)詞與對應(yīng)的候選詞組合,形成的短句就是候選標(biāo)簽。
需要說明的是,由于通過單個候選詞對文章進行分組時,每一待處理文章組中候選文章的數(shù)量會比較多,比如幾百至幾千篇,若直接對每個待處理文章組的標(biāo)題信息進行目標(biāo)詞組提取,有些標(biāo)題信息可能需要將以上幾種提取方式都進行一遍,才能找到對應(yīng)的提取方式,耗時長,同時,由于每種提取方式都傾向于某種話題類型的文章,比如提取方式a、b傾向于產(chǎn)品的制作方法,提取方式c傾向于產(chǎn)品的使用方法或產(chǎn)品性能介紹等,故生成子模塊32可以先通過一些用于隱含話題挖掘的分類模型,比如文檔主題生成模型(latentdirichletallocation,lda),或概率隱語義分析模型(probabilisticlatentsemanticanalysis,plsa)等,對每一待處理文章組進行話題細分,比如將每一待處理文章組分成10個話題類別,然后針對每個話題類別選擇幾種最佳的提取方式優(yōu)先提取,從而能較快的提取出目標(biāo)詞組,大大提高了提取效率,加快了候選標(biāo)簽的生成速度。
(4)建立模塊40
建立模塊40,用于根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫。
例如,請參見圖3c,該建立模塊40具體可以包括:第二分組子模塊41、建立子模塊42、確定子模塊43和存儲子模塊44,其中:
第二分組子模塊41,用于將該候選文章集中具有相同候選標(biāo)簽的候選文章歸為一組,得到候選文章組,每一候選標(biāo)簽對應(yīng)一個候選文章組。
本實施例中,每一候選文章組包括至少一篇候選文章。當(dāng)?shù)诙纸M子模塊41根據(jù)候選標(biāo)簽對候選文章集進行分組得到候選文章組后,每一候選文章組中的候選文章具有一個相同的話題內(nèi)容,從而方便后續(xù)查找和推送對應(yīng)話題的候選文章。
建立子模塊42,用于建立該候選詞集中每一候選詞與候選標(biāo)簽組之間的關(guān)聯(lián),得到第一關(guān)聯(lián)關(guān)系。
本實施例中,該第一關(guān)聯(lián)關(guān)系可以包括候選詞、候選標(biāo)簽組、以及候選詞與候選標(biāo)簽組的對應(yīng)關(guān)系。
確定子模塊43,用于根據(jù)該候選標(biāo)簽組和候選文章組確定第二關(guān)聯(lián)關(guān)系。
本實施例中,確定子模塊43可以直接將候選標(biāo)簽組、候選文章組、以及每一候選標(biāo)簽和候選文章組的對應(yīng)關(guān)系確定為第二關(guān)聯(lián)關(guān)系,這樣,后續(xù)根據(jù)候選標(biāo)簽向用戶推送的就是候選文章組。為確保每次只向用戶推送一篇候選文章,可以根據(jù)點擊量、轉(zhuǎn)發(fā)量或者發(fā)布時間等信息對每個候選文章組中的候選文章進行排序,按序每次獲取一篇候選文章進行推送。當(dāng)然,為節(jié)省每次推送所耗的流量,確定子模塊43可以采取分段推送的方式,也即每次只推送文章的一小段而非全部,當(dāng)用戶需要往下閱讀的時候,才繼續(xù)推送下一段,當(dāng)用戶想換一篇文章時,可以按序切換到下一篇候選文章的第一段,從而能最大程度節(jié)省單次推送的流量,提高用戶體驗性。
例如,當(dāng)后續(xù)需要采取分段推送方式時,該確定子模塊43具體可以包括:提取單元、生成單元和建立單元,其中:
提取單元,用于從該候選文章組中提取出每一候選文章所包含的段落,得到段落組,每一候選文章對應(yīng)一個段落組;
生成單元,用于根據(jù)該段落組生成候選片段組,每一段落組對應(yīng)一個候選片段組;
建立單元,用于建立每一候選標(biāo)簽和候選文章組之間、以及每一候選文章和候選片段組之間的關(guān)聯(lián),得到第二關(guān)聯(lián)關(guān)系。
本實施例中,每一段落組包括至少一個段落,該段落是從正文內(nèi)容中提取出來的,其可以是文字內(nèi)容或圖像內(nèi)容。該第二關(guān)聯(lián)關(guān)系可以包括候選標(biāo)簽、候選文章組、候選片段組、每一候選標(biāo)簽和候選文章組的對應(yīng)關(guān)系、以及每一候選文章與候選片段組的對應(yīng)關(guān)系。該候選片段可以根據(jù)候選文章所包含的段落生成,比如可以直接將每個段落作為一個候選片段,也可以將多個段落合并為一個候選片段,具體可以根據(jù)實際需求而定。
例如,該生成單元進一步可以用于:
從每一段落組中獲取內(nèi)容是圖像的段落,作為目標(biāo)段落;
根據(jù)該目標(biāo)段落對該段落組進行調(diào)整;
將調(diào)整后段落組中的每一段落作為一個候選片段,得到候選片段組。
本實施例中,由于候選文章中的每個圖像都是一個段落,而有些圖像下面會附注有一兩句文字說明,這些附注說明通常也會以段落的形式呈現(xiàn),若將圖像與附注說明分開推送,難免會使推送內(nèi)容不緊湊,導(dǎo)致用戶閱讀體驗感差,因此,最好將該附注說明與圖像一起推送,也即,該生成單元進一步可以用于:
從該段落組中獲取與該目標(biāo)段落相鄰的下一個段落;
計算獲取的下一個段落的字數(shù);
將字數(shù)小于第二預(yù)設(shè)閥值的下一個段落合并到對應(yīng)的目標(biāo)段落中,以對該段落組進行調(diào)整。
本實施例中,該第二預(yù)設(shè)閥值可以根據(jù)實際需求而定,其主要用于區(qū)分該下一個段落是正常段落,還是與圖像有關(guān)的附注說明,比如該第二預(yù)設(shè)閥值可以是30。當(dāng)某個圖像的下一個段落的字數(shù)少于第二預(yù)設(shè)閥值時,可以推測該段落內(nèi)容是與圖像緊密相連的,也即是與圖像有關(guān)的附注說明,此時,生成單元可以將這兩個段落進行合并。
存儲子模塊44,用于將該第一關(guān)聯(lián)關(guān)系和第二關(guān)聯(lián)關(guān)系存儲在推薦數(shù)據(jù)庫中。
本實施例中,該推薦數(shù)據(jù)庫可以根據(jù)實際需求而定,比如可以是用戶指定的某個存儲區(qū)域。
(5)推薦模塊50
推薦模塊50,用于基于該推薦數(shù)據(jù)庫向用戶推薦信息。
本實施例中,當(dāng)推薦數(shù)據(jù)庫建立好后,后續(xù)可以從該推薦數(shù)據(jù)庫中獲取對應(yīng)的數(shù)據(jù)向用戶推薦。
例如,該推薦模塊50具體可以用于:
4-1、獲取信息推薦請求,該信息推薦請求攜帶檢索詞。
本實施例中,該檢索詞通常為單個詞或者詞組,其可以從指定接口獲取,比如可從應(yīng)用界面上的輸入框獲取,該輸入框主要用于為用戶提供文字輸入口。當(dāng)用戶在輸入框中輸入所需搜索的內(nèi)容時,點擊“完成”按鈕即可生成信息推薦請求。
4-2、根據(jù)該檢索詞和第一關(guān)聯(lián)關(guān)系從該推薦數(shù)據(jù)庫中確定可選標(biāo)簽組。
例如,該推薦模塊50進一步可以用于:
將該檢索詞與候選詞集中的候選詞進行匹配;
若匹配成功,則根據(jù)該第一關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與匹配成功的候選詞對應(yīng)的候選標(biāo)簽組,作為可選標(biāo)簽組。
本實施例中,當(dāng)候選詞集中存儲有用戶輸入的檢索詞時,推薦模塊50可以從推薦數(shù)據(jù)庫中查找到與該檢索詞對應(yīng)的候選標(biāo)簽組,作為向用戶推送的可選標(biāo)簽組,從而無需輸入過多的文字即推測出用戶推薦感興趣的話題(也即候選標(biāo)簽),簡化了用戶輸入,簡單方便。
4-3、根據(jù)該第二關(guān)聯(lián)關(guān)系和可選標(biāo)簽組從該推薦數(shù)據(jù)庫中確定目標(biāo)片段。
例如,該推薦模塊50進一步可以用于:
4-3-1、向用戶發(fā)送該可選標(biāo)簽組,以使用戶根據(jù)該可選標(biāo)簽組確定目標(biāo)標(biāo)簽。
本實施例中,該可選標(biāo)簽組可以顯示在應(yīng)用界面的指定位置,比如應(yīng)用界面的左下方或正下方等,以供用戶選擇。需要說明的是,由于每一可選標(biāo)簽組中候選標(biāo)簽的數(shù)量可能比較多,而應(yīng)用界面的顯示空間又有限,故推薦模塊50可以將該可選標(biāo)簽組分批發(fā)送,比如每次向用戶發(fā)送3個或4個,此時,每個候選標(biāo)簽的發(fā)送批次可以根據(jù)相關(guān)度高低或者發(fā)布時間遠近來決定,相關(guān)度越高或發(fā)布時間越近,該候選標(biāo)簽的發(fā)送批次越早,與此同時,應(yīng)用界面每次只顯示一批候選標(biāo)簽,當(dāng)用戶點擊“換一批”按鈕時,推薦模塊50才開始發(fā)送下一批候選標(biāo)簽,以此類推,直到用戶選擇了某個候選標(biāo)簽作為目標(biāo)標(biāo)簽為止。
4-3-2、接收用戶根據(jù)該可選標(biāo)簽組返回的目標(biāo)標(biāo)簽。
本實施例中,當(dāng)用戶點擊了應(yīng)用界面上顯示的某個候選標(biāo)簽時,該候選標(biāo)簽即作為目標(biāo)標(biāo)簽返回至服務(wù)器。
4-3-3、根據(jù)該第二關(guān)聯(lián)關(guān)系和目標(biāo)標(biāo)簽從該推薦數(shù)據(jù)庫中確定目標(biāo)片段。
例如,該推薦模塊50進一步可以用于
根據(jù)該第二關(guān)聯(lián)關(guān)系,從該推薦數(shù)據(jù)庫中查找與該目標(biāo)標(biāo)簽對應(yīng)的候選文章組、以及該候選文章組中每一候選文章對應(yīng)的候選片段組;
根據(jù)查找到的候選文章組確定目標(biāo)文章;
根據(jù)該目標(biāo)文章對應(yīng)的候選片段組確定目標(biāo)片段。
本實施例中,該候選文章組中的候選文章可以按照熱度高低或發(fā)布時間遠近進行排序,該候選片段組中的候選片段是按序排列的,其排列順序通常和對應(yīng)段落在候選文章中的排列順序一致。該目標(biāo)文章和目標(biāo)片段是通過用戶與服務(wù)器的互動來確定的,通常,推薦模塊50會默認將候選文章組中排在第一位的候選文章確定為首次的目標(biāo)文章,將選片段組中排在第一位的候選片段確定為首次的目標(biāo)片段。當(dāng)用戶點擊“換一個”按鈕時,推薦模塊50會將該目標(biāo)文章更換為排在下一位的候選文章,當(dāng)用戶點擊“繼續(xù)”或者向上拉動屏幕時,推薦模塊50會將該目標(biāo)片段更換為排在下一位的候選片段,以此類推。
4-4、向用戶推薦該目標(biāo)片段。
本實施例中,推薦模塊50可以通過對話的形式將每次推薦的目標(biāo)片段顯示在應(yīng)用界面中,趣味性強,用戶體驗感好。
具體實施時,以上各個單元可以作為獨立的實體來實現(xiàn),也可以進行任意組合,作為同一或若干個實體來實現(xiàn),以上各個單元的具體實施可參見前面的方法實施例,在此不再贅述。
由上述可知,本實施例提供的信息推薦裝置,通過獲取模塊10獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息,確定模塊20根據(jù)該候選文章集和標(biāo)題信息確定候選詞集,之后,生成模塊30根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章,之后,建立模塊40根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫,推薦模塊50基于該推薦數(shù)據(jù)庫向用戶推薦信息,從而無需用戶進行海量檢索即可得到感興趣的文章,方法簡單、獲取效率高。
第四實施例
相應(yīng)的,本發(fā)明實施例還提供一種信息推薦系統(tǒng),包括本發(fā)明實施例所提供的任一種信息推薦裝置,該信息推薦裝置可以集成在服務(wù)器中。
其中,服務(wù)器獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息;根據(jù)該候選文章集和標(biāo)題信息確定候選詞集;根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章;根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫;基于該推薦數(shù)據(jù)庫向用戶推薦信息。
以上各個設(shè)備的具體實施可參見前面的實施例,在此不再贅述。
由于該路況信息的生成系統(tǒng)可以包括本發(fā)明實施例所提供的任一種信息推薦裝置,因此,可以實現(xiàn)本發(fā)明實施例所提供的任一種信息推薦裝置所能實現(xiàn)的有益效果,詳見前面的實施例,在此不再贅述。
第五實施例
本發(fā)明實施例還提供一種服務(wù)器,如圖4所示,其示出了本發(fā)明實施例所涉及的服務(wù)器的結(jié)構(gòu)示意圖,具體來講:
該服務(wù)器可以包括一個或者一個以上處理核心的處理器601、一個或一個以上計算機可讀存儲介質(zhì)的存儲器602、射頻(radiofrequency,rf)電路603、電源604、輸入單元605、以及顯示單元606等部件。本領(lǐng)域技術(shù)人員可以理解,圖4中示出的服務(wù)器結(jié)構(gòu)并不構(gòu)成對服務(wù)器的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
處理器601是該服務(wù)器的控制中心,利用各種接口和線路連接整個服務(wù)器的各個部分,通過運行或執(zhí)行存儲在存儲器602內(nèi)的軟件程序和/或模塊,以及調(diào)用存儲在存儲器602內(nèi)的數(shù)據(jù),執(zhí)行服務(wù)器的各種功能和處理數(shù)據(jù),從而對服務(wù)器進行整體監(jiān)控??蛇x的,處理器601可包括一個或多個處理核心;優(yōu)選的,處理器601可集成應(yīng)用處理器和調(diào)制解調(diào)處理器,其中,應(yīng)用處理器主要處理操作系統(tǒng)、用戶界面和應(yīng)用程序等,調(diào)制解調(diào)處理器主要處理無線通信。可以理解的是,上述調(diào)制解調(diào)處理器也可以不集成到處理器601中。
存儲器602可用于存儲軟件程序以及模塊,處理器601通過運行存儲在存儲器602的軟件程序以及模塊,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理。存儲器602可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應(yīng)用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)服務(wù)器的使用所創(chuàng)建的數(shù)據(jù)等。此外,存儲器602可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應(yīng)地,存儲器602還可以包括存儲器控制器,以提供處理器601對存儲器602的訪問。
rf電路603可用于收發(fā)信息過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器601處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,rf電路603包括但不限于天線、至少一個放大器、調(diào)諧器、一個或多個振蕩器、用戶身份模塊(sim)卡、收發(fā)信機、耦合器、低噪聲放大器(lna,lownoiseamplifier)、雙工器等。此外,rf電路603還可以通過無線通信與網(wǎng)絡(luò)和其他設(shè)備通信。該無線通信可以使用任一通信標(biāo)準(zhǔn)或協(xié)議,包括但不限于全球移動通訊系統(tǒng)(gsm,globalsystemofmobilecommunication)、通用分組無線服務(wù)(gprs,generalpacketradioservice)、碼分多址(cdma,codedivisionmultipleaccess)、寬帶碼分多址(wcdma,widebandcodedivisionmultipleaccess)、長期演進(lte,longtermevolution)、電子郵件、短消息服務(wù)(sms,shortmessagingservice)等。
服務(wù)器還包括給各個部件供電的電源604(比如電池),優(yōu)選的,電源604可以通過電源管理系統(tǒng)與處理器601邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源604還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉(zhuǎn)換器或者逆變器、電源狀態(tài)指示器等任意組件。
該服務(wù)器還可包括輸入單元605,該輸入單元605可用于接收輸入的數(shù)字或字符信息,以及產(chǎn)生與用戶設(shè)置以及功能控制有關(guān)的鍵盤、鼠標(biāo)、操作桿、光學(xué)或者軌跡球信號輸入。具體地,在一個具體的實施例中,輸入單元605可包括觸敏表面以及其他輸入設(shè)備。觸敏表面,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面上或在觸敏表面附近的操作),并根據(jù)預(yù)先設(shè)定的程式驅(qū)動相應(yīng)的連接裝置??蛇x的,觸敏表面可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉(zhuǎn)換成觸點坐標(biāo),再送給處理器601,并能接收處理器601發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面。除了觸敏表面,輸入單元605還可以包括其他輸入設(shè)備。具體地,其他輸入設(shè)備可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關(guān)按鍵等)、軌跡球、鼠標(biāo)、操作桿等中的一種或多種。
該服務(wù)器還可包括顯示單元606,該顯示單元606可用于顯示由用戶輸入的信息或提供給用戶的信息以及服務(wù)器的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標(biāo)、視頻和其任意組合來構(gòu)成。顯示單元606可包括顯示面板,可選的,可以采用液晶顯示器(lcd,liquidcrystaldisplay)、有機發(fā)光二極管(oled,organiclight-emittingdiode)等形式來配置顯示面板。進一步的,觸敏表面可覆蓋顯示面板,當(dāng)觸敏表面檢測到在其上或附近的觸摸操作后,傳送給處理器601以確定觸摸事件的類型,隨后處理器601根據(jù)觸摸事件的類型在顯示面板上提供相應(yīng)的視覺輸出。雖然在圖4中,觸敏表面與顯示面板是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面與顯示面板集成而實現(xiàn)輸入和輸出功能。
盡管未示出,服務(wù)器還可以包括攝像頭、藍牙模塊等,在此不再贅述。具體在本實施例中,服務(wù)器中的處理器601會按照如下的指令,將一個或一個以上的應(yīng)用程序的進程對應(yīng)的可執(zhí)行文件加載到存儲器602中,并由處理器601來運行存儲在存儲器602中的應(yīng)用程序,從而實現(xiàn)各種功能,如下:
獲取候選文章集、以及該候選文章集中每一候選文章的標(biāo)題信息;
根據(jù)該候選文章集和標(biāo)題信息確定候選詞集;
根據(jù)該候選詞集、標(biāo)題信息和候選文章集生成候選標(biāo)簽組,該候選標(biāo)簽組中每一候選標(biāo)簽對應(yīng)至少一篇候選文章;
根據(jù)該候選詞集、候選標(biāo)簽組和候選文章集建立推薦數(shù)據(jù)庫;
基于該推薦數(shù)據(jù)庫向用戶推薦信息。
該終端可以實現(xiàn)本發(fā)明實施例所提供的任一種信息推薦裝置所能實現(xiàn)的有效效果,詳見前面的實施例,在此不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解上述實施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲于一計算機可讀存儲介質(zhì)中,存儲介質(zhì)可以包括:只讀存儲器(rom,readonlymemory)、隨機存取記憶體(ram,randomaccessmemory)、磁盤或光盤等。
以上對本發(fā)明實施例所提供的一種信息推薦方法、裝置和系統(tǒng)進行了詳細介紹,本文中應(yīng)用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。