亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種特征詞關(guān)系獲取方法及裝置與流程

文檔序號(hào):12363958閱讀:244來(lái)源:國(guó)知局
一種特征詞關(guān)系獲取方法及裝置與流程

本發(fā)明涉及數(shù)據(jù)挖掘領(lǐng)域,尤其涉及一種特征詞關(guān)系獲取方法及裝置。



背景技術(shù):

在過去的十幾年里個(gè)性化的發(fā)展如火如荼,其原因很簡(jiǎn)單——互聯(lián)網(wǎng)上信息的爆炸式增長(zhǎng)與人們有限的信息需求之間不可調(diào)和的矛盾愈演愈烈。隨之個(gè)性化推薦應(yīng)運(yùn)而生被應(yīng)用到各個(gè)領(lǐng)域:購(gòu)物、新聞閱讀甚至各種應(yīng)用app(Application:應(yīng)用程序)等等。其中,個(gè)性化推薦是指計(jì)算機(jī)通過各種技術(shù)手段將此時(shí)此刻用戶最想看到的信息推薦給用戶。

現(xiàn)有技術(shù)中,為了獲取特征詞之間的關(guān)聯(lián)關(guān)系,往往需要通過人工方式從語(yǔ)料中標(biāo)記對(duì)應(yīng)的特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系。

然而,現(xiàn)有技術(shù)中是通過人工方式獲得所有特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,導(dǎo)致大量的人力資源的浪費(fèi)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明提供一種特征詞關(guān)系獲取方法及裝置,以解決現(xiàn)有技術(shù)中只能通過人工打標(biāo)方式獲得所有特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,從而導(dǎo)致人力資源大量浪費(fèi)的技術(shù)問題。

第一方面,本發(fā)明實(shí)施例提供一種特征詞關(guān)系獲取方法,包括:

獲取種子文件,所述種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);

將所述種子文件中的特征詞對(duì)作為種子詞對(duì),基于所述種子詞對(duì)從語(yǔ)料信息中提取出特征模板,所述特征模板中包含對(duì)應(yīng)所述種子詞對(duì)的上下文信息,N為正整數(shù);

基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。

可選的,所述獲取到的特征詞對(duì)與所述種子詞對(duì)具有相同的關(guān)聯(lián)關(guān)系。

可選的,所述基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì),具體包括:

判斷所述語(yǔ)料信息中的第一上下文信息與所述特征模板的相似度是否大于預(yù)設(shè)相似度值;

在所述第一上下文信息與所述具有第一關(guān)聯(lián)關(guān)系的特征模板的相似度值大于所述預(yù)設(shè)相似度值時(shí),確定獲取到的特征詞對(duì)的關(guān)聯(lián)關(guān)系為所述第一關(guān)聯(lián)關(guān)系。

可選的,所述種子文件中還包括:

每對(duì)特征詞對(duì)應(yīng)的類別信息;

并且,所述獲取到的特征詞對(duì)與所述種子詞對(duì)的類別相同。

可選的,所述基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,具體包括:

提取每對(duì)種子詞對(duì)的上下文信息作為候選模板;

判斷所述候選模板是否滿足第一預(yù)設(shè)條件;

在所述候選模板滿足所述第一預(yù)設(shè)條件時(shí),將所述候選模板作為所述特征模板。

可選的,所述判斷所述候選模板是否滿足第一預(yù)設(shè)條件,具體為:

判斷所述候選模板的出現(xiàn)次數(shù)是否大于預(yù)設(shè)次數(shù);和/或

判斷所述候選模板的置信度是否大于預(yù)設(shè)置信度。

可選的,所述置信度通過以下公式計(jì)算:

<mrow> <msub> <mi>Confidence</mi> <mi>j</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mrow> <mo>(</mo> <mi>a</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中Count(Seedi,Patternj)為種子詞對(duì)與候選模板共同出現(xiàn)次數(shù),Count(Seedi)為種子詞對(duì)出現(xiàn)次數(shù),Count(Patternj)為候選模板出現(xiàn)次數(shù),其中a和b為累加權(quán)重。

可選的,基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)后,所述方法還包括:

判斷獲取到的特征詞對(duì)與種子文件中包含的特征詞對(duì)是否存在沖突;

如果不存在沖突,則將獲取到的特征詞對(duì)加入到種子文件中。

可選的,所述關(guān)聯(lián)關(guān)系包含以下關(guān)系中的至少一種關(guān)系:

"a>b"關(guān)系,表示特征詞a是特征詞b的父節(jié)點(diǎn);

"a==b"關(guān)系,表示特征詞a與特征詞b為同一事物的不同名稱;

"a<b"關(guān)系,表示特征詞a是特征詞b的子節(jié)點(diǎn);

"a=b"關(guān)系,表示特征詞a與特征詞b屬于同一層級(jí)關(guān)系。

可選的,所述方法還包括:

獲取用戶的用戶興趣模型;

基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整。

可選的,所述基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整,具體包括:

基于所述關(guān)聯(lián)關(guān)系中的"a>b"關(guān)系,將所述用戶興趣模型中所述b所對(duì)應(yīng)的興趣歸為所述a所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a==b"關(guān)系關(guān)聯(lián)所述用戶興趣模型中表征同一物體的不同名稱;或

基于所述關(guān)聯(lián)關(guān)系中的"a<b"關(guān)系,將所述用戶興趣模型中所述a所對(duì)應(yīng)的興趣歸為所述b所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a=b"關(guān)系,擴(kuò)展所述用戶興趣模型中同一層級(jí)的用戶興趣。

可選的,所述基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整,具體包括:

判斷所述用戶興趣模型中,為第一特征詞的子節(jié)點(diǎn)的特征詞的數(shù)量是否大于第一預(yù)設(shè)數(shù)量;

在大于所述第一預(yù)設(shè)數(shù)量時(shí),將所述第一特征詞加入所述用戶興趣模型。

可選的,所述基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整,具體包括:

判斷所述用戶興趣模型中,與第二特征詞的關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量是否大于第二預(yù)設(shè)數(shù)量;

在與所述第二特征詞的所述關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量大于所述第 二預(yù)設(shè)數(shù)量時(shí),將所述第二特征詞加入所述用戶興趣模型。

第二方面,本發(fā)明實(shí)施例提供一種特征詞關(guān)系獲取裝置,包括:

第一獲取模塊,用于獲取種子文件,所述種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);

提取模塊,用于將所述種子文件中的特征詞對(duì)作為種子詞對(duì),基于所述種子詞對(duì)從語(yǔ)料信息中提取出特征模板,所述特征模板中包含對(duì)應(yīng)所述種子詞對(duì)的上下文信息,N為正整數(shù);

第二獲取模塊,用于基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。

可選的,所述獲取到的特征詞對(duì)與所述種子詞對(duì)具有相同的關(guān)聯(lián)關(guān)系。

可選的,所述第二獲取模塊,具體包括:

第一判斷單元,用于判斷所述語(yǔ)料信息中的第一上下文信息與所述特征模板的相似度是否大于預(yù)設(shè)相似度值;

第一確定單元,用于在所述第一上下文信息與所述具有第一關(guān)聯(lián)關(guān)系的特征模板的相似度值大于所述預(yù)設(shè)相似度值時(shí),確定獲取到的特征詞對(duì)的關(guān)聯(lián)關(guān)系為所述第一關(guān)聯(lián)關(guān)系。

可選的,所述種子文件中還包括:

每對(duì)特征詞對(duì)應(yīng)的類別信息;

并且,所述獲取到的特征詞對(duì)與所述種子詞對(duì)的類別相同。

可選的,所述提取模塊,具體包括:

提取單元,用于提取每對(duì)種子詞對(duì)的上下文信息作為候選模板;

第二判斷單元,用于判斷所述候選模板是否滿足第一預(yù)設(shè)條件;

第二確定單元,用于在所述候選模板滿足所述第一預(yù)設(shè)條件時(shí),將所述候選模板作為所述特征模板。

可選的,所述第二判斷單元,具體用于:

判斷所述候選模板的出現(xiàn)次數(shù)是否大于預(yù)設(shè)次數(shù);和/或

判斷所述候選模板的置信度是否大于預(yù)設(shè)置信度。

可選的,所述置信度通過以下公式計(jì)算:

<mrow> <msub> <mi>Confidence</mi> <mi>j</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mrow> <mo>(</mo> <mi>a</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中Count(Seedi,Patternj)為種子詞對(duì)與候選模板共同出現(xiàn)次數(shù),Count(Seedi)為種子詞對(duì)出現(xiàn)次數(shù),Count(Patternj)為候選模板出現(xiàn)次數(shù),其中a和b為累加權(quán)重。

可選的,所述裝置還包括:

判斷模塊,用于在基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)后,判斷獲取到的特征詞對(duì)與種子文件中包含的特征詞對(duì)是否存在沖突;

加入模塊,用于如果不存在沖突,則將獲取到的特征詞對(duì)加入到種子文件中。

可選的,所述關(guān)聯(lián)關(guān)系包含以下關(guān)系中的至少一種關(guān)系:

"a>b"關(guān)系,表示特征詞a是特征詞b的父節(jié)點(diǎn);

"a==b"關(guān)系,表示特征詞a與特征詞b為同一事物的不同名稱;

"a<b"關(guān)系,表示特征詞a是特征詞b的子節(jié)點(diǎn);

"a=b"關(guān)系,表示特征詞a與特征詞b屬于同一層級(jí)關(guān)系。

可選的,所述裝置還包括:

第三獲取模塊,用于獲取用戶的用戶興趣模型;

調(diào)整模塊,用于基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整。

可選的,所述調(diào)整模塊,具體包括:

基于所述關(guān)聯(lián)關(guān)系中的"a>b"關(guān)系,將所述用戶興趣模型中所述b所對(duì)應(yīng)的興趣歸為所述a所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a==b"關(guān)系關(guān)聯(lián)所述用戶興趣模型中表征同一物體的不同名稱;或

基于所述關(guān)聯(lián)關(guān)系中的"a<b"關(guān)系,將所述用戶興趣模型中所述a所對(duì)應(yīng)的興趣歸為所述b所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a=b"關(guān)系,擴(kuò)展所述用戶興趣模型中同一層級(jí)的用戶興趣。

可選的,所述調(diào)整模塊,具體包括:

第三判斷單元,用于判斷所述用戶興趣模型中,為第一特征詞的子節(jié)點(diǎn)的特征詞的數(shù)量是否大于第一預(yù)設(shè)數(shù)量;

第一加入單元,用于在大于所述第一預(yù)設(shè)數(shù)量時(shí),將所述第一特征詞加入所述用戶興趣模型。

可選的,所述調(diào)整模塊,具體包括:

第四判斷單元,用于判斷所述用戶興趣模型中,與第二特征詞的關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量是否大于第二預(yù)設(shè)數(shù)量;

第二加入單元,用于在與所述第二特征詞的所述關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量大于所述第二預(yù)設(shè)數(shù)量時(shí),將所述第二特征詞加入所述用戶興趣模型。

本發(fā)明有益效果如下:

由于在本發(fā)明實(shí)施例中,首先獲取種子文件,種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);然后將種子文件中的特征詞對(duì)作為種子詞對(duì),基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,特征模板中包含對(duì)應(yīng)種子詞對(duì)的上下文信息,N為正整數(shù);最后基于特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。也就是說,可以基于種子詞對(duì)自動(dòng)分析獲得其他特征詞對(duì)以及對(duì)應(yīng)特征詞對(duì)的關(guān)聯(lián)關(guān)系,不需要通過人工打標(biāo)方式獲取所有的特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,從而達(dá)到了降低人力資源的浪費(fèi)的技術(shù)效果。

附圖說明

圖1為本發(fā)明實(shí)施例中特征詞關(guān)系獲取方法的流程圖;

圖2為本發(fā)明實(shí)施例特征詞關(guān)系獲取方法中從語(yǔ)料信息中提取出特征模板的流程圖;

圖3為本發(fā)明實(shí)施例特征詞關(guān)系獲取方法中進(jìn)行信息推薦的流程圖;

圖4為本發(fā)明實(shí)施例中特征詞關(guān)系獲取裝置的結(jié)構(gòu)圖。

具體實(shí)施方式

本發(fā)明提供一種特征詞關(guān)系獲取方法及裝置,以解決現(xiàn)有技術(shù)中只能通過人工打標(biāo)方式獲得所有特征詞對(duì)以及每對(duì)特征詞的關(guān)聯(lián)關(guān)系,從而導(dǎo)致人力資源大量浪費(fèi)的技術(shù)問題。

本申請(qǐng)實(shí)施例中的技術(shù)方案為解決上述的技術(shù)問題,總體思路如下:

首先獲取種子文件,種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);然后將種子文件中的特征詞對(duì)作為種子詞對(duì),基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,特征模板中包含對(duì)應(yīng)種子詞對(duì)的上下文信息,N為正整數(shù);最后基于特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。也就是說,可以基于種子詞對(duì)自動(dòng)分析獲得其他特征詞對(duì)以及對(duì)應(yīng)特征詞對(duì)的關(guān)聯(lián)關(guān)系,不需要通過人工打標(biāo)方式獲取所有的特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,從而達(dá)到了降低人力資源的浪費(fèi)的技術(shù)效果。

為了更好的理解上述技術(shù)方案,下面通過附圖以及具體實(shí)施例對(duì)本發(fā)明技術(shù)方案做詳細(xì)的說明,應(yīng)當(dāng)理解本發(fā)明實(shí)施例以及實(shí)施例中的具體特征是對(duì)本發(fā)明技術(shù)方案的詳細(xì)的說明,而不是對(duì)本發(fā)明技術(shù)方案的限定,在不沖突的情況下,本發(fā)明實(shí)施例以及實(shí)施例中的技術(shù)特征可以相互組合。

第一方面,本發(fā)明實(shí)施例提供一種特征詞關(guān)系獲取方法,請(qǐng)參考圖1,包括:

步驟S101:獲取種子文件,種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);

步驟S102:將種子文件中的特征詞對(duì)作為種子詞對(duì),基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,特征模板中包含對(duì)應(yīng)種子詞對(duì)的上下文信息,N為正整數(shù);

步驟S103:基于特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。

舉例來(lái)說,該方法可以應(yīng)用于筆記本電腦、手機(jī)、平板電腦等等。

步驟S101中,在具體實(shí)施過程中,關(guān)聯(lián)關(guān)系包含以下關(guān)系中的至少一種關(guān)系:

①"a>b"關(guān)系,表示特征詞a是特征詞b的父節(jié)點(diǎn);

②"a==b"關(guān)系,表示特征詞a與特征詞b為同一事物的不同名稱;

③"a<b"關(guān)系,表示特征詞a是特征詞b的子節(jié)點(diǎn);

④"a=b"關(guān)系,表示特征詞a與特征詞b屬于同一層級(jí)關(guān)系。

優(yōu)選的,所述關(guān)聯(lián)關(guān)系為偏序關(guān)系。

在步驟S101中,種子文件的獲取方式可以有多種,舉例來(lái)說,可以首先獲取語(yǔ)料信息,語(yǔ)料信息例如為:新聞?wù)Z料、文檔語(yǔ)料、書籍語(yǔ)料等等,可以基于不同的應(yīng)用場(chǎng)景采用不同的語(yǔ)料,例如:如果所獲取的特征詞在后期用于文檔推薦,則語(yǔ)料至少包括文檔語(yǔ)料;如果所獲取的特征詞在后續(xù)用于新聞推薦,則語(yǔ)料至少包括新聞?wù)Z料;如果所獲取的特征詞在后期用于書籍推薦,則語(yǔ)料至少包括書籍語(yǔ)料等等。

然后,可以對(duì)語(yǔ)料進(jìn)行分類,以語(yǔ)料是新聞?wù)Z料為例,則可以首先建立新聞標(biāo)簽體系,然后生成對(duì)應(yīng)標(biāo)簽體系的分類器,例如:可以將新聞?wù)Z料分為體育、娛樂、財(cái)經(jīng)、汽車等總共46(當(dāng)然也可以為其他值,例如:20、40等等)個(gè)大類。

然后,針對(duì)每個(gè)分類下的新聞?wù)Z料,可以先對(duì)新聞?wù)Z料進(jìn)行分詞,接著可以對(duì)其中的特征詞進(jìn)行標(biāo)記,標(biāo)記一方面是確定特征詞,另一方面是標(biāo)記對(duì)應(yīng)特征詞間的關(guān)聯(lián)關(guān)系。另外,在對(duì)特征詞進(jìn)行標(biāo)記之前,還可以對(duì)新聞?wù)Z料進(jìn)行去重處理,進(jìn)而基于此可以從新聞?wù)Z料中獲取M個(gè)特征詞對(duì),以及對(duì)應(yīng)特征詞對(duì)的關(guān)聯(lián)關(guān)系,M對(duì)特征詞對(duì)以及對(duì)應(yīng)特征詞對(duì)的關(guān)聯(lián)關(guān)系即構(gòu)成種子文件。

其中,所獲得的M個(gè)特征詞對(duì)可以全部對(duì)應(yīng)上述四種關(guān)聯(lián)關(guān)系中的某一種關(guān)聯(lián)關(guān)系,M對(duì)特征詞對(duì)中也可以部分特征詞對(duì)應(yīng)上述第①種關(guān)聯(lián)關(guān)系、部分對(duì)應(yīng)上述第②種關(guān)聯(lián)關(guān)系等等。

步驟S102中,可以從每條語(yǔ)料信息中提取上下文信息,并獲取對(duì)應(yīng)語(yǔ)料信息中種子詞對(duì)的關(guān)聯(lián)關(guān)系作為所提取出的上下文信息的關(guān)聯(lián)關(guān)系,例如,以語(yǔ)料信息為“北京時(shí)間3月17日,勇士主場(chǎng)迎戰(zhàn)湖人”為例,則經(jīng)過分詞、標(biāo)記之后,獲得如下內(nèi)容:

“北京時(shí)間3月17日勇士(特征詞)主場(chǎng)迎戰(zhàn)湖人(特征詞)”,

其中,“勇士”和“湖人”為種子詞對(duì),關(guān)聯(lián)關(guān)系為a=b(也即:勇士=湖人)。

則勇士和湖人中間的詞“主場(chǎng)迎戰(zhàn)”(也即上下文信息)則為特征模板。

其中,在某一類別下,針對(duì)不同的關(guān)聯(lián)關(guān)系可以設(shè)置不同特征模板庫(kù),分別存儲(chǔ)多個(gè)對(duì)應(yīng)的上下文信息,進(jìn)而不需要針對(duì)每一條上下文信息都存儲(chǔ)其對(duì)應(yīng)的關(guān)聯(lián)關(guān)系,而是直接基于對(duì)應(yīng)的特征模板庫(kù)獲取上下文信息的關(guān)聯(lián)關(guān)系;又或者,可以將同一類別下,所有關(guān)聯(lián)關(guān)系的上下文信息放置于同一特征模板庫(kù),在這種情況下,既要存儲(chǔ)上下文信息,又要存儲(chǔ)對(duì)應(yīng)的關(guān)聯(lián)關(guān)系。

步驟S102中,可以將提取出的所有的上下文信息都作為特征模板加入特征模板庫(kù),而為了優(yōu)化特征模板庫(kù)中特征模板的質(zhì)量,作為進(jìn)一步的優(yōu)選實(shí)施例,基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,請(qǐng)參考圖2,具體包括:

步驟S201:提取每對(duì)種子詞對(duì)的上下文信息作為候選模板;

步驟S202:判斷候選模板是否滿足第一預(yù)設(shè)條件;

步驟S203:在候選模板滿足第一預(yù)設(shè)條件時(shí),將候選模板作為特征模板。

步驟S201中,對(duì)于如何提取每對(duì)種子詞對(duì)的上下文信息由于在前面已作介紹,故而在此不再贅述。

步驟S202中,第一預(yù)設(shè)條件可以多種不同的預(yù)設(shè)條件,下面列舉其中的兩種進(jìn)行介紹,在不沖突的情況下,以下兩種預(yù)設(shè)條件可以組合使用,另外,在具體實(shí)施過程中,預(yù)設(shè)條件不限于以下兩種情況。

第一種,判斷候選模板是否滿足第一預(yù)設(shè)條件,具體為:判斷候選模板的出現(xiàn)次數(shù)是否大于預(yù)設(shè)次數(shù)。

舉例來(lái)說,預(yù)設(shè)次數(shù)例如為:20次、30次等等,在候選模板出現(xiàn)的次數(shù) 大于預(yù)設(shè)次數(shù)時(shí),才能夠保證對(duì)應(yīng)候選模板的上下文具備參考價(jià)值,而如果對(duì)所有的候選模板都進(jìn)行存儲(chǔ)的話,一方面會(huì)導(dǎo)致存儲(chǔ)負(fù)擔(dān)過重,另一方面,在通過特征模板獲取對(duì)應(yīng)的特征詞對(duì)時(shí),也會(huì)導(dǎo)致實(shí)施該方法的裝置的處理負(fù)擔(dān)較重。故而通過上述方案,可以降低實(shí)施例該方法的裝置的存儲(chǔ)負(fù)擔(dān)和處理負(fù)擔(dān)。

第二種,判斷候選模板是否滿足第一預(yù)設(shè)條件,具體為:判斷候選模板的置信度是否大于預(yù)設(shè)置信度。

舉例來(lái)說,置信度通過以下公式計(jì)算:

<mrow> <msub> <mi>Confidence</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>&Sigma;</mi> <mi>i</mi> </msub> <mi></mi> <mrow> <mo>(</mo> <mi>a</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <mo>&CenterDot;</mo> <mo>[</mo> <mn>1</mn> <mo>]</mo> </mrow>

其中Count(Seedi,Patternj)為種子詞對(duì)與候選模板共同出現(xiàn)次數(shù),Count(Seedi)為種子詞對(duì)出現(xiàn)次數(shù),Count(Patternj)為候選模板出現(xiàn)次數(shù),其中a和b為累加權(quán)重。通過上述置信度公式能夠保證所獲取的特征模板有著較高的準(zhǔn)確度。

其中,a、b取值例如都為0.5,又或者a取值0.4、b取值0.6等等,對(duì)于a、b的取值本發(fā)明實(shí)施例不再詳細(xì)列舉,并且不作限制。

另外,在基于上述步驟S201和步驟S202獲得滿足第一預(yù)設(shè)條件的多個(gè)候選模板之后,可以直接將這多個(gè)候選模板作為特征模板,加入特征模板庫(kù),而為了進(jìn)一步的提高特征模板的質(zhì)量,也可以繼續(xù)對(duì)特征模板進(jìn)行篩選,例如:將基于步驟S201和步驟S202所獲得的滿足第一預(yù)設(shè)條件的候選模板按照置信度值從高到低進(jìn)行排序,進(jìn)而篩選出位于前N(例如:100、200等等)位的候選模板作為篩選出的最終的特征模板。

通過上述方案,一方面能夠節(jié)省上下文信息的存儲(chǔ)空間,另一方面,又能夠降低實(shí)施例該方法的裝置的處理負(fù)擔(dān)。

步驟S103中,可以通過多種方式獲得每對(duì)特征詞的關(guān)聯(lián)關(guān)系,下面列舉其中的兩種進(jìn)行介紹,當(dāng)然,在具體實(shí)施過程中,不限于以下兩種情況。

①獲取到的特征詞對(duì)與種子詞對(duì)具有相同的關(guān)聯(lián)關(guān)系。

舉例來(lái)說,在通過種子詞對(duì)及每對(duì)種子詞的關(guān)聯(lián)關(guān)系提取出特征模板時(shí), 可以確定出對(duì)應(yīng)特征模板的關(guān)聯(lián)關(guān)系,例如,假設(shè)種子詞對(duì)“馬刺”、“公牛”的關(guān)聯(lián)關(guān)系為“=”,而通過該種子詞對(duì)確定出以下的特征模板“主場(chǎng)迎戰(zhàn)”,則可以確定出該特征模板的關(guān)聯(lián)關(guān)系為“=”;

而在步驟S103中,假設(shè)通過特征模板“主場(chǎng)迎戰(zhàn)”確定出以下的特征詞對(duì)“熱火”、“火箭”,則確定出特征詞對(duì)“熱火”、“火箭”的關(guān)聯(lián)關(guān)系也為“=”。

②判斷語(yǔ)料信息中的第一上下文信息與特征模板的相似度是否大于預(yù)設(shè)相似度值;

在第一上下文信息與具有第一關(guān)聯(lián)關(guān)系的特征模板的相似度值大于預(yù)設(shè)相似度值時(shí),確定獲取到的特征詞對(duì)的關(guān)聯(lián)關(guān)系為第一關(guān)聯(lián)關(guān)系。

舉例來(lái)說,假設(shè)語(yǔ)料信息中包含以下語(yǔ)料“北京時(shí)間1月23日,馬刺主場(chǎng)迎戰(zhàn)公?!保瑒t可以提取其對(duì)應(yīng)的第一上下文信息為“主場(chǎng)迎戰(zhàn)”;

而每個(gè)關(guān)聯(lián)關(guān)系可以包含多個(gè)特征模板,可以將第一上下文信息與多個(gè)關(guān)聯(lián)關(guān)系中每個(gè)特征模板進(jìn)行匹配,最終確定出第一上下文信息與關(guān)聯(lián)關(guān)系“a=b”中的特征模板“主場(chǎng)迎戰(zhàn)”是相同的(也即相似度值為100%),故而從“北京時(shí)間1月23日,馬刺主場(chǎng)迎戰(zhàn)公牛”提取出“馬刺”、“公牛”作為一個(gè)特征詞對(duì),同時(shí)這對(duì)特征詞對(duì)的關(guān)聯(lián)關(guān)系為:“a=b”。

作為進(jìn)一步的優(yōu)選實(shí)施例,種子文件中還包括:每對(duì)特征詞的類別信息,進(jìn)而步驟S103中所獲取到的特征詞對(duì)也包含對(duì)應(yīng)的類別信息,在具體實(shí)施過程中,可以通過多種方式確定出特征詞對(duì)的類別信息,下面列舉其中的兩種方式進(jìn)行介紹,當(dāng)然,在具體實(shí)施過程中,不限于以下兩種情況。

①獲取到特征詞對(duì)與種子詞對(duì)的類別相同。

舉例來(lái)說,假設(shè)通過nba類別下種子文件提取出以下的特征模板:“主場(chǎng)”、”迎戰(zhàn)”,則該特征模板的類別為nba;

然后,通過特征模板“主場(chǎng)”、”迎戰(zhàn)”從語(yǔ)料信息為“北京時(shí)間1月23日,馬刺主場(chǎng)迎戰(zhàn)公?!碧崛〕觥榜R刺”、“公?!弊鳛橐粚?duì)特征詞,則可以確定出特征詞對(duì)“馬刺”、“公牛”的類別信息為nba。

②在獲得語(yǔ)料信息之后對(duì)語(yǔ)料信息進(jìn)行分類,然后針對(duì)每個(gè)分類下的語(yǔ)料信息分別提取對(duì)應(yīng)的特征詞對(duì),在這種情況下,對(duì)應(yīng)特征詞對(duì)的類別信息與語(yǔ)料信息相同。

例如,假設(shè)從“北京時(shí)間1月23日,馬刺主場(chǎng)迎戰(zhàn)公?!碧崛〕觥榜R刺”、“公?!弊鳛橐粚?duì)特征詞,而“北京時(shí)間1月23日,馬刺主場(chǎng)迎戰(zhàn)公?!钡念悇e信息為“nba”,則可以提取出以下信息“nba馬刺公牛”,其中“nba”為類別信息,“馬刺”、“公?!眲t為特征詞對(duì)。

作為進(jìn)一步的優(yōu)選實(shí)施例,步驟S103中特征詞對(duì)具體為:實(shí)體詞對(duì)。

通常情況下,實(shí)體詞指的是能夠明確的描述用戶興趣的特征詞。其中,實(shí)體詞通常具備以下條件:①名詞;②指代明確;③非大眾;④非小眾,下面將對(duì)上述四種條件分別進(jìn)行介紹。

①名詞:通常情況下,用戶興趣特征中的關(guān)鍵詞基本上都是名詞,如:汽車、電影、體育,但并非所有名詞均適合用作描述用戶興趣,如:人們、集團(tuán)、友情。通常情況下,實(shí)體詞主要包括專有名詞、個(gè)體名詞和物質(zhì)名詞,而集體名詞、抽象名詞基本不是實(shí)體詞。

②指代明確:漢語(yǔ)是一個(gè)靈活百變的語(yǔ)言,往往一個(gè)詞包含有多個(gè)含義,如蘋果(食物/數(shù)碼產(chǎn)品)、火箭(航天器/nba球隊(duì)),用作用戶興趣必須要指代明確,所以在本發(fā)明實(shí)施例中將所有特征詞分成若干類別,單獨(dú)為每個(gè)類別抽取實(shí)體詞。結(jié)合類別實(shí)體詞指代便明確了,如:美食.蘋果和數(shù)碼.蘋果、軍事.火箭和nba.火箭。

③非大眾:抽象名詞、集體名詞是人們對(duì)于名詞基于已有知識(shí)的劃分,但對(duì)于計(jì)算機(jī)卻無(wú)法識(shí)別,也無(wú)法反應(yīng)用戶的興趣特征,而從大量新聞?wù)Z料中發(fā)現(xiàn)這類詞分布廣出現(xiàn)頻率高,故而可以通過這種分布特征去除;

④非小眾:此處的小眾指的是滿足上述條件后各垂直類別內(nèi)部出現(xiàn)頻率很低的特征詞。去除此部分詞的原因不是因?yàn)樾”娫~一定不是實(shí)體詞,而是因?yàn)樵擃愒~數(shù)據(jù)采樣不足,引入該類詞同時(shí)會(huì)引入更多的噪音。

作為進(jìn)一步的優(yōu)選實(shí)施例,在步驟S103基于特征模板獲取特征詞對(duì)之后,方法還包括:

判斷獲取到的特征詞對(duì)與種子文件中包含特征詞對(duì)是否存在沖突;

如果不存在沖突,則將獲取到的特征詞對(duì)加入到種子文件中。

舉例來(lái)說,假設(shè)獲取到如下的特征詞對(duì)“nba小皇帝<詹姆斯”,而在種子文件中包含以下的特征詞對(duì)“nba詹姆斯==詹皇”、“nba詹姆斯==小皇帝”,則由種子文件的關(guān)聯(lián)關(guān)系可以推斷出“nba小皇帝==詹姆斯”,由此可以推斷出獲取到的特征詞對(duì)與種子文件中的特征詞對(duì)存在沖突。

又例如,假設(shè)獲得如下的特征詞對(duì)“nba騎士<詹皇”,而種子文件中包含以下的特征詞對(duì)“nba布帥<騎士”,“nba布帥=詹皇”,由種子文件中的特征詞對(duì)可以推斷出如下的關(guān)聯(lián)關(guān)系“nba詹皇<騎士”,由此可知,所獲取的特征詞對(duì)與種子文件中的特征詞對(duì)存在沖突。

當(dāng)然,在具體實(shí)施過程中,還可能存在其他沖突形式,對(duì)此本發(fā)明實(shí)施例不再詳細(xì)列舉,并且不作限制。在基于步驟S103獲得多對(duì)具有關(guān)聯(lián)關(guān)系的特征詞對(duì)之后,該多對(duì)具有關(guān)聯(lián)關(guān)系的特征詞對(duì)可以存在多種用途,下面列舉其中的兩種用途進(jìn)行介紹,當(dāng)然,在具體實(shí)施過程中,不限于以下兩種情況。

第一種,方法還包括:獲取用戶的用戶興趣模型;基于多對(duì)特征詞以及每對(duì)特征詞的關(guān)聯(lián)關(guān)系對(duì)用戶興趣模型進(jìn)行調(diào)整。

在具體實(shí)施過程中,可以通過多種方式獲取用戶興趣模型,下面列舉其中的三種進(jìn)行介紹,當(dāng)然,在具體實(shí)施過程中,不限于以下三種情況。

①基于用戶的用戶瀏覽行為數(shù)據(jù)確定第一類關(guān)鍵詞,將第一類關(guān)鍵詞加入用戶興趣模型。

舉例來(lái)說,可以先獲取用戶的瀏覽行為數(shù)據(jù),然后從用戶瀏覽行為數(shù)據(jù)中提取出多個(gè)特征詞,并將這多個(gè)特征詞加入用戶興趣模型。

②基于用戶的輸入所產(chǎn)生數(shù)據(jù)確定第二類關(guān)鍵詞,將第二類關(guān)鍵詞加入用戶興趣模型。

舉例來(lái)說,可以先獲取用戶的輸入行為數(shù)據(jù),然后從輸入行為數(shù)據(jù)中提取出多個(gè)特征詞,并將這多個(gè)特征詞加入用戶興趣模型。

③基于用戶的標(biāo)簽信息確定第三類關(guān)鍵詞,將第三類關(guān)鍵詞加入用戶興趣模型。

舉例來(lái)說,可以獲得用戶的標(biāo)簽信息,例如:微博標(biāo)簽、微信標(biāo)簽等等,其中該標(biāo)簽信息即可以為用戶自己設(shè)置的標(biāo)簽信息,又可以為其他用戶設(shè)置的標(biāo)簽信息,然后從標(biāo)簽信息中提取出多個(gè)特征詞,并將這多個(gè)特征詞加入用戶興趣模型。

其中可以通過多種方式對(duì)用戶興趣模型進(jìn)行調(diào)整,下面列舉其中的幾種進(jìn)行介紹,當(dāng)然在具體實(shí)施過程中,并不限于以下幾種情況,另外,在不沖突的情況下,以下幾種調(diào)整方式可以組合使用。

①基于關(guān)聯(lián)關(guān)系中的"a>b"關(guān)系,將用戶興趣模型中b所對(duì)應(yīng)的興趣歸為a所對(duì)應(yīng)的興趣的子集;

舉例來(lái)說,假設(shè)基于前面所介紹的方案,確定出如下的特征詞的關(guān)聯(lián)關(guān)系:

“nba詹皇<騎士”、“nba布帥<騎士”

則可以將nba分類下的“詹皇”、“布帥”歸于騎士的子類。

②基于關(guān)聯(lián)關(guān)系中的"a==b"關(guān)系合并用戶興趣模型中表征同一物體的不同名稱。

舉例來(lái)說,假設(shè)基于前面所介紹的方案,確定出如下的特征詞對(duì)的關(guān)聯(lián)關(guān)系:

“詹姆斯==詹皇”、“詹姆斯==小皇帝”

則可以將“詹姆斯”、“詹皇”、“小皇帝”這些特征詞關(guān)聯(lián)起來(lái),以表征這多個(gè)特征詞表征同一含義。

關(guān)聯(lián)關(guān)系關(guān)聯(lián)關(guān)系

③基于關(guān)聯(lián)關(guān)系中的"a<b"關(guān)系,將用戶興趣模型中a所對(duì)應(yīng)的興趣歸為b所對(duì)應(yīng)的興趣的子集;

該歸類方式與第②種方案類似,故而在此不再贅述。

④基于關(guān)聯(lián)關(guān)系中的"a=b"關(guān)系,擴(kuò)展用戶興趣模型中同一層級(jí)的用戶興趣。

舉例來(lái)說,例如用戶A具有興趣中有“nba.韋德”、“nba.安德森”、“nba.科爾”等興趣,而基于前面的方案確定出如下的特征詞對(duì)及關(guān)聯(lián)關(guān)系:“nba韋德=波什”、“nba安德森=波什”,則可以將用戶興趣模型中擴(kuò)展出“nba波什”的興趣。

⑤基于多對(duì)特征詞對(duì)以及每對(duì)特征詞對(duì)的關(guān)聯(lián)關(guān)系對(duì)用戶興趣模型進(jìn)行調(diào)整,具體包括:

判斷用戶興趣模型中,為第一特征詞的子節(jié)點(diǎn)的特征詞的數(shù)量是否大于第一預(yù)設(shè)數(shù)量;

在大于第一預(yù)設(shè)數(shù)量時(shí),將第一特征詞加入用戶興趣模型。

舉例來(lái)說,第一預(yù)設(shè)數(shù)量例如為:10次、20次等等,可以根據(jù)實(shí)際需求設(shè)置不同的第一預(yù)設(shè)數(shù)量,本發(fā)明實(shí)施例不再詳細(xì)列舉,并且不作限制。

舉例來(lái)說,假設(shè)用戶A的用戶興趣模型中具有興趣中有“nba.韋德”、“nba.安德森”、“nba.科爾”等興趣,而特征詞“韋德”、“安德森”、“科爾”為“熱火”的子節(jié)點(diǎn),則可以確定出用戶可能對(duì)“熱火”比較感興趣,故而可以將特征詞“熱火”加入用戶興趣模型。

⑥基于多對(duì)特征詞對(duì)以及每對(duì)特征詞對(duì)的關(guān)聯(lián)關(guān)系對(duì)用戶興趣模型進(jìn)行調(diào)整,具體包括:

判斷用戶興趣模型中,與第二特征詞的關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量是否大于第二預(yù)設(shè)數(shù)量;

在與第二特征詞的關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量大于第二預(yù)設(shè)數(shù)量時(shí),將第二特征詞加入用戶興趣模型。

舉例來(lái)說,第二預(yù)設(shè)數(shù)量例如為:10、20等等,可以根據(jù)實(shí)際需求設(shè)置不同的第二預(yù)設(shè)數(shù)量,對(duì)此本發(fā)明實(shí)施例不再詳細(xì)列舉,并且不作限制。

舉例來(lái)說,假設(shè)用戶A的用戶興趣模型中具有興趣中有“nba.韋德”、“nba.安德森”、“nba.科爾”等興趣,而特征詞“韋德”、“安德森”、“科爾”與特征詞“波什”的關(guān)聯(lián)關(guān)系都是“=”,則可以確定出用戶可能對(duì)“波什”比較感興趣,故而可以將特征詞“波什”加入用戶興趣模型。

第二種,請(qǐng)參考圖3,方法還包括:

步驟S301:確定用戶的用戶興趣模型;

步驟S302:基于多對(duì)特征詞以及每對(duì)特征詞的關(guān)聯(lián)關(guān)系對(duì)信息進(jìn)行組織;

步驟S303:確定信息中對(duì)應(yīng)用戶興趣模型的推薦信息,并將推薦信息提供給用戶。

步驟S301中,對(duì)于具體如何獲得用戶的用戶興趣模型,由于前面已作介紹,故而在此不再贅述。

步驟S302中,可以以特征詞作為新聞組織方式,將新聞源組織成若干興趣新聞桶,例如:每一個(gè)特征詞建立一個(gè)桶,用于存儲(chǔ)與該興趣相關(guān)的新聞。

步驟S303中,可以獲取用戶興趣模型中所包含的特征詞,然后通過用戶興趣模型所包含的特征詞在新聞桶內(nèi)查找特征詞相同的信息作為推薦信息,并提供給用戶。

以信息為新聞為例,則可以將用戶興趣模型以及新聞索引輸入推薦系統(tǒng),推薦系統(tǒng)則可以從新聞索引中獲得用戶興趣模型中的特征詞所對(duì)應(yīng)的新聞索引,然后將這些新聞索引所對(duì)應(yīng)的新聞推薦給用戶。

在具體實(shí)施過程中,在將新聞信息歸入各個(gè)特征詞桶之后,還可以對(duì)新聞進(jìn)行調(diào)整,可以采用多種調(diào)整方式,下面列舉其中的四種進(jìn)行介紹,當(dāng)然,在具體實(shí)施過程中,不限于以下四種情況,另外,在不沖突的情況下,以下四種情況可以組合使用。

①基于關(guān)聯(lián)關(guān)系中的"a==b"關(guān)系合并各個(gè)特征詞桶中的表征同一物體的不同名稱的特征詞桶;

舉例來(lái)說,假設(shè)基于前面所介紹的方案,確定出如下的特征詞對(duì)的關(guān)聯(lián)關(guān) 系:

“詹姆斯==詹皇”、“詹姆斯==小皇帝”

則將特征詞桶“詹姆斯”、“詹皇”、“小皇帝”的新聞全部合并到一個(gè)特征詞桶。

②基于關(guān)聯(lián)關(guān)系中的"a>b"關(guān)系,將各個(gè)特征詞桶中特征詞b所對(duì)應(yīng)的新聞信息歸為特征詞a所對(duì)應(yīng)的新聞信息的子集,并加入特征詞a對(duì)應(yīng)的特征詞桶中;

舉例來(lái)說,假設(shè)基于前面所介紹的方案,確定出如下的特征詞對(duì)的關(guān)聯(lián)關(guān)系:

“nba詹皇<騎士”、“nba布帥<騎士”

則將特征詞桶“詹皇”、“布帥”的新聞同時(shí)加入到“騎士”特征詞桶。

③基于關(guān)聯(lián)關(guān)系中的"a<b"關(guān)系,將各個(gè)特征詞桶中特征詞a所對(duì)應(yīng)的新聞信息歸為特征詞b所對(duì)應(yīng)的新聞信息的子集,并加入特征詞b對(duì)應(yīng)的特征詞桶中;

該歸類方式與第②種方式類似,故而在此不再贅述。

④基于關(guān)聯(lián)關(guān)系中的"a=b"關(guān)系,將各個(gè)特征詞桶中特征詞b所對(duì)應(yīng)的新聞信息作為特征詞a所對(duì)應(yīng)的擴(kuò)展推薦信息。

舉例來(lái)說,假設(shè)用戶A具有興趣中有“nba.韋德”、“nba.安德森”、“nba.科爾”等興趣,而基于前面的方案確定出如下的特征詞對(duì)及關(guān)聯(lián)關(guān)系:“nba韋德=波什”、“nba安德森=波什”,則在用戶A的興趣特征較少的情況下,可以將“波什”的相關(guān)新聞作為用戶A的擴(kuò)展推薦新聞。

第二方面,基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例提供一種特征詞關(guān)系獲取裝置,請(qǐng)參考圖4,包括:

第一獲取模塊40,用于獲取種子文件,所述種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);

提取模塊41,用于將所述種子文件中的特征詞對(duì)作為種子詞對(duì),基于所述 種子詞對(duì)從語(yǔ)料信息中提取出特征模板,所述特征模板中包含對(duì)應(yīng)所述種子詞對(duì)的上下文信息,N為正整數(shù);

第二獲取模塊42,用于基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。

可選的,所述獲取到的特征詞對(duì)與所述種子詞對(duì)具有相同的關(guān)聯(lián)關(guān)系。

可選的,所述第二獲取模塊42,具體包括:

第一判斷單元,用于判斷所述語(yǔ)料信息中的第一上下文信息與所述特征模板的相似度是否大于預(yù)設(shè)相似度值;

第一確定單元,用于在所述第一上下文信息與所述具有第一關(guān)聯(lián)關(guān)系的特征模板的相似度值大于所述預(yù)設(shè)相似度值時(shí),確定獲取到的特征詞對(duì)的關(guān)聯(lián)關(guān)系為所述第一關(guān)聯(lián)關(guān)系。

可選的,所述種子文件中還包括:

每對(duì)特征詞對(duì)應(yīng)的類別信息;

并且,所述獲取到的特征詞對(duì)與所述種子詞對(duì)的類別相同。

可選的,所述提取模塊,具體包括:

提取單元,用于提取每對(duì)種子詞對(duì)的上下文信息作為候選模板;

第二判斷單元,用于判斷所述候選模板是否滿足第一預(yù)設(shè)條件;

第二確定單元,用于在所述候選模板滿足所述第一預(yù)設(shè)條件時(shí),將所述候選模板作為所述特征模板。

可選的,所述第二判斷單元,具體用于:

判斷所述候選模板的出現(xiàn)次數(shù)是否大于預(yù)設(shè)次數(shù);和/或

判斷所述候選模板的置信度是否大于預(yù)設(shè)置信度。

可選的,所述置信度通過以下公式計(jì)算:

<mrow> <msub> <mi>Confidence</mi> <mi>j</mi> </msub> <mo>=</mo> <munder> <mi>&Sigma;</mi> <mi>i</mi> </munder> <mrow> <mo>(</mo> <mi>a</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>+</mo> <mi>b</mi> <mo>*</mo> <mfrac> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Seed</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>Count</mi> <mrow> <mo>(</mo> <msub> <mi>Pattern</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>

其中Count(Seedi,Patternj)為種子詞對(duì)與候選模板共同出現(xiàn)次數(shù),Count(Seedi)為種子詞對(duì)出現(xiàn)次數(shù),Count(Patternj)為候選模板出現(xiàn)次數(shù),其中a和b為累加權(quán)重。

可選的,所述裝置還包括:

判斷模塊,用于在基于所述特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)后,判斷獲取到的特征詞對(duì)與種子文件中包含的特征詞對(duì)是否存在沖突;

加入模塊,用于如果不存在沖突,則將獲取到的特征詞對(duì)加入到種子文件中。

可選的,所述關(guān)聯(lián)關(guān)系包含以下關(guān)系中的至少一種關(guān)系:

"a>b"關(guān)系,表示特征詞a是特征詞b的父節(jié)點(diǎn);

"a==b"關(guān)系,表示特征詞a與特征詞b為同一事物的不同名稱;

"a<b"關(guān)系,表示特征詞a是特征詞b的子節(jié)點(diǎn);

"a=b"關(guān)系,表示特征詞a與特征詞b屬于同一層級(jí)關(guān)系。

可選的,所述裝置還包括:

第三獲取模塊,用于獲取用戶的用戶興趣模型;

調(diào)整模塊,用于基于所述種子文件對(duì)所述用戶興趣模型進(jìn)行調(diào)整。

可選的,所述調(diào)整模塊,具體包括:

基于所述關(guān)聯(lián)關(guān)系中的"a>b"關(guān)系,將所述用戶興趣模型中所述b所對(duì)應(yīng)的興趣歸為所述a所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a==b"關(guān)系關(guān)聯(lián)所述用戶興趣模型中表征同一物體的不同名稱;或

基于所述關(guān)聯(lián)關(guān)系中的"a<b"關(guān)系,將所述用戶興趣模型中所述a所對(duì)應(yīng)的興趣歸為所述b所對(duì)應(yīng)的興趣的子集;或

基于所述關(guān)聯(lián)關(guān)系中的"a=b"關(guān)系,擴(kuò)展所述用戶興趣模型中同一層級(jí)的用戶興趣。

可選的,所述調(diào)整模塊,具體包括:

第三判斷單元,用于判斷所述用戶興趣模型中,為第一特征詞的子節(jié)點(diǎn)的特征詞的數(shù)量是否大于第一預(yù)設(shè)數(shù)量;

第一加入單元,用于在大于所述第一預(yù)設(shè)數(shù)量時(shí),將所述第一特征詞加入所述用戶興趣模型。

可選的,所述調(diào)整模塊,具體包括:

第四判斷單元,用于判斷所述用戶興趣模型中,與第二特征詞的關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量是否大于第二預(yù)設(shè)數(shù)量;

第二加入單元,用于在與所述第二特征詞的所述關(guān)聯(lián)關(guān)系為“=”的特征詞的數(shù)量大于所述第二預(yù)設(shè)數(shù)量時(shí),將所述第二特征詞加入所述用戶興趣模型。

本發(fā)明一個(gè)或多個(gè)實(shí)施例,至少具有以下有益效果:

由于在本發(fā)明實(shí)施例中,首先獲取種子文件,種子文件中包含M個(gè)特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,M為正整數(shù);然后將種子文件中的特征詞對(duì)作為種子詞對(duì),基于種子詞對(duì)從語(yǔ)料信息中提取出特征模板,特征模板中包含對(duì)應(yīng)種子詞對(duì)的上下文信息,N為正整數(shù);最后基于特征模板獲取具有關(guān)聯(lián)關(guān)系的特征詞對(duì)。也就是說,可以基于種子詞對(duì)自動(dòng)分析獲得其他特征詞對(duì)以及對(duì)應(yīng)特征詞對(duì)的關(guān)聯(lián)關(guān)系,不需要通過人工打標(biāo)方式獲取所有的特征詞對(duì)以及每對(duì)特征詞之間的關(guān)聯(lián)關(guān)系,從而達(dá)到了降低人力資源的浪費(fèi)的技術(shù)效果。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的嵌入式控制器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明實(shí)施例進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明實(shí)施例的精神和范圍。這樣,倘若本發(fā)明實(shí)施例的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1