一種標(biāo)簽挖掘方法及裝置的制造方法
【專利摘要】一種標(biāo)簽挖掘方法及裝置,該方法包括:從結(jié)構(gòu)化數(shù)據(jù)中挖掘第n種子集合,該第n種子集合中的種子為APP名稱與標(biāo)簽構(gòu)成的二元組,并利用該第n種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行搜索,獲取第n句子集合,該第n句子集合中的句子包含該第n種子集合中的任意一個(gè)種子的APP名稱與標(biāo)簽,且利用該第n句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第n泛化模板集合,根據(jù)該第n泛化模板集合中的泛化模板在該非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置條件的APP名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。通過生成能夠在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的泛化模板集合,能夠有效的實(shí)現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)中的標(biāo)簽挖掘,標(biāo)簽挖掘更加全面。
【專利說明】
-種標(biāo)簽挖掘方法及裝置
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及互聯(lián)網(wǎng)應(yīng)用領(lǐng)域,尤其設(shè)及一種標(biāo)簽挖掘方法及裝置。
【背景技術(shù)】
[0002] 目前,有關(guān)應(yīng)用程序(Application, AP巧的標(biāo)簽挖掘主要有兩種方式,一種是通 過人工標(biāo)記的方式為APP打標(biāo)簽,但是隨著技術(shù)的發(fā)展,APP的數(shù)目越來越多,通過人工打 標(biāo)簽的方式將消耗大量的人力物力且不方便,效率不高,且隨著APP版本的升級(jí),其對(duì)應(yīng)的 標(biāo)簽也會(huì)隨之變化。因此,可W使用第二種方式進(jìn)行標(biāo)簽挖掘,目前,在垂直網(wǎng)站或者百科 頁面中,數(shù)據(jù)信息往往會(huì)W表格的形式展現(xiàn)出來,其顯示的數(shù)據(jù)即為結(jié)構(gòu)化數(shù)據(jù),因此,可 通過對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)簽挖掘,W得到具有APP名稱與標(biāo)簽的二元組,為更好的理解,請(qǐng) 參閱圖1,為游戲天天酷跑的百科頁面的示意圖,且虛線框內(nèi)的數(shù)據(jù)為結(jié)構(gòu)化數(shù)據(jù),其中小 方框內(nèi)的文字即為天天酷跑的標(biāo)簽,包括"單人"及"動(dòng)作射擊",其中,"玩家人數(shù)"為標(biāo)簽 "單人"的類型,"游戲模式"為標(biāo)簽"動(dòng)作射擊"的類型。利用從結(jié)構(gòu)化數(shù)據(jù)中挖掘標(biāo)簽的 方式可從圖1所示的天天酷跑的百科頁面中挖掘出標(biāo)簽(天天酷跑,單人)及(天天酷跑, 射擊游戲)。
[0003] 然而,通過從結(jié)構(gòu)化數(shù)據(jù)中挖掘APP的標(biāo)簽的方式并不適用于非結(jié)構(gòu)化數(shù)據(jù),因 此,如何從非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘成為亟待解決的問題。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明提供一種標(biāo)簽挖掘方法及裝置,用于解決現(xiàn)有技術(shù)中無法從非 結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的問題。 陽〇化]本發(fā)明實(shí)施例提供的標(biāo)簽挖掘方法,包括:
[0006] 從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,所述第η種子集合中的種子為應(yīng)用程序APP 名稱與標(biāo)簽構(gòu)成的二元組,所述η的初始值為1,且η為正整數(shù);
[0007] 利用所述第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合, 所述第η句子集合中的句子包含所述第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽;·
[0008] 利用所述第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合;
[0009] 根據(jù)所述第η泛化模板集合中的泛化模板在所述非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將 挖掘得到的符合預(yù)先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。
[0010] 本發(fā)明實(shí)施例提供的標(biāo)簽挖掘裝置,包括:
[0011] 第一挖掘模塊,用于從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,所述第η種子集合中的種 子為應(yīng)用程序ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,所述η的初始值為1,且η為正整數(shù);
[0012] 檢索模塊,用于在所述第一挖掘模塊得到所述第η種子集合之后,利用所述第η種 子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合,所述第η句子集合中的句 子包含所述第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽;
[0013] 匹配模塊,用于在所述檢索模塊得到所述第η句子集合之后,利用所述第η句子集 合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合;
[0014] 第二挖掘模塊,用于在所述匹配模塊得到所述第η泛化模板集合之后,根據(jù)所述 第η泛化模板集合中的泛化模板在所述非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù) 先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。
[0015] 從W上技術(shù)方案可W看出,本發(fā)明實(shí)施例具有W下優(yōu)點(diǎn):
[0016] 裝置從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中的種子為ΑΡΡ名稱與 標(biāo)簽構(gòu)成的二元組,并利用該第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行捜索,獲取第η 句子集合,該第η句子集合中的句子包含該第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與 標(biāo)簽,且利用該第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合,根據(jù)該 第η泛化模板集合中的泛化模板在該非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù) 先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。通過利用結(jié)構(gòu)化數(shù)據(jù)中挖掘 出來的第η種子集合在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,得到第η句子集合,使得能夠利用該第η 句子集合得到能夠在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的泛化模板集合,能夠有效的實(shí)現(xiàn)在非 結(jié)構(gòu)化數(shù)據(jù)中的標(biāo)簽挖掘,標(biāo)簽挖掘的更加全面。
[0017] 為讓本發(fā)明的上述和其他目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例, 并配合所附圖式,作詳細(xì)說明如下。
【附圖說明】
[0018] 圖1為現(xiàn)有技術(shù)中游戲天天酷跑的百科頁面的示意圖;
[0019] 圖2為本發(fā)明實(shí)施例中服務(wù)器的結(jié)構(gòu)的一個(gè)示意圖;
[0020] 圖3為本發(fā)明實(shí)施例中標(biāo)簽挖掘方法的一個(gè)示意圖;
[0021] 圖4為本發(fā)明實(shí)施例中標(biāo)簽挖掘方法的另一示意圖;
[0022] 圖5為本發(fā)明實(shí)施例中標(biāo)簽挖掘裝置的結(jié)構(gòu)的一個(gè)示意圖;
[0023] 圖6為本發(fā)明實(shí)施例中標(biāo)簽挖掘裝置的結(jié)構(gòu)的另一示意圖。
【具體實(shí)施方式】
[0024] 為更進(jìn)一步闡述本發(fā)明為實(shí)現(xiàn)預(yù)定發(fā)明目的所采取的技術(shù)手段及功效,W下結(jié)合 附圖及較佳實(shí)施例,對(duì)依據(jù)本發(fā)明的【具體實(shí)施方式】、結(jié)構(gòu)、特征及其功效,詳細(xì)說明如后。
[00巧]在本發(fā)明實(shí)施例中,標(biāo)簽挖掘方法可W由標(biāo)簽挖掘裝置執(zhí)行,該標(biāo)簽挖掘裝置 可W是服務(wù)器,請(qǐng)參閱圖2,為本發(fā)明實(shí)施例中該服務(wù)器的結(jié)構(gòu)的示意圖,服務(wù)器100可 因配置或性能不同而產(chǎn)生比較大的差異,可W包括一個(gè)或一個(gè)W上中央處理器(central processing units, CPU) 122(例如,一個(gè)或一個(gè)W上處理器)和存儲(chǔ)器132, 一個(gè)或一個(gè)W 上存儲(chǔ)應(yīng)用程序142或數(shù)據(jù)144的存儲(chǔ)介質(zhì)130 (例如一個(gè)或一個(gè)W上海量存儲(chǔ)設(shè)備)。其 中,存儲(chǔ)器132和存儲(chǔ)介質(zhì)130可W是短暫存儲(chǔ)或持久存儲(chǔ)。存儲(chǔ)在存儲(chǔ)介質(zhì)130的程序 可W包括一個(gè)或一個(gè)W上模塊(圖示未示出),每個(gè)模塊可W包括對(duì)服務(wù)器中的一系列指 令操作。更進(jìn)一步地,中央處理器122可W設(shè)置為與存儲(chǔ)介質(zhì)130通信,在服務(wù)器100上執(zhí) 行存儲(chǔ)介質(zhì)130中的一系列指令操作。服務(wù)器100還可W包括一個(gè)或一個(gè)W上電源126, 一 個(gè)或一個(gè)W上有線或無線網(wǎng)絡(luò)接口 150, 一個(gè)或一個(gè)W上輸入輸出接口 158,和/或,一個(gè)或 一個(gè) W上操作系統(tǒng) 141,例如 Windows ServerTM,Mac 0S XTM,UnixTM,LinuxTM,化eeBSDTM 等等。
[00%] 請(qǐng)參閱圖3,為本發(fā)明實(shí)施例中一種標(biāo)簽挖掘方法的實(shí)施例,包括:
[0027] 301、從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,第η種子集合中的種子為APP名稱與標(biāo) 簽構(gòu)成的二元組,η的初始值為1,且η為正整數(shù);
[0028] 在本發(fā)明實(shí)施例中,標(biāo)簽挖掘裝置(W下簡(jiǎn)稱裝置)將從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η 種子集合,該第η種子集合中包含至少一個(gè)種子,且每一個(gè)種子均為APP名稱與標(biāo)簽構(gòu)成的 二元組,例如:(天天酷跑,單人)為一個(gè)種子。
[0029] 其中,η的初始值為1,且η為正整數(shù)。
[0030] 在本發(fā)明實(shí)施例中,結(jié)構(gòu)化數(shù)據(jù)是指能夠用數(shù)據(jù)或者統(tǒng)一的結(jié)構(gòu)加 W表示的數(shù) 據(jù),例如垂直網(wǎng)站或者百科頁面中W表格形式展現(xiàn)的數(shù)據(jù),其中,結(jié)構(gòu)化數(shù)據(jù)可通過一些規(guī) 則模板提取數(shù)據(jù),且從結(jié)構(gòu)化數(shù)據(jù)中挖掘數(shù)據(jù)為現(xiàn)有技術(shù),此處不做寶述。
[0031] 302、利用第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合, 第η句子集合中的句子包含第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽;
[0032] 在本發(fā)明實(shí)施例中,裝置將利用第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢 索,獲取第η句子集合,其中,第η句子集合中包含至少一個(gè)句子,該句子可W是一個(gè)完整的 句子也可W是一個(gè)句子片段。
[0033] 其中,第η句子集合中的每一個(gè)句子都包含第η種子集合中的任意一個(gè)種子的ΑΡΡ 名稱與標(biāo)簽。例如:第η句子集合中包含的一個(gè)句子為:植物大戰(zhàn)僵尸是非常熱口的塔防游 戲,在該句子中包含的種子為(植物大戰(zhàn)僵尸,塔防游戲),且該種子為該第η種子集合中的 一個(gè)種子。
[0034] 在本發(fā)明實(shí)施例中,除結(jié)構(gòu)化數(shù)據(jù)W外的數(shù)據(jù)均可稱為非結(jié)構(gòu)化數(shù)據(jù),且非結(jié)構(gòu) 化數(shù)據(jù)包括例如:垂直網(wǎng)站頁面中除結(jié)構(gòu)化數(shù)據(jù)W外的其他文本描述的數(shù)據(jù),百科頁面中 除結(jié)構(gòu)化數(shù)據(jù)W外的其他文本描述的數(shù)據(jù),ΑΡΡ的描述內(nèi)容,ΑΡΡ的新聞?wù)牡鹊取?br>[0035] 303、利用第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合;
[0036] 在本發(fā)明實(shí)施例中,裝置在得到第η句子集合后,將利用第η句子集合中的任意兩 個(gè)句子進(jìn)行匹配,得到第η泛化模板集合,即第η句子集合中的每一個(gè)句子都要與該集合中 的其他句子進(jìn)行匹配,得到第η泛化模板集合,其中,該第η泛化模板集合中包含至少一個(gè) 泛化模板,且泛化模板可W用于在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘。
[0037] 304、根據(jù)第η泛化模板集合中的泛化模板在非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘 得到的符合預(yù)先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。
[0038] 在本發(fā)明實(shí)施例中,裝置在得到第η泛化模板集合之后,將根據(jù)該第η泛化模板集 合中的泛化模板在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置條件的ΑΡΡ 名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。其中,語音標(biāo)簽庫是裝置挖掘出來的二元組的 集合。
[0039] 在本發(fā)明實(shí)施例中,裝置從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中的 種子為ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,并利用該第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中 進(jìn)行捜索,獲取第η句子集合,該第η句子集合中的句子包含該第η種子集合中的任意一個(gè) 種子的ΑΡΡ名稱與標(biāo)簽,且利用該第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化 模板集合,根據(jù)該第η泛化模板集合中的泛化模板在該非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將 挖掘得到的符合預(yù)先設(shè)置條件的APP名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。通過利用 結(jié)構(gòu)化數(shù)據(jù)中挖掘出來的第η種子集合在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,得到第η句子集合,使 得能夠利用該第η句子集合得到能夠在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的泛化模板集合,能 夠有效的實(shí)現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)中的標(biāo)簽挖掘,標(biāo)簽挖掘的更加全面。 W40] 為了更好的理解本發(fā)明實(shí)施例中的技術(shù)方案,請(qǐng)參閱圖4,為本發(fā)明實(shí)施例中標(biāo)簽 挖掘方法的實(shí)施例,包括: 陽0川 401、從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,第η種子集合中的種子為ΑΡΡ名稱與標(biāo) 簽構(gòu)成的二元組;
[0042] 在本發(fā)明實(shí)施例中,標(biāo)簽挖掘裝置(W下簡(jiǎn)稱裝置)將先執(zhí)行種子獲取的過程,即 將從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中包含至少一個(gè)種子,且每一個(gè)種子 均為ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,例如:(天天酷跑,單人)為一個(gè)種子。
[0043] 在本發(fā)明實(shí)施例中,裝置在完成種子獲取之后,將執(zhí)行用于標(biāo)簽挖掘的模板即泛 化模板的生成的過程,具體請(qǐng)參閱步驟402至步驟404。
[0044] 402、利用第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配技 術(shù)抽取句子,抽取的句子構(gòu)成第η句子集合; W45] 在本發(fā)明實(shí)施例中,裝置在得到第η種子集合之后,將利用該第η種子集合中的種 子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配技術(shù)抽取句子,抽取的句子構(gòu)成第η句子 集合,且該第η句子集合中的每一個(gè)句子都包含該第η種子集合中的任意一個(gè)種子的ΑΡΡ 名稱與標(biāo)簽,且每一個(gè)句子均滿足預(yù)先設(shè)置的啟發(fā)式約束規(guī)則。
[0046] 在本發(fā)明實(shí)施例中,啟發(fā)式約束規(guī)則可W是句子中包含的種子的ΑΡΡ名稱和標(biāo)簽 在該句子中的距離小于或等于預(yù)先設(shè)置的字符串?dāng)?shù)目;或者,在句子中,種子的名稱與標(biāo)簽 之間的標(biāo)簽符號(hào)的個(gè)數(shù)小于預(yù)先設(shè)置的第一數(shù)值;或者,句子中包含的種子的ΑΡΡ名稱和 標(biāo)簽在句子中的距離小于或等于預(yù)先設(shè)置的字符串?dāng)?shù)目,且在句子中,種子的ΑΡΡ名稱與 標(biāo)簽之間的標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)小于預(yù)先設(shè)置的第一數(shù)值。
[0047] 為了更好的理解利用種子檢索得到的句子,請(qǐng)參閱表1,在表1的左側(cè)為第η種子 集合中的兩個(gè)種子,表1的右側(cè)為對(duì)應(yīng)的在第η句子集合中的句子。
[0048]
[0049] 表 1
[0050] 403、將第η句子集合中的句子劃分為多個(gè)詞單元,按照多個(gè)詞單元生成句子的上 下文模板;
[0051] 在本發(fā)明實(shí)施例中,裝置將該第η句子集合中的每一個(gè)句子都劃分為多個(gè)詞單 元,且對(duì)于每一個(gè)句子,都將按照該句子劃分得到的多個(gè)詞單元生成該句子的上下文模板。
[0052] 其中,裝置將第η句子集合中的句子劃分為多個(gè)詞單元,按照該多個(gè)詞單元生成 句子的上下文模板,具體可W為:裝置將該第η句子集合中的句子裁剪劃分為多個(gè)詞單元, 為詞單元中的APP名稱與標(biāo)簽分別設(shè)置對(duì)應(yīng)的標(biāo)識(shí);例如,在將APP名稱統(tǒng)一設(shè)置成標(biāo)識(shí) 化0T1,將標(biāo)簽統(tǒng)一設(shè)置成標(biāo)識(shí)化0T2。且裝置還將確定詞單元中除APP名稱與標(biāo)簽之外其 他的詞單元的詞性或者語義代碼,并將標(biāo)識(shí)、與前述的詞性或語義代碼按多個(gè)詞單元的順 序進(jìn)行組合得到句子的上下文模板。
[0053] 為了更好的進(jìn)行上下文模板的生成,下面將舉例介紹一個(gè)生成上下文模板的規(guī) 則:
[0054] 1)句子中的詞單元為APP名稱時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0T1,句子中 的詞單元標(biāo)簽時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0T2 ; 陽化5] 2)句子中的詞單元為實(shí)詞時(shí),該詞單元在上下文模板中對(duì)應(yīng)著該詞的語義代碼及 詞性,其中,實(shí)詞主要包括名詞、動(dòng)詞、形容詞和名詞修飾語,其中,語義代碼是指該實(shí)詞在 《同義詞詞林(擴(kuò)展版)》中的語義代碼;
[0056] 3)句子中的詞單元為數(shù)詞、代詞和標(biāo)點(diǎn)符號(hào)時(shí),則該詞單元在上行文模板中對(duì)應(yīng) 其詞性;
[0057] 4)若句子中的詞單元不滿足上述的1)至3)中的任意一條,則在上下文模板中對(duì) 應(yīng)著該詞單元及其詞性。
[0058] 為了更好的理解上述的上下文生成規(guī)則,請(qǐng)參閱表2,為句子與其上下文模板的示 意圖:
[0059]
[0060] 表 2
[0061] 404、對(duì)第η句子集合中的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模 板集合;
[0062] 在本發(fā)明實(shí)施例中,裝置將對(duì)第η句子集合中的任意兩個(gè)句子的上行文模板進(jìn)行 匹配,得到第η泛化模板集合,該第η泛化模板集合中的泛化模板可用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn) 行APP的標(biāo)簽挖掘。其中,若第η句子集合中包含m個(gè)句子的上下文模板,則該第η句子集 合中的每一個(gè)句子的上下文模板,都要分別與該第η句子集合中的其他m-1個(gè)句子的m-1 個(gè)上下文模板進(jìn)行匹配。
[0063] 具體的:裝置將第η句子集合中的任意兩個(gè)上下文模板進(jìn)行匹配,得到匹配后的 泛化模板,且按照預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方式確定泛化模板的匹配代價(jià),得到初始泛 化模板集合;且在得到初始泛化模板集合之后,為了過濾掉不合適的模板,裝置還將過濾掉 初始泛化模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板,得到過濾后的初始泛 化模板集合;且在得到過濾后的初始泛化模板集合之后,裝置為了得到優(yōu)化后的泛化模板 集合,裝置還可W按照預(yù)先設(shè)置的模板優(yōu)化規(guī)則對(duì)過濾后的初始化模板集合中的發(fā)泛化模 板進(jìn)行優(yōu)化,得到第η泛化模板集合,該第η泛化模板集合中的泛化模板可W作為在非結(jié)構(gòu) 化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的模板。
[0064] 其中,上述的基于兩個(gè)上下文模板進(jìn)行匹配得到一個(gè)泛化模板主要是對(duì)兩個(gè)上下 文模板的相似度進(jìn)一步泛化得到泛化模板。
[0065] 在本發(fā)明實(shí)施例中,基于上下文模板求解泛化模板的問題可W轉(zhuǎn)化為最長(zhǎng)公共子 序列化ongest Common Subsequence, LC巧問題,運(yùn)樣一來,可W使用動(dòng)態(tài)規(guī)劃算法實(shí)現(xiàn)。 傳統(tǒng)的LCS是基于完全匹配求最長(zhǎng)匹配公共子序列,而在本發(fā)明實(shí)施例中上下文模板之間 可W進(jìn)行模糊匹配,從而增加了匹配代價(jià)的概念,目的是獲取最佳匹配公共子序列,即得 到了改進(jìn)的BestMatch算法,因此,上述的預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方法可W是改進(jìn)的 BestMatch 算法。
[0066] 其中,該預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方法的計(jì)算規(guī)則包括:
[0067] 1)若兩個(gè)待匹配單元完全相同,則該兩個(gè)匹配單元的匹配代價(jià)為0,則在泛化模 板中,對(duì)應(yīng)的位置為該兩個(gè)匹配單元的任意一個(gè),即保持匹配單元原始狀態(tài);
[0068] 2)若兩個(gè)待匹配單元均含有語義代碼,且兩個(gè)語義代碼有交集,則確認(rèn)為時(shí)模糊 匹配,兩個(gè)匹配單元的匹配代價(jià)為5,且在泛化模板中,對(duì)應(yīng)的位置為第一個(gè)匹配單元的詞、 詞性及語義代碼有交集的部分;
[0069] 3)若兩個(gè)待匹配單元的詞性相同,則兩個(gè)匹配單元的匹配代價(jià)為8,在泛化模板 中,對(duì)應(yīng)的位置僅保留詞性;
[0070] 4)若兩個(gè)待匹配單元完全不匹配,則該兩個(gè)匹配單元的匹配代價(jià)為10,在泛化模 板中,對(duì)應(yīng)的位置為省略單元,該省略單元可W用表示。
[0071] 在本發(fā)明實(shí)施例中,兩個(gè)上下文模板匹配是將該兩個(gè)上下文模板中具有相同編號(hào) 的匹配單元進(jìn)行匹配,例如將兩個(gè)上下文模板的匹配單元1進(jìn)行匹配,匹配單元2進(jìn)行匹 配,匹配單元3進(jìn)行匹配并W此類推,W確定匹配代價(jià)及得到泛化模板,該泛化模板的匹配 代價(jià)則為該兩個(gè)上下文模板完成匹配后的所有的匹配代價(jià)的和。
[0072] 需要說明的是,在本發(fā)明實(shí)施例中,在對(duì)兩個(gè)上下文模板進(jìn)行匹配時(shí),一定是 SL0T1與化0T1進(jìn)行匹配且一定是化0T2與化0T2進(jìn)行匹配,若開始時(shí)兩個(gè)上下文模板中的 SL0T1及化0T2的匹配單元的編號(hào)均不相同,則為了能夠進(jìn)行匹配,可W通過插入空白匹配 單元的方式使得兩個(gè)上下文模板中的匹配單元化0T1的編號(hào)及匹配單元化0T2的編號(hào)均相 同。
[0073] 需要說明的是,上述設(shè)置的匹配代價(jià)0, 5,8,10僅為一個(gè)可實(shí)施的應(yīng)用數(shù)字,并不 對(duì)本方案造成限定,在實(shí)際應(yīng)用中,可根據(jù)具體的情況設(shè)置每一個(gè)匹配狀態(tài)下的匹配代價(jià), 此處不做限定。
[0074] 在本發(fā)明實(shí)施例中,泛化模板的匹配代價(jià)越小,則說明用于生成該泛化模板的兩 個(gè)上下文模板的匹配度越大,反之,則匹配度越小。
[00巧]為了更好的理解本發(fā)明實(shí)施例中泛化模板的生成,請(qǐng)參閱表3,上下文模板CP1為 句子"保護(hù)蘿l·是一款好玩的塔防游戲。"的上下文模板,上下文模板CP2為句子"植物大戰(zhàn) 僵尸是非常熱口的塔防游戲。"的上下文模板,上下文模板CP1和上下文模板CP2進(jìn)行匹配 得到的泛化模板,具體如下:
[0076]
[0078] 表 3
[0079] 從上述表3可得出,上下文模板CP1及上下文模板CP2進(jìn)行匹配得到泛化模板的 匹配代價(jià)為28,其中,上下文模板CP2的匹配單元4即為空白單元。
[0080] 在本發(fā)明實(shí)施例中,裝置可按照上述描述的泛化模板的生成方法及匹配代價(jià)的計(jì) 算方法得到初始泛化模板集合。且在得到該初始泛化模板之后,裝置還將過濾掉初始泛化 模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板,得到過濾后的初始泛化模板集 合。
[0081] 且在得到過濾后的初始泛化模板集合之后,還將對(duì)該過濾后的初始泛化模板集合 按照預(yù)先設(shè)置的模板優(yōu)化規(guī)則進(jìn)行優(yōu)化,其中,模板優(yōu)化規(guī)則包括一下的任意一項(xiàng)或者多 項(xiàng):過濾掉jaccard系數(shù)小于預(yù)先設(shè)置的第Ξ?dāng)?shù)值的泛化模板;在泛化模板的開頭和結(jié)尾 均增加省略單元;若停用詞的相鄰兩邊均為省略單元,則刪除停用詞;將連續(xù)的省略單元 合并為一個(gè)省略單元;過濾掉APP名稱的標(biāo)識(shí)或標(biāo)簽的標(biāo)識(shí)的兩邊均為省略單元的泛化模 板。
[0082] 其中,泛化模板的jaccard系數(shù)的計(jì)算公式為:
[0083] J 仰1,CP2) = BM 仰1,CP2) / (L (CP1) +L (CP2) -BM 仰1,CP2))
[0084] 其中,J(CP1,CP2)表示上下文模板CP1與上下文模板CP2生成的泛化模板的 jaccard系數(shù),BM(CP1,CP2)表示在匹配過程中,得到的匹配單元的匹配代價(jià)中小于10的匹 配單元的數(shù)目,L(CPl)表示上下文模板CP1中除空白單元W外的匹配單元的數(shù)目,L(CP2) 表示上下文模板CP2中除空白單元W外的匹配單元的數(shù)目。
[00化]按照上述的計(jì)算公式,則表3中的泛化模板的jaccard系數(shù)=7/巧+8-7) = 0. 7。
[0086] 在本發(fā)明實(shí)施例中,裝置在得到泛化模板集合之后,將利用該泛化模板集合中的 泛化模板抽取種子,具體請(qǐng)參閱步驟405至步驟409。
[0087] 405、利用第η泛化模板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第n+1句子集 合;
[0088] 在本發(fā)明實(shí)施例中,裝置在得到第η泛化模板集合之后,將利用該第η泛化模板集 合中的泛化模板從非機(jī)構(gòu)化數(shù)據(jù)中抽取第n+1句子集合,即對(duì)包含非結(jié)構(gòu)化數(shù)據(jù)的網(wǎng)頁進(jìn) 行正文提取、斷句、分詞、詞性標(biāo)注等操作,提取同時(shí)包含APP名稱與標(biāo)簽的句子。
[0089] 406、將第n+1句子集合中的句子的上下文模板依次與第η泛化模板集合中的每一 個(gè)泛化模板進(jìn)行代價(jià)匹配,確定第n+1句子集合中的每一個(gè)句子的上下文模板的匹配代價(jià) 集合;
[0090] 在本發(fā)明實(shí)施例中,裝置將第n+1句子集合中的句子的上下文模板依次與第η泛 化模板集合中的每一個(gè)泛化模板進(jìn)行代價(jià)匹配,確定第n+1句子集合中的每一個(gè)句子的上 下文模板的匹配代價(jià)集合。
[0091] 具體可W為:裝置將該第n+1句子集合中的句子裁剪劃分為多個(gè)詞單元,為詞單 元中的APP名稱與標(biāo)簽分別設(shè)置對(duì)應(yīng)的標(biāo)識(shí);例如,在將APP名稱統(tǒng)一設(shè)置成標(biāo)識(shí)化0T1, 將標(biāo)簽統(tǒng)一設(shè)置成標(biāo)識(shí)化0T2。且裝置還將確定詞單元中除APP名稱與標(biāo)簽之外其他的詞 單元的詞性或者語義代碼,并將標(biāo)識(shí)、與前述的詞性或語義代碼按多個(gè)詞單元的順序進(jìn)行 組合得到句子的上下文模板。在完成上行文模板的生成之后,裝置將第n+1句子集合中的 每一個(gè)上下文模板均依次與第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行匹配,若第η泛化 模板集合中包含100個(gè)泛化模板,則每一個(gè)上下文模板都需要匹配100次,且得到100個(gè)匹 配代價(jià),即得到每一個(gè)上下文模板的匹配代價(jià)集合,該集合中包含了二元組,且每一個(gè)二元 組為第η泛化模板中每一個(gè)泛化模板與匹配代價(jià)之間構(gòu)成的二元組。
[0092] 為了更好的進(jìn)行上下文模板的生成,下面將舉例介紹一個(gè)生成上下文模板的規(guī) 則:
[0093] 5)句子中的詞單元為ΑΡΡ名稱時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0Τ1,句子中 的詞單元標(biāo)簽時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0Τ2 ;
[0094] 6)句子中的詞單元為實(shí)詞時(shí),該詞單元在上下文模板中對(duì)應(yīng)著該詞的語義代碼及 詞性,其中,實(shí)詞主要包括名詞、動(dòng)詞、形容詞和名詞修飾語,其中,語義代碼是指該實(shí)詞在 《同義詞詞林(擴(kuò)展版)》中的語義代碼;
[0095] 7)句子中的詞單元為數(shù)詞、代詞和標(biāo)點(diǎn)符號(hào)時(shí),則該詞單元在上行文模板中對(duì)應(yīng) 其詞性;
[0096] 8)若句子中的詞單元不滿足上述的1)至3)中的任意一條,則在上下文模板中對(duì) 應(yīng)著該詞單元及其詞性。
[0097] 具體的例子請(qǐng)參閱表3,此處不再寶述。
[0098] 為了更好的理解上下文模板與泛化模板的匹配,請(qǐng)參閱表4,為句子"蜘蛛紙牌是 一款可玩性高的益智游戲。"的上下文模板與一個(gè)泛化模板的匹配,如下:
[0099]
[0100] 表 4 陽101] 在上述表4中,匹配的泛化木塊中的匹配單元4至7均為空白單元。且最后的匹 配代價(jià)為58。
[0102] 407、確定第n+1種子集合,將第n+1種子集合保存到語義標(biāo)簽庫中,第n+1種子集 合中的種子為第n+1句子集合中的句子的上下文模板中的APP名稱與標(biāo)簽,且句子的匹配 代價(jià)集合中存在小于預(yù)先設(shè)置的第四數(shù)值的匹配代價(jià);
[0103] 在本發(fā)明實(shí)施例中,裝置在確定第n+1句子集合中的每一個(gè)句子的匹配代價(jià)集合 之后,將確定第n+1種子集合,在該第n+1種子集合中的種子為第n+1句子集合中的句子的 上下文模板中的APP名稱與標(biāo)簽,且句子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的第四數(shù)值 的匹配代價(jià)。 陽104] 具體可W是,裝置處理第n+1句子集合中的每一個(gè)句子的匹配代價(jià)集合,W句子K 的匹配代價(jià)集合為例,裝置將判斷該句子K的匹配代價(jià)集合中是否存在小于預(yù)先設(shè)置的第 四數(shù)值的匹配代價(jià),若存在,則將該句子K中包含的APP名稱與標(biāo)簽作為第n+1種子集合中 的種子。
[01化]408、若第n+1種子集合中包含非空集的第η巧種子集合,在第η巧種子集合中,種 子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù)值,且第五數(shù)值小 于第四數(shù)值,則令η = n+2,返回執(zhí)行步驟402 ;
[0106] 409、若第n+1種子集合中的所有種子所在的句子的匹配代價(jià)集合中的最小匹配 代價(jià)均大于或等于預(yù)先設(shè)置的第五數(shù)值,第五數(shù)值小于第四數(shù)值,則結(jié)束標(biāo)簽挖掘。
[0107] 在本發(fā)明實(shí)施例中,裝置在得到第n+1種子集合之后,若該第n+1集中包含非空集 的第n+2種子集合,則令η = n+2,返回執(zhí)行上述步驟402中的利用第η種子集合中的種子 在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配抽取技術(shù)抽取句子,抽取的句子構(gòu)成第η句 子集合的步驟。
[0108] 其中,在第η巧種子集合中,種子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià) 小于預(yù)先設(shè)置的第五數(shù)值,且第五數(shù)值小于第四數(shù)值。通過使用匹配代價(jià)更小的句子中的 ΑΡΡ名稱和標(biāo)簽作為種子使用,使得標(biāo)簽挖掘的準(zhǔn)確率更高。
[0109] 在本發(fā)明實(shí)施例中,若第n+1種子集合中的所有種子所在的句子的匹配代價(jià)集合 中的最小匹配代價(jià)均大于或等于預(yù)先設(shè)置的第五數(shù)值,其中該第五數(shù)值小于第四數(shù)值,即 第n+1種子集合中的第η巧種子集合為空集,則結(jié)束標(biāo)簽挖掘。
[0110] 需要說明的是,在本發(fā)明實(shí)施例中,步驟406中是先確定第n+1句子集合中的每一 個(gè)句子的上下文模板的匹配代價(jià)集合之后再確定第n+1種子集合,在實(shí)際應(yīng)用中,裝置在 依次計(jì)算一個(gè)句子的上下文模板與第η泛化模板集合中的泛化模板的匹配代價(jià)時(shí),可W每 計(jì)算得到一個(gè)匹配代價(jià),就將該匹配代價(jià)與預(yù)先設(shè)置的第四數(shù)值進(jìn)行比較,若小于該預(yù)先 設(shè)置的第四數(shù)值,則確定該句子中包含的ΑΡΡ名稱與標(biāo)簽的二元組為第n+1種子集合中的 種子,同時(shí)確定該匹配代價(jià)是否小于預(yù)先設(shè)置的第五數(shù)值,若該匹配代價(jià)還小于該預(yù)先設(shè) 置的第五數(shù)值,則確定該句子中包含的APP名稱與標(biāo)簽的二元組為第η巧種子集合中的種 子。且停止該句子的上下文模板與其泛化模板之間的匹配及匹配代價(jià)的計(jì)算,使得能夠有 效的節(jié)約計(jì)算資源。 陽111] 在本發(fā)明實(shí)施例中,裝置從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中 的種子為ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,且利用該第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù) 中進(jìn)行檢索,根據(jù)字符串匹配抽取技術(shù)抽取句子,抽取的句子構(gòu)成第η句子集合,并將第η 句子集合中的句子劃分為多個(gè)詞單元,按照該多個(gè)詞單元生成句子的上下文模板,對(duì)該第η 句子集合中的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模板集合,并利用該第 η泛化模板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第n+1句子集合,將該第n+1句子集 合中的句子的上下文模板依次與第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行代價(jià)匹配,確 定第n+1句子集合中的每一個(gè)句子的上下文模板的匹配代價(jià)集合,利用第n+1句子集合中 的每一個(gè)句子的上下文模板的匹配代價(jià)集合確定第n+1種子集合及第n+2種子集合,并將 第n+1種子集合保存到語義標(biāo)簽庫中,其中第n+1種子集合中的種子為第n+1句子集合中 的句子的上下文模板中的APP名稱與標(biāo)簽,且句子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的 第四數(shù)值的匹配代價(jià),其中,第n+2種子集合中,種子所在的句子的匹配代價(jià)集合中最小的 匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù)值,且第五數(shù)值小于第四數(shù)值,若第n+2種子集合為非空 集,則令η = n+2,進(jìn)行迭代計(jì)算,若η巧種子集合為空集,則結(jié)束標(biāo)簽挖掘。上述的通過生 成泛化模板,使得能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)簽挖掘,且準(zhǔn)確性高,提高了標(biāo)簽挖掘的全面 性,且使用泛化模板抽取第n+1句子集合,增加了模板的泛化能夠,抽取性能更好,最后,通 過迭代算法,能夠有效的增加種子檢索的召回率,能夠?qū)?biāo)簽進(jìn)行更加深入的挖掘。
[0112] 請(qǐng)參閱圖5,為本發(fā)明實(shí)施例中標(biāo)簽挖掘裝置的結(jié)構(gòu)的實(shí)施例,包括:
[0113] 第一挖掘模塊501,用于從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,第η種子集合中的種 子為應(yīng)用程序ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,η的初始值為1,且η為正整數(shù);
[0114] 檢索模塊502,用于在第一挖掘模塊501得到第η種子集合之后,利用第η種子集 合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合,第η句子集合中的句子包含第 η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽;
[0115] 匹配模塊503,用于在檢索模塊502得到第η句子集合之后,利用第η句子集合中 的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合;
[0116] 第二挖掘模塊504,用于在匹配模塊503得到第η泛化模板集合之后,根據(jù)第η泛 化模板集合中的泛化模板在非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置條件 的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。
[0117] 在本發(fā)明實(shí)施例中,在本發(fā)明實(shí)施例中,結(jié)構(gòu)化數(shù)據(jù)是指能夠用數(shù)據(jù)或者統(tǒng)一的 結(jié)構(gòu)加 W表示的數(shù)據(jù),例如垂直網(wǎng)站或者百科頁面中W表格形式展現(xiàn)的數(shù)據(jù),其中,結(jié)構(gòu)化 數(shù)據(jù)可通過一些規(guī)則模板提取數(shù)據(jù),且從結(jié)構(gòu)化數(shù)據(jù)中挖掘數(shù)據(jù)為現(xiàn)有技術(shù),此處不做寶 述。
[0118] 其中,第η句子集合中包含至少一個(gè)句子,該句子可W是一個(gè)完整的句子也可W 是一個(gè)句子片段。
[0119] 其中,第η句子集合中的每一個(gè)句子都包含第η種子集合中的任意一個(gè)種子的ΑΡΡ 名稱與標(biāo)簽。例如:第η句子集合中包含的一個(gè)句子為:植物大戰(zhàn)僵尸是非常熱口的塔防游 戲,在該句子中包含的種子為(植物大戰(zhàn)僵尸,塔防游戲),且該種子為該第η種子集合中的 一個(gè)種子。
[0120] 在本發(fā)明實(shí)施例中,除結(jié)構(gòu)化數(shù)據(jù)W外的數(shù)據(jù)均可稱為非結(jié)構(gòu)化數(shù)據(jù),且非結(jié)構(gòu) 化數(shù)據(jù)包括例如:垂直網(wǎng)站頁面中除結(jié)構(gòu)化數(shù)據(jù)W外的其他文本描述的數(shù)據(jù),百科頁面中 除結(jié)構(gòu)化數(shù)據(jù)W外的其他文本描述的數(shù)據(jù),ΑΡΡ的描述內(nèi)容,ΑΡΡ的新聞?wù)牡鹊取?陽121] 在本發(fā)明實(shí)施例中,標(biāo)簽挖掘裝置中的第一挖掘模塊501從結(jié)構(gòu)化數(shù)據(jù)中挖掘第 η種子集合,第η種子集合中的種子為應(yīng)用程序ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,η的初始值 為1,且η為正整數(shù);接著,檢索模塊502利用第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn) 行檢索,獲取第η句子集合,第η句子集合中的句子包含第η種子集合中的任意一個(gè)種子的 ΑΡΡ名稱與標(biāo)簽;并由匹配模塊503利用第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第 η泛化模板集合;最后第二挖掘模塊504根據(jù)第η泛化模板集合中的泛化模板在非結(jié)構(gòu)數(shù) 據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語 義柄簽庫中。 陽122] 在本發(fā)明實(shí)施例中,裝置從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中的 種子為ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,并利用該第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中 進(jìn)行捜索,獲取第η句子集合,該第η句子集合中的句子包含該第η種子集合中的任意一個(gè) 種子的ΑΡΡ名稱與標(biāo)簽,且利用該第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化 模板集合,根據(jù)該第η泛化模板集合中的泛化模板在該非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將 挖掘得到的符合預(yù)先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。通過利用 結(jié)構(gòu)化數(shù)據(jù)中挖掘出來的第η種子集合在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,得到第η句子集合,使 得能夠利用該第η句子集合得到能夠在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘的泛化模板集合,能 夠有效的實(shí)現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)中的標(biāo)簽挖掘,標(biāo)簽挖掘的更加全面。
[0123] 為了更好的理解本發(fā)明實(shí)施例中的標(biāo)簽挖掘裝置,請(qǐng)參閱圖6,為本發(fā)明實(shí)施例 中標(biāo)簽挖掘裝置的實(shí)施例,包括:如圖5所示的第一挖掘模塊501、檢索模塊502、匹配模塊 503及第二挖掘模塊504,且與圖5所示實(shí)施例中描述的內(nèi)容相似,此處不做寶述。
[0124] 在本發(fā)明實(shí)施例中,檢索模塊502具體用于:利用第η種子集合中的種子在非結(jié)構(gòu) 化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配技術(shù)抽取句子,抽取的句子構(gòu)成第η句子集合,句子中 包含第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽,且滿足預(yù)先設(shè)置的啟發(fā)式約束規(guī) 則。 陽125] 其中,啟發(fā)式約束規(guī)則包括:句子中包含的種子的ΑΡΡ名稱和標(biāo)簽在句子中的距 離小于或等于預(yù)先設(shè)置的字符串?dāng)?shù)目;和/或,在句子中,種子的ΑΡΡ名稱與標(biāo)簽之間的標(biāo) 點(diǎn)符號(hào)的個(gè)數(shù)小于預(yù)先設(shè)置的第一數(shù)值。
[0126] 在本發(fā)明實(shí)施例中,匹配模塊503包括: 陽127] 生成模塊601,用于在檢索模塊502得到第η句子集合之后,將第η句子集合中的 句子劃分為多個(gè)詞單元,按照多個(gè)詞單元生成句子的上下文模板;
[0128] 模板匹配模板602,用于在生成模塊601生成上下文模板之后,對(duì)第η句子集合中 的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模板集合,第η泛化模板集合中的泛 化模板用于對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行ΑΡΡ的標(biāo)簽挖掘。
[0129] 其中,生成模塊601包括:
[0130] 劃分模塊603,用于在檢索模塊502得到第η句子集合之后,將第η句子集合中的 句子裁剪劃分為多個(gè)詞單元,為詞單元中的ΑΡΡ名稱與標(biāo)簽分別設(shè)置對(duì)應(yīng)的標(biāo)識(shí); 陽13U 組合生成模塊604,用于在劃分模塊603之后,確定詞單元中除ΑΡΡ名稱與標(biāo)簽之 外其他的詞單元的詞性或語義代碼,將標(biāo)識(shí)與詞性或語義代碼按多個(gè)詞單元的順序進(jìn)行組 合得到句子的上下文模板。
[0132] 在本發(fā)明實(shí)施例中,模板匹配模塊602包括: 陽133] 匹配計(jì)算模塊605,用于在生成模塊601生成上下文模板之后,將第η句子集合中 的任意兩個(gè)上下文模板進(jìn)行匹配,得到匹配后的泛化模板,且按照預(yù)先設(shè)置的匹配代價(jià)的 計(jì)算方式確定泛化模板的匹配代價(jià),得到初始泛化模板集合;
[0134] 過濾模塊606,用于在匹配計(jì)算模塊605得到初始泛化模板集合之后,過濾掉初始 泛化模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板,得到過濾后的初始泛化模 板集合;
[0135] 優(yōu)化模塊607,用于在過濾模塊606得到過濾后的初始泛化模板集合之后,按照預(yù) 先設(shè)置的模板優(yōu)化規(guī)則對(duì)過濾后的初始泛化模板集合中的泛化模板進(jìn)行優(yōu)化,得到第η泛 化模板集合。 陽136] 其中,模板優(yōu)化規(guī)則包括W下的任意一項(xiàng)或者多項(xiàng):
[0137] 過濾掉jaccard系數(shù)小于預(yù)先設(shè)置的第Ξ?dāng)?shù)值的泛化模板;在泛化模板的開頭和 結(jié)尾均增加省略單元;若停用詞的相鄰兩邊均為省略單元,則刪除停用詞;將連續(xù)的省略 單元合并為一個(gè)省略單元;過濾掉APP名稱的標(biāo)識(shí)或標(biāo)簽的標(biāo)識(shí)的兩邊均為省略單元的泛 化模板。
[0138] 在本發(fā)明實(shí)施例中,第二挖掘模塊505包括:
[0139] 抽取模塊608,用于在匹配模塊504得到第η泛化模板集合之后,利用第η泛化模 板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第η+1句子集合;
[0140] 代價(jià)匹配模塊609,用于在抽取模塊608抽取第η+1句子集合集合之后,將第η+1 句子集合中的句子的上下文模板依次與第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行代價(jià) 匹配,確定第η+1句子集合中的每一個(gè)句子的上下文模板的匹配代價(jià)集合; 陽確定保存模塊610,用于在代價(jià)匹配模塊609之后,確定第η+1種子集合,將第η+1 種子集合保存至語義標(biāo)簽庫中,第η+1種子集合中的種子為第η+1句子集合中的句子的上 下文模板中的ΑΡΡ名稱與標(biāo)簽,且句子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的第四數(shù)值的 匹配代價(jià);
[0142] 迭代模塊611,用于若第η+1種子集合中包含非空集的第η巧種子集合,在第η+2 種子集合中,種子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù) 值,且第五數(shù)值小于第四數(shù)值,則令η = η+2,返回執(zhí)行檢索模塊502 ;
[0143] 結(jié)束模塊612,用于若第η+1種子集合中的所有種子所在的句子的匹配代價(jià)集合 中的最小匹配代價(jià)均大于或等于預(yù)先設(shè)置的第五數(shù)值,第五數(shù)值小于第四數(shù)值,則結(jié)束標(biāo) 簽挖掘。
[0144] 為了更好的進(jìn)行上下文模板的生成,下面將舉例介紹一個(gè)生成上下文模板的規(guī) 則:
[0145] 9)句子中的詞單元為ΑΡΡ名稱時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0Τ1,句子中 的詞單元標(biāo)簽時(shí),該詞單元在上下文模板中對(duì)應(yīng)著化0Τ2 ; 陽146] 10)句子中的詞單元為實(shí)詞時(shí),該詞單元在上下文模板中對(duì)應(yīng)著該詞的語義代碼 及詞性,其中,實(shí)詞主要包括名詞、動(dòng)詞、形容詞和名詞修飾語,其中,語義代碼是指該實(shí)詞 在《同義詞詞林(擴(kuò)展版)》中的語義代碼; 陽147] 11)句子中的詞單元為數(shù)詞、代詞和標(biāo)點(diǎn)符號(hào)時(shí),則該詞單元在上行文模板中對(duì)應(yīng) 其詞性;
[0148] 12)若句子中的詞單元不滿足上述的1)至3)中的任意一條,則在上下文模板中對(duì) 應(yīng)著該詞單元及其詞性。
[0149] 在本發(fā)明實(shí)施例中,基于上下文模板求解泛化模板的問題可W轉(zhuǎn)化為最長(zhǎng)公共子 序列化ongest Common Subsequence, LC巧問題,運(yùn)樣一來,可W使用動(dòng)態(tài)規(guī)劃算法實(shí)現(xiàn)。 傳統(tǒng)的LCS是基于完全匹配求最長(zhǎng)匹配公共子序列,而在本發(fā)明實(shí)施例中上下文模板之間 可W進(jìn)行模糊匹配,從而增加了匹配代價(jià)的概念,目的是獲取最佳匹配公共子序列,即得 到了改進(jìn)的BestMatch算法,因此,上述的預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方法可W是改進(jìn)的 BestMatch 算法。 陽150] 其中,該預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方法的計(jì)算規(guī)則包括: 陽15U 5)若兩個(gè)待匹配單元完全相同,則該兩個(gè)匹配單元的匹配代價(jià)為0,則在泛化模 板中,對(duì)應(yīng)的位置為該兩個(gè)匹配單元的任意一個(gè),即保持匹配單元原始狀態(tài);
[0152] 6)若兩個(gè)待匹配單元均含有語義代碼,且兩個(gè)語義代碼有交集,則確認(rèn)為時(shí)模糊 匹配,兩個(gè)匹配單元的匹配代價(jià)為5,且在泛化模板中,對(duì)應(yīng)的位置為第一個(gè)匹配單元的詞、 詞性及語義代碼有交集的部分;
[0153] 7)若兩個(gè)待匹配單元的詞性相同,則兩個(gè)匹配單元的匹配代價(jià)為8,在泛化模板 中,對(duì)應(yīng)的位置僅保留詞性;
[0154] 8)若兩個(gè)待匹配單元完全不匹配,則該兩個(gè)匹配單元的匹配代價(jià)為10,在泛化模 板中,對(duì)應(yīng)的位置為省略單元,該省略單元可W用表示。
[0155] 在本發(fā)明實(shí)施例中,兩個(gè)上下文模板匹配是將該兩個(gè)上下文模板中具有相同編號(hào) 的匹配單元進(jìn)行匹配,例如將兩個(gè)上下文模板的匹配單元1進(jìn)行匹配,匹配單元2進(jìn)行匹 配,匹配單元3進(jìn)行匹配并W此類推,W確定匹配代價(jià)及得到泛化模板,該泛化模板的匹配 代價(jià)則為該兩個(gè)上下文模板完成匹配后的所有的匹配代價(jià)的和。
[0156] 需要說明的是,在本發(fā)明實(shí)施例中,在對(duì)兩個(gè)上下文模板進(jìn)行匹配時(shí),一定是 SL0T1與化0T1進(jìn)行匹配且一定是化0T2與化0T2進(jìn)行匹配,若開始時(shí)兩個(gè)上下文模板中的 SL0T1及化0T2的匹配單元的編號(hào)均不相同,則為了能夠進(jìn)行匹配,可W通過插入空白匹配 單元的方式使得兩個(gè)上下文模板中的匹配單元化0T1的編號(hào)及匹配單元化0T2的編號(hào)均相 同。 陽157] 需要說明的是,上述設(shè)置的匹配代價(jià)0, 5,8,10僅為一個(gè)可實(shí)施的應(yīng)用數(shù)字,并不 對(duì)本方案造成限定,在實(shí)際應(yīng)用中,可根據(jù)具體的情況設(shè)置每一個(gè)匹配狀態(tài)下的匹配代價(jià), 此處不做限定。
[0158] 在本發(fā)明實(shí)施例中,泛化模板的匹配代價(jià)越小,則說明用于生成該泛化模板的兩 個(gè)上下文模板的匹配度越大,反之,則匹配度越小。 陽159] 在本發(fā)明實(shí)施例中,泛化模板的jaccard系數(shù)的計(jì)算公式為:
[0160] J 仰1,CP2) = BM 仰1,CP2) / (L (CP1) +L (CP2) -BM 仰1,CP2)) 陽161] 其中,J(CP1,CP2)表示上下文模板CP1與上下文模板CP2生成的泛化模板的 jaccard系數(shù),BM(CP1,CP2)表示在匹配過程中,得到的匹配單元的匹配代價(jià)中小于10的匹 配單元的數(shù)目,L(CPl)表示上下文模板CP1中除空白單元W外的匹配單元的數(shù)目,L(CP2) 表示上下文模板CP2中除空白單元W外的匹配單元的數(shù)目。
[0162] 在本發(fā)明實(shí)施例中,標(biāo)簽挖掘裝置中的第一挖掘模塊501從結(jié)構(gòu)化數(shù)據(jù)中挖掘第 η種子集合,第η種子集合中的種子為應(yīng)用程序APP名稱與標(biāo)簽構(gòu)成的二元組,η的初始值 為1,且η為正整數(shù);接著,檢索模塊502利用第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn) 行檢索,根據(jù)字符串匹配技術(shù)抽取句子,抽取的句子構(gòu)成第η句子集合,句子中包含第η種 子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽,且滿足預(yù)先設(shè)置的啟發(fā)式約束規(guī)則;并由匹 配模塊503中的生成模塊601將第η句子集合中的句子劃分為多個(gè)詞單元,按照多個(gè)詞單 元生成句子的上下文模板;及由模板匹配模板602對(duì)第η句子集合中的任意兩個(gè)句子的上 下文模板進(jìn)行匹配,得到第η泛化模板集合,第η泛化模板集合中的泛化模板用于對(duì)非結(jié)構(gòu) 化數(shù)據(jù)進(jìn)行ΑΡΡ的標(biāo)簽挖掘,關(guān)于生成模塊601具體的,生成模塊601中的劃分模塊603將 第η句子集合中的句子裁剪劃分為多個(gè)詞單元,為詞單元中的ΑΡΡ名稱與標(biāo)簽分別設(shè)置對(duì) 應(yīng)的標(biāo)識(shí);及生成模塊601中的組合生成模塊604確定詞單元中除ΑΡΡ名稱與標(biāo)簽之外其 他的詞單元的詞性或語義代碼,將標(biāo)識(shí)與詞性或語義代碼按多個(gè)詞單元的順序進(jìn)行組合得 到句子的上下文模板。關(guān)于模板匹配模塊602,具體的,模板匹配單元602中的匹配計(jì)算模 塊605將第η句子集合中的任意兩個(gè)上下文模板進(jìn)行匹配,得到匹配后的泛化模板,且按照 預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方式確定泛化模板的匹配代價(jià),得到初始泛化模板集合;并由 過濾模塊606過濾掉初始泛化模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板, 得到過濾后的初始泛化模板集合;并由優(yōu)化模塊607按照預(yù)先設(shè)置的模板優(yōu)化規(guī)則對(duì)過濾 后的初始泛化模板集合中的泛化模板進(jìn)行優(yōu)化,得到第η泛化模板集合。 陽163] 最后第二挖掘模塊504中的抽取模塊608利用第η泛化模板集合中的泛化模板從 非結(jié)構(gòu)化數(shù)據(jù)中抽取第η+1句子集合;且代價(jià)匹配模塊609將第η+1句子集合中的句子的 上下文模板依次與第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行代價(jià)匹配,確定第η+1句子 集合中的每一個(gè)句子的上下文模板的匹配代價(jià)集合;并由確定保存模塊610確定第η+1種 子集合,將第η+1種子集合保存至語義標(biāo)簽庫中,第η+1種子集合中的種子為第η+1句子集 合中的句子的上下文模板中的ΑΡΡ名稱與標(biāo)簽,且句子的匹配代價(jià)集合中存在小于預(yù)先設(shè) 置的第四數(shù)值的匹配代價(jià);若第η+1種子集合中包含非空集的第η+2種子集合,在第η+2種 子集合中,種子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù)值, 且第五數(shù)值小于第四數(shù)值,則迭代模塊611令η = η+2,返回執(zhí)行檢索模塊502 ;若第η+1種 子集合中的所有種子所在的句子的匹配代價(jià)集合中的最小匹配代價(jià)均大于或等于預(yù)先設(shè) 置的第五數(shù)值,第五數(shù)值小于第四數(shù)值,則結(jié)束模塊612結(jié)束標(biāo)簽挖掘。
[0164] 在本發(fā)明實(shí)施例中,裝置從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,該第η種子集合中 的種子為ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,且利用該第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù) 中進(jìn)行檢索,根據(jù)字符串匹配抽取技術(shù)抽取句子,抽取的句子構(gòu)成第η句子集合,并將第η 句子集合中的句子劃分為多個(gè)詞單元,按照該多個(gè)詞單元生成句子的上下文模板,對(duì)該第η 句子集合中的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模板集合,并利用該第 η泛化模板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第η+1句子集合,將該第η+1句子集 合中的句子的上下文模板依次與第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行代價(jià)匹配,確 定第η+1句子集合中的每一個(gè)句子的上下文模板的匹配代價(jià)集合,利用第η+1句子集合中 的每一個(gè)句子的上下文模板的匹配代價(jià)集合確定第η+1種子集合及第η+2種子集合,并將 第η+1種子集合保存到語義標(biāo)簽庫中,其中第η+1種子集合中的種子為第η+1句子集合中 的句子的上下文模板中的ΑΡΡ名稱與標(biāo)簽,且句子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的 第四數(shù)值的匹配代價(jià),其中,第η+2種子集合中,種子所在的句子的匹配代價(jià)集合中最小的 匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù)值,且第五數(shù)值小于第四數(shù)值,若第η+2種子集合為非空 集,則令η = η+2,進(jìn)行迭代計(jì)算,若η巧種子集合為空集,則結(jié)束標(biāo)簽挖掘。上述的通過生 成泛化模板,使得能夠?qū)Ψ墙Y(jié)構(gòu)化數(shù)據(jù)進(jìn)行標(biāo)簽挖掘,且準(zhǔn)確性高,提高了標(biāo)簽挖掘的全面 性,且使用泛化模板抽取第η+1句子集合,增加了模板的泛化能夠,抽取性能更好,最后,通 過迭代算法,能夠有效的增加種子檢索的召回率,能夠?qū)?biāo)簽進(jìn)行更加深入的挖掘。
[01化]W上所述,僅是本發(fā)明的較佳實(shí)施例而已,并非對(duì)本發(fā)明作任何形式上的限制,雖 然本發(fā)明已W較佳實(shí)施例掲露如上,然而并非用W限定本發(fā)明,任何熟悉本專業(yè)的技術(shù)人 員,在不脫離本發(fā)明技術(shù)方案范圍內(nèi),當(dāng)可利用上述掲示的技術(shù)內(nèi)容做出些許更動(dòng)或修飾 為等同變化的等效實(shí)施例,但凡是未脫離本發(fā)明技術(shù)方案內(nèi)容,依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì) W上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬于本發(fā)明技術(shù)方案的范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種標(biāo)簽挖掘方法,其特征在于,包括: 從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,所述第η種子集合中的種子為應(yīng)用程序APP名稱 與標(biāo)簽構(gòu)成的二元組,所述η的初始值為1,且η為正整數(shù); 利用所述第η種子集合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合,所述 第η句子集合中的句子包含所述第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽;· 利用所述第η句子集合中的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合; 根據(jù)所述第η泛化模板集合中的泛化模板在所述非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘 得到的符合預(yù)先設(shè)置條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述第η種子集合在非結(jié)構(gòu)化數(shù) 據(jù)中進(jìn)行檢索,獲取第η句子集合,所述第η句子集合中的句子包含所述第η種子集合中的 任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽,包括: 利用所述第η種子集合中的種子在所述非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配技 術(shù)抽取句子,抽取的句子構(gòu)成所述第η句子集合,所述句子中包含所述第η種子集合中的任 意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽,且滿足預(yù)先設(shè)置的啟發(fā)式約束規(guī)則。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述啟發(fā)式約束規(guī)則包括:所述句子中包 含的種子的ΑΡΡ名稱和標(biāo)簽在所述句子中的距離小于或等于預(yù)先設(shè)置的字符串?dāng)?shù)目;和/ 或,在所述句子中,種子的ΑΡΡ名稱與標(biāo)簽之間的標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)小于預(yù)先設(shè)置的第一數(shù) 值。4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用所述第η句子集合中的任意兩個(gè) 句子進(jìn)行匹配,得到第η泛化模板集合,包括: 將所述第η句子集合中的句子劃分為多個(gè)詞單元,按照所述多個(gè)詞單元生成所述句子 的上下文模板; 對(duì)所述第η句子集合中的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模板集 合,所述第η泛化模板集合中的泛化模板用于對(duì)所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行ΑΡΡ的標(biāo)簽挖掘。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述將所述第η句子集合中的句子劃分為 多個(gè)詞單元,按照所述多個(gè)詞單元生成所述句子的上下文模板,包括: 將所述第η句子集合中的句子裁剪劃分為多個(gè)詞單元,為所述詞單元中的ΑΡΡ名稱與 標(biāo)簽分別設(shè)置對(duì)應(yīng)的標(biāo)識(shí); 確定所述詞單元中除所述ΑΡΡ名稱與標(biāo)簽之外其他的詞單元的詞性或語義代碼,將所 述標(biāo)識(shí)與所述詞性或語義代碼按所述多個(gè)詞單元的順序進(jìn)行組合得到所述句子的上下文 模板。6. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對(duì)所述第η句子集合中的任意兩個(gè)句 子的上下文模板進(jìn)行匹配,得到第η泛化模板集合,包括: 將所述第η句子集合中的任意兩個(gè)上下文模板進(jìn)行匹配,得到匹配后的泛化模板,且 按照預(yù)先設(shè)置的匹配代價(jià)的計(jì)算方式確定所述泛化模板的匹配代價(jià),得到初始泛化模板集 合; 過濾掉所述初始泛化模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板,得到 過濾后的初始泛化模板集合; 按照預(yù)先設(shè)置的模板優(yōu)化規(guī)則對(duì)所述過濾后的初始泛化模板集合中的泛化模板進(jìn)行 優(yōu)化,得到所述第η泛化模板集合。7. 根據(jù)權(quán)利要求6所述的方法,其特征在于,所述模板優(yōu)化規(guī)則包括以下的任意一項(xiàng) 或者多項(xiàng): 過濾掉jaccard系數(shù)小于預(yù)先設(shè)置的第三數(shù)值的泛化模板;在泛化模板的開頭和結(jié)尾 均增加省略單元;若停用詞的相鄰兩邊均為省略單元,則刪除所述停用詞;將連續(xù)的省略 單元合并為一個(gè)省略單元;過濾掉APP名稱的標(biāo)識(shí)或標(biāo)簽的標(biāo)識(shí)的兩邊均為省略單元的泛 化模板。8. 根據(jù)權(quán)利要求1至7任意一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述第η泛化模板 集合中的泛化模板在所述非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置條件的 ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中,包括: 利用所述第η泛化模板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第η+1句子集合; 將所述第η+1句子集合中的句子的上下文模板依次與所述第η泛化模板集合中的每一 個(gè)泛化模板進(jìn)行代價(jià)匹配,確定所述第η+1句子集合中的每一個(gè)句子的上下文模板的匹配 代價(jià)集合; 確定第η+1種子集合,將所述第η+1種子集合保存至語義標(biāo)簽庫中,所述第η+1種子集 合中的種子為所述第η+1句子集合中的句子的上下文模板中的ΑΡΡ名稱與標(biāo)簽,且所述句 子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的第四數(shù)值的匹配代價(jià); 若所述第η+1種子集合中包含非空集的第η+2種子集合,在所述第η+2種子集合中,種 子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù)值,且所述第五數(shù) 值小于所述第四數(shù)值,則令η = η+2,返回執(zhí)行所述利用所述第η種子集合中的種子在非結(jié) 構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合的步驟; 若所述第η+1種子集合中的所有種子所在的句子的匹配代價(jià)集合中的最小匹配代價(jià) 均大于或等于預(yù)先設(shè)置的第五數(shù)值,所述第五數(shù)值小于所述第四數(shù)值,則結(jié)束標(biāo)簽挖掘。9. 一種標(biāo)簽挖掘裝置,其特征在于,包括: 第一挖掘模塊,用于從結(jié)構(gòu)化數(shù)據(jù)中挖掘第η種子集合,所述第η種子集合中的種子為 應(yīng)用程序ΑΡΡ名稱與標(biāo)簽構(gòu)成的二元組,所述η的初始值為1,且η為正整數(shù); 檢索模塊,用于在所述第一挖掘模塊得到所述第η種子集合之后,利用所述第η種子集 合中的種子在非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,獲取第η句子集合,所述第η句子集合中的句子包 含所述第η種子集合中的任意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽; 匹配模塊,用于在所述檢索模塊得到所述第η句子集合之后,利用所述第η句子集合中 的任意兩個(gè)句子進(jìn)行匹配,得到第η泛化模板集合; 第二挖掘模塊,用于在所述匹配模塊得到所述第η泛化模板集合之后,根據(jù)所述第η泛 化模板集合中的泛化模板在所述非結(jié)構(gòu)數(shù)據(jù)中進(jìn)行標(biāo)簽挖掘,將挖掘得到的符合預(yù)先設(shè)置 條件的ΑΡΡ名稱與標(biāo)簽的二元組保存到語義標(biāo)簽庫中。10. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述檢索模塊具體用于: 利用所述第η種子集合中的種子在所述非結(jié)構(gòu)化數(shù)據(jù)中進(jìn)行檢索,根據(jù)字符串匹配技 術(shù)抽取句子,抽取的句子構(gòu)成所述第η句子集合,所述句子中包含所述第η種子集合中的任 意一個(gè)種子的ΑΡΡ名稱與標(biāo)簽,且滿足預(yù)先設(shè)置的啟發(fā)式約束規(guī)則。11. 根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述啟發(fā)式約束規(guī)則包括:所述句子中 包含的種子的APP名稱和標(biāo)簽在所述句子中的距離小于或等于預(yù)先設(shè)置的字符串?dāng)?shù)目;和 /或,在所述句子中,種子的APP名稱與標(biāo)簽之間的標(biāo)點(diǎn)符號(hào)的個(gè)數(shù)小于預(yù)先設(shè)置的第一數(shù) 值。12. 根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述匹配模塊包括: 生成模塊,用于在所述檢索模塊得到所述第η句子集合之后,將所述第η句子集合中的 句子劃分為多個(gè)詞單元,按照所述多個(gè)詞單元生成所述句子的上下文模板; 模板匹配模板,用于在所述生成模塊生成所述上下文模板之后,對(duì)所述第η句子集合 中的任意兩個(gè)句子的上下文模板進(jìn)行匹配,得到第η泛化模板集合,所述第η泛化模板集合 中的泛化模板用于對(duì)所述非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行ΑΡΡ的標(biāo)簽挖掘。13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述生成模塊包括: 劃分模塊,用于在所述檢索模塊得到所述第η句子集合之后,將所述第η句子集合中的 句子裁剪劃分為多個(gè)詞單元,為所述詞單元中的ΑΡΡ名稱與標(biāo)簽分別設(shè)置對(duì)應(yīng)的標(biāo)識(shí); 組合生成模塊,用于在所述劃分模塊之后,確定所述詞單元中除所述ΑΡΡ名稱與標(biāo)簽 之外其他的詞單元的詞性或語義代碼,將所述標(biāo)識(shí)與所述詞性或語義代碼按所述多個(gè)詞單 元的順序進(jìn)行組合得到所述句子的上下文模板。14. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述模板匹配模塊包括: 匹配計(jì)算模塊,用于在所述生成模塊生成所述上下文模板之后,將所述第η句子集合 中的任意兩個(gè)上下文模板進(jìn)行匹配,得到匹配后的泛化模板,且按照預(yù)先設(shè)置的匹配代價(jià) 的計(jì)算方式確定所述泛化模板的匹配代價(jià),得到初始泛化模板集合; 過濾模塊,用于在所述匹配計(jì)算模塊得到所述初始泛化模板集合之后,過濾掉所述初 始泛化模板集合中匹配代價(jià)大于預(yù)先設(shè)置的第二數(shù)值的泛化模板,得到過濾后的初始泛化 模板集合; 優(yōu)化模塊,用于在所述過濾模塊得到所述過濾后的初始泛化模板集合之后,按照預(yù)先 設(shè)置的模板優(yōu)化規(guī)則對(duì)所述過濾后的初始泛化模板集合中的泛化模板進(jìn)行優(yōu)化,得到所述 第η泛化模板集合。15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述模板優(yōu)化規(guī)則包括以下的任意一 項(xiàng)或者多項(xiàng): 過濾掉jaccard系數(shù)小于預(yù)先設(shè)置的第三數(shù)值的泛化模板;在泛化模板的開頭和結(jié)尾 均增加省略單元;若停用詞的相鄰兩邊均為省略單元,則刪除所述停用詞;將連續(xù)的省略 單元合并為一個(gè)省略單元;過濾掉APP名稱的標(biāo)識(shí)或標(biāo)簽的標(biāo)識(shí)的兩邊均為省略單元的泛 化模板。16. 根據(jù)權(quán)利要求9至15任意一項(xiàng)所述的裝置,其特征在于,所述第二挖掘模塊包括: 抽取模塊,用于在所述匹配模塊得到所述第η泛化模板集合之后,利用所述第η泛化模 板集合中的泛化模板從非結(jié)構(gòu)化數(shù)據(jù)中抽取第η+1句子集合; 代價(jià)匹配模塊,用于在所述抽取模塊抽取所述第η+1句子集合集合之后,將所述第η+1 句子集合中的句子的上下文模板依次與所述第η泛化模板集合中的每一個(gè)泛化模板進(jìn)行 代價(jià)匹配,確定所述第η+1句子集合中的每一個(gè)句子的上下文模板的匹配代價(jià)集合; 確定保存模塊,用于在所述代價(jià)匹配模塊之后,確定第η+1種子集合,將所述第η+1種 子集合保存至語義標(biāo)簽庫中,所述第η+1種子集合中的種子為所述第η+1句子集合中的句 子的上下文模板中的APP名稱與標(biāo)簽,且所述句子的匹配代價(jià)集合中存在小于預(yù)先設(shè)置的 第四數(shù)值的匹配代價(jià); 迭代模塊,用于若所述第n+1種子集合中包含非空集的第n+2種子集合,在所述第n+2 種子集合中,種子所在的句子的匹配代價(jià)集合中最小的匹配代價(jià)小于預(yù)先設(shè)置的第五數(shù) 值,且所述第五數(shù)值小于所述第四數(shù)值,則令η = n+2,返回執(zhí)行所述檢索模塊; 結(jié)束模塊,用于若所述第n+1種子集合中的所有種子所在的句子的匹配代價(jià)集合中的 最小匹配代價(jià)均大于或等于預(yù)先設(shè)置的第五數(shù)值,所述第五數(shù)值小于所述第四數(shù)值,則結(jié) 束標(biāo)簽挖掘。
【文檔編號(hào)】G06F17/30GK105824828SQ201510004659
【公開日】2016年8月3日
【申請(qǐng)日】2015年1月6日
【發(fā)明人】劉安安, 王迪
【申請(qǐng)人】深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司