實(shí)體標(biāo)簽的抽取方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其設(shè)及一種實(shí)體標(biāo)簽的抽取方法和裝置。
【背景技術(shù)】
[0002] 在知識庫中,為方便機(jī)器理解知識,通常將實(shí)體的關(guān)系及屬性(統(tǒng)稱實(shí)體關(guān)系)映 射到架構(gòu)(Schema)預(yù)定義的關(guān)系上。借助Schema,機(jī)器能準(zhǔn)確無歧義地理解知識,但是運(yùn) 種知識表示方式在實(shí)際應(yīng)用中存在W下兩個問題:實(shí)體關(guān)系種類繁多并且會動態(tài)變化,預(yù) 定義關(guān)系難W涵蓋所有可能的關(guān)系,大量知識無法映射到知識庫中;預(yù)定義關(guān)系構(gòu)造出來 的關(guān)系描述生硬模式化,缺乏語言美感,難W直接應(yīng)用到要求語言豐富多彩的產(chǎn)品場景中。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0004] 為此,本發(fā)明的一個目的在于提出一種實(shí)體標(biāo)簽的抽取方法,該方法可W提高能 夠描述的實(shí)體關(guān)系的覆蓋范圍,并且可W提高描述方式的自然度。
[0005] 本發(fā)明的另一個目的在于提出一種實(shí)體標(biāo)簽的抽取裝置。
[0006] 為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法,包括:從網(wǎng) 頁中獲取用于描述實(shí)體間共性的自然語言片段;獲取滿足所述自然語言片段的實(shí)體;將所 述自然語言片段作為多實(shí)體標(biāo)簽,建立所述多實(shí)體標(biāo)簽與所述實(shí)體之間的關(guān)聯(lián)關(guān)系。
[0007] 本發(fā)明第一方面實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法,通過從網(wǎng)頁中獲取多實(shí)體標(biāo) 簽,可W使得實(shí)體標(biāo)簽不限于Schema預(yù)定義的關(guān)系,從而可W提高能夠描述的實(shí)體關(guān)系的 覆蓋范圍,通過將自然語言片段作為多實(shí)體標(biāo)簽,可W提高描述方式的自然度。
[000引為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的實(shí)體標(biāo)簽的抽取裝置,包括:第一 獲取模塊,用于從網(wǎng)頁中獲取用于描述實(shí)體間共性的自然語言片段;第二獲取模塊,用于獲 取滿足所述自然語言片段的實(shí)體;關(guān)聯(lián)模塊,用于將所述自然語言片段作為多實(shí)體標(biāo)簽,建 立所述多實(shí)體標(biāo)簽與所述實(shí)體之間的關(guān)聯(lián)關(guān)系。
[0009] 本發(fā)明第二方面實(shí)施例提出的實(shí)體標(biāo)簽的抽取裝置,通過從網(wǎng)頁中獲取多實(shí)體標(biāo) 簽,可W使得實(shí)體標(biāo)簽不限于Schema預(yù)定義的關(guān)系,從而可W提高能夠描述的實(shí)體關(guān)系的 覆蓋范圍,通過將自然語言片段作為多實(shí)體標(biāo)簽,可W提高描述方式的自然度。
[0010] 本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發(fā)明的實(shí)踐了解到。
【附圖說明】
[0011] 本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0012] 圖1是本發(fā)明一實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法的流程示意圖;
[0013] 圖2是本發(fā)明另一實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法的流程示意圖;
[0014] 圖3是本發(fā)明另一實(shí)施例提出的實(shí)體標(biāo)簽的抽取裝置的結(jié)構(gòu)示意圖;
[0015] 圖4是本發(fā)明另一實(shí)施例提出的實(shí)體標(biāo)簽的抽取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0016] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考 附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反, 本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同 物。
[0017] 圖1是本發(fā)明一實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法的流程示意圖,該方法包括:
[0018] S11:從網(wǎng)頁中獲取用于描述實(shí)體間共性的自然語言片段。
[0019] 例如,可W從網(wǎng)頁標(biāo)題中提取用于描述實(shí)體間共性的自然語言片段。網(wǎng)頁例如包 括:新聞、博客或論壇等。
[0020] 實(shí)體標(biāo)簽(TAG)可W分為單實(shí)體標(biāo)簽和多實(shí)體標(biāo)簽,多實(shí)體標(biāo)簽是指用于描述至 少兩個實(shí)體之間的實(shí)體關(guān)系的標(biāo)簽,本發(fā)明實(shí)施例W多實(shí)體標(biāo)簽為例。
[0021] 本實(shí)施例中,將獲取的用于描述實(shí)體間共性的自然語言片段作為多實(shí)體標(biāo)簽。
[0022] S12:獲取滿足所述自然語言片段的實(shí)體。
[0023] 例如,從網(wǎng)頁標(biāo)題對應(yīng)的網(wǎng)頁內(nèi)容中進(jìn)行實(shí)體挖掘,獲取滿足所述自然語言片段 的實(shí)體。
[0024] S13:將所述自然語言片段作為多實(shí)體標(biāo)簽,建立所述多實(shí)體標(biāo)簽與所述實(shí)體之間 的關(guān)聯(lián)關(guān)系。
[0025] 其中,滿足所述自然語言片段的實(shí)體可W組成實(shí)體集合(entity-list),多實(shí)體標(biāo) 簽與實(shí)體集合之間的關(guān)聯(lián)關(guān)系可W如表1所示:
[0026] 表 1
[0027]
[0028] 在建立上述的關(guān)聯(lián)關(guān)系后,可W基于該關(guān)聯(lián)關(guān)系向用戶提供更豐富和自然的內(nèi) 容,例如,當(dāng)用戶捜索"楊幕"時(shí)可W給出"劉詩詩"等其他推薦內(nèi)容,并給出標(biāo)簽是"因戲得 良緣的娛樂圈明星",提升用戶體驗(yàn)。
[0029] 本實(shí)施例中,通過從網(wǎng)頁中獲取多實(shí)體標(biāo)簽,可W使得實(shí)體標(biāo)簽不限于Schema預(yù) 定義的關(guān)系,從而可W提高能夠描述的實(shí)體關(guān)系的覆蓋范圍,通過將自然語言片段作為多 實(shí)體標(biāo)簽,可W提高描述方式的自然度。
[0030] 圖2是本發(fā)明另一實(shí)施例提出的實(shí)體標(biāo)簽的抽取方法的流程示意圖,多實(shí)體標(biāo)簽 對應(yīng)的實(shí)體集合中包括的實(shí)體個數(shù)可W是兩個或至少=個,其中,至少=個實(shí)體對應(yīng)的多 實(shí)體標(biāo)簽可W稱為盤點(diǎn)型標(biāo)簽,本實(shí)施例W盤點(diǎn)型標(biāo)簽為例。該方法包括:
[0031] S201 :從網(wǎng)頁標(biāo)題(title)數(shù)據(jù)庫中,獲取盤點(diǎn)型網(wǎng)頁標(biāo)題。
[0032] 其中,盤點(diǎn)型網(wǎng)頁標(biāo)題是指標(biāo)題中包含:用于描述至少=個實(shí)體間共性的自然語 言片段。通過對網(wǎng)頁標(biāo)題進(jìn)行分析,可W從中選擇出盤點(diǎn)型網(wǎng)頁標(biāo)題。
[0033] S202:從盤點(diǎn)型網(wǎng)頁標(biāo)題中,提取盤點(diǎn)型標(biāo)簽。
[0034] 例如,可W利用正則表達(dá)式,從盤點(diǎn)型網(wǎng)頁標(biāo)簽中提取盤點(diǎn)型標(biāo)簽,例如,提取的 盤點(diǎn)型標(biāo)簽是"因戲得良緣的娛樂圈明星"。
[0035] 可選的,還可W對提取出的盤點(diǎn)型標(biāo)簽進(jìn)行進(jìn)一步處理,進(jìn)一步處理例如包括如 下的S203-S205。
[0036] S203 :盤點(diǎn)型標(biāo)簽的規(guī)范化及基礎(chǔ)特征提取。
[0037] 規(guī)范化例如包括:利用詞性標(biāo)注、詞干識別等自然語言工具識別并移除盤點(diǎn)型標(biāo) 簽中的冗余詞。
[003引基礎(chǔ)特征提取例如包括:提取盤點(diǎn)型標(biāo)簽的語義向量,要求語義相似的盤點(diǎn)型標(biāo) 簽的語義向量相近。
[0039] S204 :盤點(diǎn)型標(biāo)簽的領(lǐng)域識別。
[0040] 例如,根據(jù)盤點(diǎn)型標(biāo)簽的核屯、主干詞識別該標(biāo)簽所屬領(lǐng)域。例如,針對"娛樂圈潛 力花旦"運(yùn)樣的標(biāo)簽,通過核屯、詞"花旦"可W推斷該標(biāo)簽所屬領(lǐng)域是人物。
[0041] S205 :盤點(diǎn)型標(biāo)簽的質(zhì)量控制。
[0042] 例如,利用標(biāo)簽的語義向量識別并過濾黃反負(fù)面的標(biāo)簽,例如,過濾掉"蹲過監(jiān)獄 的內(nèi)地明星"運(yùn)種屬于負(fù)面的標(biāo)簽。
[0043] 經(jīng)過上述的S201-S205可W獲取到盤點(diǎn)型標(biāo)簽,另一方面還需要獲取對應(yīng)的實(shí)體 集合。獲取實(shí)體集合的流程可W包括:
[0044]S206 :翻頁序列挖掘,獲取上述的盤點(diǎn)型網(wǎng)頁標(biāo)題所在的網(wǎng)頁的翻頁網(wǎng)頁。
[0045] 由于一篇網(wǎng)頁內(nèi)容通常會分布在多個頁面上,而網(wǎng)頁庫內(nèi)往往只收錄其中幾頁, 為最大化召回被盤點(diǎn)實(shí)體,需要通過翻頁序列挖掘來補(bǔ)充未被收錄的頁面。例如,當(dāng)前收錄 的頁面是第一頁,而該篇內(nèi)容還包括第一頁翻頁后的第二頁和第S頁等,則通過翻頁序列 挖掘,可W獲取到第二頁和第=頁等。
[0046] S207:對上述的盤點(diǎn)型網(wǎng)頁標(biāo)題所在的網(wǎng)頁W及獲取的翻頁網(wǎng)頁,進(jìn)行網(wǎng)頁正文 內(nèi)容抽取。
[0047] 本實(shí)施例W在正文內(nèi)容中提取實(shí)體為例,因此之前可W先過濾掉網(wǎng)頁中其余無用 內(nèi)容。
[0048] S208 :從正文內(nèi)容中提取與盤點(diǎn)型標(biāo)簽所屬領(lǐng)域相同的實(shí)體集合。
[0049] 例如,利用實(shí)體識別工具進(jìn)行相應(yīng)領(lǐng)域的實(shí)體抽取。
[0050] S209 :盤點(diǎn)型標(biāo)簽與實(shí)體的相關(guān)性控制。
[0051] 例如,利用基礎(chǔ)屬性約束、網(wǎng)頁結(jié)構(gòu)特征、標(biāo)簽與實(shí)體語義相似度等技術(shù)來確保標(biāo) 簽燈AG)與實(shí)體巧ntity)的相關(guān)性。
[0052] 可選的,還可W執(zhí)行S210-S211。
[0053] S210 :相似標(biāo)簽和/或?qū)嶓w的合并。
[0054] 例如,利用語義相似度識別語義相似的盤點(diǎn)型標(biāo)簽,并將相似的盤點(diǎn)型標(biāo)簽歸一 化為統(tǒng)一的一個盤點(diǎn)型標(biāo)簽,W及,將相似的盤點(diǎn)型標(biāo)簽關(guān)聯(lián)的實(shí)體與該統(tǒng)一的盤點(diǎn)型標(biāo) 簽進(jìn)行融合,使得該統(tǒng)一的盤點(diǎn)型標(biāo)簽關(guān)聯(lián)的實(shí)體集合包括:所有的相似的盤點(diǎn)型標(biāo)簽關(guān) 聯(lián)的實(shí)體集合。
[00W] S211 :對數(shù)據(jù)保存到數(shù)據(jù)庫內(nèi)。
[0056] 例如,將盤點(diǎn)型標(biāo)簽與關(guān)聯(lián)的實(shí)體集合關(guān)聯(lián)保存到數(shù)據(jù)庫內(nèi)。另外,在保存之前可 W進(jìn)行人工或預(yù)設(shè)算法的評估,W將滿足一定要求的數(shù)據(jù)進(jìn)行保存。
[0057] 本實(shí)施例中,通過從網(wǎng)頁中獲取多實(shí)體標(biāo)簽,可W使得實(shí)體標(biāo)簽不限于Schema預(yù) 定義的關(guān)系,從而可W提高能夠描述的實(shí)體關(guān)系的覆蓋范圍,通過將自然語言片段作為多 實(shí)體標(biāo)簽,可W提高描述方式的自然度。另外,通過上述的各種進(jìn)一步處理,可W提高獲取 的盤點(diǎn)型標(biāo)簽和/或關(guān)聯(lián)的實(shí)體的準(zhǔn)確度。
[0058] 圖3是本發(fā)明另一實(shí)施例提出的實(shí)體標(biāo)簽的抽取裝置的結(jié)構(gòu)示意圖,該裝置30包 括:第一獲取模塊31,第二獲取模塊32和關(guān)聯(lián)模塊33。
[0059] 第一獲取模塊31,用于從網(wǎng)頁中獲取用于描述實(shí)體間共性的自然語言片段;
[0060] 例如,可W從網(wǎng)頁標(biāo)題中提取用于描述實(shí)體間共性的自然語言片段。網(wǎng)頁例如包 括:新聞、博客或論壇等。
[0061] 實(shí)體標(biāo)簽(TAG)可W分為單實(shí)體標(biāo)簽和多實(shí)體標(biāo)簽,多實(shí)體標(biāo)簽是指用于描述至 少兩個實(shí)體之間的實(shí)體關(guān)系的標(biāo)簽,本發(fā)明實(shí)施例W多實(shí)體標(biāo)簽為例。
[0062] 本實(shí)施例中,將獲取的用于描述實(shí)體間共性的自然語言片段作為多實(shí)體標(biāo)簽。
[0063] 可選的,第一獲取模塊31具體用于:
[0064] 從網(wǎng)頁標(biāo)題庫中選擇具有多實(shí)體標(biāo)簽的網(wǎng)頁標(biāo)題;
[0065] 從所述網(wǎng)頁標(biāo)題中提取用于描述實(shí)體間共性的自然語言片段。
[0066] W多實(shí)體標(biāo)簽是盤點(diǎn)型標(biāo)簽為例,例如,從網(wǎng)頁標(biāo)題(title)數(shù)據(jù)庫中,獲取盤點(diǎn) 型網(wǎng)頁標(biāo)題。
[0067] 其中,盤點(diǎn)型網(wǎng)頁標(biāo)題是指標(biāo)題中包含:用于描述至少=個實(shí)體間共性的自然語 言片段。通過對網(wǎng)頁標(biāo)題進(jìn)行分析,可W從中選擇出盤點(diǎn)型網(wǎng)頁標(biāo)題。 W側(cè)之后,從盤點(diǎn)型網(wǎng)頁標(biāo)題中,提取盤點(diǎn)型標(biāo)簽。 W例例如,可W利用正則表達(dá)式,從盤點(diǎn)型網(wǎng)頁標(biāo)簽中提取盤點(diǎn)型標(biāo)簽,例如,提取的 盤點(diǎn)型標(biāo)簽是"因戲得良緣的娛樂圈明星"。
[0070] 第二獲取模塊32,用于獲取滿足所述自然語言片段的實(shí)體;<