本發(fā)明涉及實(shí)體消歧技術(shù)領(lǐng)域,特別涉及一種實(shí)體消歧方法及裝置。
背景技術(shù):
實(shí)體消歧是為了解決自然語言中廣泛存在的命名實(shí)體(后文中簡稱“實(shí)體”)的歧義(一詞多義)問題,屬于詞義消歧的一部分,是自然語言處理中非常重要的基礎(chǔ)性工作。在視頻搜索引擎中存在大量的影視劇名的實(shí)體,而影視劇名存在大量的歧義,歧義分為兩個(gè)方面:其一,影視劇名是一個(gè)普通詞語或短語(例如:“少帥”既是一個(gè)普通的詞語也是一部影視劇名稱,類似的還有“大丈夫”、“蘋果”、“臥虎藏龍”等);其二,一個(gè)影視劇名對應(yīng)多個(gè)影視劇實(shí)體(例如:“非誠勿擾”即是一部電影的名稱,也是一檔綜藝節(jié)目的名稱,電影“美人魚”有多個(gè)不同的版本)。每一個(gè)不同概念意義事物的敘述內(nèi)容稱為義項(xiàng),如果能準(zhǔn)確識別有歧義的實(shí)體,準(zhǔn)確的對歧義實(shí)體消歧,即區(qū)分實(shí)體的真正義項(xiàng),將對于視頻搜索引擎的優(yōu)化有很大的幫助。
實(shí)體消歧可以分為有監(jiān)督學(xué)習(xí)方法和無監(jiān)督學(xué)習(xí)方法。前者從標(biāo)注了義項(xiàng)的大規(guī)模訓(xùn)練數(shù)據(jù)中抽取歧義詞義項(xiàng)的特征屬性,然后根據(jù)實(shí)體詞在文本中出現(xiàn)位置的上下文,給出匹配度最高的歧義詞義項(xiàng)作為消歧的結(jié)果,而后者對大量未標(biāo)注義項(xiàng)的語料中通過聚類方法將歧義詞聚類出不同的義項(xiàng),同一聚類類別中的特征作為該義項(xiàng)的特征。
對于有監(jiān)督學(xué)習(xí)方法,需要對訓(xùn)練數(shù)據(jù)做大量地人工標(biāo)注工作,如:確定歧義詞存在的候選義項(xiàng),以及標(biāo)注大量用于抽取歧義詞義項(xiàng)特征的訓(xùn)練數(shù)據(jù),這無疑需要大量的人工成本,而且有監(jiān)督方法無法很好解決沒有出現(xiàn)在標(biāo)注集中的歧義詞的消歧。而基于聚類的無監(jiān)督學(xué)習(xí)方法,最終的類別(義項(xiàng))數(shù)是不確定的,聚類類別與實(shí)際義項(xiàng)也無法一一對應(yīng),導(dǎo)致基于無監(jiān)督學(xué)習(xí)方法的消歧準(zhǔn)確度不高,進(jìn)而導(dǎo)致搜索的準(zhǔn)確度不高。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種實(shí)體消歧方法及裝置,以提高搜索的準(zhǔn)確度。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種實(shí)體消歧方法,方法包括:
利用預(yù)先訓(xùn)練的用于識別待消歧實(shí)體的第一識別模型,識別目標(biāo)文本中的待消歧實(shí)體;
根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧。
較佳的,所述根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧,包括:
利用預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型,從所述目標(biāo)文本中識別所述待消歧實(shí)體上下文中的預(yù)設(shè)字段信息;
計(jì)算所識別的預(yù)設(shè)字段信息與所述待消歧實(shí)體的每一義項(xiàng)的預(yù)設(shè)字段信息的匹配度;
根據(jù)所述匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧。
較佳的,所述根據(jù)匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧,包括:
將最高匹配度對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
較佳的,所述根據(jù)匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧,包括:
在所有匹配度中存在不小于預(yù)設(shè)第一閾值的匹配度的情況下,將匹配度不小于預(yù)設(shè)第一閾值對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
較佳的,所述根據(jù)匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧,還包括:
在所有匹配度均小于預(yù)設(shè)第一閾值的情況下,根據(jù)所述分類模型、所述待消歧實(shí)體的每一義項(xiàng)、所述待消歧實(shí)體的上下文詞,對所述待消歧實(shí)體進(jìn)行消歧。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種實(shí)體消歧裝置,裝置包括:
識別模塊,用于利用預(yù)先訓(xùn)練的用于識別待消歧實(shí)體的第一識別模型,識別目標(biāo)文本中的待消歧實(shí)體;
消歧模塊,用于根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧。
較佳的,所述消歧模塊,包括:
識別單元,用于利用預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型,從所述目標(biāo)文本中識別所述待消歧實(shí)體上下文中的預(yù)設(shè)字段信息;
計(jì)算單元,用于計(jì)算所識別的預(yù)設(shè)字段信息與所述待消歧實(shí)體的每一義項(xiàng)的預(yù)設(shè)字段信息的匹配度;
消歧單元,用于根據(jù)所述匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧。
較佳的,所述消歧單元,具體用于:
將最高匹配度對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
較佳的,所述消歧單元,具體用于:
在所有匹配度中存在不小于預(yù)設(shè)第一閾值的匹配度的情況下,將匹配度不小于預(yù)設(shè)第一閾值對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
較佳的,所述消歧單元,還具體用于:
在所有匹配度均小于預(yù)設(shè)第一閾值的情況下,根據(jù)所述分類模型、所述待消歧實(shí)體的每一義項(xiàng)、所述待消歧實(shí)體的上下文詞,對所述待消歧實(shí)體進(jìn)行消歧。
由上述的技術(shù)方案可見,本發(fā)明實(shí)施例提供的一種實(shí)體消歧方法及裝置,利用預(yù)先訓(xùn)練的用于識別待消歧實(shí)體的第一識別模型,識別目標(biāo)文本中的待消歧實(shí)體;根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧。
可見,預(yù)先構(gòu)建多個(gè)實(shí)體識別和分類模型,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進(jìn)行人工標(biāo)注訓(xùn)練數(shù)據(jù),不再需要標(biāo)注集,解決了沒有出現(xiàn)在標(biāo)注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以通過數(shù)據(jù)庫自動(dòng)抽取待消歧實(shí)體的不同義項(xiàng)和義項(xiàng)特征,義項(xiàng)類別與實(shí)際的義項(xiàng)類別可以一一對應(yīng),提高了實(shí)體消歧的準(zhǔn)確度,進(jìn)而提高了搜索的準(zhǔn)確度。
當(dāng)然,實(shí)施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時(shí)達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種實(shí)體消歧方法的流程示意圖;
圖2為本發(fā)明實(shí)施例提供的一種實(shí)體消歧裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
下面首先對本發(fā)明實(shí)施例提供的一種實(shí)體消歧方法進(jìn)行詳細(xì)說明。
參見圖1,圖1為本發(fā)明實(shí)施例提供的一種實(shí)體消歧方法的流程示意圖,可以包括如下步驟:
S101,利用預(yù)先訓(xùn)練的用于識別待消歧實(shí)體的第一識別模型,識別目標(biāo)文本中的待消歧實(shí)體;
具體的,命名實(shí)體(簡稱實(shí)體)是指人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識的實(shí)體。其中,待消歧實(shí)體可以為音樂實(shí)體、影視劇實(shí)體等等。利用中文分詞技術(shù)對目標(biāo)文本進(jìn)行分詞,抽取目標(biāo)文本中的實(shí)體詞和實(shí)體上下文詞,將實(shí)體詞和實(shí)體上下文詞輸入預(yù)先訓(xùn)練好的第一識別模型,識別出目標(biāo)文本的待消歧實(shí)體,以便后續(xù)對待消歧實(shí)體進(jìn)行消歧。例如,對于目標(biāo)文本“非誠勿擾電影第二部”,對該文本分詞后得到實(shí)體詞“非誠勿擾”,上下文詞為“電影”和“第二部”。將“非誠勿擾”、“電影”和“第二部”輸入第一識別模型,從而識別出待消歧實(shí)體為“非誠勿擾”。其中,中文分詞技術(shù)為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不對其進(jìn)行贅述。
具體的,以待消歧實(shí)體為影視劇實(shí)體為例,預(yù)先訓(xùn)練用于識別待消歧實(shí)體的第一識別模型的過程可以為:從視頻數(shù)據(jù)庫中抽取所有影視劇實(shí)體名稱,將影視劇實(shí)體名稱與分詞系統(tǒng)中的普通詞典對比,得到?jīng)]有在普通詞典中出現(xiàn)的影視劇實(shí)體列表(記為L),L即為無歧義的影視劇實(shí)體列表。利用視頻數(shù)據(jù)庫中的所有視頻標(biāo)題,將包含L中無歧義影視劇實(shí)體的視頻標(biāo)題作為樣本,訓(xùn)練第一識別模型。本發(fā)明實(shí)施例可以使用基于向量空間模型的相似度匹配技術(shù),對上述樣本抽取并統(tǒng)計(jì)影視劇實(shí)體的上下文特征??梢允褂没谀0宓奶卣鞒槿〖夹g(shù)抽取樣本中影視劇實(shí)體的上下文特征,然后可以使用TF-IDF技術(shù)(用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù))統(tǒng)計(jì)抽取的特征,最終得到可用于識別待消歧實(shí)體的第一識別模型。其中,基于向量空間模型的相似度匹配技術(shù)、基于模板的特征抽取技術(shù)以及TF-IDF(term frequency–inverse document frequency)技術(shù)均為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不對其進(jìn)行贅述。
S102,根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧。
具體的,以待消歧實(shí)體為影視劇實(shí)體為例,預(yù)設(shè)字段可以為特定字段,例如頻道、年代和語言版本等。預(yù)先訓(xùn)練用于識別預(yù)設(shè)字段信息的第二識別模型的過程可以為:從視頻數(shù)據(jù)庫獲取所有影視劇實(shí)體的名稱,將同一名稱(W)的不同影視劇實(shí)體聚在一起,確定為該名稱的不同義項(xiàng)(例如:W#1表示影視劇名稱W的第一個(gè)義項(xiàng)、W#2表示影視劇名稱W的第二個(gè)義項(xiàng),以此類推)。
具體的,在獲取目標(biāo)影視劇實(shí)體的名稱時(shí),有些影視劇可能存在多個(gè)名稱,或者有別名、簡稱等。例如,江蘇衛(wèi)視的綜藝節(jié)目《非誠勿擾》在視頻數(shù)據(jù)庫中的完整名稱為“緣來非誠勿擾”,而人們習(xí)慣成為“非誠勿擾”,所以在視頻標(biāo)題中或者用戶查詢詞中的“非誠勿擾”很多都是指的“緣來非誠勿擾”,這種情況下可以獲取該影視劇實(shí)體的別名“非誠勿擾”,確定為目標(biāo)影視劇實(shí)體的名稱。有的影視劇實(shí)體名稱包含一些附加信息,例如有一條影視劇實(shí)體的名稱為“笑傲江湖呂頌賢版”,而該影視劇實(shí)體的別名中沒有“笑傲江湖”,因此如果不做特殊處理,該條實(shí)體無法成為一個(gè)義項(xiàng)。本發(fā)明實(shí)施例可以使用實(shí)體識別模塊加模板匹配的方式進(jìn)行處理。實(shí)體識別模塊能對影視劇實(shí)體的標(biāo)題進(jìn)行分詞并識別其中的影視劇名實(shí)體,例如:識別“笑傲江湖呂頌賢版”中的“笑傲江湖”為影視劇名實(shí)體,標(biāo)記為“nz_ALBUM”,“nz”表示詞性為實(shí)體,ALBUM表示實(shí)體類型為影視劇。本發(fā)明實(shí)施例配置了一些模板,例如:“nz_ALBUM+人名(版)”、“nz_ALBUM+年代(版)”、“nz_ALBUM+之**”等等。當(dāng)影視劇實(shí)體的標(biāo)題匹配某個(gè)模板時(shí),將nz_ALBUM部分抽取出確定為該影視劇實(shí)體的別名用于義項(xiàng)抽取,例如上文中的“笑傲江湖呂頌賢版”符合實(shí)例模板“nz_ALBUM+人名(版)”,所以抽取“笑傲江湖”確定為其別名。
具體的,影視劇名實(shí)體上下文存在大量表示影視劇特定字段(如:頻道、年代、語言版本等)的特征,這些特征對于匹配具體義項(xiàng)實(shí)體時(shí)是非常有用的,例如上文提到的“非誠勿擾”有一個(gè)電影版本的實(shí)體和一個(gè)綜藝版本的實(shí)體,如果文本為“非誠勿擾電影第二部”,此時(shí)頻道特征“電影”可以用來確定應(yīng)該匹配的義項(xiàng)實(shí)體為“非誠勿擾(電影)”。
具體的,對于頻道特征的抽取,首先從視頻數(shù)據(jù)庫獲取無頻道歧義的影視劇名,具體地,可以抽取僅在一個(gè)頻道中存在實(shí)體的影視劇名即無頻道歧義影視劇名,例如“花千骨”只有電視劇頻道一個(gè)實(shí)體,則將“花千骨”確定為無頻道歧義的電視劇頻道數(shù)據(jù)。使用這些無頻道歧義的影視劇實(shí)體,再次利用視頻數(shù)據(jù)庫,抽取并統(tǒng)計(jì)各頻道影視劇實(shí)體的上下文特征,得到頻道識別的特征,例如電影頻道的“電影版”、“影院版”、“票房”等特征。在實(shí)際應(yīng)用中,可以使用卡方檢驗(yàn)技術(shù)、TF-IDF技術(shù)(用于信息檢索與數(shù)據(jù)挖掘的加權(quán)技術(shù))以及人工整理的方法,抽取并統(tǒng)計(jì)各頻道影視劇實(shí)體的上下文特征。其中,年代、語言版本等特定字段的特征抽取可以使用正則表達(dá)式技術(shù)及人工整理的方法就可以完成,例如年代特征“*2016”、“83版”等,語言版本特征“粵語版”、“國粵雙語”、“國語”等。其中,卡方檢驗(yàn)技術(shù)、TF-IDF技術(shù)及正則表達(dá)式技術(shù)均為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不對其進(jìn)行贅述。
具體的,以待消歧實(shí)體為影視劇實(shí)體為例,預(yù)先構(gòu)建用于實(shí)體消歧的分類模型的過程可以為:
抽取初始義項(xiàng)特征:抽取出待消歧實(shí)體不同義項(xiàng)的字段信息(如:導(dǎo)演、演員、角色)作為義項(xiàng)的初始特征,例如:抽取非誠勿擾(綜藝)的字段信息,得到該義項(xiàng)的初始特征:“孟非”(主持人)、“黃菡”(嘉賓)、“樂嘉”(嘉賓)、“江蘇衛(wèi)視”(播出頻道)等;抽取非誠勿擾(電影)的字段信息,得到該義項(xiàng)的初始特征:“馮小剛”(導(dǎo)演)、“葛優(yōu)”(演員)、“舒淇”(演員)、“范偉”(演員)等;
語料聚合:在得到了待消歧實(shí)體的不同義項(xiàng)以及不同義項(xiàng)的初始特征,此時(shí),消歧可以看作分類問題,歧義實(shí)體的不同義項(xiàng)即為分類類別,義項(xiàng)的初始特征即為類別的初始特征。分類問題中,最主要的是需要大量的語料數(shù)據(jù),可以通過初始義項(xiàng)特征從視頻數(shù)據(jù)庫中聚合語料,然后使用語料繼續(xù)擴(kuò)展義項(xiàng)特征,如此迭代使得義項(xiàng)特征和義項(xiàng)語料不斷豐富,其中,語料是指在統(tǒng)計(jì)自然語言處理中實(shí)際上不可能觀測到大規(guī)模的語言實(shí)例,人們簡單地用文本作為替代,并把文本中的上下文關(guān)系作為現(xiàn)實(shí)世界中語言的上下文關(guān)系的替代品。我們把一個(gè)文本集合稱為語料庫(Corpus),在本發(fā)明實(shí)施例中聚合的語料可以為視頻數(shù)據(jù)庫中包含待消歧實(shí)體的視頻數(shù)據(jù)。語料聚合問題已轉(zhuǎn)化為語料分類的問題,可以使用基于向量空間模型的相似度匹配技術(shù)來聚合語料,該項(xiàng)技術(shù)為現(xiàn)有技術(shù),本發(fā)明實(shí)施例在此不對其進(jìn)行贅述;
義項(xiàng)特征擴(kuò)充:在通過不同義項(xiàng)的初始特征從視頻數(shù)據(jù)庫中聚合語料后,待消歧實(shí)體的不同義項(xiàng)下都對應(yīng)一批屬于該義項(xiàng)類別的語料數(shù)據(jù),即為視頻數(shù)據(jù)(包括標(biāo)題、字段信息、評論、彈幕等)??梢允褂每ǚ綑z驗(yàn)和TF-IDF技術(shù),構(gòu)建特征抽取模型對這些視頻數(shù)據(jù)進(jìn)行特征抽取,用抽取的特征來擴(kuò)充義項(xiàng)的初始特征。在實(shí)際應(yīng)用中,可以循環(huán)執(zhí)行幾次語料聚合和義項(xiàng)特征擴(kuò)充,不斷擴(kuò)充義項(xiàng)特征,最終得到包含待消歧實(shí)體的不同義項(xiàng)和義項(xiàng)特征的分類模型。
具體的,在實(shí)際應(yīng)用中,可以利用預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型,從所述目標(biāo)文本中識別所述待消歧實(shí)體上下文中的預(yù)設(shè)字段信息;計(jì)算所識別的預(yù)設(shè)字段信息與所述待消歧實(shí)體的每一義項(xiàng)的預(yù)設(shè)字段信息的匹配度;根據(jù)所述匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧。
具體的,在實(shí)際應(yīng)用中,可以將最高匹配度對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
示例性的,對于目標(biāo)文本“非誠勿擾電影第二部”,待消歧實(shí)體為“非誠勿擾”,待消歧實(shí)體上下文為“電影”和“第二部”。利用第二識別模型,從視頻數(shù)據(jù)庫中抽取待消歧實(shí)體的不同義項(xiàng),得到兩個(gè)義項(xiàng):其一是葛優(yōu)主演的電影《非誠勿擾》(表示為“非誠勿擾#1”),其二是江蘇衛(wèi)視的一檔綜藝節(jié)目《緣來非誠勿擾》,常被稱為“非誠勿擾”(表示為“非誠勿擾#2”)。利用第二識別模型,識別待消歧實(shí)體上下文中的預(yù)設(shè)字段信息為“電影”,計(jì)算所識別的預(yù)設(shè)字段信息“電影”與待消歧實(shí)體“非誠勿擾”的每一義項(xiàng)的預(yù)設(shè)字段信息的匹配度,得到的匹配度分別為90%和20%,將最高匹配度對應(yīng)的義項(xiàng)“非誠勿擾#1”,確定為待消歧實(shí)體“非誠勿擾”的實(shí)際義項(xiàng)。
具體的,在實(shí)際應(yīng)用中,可以在所有匹配度中存在不小于預(yù)設(shè)第一閾值的匹配度的情況下,將匹配度不小于預(yù)設(shè)第一閾值對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
示例性的,對于目標(biāo)文本“A電影中文版”,待消歧實(shí)體為A,利用第二識別模型,從視頻數(shù)據(jù)庫抽取A的不同義項(xiàng)為:A#1(特定字段信息:電影、國語版)、A#2(特定字段信息:電視劇、國語版)、A#3(特定字段信息:電影、粵語版)、A#4(特定字段信息:電視劇、粵語版),計(jì)算所識別的特定字段信息“電影”“中文版”與待消歧實(shí)體A的每一義項(xiàng)的特定字段信息的匹配度,得到的匹配度分別為90%、30%、85%、20%,預(yù)設(shè)第一閾值設(shè)為80%,則將匹配度不小于預(yù)設(shè)第一閾值對應(yīng)的義項(xiàng)A#1和A#3,確定為待消歧實(shí)體A的實(shí)際義項(xiàng)。
具體的,在實(shí)際應(yīng)用中,可以在所有匹配度均小于預(yù)設(shè)第一閾值的情況下,根據(jù)所述分類模型、所述待消歧實(shí)體的每一義項(xiàng)、所述待消歧實(shí)體的上下文詞,對所述待消歧實(shí)體進(jìn)行消歧。
示例性的,對于目標(biāo)文本“非誠勿擾男嘉賓被滅燈”,待消歧實(shí)體為“非誠勿擾”,從視頻數(shù)據(jù)庫抽取“非誠勿擾”的不同義項(xiàng),得到兩個(gè)義項(xiàng):其一是葛優(yōu)主演的電影《非誠勿擾》(表示為“非誠勿擾#1”),其二是江蘇衛(wèi)視的一檔綜藝節(jié)目《緣來非誠勿擾》,常被稱為“非誠勿擾”(表示為“非誠勿擾#2”)。抽取待消歧實(shí)體的上下文詞“男嘉賓”和“滅燈”,將待消歧實(shí)體的上下文詞輸入分類模型,在分類模型中將上下文詞數(shù)據(jù)“男嘉賓”和“滅燈”與分類模型中“非誠勿擾”的不同義項(xiàng)以及義項(xiàng)特征數(shù)據(jù)進(jìn)行匹配,并計(jì)算匹配度,將匹配度最大且高于預(yù)設(shè)第二閾值的義項(xiàng),確定為待消歧實(shí)體的實(shí)際義項(xiàng)。例如,計(jì)算得到待消歧實(shí)體的上下文詞與“非誠勿擾#1”的義項(xiàng)特征數(shù)據(jù)的匹配度為20%,與“非誠勿擾#2”的義項(xiàng)特征數(shù)據(jù)的匹配度為85%,預(yù)設(shè)第二閾值設(shè)為75%,則將“非誠勿擾#2”確定為目標(biāo)文本“非誠勿擾男嘉賓被滅燈”中待消歧實(shí)體“非誠勿擾”的實(shí)際義項(xiàng)。
可見,預(yù)先構(gòu)建多個(gè)實(shí)體識別和分類模型,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進(jìn)行人工標(biāo)注訓(xùn)練數(shù)據(jù),不再需要標(biāo)注集,解決了沒有出現(xiàn)在標(biāo)注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以通過數(shù)據(jù)庫自動(dòng)抽取待消歧實(shí)體的不同義項(xiàng)和義項(xiàng)特征,義項(xiàng)類別與實(shí)際的義項(xiàng)類別可以一一對應(yīng),提高了實(shí)體消歧的準(zhǔn)確度,進(jìn)而提高了搜索的準(zhǔn)確度。
參見圖2,圖2為本發(fā)明實(shí)施例提供的一種實(shí)體消歧裝置的結(jié)構(gòu)示意圖,與圖1所示的流程相對應(yīng),該消歧裝置可以包括:識別模塊201、消歧模塊202。
識別模塊201,用于利用預(yù)先訓(xùn)練的用于識別待消歧實(shí)體的第一識別模型,識別目標(biāo)文本中的待消歧實(shí)體;
消歧模塊202,用于根據(jù)預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型、預(yù)先構(gòu)建的用于實(shí)體消歧的分類模型以及所述目標(biāo)文本,對所述待消歧實(shí)體進(jìn)行消歧。
具體的,消歧模塊202,可以包括:識別單元、計(jì)算單元和消歧單元(圖中未示出);
識別單元,用于利用預(yù)先訓(xùn)練的用于識別預(yù)設(shè)字段信息的第二識別模型,從所述目標(biāo)文本中識別所述待消歧實(shí)體上下文中的預(yù)設(shè)字段信息;
計(jì)算單元,用于計(jì)算所識別的預(yù)設(shè)字段信息與所述待消歧實(shí)體的每一義項(xiàng)的預(yù)設(shè)字段信息的匹配度;
消歧單元,用于根據(jù)所述匹配度以及所述分類模型,對所述待消歧實(shí)體進(jìn)行消歧。
具體的,所述消歧單元,具體可以用于:
將最高匹配度對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
具體的,所述消歧單元,具體可以用于:
在所有匹配度中存在不小于預(yù)設(shè)第一閾值的匹配度的情況下,將匹配度不小于預(yù)設(shè)第一閾值對應(yīng)的義項(xiàng),確定為所述待消歧實(shí)體的實(shí)際義項(xiàng)。
具體的,所述消歧單元,還具體可以用于:
在所有匹配度均小于預(yù)設(shè)第一閾值的情況下,根據(jù)所述分類模型、所述待消歧實(shí)體的每一義項(xiàng)、所述待消歧實(shí)體的上下文詞,對所述待消歧實(shí)體進(jìn)行消歧。
可見,預(yù)先構(gòu)建多個(gè)實(shí)體識別和分類模型,利用數(shù)據(jù)庫作為唯一數(shù)據(jù)源,無需進(jìn)行人工標(biāo)注訓(xùn)練數(shù)據(jù),不再需要標(biāo)注集,解決了沒有出現(xiàn)在標(biāo)注集中的歧義詞的消歧問題,也節(jié)省了人工成本。而且可以通過數(shù)據(jù)庫自動(dòng)抽取待消歧實(shí)體的不同義項(xiàng)和義項(xiàng)特征,義項(xiàng)類別與實(shí)際的義項(xiàng)類別可以一一對應(yīng),提高了實(shí)體消歧的準(zhǔn)確度,進(jìn)而提高了搜索的準(zhǔn)確度。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個(gè)實(shí)施例均采用相關(guān)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計(jì)算機(jī)可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。