本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,特別是涉及一種同義詞發(fā)現(xiàn)方法及裝置、數(shù)據(jù)處理方法及裝置。
背景技術(shù):
同義關(guān)系是非常重要的語(yǔ)義關(guān)系,經(jīng)常被應(yīng)用于信息檢索、文本分類等自然語(yǔ)言處理任務(wù)中。具體而言,在進(jìn)行信息檢索或文本分類等處理任務(wù)之前,需要進(jìn)行同義詞的獲取和同義詞的識(shí)別。例如,在信息檢索的應(yīng)用場(chǎng)景中,可以將屬于同義詞的多個(gè)詞歸為一類,當(dāng)輸入文本中存在有同義詞的關(guān)鍵字時(shí),可將同義詞代替原關(guān)鍵字進(jìn)行搜索,從而可以使檢索系統(tǒng)提供給用戶更多的待確認(rèn)文本。
在中文書(shū)面和日常表達(dá)中經(jīng)常出現(xiàn)有固有名稱的簡(jiǎn)寫(xiě)形式,這些簡(jiǎn)寫(xiě)形式的詞語(yǔ)被稱為固有名稱的縮略詞,縮略詞為原固有名稱的一部分,縮略詞也是同義詞的一種。例如,“全國(guó)人大”是“全國(guó)人民代表大會(huì)”的縮略詞,“中國(guó)”是“中華人民共和國(guó)”的縮略詞,“皇家馬德里”為“皇馬”的縮略詞等等。
然而,現(xiàn)有技術(shù)中的同義詞發(fā)現(xiàn)方法無(wú)法較好地識(shí)別縮略詞,從而使得語(yǔ)義理解的準(zhǔn)確性較低。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問(wèn)題是提供一種同義詞發(fā)現(xiàn)方法及裝置,提高發(fā)現(xiàn)縮略詞的準(zhǔn)確性。
為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例提供一種同義詞發(fā)現(xiàn)方法,所述方法包括:獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞;對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì);其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
可選地,所述方法還包括:分別計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度,并從中選擇語(yǔ)義相似度值大于相似度閾值的詞或語(yǔ)義相似度值較高的前N個(gè)詞作為候選詞;
所述目標(biāo)詞通過(guò)以下方式確定:分別計(jì)算所述待處理詞與每個(gè)所述候選詞的最小編輯距離,將與所述待處理詞的最小編輯距離小于預(yù)設(shè)閾值的候選詞作為目標(biāo)詞。
可選地,分別計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度,包括:
對(duì)所述詞組集合中的每個(gè)詞進(jìn)行向量化;基于向量化的結(jié)果,計(jì)算所述待處理詞與其余每個(gè)詞的余弦相似度,所述余弦相似度作為所述語(yǔ)義相似度。
可選地,對(duì)所述詞組集合中的每個(gè)詞進(jìn)行向量化,包括:
采用word2vec方法對(duì)所述詞組集合中的各個(gè)詞進(jìn)行向量化。
可選地,所述獲取待發(fā)現(xiàn)同義詞的詞組集合,包括:
對(duì)輸入語(yǔ)料進(jìn)行分詞,以得到所述詞組集合。
可選地,利用分詞詞典對(duì)所述輸入語(yǔ)料進(jìn)行分詞,所述分詞詞典通過(guò)以下方式獲得:
對(duì)所述輸入語(yǔ)料進(jìn)行預(yù)處理,以得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,以得到分詞后的詞語(yǔ)數(shù)據(jù);對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,以生成候選數(shù)據(jù)串;對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,以發(fā)現(xiàn)新詞;將所述新詞加入所述分詞詞典。
可選地,所述其余操作包括插入操作和替換操作,單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
本發(fā)明實(shí)施例還提供一種數(shù)據(jù)處理方法,所述數(shù)據(jù)處理方法包括上述同義詞發(fā)現(xiàn)方法。
本發(fā)明實(shí)施例還提供一種同義詞發(fā)現(xiàn)裝置,所述裝置包括:
獲取單元,適于獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞;
同義詞確定單元,適于對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì);
其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
可選地,所述同義詞發(fā)現(xiàn)裝置還包括:
候選詞選取單元,適于分別計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度,并從中選擇語(yǔ)義相似度值大于相似度閾值的詞或語(yǔ)義相似度值較高的前N個(gè)詞作為候選詞;
目標(biāo)詞確定單元,適于分別計(jì)算所述待處理詞與每個(gè)所述候選詞的最小編輯距離,將與所述待處理詞的最小編輯距離小于預(yù)設(shè)閾值的候選詞作為目標(biāo)詞。
可選地,所述候選詞選取單元包括:
向量化子單元,適于對(duì)所述詞組集合中的每個(gè)詞進(jìn)行向量化;
余弦相似度計(jì)算子單元,適于基于向量化的結(jié)果,計(jì)算所述待處理詞與其余每個(gè)詞的余弦相似度,所述余弦相似度作為所述語(yǔ)義相似度。
可選地,所述向量化子單元采用word2vec方法對(duì)所述詞組集合中的各個(gè)詞進(jìn)行向量化。
可選地,所述獲取單元包括:
分詞子單元,適于對(duì)輸入語(yǔ)料進(jìn)行分詞,以得到所述詞組集合。
可選地,所述分詞子單元利用分詞詞典對(duì)所述輸入語(yǔ)料進(jìn)行分詞,所述分詞詞典通過(guò)分詞詞典獲取單元獲得,所述分詞詞典獲取單元適于:
對(duì)所述輸入語(yǔ)料進(jìn)行預(yù)處理,以得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,以得到分詞后的詞語(yǔ)數(shù)據(jù);對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,以生成候選數(shù)據(jù)串;對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,以發(fā)現(xiàn)新詞;將所述新詞加入所述分詞詞典。
可選地,所述其余操作包括插入操作和替換操作,單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
本發(fā)明實(shí)施例還提供一種數(shù)據(jù)處理裝置,所述數(shù)據(jù)處理裝置包括上述同義詞發(fā)現(xiàn)裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例的技術(shù)方案具有以下有益效果:
本發(fā)明實(shí)施例獲取待處理的詞組集合;對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì);其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。上述方案一方面通過(guò)限定編輯距離方法中刪除操作的編輯距離小于其余操作的編輯距離,使得最小編輯距離是通過(guò)優(yōu)先采用刪除操作而獲得;另一方面,計(jì)算最小編輯距離過(guò)程中的刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,同時(shí)單次其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值時(shí),由此,當(dāng)待處理詞到目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),對(duì)應(yīng)的目標(biāo)詞是由待處理詞僅通過(guò)刪除操作得到,從而確保通過(guò)編輯距離方法獲得的同義詞為待處理詞文字表達(dá)的一部分,進(jìn)而使得獲得的縮略詞更加準(zhǔn)確,提高縮略詞發(fā)現(xiàn)的準(zhǔn)確率。
進(jìn)一步地,通過(guò)計(jì)算待處理詞與所述詞組集合中其余詞的語(yǔ)義相似度,選出多個(gè)候選詞,進(jìn)而可從多個(gè)候選詞形成的更小范圍中確定目標(biāo)詞,由于多個(gè)候選詞為待處理的詞組集合的一個(gè)子集,所以從多個(gè)候選詞中確定目標(biāo)詞可提高確定同義詞對(duì)的效率,同時(shí)通過(guò)將語(yǔ)義相似度作為另一項(xiàng)同義詞考核指標(biāo),進(jìn)一步提高了發(fā)現(xiàn)同義詞對(duì)的準(zhǔn)確性,也就提高了發(fā)現(xiàn)縮略詞的準(zhǔn)確性。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)方法的流程圖;
圖2是本發(fā)明實(shí)施例中的一種獲取分詞詞典的方法的流程圖;
圖3是本發(fā)明實(shí)施例中的另一種同義詞發(fā)現(xiàn)方法的流程圖;
圖4是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明實(shí)施例中的另一種同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
在中文書(shū)面和日常表達(dá)中經(jīng)常出現(xiàn)有固有名稱的簡(jiǎn)寫(xiě)形式,這些簡(jiǎn)寫(xiě)形式的詞語(yǔ)被稱為固有名稱的縮略詞,縮略詞為原固有名稱的一部分,縮略詞也是同義詞的一種。例如,“全國(guó)人大”是“全國(guó)人民代表大會(huì)”的縮略詞,“中國(guó)”是“中華人民共和國(guó)”的縮略詞,“皇家馬德里”為“皇馬”的縮略詞等等。然而,現(xiàn)有技術(shù)中的同義詞發(fā)現(xiàn)方法不能較好地識(shí)別縮略詞,從而使得語(yǔ)義理解的準(zhǔn)確性較低。
本發(fā)明實(shí)施例獲取待處理的詞組集合;對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì);其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。上述方案一方面通過(guò)限定編輯距離方法中刪除操作的編輯距離小于其余操作的編輯距離,使得最小編輯距離是通過(guò)優(yōu)先采用刪除操作而獲得;另一方面,計(jì)算最小編輯距離過(guò)程中的刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,同時(shí)單次其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值時(shí),由此,當(dāng)待處理詞到目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),對(duì)應(yīng)的目標(biāo)詞是由待處理詞僅通過(guò)刪除操作得到,從而確保通過(guò)編輯距離方法獲得的同義詞為待處理詞文字表達(dá)的一部分,進(jìn)而使得獲得的縮略詞更加準(zhǔn)確,提高縮略詞發(fā)現(xiàn)的準(zhǔn)確率。
為使本發(fā)明的上述目的、特征和有益效果能夠更為明顯易懂,下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施例做詳細(xì)的說(shuō)明。
圖1是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)方法的流程圖。下面結(jié)合圖1所示的步驟進(jìn)行說(shuō)明。
步驟S101:獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞。
所述待處理的詞組集合為待從中發(fā)現(xiàn)同義詞對(duì)的詞組集合。
在具體實(shí)施中,所述待處理的詞組集合通過(guò)對(duì)輸入語(yǔ)料進(jìn)行分詞而獲得。所述輸入語(yǔ)料的數(shù)據(jù)形式可以是語(yǔ)音數(shù)據(jù)等非文本數(shù)據(jù),也可以是文本數(shù)據(jù)。當(dāng)輸入語(yǔ)料為非文本數(shù)據(jù)時(shí),需要將其先轉(zhuǎn)換為文本數(shù)據(jù),即后續(xù)處理的對(duì)象都是文本數(shù)據(jù)。所述輸入語(yǔ)料可以通過(guò)獲取問(wèn)答系統(tǒng)與用戶的會(huì)話記錄而獲得,也可以來(lái)自于人工整理的知識(shí)點(diǎn)數(shù)據(jù)。
在具體實(shí)施中,上述輸入語(yǔ)料可能來(lái)自于一特定領(lǐng)域,因此可以理解的是,待處理的詞組集合中的詞是有關(guān)該特定領(lǐng)域的語(yǔ)義的表達(dá),其中可能包含有具有相同語(yǔ)義但表達(dá)形式不同的詞,即同義詞。所述特定領(lǐng)域可以是銀行領(lǐng)域、教育領(lǐng)域、體育領(lǐng)域等等。
例如,所述輸入語(yǔ)料來(lái)自于銀行領(lǐng)域,其中有的語(yǔ)句可能使用“招商銀行”表達(dá)這一銀行名稱,有的語(yǔ)句則可能使用“招行”來(lái)表達(dá),“招商銀行”與“招行”為一個(gè)同義詞對(duì);類似地,表達(dá)中存在“工商銀行”和“工行”這對(duì)同義詞。上述兩組同義詞對(duì)中“招行”是“招商銀行”的縮略詞,“工行”是“工商銀行”的縮略詞。當(dāng)然,表達(dá)中可能還存在其他非縮略詞的同義詞,例如“匯款”和“匯錢”是同義詞,但兩者之間不存在縮略詞的關(guān)系。而本實(shí)施例是要通過(guò)步驟S101至步驟S102發(fā)現(xiàn)縮略詞。
在具體實(shí)施中,對(duì)輸入語(yǔ)料進(jìn)行分詞是通過(guò)分詞詞典實(shí)現(xiàn)的,為了使得輸入語(yǔ)料進(jìn)行分詞的結(jié)果中包含縮略詞,換句話說(shuō),為了要將縮略詞從一個(gè)語(yǔ)句中分詞得到,所述分詞詞典中需要包含縮略詞,而縮略詞可能作為一種新詞在一般的基礎(chǔ)詞典中并不存在,所以需要通過(guò)新詞發(fā)現(xiàn)更新基礎(chǔ)詞典,使得縮略詞作為其中一種新詞被加入更新的基礎(chǔ)詞典,從而使用更新的基礎(chǔ)詞典作為分詞詞典對(duì)輸入語(yǔ)料分詞。
為了使所述分詞詞典中包括縮略詞,所述分詞詞典通過(guò)以下方式獲得,請(qǐng)參見(jiàn)圖2所示步驟。
S11:對(duì)輸入語(yǔ)料進(jìn)行預(yù)處理,以得到文本數(shù)據(jù)。
所述輸入語(yǔ)料中格式類型可能較多,為便于對(duì)輸入語(yǔ)料進(jìn)行后續(xù)處理,需對(duì)輸入語(yǔ)料進(jìn)行預(yù)處理,得到文本數(shù)據(jù)。
在具體實(shí)施中,所述預(yù)處理可以將輸入語(yǔ)料的格式統(tǒng)一為文本格式,并過(guò)濾臟詞、敏感詞和停用詞中的一種或多種。在將輸入語(yǔ)料的格式統(tǒng)一為文本格式時(shí),可以將當(dāng)前技術(shù)暫不能轉(zhuǎn)換為文本格式的內(nèi)容過(guò)濾掉。
S12:對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù)。
分行處理可以是對(duì)輸入語(yǔ)料按照標(biāo)點(diǎn)分行,例如在出現(xiàn)句號(hào)、逗號(hào)、嘆號(hào)、問(wèn)號(hào)等標(biāo)點(diǎn)處分行。此處得到語(yǔ)句數(shù)據(jù)是對(duì)語(yǔ)料的初步分割,以便于確定后續(xù)分詞處理的范圍。
S13,依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,以得到分詞后的詞語(yǔ)數(shù)據(jù)。
所述基礎(chǔ)詞典是為區(qū)分分詞詞典而言,所述基礎(chǔ)詞典中可能不含有縮略詞。所述基礎(chǔ)詞典包含多個(gè)單獨(dú)詞,不同單獨(dú)詞的長(zhǎng)度可以不同。在具體實(shí)施中,基于基礎(chǔ)詞典進(jìn)行分詞處理的過(guò)程可以利用字典雙向最大匹配法、HMM方法和CRF方法中的一種或多種。
所述分詞處理是對(duì)同一行的語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,所述詞語(yǔ)數(shù)據(jù)都是包括在基礎(chǔ)詞典中的單獨(dú)詞。
S14,對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,以生成候選數(shù)據(jù)串。
分詞處理依據(jù)基礎(chǔ)詞典進(jìn)行,可能會(huì)出現(xiàn)將在某個(gè)領(lǐng)域內(nèi)本應(yīng)作為一個(gè)詞的詞語(yǔ)數(shù)據(jù)分成多個(gè)詞語(yǔ)數(shù)據(jù)的情況,故需要新詞發(fā)現(xiàn)。后續(xù)可設(shè)定條件從候選數(shù)據(jù)串中進(jìn)行篩選,將篩選出的候選數(shù)據(jù)串作為新詞。生成候選數(shù)據(jù)串作為上述篩選過(guò)程的前提,可以采用多種方式完成。
在具體實(shí)施中,可以利用Bigram模型將同一行的語(yǔ)句數(shù)據(jù)中相鄰兩個(gè)詞語(yǔ)作為候選數(shù)據(jù)串。
假設(shè)一個(gè)語(yǔ)句S可以表示為一個(gè)序列S=w1w2…wn,語(yǔ)言模型就是要求語(yǔ)句S的概率p(S):
p(S)=p(w1,w2,w3,w4,w5,…,wn)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1) (1)
公式(1)中概率統(tǒng)計(jì)基于Ngram模型,概率的計(jì)算量太大,無(wú)法應(yīng)用于實(shí)際應(yīng)用中?;隈R爾科夫假設(shè)(Markov Assumption):下一個(gè)詞的出現(xiàn)僅依賴于它前面的一個(gè)或幾個(gè)詞。假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的一個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w2)...p(wn|wn-1) (2)
假設(shè)下一個(gè)詞的出現(xiàn)依賴它前面的兩個(gè)詞,則有:
p(S)=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|w1,w2,...,wn-1)
=p(w1)p(w2|w1)p(w3|w1,w2)...p(wn|wn-1,wn-2) (3)
公式(2)為Bigram概率的計(jì)算公式,公式(3)為trigram概率的計(jì)算公式。通過(guò)設(shè)置更大的n值,可以設(shè)置對(duì)下一個(gè)詞出現(xiàn)的更多的約束信息,具有更大的辨別力;通過(guò)設(shè)置更小的n值,在新詞發(fā)現(xiàn)中候選數(shù)據(jù)串出現(xiàn)的次數(shù)更多,可以提供更可靠的統(tǒng)計(jì)信息,具有更高的可靠性。
理論上,n值越大,可靠性越高,在現(xiàn)有處理方法中,Trigram用的最多;但Bigram的計(jì)算量更小,系統(tǒng)效率更高。
S15:判斷所述候選數(shù)據(jù)串是否為特定候選數(shù)據(jù)串,所述特定候選數(shù)據(jù)串包括基礎(chǔ)名詞,且位于所述基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)為名詞或形容詞。
據(jù)發(fā)明人研究發(fā)現(xiàn),若一個(gè)基礎(chǔ)名詞的特定相對(duì)位置上若是名詞或形容詞,則該基礎(chǔ)名詞極有可能需要被作為新詞。例如基礎(chǔ)名詞“卡”,“卡”的左側(cè)為名詞,可以組成“龍卡”、“名??ā?、“白金卡”、“商務(wù)卡”等。故判斷候選數(shù)據(jù)串是否為特定候選數(shù)據(jù)串,可以判斷候選數(shù)據(jù)串是否滿足包含基礎(chǔ)名詞,并且該基礎(chǔ)名詞的特定相對(duì)位置的詞語(yǔ)是否為名詞或者形容詞。
基礎(chǔ)名詞的特定相對(duì)位置可以根據(jù)不同的基礎(chǔ)名詞和語(yǔ)料進(jìn)行設(shè)定,例如,當(dāng)語(yǔ)料中包含多種“卡”,并且需要將各種卡的名稱均作為新詞時(shí),可以設(shè)定基礎(chǔ)名詞的左側(cè)為名詞或形容詞。
在具體實(shí)施中,特定相對(duì)位置可以是左側(cè)和右側(cè)中的任一種或兩種,可以根據(jù)需要進(jìn)行設(shè)置。
在具體實(shí)施中,可以參照頻次確定所述基礎(chǔ)名詞。由于基礎(chǔ)名詞在語(yǔ)料中會(huì)反復(fù)出現(xiàn),故可以參照頻次確定基礎(chǔ)名詞??梢岳斫獾氖?,基礎(chǔ)名詞也可以通過(guò)人工閱讀進(jìn)行選擇和設(shè)定。
S16:對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,以發(fā)現(xiàn)新詞;所述判斷處理包括:
當(dāng)所述候選數(shù)據(jù)串為非特定候選數(shù)據(jù)串時(shí),計(jì)算所述候選數(shù)據(jù)串中各詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)的信息熵,并去除所述信息熵在預(yù)設(shè)范圍外的候選數(shù)據(jù)串;
當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述特定候選數(shù)據(jù)串之外的詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)的信息熵,去除所述信息熵在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
由于候選數(shù)據(jù)串包括兩個(gè)詞語(yǔ)數(shù)據(jù),在對(duì)候選數(shù)據(jù)串進(jìn)行判斷處理時(shí),需要分別對(duì)兩個(gè)詞語(yǔ)數(shù)據(jù)的內(nèi)側(cè)信息熵進(jìn)行判斷,信息熵是對(duì)隨機(jī)變量不確定性的量度,計(jì)算公式如下:
H(X)=-∑p(xi)logp(xi)
信息熵越大,表示變量的不確定性越大,即每個(gè)可能的取值發(fā)生的概率越平均。如果變量某個(gè)取值發(fā)生的概率為1,則熵為0。表明變量只有當(dāng)前一種取值發(fā)生,是一個(gè)必然事件。
計(jì)算詞語(yǔ)W的左側(cè)信息熵和右側(cè)信息熵的公式如下:
H1(W)=∑x∈X(#XW>0)P(x|W)log P(x|W),其中X為出現(xiàn)在W左邊的所有詞語(yǔ)數(shù)據(jù)集合,H1(W)為詞語(yǔ)數(shù)據(jù)W的左側(cè)信息熵。
H2(W)=∑x∈Y(#WY>0)P(y|W)log P(y|W),其中Y為出現(xiàn)在W右邊的所有詞語(yǔ)數(shù)據(jù)集合,H2(W)為詞語(yǔ)數(shù)據(jù)W的右側(cè)信息熵。
內(nèi)側(cè)信息熵是對(duì)候選數(shù)據(jù)串依次固定每個(gè)單獨(dú)詞語(yǔ)數(shù)據(jù),計(jì)算在該詞語(yǔ)數(shù)據(jù)出現(xiàn)情況下另一個(gè)詞語(yǔ)出現(xiàn)的信息熵。如果候選數(shù)據(jù)串為(W1W2),則計(jì)算詞語(yǔ)數(shù)據(jù)W1的右側(cè)信息熵和詞語(yǔ)數(shù)據(jù)W2的左側(cè)信息熵。
計(jì)算候選數(shù)據(jù)串中詞語(yǔ)數(shù)據(jù)與其內(nèi)側(cè)的詞語(yǔ)數(shù)據(jù)的熵值體現(xiàn)該詞語(yǔ)數(shù)據(jù)內(nèi)側(cè)詞語(yǔ)數(shù)據(jù)的混亂程度。例如,通過(guò)計(jì)算候選數(shù)據(jù)串W1W2中左側(cè)詞語(yǔ)數(shù)據(jù)W1的右側(cè)信息熵以及右側(cè)詞語(yǔ)數(shù)據(jù)W2的左側(cè)信息熵,可以判斷詞語(yǔ)數(shù)據(jù)W1和W2內(nèi)側(cè)的混亂程度,從而可以通過(guò)設(shè)定預(yù)設(shè)范圍進(jìn)行篩選,排除各詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)構(gòu)成新詞的概率特征值在預(yù)設(shè)范圍外的候選數(shù)據(jù)串。
特定候選數(shù)據(jù)串中,基礎(chǔ)名詞的內(nèi)側(cè)信息熵也許會(huì)因在預(yù)設(shè)范圍外,導(dǎo)致本應(yīng)作為新詞的特定候選數(shù)據(jù)串被排除,例如,特定候選數(shù)據(jù)串為“白金卡”、“名??ā?、“龍卡”等包含基礎(chǔ)名詞“卡”的候選數(shù)據(jù)串時(shí),詞語(yǔ)“白金”、“名”、“龍”的右側(cè)信息熵在預(yù)設(shè)范圍內(nèi),但由于詞語(yǔ)“卡”的左側(cè)詞語(yǔ)較混亂,其左側(cè)信息熵可能在預(yù)設(shè)范圍外,從而可能導(dǎo)致候選數(shù)據(jù)串“白金卡”、“名??ā薄ⅰ褒埧ā钡群蜻x數(shù)據(jù)串被錯(cuò)誤的排除。
故當(dāng)所述候選數(shù)據(jù)串為特定候選數(shù)據(jù)串時(shí),僅計(jì)算所述特定候選數(shù)據(jù)串之外的詞語(yǔ)與其內(nèi)側(cè)詞語(yǔ)的信息熵,去除所述信息熵在預(yù)設(shè)范圍外的候選數(shù)據(jù)串,不再對(duì)基礎(chǔ)名詞的內(nèi)側(cè)信息熵進(jìn)行計(jì)算,避免因基礎(chǔ)名詞的內(nèi)側(cè)信息熵在預(yù)設(shè)范圍外而導(dǎo)致的錯(cuò)誤排除。
S17:將所述新詞加入所述分詞詞典。
由于縮略詞也是一種新詞,則從輸入語(yǔ)料中獲取的新詞集合也包括了縮略詞,從而將新詞加入分詞詞典也就實(shí)現(xiàn)了分詞詞典中包含縮略詞,進(jìn)而可以用分詞詞典對(duì)所述輸入語(yǔ)料進(jìn)行分詞得到本實(shí)施例中的所述詞組集合。
下面繼續(xù)對(duì)得到待處理的詞組集合后的步驟進(jìn)行說(shuō)明。
步驟S102:對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì)。
其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
在具體實(shí)施中,所述其余操作可以包括替換操作和插入操作。本實(shí)施例所指的編輯距離是將一個(gè)詞采取編輯操作以轉(zhuǎn)換成另一個(gè)詞所需的編輯成本,也就是操作次數(shù)與每一步操作所需成本的乘積。而最小編輯距離,則是指編輯成本最小的編輯距離。每步操作僅僅針對(duì)其中一個(gè)詞。
下面以“工商銀行”轉(zhuǎn)換至“工行”為例說(shuō)明編輯距離和最小編輯距離。將“工商銀行”轉(zhuǎn)換至“工行”可以采取不同的編輯操作組合方式獲得。假設(shè)單步替換操作的編輯距離為1000,單步刪除操作的編輯距離為1,單步插入操作的編輯距離為1000。
將“工商銀行”轉(zhuǎn)換至“工行”的第一種轉(zhuǎn)換方式為:分3次刪除操作將“工商銀行”的“工”、“商”和“銀”刪除,再進(jìn)行一次插入操作插入“工”得到“工行”,則“工商銀行”到“工行”的編輯距離是1003;
將“工商銀行”轉(zhuǎn)換至“工行”的第二種轉(zhuǎn)換方式為:分2次刪除操作將“工商銀行”的“工”和“商”刪除,再進(jìn)行一次替換操作將“銀”替換為“工”得到“工行”,則“工商銀行”到“工行”的編輯距離是1002;
將“工商銀行”轉(zhuǎn)換至“工行”的第三種轉(zhuǎn)換方式為:分2次刪除操作將“工商銀行”的“商”和“銀”刪除,得到“工行”,則“工商銀行”到“工行”的編輯距離是2。
需要說(shuō)明的是,將待處理詞“工商銀行”轉(zhuǎn)換至“工行”的轉(zhuǎn)換方式不限于上述列舉的操作組合,不同的轉(zhuǎn)換方式對(duì)應(yīng)的編輯距離不同。然而,在多種轉(zhuǎn)換方式中,最小編輯距離是唯一的。不難理解,上述將“工商銀行”轉(zhuǎn)換至“工行”的最小編輯距離應(yīng)為2,即通過(guò)上述第三種轉(zhuǎn)換方式得到。
因此,對(duì)于所述詞組集合中的任一待處理詞,其到另一詞的最小編輯距離是確定的。通過(guò)計(jì)算所述詞組集合中任一待處理詞與其它詞的最小編輯距離,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì)。例如,詞組集合為L(zhǎng)(A、B、C、D、E、F、G和H),對(duì)于待處理詞A,假設(shè)目標(biāo)詞來(lái)自于子集M(B、C、D、E、F、G和H),當(dāng)(B、C、D、E、F、G和H)中存在一個(gè)詞B,使得待處理詞A到該詞B的最小編輯距離小于預(yù)設(shè)閾值時(shí),則A和B為同義詞對(duì)。
本實(shí)施例中為了保證尋找到的同義詞對(duì)中的目標(biāo)詞是待處理詞的縮略詞,即縮略詞必然是待處理詞的一部分,在所述編輯距離方法中,限定單次其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,且限定刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,且不僅單次所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,而且多次(所述多次可以根據(jù)全稱詞到縮略詞之間最大刪除的字?jǐn)?shù)確定,如:最大刪除5個(gè)字,則此時(shí)即為5次)所述刪除操作對(duì)應(yīng)的編輯距離也小于預(yù)設(shè)閾值。
在具體實(shí)施中,通過(guò)上述方法找到的縮略詞可以是一個(gè)也可以是多個(gè),需要說(shuō)明的是,通過(guò)本實(shí)施例的方法找到的與待處理詞組成同義詞對(duì)的詞之間不一定是縮略詞關(guān)系。例如,詞組集合L中,實(shí)施本實(shí)施例的方法得到待處理詞A的其中一個(gè)縮略詞為詞B,并且找到待處理詞A的另一個(gè)縮略詞為詞C,即待處理詞A到詞B的最小編輯距離和待處理詞A到詞C的最小編輯距離均小于預(yù)設(shè)閾值,但詞B和詞C之間不一定是縮略詞關(guān)系,即不能保證詞B為詞C的縮略詞或者詞C為詞B的縮略詞,但詞B和詞C之間為同義詞關(guān)系。
同樣需要說(shuō)明的是,通過(guò)本實(shí)施例的方法,得到的同一個(gè)縮略詞對(duì)應(yīng)的多個(gè)待處理詞之間不一定為同義詞關(guān)系。例如,詞組集合L中,實(shí)施本實(shí)施例的方法得到待處理詞A的縮略詞為B,同樣得到待處理詞D的縮略詞為B,但詞A和詞D之間不一定為同義詞關(guān)系。
本實(shí)施例中由于限定刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,使得在使用編輯距離方法計(jì)算最小編輯距離時(shí),待處理詞轉(zhuǎn)換至另一詞的編輯操作中優(yōu)先采用刪除操作,另一方面,計(jì)算最小編輯距離過(guò)程中的刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,同時(shí)單次其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值時(shí),由此,當(dāng)待處理詞到目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),對(duì)應(yīng)的目標(biāo)詞是由待處理詞僅通過(guò)刪除操作得到,從而確保通過(guò)編輯距離方法獲得的同義詞為待處理詞文字表達(dá)的一部分,進(jìn)而使得獲得的縮略詞更加準(zhǔn)確,提高縮略詞發(fā)現(xiàn)的準(zhǔn)確率。
圖3是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)方法的流程圖。下面結(jié)合圖3所示步驟進(jìn)行說(shuō)明。
步驟S301:獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞。
本步驟的實(shí)施可對(duì)應(yīng)參照?qǐng)D1所示的步驟S101,在此不再贅述。
步驟S302:對(duì)于所述詞組集合中的任一待處理詞,分別計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度,并從中選擇語(yǔ)義相似度值大于相似度閾值的詞或語(yǔ)義相似度值較高的前N個(gè)詞作為候選詞。
在一具體實(shí)現(xiàn)中,可以通過(guò)比較其余詞語(yǔ)與待處理詞的語(yǔ)義相似度值和相似度閾值的大小,將語(yǔ)義相似度值大于相似度閾值的詞作為候選詞。需要說(shuō)明的是,所述相似度閾值可進(jìn)行不同的預(yù)設(shè),并不做任何限定,此時(shí)候選詞的個(gè)數(shù)隨相似度閾值的變化而變化。
在另一具體實(shí)現(xiàn)中,可以通過(guò)限定候選詞的個(gè)數(shù)N來(lái)獲得語(yǔ)義相似度值較高的候選詞。具體而言,將語(yǔ)義相似度值按從高至低的順序進(jìn)行排序,取語(yǔ)義相似度值較高的前N個(gè)詞作為候選詞。
本步驟從所述詞組集合中選出候選詞是為了后續(xù)從候選詞中確定目標(biāo)詞。這樣,一方面,縮小了確定與所述待處理詞構(gòu)成同義詞對(duì)的目標(biāo)詞的范圍,從而可以減少計(jì)算的復(fù)雜度,提高發(fā)現(xiàn)縮略詞的效率。另一方面,通過(guò)將語(yǔ)義相似度作為另一項(xiàng)判斷是否為同義詞的考核指標(biāo),進(jìn)一步提高了發(fā)現(xiàn)同義詞對(duì)的準(zhǔn)確性,也即提高了發(fā)現(xiàn)縮略詞的準(zhǔn)確性。
在具體實(shí)施中,計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度時(shí)可以通過(guò)以下步驟:
首先,對(duì)所述詞組集合中的每個(gè)詞進(jìn)行向量化;
其次,基于向量化的結(jié)果,計(jì)算所述待處理詞與其余每個(gè)詞的余弦相似度,所述余弦相似度作為所述語(yǔ)義相似度??梢岳斫獾氖?,計(jì)算余弦相似度后,可以從中選擇余弦相似度值大于相似度閾值的詞或余弦相似度值較高的前N個(gè)詞作為候選詞。
在具體實(shí)施中,可以采用word2vec方法對(duì)所述詞組集合中的各個(gè)詞進(jìn)行向量化。需要指出的是,還可以采用其他現(xiàn)有的方法對(duì)所述詞組集合中的各個(gè)詞進(jìn)行向量化。
步驟S303:當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì)。
其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值。
所述目標(biāo)詞通過(guò)以下方式確定:分別計(jì)算所述待處理詞與每個(gè)所述候選詞的最小編輯距離,將與所述待處理詞的最小編輯距離小于預(yù)設(shè)閾值的候選詞作為所述目標(biāo)詞。
在本實(shí)施例中,所述其余操作包括插入操作和替換操作。單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
下面以一實(shí)例說(shuō)明步驟S301至步驟S303的實(shí)施,其中每一步驟以一具體實(shí)現(xiàn)作為示例,不應(yīng)作為本發(fā)明的限制。
實(shí)施步驟S301,獲取待處理的詞組集合為Q(A、B、C和D),其中A、B、C和D均可為待處理詞,假設(shè)A具體為“招商銀行”,B為“工行”、C為“招行”,D為“工商銀行”。
以下步驟以待處理詞為A“招商銀行”示例。
實(shí)施步驟S302,采用word2vec方法對(duì)于詞組集合Q中的每個(gè)詞(A、B、C和D)進(jìn)行向量化,基于向量化的結(jié)果,計(jì)算待處理詞A與其余每個(gè)詞B、C和D的余弦相似度,得到余弦相似度值從高至低的順序?yàn)镈、C和B,從中選擇余弦相似度值較高的前2個(gè)詞作為候選詞,即選擇詞D“工商銀行”和詞C“招行”作為候選詞。
實(shí)施步驟S303,對(duì)于待處理詞A“招商銀行”,分別使用編輯距離方法計(jì)算待處理詞A“招商銀行”與候選詞D“工商銀行”的最小編輯距離,以及待處理詞A“招商銀行”與候選詞C“招行”的最小編輯距離。
在本例的編輯距離方法中,刪除操作對(duì)應(yīng)的編輯距離小于插入操作和替換操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。假設(shè)單次刪除操作對(duì)應(yīng)的編輯距離為1,單次插入操作對(duì)應(yīng)的編輯距離為1000,單次替換操作對(duì)應(yīng)的編輯距離為1000,預(yù)設(shè)閾值為10,那么:
在待處理詞“招商銀行”轉(zhuǎn)換為候選詞D“工商銀行”的所有編輯操作組合中,通過(guò)1步替換操作得到的編輯距離最小,具體將“招”替換為“工”,所以最小編輯距離為1000;
在待處理詞“招商銀行”轉(zhuǎn)換為候選詞C“招行”的所有編輯操作組合中,通過(guò)2步刪除操作得到的編輯距離最小,具體分別刪除“商”和“銀”,所以最小編輯距離為2;
上述計(jì)算得到的最小編輯距離中,小于預(yù)設(shè)閾值10的最小編輯距離為2,因此對(duì)應(yīng)的目標(biāo)詞為候選詞C“招行”,確定待處理詞A“招商銀行”與候選詞C“招行”為同義詞對(duì),“招行”為“招商銀行”的縮略詞。
又如,假設(shè)待處理的詞組集合為P(“招商銀行”、“工行”和“工商銀行”),對(duì)于待處理詞“招商銀行”,分別計(jì)算“招商銀行”與“工行”,以及“招商銀行”與“工商銀行”的語(yǔ)義相似度,得到“招商銀行”和“工行”的語(yǔ)義相似度以及“招商銀行”和“工商銀行”的語(yǔ)義相似度值均大于相似度閾值。接著計(jì)算最小編輯距離,計(jì)算中由于刪除操作的編輯距離小于替換操作的編輯距離,因此每一步優(yōu)先采用刪除操作:
“招商銀行”轉(zhuǎn)換至“工行”最少可通過(guò)采取2步刪除操作和1步替換操作轉(zhuǎn)換得到。具體地,最少的操作可通過(guò)刪除“招”和“商”,并替換“銀”為“工”得到。而刪除操作的單步編輯距離為1,替換操作的單步編輯距離為1000,因此計(jì)算出“招商銀行”到“工行”最小編輯距離為1002;
類似地,“招商銀行”轉(zhuǎn)換至“工商銀行”最少可通過(guò)1步替換操作得到,具體地,替換“招”為“工”,而替換操作的單步編輯距離為1000,因此計(jì)算出“招商銀行”轉(zhuǎn)換至“工商銀行”的最小編輯距離為1000。
可以看出,“招商銀行”轉(zhuǎn)換至“工行”的最小編輯距離,以及“招商銀行”轉(zhuǎn)換至“工商銀行”的最小編輯距離均大于預(yù)設(shè)閾值10,所以候選詞“工商銀行”和候選詞“工行”均不是所述目標(biāo)詞,也就是說(shuō)待處理的詞組集合中不存在與待處理詞“招商銀行”組成同一詞對(duì)的詞。
本實(shí)施例中由于限定刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,使得在編輯距離方法中要計(jì)算最小編輯距離時(shí),待處理詞轉(zhuǎn)換至其他詞的編輯操作中優(yōu)先采用刪除操作。在此基礎(chǔ)上,
計(jì)算最小編輯距離過(guò)程中的刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,同時(shí)單次其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值時(shí),由此,當(dāng)待處理詞到目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),對(duì)應(yīng)的目標(biāo)詞是由待處理詞僅通過(guò)刪除操作得到,從而確保通過(guò)編輯距離方法獲得的同義詞為待處理詞文字表達(dá)的一部分,進(jìn)而使得獲得的縮略詞更加準(zhǔn)確,提高縮略詞發(fā)現(xiàn)的準(zhǔn)確率。
進(jìn)一步地,本實(shí)施例通過(guò)計(jì)算待處理詞與所述詞組集合中其余詞的語(yǔ)義相似度,選出多個(gè)候選詞,進(jìn)而可從多個(gè)候選詞形成的更小范圍中確定目標(biāo)詞,由于多個(gè)候選詞為待處理的詞組集合的一個(gè)子集,所以從多個(gè)候選詞中確定目標(biāo)詞可提高確定同義詞對(duì)的效率,同時(shí)通過(guò)將語(yǔ)義相似度作為另一項(xiàng)判斷是否為同義詞的考核指標(biāo),進(jìn)一步提高了發(fā)現(xiàn)同義詞對(duì)的準(zhǔn)確性。
本發(fā)明實(shí)施例還提供了一種基于上述同義詞發(fā)現(xiàn)方法的數(shù)據(jù)處理方法。所述數(shù)據(jù)處理方法中通過(guò)同義詞庫(kù)來(lái)進(jìn)行同義詞的判斷,而同義詞庫(kù)中包括了采用上述同義詞發(fā)現(xiàn)方法獲得的縮略詞。下面對(duì)所述數(shù)據(jù)處理方法進(jìn)行舉例說(shuō)明。
所述數(shù)據(jù)處理方法包括:獲取知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括問(wèn)句和對(duì)應(yīng)的答案;對(duì)所述問(wèn)句進(jìn)行分詞后的任一關(guān)鍵詞,根據(jù)同義詞庫(kù)判斷所述關(guān)鍵詞是否存在同義詞;當(dāng)所述關(guān)鍵詞存在同義詞時(shí),將找到的同義詞替換對(duì)應(yīng)的關(guān)鍵詞;存儲(chǔ)替換后得到的問(wèn)句,并將替換后得到的問(wèn)句加入該知識(shí)點(diǎn)。
例如,通過(guò)上述同義詞發(fā)現(xiàn)方法,得到“招行”為“招商銀行”的縮略詞,兩者為同義詞庫(kù)中的一組同義詞對(duì)。下面實(shí)施所述數(shù)據(jù)處理方法:
獲取一知識(shí)點(diǎn),其中,問(wèn)句為“招商銀行信用卡如何開(kāi)通”,對(duì)應(yīng)答案為S;
對(duì)問(wèn)句“招商銀行信用卡如何開(kāi)通”進(jìn)行分詞得到的其中一個(gè)關(guān)鍵詞“招商銀行”,根據(jù)同義詞庫(kù)判斷分詞得到的關(guān)鍵詞“招商銀行”是否存在同義詞;由于存在“招商銀行”的同義詞為其縮略詞“招行”,那么將“招行”替換問(wèn)句“招商銀行信用卡如何開(kāi)通”中的關(guān)鍵詞“招商銀行”,存儲(chǔ)替換后的問(wèn)句“招行信用卡如何開(kāi)通”,并將替換后的問(wèn)句“招行信用卡如何開(kāi)通”加入知識(shí)點(diǎn)。那么原知識(shí)點(diǎn)被擴(kuò)充為:?jiǎn)柧溆小罢猩蹄y行信用卡如何開(kāi)通”和“招行信用卡如何開(kāi)通”,對(duì)應(yīng)的答案S。其中的同義詞“招行”采用上述同義詞發(fā)現(xiàn)方法獲得,不再贅述。
由此可以看出,上述同義詞發(fā)現(xiàn)方法可以用于擴(kuò)充知識(shí)點(diǎn)中的問(wèn)句,進(jìn)而達(dá)到擴(kuò)充知識(shí)庫(kù)的效果,從而可以在使用縮略詞進(jìn)行不同問(wèn)句的表達(dá)時(shí),仍然可以回復(fù)相應(yīng)的答案,進(jìn)而提高智能問(wèn)答系統(tǒng)的語(yǔ)義理解能力和回復(fù)答案的準(zhǔn)確率。需要說(shuō)明的是,上述同義詞發(fā)現(xiàn)方法不僅可應(yīng)用于擴(kuò)充知識(shí)庫(kù),還可以用于信息搜索。應(yīng)用于信息搜索時(shí),不僅可以搜索得到關(guān)鍵字有關(guān)的信息,還可以搜索得到關(guān)鍵字的縮略詞或全稱詞有關(guān)的信息。
圖4是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。所述同義詞發(fā)現(xiàn)裝置可以包括:獲取單元401和同義詞確定單元402;
所述獲取單元401,適于獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞;
所述同義詞確定單元402,適于對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì);
其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,所述編輯距離方法包括刪除操作,所述刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
在具體實(shí)施中,所述其余操作包括插入操作和替換操作,單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
在具體實(shí)施中,所述獲取單元401包括分詞子單元,適于對(duì)輸入語(yǔ)料進(jìn)行分詞,以得到所述詞組集合。在具體實(shí)施中,所述分詞子單元利用分詞詞典對(duì)所述輸入語(yǔ)料進(jìn)行分詞,所述分詞詞典通過(guò)分詞詞典獲取單元獲得,所述分詞詞典獲取單元適于:
對(duì)所述輸入語(yǔ)料進(jìn)行預(yù)處理,以得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,以得到分詞后的詞語(yǔ)數(shù)據(jù);對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,以生成候選數(shù)據(jù)串;對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,以發(fā)現(xiàn)新詞;將所述新詞加入所述分詞詞典。
有關(guān)本實(shí)施例中所述的同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)和有益效果的說(shuō)明可對(duì)應(yīng)參照?qǐng)D1的同義詞發(fā)現(xiàn)方法的步驟和有益效果的說(shuō)明,不再贅述。
圖5是本發(fā)明實(shí)施例中的一種同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)示意圖。如圖5所示的同義詞發(fā)現(xiàn)裝置可以包括:獲取單元501、候選詞選取單元502、目標(biāo)詞確定單元503和同義詞確定單元504。
所述獲取單元501,適于獲取待處理的詞組集合,所述詞組集合包括多個(gè)詞。
所述同義詞確定單元504,適于對(duì)于所述詞組集合中的任一待處理詞,當(dāng)所述詞組集合中存在一個(gè)或多個(gè)目標(biāo)詞,使得所述待處理詞到所述目標(biāo)詞的最小編輯距離小于預(yù)設(shè)閾值時(shí),所述待處理詞與對(duì)應(yīng)的一所述目標(biāo)詞確定為同義詞對(duì)。其中,所述最小編輯距離是通過(guò)編輯距離方法計(jì)算獲得的,在所述編輯距離方法中,刪除操作對(duì)應(yīng)的編輯距離小于其余操作對(duì)應(yīng)的編輯距離,所述刪除操作對(duì)應(yīng)的編輯距離小于預(yù)設(shè)閾值,單次所述其余操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
在具體實(shí)施中,所述其余操作包括插入操作和替換操作,單次所述插入操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值,單次所述替換操作對(duì)應(yīng)的編輯距離大于或等于預(yù)設(shè)閾值。
在具體實(shí)施中,所述獲取單元501包括分詞子單元5011,適于對(duì)輸入語(yǔ)料進(jìn)行分詞,以得到所述詞組集合。
在具體實(shí)施中,所述分詞子單元5011利用分詞詞典對(duì)所述輸入語(yǔ)料進(jìn)行分詞,所述分詞詞典通過(guò)分詞詞典獲取單元獲得,所述分詞詞典獲取單元適于:
對(duì)所述輸入語(yǔ)料進(jìn)行預(yù)處理,以得到文本數(shù)據(jù);對(duì)所述文本數(shù)據(jù)進(jìn)行分行處理,得到語(yǔ)句數(shù)據(jù);依照基礎(chǔ)詞典中包含的單獨(dú)詞對(duì)所述語(yǔ)句數(shù)據(jù)進(jìn)行分詞處理,以得到分詞后的詞語(yǔ)數(shù)據(jù);對(duì)相鄰的所述分詞后的詞語(yǔ)數(shù)據(jù)進(jìn)行組合處理,以生成候選數(shù)據(jù)串;對(duì)所述候選數(shù)據(jù)串進(jìn)行判斷處理,以發(fā)現(xiàn)新詞;將所述新詞加入所述分詞詞典。
在具體實(shí)施中,所述同義詞發(fā)現(xiàn)裝置還可以包括:
候選詞選取單元502,適于分別計(jì)算所述待處理詞與所述詞組集合中其余每個(gè)詞的語(yǔ)義相似度,并從中選擇語(yǔ)義相似度值大于相似度閾值的詞或語(yǔ)義相似度值較高的前N個(gè)詞作為候選詞;
目標(biāo)詞確定單元503,適于分別計(jì)算所述待處理詞與每個(gè)所述候選詞的最小編輯距離,將與所述待處理詞的最小編輯距離小于預(yù)設(shè)閾值的候選詞作為目標(biāo)詞。
在具體實(shí)施中,所述候選詞選取單元502可以包括:
向量化子單元5021,適于對(duì)所述詞組集合中的每個(gè)詞進(jìn)行向量化;
余弦相似度計(jì)算子單元5022,適于基于向量化的結(jié)果,計(jì)算所述待處理詞與其余每個(gè)詞的余弦相似度,所述余弦相似度作為所述語(yǔ)義相似度。
在具體實(shí)施中,可以采用word2vec方法對(duì)所述詞組集合中的各個(gè)詞進(jìn)行向量化。
有關(guān)本實(shí)施例中所述的同義詞發(fā)現(xiàn)裝置的結(jié)構(gòu)和有益效果的說(shuō)明可對(duì)應(yīng)參照?qǐng)D3的同義詞發(fā)現(xiàn)方法的步驟和有益效果的說(shuō)明,不再贅述。
本發(fā)明實(shí)施例還提供一種數(shù)據(jù)處理裝置,所述數(shù)據(jù)處理裝置采用圖4或圖5所示的同義詞發(fā)現(xiàn)裝置,所述數(shù)據(jù)處理裝置可以包括:
知識(shí)點(diǎn)獲取單元,適于獲取知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括問(wèn)句和對(duì)應(yīng)的答案;
同義詞查找單元,適于對(duì)所述問(wèn)句進(jìn)行分詞后的任一關(guān)鍵詞,根據(jù)同義詞庫(kù)判斷所述關(guān)鍵詞是否存在同義詞;
替換單元,適于當(dāng)所述關(guān)鍵詞存在同義詞時(shí),將找到的同義詞替換對(duì)應(yīng)的關(guān)鍵詞;
知識(shí)點(diǎn)擴(kuò)充單元,適于存儲(chǔ)替換后得到的問(wèn)句,并將替換后得到的問(wèn)句加入該知識(shí)點(diǎn)。
所述數(shù)據(jù)處理裝置的結(jié)構(gòu)和有益效果可參照上述數(shù)據(jù)處理方法的說(shuō)明,不再贅述。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件來(lái)完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:ROM、RAM、磁盤(pán)或光盤(pán)等。
雖然本發(fā)明披露如上,但本發(fā)明并非限定于此。任何本領(lǐng)域技術(shù)人員,在不脫離本發(fā)明的精神和范圍內(nèi),均可作各種更動(dòng)與修改,因此本發(fā)明的保護(hù)范圍應(yīng)當(dāng)以權(quán)利要求所限定的范圍為準(zhǔn)。