確定詞語相似度的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及計(jì)算機(jī)領(lǐng)域,尤其涉及確定詞語相似度的方法及裝置。
【背景技術(shù)】
[0002] 相關(guān)技術(shù)中,在人工智能中的自然語言處理領(lǐng)域中,自然語言的處理內(nèi)容,包括: 命名實(shí)體識(shí)別,詞性標(biāo)注,短文本聚類,知識(shí)抽提,信息檢索等。其中,短文本聚類是知識(shí)抽 提的必要環(huán)節(jié),可以用短文本的模板來抽取短文本中的知識(shí)點(diǎn)。短文本聚類的依據(jù)就是短 文本的相似度。而短文本之間的相似度則是短文本中每個(gè)詞的相似度所決定的。
【發(fā)明內(nèi)容】
[0003] 為克服相關(guān)技術(shù)中存在的問題,本公開提供一種確定詞語相似度的方法。利用簡(jiǎn) 單的算法計(jì)算兩個(gè)詞之間的相似度,節(jié)約了大量的計(jì)算量,并且提高了計(jì)算的準(zhǔn)確度。
[0004] 根據(jù)本公開實(shí)施例的第一方面,提供一種確定詞語相似度的方法,包括:從短文本 中獲取多個(gè)結(jié)構(gòu)詞;針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞,將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù) 設(shè)的模板進(jìn)行匹配,確定匹配成功的模板和模板數(shù)量;確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功 的模板的共同模板數(shù)量;根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量, 確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度;在預(yù)設(shè)短文本集合中,確定所述兩個(gè)結(jié)構(gòu)詞共同 匹配成功的短文本的共同短文本數(shù)量;根據(jù)所述共同短文本數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞之 間的校正值;根據(jù)所述結(jié)構(gòu)相似度及校正值,計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
[0005] 本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:通過根據(jù)兩個(gè)結(jié)構(gòu)詞 上下文的信息計(jì)算兩個(gè)結(jié)構(gòu)詞的結(jié)構(gòu)相似度,再根據(jù)兩個(gè)結(jié)構(gòu)詞出現(xiàn)在相同短文本中的次 數(shù),計(jì)算兩個(gè)結(jié)構(gòu)詞之間的校正值,根據(jù)結(jié)構(gòu)相似度及校正值,計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似 度。利用簡(jiǎn)單的算法計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似度,節(jié)約了大量的計(jì)算量,并且提高了計(jì)算 的準(zhǔn)確度。
[0006] 所述根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量,確定所述兩 個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度是通過以下公式計(jì)算,所述公式包括其
【主權(quán)項(xiàng)】
1. 一種確定詞語相似度的方法,其特征在于,包括: 從短文本中獲取多個(gè)結(jié)構(gòu)詞; 針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞,將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹 配,確定匹配成功的模板和模板數(shù)量; 確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量; 根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞 之間的結(jié)構(gòu)相似度; 在預(yù)設(shè)短文本集合中,確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù) 量; 根據(jù)所述共同短文本數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值; 根據(jù)所述結(jié)構(gòu)相似度及校正值,計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
2. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié) 構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度是通過以下公式計(jì)算, 所述公式包括:
其中,Ss為兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度,T為兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同 模板數(shù)量,Ta為一個(gè)結(jié)構(gòu)詞匹配成功的模板的數(shù)量,Tb為另一個(gè)結(jié)構(gòu)詞匹配成功的模板的 數(shù)量。
3. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述共同短文本數(shù)量,確定所述兩 個(gè)結(jié)構(gòu)詞之間的校正值是通過以下公式計(jì)算,所述公式包括: C = (W+1) 9; 其中,C為兩個(gè)結(jié)構(gòu)詞之間的校正值,W為所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共 同短文本數(shù)量,0為校正系數(shù),0為正整數(shù)。
4. 如權(quán)利要求1-3中任一權(quán)利要求所述的方法,其特征在于,所述根據(jù)所述結(jié)構(gòu)相似 度及校正值,計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度是通過以下公式計(jì)算,所述公式包括: C 其中,S為所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
5. 如權(quán)利要求1所述的方法,其特征在于,所述確定匹配成功的模板和模板數(shù)量,還包 括: 獲得模板出現(xiàn)的次數(shù); 當(dāng)模板出現(xiàn)的次數(shù)大于預(yù)設(shè)閾值時(shí),根據(jù)所述模板出現(xiàn)的次數(shù)從多到少的順序進(jìn)行排 列; 確定所述模板出現(xiàn)的次數(shù)從多到少的順序中排在前N位的模板為匹配成功的模板,其 中,N為預(yù)設(shè)的正整數(shù)。
6. 如權(quán)利要求1所述的方法,其特征在于,所述模板是通過以下方式生成的: 從預(yù)設(shè)的短文本集合中獲取短文本; 在所述短文本中根據(jù)除頓號(hào)以外的分隔符號(hào),確定兩個(gè)分隔符號(hào)之間的文本段為短 句; 確定所述短句中的結(jié)構(gòu)詞; 根據(jù)所述結(jié)構(gòu)詞及所述短句中詞語的詞性,生成模板。
7. -種確定詞語相似度的裝置,其特征在于,包括: 第一獲取模塊,用于從短文本中獲取多個(gè)結(jié)構(gòu)詞; 第一確定模塊,用于針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞,將所述兩個(gè)結(jié)構(gòu)詞分別 與預(yù)設(shè)的模板進(jìn)行匹配,確定匹配成功的模板和模板數(shù)量; 第二確定模塊,用于確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量; 第三確定模塊,用于根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量, 確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度; 第四確定模塊,用于在預(yù)設(shè)短文本集合中,確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文 本的共同短文本數(shù)量; 第五確定模塊,用于根據(jù)所述共同短文本數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值; 計(jì)算模塊,用于根據(jù)所述結(jié)構(gòu)相似度及校正值,計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
8. 如權(quán)利要求7所述的裝置,其特征在于,所述第一確定模塊,還包括: 獲得子模塊,用于獲得模板出現(xiàn)的次數(shù); 排序子模塊,用于當(dāng)模板出現(xiàn)的次數(shù)大于預(yù)設(shè)閾值時(shí),根據(jù)所述模板出現(xiàn)的次數(shù)從多 到少的順序進(jìn)行排列; 確定子模塊,用于確定所述模板出現(xiàn)的次數(shù)從多到少的順序中排在前N位的模板為匹 配成功的模板,其中,N為預(yù)設(shè)的正整數(shù)。
9. 如權(quán)利要求7所述的裝置,其特征在于,所述模板是通過以下裝置生成的: 第二獲取模塊,用于從預(yù)設(shè)的短文本集合中獲取短文本; 第六確定模塊,用于在所述短文本中根據(jù)除頓號(hào)以外的分隔符號(hào),確定兩個(gè)分隔符號(hào) 之間的文本段為短句; 第七確定模塊,用于確定所述短句中的結(jié)構(gòu)詞; 生成模塊,用于根據(jù)所述結(jié)構(gòu)詞及所述短句中詞語的詞性,生成模板。
10. -種確定詞語相似度的裝置,其特征在于,包括: 處理器; 用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器; 其中,所述處理器被配置為: 從短文本中獲取多個(gè)結(jié)構(gòu)詞; 針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞,將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹 配,確定匹配成功的模板和模板數(shù)量; 確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量; 根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞 之間的結(jié)構(gòu)相似度; 在預(yù)設(shè)短文本集合中,確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù) 量; 根據(jù)所述共同短文本數(shù)量,確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值; 根據(jù)所述結(jié)構(gòu)相似度及校正值,計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
【專利摘要】本公開是關(guān)于一種確定詞語相似度的方法及裝置。所述方法,包括:從短文本中獲取多個(gè)結(jié)構(gòu)詞;針對(duì)多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞,將兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹配,確定匹配成功的模板和模板數(shù)量;確定兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量;根據(jù)共同模板數(shù)量和兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量,確定兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度;在預(yù)設(shè)短文本集合中,確定兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù)量;根據(jù)共同短文本數(shù)量,確定兩個(gè)結(jié)構(gòu)詞之間的校正值;根據(jù)結(jié)構(gòu)相似度及校正值,計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似度。利用簡(jiǎn)單的算法計(jì)算兩個(gè)詞之間的相似度,節(jié)約了大量的計(jì)算量,并且提高了計(jì)算的準(zhǔn)確度。
【IPC分類】G06F17-27, G06F17-30
【公開號(hào)】CN104699668
【申請(qǐng)?zhí)枴緾N201510138290
【發(fā)明人】劉毅超, 汪平仄, 代陽(yáng)
【申請(qǐng)人】小米科技有限責(zé)任公司
【公開日】2015年6月10日
【申請(qǐng)日】2015年3月26日