確定詞語相似度的方法及裝置的制造方法

文檔序號(hào)：8380928閱讀：225來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

確定詞語相似度的方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本公開涉及計(jì)算機(jī)領(lǐng)域，尤其涉及確定詞語相似度的方法及裝置。
【背景技術(shù)】
[0002] 相關(guān)技術(shù)中，在人工智能中的自然語言處理領(lǐng)域中，自然語言的處理內(nèi)容，包括：命名實(shí)體識(shí)別，詞性標(biāo)注，短文本聚類，知識(shí)抽提，信息檢索等。其中，短文本聚類是知識(shí)抽提的必要環(huán)節(jié)，可以用短文本的模板來抽取短文本中的知識(shí)點(diǎn)。短文本聚類的依據(jù)就是短文本的相似度。而短文本之間的相似度則是短文本中每個(gè)詞的相似度所決定的。

【發(fā)明內(nèi)容】

[0003] 為克服相關(guān)技術(shù)中存在的問題，本公開提供一種確定詞語相似度的方法。利用簡(jiǎn) 單的算法計(jì)算兩個(gè)詞之間的相似度，節(jié)約了大量的計(jì)算量，并且提高了計(jì)算的準(zhǔn)確度。
[0004] 根據(jù)本公開實(shí)施例的第一方面，提供一種確定詞語相似度的方法，包括：從短文本中獲取多個(gè)結(jié)構(gòu)詞；針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞，將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù) 設(shè)的模板進(jìn)行匹配，確定匹配成功的模板和模板數(shù)量；確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量；根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度；在預(yù)設(shè)短文本集合中，確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù)量；根據(jù)所述共同短文本數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值；根據(jù)所述結(jié)構(gòu)相似度及校正值，計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
[0005] 本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果：通過根據(jù)兩個(gè)結(jié)構(gòu)詞上下文的信息計(jì)算兩個(gè)結(jié)構(gòu)詞的結(jié)構(gòu)相似度，再根據(jù)兩個(gè)結(jié)構(gòu)詞出現(xiàn)在相同短文本中的次數(shù)，計(jì)算兩個(gè)結(jié)構(gòu)詞之間的校正值，根據(jù)結(jié)構(gòu)相似度及校正值，計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似度。利用簡(jiǎn)單的算法計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似度，節(jié)約了大量的計(jì)算量，并且提高了計(jì)算的準(zhǔn)確度。
[0006] 所述根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度是通過以下公式計(jì)算，所述公式包括其
【主權(quán)項(xiàng)】
1. 一種確定詞語相似度的方法，其特征在于，包括：從短文本中獲取多個(gè)結(jié)構(gòu)詞；針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞，將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹配，確定匹配成功的模板和模板數(shù)量；確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量；根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度；在預(yù)設(shè)短文本集合中，確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù) 量；根據(jù)所述共同短文本數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值；根據(jù)所述結(jié)構(gòu)相似度及校正值，計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
2. 如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié) 構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度是通過以下公式計(jì)算，所述公式包括：
其中，Ss為兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度，T為兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量，Ta為一個(gè)結(jié)構(gòu)詞匹配成功的模板的數(shù)量，Tb為另一個(gè)結(jié)構(gòu)詞匹配成功的模板的數(shù)量。
3. 如權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述共同短文本數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值是通過以下公式計(jì)算，所述公式包括： C = (W+1) 9；其中，C為兩個(gè)結(jié)構(gòu)詞之間的校正值，W為所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù)量，0為校正系數(shù)，0為正整數(shù)。
4. 如權(quán)利要求1-3中任一權(quán)利要求所述的方法，其特征在于，所述根據(jù)所述結(jié)構(gòu)相似度及校正值，計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度是通過以下公式計(jì)算，所述公式包括： C 其中，S為所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
5. 如權(quán)利要求1所述的方法，其特征在于，所述確定匹配成功的模板和模板數(shù)量，還包括：獲得模板出現(xiàn)的次數(shù)；當(dāng)模板出現(xiàn)的次數(shù)大于預(yù)設(shè)閾值時(shí)，根據(jù)所述模板出現(xiàn)的次數(shù)從多到少的順序進(jìn)行排列；確定所述模板出現(xiàn)的次數(shù)從多到少的順序中排在前N位的模板為匹配成功的模板，其中，N為預(yù)設(shè)的正整數(shù)。
6. 如權(quán)利要求1所述的方法，其特征在于，所述模板是通過以下方式生成的：從預(yù)設(shè)的短文本集合中獲取短文本；在所述短文本中根據(jù)除頓號(hào)以外的分隔符號(hào)，確定兩個(gè)分隔符號(hào)之間的文本段為短句；確定所述短句中的結(jié)構(gòu)詞；根據(jù)所述結(jié)構(gòu)詞及所述短句中詞語的詞性，生成模板。
7. -種確定詞語相似度的裝置，其特征在于，包括：第一獲取模塊，用于從短文本中獲取多個(gè)結(jié)構(gòu)詞；第一確定模塊，用于針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞，將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹配，確定匹配成功的模板和模板數(shù)量；第二確定模塊，用于確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量；第三確定模塊，用于根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度；第四確定模塊，用于在預(yù)設(shè)短文本集合中，確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù)量；第五確定模塊，用于根據(jù)所述共同短文本數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值；計(jì)算模塊，用于根據(jù)所述結(jié)構(gòu)相似度及校正值，計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
8. 如權(quán)利要求7所述的裝置，其特征在于，所述第一確定模塊，還包括：獲得子模塊，用于獲得模板出現(xiàn)的次數(shù)；排序子模塊，用于當(dāng)模板出現(xiàn)的次數(shù)大于預(yù)設(shè)閾值時(shí)，根據(jù)所述模板出現(xiàn)的次數(shù)從多到少的順序進(jìn)行排列；確定子模塊，用于確定所述模板出現(xiàn)的次數(shù)從多到少的順序中排在前N位的模板為匹配成功的模板，其中，N為預(yù)設(shè)的正整數(shù)。
9. 如權(quán)利要求7所述的裝置，其特征在于，所述模板是通過以下裝置生成的：第二獲取模塊，用于從預(yù)設(shè)的短文本集合中獲取短文本；第六確定模塊，用于在所述短文本中根據(jù)除頓號(hào)以外的分隔符號(hào)，確定兩個(gè)分隔符號(hào) 之間的文本段為短句；第七確定模塊，用于確定所述短句中的結(jié)構(gòu)詞；生成模塊，用于根據(jù)所述結(jié)構(gòu)詞及所述短句中詞語的詞性，生成模板。
10. -種確定詞語相似度的裝置，其特征在于，包括：處理器；用于存儲(chǔ)處理器可執(zhí)行指令的存儲(chǔ)器；其中，所述處理器被配置為：從短文本中獲取多個(gè)結(jié)構(gòu)詞；針對(duì)所述多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞，將所述兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹配，確定匹配成功的模板和模板數(shù)量；確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量；根據(jù)所述共同模板數(shù)量和所述兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度；在預(yù)設(shè)短文本集合中，確定所述兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù) 量；根據(jù)所述共同短文本數(shù)量，確定所述兩個(gè)結(jié)構(gòu)詞之間的校正值；根據(jù)所述結(jié)構(gòu)相似度及校正值，計(jì)算所述兩個(gè)結(jié)構(gòu)詞之間的相似度。
【專利摘要】本公開是關(guān)于一種確定詞語相似度的方法及裝置。所述方法，包括：從短文本中獲取多個(gè)結(jié)構(gòu)詞；針對(duì)多個(gè)結(jié)構(gòu)詞中的每?jī)蓚€(gè)結(jié)構(gòu)詞，將兩個(gè)結(jié)構(gòu)詞分別與預(yù)設(shè)的模板進(jìn)行匹配，確定匹配成功的模板和模板數(shù)量；確定兩個(gè)結(jié)構(gòu)詞共同匹配成功的模板的共同模板數(shù)量；根據(jù)共同模板數(shù)量和兩個(gè)結(jié)構(gòu)詞分別對(duì)應(yīng)的模板數(shù)量，確定兩個(gè)結(jié)構(gòu)詞之間的結(jié)構(gòu)相似度；在預(yù)設(shè)短文本集合中，確定兩個(gè)結(jié)構(gòu)詞共同匹配成功的短文本的共同短文本數(shù)量；根據(jù)共同短文本數(shù)量，確定兩個(gè)結(jié)構(gòu)詞之間的校正值；根據(jù)結(jié)構(gòu)相似度及校正值，計(jì)算兩個(gè)結(jié)構(gòu)詞之間的相似度。利用簡(jiǎn)單的算法計(jì)算兩個(gè)詞之間的相似度，節(jié)約了大量的計(jì)算量，并且提高了計(jì)算的準(zhǔn)確度。
【IPC分類】G06F17-27, G06F17-30
【公開號(hào)】CN104699668
【申請(qǐng)?zhí)枴緾N201510138290
【發(fā)明人】劉毅超, 汪平仄, 代陽(yáng)
【申請(qǐng)人】小米科技有限責(zé)任公司
【公開日】2015年6月10日
【申請(qǐng)日】2015年3月26日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：劉毅超;汪平仄;代陽(yáng);
技術(shù)所有人：小米科技有限責(zé)任公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

詞語語義相似度計(jì)算相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

確定詞語相似度的方法及裝置的制造方法