亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本相似度計(jì)算方法與流程

文檔序號(hào):12863798閱讀:496來源:國知局
文本相似度計(jì)算方法與流程
本發(fā)明涉及一種文本相似度計(jì)算方法,特別涉及利用意圖識(shí)別分類模型的文本相似度計(jì)算方法。
背景技術(shù)
:文本相似度,即計(jì)算兩個(gè)問題是否相似的算法,其作為一種最基礎(chǔ)的算法有著廣泛的應(yīng)用,同時(shí)也是搜索引擎、文本排序、關(guān)聯(lián)問題挖掘等一系列問題的核心。如果能有效地計(jì)算兩兩文本之間的相似度,一系列的問題也能隨之解決。意圖識(shí)別,即識(shí)別一種行為的意圖。例如,在問答對(duì)話中,提問者每句話都帶有一定的意圖,應(yīng)答方根據(jù)對(duì)方的意圖進(jìn)行回答。相關(guān)問題在搜索引擎、聊天機(jī)器人等場(chǎng)景下有廣泛的應(yīng)用。尤其,在聊天機(jī)器人中,意圖識(shí)別是整個(gè)系統(tǒng)的核心模塊。在回答用戶的問題時(shí),事先將所有問題劃分為一個(gè)個(gè)主題即按用戶的意圖進(jìn)行分類的分類主題(以公司客服與用戶對(duì)話為例,一個(gè)主題就是一個(gè)業(yè)務(wù)點(diǎn)。例如,有關(guān)退換貨、有關(guān)發(fā)貨地址等)。用戶每次提問,都將問題映射到某個(gè)主題中,之后給出特定主題對(duì)應(yīng)的答案。機(jī)器學(xué)習(xí)就是一門人工智能的科學(xué),該領(lǐng)域的主要研究對(duì)象是人工智能,特別是如何在經(jīng)驗(yàn)學(xué)習(xí)中改善具體算法的性能。常見的機(jī)器學(xué)習(xí)方法可以分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。所謂監(jiān)督學(xué)習(xí),就是從給定的訓(xùn)練數(shù)據(jù)集中學(xué)習(xí)出一個(gè)函數(shù),當(dāng)新的數(shù)據(jù)到來時(shí),可以根據(jù)該函數(shù)來預(yù)測(cè)結(jié)果。監(jiān)督學(xué)習(xí)的訓(xùn)練集要求是包括輸入和輸出,也可以說是特征和目標(biāo)。訓(xùn)練集中的目標(biāo)是可以預(yù)先標(biāo)注的。所謂主題模型就是對(duì)文本隱含主題進(jìn)行建模的方法。給定訓(xùn)練語料,自動(dòng)地將訓(xùn)練語料劃分為不同的主題,用于預(yù)測(cè)新的語料屬于哪個(gè)主題。lr(logisticregression)即邏輯回歸算法,是一種常用的監(jiān)督學(xué)習(xí) 算法。bagofwords(詞袋),是一種文本表示方法。例如,有一個(gè)詞典:{″john″:1,″likes″:2,″to″:3,″watch″:4,″movies″:5,″also″:6,″football″:7,″games″:8,″mary″:9,″too″:10}一個(gè)文本:johnlikestowatchmovies.marylikestoo.根據(jù)已有的詞典,可以將該文本轉(zhuǎn)換成如下向量:[1,1,1,1,1,0,0,0,1,1]其中,1表明詞典中的詞出現(xiàn)過,0表示沒有出現(xiàn)。現(xiàn)有計(jì)算文本相似度的方法很多,例如,將文本轉(zhuǎn)化為詞向量后求向量的cos(余弦)夾角,或bm25(bmstandsforbestmatching,最佳匹配準(zhǔn)則)、lcs(longestcommonsubsequence,最長(zhǎng)公共子序列)等等一系列算法。然而,現(xiàn)有計(jì)算文本相似度的算法往往只能從某一個(gè)方面反映文本的相似度,而且算法基本都是與文本字面強(qiáng)(緊密)相關(guān)。一方面,當(dāng)兩個(gè)文本匹配到核心詞或匹配到一般的無用詞時(shí),算法給出的相似度是相同的,無法進(jìn)行區(qū)分;另一方面,如果兩個(gè)文本含有同義詞,雖然表達(dá)的是一個(gè)意思,但是由于字面不一致而導(dǎo)致相似度很低。一般的主題模型由于各個(gè)主題是程序自動(dòng)聚類生成的,因此,一方面,生成的主題常常是人們無法理解的,另一方面,會(huì)將不相關(guān)的一些問題劃分到一個(gè)主題中而使得效果很難達(dá)到預(yù)期。另外,在實(shí)際使用中往往需要同時(shí)對(duì)多個(gè)相似度算法進(jìn)行融合。而且,效果也很難令人滿意。技術(shù)實(shí)現(xiàn)要素:本發(fā)明是鑒于現(xiàn)有技術(shù)的基本都與文本的字面有較強(qiáng)的相關(guān)性而無法真正從文本的語義級(jí)別來判斷文本相似度等上述這樣的問題而做出的, 其目的在于提供一種避免了現(xiàn)有技術(shù)中完全根據(jù)字面來計(jì)算相似度的弊端的準(zhǔn)確度更高且效果更好的文本相似度計(jì)算方法。本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,步驟(s1),按照預(yù)設(shè)的基于用戶意圖而分類的分類主題,根據(jù)歷史文本,創(chuàng)建針對(duì)所述歷史文本中的詞組的意圖識(shí)別分類模型,該意圖識(shí)別分類模型反映了所述詞組在所述分類主題下的概率;步驟(s2),將作為相似度計(jì)算對(duì)象的對(duì)象文本分割為與上述意圖識(shí)別分類模型中的所述詞組對(duì)應(yīng)的對(duì)象詞組,基于所述意圖識(shí)別分類模型,對(duì)所述對(duì)象詞組的所述概率進(jìn)行相加并歸一,獲得所述對(duì)象文本的意圖分類向量,該意圖分類向量反映了所述對(duì)象文本在所述分類主題下的概率;以及步驟(s3),根據(jù)所述意圖分類向量,利用余弦法求取兩個(gè)所述對(duì)象文本的相似度。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述余弦法的公式為:其中,cosθ表示相似度,i表示所述意圖分類向量的分類主題數(shù),其值是1至n的正整數(shù),a表示第一對(duì)象文本,b表示第二對(duì)象文本,ai、bi分別表示所述第一對(duì)象文本或所述第二對(duì)象文本在當(dāng)前分類主題下的所述概率。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述意圖識(shí)別分類模型的創(chuàng)建是通過詞袋法并結(jié)合邏輯回歸算法來實(shí)現(xiàn)的。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述分類主題是客服與用戶對(duì)話的業(yè)務(wù)點(diǎn)。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述歷史文本是客服與用戶對(duì)話的歷史咨詢?nèi)罩局械奈谋?。根?jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述詞組是根據(jù)需要從所述歷史文本中篩選出的一部分詞組。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述分類主題數(shù)是所 述意圖分類向量的維度。根據(jù)本發(fā)明的一個(gè)方面的文本相似度計(jì)算方法,所述概率是所述意圖分類向量的數(shù)值。綜上所述,根據(jù)本發(fā)明的文本相似度計(jì)算方法的上述技術(shù)方案,實(shí)現(xiàn)了一種準(zhǔn)確度更高且效果更好的文本相似度計(jì)算方法,避免了現(xiàn)有技術(shù)中完全根據(jù)字面來計(jì)算相似度的弊端。附圖說明圖1是本發(fā)明的文本相似度計(jì)算方法的概要框圖。圖2是本發(fā)明的文本相似度計(jì)算方法的創(chuàng)建意圖識(shí)別分類模型的步驟s1的流程圖。圖3是本發(fā)明的智能終端設(shè)備接入智點(diǎn)網(wǎng)絡(luò)的控制方法的有關(guān)舊設(shè)備接入時(shí)的工序示意圖。具體實(shí)施方式本發(fā)明是利用了意圖識(shí)別分類模型的文本相似度計(jì)算方法,按照事先劃分好的各個(gè)分類主題,意圖識(shí)別分類模型可以將文本映射到對(duì)應(yīng)的分類主題上從而從中獲取其語義級(jí)別的信息。在此基礎(chǔ)上進(jìn)行文本相似度計(jì)算,從而能夠取得更好的效果。為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)行詳細(xì)說明。圖1是本發(fā)明的文本相似度計(jì)算方法的概要框圖。如圖1所示,上述文本相似度計(jì)算方法包括:創(chuàng)建意圖識(shí)別分類模型的步驟s1;獲取對(duì)象文本的意圖識(shí)別分類向量的步驟s2;以及計(jì)算相似度的步驟s3。圖2是本發(fā)明的文本相似度計(jì)算方法的創(chuàng)建意圖識(shí)別分類模型的步驟s1的流程圖。如圖2所示,在創(chuàng)建意圖識(shí)別分類模型的步驟s1中,首先,預(yù)先設(shè)定按用戶的意圖進(jìn)行分類的分類主題(步驟s1-1)。以公司客服與用戶對(duì)話為例,一個(gè)分類主題就是一個(gè)業(yè)務(wù)點(diǎn),用戶的每個(gè)問題(文本)可以與這些業(yè)務(wù)點(diǎn)中的相應(yīng)業(yè)務(wù)點(diǎn)對(duì)應(yīng)。例如,在此假設(shè)劃分為3種分類主題: “有關(guān)運(yùn)費(fèi)”、“有關(guān)退換貨”、“有關(guān)發(fā)貨地址”。接著,獲取歷史文本(以公司客服與用戶對(duì)話為例,則為歷史咨詢?nèi)罩局械奈谋?,并將歷史文本進(jìn)行切詞,以確定建模用詞組(步驟s1-2)。即,以上述bagofwords(詞袋)法為例,可以切分成與詞袋中的詞典數(shù)據(jù)對(duì)應(yīng)的一個(gè)個(gè)詞組,作為建模用詞組。在此,可以不是所有詞組都作為建模用詞組,而是可以根據(jù)需要來篩選出真正有用的一部分詞組作為建模用詞組。然后,針對(duì)所確定的各個(gè)建模用詞組,按照上述預(yù)設(shè)的分類主題,利用公知的算法(例如,利用bagofwords(詞袋)法,將每句文本轉(zhuǎn)換為向量,然后,利用lr(logisticregression)即邏輯回歸算法進(jìn)行模型訓(xùn)練),創(chuàng)建針對(duì)各個(gè)詞組的意圖識(shí)別分類模型(步驟s1-3)。在此,意圖識(shí)別分類模型的輸出是一個(gè)向量(也稱作主題向量),向量的維度與上述劃分的分類主題數(shù)是一致的(本例中,為“3”),每一維的數(shù)值代表了文本或詞組屬于所對(duì)應(yīng)的分類主題的概率,概率越大代表文本或詞組越有可能屬于當(dāng)前分類主題,向量的所有維度相加為1。下列【表1】,表示出所創(chuàng)建的針對(duì)詞組的意圖識(shí)別分類模型的一個(gè)示例。(這里,表1指示一個(gè)示例,數(shù)值并非實(shí)際數(shù)值。而且,該意圖識(shí)別分類模型是一種現(xiàn)有的機(jī)器學(xué)習(xí)算法,不止一種,不同的算法其算法邏輯是不同的)【表1】有關(guān)運(yùn)費(fèi)有關(guān)退換貨有關(guān)發(fā)貨地址東西0.330.330.33發(fā)貨0.450.100.45包郵0.800.100.10哪里0.150.050.80運(yùn)費(fèi)0.800.100.10············圖3是本發(fā)明的文本相似度計(jì)算方法的獲取對(duì)象文本的意圖識(shí)別分類向量的步驟s2的流程圖。如圖3所示,在獲取對(duì)象文本的意圖識(shí)別分類向量的步驟s2中,首先,獲取作為進(jìn)行相似度評(píng)估的對(duì)象的對(duì)象文本(步驟s2-1)。接著,利用上述創(chuàng)建的意圖識(shí)別分類模型,獲取該對(duì)象文本的意圖識(shí) 別向量(步驟s2-2)。具體而言,意圖識(shí)別分類模型的輸入是該對(duì)象文本,意圖識(shí)別分類模型的輸出是一個(gè)向量(也稱作主題向量),向量的維度與上述劃分的分類主題數(shù)是一致的(本例中,為“3”),每一維的數(shù)值代表了文本或詞組屬于所對(duì)應(yīng)的分類主題的概率,概率越大代表文本或詞組越有可能屬于當(dāng)前分類主題,向量的所有維度相加為1。例如,假設(shè)對(duì)象文本為“東西發(fā)貨運(yùn)費(fèi)誰出”,則按照bagofwords(詞袋)法進(jìn)行切詞,切詞為“東西”、“發(fā)貨”、“運(yùn)費(fèi)”、“誰出”。然后,根據(jù)上述【表1】的針對(duì)詞組的意圖識(shí)別分類模型,利用相加并歸一的方法來獲取該對(duì)象文本的意圖識(shí)別向量,即對(duì)象文本屬于所對(duì)應(yīng)的各分類主題下的概率。例如,具體計(jì)算(相加并歸一算法)如下。第一步,計(jì)算文本屬于各個(gè)分類的概率:屬于分類主題1(例如“有關(guān)運(yùn)費(fèi)”)的概率p1=0.33+0.45+0.80;屬于分類主題2(例如“有關(guān)退換貨”)的概率p2=0.33+0.10+0.10;·····屬于分類主題n的概率pn=xxx+xxx+xxx;第二步,歸一化各個(gè)概率:屬于分類主題1的最終概率=p1/(p1+p2+···+pn);屬于分類主題2的最終概率=p2/(p1+p2+···+pn);·····屬于分類主題n的最終概率=pn/(p1+p2+···+pn);這里,也只是一個(gè)示例,數(shù)值并非實(shí)際數(shù)值。而且,這也并非唯一算法。然后,判斷要進(jìn)行相似評(píng)估的對(duì)象文本是否獲取完畢,在判斷為未完畢(“否”)時(shí),返回步驟s2-1,獲取下一對(duì)象文本;在判斷為完畢(“是”)時(shí),進(jìn)入步驟s3。下列【表2】,表示出所獲取的對(duì)象文本的意圖分類向量的一個(gè)示例。(這里,表2也只是一個(gè)示例,數(shù)值并非實(shí)際數(shù)值,與上述【表1】并非完全匹配)【表2】在計(jì)算相似度的步驟s3中,根據(jù)下列余弦公式(式1)來求取兩個(gè)文本的相似度。其中,cosθ表示相似度,i表示向量的維度即分類主題數(shù),其值是1至n的正整數(shù)(本例中,n=3),a表示第一對(duì)象文本,b表示第二對(duì)象文本,ai、bi分別表示第一對(duì)象文本或第二對(duì)象文本在當(dāng)前分類主題下的向量數(shù)值即概率。這樣,根據(jù)上述【表2】,通過以上公式求得“東西發(fā)貨運(yùn)費(fèi)誰出”與“商品包郵嗎”的相似度為0.9967,而“東西發(fā)貨運(yùn)費(fèi)誰出”與“東西從哪里發(fā)貨”的相似度為0.0819??梢姡?dāng)文本表達(dá)為同一個(gè)意圖時(shí)就能夠較好的反映出其相似度也較為接近。反之,當(dāng)意圖相差較遠(yuǎn)時(shí),文本相似度也低。而且,相似度與字面關(guān)系不大,并不是字面越接近就越相似。由此,本發(fā)明通過上述方法計(jì)算而求得的相似度是對(duì)文本語義級(jí)別的理解,較一般的相似度計(jì)算方法抽象級(jí)別更高。其不是簡(jiǎn)單的根據(jù)文本的字面是否一致求相似度,而是根據(jù)文本真正的意圖來看兩個(gè)文本是否在表述同一個(gè)含義。相比于一般的字面相似度算法,避免了上文中提到的完全根據(jù)字面計(jì)算相似度的弊端。對(duì)于一般的主題模型,由于意圖識(shí)別分類模型有更高的準(zhǔn)確率,效果也更為優(yōu)異。以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體示例而已,并不用于限制本發(fā)明。凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁12
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1