本申請涉及計算機(jī)技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及基于人工智能的文本校驗方法和裝置。
背景技術(shù):
人工智能(artificialintelligence,ai)是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機(jī)科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機(jī)器,該領(lǐng)域的研究包括機(jī)器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。人工智能領(lǐng)域中的自然語言處理是計算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個重要方向。它研究能實現(xiàn)人與計算機(jī)之間用自然語言進(jìn)行有效通信的各種理論和方法。通常,需要利用卷積神經(jīng)網(wǎng)絡(luò)(convolutionalneuralnetwork,cnn)等進(jìn)行文本的相似性等的校驗。
然而,現(xiàn)有的方法所使用的卷積神經(jīng)網(wǎng)絡(luò)通常僅支持按固定的尺度(即每次輸入至卷積神經(jīng)網(wǎng)絡(luò)的卷積層的卷積核的向量的個數(shù),也可稱為窗口長度)進(jìn)行卷積,從而存在著對文本校驗的靈活性較低的問題。
技術(shù)實現(xiàn)要素:
本申請實施例的目的在于提出一種改進(jìn)的基于人工智能的文本校驗方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請實施例提供了一種基于人工智能的文本校驗方法,該方法包括:分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量,以生成與第一文本相對應(yīng)的第一詞向量序列和與第二文本相對應(yīng)的第二詞向量序列;分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組,其中,卷積神經(jīng)網(wǎng)絡(luò)用于提取文本的特征;將所確定的、與每一個文本的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列;對所生成的結(jié)合特征向量序列進(jìn)行解析,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,對所生成的結(jié)合特征向量序列進(jìn)行解析,確定第一文本和第二文本是否通過相似性校驗,包括:對于每一個文本,提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,以生成與該文本的相對應(yīng)的目標(biāo)特征向量;基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定第一文本和第二文本是否通過相似性校驗,包括:將所生成的各目標(biāo)特征向量輸入至預(yù)先訓(xùn)練的相似性預(yù)測模型,得到第一文本和第二文本的相似性預(yù)測結(jié)果,其中,相似性預(yù)測模型用于表征多個文本的目標(biāo)特征向量序列與多個文本的相似性預(yù)測結(jié)果的對應(yīng)關(guān)系;基于所得到的相似性預(yù)測結(jié)果,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,該方法還包括訓(xùn)練相似性預(yù)測模型的步驟,包括:提取預(yù)設(shè)的訓(xùn)練樣本,其中,訓(xùn)練樣本包括第一訓(xùn)練文本、第二訓(xùn)練文本、用于指示第一訓(xùn)練文本和第二訓(xùn)練文本是否相似的標(biāo)識;對第一訓(xùn)練文本和第二訓(xùn)練文本進(jìn)行解析,生成分別與第一訓(xùn)練樣本和第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量;利用機(jī)器學(xué)習(xí)方法,將分別與第一訓(xùn)練樣本和第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量作為輸入,將標(biāo)識作為輸入,訓(xùn)練得到相似性預(yù)測模型。
在一些實施例中,基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定第一文本和第二文本是否通過相似性校驗,包括:確定與第一文本相對應(yīng)的目標(biāo)特征向量和與第二文本相對應(yīng)的目標(biāo)特征向量的相似度;響應(yīng)于確定相似度大于預(yù)設(shè)的相似度閾值,確定第一文本和第二文本通過相似性校驗;響應(yīng)于確定相似度不大于相似度閾值,確定第一文本和第二文本未通過相似性校驗。
在一些實施例中,至少一個多尺度卷積層中的相鄰多尺度卷積層之間設(shè)置有深度連貫層和池化層,深度連貫層用于將所多尺度卷積層所輸出的多個向量序列進(jìn)行結(jié)合以生成由多個結(jié)合向量所構(gòu)成的結(jié)合向量序列,池化層用于對預(yù)設(shè)的窗口尺寸和預(yù)設(shè)的窗口滑動步長對深度連貫層所生成的結(jié)合向量序列進(jìn)行解析以得到簡化后的結(jié)合向量序列。
第二方面,本申請實施例提供了一種基于人工智能的文本校驗裝置,該裝置包括:分詞單元,配置用于分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量,以生成與第一文本相對應(yīng)的第一詞向量序列和與第二文本相對應(yīng)的第二詞向量序列;輸入單元,配置用于分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組,其中,卷積神經(jīng)網(wǎng)絡(luò)用于提取文本的特征;結(jié)合單元,配置用于將所確定的、與每一個文本的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列;解析單元,配置用于對所生成的結(jié)合特征向量序列進(jìn)行解析,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,解析單元包括:生成模塊,配置用于對于每一個文本,提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,以生成與該文本的相對應(yīng)的目標(biāo)特征向量;確定模塊,配置用于基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,確定模塊進(jìn)一步配置用于:將所生成的各目標(biāo)特征向量輸入至預(yù)先訓(xùn)練的相似性預(yù)測模型,得到第一文本和第二文本的相似性預(yù)測結(jié)果,其中,相似性預(yù)測模型用于表征多個文本的目標(biāo)特征向量序列與多個文本的相似性預(yù)測結(jié)果的對應(yīng)關(guān)系;基于所得到的相似性預(yù)測結(jié)果,確定第一文本和第二文本是否通過相似性校驗。
在一些實施例中,裝置還包括:提取單元,配置用于提取預(yù)設(shè)的訓(xùn)練樣本,其中,訓(xùn)練樣本包括第一訓(xùn)練文本、第二訓(xùn)練文本、用于指示第一訓(xùn)練文本和第二訓(xùn)練文本是否相似的標(biāo)識;生成單元,配置用于對第一訓(xùn)練文本和第二訓(xùn)練文本進(jìn)行解析,生成分別與第一訓(xùn)練樣本和第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量;訓(xùn)練單元,配置用于利用機(jī)器學(xué)習(xí)方法,將分別與第一訓(xùn)練樣本和第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量作為輸入,將標(biāo)識作為輸入,訓(xùn)練得到相似性預(yù)測模型。
在一些實施例中,確定模塊進(jìn)一步配置用于:確定與第一文本相對應(yīng)的目標(biāo)特征向量和與第二文本相對應(yīng)的目標(biāo)特征向量的相似度;響應(yīng)于確定相似度大于預(yù)設(shè)的相似度閾值,確定第一文本和第二文本通過相似性校驗;響應(yīng)于確定相似度不大于相似度閾值,確定第一文本和第二文本未通過相似性校驗。
在一些實施例中,至少一個多尺度卷積層中的相鄰多尺度卷積層之間設(shè)置有深度連貫層和池化層,深度連貫層用于將所多尺度卷積層所輸出的多個向量序列進(jìn)行結(jié)合以生成由多個結(jié)合向量所構(gòu)成的結(jié)合向量序列,池化層用于對預(yù)設(shè)的窗口尺寸和預(yù)設(shè)的窗口滑動步長對深度連貫層所生成的結(jié)合向量序列進(jìn)行解析以得到簡化后的結(jié)合向量序列。
第三方面,本申請實施例提供了一種服務(wù)器,包括:一個或多個處理器;存儲裝置,用于存儲一個或多個程序,當(dāng)一個或多個程序被一個或多個處理器執(zhí)行,使得一個或多個處理器實現(xiàn)如基于人工智能的文本校驗方法的任一實施例的方法。
本申請實施例提供的基于人工智能的文本校驗方法和裝置,通過對待校驗的第一文本和第二文本分別進(jìn)行分詞以便生成第一詞向量序列和第二詞向量序列,而后分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),以便分別得到與各文本相對應(yīng)的特征向量序列組,之后將各個特征向量序列進(jìn)行結(jié)合以生成與各文本相對應(yīng)的結(jié)合特征向量序列,最后對所生成的結(jié)合特征向量序列進(jìn)行解析,確定第一文本和第二文本是否通過相似性校驗,從而可以實現(xiàn)對詞向量序列的多尺度卷積計算,相較于單一的、固定尺度的卷積計算,提高了文本校驗的靈活性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細(xì)描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的文本校驗方法的一個實施例的流程圖;
圖3是根據(jù)本申請的一個卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)的示意圖;
圖4是根據(jù)本申請的文本校驗方法的一個應(yīng)用場景的示意圖;
圖5是根據(jù)本申請的文本校驗方法的又一個實施例的流程圖;
圖6是根據(jù)本申請的文本校驗裝置的一個實施例的結(jié)構(gòu)示意圖;
圖7是適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細(xì)說明本申請。
圖1示出了可以應(yīng)用本申請的文本校驗方法或文本校驗裝置的示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如文本編輯類應(yīng)用、瀏覽器類應(yīng)用、閱讀類應(yīng)用等。
終端設(shè)備101、102、103可以是具有顯示屏并且支持瀏覽文本的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、電子書閱讀器、膝上型便攜計算機(jī)和臺式計算機(jī)等等。
服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如為終端設(shè)備101、102、103上所存儲的待校驗的文本提供相似性校驗等服務(wù)的處理服務(wù)器。處理服務(wù)器可以對文本進(jìn)行分詞、解析等處理,并生成處理結(jié)果(例如用于指示是否通過相似性校驗的文本校驗結(jié)果)。
需要說明的是,上述待校驗的文本也可以直接存儲在服務(wù)器105的本地,服務(wù)器105可以直接提取本地所存儲的待校驗的文本并進(jìn)行處理,此時,可以不存在終端設(shè)備101、102、103和網(wǎng)絡(luò)104。
需要說明的是,本申請實施例所提供的文本校驗方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,文本校驗裝置一般設(shè)置于服務(wù)器105中。
應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
繼續(xù)參考圖2,示出了根據(jù)本申請的文本校驗方法的一個實施例的流程200。所述的文本校驗方法,包括以下步驟:
步驟201,分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量,以生成與第一文本相對應(yīng)的第一詞向量序列和與第二文本相對應(yīng)的第二詞向量序列。
在本實施例中,文本校驗方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器105)可以首先提取待校驗的第一文本和待校驗的第二文本。其中,上述第一文本和上述第二文本可以是預(yù)先存儲在上述電子設(shè)備中的、技術(shù)人員所預(yù)先指定的文本,上述電子設(shè)備可以直接提取本地所預(yù)先存儲的上述文本。另外,上述第一文本和第二文本也可以是上述電子設(shè)備通過有線連接方式或者無線連接方式從客戶端(例如圖1所示的終端設(shè)備101、102、103)所接收的文本。實踐中,上述客戶端可以向上述電子設(shè)備發(fā)送包含上述第一文本和第二文本的文本校驗請求,上述電子設(shè)備接收到該文本校驗請求后,可以提取該文本校驗請求中所包含的文本。需要說明的是,上述第一文本和上述第二文本可以是各種文字信息,例如句子、段落或者篇章等。需要指出的是,上述無線連接方式可以包括但不限于3g/4g連接、wifi連接、藍(lán)牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現(xiàn)在已知或?qū)黹_發(fā)的無線連接方式。
在本實施例中,上述電子設(shè)備可以利用各種分詞方法對上述第一文本和上述第二文本進(jìn)行分詞;之后,可以利用各種詞向量生成方法確定所分割的各個詞的詞向量,以生成與上述第一文本相對應(yīng)的第一詞向量序列和與上述第二文本相對應(yīng)的第二詞向量序列。需要說明的是,詞向量可以是用于表示詞語特征的向量,詞向量的每一維的值代表一個具有一定的語義和語法上解釋的特征。其中,特征可以是用于對詞語的基本要素進(jìn)行表征的各種信息。需要指出的是,上述電子設(shè)備可以依次將對上述第一文本分詞后得到的各個詞的詞向量進(jìn)行排列得到上述第一詞向量序列,并依次將對上述第二文本分詞后得到的各個詞的詞向量進(jìn)行排列得到上述第二詞向量序列。實踐中,上述第一詞向量序列和上述第二詞向量序列均可視為由依次排列的詞向量所構(gòu)成的矩陣。
在本實施例中,上述電子設(shè)備可以利用各種分詞方法對上述第一文本和上述第二文本進(jìn)行分詞。作為示例,上述分詞方法可以是基于統(tǒng)計的分詞方法。具體地,可以對上述第一文本和上述第二本文中相鄰字符所構(gòu)成的字符組合的頻率進(jìn)行統(tǒng)計,計算出字符組合出現(xiàn)的頻率。當(dāng)上述頻率高于預(yù)設(shè)頻率閾值時,則判定上述組合構(gòu)成了詞,從而實現(xiàn)對文本的分詞。作為又一示例,上述分詞方法還可以是基于字符串匹配原理的分詞方法。上述電子設(shè)備可以利用字符串匹配原理分別將上述第一文本和第二文本分別與預(yù)置在上述電子設(shè)備中的機(jī)器詞典中的各個詞進(jìn)行匹配,繼而基于所匹配到的詞對上述文本進(jìn)行分詞。其中,上述字符串匹配原理可以是正向最大匹配法、逆向最大匹配法、設(shè)立切分標(biāo)注法、逐詞遍歷匹配法、正向最佳匹配法或逆向最佳匹配法等。需要說明的是,上述電子設(shè)備還可以利用隱馬爾可夫模型(hiddenmarkovmodel,hmm)等進(jìn)行上述第一文本和上述第二文本的分詞。需要指出的是,上述各種分詞方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
在本實施例中,上述電子設(shè)備可以利用各種詞向量生成方法確定所分割的各個詞的詞向量。作為示例,上述電子設(shè)備中可以預(yù)先存儲大量的詞和詞向量的對應(yīng)關(guān)系表,各個詞向量可以具有相同的維數(shù)。對于所分割成的每一個詞的詞向量,上述電子設(shè)備可以從上述對應(yīng)關(guān)系表中查找該詞所對應(yīng)的詞向量。此處,預(yù)先存儲的大量的詞的詞向量可以是利用機(jī)器學(xué)習(xí)方法預(yù)先訓(xùn)練得到的,或者是技術(shù)人員基于大量數(shù)據(jù)統(tǒng)計而預(yù)先設(shè)置的。作為又一示例,上述電子設(shè)備可以利用各種利用開源的詞向量計算工具(例如word2vec等)確定所分割成的各個詞的詞向量。需要說明的是,上述詞向量生成方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
步驟202,分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組。
在本實施例中,上述電子設(shè)備中可以存儲有預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),其中,上述卷積神經(jīng)網(wǎng)絡(luò)可以用于提取文本的特征,多尺度卷積層可以輸出多個向量序列。上述電子設(shè)備可以首先分別將上述第一詞向量序列和上述第二詞向量序列輸入至上述預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。之后,可以將上述至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組。其中,與上述第一文本相對應(yīng)的特征向量組是在將上述第一詞向量序列輸入至上述卷積神經(jīng)網(wǎng)絡(luò)后、由上述最后一個多尺度卷積層所輸出的多個特征向量序列所構(gòu)成的,與上述第二文本相對應(yīng)的特征向量組是在將上述第二詞向量序列輸入至上述卷積神經(jīng)網(wǎng)絡(luò)后、由上述最后一個多尺度卷積層所輸出的多個特征向量序列所構(gòu)成的。實踐中,卷積神經(jīng)網(wǎng)絡(luò)是一種前饋神經(jīng)網(wǎng)絡(luò),它的人工神經(jīng)元可以響應(yīng)一部分覆蓋范圍內(nèi)的周圍單元,對于文本處理有出色表現(xiàn)。
需要說明的是,上述預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)中的每一個多尺度卷積層可以由多個尺度的卷積層構(gòu)成。其中,每個尺度的卷積層的窗口長度不同(即每次輸入至卷積核的向量的個數(shù)不同,卷積核即參數(shù)矩陣,也可稱為濾波器),每個尺度的卷積層可以有一個或多個,且每一個尺度的卷積層可以用于基于與該尺度的卷積層相對應(yīng)的窗口長度對所輸入的向量序列進(jìn)行卷積。需要指出的是,卷積層可以用于基于相應(yīng)的窗口長度對所輸入的向量序列進(jìn)行卷積計算。每一個卷積層可以包含任意數(shù)量的卷積核。對于每一個卷積層,該卷積層在對所輸入的向量序列進(jìn)行卷積計算之后可以輸出另一向量序列,其中,所輸出的向量序列所包含的向量的維度為該卷積層的卷積核數(shù)、所包含的向量的數(shù)量與所輸入的向量序列所包含的向量的數(shù)量相同。由于每一個多尺度卷積層由多個尺度的卷積層構(gòu)成,因而每一個多尺度卷積層可以輸出多個向量序列。
作為示例,如圖3所示,圖3示出了上述卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)的示意圖300,上述卷積神經(jīng)網(wǎng)絡(luò)的一個多尺度卷積層301包含第一卷積層、第二卷積層、第三卷積層、第四卷積層和第五卷積層共五個卷積層。其中,上述第一卷積層、上述第二卷積層和上述第四卷積層的窗口長度為1,上述第三卷積層的窗口長度為3,上述第五卷積層的窗口長度為5;上述第一卷積層、第二卷積層、第三卷積層、第四卷積層和第五卷積層的卷積核的數(shù)量分別為a、b、c、d、e,其中,a、b、c、d、e均為正整數(shù)??梢詫⒋斎胫猎摱喑叨染矸e層的向量序列(例如由100個向量組成)作為目標(biāo)向量序列,圖3所示的三條路徑并行地處理上述目標(biāo)向量序列,得到輸出的三個向量序列。具體地,上述目標(biāo)向量序列被輸入至第一條路徑,即被輸入至上述第一卷積層,經(jīng)過基于窗口長度為1的卷積計算,得到由100個維度為a的向量構(gòu)成的向量序列。同時,上述目標(biāo)向量序列被輸入至第二條路徑,即被輸入至上述第二卷積層,經(jīng)過基于窗口長度為1的卷積計算,得到由100個維度為b的向量構(gòu)成的向量序列;繼而所得到的、維度為b的向量構(gòu)成的向量序列被輸入至上述第三卷積層,經(jīng)過基于窗口長度為3的卷積計算,得到由100個維度為c的向量構(gòu)成的向量序列。同時,上述目標(biāo)向量序列被輸入至第三條路徑,即被輸入至上述第四卷積層,經(jīng)過基于窗口長度為1的卷積計算,得到由100個維度為d的向量構(gòu)成的向量序列;繼而所得到的、維度為d的向量構(gòu)成的向量序列被輸入至上述第五卷積層,經(jīng)過基于窗口長度為5的卷積計算,得到由100個維度為e的向量構(gòu)成的向量序列。最終,多尺度卷積層301輸出由100個維度為a的向量構(gòu)成的向量序列、100個維度為c的向量構(gòu)成的向量序列和100個維度為e的向量構(gòu)成的向量序列。
步驟203,將所確定的、與每一個文本的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列。
在本實施例中,上述電子設(shè)備可以將所確定的、與每一個文本(即上述第一文本和上述第二文本中的每一個文本)的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列。具體的,對于每一個文本,上述電子設(shè)備可以確定組成與該文本相對應(yīng)的各特征向量序列的各個向量在相應(yīng)的特征向量序列中的次序,將各個特征向量序列中的、次序相同的向量結(jié)合成一個向量,將所結(jié)合成的向量作為結(jié)合特征向量,生成與該文本相對應(yīng)的結(jié)合特征向量序列。
作為示例,與上述第一文本相對應(yīng)的特征向量組中包含由100個維度為m的向量構(gòu)成的第一特征向量序列、由100個維度為n的向量構(gòu)成的第二特征向量序列和由100個維度為p的向量構(gòu)成的第三特征向量序列,其中,上述m、n、p均為正整數(shù)。上述電子設(shè)備可以分別將上述第一特征向量序列、上述特征第二向量序列和上述特征第三向量序列中的第一個向量進(jìn)行結(jié)合,得到一個維度為m+n+p的向量;之后,分別將上述第一特征向量序列、上述特征第二向量序列和上述特征第三向量序列中的第二個向量進(jìn)行結(jié)合,得到另一個維度為m+n+p的向量;以此類推,得到100個維度為m+n+p的向量。上述電子設(shè)備可以將所得到的結(jié)合后的向量確定為結(jié)合特征向量,得到與上述第一文本相對應(yīng)的結(jié)合特征向量序列。需要說明的是,與上述第二文本相對應(yīng)的結(jié)合特征向量序列的生成方式與上述示例方式相同,在此不再贅述。
步驟204,對所生成的結(jié)合特征向量序列進(jìn)行解析,確定第一文本和第二文本是否通過相似性校驗。
在本實施例中,上述電子設(shè)備可以利用各種分析方式對所生成的結(jié)合特征向量序列進(jìn)行數(shù)值分析,確定第一文本和第二文本是否通過相似性校驗。作為示例,上述電子設(shè)備可以分別將與上述第一文本相對應(yīng)的結(jié)合特征向量序列和與上述第二文本相對應(yīng)的結(jié)合特征向量序列輸入至預(yù)先訓(xùn)練的、包含多層全連接層的神經(jīng)網(wǎng)絡(luò),將該神經(jīng)網(wǎng)絡(luò)所輸出的數(shù)值確定為相似性校驗結(jié)果,若該數(shù)值大于預(yù)設(shè)的某個數(shù)值(例如0.5或0.8等),則可以確定上述第一文本和上述第二文本通過相似性校驗;若該數(shù)值不大于預(yù)設(shè)的該數(shù)值,則可以確定上述第一文本和上述第二文本未通過相似性校驗。此處,該神經(jīng)網(wǎng)絡(luò)的每一個全連接層可以用于首先對輸入至該層的數(shù)據(jù)進(jìn)行線性變換,而后進(jìn)行非線性變換(例如使用如softmax函數(shù)、sigmoid函數(shù)等非線性激活函數(shù)),得到該層的輸出。需要指出的是,該神經(jīng)網(wǎng)絡(luò)可以是預(yù)先利用機(jī)器學(xué)習(xí)方法進(jìn)行有監(jiān)督訓(xùn)練而得到,訓(xùn)練神經(jīng)網(wǎng)絡(luò)的全連接層的方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
作為又一示例,對于每一個文本,上述電子設(shè)備可以確定與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量的每一維的平均值,將由每一維的平均值所構(gòu)成的向量確定為與該文本相對應(yīng)的平均特征向量。而后,可以對所得到的、與各文本相對應(yīng)的平均特征向量進(jìn)行數(shù)值分析(例如計算兩個平均特征向量的相似度),進(jìn)而確定上述第一文本和上述第二文本是否通過相似性校驗。
在本實施例的一些可選的實現(xiàn)方式中,對于每一個文本,上述電子設(shè)備可以首先提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,將由所提取的每一維的最大值所構(gòu)成的向量確定為與該文本的相對應(yīng)的目標(biāo)特征向量,以得到上述第一文本相對應(yīng)的目標(biāo)特征向量和與上述第二文本相對應(yīng)的目標(biāo)特征向量。而后,上述電子設(shè)備可以基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定上述第一文本和上述第二文本是否通過相似性校驗。作為示例,上述電子設(shè)備可以利用各種相似度計算方法(例如余弦相似度算法、歐式距離算法、杰卡德相似性度量方法等)確定與上述第一文本相對應(yīng)的目標(biāo)特征向量和與上述第二文本相對應(yīng)的目標(biāo)特征向量的相似度。而后,響應(yīng)于確定上述相似度大于預(yù)設(shè)的相似度閾值,確定上述第一文本和上述第二文本通過相似性校驗;響應(yīng)于確定上述相似度不大于上述相似度閾值,確定上述第一文本和上述第二文本未通過相似性校驗。其中,上述相似度閾值可以是任意數(shù)值,例如0.5、0.8等。需要說明的是,上述相似度計算方法方法是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
繼續(xù)參見圖4,圖4是根據(jù)本實施例的文本校驗方法的應(yīng)用場景的一個示意圖400。在圖4的應(yīng)用場景中,用戶使用終端設(shè)備所安裝的瀏覽器在表單401和表單402中分別編輯了待校驗的第一文本和待校驗的第二文本。而后,將所編輯的文本提交后,對用戶所提交的文本提供相似性校驗服務(wù)的處理服務(wù)器分別接收到的第一文本和第二文本進(jìn)行分詞,以得到第一詞向量序列和第二詞向量序列。之后,處理服務(wù)器分別將上述第一詞向量序列和上述第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),得到與各文本相對應(yīng)的特征向量序列組。然后,處理服務(wù)器將每一個特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,得到與各文本相對應(yīng)的特征向量序列。最后,處理服務(wù)器對所生成的結(jié)合特征向量序列進(jìn)行解析,確定上述第一文本和上述第二文本是否通過相似性校驗,并將本文校驗結(jié)果發(fā)送給上述終端設(shè)備。上述終端設(shè)備呈現(xiàn)文本校驗結(jié)果403。
本申請的上述實施例提供的方法通過對待校驗的第一文本和第二文本分別進(jìn)行分詞以便生成第一詞向量序列和第二詞向量序列,而后分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),以便分別得到與各文本相對應(yīng)的特征向量序列組,之后將各個特征向量序列進(jìn)行結(jié)合以生成與各文本相對應(yīng)的結(jié)合特征向量序列,最后對所生成的結(jié)合特征向量序列進(jìn)行解析,確定上述第一文本和上述第二文本是否通過相似性校驗,從而可以實現(xiàn)對詞向量序列的多尺度卷積計算,相較于單一的、固定尺度的卷積計算,提高了文本校驗的靈活性。同時,由于采用了多個尺寸的卷積計算,也增強(qiáng)了對文本特征的提取能力,進(jìn)而提高了對文本相似度的校驗的準(zhǔn)確性。
進(jìn)一步參考圖5,其示出了文本校驗方法的又一個實施例的流程500。該文本校驗方法的流程500,包括以下步驟:
步驟501,分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量,以生成與第一文本相對應(yīng)的第一詞向量序列和與第二文本相對應(yīng)的第二詞向量序列。
在本實施例中,文本校驗方法運(yùn)行于其上的電子設(shè)備(例如圖1所示的服務(wù)器105)可以首先提取待校驗的第一文本和待校驗的第二文本。上述電子設(shè)備可以利用各種分詞方法對上述第一文本和上述第二文本進(jìn)行分詞;之后,可以利用各種詞向量生成方法確定所分割的各個詞的詞向量,以生成與上述第一文本相對應(yīng)的第一詞向量序列和與上述第二文本相對應(yīng)的第二詞向量序列。
需要說明的是,該步驟的操作與上述步驟201的操作基本相同,在此不再贅述。
步驟502,分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組。
在本實施例中,上述電子設(shè)備中可以存儲有預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),其中,上述卷積神經(jīng)網(wǎng)絡(luò)可以用于提取文本的特征。上述電子設(shè)備可以首先分別將上述第一詞向量序列和上述第二詞向量序列輸入至上述預(yù)先訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)。之后,可以將上述至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組。
在本實施例中,上述至少一個多尺度卷積層中的相鄰兩個多尺度卷積層之間設(shè)置有連接層和池化層,上述深度連貫層用于將所多尺度卷積層所輸出的多個向量序列進(jìn)行結(jié)合以生成由多個結(jié)合向量構(gòu)成的結(jié)合向量序列,上述池化層用于對預(yù)設(shè)的窗口尺寸(例如窗口尺寸為2,則每次提取兩個結(jié)合向量作為該池化層的輸入)和預(yù)設(shè)的窗口滑動步長(例如窗口滑動步長為2,則每隔2結(jié)合向量進(jìn)行結(jié)合向量的提取)對深度連貫層所生成的結(jié)合向量序列進(jìn)行解析以得到簡化后的結(jié)合向量序列。實踐中,窗口滑動步長
作為示例,某兩個多尺度卷積層分別為第一多尺度卷積層和第二多尺度卷積層,第一多尺度卷積層可以輸出第一向量序列(例如由100個10維向量構(gòu)成)、第二向量序列(例如由100個20維向量構(gòu)成)和第三向量序列(例如有100個30維向量構(gòu)成)。第一多尺度卷積層與一個深度連貫層相連接,該深度連貫層可以與一個池化層相連接,該池化層與上述第二多尺度卷積層相連接,且該池化層的預(yù)設(shè)的窗口尺寸為2,預(yù)設(shè)的窗口滑動步長為2。該深度連貫層可以對該第一多尺度卷積層所輸出的第一向量序列、第二向量序列和第三向量序列進(jìn)行結(jié)合,將結(jié)合后得到的向量序列(由100個60維向量構(gòu)成)確定為結(jié)合向量序列,將結(jié)合向量輸入至該池化層。該池化層可以按照該窗口尺度和該窗口滑動步長,首先提取該結(jié)合向量序列的第一個和第二個向量的各個維度的最大值以生成一個新的向量;而后提取該結(jié)合向量序列的第三個和第四個向量的各個維度的最大值以生成另一個新的向量;以此類推;得到由所生成的新的向量所構(gòu)成的向量序列(由50個60維向量構(gòu)成);最后,該池化層可以將其所生成的向量序列輸入至上述第二多尺度卷積層。
步驟503,將所確定的、與每一個文本的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列。
在本實施例中,上述電子設(shè)備可以將所確定的、與每一個文本(即上述第一文本和上述第二文本中的每一個文本)的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列。具體的,對于每一個文本,上述電子設(shè)備可以確定組成與該文本相對應(yīng)的各特征向量序列的各個向量在相應(yīng)的特征向量序列中的次序,將各個特征向量序列中的、次序相同的向量結(jié)合成一個向量,將所結(jié)合成的向量作為結(jié)合特征向量,生成與該文本相對應(yīng)的結(jié)合特征向量序列。
步驟504,對于每一個文本,提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,以生成與該文本的相對應(yīng)的目標(biāo)特征向量。
在本實施例中,對于每一個文本,上述電子設(shè)備可以首先提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,將由所提取的每一維的最大值所構(gòu)成的向量確定為與該文本的相對應(yīng)的目標(biāo)特征向量,以得到上述第一文本相對應(yīng)的目標(biāo)特征向量和與上述第二文本相對應(yīng)的目標(biāo)特征向量。
步驟505,將所生成的各目標(biāo)特征向量輸入至預(yù)先訓(xùn)練的相似性預(yù)測模型,得到第一文本和第二文本的相似性預(yù)測結(jié)果。
在本實施例中,上述電子設(shè)備可以將所生成的各目標(biāo)特征向量輸入至預(yù)先訓(xùn)練的相似性預(yù)測模型,得到上述第一文本和上述第二文本的相似性預(yù)測結(jié)果。其中,所得到的相似性預(yù)測結(jié)果可以是某個數(shù)值。需要說明的是,上述相似性預(yù)測模型可以用于表征多個文本的目標(biāo)特征向量序列與上述多個文本的相似性預(yù)測結(jié)果的對應(yīng)關(guān)系。作為示例,上述相似性預(yù)測模型可以是技術(shù)人員基于對大量的目標(biāo)特征向量和相似性預(yù)測結(jié)果的統(tǒng)計而預(yù)先制定的、存儲有多組目標(biāo)特征向量與相似性預(yù)測結(jié)果的對應(yīng)關(guān)系的對應(yīng)關(guān)系表。
在本實施例的一些可選的實現(xiàn)方式中,上述相似性預(yù)測模型也可以是利用以下方式訓(xùn)練生成:
首先,可以提取預(yù)設(shè)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本可以包括第一訓(xùn)練文本、第二訓(xùn)練文本、用于指示上述第一訓(xùn)練文本和上述第二訓(xùn)練文本是否相似的標(biāo)識。
而后,對上述第一訓(xùn)練文本和上述第二訓(xùn)練文本進(jìn)行解析,生成分別與上述第一訓(xùn)練樣本和上述第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量。需要說明的是,上述電子設(shè)備可以利用與上述步驟201-上述步驟203基本相同的方法生成分別與上述第一訓(xùn)練樣本和上述第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量,在此不再贅述。
最后,可以利用機(jī)器學(xué)習(xí)方法,將分別與上述第一訓(xùn)練樣本和上述第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量作為輸入,將上述標(biāo)識作為輸入,訓(xùn)練得到相似性預(yù)測模型。需要指出的是,上述電子設(shè)備可以使用樸素貝葉斯模型(naivebayesianmodel,nbm)或支持向量機(jī)(supportvectormachine,svm)等用于分類的模型或使用分類函數(shù)(例如softmax函數(shù)等)等訓(xùn)練得到上述相似性預(yù)測模型。
步驟506,基于所得到的相似性預(yù)測結(jié)果,確定第一文本和第二文本是否通過相似性校驗。
在本實施例中,上述電子設(shè)備可以基于所得到的相似性預(yù)測結(jié)果,確定上述第一文本和上述第二文本是否通過相似性校驗。具體地,若所得到的相似性預(yù)測結(jié)果大預(yù)設(shè)的某數(shù)值(例如0.5或0.8等),則可以確定上述第一文本和上述第二文本通過相似性校驗;若所得到的相似性預(yù)測結(jié)果不大于該預(yù)設(shè)的數(shù)值,則可以確定上述第一文本和上述第二文本未通過相似性校驗。
從圖5中可以看出,與圖5對應(yīng)的實施例相比,本實施例中的文本校驗方法的流程500突出了基于相似性預(yù)測模型對結(jié)合特征向量序列進(jìn)行解析的步驟。由此,本實施例描述的方案進(jìn)一步提高了文本校驗的靈活性和準(zhǔn)確性。
進(jìn)一步參考圖6,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N文本校驗裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
如圖6所示,本實施例所述的文本校驗裝置600包括:分詞單元601,配置用于分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量,以生成與上述第一文本相對應(yīng)的第一詞向量序列和與上述第二文本相對應(yīng)的第二詞向量序列;輸入單元602,配置用于分別將上述第一詞向量序列和上述第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將上述至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組,其中,上述卷積神經(jīng)網(wǎng)絡(luò)用于提取文本的特征;結(jié)合單元603,配置用于將所確定的、與每一個文本的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列;解析單元604,配置用于對所生成的結(jié)合特征向量序列進(jìn)行解析,確定上述第一文本和上述第二文本是否通過相似性校驗。
在本實施例中,上述分詞單元601可以首先提取待校驗的第一文本和待校驗的第二文本。上述分詞單元601可以利用各種分詞方法對上述第一文本和上述第二文本進(jìn)行分詞;之后,可以利用各種詞向量生成方法確定所分割的各個詞的詞向量,以生成與上述第一文本相對應(yīng)的第一詞向量序列和與上述第二文本相對應(yīng)的第二詞向量序列。
在本實施例中,上述輸入單元602可以首先分別將上述第一詞向量序列和上述第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò)。之后,可以將上述至少一個多尺度卷積層中的最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,以分別得到與各文本相對應(yīng)的特征向量序列組。
在本實施例中,上述結(jié)合單元603可以將所確定的、與每一個文本(即上述第一文本和上述第二文本中的每一個文本)的相對應(yīng)的特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成與該文本相對應(yīng)的結(jié)合特征向量序列。具體的,對于每一個文本,上述結(jié)合單元603可以確定組成與該文本相對應(yīng)的各特征向量序列的各個向量在相應(yīng)的特征向量序列中的次序,將各個特征向量序列中的、次序相同的向量結(jié)合成一個向量,將所結(jié)合成的向量作為結(jié)合特征向量,生成與該文本相對應(yīng)的結(jié)合特征向量序列。
在本實施例的一些可選的實現(xiàn)方式中,上述至少一個多尺度卷積層中的相鄰多尺度卷積層之間可以設(shè)置有深度連貫層和池化層,上述深度連貫層可以用于將所多尺度卷積層所輸出的多個向量序列進(jìn)行結(jié)合以生成由多個結(jié)合向量所構(gòu)成的結(jié)合向量序列,上述池化層可以用于對預(yù)設(shè)的窗口尺寸和預(yù)設(shè)的窗口滑動步長對深度連貫層所生成的結(jié)合向量序列進(jìn)行解析以得到簡化后的結(jié)合向量序列。
在本實施例中,上述解析單元604可以利用各種分析方式對所生成的結(jié)合特征向量序列進(jìn)行數(shù)值分析,確定第一文本和第二文本是否通過相似性校驗。
在本實施例的一些可選的實現(xiàn)方式中,上述解析單元604可以包括生成模塊和確定模塊(圖中未示出)。其中,上述生成模塊可以配置用于對于每一個文本,提取與該文本相對應(yīng)的結(jié)合特征向量序列所包含的特征向量中的每一維的最大值,以生成與該文本的相對應(yīng)的目標(biāo)特征向量。上述確定模塊可以配置用于基于所生成的、與各文本相對應(yīng)的目標(biāo)特征向量,確定上述第一文本和上述第二文本是否通過相似性校驗。
在本實施例的一些可選的實現(xiàn)方式中,上述確定模塊可以進(jìn)一步配置用于將所生成的各目標(biāo)特征向量輸入至預(yù)先訓(xùn)練的相似性預(yù)測模型,得到上述第一文本和上述第二文本的相似性預(yù)測結(jié)果,其中,上述相似性預(yù)測模型用于表征多個文本的目標(biāo)特征向量序列與上述多個文本的相似性預(yù)測結(jié)果的對應(yīng)關(guān)系;基于所得到的相似性預(yù)測結(jié)果,確定上述第一文本和上述第二文本是否通過相似性校驗。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置還可以包括提取單元、生成單元和訓(xùn)練單元(圖中未示出)。其中,上述提取單元可以配置用于提取預(yù)設(shè)的訓(xùn)練樣本,其中,上述訓(xùn)練樣本包括第一訓(xùn)練文本、第二訓(xùn)練文本、用于指示上述第一訓(xùn)練文本和上述第二訓(xùn)練文本是否相似的標(biāo)識。上述生成單元可以配置用于對上述第一訓(xùn)練文本和上述第二訓(xùn)練文本進(jìn)行解析,生成分別與上述第一訓(xùn)練樣本和上述第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量。上述訓(xùn)練單元可以配置用于利用機(jī)器學(xué)習(xí)方法,將分別與上述第一訓(xùn)練樣本和上述第二訓(xùn)練樣本相對應(yīng)的目標(biāo)特征向量作為輸入,將上述標(biāo)識作為輸入,訓(xùn)練得到相似性預(yù)測模型。
在本實施例的一些可選的實現(xiàn)方式中,上述確定模塊可以進(jìn)一步配置用于確定與上述第一文本相對應(yīng)的目標(biāo)特征向量和與上述第二文本相對應(yīng)的目標(biāo)特征向量的相似度;響應(yīng)于確定上述相似度大于預(yù)設(shè)的相似度閾值,確定上述第一文本和上述第二文本通過相似性校驗;響應(yīng)于確定上述相似度不大于上述相似度閾值,確定上述第一文本和上述第二文本未通過相似性校驗。
本申請的上述實施例提供的裝置,通過分詞單元601對待校驗的第一文本和第二文本分別進(jìn)行分詞以便生成第一詞向量序列和第二詞向量序列,而后輸入單元602分別將第一詞向量序列和第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),以便分別得到與各文本相對應(yīng)的特征向量序列組,之后結(jié)合單元603將各個特征向量序列進(jìn)行結(jié)合以生成與各文本相對應(yīng)的結(jié)合特征向量序列,最后解析單元604對所生成的結(jié)合特征向量序列進(jìn)行解析,確定上述第一文本和上述第二文本是否通過相似性校驗,從而可以實現(xiàn)對詞向量序列的多尺度卷積計算,相較于單一的、固定尺度的卷積計算,提高了文本校驗的靈活性。同時,由于采用了多個尺寸的卷積計算,也增強(qiáng)了對文本特征的提取能力,進(jìn)而提高了對文本相似度的校驗的準(zhǔn)確性。
下面參考圖7,其示出了適于用來實現(xiàn)本申請實施例的服務(wù)器的計算機(jī)系統(tǒng)700的結(jié)構(gòu)示意圖。圖7示出的服務(wù)器僅僅是一個示例,不應(yīng)對本申請實施例的功能和使用范圍帶來任何限制。
如圖7所示,計算機(jī)系統(tǒng)700包括中央處理單元(cpu)701,其可以根據(jù)存儲在只讀存儲器(rom)702中的程序或者從存儲部分708加載到隨機(jī)訪問存儲器(ram)703中的程序而執(zhí)行各種適當(dāng)?shù)膭幼骱吞幚怼T趓am703中,還存儲有系統(tǒng)700操作所需的各種程序和數(shù)據(jù)。cpu701、rom702以及ram703通過總線704彼此相連。輸入/輸出(i/o)接口705也連接至總線704。
以下部件連接至i/o接口705:包括鍵盤、鼠標(biāo)等的輸入部分706;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚(yáng)聲器等的輸出部分707;包括硬盤等的存儲部分708;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分709。通信部分709經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器710也根據(jù)需要連接至i/o接口705??刹鹦督橘|(zhì)711,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器710上,以便于從其上讀出的計算機(jī)程序根據(jù)需要被安裝入存儲部分708。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機(jī)軟件程序。例如,本公開的實施例包括一種計算機(jī)程序產(chǎn)品,其包括承載在計算機(jī)可讀介質(zhì)上的計算機(jī)程序,該計算機(jī)程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機(jī)程序可以通過通信部分709從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)711被安裝。在該計算機(jī)程序被中央處理單元(cpu)701執(zhí)行時,執(zhí)行本申請的方法中限定的上述功能。需要說明的是,本申請所述的計算機(jī)可讀介質(zhì)可以是計算機(jī)可讀信號介質(zhì)或者計算機(jī)可讀存儲介質(zhì)或者是上述兩者的任意組合。計算機(jī)可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機(jī)可讀存儲介質(zhì)的更具體的例子可以包括但不限于:具有一個或多個導(dǎo)線的電連接、便攜式計算機(jī)磁盤、硬盤、隨機(jī)訪問存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本申請中,計算機(jī)可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。而在本申請中,計算機(jī)可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機(jī)可讀的信號介質(zhì)還可以是計算機(jī)可讀存儲介質(zhì)以外的任何計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。計算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括但不限于:無線、電線、光纜、rf等等,或者上述的任意合適的組合。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機(jī)程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,該模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機(jī)指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的單元可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的單元也可以設(shè)置在處理器中,例如,可以描述為:一種處理器包括分詞單元、輸入單元、結(jié)合單元和解析單元。其中,這些單元的名稱在某種情況下并不構(gòu)成對該單元本身的限定,例如,分詞單元還可以被描述為“對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞的單元”。
作為另一方面,本申請還提供了一種計算機(jī)可讀介質(zhì),該計算機(jī)可讀介質(zhì)可以是上述實施例中描述的裝置中所包含的;也可以是單獨存在,而未裝配入該裝置中。上述計算機(jī)可讀介質(zhì)承載有一個或者多個程序,當(dāng)上述一個或者多個程序被該裝置執(zhí)行時,使得該裝置:分別對待校驗的第一文本和待校驗的第二文本進(jìn)行分詞,確定所分割的各個詞的詞向量以生成第一詞向量序列和第二詞向量序列;分別將所述第一詞向量序列和所述第二詞向量序列輸入至預(yù)先訓(xùn)練的、包含至少一個多尺度卷積層的卷積神經(jīng)網(wǎng)絡(luò),將最后一個多尺度卷積層所輸出的多個向量序列中的各向量序列確定為特征向量序列,得到與各文本相對應(yīng)的特征向量序列組;將每一個特征向量序列組中的各個特征向量序列進(jìn)行結(jié)合,生成結(jié)合特征向量序列;對所生成的結(jié)合特征向量序列進(jìn)行解析,確定所述第一文本和所述第二文本是否通過相似性校驗。
以上描述僅為本申請的較佳實施例以及對所運(yùn)用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離上述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進(jìn)行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進(jìn)行互相替換而形成的技術(shù)方案。