亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本信息相似度的計算方法、裝置及服務(wù)器的制造方法

文檔序號:9708796閱讀:361來源:國知局
文本信息相似度的計算方法、裝置及服務(wù)器的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及計算機技術(shù)領(lǐng)域,特別涉及一種文本信息相似度的計算方法、裝置及服務(wù)器。
【背景技術(shù)】
[0002]隨著科技的不斷發(fā)展,計算機人工智能技術(shù)變得日益完善和成熟,人工智能技術(shù)的發(fā)展使人們的生活越來越便利。例如,服務(wù)提供商可以對用戶接收到的通知類型的文本信息進行聚類分析,以根據(jù)聚類分析的結(jié)果向用戶提供一些服務(wù),從而提高用戶體驗。而確定文本信息兩兩之間的相似度是進行聚類分析的基礎(chǔ),因此,如何更準確的確定兩個文本信息之間的相似度變得尤為重要。

【發(fā)明內(nèi)容】

[0003]本公開提供一種文本信息相似度的計算方法、裝置及服務(wù)器,以解決計算兩個文本信息之間相似度的準確性低的問題。
[0004]根據(jù)本公開實施例的第一方面,提供一種文本信息相似度的計算方法,包括:
[0005]判斷第一文本信息與第二文本信息的結(jié)構(gòu)類型是否相同;
[0006]若結(jié)構(gòu)類型不同,則確定第一文本信息與第二文本信息的相似度為0;
[0007]若結(jié)構(gòu)類型相同,則獲取第一文本信息與第二文本信息的主題近似度;
[0008]獲取第一文本信息與第二文本信息的內(nèi)容近似度;
[0009]基于所述主題近似度以及所述內(nèi)容近似度確定第一文本信息與第二文本信息的相似度。
[0010]可選的,所述方法還包括:
[0011]分別將所述第一文本信息以及所述第二文本信息作為待分析文本信息,對所述待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,以確定所述第一文本信息以及所述第二文本信息的結(jié)構(gòu)類型。
[0012]可選的,所述對待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,包括:
[0013]從所述待分析文本信息中查找出預(yù)定的符號和/或關(guān)鍵詞;
[0014]確定所述預(yù)定的符號和/或關(guān)鍵詞在所述待分析文本信息中的排布形式;
[0015]查找出與所述排布形式匹配的結(jié)構(gòu)類型,作為所述待分析文本信息的結(jié)構(gòu)類型。
[0016]可選的,所述獲取第一文本信息與第二文本信息的主題近似度,包括:
[0017]獲取所述第一文本信息的主題向量作為第一向量;
[0018]獲取所述第二文本信息的主題向量作為第二向量;
[0019]基于所述第一向量以及第二向量確定所述主題近似度。
[0020]可選的,所述基于所述第一向量以及第二向量確定所述主題近似度,包括:
[0021]計算出所述第一向量與所述第二向量所成的夾角的余弦值,作為所述主題近似度。
[0022]可選的,所述獲取第一文本信息與第二文本信息的內(nèi)容近似度,包括:
[0023]基于N元語法N-gram模型確定所述第一文本信息與所述第二文本信息的內(nèi)容近似度,其中,N為大于等于2的整數(shù)。
[0024]可選的,所述基于N-gram模型確定所述第一文本信息與所述第二文本信息的內(nèi)容近似度,包括:
[0025]從所述第一文本信息中獲取N元詞組的集合作為第一集合;
[0026]從所述第二文本信息中獲取N元詞組的集合作為第二集合;
[0027]確定所述第一集合與所述第二集合的交集的元素個數(shù);
[0028]確定所述第一集合與所述第二集合的并集的元素個數(shù);
[0029]計算出所述交集的元素個數(shù)除以所述并集的元素個數(shù)的商值,作為所述內(nèi)容近似度。
[0030]可選的,所述基于所述主題近似度以及所述內(nèi)容近似度確定第一文本信息與第二文本信息的相似度,包括:
[0031]計算出所述主題近似度與所述內(nèi)容近似度的加權(quán)平均值,作為所述第一文本信息與第二文本信息的相似度。
[0032]根據(jù)本公開實施例的第二方面,提供一種文本信息相似度的計算裝置,包括:
[0033]判斷模塊,被配置為判斷第一文本信息與第二文本信息的結(jié)構(gòu)類型是否相同;
[0034]第一確定模塊,被配置為在結(jié)構(gòu)類型不同時,確定第一文本信息與第二文本信息的相似度為0;
[0035]主題近似度獲取模塊,被配置為在結(jié)構(gòu)類型相同時,獲取第一文本信息與第二文本信息的主題近似度;
[0036]內(nèi)容近似度獲取模塊,被配置為獲取第一文本信息與第二文本信息的內(nèi)容近似度;
[0037]第二確定模塊,被配置為基于所述主題近似度以及所述內(nèi)容近似度確定第一文本信息與第二文本信息的相似度。
[0038]可選的,所述裝置還包括:
[0039]結(jié)構(gòu)分析模塊,被配置為分別將所述第一文本信息以及所述第二文本信息作為待分析文本信息,對所述待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,以確定所述第一文本信息以及所述第二文本信息的結(jié)構(gòu)類型。
[0040]可選的,所述結(jié)構(gòu)分析模塊包括:
[0041]查找子模塊,被配置為從所述待分析文本信息中查找出預(yù)定的符號和/或關(guān)鍵詞;
[0042]排布形式確定子模塊,被配置為確定所述預(yù)定的符號和/或關(guān)鍵詞在所述待分析文本信息中的排布形式;
[0043]匹配子模塊,被配置為查找出與所述排布形式匹配的結(jié)構(gòu)類型,作為所述待分析文本信息的結(jié)構(gòu)類型。
[0044]可選的,所述主題近似度獲取模塊包括:
[0045]第一向量獲取子模塊,被配置為獲取所述第一文本信息的主題向量作為第一向量;
[0046]第二向量獲取子模塊,被配置為獲取所述第二文本信息的主題向量作為第二向量;
[0047]主題近似度確定子模塊,被配置為基于所述第一向量以及第二向量確定所述主題近似度。
[0048]可選的,所述主題近似度確定子模塊包括:
[0049]余弦值計算子模塊,被配置為計算出所述第一向量與所述第二向量所成的夾角的余弦值,作為所述主題近似度。
[0050]可選的,所述內(nèi)容近似度獲取模塊包括:
[0051]確定子模塊,被配置為基于N元語法N-gram模型確定所述第一文本信息與所述第二文本信息的內(nèi)容近似度,其中,N為大于等于2的整數(shù)。
[0052]可選的,所述確定子模塊包括:
[0053]第一集合獲取子模塊,被配置為從所述第一文本信息中獲取N元詞組的集合作為第一集合;
[0054]第二集合獲取子模塊,被配置為從所述第二文本信息中獲取N元詞組的集合作為第二集合;
[0055]交集元素個數(shù)確定子模塊,被配置為確定所述第一集合與所述第二集合的交集的元素個數(shù);
[0056]并集元素個數(shù)確定子模塊,被配置為確定所述第一集合與所述第二集合的并集的元素個數(shù);
[0057]商值計算子模塊,被配置為計算出所述交集的元素個數(shù)除以所述并集的元素個數(shù)的商值,作為所述內(nèi)容近似度。
[0058]可選的,所述第二確定模塊,包括:
[0059]計算子模塊,被配置為計算出所述主題近似度與所述內(nèi)容近似度的加權(quán)平均值,作為所述第一文本信息與第二文本信息的相似度。
[0060]根據(jù)本公開實施例的第三方面,提供一種服務(wù)器,包括:
[0061]處理器;
[0062]用于存儲處理器可執(zhí)行指令的存儲器;
[0063]其中,所述處理器被配置為:
[0064]判斷第一文本信息與第二文本信息的結(jié)構(gòu)類型是否相同;
[0065]若結(jié)構(gòu)類型不同,則確定第一文本信息與第二文本信息的相似度為0;
[0066]若結(jié)構(gòu)類型相同,則獲取第一文本信息與第二文本信息的主題近似度;
[0067]獲取第一文本信息與第二文本信息的內(nèi)容近似度;
[0068]基于所述主題近似度以及所述內(nèi)容近似度確定第一文本信息與第二文本信息的相似度。
[0069]本公開的實施例提供的技術(shù)方案可以包括以下有益效果:
[0070]本公開的上述實施例提供的一種文本信息相似度的計算方法,在判斷出第一文本信息與第二文本信息的結(jié)構(gòu)類型不同時,確定第一文本信息與第二文本信息的相似度為0,并在結(jié)構(gòu)類型相同時,基于上述兩個文本信息的主題近似度以及內(nèi)容近似度確定這兩個文本信息的相似度。從而提高了計算兩個文本信息之間相似度的準確性。
[0071]本公開的上述實施例提供的另一種文本信息相似度的計算方法,通過將第一文本信息以及第二文本信息作為待分析文本信息,對待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,從而確定第一文本信息以及第二文本信息的結(jié)構(gòu)類型,有助于提高計算兩個文本信息之間相似度的準確性。
[0072]本公開的上述實施例提供的另一種文本信息相似度的計算方法,通過基于第一文本信息的主題向量以及第二文本信息的主題向量確定主題近似度。從而有助于提高計算兩個文本信息之間相似度的準確性。
[0073]本公開的上述實施例提供的另一種文本信息相似度的計算方法,通過基于N元語法N-gram模型確定第一文本信息與第二文本信息的內(nèi)容近似度,使用戶在進行切換操作時無需進行多級操作,從而有助于提高計算兩個文本信息之間相似度的準確性。
[0074]應(yīng)當理解的是,以上的一般描述和后文的細節(jié)描述僅是示例性和解釋性的,并不能限制本公開。
【附圖說明】
[0075]此處的附圖被并入說明書中并構(gòu)成本說明書的一部分,示出了符合本公開的實施例,并與說明書一起用于解釋本公開的原理。
[0076]圖1是本公開根據(jù)一示例性實施例示出的一種文本信息相似度的計算方法的流程圖;
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1