[0077]圖2是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的流程圖;
[0078]圖3是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的流程圖;
[0079]圖4是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的流程圖;
[0080]圖5是本公開根據(jù)一示例性實施例示出的一種文本信息相似度的計算方法的裝置的框圖;
[0081]圖6是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0082]圖7是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0083]圖8是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0084]圖9是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0085]圖10是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0086]圖11是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0087]圖12是本公開根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的裝置的框圖;
[0088]圖13是本公開根據(jù)一示例性實施例示出的一種文本信息相似度的計算裝置的一結(jié)構(gòu)示意圖。
【具體實施方式】
[0089]這里將詳細地對示例性實施例進行說明,其示例表示在附圖中。下面的描述涉及附圖時,除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實施例中所描述的實施方式并不代表與本公開相一致的所有實施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本公開的一些方面相一致的裝置和方法的例子。
[0090]在本公開使用的術(shù)語是僅僅出于描述特定實施例的目的,而非旨在限制本公開。在本公開和所附權(quán)利要求書中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應當理解,本文中使用的術(shù)語“和/或”是指并包含一個或多個相關(guān)聯(lián)的列出項目的任何或所有可能組合。
[0091 ]應當理解,盡管在本公開可能采用術(shù)語第一、第二、第三等來描述各種信息,但這些信息不應限于這些術(shù)語。這些術(shù)語僅用來將同一類型的信息彼此區(qū)分開。例如,在不脫離本公開范圍的情況下,第一信息也可以被稱為第二信息,類似地,第二信息也可以被稱為第一信息。取決于語境,如在此所使用的詞語“如果”可以被解釋成為“在……時”或“當……時”或“響應于確定”。
[0092]目前,通信技術(shù)的飛速發(fā)展使人們的生活越來越便利,一些服務(wù)提供商為了給用戶提供更好的體驗,可能會對用戶接收到的通知類型的短信進行聚類分析,以根據(jù)聚類分析的結(jié)果向用戶提供一些服務(wù)。如,特定的服務(wù)提供商提供的服務(wù)器可以收集所有移動終端用戶接收到的各種通知類短信。然后,求得這些短信兩兩之間的相似度,基于上述相似度對這些短信進行聚類分析,將相同類型的短信聚成一類,再根據(jù)短信的類別以及短信的具體內(nèi)容提供相應的服務(wù)。
[0093]例如,一種場景可以為,用戶在網(wǎng)上訂好車票或機票后,購票平臺會將用戶購票的相關(guān)信息通過短信的形式發(fā)送給用戶。但用戶乘車或乘機的時間可能會在很久之后,因此,購票平臺發(fā)送的該信息無法在合適的時間有效的提醒用戶乘車或乘機。在此情況下,特定的服務(wù)提供商提供的服務(wù)器首先可以確定該短信為乘車或乘機類別的短信,然后可以根據(jù)短信的具體內(nèi)容確定服務(wù)策略(如,在乘車或乘機日前一天或兩天向用戶發(fā)送提醒消息等),并基于該策略在預定的時刻執(zhí)行服務(wù)操作。
[0094]又例如,另一種場景可以為,用戶報名參加某個考試,考試管理平臺會將考試的相關(guān)信息或者通知(如,繳費時間和繳費金額,或者考試時間和考試地點等)通過短信的形式發(fā)送給用戶。特定的服務(wù)提供商提供的服務(wù)器首先可以確定該短信為考試類別的短信,然后可以根據(jù)短信的具體內(nèi)容確定相應的服務(wù)策略(如,在考試前一天向用戶發(fā)送提醒消息以及考試的注意事項等),并基于該策略在預定的時刻執(zhí)行服務(wù)操作。
[0095]由此可見,如何更準確的確定兩個文本信息之間的相似度變得尤為重要。本公開實施例提供了一種文本信息相似度的計算方法,能更準確高效的確定兩個文本信息之間的相似度。
[0096]如圖1所示,圖1是根據(jù)一示例性實施例示出的一種文本信息相似度的計算方法的流程圖,該方法可以應用于服務(wù)器中。該方法包括以下步驟:
[0097]在步驟101中,判斷第一文本信息與第二文本信息的結(jié)構(gòu)類型是否相同。
[0098]在本實施例中,文本信息的結(jié)構(gòu)類型取決于該文本信息的內(nèi)容的句式結(jié)構(gòu),不同的句式結(jié)構(gòu)對應不同的結(jié)構(gòu)類型。句式結(jié)構(gòu)可以包括總分結(jié)構(gòu),分總結(jié)構(gòu),并列結(jié)構(gòu),因果結(jié)構(gòu),等等,還可以包括較為復雜的嵌套結(jié)構(gòu)等。例如,某個文本信息內(nèi)容如下:您定制的
(1)動感地帶上網(wǎng)套餐18元,語音剩余24分鐘,短信剩余100條,數(shù)據(jù)流量剩余0.0ΜΒ,(2)新30元數(shù)據(jù)流量可選包,數(shù)據(jù)流量剩余408.11MB,(3)贈送本地4G流量,本地4G流量直充贈送剩余1024.0MB,(4)IP1000,語音剩余994分鐘,感謝您的使用。可以確定該文本信息的句式結(jié)構(gòu)為并列結(jié)構(gòu)。
[00"]又例如,某個文本信息內(nèi)容如下:您本月已使用移動數(shù)據(jù)流量125.37MB,套餐內(nèi)流量剩余344.63MB,其中:國內(nèi)通用流量剩余4.59MB,半年包流量剩余340.04MB。可以確定該文本信息的句式結(jié)構(gòu)為總分結(jié)構(gòu)。
[0100]可以理解,文本信息的句式結(jié)構(gòu)還可以包括其它形式的結(jié)構(gòu),本公開對文本信息的句式結(jié)構(gòu)的具體形式不限定。
[0101]在步驟102中,若結(jié)構(gòu)類型不同,則確定第一文本信息與第二文本信息的相似度為0。
[0102]—般來說,通知類信息通常按照一定的模板生成,每種模板具有一定的結(jié)構(gòu)類型,因此,相同類別的信息應該具有相同的結(jié)構(gòu)類型。如果兩個文本信息的結(jié)構(gòu)類型不同,則即使這兩個文本信息的主題相近,或者內(nèi)容相近,也認為這兩個文本信息不是一種類別的信息,即這兩個文本信息的相似度為0。
[0103]在步驟103中,若結(jié)構(gòu)類型相同,則獲取第一文本信息與第二文本信息的主題近似度。
[0104]在步驟104中,獲取第一文本信息與第二文本信息的內(nèi)容近似度。
[0105]在步驟105中,基于上述主題近似度以及上述內(nèi)容近似度確定第一文本信息與第二文本信息的相似度。
[0106]在本實施例中,如果兩個文本信息的結(jié)構(gòu)類型相同,則說明這兩個文本信息有可能比較相似??梢赃M一步根據(jù)這兩個文本信息的主題以及具體內(nèi)容,確定這兩個文本信息的相似度。
[0107]在本實施例中,兩個文本信息之間的主題近似度為基于這兩個文本信息的主題確定的近似度,這兩個文本信息的主題越相近,其主題近似度越高??梢圆捎酶鞣N主題模型計算文本信息之間的主題近似度。在一種實現(xiàn)方式中,可以采用LDA(Latent DirichletAllocat1n,文檔主題生成模型)主題模型確定兩個文本信息的主題近似度。在另一種實現(xiàn)方式中,還可以通過PLSA(Probability Latent Semantic Analysis,概率潛語義分析)主題模型確定兩個文本信息的主題近似度??梢岳斫?,還可以通過其它的方式確定兩個文本信息的主題近似度,本公開對此方面不限定。
[0108]在本實施例中,兩個文本信息之間的內(nèi)容近似度為基于這兩個文本信息的內(nèi)容確定的近似度,這兩個文本信息的內(nèi)容越相近,其內(nèi)容近似度越高。在一種實現(xiàn)方式中,可以基于句法分析樹相似性的方法確定兩個文本信息之間的內(nèi)容近似度。在另一種實現(xiàn)方式中,還可以通過N-gram模型確定兩個文本信息的內(nèi)容近似度??梢岳斫猓€可以通過其它的方式確定兩個文本信息的內(nèi)容近似度,本公開對此方面不限定。
[0109]本公開的上述實施例提供的文本信息相似度的計算方法,在判斷出第一文本信息與第二文本信息的結(jié)構(gòu)類型不同時,確定第一文本信息與第二文本信息的相似度為0,并在結(jié)構(gòu)類型相同時,基于上述兩個文本信息的主題近似度以及內(nèi)容近似度確定這兩個文本信息的相似度。從而提高了計算兩個文本信息之間相似度的準確性。
[0110]如圖2所示,圖2根據(jù)一示例性實施例示出的另一種文本信息相似度的計算方法的流程圖,該實施例在圖1實施例的基礎(chǔ)上描述了進一步確定第一文本信息與第二文本信息的結(jié)構(gòu)類型的過程,該方法可以應用于服務(wù)器中,包括以下步驟:
[0111]在步驟201中,分別將第一文本信息以及第二文本信息作為待分析文本信息,對待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,以確定第一文本信息以及第二文本信息的結(jié)構(gòu)類型。
[0112]在本實施例中,將所有需要比較相似度的文本信息(包括第一文本信息以及第二文本信息)作為待分析文本信息,對每個待分析文本信息執(zhí)行結(jié)構(gòu)分析的操作,從而確定這些待分析文本信息的結(jié)構(gòu)類型。一般來說,文本信息的結(jié)構(gòu)類型取決于該文本信息的內(nèi)容的句式結(jié)構(gòu),不同的句式結(jié)構(gòu)對應不同的結(jié)構(gòu)類型。而文本信息中的某些符號和/或關(guān)鍵詞的排布形式(如這些符號和/或關(guān)鍵詞在上述文本信息中的排列順序及分布等),可能決定了文本信息的句式結(jié)構(gòu),因此,可以基于文本信息中的某些符號和/或關(guān)鍵詞(可以只基于符號,也可以只基于關(guān)鍵詞,也可以基于符號和關(guān)鍵詞)的排布形式,確定該文本信息的結(jié)構(gòu)類型。
[0113]具體來說,可以首先確定一些符號和/或關(guān)鍵詞的排布形式,