亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應用識別方法及設備與流程

文檔序號:12134835閱讀:277來源:國知局
一種應用識別方法及設備與流程

本發(fā)明涉及應用識別領域,尤其涉及一種應用識別方法及設備。



背景技術:

隨著網(wǎng)絡通信技術的高速發(fā)展,各種網(wǎng)絡應用和服務層出不窮,例如有門戶網(wǎng)站的新聞瀏覽或者電子郵件、社交類網(wǎng)站、電子商務網(wǎng)站、即時聊天等等應用。網(wǎng)絡應用種類的不斷增多在給人們的生活帶來各種方便的同時,也給網(wǎng)絡安全管理帶來一些嚴峻的問題。網(wǎng)絡應用良莠不齊,一些不良應用在大量占據(jù)網(wǎng)絡資源、降低網(wǎng)絡性能的同時,還可能攜帶安全漏洞、病毒、木馬等,造成用戶隱私泄露、網(wǎng)絡安全隱患。因此對網(wǎng)絡應用進行識別十分關鍵。

然而隨著網(wǎng)絡架構日趨復雜,應用日趨龐大,傳統(tǒng)的網(wǎng)絡安全技術已無法滿足現(xiàn)今網(wǎng)絡安全的要求,存在無法認清應用的問題。例如面對數(shù)量眾多、規(guī)模龐大、架構復雜的應用,傳統(tǒng)的通過手工注冊應用來識別應用的方式不僅注冊起來工作量巨大,而且由于應用經(jīng)常調整,靜態(tài)信息總是落后于變化而導致信息失效。

因此需要一種更先進更有效的應用識別方案。



技術實現(xiàn)要素:

鑒于此,本發(fā)明提供了一種新的應用識別方案,以力圖解決或至少緩解上面存在的問題。

根據(jù)本發(fā)明的應用識別方案根據(jù)通過協(xié)議識別識別出的采用同一網(wǎng)絡協(xié)議、以及同一IP地址、端口和域名的網(wǎng)絡數(shù)據(jù),提取其中的請求數(shù)據(jù)和響應數(shù)據(jù),并根據(jù)提取的數(shù)據(jù)還原其對應的應用的原始頁面,最后根據(jù)通過分析還原的原始頁面篩選出應用的名稱,實現(xiàn)了對應用的實時有效識別。進一步地,本發(fā)明還通過聚類算法,實時有效的識別出同一IP地址、端口和域名下的多個應用,從而進一步提高應用識別的準確性。

附圖說明

為了實現(xiàn)上述以及相關目的,本文結合下面的描述和附圖來描述某些說明性方面,這些方面指示了可以實踐本文所公開的原理的各種方式,并且所有方面及其等效方面旨在落入所要求保護的主題的范圍內。通過結合附圖閱讀下面的詳細描述,本公開的上述以及其它目的、特征和優(yōu)勢將變得更加明顯。遍及本公開,相同的附圖標記通常指代相同的部件或元素。

圖1示出了根據(jù)本發(fā)明一個示例性實施例的網(wǎng)絡環(huán)境100的結構示意圖;

圖2示出了根據(jù)本發(fā)明一個示例性實施例的應用識別設備200的結構示意圖;以及

圖3示出了根據(jù)本發(fā)明一個示例性實施例的應用識別方法300的流程圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。

圖1示出了根據(jù)本發(fā)明一個示例性實施例的網(wǎng)絡環(huán)境100的結構示意圖。如圖1所示,網(wǎng)絡環(huán)境100包括多個存儲有應用的應用服務器110,用于以各自的網(wǎng)絡協(xié)議與客戶端120進行網(wǎng)絡通信;以及根據(jù)本發(fā)明的應用識別設備200,用于獲取多個應用服務器110和客戶端120之間進行通信的網(wǎng)絡數(shù)據(jù),并根據(jù)這些網(wǎng)絡數(shù)據(jù)進行應用識別??蛇x地,應用識別設備200可以部署在網(wǎng)絡交換設備130處,或者和網(wǎng)絡交換設備130集成在一起,以便方便地獲取應用服務器110和客戶端120之間進行通信的網(wǎng)絡數(shù)據(jù)。

圖2示出了根據(jù)本發(fā)明一個示例性實施例的應用識別設備200的結構示意圖。如圖2所示,應用識別設備200包括流量采集組件210、協(xié)議識別模塊220、數(shù)據(jù)抽取模塊230、數(shù)據(jù)重組模塊240和名稱篩選模塊250。

應用識別設備200適于對在客戶端和應用服務器之間傳輸?shù)木W(wǎng)絡數(shù)據(jù)對應的應用進行識別,其中,流量采集組件210可以與網(wǎng)絡交換設備的鏡像端口連接、或是與虛擬網(wǎng)絡設備TUN/TAP連接,獲取上述傳輸?shù)木W(wǎng)絡數(shù)據(jù)。協(xié)議識別模塊220與流量采集組件210連接,適于接收流量采集組件210獲取的網(wǎng)絡數(shù)據(jù),對該網(wǎng)絡數(shù)據(jù)進行協(xié)議識別,并通過對網(wǎng)絡數(shù)據(jù)進行協(xié)議識別,確定網(wǎng)絡數(shù)據(jù)所采用的網(wǎng)絡協(xié)議。

根據(jù)本發(fā)明的一個實施例,協(xié)議識別模塊220可以對網(wǎng)絡數(shù)據(jù)進行網(wǎng)絡層協(xié)議識別和應用層協(xié)議識別,其中,網(wǎng)絡層協(xié)議可以包括TCP協(xié)議和UDP協(xié)議,應用層協(xié)議可以包括HTTP協(xié)議、Oracle協(xié)議、Mysql協(xié)議、SqlServer協(xié)議、DB2協(xié)議、FTP協(xié)議、Samba協(xié)議、SMTP協(xié)議和POP3協(xié)議等。

具體地,協(xié)議識別模塊220可以通過網(wǎng)絡數(shù)據(jù)的端口號來確定其所采用的網(wǎng)絡協(xié)議。例如,F(xiàn)TP協(xié)議通常對應的端口號為20或21,SMTP協(xié)議通常對應的端口號為25,POP3協(xié)議通常對應的端口號為110,HTTP協(xié)議通常對應的端口號為80,Mysql協(xié)議通常對應的端口號為3306。

協(xié)議識別模塊220確定網(wǎng)絡協(xié)議之后,與協(xié)議識別模塊220連接的數(shù)據(jù)抽取模塊230適于對于識別為采用第一網(wǎng)絡協(xié)議的網(wǎng)絡數(shù)據(jù),獲取該網(wǎng)絡數(shù)據(jù)的IP地址、端口號和域名。

同時,數(shù)據(jù)抽取模塊230還適于從該網(wǎng)絡數(shù)據(jù)中抽取采用第一網(wǎng)絡協(xié)議的同一IP地址、端口號和域名的請求、以及對該請求的響應的數(shù)據(jù)內容。

根據(jù)本發(fā)明的一個實施例,具體地,數(shù)據(jù)抽取模塊230可以首先剝離網(wǎng)絡數(shù)據(jù)中的以太網(wǎng)首部,而后繼續(xù)剝離網(wǎng)絡數(shù)據(jù)中的IP首部,再繼續(xù)剝離網(wǎng)絡數(shù)據(jù)中的TCP首部或者UDP首部,最后獲取到網(wǎng)絡數(shù)據(jù)中的上述數(shù)據(jù)內容。其中,數(shù)據(jù)抽取模塊230在剝離網(wǎng)絡數(shù)據(jù)中的以太網(wǎng)首部之后,還可以判斷該網(wǎng)絡數(shù)據(jù)是否存在虛擬局域網(wǎng)(VLAN)字段,若存在,則剝離該虛擬局域網(wǎng)(VLAN)首部。

數(shù)據(jù)抽取模塊230從該網(wǎng)絡數(shù)據(jù)中抽取采用第一網(wǎng)絡協(xié)議的同一IP地址、端口號和域名的請求、以及響應該請求的數(shù)據(jù)內容之后,與數(shù)據(jù)抽取模塊230連接的數(shù)據(jù)重組模塊240適于根據(jù)抽取的數(shù)據(jù)內容生成應用的原始頁面。其中第一網(wǎng)絡協(xié)議通??梢詾镠TTP協(xié)議,對應生成的原始頁面可以為HTML格式。

可以理解地,網(wǎng)絡數(shù)據(jù)是通過具有序號的數(shù)據(jù)包傳輸,因此數(shù)據(jù)重組模塊240可以將抽取的數(shù)據(jù)內容按照其序號進行重組,根據(jù)重組后的數(shù)據(jù)內容生成原始頁面。這里,由于同一IP地址、端口號和域名下通常運行有一個應用,因此根據(jù)重組后的數(shù)據(jù)內容生成的原始頁面通常為一個原始頁面。

名稱篩選模塊250與數(shù)據(jù)重組模塊240連接,適于根據(jù)生成的原始頁面獲取應用的至少一個候選名稱。根據(jù)本發(fā)明的一個實施例,名稱篩選模塊250可以獲取原始頁面內容中具有特定標記的字段處的字符串,作為應用的候選名稱,這里的特定標記可以是title標記、meta標記和copyright標記中的至少一個。根據(jù)本發(fā)明的另一個實施例,名稱篩選模塊250還可以對原始頁面按照基于字典的匹配算法進行匹配,該字典包括應用的名稱可能包含的關鍵詞,例如“設備”、“網(wǎng)”、“網(wǎng)站”和“平臺”中的至少一個關鍵詞。若匹配成功,則名稱篩選模塊250獲取匹配的字段處的字符串,作為應用的候選名稱。

最后名稱篩選模塊250可以根據(jù)獲取的至少一個候選名稱確定應用的名稱。根據(jù)本發(fā)明的一個實施例,具體地,名稱篩選模塊250可以對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語,計算每個詞語在常見語料庫中的詞頻統(tǒng)計值(即TF-IDF值,term frequency–inverse document frequency,詞頻--反轉文件頻率),并相加得到該候選名稱的詞頻統(tǒng)計值之和。名稱篩選模塊還可以最后選取其中詞頻統(tǒng)計值之和最大的候選名稱作為應用的名稱。這樣,完成了對應用的實時有效識別,并且準確率高。

進一步地,若同一IP地址、端口號和域名下運行有多個應用,相應地,數(shù)據(jù)重組模塊240將根據(jù)抽取的數(shù)據(jù)內容生成多個原始頁面。若數(shù)據(jù)重組模塊240根據(jù)抽取的數(shù)據(jù)內容生成多個原始頁面,那么應用識別設備200還可以包括應用分組模塊260(圖中未示出),適于利用分詞算法分析數(shù)據(jù)重組模塊240獲取的多個原始頁面中的每個原始頁面的內容,并基于該分析構建樣本集合,其中樣本集合包括每個原始頁面內容中的預定數(shù)目個(例如20個)詞語,最后通過聚類算法對構建的樣本集合進行聚類分組,可以理解地,其中每個分組都對應一個應用。

在分組之后,應用分組模塊260還可以經(jīng)由名稱篩選模塊250對每個分組,根據(jù)該分組中的詞語所屬的至少一個原始頁面獲取該分組對應的應用的至少一個候選名稱,其中具體過程與上述根據(jù)一個原始頁面獲取候選名稱相同,名稱篩選模塊250可以對每個原始頁面,都獲取該原始頁面中具有特定標記的字段處的字符串,作為應用的候選名稱。名稱篩選模塊250還可以對每個原始頁面,都對該原始頁面內容按照基于字典的匹配算法進行匹配,該字典包括應用名稱可能包含的關鍵詞,若匹配成功,則獲取匹配的字段處的字符串,作為應用的候選名稱。

應用分組模塊260經(jīng)由名稱篩選模塊250獲取分組對應的應用的至少一個候選名稱后,可以根據(jù)至少一個候選名稱確定該分組對應的應用的名稱,其中具體過程與上述根據(jù)候選名稱確定一個應用的名稱相同,名稱篩選模塊250可以對每個候選名稱,都獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語,而后計算每個詞語在常見語料庫中的詞頻統(tǒng)計值,并相加得到該候選名稱的詞頻統(tǒng)計值之和。最后名稱篩選模塊250可以選取其中詞頻統(tǒng)計值之和最大的候選名稱作為該分組對應的應用的名稱。這樣,實現(xiàn)了對同一IP地址、端口號和域名下運行的多個應用的實時有效識別。

圖3示出了根據(jù)本發(fā)明一個示例性實施例的應用識別方法300的流程圖。應用識別方法300可以用于對在客戶端和應用服務器之間傳輸?shù)木W(wǎng)絡數(shù)據(jù)對應的應用進行識別。該方法300始于步驟S310,在步驟S310中,獲取上述傳輸?shù)木W(wǎng)絡數(shù)據(jù)。而后在步驟S320中,通過對上述網(wǎng)絡數(shù)據(jù)進行協(xié)議識別,確定網(wǎng)絡數(shù)據(jù)所采用的網(wǎng)絡協(xié)議。

而后在步驟S330中,對于識別為采用第一網(wǎng)絡協(xié)議的網(wǎng)絡數(shù)據(jù),獲取該網(wǎng)絡數(shù)據(jù)的IP地址、端口號和域名。

而后在步驟S340中,從該網(wǎng)絡數(shù)據(jù)中抽取采用第一網(wǎng)絡協(xié)議的一IP地址、端口號和域名的請求、以及對該請求的響應的數(shù)據(jù)內容。具體地,可以剝離網(wǎng)絡數(shù)據(jù)中的以太網(wǎng)首部,繼續(xù)剝離網(wǎng)絡數(shù)據(jù)中的IP首部,以及再繼續(xù)剝離網(wǎng)絡數(shù)據(jù)中的TCP首部或者UDP首部得到上述數(shù)據(jù)內容。其中,在剝離網(wǎng)絡數(shù)據(jù)中的以太網(wǎng)首部的步驟之后,還可以判斷網(wǎng)絡數(shù)據(jù)是否存在虛擬局域網(wǎng)(VLAN)字段,若存在,則也剝離該虛擬局域網(wǎng)(VLAN)首部。

獲取數(shù)據(jù)內容后,在步驟S350中,根據(jù)抽取的數(shù)據(jù)內容生成其對應的應用的原始頁面,通常對應一個應用,生成一個原始頁面。具體地,可以將抽取的數(shù)據(jù)內容按照其序號進行重組,根據(jù)重組后的數(shù)據(jù)內容生成原始頁面。這里的第一網(wǎng)絡協(xié)議可以為HTTP協(xié)議,對應生成的原始頁面為HTML格式。

而后在步驟S360中,根據(jù)原始頁面獲取應用的至少一個候選名稱。具體地,可以獲取原始頁面中具有特定標記的字段處的字符串,作為應用的候選名稱。其中,特定標記包括title標記、meta標記和copyright標記中的至少一個。進一步地,還可以對原始頁面內容按照基于字典的匹配算法進行匹配,該字典包括應用名稱可能包含的關鍵詞。若匹配成功,則獲取匹配的字段處的字符串,作為應用的候選名稱。其中,關鍵詞包括“設備”、“網(wǎng)”、“網(wǎng)站”和“平臺”中的至少一個。

最后在步驟S370中,根據(jù)獲取的至少一個候選名稱確定應用的名稱。具體地,可以對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語,再計算每個詞語在常見語料庫中的詞頻統(tǒng)計值(TF-IDF值),相加得到該候選名稱的詞頻統(tǒng)計值之和。最后選取其中詞頻統(tǒng)計值之和最大的候選名稱作為應用的名稱。

根據(jù)本發(fā)明的一個實施例,方法300還可以包括步驟:若步驟S50中根據(jù)抽取的數(shù)據(jù)內容生成多個原始頁面,則可以利用分詞算法分析每個原始頁面的內容,并基于該分析構建樣本集合,該樣本集合可以包括每個原始頁面中的預定數(shù)目個詞語,而后通過聚類算法對該樣本集合進行聚類分組,其中每個分組都對應一個應用。

在通過聚類算法對樣本集合進行聚類分組的步驟之后,可以對每個分組,都根據(jù)該分組中的詞語所屬的至少一個原始頁面獲取該分組對應的應用的至少一個候選名稱,其中對每個原始頁面,可以獲取該原始頁面中具有特定標記的字段處的字符串,作為應用的候選名稱,還可以對該原始頁面內容按照基于字典的匹配算法進行匹配,該字典包括應用名稱可能包含的關鍵詞,若匹配成功,則獲取匹配的字段處的字符串,作為應用的候選名稱。

而后,可以根據(jù)獲取的至少一個候選名稱確定該分組對應的應用的名稱,其中對每個候選名稱,可以獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語,計算每個詞語在常見語料庫中的詞頻統(tǒng)計值(TF-IDF值),并相加得到該候選名稱的詞頻統(tǒng)計值之和。最后選取其中詞頻統(tǒng)計值之和最大的候選名稱作為該分組對應的應用的名稱。

以上在結合圖1~圖2對應用識別設備200進行的具體描述中已經(jīng)對方法中各步驟的相應處理進行了詳細說明,這里不再對重復內容進行贅述。

在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下被實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。

類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權利要求中所明確記載的特征更多特征。更確切地說,如下面的權利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權利要求書由此明確地并入該具體實施方式,其中每個權利要求本身都作為本發(fā)明的單獨實施例。

本領域那些技術人員應當理解在本文所公開的示例中的設備的模塊或單元或

組件可以布置在如該實施例中所描述的設備中,或者可替換地可以定位在與該示例中的設備不同的一個或多個設備中。前述示例中的模塊可以組合為一個模塊或者此外可以分成多個子模塊。

本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。

此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。

本發(fā)明還可以包括:A6、如A1-5中任一項所述的方法,其中,根據(jù)所述原始頁面獲取所述應用的至少一個候選名稱的步驟包括:獲取所述原始頁面中具有特定標記的字段處的字符串,作為所述應用的候選名稱。A7、如A6所述的方法,其中,所述特定標記包括title標記、meta標記和copyright標記中的至少一個。A8、如A1-7中任一項所述的方法,其中,根據(jù)所述原始頁面獲取所述應用的至少一個候選名稱的步驟還包括:對原始頁面內容按照基于字典的匹配算法進行匹配,所述字典包括應用名稱可能包含的關鍵詞;若匹配成功,則獲取匹配的字段處的字符串,作為所述應用的候選名稱。A9、如A8所述的方法,其中,所述關鍵詞包括“設備”、“網(wǎng)”、“網(wǎng)站”和“平臺”中的至少一個。A10、如A1-9中任一項所述的方法,其中,所述根據(jù)至少一個候選名稱確定應用的名稱的步驟包括:對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語;計算每個詞語在常見語料庫中的詞頻統(tǒng)計值,并相加得到該候選名稱的詞頻統(tǒng)計值之和;選取其中詞頻統(tǒng)計值之和最大的候選名稱作為所述應用的名稱。A11、如A1-10中任一項所述的方法,其中,所述方法還包括步驟:若根據(jù)抽取的數(shù)據(jù)內容生成多個原始頁面,則利用分詞算法分析每個原始頁面的內容,基于所述分析構建樣本集合,所述樣本集合包括每個原始頁面中的預定數(shù)目個詞語;通過聚類算法對所述樣本集合進行聚類分組,其中每個分組對應一個應用。A12、如A11所述的方法,其中,所述方法還包括步驟:在通過聚類算法對所述樣本集合進行聚類分組的步驟之后,對每個分組,根據(jù)該分組中的詞語所屬的至少一個原始頁面獲取所述分組對應的應用的至少一個候選名稱,包括:對每個原始頁面,獲取該原始頁面中具有特定標記的字段處的字符串,作為所述應用的候選名稱;和/或對該原始頁面內容按照基于字典的匹配算法進行匹配,所述字典包括應用名稱可能包含的關鍵詞,若匹配成功,則獲取匹配的字段處的字符串,作為所述應用的候選名稱;根據(jù)所述至少一個候選名稱確定所述應用的名稱,包括:對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語;計算每個詞語在常見語料庫中的詞頻統(tǒng)計值,并相加得到該候選名稱的詞頻統(tǒng)計值之和;選取其中詞頻統(tǒng)計值之和最大的候選名稱作為所述應用的名稱。

B18、如B13-17中任一項所述的設備,其中,所述名稱篩選模塊適于獲取所述原始頁面內容中具有特定標記的字段處的字符串,作為所述應用的候選名稱。B19、如B18所述的設備,其中,所述特定標記包括title標記、meta標記和copyright標記中的至少一個。B20、如B13-19中任一項所述的設備,其中,所述名稱篩選模塊適于對原始頁面的內容按照基于字典的匹配算法進行匹配,所述字典包括應用的名稱可能包含的關鍵詞;若匹配成功,則獲取匹配的字段處的字符串,作為所述應用的候選名稱。B21、如B20所述的設備,其中,所述關鍵詞包括“設備”、“網(wǎng)”、“網(wǎng)站”和“平臺”中的至少一個。B22、如B13-21中任一項所述的設備,其中,所述名稱篩選模塊還適于對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語;計算每個詞語在常見語料庫中的詞頻統(tǒng)計值,并相加得到該候選名稱的詞頻統(tǒng)計值之和;選取其中詞頻統(tǒng)計值之和最大的候選名稱作為所述應用的名稱。B23、如B13-22中任一項所述的設備,其中,所述設備還包括應用分組模塊,所述應用分組模塊適于若所述數(shù)據(jù)重組模塊根據(jù)抽取的數(shù)據(jù)內容生成多個原始頁面,則利用分詞算法分析每個原始頁面的內容,基于所述分析構建樣本集合,所述樣本集合包括每個原始頁面中的預定數(shù)目個詞語;通過聚類算法對所述樣本集合進行聚類分組,其中每個分組對應一個應用。B24、如B23所述的設備,其中,所述應用分組模塊還適于在通過聚類算法對所述樣本集合進行聚類分組之后,經(jīng)由所述名稱篩選模塊對每個分組,根據(jù)該分組中的詞語所屬的至少一個原始頁面獲取所述分組對應的應用的至少一個候選名稱,其中:對每個原始頁面,獲取該原始頁面中具有特定標記的字段處的字符串,作為所述應用的候選名稱;和/或對該原始頁面內容按照基于字典的匹配算法進行匹配,所述字典包括應用名稱可能包含的關鍵詞,若匹配成功,則獲取匹配的字段處的字符串,作為所述應用的候選名稱;根據(jù)所述至少一個候選名稱確定所述應用的名稱,其中:對每個候選名稱,獲取將該候選名稱經(jīng)過分詞后得到的至少一個詞語;計算每個詞語在常見語料庫中的詞頻統(tǒng)計值,并相加得到該候選名稱的詞頻統(tǒng)計值之和;選取其中詞頻統(tǒng)計值之和最大的候選名稱作為所述應用的名稱。

此外,所述實施例中的一些在此被描述成可以由計算機系統(tǒng)的處理器或者由執(zhí)行所述功能的其它裝置實施的方法或方法元素的組合。因此,具有用于實施所述方法或方法元素的必要指令的處理器形成用于實施該方法或方法元素的裝置。此外,裝置實施例的在此所述的元素是如下裝置的例子:該裝置用于實施由為了實施該發(fā)明的目的的元素所執(zhí)行的功能。

如在此所使用的那樣,除非另行規(guī)定,使用序數(shù)詞“第一”、“第二”、“第三”等等來描述普通對象僅僅表示涉及類似對象的不同實例,并且并不意圖暗示這樣被描述的對象必須具有時間上、空間上、排序方面或者以任意其它方式的給定順序。

盡管根據(jù)有限數(shù)量的實施例描述了本發(fā)明,但是受益于上面的描述,本技術領域內的技術人員明白,在由此描述的本發(fā)明的范圍內,可以設想其它實施例。此外,應當注意,本說明書中使用的語言主要是為了可讀性和教導的目的而選擇的,而不是為了解釋或者限定本發(fā)明的主題而選擇的。因此,在不

偏離所附權利要求書的范圍和精神的情況下,對于本技術領域的普通技術人員來說許多修改和變更都是顯而易見的。對于本發(fā)明的范圍,對本發(fā)明所做的公開是說明性的,而非限制性的,本發(fā)明的范圍由所附權利要求書限定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1