專利名稱:一種網(wǎng)頁主題提取系統(tǒng)和方法
技術領域:
本發(fā)明涉及本發(fā)明涉及網(wǎng)絡通信技術,更具體地說,涉及一種網(wǎng)頁主題提取系統(tǒng)和方法。
背景技術:
所謂網(wǎng)頁主題,就是網(wǎng)頁正文所描述事件的摘要內(nèi)容或者關鍵詞列表,標示了該網(wǎng)頁的主題內(nèi)容和中心思想。現(xiàn)有的網(wǎng)頁主題提取方法主要有兩種。一種是是基于標題的網(wǎng)頁主題提取技術。其方法是采用Html(HyperText MarkupLanguage,超文件鏈接標記語言)文檔解析器,按照html協(xié)議分析html網(wǎng)頁,按照網(wǎng)頁源文件的tag標識建立html語法樹,以找出網(wǎng)頁的標題、正文等的內(nèi)容,然后將網(wǎng)頁中標題<title>標簽的值作為網(wǎng)頁的主題思想。該方法是早期比較常用的網(wǎng)頁主題提取方法。但是這種計算方法顯然過于簡單,實際應用中準確率、召回率均很低,并且不可避免的會出現(xiàn)正文部分信息丟失的情況。
另外一種是基于標題的網(wǎng)頁主題提取技術。隨著統(tǒng)計自然語言處理技術的發(fā)展,按照高詞頻關鍵詞來標示網(wǎng)頁主題的方法得到了廣泛的應用,具體做法是先將網(wǎng)頁源文件去tag標記,然后將文章內(nèi)容進行分詞統(tǒng)計詞頻,最后按詞頻對關鍵詞排序,給出前N個高詞頻作為文章主題。但是由于表義語言發(fā)展得很充分,一義多詞是普遍現(xiàn)象,再加上修辭法的運用使得詞匯稀疏現(xiàn)象客觀存在,特別是對于網(wǎng)頁類的短文章,該算法整體效果不是很理想。
發(fā)明內(nèi)容
本發(fā)明的目的在于針對現(xiàn)有技術的缺陷,提供一種網(wǎng)頁主題提取系統(tǒng)和方法,其基于義元集語義分析技術、充分利用網(wǎng)頁預分類信息、顯示屬性信息來增加單純語義分析技術的準確度。
本發(fā)明的技術方案是一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
進一步的,所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對切分后的詞匯進行詞性標注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對所述第二詞匯表中的詞匯進行處理。
具體的,所述義元處理模塊包括義元擴展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,表示為第一義元表;網(wǎng)頁主題義元計算模塊,其用于對所述第一義元表中的所有義元計算權(quán)重;義元復原關鍵詞模塊,其用于對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)還包括網(wǎng)頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
本發(fā)明還提供了一種網(wǎng)頁主題提取方法,包括以下步驟(a),所述文檔解析器從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;(b),所述分詞模塊將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
其中,步驟(a)中,提取網(wǎng)頁標題和網(wǎng)頁正文的方法是所述文檔解析器對所述網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的語法樹,然后從語法樹上獲得網(wǎng)頁標題、網(wǎng)頁正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
進一步的,步驟(b)中,所述分詞模塊還對切分后的詞匯進行詞性標注,得到第一詞匯表。步驟(b)之后進一步包括步驟(b1),所述分詞后處理模塊至少對所述第一詞匯表中的詞匯進行去停用詞、去虛詞,得到第二詞匯表。
具體的,步驟(c)包括步驟(c1),所述義元擴展模塊按照詞典與義元詞典的對應關系將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁主題義元計算模塊對所述第一義元表中的所有義元計算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復原關鍵詞模塊按照義元詞典對所述第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
本發(fā)明方法中,步驟(c)之后進一步包括步驟(d),所述網(wǎng)頁主題輸出接口將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
本發(fā)明的有益效果在于①采用基于義元集的語義分析技術,避免了詞匯稀疏的難題,對短文章的分析效果良好。②充分考慮了網(wǎng)頁的預分類、標題信息和顯示屬性,能夠準確地提取出網(wǎng)頁的主題。③采用帶權(quán)重的詞匯排序表表示網(wǎng)頁的主題,避免了信息的丟失。
圖1是本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)的結(jié)構(gòu)圖。
圖2是本發(fā)明一種網(wǎng)頁主題提取方法的流程圖。
具體實施例方式
下面根據(jù)附圖和具體實施例對本發(fā)明作進一步闡述。
如圖1所示,本發(fā)明一種網(wǎng)頁主題提取系統(tǒng)包括文檔解析器1、分詞模塊2、分詞后處理模塊3、義元處理模塊和網(wǎng)頁主題輸出接口7。義元處理模塊包括義元擴展模塊4、網(wǎng)頁主題義元計算模塊5和義元復原關鍵詞模塊6。網(wǎng)站或其它應用系統(tǒng)中與本發(fā)明系統(tǒng)相關的模塊可以包括網(wǎng)站網(wǎng)頁存儲中心8、網(wǎng)站導航樹生成系統(tǒng)9、網(wǎng)頁類別計算模塊10和網(wǎng)頁主題應用模塊11。本發(fā)明中文檔解析器1采用Html(HyperText Markup Language,超文件鏈接標記語言)文檔解析器。
其中,Html文檔解析器1能夠把html網(wǎng)頁按照Html協(xié)議解析成一棵語法樹,同時具有提取網(wǎng)頁標題、提取具有不同突出顯示屬性的網(wǎng)頁正文的能力。它與分詞模塊2相連,并與網(wǎng)站網(wǎng)頁存儲中心8(或其它可獲得相關網(wǎng)頁源文件的模塊)相連,以獲得網(wǎng)頁源文件。網(wǎng)頁源文件中的font tag標記指示了網(wǎng)頁的顯示屬性,一般來說顯示的突出程度(大字體、彩色)和內(nèi)容的重要程度成正比。本發(fā)明主要提取網(wǎng)頁正文中比較突出、容易得到用戶注意的正文(如大字體、彩色,及其后的正文),即具有突出顯示屬性的網(wǎng)頁正文。
分詞模塊2負責按照詞典將網(wǎng)頁的正文和標題、類別切分成詞匯。如將“我是一個學生”進行分詞,分為“我”、“是”、“一個”、“學生”四個詞?,F(xiàn)有的分詞算法可分為三大類基于字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法。本實施例中采用基于字符串匹配的分詞方法。該方法又叫做機械分詞方法,它是按照一定的策略將待分析的漢字串與一個“充分大的”機器詞典中的詞條進行匹配,若在詞典中找到某個字符串,則匹配成功(識別出一個詞)。
本發(fā)明中,分詞模塊2還具有對切分后的詞匯進行詞性標注的功能,以方便分詞后處理模塊3將詞匯中的停用詞和虛詞等去掉。它與文檔解析器1、詞典、分詞后處理模塊3相連,并與網(wǎng)頁類別計算模塊10(或其它可獲得相應網(wǎng)頁分類信息的模塊)相連,以獲得相應網(wǎng)頁的類別信息。
分詞后處理模塊3的功能包括但不限于對分詞模塊2的輸出去停用詞、去虛詞等功能,剔除對主題無關的信息。
義元擴展模塊4用于使用義元詞典完成詞匯到義元的正向轉(zhuǎn)換。它與分詞后處理模塊3、網(wǎng)頁主題義元計算模塊5和義元詞典相連。
本發(fā)明在網(wǎng)頁主題提取過程中并不是用詞匯作為計算單元的,而是使用義元詞典將詞匯轉(zhuǎn)換成義元表示,是一種基于義元集的語義分析技術。
所謂義元(semantic primitives)就是組義語言中最基本的元素。它可以解釋成一組意思的符號,它可以無需定義地被所有人理解,此外,所有的其它詞匯都能用它們來定義。自然語言處理所面臨的一個重大難題是詞匯稀疏,所以將關鍵詞轉(zhuǎn)換成義元詞表示能很大程度上避免詞匯稀疏現(xiàn)象,義元集是一個小規(guī)模詞匯或者義元序號集合,表征了自然界的所有概念,一個義元集元素唯一的、不重復的表示一個概念。
網(wǎng)頁主題義元計算模塊5用于利用統(tǒng)計語言學原理對網(wǎng)頁義元進行計算,計算的結(jié)果是對不同的義元賦予了不同的權(quán)重。計算的過程中對于網(wǎng)頁的分類信息、標題信息和不同顯示屬性的正文信息分別給予不同的統(tǒng)計權(quán)值。
義元復原關鍵詞模塊6用于按照義元詞典和網(wǎng)頁正文對義元進行反向還原,得到一組帶權(quán)重的主題詞匯集合。這些主題詞匯集合表征了網(wǎng)頁的主題。它與網(wǎng)頁主題義元計算模塊5、網(wǎng)頁主題輸出接口7和義元詞典相連。
網(wǎng)頁主題輸出接口7用于將上述帶權(quán)重的主題詞匯集合轉(zhuǎn)換為標準化的、帶不同權(quán)重的詞匯列表,以適合應用層的調(diào)用。故,其與網(wǎng)頁主題應用模塊11相連。
本實施例中,網(wǎng)站網(wǎng)頁存儲中心8與網(wǎng)站導航樹生成系統(tǒng)9、網(wǎng)頁類別計算模塊10相連,網(wǎng)站導航樹生成系統(tǒng)9與網(wǎng)頁類別計算模塊10相連。網(wǎng)站網(wǎng)頁存儲中心8內(nèi)存儲著網(wǎng)站中所有網(wǎng)頁的源文件。網(wǎng)站導航樹生成系統(tǒng)9用于生成網(wǎng)站導航樹。網(wǎng)頁類別計算模塊10用于根據(jù)網(wǎng)站導航樹生成系統(tǒng)9生成的網(wǎng)站導航樹對網(wǎng)頁源文件進行分析,以生成網(wǎng)頁分類信息。網(wǎng)頁主題應用模塊11用于從所述網(wǎng)頁主題輸出接口調(diào)用對應網(wǎng)頁的主題信息,然后根據(jù)業(yè)務相關性進行計算,為用戶提供個性化的服務。例如,用戶正在瀏覽一個關于手機的網(wǎng)站,本發(fā)明系統(tǒng)對其正在瀏覽的網(wǎng)頁進行主題提取,得出其正在觀看諾基亞3310款手機的資料,則網(wǎng)頁主題應用模塊立刻在其業(yè)務庫中搜索與諾基亞3310相關的廣告信息或服務,并推送給用戶。
如圖2所示,本發(fā)明一種網(wǎng)頁主題提取方法包括步驟
S1,文檔解析器1從網(wǎng)站網(wǎng)頁存儲中心8獲取一個網(wǎng)頁的源文件,并從網(wǎng)頁類別計算模塊10上獲得將該網(wǎng)頁的分類信息。
多數(shù)網(wǎng)站導航條里面都指明了某個網(wǎng)頁的所屬類別信息,即網(wǎng)頁的分類信息。分類信息一般是從網(wǎng)站導航樹中獲得,網(wǎng)站導航樹可以是直接由網(wǎng)站中取得,也可以由網(wǎng)站目錄樹生成。
S2,文檔解析器1對網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的html語法樹。
S3,文檔解析器1從網(wǎng)頁語法樹上面取得網(wǎng)頁的標題信息以及正文中具有不同突出顯示屬性的正文內(nèi)容,并按照正文中的突出顯示順序記為body1body2 body3...bodyN。
S4,分詞模塊2對網(wǎng)頁的類別、標題和正文body1 body2 body3...bodyN進行分詞,并對上述切分后的詞匯進行詞性標注,形成第一詞匯表。
S5,分詞后處理模塊3將第一詞匯表中的停用詞、虛詞等剔除,形成第二詞匯表。
S6,義元擴展模塊4按照詞典和義元詞典的對應關系將第二詞匯表中的詞匯用義元表示為第一義元表。
S7,網(wǎng)頁主題義元計算模塊5按照量空間模型的Tf-Idf(特征項賦權(quán)因子)等算法給第一義元表里的所有義元計算權(quán)重,得到帶權(quán)重的第二義元表。
本實施例中,采用Tf-Idf算法對第一義元表中的義元計算權(quán)重。當然也可以采用交叉熵等算法對第一義元表中的義元計算權(quán)重。Tf-Idf算法采用倒排索引技術,其主要應用在全文檢索。該算法可以保證為中等頻率的義元賦以高的權(quán)重,并排除噪聲詞匯。在計算時候,根據(jù)先前的分類信息、標題信息、突出顯示信息(font)對關鍵詞表賦予不同權(quán)值擴展分類信息詞表為classwords,每個詞權(quán)重為m;標題擴展詞匯為titlewords,每個詞權(quán)重為n;font字體擴展詞匯為fontwords,每個詞權(quán)重隨字體突出程度遞增。
S8,義元復原關鍵詞模塊6按照義元詞典和網(wǎng)頁正文對第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、帶權(quán)重的主題詞匯集合。主題詞匯集合即為考慮了預分類信息,標題信息,網(wǎng)頁突出顯示信息的網(wǎng)頁主題詞表。
S9,網(wǎng)頁主題輸出接口7將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,等待網(wǎng)頁主題應用模塊11調(diào)用。其中,列表中的詞匯按照語義密度分別被賦予不同的權(quán)重以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的權(quán)利要求范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;其特征在于,還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于所述分詞模塊與義元處理模塊之間還串聯(lián)有分詞后處理模塊;所述分詞模塊還具有對切分后的詞匯進行詞性標注的功能;所述分詞后處理模塊用于根據(jù)第一詞匯表中詞匯的詞性,剔除其中的停用詞、虛詞,得到第二詞匯表;所述義元處理模塊用于對所述第二詞匯表中的詞匯進行處理。
3.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于,所述義元處理模塊包括義元擴展模塊,其用于使用義元詞典將所述第二詞匯表中的詞匯轉(zhuǎn)換成義元,組成第一義元表;網(wǎng)頁主題義元計算模塊,其用于對所述第一義元表中的所有義元計算權(quán)重;義元復原關鍵詞模塊,其用于對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。
4.根據(jù)權(quán)利要求1或2所述的一種網(wǎng)頁主題提取系統(tǒng),其特征在于還包括網(wǎng)頁主題輸出接口,其用于將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
5.一種網(wǎng)頁主題提取方法,其特征在于,包括以下步驟(a),所述文檔解析器從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;(b),所述分詞模塊將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;(c),所述義元處理模塊將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
6.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于,步驟(a)中,提取網(wǎng)頁標題和網(wǎng)頁正文的方法是所述文檔解析器對所述網(wǎng)頁的源文件進行解析,得到網(wǎng)頁的語法樹,然后從語法樹上獲得網(wǎng)頁標題、網(wǎng)頁正文中具有不同突出顯示屬性的正文內(nèi)容,并將所述正文內(nèi)容按照其突出顯示屬性順序記為body1 body2 body3到bodyN。
7.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于,進一步的步驟(b)中,所述分詞模塊還對切分后的詞匯進行詞性標注,得到第一詞匯表。
8.根據(jù)權(quán)利要求7所述的一種網(wǎng)頁主題提取方法,其特征在于步驟(b)之后進一步包括步驟(b1),所述分詞后處理模塊至少對所述第一詞匯表中的詞匯進行去停用詞、去虛詞,得到第二詞匯表。
9.根據(jù)權(quán)利要求8所述的一種網(wǎng)頁主題提取方法,其特征在于,具體的,步驟(c)包括步驟(c1),所述義元擴展模塊按照詞典與義元詞典的對應關系將所述W1中的詞匯轉(zhuǎn)換成義元,組成第一義元表;(c2),所述網(wǎng)頁主題義元計算模塊對所述第一義元表中的所有義元計算權(quán)重,得到具有不同權(quán)重的第二義元表;(c3),所述義元復原關鍵詞模塊按照義元詞典對所述第二義元表中的義元進行反向還原,得到表征了網(wǎng)頁主題的、具有不同權(quán)重的主題詞匯集合。
10.根據(jù)權(quán)利要求5所述的一種網(wǎng)頁主題提取方法,其特征在于步驟(c)之后進一步包括步驟(d),所述網(wǎng)頁主題輸出接口將所述主題詞匯集合處理為適合應用層調(diào)用的詞匯列表,所述詞匯按照語義密度分別被賦予不同的權(quán)重。
全文摘要
本發(fā)明提供了一種網(wǎng)頁主題提取系統(tǒng),包括文檔解析器,其用于從網(wǎng)頁源文件中提取網(wǎng)頁標題和具有不同突出顯示屬性的網(wǎng)頁正文;還包括分詞模塊,其用于將所述網(wǎng)頁正文、網(wǎng)頁標題和網(wǎng)頁類別信息進行分詞,得到第一詞匯表;義元處理模塊,其用于將所述第一詞匯表中的詞匯轉(zhuǎn)換為義元,對所述義元計算權(quán)重,最后再對計算權(quán)重后的義元進行反向還原,得到主題詞匯集合。本發(fā)明還提供了一種網(wǎng)頁主題提取方法。本發(fā)明的有益效果在于采用基于義元集的語義分析技術,避免了詞匯稀疏的難題,對短文章的分析效果良好。充分考慮了網(wǎng)頁的預分類、標題信息和顯示屬性,能夠準確地提取出網(wǎng)頁的主題。采用帶權(quán)重的詞匯排序表表示網(wǎng)頁的主題,避免了信息的丟失。
文檔編號G06F17/30GK101079031SQ20061003600
公開日2007年11月28日 申請日期2006年6月15日 優(yōu)先權(quán)日2006年6月15日
發(fā)明者丁江偉 申請人:騰訊科技(深圳)有限公司