網(wǎng)頁(yè)摘要抽取方法及其裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種網(wǎng)頁(yè)摘要抽取方法及其裝置,尤其涉及一種基于關(guān)鍵詞的網(wǎng)頁(yè)摘 要抽取方法及其裝置。
【背景技術(shù)】
[0002] 目前對(duì)于網(wǎng)頁(yè)摘要抽取方法有以下幾類:1.基于文本集的方法。該方法引入機(jī)器 學(xué)習(xí)的方法,從文本集和摘要中學(xué)習(xí)有關(guān)規(guī)則。主要分為兩個(gè)階段:訓(xùn)練階段和測(cè)試階段。 訓(xùn)練階段從訓(xùn)練文本集中抽取文本的重要特征,并通過學(xué)習(xí)算法生成規(guī)則;測(cè)試階段則將 訓(xùn)練階段學(xué)到的規(guī)則應(yīng)用于測(cè)試文本集,生成摘要。該方法的不足是需要利用訓(xùn)練生成的 規(guī)則才能生成摘要,過分依賴訓(xùn)練文本集,難以保證生成摘要的準(zhǔn)確性。2.基于領(lǐng)域本體 的方法:該方法主要通過本體對(duì)于應(yīng)用領(lǐng)域?qū)哟紊系恼Z(yǔ)義信息以及本體的內(nèi)部關(guān)系分析文 本,過濾不相關(guān)信息,使主題更加突出,摘要的抽取更加準(zhǔn)確,該方法的不足是由于中文領(lǐng) 域本體的缺乏,需要自己構(gòu)建領(lǐng)域本體,工作量大。
[0003] 因此,需要出現(xiàn)一種既能保證生成摘要的準(zhǔn)確性,又能減少工作量的網(wǎng)頁(yè)摘要抽 取方法的出現(xiàn)。
【發(fā)明內(nèi)容】
[0004] 針對(duì)上述問題,本發(fā)明提供一種能夠從網(wǎng)頁(yè)中正確提取摘要的方法及其裝置。
[0005] 本發(fā)明提供一種網(wǎng)頁(yè)摘要抽取方法,用于從通過輸入用戶選定的查詢?cè)~所得到 的與所述查詢?cè)~相關(guān)的網(wǎng)頁(yè)中抽取摘要,其特征在于,包括以下步驟:(1)查詢?cè)~預(yù)處理步 驟:利用分詞工具將查詢?cè)~分詞為若干個(gè)子查詢?cè)~,統(tǒng)計(jì)每個(gè)子查詢?cè)~出現(xiàn)的頻率以及每 個(gè)子查詢?cè)~在查詢?cè)~中的分布信息;(2)文本預(yù)處理步驟:將預(yù)處理后的網(wǎng)頁(yè)文本分成若 干個(gè)句子,利用分詞工具將每個(gè)句子進(jìn)行分詞并保存每個(gè)詞在網(wǎng)頁(yè)文本中的分布信息,并 統(tǒng)計(jì)句子個(gè)數(shù)和文本中詞的個(gè)數(shù);(3)詞頻及詞分布信息統(tǒng)計(jì)步驟:統(tǒng)計(jì)每個(gè)句子包含的 子查詢?cè)~的個(gè)數(shù)、包含的連續(xù)子查詢?cè)~的個(gè)數(shù)和包含的子查詢?cè)~的種類,并在句子對(duì)出現(xiàn) 的子查詢?cè)~進(jìn)行標(biāo)注以及標(biāo)明具體為那個(gè)子查詢?cè)~;(4)評(píng)分步驟:基于步驟(3)的統(tǒng)計(jì)數(shù) 據(jù),利用評(píng)分工具對(duì)每個(gè)句子進(jìn)行評(píng)分,計(jì)算每個(gè)句子的分?jǐn)?shù);(5)排序和生成摘要步驟: 按分?jǐn)?shù)從高到低對(duì)句子進(jìn)行排序,選取前K個(gè)句子來生成摘要,其中0 S K 5 3。
[0006] 本發(fā)明還提供一種網(wǎng)頁(yè)摘要抽取裝置,其特征在于,包括:查詢?cè)~預(yù)處理單元,利 用分詞工具將查詢?cè)~分詞為若干個(gè)子查詢?cè)~,統(tǒng)計(jì)每個(gè)子查詢?cè)~出現(xiàn)的頻率以及每個(gè)子查 詢?cè)~在查詢?cè)~中的分布信息;文本預(yù)處理單元,將文本分成若干個(gè)句子,利用分詞工具將每 個(gè)句子進(jìn)行分詞并保存每個(gè)詞在網(wǎng)頁(yè)文本中的分布信息,并統(tǒng)計(jì)句子個(gè)數(shù)和文本中詞的個(gè) 數(shù);詞頻及詞分布信息單元,統(tǒng)計(jì)若干個(gè)句子中出現(xiàn)至少一個(gè)所述子查詢?cè)~的句子數(shù),統(tǒng)計(jì) 某個(gè)所述子查詢?cè)~在每個(gè)句子中出現(xiàn)的頻率,以及統(tǒng)計(jì)每個(gè)句子中出現(xiàn)子查詢?cè)~的種類, 并在句子對(duì)出現(xiàn)的子查詢?cè)~進(jìn)行標(biāo)注以及標(biāo)明具體為那個(gè)子查詢?cè)~;評(píng)分單元,利用評(píng)分 工具對(duì)每個(gè)句子進(jìn)行評(píng)分,計(jì)算每個(gè)句子的分?jǐn)?shù);排序單元,按分?jǐn)?shù)從高到低對(duì)句子進(jìn)行排 序;以及組織摘要單元,選取前K個(gè)句子來生成摘要,其中O g K g 3。
[0007] 本發(fā)明能夠在響應(yīng)用戶查詢的時(shí)候,根據(jù)查詢?cè)~在文檔中出現(xiàn)的位置,提取出查 詢?cè)~周圍相關(guān)的文字并返回給用戶,由于一篇文檔會(huì)被不同的查詢?cè)~召回,因此,本發(fā)明會(huì) 根據(jù)不同的查詢?cè)~,對(duì)同一個(gè)文檔形成不同的摘要文字。同時(shí),對(duì)給定的文本中的關(guān)鍵字進(jìn) 行加粗、加紅等顯示方式,已凸顯它和普通文本的區(qū)別。從而使用戶能夠快速查找所需的相 關(guān)信息。
【附圖說明】
[0008] 圖1是本發(fā)明的網(wǎng)頁(yè)摘要抽取方法的示意圖。
[0009] 圖2是本發(fā)明的網(wǎng)頁(yè)摘要抽取裝置的示意圖。
【具體實(shí)施方式】
[0010] 本發(fā)明的宗旨是從網(wǎng)頁(yè)中準(zhǔn)確地提取摘要,主要解決以下問題:
[0011] 1.概述搜索出的網(wǎng)頁(yè)的大概內(nèi)容,使用戶快速確定網(wǎng)頁(yè)是否相關(guān),是否進(jìn)一步查 看。從而解決了用戶快速查找相關(guān)文檔的困擾。
[0012] 2.對(duì)于搜索系統(tǒng)來說,當(dāng)響應(yīng)用戶查詢的時(shí)候,根據(jù)查詢?cè)~在文檔中出現(xiàn)的位置, 提取出查詢?cè)~周圍相關(guān)的文字并返回給用戶。
[0013] 3.摘要提取的準(zhǔn)確率問題。本發(fā)明主要將詞頻、標(biāo)題、詞分布等要素作為評(píng)判句子 重要性的語(yǔ)句來抽取出重要的句子作為摘要。有效的提高了摘要提取的準(zhǔn)確率問題。
[0014] 為解決上述技術(shù)問題,本發(fā)明網(wǎng)頁(yè)摘要抽取方法采用了以下技術(shù):
[0015] (1)文本處理技術(shù)。本發(fā)明中主要兩個(gè)地方使用到該技術(shù),一個(gè)是查詢?cè)~或標(biāo)題預(yù) 處理單元,另一個(gè)是文本預(yù)處理單元。
[0016] (2)結(jié)果排序技術(shù)。本發(fā)明首先對(duì)給定的文檔進(jìn)行分句,分句主要依據(jù)于 〃。!?···.!?〃等符號(hào)的出現(xiàn)。然后對(duì)每一句進(jìn)行評(píng)分,評(píng)分主要依據(jù)下述三個(gè)因素:1) 句子中包含查詢?cè)~分詞后的子查詢?cè)~的個(gè)數(shù),包括重復(fù)出現(xiàn)的子查詢?cè)~;2)句子中包含連 續(xù)子查詢?cè)~的個(gè)數(shù);3)句子中包含的子查詢?cè)~的種類。最后根據(jù)評(píng)分來進(jìn)行排序,找出排 在前K的得分比較高的的句子。
[0017] 為使本領(lǐng)技術(shù)人員進(jìn)一步了解本發(fā)明的特征及技術(shù)內(nèi)容,下面結(jié)合附圖和實(shí)施 例,對(duì)本發(fā)明的技術(shù)方案進(jìn)行詳細(xì)描述。
[0018] -般,用戶根據(jù)欲獲取的信息選擇好檢索詞后,將該檢索詞輸入檢索框,搜索引擎 通常很短時(shí)間內(nèi)即可在海量網(wǎng)頁(yè)中找到關(guān)于該檢索詞的相關(guān)內(nèi)容,這些內(nèi)容將并不直接反 饋給用戶,因而用戶很難知道所檢索的網(wǎng)頁(yè)中那些是自己所需要的,如果每個(gè)網(wǎng)頁(yè)都進(jìn)行 瀏覽,將會(huì)浪費(fèi)大量時(shí)間。因而,如何快速且高效的將網(wǎng)頁(yè)中的內(nèi)容以摘要的形式呈現(xiàn)給用 戶,以便用戶及時(shí)了解網(wǎng)頁(yè)是否相關(guān)以作出判斷顯得至關(guān)重要。
[0019] 圖1是本發(fā)明的網(wǎng)頁(yè)摘要抽取方法的示意圖。如圖1所示,本發(fā)明的網(wǎng)頁(yè)摘要抽 取方法包括:
[0020] 步驟Sl :查詢?cè)~預(yù)處理步驟
[0021] 利用分詞工具將查詢?cè)~分詞為若干個(gè)子查詢?cè)~;
[0022] 具體地,可利用詞頻統(tǒng)計(jì)工具,如IKAnalyzer分詞器、ICTCLAS、Ansj、結(jié)巴分