。例如,將第一候選摘要與第二候選摘要中相同的部分內(nèi)容,作為最終的摘要進(jìn)行輸出,或者合并第一候選摘要與第二候選摘要,其中相同的部分內(nèi)容,僅保留一份。
[0215]本實(shí)施例提供的技術(shù)方案,考慮到問題類型為步驟類型的查詢語句具有一定的特殊性,其所對應(yīng)的答案類數(shù)據(jù)較為明顯,容易被獲取到,故給出了一種較為簡單且有效地網(wǎng)頁摘要生成方法,只有在使用該方法失敗時(shí),才啟動根據(jù)分句的重要度從網(wǎng)頁中抽取數(shù)據(jù)作為摘要的操作,這樣在保證網(wǎng)頁摘要能夠很好的給用戶于提示作用的前提下,可以大大提高網(wǎng)頁摘要生成的速度。
[0216]實(shí)施例十
[0217]圖10是本發(fā)明實(shí)施例十提供的一種網(wǎng)頁摘要生成方法的流程示意圖。本實(shí)施例在上述實(shí)施例七的基礎(chǔ)上,增加了“識別目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置”的操作,并相應(yīng)的優(yōu)化“基于計(jì)算得到的重要度,從目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為目標(biāo)網(wǎng)頁的摘要”的操作。參見圖10,本實(shí)施例提供的網(wǎng)頁摘要生成方法具體包括如下操作:
[0218]操作1010、獲取本次搜索請求中包含的問題類型的查詢語句對應(yīng)的搜索結(jié)果中的多個網(wǎng)頁,并構(gòu)建詞表,其中所述詞表由所述多個網(wǎng)頁的文本內(nèi)容中頻次統(tǒng)計(jì)特征值滿足設(shè)定條件的分詞組成。
[0219]操作1020、將所獲取的多個網(wǎng)頁中的一個網(wǎng)頁作為目標(biāo)網(wǎng)頁,根據(jù)詞表計(jì)算目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度。
[0220]操作1030、根據(jù)設(shè)定規(guī)則,識別目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置。
[0221]示例性的,根據(jù)設(shè)定規(guī)則,識別目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置,包括:
[0222]遍歷目標(biāo)網(wǎng)頁的文本內(nèi)容,以查找其中是否包含滿足如下設(shè)定規(guī)則的分句:與查詢語句之間的重合度大于設(shè)定的重合度閾值;在目標(biāo)網(wǎng)頁的文本內(nèi)容中的位置位于設(shè)定位置(例如為文本內(nèi)容的中間位置)之前;句式為疑問句式;
[0223]如果查找成功,則查找到的分句的位置即為目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置。
[0224]操作1040、基于計(jì)算得到的重要度和對所述位置的識別結(jié)果,從目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為目標(biāo)網(wǎng)頁的摘要。
[0225]在本實(shí)施例的一種【具體實(shí)施方式】中,基于計(jì)算得到的重要度和對位置的識別結(jié)果,從所述目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為所述目標(biāo)網(wǎng)頁的摘要,包括:
[0226]將目標(biāo)網(wǎng)頁的文本內(nèi)容中,位于所述位置之后、長度大于設(shè)定的長度閾值、且重要度大于設(shè)定的重要度閾值的段落,作為目標(biāo)網(wǎng)頁的摘要的一部分,其中所述段落的重要度根據(jù)所述段落中的各個分句的重要度得到。
[0227]當(dāng)然,本領(lǐng)域的普通技術(shù)人員應(yīng)理解,本實(shí)施例提供的網(wǎng)頁摘要生成方法還可其他具體實(shí)現(xiàn)方式。例如,在遍歷目標(biāo)網(wǎng)頁的文本內(nèi)容,以查找其中是否包含滿足如下設(shè)定規(guī)則的分句之后:
[0228]如果查找成功,則將目標(biāo)網(wǎng)頁的文本內(nèi)容中,位于所述位置之后且長度大于設(shè)定的長度閾值的段落,作為目標(biāo)網(wǎng)頁的摘要的一部分;或者
[0229]如果查找失敗,則基于計(jì)算得到的重要度,從目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為目標(biāo)網(wǎng)頁的摘要。
[0230]本實(shí)施例提供的技術(shù)方案,同時(shí)根據(jù)答案提示分句的位置以及分句的重要度這兩個影響因素,來得到網(wǎng)頁摘要,這樣使得所生成的網(wǎng)頁摘要可以包含更多有有意義的重要信息,對用戶輸入的查詢語句起到更好的提示作用。
[0231]實(shí)施例^^一
[0232]圖11是本發(fā)明實(shí)施例十一提供的一種網(wǎng)頁摘要生成方法的流程示意圖。本實(shí)施例以上述實(shí)施例七至實(shí)施例十為基礎(chǔ),提供一種優(yōu)選實(shí)施例。參見圖11,本實(shí)施例提供的網(wǎng)頁摘要生成方法具體包括如下操作:
[0233]操作1110、獲取本次搜索請求中包含的問題類型的查詢語句對應(yīng)的搜索結(jié)果中的多個網(wǎng)頁。
[0234]操作1120、對獲取到的各個網(wǎng)頁進(jìn)行預(yù)處理。其中,預(yù)處理包括:文本內(nèi)容識別,對長句、分句和分詞的切分,詞性標(biāo)注,依存分析,分詞的TF-1DF值統(tǒng)計(jì)。具體的,基于N元語法模型,對文本內(nèi)容中的分句進(jìn)行切詞。
[0235]操作1130、構(gòu)建詞表,其中所述詞表由所獲取到的多個網(wǎng)頁的文本內(nèi)容中頻次統(tǒng)計(jì)特征值滿足設(shè)定條件的分詞組成。其中,頻次統(tǒng)計(jì)特征值為TF-1DF值。
[0236]操作1140、將所獲取的多個網(wǎng)頁中的一個網(wǎng)頁作為目標(biāo)網(wǎng)頁,根據(jù)詞表計(jì)算目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度。
[0237]具體的,根據(jù)詞表計(jì)算目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度,包括:
[0238]統(tǒng)計(jì)目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句中,所包含的詞表中的分詞,并根據(jù)統(tǒng)計(jì)結(jié)果,得到分句的第一重要度打分;
[0239]識別分句中所包含的預(yù)設(shè)的答案類關(guān)鍵詞,并根據(jù)識別結(jié)果,得到分句的第二重要度打分;
[0240]根據(jù)預(yù)處理結(jié)果中的分詞切分、詞性標(biāo)注及依存分析結(jié)果,確定分句與查詢語句之間的重合度,并根據(jù)確定結(jié)果,得到分句的第三重要度打分;
[0241]將第一重要度打分、第二重要度打分和第三重要度打分進(jìn)行加權(quán)求和,得到分句最終的重要度打分。
[0242]如果查詢語句所屬的問題類型為步驟類型,執(zhí)行操作1150:基于數(shù)字序列的摘要生成方法,生成目標(biāo)網(wǎng)頁的摘要,否則執(zhí)行操作1160。
[0243]具體的,操作1150,包括:遍歷目標(biāo)網(wǎng)頁的文本內(nèi)容中的各個分句,查找包含有預(yù)先創(chuàng)建的用于描述步驟序號的關(guān)鍵詞的目標(biāo)分句;判斷是否查找成功;如果是,則將目標(biāo)網(wǎng)頁的文本內(nèi)容中位于目標(biāo)分句之后的下一個分句,作為目標(biāo)網(wǎng)頁的摘要的一部分;否則,則表明未查找到任何包含有預(yù)先創(chuàng)建的用于描述步驟序號的關(guān)鍵詞的目標(biāo)分句,執(zhí)行操作
1160ο
[0244]操作1160、基于文本段落的摘要生成方法,生成目標(biāo)網(wǎng)頁的摘要。如果生成失敗,執(zhí)行操作1170。
[0245]具體的,操作1160包括:根據(jù)設(shè)定規(guī)則,識別目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置;基于計(jì)算得到的重要度和對所述位置的識別結(jié)果,從目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為目標(biāo)網(wǎng)頁的摘要。
[0246]操作1170、基于分句重要度的摘要生成方法,生成目標(biāo)網(wǎng)頁的摘要。
[0247]具體的,操作1170,包括:基于計(jì)算得到的重要度,從目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為目標(biāo)網(wǎng)頁的摘要。例如,根據(jù)目標(biāo)網(wǎng)頁的文本內(nèi)容中的長句所包含的各個分句的重要度,得到長句的重要度;如果所述長句的重要度的滿足設(shè)定的閾值條件,則將所述長句,作為目標(biāo)網(wǎng)頁的摘要的一部分。其中,長句的重要度為長句所包含的各個分句的重要度的平均值。
[0248]操作1180、輸出生成的目標(biāo)網(wǎng)頁的摘要。
[0249]實(shí)施例十二
[0250]圖12是本發(fā)明實(shí)施例十二提供的一種網(wǎng)頁摘要生成裝置的結(jié)構(gòu)示意圖。參見圖12,該網(wǎng)頁摘要生成裝置的具體結(jié)構(gòu)如下:
[0251]網(wǎng)頁獲取模塊121,用于獲取本次搜索請求中包含的問題類型的查詢語句對應(yīng)的搜索結(jié)果中的多個網(wǎng)頁,并構(gòu)建詞表,其中所述詞表由所述多個網(wǎng)頁的文本內(nèi)容中頻次統(tǒng)計(jì)特征值滿足設(shè)定條件的分詞組成;
[0252]分句重要度計(jì)算模塊122,用于將所述多個網(wǎng)頁中的一個網(wǎng)頁作為目標(biāo)網(wǎng)頁,根據(jù)所述詞表計(jì)算所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度;
[0253]網(wǎng)頁摘要生成模塊123,用于基于所述重要度,從所述目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為所述目標(biāo)網(wǎng)頁的摘要。
[0254]示例性的,所述分句重要度計(jì)算模塊122,包括:
[0255]分詞統(tǒng)計(jì)單元1221,用于統(tǒng)計(jì)所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句中,所包含的所述詞表中的分詞;
[0256]重要度計(jì)算單元1222,用于根據(jù)所述分詞統(tǒng)計(jì)單元1221得到的統(tǒng)計(jì)結(jié)果,計(jì)算所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度。
[0257]示例性的,所述分句重要度計(jì)算模塊122,還包括:
[0258]關(guān)鍵詞識別單元1223,用于識別所述分句中所包含的預(yù)設(shè)的答案類關(guān)鍵詞;和/或
[0259]重合度確定單元1224,用于確定所述分句與所述查詢語句之間的重合度;
[0260]所述重要度計(jì)算單元1222,包括:
[0261]計(jì)算子單元(未示出),用于根據(jù)所述分詞統(tǒng)計(jì)單元1221得到的統(tǒng)計(jì)結(jié)果,以及所述關(guān)鍵詞識別單元1223得到的識別結(jié)果和/或所述重合度確定單元1224得到的確定結(jié)果,計(jì)算所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度。
[0262]示例性的,所述計(jì)算子單元,具體用于:
[0263]根據(jù)統(tǒng)計(jì)結(jié)果,得到所述分句的第一重要度打分;
[0264]根據(jù)所述識別結(jié)果,得到所述分句的第二重要度打分;和/或根據(jù)所述確定結(jié)果,得到所述分句的第三重要度打分;
[0265]將所述第一重要度打分,以及所述第二重要度打分和/或第三重要度打分,進(jìn)行設(shè)定運(yùn)算,得到所述分句最終的重要度打分。
[0266]示例性的,所述網(wǎng)頁摘要生成模塊123,包括:
[0267]長句重要度得到單元1231,用于根據(jù)所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的長句所包含的各個分句的重要度,得到所述長句的重要度;
[0268]部分摘要生成單元1232,用于如果所述長句的重要度的滿足設(shè)定的閾值條件,則將所述長句作為所述目標(biāo)網(wǎng)頁的摘要的一部分。
[0269]示例性的,本實(shí)施例提供的網(wǎng)頁摘要生成裝置還包括:
[0270]分句查找模塊124,用于在所述分句重要度計(jì)算模塊122將所述多個網(wǎng)頁中的一個網(wǎng)頁作為目標(biāo)網(wǎng)頁之后,根據(jù)所述詞表計(jì)算所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度之前,如果所述查詢語句所屬的問題類型為步驟類型,則遍歷所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的各個分句,查找包含有預(yù)先創(chuàng)建的用于描述步驟序號的關(guān)鍵詞的目標(biāo)分句;
[0271]觸發(fā)模塊125,用于如果所述分句查找模塊124未查找到任何包含有預(yù)先創(chuàng)建的用于描述步驟序號的關(guān)鍵詞的目標(biāo)分句,則觸發(fā)所述分句重要度計(jì)算模塊122執(zhí)行根據(jù)所述詞表計(jì)算所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的分句的重要度的操作。
[0272]示例性的,本實(shí)施例提供的網(wǎng)頁摘要生成裝置還包括:
[0273]網(wǎng)頁摘要補(bǔ)充模塊126,用于如果所述分句查找模塊124查找到包含有預(yù)先創(chuàng)建的用于描述步驟序號的關(guān)鍵詞的目標(biāo)分句,則將所述目標(biāo)網(wǎng)頁的文本內(nèi)容中位于所述目標(biāo)分句之后的下一個分句,作為所述目標(biāo)網(wǎng)頁的摘要的一部分。
[0274]示例性的,本實(shí)施例提供的網(wǎng)頁摘要生成裝置還包括:
[0275]分句位置識別模塊127,用于根據(jù)設(shè)定規(guī)則,識別所述目標(biāo)網(wǎng)頁的文本內(nèi)容中的答案提示分句的位置;
[0276]所述網(wǎng)頁摘要生成模塊123,包括:
[0277]摘要抽取單元1233,用于基于所述分句重要度計(jì)算模塊122得到的重要度和所述分句位置識別模塊127對所述位置的識別結(jié)果,從所述目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為所述目標(biāo)網(wǎng)頁的摘要。
[0278]示例性的,所述摘要抽取單元1233,具體用于:
[0279]將所述目標(biāo)網(wǎng)頁的文本內(nèi)容中,位于所述位置之后、長度大于設(shè)定的長度閾值、且重要度大于設(shè)定的重要度閾值的段落,作為所述目標(biāo)網(wǎng)頁的摘要的一部分,其中所述段落的重要度根據(jù)所述段落中的各個分句的重要度得到。
[0280]在上述技術(shù)方案的基礎(chǔ)上,本實(shí)施例提供的網(wǎng)頁摘要生成裝置還包括:
[0281]突出顯示模塊128,用于在所述網(wǎng)頁摘要生成模塊123基于所述重要度,從所述目標(biāo)網(wǎng)頁的文本內(nèi)容中抽取數(shù)據(jù),作為所述目標(biāo)網(wǎng)頁的摘要之后,在展示所述目標(biāo)網(wǎng)頁的摘要的