一種摘要搜索方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001 ]本發(fā)明涉及數(shù)據(jù)搜索技術(shù)領(lǐng)域,具體涉及一種摘要搜索方法和裝置。
【背景技術(shù)】
[0002]垂直搜索技術(shù)是應(yīng)用某一個行業(yè)、專業(yè)的搜索,是搜索的延伸和應(yīng)用細分化。垂直搜索技術(shù)為用戶提供的并不是上百甚至上千萬相關(guān)網(wǎng)頁,而是范圍極為縮小、極具針對性的具體信息。因此,特定行業(yè)的用戶更加青睞垂直搜索。
[0003]垂直搜索技術(shù)主要涉及垂直搜索摘要方案,現(xiàn)有垂直搜索摘要方案為:獲取用戶的檢索詞,對該檢索詞進行分詞處理,并根據(jù)檢索詞與分詞結(jié)果在文檔內(nèi)按句子進行匹配,然后,根據(jù)匹配結(jié)果對文檔內(nèi)的詞進行標紅,選取標紅覆蓋度最高的句子作為摘要,并輸出。
[0004]在對現(xiàn)有技術(shù)的研究和實踐過程中,本發(fā)明的發(fā)明人發(fā)現(xiàn),現(xiàn)有垂直搜索摘要方案輸出摘要的速度比較慢,以及輸出的摘要質(zhì)量差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種摘要搜索方法和裝置,可以解決現(xiàn)有垂直搜索摘要方案輸出摘要的速度比較慢,以及輸出的摘要質(zhì)量差的技術(shù)問題。
[0006]本發(fā)明實施例提供一種摘要搜索方法,包括:
[0007]對預(yù)設(shè)文檔進行句子劃分,以得到多個句子,并根據(jù)所述句子在所述預(yù)設(shè)文檔中的權(quán)重對所述句子進行靜態(tài)打分,以得到每個所述句子對應(yīng)的靜態(tài)得分;
[0008]生成所述預(yù)設(shè)文檔的靜態(tài)摘要,該靜態(tài)摘要包括所述多個句子以及每個句子對應(yīng)的靜態(tài)得分;
[0009]接收終端發(fā)送的搜索請求,所述搜索請求攜帶檢索詞;
[0010]根據(jù)所述檢索詞和所述靜態(tài)摘要輸出對應(yīng)的摘要。
[0011]相應(yīng)的,本發(fā)明實施例還提供一種摘要搜索裝置,包括:
[0012]句子處理模塊,用于對預(yù)設(shè)文檔進行句子劃分,以得到多個句子,并根據(jù)所述句子在所述預(yù)設(shè)文檔中的權(quán)重對所述句子進行靜態(tài)打分,以得到每個所述句子對應(yīng)的靜態(tài)得分;
[0013]摘要生成模塊,用于生成所述預(yù)設(shè)文檔的靜態(tài)摘要,該靜態(tài)摘要包括所述多個句子以及每個句子對應(yīng)的靜態(tài)得分;
[0014]接收模塊,用于接收終端發(fā)送的搜索請求,所述搜索請求攜帶檢索詞;
[0015]第一輸出模塊,用于根據(jù)所述檢索詞和所述靜態(tài)摘要輸出對應(yīng)的摘要。
[0016]本發(fā)明實施例采用對預(yù)設(shè)文檔進行句子劃分,以得到多個句子,并根據(jù)句子在所述預(yù)設(shè)文檔中的權(quán)重對句子進行靜態(tài)打分,以得到每個句子對應(yīng)的靜態(tài)得分,然后,根據(jù)生成該預(yù)設(shè)文檔的靜態(tài)摘要,該靜態(tài)摘要包括多個句子以及每個句子對應(yīng)的靜態(tài)得分,接收終端發(fā)送的搜索請求,該搜索請求攜帶檢索詞,根據(jù)該檢索詞和該靜態(tài)摘要輸出對應(yīng)的摘要;由于該方案在搜索之前對文檔進行句子劃分,以及根據(jù)句子在文檔內(nèi)的權(quán)重對句子進行打分,因此,提升了垂直搜索摘要進行檢索詞和句子匹配的速度,相對于現(xiàn)有技術(shù)而言,提高了輸出摘要的速度;并且,由于該方案預(yù)先對文檔中句子進行打分,給出了文檔中句子的重要性,在垂直檢索摘要時可以根據(jù)句子的重要性輸出摘要,相對于現(xiàn)有技術(shù)而言,還可以提高輸出的摘要的質(zhì)量。
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0018]圖1是本發(fā)明實施例一提供的一種摘要搜索方法的流程圖;
[0019]圖2是本發(fā)明實施例二提供的一種輸出摘要的流程圖;
[0020]圖3是本發(fā)明實施例二提供的一種窗口選擇的流程圖;
[0021]圖4為本發(fā)明實施例二提供的一種窗口標記的流程圖;
[0022]圖5a是本發(fā)明實施例三提供的一種摘要搜索裝置的結(jié)構(gòu)示意圖;
[0023]圖5b為本發(fā)明實施例三提供的一種句子處理模塊的結(jié)構(gòu)示意圖;
[0024]圖5c為本發(fā)明實施例三提供的另一種摘要搜索裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0025]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0026]本發(fā)明實施例提供一種摘要搜索方法和裝置。以下將分別進行詳細說明。
[0027]實施例一、
[0028]本實施例提供一種摘要搜索方法,該方法可以由摘要搜索裝置實施,該摘要搜索裝置具體可以集成在服務(wù)器或其他需要進行摘要搜索的設(shè)備中。
[0029]如圖1所示,該摘要搜索方法的具體流程可以如下:
[0030]101、對預(yù)設(shè)文檔進行句子劃分,以得到多個句子,并根據(jù)句子在該預(yù)設(shè)文檔中的權(quán)重對句子進行靜態(tài)打分,以得到每個句子對應(yīng)的靜態(tài)得分。
[0031]具體地,對預(yù)設(shè)文檔進行句子劃分的方式有多種,比如,可以按照文檔中標點來進行句子劃分,優(yōu)選地,在對進行句子劃分之后,還可以對句子長度小于第一預(yù)設(shè)長度的句子進行合并處理,對句子長度大于第二預(yù)設(shè)長度的句子進行切分,這樣可以保證輸出合適長度的摘要。
[0032]本實施例中,預(yù)設(shè)文檔可以包含網(wǎng)頁內(nèi)容,比如某個購物網(wǎng)頁內(nèi)容等,其可以包含文字內(nèi)容等。
[0033]具體地,步驟“根據(jù)句子在該預(yù)設(shè)文檔中的權(quán)重對句子進行靜態(tài)打分”可以包括:
[0034]根據(jù)句子在該預(yù)設(shè)文檔中的位置、句子命中預(yù)設(shè)句子模板的結(jié)果、句子包含的詞的質(zhì)量,計算句子在預(yù)設(shè)文檔中的權(quán)重;
[0035]根據(jù)句子在該預(yù)設(shè)文檔中的權(quán)重對句子進行靜態(tài)打分。
[0036]比如,句子在預(yù)設(shè)文檔中的位置可以包括句子所在段落的位置(首段、尾段、或者文檔中間位置等)、句子在段落中位置(段落的首部、尾部、或者段落中間位置等),在實際應(yīng)用中,對位于首段、段首等位置的句子有加權(quán)。
[0037]在實際應(yīng)用中,可以預(yù)置一些質(zhì)量或者重要性比較高的句子的模板,該句子命中預(yù)設(shè)句子模板的結(jié)果包括:命中預(yù)設(shè)句子模板或者沒有命中預(yù)設(shè)句子模板。其中,句子包含的詞的質(zhì)量可以根據(jù)詞的類型來確定,比如句子包含的詞為長詞、復(fù)合詞、堆砌的關(guān)鍵詞等,則確定該詞的質(zhì)量比較高。
[0038]優(yōu)選地,本實施例中句子在文檔中的權(quán)重越大靜態(tài)得分越高。
[0039]例如,某個句子在文檔的首段,該句子為預(yù)設(shè)疑問句,該句子由多個復(fù)合詞組成時,獲取句子在首段時對應(yīng)的第一權(quán)重,獲取句子為預(yù)設(shè)疑問句時對應(yīng)的第二權(quán)重,獲取該句子由多個復(fù)合詞組成時的第三權(quán)重,然后,根據(jù)第一權(quán)重、第二權(quán)重以及第三權(quán)重計算出該句子在文檔中的權(quán)重(比如計算權(quán)重平均值等),之后,可以根據(jù)該權(quán)重對該句子進行靜態(tài)打分,比如該權(quán)重為80 %時,給該句子打80分,其中,根據(jù)權(quán)重對句子進行打分的規(guī)則有多種,可以根據(jù)實際需求進行設(shè)定。
[0040]步驟101可以在離線數(shù)據(jù)處理階段執(zhí)行,該句子的靜態(tài)得分即為該句子的離線得分。
[0041]在實際應(yīng)用中,某些業(yè)務(wù)不需要提供垂直搜索的摘要,因此,不需要配置摘要字段,只有需要在業(yè)務(wù)提供垂直搜索的摘要時才需要配置摘要字段;業(yè)務(wù)可以根據(jù)自己的業(yè)務(wù)特性,在頁面上配置自己的摘要字段;由此,在本實施例中在對預(yù)設(shè)文檔進行句子劃分之前,還可以包括:判斷當(dāng)前業(yè)務(wù)是否配置有摘要字段,若是,執(zhí)行對業(yè)務(wù)對應(yīng)的預(yù)設(shè)文檔進行句子劃分和靜態(tài)打分的步驟,若否,則產(chǎn)生json格式的原始文檔數(shù)據(jù)。
[0042]102、生成該預(yù)設(shè)文檔的靜態(tài)摘要,該靜態(tài)摘要包括多個句子以及每個句子對應(yīng)的靜態(tài)得分。
[0043]具體地,在實際應(yīng)用中,該靜態(tài)摘要還可以包括句子的屬性信息,比如句子的類型、句子的長度、句子的編號等信息。
當(dāng)前第1頁
1 
2 
3 
4 
5