本發(fā)明涉及計算機信息檢索及自然語言處理領(lǐng)域,尤其涉及一種用于問答類網(wǎng)站的回復的摘要提取方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)的普及,人們越來越多地在互聯(lián)網(wǎng)上尋求幫助。熱心的答復用戶會針對問題用戶的問題進行回復。
在實現(xiàn)現(xiàn)有技術(shù)過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:
由于答復用戶回復的隨機性,答復用戶給出的回復可能存在信息不全,甚至是答非所問。問題用戶本人,以及后續(xù)發(fā)現(xiàn)該問題的其他用戶在瀏覽答復用戶給出的解決方案時,需要花費大量時間,用戶體驗差。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種問答類網(wǎng)站的回復的摘要提取方法,具體技術(shù)方案如下:
查找回復內(nèi)容對應的問題描述;
對所述問題描述進行分詞處理,生成關(guān)鍵詞;
根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;
查找回復內(nèi)容中包含關(guān)鍵詞的語句;
確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;
根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;
其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。
本發(fā)明還提供了問答類網(wǎng)站的回復的摘要提取裝置,包括:
查找模塊,用于查找回復內(nèi)容對應的問題描述;
分詞模塊,用于對所述問題描述進行分詞處理,生成關(guān)鍵詞;
計算模塊,用于根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;
篩選模塊,用于查找回復內(nèi)容中包含關(guān)鍵詞的語句;
統(tǒng)計模塊,用于確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;
生成模塊,用于根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;
其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。
由以上技術(shù)方案可以看出,本申請?zhí)峁┑膶嵤┓桨钢辽倬哂腥缦录夹g(shù)效果:
根據(jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。
【附圖說明】
圖1本申請揭示的一種問答類網(wǎng)站的回復的摘要提取方法的流程圖。
圖2本申請揭示的一種問答類網(wǎng)站的回復的摘要提取裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
為了使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本申請進行詳細描述。
如圖1所示,本申請揭示一種問答類網(wǎng)站的回復的摘要提取方法,包括:
S100:查找回復內(nèi)容對應的問題描述。
遇到問題時進行提問時,問題用戶通常在問答類網(wǎng)站的某個頁面中對遇到的問題進行問題描述。例如:“中國動漫的發(fā)展如何?”
答復用戶在問題用戶的問題下面,給出自己的回復內(nèi)容。
這種問題描述與回復內(nèi)容通常是一對多的關(guān)系。
進一步的,在本申請?zhí)峁┑囊环N實施方式中,查找回復內(nèi)容對應的問題描述,具體包括:
根據(jù)回復內(nèi)容的識別碼,查找問題描述的識別碼。
問答類網(wǎng)站中的問題描述、回復內(nèi)容在服務器后臺體現(xiàn)為可編譯的代碼化網(wǎng)頁。每個問題描述有獨立的識別碼,同樣的,每個回復內(nèi)容也有獨立的識別碼。因此,可以通過回復內(nèi)容的識別碼,查找到問題描述的識別碼?;貜蛢?nèi)容的識別碼和問題描述的識別碼之間的對應關(guān)系,可以通過相同的頁碼來表征,當然,也可以通過其他的方式來表征。例如,問題描述的識別碼為ID:XXXX。回復內(nèi)容的識別碼為ID:XXXX_1、ID:XXXX_2……ID:XXXX_N??梢酝ㄟ^回復內(nèi)容的識別碼包含問題描述的識別碼的方式,建立問題描述與回復內(nèi)容之間一對多的映射關(guān)系。服務器通過問題描述與回復內(nèi)容之間一對多的映射關(guān)系,查找回復內(nèi)容對應的問題描述。
S200:對所述問題描述進行分詞處理,生成關(guān)鍵詞。
分詞處理,主要體現(xiàn)為將段落、語句劃分為若干個詞語的過程。
進一步的,在本申請?zhí)峁┑牧硪环N實施方式中,對所述問題描述進行分詞處理,生成關(guān)鍵詞,具體包括:
根據(jù)詞表將話題進行分詞劃分,生成關(guān)鍵詞。
這里的詞表,體現(xiàn)為若干字的固定搭配形成詞語的集合。通過查閱詞表,可以將問題描述進行分詞劃分,生成關(guān)鍵詞。詞表中字與字之間的固定搭配關(guān)系可以通過概率進行調(diào)整。當某些字之間搭配的概率高時,可以將固定搭配的字組成關(guān)鍵詞。仍以“中國動漫的發(fā)展如何?”為例,根據(jù)字與字之間搭配的統(tǒng)計,“中國”的“中”“國”兩個字搭配的概率高于“國動”的“國”“動”兩個字搭配的概率。因此,根據(jù)字與字之間搭配的統(tǒng)計,詞表中會形成“中國”“動漫”等關(guān)鍵詞。根據(jù)若干字的固定搭配形成的詞表,問題描述“中國動漫的發(fā)展如何?”被劃分為“中國”“動漫”“發(fā)展”等關(guān)鍵詞。
S300:根據(jù)標簽確定關(guān)鍵詞的權(quán)重值。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,根據(jù)標簽確定關(guān)鍵詞的權(quán)重值,具體包括:
根據(jù)標簽在標簽詞表中的層級,確定關(guān)鍵詞的權(quán)重值;
其中,標簽在標簽詞表中以層狀結(jié)構(gòu)組織。
仍以“中國動漫的發(fā)展如何?”為例,假設(shè),該問題在問答類網(wǎng)站中被貼有標簽“動漫”、標簽“中國動漫”、標簽“影視”。標簽“影視”為最高層級別的標簽,標簽“動漫”為標簽“影視”下屬的一層級別標簽。標簽“中國動漫”為標簽“動漫”下屬的二層級別標簽。標簽在標簽詞表中以層狀結(jié)構(gòu)組織。可以根據(jù)關(guān)鍵詞的出現(xiàn)頻率,確定關(guān)鍵詞“動漫”權(quán)重值為2;確定關(guān)鍵詞“中國”權(quán)重值為1;確定關(guān)鍵詞“發(fā)展”權(quán)重值為0。
S400:查找回復內(nèi)容中包含關(guān)鍵詞的語句。
可以在回復內(nèi)容中查找包含關(guān)鍵詞的語句。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:
將滿足第一預設(shè)條件的語句,直接設(shè)定為包含關(guān)鍵詞的語句。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第一預設(shè)條件的語句為以特殊字體顯示的語句。
答復用戶在回復內(nèi)容中為了提示問題用戶注意,通常,會以高亮顯示重點語句,或者以相對于普通文本較大號字體顯示重點語句,或者以斜體、加粗、下劃線顯示重點語句。這些以特殊字體顯示的語句可以作為包含關(guān)鍵詞的語句,以提高查找效率。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:
將滿足第二預設(shè)條件的語句,直接排除查找。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第二預設(shè)條件的語句為以括號、引號標示的語句。
答復用戶在回復內(nèi)容中為了提示問題用戶注意,通常會以括號、引號表示語句的出處、引用內(nèi)容。將這些語句排除,可以提高查找效率。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:
查找末尾以句號、嘆號標示的語句。
答復用戶在回復內(nèi)容中,以句號、嘆號標示的語句通常作為可以作為摘要,而以分號、省略號、冒號、問號等標示的語句通常不可以作為摘要,從而篩選末尾以句號、嘆號標示的語句可以提高查找效率。
S500:確定包含關(guān)鍵詞的語句中各語句的權(quán)重值。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,具體包括:
對語句中的關(guān)鍵詞的權(quán)重值求和,作為語句的權(quán)重值。
將各語句中的關(guān)鍵詞的權(quán)重值求和處理,可以作為語句的權(quán)重值。當然,本領(lǐng)域技術(shù)人員也可以采取其他的方式計算語句的權(quán)重值。
S600:根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,確定回復內(nèi)容的摘要,具體包括:
確定權(quán)重值最高的語句為回復內(nèi)容的摘要。
可以將權(quán)重值最高的語句作為回復內(nèi)容的摘要。
在本申請?zhí)峁┑膶嵤├?,根?jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。
以上分別介紹了問答類網(wǎng)站的回復的摘要提取方法,對應的,請參照圖2,下面介紹問答類網(wǎng)站的回復的摘要提取裝置,基于在方法中已經(jīng)作了詳細闡釋,下面簡單介紹問答類網(wǎng)站的回復的摘要提取裝置的構(gòu)成。
問答類網(wǎng)站的回復的摘要提取裝置,包括:
查找模塊10,用于查找回復內(nèi)容對應的問題描述;
分詞模塊20,用于對所述問題描述進行分詞處理,生成關(guān)鍵詞;
計算模塊30,用于根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;
篩選模塊40,用于查找回復內(nèi)容中包含關(guān)鍵詞的語句;
統(tǒng)計模塊50,用于確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;
生成模塊60,用于根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;
其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述查找模塊10具體用于:
根據(jù)回復內(nèi)容的識別碼,查找問題描述的識別碼。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述分詞模塊20具體用于:
根據(jù)詞表將所述問題描述進行分詞劃分,生成關(guān)鍵詞。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述計算模塊30具體用于:
根據(jù)標簽在標簽詞表中的層級,確定關(guān)鍵詞的權(quán)重值;
其中,標簽在標簽詞表中以層狀結(jié)構(gòu)組織。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述篩選模塊40還用于:
將滿足第一預設(shè)條件的語句,直接設(shè)定為包含關(guān)鍵詞的語句。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第一預設(shè)條件的語句為以特殊字體顯示的語句。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述篩選模塊40還用于:
將滿足第二預設(shè)條件的語句,直接排除查找。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第二預設(shè)條件的語句為以括號、引號標示的語句。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述統(tǒng)計模塊50具體用于:
對語句中的關(guān)鍵詞的權(quán)重值求和,作為語句的權(quán)重值。
進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述生成模塊60具體用于:
確定權(quán)重值最高的語句為回復內(nèi)容的摘要。
在本申請?zhí)峁┑膶嵤├?,根?jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。
以上所述僅為本申請的較佳實施例而已,并不用以限制本申請,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內(nèi)。