亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

問答類網(wǎng)站的回復的摘要提取方法及裝置與流程

文檔序號:12063780閱讀:255來源:國知局
問答類網(wǎng)站的回復的摘要提取方法及裝置與流程

本發(fā)明涉及計算機信息檢索及自然語言處理領(lǐng)域,尤其涉及一種用于問答類網(wǎng)站的回復的摘要提取方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的普及,人們越來越多地在互聯(lián)網(wǎng)上尋求幫助。熱心的答復用戶會針對問題用戶的問題進行回復。

在實現(xiàn)現(xiàn)有技術(shù)過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題:

由于答復用戶回復的隨機性,答復用戶給出的回復可能存在信息不全,甚至是答非所問。問題用戶本人,以及后續(xù)發(fā)現(xiàn)該問題的其他用戶在瀏覽答復用戶給出的解決方案時,需要花費大量時間,用戶體驗差。



技術(shù)實現(xiàn)要素:

本發(fā)明提供了一種問答類網(wǎng)站的回復的摘要提取方法,具體技術(shù)方案如下:

查找回復內(nèi)容對應的問題描述;

對所述問題描述進行分詞處理,生成關(guān)鍵詞;

根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;

查找回復內(nèi)容中包含關(guān)鍵詞的語句;

確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;

根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;

其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。

本發(fā)明還提供了問答類網(wǎng)站的回復的摘要提取裝置,包括:

查找模塊,用于查找回復內(nèi)容對應的問題描述;

分詞模塊,用于對所述問題描述進行分詞處理,生成關(guān)鍵詞;

計算模塊,用于根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;

篩選模塊,用于查找回復內(nèi)容中包含關(guān)鍵詞的語句;

統(tǒng)計模塊,用于確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;

生成模塊,用于根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;

其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。

由以上技術(shù)方案可以看出,本申請?zhí)峁┑膶嵤┓桨钢辽倬哂腥缦录夹g(shù)效果:

根據(jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。

【附圖說明】

圖1本申請揭示的一種問答類網(wǎng)站的回復的摘要提取方法的流程圖。

圖2本申請揭示的一種問答類網(wǎng)站的回復的摘要提取裝置的結(jié)構(gòu)示意圖。

【具體實施方式】

為了使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖和具體實施例對本申請進行詳細描述。

如圖1所示,本申請揭示一種問答類網(wǎng)站的回復的摘要提取方法,包括:

S100:查找回復內(nèi)容對應的問題描述。

遇到問題時進行提問時,問題用戶通常在問答類網(wǎng)站的某個頁面中對遇到的問題進行問題描述。例如:“中國動漫的發(fā)展如何?”

答復用戶在問題用戶的問題下面,給出自己的回復內(nèi)容。

這種問題描述與回復內(nèi)容通常是一對多的關(guān)系。

進一步的,在本申請?zhí)峁┑囊环N實施方式中,查找回復內(nèi)容對應的問題描述,具體包括:

根據(jù)回復內(nèi)容的識別碼,查找問題描述的識別碼。

問答類網(wǎng)站中的問題描述、回復內(nèi)容在服務器后臺體現(xiàn)為可編譯的代碼化網(wǎng)頁。每個問題描述有獨立的識別碼,同樣的,每個回復內(nèi)容也有獨立的識別碼。因此,可以通過回復內(nèi)容的識別碼,查找到問題描述的識別碼?;貜蛢?nèi)容的識別碼和問題描述的識別碼之間的對應關(guān)系,可以通過相同的頁碼來表征,當然,也可以通過其他的方式來表征。例如,問題描述的識別碼為ID:XXXX。回復內(nèi)容的識別碼為ID:XXXX_1、ID:XXXX_2……ID:XXXX_N??梢酝ㄟ^回復內(nèi)容的識別碼包含問題描述的識別碼的方式,建立問題描述與回復內(nèi)容之間一對多的映射關(guān)系。服務器通過問題描述與回復內(nèi)容之間一對多的映射關(guān)系,查找回復內(nèi)容對應的問題描述。

S200:對所述問題描述進行分詞處理,生成關(guān)鍵詞。

分詞處理,主要體現(xiàn)為將段落、語句劃分為若干個詞語的過程。

進一步的,在本申請?zhí)峁┑牧硪环N實施方式中,對所述問題描述進行分詞處理,生成關(guān)鍵詞,具體包括:

根據(jù)詞表將話題進行分詞劃分,生成關(guān)鍵詞。

這里的詞表,體現(xiàn)為若干字的固定搭配形成詞語的集合。通過查閱詞表,可以將問題描述進行分詞劃分,生成關(guān)鍵詞。詞表中字與字之間的固定搭配關(guān)系可以通過概率進行調(diào)整。當某些字之間搭配的概率高時,可以將固定搭配的字組成關(guān)鍵詞。仍以“中國動漫的發(fā)展如何?”為例,根據(jù)字與字之間搭配的統(tǒng)計,“中國”的“中”“國”兩個字搭配的概率高于“國動”的“國”“動”兩個字搭配的概率。因此,根據(jù)字與字之間搭配的統(tǒng)計,詞表中會形成“中國”“動漫”等關(guān)鍵詞。根據(jù)若干字的固定搭配形成的詞表,問題描述“中國動漫的發(fā)展如何?”被劃分為“中國”“動漫”“發(fā)展”等關(guān)鍵詞。

S300:根據(jù)標簽確定關(guān)鍵詞的權(quán)重值。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,根據(jù)標簽確定關(guān)鍵詞的權(quán)重值,具體包括:

根據(jù)標簽在標簽詞表中的層級,確定關(guān)鍵詞的權(quán)重值;

其中,標簽在標簽詞表中以層狀結(jié)構(gòu)組織。

仍以“中國動漫的發(fā)展如何?”為例,假設(shè),該問題在問答類網(wǎng)站中被貼有標簽“動漫”、標簽“中國動漫”、標簽“影視”。標簽“影視”為最高層級別的標簽,標簽“動漫”為標簽“影視”下屬的一層級別標簽。標簽“中國動漫”為標簽“動漫”下屬的二層級別標簽。標簽在標簽詞表中以層狀結(jié)構(gòu)組織。可以根據(jù)關(guān)鍵詞的出現(xiàn)頻率,確定關(guān)鍵詞“動漫”權(quán)重值為2;確定關(guān)鍵詞“中國”權(quán)重值為1;確定關(guān)鍵詞“發(fā)展”權(quán)重值為0。

S400:查找回復內(nèi)容中包含關(guān)鍵詞的語句。

可以在回復內(nèi)容中查找包含關(guān)鍵詞的語句。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:

將滿足第一預設(shè)條件的語句,直接設(shè)定為包含關(guān)鍵詞的語句。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第一預設(shè)條件的語句為以特殊字體顯示的語句。

答復用戶在回復內(nèi)容中為了提示問題用戶注意,通常,會以高亮顯示重點語句,或者以相對于普通文本較大號字體顯示重點語句,或者以斜體、加粗、下劃線顯示重點語句。這些以特殊字體顯示的語句可以作為包含關(guān)鍵詞的語句,以提高查找效率。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:

將滿足第二預設(shè)條件的語句,直接排除查找。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第二預設(shè)條件的語句為以括號、引號標示的語句。

答復用戶在回復內(nèi)容中為了提示問題用戶注意,通常會以括號、引號表示語句的出處、引用內(nèi)容。將這些語句排除,可以提高查找效率。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,查找回復內(nèi)容中包含關(guān)鍵詞的語句,還包括:

查找末尾以句號、嘆號標示的語句。

答復用戶在回復內(nèi)容中,以句號、嘆號標示的語句通常作為可以作為摘要,而以分號、省略號、冒號、問號等標示的語句通常不可以作為摘要,從而篩選末尾以句號、嘆號標示的語句可以提高查找效率。

S500:確定包含關(guān)鍵詞的語句中各語句的權(quán)重值。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,具體包括:

對語句中的關(guān)鍵詞的權(quán)重值求和,作為語句的權(quán)重值。

將各語句中的關(guān)鍵詞的權(quán)重值求和處理,可以作為語句的權(quán)重值。當然,本領(lǐng)域技術(shù)人員也可以采取其他的方式計算語句的權(quán)重值。

S600:根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,確定回復內(nèi)容的摘要,具體包括:

確定權(quán)重值最高的語句為回復內(nèi)容的摘要。

可以將權(quán)重值最高的語句作為回復內(nèi)容的摘要。

在本申請?zhí)峁┑膶嵤├?,根?jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。

以上分別介紹了問答類網(wǎng)站的回復的摘要提取方法,對應的,請參照圖2,下面介紹問答類網(wǎng)站的回復的摘要提取裝置,基于在方法中已經(jīng)作了詳細闡釋,下面簡單介紹問答類網(wǎng)站的回復的摘要提取裝置的構(gòu)成。

問答類網(wǎng)站的回復的摘要提取裝置,包括:

查找模塊10,用于查找回復內(nèi)容對應的問題描述;

分詞模塊20,用于對所述問題描述進行分詞處理,生成關(guān)鍵詞;

計算模塊30,用于根據(jù)標簽確定關(guān)鍵詞的權(quán)重值;

篩選模塊40,用于查找回復內(nèi)容中包含關(guān)鍵詞的語句;

統(tǒng)計模塊50,用于確定包含關(guān)鍵詞的語句中各語句的權(quán)重值;

生成模塊60,用于根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要;

其中,所述問題描述在問答類網(wǎng)站內(nèi)歸屬于以標簽進行標識的類別。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述查找模塊10具體用于:

根據(jù)回復內(nèi)容的識別碼,查找問題描述的識別碼。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述分詞模塊20具體用于:

根據(jù)詞表將所述問題描述進行分詞劃分,生成關(guān)鍵詞。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述計算模塊30具體用于:

根據(jù)標簽在標簽詞表中的層級,確定關(guān)鍵詞的權(quán)重值;

其中,標簽在標簽詞表中以層狀結(jié)構(gòu)組織。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述篩選模塊40還用于:

將滿足第一預設(shè)條件的語句,直接設(shè)定為包含關(guān)鍵詞的語句。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第一預設(shè)條件的語句為以特殊字體顯示的語句。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述篩選模塊40還用于:

將滿足第二預設(shè)條件的語句,直接排除查找。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述滿足第二預設(shè)條件的語句為以括號、引號標示的語句。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述統(tǒng)計模塊50具體用于:

對語句中的關(guān)鍵詞的權(quán)重值求和,作為語句的權(quán)重值。

進一步的,在本申請?zhí)峁┑牧硪环N實施例中,所述生成模塊60具體用于:

確定權(quán)重值最高的語句為回復內(nèi)容的摘要。

在本申請?zhí)峁┑膶嵤├?,根?jù)問題描述在問答類網(wǎng)站內(nèi)的歸屬標簽確定關(guān)鍵詞的權(quán)重值,并進一步的確定包含關(guān)鍵詞的語句中各語句的權(quán)重值,進而根據(jù)語句的權(quán)重值,確定回復內(nèi)容的摘要,從而提高了提取到的回復的摘要與問題的相關(guān)性,以便問題用戶快速瀏覽回復,用戶體驗好。

以上所述僅為本申請的較佳實施例而已,并不用以限制本申請,凡在本申請的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本申請保護的范圍之內(nèi)。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1