本申請涉及計算機技術(shù)領(lǐng)域,尤其涉及一種問答知識庫的構(gòu)建方法和裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的蓬勃發(fā)展,用戶在生活或工作遇到各種各樣的問題時越來越傾向于在問答等社區(qū)或者是其他網(wǎng)頁中搜索答案。問答社區(qū)的基本形式通常為用戶根據(jù)自己的需求提出問題,并由其他的用戶來給出答案。這種形式為用戶在網(wǎng)絡上獲取答案信息提供了新的渠道。然而由于任何用戶都可以隨意地創(chuàng)建內(nèi)容,即創(chuàng)建問題和創(chuàng)建答案,導致了問答社區(qū)中的信息質(zhì)量差異非常大,因此需要對問答對的質(zhì)量進行評價,進而根據(jù)評價結(jié)果將質(zhì)量較好的問答對排名靠前,又或者是刪除質(zhì)量較差的問答對等。
目前,對問答對的質(zhì)量評價時,僅僅使用了相關(guān)詞覆蓋特征來描述問題和答案間的語義匹配度,這不但僅僅是停留在詞法層面上的,而且很多問題和答案間并不存在相關(guān)詞的覆蓋,從而導致問題和答案間的語義匹配度為0,然而問題和答案間的語義匹配度恰恰是問答對質(zhì)量的核心,例如問答社區(qū)中某一問題為“山東的省會是哪個城市”,相應的答案有以下兩個“濟南”,“山東的省會是北京”。現(xiàn)有技術(shù)利用相關(guān)詞覆蓋特征來評價問答對質(zhì)量時,根據(jù)問題和答案間的語義匹配度則會將“山東的省會是哪個城市”和“山東的省會是北京”認為是一個高質(zhì)量的問答對,而“山東的省會是哪個城市”和“濟南”,之間的語義匹配度為0,因此被認為是一個低質(zhì)量問答對,這明顯與實際不符,因此有必要預先構(gòu)建出問答知識庫,進而利用問答知識庫對常用的問答對進行評價。
技術(shù)實現(xiàn)要素:
為解決上述技術(shù)問題,本申請實施例提供一種問答知識庫的構(gòu)建方法和裝置,用于利用構(gòu)建完成的問答知識庫對問答對進行評價,進而提高對問答對評價的準確性。
本申請實施例采用下述技術(shù)方案:
一種問答知識庫的構(gòu)建方法,所述問答知識庫由多條問答記錄構(gòu)成,所述方法包括:
獲取問答對的內(nèi)容以及所述問答對所屬的類別;
提取問答對的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,得到問題詞語集合和答案詞語集合;
令問題詞語集合中的每個問題詞語和答案詞語集合中的每個答案詞語分形成一條信息記錄,并且對每一條信息記錄,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度;
將一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和所述問題詞語之間的語義相關(guān)度形成一條問答記錄。
優(yōu)選地,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度,具體包括:
計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進行解釋的強度;
將上述概率、專一程度和強度相乘,所得到的乘積為該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度。
優(yōu)選地,計算該答案詞語屬于該類別的概率,具體包括:
計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,具體包括:
計算在該類別上該問題詞語用該答案詞語進行解釋的強度,具體包括:
將概率、專一程度和強度相乘,具體包括:
weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)
其中:
P(Ck|AWj)為答案詞語AWj屬于類別Ck的概率;
specific(QWi,AWj|C=Ck)為在類別Ck上答案詞語AWj對問題詞語QWi的解釋的專一程度;
interpret(QWi,AWj|C=Ck)為在類別Ck上問題詞語QWi用答案詞語AWj進行解釋的強度;
P(CK)表示類別Ck出現(xiàn)的概率;P(AWj)表示答案為AWj的概率;P(AWj|Ck)表示Ck類別屬于AWj的概率;#(QWi,AWj)表示問題詞語為QWi且答案詞語為AWj的次數(shù);#(AWj)表示答案詞語為AWj的次數(shù)。
優(yōu)選地,所述問答對為高質(zhì)量問答對,其中問答對分為高質(zhì)量問答對和低質(zhì)量問答對。
優(yōu)選地,提取問答對的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,得到問題詞語集合和答案詞語集合,具體包括:
分別對問題內(nèi)容和答案內(nèi)容經(jīng)過分詞、去除停用詞、word join,提取實體詞,得到問題詞語集合和答案詞語集合如下:
(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>)
其中,QWi表示一個問題詞語;AWi表示一個答案詞語。
本申請實施例還提供一種問答知識庫的構(gòu)建裝置,所述問答知識庫由多條問答記錄構(gòu)成,所述裝置包括獲取模塊,提取模塊,計算模塊和問答記錄創(chuàng)建 模塊,其中:
所述獲取模塊,獲取問答對的內(nèi)容以及所述問答對所屬的類別;
所述提取模塊,用于提取問答對的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,得到問題詞語集合和答案詞語集合;
所述計算模塊,用于令問題詞語集合中的每個問題詞語和答案詞語集合中的每個答案詞語分形成一條信息記錄,并且對每一條信息記錄,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度;
所述問答記錄創(chuàng)建模塊,用于將一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和所述問題詞語之間的語義相關(guān)度形成一條問答記錄。
優(yōu)選地,所述計算模塊具體包括有計算單元,其中:
所述計算單元,用于計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進行解釋的強度;
將上述概率、專一程度和強度相乘,所得到的乘積為該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度。
優(yōu)選地,所述計算單元的處理過程包括:
計算該答案詞語屬于該類別的概率,具體包括:
計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,具體包括:
計算在該類別上該問題詞語用該答案詞語進行解釋的強度,具體包括:
將概率、專一程度和強度相乘,具體包括:
weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)
其中:
P(Ck|AWj)為答案詞語AWj屬于類別Ck的概率;
specific(QWi,AWj|C=Ck)為在類別Ck上答案詞語AWj對問題詞語QWi的解釋的專一程度;
interpret(QWi,AWj|C=Ck)為在類別Ck上問題詞語QWi用答案詞語AWj進行解釋的強度;
P(CK)表示類別Ck出現(xiàn)的概率;P(AWj)表示答案為AWj的概率;P(AWj|Ck)表示Ck類別屬于AWj的概率;#(QWi,AWj)表示問題詞語為QWi且答案詞語為AWj的次數(shù);#(AWj)表示答案詞語為AWj的次數(shù)。
優(yōu)選地,所述獲取模塊具體包括有選取單元,其中,所述選取單元,用于選取高質(zhì)量的問答對,其中問答對分為高質(zhì)量問答對和低質(zhì)量問答對。
優(yōu)選地,所述提取模塊,具體用于分別對問題內(nèi)容和答案內(nèi)容經(jīng)過分詞、去除停用詞、word join,提取實體詞,得到問題詞語集合和答案詞語集合如下:
(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>)
其中,QWi表示一個問題詞語;AWi表示一個答案詞語。
本申請實施例采用的上述至少一個技術(shù)方案能夠達到以下有益效果:獲取問答對的內(nèi)容以及所述問答對所屬的類別后得到問題詞語集合和答案詞語集合;令問題詞語集合中的每個問題詞語和答案詞語集合中的每個答案詞語分形成一條信息記錄,并且對每一條信息記錄,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度;將一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和所述問題詞語之間的語義相關(guān)度形成一條問答記錄,進而利用構(gòu)建完成的包括有多條問答記錄的問答知識庫對問答對進行評價,最終提高對問答對評價的準確性。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構(gòu)成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當限定。在附圖中:
圖1為本申請實施例提供的一種問答知識庫的構(gòu)建方法的實現(xiàn)流程示意圖;
圖2為本申請實施例提供的問答記錄細節(jié)示意圖;
圖3為本申請實施例提供的一種問答知識庫的構(gòu)建流程示意圖;
圖4為本申請實施例提供的一種問答知識庫的構(gòu)建裝置示意圖。
具體實施方式
為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及相應的附圖對本申請技術(shù)方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例?;诒旧暾堉械膶嵤├?,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
圖1為本申請實施例提供的一種問答知識庫的構(gòu)建方法的實現(xiàn)流程示意圖,包括以下幾個步驟:
步驟11:獲取問答對的內(nèi)容以及所述問答對所屬的類別。
問答對通常為網(wǎng)絡應用中,某些用戶根據(jù)自己需求提出問題內(nèi)容,由其他用戶來給出答案內(nèi)容,其中,一條問題內(nèi)容可能對應多條答案內(nèi)容,這里可以將一條問題內(nèi)容和一條答案內(nèi)容成為一個問答對。獲取問答對時,可以利用爬蟲從互聯(lián)網(wǎng)上抓取含有高質(zhì)量問答對的網(wǎng)頁,高質(zhì)量是相對于低質(zhì)量問答對而言,高質(zhì)量的問答對中的答案內(nèi)容能夠較好的回答了問答對的問題內(nèi)容。這些包含有高質(zhì)量問答對的網(wǎng)頁可以為cQA社區(qū)、各大專業(yè)論壇,對上述網(wǎng)頁進行解析得到大量的問答對內(nèi)容。
另外在獲取問答對的同時,還可以提取出該問答對所屬類別信息,這些類別可以為問答社區(qū)或者是網(wǎng)頁內(nèi)容對問答對整體的分類,例如將所有的問答對的類別分為游戲,醫(yī)療健康,運動,閱讀,商業(yè)等等。
步驟12:提取問答對的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,得到問題詞語集合和答案詞語集合。
提取問答對的問題內(nèi)容和答案內(nèi)容中的詞語,具體的可以分別對問題內(nèi)容和答案內(nèi)容經(jīng)過分詞、去除停用詞、word join、提取實體詞等步驟,得到問題詞語集合和答案詞語集合可以按如下所示的格式:
(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>),
其中QW為一個問題詞語,AW為一個答案詞語,右下角的標號則為問題詞語或答案詞語的編號。例如某一問答對的問題內(nèi)容是“山東的省會是哪個城市”,相應的答案內(nèi)容是:“山東的省會是濟南”,則經(jīng)過上述處理得到問題詞語集合和答案詞語集合可以為(<山東1,省會2,城市3>,<山東1,省會2,濟南3>)。
步驟13:令問題詞語集合中的每個問題詞語和答案詞語集合中的每個答案詞語分形成一條信息記錄,并且對每一條信息記錄,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度。
令問題詞語集合中的每個問題詞語和答案詞語集合中的每個答案詞語分形成一條信息記錄時,還以之前所舉的一個例子為例,對于問題詞語集合<山東1,省會2,城市3>中的每一個問題詞語和答案詞語集合<山東1,省會2,濟南3>中的每一個答案詞語,一共建立形成九條信息記錄,信息記錄的格式可以為(山東1,山東1)、(山東1,省會2)、(山東1,濟南3)、(省會2,山東1)等共九條信息記錄。
對每一條信息記錄,計算計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度,得到具體的語義相關(guān)度的數(shù)值。
步驟14:將一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞 語中的每個答案詞語和所述問題詞語之間的語義相關(guān)度形成一條問答記錄。
一般一個問答對經(jīng)過步驟11的處理中后會產(chǎn)生多個問題詞語和多個答案詞語,這里可以將多個問題詞語中的一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和所述一個問題詞語之間的語義相關(guān)度形成一條問答記錄,最終一個問答對經(jīng)過步驟13的處理之后將形成多條問答記錄。
需要說明的是,上述步驟11,步驟12和步驟13所僅僅是對一個問答對的處理過程,最終將大量高質(zhì)量的問答對均經(jīng)過上述幾個步驟處理之后即可構(gòu)建出問答知識庫。
經(jīng)過上述實施例對大量的問答對進行處理之后構(gòu)建出問答知識庫,進而利用構(gòu)建完成的包括有多條問答記錄的問答知識庫對待評價的問答對進行評價,最終提高對問答對評價的準確性。
步驟13中計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度具體可以包括:計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進行解釋的強度;將上述概率、專一程度和強度相乘,所得到的乘積為該答案詞語和該問題詞語在所述問答對的類別下的語義相關(guān)度。
其中:計算該答案詞語屬于該類別的概率,具體可以為:
計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,具體可以為:
計算在該類別上該問題詞語用該答案詞語進行解釋的強度,具體可以為:
將概率、專一程度和強度相乘,具體可以為:
weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)
在上述幾個公式中P(Ck|AWj)為答案詞語AWj屬于類別Ck的概率;
specific(QWi,AWj|C=Ck)為在類別Ck上答案詞語AWj對問題詞語QWi的解釋的專一程度;
interpret(QWi,AWj|C=Ck)為在類別Ck上問題詞語QWi用答案詞語AWj進行解釋的強度;
P(CK)表示類別Ck出現(xiàn)的概率;P(AWj)表示答案為AWj的概率;P(AWj|Ck)表示Ck類別屬于AWj的概率;#(QWi,AWj)表示問題詞語為QWi且答案詞語為AWj的次數(shù);#(AWj)表示答案詞語為AWj的次數(shù)。
經(jīng)過步驟12處理得到問題詞語集合和答案詞語集合的存儲格式可以為:
(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>,cate1)則經(jīng)過上述計算之后,對于上述的每個問題詞語QWi(i=1,2,…,m),均計算AWj(j=1,…,n)和QWi的在類別cate1上的語義相關(guān)度。最終,對于每個QWi,得到的答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和QWi之間的語義相關(guān)度形成一條問答記錄,其對應的問答記錄細節(jié)如圖2所示。圖2中只是顯示出三個問答記錄。
需要說明的是,一個問答對經(jīng)過處理后可以包括多條問答記錄,這里的一個問答記錄包括一個問題詞語、多個答案詞語,以及每個答案詞語和所述問題詞語之間的語義相關(guān)度。還需要說明的是,上述語義相關(guān)度是問答記錄在一個類別之下的語義相關(guān)度,還可以計算答案詞語和問題詞語在不同的類別下的語義相關(guān)度,最終多個上述的問答記錄構(gòu)成問答知識庫,構(gòu)建問答知識庫的步驟,具體細節(jié)可以如圖3所示。
為了清楚地說明本申請實施例提供的技術(shù)方案,下面結(jié)合一個問答知識庫的局部細節(jié)進行說明,如表1所示,包括三條問答記錄,其中表1中答案詞語后面的數(shù)值為答案詞語與問題詞語在類別為醫(yī)療健康下的語義相關(guān)度。
表1問答記錄示例
利用上述問答知識庫對表2所示的問答對進行評價時,獲取待評價問答對 的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,從問答知識庫中選取答案詞語有[口服,咳喘,小兒感冒顆粒,檢查,止咳,治療,流感癥狀,感冒顆粒],計算[口服,咳喘,小兒感冒顆粒,檢查,止咳,治療,流感癥狀,感冒顆粒]與表1中問題詞語的語義相關(guān)度,最終利用語義相關(guān)度的相關(guān)取值對問答對的質(zhì)量進行評價。
經(jīng)過問答對語義相關(guān)度計算可以得出,該問答對的語義相關(guān)度達到了0.9(語義相關(guān)度取值范圍為0-1)。因此可以看出本申請可以很好的解決這類無相關(guān)詞覆蓋但語義相似度很高的問答對。而現(xiàn)有技術(shù)對表2所示的問答對進行評價時,僅僅根據(jù)問題和答案中沒有相關(guān)詞覆蓋,因此現(xiàn)有技術(shù)會認為該問答對沒有語義相關(guān)度,最終將其分為一個低質(zhì)量的問答對。因此用本申請?zhí)峁?gòu)建問答知識庫的方法,進而利用構(gòu)建完成的包括有多條問答記錄的問答知識庫對問答對進行評價,最終提高對問答對評價的準確性。
表2待評價的問答對
上述幾個實施例皆為本申請的方法實施例,相應地,本申請還提供了一種問答知識庫的構(gòu)建裝置實施例,所述問答知識庫由多條問答記錄構(gòu)成,具體見圖4,包括:獲取模塊21,提取模塊22,計算模塊23和問答記錄創(chuàng)建模塊24,其中:
所述獲取模塊21,可以用于獲取問答對的內(nèi)容以及所述問答對所屬的類別;
所述提取模塊22,可以用于提取問答對的問題內(nèi)容中的詞語和答案內(nèi)容中的詞語,得到問題詞語集合和答案詞語集合;
所述計算模塊23,可以用于令問題詞語集合中的每個問題詞語和答案詞語 集合中的每個答案詞語分形成一條信息記錄,并且對每一條信息記錄,計算該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度;
所述問答記錄創(chuàng)建模塊24,可以用于將一個問題詞語,答案詞語集合中的多個答案詞語和多個答案詞語中的每個答案詞語和所述問題詞語之間的語義相關(guān)度形成一條問答記錄。
上述計算模塊23具體包括有計算單元,其中:所述計算單元,用于計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進行解釋的強度;將上述概率、專一程度和強度相乘,所得到的乘積為該答案詞語和該問題詞語在所述問答對所屬類別下的語義相關(guān)度。
所述計算單元的處理過程包括:計算該答案詞語屬于該類別的概率,具體包括:
計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,具體包括:
計算在該類別上該問題詞語用該答案詞語進行解釋的強度,具體包括:
將概率、專一程度和強度相乘,具體包括:
weight(QWi,AWj|C=Ck)=P(Ck|AWj)*specific(QWi,AWj|C=Ck)*interpret(QWi,AWj|C=Ck)
其中:
P(Ck|AWj)為答案詞語AWj屬于類別Ck的概率;
specific(QWi,AWj|C=Ck)為在類別Ck上答案詞語AWj對問題詞語QWi的解釋的專一程度;
interpret(QWi,AWj|C=Ck)為在類別Ck上問題詞語QWi用答案詞語AWj進行解 釋的強度;
P(CK)表示類別Ck出現(xiàn)的概率;P(AWj)表示答案為AWj的概率;P(AWj|Ck)表示Ck類別屬于AWj的概率;#(QWi,AWj)表示問題詞語為QWi且答案詞語為AWj的次數(shù);#(AWj)表示答案詞語為AWj的次數(shù)。
上述獲取模塊21可以具體包括有選取單元,其中,所述選取單元,用于選取高質(zhì)量的問答對,其中問答對分為高質(zhì)量問答對和低質(zhì)量問答對。
上述提取模塊22,可以具體用于分別對問題內(nèi)容和答案內(nèi)容經(jīng)過分詞、去除停用詞、word join,提取實體詞,得到問題詞語集合和答案詞語集合如下:
(<QW1,QW2,…,QWi,…,QWm>,<AW1,AW2,…,AWi,…,AWn>)
其中,QWi表示一個問題詞語;AWi表示一個答案詞語。
以上僅為本申請的實施例而已,并不用于限制本申請。對于本領(lǐng)域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本申請的權(quán)利要求范圍之內(nèi)。