一種優(yōu)化問答對的搜索排名的裝置和方法
【專利摘要】本發(fā)明公開了一種優(yōu)化問答對的搜索排名的裝置和方法,用于優(yōu)化問答對搜索的搜索結(jié)果的排名,該方法包括如下步驟:接收使用者的搜索請求,根據(jù)使用者的搜索請求,獲取與搜索請求匹配的多個待分析問答對;根據(jù)包括多條問答知識記錄的問答知識庫,獲取每個待分析問答對的相關(guān)聯(lián)程度;根據(jù)所述待分析問答對的相關(guān)聯(lián)程度優(yōu)化所述待分析問答對的搜索排名。使用本發(fā)明的裝置和方法,可以評價作為搜索結(jié)果的待分析問答對的相關(guān)聯(lián)程度優(yōu)化搜索結(jié)果排名,排名效果更好。
【專利說明】一種優(yōu)化問答對的搜索排名的裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)通信領(lǐng)域,具體涉及一種優(yōu)化問答對的搜索排名的裝置和方法。
【背景技術(shù)】
[0002]問答社區(qū)是一種用戶產(chǎn)生內(nèi)容的網(wǎng)絡(luò)應(yīng)用,基本形式是由用戶根據(jù)自己的需求提出問題,并由其他的用戶來給出回答。這種形式為用戶在網(wǎng)絡(luò)上獲取信息提供了新的渠道。然而由于任何用戶都可以隨意地創(chuàng)建內(nèi)容,導(dǎo)致了問答社區(qū)中的信息質(zhì)量差異非常大,以至于問答社區(qū)中出現(xiàn)了大量的低質(zhì)量問答對。這不但降低了問答社區(qū)的質(zhì)量,更給用戶查找信息帶來了諸多不便,例如,使用現(xiàn)有的搜索技術(shù)進(jìn)行問答搜索時,獲取的搜索結(jié)果中存在部分低質(zhì)量的問答對而現(xiàn)有技術(shù)的對搜索結(jié)果進(jìn)行排序的方法,更多地依賴于問答對所屬的網(wǎng)站和問答對的非文本特征來對問答對進(jìn)行排序,會影響精確性和通用性。
【發(fā)明內(nèi)容】
[0003]鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種優(yōu)化問答對的搜索排名的裝置和相應(yīng)的優(yōu)化問答對的搜索排名的方法。
[0004]依據(jù)本發(fā)明的一個方面,提供了一種優(yōu)化問答對的搜索排名的裝置,該裝置包括:
[0005]問答知識庫,適于存儲多條問答知識記錄;
[0006]搜索單元,適于接收使用者的搜索請求,根據(jù)使用者的搜索請求,獲取與搜索請求匹配的多個待分析問答對;相關(guān)聯(lián)程度計算單元,適于根據(jù)問答知識庫獲取每個待分析問答對的相關(guān)聯(lián)程度;
[0007]搜索排名單元,適于根據(jù)所述待分析問答對的相關(guān)聯(lián)程度優(yōu)化所述待分析問答對的搜索排名。
[0008]可選地,所述相關(guān)聯(lián)程度計算單元包括:詞語提取子單元,適于對待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到至少一個待分析問題詞語和至少一個待分析答案詞語;計算子單元,適于根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算待分析的問答對的相關(guān)聯(lián)程度。
[0009]可選地,所述搜索排名單元,適于以所述待分析問答對的相關(guān)聯(lián)程度的次序作為所述待分析問答對的搜索排名;或,根據(jù)搜索排列技術(shù)初步排列所述待分析問答對所屬的網(wǎng)站,根據(jù)將該初步排列的次序號與所述待分析問答對的相關(guān)聯(lián)程度計算所述待分析問答對的搜索排名。
[0010]可選地,該裝置還包括問答知識庫構(gòu)建單元,所述問答知識庫構(gòu)建單元,適于預(yù)先從含有問答對的網(wǎng)頁提取出多個問答對,根據(jù)提取的問答對構(gòu)建包括多條問答知識記錄的問答知識庫;所述問答知識庫構(gòu)建單元,進(jìn)一步適于在從含有問答對的網(wǎng)頁提取出多個問答對時,抓取與所述問答對對應(yīng)的類別;所述問答知識庫構(gòu)建單元,進(jìn)一步適于在根據(jù)提取的問答對構(gòu)建問答知識庫時,根據(jù)問答對和與所述問答對對應(yīng)的類別構(gòu)建問答知識記錄;每個問答知識記錄對應(yīng)于一個類別,分別包括一個問題詞語、一個答案詞語,以及所述問題詞語和所述答案詞語之間的語義相關(guān)度。可選地,所述計算子單元,適于選取其包括的問題詞語與待分析問題詞語匹配且包括的答案詞語與待分析答案詞語匹配的問答知識記錄;根據(jù)所述選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄,得到該待分析的問答對針對各個類別的相關(guān)聯(lián)程度;選取上述該待分析的問答對針對各個類別的相關(guān)聯(lián)程度的最大值,以該最大值作為待分析的問答對的相關(guān)聯(lián)程度。
[0011]可選地,所述計算子單元,適于將選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄的語義相關(guān)度加權(quán)相加,得到該待分析的問答對分別針對各個類別的相關(guān)聯(lián)程度。[0012]可選地,所述詞語提取子單元,適于對待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行分詞、去除停用詞、詞合并,和提取實體詞的操作。
[0013]可選地,所述問答知識庫構(gòu)建單元,適于對每個問答對執(zhí)行以下操作:對該問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到問題詞語集合和答案詞語集合;令問題詞語集合中的每個問題詞語與答案詞語集合中的每個答案詞語分別在與該問答對對應(yīng)的每個類別上形成一條信息記錄;所述問答知識庫構(gòu)建單元,適于對每一條信息記錄,執(zhí)行以下操作:計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進(jìn)行解釋的強度;將上述概率、專一程度和強度相乘,所得到的乘積是該答案詞語和該問題詞語的語義相關(guān)度;令該問題詞語、該答案詞語和其語義相關(guān)度形成一條對應(yīng)于該類別的問答知識記錄。
[0014]可選地,所述問答知識庫構(gòu)建單元,適于按照如下的方法計算該答案詞語屬于該類別的概率:
[0015]PU:k\AWj) -= PKAWjpi
[0016]所述問答知識庫構(gòu)建單元,適于按照如下的方法計算在該類別上各個答案詞語對該問題詞語的解釋的專一程度:
[0017]spccifid QWi, A Wj\C = Ck ) = K QWi\ A Wj,C = Ck) = #(:;f) |C = Ck;
[0018]所述問答知識庫構(gòu)建單元,適于按照如下的方法計算在該類別上該問題詞語用各個答案詞語進(jìn)行解釋的強度:
「00191 inierpreii QWi, A WjIC = Ck) = P( A Wj\Q)Wi,C = Ck) = #(〔冊狗)|(-= “
L J丨丨Tr,#{QWi,AWjy
[0020]所述問答知識庫構(gòu)建單元,適于按照如下的方法將上述概率、專一程度和強度相乘:
[0021]weight (Qffi, Affj | C = Ck)= P (Ck Affj )*specific (Qffi, Affj | C = Ck)*interpret(Qffi, Affj |C = Ck);
[0022]其中,P(Ck)表示類別Ck出現(xiàn)的概率;P(AWj)表示答案為AWj的概率;P(AWj | Ck)表示Ck類別屬于AWj的概率;[0023]# (Qffi, Affj)表示問題詞語為QWi且答案詞語為AWj的次數(shù);
[0024]# (AWj)表示答案詞語為AWj的次數(shù)。
[0025]根據(jù)本發(fā)明的另一方面,提供了一種優(yōu)化問答對的搜索排名的方法,該方法包括如下步驟:
[0026]接收使用者的搜索請求,根據(jù)使用者的搜索請求,獲取與搜索請求匹配的多個待分析問答對;
[0027]根據(jù)包括多條問答知識記錄的問答知識庫獲取每個待分析問答對的相關(guān)聯(lián)程度;
[0028]根據(jù)所述待分析問答對的相關(guān)聯(lián)程度優(yōu)化所述待分析問答對的搜索排名。
[0029]可選地,所述根據(jù)包括多條問答知識記錄的問答知識庫優(yōu)化每個待分析問答對的相關(guān)聯(lián)程度,包括對每個待分析問答對執(zhí)行以下操作:對該待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到至少一個待分析問題詞語和至少一個待分析答案詞語;根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算該待分析的問答對的相關(guān)聯(lián)程度。
[0030]可選地,所述根據(jù)所述待分析問答對的相關(guān)聯(lián)程度調(diào)整所述待分析問答對的搜索排名,具體包括:以所述待分析問答對的相關(guān)聯(lián)程度的次序作為所述待分析問答對的搜索排名;或,根據(jù)搜索排列技術(shù)初步排列所述待分析問答對所屬的網(wǎng)站,根據(jù)該初步排列的次序號與所述待分析問答對的相關(guān)聯(lián)程度計算所述待分析問答對的搜索排名。
[0031]可選地,該方法進(jìn)一步包括:預(yù)先從含有問答對的網(wǎng)頁提取出多個問答對,根據(jù)提取的問答對構(gòu)建包括多條問答知識記錄的問答知識庫;在從含有問答對的網(wǎng)頁提取出多個問答對時,抓取與所述問答對對應(yīng)的類別;在根據(jù)提取的問答對構(gòu)建問答知識庫時,根據(jù)問答對和與所述問答對對應(yīng)的類別構(gòu)建問答知識記錄;每個問答知識記錄對應(yīng)于一個類別,分別包括一個問題詞語、一個答案詞語,以及所述問題詞語和所述答案詞語之間的語義相關(guān)度。
[0032]可選地,所述根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算待分析的問答對的相關(guān)聯(lián)程度,具體包括:選取其包括的問題詞語與待分析問題詞語匹配且包括的答案詞語與待分析答案詞語匹配的問答知識記錄;根據(jù)所述選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄,得到該待分析的問答對針對各個類別的相關(guān)聯(lián)程度;選取上述該待分析的問答對針對各個類別的相關(guān)聯(lián)程度的最大值,以該最大值作為待分析的問答對的相關(guān)聯(lián)程度。
[0033]可選地,根據(jù)所述選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄,得到該待分析的問答對分別針對各個類別的相關(guān)聯(lián)程度,具體包括:將選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄的語義相關(guān)度加權(quán)相加,得到該待分析的問答對分別針對各個類別的相關(guān)聯(lián)程度。
[0034]可選地,所述對所述待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,具體包括:對待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行分詞、去除停用詞、詞合并,和提取實體詞的操作。
[0035]可選地,所述根據(jù)問答對和與所述問答對對應(yīng)的類別構(gòu)建問答知識庫,具體包括:對每個問答對,對該問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到問題詞語集合和答案詞語集合;令問題詞語集合中的每個問題詞語與答案詞語集合中的每個答案詞語分別在與該問答對對應(yīng)的每個類別上形成一條信息記錄;對每一條信息記錄,執(zhí)行以下操作:計算該答案詞語屬于該類別的概率,計算在該類別上該答案詞語對該問題詞語的解釋的專一程度,計算在該類別上該問題詞語用該答案詞語進(jìn)行解釋的強度;將上述概率、專一程度和強度相乘,所得到的乘積是該答案詞語和該問題詞語的語義相關(guān)度;令該問題詞語、該答案詞語和其語義相關(guān)度形成一條對應(yīng)于該類別的問答知識記錄。
[0036]可選地,所述計算該答案詞語屬于該類別的概率,具體包括:
[0037]
【權(quán)利要求】
1.一種優(yōu)化問答對的搜索排名的裝置,該裝置包括: 問答知識庫,適于存儲多條問答知識記錄; 搜索單元,適于接收使用者的搜索請求,根據(jù)使用者的搜索請求,獲取與搜索請求匹配的多個待分析問答對; 相關(guān)聯(lián)程度計算單元,適于根據(jù)問答知識庫獲取每個待分析問答對的相關(guān)聯(lián)程度;搜索排名單元,適于根據(jù)所述待分析問答對的相關(guān)聯(lián)程度優(yōu)化所述待分析問答對的搜索排名。
2.根據(jù)權(quán)利要求1所述的裝置,其中,所述相關(guān)聯(lián)程度計算單元包括: 詞語提取子單元,適于對待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到至少一個待分析問題詞語和至少一個待分析答案詞語; 計算子單元,適于根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算待分析的問答對的相關(guān)聯(lián)程度。
3.根據(jù)權(quán)利要求1或2所述的裝置,其中, 所述搜索排名單元,適于以所述待分析問答對的相關(guān)聯(lián)程度的次序作為所述待分析問答對的搜索排名。
4.根據(jù)權(quán)利要求1至3任一項所述的裝置,其中,該裝置還包括問答知識庫構(gòu)建單元, 所述問答知識庫構(gòu)建單元,適于預(yù)先從含有問答對的網(wǎng)頁提取出多個問答對,根據(jù)提取的問答對構(gòu)建包括多條問答知識記錄的問答知識庫; 所述問答知識庫構(gòu)建單元,進(jìn)一步適于在從含有問答對的網(wǎng)頁提取出多個問答對時,抓取與所述問答對對應(yīng)的類別;` 所述問答知識庫構(gòu)建單元,進(jìn)一步適于在根據(jù)提取的問答對構(gòu)建問答知識庫時,根據(jù)問答對和與所述問答對對應(yīng)的類別構(gòu)建問答知識記錄;每個問答知識記錄對應(yīng)于一個類另O,分別包括一個問題詞語、一個答案詞語,以及所述問題詞語和所述答案詞語之間的語義相關(guān)度。
5.根據(jù)權(quán)利要求1至4任一項所述的裝置,其中, 所述計算子單元,適于選取其包括的問題詞語與待分析問題詞語匹配且包括的答案詞語與待分析答案詞語匹配的問答知識記錄;根據(jù)所述選取的問答知識記錄中對應(yīng)于相同類別的問答知識記錄,得到該待分析的問答對針對各個類別的相關(guān)聯(lián)程度;選取上述該待分析的問答對針對各個類別的相關(guān)聯(lián)程度的最大值,以該最大值作為待分析的問答對的相關(guān)聯(lián)程度。
6.一種優(yōu)化問答對的搜索排名的方法,該方法包括如下步驟: 接收使用者的搜索請求,根據(jù)使用者的搜索請求,獲取與搜索請求匹配的多個待分析問答對; 根據(jù)包括多條問答知識記錄的問答知識庫,獲取每個待分析問答對的相關(guān)聯(lián)程度; 根據(jù)所述待分析問答對的相關(guān)聯(lián)程度優(yōu)化所述待分析問答對的搜索排名。
7.根據(jù)權(quán)利要求6所述的方法,其中,所述根據(jù)包括多條問答知識記錄的問答知識庫獲取每個待分析問答對的相關(guān)聯(lián)程度,包括對每個待分析問答對執(zhí)行以下操作: 對該待分析的問答對的問題內(nèi)容和答案內(nèi)容進(jìn)行詞語提取操作,得到至少一個待分析問題詞語和至少一個待分析答案詞語;根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算該待分析的問答對的相關(guān)聯(lián)程度。
8.根據(jù)權(quán)利要求6或7所述的方法,其中,所述根據(jù)所述待分析問答對的相關(guān)聯(lián)程度調(diào)整所述待分析問答對的搜索排名,具體包括: 以所述待分析問答對的相關(guān)聯(lián)程度的次序作為所述待分析問答對的搜索排名。
9.根據(jù)權(quán)利要求6至8任一項所述的方法,其中,該方法進(jìn)一步包括: 預(yù)先從含有問答對的網(wǎng)頁提取出多個問答對,根據(jù)提取的問答對構(gòu)建包括多條問答知識記錄的問答知識庫; 在從含有問答對的網(wǎng)頁提取出多個問答對時,抓取與所述問答對對應(yīng)的類別; 在根據(jù)提取的問答對構(gòu)建問答知識庫時,根據(jù)問答對和與所述問答對對應(yīng)的類別構(gòu)建問答知識記錄; 每個問答知識記錄對應(yīng)于一個類別,分別包括一個問題詞語、一個答案詞語,以及所述問題詞語和所述答案詞語之間的語義相關(guān)度。
10.根據(jù)權(quán)利要求6至9任一項所述的方法,其中, 所述根據(jù)待分析問題詞語和待分析答案詞語,從問答知識庫選擇至少一條問答知識記錄,根據(jù)所選擇的問答知識記錄計算待分析的問答對的相關(guān)聯(lián)程度,具體包括: 選取其包括的問題詞語與待分析問題詞語匹配且包括的答案詞語與待分析答案詞語匹配的問答知識記錄; 根據(jù)所述選取的問答 知識記錄中對應(yīng)于相同類別的問答知識記錄,得到該待分析的問答對針對各個類別的相關(guān)聯(lián)程度; 選取上述該待分析的問答對針對各個類別的相關(guān)聯(lián)程度的最大值,以該最大值作為待分析的問答對的相關(guān)聯(lián)程度。
【文檔編號】G06F17/30GK103577558SQ201310495881
【公開日】2014年2月12日 申請日期:2013年10月21日 優(yōu)先權(quán)日:2013年10月21日
【發(fā)明者】孫林, 陳培軍, 秦吉勝 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司