一種基于問題簇的自動(dòng)問答方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種基于問題簇的自動(dòng)問答方法和裝置,包括:預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,從而建立簇形式的問答數(shù)據(jù)庫;當(dāng)獲取到用戶輸入的問題時(shí),確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。本發(fā)明能夠針對(duì)用戶問題實(shí)現(xiàn)高效準(zhǔn)確的自動(dòng)問答,更好地滿足用戶的需求。
【專利說明】一種基于問題簇的自動(dòng)問答方法和裝置
【【技術(shù)領(lǐng)域】】
[0001]本發(fā)明涉及計(jì)算機(jī)應(yīng)用【技術(shù)領(lǐng)域】,特別涉及一種基于問題簇的自動(dòng)問答方法和裝置。
【【背景技術(shù)】】
[0002]隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展,網(wǎng)絡(luò)特別是搜索引擎已經(jīng)成為人們獲取信息的重要手段,用戶通過在搜索引擎輸入query來獲取搜索引擎返回的搜索結(jié)果,并從中找到自己需要的信息。在很多情況下,用戶輸入的query可能是一個(gè)問題,由于搜索引擎返回的搜索結(jié)果包含的是與query相似度滿足一定要求的頁面,因此,由于用戶表述多種多樣的問題,在搜索結(jié)果中往往不能很好的滿足用戶的需求,用戶需要從數(shù)以百計(jì)或千記的結(jié)果中查找想要的信息,而輸入問題query的用戶想要的僅是一個(gè)答案。
[0003]除了搜索引擎之外,問答平臺(tái)也是目前用戶經(jīng)常使用的信息獲取方式,用戶登錄問答平臺(tái)在問答平臺(tái)上發(fā)布問題,然后由其他用戶針對(duì)該問題進(jìn)行回答,或者將問答數(shù)據(jù)庫中已經(jīng)存在的該問題對(duì)應(yīng)的答案自動(dòng)提供給用戶。但實(shí)際使用時(shí),在問答數(shù)據(jù)庫中即便已經(jīng)存在語義上實(shí)質(zhì)相同的問題對(duì)應(yīng)的答案,但由于用戶表述多種多樣的問題,無法自動(dòng)提供給用戶答案,仍需要等待其他用戶針對(duì)該問題的回答。
[0004]顯然,如何 針對(duì)用戶問題實(shí)現(xiàn)高效準(zhǔn)確的自動(dòng)問答是一個(gè)亟待解決的問題。 【
【發(fā)明內(nèi)容】
】
[0005]有鑒于此,本發(fā)明提供了一種基于問題簇的自動(dòng)問答方法和裝置,以便于針對(duì)用戶問題實(shí)現(xiàn)高效準(zhǔn)確的自動(dòng)問答。
[0006]具體技術(shù)方案如下:
[0007]—種基于問題簇的自動(dòng)問答方法,該方法包括:
[0008]預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,從而建立簇形式的問答數(shù)據(jù)庫;
[0009]當(dāng)獲取到用戶輸入的問題時(shí),確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。
[0010]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案具體包括:
[0011]確定問題簇內(nèi)問題的答案的主題中心,確定問題簇內(nèi)各答案與主題中心的距離,將距離主題中心最近的答案作為問題簇的優(yōu)質(zhì)答案;或者,
[0012]依據(jù)問題簇內(nèi)各答案對(duì)預(yù)設(shè)格式的滿足狀況、答案的長度特征、視覺特征、答案和問題的匹配程度、用戶評(píng)價(jià)得分、回答者的級(jí)別中的一種因素或任意組合,對(duì)答案進(jìn)行打分,將依據(jù)各因素對(duì)答案的打分進(jìn)行融合得到各答案的單個(gè)問題得分,將單個(gè)問題得分最高的答案確定為問題簇的優(yōu)質(zhì)答案;或者,
[0013]依據(jù)所述問題簇內(nèi)各答案與主題中心的距離確定各答案的問題間評(píng)價(jià)得分,將答案的問題間得分與答案的所述單個(gè)問題得分進(jìn)行融合,得到答案的總得分,將總得分最高的答案作為問題簇的優(yōu)質(zhì)答案。
[0014]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述確定問題簇內(nèi)問題的答案的主題中心為:
[0015]將問題簇內(nèi)各問題進(jìn)行分詞和去除停用詞后,將每一個(gè)問題作為一個(gè)文檔統(tǒng)計(jì)各詞語的文檔頻率,將文檔頻率達(dá)到預(yù)設(shè)主題中心文檔頻率的詞語確定為主題中心。
[0016]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述用戶輸入的問題為:用戶輸入搜索引擎的query經(jīng)識(shí)別后確認(rèn)是問題類型的query ;
[0017]將所述問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案包含在所述query的搜索結(jié)果中返回給用戶。
[0018]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇具體為:
[0019]計(jì)算用戶輸入的問題與所述簇形式的問答數(shù)據(jù)庫中各問題的語義相似度,確定與所述用戶輸入的問題之間語義相似度最高的問題所在的問題簇。
[0020]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在計(jì)算兩問題之間的語義相似度時(shí),具體包括:
[0021]將兩問題分別進(jìn)行分詞后去除停用詞;
[0022]將兩問題中存在同義映射的詞語映射為同義詞向量,同義詞向量中包含問題中的詞語和該詞語的同義詞;
[0023]計(jì)算映射后得到的兩問題之間的余弦距離,或者將余弦距離進(jìn)一步結(jié)合兩問題的問句類型匹配狀況或否定結(jié)構(gòu)匹配狀況中的至少一種,得到兩問題之間的語義相似度。
[0024]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇的同時(shí),還包括:
[0025]對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值,將該屬性值包含在所述搜索結(jié)果中返回給用戶。
[0026]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇之前還包括:
[0027]對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值,將該屬性值包含在所述搜索結(jié)果中返回給用戶,結(jié)束流程;否則,繼續(xù)執(zhí)行所述確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇。
[0028]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,在構(gòu)建所述實(shí)體屬性值庫時(shí)采用將實(shí)體詞和屬性詞同義映射為統(tǒng)一表述的方式來建立索引;
[0029]在對(duì)用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析時(shí),將所述用戶輸入的問題中的實(shí)體詞和屬性詞同義映射為統(tǒng)一表述,得到所述實(shí)體詞和屬性詞組合。
[0030]一種基于問題簇的自動(dòng)問答裝置,該裝置包括:
[0031]數(shù)據(jù)庫建立單元,用于預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,從而建立簇形式的問答數(shù)據(jù)庫;
[0032]自動(dòng)問答單元,用于當(dāng)獲取到用戶輸入的問題時(shí),確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。[0033]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述數(shù)據(jù)庫建立單元在從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案時(shí)具體執(zhí)行:
[0034]確定問題簇內(nèi)問題的答案的主題中心,確定問題簇內(nèi)各答案與主題中心的距離,將距離主題中心最近的答案作為問題簇的優(yōu)質(zhì)答案;或者,
[0035]依據(jù)問題簇內(nèi)各答案對(duì)預(yù)設(shè)格式的滿足狀況、答案的長度特征、視覺特征、答案和問題的匹配程度、用戶評(píng)價(jià)得分、回答者的級(jí)別中的一種因素或任意組合,對(duì)答案進(jìn)行打分,將依據(jù)各因素對(duì)答案的打分進(jìn)行融合得到各答案的單個(gè)問題評(píng)價(jià)得分,將單個(gè)問題評(píng)價(jià)得分最高的答案確定為問題簇的優(yōu)質(zhì)答案;或者,
[0036]依據(jù)所述問題簇內(nèi)各答案與主題中心的距離確定各答案的問題間評(píng)價(jià)得分,將答案的問題間評(píng)價(jià)得分與答案的所述單個(gè)問題評(píng)價(jià)得分進(jìn)行融合,得到答案的總得分,將總得分最高的答案作為問題簇的優(yōu)質(zhì)答案。
[0037]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述數(shù)據(jù)庫建立單元在確定問題簇內(nèi)問題的答案的主題中心時(shí),具體執(zhí)行:將問題簇內(nèi)各問題進(jìn)行分詞和去除停用詞后,將每一個(gè)問題作為一個(gè)文檔統(tǒng)計(jì)各詞語的文檔頻率,將文檔頻率達(dá)到預(yù)設(shè)主題中心文檔頻率的詞語確定為主題中心。
[0038]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述自動(dòng)問答單元包括:問題獲取子單元,用于獲取用戶輸入搜索引擎的query,如果識(shí)別出是問題類型的query,則將該query作為所述用戶輸入的問題;
[0039]所述自動(dòng)問答單元還包括:
[0040]結(jié)果返回子單元,用于將所述問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案包含在所述query的搜索結(jié)果中返回給用戶。
[0041]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述自動(dòng)問答單元包括:問題簇確定子單元,用于確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,具體為:計(jì)算用戶輸入的問題與所述簇形式的問答數(shù)據(jù)庫中各問題的語義相似度,確定與所述用戶輸入的問題之間語義相似度最高的問題所在的問題簇。
[0042]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述數(shù)據(jù)庫建立單元和所述問題簇確定子單元在計(jì)算兩問題之間的語義相似度時(shí),具體執(zhí)行:
[0043]將兩問題分別進(jìn)行分詞后去除停用詞;
[0044]將兩問題中存在同義映射的詞語映射為同義詞向量,同義詞向量中包含問題中的詞語和該詞語的同義詞;
[0045]計(jì)算映射后得到的兩問題之間的余弦距離,或者將余弦距離進(jìn)一步結(jié)合兩問題的問句類型匹配狀況或否定結(jié)構(gòu)匹配狀況中的至少一種,得到兩問題之間的語義相似度。
[0046]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述自動(dòng)問答單元還包括:
[0047]結(jié)構(gòu)化分析子單元,用于對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,觸發(fā)屬性值確定子單元;
[0048]屬性值確定子單元,用于受到觸發(fā)后,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值;
[0049]所述結(jié)果返回子單元,還用于將所述屬性值包含在所述搜索結(jié)果中。
[0050]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述自動(dòng)問答單元還包括:[0051]結(jié)構(gòu)化分析子單元,用于對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,觸發(fā)屬性值確定子單元;否貝U,觸發(fā)問題簇確定子單元;
[0052]屬性值確定子單元,用于受到觸發(fā)后,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值;
[0053]問題簇確定子單元,用于受到觸發(fā)后,執(zhí)行確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇的操作;
[0054]所述結(jié)果返回子單元還用于將所述屬性值包含在搜索結(jié)果中返回給用戶。
[0055]根據(jù)本發(fā)明一優(yōu)選實(shí)施例,所述實(shí)體屬性值庫采用將實(shí)體詞和屬性詞同義映射為統(tǒng)一表述的方式建立索引;
[0056]所述結(jié)構(gòu)化分析子單元在對(duì)用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析時(shí),將所述用戶輸入的問題中的實(shí)體詞和屬性詞同義映射為統(tǒng)一表述,得到所述實(shí)體詞和屬性詞組合。
[0057]由以上技術(shù)方案可以看出,本發(fā)明通過預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類形成問題簇,并確定問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,當(dāng)獲取到用戶輸入的問題時(shí),能夠?qū)⑴c該問題的語義相似度最高的問題簇,并將問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。這樣,只要問答數(shù)據(jù)庫中已經(jīng)存在與用戶輸入問題相同語義的問題,就能夠?qū)?duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶,從而高效準(zhǔn)確地實(shí)現(xiàn)自動(dòng)問答,更好地滿足用戶的需求。
【【專利附圖】
【附圖說明】】
[0058]圖1為本發(fā)明實(shí)施例一提供的建立簇形式的問答數(shù)據(jù)庫的方法流程圖;
`[0059]圖2為本發(fā)明實(shí)施例二提供的應(yīng)用于搜索引擎的一種自動(dòng)問答方法流程圖;
[0060]圖3為本發(fā)明實(shí)施例二提供的應(yīng)用于搜索引擎的第二種自動(dòng)問答方法流程圖;
[0061]圖4為本發(fā)明實(shí)施例二提供的應(yīng)用于搜索引擎的第三種自動(dòng)問答方法流程圖;
[0062]圖5為本發(fā)明實(shí)施例三提供的自動(dòng)問答裝置的結(jié)構(gòu)圖;
[0063]圖6為本發(fā)明實(shí)施例三提供的應(yīng)用于搜索引擎的一種自動(dòng)問答裝置的結(jié)構(gòu)圖;
[0064]圖7為本發(fā)明實(shí)施例三提供的應(yīng)用于搜索引擎的另一種自動(dòng)問答裝置的結(jié)構(gòu)圖。
【【具體實(shí)施方式】】
[0065]為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明進(jìn)行詳細(xì)描述。
[0066]本發(fā)明的核心思想為:預(yù)先建立簇形式的問答數(shù)據(jù)庫,即對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案;當(dāng)獲取到用戶輸入的問題時(shí),確定簇形式的問答數(shù)據(jù)庫中與該用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。
[0067]下面首先通過實(shí)施例一對(duì)簇形式的問答數(shù)據(jù)庫建立方法進(jìn)行詳細(xì)描述。
[0068]實(shí)施例一、
[0069]圖1為本發(fā)明實(shí)施例一提供的建立簇形式的問答數(shù)據(jù)庫的方法流程圖,如圖1所示,該方法可以包括以下步驟:
[0070]步驟101:對(duì)問答數(shù)據(jù)庫中的所有問題進(jìn)行基于語義的聚類得到一個(gè)以上的問題簇。
[0071]在已有的問答數(shù)據(jù)庫中,通常是一個(gè)問題對(duì)應(yīng)一個(gè)以上的答案或者也存在一個(gè)問題尚沒有對(duì)應(yīng)答案的情況,該問答數(shù)據(jù)庫是問答平臺(tái)已有的數(shù)據(jù)庫。通過對(duì)問答數(shù)據(jù)庫中所有問題進(jìn)行語義相似度的計(jì)算,基于語義相似度進(jìn)行問題的聚類,最終得到每個(gè)問題簇包含語義相同或相似的問題。例如,下面的問題聚類成一個(gè)問題簇:
[0072]喝牛奶有益身體健康
[0073]喝牛奶有益身體
[0074]喝牛奶對(duì)身體有什么益處
[0075]喝牛奶對(duì)身體有什么幫助
[0076]喝牛奶對(duì)身體有什么好處
[0077]喝牛奶對(duì)人身體有什么益處
[0078]步驟102:從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案。
[0079]本步驟實(shí)際上是對(duì)問題簇內(nèi)問題的答案進(jìn)行質(zhì)量評(píng)價(jià),這里的質(zhì)量評(píng)價(jià)可以采用問題間質(zhì)量評(píng)價(jià)和單個(gè)問題的質(zhì)量評(píng)價(jià)這兩種方式中的一種或組合。優(yōu)選地,可以主要采用問題間質(zhì)量評(píng)價(jià),再進(jìn)一步結(jié)合單個(gè)問題的質(zhì)量評(píng)價(jià)方式。
[0080]問題間評(píng)價(jià)指的是依據(jù)問題簇內(nèi)問題的答案間的主題中心重復(fù)度以及不同答案間的分散度來進(jìn)行的。主題中心重復(fù)度指的是在問題簇內(nèi)問題的答案中,每個(gè)答案包含的共有主題詞越多越可能成為`優(yōu)質(zhì)答案。不同答案間的分散度指的是,如果包含的共有主題詞類似,某答案與其他答案之間的距離越小,說明該答案與其他答案之間的分散度越小,越可能成為優(yōu)質(zhì)答案。
[0081]具體在進(jìn)行評(píng)價(jià)時(shí),首先確定問題簇內(nèi)問題的答案的主題中心,具體地,可以對(duì)各問題進(jìn)行分詞和去除停用詞后,將每一個(gè)問題作為一個(gè)文檔統(tǒng)計(jì)各詞語的文檔頻率(DF),將文檔頻率達(dá)到預(yù)設(shè)主題中心文檔頻率的詞語作為主題中心,這里主題中心可以是一個(gè)詞語,也可以是詞語的組合,同樣這里的詞語是廣義的詞語,可以是詞或者短語。
[0082]然后計(jì)算各答案與該主題中心的距離,可以采用諸如余弦距離的方式,將距離主題中心最近的答案作為該問題簇的優(yōu)質(zhì)答案。這里各答案與主題中心的距離即體現(xiàn)了主題中心重復(fù)度,又體現(xiàn)了不同答案間的分散度。距離主題中心越近說明該答案與主題中心的重復(fù)度越高,與其他答案的分散度越小,越可能成為優(yōu)質(zhì)答案。
[0083]例如在語義為“中國有哪些民族”的問題簇中存在以下答案:
[0084]答案1:56個(gè),漢族、回族、壯族、維吾爾族…
[0085]答案2:漢族、回族、壯族、維吾爾族…
[0086]答案3:56個(gè)民族
[0087]答案4:漢族,漢族人口眾多民族,分布眾多;回族,分布在寧夏地區(qū)…
[0088]經(jīng)過主題中心重復(fù)度計(jì)算,主題中心為“56個(gè),漢族、回族、壯族、維吾爾族…”,答案I距離主題中心的預(yù)先距離最近,則選擇答案I作為優(yōu)質(zhì)答案。
[0089]對(duì)單個(gè)問題的評(píng)價(jià),依據(jù)答案對(duì)預(yù)設(shè)格式的滿足狀況、答案的長度特征、答案的視覺特征、答案和問題的匹配程度、用戶評(píng)價(jià)得分、回答者的級(jí)別等中的一種或任意組合的方式來對(duì)答案進(jìn)行評(píng)價(jià)。例如采用上述因素對(duì)答案分別進(jìn)行打分,再進(jìn)行加權(quán)求和等融合方式得到各答案的單個(gè)問題評(píng)價(jià)得分,得分越高的越優(yōu)質(zhì)。[0090]如果融合問題間評(píng)價(jià)和單個(gè)問題的質(zhì)量評(píng)價(jià)方式,則可以依據(jù)各答案與主題中心的距離得到各答案的問題間評(píng)價(jià)得分,再將問題間評(píng)價(jià)得分和單個(gè)問題評(píng)價(jià)得分進(jìn)行融合,例如進(jìn)行加權(quán)求和、加權(quán)平均等方式,得到各答案的總得分,將總得分最高的答案作為問題簇的優(yōu)質(zhì)答案。
[0091]經(jīng)過上述流程就形成了包含問題簇以及問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案的簇形式的問答數(shù)據(jù)庫。
[0092]本發(fā)明提供的自動(dòng)問答方法既能夠應(yīng)用于問答平臺(tái),也能夠應(yīng)用于搜索引擎。下面在實(shí)施例二中以應(yīng)用于搜索引擎為例對(duì)該方法進(jìn)行詳細(xì)描述。
[0093]實(shí)施例二、
[0094]圖2為本發(fā)明實(shí)施例二提供的應(yīng)用于搜索引擎的自動(dòng)問答方法流程圖,如圖2所示,該方法可以包括以下步驟:
[0095]步驟201:對(duì)用戶輸入搜索引擎的query進(jìn)行識(shí)別,如果識(shí)別出是問題類型的query,則繼續(xù)執(zhí)行步驟202。
[0096]在對(duì)query進(jìn)行是否是問題類型的識(shí)別時(shí),可以通過預(yù)先建立的分類器來實(shí)現(xiàn)。該分類器的訓(xùn)練過程簡單描述為:首先對(duì)疑問詞以及具有疑問意圖的需求詞為中心進(jìn)行擴(kuò)展,得到一元、二元、三元等組合特征,通過統(tǒng)計(jì)在問題類型中的頻率信息與在其他句子類型中的頻率信息的比值來提取問題類型對(duì)應(yīng)的特征。這種分類器不僅能夠識(shí)別出包含疑問詞的問題類型,也能夠夠識(shí)別出具有疑問意圖的需求詞的問題類型。由于該部分內(nèi)容可以采用現(xiàn)有技術(shù),在此不再贅述。
[0097]步驟202:確定簇形式問答數(shù)據(jù)庫中與用戶輸入的query之間語義相似度最高的問題簇。
[0098]在本步驟中可以計(jì)算用戶輸入的query與簇形式問答數(shù)據(jù)庫中各問題的語義相似度,確定與用戶輸入的query之間語義相似度最高的問題所在的問題簇。
[0099]無論在實(shí)施例一的步驟101中對(duì)問題進(jìn)行聚類還是本步驟都涉及到計(jì)算了兩個(gè)問題之間的語義相似度,可以采用現(xiàn)有技術(shù)中常用的語義相似度計(jì)算方式,但為了提高相似度的準(zhǔn)確性,在此本發(fā)明實(shí)施例還提供了一種優(yōu)選的語義相似度計(jì)算方式:
[0100]首先將兩問題進(jìn)行分詞后去除停用詞。優(yōu)選地,可以進(jìn)一步進(jìn)行結(jié)構(gòu)分析后對(duì)于語義冗余的詞語進(jìn)行動(dòng)態(tài)權(quán)重調(diào)整,該部分內(nèi)容為已有技術(shù)不再贅述。
[0101]然后將問題中存在同義映射的詞語(這里的詞語是廣義的詞語,包括詞和短語等單元)映射為同義詞向量,該同義詞向量中包含該詞語和該詞語的同義詞。這樣做的目的是為了召回詞語的不同表達(dá)形式,例如某問題中的詞語“哈爾濱工程大學(xué)”可以映射為由“哈爾濱工程大學(xué)”、“哈工大”、“哈軍工”、“哈爾濱工程學(xué)院”、“哈船院”、“哈船舶”等構(gòu)成的同義詞向量。經(jīng)本步驟的處理后,問題就由同義詞向量構(gòu)成,或者有詞語和同義詞向量構(gòu)成,或者仍由詞語構(gòu)成(任何詞語都不存在同義詞的情況下)。
[0102]計(jì)算映射后得到的兩問題之間的余弦距離,得到兩問題之間的語義相似度。
[0103]例如,兩個(gè)問題S1和S2經(jīng)過分詞和停用詞過濾后為:
[0104]4 = (Wlli,W12i,…,Wlmi}
[0105]S2 = {w2h,W22t,…wzn1}
[0106]經(jīng)過上述同義詞映射后分別表示成:
【權(quán)利要求】
1.一種基于問題簇的自動(dòng)問答方法,其特征在于,該方法包括: 預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,從而建立簇形式的問答數(shù)據(jù)庫; 當(dāng)獲取到用戶輸入的問題時(shí),確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案具體包括: 確定問題簇內(nèi)問題的答案的主題中心,確定問題簇內(nèi)各答案與主題中心的距離,將距離主題中心最近的答案作為問題簇的優(yōu)質(zhì)答案;或者, 依據(jù)問題簇內(nèi)各答案對(duì)預(yù)設(shè)格式的滿足狀況、答案的長度特征、視覺特征、答案和問題的匹配程度、用戶評(píng)價(jià)得分、回答者的級(jí)別中的一種因素或任意組合,對(duì)答案進(jìn)行打分,將依據(jù)各因素對(duì)答案的打分進(jìn)行融合得到各答案的單個(gè)問題得分,將單個(gè)問題得分最高的答案確定為問題簇的優(yōu)質(zhì)答案;或者, 依據(jù)所述問題簇內(nèi)各答案與主題中心的距離確定各答案的問題間評(píng)價(jià)得分,將答案的問題間得分與答案的所述單個(gè)問題得分進(jìn)行融合,得到答案的總得分,將總得分最高的答案作為問題簇的優(yōu)質(zhì)答案。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述確定問題簇內(nèi)問題的答案的主題中心為: 將問題簇內(nèi)各問題進(jìn)行分詞和去除停用詞后,將每一個(gè)問題作為一個(gè)文檔統(tǒng)計(jì)各詞語的文檔頻率,將文檔頻率達(dá)到預(yù)設(shè)主題中心文檔頻率的詞語確定為主題中心。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述用戶輸入的問題為:用戶輸入搜索引擎的query經(jīng)識(shí)別后確認(rèn)是問題類型的query ; 將所述問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案包含在所述query的搜索結(jié)果中返回給用戶。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇具體為: 計(jì)算用戶輸入的問題與所述簇形式的問答數(shù)據(jù)庫中各問題的語義相似度,確定與所述用戶輸入的問題之間語義相似度最高的問題所在的問題簇。
6.根據(jù)權(quán)利要求1或5所述的方法,其特征在于,在計(jì)算兩問題之間的語義相似度時(shí),具體包括: 將兩問題分別進(jìn)行分詞后去除停用詞; 將兩問題中存在同義映射的詞語映射為同義詞向量,同義詞向量中包含問題中的詞語和該詞語的同義詞; 計(jì)算映射后得到的兩問題之間的余弦距離,或者將余弦距離進(jìn)一步結(jié)合兩問題的問句類型匹配狀況或否定結(jié)構(gòu)匹配狀況中的至少一種,得到兩問題之間的語義相似度。
7.根據(jù)權(quán)利要求4所述的方法,其特征在于,在確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇的同時(shí),還包括: 對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值,將該屬性值包含在所述搜索結(jié)果中返回給用戶。
8.根據(jù)權(quán)利要求4所述的方法,其特征在于,在確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇之前還包括: 對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值,將該屬性值包含在所述搜索結(jié)果中返回給用戶,結(jié)束流程;否則,繼續(xù)執(zhí)行所述確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇。
9.根據(jù)權(quán)利要求7或8所述的方法,其特征在于,在構(gòu)建所述實(shí)體屬性值庫時(shí)采用將實(shí)體詞和屬性詞同義映射為統(tǒng)一表述的方式來建立索引 ; 在對(duì)用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析時(shí),將所述用戶輸入的問題中的實(shí)體詞和屬性詞同義映射為統(tǒng)一表述,得到所述實(shí)體詞和屬性詞組合。
10.一種基于問題簇的自動(dòng)問答裝置,其特征在于,該裝置包括: 數(shù)據(jù)庫建立單元,用于預(yù)先對(duì)問答數(shù)據(jù)庫中的問題進(jìn)行基于語義相似度的聚類得到一個(gè)以上的問題簇,從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案,從而建立簇形式的問答數(shù)據(jù)庫; 自動(dòng)問答單元,用于當(dāng)獲取到用戶輸入的問題時(shí),確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,將該問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案返回給用戶。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述數(shù)據(jù)庫建立單元在從問題簇內(nèi)問題的答案中確定出問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案時(shí)具體執(zhí)行: 確定問題簇內(nèi)問題的答案的主題中心,確定問題簇內(nèi)各答案與主題中心的距離,將距離主題中心最近的答案作為問題簇的優(yōu)質(zhì)答案;或者, 依據(jù)問題簇內(nèi)各答案對(duì)預(yù)設(shè)格式的滿足狀況、答案的長度特征、視覺特征、答案和問題的匹配程度、用戶評(píng)價(jià)得分、回答者的級(jí)別中的一種因素或任意組合,對(duì)答案進(jìn)行打分,將依據(jù)各因素對(duì)答案的打分進(jìn)行融合得到各答案的單個(gè)問題評(píng)價(jià)得分,將單個(gè)問題評(píng)價(jià)得分最聞的答案確定為問題族的優(yōu)質(zhì)答案;或者, 依據(jù)所述問題簇內(nèi)各答案與主題中心的距離確定各答案的問題間評(píng)價(jià)得分,將答案的問題間評(píng)價(jià)得分與答案的所述單個(gè)問題評(píng)價(jià)得分進(jìn)行融合,得到答案的總得分,將總得分最高的答案作為問題簇的優(yōu)質(zhì)答案。
12.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述數(shù)據(jù)庫建立單元在確定問題簇內(nèi)問題的答案的主題中心時(shí),具體執(zhí)行:將問題簇內(nèi)各問題進(jìn)行分詞和去除停用詞后,將每一個(gè)問題作為一個(gè)文檔統(tǒng)計(jì)各詞語的文檔頻率,將文檔頻率達(dá)到預(yù)設(shè)主題中心文檔頻率的詞語確定為主題中心。
13.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述自動(dòng)問答單元包括:問題獲取子單元,用于獲取用戶輸入搜索引擎的query,如果識(shí)別出是問題類型的query,則將該query作為所述用戶輸入的問題; 所述自動(dòng)問答單元還包括: 結(jié)果返回子單元,用于將所述問題簇對(duì)應(yīng)的優(yōu)質(zhì)答案包含在所述query的搜索結(jié)果中返回給用戶。
14.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述自動(dòng)問答單元包括:問題簇確定子單元,用于確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇,具體為:計(jì)算用戶輸入的問題與所述簇形式的問答數(shù)據(jù)庫中各問題的語義相似度,確定與所述用戶輸入的問題之間語義相似度最高的問題所在的問題簇。
15.根據(jù)權(quán)利要求10或14所述的裝置,其特征在于,所述數(shù)據(jù)庫建立單元和所述問題簇確定子單元在計(jì)算兩問題之間的語義相似度時(shí),具體執(zhí)行: 將兩問題分別進(jìn)行分詞后去除停用詞; 將兩問題中存在同義映射的詞語映射為同義詞向量,同義詞向量中包含問題中的詞語和該詞語的同義詞; 計(jì)算映射后得到的兩問題之間的余弦距離,或者將余弦距離進(jìn)一步結(jié)合兩問題的問句類型匹配狀況或否定結(jié)構(gòu)匹配狀況中的至少一種,得到兩問題之間的語義相似度。
16.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述自動(dòng)問答單元還包括: 結(jié)構(gòu)化分析子單元,用于對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,觸發(fā)屬性值確定子單元; 屬性值確定子單元,用于受到觸發(fā)后,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值; 所述結(jié)果返回子單元,還用于將所述屬性值包含在所述搜索結(jié)果中。
17.根據(jù)權(quán)利要求13 所述的裝置,其特征在于,所述自動(dòng)問答單元還包括: 結(jié)構(gòu)化分析子單元,用于對(duì)所述用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析,判斷所述用戶輸入的問題是否為實(shí)體詞和屬性詞組合的表達(dá)方式,如果是,觸發(fā)屬性值確定子單元;否則,觸發(fā)問題簇確定子單元; 屬性值確定子單元,用于受到觸發(fā)后,查找實(shí)體屬性值數(shù)據(jù)庫確定所述實(shí)體詞和屬性詞組合對(duì)應(yīng)的屬性值; 問題簇確定子單元,用于受到觸發(fā)后,執(zhí)行確定所述簇形式的問答數(shù)據(jù)庫中與用戶輸入的問題語義相似度最高的問題簇的操作; 所述結(jié)果返回子單元還用于將所述屬性值包含在搜索結(jié)果中返回給用戶。
18.根據(jù)權(quán)利要求16或17所述的裝置,其特征在于,所述實(shí)體屬性值庫采用將實(shí)體詞和屬性詞同義映射為統(tǒng)一表述的方式建立索引; 所述結(jié)構(gòu)化分析子單元在對(duì)用戶輸入的問題進(jìn)行結(jié)構(gòu)化分析時(shí),將所述用戶輸入的問題中的實(shí)體詞和屬性詞同義映射為統(tǒng)一表述,得到所述實(shí)體詞和屬性詞組合。
【文檔編號(hào)】G06F17/30GK103810218SQ201210459020
【公開日】2014年5月21日 申請(qǐng)日期:2012年11月14日 優(yōu)先權(quán)日:2012年11月14日
【發(fā)明者】方高林 申請(qǐng)人:北京百度網(wǎng)訊科技有限公司