本申請涉及計算機技術(shù)領(lǐng)域,具體涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及人機智能問答方法和裝置。
背景技術(shù):
隨著人機智能技術(shù)的發(fā)展,越來越多的問答系統(tǒng)采用人機智能技術(shù)?,F(xiàn)有的人機智能問答系統(tǒng)通常是將預(yù)設(shè)的問答語料庫中的問題語料與用戶輸入的咨詢問題進行匹配,以確定問答語料庫中與用戶輸入的咨詢問題相似度最高的問題,而后將該問題語料對應(yīng)的答案語料反饋給用戶。
這種通過計算咨詢問題與問題語料相似度的方法只能從字面上將用戶輸入咨詢語句和問答語料庫中的問題語料進行相似度匹配,而對于語義較為接近,但用詞有差異的情況,會因為相似度低無法被有效地匹配。并且現(xiàn)有技術(shù)通常只考慮問答語料庫中的問題語料與用戶輸入的咨詢問題的相關(guān)性,而沒有考慮咨詢問題與答案語料的相關(guān)性,這會降低人機智能問答的準(zhǔn)確率。
技術(shù)實現(xiàn)要素:
本申請的目的在于提出一種改進的人機智能問答方法和裝置,來解決以上背景技術(shù)部分提到的技術(shù)問題。
第一方面,本申請?zhí)峁┝艘环N人機智能問答方法,所述方法包括:接收用戶輸入的咨詢問題,其中,所述咨詢問題由文字構(gòu)成;將所述咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取所述咨詢問題與第一問答語料庫中各答案語料的相關(guān)度,其中,所述問答模型用于確定所述咨詢問題與答案語料的相關(guān)度;將所述第一問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給所述用戶。
在一些實施例中,在所述將所述咨詢問題輸入預(yù)先訓(xùn)練的問答模型得到所述咨詢問題與第一問答語料庫中各所述答案語料的相關(guān)度步驟之前,所述方法還包括:獲取第二問答語料庫,其中,所述第二問答語料庫包括多個問答語料對,各所述問答語料對由對應(yīng)的問題語料和答案語料組成;基于所述咨詢問題與所述第二問答語料庫中各問題語料的相關(guān)度,對所述第二問答語料庫中的各問答語料對進行排序;根據(jù)所述排序,選取預(yù)設(shè)數(shù)量的問題語料,并將所述問題語料和與之對應(yīng)的答案語料組成所述第一問答語料庫。
在一些實施例中,所述方法還包括:建立問答模型的步驟,包括:獲取所述第二問答語料庫;提取所述第二問答語料庫中各問答語料對的語義特征和非語義特征,確定所述問答語料對中問題語料和答案語料的語義特征的相似度以及所述問題語料和答案語料的非語義特征的相似度;基于所述語義特征的相似度和所述非語義特征的相似度,訓(xùn)練得到所述問答模型。
在一些實施例中,所述方法還包括:獲取所述第二語料庫中的各問題語料和與之對應(yīng)的答案語料,隨機生成新的問答語料對,并將所述新的問答語料對組成第三問答語料庫。
在一些實施例中,所述提取所述第二問答語料庫中各問答語料對的語義特征和非語義特征,確定所述問答語料對中問題語料和答案語料的語義特征的相似度以及所述問題語料和答案語料的非語義特征的相似度,包括:確定所述語義特征的相似度和非語義特征的相似度的步驟,包括:獲取第一問答語料對的第一問題語料和第一答案語料,其中,所述第一問答語料對為所述第二問答語料庫或所述第三問答語料庫中的任一問答語料對;確定所述第一問題語料和所述第一答案語料中的最長公共子串的長度值作為第一相似度;確定所述第一問題語料和所述第一答案語料的字面相似度作為第二相似度;確定所述第一問題語料和所述第一答案語料的n-gram的匹配度作為第三相似度;確定所述第一問題語料的詞向量和所述第一答案語料的詞向量的夾角作為第四相似度;確定所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量的相似度作為第五相似度;其中,所述第一 相似度、所述第二相似度和所述第三相似度為所述第一問題語料與所述第一答案語料的非語義特征的相似度,所述第四相似度和所述第五相似度為所述第一問題語料與所述第一答案語料的語義特征的相似度;基于所述確定所述語義特征的相似度和非語義特征的相似度的步驟,確定所述第二問答語料庫和第三問答語料庫中的各第一問答語料對中第一問題語料和第一答案語料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度。
在一些實施例中,所述確定所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量的相似度作為第五相似度,包括:根據(jù)所述第二問答語料庫和/或第三問答語料庫中各所述問答語料對的問題語料對應(yīng)的主題和答案語料對應(yīng)的主題,生成主題分析模型,其中,所述主題分析模型用于將任意一個問題語料或任意一個答案語料轉(zhuǎn)換成所述問題語料或所述答案語料的主題特征向量;將所述第一問題和所述第一答案輸入主題分析模型得到對應(yīng)的所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量;將所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量的相似度作為第五相似度。
第二方面,本申請?zhí)峁┝艘环N人機智能問答裝置,所述裝置包括:咨詢問題接收模塊,配置用于接收用戶輸入的咨詢問題,其中,所述咨詢問題由文字構(gòu)成;相關(guān)度獲取模塊,配置用于將所述咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取所述咨詢問題與第一問答語料庫中各答案語料的相關(guān)度,其中,所述問答模型用于確定所述咨詢問題與答案語料的相關(guān)度;答案語料發(fā)送模塊,配置用于將所述第一問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給所述用戶。
在一些實施例中,所述裝置還包括:第一問答語料庫組成模塊,配置用于獲取第二問答語料庫,其中,所述第二問答語料庫包括多個問答語料對,各所述問答語料對由對應(yīng)的問題語料和答案語料組成;基于所述咨詢問題與所述第二問答語料庫中各問題語料的相關(guān)度,對所述第二問答語料庫中的各問答語料對進行排序;根據(jù)所述排序,選取預(yù)設(shè)數(shù)量的問題語料,并將所述問題語料和與之對應(yīng)的答案語料組 成所述第一問答語料庫。
在一些實施例中,所述裝置還包括:問答模型建立模塊,配置用于建立問答模型,包括:第二問答語料庫獲取單元,配置用于獲取所述第二問答語料庫;相似度確定單元,配置用于提取所述第二問答語料庫中各問答語料對的語義特征和非語義特征,確定所述問答語料對中問題語料和答案語料的語義特征的相似度以及所述問題語料和答案語料的非語義特征的相似度;問答模型訓(xùn)練單元,配置用于基于所述語義特征的相似度和所述非語義特征的相似度,訓(xùn)練得到所述問答模型。
在一些實施例中,所述裝置還包括:第三問答語料庫組成模塊,配置用于獲取所述第二語料庫中的各問題語料和與之對應(yīng)的答案語料,隨機生成新的問答語料對,并將所述新的問答語料對組成第三問答語料庫。
在一些實施例中,所述相似度確定單元配置具體用于:確定所述語義特征的相似度和非語義特征的相似度的步驟,包括:獲取第一問答語料對的第一問題語料和第一答案語料,其中,所述第一問答語料對為所述第二問答語料庫或所述第三問答語料庫中的任一問答語料對;確定所述第一問題語料和所述第一答案語料中的最長公共子串的長度值作為第一相似度;確定所述第一問題語料和所述第一答案語料的字面相似度作為第二相似度;確定所述第一問題語料和所述第一答案語料的n-gram的匹配度作為第三相似度;確定所述第一問題語料的詞向量和所述第一答案語料的詞向量的夾角作為第四相似度;確定所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量的相似度作為第五相似度;其中,所述第一相似度、所述第二相似度和所述第三相似度為所述第一問題語料與所述第一答案語料的非語義特征的相似度,所述第四相似度和所述第五相似度為所述第一問題語料與所述第一答案語料的語義特征的相似度;基于所述確定所述語義特征的相似度和非語義特征的相似度的步驟,確定所述第二問答語料庫和第三問答語料庫中的各第一問答語料對中第一問題語料和第一答案語料的第一相似度、第二相似度、第三相似度、第四相似度和第 五相似度。
在一些實施例中,所述相似度確定單元配置進一步用于:根據(jù)所述第二問答語料庫和/或第三問答語料庫中各所述問答語料對的問題語料對應(yīng)的主題和答案語料對應(yīng)的主題,生成主題分析模型,其中,所述主題分析模型用于將任意一個問題語料或任意一個答案語料轉(zhuǎn)換成所述問題語料或所述答案語料的主題特征向量;將所述第一問題和所述第一答案輸入主題分析模型得到對應(yīng)的所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量;將所述第一問題語料的主題特征向量和所述第一答案語料的主題特征向量的相似度作為第五相似度。
本申請?zhí)峁┑娜藱C智能問答方法和裝置,首先接收用戶輸入的咨詢問題,之后將所述咨詢問題輸入預(yù)先訓(xùn)練的問答模型,以獲取該咨詢問題與第一問答語料庫中的各答案語料的相關(guān)度,最后將具有最大相關(guān)度的答案語料發(fā)送給用戶,所述方法通過計算咨詢問題與答案語料的相關(guān)度提高了人機智能問答的準(zhǔn)確率。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優(yōu)點將會變得更明顯:
圖1是本申請可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
圖2是根據(jù)本申請的人機智能問答方法的一個實施例的流程圖;
圖3是根據(jù)本申請的人機智能問答方法中,獲得預(yù)先訓(xùn)練的問答模型的一種實現(xiàn)方式的示意性流程圖;
圖4是根據(jù)本申請的人機智能問答方法的又一個實施例的流程圖;
圖5是根據(jù)本申請的人機智能問答裝置的一個實施例的結(jié)構(gòu)示意圖;
圖6是適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)的結(jié)構(gòu)示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本申請作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋相關(guān)發(fā)明,而非對該發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。下面將參考附圖并結(jié)合實施例來詳細說明本申請。
圖1示出了可以應(yīng)用本申請的人機智能問答方法或人機智能問答裝置的實施例的示例性系統(tǒng)架構(gòu)100。
如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
用戶可以使用終端設(shè)備101、102、103通過網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如即時通信軟件、購物類應(yīng)用、搜索類應(yīng)用、網(wǎng)頁瀏覽器應(yīng)用、社交平臺軟件等。
終端設(shè)備101、102、103可以是具有顯示屏并且支持人機智能問答的各種電子設(shè)備,包括但不限于智能手機、平板電腦、電子書閱讀器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面3)、mp4(movingpictureexpertsgroupaudiolayeriv,動態(tài)影像專家壓縮標(biāo)準(zhǔn)音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。
服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對終端設(shè)備101、102、103發(fā)送的咨詢問題提供支持的后臺服務(wù)器。后臺服務(wù)器可以對接收到的咨詢問題等數(shù)據(jù)進行統(tǒng)計、分析等處理,并將處理結(jié)果反饋給終端設(shè)備。
需要說明的是,本申請實施例所提供的人機智能問答方法一般由服務(wù)器105執(zhí)行,相應(yīng)地,人機智能問答裝置一般設(shè)置于服務(wù)器105 中。
應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
繼續(xù)參考圖2,其示出了根據(jù)本申請的人機智能問答方法的一個實施例的流程200。所述的人機智能問答方法,包括以下步驟:
步驟201,接收用戶輸入的咨詢問題。
在本實施例中,人機智能問答方法運行于其上的電子設(shè)備(例如圖1所示的服務(wù)器)可以通過有線連接方式或者無線連接方式從用戶利用其進行人機智能問答的終端接收用戶輸入的咨詢問題。這里,用戶輸入的咨詢問題通常是由文字構(gòu)成的,例如漢字、標(biāo)點、數(shù)字等。需要指出的是,上述無線連接方式可以包括但不限于3g/4g連接、wifi連接、藍牙連接、wimax連接、zigbee連接、uwb(ultrawideband)連接、以及其他現(xiàn)在已知或?qū)黹_發(fā)的無線連接方式。
步驟202,將咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取該咨詢問題與第一問答語料庫中各答案語料的相關(guān)度。
在本實施例中,上述人機智能問答方法運行于其上的電子設(shè)備可以預(yù)先獲取第一問答語料庫,該第一問答語料庫至少包括多個答案語料。并且上述電子設(shè)備還可以預(yù)先訓(xùn)練一個問答模型,該問答模型用于確定用戶輸入的咨詢問題與上述第一問答語料庫中的各答案語料的相關(guān)度。基于步驟201接收到的用戶輸入的咨詢問題,上述電子設(shè)備將該咨詢問題輸入上述問答模型,獲取該咨詢問題與上述第一問答語料庫中的各答案語料的相關(guān)度。
在本實施例中,上述咨詢問題與答案語料的相關(guān)度可以用多種形式表示,包括但不限于百分比形式或數(shù)值大小的形式等,然后,按相關(guān)度由大到小的順序?qū)ι鲜鱿嚓P(guān)度進行排序,以便于根據(jù)預(yù)先設(shè)置的規(guī)則選取最終需要的答案語料。需要說明的是,這里可以用上述咨詢問題與答案語料的語義相似度表征兩者之間的相關(guān)度,還可以用上述咨詢問題與答案語料的非語義相似度表征兩者之間的相關(guān)度,或者將上述咨詢問題與答案語料的語義相似度和非語義相似度相融合后表征兩者之間的相關(guān)度。
步驟203,將第一問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給用戶。
在本實施例中,基于步驟202獲得的上述咨詢問題與第一語料庫中各答案語料的相關(guān)度,人機智能問答方法運行與其上的電子設(shè)備可以在上述相關(guān)度中確定最大相關(guān)度,而后獲取該最大相關(guān)度對應(yīng)的答案語料,此時可以認為該答案語料是上述第一問答語料庫中最能準(zhǔn)確回答用戶輸入的咨詢問題的答案語料。
本申請的上述實施例提供的人機智能問答方法,首先接收用戶輸入的咨詢問題,之后將該咨詢問題輸入預(yù)先訓(xùn)練的問答模型以獲取該咨詢問題與第一問答語料庫中的各答案語料的相關(guān)度,最后將具有最大相關(guān)度的答案語料發(fā)送給用戶,該人機智能問答方法通過計算咨詢問題與答案語料的相關(guān)度提高了人機智能問答的準(zhǔn)確率。
在一些可選的方案中,步驟202中用到的預(yù)先訓(xùn)練的問答模型可以通過如圖3所示的流程300來建立。
步驟301,獲取第二問答語料庫。
通常,在人機智能問答系統(tǒng)中,當(dāng)用戶輸入一個咨詢問題后,人機智能問答系統(tǒng)會反饋一個答案,形成一問一答的問答語料對。因此,在本實現(xiàn)方式中,人機智能問答方法運行于其上的電子設(shè)備可以從歷史的人機問答數(shù)據(jù)中獲取上述一問一答的問答語料對組成第二問答語料庫。這里的第二問答語料庫中可以包括多個問答語料對,各問答語料對由對應(yīng)的問題語料和答案語料組成。以電商領(lǐng)域的問答系統(tǒng)的問答數(shù)據(jù)為例,其可以選取一問一答的離線數(shù)據(jù)組成上述第二問答語料庫,而不能選取一問多答或多問一答線咨詢數(shù)據(jù)。通過此方式選取的問答數(shù)據(jù)不需要再做問答對的處理,可以直接使用。
需要說明的是,上述直接獲取的第二問答語料可能會包含很多類似“感謝您的支持”、“祝您購物愉快”等的無用信息,這會影響訓(xùn)練的問答模型的效果。因此,上述電子設(shè)備還可以對上述第二問答語料庫中的問答語料進行數(shù)據(jù)清洗,以將上述無用信息刪除。
步驟302,提取第二問答語料庫中各問答語料對的語義特征和非語義特征,確定問答語料對中問題語料和答案語料的語義特征的相似 度以及問題語料和答案語料的非語義特征的相似度。
在本實現(xiàn)方式中,基于步驟301獲取的第二問答語料庫,上述電子設(shè)備可以獲取上述第二問答語料庫中的各問答語料對,之后可以進一步獲取上述各問答語料對的語義特征和非語義特征,以通過各種手段獲取各問答語料對中問題語料和答案語料的語義特征的相似度以及問題語料和答案語料的非語義特征的相似度。
在本實施例的一些可選的實現(xiàn)方式中,上述電子設(shè)備可以獲取上述第二語料庫中的各問題語料和與之對應(yīng)的答案語料,用于隨機生成新的問答語料對,并將生成的新的問答語料對組成第三問答語料庫。可以理解的是,上述第二問答語料庫中的各問答語料對中的答案語料是對應(yīng)問題語料的相關(guān)回答,即可以認為是正例,而上述生成的第三問答語料庫中隨機組成的問答語料對的答案語料和與之對應(yīng)的問題語料通常是無關(guān)回答,即可以認為是負例。上述第二問答語料庫和第三問答語料庫都可以用于訓(xùn)練上述問答模型。
通常,上述電子設(shè)備可以從字面相似度、主題相似度等多個方面確定問答語料對中問題語料和答案語料的語義特征相似度和非語義特征相似度。因此,在本實現(xiàn)方式中可以通過如下步驟確定上述問答語料對中的問題語料和答案語料的語義特征相似度和非語義特征相似度:首先,上述電子設(shè)備可以獲取第一問答語料對的第一問題語料和第一答案語料,這里的第一問答語料對為上述第二問答語料庫或第三問答語料庫中的任一問答語料對;其次,上述電子設(shè)備可以確定上述第一問題語料和第一答案語料中的最長公共子串的長度值,將該長度值作為上述第一問題語料和第一答案語料的第一相似度,該第一相似度為第一問題語料和第一答案語料的非語義特征的相似度;之后,上述電子設(shè)備可以繼續(xù)確定上述第一問題語料和第一答案語料的字面相似度作為上述第一問題語料和第一答案語料的第二相似度,該第二相似度為第一問題語料和第一答案語料的非語義特征的相似度;而后,上述電子設(shè)備可以確定上述第一問題語料和第一答案語料的n-gram的匹配度作為上述第一問題語料和第一答案語料的第三相似度,該第三相似度為第一問題語料和第一答案語料的非語義特征的相似度;再 者,上述電子設(shè)備還可以通過神經(jīng)網(wǎng)絡(luò)等方法確定上述第一問題語料的詞向量和第一答案語料的詞向量,再計算第一問題語料的詞向量和第一答案語料的詞向量之間的向量夾角作為上述第一問題語料和第一答案語料的第四相似度,該第四相似度為第一問題語料和第一答案語料的語義特征的相似度;最后,上述電子設(shè)備還可以確定上述第一問題語料的主題特征向量和第一答案語料的主題特征向量,計算兩者之間的向量夾角作為上述第一問題語料和第一答案語料的第五相似度,該第五相似度為第一問題語料和第一答案語料的語義特征的相似度。
在本實現(xiàn)方式中,上述電子設(shè)備可以采用上述步驟確定上述第二問答語料庫和第三問答語料庫中的各問答語料對中問題語料和答案語料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度,作為各問答語料對的語義特征相似度和非語義特征相似度。
在本實現(xiàn)方式中,上述電子設(shè)備可以根據(jù)上述第二問答語料庫和/或第三問答語料庫中各問答語料對的問題語料對應(yīng)的主題和答案語料對應(yīng)的主題,生成主題分析模型。這里的主題分析模型可以用于將任意一個問題語料或任意一個答案語料轉(zhuǎn)換成上述問題語料或答案語料的主題特征向量。之后,上述電子設(shè)備可以將上述第一問題和第一答案輸入上述主題分析模型得到對應(yīng)的第一問題語料的主題特征向量和第一答案語料的主題特征向量。最后,上述電子設(shè)備可以確定上述第一問題語料的主題特征向量和第一答案語料的主題特征向量的相似度,該相似度即為上述第五相似度。
需要說明的是,確定問題語料和答案語料的語義特征相似度和非語義特征相似度的方法不限于此,本領(lǐng)域技術(shù)人員可以采用其它的方式確定上述語義特征相似度和非語義特征相似度,這是目前廣泛研究和應(yīng)用的公知技術(shù),在此不再贅述。
步驟303,基于語義特征的相似度和非語義特征的相似度,訓(xùn)練得到問答模型。
在本實現(xiàn)方式中,基于步驟302獲取的第二問答語料庫和第三問答語料庫中的各問答語料對的問題語料和答案語料的語義特征的相似度和非語義特征的相似度,上述電子設(shè)備可以采用線性回歸算法等訓(xùn) 練上述各語義特征的相似度和非語義特征的相似度生成上述問答模型。這里的問答模型可以是形如y=f(x1,x2,x3...xn)的公式,其中,x1,x2,x3…xn分別指上述語義特征的相似度和/或非語義特征的相似度。
本申請的上述實施例的實現(xiàn)方式提供的問答模型的訓(xùn)練步驟,通過獲取第二問答語料庫和第三問答語料庫中各問答語料對的問題語料和答案語料的多個語義特征的相似度和非語義特征的相似度,采用線性回歸算法等訓(xùn)練上述語義特征的相似度和非語義特征的相似度生成問答模型,該模型可以準(zhǔn)確地計算出用戶輸入咨詢問題與各答案語料的相關(guān)度,提高了人機智能問答的準(zhǔn)確率。
進一步參考圖4,其示出了人機智能問答方法的又一個實施例的流程400。該人機智能問答方法的流程400,包括以下步驟:
步驟401,接收用戶輸入的咨詢問題。
在本實施例中,人機智能問答方法運行于其上的電子設(shè)備(例如圖1所示的服務(wù)器)可以通過有線連接方式或者無線連接方式從用戶利用其進行人機智能問答的終端接收用戶輸入的咨詢問題。這里,用戶輸入的咨詢問題通常是由文字構(gòu)成的,例如漢字、標(biāo)點、數(shù)字等。
步驟402,獲取第二問答語料庫。
在本實施例中,上述電子設(shè)備可以從歷史的人機問答數(shù)據(jù)中獲取一問一答的問答語料對組成第二問答語料庫。這里的第二問答語料庫中可以包括多個問答語料對,各問答語料對由對應(yīng)的問題語料和答案語料組成。以電商領(lǐng)域的問答系統(tǒng)的問答數(shù)據(jù)為例,其可以選取一問一答的離線數(shù)據(jù)組成上述第二問答語料庫,而不能選取一問多答或多問一答線咨詢數(shù)據(jù)。通過此方式選取的問答數(shù)據(jù)不需要再做問答對的處理,可以直接使用。步驟403,基于咨詢問題與第二問答語料庫中各問題語料的相關(guān)度,對第二問答語料庫中的各問答語料對進行排序。
在本實施例中,上述電子設(shè)備可以利用輕量級算法獲取上述咨詢問題與第二問答語料庫中各問題語料的相關(guān)度,之后可以根據(jù)相關(guān)度從大到小的順序?qū)⒌诙柎鹫Z料庫中的各問答語料對進行初步排序。
在本實施例的一些可選的實現(xiàn)方式中,上述輕量級算法可以是例如lucene的排序算法等,此種算法比較簡單、準(zhǔn)確率較低,但是計算 速度快。因此,這里可以采用上述算法對第二問答語料庫中的各問答語料對按照從大到小的順序進行進行初步排序,之后,再選取出排序靠前的多個問答語料對進行進一步的相關(guān)度計算。
步驟404,根據(jù)排序,選取預(yù)設(shè)數(shù)量的問題語料,并將該問題語料和與之對應(yīng)的答案語料組成第一問答語料庫。
在本實施例中,基于步驟404中對上述第二問答語料庫中各問答語料的排序,上述電子設(shè)備可以選取排序靠前的預(yù)設(shè)數(shù)量的問答語料對組成上述第一問答語料庫。該第一問答語料庫用于下一步精確計算上述咨詢問題與答案語料的相關(guān)度。
步驟405,將咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取該咨詢問題與第一問答語料庫中各答案語料的相關(guān)度。
在本實施例中,基于步驟404獲取的第一問答語料庫,上述電子設(shè)備將接收到的用戶輸入的咨詢問題輸入上述問答模型,獲取該咨詢問題與第一問答語料庫中的各答案語料的相關(guān)度。
步驟406,將第一問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給用戶。
在本實施例中,基于步驟405獲得的上述咨詢問題與第一語料庫中各答案語料的相關(guān)度,人機智能問答方法運行與其上的電子設(shè)備可以在上述相關(guān)度中確定最大相關(guān)度,而后獲取該最大相關(guān)度對應(yīng)的答案語料,此時可以認為該答案語料是上述第一問答語料庫中最能準(zhǔn)確回答用戶輸入的咨詢問題的答案語料。
從圖4中可以看出,與圖2對應(yīng)的實施例相比,本實施例中的人機智能問答方法的流程400突出了獲取第一問答語料庫的步驟。本實施例描述的方案可以獲取與咨詢問題具有較大的相關(guān)性的預(yù)設(shè)數(shù)量問答語料對組成的第一問答語料庫,從而可以在保證人機智能問答準(zhǔn)確率的同時進一步提高問答模型的運算速率。
進一步參考圖5,作為對上述各圖所示方法的實現(xiàn),本申請?zhí)峁┝艘环N人機智能問答裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應(yīng),該裝置具體可以應(yīng)用于各種電子設(shè)備中。
如圖5所示,本實施例所述的人機智能問答裝置500包括:咨詢 問題接收模塊501、相關(guān)度獲取模塊502和答案語料發(fā)送模塊503。其中,咨詢問題接收模塊501配置用于接收用戶輸入的咨詢問題,其中,該咨詢問題由文字構(gòu)成;相關(guān)度獲取模塊502配置用于將上述咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取咨詢問題與第一問答語料庫中各答案語料的相關(guān)度,其中,上述問答模型用于確定上述咨詢問題與答案語料的相關(guān)度;答案語料發(fā)送模塊503配置用于將上述第一問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給上述用戶。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置500還包括第一問答語料庫組成模塊(未示出),配置用于獲取第二問答語料庫,其中,上述第二問答語料庫包括多個問答語料對,各問答語料對由對應(yīng)的問題語料和答案語料組成;基于上述咨詢問題與上述第二問答語料庫中各問題語料的相關(guān)度,對該第二問答語料庫中的各問答語料對進行排序;根據(jù)上述排序,選取預(yù)設(shè)數(shù)量的問題語料,并將該問題語料和與之對應(yīng)的答案語料組成上述第一問答語料庫。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置500還包括問答模型建立模塊(未示出),配置用于建立問答模型,包括:第二問答語料庫獲取單元(未示出),配置用于獲取上述第二問答語料庫;相似度確定單元(未示出),配置用于提取上述第二問答語料庫中各問答語料對的語義特征和非語義特征,確定問答語料對中問題語料和答案語料的語義特征的相似度以及問題語料和答案語料的非語義特征的相似度;問答模型訓(xùn)練單元(未示出),配置用于基于上述語義特征的相似度和非語義特征的相似度,訓(xùn)練得到上述問答模型。
在本實施例的一些可選的實現(xiàn)方式中,上述裝置500還包括:第三問答語料庫組成模塊(未示出),配置用于獲取上述第二語料庫中的各問題語料和與之對應(yīng)的答案語料,隨機生成新的問答語料對,并將新的問答語料對組成第三問答語料庫。
在本實施例的一些可選的實現(xiàn)方式中,上述相似度確定單元(未示出)配置具體用于:確定上述語義特征的相似度和非語義特征的相似度的步驟,包括:獲取第一問答語料對的第一問題語料和第一答案語料,其中,第一問答語料對為上述第二問答語料庫或第三問答語料 庫中的任一問答語料對;確定上述第一問題語料和第一答案語料中的最長公共子串的長度值作為第一相似度;確定上述第一問題語料和第一答案語料的字面相似度作為第二相似度;確定上述第一問題語料和第一答案語料的n-gram的匹配度作為第三相似度;確定上述第一問題語料的詞向量和第一答案語料的詞向量的夾角作為第四相似度;確定上述第一問題語料的主題特征向量和第一答案語料的主題特征向量的相似度作為第五相似度;其中,上述第一相似度、第二相似度和第三相似度為第一問題語料與第一答案語料的非語義特征的相似度,上述第四相似度和第五相似度為第一問題語料與第一答案語料的語義特征的相似度;基于上述確定語義特征的相似度和非語義特征的相似度的步驟,確定上述第二問答語料庫和第三問答語料庫中的各第一問答語料對中第一問題語料和第一答案語料的第一相似度、第二相似度、第三相似度、第四相似度和第五相似度。
在本實施例的一些可選的實現(xiàn)方式中,上述相似度確定單元(未示出)配置進一步用于:根據(jù)上述第二問答語料庫和/或第三問答語料庫中各問答語料對的問題語料對應(yīng)的主題和答案語料對應(yīng)的主題,生成主題分析模型,其中,主題分析模型用于將任意一個問題語料或任意一個答案語料轉(zhuǎn)換成該問題語料或答案語料的主題特征向量;將上述第一問題和第一答案輸入主題分析模型得到對應(yīng)的第一問題語料的主題特征向量和第一答案語料的主題特征向量;將該第一問題語料的主題特征向量和第一答案語料的主題特征向量的相似度作為第五相似度。
本領(lǐng)域技術(shù)人員可以理解,上述人機智能問答裝置500還包括一些其他公知結(jié)構(gòu),例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結(jié)構(gòu)在圖5中未示出。
下面參考圖6,其示出了適于用來實現(xiàn)本申請實施例的終端設(shè)備或服務(wù)器的計算機系統(tǒng)600的結(jié)構(gòu)示意圖。
如圖6所示,計算機系統(tǒng)600包括中央處理單元(cpu)601,其可以根據(jù)存儲在只讀存儲器(rom)602中的程序或者從存儲部分608加載到隨機訪問存儲器(ram)603中的程序而執(zhí)行各種適當(dāng)?shù)膭幼? 和處理。在ram603中,還存儲有系統(tǒng)600操作所需的各種程序和數(shù)據(jù)。cpu601、rom602以及ram603通過總線604彼此相連。輸入/輸出(i/o)接口605也連接至總線604。
以下部件連接至i/o接口605:包括鍵盤、鼠標(biāo)等的輸入部分606;包括諸如陰極射線管(crt)、液晶顯示器(lcd)等以及揚聲器等的輸出部分607;包括硬盤等的存儲部分608;以及包括諸如lan卡、調(diào)制解調(diào)器等的網(wǎng)絡(luò)接口卡的通信部分609。通信部分609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。驅(qū)動器610也根據(jù)需要連接至i/o接口605??刹鹦督橘|(zhì)611,諸如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等,根據(jù)需要安裝在驅(qū)動器610上,以便于從其上讀出的計算機程序根據(jù)需要被安裝入存儲部分608。
特別地,根據(jù)本公開的實施例,上文參考流程圖描述的過程可以被實現(xiàn)為計算機軟件程序。例如,本公開的實施例包括一種計算機程序產(chǎn)品,其包括有形地包含在機器可讀介質(zhì)上的計算機程序,所述計算機程序包含用于執(zhí)行流程圖所示的方法的程序代碼。在這樣的實施例中,該計算機程序可以通過通信部分609從網(wǎng)絡(luò)上被下載和安裝,和/或從可拆卸介質(zhì)611被安裝。
附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統(tǒng)、方法和計算機程序產(chǎn)品的可能實現(xiàn)的體系架構(gòu)、功能和操作。在這點上,流程圖或框圖中的每個方框可以代表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個用于實現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個接連地表示的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來實現(xiàn),或者可以用專用硬件與計算機指令的組合來實現(xiàn)。
描述于本申請實施例中所涉及到的模塊可以通過軟件的方式實現(xiàn),也可以通過硬件的方式來實現(xiàn)。所描述的模塊也可以設(shè)置在處理 器中,例如,可以描述為:一種處理器包括咨詢問題接收模塊、相關(guān)度獲取模塊和答案語料發(fā)送模塊。其中,這些模塊的名稱在某種情況下并不構(gòu)成對該模塊本身的限定,例如,咨詢問題接收模塊還可以被描述為“接收用戶輸入的咨詢問題的模塊”。
作為另一方面,本申請還提供了一種非易失性計算機存儲介質(zhì),該非易失性計算機存儲介質(zhì)可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質(zhì);也可以是單獨存在,未裝配入終端中的非易失性計算機存儲介質(zhì)。上述非易失性計算機存儲介質(zhì)存儲有一個或者多個程序,當(dāng)所述一個或者多個程序被一個設(shè)備執(zhí)行時,使得所述設(shè)備:接收用戶輸入的咨詢問題,其中,所述咨詢問題由文字構(gòu)成;將所述咨詢問題輸入預(yù)先訓(xùn)練的問答模型獲取所述咨詢問題與第一問答語料庫中各答案語料的相關(guān)度,其中,所述問答模型用于確定所述咨詢問題與答案語料的相關(guān)度;將所述問答語料庫中具有最大相關(guān)度的答案語料發(fā)送給所述用戶。
以上描述僅為本申請的較佳實施例以及對所運用技術(shù)原理的說明。本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,本申請中所涉及的發(fā)明范圍,并不限于上述技術(shù)特征的特定組合而成的技術(shù)方案,同時也應(yīng)涵蓋在不脫離所述發(fā)明構(gòu)思的情況下,由上述技術(shù)特征或其等同特征進行任意組合而形成的其它技術(shù)方案。例如上述特征與本申請中公開的(但不限于)具有類似功能的技術(shù)特征進行互相替換而形成的技術(shù)方案。