本發(fā)明屬于計算機(jī)自然語言處理技術(shù)領(lǐng)域,更具體的說,本發(fā)明涉及一種實(shí)現(xiàn)智能問答的系統(tǒng)及方法。
背景技術(shù):
隨著計算機(jī)自然語言技術(shù)的發(fā)展,智能問答系統(tǒng)開始受到極大的關(guān)注,一般的,智能問答系統(tǒng)以一問一答形式,精確的定位用戶所需要的提問知識,通過與用戶進(jìn)行交互,為用戶提供個性化的信息服務(wù)。當(dāng)用戶提出問題時,系統(tǒng)不僅將問題答案推送出來,而且會將與這個問題相關(guān)的知識也都推送出來供用戶查詢,這樣就做到了一次提問全面掌握所有信息。
現(xiàn)有智能問答系統(tǒng)以自然語言句子提問,系統(tǒng)分析并理解用戶的問題,返回用戶想要的答案。系統(tǒng)能給用戶提供更加精確的信息服務(wù),用戶不需要閱讀搜索引擎返回的文檔列表去查找答案,從而提高了效率。但現(xiàn)有的智能問答系統(tǒng)采用用戶輸入的文本信息進(jìn)行交互,用戶提出的問題和系統(tǒng)返回的答案呈現(xiàn)模式都是文本信息,而隨著互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的快速發(fā)展,對智能問答系統(tǒng)的直觀性和豐富性上提出了更高的要求,現(xiàn)有基于文本信息的智能問答系統(tǒng)已無法滿足上述需求,用戶問答的體驗較差,智能化不夠。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明解決的技術(shù)問題在于提供一種實(shí)現(xiàn)智能問答的系統(tǒng)及方法,可以提高用戶信息查詢的豐富性,提高用戶問答的體驗,使問答系統(tǒng)更加智能化。
為解決上述技術(shù)問題,本發(fā)明采用如下技術(shù)方案:
一種實(shí)現(xiàn)智能問答的系統(tǒng),其包括:
多模態(tài)信息接收模塊,用于接收用戶輸入的多模態(tài)信息問題,其中所述多模態(tài)信息包括文本信息、圖片信息、文本+圖片信息、文本+視頻信息、文本+圖片+視頻信息;
映射模塊,用于將所述多模態(tài)信息接收模塊接收到的多模態(tài)信息問題映射為相應(yīng)的向量空間;
答復(fù)生成模塊,用于對所述映射模塊映射得到的向量空間進(jìn)行轉(zhuǎn)換分析后獲取對應(yīng)該多模態(tài)信息問題的答復(fù)。
其中,所述多模態(tài)信息若為文本信息,所述映射模塊包括文本映射模塊,用于根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)將所述文本信息映射為文本向量空間。
其中,所述多模態(tài)信息若為圖片信息,所述映射模塊包括圖片映射模塊,用于根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片信息映射為圖片向量空間。
其中,所述多模態(tài)信息若為視頻信息,所述映射模塊包括視頻映射模塊,用于將所述視頻信息轉(zhuǎn)換為圖像序列,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片序列進(jìn)行圖像向量空間映射,然后進(jìn)一步按照循環(huán)神經(jīng)網(wǎng)絡(luò)將序列化連續(xù)的圖像向量空間映射為視頻向量空間。
其中,所述答復(fù)包括響應(yīng)用戶輸入問題的答案或響應(yīng)用戶輸入問題的處理指令。
另外,根據(jù)本發(fā)明的另一方面,一種實(shí)現(xiàn)智能問答的方法,其包括:
接收用戶輸入的多模態(tài)信息問題,其中所述多模態(tài)信息包括文本信息、圖片信息、文本+圖片信息、文本+視頻信息、文本+圖片+視頻信息;
將接收到的多模態(tài)信息問題映射為相應(yīng)的向量空間;
對映射得到的向量空間進(jìn)行轉(zhuǎn)換分析后獲取對應(yīng)該多模態(tài)信息問題的答復(fù)。
其中,所述多模態(tài)信息若為文本信息,根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)將所述文本信息映射為文本向量空間。
其中,所述多模態(tài)信息若為圖片信息,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片信息映射為圖片向量空間。
其中,所述多模態(tài)信息若為視頻信息,將所述視頻信息轉(zhuǎn)換為圖像序列,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片序列進(jìn)行圖像向量空間映射,然后進(jìn)一步按照循環(huán)神經(jīng)網(wǎng)絡(luò)將序列化連續(xù)的圖像向量空間映射為視頻向量空間。
其中,所述答復(fù)包括響應(yīng)用戶輸入問題的答案或響應(yīng)用戶輸入問題的處理指令。
本發(fā)明取得了以下技術(shù)效果:
本發(fā)明的實(shí)現(xiàn)智能問答的系統(tǒng)和方法中由于用戶可輸入多模態(tài)信息問題,而用戶輸入的多模態(tài)信息問題經(jīng)過映射處理為統(tǒng)一的向量空間,最后根據(jù)統(tǒng)一的向量空間進(jìn)行轉(zhuǎn)換分析后獲取對應(yīng)該多模態(tài)信息問題的精準(zhǔn)的答案,即本發(fā)明對于多模態(tài)信息,無論是文本、圖片,視頻及以上三種信息類型的任意組合均可統(tǒng)一進(jìn)行處理,具有并行分布處理、高度魯棒性和容錯能力、分布存儲及學(xué)習(xí)能力、能充分逼近復(fù)雜的非線性關(guān)系等突出特點(diǎn),從而使得智能問答系統(tǒng)具備針對多模態(tài)信息的統(tǒng)一計算和處理能力,可以提高用戶信息查詢的豐富性,提高了用戶問答的體驗,使問答系統(tǒng)更加智能化。
附圖說明
圖1是根據(jù)本發(fā)明實(shí)現(xiàn)智能問答的系統(tǒng)的一種具體實(shí)施例框圖;
圖2是根據(jù)圖1中映射模塊的一種具體實(shí)施例示意圖;
圖3是根據(jù)圖2中圖片映射模塊進(jìn)行映射的工作原理圖;
圖4是根據(jù)圖2中視頻映射模塊進(jìn)行映射的工作原理圖;
圖5是一個具體實(shí)施例中包括文字、圖片的一個多媒體信息問題的智能問題示意圖;
圖6是根據(jù)本發(fā)明實(shí)現(xiàn)智能問答的方法的一種具體實(shí)施例流程圖。
具體實(shí)施方式
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明作進(jìn)一步詳細(xì)的說明:
參考圖1,該圖為根據(jù)本發(fā)明實(shí)現(xiàn)智能問答的系統(tǒng)的一種具體實(shí)施例框圖,其包括:
多模態(tài)信息接收模塊1,用于接收用戶輸入的多模態(tài)信息問題,其中所述多模態(tài)信息包括文本信息、圖片信息、文本+圖片信息、文本+視頻信息、文本+圖片+視頻信息;
映射模塊2,用于將所述多模態(tài)信息接收模塊1接收到的多模態(tài)信息問題映射為相應(yīng)的向量空間;
答復(fù)生成模塊3,用于對所述映射模塊2映射得到的向量空間進(jìn)行轉(zhuǎn)換分析后獲取對應(yīng)該多模態(tài)信息問題的答復(fù),具體實(shí)現(xiàn)時,所述答復(fù)包括響應(yīng)用戶輸入問題的答案或響應(yīng)用戶輸入問題的處理指令或者其他答復(fù),這里不再贅述。
上述實(shí)施例中,由于用戶輸入的多模態(tài)信息問題可以是各種形式的,因此,映射模塊2對于不同的多模態(tài)信息也具有相應(yīng)的功能模塊并按照統(tǒng)一的架構(gòu)去執(zhí)行映射,參考圖2,例如,所述多模態(tài)信息若為文本信息,所述映射模塊2包括文本映射模塊21,用于根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)將所述文本信息映射為文本向量空間。
具體實(shí)現(xiàn)時,上述文本映射模塊21采用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN進(jìn)行句子向量表示,將文本信息映射為文本向量空間,即將詞映射到低維空間,例如,假設(shè)輸入句子為x={x1,x2,…xt..xN},且x1是詞,c(x1)表示詞向量,既將詞進(jìn)行了低維空間的映射,具體映射時,可采用如下的方式進(jìn)行映射,例如,映射采用如下公式:
fQ(t)=g(g(c(xt)WQ+fQ(t-1)WQh+b1)MQ+b2) (1)
其中WQ,Wqh,Mq為參數(shù)矩陣,b2為偏置項。
上式中t表示問句中詞的序列,t取值范圍為1…N?即利用循環(huán)神經(jīng)網(wǎng)絡(luò)RNN將句子表示為其最后一個輸出fq(N)。利用上面的模型,將文本問題映射到了一個低維的向量空間fq(N)。
另外,所述多模態(tài)信息若為圖片信息,所述映射模塊2可包括圖片映射模塊22,用于根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片信息映射為圖片向量空間。
具體實(shí)現(xiàn)時,上述圖片映射模塊22采用卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行圖像的特征提取和低維表示,通過對圖像進(jìn)行特征抽取,抽取的特征利用向量空間進(jìn)行表示,即將圖像映射為低維向量空間,具體映射時,可采用如下的方式進(jìn)行映射,例如,假設(shè)輸入的圖像為T∈RM×N,Tmn為圖像的像素點(diǎn),映射可采用如下公式:
sub(i)=∑k∑jTm+k,n+j×filter(k,j) (3)
fI=MaxPolling(sub) (4)
其中m,n,k,j表示像素的位置。
結(jié)合圖3,在上式中濾波器filter進(jìn)行特征提取,通過提取局部特征后進(jìn)行maxpolling進(jìn)行全局特征的提取,獲取圖像的低維表示。
另外,所述多模態(tài)信息若為視頻信息,所述映射模塊2包括視頻映射模塊23,用于將所述視頻信息轉(zhuǎn)換為圖像序列,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片序列進(jìn)行圖像向量空間映射,然后進(jìn)一步按照循環(huán)神經(jīng)網(wǎng)絡(luò)將序列化連續(xù)的圖像向量空間映射為視頻向量空間。
具體實(shí)現(xiàn)時,上述視頻映射模塊23對視頻進(jìn)行圖像序列化,然后通過卷積神經(jīng)網(wǎng)絡(luò)CNN進(jìn)行圖像空間映射,最后通過循環(huán)神經(jīng)網(wǎng)絡(luò)RNN進(jìn)行序列化連續(xù)的空間映射,即將視頻映射為低維向量空間,如圖4所示,具體映射時,例如,假設(shè)視頻為v,對應(yīng)的序列化的圖像為v(t),t為對應(yīng)的時刻,映射可采用如下公式:
fV(t)=g(g(fI(v(t))WV+fV(t-1)WVh+b1)MV+b2) (5)
其中Mv,Mvh,為參數(shù)矩陣,b2為偏置項。
上述具體實(shí)施例中,按照統(tǒng)一的架構(gòu)將文本信息、圖片信息和視頻信息進(jìn)行了空間映射,假設(shè)分別是fQfIfV,而假設(shè)最終生成的答案或指令為y={y1,y2,…yt..yN},t為答案對應(yīng)的序列,訓(xùn)練的目標(biāo)函數(shù)為:
E(t)=g(RQfQ+RIfI+RVfV+RVfA(t)) (6)
其中,
上式中β(xi)為SoftMax函數(shù),O(t)為目標(biāo)函數(shù)。其中RQ,Ri,Rv,為參數(shù)矩陣。
即當(dāng)答復(fù)生成模塊3進(jìn)行分析時,例如對于文本+圖片+視頻多種模態(tài)的組合方式進(jìn)行分析處理,首先將輸入的問題、圖片和視頻進(jìn)行空間映射,分別為fQfIfV三種向量形成的向量空間表示,然后將這三個向量空間輸入到答復(fù)生成模塊中,即會產(chǎn)生此問題對應(yīng)的文本答案或指令。
例如,參考圖5,若用戶輸入多模態(tài)信息的問題,答復(fù)生成模塊3會產(chǎn)生相應(yīng)的文本答案或指令,例如用戶輸入“狗嘴里含著什么+圖片(狗含著一支玫瑰)”,答復(fù)生成模塊3會產(chǎn)生“含著一支鮮紅的玫瑰”的答案,或者又如用戶輸入“有這個圖片相似的圖片有哪些?+圖片”,答復(fù)生成模塊3會產(chǎn)生“查詢相似圖片”的答復(fù),即產(chǎn)生一條指令。
另外,根據(jù)本發(fā)明的另一方面,參考圖6,本實(shí)施例一種實(shí)現(xiàn)智能問答的方法,主要包括:
步驟S101,接收用戶輸入的多模態(tài)信息問題,其中所述多模態(tài)信息包括文本信息、圖片信息、文本+圖片信息、文本+視頻信息、文本+圖片+視頻信息;
步驟S102,將接收到的多模態(tài)信息問題映射為相應(yīng)的向量空間,具體實(shí)現(xiàn)時,所述多模態(tài)信息若為文本信息,可根據(jù)循環(huán)神經(jīng)網(wǎng)絡(luò)將所述文本信息映射為文本向量空間,而所述多模態(tài)信息若為圖片信息,則可根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片信息映射為圖片向量空間;所述多模態(tài)信息若為視頻信息,則可將所述視頻信息轉(zhuǎn)換為圖像序列,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)將所述圖片序列進(jìn)行圖像向量空間映射,然后進(jìn)一步按照循環(huán)神經(jīng)網(wǎng)絡(luò)將序列化連續(xù)的圖像向量空間映射為視頻向量空間,其中對于文本信息、圖片信息以及視頻信息的具體映射方式可參考前述說明,這里不再贅述。
步驟S103,對映射得到的向量空間進(jìn)行轉(zhuǎn)換分析后獲取對應(yīng)該多模態(tài)信息問題的答復(fù),例如,所述答復(fù)包括響應(yīng)用戶輸入問題的答案或響應(yīng)用戶輸入問題的處理指令或其他答復(fù),這里不再贅述。
以上對本發(fā)明實(shí)施例所提供的技術(shù)方案進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本發(fā)明實(shí)施例的原理以及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只適用于幫助理解本發(fā)明實(shí)施例的原理;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明實(shí)施例,在具體實(shí)施方式以及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。